JP3652086B2 - Speed reading support device - Google Patents
Speed reading support device Download PDFInfo
- Publication number
- JP3652086B2 JP3652086B2 JP28930597A JP28930597A JP3652086B2 JP 3652086 B2 JP3652086 B2 JP 3652086B2 JP 28930597 A JP28930597 A JP 28930597A JP 28930597 A JP28930597 A JP 28930597A JP 3652086 B2 JP3652086 B2 JP 3652086B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- similarity
- predetermined value
- determined
- tfidf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、日本語文書処理全般にかかり,電子化文書の速読支援、また情報検索等のインターフェイスに利用される。
【0002】
【従来の技術】
従来、文章Sについての要約文の候補を計算機によって決める場合、文章S内の各文sについてその文sが要約文になる可能性を確率PあるいはTFIDFと呼ばれる尺度を使って計算し、文sに優先順位をつけ要約文の候補を決めるというが一般的である。例えば、Julian Kupiec, Jan Pedersen, and Francine Chen. 1995. “A Trainable Document Summarizer”In Proceedings of the Fourteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval、 pages 68-73, Seattle, USA.では(数1)の式を使って、文章S中におけるある文sが要約文として選ばれる確率Pを計算する。
P(s inX|F1,F2,F3,...Fk) (数1)
ここで、Xは要約文の集合、F1,F2,…,Fkは、文の長さ、手がかり語の有無、段落内の位置などの特徴を表わす。そして、(数1)の式に基づき、各文の要約文としての重要度を決定し、値の上位25パーセントにあたる文を文章の要約として、ユーザに提示する。
【0003】
一方、Klaus Zechner. 1996. “Fast Generation of Abstracts from General Domain Text Corpora by Extracting Relevant Sentences” In Proceedings of the 16th International Conference on Computational Linguistics、pages 986-989. Copenhagen, Denmark.では、TFIDFと呼ばれる方式で(数2)による尺度を計算して文sの重要度を決定する。
TFIDF(w,s)=TF(w,s)×log(N/n(w)) (数2)
ここでwは特定の文sに出現した単語、TF(w)はその文中での単語wの頻度、Nは文章Sにおける文sの総数、n(w)は単語wが出現した文sの総数である。また文sの重要度Q(s)は(数3)で定義する。
Q(s)=Σ TFIDF(w,s) (数3)
つまり、文sに現われた単語すべてについて、そのTFIDF値を求め、その総和を文sの重要度とする。そして、Q(s)の値が上位の文を要約候補として、ユーザに提示する。上記Zechnerの方法では、分野別に特化したチューニングができないため、一般に要約精度が悪い。
【0004】
【発明が解決しようとする課題】
これら従来方法では、要約文としての正当性の評価はさて置いても、選択された要約文をそれだけで単独表示するので、上位にあるいくつかの文が要約文として表示されても、選択された要約文それぞれは本来関係が無いから、それらの文の前後のつながりが悪くなり、非常に読みにくくなる。さらに、選択されたいくつかの文が単に羅列されるだけなので、元の文章の大意がつかみにくく、その文章がユーザにとって重要か否か判断する上で支障をきたす。
【0005】
本発明は上記した従来法の問題を解決することを目的とする。
【0006】
【課題を解決するための手段】
したがって、本発明では、入力された文章について、文章中の各文について所定のルールに従い特徴分析を行い、要約文か否かを決定し、要約文の場合は強調色、そうでない場合は、背景色でユーザに提示するとともに入力された文章の各段落、第一文を要約文とは異る強調色でユーザに提示する。
【0007】
【発明の実施の形態】
まず、要約文の選択方法として、よく知られたC4.5と呼ばれる決定木構成方法を利用する。 この方法に従うと、文はいくつかの特徴に基づいてコード化されることになる。 本発明では、まず文章S中の各文sを、(1)文章の型、(2)文章中の位置、(3)見出しとの類似度、(4)文章内TFIDF、 (5)態度表現の有無、(6)文の文字数、(7)段落内の位置、の特徴のそれぞれに基づきコード化する。
「文章の型」は、文章が報道記事、社説、随筆等のどの型に属するかを示す。
【0008】
「文章中の位置」は、文が文章全体の中でどの位置に現われているのか割合で示す。例えば、文章S中の文sの総数が10であり、当該文がその第一文目に現われているなら、その文の位置を0/10=0として表わす。
【0009】
「見出しとの類似度」は、以下の(数4)で決定する。
SIMM(t,s)=Σ NF(w,s)×IDF(w) (数4)
ここで、tは文章の見出し、sは文を表わす。t中に出現した名詞wについて、そのNF値とIDF値を求めて、その総和を見出しとの類似度とする。NF(w,s) は(数5)のように定義する。
NF(w,s)=F(w,s)/MAX_F(s) (数5)
ここで、F(w,s)はwのsにおける頻度、MAX_F(s)は文sに出現した名詞の内、頻度の最も高い名詞の頻度である。IDF(w)は(数6)のように定義される。
IDF(w)=log(N/DF(w))/logN (数6)
ここで、DF(w)はwが出現した文の総数。Nは文章Sの文sの総数である。
【0010】
「文章内TFIDF」は、(数7)で決定される値である。
D(s)=Σ NF(w,s)×IDF(w) (数7)
ここで、wは文sに出現した名詞。NF(w,s),IDF(w)は上記の定義に従う。
【0011】
「態度表現の有無」は、文の文末に著者の態度を示す表現があるかないかの情報を示すのに用いられる。ここで、著者の態度を示す表現としては、「〜重要だ」、「〜必要だ」、「〜か」、「〜よ」、「〜ね」等の表現を考える。
【0012】
「文の文字数」は、文sの文字数を示す。
【0013】
「段落内の位置」は、文sの段落内位置を上述の「文章中の位置」と同様に文sに先行する文の数/段落の文の総数で示す。
【0014】
決定木の構成は、文章の各文を、上記の属性について特徴化し、さらに分野別の要約判定情報付きデータを用いた学習というステップを経る。決定木の構成方法についてはQuinlan著「C4.5」に従う。決定木の構成方法C4.5はよく知られた方法であるが、概説すると下記のようである。
【0015】
C4.5ではデータベース・エントリーの分類をいかにモデル(一般)化するかというのが課題になる。 例えば、ある会社の採用実績のデータベースが以下のようなものだとする。
【0016】
性別 年齢 婚姻 学歴 車 採用
女性 23 既婚 高校 あり ○
男性 30 独身 大学 なし ○
女性 45 既婚 高校 あり ○
男性 60 既婚 大学 なし ×
分類のモデル化とは、このデータから採用・不採用の条件のパターンを見付け、任意の人について、その人がこの会社に採用されるか否か予想することである。ちなみに、上記データベースで「採用」の項目を分類、それ以外の項目を属性と呼ぶ。また、それぞれのエントリーをケースと呼ぶ。C4.5ではケースの属性情報を見ながら、 同じような属性値を持つケースをまとめ、分類をおこなう。
【0017】
例えば、上記の例では、以下のような分類モデルが可能である。
性別は?
女性 採用
男性 車の免許は?
あり→採用
なし→不採用
つまり、「女性であれば、すべて採用。」「男性であれば、車の免許があれば、採用。」という一般化が可能である。実際の場面では、どの属性を分岐条件にするのかという問題がでるが、C4.5では、特にgain ratioという統計尺度を用いて属性の選択をおこなっている。
【0018】
つぎに得られた決定木を用いて、速読支援の操作を行う。操作は以下の手続きをふむ。
(1)速読したい文章Sを画面に呼びだす、(2)決定木を用いて、表示された各文sに対して、要約文か否かに分類する、(3)要約文として分類された文をを強調色で、それ以外の文を強調色とは異なる色(背景色という)で表示する、(4)最後に各段落の第1文目を強調色で表示する。
【0019】
上述したように、分野別の決定木を構成する場合には、特定分野に特化した要約文の生成が可能となる。また、要約文を強調色、その他の文を背景色でユーザに提示することで、文章の表示にめりはりがつく、また、要約文は本文中そのままの形で表示するため、要約文前後の文脈が保存され、必要に応じてすぐに参照できるから、要約の読解が容易になる。さらに、各段落の第1文目を要約とともに表示することで、内容のあらすじが理解可能となる。以下、より具体的な実施例を図面を参照しながら説明する。
【0020】
実施例1
図1は本発明に係る速読支援方法のデータ処理の考え方を示すブロック図である。
【0021】
図1において、1は入力ステップであり速読したい文書(記事)を取り込むかあるいはデータベース予め入力されている文書(記事)を取り込む。ここでは図2に示された記事が入力されたとする。2はジャンル情報取得ステップであり、入力された記事の内容に応じたジャンルが決定され出力される。ジャンルの決定手順は以下のようである。まず、入力された記事に対してジャンルを示すキーワードを文章中から探す。もしジャンルを表わすキーワードが発見できない場合はユーザにジャンル情報の入力を要求する。しかし、図2の記事では、見出し部分には「(社説)」というキーワードがあるので、記事のジャンルは社説と決定される。
【0022】
次に、取得されたジャンル情報と記事は決定木選択ステップ3に送られる。ここではジャンル情報をもとに前もって用意してある決定木のデータベースのなかから記事のジャンルと対応するもの選ぶ。決定木の構成方法は前述したC4.5による。記事のジャンルは社説であるから、社説用決定木データベースが選択される。本説明では図4に示された決定木が選択されるとする。
次に特徴抽出ステップ4に進む。ここでは、記事の見出しを除いた本文に現れた各文について、形態素解析処理を施した後、特徴抽出をおこなう。形態素解析は、例えば[櫻井他、形態素解析プログラムANIMAの設計と評価(社)情報処理学会第54回全国大会講演論文集,1997]らの手続きに従う。抽出する特徴は(1)文章の型、(2)文章中の位置、(3)見出しとの類似度、(4)文章内TFIDF値、(5)態度表現の有無、(6)文の文字数、(7)段落内の位置の七つである。
【0023】
抽出は以下の手順をふむ。いま、本文中の任意の文をsとする。電子的に提供されている新聞記事の場合、通常、一般記事、随筆、社説等の分類情報が文章Sに付与されている。文sの文章の型は、その分類情報に従う。分類情報がない場合は、ユーザが一般記事、随筆、社説の区別を行ない、型を決定する。文章中の位置は、本文の先頭から文sの直前まで現われた文が文章全体に占める割合、つまり、D(s)/Nで与える。ただし、D(s)は本文の先頭から文sの直前までの文の数、Nは文章Sにおける文の総数である。見出しとの類似度は、文章の見出しをTとすると、前述した(数4)に従って、SIMM(T,s)を計算し、その値を類似度とする。 文章内TFIDFは、文sに現われた名詞wそれぞれについて、NF(s,w)×IDF(w)を計算し、その総和を値とする。(ただし、名詞wは形態素解析により抽出する。) 態度表現の有無は、文sに特定の表現「〜重要だ」、「〜必要だ」、「〜か」、「〜よ」、「〜ね」等(活用してる場合はその終止形)が出現しているか否かで決める。ここでなにもない場合は1とし、「重要だ」 「必要だ」などの態度動詞の場合は2とし、「か」「よ」「ね」などの終助詞の場合は3とする。 文の文字数は、文sの文字数とする。段落内の位置は、文sのPD(s)/N(P)として与える。ただし、PD(s)はその段落の先頭から文sの直前まで現われた文の数、N(P)は段落の文の総数である。
【0024】
図2の記事の各文に対して上記の手続きにより特徴抽出をおこなった結果を、図3に示す。本実施例では見出しを除き文が7つある例であり、文1が本文の第一文、文2が第2文、文3が第3文、………、文7が第7文という具合に対応する。 本文の文はすべて社説の一部であるから文章タイプはすべて「社説」となる。抽出された(1)文章の型、(2)文章中の位置、(3)見出しとの類似度、(4)文章内TFIDF値、(5)態度表現の有無、(6)文の文字数、(7)段落内の位置の七つの特徴は図に示すとおりである。
【0025】
次のステップ5では、文から抽出された特徴と選択された決定木をもとにその文が要約文か否かの判定をおこなう。 以下では文1〜文7について、実際の判定作業を詳しく見ていく。決定木は図4に示されたものとする。
【0026】
文1は、まず見出しとの類似度が0.679であるのでN10に進む。さらに類似度が1.181以下であるのでN12を通る。次にTFIDFが9.449であるのでN14を通る。 次に文字数が41であるのでN16を通る。次に、TFIDFが9.449であるのでN18を通り、最終的に非要約文と判定される。
【0027】
文2は、見出しとの類似度が0.263であるのでN1に進む。ところが、文章中の位置が0であるのでN2を通り非要約文と判定される。
【0028】
文3は、見出しとの類似度が0.762であるのでN10を通り、N12を通る。さらにTFIDF値が4.893であるのでN14を通る。次のステップでは文字数が70であるのでN15を通り、要約文と判定される。
【0029】
文4は、見出しとの類似度が0.263であるのでN1を通る。ところが、文章中の位置が0.071であるので、N2を通り、その結果非要約文と判定される。
【0030】
文5も見出しとの類似度が0.263であるのでN1を通る。文章中の位置が0.095であるので、文4と同じく、N2を通り、非要約文と判定される。
【0031】
文6は、見出しとの類似度が0であるのでN1を通る。文章中の位置が0.119であるので、文4、文5と同じく、N2を通り、非要約文と判定される。
【0032】
文7も、見出しとの類似度が0であるのでN1を通り、また文章中の位置が0.143であるので、文4−文6と同じく、N2を通り、非要約文と判定される。
【0033】
次のステップ6では、上記要約文の判定結果に応じ、要約文と判定されたものは強調色、非要約文と判定されたものは背景色で表示する。さらに、表示にめりはりを付けるため、記事の各段落第一文を要約文とは異なる強調色でハイライトし、速読支援処理を終了する。
【0034】
社説以外の文章、随筆、報道文等についても対応する決定木を参照し上と同等の処理を施すことで、他のジャンルの文章についても速読の支援をおこなうことができる。
【0035】
図5は上述した処理の具体的な処理フローを示す図である。図5の例は、文章タイプ情報の取得は速読支援の対象とされた文章に対して一度だけ行われる。一方、各文の特徴抽出は、速読支援の対象とされた文章を個々の文毎に未処理文として登録し一文毎に行い、未処理文がなくなったときに処理が終了するものとなる。図5の処理フローは、前述した説明を参照しながら読めば容易に理解できるので、図に参照番号を付して説明することは省略した。前述した図3に示した特徴テーブルは、図5の処理フローによって抽出された特徴を説明のために纏めて示したものである。
【0036】
図6に、上述の要約文および非要約文の判断結果を反映された記事の表示の状態を示す。図には色が付されないので、強調色とされたものに実線のアンダーラインを付し、記事の各段落第一文には点線のアンダーラインを付した。
【0037】
なお、上述の実施例においては記事に見出しがあり、これを使ってジャンルの取得および類似度の評価が極めて容易に行われたが、見出しが無い場合には図3における見出しとの類似度のデータが無くなり、図4におけるパスN11、N12が無くなるが、実質的な意味での支障はない。
【0038】
また、当然のことながら、記事が長くて一画面内におさまらないときは、スクロールによって内容を見ることになる。
【0039】
実施例2
次に、記事の検索支援と上述の速読支援方法を組み合わせた新聞速読支援装置の実施例を説明する。
【0040】
図7は、このための信号処理の流れの要約を示す図である。71は検索条件入力ステップでありユーザが読みたいと思う記事の検索条件を入力する。検索条件は任意に設定できるが、キーワード等が一般的であり使いやすい。72は記事検索のステップであり、任意のデータベースから記事情報を取り込み、上述の検索条件に合った記事を検索する。73は検索結果表示ステップであり、検索条件に合った記事を、例えば、条件との一致度とともに表示する。74は記事指定ステップであり、ユーザが、例えば、条件との一致度を参考に読みたいと思う記事を選択する。75は速読支援指示ステップであり、ユーザが、読みたいと思って選択した記事の速読支援を要求するステップである。76から80のステップは図1と対照して明らかなように速読支援のステップであり、記事指定ステップ74でユーザが選択した記事を対象として速読支援の処理を行う。
【0041】
図8は、この処理を実行するためのハード構成の一例を示す図である。図8において801は出力手段であり、ここではプリンタ等を意味する。802はCPUであり、後述するプログラムにしたがって処理を実行する。803は入力手段であり、例えば、キーボードおよびマウス等である。804はシステムバスである。812は表示手段であり、CTP等のいわゆるディスプレーである。809はプログラム保持手段であり、例えば、ハードディスクが使用される。プログラム保持手段809には検索、速読支援インターフェイス作動プログラム805、形態素解析プログラム806、決定木生成プログラム807、特徴抽出プログラム816、決定木動作プログラム808、検索プログラム809、類似度計算プログラム8091、文書ランキングプログラム8092、重要文表示プログラム810およびあらすし表示プログラム811が格納される。813はメモリの作業領域である。814は決定木データベースである。815は文書データベースであり、検索対象となる、例えば、新聞記事が蓄積される。各手段及びデータベースはシステムバスを介して結合される。
【0042】
まず、ユーザが新聞記事の内特定の興味のあるものを読みたいと思ったとき装置を起動して検索、速読支援インターフェイス作動プログラム805を作動させ、表示手段812の検索インタフェイスの入力画面を介して検索キーワードを入力する。これは図7のステップ71に対応する。次に入力されたキーワードに対して検索プログラム809を実行する(図7−ステップ72)。
【0043】
検索プログラムは(数8)にしたがって文書データベース815に蓄積された文章と入力キーワードとの類似度Dを計算する。
【0044】
D(q,d)=Σ TF(w,d)×IDF(w) (数8)
ここでqはキーワードのリスト、dはある文書で、その中に現れた名詞単語のリスト(重複は除く)として表現する。wは、リストqの要素(単語)を表わす。TF(w,d)は文書dにおけるwの頻度、IDF(w)は文書データベース815に蓄積された記事の全体について、(数9)にしたがって計算して求める。
【0045】
IDF(w)=log(N/DF(w)) (数9)
ここで、Nはデータベース中の記事総数、DF(w)は単語wは一回でも出現した記事の総数である。ただし、文書中の名詞抽出は、形態素解析プログラム806を実行しておこなう。具体的な方法は上で述べた[櫻井他、形態素解析プログラムANIMAの設計と評価、1997]の形態素解析プログラムを利用する。このようにして文書データベース815中のすべての記事について類似度Dを求め、その値の高いものから記事を5つ選択し、ユーザに表示手段812の検索インタフェイスの出力画面を介して選択結果を提示する(図7−ステップ73)。ここで採用された出力画面の例を図9に示す。図9において、91は見出しを示し、92は記事本文の表示をオンにするためのスィッチであり、これをクリックすると文書データベースから対応する記事の内容全部が表示手段に表示される(図7−ステップ74)。
【0046】
図10は、ここで、ユー ザがスイッチ92をオンにしたときの画面の例を示す。この例は、記事の内容は図2で説明したのと同じであるが、図10では本文とともに速読支援を行うか否かの選択スィッチ1001がユーザに提示される(図7−ステップ75)。ここで、ユーザが速読支援を選択すると形態素解析プログラム806が実行され表示文章の各文について形態素解析がおこなわれ、ジャンル情報の取得(図7−ステップ76)および決定木選択を行う(図7−ステップ77)とともに、処理結果を特徴抽出プログラム816に渡す。特徴抽出プログラム816は形態素解析データから重要文決定に必要な情報を抽出し(図7−ステップ78)、抽出情報を決定木動作プログラム808に渡す。決定木動作プログラム808は予め用意されている決定木データベース814にアクセスして特徴抽出プログラム816で抽出された情報を基に文が要約文か否か決定する(図7−ステップ79)。もし、要約文であれば、重要文表示プログラム810を実行し表示手段812上での表示を強調色に、そうでなければ背景色で表示して、次の文の処理に移る。要約文判定の処理の終了後、あらすじ表示プログラム811を実行して表示文章の各段落の第一文目を重要文とは異る強調色で表示する(図7−ステップ80)。
【0047】
このように、本実施例によれば、例えば、キーワードとうの検索条件に応じた記事の検索と速読支援を一つの流れとして処理できる。
【0048】
実施例3
図11は実施例2で説明した速読支援方法をネットワーク型文書検索支援サービスの実施形態の中で実現する実施例の構成図である。図11においては、サービスの提供装置(サーバー)とサービスの受け手側の装置(クライアント1およびクライアント2とが情報通信ネットワークを介して接続されているものとする。このため、サーバーは図8で説明したシステムバス804に通信手段1101および情報通信ネットワークとのインタフェイス1102が設けられたものとなる。図を簡明にするため、サーバーについては他の装置の表示を省略した。クライアント1において、1121は出力手段であり、ここではプリンタ等を意味する。1122はCPUであり、後述するプログラムにしたがって処理を実行する。1123は入力手段であり、例えば、キーボードおよびマウス等である。1112はシステムバスである。1113は表示手段であり、CTP等のいわゆるディスプレーである。1114は検索、速読支援インターフェイスプログラム保持手段であり、例えば、ハードディスクが使用される。1115はメモリの作業領域である。1116は通信手段である。1111はインターフェイスであり、クライアント1とサーバーとを結合する。クライアント2は、この例では同じ構成であるものとしてクライアント1についてのみ具体的に例示し、クライアント2についてはバス1132とインタフェイス1131のみの表示として図を簡略化した。
【0049】
ユーザは、まず、入力手段1123を通して文書検索サービスの利用開始要求コマンドを入力する。すると、通信手段1116により要求コマンドが通信ネットワークを通じてサーバー側に伝達される。コマンドを受け取ったサーバーはプログラム保持手段に蓄積された検索・速読支援インターフェイス作動プログラム805を通信ネットワークを介してクライアント1に伝送する。クライアント1はプログラム805を受け取ると、検索、速読支援インターフェイスプログラム保持手段1114にこれを保持するとともに、計算資源(CPU1122,作業領域1115)を使い、プログラムを動作させる。すると、図8で説明したように検索キーワードを要求する画面が表われる。ユーザは入力手段1123を通して検索キーワードを入力する。入力されたキーワードは通信手段271116によりサーバー側に伝送される。すると、サーバーは検索プログラム805を動作させ、伝送されてきたキーワードもとに検索を開始する。次に、得られた検索結果を通信ネットワークを介してクライアント1に伝送する。クライアント1は伝送されて保持されたインターフェイス作動プログラム805を使って結果をユーザに提示する。この時の表示内容は図9に示したものと同じである。ユーザがここで本文表示ボタンを選択すると、本文表示要求がネットワークを介してサーバー側に伝達され、サーバーが要求に応じて対応する文書をクライアント1に送り、クライアント1の計算機上で動作しているインターフェイス作動プログラム805が送付文書を画面上に表示する。この時の表示内容は図10に示したものと同じである。ただし、この時サーバー側の作業領域には送付文書のコピーが残されるものとする。ユーザがさらに速読支援のスイッチ1001をオンすると、その要求がネットワークを介してサーバーに送られ、サーバーは要求を受けて、作業領域に残されている送付済文書を速読支援プログラムに送る。速読支援プログラムは実施例2に示されたのと同じ手順に従って、文書中の各文について、形態素解析、特徴抽出、決定木動作プログラムによる重要文判定と、最後にあらすじの抽出をおこなう。サーバーは、どの文をどの色で表示するかといった情報をネットワークを介してクライアント1に送る。これによりクライアント1のインターフェイス作動プログラムは文書中のそれぞれの文の表示色を調整することが可能になる。
【0050】
この動作はクライアント2についても同様であるので説明は省略する。
【0051】
実施例4
実施例3では、クライアントからの検索要求に対応してサーバーから検索・速読支援インターフェイス作動プログラム805を通信ネットワークを介してクライアント1に伝送するものとしたが、これをあらかじめクライアントに配布しておき実施例3と同様に動作させるものとすることができる。この場合も、図11で説明したように、ユーザが文書検索要求コマンドを入力手段1123を用いて入力すると、クライアント1上のプログラム保持手段1114に蓄積されているインターフェイス作動プログラムが起動し、以後の動作手順は実施例3と同じように処理がなされ遠隔地からの検索および速読支援を可能とする。
【0052】
【発明の効果】
上の説明から明かなように本発明によれば、要約文は本文中そのままの形で表示されるため、要約文前後の文脈が保存され要約の読解が容易になる。さらに、各段落の第1文目を要約とともに表示することで、内容のあらすじが理解可能となる。
【0053】
なお、予めジャンル別の決定木を蓄積しておき、これを参照するようにした場合、特定ジャンルに特化した要約文判定が極めて効果的に行えるものとなる。
【図面の簡単な説明】
【図1】本発明に係る速読支援方法のデータ処理の考え方を示すブロック図。
【図2】速読支援の対象として採用された記事の例を示す図。
【図3】図2の記事の各文に対して実施例の手続きにより特徴抽出をおこなった結果を示す図。
【図4】決定木の一例を示す図
【図5】図1のデータ処理の考え方を具体化したフローチャートを示す図。
【図6】図2の記事に対する速読支援の結果の表示例を示す図。
【図7】本発明に係る文書速読支援方法を文書検索支援装置へ適用した場合のデータ処理の考え方を示すブロック図。
【図8】図7に示す処理を実現する装置構成の一例を示す図。
【図9】文書検索結果の表示形態の具体例を示す図。
【図10】文書検索結果に応じて特定の文書本体の表示をさせたときの一具体例を示す図。
【図11】本発明に係る速読支援方法を適用した文書検索支援サービスを遠隔地から受けるための実施形態の一具体例を示す図。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to the entire Japanese document processing, and is used for an interface for speed reading support of an electronic document and information retrieval.
[0002]
[Prior art]
Conventionally, when a summary sentence candidate for a sentence S is determined by a computer, the possibility that the sentence s in the sentence S becomes a summary sentence is calculated using a scale called probability P or TFIDF. In general, priorities are assigned to candidates for summary sentences. For example, Julian Kupiec, Jan Pedersen, and Francine Chen. 1995. “A Trainable Document Summarizer” In Proceedings of the Fourteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 68-73, Seattle, USA. The probability P that a certain sentence s in the sentence S is selected as a summary sentence is calculated using the formula of 1).
P (s inX | F1, F2, F3,... Fk) (Equation 1)
Here, X represents a set of summary sentences, F1, F2,..., Fk represent features such as sentence length, presence / absence of clue words, position within a paragraph, and the like. Then, the importance of each sentence as a summary sentence is determined based on the formula (Equation 1), and sentences corresponding to the top 25% of the values are presented to the user as sentence summaries.
[0003]
On the other hand, Klaus Zechner. 1996. “Fast Generation of Abstracts from General Domain Text Corpora by Extracting Relevant Sentences” In Proceedings of the 16th International Conference on Computational Linguistics, pages 986-989. Copenhagen, Denmark. Calculate the scale according to Equation 2) to determine the importance of the sentence s.
TFIDF (w, s) = TF (w, s) × log (N / n (w)) (Equation 2)
Here, w is a word that appears in a specific sentence s, TF (w) is the frequency of the word w in the sentence, N is the total number of sentences s in the sentence S, and n (w) is the sentence s in which the word w appears. It is the total number. The importance Q (s) of the sentence s is defined by (Equation 3).
Q (s) = Σ TFIDF (w, s) (Equation 3)
That is, for all words appearing in the sentence s, the TFIDF values are obtained and the sum is taken as the importance of the sentence s. Then, a sentence having a higher Q (s) value is presented to the user as a summary candidate. The Zechner method described above generally has poor summarization accuracy because it cannot be tuned specifically for each field.
[0004]
[Problems to be solved by the invention]
In these conventional methods, the evaluation of the correctness as a summary sentence is put aside, and the selected summary sentence is displayed by itself, so even if several upper sentences are displayed as a summary sentence, it is selected. Since each summary sentence is not originally related, the connection before and after those sentences deteriorates and becomes very difficult to read. Furthermore, since some selected sentences are simply enumerated, it is difficult to grasp the meaning of the original sentence, and it is difficult to determine whether the sentence is important for the user.
[0005]
An object of the present invention is to solve the problems of the conventional methods described above.
[0006]
[Means for Solving the Problems]
Therefore, in the present invention, the input sentence is subjected to feature analysis for each sentence in the sentence according to a predetermined rule to determine whether or not the sentence is a summary sentence. Each paragraph and first sentence of the input sentence is presented to the user in a highlighted color different from the summary sentence.
[0007]
DETAILED DESCRIPTION OF THE INVENTION
First, a well-known decision tree construction method called C4.5 is used as a summary sentence selection method. If this method is followed, the sentence will be coded based on several features. In the present invention, first, each sentence s in the sentence S is represented by (1) sentence type, (2) position in the sentence, (3) similarity to the headline, (4) TFIDF in the sentence, (5) attitude expression. And (6) the number of characters in the sentence, and (7) the position within the paragraph.
“Sentence type” indicates to which type the sentence belongs, such as a news report, an editorial, or an essay.
[0008]
“Position in sentence” indicates the position at which the sentence appears in the entire sentence. For example, if the total number of sentences s in the sentence S is 10, and the sentence appears in the first sentence, the position of the sentence is represented as 0/10 = 0.
[0009]
The “similarity with the headline” is determined by the following (Equation 4).
SIMM (t, s) = Σ NF (w, s) × IDF (w) (Equation 4)
Here, t represents a sentence head and s represents a sentence. For the noun w appearing in t, its NF value and IDF value are obtained, and the sum is taken as the similarity to the heading. NF (w, s) is defined as (Equation 5).
NF (w, s) = F (w, s) / MAX_F (s) (Equation 5)
Here, F (w, s) is the frequency of w in s, and MAX_F (s) is the frequency of the noun having the highest frequency among the nouns appearing in the sentence s. IDF (w) is defined as (Equation 6).
IDF (w) = log (N / DF (w)) / logN (Equation 6)
Here, DF (w) is the total number of sentences in which w appears. N is the total number of sentences s in the sentence S.
[0010]
“In-text TFIDF” is a value determined by (Equation 7).
D (s) = Σ NF (w, s) × IDF (w) (Expression 7)
Here, w is a noun that appears in the sentence s. NF (w, s) and IDF (w) follow the above definition.
[0011]
“Presence / absence of attitude expression” is used to indicate whether or not there is an expression indicating the author's attitude at the end of the sentence. Here, as expressions expressing the attitude of the author, expressions such as “˜important”, “˜necessary”, “˜ka”, “˜yo”, “˜ne” are considered.
[0012]
The “number of characters in the sentence” indicates the number of characters in the sentence s.
[0013]
“Position within a paragraph” indicates the position within a paragraph of a sentence s by the number of sentences preceding the sentence s / the total number of sentences in the paragraph, as in the above-described “position within a sentence”.
[0014]
The decision tree is structured by characterizing each sentence of the sentence with respect to the above-mentioned attributes and further learning using the data with summary judgment information for each field. The decision tree construction method follows “C4.5” by Quinlan. The decision tree construction method C4.5 is a well-known method, but the outline is as follows.
[0015]
In C4.5, the issue is how to model (generalize) the classification of database entries. For example, suppose a company's recruitment database is as follows.
[0016]
Gender Age Marriage Educational background Car adoption
Female 23 Married High school Yes ○
Male 30 Single University None ○
Female 45 Married High school Yes ○
Male 60 Married University None ×
Classification modeling is to find a pattern of conditions for adoption / non-recruitment from this data and to predict whether or not a person will be employed by this company. By the way, the “recruited” items in the database are classified, and the other items are called attributes. Each entry is called a case. In C4.5, while observing case attribute information, cases with similar attribute values are grouped and classified.
[0017]
For example, in the above example, the following classification model is possible.
What's your gender?
Female
Men What is a car license?
Yes → Adopt
None → Not adopted
In other words, it is possible to generalize “all women are hired” and “male who have a car license”. In actual situations, there is a problem of which attribute is used as a branching condition. However, in C4.5, attributes are selected using a statistical measure called gain ratio.
[0018]
Next, a speed reading support operation is performed using the obtained decision tree. The operation includes the following procedures.
(1) Call the sentence S you want to read quickly on the screen. (2) Use the decision tree to classify each displayed sentence s as a summary sentence. (3) Classify as a summary sentence. (4) Finally, the first sentence of each paragraph is displayed in an emphasized color. (4) Finally, the first sentence of each paragraph is displayed in an emphasized color.
[0019]
As described above, when constructing a decision tree for each field, a summary sentence specialized for a specific field can be generated. In addition, by presenting the summary text to the user in the highlighted color and other text in the background color, the display of the text will be conspicuous, and since the summary text is displayed as it is in the text, The context of the text is saved and can be easily referenced as needed, making it easier to read the summary. Furthermore, by displaying the first sentence of each paragraph together with the summary, the outline of the contents can be understood. Hereinafter, more specific embodiments will be described with reference to the drawings.
[0020]
Example 1
FIG. 1 is a block diagram showing the concept of data processing of the speed reading support method according to the present invention.
[0021]
In FIG. 1, reference numeral 1 denotes an input step that takes in a document (article) to be read at high speed or takes in a document (article) input in advance in a database. Here, it is assumed that the article shown in FIG. 2 is input. 2 is a genre information acquisition step, in which a genre corresponding to the content of the input article is determined and output. The genre determination procedure is as follows. First, a keyword indicating a genre is searched for in the input article. If a keyword representing a genre cannot be found, the user is requested to input genre information. However, in the article of FIG. 2, since the heading portion has the keyword “(editorial)”, the genre of the article is determined to be editorial.
[0022]
Next, the acquired genre information and article are sent to decision
Next, the process proceeds to feature
[0023]
Extraction includes the following procedures. Let s be an arbitrary sentence in the text. In the case of newspaper articles provided electronically, classification information such as general articles, essays, and editorials is usually attached to the sentence S. The sentence type of sentence s follows the classification information. When there is no classification information, the user distinguishes general articles, essays, and editorials, and determines the type. The position in the sentence is given by the ratio of the sentence appearing from the beginning of the text to immediately before the sentence s in the entire sentence, that is, D (s) / N. Here, D (s) is the number of sentences from the beginning of the text to immediately before the sentence s, and N is the total number of sentences in the sentence S. As for the similarity to the headline, if the headline of the sentence is T, SIMM (T, s) is calculated according to the above-described (Equation 4), and the value is set as the similarity. The in-sentence TFIDF calculates NF (s, w) × IDF (w) for each noun w appearing in the sentence s, and uses the sum as a value. (However, the noun w is extracted by morphological analysis.) The presence / absence of the attitude expression is specific to the sentence s "~ important", "~ necessary", "~ ka", "~ yo" ”, Etc. (the end form if it is used). If there is nothing here, 1 is set, 2 is set for attitude verbs such as “important” and “necessary”, and 3 is set for final particles such as “ka”, “yo”, and “ne”. The number of characters in the sentence is the number of characters in the sentence s. The position in the paragraph is given as PD (s) / N (P) of the sentence s. Here, PD (s) is the number of sentences appearing from the beginning of the paragraph to immediately before the sentence s, and N (P) is the total number of sentences in the paragraph.
[0024]
FIG. 3 shows the result of the feature extraction performed on each sentence of the article in FIG. 2 by the above procedure. In this embodiment, there are seven sentences excluding the heading, sentence 1 is the first sentence of the body,
[0025]
In the next step 5, it is determined whether the sentence is a summary sentence based on the features extracted from the sentence and the selected decision tree. In the following, the actual determination work will be examined in detail for sentence 1 to
[0026]
Since sentence 1 has a similarity to the headline of 0.679, the process proceeds to N10. Furthermore, since the degree of similarity is 1.181 or less, N12 is passed. Next, since TFIDF is 9.449, it passes through N14. Next, since the number of characters is 41, N16 is passed. Next, since TFIDF is 9.449, it passes through N18 and is finally determined as a non-summary sentence.
[0027]
Since
[0028]
[0029]
[0030]
Sentence 5 also passes N1 because the similarity to the headline is 0.263. Since the position in the sentence is 0.095, similarly to
[0031]
[0032]
[0033]
In the
[0034]
By referring to the corresponding decision tree for texts other than editorials, essays, news reports, etc., and performing processing equivalent to the above, it is possible to support speed reading for texts in other genres.
[0035]
FIG. 5 is a diagram showing a specific processing flow of the above-described processing. In the example of FIG. 5, the acquisition of the sentence type information is performed only once for the sentence that is the target of the fast reading support. On the other hand, the feature extraction of each sentence is performed for each sentence as the unread sentence for each sentence, and the process ends when there is no unprocessed sentence. . The processing flow of FIG. 5 can be easily understood by reading it with reference to the above description, and therefore, description with reference numerals attached to the drawing is omitted. The feature table shown in FIG. 3 described above is a list of features extracted by the processing flow of FIG. 5 for explanation.
[0036]
FIG. 6 shows the display state of the article reflecting the above-described summary sentence and non-summary sentence determination results. Since the figure is not colored, the underlined solid lines are added to the highlighted colors, and the dotted underline is added to the first sentence of each paragraph of the article.
[0037]
In the above-described embodiment, there is a headline in the article, and using this, genre acquisition and similarity evaluation were performed very easily. However, when there is no headline, the similarity of the headline in FIG. Data is lost and the paths N11 and N12 in FIG. 4 are lost, but there is no substantial problem.
[0038]
Of course, if an article is too long to fit on one screen, you can scroll to see the content.
[0039]
Example 2
Next, an embodiment of a newspaper speed reading support device that combines article search support and the above-described speed reading support method will be described.
[0040]
FIG. 7 is a diagram showing a summary of the flow of signal processing for this purpose.
[0041]
FIG. 8 is a diagram illustrating an example of a hardware configuration for executing this processing. In FIG. 8,
[0042]
First, when the user wants to read a particular article of interest in the newspaper article, he activates the device to search and activate the fast-reading support
[0043]
The search program calculates the similarity D between the text stored in the
[0044]
D (q, d) = Σ TF (w, d) × IDF (w) (Equation 8)
Here, q is a list of keywords, d is a document, and is expressed as a list of noun words (excluding duplicates) appearing therein. w represents an element (word) of the list q. TF (w, d) is calculated by the frequency of w in the document d, and IDF (w) is calculated for the entire article stored in the
[0045]
IDF (w) = log (N / DF (w)) (Equation 9)
Here, N is the total number of articles in the database, and DF (w) is the total number of articles in which the word w appears even once. However, noun extraction from the document is performed by executing the
[0046]
FIG. 10 shows an example of a screen when the user turns on the
[0047]
As described above, according to the present embodiment, for example, article search according to a search condition such as a keyword and rapid reading support can be processed as one flow.
[0048]
Example 3
FIG. 11 is a configuration diagram of an example in which the fast reading support method described in the second embodiment is realized in the embodiment of the network type document search support service. In FIG. 11, it is assumed that a service providing apparatus (server) and a service receiver apparatus (client 1 and
[0049]
First, the user inputs a document search service use start request command through the
[0050]
Since this operation is the same for the
[0051]
Example 4
In the third embodiment, the search / speed reading support
[0052]
【The invention's effect】
As is clear from the above description, according to the present invention, since the summary sentence is displayed as it is in the text, the context before and after the summary sentence is preserved and the summary is easy to read. Furthermore, by displaying the first sentence of each paragraph together with the summary, the outline of the contents can be understood.
[0053]
When a decision tree for each genre is accumulated in advance and referred to, a summary sentence determination specialized for a specific genre can be performed very effectively.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the concept of data processing of a speed reading support method according to the present invention.
FIG. 2 is a diagram showing an example of an article adopted as a target of fast reading support.
FIG. 3 is a diagram illustrating a result of performing feature extraction on each sentence of the article in FIG.
FIG. 4 is a diagram showing an example of a decision tree
FIG. 5 is a flowchart illustrating the concept of data processing in FIG. 1;
6 is a view showing a display example of a result of speed reading support for the article of FIG. 2;
FIG. 7 is a block diagram showing the concept of data processing when the document speed reading support method according to the present invention is applied to a document search support apparatus.
FIG. 8 is a diagram showing an example of a device configuration that realizes the processing shown in FIG. 7;
FIG. 9 is a diagram showing a specific example of a display form of a document search result.
FIG. 10 is a diagram showing a specific example when a specific document body is displayed according to a document search result.
FIG. 11 is a diagram showing a specific example of an embodiment for receiving a document search support service to which a speed reading support method according to the present invention is applied from a remote place;
Claims (1)
文章についてのジャンルに関する情報を保持する手段、
前記入力された文章について所定のルールに基づいてジャンルに関する情報を取得し、そのジャンルに対応する決定木を参照しながら、文章中の各文について所定のルールに従い特徴分析を行い、要約文か否かを決定する手段、
前記要約文か否かの決定結果に応じて要約文の場合は強調色、そうでない場合は、前記強調色とは異なった色で表示し、かつ、入力された文章の各段落の第一文を、前記二つの色とは異なる色で表示する手段とを有し、
前記特徴分析は、前記各文について、文章中の位置、見出しとの類似度、文章内TFIDF、文の文字数、段落内の位置をコード化して行われ、
前記要約文か否かを決定する手段は、
(1)前記各文と前記見出しとの類似度を判定し、
(2−1)前記類似度が第1の類似度以下であれば、文章中の位置を判定し、
(3―1)前記文章中の位置が第1の所定値以下であれば、「非要約文」と判定し、
(3−2)前記文章中の位置が前記第1の所定値より大きければ、段落内位置を判定し、
(4−1)前記段落内位置が第2の所定値以下であれば、「要約文」と判定し、
(4−2)前記段落内位置が前記第2の所定値より大きければ、前記文章中の位置を再度判定し、
(5−1)前記文章中の位置が第3の所定値以下であれば、「非要約文」と判定し、
(5−2)前記文章中の位置が前記第3の所定値より大きければ、文の文字数を判定し、
(6−1)前記文の文字数が第4の所定値以下であれば、「非要約文」と判定し、
(6−2)前記前記文の文字数が第4の所定値より大きければ、「要約文」と判定し、
(2−2)前記類似度が第1の類似度より大きければ、再度類似度を判定し、
(7−1)前記類似度が第2の類似度より大きければ、「要約文」と判定し、
(7−2)前記類似度が前記第2の類似度以下であれば、TFIDFを判定し、
(8−1)前記TFIDFが第5の所定値より大きければ、「非要約文」と判定し、
(8−2)前記TFIDFが前記第5の所定値以下であれば、文の文字数を判定し、
(9−1)前記文の文字数が第6の所定値より大きければ、「要約文」と判定し、
(9−2)前記文の文字数が第6の所定値以下であれば、再度TFIDFを判定し、
(10−1)前記TFIDFが第7の所定値以下であれば、「要約文」と判定し、
(10−2)前記TFIDFが第7の所定値より大きければ、「非要約文」と判定することを特徴とする速読支援装置。A means to input text consisting of a headline and text;
Means for holding information about the genre of the text,
Information about a genre is acquired based on a predetermined rule for the input sentence, and a feature analysis is performed for each sentence in the sentence according to the predetermined rule while referring to a decision tree corresponding to the genre. Means to determine,
Depending on the result of determining whether or not the sentence is a summary sentence, in the case of a summary sentence, it is displayed in a highlighted color, otherwise it is displayed in a color different from the highlighted color, and the first sentence of each paragraph of the input sentence Means for displaying in a color different from the two colors,
The feature analysis is performed by coding the position in the sentence, the similarity to the headline, the TFIDF in the sentence, the number of characters in the sentence, and the position in the paragraph for each sentence.
The means for determining whether or not the summary sentence is:
(1) Determine the similarity between each sentence and the headline,
(2-1) If the similarity is less than or equal to the first similarity, determine a position in the sentence;
(3-1) If the position in the sentence is equal to or less than the first predetermined value, it is determined as a “non-summary sentence”;
(3-2) If the position in the sentence is greater than the first predetermined value, determine the position in the paragraph;
(4-1) If the position in the paragraph is equal to or less than the second predetermined value, it is determined as a “summary sentence”;
(4-2) If the position in the paragraph is larger than the second predetermined value, the position in the sentence is determined again,
(5-1) If the position in the sentence is equal to or less than a third predetermined value, it is determined as a “non-summary sentence”;
(5-2) If the position in the sentence is greater than the third predetermined value, determine the number of characters in the sentence;
(6-1) If the number of characters in the sentence is equal to or less than a fourth predetermined value, it is determined as a “non-summary sentence”;
(6-2) If the number of characters in the sentence is greater than a fourth predetermined value, it is determined as a “summary sentence”;
(2-2) If the similarity is greater than the first similarity, the similarity is determined again,
(7-1) If the similarity is greater than the second similarity, determine “summary sentence”;
(7-2) If the similarity is equal to or less than the second similarity, TFIDF is determined,
(8-1) If the TFIDF is greater than the fifth predetermined value, determine “non-summary sentence”;
(8-2) If the TFIDF is less than or equal to the fifth predetermined value, determine the number of characters in the sentence;
(9-1) If the number of characters in the sentence is greater than a sixth predetermined value, determine “summary sentence”;
(9-2) If the number of characters in the sentence is less than or equal to the sixth predetermined value, determine TFIDF again,
(10-1) If the TFIDF is equal to or less than a seventh predetermined value, it is determined as a “summary sentence”,
(10-2) A speed reading support device characterized in that if the TFIDF is larger than a seventh predetermined value, it is determined as a “non-summary sentence”.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28930597A JP3652086B2 (en) | 1997-10-22 | 1997-10-22 | Speed reading support device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28930597A JP3652086B2 (en) | 1997-10-22 | 1997-10-22 | Speed reading support device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11126204A JPH11126204A (en) | 1999-05-11 |
JP3652086B2 true JP3652086B2 (en) | 2005-05-25 |
Family
ID=17741469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28930597A Expired - Fee Related JP3652086B2 (en) | 1997-10-22 | 1997-10-22 | Speed reading support device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3652086B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3918374B2 (en) | 1999-09-10 | 2007-05-23 | 富士ゼロックス株式会社 | Document retrieval apparatus and method |
KR100435442B1 (en) * | 2001-11-13 | 2004-06-10 | 주식회사 포스코 | Method And System For Summarizing Document |
JP5620814B2 (en) * | 2010-12-28 | 2014-11-05 | ヤフー株式会社 | Topic creation support device, topic creation support method, and topic creation support program |
US10331782B2 (en) * | 2014-11-19 | 2019-06-25 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for automatic identification of potential material facts in documents |
CN110085066B (en) * | 2019-04-17 | 2021-12-21 | 北京小米移动软件有限公司 | Method and device for displaying reading information and electronic equipment |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH022458A (en) * | 1988-06-10 | 1990-01-08 | Matsushita Electric Ind Co Ltd | Similar document retrieving device |
JPH06259424A (en) * | 1993-03-02 | 1994-09-16 | Ricoh Co Ltd | Document display device and document summary device and digital copying device |
JPH08221420A (en) * | 1995-02-09 | 1996-08-30 | Canon Inc | Device and method for processing information |
JPH0916625A (en) * | 1995-06-29 | 1997-01-17 | Canon Inc | Information processor and its method |
-
1997
- 1997-10-22 JP JP28930597A patent/JP3652086B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11126204A (en) | 1999-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7783644B1 (en) | Query-independent entity importance in books | |
JP3691844B2 (en) | Document processing method | |
US6662152B2 (en) | Information retrieval apparatus and information retrieval method | |
JP4962967B2 (en) | Web page search server and query recommendation method | |
US20070219945A1 (en) | Key phrase navigation map for document navigation | |
US20040098385A1 (en) | Method for indentifying term importance to sample text using reference text | |
CN111401045B (en) | Text generation method and device, storage medium and electronic equipment | |
KR20060045786A (en) | Verifying relevance between keywords and web site contents | |
JP2002197104A (en) | Device and method for data retrieval processing, and recording medium recording data retrieval processing program | |
US6278990B1 (en) | Sort system for text retrieval | |
JP4967133B2 (en) | Information acquisition apparatus, program and method thereof | |
JP5718405B2 (en) | Utterance selection apparatus, method and program, dialogue apparatus and method | |
JP2001084255A (en) | Device and method for retrieving document | |
JP2002132811A (en) | Method and system for answering question and recording medium with recorded question answering program | |
JP2003271609A (en) | Information monitoring device and information monitoring method | |
JP4065346B2 (en) | Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method | |
JP3652086B2 (en) | Speed reading support device | |
JP2001265774A (en) | Method and device for retrieving information, recording medium with recorded information retrieval program and hypertext information retrieving system | |
JP2000105769A (en) | Document display method | |
CN114547309A (en) | Text feature selection method based on improved TFIDF | |
JPH09153064A (en) | Information filtering device | |
US20060195313A1 (en) | Method and system for selecting and conjugating a verb | |
JPH07134720A (en) | Method and device for presenting relative information in sentence preparing system | |
JP5187187B2 (en) | Experience information search system | |
KR100885527B1 (en) | Apparatus for making index-data based by context and for searching based by context and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041109 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090304 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |