JPH11126204A - 速読支援方法、文書検索方法およびその装置 - Google Patents

速読支援方法、文書検索方法およびその装置

Info

Publication number
JPH11126204A
JPH11126204A JP9289305A JP28930597A JPH11126204A JP H11126204 A JPH11126204 A JP H11126204A JP 9289305 A JP9289305 A JP 9289305A JP 28930597 A JP28930597 A JP 28930597A JP H11126204 A JPH11126204 A JP H11126204A
Authority
JP
Japan
Prior art keywords
sentence
document
color
search
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9289305A
Other languages
English (en)
Other versions
JP3652086B2 (ja
Inventor
Tadashi Nomoto
忠司 野本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP28930597A priority Critical patent/JP3652086B2/ja
Publication of JPH11126204A publication Critical patent/JPH11126204A/ja
Application granted granted Critical
Publication of JP3652086B2 publication Critical patent/JP3652086B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 重要箇所の抽出と表示による文書の速読支援
をおこなう。 【解決手段】 速読したい文書に対して文書のジャンル
を特定し、ジャンルに対応する決定木を選択する。一
方、与えられた文書の本文中の各文について特徴を抽出
する。選択された決定木と各文の特徴を照し合せ、それ
ぞれの文について要約文か否かを決定する。要約文を強
調色、非要約文を背景色で表示する。また与えられた文
書の各段落の第一文目を要約文とは異る色で表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語文書処理全
般にかかり,電子化文書の速読支援、また情報検索等の
インターフェイスに利用される。
【0002】
【従来の技術】従来、文章Sについての要約文の候補を
計算機によって決める場合、文章S内の各文sについて
その文sが要約文になる可能性を確率PあるいはTFI
DFと呼ばれる尺度を使って計算し、文sに優先順位を
つけ要約文の候補を決めるというが一般的である。例え
ば、Julian Kupiec, Jan Pedersen, and Francine Che
n. 1995. “A Trainable Document Summarizer”In Pro
ceedings of the Fourteenth Annual International AC
M SIGIR Conference on Research and Development in
Information Retrieval、 pages 68-73, Seattle, USA.
では(数1)の式を使って、文章S中におけるある文s
が要約文として選ばれる確率Pを計算する。 P(s inX|F1,F2,F3,...Fk) (数1) ここで、Xは要約文の集合、F1,F2,…,Fkは、
文の長さ、手がかり語の有無、段落内の位置などの特徴
を表わす。そして、(数1)の式に基づき、各文の要約
文としての重要度を決定し、値の上位25パーセントに
あたる文を文章の要約として、ユーザに提示する。
【0003】一方、Klaus Zechner. 1996. “Fast Gene
ration of Abstracts from GeneralDomain Text Corpor
a by Extracting Relevant Sentences” In Proceeding
s of the 16th International Conference on Computat
ional Linguistics、pages986-989. Copenhagen, Denma
rk.では、TFIDFと呼ばれる方式で(数2)による尺
度を計算して文sの重要度を決定する。 TFIDF(w,s)=TF(w,s)×log(N/n(w)) (数2) ここでwは特定の文sに出現した単語、TF(w)はそ
の文中での単語wの頻度、Nは文章Sにおける文sの総
数、n(w)は単語wが出現した文sの総数である。ま
た文sの重要度Q(s)は(数3)で定義する。 Q(s)=Σ TFIDF(w,s) (数3) つまり、文sに現われた単語すべてについて、そのTF
IDF値を求め、その総和を文sの重要度とする。そし
て、Q(s)の値が上位の文を要約候補として、ユーザ
に提示する。上記Zechnerの方法では、分野別に特化し
たチューニングができないため、一般に要約精度が悪
い。
【0004】
【発明が解決しようとする課題】これら従来方法では、
要約文としての正当性の評価はさて置いても、選択され
た要約文をそれだけで単独表示するので、上位にあるい
くつかの文が要約文として表示されても、選択された要
約文それぞれは本来関係が無いから、それらの文の前後
のつながりが悪くなり、非常に読みにくくなる。さら
に、選択されたいくつかの文が単に羅列されるだけなの
で、元の文章の大意がつかみにくく、その文章がユーザ
にとって重要か否か判断する上で支障をきたす。
【0005】本発明は上記した従来法の問題を解決する
ことを目的とする。
【0006】
【課題を解決するための手段】したがって、本発明で
は、入力された文章について、文章中の各文について所
定のルールに従い特徴分析を行い、要約文か否かを決定
し、要約文の場合は強調色、そうでない場合は、背景色
でユーザに提示するとともに入力された文章の各段落、
第一文を要約文とは異る強調色でユーザに提示する。
【0007】
【発明の実施の形態】まず、要約文の選択方法として、
よく知られたC4.5と呼ばれる決定木構成方法を利用
する。 この方法に従うと、文はいくつかの特徴に基づ
いてコード化されることになる。 本発明では、まず文
章S中の各文sを、(1)文章の型、(2)文章中の位
置、(3)見出しとの類似度、(4)文章内TFID
F、 (5)態度表現の有無、(6)文の文字数、
(7)段落内の位置、の特徴のそれぞれに基づきコード
化する。「文章の型」は、文章が報道記事、社説、随筆
等のどの型に属するかを示す。
【0008】「文章中の位置」は、文が文章全体の中で
どの位置に現われているのか割合で示す。例えば、文章
S中の文sの総数が10であり、当該文がその第一文目
に現われているなら、その文の位置を0/10=0とし
て表わす。
【0009】「見出しとの類似度」は、以下の(数4)
で決定する。 SIMM(t,s)=Σ NF(w,s)×IDF(w) (数4) ここで、tは文章の見出し、sは文を表わす。t中に出
現した名詞wについて、そのNF値とIDF値を求め
て、その総和を見出しとの類似度とする。NF(w,
s) は(数5)のように定義する。 NF(w,s)=F(w,s)/MAX_F(s) (数5) ここで、F(w,s)はwのsにおける頻度、MAX_
F(s)は文sに出現した名詞の内、頻度の最も高い名
詞の頻度である。IDF(w)は(数6)のように定義
される。 IDF(w)=log(N/DF(w))/logN (数6) ここで、DF(w)はwが出現した文の総数。Nは文章
Sの文sの総数である。
【0010】「文章内TFIDF」は、(数7)で決定
される値である。 D(s)=Σ NF(w,s)×IDF(w) (数7) ここで、wは文sに出現した名詞。NF(w,s),I
DF(w)は上記の定義に従う。
【0011】「態度表現の有無」は、文の文末に著者の
態度を示す表現があるかないかの情報を示すのに用いら
れる。ここで、著者の態度を示す表現としては、「〜重
要だ」、「〜必要だ」、「〜か」、「〜よ」、「〜ね」
等の表現を考える。
【0012】「文の文字数」は、文sの文字数を示す。
【0013】「段落内の位置」は、文sの段落内位置を
上述の「文章中の位置」と同様に文sに先行する文の数
/段落の文の総数で示す。
【0014】決定木の構成は、文章の各文を、上記の属
性について特徴化し、さらに分野別の要約判定情報付き
データを用いた学習というステップを経る。決定木の構
成方法についてはQuinlan著「C4.5」に従
う。決定木の構成方法C4.5はよく知られた方法であ
るが、概説すると下記のようである。
【0015】C4.5ではデータベース・エントリーの
分類をいかにモデル(一般)化するかというのが課題にな
る。 例えば、ある会社の採用実績のデータベースが以
下のようなものだとする。
【0016】 性別 年齢 婚姻 学歴 車 採用 女性 23 既婚 高校 あり ○ 男性 30 独身 大学 なし ○ 女性 45 既婚 高校 あり ○ 男性 60 既婚 大学 なし × 分類のモデル化とは、このデータから採用・不採用の条
件のパターンを見付け、任意の人について、その人がこ
の会社に採用されるか否か予想することである。ちなみ
に、上記データベースで「採用」の項目を分類、それ以
外の項目を属性と呼ぶ。また、それぞれのエントリーを
ケースと呼ぶ。C4.5ではケースの属性情報を見ながら、
同じような属性値を持つケースをまとめ、分類をおこ
なう。
【0017】例えば、上記の例では、以下のような分類
モデルが可能である。 つまり、「女性であれば、すべて採用。」「男性であれ
ば、車の免許があれば、採用。」という一般化が可能で
ある。実際の場面では、どの属性を分岐条件にするのか
という問題がでるが、C4.5では、特にgain ratioという
統計尺度を用いて属性の選択をおこなっている。
【0018】つぎに得られた決定木を用いて、速読支援
の操作を行う。操作は以下の手続きをふむ。 (1)速読したい文章Sを画面に呼びだす、(2)決定
木を用いて、表示された各文sに対して、要約文か否か
に分類する、(3)要約文として分類された文をを強調
色で、それ以外の文を強調色とは異なる色(背景色とい
う)で表示する、(4)最後に各段落の第1文目を強調
色で表示する。
【0019】上述したように、分野別の決定木を構成す
る場合には、特定分野に特化した要約文の生成が可能と
なる。また、要約文を強調色、その他の文を背景色でユ
ーザに提示することで、文章の表示にめりはりがつく、
また、要約文は本文中そのままの形で表示するため、要
約文前後の文脈が保存され、必要に応じてすぐに参照で
きるから、要約の読解が容易になる。さらに、各段落の
第1文目を要約とともに表示することで、内容のあらす
じが理解可能となる。以下、より具体的な実施例を図面
を参照しながら説明する。
【0020】実施例1 図1は本発明に係る速読支援方法のデータ処理の考え方
を示すブロック図である。
【0021】図1において、1は入力ステップであり速
読したい文書(記事)を取り込むかあるいはデータベー
ス予め入力されている文書(記事)を取り込む。ここで
は図2に示された記事が入力されたとする。2はジャン
ル情報取得ステップであり、入力された記事の内容に応
じたジャンルが決定され出力される。ジャンルの決定手
順は以下のようである。まず、入力された記事に対して
ジャンルを示すキーワードを文章中から探す。もしジャ
ンルを表わすキーワードが発見できない場合はユーザに
ジャンル情報の入力を要求する。しかし、図2の記事で
は、見出し部分には「(社説)」というキーワードがある
ので、記事のジャンルは社説と決定される。
【0022】次に、取得されたジャンル情報と記事は決
定木選択ステップ3に送られる。ここではジャンル情報
をもとに前もって用意してある決定木のデータベースの
なかから記事のジャンルと対応するもの選ぶ。決定木の
構成方法は前述したC4.5による。記事のジャンルは
社説であるから、社説用決定木データベースが選択され
る。本説明では図4に示された決定木が選択されるとす
る。次に特徴抽出ステップ4に進む。ここでは、記事の
見出しを除いた本文に現れた各文について、形態素解析
処理を施した後、特徴抽出をおこなう。形態素解析は、
例えば[櫻井他、形態素解析プログラムANIMAの設
計と評価(社)情報処理学会第54回全国大会講演論文
集,1997]らの手続きに従う。抽出する特徴は
(1)文章の型、(2)文章中の位置、(3)見出しと
の類似度、(4)文章内TFIDF値、(5)態度表現
の有無、(6)文の文字数、(7)段落内の位置の七つ
である。
【0023】抽出は以下の手順をふむ。いま、本文中の
任意の文をsとする。電子的に提供されている新聞記事
の場合、通常、一般記事、随筆、社説等の分類情報が文
章Sに付与されている。文sの文章の型は、その分類情
報に従う。分類情報がない場合は、ユーザが一般記事、
随筆、社説の区別を行ない、型を決定する。文章中の位
置は、本文の先頭から文sの直前まで現われた文が文章
全体に占める割合、つまり、D(s)/Nで与える。た
だし、D(s)は本文の先頭から文sの直前までの文の
数、Nは文章Sにおける文の総数である。見出しとの類
似度は、文章の見出しをTとすると、前述した(数4)
に従って、SIMM(T,s)を計算し、その値を類似
度とする。 文章内TFIDFは、文sに現われた名詞
wそれぞれについて、NF(s,w)×IDF(w)を
計算し、その総和を値とする。(ただし、名詞wは形態
素解析により抽出する。) 態度表現の有無は、文sに特
定の表現「〜重要だ」、「〜必要だ」、「〜か」、「〜
よ」、「〜ね」等(活用してる場合はその終止形)が出
現しているか否かで決める。ここでなにもない場合は1
とし、「重要だ」 「必要だ」などの態度動詞の場合は
2とし、「か」「よ」「ね」などの終助詞の場合は3と
する。 文の文字数は、文sの文字数とする。段落内の
位置は、文sのPD(s)/N(P)として与える。た
だし、PD(s)はその段落の先頭から文sの直前まで
現われた文の数、N(P)は段落の文の総数である。
【0024】図2の記事の各文に対して上記の手続きに
より特徴抽出をおこなった結果を、図3に示す。本実施
例では見出しを除き文が7つある例であり、文1が本文
の第一文、文2が第2文、文3が第3文、………、文7
が第7文という具合に対応する。 本文の文はすべて社
説の一部であるから文章タイプはすべて「社説」とな
る。抽出された(1)文章の型、(2)文章中の位置、
(3)見出しとの類似度、(4)文章内TFIDF値、
(5)態度表現の有無、(6)文の文字数、(7)段落
内の位置の七つの特徴は図に示すとおりである。
【0025】次のステップ5では、文から抽出された特
徴と選択された決定木をもとにその文が要約文か否かの
判定をおこなう。 以下では文1〜文7について、実際
の判定作業を詳しく見ていく。決定木は図4に示された
ものとする。
【0026】文1は、まず見出しとの類似度が0.67
9であるのでN10に進む。さらに類似度が1.181
以下であるのでN12を通る。次にTFIDFが9.4
49であるのでN14を通る。 次に文字数が41であ
るのでN16を通る。次に、TFIDFが9.449で
あるのでN18を通り、最終的に非要約文と判定され
る。
【0027】文2は、見出しとの類似度が0.263で
あるのでN1に進む。ところが、文章中の位置が0であ
るのでN2を通り非要約文と判定される。
【0028】文3は、見出しとの類似度が0.762で
あるのでN10を通り、N12を通る。さらにTFID
F値が4.893であるのでN14を通る。次のステッ
プでは文字数が70であるのでN15を通り、要約文と
判定される。
【0029】文4は、見出しとの類似度が0.263で
あるのでN1を通る。ところが、文章中の位置が0.0
71であるので、N2を通り、その結果非要約文と判定
される。
【0030】文5も見出しとの類似度が0.263であ
るのでN1を通る。文章中の位置が0.095であるの
で、文4と同じく、N2を通り、非要約文と判定され
る。
【0031】文6は、見出しとの類似度が0であるので
N1を通る。文章中の位置が0.119であるので、文
4、文5と同じく、N2を通り、非要約文と判定され
る。
【0032】文7も、見出しとの類似度が0であるので
N1を通り、また文章中の位置が0.143であるの
で、文4−文6と同じく、N2を通り、非要約文と判定
される。
【0033】次のステップ6では、上記要約文の判定結
果に応じ、要約文と判定されたものは強調色、非要約文
と判定されたものは背景色で表示する。さらに、表示に
めりはりを付けるため、記事の各段落第一文を要約文と
は異なる強調色でハイライトし、速読支援処理を終了す
る。
【0034】社説以外の文章、随筆、報道文等について
も対応する決定木を参照し上と同等の処理を施すこと
で、他のジャンルの文章についても速読の支援をおこな
うことができる。
【0035】図5は上述した処理の具体的な処理フロー
を示す図である。図5の例は、文章タイプ情報の取得は
速読支援の対象とされた文章に対して一度だけ行われ
る。一方、各文の特徴抽出は、速読支援の対象とされた
文章を個々の文毎に未処理文として登録し一文毎に行
い、未処理文がなくなったときに処理が終了するものと
なる。図5の処理フローは、前述した説明を参照しなが
ら読めば容易に理解できるので、図に参照番号を付して
説明することは省略した。前述した図3に示した特徴テ
ーブルは、図5の処理フローによって抽出された特徴を
説明のために纏めて示したものである。
【0036】図6に、上述の要約文および非要約文の判
断結果を反映された記事の表示の状態を示す。図には色
が付されないので、強調色とされたものに実線のアンダ
ーラインを付し、記事の各段落第一文には点線のアンダ
ーラインを付した。
【0037】なお、上述の実施例においては記事に見出
しがあり、これを使ってジャンルの取得および類似度の
評価が極めて容易に行われたが、見出しが無い場合には
図3における見出しとの類似度のデータが無くなり、図
4におけるパスN11、N12が無くなるが、実質的な
意味での支障はない。
【0038】また、当然のことながら、記事が長くて一
画面内におさまらないときは、スクロールによって内容
を見ることになる。
【0039】実施例2 次に、記事の検索支援と上述の速読支援方法を組み合わ
せた新聞速読支援装置の実施例を説明する。
【0040】図7は、このための信号処理の流れの要約
を示す図である。71は検索条件入力ステップでありユ
ーザが読みたいと思う記事の検索条件を入力する。検索
条件は任意に設定できるが、キーワード等が一般的であ
り使いやすい。72は記事検索のステップであり、任意
のデータベースから記事情報を取り込み、上述の検索条
件に合った記事を検索する。73は検索結果表示ステッ
プであり、検索条件に合った記事を、例えば、条件との
一致度とともに表示する。74は記事指定ステップであ
り、ユーザが、例えば、条件との一致度を参考に読みた
いと思う記事を選択する。75は速読支援指示ステップ
であり、ユーザが、読みたいと思って選択した記事の速
読支援を要求するステップである。76から80のステ
ップは図1と対照して明らかなように速読支援のステッ
プであり、記事指定ステップ74でユーザが選択した記
事を対象として速読支援の処理を行う。
【0041】図8は、この処理を実行するためのハード
構成の一例を示す図である。図8において801は出力
手段であり、ここではプリンタ等を意味する。802は
CPUであり、後述するプログラムにしたがって処理を
実行する。803は入力手段であり、例えば、キーボー
ドおよびマウス等である。804はシステムバスであ
る。812は表示手段であり、CTP等のいわゆるディ
スプレーである。809はプログラム保持手段であり、
例えば、ハードディスクが使用される。プログラム保持
手段809には検索、速読支援インターフェイス作動プ
ログラム805、形態素解析プログラム806、決定木
生成プログラム807、特徴抽出プログラム816、決
定木動作プログラム808、検索プログラム809、類
似度計算プログラム8091、文書ランキングプログラ
ム8092、重要文表示プログラム810およびあらす
し表示プログラム811が格納される。813はメモリ
の作業領域である。814は決定木データベースであ
る。815は文書データベースであり、検索対象とな
る、例えば、新聞記事が蓄積される。各手段及びデータ
ベースはシステムバスを介して結合される。
【0042】まず、ユーザが新聞記事の内特定の興味の
あるものを読みたいと思ったとき装置を起動して検索、
速読支援インターフェイス作動プログラム805を作動
させ、表示手段812の検索インタフェイスの入力画面
を介して検索キーワードを入力する。これは図7のステ
ップ71に対応する。次に入力されたキーワードに対し
て検索プログラム809を実行する(図7−ステップ7
2)。
【0043】検索プログラムは(数8)にしたがって文
書データベース815に蓄積された文章と入力キーワー
ドとの類似度Dを計算する。
【0044】 D(q,d)=Σ TF(w,d)×IDF(w) (数8) ここでqはキーワードのリスト、dはある文書で、その
中に現れた名詞単語のリスト(重複は除く)として表現す
る。wは、リストqの要素(単語)を表わす。TF(w,
d)は文書dにおけるwの頻度、IDF(w)は文書デ
ータベース815に蓄積された記事の全体について、
(数9)にしたがって計算して求める。
【0045】 IDF(w)=log(N/DF(w)) (数9) ここで、Nはデータベース中の記事総数、DF(w)は
単語wは一回でも出現した記事の総数である。ただし、
文書中の名詞抽出は、形態素解析プログラム806を実
行しておこなう。具体的な方法は上で述べた[櫻井他、
形態素解析プログラムANIMAの設計と評価、199
7]の形態素解析プログラムを利用する。このようにし
て文書データベース815中のすべての記事について類
似度Dを求め、その値の高いものから記事を5つ選択
し、ユーザに表示手段812の検索インタフェイスの出
力画面を介して選択結果を提示する(図7−ステップ7
3)。ここで採用された出力画面の例を図9に示す。図
9において、91は見出しを示し、92は記事本文の表
示をオンにするためのスィッチであり、これをクリック
すると文書データベースから対応する記事の内容全部が
表示手段に表示される(図7−ステップ74)。
【0046】図10は、ここで、ユー ザがスイッチ9
2をオンにしたときの画面の例を示す。この例は、記事
の内容は図2で説明したのと同じであるが、図10では
本文とともに速読支援を行うか否かの選択スィッチ10
01がユーザに提示される(図7−ステップ75)。こ
こで、ユーザが速読支援を選択すると形態素解析プログ
ラム806が実行され表示文章の各文について形態素解
析がおこなわれ、ジャンル情報の取得(図7−ステップ
76)および決定木選択を行う(図7−ステップ77)
とともに、処理結果を特徴抽出プログラム816に渡
す。特徴抽出プログラム816は形態素解析データから
重要文決定に必要な情報を抽出し(図7−ステップ7
8)、抽出情報を決定木動作プログラム808に渡す。
決定木動作プログラム808は予め用意されている決定
木データベース814にアクセスして特徴抽出プログラ
ム816で抽出された情報を基に文が要約文か否か決定
する(図7−ステップ79)。もし、要約文であれば、
重要文表示プログラム810を実行し表示手段812上
での表示を強調色に、そうでなければ背景色で表示し
て、次の文の処理に移る。要約文判定の処理の終了後、
あらすじ表示プログラム811を実行して表示文章の各
段落の第一文目を重要文とは異る強調色で表示する(図
7−ステップ80)。
【0047】このように、本実施例によれば、例えば、
キーワードとうの検索条件に応じた記事の検索と速読支
援を一つの流れとして処理できる。
【0048】実施例3 図11は実施例2で説明した速読支援方法をネットワー
ク型文書検索支援サービスの実施形態の中で実現する実
施例の構成図である。図11においては、サービスの提
供装置(サーバー)とサービスの受け手側の装置(クライ
アント1およびクライアント2とが情報通信ネットワー
クを介して接続されているものとする。このため、サー
バーは図8で説明したシステムバス804に通信手段1
101および情報通信ネットワークとのインタフェイス
1102が設けられたものとなる。図を簡明にするた
め、サーバーについては他の装置の表示を省略した。ク
ライアント1において、1121は出力手段であり、こ
こではプリンタ等を意味する。1122はCPUであ
り、後述するプログラムにしたがって処理を実行する。
1123は入力手段であり、例えば、キーボードおよび
マウス等である。1112はシステムバスである。11
13は表示手段であり、CTP等のいわゆるディスプレ
ーである。1114は検索、速読支援インターフェイス
プログラム保持手段であり、例えば、ハードディスクが
使用される。1115はメモリの作業領域である。11
16は通信手段である。1111はインターフェイスで
あり、クライアント1とサーバーとを結合する。クライ
アント2は、この例では同じ構成であるものとしてクラ
イアント1についてのみ具体的に例示し、クライアント
2についてはバス1132とインタフェイス1131の
みの表示として図を簡略化した。
【0049】ユーザは、まず、入力手段1123を通し
て文書検索サービスの利用開始要求コマンドを入力す
る。すると、通信手段1116により要求コマンドが通
信ネットワークを通じてサーバー側に伝達される。コマ
ンドを受け取ったサーバーはプログラム保持手段に蓄積
された検索・速読支援インターフェイス作動プログラム
805を通信ネットワークを介してクライアント1に伝
送する。クライアント1はプログラム805を受け取る
と、検索、速読支援インターフェイスプログラム保持手
段1114にこれを保持するとともに、計算資源(CP
U1122,作業領域1115)を使い、プログラムを
動作させる。すると、図8で説明したように検索キーワ
ードを要求する画面が表われる。ユーザは入力手段11
23を通して検索キーワードを入力する。入力されたキ
ーワードは通信手段271116によりサーバー側に伝
送される。すると、サーバーは検索プログラム805を
動作させ、伝送されてきたキーワードもとに検索を開始
する。次に、得られた検索結果を通信ネットワークを介
してクライアント1に伝送する。クライアント1は伝送
されて保持されたインターフェイス作動プログラム80
5を使って結果をユーザに提示する。この時の表示内容
は図9に示したものと同じである。ユーザがここで本文
表示ボタンを選択すると、本文表示要求がネットワーク
を介してサーバー側に伝達され、サーバーが要求に応じ
て対応する文書をクライアント1に送り、クライアント
1の計算機上で動作しているインターフェイス作動プロ
グラム805が送付文書を画面上に表示する。この時の
表示内容は図10に示したものと同じである。ただし、
この時サーバー側の作業領域には送付文書のコピーが残
されるものとする。ユーザがさらに速読支援のスイッチ
1001をオンすると、その要求がネットワークを介し
てサーバーに送られ、サーバーは要求を受けて、作業領
域に残されている送付済文書を速読支援プログラムに送
る。速読支援プログラムは実施例2に示されたのと同じ
手順に従って、文書中の各文について、形態素解析、特
徴抽出、決定木動作プログラムによる重要文判定と、最
後にあらすじの抽出をおこなう。サーバーは、どの文を
どの色で表示するかといった情報をネットワークを介し
てクライアント1に送る。これによりクライアント1の
インターフェイス作動プログラムは文書中のそれぞれの
文の表示色を調整することが可能になる。
【0050】この動作はクライアント2についても同様
であるので説明は省略する。
【0051】実施例4 実施例3では、クライアントからの検索要求に対応して
サーバーから検索・速読支援インターフェイス作動プロ
グラム805を通信ネットワークを介してクライアント
1に伝送するものとしたが、これをあらかじめクライア
ントに配布しておき実施例3と同様に動作させるものと
することができる。この場合も、図11で説明したよう
に、ユーザが文書検索要求コマンドを入力手段1123
を用いて入力すると、クライアント1上のプログラム保
持手段1114に蓄積されているインターフェイス作動
プログラムが起動し、以後の動作手順は実施例3と同じ
ように処理がなされ遠隔地からの検索および速読支援を
可能とする。
【0052】
【発明の効果】上の説明から明かなように本発明によれ
ば、要約文は本文中そのままの形で表示されるため、要
約文前後の文脈が保存され要約の読解が容易になる。さ
らに、各段落の第1文目を要約とともに表示すること
で、内容のあらすじが理解可能となる。
【0053】なお、予めジャンル別の決定木を蓄積して
おき、これを参照するようにした場合、特定ジャンルに
特化した要約文判定が極めて効果的に行えるものとな
る。
【図面の簡単な説明】
【図1】本発明に係る速読支援方法のデータ処理の考え
方を示すブロック図。
【図2】速読支援の対象として採用された記事の例を示
す図。
【図3】図2の記事の各文に対して実施例の手続きによ
り特徴抽出をおこなった結果を示す図。
【図4】決定木の一例を示す図
【図5】図1のデータ処理の考え方を具体化したフロー
チャートを示す図。
【図6】図2の記事に対する速読支援の結果の表示例を
示す図。
【図7】本発明に係る文書速読支援方法を文書検索支援
装置へ適用した場合のデータ処理の考え方を示すブロッ
ク図。
【図8】図7に示す処理を実現する装置構成の一例を示
す図。
【図9】文書検索結果の表示形態の具体例を示す図。
【図10】文書検索結果に応じて特定の文書本体の表示
をさせたときの一具体例を示す図。
【図11】本発明に係る速読支援方法を適用した文書検
索支援サービスを遠隔地から受けるための実施形態の一
具体例を示す図。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】入力された文章について、文章中の各文に
    ついて所定のルールに従い特徴分析を行い、要約文か否
    かを決定し、要約文の場合は強調色、そうでない場合
    は、前記強調色とは異なった色でユーザに提示すること
    を特徴とする速読支援方法。
  2. 【請求項2】入力された文章が見出しと本文よりなる文
    章であって、該文章についてそのジャンルに関する情報
    を所定のルールに基づいて取得し、そのジャンルに対応
    する決定木を参照しながら、文章中の各文について所定
    のルールに従い特徴分析を行い、要約文か否かを決定
    し、要約文の場合は強調色、そうでない場合は、前記強
    調色とは異なった色でユーザに提示するとともに、入力
    された文章の各段落の第一文を要約文とは前記二つの色
    とは異る色でユーザに提示することを特徴とする速読支
    援方法。
  3. 【請求項3】文書データベースに格納された文書につい
    て、各文書から名詞などの単語群を抽出し、指定された
    検索キーワードと抽出された文書中の単語群との間の類
    似度に基づき、検索キーワードに適合した文書を選択す
    ること、該選択された文書のそれぞれに対して、文章中
    の各文について所定のルールに従い特徴分析を行い、要
    約文か否かを決定し、要約文の場合は強調色、そうでな
    い場合は、前記強調色とは異なった色でユーザに提示し
    て前記選択された文書の速読を支援することとよりなる
    文書検索方法。
  4. 【請求項4】見出しと本文よりなる文章を入力する手
    段、文章についてのジャンルに関する情報を保持する手
    段、前記入力された文章について所定のルールに基づい
    てジャンルに関する情報を取得し、そのジャンルに対応
    する決定木を参照しながら、文章中の各文について所定
    のルールに従い特徴分析を行い、要約文か否かを決定す
    る手段、前記要約文か否かの決定結果に応じて要約文の
    場合は強調色、そうでない場合は、前記強調色とは異な
    った色で表示し、かつ、入力された文章の各段落の第一
    文を要約文とは前記二つの色とは異る色で表示する手段
    とよりなることを特徴とする速読支援装置。
  5. 【請求項5】文書データベースに格納された文書につい
    て、各文書から名詞などの単語群を抽出し、ユーザから
    送信された検索キーワードと抽出された文書中の単語群
    との間の類似度に基づき、検索キーワードに適合した文
    書を選択すること、該選択された文書のそれぞれに対し
    て、文章中の各文について所定のルールに従い特徴分析
    を行い、要約文か否かを決定し要約文の場合は強調色、
    そうでない場合は、前記強調色とは異なった色で表示可
    能なデータとしてユーザに送信することを特徴とする文
    書検索サービス。
  6. 【請求項6】前記ユーザは、少なくとも、抽出すべきキ
    ーワードを持つ文書を特定するためのキーワードを伝送
    するための手段および前記送信された要約文か否かを決
    定したデータを要約文の場合は強調色、そうでない場合
    は、前記強調色とは異なった色で表示可能な手段を備え
    て検索サービスを受ける請求項5記載の文献検索サービ
    ス方法。
  7. 【請求項7】前記ユーザは、前記送信された要約文か否
    かを決定したデータを要約文の場合は強調色、そうでな
    い場合は、前記強調色とは異なった色で表示可能な表示
    ソフトとともに伝送されて検索サービスを受ける請求項
    5記載の文献検索サービス方法。
  8. 【請求項8】前記ユーザは、検索サービスを受けるため
    のユーザインタフェイス駆動ソフトを検索作業の開始時
    あるいは前もって検索サービス提供者から伝送を受け、
    これを駆動して検索サービスを受ける請求項5記載の文
    献検索サービス方法。
JP28930597A 1997-10-22 1997-10-22 速読支援装置 Expired - Fee Related JP3652086B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28930597A JP3652086B2 (ja) 1997-10-22 1997-10-22 速読支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28930597A JP3652086B2 (ja) 1997-10-22 1997-10-22 速読支援装置

Publications (2)

Publication Number Publication Date
JPH11126204A true JPH11126204A (ja) 1999-05-11
JP3652086B2 JP3652086B2 (ja) 2005-05-25

Family

ID=17741469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28930597A Expired - Fee Related JP3652086B2 (ja) 1997-10-22 1997-10-22 速読支援装置

Country Status (1)

Country Link
JP (1) JP3652086B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281165A (ja) * 2001-11-13 2003-10-03 Posco 文書要約方法及びシステム
US7181688B1 (en) 1999-09-10 2007-02-20 Fuji Xerox Co., Ltd. Device and method for retrieving documents
JP2012141772A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム
JP2017535000A (ja) * 2014-11-19 2017-11-24 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 文書内の潜在的重要事実を自動識別するシステム及び方法
CN110085066A (zh) * 2019-04-17 2019-08-02 北京小米移动软件有限公司 展示阅读信息的方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH022458A (ja) * 1988-06-10 1990-01-08 Matsushita Electric Ind Co Ltd 類似文書検索装置
JPH06259424A (ja) * 1993-03-02 1994-09-16 Ricoh Co Ltd 文書表示装置及び文書要約装置並びにディジタル複写装置
JPH08221420A (ja) * 1995-02-09 1996-08-30 Canon Inc 情報処理装置および情報処理方法
JPH0916625A (ja) * 1995-06-29 1997-01-17 Canon Inc 情報処理装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH022458A (ja) * 1988-06-10 1990-01-08 Matsushita Electric Ind Co Ltd 類似文書検索装置
JPH06259424A (ja) * 1993-03-02 1994-09-16 Ricoh Co Ltd 文書表示装置及び文書要約装置並びにディジタル複写装置
JPH08221420A (ja) * 1995-02-09 1996-08-30 Canon Inc 情報処理装置および情報処理方法
JPH0916625A (ja) * 1995-06-29 1997-01-17 Canon Inc 情報処理装置および方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181688B1 (en) 1999-09-10 2007-02-20 Fuji Xerox Co., Ltd. Device and method for retrieving documents
JP2003281165A (ja) * 2001-11-13 2003-10-03 Posco 文書要約方法及びシステム
JP2012141772A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム
JP2017535000A (ja) * 2014-11-19 2017-11-24 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 文書内の潜在的重要事実を自動識別するシステム及び方法
CN110085066A (zh) * 2019-04-17 2019-08-02 北京小米移动软件有限公司 展示阅读信息的方法、装置及电子设备
CN110085066B (zh) * 2019-04-17 2021-12-21 北京小米移动软件有限公司 展示阅读信息的方法、装置及电子设备

Also Published As

Publication number Publication date
JP3652086B2 (ja) 2005-05-25

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
US7783644B1 (en) Query-independent entity importance in books
US8554786B2 (en) Document information management system
US8527491B2 (en) Expanded text excerpts
US6480835B1 (en) Method and system for searching on integrated metadata
US8666962B2 (en) Speculative search result on a not-yet-submitted search query
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
JP2002222210A (ja) 文書検索システム、文書検索方法及び検索サーバ
JPH11102374A (ja) データベースの文書表示方法およびその装置
US20150172299A1 (en) Indexing and retrieval of blogs
US6505198B2 (en) Sort system for text retrieval
JP2001084255A (ja) 文書検索装置および方法
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003271609A (ja) 情報監視装置及び情報監視方法
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11126204A (ja) 速読支援方法、文書検索方法およびその装置
JP3683687B2 (ja) 情報フィルタリング装置および情報フィルタリング方法
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002222208A (ja) 文書検索システム、文書検索方法及び検索サーバ
JP2000105769A (ja) 文書表示方法
JPH09153064A (ja) 情報フィルタリング装置
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090304

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees