JP2006163525A - 文書処理装置、文書処理方法、及びコンピュータプログラム - Google Patents

文書処理装置、文書処理方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2006163525A
JP2006163525A JP2004350306A JP2004350306A JP2006163525A JP 2006163525 A JP2006163525 A JP 2006163525A JP 2004350306 A JP2004350306 A JP 2004350306A JP 2004350306 A JP2004350306 A JP 2004350306A JP 2006163525 A JP2006163525 A JP 2006163525A
Authority
JP
Japan
Prior art keywords
document
documents
sub
sentence
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004350306A
Other languages
English (en)
Inventor
Kenichi Abe
健一 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004350306A priority Critical patent/JP2006163525A/ja
Publication of JP2006163525A publication Critical patent/JP2006163525A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract


【課題】 複数の文書に対して全体要約文を作成する際に、当該複数の文書を1つの文書に結合してから作成すると、重要な文が適切に抽出されなかった。また、全体要約文を作成した後で、各文書の個別要約を見ようとすると、各文書ごとにもう一度要約処理を実行しなければならず、不便であった。
【解決手段】 複数の文書を要約対象として選択し、選択された複数の文書の各特徴量を抽出する。抽出された特徴量を用いて、選択された複数の文書に対する全体要約文と、選択された文書ごとの個別要約文とを作成する。
【選択図】 図3

Description

本発明は、複数の文書データについて、全体としての要約文データや個別の要約文データを作成する技術に関する。
近年のデジタル情報化社会においては、ネットワークを通じて電子化されたテキストが氾濫しており、その量は個人の情報処理能力をはるかに超えるものである。このため、文書管理の必要性とともに、文書の要約を作成し、それをユーザに提示することで、個人が読むテキストの量を緩和する文書要約機能が注目されている。
文書の要約を表示すれば、ユーザは文書を開かずに内容を把握できるので、必要なファイルかどうかも比較的容易に判断できる。これにより、必要のない文書を開いて読み、また閉じるといった無駄な作業を削減できる。
このような文書要約機能を実現するために、1つの文書内に含まれる各文に重要度のスコア付けを行い、指示された長さになるまでスコアの高いものから順に文を選んで結合して要約文を作成するという方法が広く行なわれている。スコア付けの方法としては、文の出現位置によりスコア付けを変化させる方法、キーワードの出現頻度により文のスコア付けを変化させる方法がある。前者の方法によれば、文書の先頭段落や最終段落には、大きなスコアが付けられる。一方、後者の方法によれば、出現頻度が高いキーワードを多く含む文に大きなスコアが付けられる。
特開2003−006214号公報。
従来の文書要約装置では、複数の文書に対して1つの要約文(全体要約文と称す。)を作成する際には、当該複数の文書を1つの文書に結合してから全体要約文を作成する必要があった。しかしながら、この結合によって、各文の出現位置が変更されてしまうため、重要な文が適切に抽出されなくなるという問題があった。
また、複数の文書に対する全体要約文を作成した後で、各文書の個別的な要約文(個別要約文と称す。)を見ようとすると、各文書ごとにもう一度要約処理を実行しなければならず、不便であった。
上記問題を解決するために、本発明によれば、複数の文書を要約対象として選択し、選択された複数の文書の各特徴量を抽出し、抽出された特徴量を用いて、選択された複数の文書に対する全体要約文と、選択された文書ごとの個別要約文とを作成する技術が提供される。
本発明によれば、選択された複数の文書の各特徴量を抽出することで、選択された複数の文書に対する全体要約文と、選択された文書ごとの個別要約文とのうち少なくとも一方が好適に提供される。とりわけ、複数の文書を結合させることなく全体要約文を作成できるので、重要な文書が抽出されない確率を低減できる。
また、全体要約文を作成するとともに、個別要約文も作成するので、両者を個別に作成する場合に比較し、効率よく要約文を入手できる。
以下に本発明の上位概念、中位概念および下位概念の理解に役立つ一実施形態を示す。なお、以下の実施形態に含まれる概念について、そのすべてが特許請求の範囲に記載されているとは限らない。ただし、これは特許発明の技術的範囲から意識的に除外したのではなく、特許発明と均等の関係にあるため特許請求の範囲には記載していない場合があることを理解していただきたい。
図1は、実施形態に係る文書処理装置の例示的なブロック図である。図1において、マイクロプロセッサ(CPU)101は、文書要約処理にともなう演算、論理判断等を行なったり、アドレスバスAB、コントロールバスCB、データバスDBを介して、それらのバスに接続された各構成要素を制御したりする制御装置である。
アドレスバスABを介して、CPU101は、制御の対象となる構成要素を指定するためのアドレス信号を送出する。コントロールバスCBを介して、CPU101は、制御の対象となる各構成要素に対してコントロール信号を送出する。データバスDBは、各構成要素相互間のデータ転送経路として機能する。
ROM102は、本実施形態に係る文書要約処理プログラム(文書要約アプリケーション)等の制御プログラムコードを記憶する読み出し専用の記憶装置である。RAM103は、各構成要素から送られた各種データを一時的に記憶する書き込み可能な記憶装置である。外部メモリ(DISK)104は、文書要約機能を実現するプログラムコードを格納する記憶装置である。外部メモリ(DISK)104は、ハードディスクドライブなどであり、複数の文書をデータとして格納するデータベースの機能を果たす。表示用ビデオメモリ(VRAM)106は、表示すべきデータの表示パターンを蓄積する記憶装置である。
キーボード(KB)105は、アルファベットキー、ひらがなキー、カタカナキー、句読点等の文字記号入力キー、カーソル移動を指示するカーソル移動キー等の各種の機能キーを備える入力装置である。なお、入力装置として、さらに、不図示のポインティングデバイスを備えていてもよい。
CRTコントローラ(CRTC)107は、VRAM106に蓄えられた内容を後述のCRT108に表示する機能を備える制御回路である。CRT108は、陰極線管、液晶パネル等の表示装置であり、CRTC107による制御に応じて、ドット構成の表示パターンやカーソルなどを表示する。ネットワークコントローラ(NIC)109は、情報処理装置をEthernet(登録商標)などのネットワークに接続する通信回路である。
かかる各構成要素からなる情報処理装置は、キーボード(KB)105からの各種の入力及びネットワークコントローラ(NIC)109から供給されるネットワーク経由の各種の入力に応じて作動する。すなわち、キーボード(KB)105からの入力またはネットワークコントローラ(NIC)109から入力が供給されると、まず、インタラプト信号がマイクロプロセッサ(CPU)101に送られる。次に、マイクロプロセッサ(CPU)101は、外部メモリ(DISK)104内に記憶してある各種の制御信号を読み出し、それらの制御信号に従って各種の制御を実行する。
図2は、実施形態に係る装置の例示的な機能ブロック図である。なお、以下で説明する各モジュールはソフトウエアモジュールとして説明するが、一部または全部が同様の機能を有するハードウエアモジュールに置き換えられてもよい。
要約対象文書選択部201は、キーボード105やポインティングデバイスから入力された選択指示に応じて、要約対象となる複数の文書を選択するモジュールである。文書分割処理部202は、文書を章、節または段落など所定単位に分割して、サブ文書を生成するモジュールである。文書特徴量抽出部203は、選択部201によって選択された要約対象文書と、分割処理部202によって分割されて生成されたサブ文書とからそれぞれ特徴量を抽出するモジュールである。要約対象文書保持部204は、選択部201により選択された文書を記憶装置に記憶して保持するモジュールである。本実施形態では、保持部204は、n番目の文書を次のようなデータdnとして保持する。nは、1ないしM(Mは総文書数)の整数をとる。なお、本実施の形態における「文書」は「文書ファイル」に格納されたテキストデータ,文書画像データを指すものとするが、マウス等で範囲指定することで選択されたデータであってもよい。
=(t(n)、v(d))
ここで、t(n)は、要約対象文書のテキストデータである。v(d)は、抽出部203によって抽出された特徴ベクトルである。すなわち、これは、ベクトル空間モデルに基づいてテキストt(n)の特徴を表現したベクトルである。
また、テキストデータt(n)に含まれるi番目のサブ文書をt(n)とすると、各サブ文書の特徴量は、次のように表現できる。
n,i=(t(n)、v(dn,i))
ここで、iは、1〜m(mはサブ文書の数)の整数である。
文書要約部205は、文書、あるいはサブ文書から抽出された特徴量に基づいて、各文にスコア付けを行い、要約文を作成するモジュールである。要約結果保持部206は、文書要約部205で作成された要約文を保持するモジュールである。要約結果表示部207は、要約結果をユーザに提示するモジュールである。
図3は、実施形態に係る文書要約処理の例示的なフローチャートである。本フローチャートは、図1に示されるCPU101や他の構成要素によって実行されるものとして説明する。
ステップS301において、CPU101は、キーボード105やポインティングデバイスによって、新規に要約対象となる文書(またはそのテキストデータ)が選択されたか否かを判定する。テキストデータを含む文書ファイルについては、予め外部メモリ104に記憶されているものとする。文書が選択されたならば、ステップS302に移る。選択されていない場合は、ステップS301を繰り返し、新たな文書またはそのテキストデータt(n)が選択されるのをCPU101は待つ(nは文書の番号である。)。本ステップは、上述の要約対象文書選択部201の機能に相当する。
ステップS302において、CPU101は、n番目の文書のテキストデータt(n)を外部メモリ104から読み出し、サブ文書t(n) (i=1,…,N)に分割し、それぞれRAM103に記憶する。すなわち、サブ文書t(n)は、n番目の文書におけるi番目のサブ文書を意味する。サブ文書t(n)は、章、節、あるいは文など所定単位からなる。どの単位で分割するかについては、予め文書要約プログラム内においてプログラム化されていてもよいし、外部メモリ104に記憶されていてもよいし、キーボード105などの入力装置から指示されてもよい。なお、これらの処理は、文書分割処理部202の機能に相当する。
ステップS303において、CPU101は、テキストデータt(n)についての特徴ベクトルV(d)、およびサブ文書t(n)に対する特徴ベクトルV(dn,i)を求め、これらの特徴量に関する情報をRAM103に記憶する。これらの処理は、文書特徴量抽出部203の機能と、要約対象文書保持部204の機能とに相当する。そしてステップS304へ移る。なお、特徴ベクトルの算出方法について後述する。
ステップS304において、CPU101は、外部メモリ104に記憶されている要約対象の文書について、キーボード105などの入力装置から要約処理の実行が指示されたか否かを判定する。要約処理の実行が指示されたならば、ステップS305へ移る。実行が指示されていない場合は、ステップS301に戻り、新規の要約対象文書が選択されるのを待つ。これらの処理は、要約処理部205の機能に相当する。
ステップS305において、CPU101は、RAM103から、特徴ベクトルを読み出して、要約処理サブルーチンを実行し、作成された要約文のデータをRAM103または外部メモリ104に記憶し、ステップS306へ移る。要約処理サブルーチンについては図5を用いて後述する。なお、本処理は、要約処理部205の機能と、要約結果保持部206の機能とに相当する。
ステップS306において、CPU101は、作成された要約文のデータをRAM103等から読み出し、表示装置108に要約文を表示する。本処理は、要約結果表示部207の機能に相当する。
図4は、実施形態に係るユーザインタフェースの一例を示す図である。ウインドウ401は、文書要約アプリケーションを実行したときに表示されるメインウインドウである。メニュー402は、文書要約アプリケーションのプルダウンメニューの1つである。例えば、当該メニュー402内の[要約]アイテム403を選択することによって、ステップS304がYesとなり、選択された複数の文書についての文書要約処理が実行される。
アイコン404は、要約対象として選択された文書ファイルを示している。これらの文書ファイルは、たとえば、一般的なファイルビューアなどから選択されて、文書要約アプリケーションへとドラッグアンドドロップされることで、文書要約アプリケーションにインポートされる。405は、要約対象文書を表示するビューアである。ビューア405へと文書ファイルがインポートされるたびに、ステップS302、ステップS303が順次実行され文書の特徴ベクトルが生成される。
図5は、実施形態に係る要約サブルーチンの例示的なフローチャートである。当該サブルーチンは、ステップS305に相当する。
ステップS501において、CPU101は、n番目の文書におけるi番目のサブ文書の特徴ベクトルV(dn,i)と、他の文書t(m)の特徴ベクトルV(d)とをRAM103から読み出し、類似度S(dn,i, d)を算出し、RAM103に記憶する。類似度S(dn,i, d)は、例えば、次のような式から算出できる。なお、上述したようにiは1〜Nであり、nおよびmは1〜Mである。
Figure 2006163525
ステップS502において、CPU101は、n番目の文書に含まれるi番目のサブ文書について、m番目の文書に対して算出した類似度をRAM103から読み出すとともに、これまでに算出した和も読み出し、両者を加算し、加算して得られた和の値をRAM103に記憶し、ステップS503に移る。各サブ文書の類似度の総和は、次式で表現できる。
Figure 2006163525
ステップS503において、CPU101は、全ての文書に対する類似度の総和を完了したか否かを判定する。たとえば、m<Mであれば、まだ、総和が完了していないことになり、m=Mであれば、総和が完了したことになる。総和が完了していれば、ステップS504へ移る。その際には、変数iを1つインクリメントする。また、変数mを1に初期化する。一方、総和が完了していなければ、mを1つインクリメントして、ステップS501に戻り、新たな次の文書ベクトルとの類似度を算出する。
ステップS504において、CPU101は、全てのサブ文書についての類似度の算出が完了したか否かを判定する。たとえば、i<Nであれば、まだ全てのサブ文書について類似度の算出が完了されていないことになり、i=Nであれば、完了したことになる。完了していれば、iを1に初期化するとともに、nを1つインクリメントして、ステップS505へ移る。完了していなければ、iを1つインクリメントして、ステップS501に戻り、次のサブ文書についての類似度を計算する。
ステップS505において、CPU101は、n番目の文書に含まれる各サブ文書の類似度をRAM103から読み出し、読み出された類似度に基づいてn番目の文書に含まれるサブ文書を昇順(1,2,3…)にソートし、ステップS506へ移る。
ステップS506において、CPU101は、ソートされたサブ文書について、類似度が最も小さいサブ文書から順にそのテキストデータを外部メモリ104から読み出して文字数をカウントし、カウントにより得られた文字数を総和してゆく。もし、文字数の総和が、本実施の形態の処理プログラムによって予め定められた個別要約文の文字数を超えた場合に、超える直前のサブ文書までを個別要約文の構成要素として選択する。
たとえば、N個のサブ文書のうち、類似度の低いサブ文書から順にk番目のサブ文書までの文字数を総和したときにはじめて所定の文字数を超えた場合には、1番目からk−1番目までのサブ文書のテキストデータを個別要約文の構成要素として選択する。CPU101は、読み出された各サブ文書について、当該サブ文書を含んでいた元の文書における当該文書の出現位置を取得する。
たとえば、ステップS302でサブ文書を作成したときに、文書の最初から最後にかけて順番に1ないしNの番号を付し、各サブ文書と当該順番とをRAM103に記憶しておいた場合には、CPU101は、RAM103から当該順番を読み出すことで、各サブ文書の出現位置を取得できる。続いて、CPU101は、取得した出現位置のデータに応じて、サブ文書の順番を並び替える。
たとえば、類似度のソートにより得られた複数のサブ文書について、元の文書で最初に出現したサブ文書を先頭とする。CPU101は、並び替えられた複数のサブ文書を結合して個別要約文を作成し、RAM103に記憶する。このように、他の文書とは関連性が低いが、その文書に特有の話題(サブ文書)をその文書の個別要約文として抽出できる。
ステップS507において、CPU101は、全ての要約対象文書について個別要約文が完成したか否かを判定する。たとえば、要約対象文書の数をカウントする変数nが、n<Mであれば、まだ完成していないと判定し、一方、n=Mであれば、全て完成したと判定できる。全ての文書について個別要約文が完成したならばステップS508へ移る。要約されていない文書がまだ存在したならば、変数nを1つインクリメントするとともに、変数iと変数mとをそれぞれ1に初期化してステップS501に戻り、個別要約文の作成を継続する。
ステップS508において、CPU101は、すべての要約対象文書の各サブ文書についてそれぞれ算出した類似度をRAM103から読み出し、類似度の高い順に(降順に)各サブ文書をソートする。
ステップS509において、ソートされたサブ文書について、類似度が最も高いサブ文書から順番にいくつかのサブ文書を外部メモリ104から読み出し、全体要約文を作成する。たとえば、個別要約文の作成手法と同様の手法を採用してもよい。たとえば、CPU101は、ソートされたサブ文書について、類似度が最も高いサブ文書から順にそのテキストデータを外部メモリ104から読み出して文字数をカウントし、カウントにより得られた文字数を総和してゆく。もし、文字数の総和が、予め定められた全体要約文の文字数を超えた場合に、超える直前のサブ文書までを全体要約文の構成要素として選択する。たとえば、N個のサブ文書のうち、類似度の高いサブ文書から順にk番目のサブ文書までの文字数を総和(このときの文字数の総和は個別要約文より長いものとする)したときにはじめて所定の文字数を超えた場合には、1番目からk−1番目までのサブ文書のテキストデータを選択する。CPU101は、選択された複数のサブ文書を結合して全体要約文を作成し、RAM103に記憶する。
なお、全体要約文の作成において選択された複数のサブ文書の並びは、類似度の高い順番であってもよいし、上述したように、もとの文書における出現位置を考慮してもよい。出現位置を考慮する場合は、各要約対象文書の長さがそれぞれ異なる可能性があるため、出現位置を段落、節、文で定義することはできない。そこで、絶対的な出現位置をその文書の長さでわって、相対的な出現位置を算出し、算出された相対的な出現位置に応じて、サブ文書を並び替えてもよい。たとえば、もとの文書が100段落からなり、処理対象のサブ文書がその中で10段落目に出現する場合は、相対的な出現位置のデータは、10/100=0.1となる。また、他の文書が300段落からなり、他の処理対象のサブ文書がその中で150段落目に出現する場合は、出現位置のデータは、150/300=0.5となる。よって、全体要約文の中では、前者のサブ文書が後者のサブ文書よりも前に配置されることになろう。
図6は、実施形態に係る要約アプリケーションのユーザインタフェースの一例を示す図である。ウインドウ601は、本実施形態に係る文書要約アプリケーションのメインウインドウを示している。ファイルビューア部602は、全ての要約対象文書を表示する表示部である。ユーザは、ファイルビューア部602に表示されている任意のファイルを選択することにより、そのファイルの要約文を表示させることができる。なお、ファイルビューア部602において、各文書ファイルは、アイコン603として表示される。この例では、「file1.txt」が、マウスなどのポインティングデバイスによるクリック操作によって選択された状態となっている。第1の要約文表示ビューア604は、上述の全体要約文を表示するための表示部である。すなわち、すべての要約対象文書について共通の部分を反映した要約文が表示される。第2の要約文表示ビューア605は、個別要約文を表示するための表示部である。すなわち、ファイルビューア部602内で選択されている文書の個別要約文が表示される。個別要約文は、他の文書とは関連性が低い、その文書に特有な情報を抽出して作成されているため、選択した文書の特徴を素早く把握することができる。
以上説明したように、本実施形態に係る発明によれば、複数の文書について関連性の高い部分を全体要約文として提示するとともに、各文書ごとに特有な部分を個別要約文として提示するようにしたので、ユーザは、両方要約文を比較して、各文書における他の文書との違いを見つけやすくなる。すなわち、各文書の内容を把握するスピードや把握内容の正確さを向上させることに、本発明は貢献できよう。
以下では、ステップS303において使用可能な特徴ベクトルの算出方法の一例を紹介する。この例では、対象文書から文書ベクトルを算出する際には、文書内に出現する単語と、外部メモリ(DISK)104に格納される辞書DICとが用いられる。
図7は、実施形態に係る辞書DICの内部構成を示す図である。同図に示すように、辞書DICは、単語ごとに、ベクトル表現時のそれぞれの次元(Dim.)に対応する特徴量が格納されている。次元は、その単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。単語1に関するDim.01の特徴量は0であり、Dim.02の特徴量は23であることが図から分かる。
このように辞書DICから、1つの単語についての各次元(Dim.)の特徴量を得ることが可能となる。特徴量は、その単語が使用されることにより、その文書がその分類基準(=次元)をどれくらい特徴付ける可能性があるかを示す値と解釈することが可能である。文書を構成する全ての単語から得られた分類基準別(次元別)の特徴量から、文書全体の特徴量を分類基準(=次元)とするベクトルで表現する。得られたベクトルをノルム=1で正規化した値を文書ベクトルとして格納する。
図8は、実施形態に係る格納された文書ベクトルの状態の一例を示す図である。同図に示すように、例えば、文書ID=6947の文書ベクトルのDim.01の特徴量は、0.183であり、Dim.02の特徴量は、0.214であることが図から分かる。
なお、本発明で採用可能な特徴ベクトルの算出方法は、上記の例に限定されることはなく、種々の算出方法を採用できることは言うまでもない。なぜなら、本発明は、特徴ベクトルの算出方法に依存する技術ではないからである。
[他の実施形態]
上述の説明では、要約対象の文書を外部メモリ(DISK)104に配置するものとして説明したが、これらを複数の外部記憶装置に分散配置してもよい。また、ネットワークコントローラ109を介して当該文書を受信して要約処理してもよい。
また、上述の実施形態では、要約文を抽出する際にベクトル空間モデルによる類似度計算手法を用いたが、他の手法を用いてもよい。たとえば、idf(inverse document frequency:文書数をMとし、ある単語を含む文書数をDFとしたときの、log(N/DF)+1の値)などを用いて、その文書に特有な情報を抽出し、個別要約文を作成する。また、tf(term frequency:ある単語の全文書中の頻度)またはdf(document frequency:文書頻度)などを用いて、すべての文書に対して関連性の高い部分を抽出し、全体要約文を作成してもよい。
また、上述の実施形態では、全ての要約対象文書に対して自動的に全体要約文と個別要約文とを作成したが、個別要約文については、図6の要約アプリケーション上で選択された文書についてだけ作成してもよい。この場合、ステップS505と、ステップS506については、選択された文書についてだけCPU101が実行する。また、ステップS506において、全ての文書についてサブ文書の類似度算出が完了したかどうかをCPU101が判定することになる。これにより、計算量が削減される。あるいは、図5において、ステップS505とS506を省略し、別途、任意の文書が選択されたことをCPU101が検出したときに、個別要約文書を作成してもよい。この場合、ステップS509において、全体要約文を作成した後も、各サブ文書について算出した類似度をRAM103または外部メモリ104に引き続き記憶しておけば、再度の類似度の計算は不要となる。
以上、様々な実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。例えば、スタンドアローンのPCで実現してもよいし、クライアントコンピュータとサーバコンピュータとによって実現してもよい。後者の場合は、クライアントコンピュータにおいて、要約対象となる文書を選択して要約リクエストをサーバコンピュータに送信する。サーバコンピュータは、当該リクエストを受信すると、要約対象となる文書データを読み出し、ステップS302ないしステップS305を実行し、作成された全体要約文と個別要約文とをクライアントコンピュータに送信する。クライアントコンピュータは、全体要約文と個別要約文とを受信して、表示装置に表示することになる。
なお、本発明は、前述した実施形態の各機能を実現するソフトウェアプログラム(本実施形態では図3、または図5に示すフローチャートに対応したプログラム)を、システム若しくは装置に対して直接または遠隔から供給し、そのシステム若しくは装置に含まれるコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。
従って、本発明の機能・処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(ROM,−R、−RW、+R、+RW、RAMおよびその他)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明の構成要件となる場合がある。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
図1は、実施形態に係る文書処理装置の例示的なブロック図である。 図2は、実施形態に係る装置の例示的な機能ブロック図である。 図3は、実施形態に係る文書要約処理の例示的なフローチャートである。 図4は、実施形態に係るユーザインタフェースの一例を示す図である。 図5は、実施形態に係る要約サブルーチンの例示的なフローチャートである。 図6は、実施形態に係る要約アプリケーションのユーザインタフェースの一例を示す図である。 図7は、実施形態に係る辞書DICの内部構成を示す図である。 図8は、実施形態に係る格納された文書ベクトルの状態の一例を示す図である。
符号の説明
101 … マイクロプロセッサ(CPU)
102 … ROM
103 … RAM
104 … 外部メモリ(DISK)
105 … キーボード(KB)
106 … 表示用ビデオメモリ(VRAM)
107 … CRTコントローラ(CRTC)
108 … 表示装置(CRT)
109 … ネットワークコントローラ(NIC)

Claims (9)

  1. 複数の文書を要約対象として選択する選択部と、
    選択された複数の前記文書の各特徴量を抽出する特徴量抽出部と、
    抽出された前記特徴量を用いて、選択された前記複数の文書に対する全体要約文と、選択された前記文書ごとの個別要約文とを作成する文書要約部と
    を含むことを特徴とする文書処理装置。
  2. 前記特徴量抽出部は、
    選択された前記各文書を、章、節または段落などの所定単位に分割してサブ文書を生成する文書分割処理部と、
    生成された前記サブ文書ごとの特徴量を算出する特徴量算出部と
    を含む請求項1に記載の文書処理装置。
  3. 前記文書要約部は、
    前記各文書の特徴量と前記各サブ文書の特徴量とを比較することで、選択された前記複数の文書に対して相対的に関連性が高い一以上のサブ文書を抽出する共通文抽出部と、
    抽出された一以上の前記サブ文書を結合して、選択された前記複数の文書に対する前記全体要約文を作成する作成部と
    を含む請求項2に記載の文書処理装置。
  4. 前記共通文抽出部は、
    前記各文書の特徴量と前記各サブ文書の特徴量とから、該サブ文書ごとの類似度を算出する類似度算出部と、
    算出された類似度が最も高いサブ文書から、それぞれ結合した際に所定の文字数となるまでのサブ文書までを、順次読み出す読み出し部と
    を含む請求項3に記載の文書処理装置。
  5. 前記文書要約部は、
    前記各文書の特徴量と前記各サブ文書の特徴量とを比較することで、該文書ごとに、他の文書に対して相対的に関連性の低いサブ文書を抽出する非共通文抽出部と、
    抽出された一以上の前記サブ文書を結合して、選択された前記文書ごとの前記個別要約文を作成する作成部と
    を含む請求項2に記載の文書処理装置。
  6. 前記非共通文抽出部は、
    前記各文書の特徴量と前記各サブ文書の特徴量とから、該サブ文書ごとの類似度を算出する類似度算出部と、
    算出された類似度が最も低いサブ文書から、それぞれ結合した際に所定の文字数となるまでのサブ文書までを、順次読み出す読み出し部と
    を含む請求項5に記載の文書処理装置。
  7. 前記文書要約部は、
    前記個別要約文の作成対象となる文書を指定する指定手段と、
    指定された前記文書についてだけ、前記個別要約文を作成する個別要約文作成部と
    を含む請求項1に記載の文書処理装置。
  8. 複数の文書を要約対象として選択する選択ステップと、
    選択された複数の前記文書の各特徴量を抽出する特徴量抽出ステップと、
    抽出された前記特徴量を用いて、選択された前記複数の文書に対する全体要約文と、選択された前記文書ごとの個別要約文とを作成する文書要約ステップと
    を含むことを特徴とする文書処理方法。
  9. 記憶装置と制御装置とを含むコンピュータに対し、
    前記記憶装置に記憶されている複数の文書データを、前記制御装置により、要約対象として選択する選択ステップと、
    選択された複数の前記文書データを前記記憶装置から順次読み出し、読み出された該文書データごとの特徴量を、前記制御装置により、抽出する特徴量抽出ステップと、
    抽出された前記特徴量を用いて、選択された前記複数の文書データに対する全体要約文データと、選択された前記文書ごとの個別要約文データとを、前記制御装置により、作成する文書要約ステップと
    を実行させるコンピュータプログラム。
JP2004350306A 2004-12-02 2004-12-02 文書処理装置、文書処理方法、及びコンピュータプログラム Withdrawn JP2006163525A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004350306A JP2006163525A (ja) 2004-12-02 2004-12-02 文書処理装置、文書処理方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004350306A JP2006163525A (ja) 2004-12-02 2004-12-02 文書処理装置、文書処理方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2006163525A true JP2006163525A (ja) 2006-06-22

Family

ID=36665508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004350306A Withdrawn JP2006163525A (ja) 2004-12-02 2004-12-02 文書処理装置、文書処理方法、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006163525A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077459A (ja) * 2006-09-22 2008-04-03 Yokohama National Univ 対話型複数文書要約装置
JP2013206433A (ja) * 2012-03-29 2013-10-07 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法
JP2017151863A (ja) * 2016-02-26 2017-08-31 国立大学法人東京工業大学 文書要約装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077459A (ja) * 2006-09-22 2008-04-03 Yokohama National Univ 対話型複数文書要約装置
JP2013206433A (ja) * 2012-03-29 2013-10-07 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法
JP2017151863A (ja) * 2016-02-26 2017-08-31 国立大学法人東京工業大学 文書要約装置

Similar Documents

Publication Publication Date Title
US7769771B2 (en) Searching a document using relevance feedback
US8375027B2 (en) Search supporting apparatus and method utilizing exclusion keywords
JP5117685B2 (ja) 情報を意味的にズームするためのシステム及び方法
US20060282818A1 (en) Interactive formula builder
US9081765B2 (en) Displaying examples from texts in dictionaries
JP2004157981A (ja) 要約表現装置
US20010011266A1 (en) Electronic manual search system, searching method, and storage medium
US20050131931A1 (en) Abstract generation method and program product
JP2004206476A (ja) データベースシステム、端末装置、検索データベースサーバ、検索キー入力支援方法及びプログラム
US20200278971A1 (en) Document retrieval apparatus and document retrieval method
CA2431183A1 (en) Method and system for natural language recognition command interface and data management
JP2937519B2 (ja) 文書検索装置
US8370344B2 (en) Information processing apparatus, information processing method, information processing program and recording medium for determining an order of displaying search items
JP2013050890A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JPH07129605A (ja) 文書検索装置
JP2009237755A (ja) 関連語検索方法及び装置、関連語検索プログラム、コンテンツ検索方法及び装置、並びにコンテンツ検索プログラム
JP2006163525A (ja) 文書処理装置、文書処理方法、及びコンピュータプログラム
JP2011103027A (ja) 文書表示装置、文書表示方法および文書表示プログラム
US6556212B1 (en) Method and apparatus for displaying a chain of rotating color output units on a displayer of a data processing system
JP4972271B2 (ja) 検索結果提示装置
JPH10301929A (ja) 文書処理装置、文書処理方法及び記録媒体
KR100901256B1 (ko) 응용프로그램 구동시 검색창 제공에 의한 네트워크 검색방법
JP2006252294A (ja) 文書処理装置、文書処理方法、及び記憶媒体
JP4750674B2 (ja) データ表示制御プログラム、データ表示制御方法およびデータ表示制御装置
JP2831837B2 (ja) 文書検索装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080205