JP2009217802A

JP2009217802A - 文書処理装置、文書処理プログラムおよび記録媒体

Info

Publication number: JP2009217802A
Application number: JP2008176387A
Authority: JP
Inventors: Chiiben O; ▲ちー▼▲べん▼ 王; Ning Le; 寧楽; Qi Zhu; 奇朱; 晨 ▲しゅー▼; Chen Xu; Bo Wu; 波呉
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-03-06
Filing date: 2008-07-04
Publication date: 2009-09-24
Anticipated expiration: 2028-07-04
Also published as: CN101526938B; CN101526938A; JP4861375B2

Abstract

【課題】ユーザの好みが反映された要約を作成することができる文書処理装置を提供する。
【解決手段】入力部１１によって文書が入力されると、前処理部１２が入力された文書を複数の単語に分離する。重要度算出部１４は、単語の頻度に基づく特徴値を算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する。ユーザによってキーワードが入力された場合は、単語の頻度およびキーワードに基づく特徴値を算出し、算出した特徴値に基づいて文の重要度を算出する。要約生成部１５は、算出された文の重要度に基づいて、文の重要度が高い順に所定数の文を選択して、入力された文書の要約を生成し、表示部１６は、生成された要約を表示する。
【選択図】図２

Description

本発明は、複数の文からなる文書に基づいて、該文書の要約を作成して表示する文書処理装置、文書処理プログラムおよび記録媒体に関する。

ネットワーク通信技術、オフィスオートメイション（ＯＡ）技術の発達により、移動、保存、閲覧可能な情報量が急速に増加している。

ユーザは、このような環境において、大量の情報の中から必要な情報を短時間で適切に取捨選択し、これを保存したり加工したりする必要がある。

必要な情報を選択するためには、情報の要約を利用することが有効である。要約を読むことで、短時間で情報全体の必要性を見極めることができる。ただし、適切に情報を選択するためには、要約の内容が情報全体を正確に表しているかどうかが重要となる。

より正確な、情報全体を表す要約を人間が作成する場合は、一旦情報を読んだ上で情報の要点は何か、誰に向けられた情報であるのか、いつ作成された情報であるのかなど、情報自体に加え、当該情報以外の情報も加味して正確な情報を作成することができる。これに対して、文書処理装置による要約、いわゆる自動要約は、情報そのものに含まれる個別の情報のみを考慮して要約を作成する必要がある。

したがって、従来より自動要約を行うための各種技術に対する研究が数多くなされている。

自動要約技術は、基本的に文章中に含まれる各文について重要度を算出し、その重要度に応じて、重要度の高い文、重要度の高い段落などを所定数抜き出し、抜き出したものの集合を要約とする。重要度の算出にも様々な方法があり、文に含まれる単語それぞれの重要度から文の重要度を算出したり、文が文書全体のどの位置にあるかによって重要度算出する方法などがある。

単語それぞれの重要度は、さらに単語の出現頻度、タイトルに含まれる単語であるかどうか、接続詞の種類、手がかり語であるかどうかなどに細分化され、これらを判断して最終的に１つの文の重要度を算出する（特許文献１参照）。

従来の自動要約技術では、上記のように文章に含まれる各文から、予め定める算出方法によって重要度を算出し、算出した重要度に基づいて要約を作成するため、文章自体に含まれる以上の情報は加味されない。

したがって、従来の技術により作成される要約の安定性は、常に一定レベルの要約が作成できるという意味では安定しているが、特定の単語に注目した要約などユーザの好みが反映された要約を作成することはできない。

中国公開特許公報ＣＮ１６１４５８７Ａ

本発明の目的は、ユーザの好みが反映された要約を作成することができる文書処理装置、文書処理プログラムおよび記録媒体を提供することである。

本発明は、文書を入力する入力部と、
前記入力部により入力された文書を複数の単語に分離する前処理部と、
前記前処理部で分離された単語の少なくとも頻度に基づく特徴値を算出し、前記算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する重要度算出部と、
前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成する要約生成部と、
前記要約生成部により生成された要約を表示する表示部と、
前記表示部により表示された要約に基づいて単語を入力する単語入力部とを備え、
前記要約生成部により生成された入力文書の要約を、前記表示部により表示したのち、
前記単語入力部により単語が入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、前記表示部は、前記要約生成部により生成された要約を再表示することを特徴とする文書処理装置である。

また本発明は、前記文書は、複数の文で構成される文書本体とタイトルとで構成され、
前記重要度算出部は、前記タイトルに含まれる単語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする。

また本発明は、前記重要度算出部は、予め定める手がかり語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする。

また本発明は、前記単語入力部は、前記前処理部によって分離された単語の中から選択することで特定の単語を入力することを特徴とする。

また本発明は、前記単語入力部によって単語が再度入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再度算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに再度算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を再度選択し、入力された文書の要約を再度生成し、前記表示部は、前記要約生成部により生成された要約を再度表示することを特徴とする。

また本発明は、コンピュータを上記の文書処理装置として機能させるための文書処理プログラムである。

また本発明は、コンピュータを上記の文書処理装置として機能させるための文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によれば、入力部によって文書が入力されると、前処理部が入力された文書を複数の単語に分離する。

重要度算出部は、少なくとも分離された単語の頻度に基づく特徴値を算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する。

要約生成部は、算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、表示部は、生成された要約を表示する。

要約生成部により生成された入力文書の要約が、前記表示部により表示されたのち、単語入力部によって、表示された要約に基づいて単語が入力された場合は、単語の頻度および入力された単語に基づく特徴値を再算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する。

要約生成部は、重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、表示部は、要約生成部により生成された要約を再表示する。

ユーザが、表示された要約に基づいて単語を入力すると、単語の頻度に加えて、入力された単語に基づく特徴値を算出して文の重要度を算出するので、入力された単語を介してユーザの好みが反映された要約を作成し、作成された要約を表示することができる。

また本発明によれば、文書のタイトルに含まれる単語に基づく特徴値を加味して要約が生成されるので、より正確な要約を作成することができる。

また本発明によれば、予め定める手がかり語に基づく特徴値を加味して要約が生成されるので、より正確な要約を作成することができる。

また本発明によれば、前処理部によって分離された単語の中から選んで特定の単語を入力するので、文書に含まれる単語を確実に入力することができる。

また本発明によれば、単語入力部によって単語が再度入力されると、文の重要度を再度算出し、算出された重要度に基づいて、要約の生成、生成された要約の再表示を行う。

これにより、ユーザが単語を入力するごとに、入力された単語に基づく再計算が行われ、新たに要約が生成されて表示されるので、ユーザの好みがさらに反映された要約を作成することができる。

また本発明によれば、文書処理プログラム、文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体として提供することができる。

以下図面を参考にして本発明の好適な実施形態を詳細に説明する。
図１は、文書処理装置１０の機械的構成を示すブロック図である。文書処理装置１０は、プロセッサ４と、プロセッサ４が実際の処理を行うためのソフトウェアなどを格納する外部記憶装置５とを含む。

プロセッサ４は、入力された文書データから要約を生成する要約生成処理などを実際に行う。プロセッサ４における実際の処理は、外部記憶装置５に格納されるソフトウェアによって実行される。プロセッサ４は、たとえば通常のコンピュータ本体などで構成される。

外部記憶装置５は、たとえば高速アクセスが可能なハードディスクなどで構成することができる。外部記憶装置５は、文書データを大量に保持するために光ディスクなどの大容量デバイスを用いるような構成であっても構わない。後述する文法辞書、類義語辞書、分類辞書などは、外部記憶装置５にて構成される。また、要約生成処理中に各処理ステップの段階で作成された一時的なデータのなどは、外部記憶装置５に記憶してもよいし、プロセッサ４に内蔵される半導体メモリに記憶してもよい。

文書処理装置１０には、キーボード１が接続されるとともに、表示装置３が接続される。キーボード１は、文書データの入力、キーワードの入力、各種ソフトウェアを実行するための指示の入力などに用いられる。さらにキーボード１は、後述する要約生成処理における設定値の変更入力にも用いられる。

表示装置３は、要約の元になる元文書、生成された要約文、要約生成処理を行うためのユーザインターフェイスなどを出力して表示する。

文書処理装置１０には、イメージスキャナ２がさらに接続される。イメージスキャナ２は、文書が記載された原稿を読み取り、ＯＣＲ（Optical Character Recognition）によって文書データを入力するために用いられる。

文書データの取得は、キーボード１からの入力、イメージスキャナ２からの入力の他に通信Ｉ／Ｆ（インターフェイス）６を介して、ネットワーク上の他の装置からデータ通信により取得することもできる。通信Ｉ／Ｆ６は、ＬＡＮ（Local Area Network）に接続するためのＬＡＮカードや、公衆交換電話網に接続してデータ通信を行うためのモデムカードなどで実現される。

図２は、文書処理装置１０の機能的構成を示すブロック図である。
文書処理装置１０は、入力部１１、前処理部１２、分類部１３、重要度算出部１４、要約生成部１５、表示部１６および文法辞書・類義語辞書１７、分類辞書１８を含んで構成される。

入力部１１は、要約を作成する対象となる文書データを入力する。図１に示したハードウェア構成のうち、キーボード１、イメージスキャナ２、通信Ｉ／Ｆ６などが機能的に入力部１１に相当する。

入力され要約作成処理の対象となる文書データは、複数の意味のある単語からなるテキストデータであり、そのデータ構造は、たとえば、複数の文、複数の文から構成される段落、複数の段落から構成される文書本体、および文書のタイトルを含む。

このような文書データが入力部１１により入力されると、予め定める記憶領域に一時的に記憶される。予め定める記憶領域は、外部記憶装置５内にあってもよいし、プロセッサ４に内蔵される半導体メモリ内にあってもよい。

記憶された文書データは、次に前処理部１２にて要約生成処理のための前処理が施される。前処理部１２においては、まず、文書データのテキストを最小単位の単語にまで分離する。本実施形態では、名詞、動詞、形容詞、助詞、助動詞などの品詞レベルの単語までの分離を行う。単語への分離は、文法辞書、類義語辞書、概念辞書などを用いた形態素解析(POS Tagging)を行うことで実現できる。形態素解析では、対象言語の文法知識、辞書を情報源として用い、自然言語で書かれた文を形態素（言語で意味を持つ最小単位）の列に分割し、それぞれの品詞を判別する。

分類部１３では、前処理部１２で分離された各単語を、分類辞書１８を用いて分類する。分類部１３による分類は、各単語の認識であり、これとともにノイズの除去を行うこともできる。ノイズの除去としては、たとえば、分離された単語の中から意義のない単語であるストップワードを削除する。分類部１３において、ストップワードを削除することで、後段での処理対象の単語数を減らすことができ、処理を高速化することができる。

分類部１３による具体的な分類は、使用する分類辞書の分類カテゴリーに依存するので、たとえば、要約生成処理を行う文書データの分野、分野に応じて分類辞書を変えてもよいし、１つの分類辞書を全ての文書データに適用してもよい。

以上のようにして各単語に分離、分類された文書データは、前処理部１２、分類部１３でのそれぞれの結果を、単語ごとに関連付けて、所定の記憶領域に記憶する。この時点で単語ごとに分離はされているが、前述のデータ構造は、保持したまま単語ごとに記憶される。すなわち、分離、分類された各単語は、属していた文がわかるように記憶されており、各文は属していた段落が、各段落は文書本体における自らの順序がわかるようにデータ構造が保持される。

重要度算出部１４は、分離、分類された各単語の重要度を算出し、算出された各単語の重要度に基づいて各文の重要度を算出する。

以下では、重要度の算出について説明する。
重要度は、主題重要度（ＴＨ）とロケーション重要度（ＬＩ）とからなり、主題重要度は、頻出度（ＴＦ）、タイトル語（ＴＩ）、手がかり語（ＣＷ）、ストップ語（ＳＷ）、キーワード（ＫＷ）などの特徴で構成され、ロケーション重要度は、ロケーション（ＬＣ）、サブロケーション（ＳＬ）の特徴で構成される。

まず主題重要度の各特徴について説明する。
・頻出度（ＴＦ）
主題重要度を構成する特徴の１つである頻出度について説明する。

特徴である頻出度（ＴＦ）は、統計的手法により、全ての単語の標準化された頻出度の合計の平均値であり、下記式（１）を用いて算出される。
ＴＦ_ｓ＝（ΣＦＲ_ｉ×Ｗ／ｍａｘＦＲ）／ＬＧ_ｓ …（１）

ここで、ＦＲ_ｉは各単語の頻度であり、Ｗは重みであり、ｍａｘＦＲは１文中の最大頻度であり、ＬＧ_ｓは１文の長さを示す単語数である。ＬＧ_ｓを用いることで、長く単調な文のスコアが不当に高くなることを防ぐことができる。

各単語の頻度ＦＲ_ｉは、既存の統計的手法にて算出することができる。
各単語に対して統計を行う前に単語の意味の集結と、単語の意味の曖昧性特定を行うことが好ましい。

単語の中には、表記は異なるが意味が同じである単語、いわゆる同義語が含まれる。このようなものをそれぞれ異なる単語として統計処理を行うと、正確な統計結果が得られなくなるので、同義語となる単語は、１つに集結して統計処理を行うことが好ましい。同義語は、概念辞書を用いて集結させることが可能である。

また逆に、単語の中には、表記は同じでも前後の単語との繋がりなどにより意味が異なる単語が含まれる。表記が同じ単語を単純に同じ単語として統計処理を行うと、正確な統計結果が得られなくなるので、表記が同じ単語の意味を特定し、意味が異なる場合は、異なる単語として統計処理を行うことが好ましい。このような単語の意味は、概念辞書を用いて特定することが可能である。

・タイトル語（ＴＩ）
主題重要度を構成する特徴の１つであるタイトル語について説明する。

前述のように、文書データには文書のタイトルが含まれ、文書のタイトルに含まれる単語は文書において重要な単語である可能性が高い。したがって、文中にタイトルに含まれる単語が含まれるかどうかは、文の重要度に影響を与えるので、タイトルに含まれる単語（タイトル語）を特徴として算出する。

特徴であるＴＩ_ｓは、文中に含まれるタイトル語の合計数として算出される。
・キーワード（ＫＷ）
主題重要度を構成する特徴の１つであるキーワードについて説明する。

キーワードは、ユーザが指定、入力した単語で構成され、たとえば指定、入力された複数の単語をリスト化したキーワードリストとして所定の記憶領域に記憶する。

特徴であるＫＷｓは、文中に含まれるキーワードリストにリストアップされた単語の合計数として算出される。

キーワードは、たとえば、前処理部１２で処理された各単語のうち、名詞および動詞を抽出し、抽出した名詞および動詞をキーワード候補として一覧表示して、その中からユーザが指定する構成が好ましい。ユーザは、キーワード候補から興味のある単語を容易に指定することができる。

キーワードリストの変更は要約生成処理開始以後であれば特に限定されることなく可能である。一旦、要約が生成されたのちに、新たにキーワードを指定、入力、削除などを行うことが可能で、これにより変更されたキーワードリストに応じて特徴であるＫＷが再計算され、それに伴い主題重要度（ＴＨ）、スコアＳも再計算される。これらの再計算の結果、後述の要約生成部１５によって生成される要約が変更される。

また、ユーザがキーボード１などを操作して任意の単語を入力し、入力された単語をキーワードとすることも可能である。

このように本発明では、ユーザが任意に指定、入力した単語が特徴として用いられ、主題重要度の算出に直接影響を与えるので、ユーザの好みに応じた要約を作成することができる。

・手がかり語（ＣＷ）
主題重要度を構成する特徴の１つである手がかり語について説明する。

手がかり語（Cue Words）は、「つまり」、「すなわち」、「したがって」など文中にその単語が用いられたときには、その文が、結論やまとめを示すような重要性が高い文となるような単語である。このような手がかり語は、予め複数の手がかり語である単語をリスト化した手がかり語リストとして所定の記憶領域に記憶しておく。

特徴であるＣＷｓは、文中に含まれる手がかり語リストにリストアップされた単語の合計数として算出される。

・ストップ語（ＳＷ）
主題重要度を構成する特徴の１つであるストップ語について説明する。

ストップ語は、頻度が非常に高過ぎるためにスコア算出に当たっては除外すべき単語であり、助詞、助動詞などがこれに含まれる。このようなストップ語は、予め複数のストップ語である単語をリスト化したストップ語リストとして所定の記憶領域に記憶しておく。

文中にストップ語が含まれていた場合は、その単語のスコアを所定の値か、またはゼロとする。

以上のようにして算出した特徴ＴＦ，ＴＩ，ＫＷ，ＣＷを用いて主題重要度（ＴＨ）を、下記式（２）を用いて算出する。
ＴＨ_ｉ＝Ｗ_１ＴＦ_ｉ＋Ｗ_２ＴＩ_ｉ＋Ｗ_３ＫＷ_ｉ＋Ｗ_４ＣＷ_ｉ …（２）

ここで、Ｗ_１，Ｗ_２，Ｗ_３，Ｗ_４は、それぞれ特徴ＴＦ，ＴＩ，ＫＷ，ＣＷに対する重みを示す。

次にロケーション重要度について説明する。
・ロケーション（ＬＣ）
ロケーション重要度を構成する特徴の１つであるロケーションについて説明する。

文が、文書本体の最初の段落か、最後の段落に含まれ、さらにその段落において第１文か第２文であれば、その文は重要である場合が多いので、文がこのような位置にあるかどうかを判断し、たとえばこのような位置にある場合はＬＣを１とし、ない場合はＬＣを０とする。

・サブロケーション（ＳＬ）
ロケーション重要度を構成する特徴の１つであるサブロケーションについて説明する。

文が、文書本体の最初の段落か、最後の段落に含まれる場合はＳＬを１とし、含まれない場合はＳＬを０とする。

以上のようにして算出した特徴ＬＣ，ＳＬを用いてロケーション重要度（ＬＩ）を、下記式（３）を用いて算出する。
ＬＩ_ｋ＝Ｗ_５ＬＣ_ｋ＋Ｗ_６ＳＬ_ｋ …（３）
ここで、Ｗ_５，Ｗ_６は、それぞれ特徴ＬＣ，ＳＬに対する重みを示す。

式（２）および式（３）で算出されたＴＨ_ｉおよびＬＩ_ｋを下記式（４）に適用することで、１文の重要度を示すスコアＳが算出される。

１文の重要度を示すスコアＳは、式（４）で算出される。
Ｓ＝ΣＴＨ_ｉ×Ｃ_ｉ×Ｒ／ＴＮ＋ΣＬＩ_ｋ×Ｃ_ｋ×（１−Ｒ）／ＬＮ…（４）

ここで、Ｃ_ｉ，Ｃ_ｋは係数を示し、Ｒ（０≦Ｒ≦１）はＴＨ_ｉとＬＩ_ｋがスコアＳに寄与する割合を示し、ＴＮは、ＴＨ_ｉの算出に用いた特徴数を示し、ＬＮは、ＬＩの算出に用いた特徴数を示す。式（４）で算出したスコアが大きいほど、文の重要度は高くなる。スコアが大きくなるのは、主題重要度（ＴＨ）とロケーション重要度（ＬＩ）が大きくなるからであり、ＴＨとＬＩが大きくなるのは、単語ごとの上記特徴ごとのスコアが大きくなるからである。

重要度算出部１４は、上記のような算出処理を繰り返し、１つの文書データに含まれる全ての文の重要度を算出する。

これにより、全ての文と、それぞれの文に対して算出されたスコアとを関連付けて外部記憶装置５、プロセッサ４に内蔵される半導体メモリなどに記憶する。

要約生成部１５は、全ての文と、それぞれの文に対して算出されたスコアとを記憶領域から読み出し、スコアの順に文を並び替える。

並び替えたのち、所定数の文をスコアが高い方から選択し、選択した複数の文を、要約を構成する文として決定する。選択された文は、前述のデータ構造を保持するものであるから、このデータ構造に基づいて、選択した文を元の文書データの並び順に従うようにさらに並び替えて要約を生成してもよい。

ここで、所定数はユーザが任意に設定することが可能に構成されている。ユーザが設定可能なパラメータとしては、要約を構成する文の数でもよいが、元になる文書データを構成する文の総数によって、要約を構成する文の数を決定するほうがより好ましい。したがって、元になる文書データを構成する文の総数に対する要約を構成する文の数の割合（以下では「圧縮率」という）を、ユーザによる設定が可能なパラメータとして用いる。

圧縮率は、たとえば百分率（％）による設定が可能で、ユーザが３０％と設定した場合、元になる文書データを構成する文の総数の５０であれば、要約を構成する文の数は、５０の３０％である１５となる。このとき要約生成部１５は、スコアが高い方から１５の文を選択し、選択した１５の文を、要約を構成する文として決定する。

圧縮率は、前述の重みや係数などと一緒に設定値として外部記憶装置５、プロセッサ４に内蔵される半導体メモリなどに記憶する。圧縮率の初期値として予め定める値を記憶しておき、ユーザによる変更がなければ初期値に基づいてスコアが高い方から所定数の文を選択し、ユーザが変更した場合は、ユーザが変更した値に基づいてスコアが高い方から所定数の文を選択すればよい。

表示部１６は、要約生成部１５は生成した要約を表示する。このとき、要約の元となった文章も表示可能に構成することが好ましい。元文章の表示は、要約と並べて表示してもよいし、要約と元文書とを切り替えて表示してもよい。

複数の文書データを、要約生成処理の対象として選択することも可能で、その場合、複数の文書データから生成された複数の要約を並べて表示し、ユーザが選択した１つの要約に対して元文書を表示する。

こうすることで、大量の文書データの中から、表示された要約に基づいて必要な文書データを短時間で適切に選択することができる。

さらに、本発明では、キーワードをユーザが任意に設定することにより、ユーザの好みに応じた要約を作成することができる。

図３〜９を用いて、要約生成処理の操作手順について説明する。図３〜９は、表示部１６の表示画面例を示す図である。

要約生成処理は、図に示すようなインターフェイス２０を用いて、ユーザが各種操作をすることで進行する。

インターフェイス２０には、要約の元文書の内容を表示する元文書表示領域２１、要約の内容を表示する要約表示領域２２、元文書データを読み込むためのファイルオープンボタン２３、パラメータを設定するための設定ボタン２４ボタン、元文書に基づくキーワード候補を表示するキーワード候補一覧表示領域２５、ユーザが指定したキーワードを表示するキーワード表示領域２６、圧縮率を設定する圧縮率設定スライダー２７、要約生成処理の開始を指示する処理開始ボタン２８などが配置される。

設定ボタン２４を押すと図４に示すような設定フォーム３０が表示され各種パラメータが設定可能となる。

本実施形態では、主題重要度（ＴＨ）として、頻出度（ＴＦ）、タイトル語（ＴＩ）、手がかり語（ＣＷ）、ストップ語（ＳＷ）、キーワード（ＫＷ）の５つの特徴を用いることが可能である。これらの中で、頻出度（ＴＦ）は必須の特徴であるので、ＴＩ，ＣＷ，ＳＷ，ＫＷからＴＨの算出に組み込む特徴を各チェックボックスによって選択することができる。チェックボックス３１はＳＷ選択用であり、チェックボックス３２はＣＷ選択用であり、チェックボックス３３はＫＷ選択用であり、チェックボックス３４はＴＩ選択用である。

さらに、ロケーション重要度（ＬＩ）として、ロケーション（ＬＣ）、サブロケーション（ＳＬ）の２つの特徴を用いることが可能である。ＬＣ，ＳＬからＬＩの算出に組み込む特徴を各チェックボックスによって選択することができる。チェックボックス３５はＬＣ選択用であり、チェックボックス３６はＳＬ選択用である。

元文書データの入力には、３種類の方法があり、既存のテキストファイルを選択して入力する方法、元文書表示領域２１をテキスト入力ボックスとして、キーボード１などから直接入力する方法、既存テキストファイルを読み込み、さらに変更、追加などを行う方法である。

図５は、直接入力の方法を示す模式図である。ユーザがキーボード１を操作して、文書を元文書表示領域２１に入力する。図６は、既存のテキストファイルの入力方法を示す模式図である。ユーザがファイルオープンボタン２３を押すと既存のテキストファイルが表示されるので、その中から元文書となるファイルを選択する。選択された文書の内容は、元文書表示領域２１に表示される。

元文書表示領域２１に文書が表示されると、処理開始ボタン２８が有効となるので、これを押すことで、予め設定されたパラメータに基づいて要約が生成される。図７に示すように、生成された要約は、要約表示領域２２に表示される。一度要約処理が実行されると、元文書が単語に分離、分類されるので、その中から頻出度が高い単語をキーワード候補として、キーワード候補一覧表示領域２５に一覧表示する。

図８の模式図に示すように、キーワード候補をダブルクリックするか、候補単語を選択した状態で追加ボタンを押すと、その単語は右側のキーワード表示領域２６に追加される。これにより、キーワードリストが変更され、再計算が行われて要約が変更される。

キーワード表示領域２６の単語をクリックするか、候補単語を選択した状態で削除ボタンを押すと、その単語は右側の候補単語を選択した状態でから削除され、キーワードリストが変更され、再計算が行われて要約が変更される。

さらに、図９の模式図に示すように、キーワード入力領域２９には、ユーザが任意の文字列を入力することが可能であり、キーワード入力領域２９に文字列が入力されると、これをキーワードとしてキーワードリストが更新され、再計算が行われて要約が変更される。

なお、文書処理装置１０の各ブロック、特に、入力部１１、前処理部１２、分類部１３、重要度算出部１４、要約生成部１５、表示部１６および文法辞書・類義語辞書１７、分類辞書１８等は、ハードウエアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウエアによって実現してもよい。

すなわち、文書処理装置１０は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only
memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリなどの記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである文書処理装置１０の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記文書処理装置１０に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープなどのテープ系、フロッピー（登録商標）ディスク／ハードディスクなどの磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒなどの光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カードなどのカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭなどの半導体メモリ系などを用いることができる。

また、文書処理装置１０を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網などが利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線などの有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明の実施例について説明する。
図１０は、要約生成処理の対象となる文書の一例を示す図である。

本実施例で用いた文書は、文書本体が１つの段落からなり、その段落は、５つの文から構成される。

また、圧縮率は４０％に設定したので、要約を構成する文には、２文が選択される。
図１１は、前処理部１２、分類部１３による処理結果を示す図である。前処理部１２により全てが単語に分離され、各単語の品詞が分類される。

図１２は、キーワードを入力しないときの重要度算出部１４、要約生成部１５による処理結果を示す図である。

前処理が施された文書を重要度算出部１４で重要度を算出し、各文のスコアを算出してスコアの高い順に並べた結果、図１２（ａ）に示すように、第３文（スコア０．１７５８７３）、第２文（スコア０．１１０４１７）、第１文（スコア０．１０５５５６）、第５文（スコア０．００６５１３）、第４文（スコア０．００２７７８）の順となった。

要約生成部１５では、スコアの高い方から２文、すなわち第３文と第２文とを選択し、元文書の並びに並び替えて、第２文、第３文の順序としたものを要約とした。結果を図１２（ｂ）に示す。

次に、キーワードを入力して重要度の再計算を行った。図１３は、キーワードを入力したときの重要度算出部１４、要約生成部１５による処理結果を示す図である。

本実施例では、キーワードとして「生産力」を入力した。これにより、文中に生産力を含む第３文、第１文のスコアが変化し、その結果、図１３（ａ）に示すように、第３文（スコア０．１８０６３５）、第１文（スコア０．１４７２２２）、第２文（スコア０．１１０４１７）、第５文（スコア０．００６５１３）、第４文（スコア０．００２７７８）の順となった。

要約生成部１５では、スコアの高い方から２文、すなわち第３文と第１文とを選択し、元文書の並びに並び替えて、第１文、第３文の順序としたものを要約とした。結果を図１３（ｂ）に示す。

このように、ユーザが入力したキーワードによって、生成される要約が変化し、ユーザの好みに応じた要約を作成することができた。

本発明は、その精神または主要な特徴から逸脱することなく、他のいろいろな形態で実施できる。したがって、前述の実施形態はあらゆる点で単なる例示に過ぎず、本発明の範囲は特許請求の範囲に示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲に属する変形や変更は全て本発明の範囲内のものである。

文書処理装置１０の機械的構成を示すブロック図である。文書処理装置１０の機能的構成を示すブロック図である。表示部１６の表示画面例を示す図である。表示部１６の表示画面例を示す図である。表示部１６の表示画面例を示す図である。表示部１６の表示画面例を示す図である。表示部１６の表示画面例を示す図である。表示部１６の表示画面例を示す図である。表示部１６の表示画面例を示す図である。要約生成処理の対象となる文書の一例を示す図である。前処理部１２、分類部１３による処理結果を示す図である。キーワードを入力しないときの重要度算出部１４、要約生成部１５による処理結果を示す図である。キーワードを入力したときの重要度算出部１４、要約生成部１５による処理結果を示す図である。

符号の説明

１キーボード
２イメージスキャナ
３表示装置
４プロセッサ
５外部記憶装置
１０文書処理装置
１１入力部
１２前処理部
１３分類部
１４重要度算出部
１５要約生成部
１６表示部
１７文法辞書・類義語辞書
１８分類辞書
２０インターフェイス
２１元文書表示領域
２２要約表示領域
２３ファイルオープンボタン
２４設定ボタン
２５キーワード候補一覧表示領域
２６キーワード表示領域
２７圧縮率設定スライダー
２８処理開始ボタン
２９キーワード入力領域
３０設定フォーム

Claims

文書を入力する入力部と、
前記入力部により入力された文書を複数の単語に分離する前処理部と、
前記前処理部で分離された単語の少なくとも頻度に基づく特徴値を算出し、前記算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する重要度算出部と、
前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成する要約生成部と、
前記要約生成部により生成された要約を表示する表示部と、
前記表示部により表示された要約に基づいて単語を入力する単語入力部とを備え、
前記要約生成部により生成された入力文書の要約を、前記表示部により表示したのち、
前記単語入力部により単語が入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、前記表示部は、前記要約生成部により生成された要約を再表示することを特徴とする文書処理装置。
前記文書は、複数の文で構成される文書本体とタイトルとで構成され、
前記重要度算出部は、前記タイトルに含まれる単語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする請求項１記載の文書処理装置。
前記重要度算出部は、予め定める手がかり語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする請求項１記載の文書処理装置。
前記単語入力部は、前記前処理部によって分離された単語の中から選択することで特定の単語を入力することを特徴とする請求項１記載の文書処理装置。
前記単語入力部によって単語が再度入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再度算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに再度算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を再度選択し、入力された文書の要約を再度生成し、前記表示部は、前記要約生成部により生成された要約を再度表示することを特徴とする請求項１記載の文書処理装置。
コンピュータを請求項１記載の文書処理装置として機能させるための文書処理プログラム。
コンピュータを請求項１記載の文書装置として機能させるための文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体。