JP2009217802A - 文書処理装置、文書処理プログラムおよび記録媒体 - Google Patents

文書処理装置、文書処理プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2009217802A
JP2009217802A JP2008176387A JP2008176387A JP2009217802A JP 2009217802 A JP2009217802 A JP 2009217802A JP 2008176387 A JP2008176387 A JP 2008176387A JP 2008176387 A JP2008176387 A JP 2008176387A JP 2009217802 A JP2009217802 A JP 2009217802A
Authority
JP
Japan
Prior art keywords
importance
word
document
sentence
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008176387A
Other languages
English (en)
Other versions
JP4861375B2 (ja
Inventor
Chiiben O
▲ちー▼▲べん▼ 王
Ning Le
寧 楽
Qi Zhu
奇 朱
晨 ▲しゅー▼
Chen Xu
Bo Wu
波 呉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2009217802A publication Critical patent/JP2009217802A/ja
Application granted granted Critical
Publication of JP4861375B2 publication Critical patent/JP4861375B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】 ユーザの好みが反映された要約を作成することができる文書処理装置を提供する。
【解決手段】 入力部11によって文書が入力されると、前処理部12が入力された文書を複数の単語に分離する。重要度算出部14は、単語の頻度に基づく特徴値を算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する。ユーザによってキーワードが入力された場合は、単語の頻度およびキーワードに基づく特徴値を算出し、算出した特徴値に基づいて文の重要度を算出する。要約生成部15は、算出された文の重要度に基づいて、文の重要度が高い順に所定数の文を選択して、入力された文書の要約を生成し、表示部16は、生成された要約を表示する。
【選択図】 図2

Description

本発明は、複数の文からなる文書に基づいて、該文書の要約を作成して表示する文書処理装置、文書処理プログラムおよび記録媒体に関する。
ネットワーク通信技術、オフィスオートメイション(OA)技術の発達により、移動、保存、閲覧可能な情報量が急速に増加している。
ユーザは、このような環境において、大量の情報の中から必要な情報を短時間で適切に取捨選択し、これを保存したり加工したりする必要がある。
必要な情報を選択するためには、情報の要約を利用することが有効である。要約を読むことで、短時間で情報全体の必要性を見極めることができる。ただし、適切に情報を選択するためには、要約の内容が情報全体を正確に表しているかどうかが重要となる。
より正確な、情報全体を表す要約を人間が作成する場合は、一旦情報を読んだ上で情報の要点は何か、誰に向けられた情報であるのか、いつ作成された情報であるのかなど、情報自体に加え、当該情報以外の情報も加味して正確な情報を作成することができる。これに対して、文書処理装置による要約、いわゆる自動要約は、情報そのものに含まれる個別の情報のみを考慮して要約を作成する必要がある。
したがって、従来より自動要約を行うための各種技術に対する研究が数多くなされている。
自動要約技術は、基本的に文章中に含まれる各文について重要度を算出し、その重要度に応じて、重要度の高い文、重要度の高い段落などを所定数抜き出し、抜き出したものの集合を要約とする。重要度の算出にも様々な方法があり、文に含まれる単語それぞれの重要度から文の重要度を算出したり、文が文書全体のどの位置にあるかによって重要度算出する方法などがある。
単語それぞれの重要度は、さらに単語の出現頻度、タイトルに含まれる単語であるかどうか、接続詞の種類、手がかり語であるかどうかなどに細分化され、これらを判断して最終的に1つの文の重要度を算出する(特許文献1参照)。
従来の自動要約技術では、上記のように文章に含まれる各文から、予め定める算出方法によって重要度を算出し、算出した重要度に基づいて要約を作成するため、文章自体に含まれる以上の情報は加味されない。
したがって、従来の技術により作成される要約の安定性は、常に一定レベルの要約が作成できるという意味では安定しているが、特定の単語に注目した要約などユーザの好みが反映された要約を作成することはできない。
中国公開特許公報CN1614587A
本発明の目的は、ユーザの好みが反映された要約を作成することができる文書処理装置、文書処理プログラムおよび記録媒体を提供することである。
本発明は、文書を入力する入力部と、
前記入力部により入力された文書を複数の単語に分離する前処理部と、
前記前処理部で分離された単語の少なくとも頻度に基づく特徴値を算出し、前記算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する重要度算出部と、
前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成する要約生成部と、
前記要約生成部により生成された要約を表示する表示部と、
前記表示部により表示された要約に基づいて単語を入力する単語入力部とを備え、
前記要約生成部により生成された入力文書の要約を、前記表示部により表示したのち、
前記単語入力部により単語が入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、前記表示部は、前記要約生成部により生成された要約を再表示することを特徴とする文書処理装置である。
また本発明は、前記文書は、複数の文で構成される文書本体とタイトルとで構成され、
前記重要度算出部は、前記タイトルに含まれる単語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする。
また本発明は、前記重要度算出部は、予め定める手がかり語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする。
また本発明は、前記単語入力部は、前記前処理部によって分離された単語の中から選択することで特定の単語を入力することを特徴とする。
また本発明は、前記単語入力部によって単語が再度入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再度算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに再度算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を再度選択し、入力された文書の要約を再度生成し、前記表示部は、前記要約生成部により生成された要約を再度表示することを特徴とする。
また本発明は、コンピュータを上記の文書処理装置として機能させるための文書処理プログラムである。
また本発明は、コンピュータを上記の文書処理装置として機能させるための文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、入力部によって文書が入力されると、前処理部が入力された文書を複数の単語に分離する。
重要度算出部は、少なくとも分離された単語の頻度に基づく特徴値を算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する。
要約生成部は、算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、表示部は、生成された要約を表示する。
要約生成部により生成された入力文書の要約が、前記表示部により表示されたのち、単語入力部によって、表示された要約に基づいて単語が入力された場合は、単語の頻度および入力された単語に基づく特徴値を再算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する。
要約生成部は、重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、表示部は、要約生成部により生成された要約を再表示する。
ユーザが、表示された要約に基づいて単語を入力すると、単語の頻度に加えて、入力された単語に基づく特徴値を算出して文の重要度を算出するので、入力された単語を介してユーザの好みが反映された要約を作成し、作成された要約を表示することができる。
また本発明によれば、文書のタイトルに含まれる単語に基づく特徴値を加味して要約が生成されるので、より正確な要約を作成することができる。
また本発明によれば、予め定める手がかり語に基づく特徴値を加味して要約が生成されるので、より正確な要約を作成することができる。
また本発明によれば、前処理部によって分離された単語の中から選んで特定の単語を入力するので、文書に含まれる単語を確実に入力することができる。
また本発明によれば、単語入力部によって単語が再度入力されると、文の重要度を再度算出し、算出された重要度に基づいて、要約の生成、生成された要約の再表示を行う。
これにより、ユーザが単語を入力するごとに、入力された単語に基づく再計算が行われ、新たに要約が生成されて表示されるので、ユーザの好みがさらに反映された要約を作成することができる。
また本発明によれば、文書処理プログラム、文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体として提供することができる。
以下図面を参考にして本発明の好適な実施形態を詳細に説明する。
図1は、文書処理装置10の機械的構成を示すブロック図である。文書処理装置10は、プロセッサ4と、プロセッサ4が実際の処理を行うためのソフトウェアなどを格納する外部記憶装置5とを含む。
プロセッサ4は、入力された文書データから要約を生成する要約生成処理などを実際に行う。プロセッサ4における実際の処理は、外部記憶装置5に格納されるソフトウェアによって実行される。プロセッサ4は、たとえば通常のコンピュータ本体などで構成される。
外部記憶装置5は、たとえば高速アクセスが可能なハードディスクなどで構成することができる。外部記憶装置5は、文書データを大量に保持するために光ディスクなどの大容量デバイスを用いるような構成であっても構わない。後述する文法辞書、類義語辞書、分類辞書などは、外部記憶装置5にて構成される。また、要約生成処理中に各処理ステップの段階で作成された一時的なデータのなどは、外部記憶装置5に記憶してもよいし、プロセッサ4に内蔵される半導体メモリに記憶してもよい。
文書処理装置10には、キーボード1が接続されるとともに、表示装置3が接続される。キーボード1は、文書データの入力、キーワードの入力、各種ソフトウェアを実行するための指示の入力などに用いられる。さらにキーボード1は、後述する要約生成処理における設定値の変更入力にも用いられる。
表示装置3は、要約の元になる元文書、生成された要約文、要約生成処理を行うためのユーザインターフェイスなどを出力して表示する。
文書処理装置10には、イメージスキャナ2がさらに接続される。イメージスキャナ2は、文書が記載された原稿を読み取り、OCR(Optical Character Recognition)によって文書データを入力するために用いられる。
文書データの取得は、キーボード1からの入力、イメージスキャナ2からの入力の他に通信I/F(インターフェイス)6を介して、ネットワーク上の他の装置からデータ通信により取得することもできる。通信I/F6は、LAN(Local Area Network)に接続するためのLANカードや、公衆交換電話網に接続してデータ通信を行うためのモデムカードなどで実現される。
図2は、文書処理装置10の機能的構成を示すブロック図である。
文書処理装置10は、入力部11、前処理部12、分類部13、重要度算出部14、要約生成部15、表示部16および文法辞書・類義語辞書17、分類辞書18を含んで構成される。
入力部11は、要約を作成する対象となる文書データを入力する。図1に示したハードウェア構成のうち、キーボード1、イメージスキャナ2、通信I/F6などが機能的に入力部11に相当する。
入力され要約作成処理の対象となる文書データは、複数の意味のある単語からなるテキストデータであり、そのデータ構造は、たとえば、複数の文、複数の文から構成される段落、複数の段落から構成される文書本体、および文書のタイトルを含む。
このような文書データが入力部11により入力されると、予め定める記憶領域に一時的に記憶される。予め定める記憶領域は、外部記憶装置5内にあってもよいし、プロセッサ4に内蔵される半導体メモリ内にあってもよい。
記憶された文書データは、次に前処理部12にて要約生成処理のための前処理が施される。前処理部12においては、まず、文書データのテキストを最小単位の単語にまで分離する。本実施形態では、名詞、動詞、形容詞、助詞、助動詞などの品詞レベルの単語までの分離を行う。単語への分離は、文法辞書、類義語辞書、概念辞書などを用いた形態素解析(POS Tagging)を行うことで実現できる。形態素解析では、対象言語の文法知識、辞書を情報源として用い、自然言語で書かれた文を形態素(言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する。
分類部13では、前処理部12で分離された各単語を、分類辞書18を用いて分類する。分類部13による分類は、各単語の認識であり、これとともにノイズの除去を行うこともできる。ノイズの除去としては、たとえば、分離された単語の中から意義のない単語であるストップワードを削除する。分類部13において、ストップワードを削除することで、後段での処理対象の単語数を減らすことができ、処理を高速化することができる。
分類部13による具体的な分類は、使用する分類辞書の分類カテゴリーに依存するので、たとえば、要約生成処理を行う文書データの分野、分野に応じて分類辞書を変えてもよいし、1つの分類辞書を全ての文書データに適用してもよい。
以上のようにして各単語に分離、分類された文書データは、前処理部12、分類部13でのそれぞれの結果を、単語ごとに関連付けて、所定の記憶領域に記憶する。この時点で単語ごとに分離はされているが、前述のデータ構造は、保持したまま単語ごとに記憶される。すなわち、分離、分類された各単語は、属していた文がわかるように記憶されており、各文は属していた段落が、各段落は文書本体における自らの順序がわかるようにデータ構造が保持される。
重要度算出部14は、分離、分類された各単語の重要度を算出し、算出された各単語の重要度に基づいて各文の重要度を算出する。
以下では、重要度の算出について説明する。
重要度は、主題重要度(TH)とロケーション重要度(LI)とからなり、主題重要度は、頻出度(TF)、タイトル語(TI)、手がかり語(CW)、ストップ語(SW)、キーワード(KW)などの特徴で構成され、ロケーション重要度は、ロケーション(LC)、サブロケーション(SL)の特徴で構成される。
まず主題重要度の各特徴について説明する。
・頻出度(TF)
主題重要度を構成する特徴の1つである頻出度について説明する。
特徴である頻出度(TF)は、統計的手法により、全ての単語の標準化された頻出度の合計の平均値であり、下記式(1)を用いて算出される。
TF=(ΣFR×W/maxFR)/LG …(1)
ここで、FRは各単語の頻度であり、Wは重みであり、maxFRは1文中の最大頻度であり、LGは1文の長さを示す単語数である。LGを用いることで、長く単調な文のスコアが不当に高くなることを防ぐことができる。
各単語の頻度FRは、既存の統計的手法にて算出することができる。
各単語に対して統計を行う前に単語の意味の集結と、単語の意味の曖昧性特定を行うことが好ましい。
単語の中には、表記は異なるが意味が同じである単語、いわゆる同義語が含まれる。このようなものをそれぞれ異なる単語として統計処理を行うと、正確な統計結果が得られなくなるので、同義語となる単語は、1つに集結して統計処理を行うことが好ましい。同義語は、概念辞書を用いて集結させることが可能である。
また逆に、単語の中には、表記は同じでも前後の単語との繋がりなどにより意味が異なる単語が含まれる。表記が同じ単語を単純に同じ単語として統計処理を行うと、正確な統計結果が得られなくなるので、表記が同じ単語の意味を特定し、意味が異なる場合は、異なる単語として統計処理を行うことが好ましい。このような単語の意味は、概念辞書を用いて特定することが可能である。
・タイトル語(TI)
主題重要度を構成する特徴の1つであるタイトル語について説明する。
前述のように、文書データには文書のタイトルが含まれ、文書のタイトルに含まれる単語は文書において重要な単語である可能性が高い。したがって、文中にタイトルに含まれる単語が含まれるかどうかは、文の重要度に影響を与えるので、タイトルに含まれる単語(タイトル語)を特徴として算出する。
特徴であるTIは、文中に含まれるタイトル語の合計数として算出される。
・キーワード(KW)
主題重要度を構成する特徴の1つであるキーワードについて説明する。
キーワードは、ユーザが指定、入力した単語で構成され、たとえば指定、入力された複数の単語をリスト化したキーワードリストとして所定の記憶領域に記憶する。
特徴であるKWsは、文中に含まれるキーワードリストにリストアップされた単語の合計数として算出される。
キーワードは、たとえば、前処理部12で処理された各単語のうち、名詞および動詞を抽出し、抽出した名詞および動詞をキーワード候補として一覧表示して、その中からユーザが指定する構成が好ましい。ユーザは、キーワード候補から興味のある単語を容易に指定することができる。
キーワードリストの変更は要約生成処理開始以後であれば特に限定されることなく可能である。一旦、要約が生成されたのちに、新たにキーワードを指定、入力、削除などを行うことが可能で、これにより変更されたキーワードリストに応じて特徴であるKWが再計算され、それに伴い主題重要度(TH)、スコアSも再計算される。これらの再計算の結果、後述の要約生成部15によって生成される要約が変更される。
また、ユーザがキーボード1などを操作して任意の単語を入力し、入力された単語をキーワードとすることも可能である。
このように本発明では、ユーザが任意に指定、入力した単語が特徴として用いられ、主題重要度の算出に直接影響を与えるので、ユーザの好みに応じた要約を作成することができる。
・手がかり語(CW)
主題重要度を構成する特徴の1つである手がかり語について説明する。
手がかり語(Cue Words)は、「つまり」、「すなわち」、「したがって」など文中にその単語が用いられたときには、その文が、結論やまとめを示すような重要性が高い文となるような単語である。このような手がかり語は、予め複数の手がかり語である単語をリスト化した手がかり語リストとして所定の記憶領域に記憶しておく。
特徴であるCWsは、文中に含まれる手がかり語リストにリストアップされた単語の合計数として算出される。
・ストップ語(SW)
主題重要度を構成する特徴の1つであるストップ語について説明する。
ストップ語は、頻度が非常に高過ぎるためにスコア算出に当たっては除外すべき単語であり、助詞、助動詞などがこれに含まれる。このようなストップ語は、予め複数のストップ語である単語をリスト化したストップ語リストとして所定の記憶領域に記憶しておく。
文中にストップ語が含まれていた場合は、その単語のスコアを所定の値か、またはゼロとする。
以上のようにして算出した特徴TF,TI,KW,CWを用いて主題重要度(TH)を、下記式(2)を用いて算出する。
TH=WTF+WTI+WKW+WCW …(2)
ここで、W,W,W,Wは、それぞれ特徴TF,TI,KW,CWに対する重みを示す。
次にロケーション重要度について説明する。
・ロケーション(LC)
ロケーション重要度を構成する特徴の1つであるロケーションについて説明する。
文が、文書本体の最初の段落か、最後の段落に含まれ、さらにその段落において第1文か第2文であれば、その文は重要である場合が多いので、文がこのような位置にあるかどうかを判断し、たとえばこのような位置にある場合はLCを1とし、ない場合はLCを0とする。
・サブロケーション(SL)
ロケーション重要度を構成する特徴の1つであるサブロケーションについて説明する。
文が、文書本体の最初の段落か、最後の段落に含まれる場合はSLを1とし、含まれない場合はSLを0とする。
以上のようにして算出した特徴LC,SLを用いてロケーション重要度(LI)を、下記式(3)を用いて算出する。
LI=WLC+WSL …(3)
ここで、W,Wは、それぞれ特徴LC,SLに対する重みを示す。
式(2)および式(3)で算出されたTHおよびLIを下記式(4)に適用することで、1文の重要度を示すスコアSが算出される。
1文の重要度を示すスコアSは、式(4)で算出される。
S=ΣTH×C×R/TN+ΣLI×C×(1−R)/LN…(4)
ここで、C,Cは係数を示し、R(0≦R≦1)はTHとLIがスコアSに寄与する割合を示し、TNは、THの算出に用いた特徴数を示し、LNは、LIの算出に用いた特徴数を示す。 式(4)で算出したスコアが大きいほど、文の重要度は高くなる。スコアが大きくなるのは、主題重要度(TH)とロケーション重要度(LI)が大きくなるからであり、THとLIが大きくなるのは、単語ごとの上記特徴ごとのスコアが大きくなるからである。
重要度算出部14は、上記のような算出処理を繰り返し、1つの文書データに含まれる全ての文の重要度を算出する。
これにより、全ての文と、それぞれの文に対して算出されたスコアとを関連付けて外部記憶装置5、プロセッサ4に内蔵される半導体メモリなどに記憶する。
要約生成部15は、全ての文と、それぞれの文に対して算出されたスコアとを記憶領域から読み出し、スコアの順に文を並び替える。
並び替えたのち、所定数の文をスコアが高い方から選択し、選択した複数の文を、要約を構成する文として決定する。選択された文は、前述のデータ構造を保持するものであるから、このデータ構造に基づいて、選択した文を元の文書データの並び順に従うようにさらに並び替えて要約を生成してもよい。
ここで、所定数はユーザが任意に設定することが可能に構成されている。ユーザが設定可能なパラメータとしては、要約を構成する文の数でもよいが、元になる文書データを構成する文の総数によって、要約を構成する文の数を決定するほうがより好ましい。したがって、元になる文書データを構成する文の総数に対する要約を構成する文の数の割合(以下では「圧縮率」という)を、ユーザによる設定が可能なパラメータとして用いる。
圧縮率は、たとえば百分率(%)による設定が可能で、ユーザが30%と設定した場合、元になる文書データを構成する文の総数の50であれば、要約を構成する文の数は、50の30%である15となる。このとき要約生成部15は、スコアが高い方から15の文を選択し、選択した15の文を、要約を構成する文として決定する。
圧縮率は、前述の重みや係数などと一緒に設定値として外部記憶装置5、プロセッサ4に内蔵される半導体メモリなどに記憶する。圧縮率の初期値として予め定める値を記憶しておき、ユーザによる変更がなければ初期値に基づいてスコアが高い方から所定数の文を選択し、ユーザが変更した場合は、ユーザが変更した値に基づいてスコアが高い方から所定数の文を選択すればよい。
表示部16は、要約生成部15は生成した要約を表示する。このとき、要約の元となった文章も表示可能に構成することが好ましい。元文章の表示は、要約と並べて表示してもよいし、要約と元文書とを切り替えて表示してもよい。
複数の文書データを、要約生成処理の対象として選択することも可能で、その場合、複数の文書データから生成された複数の要約を並べて表示し、ユーザが選択した1つの要約に対して元文書を表示する。
こうすることで、大量の文書データの中から、表示された要約に基づいて必要な文書データを短時間で適切に選択することができる。
さらに、本発明では、キーワードをユーザが任意に設定することにより、ユーザの好みに応じた要約を作成することができる。
図3〜9を用いて、要約生成処理の操作手順について説明する。図3〜9は、表示部16の表示画面例を示す図である。
要約生成処理は、図に示すようなインターフェイス20を用いて、ユーザが各種操作をすることで進行する。
インターフェイス20には、要約の元文書の内容を表示する元文書表示領域21、要約の内容を表示する要約表示領域22、元文書データを読み込むためのファイルオープンボタン23、パラメータを設定するための設定ボタン24ボタン、元文書に基づくキーワード候補を表示するキーワード候補一覧表示領域25、ユーザが指定したキーワードを表示するキーワード表示領域26、圧縮率を設定する圧縮率設定スライダー27、要約生成処理の開始を指示する処理開始ボタン28などが配置される。
設定ボタン24を押すと図4に示すような設定フォーム30が表示され各種パラメータが設定可能となる。
本実施形態では、主題重要度(TH)として、頻出度(TF)、タイトル語(TI)、手がかり語(CW)、ストップ語(SW)、キーワード(KW)の5つの特徴を用いることが可能である。これらの中で、頻出度(TF)は必須の特徴であるので、TI,CW,SW,KWからTHの算出に組み込む特徴を各チェックボックスによって選択することができる。チェックボックス31はSW選択用であり、チェックボックス32はCW選択用であり、チェックボックス33はKW選択用であり、チェックボックス34はTI選択用である。
さらに、ロケーション重要度(LI)として、ロケーション(LC)、サブロケーション(SL)の2つの特徴を用いることが可能である。LC,SLからLIの算出に組み込む特徴を各チェックボックスによって選択することができる。チェックボックス35はLC選択用であり、チェックボックス36はSL選択用である。
元文書データの入力には、3種類の方法があり、既存のテキストファイルを選択して入力する方法、元文書表示領域21をテキスト入力ボックスとして、キーボード1などから直接入力する方法、既存テキストファイルを読み込み、さらに変更、追加などを行う方法である。
図5は、直接入力の方法を示す模式図である。ユーザがキーボード1を操作して、文書を元文書表示領域21に入力する。図6は、既存のテキストファイルの入力方法を示す模式図である。ユーザがファイルオープンボタン23を押すと既存のテキストファイルが表示されるので、その中から元文書となるファイルを選択する。選択された文書の内容は、元文書表示領域21に表示される。
元文書表示領域21に文書が表示されると、処理開始ボタン28が有効となるので、これを押すことで、予め設定されたパラメータに基づいて要約が生成される。図7に示すように、生成された要約は、要約表示領域22に表示される。一度要約処理が実行されると、元文書が単語に分離、分類されるので、その中から頻出度が高い単語をキーワード候補として、キーワード候補一覧表示領域25に一覧表示する。
図8の模式図に示すように、キーワード候補をダブルクリックするか、候補単語を選択した状態で追加ボタンを押すと、その単語は右側のキーワード表示領域26に追加される。これにより、キーワードリストが変更され、再計算が行われて要約が変更される。
キーワード表示領域26の単語をクリックするか、候補単語を選択した状態で削除ボタンを押すと、その単語は右側の候補単語を選択した状態でから削除され、キーワードリストが変更され、再計算が行われて要約が変更される。
さらに、図9の模式図に示すように、キーワード入力領域29には、ユーザが任意の文字列を入力することが可能であり、キーワード入力領域29に文字列が入力されると、これをキーワードとしてキーワードリストが更新され、再計算が行われて要約が変更される。
なお、文書処理装置10の各ブロック、特に、入力部11、前処理部12、分類部13、重要度算出部14、要約生成部15、表示部16および文法辞書・類義語辞書17、分類辞書18等は、ハードウエアロジックによって構成してもよいし、次のようにCPUを用いてソフトウエアによって実現してもよい。
すなわち、文書処理装置10は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only
memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリなどの記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである文書処理装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記文書処理装置10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープなどのテープ系、フロッピー(登録商標)ディスク/ハードディスクなどの磁気ディスクやCD−ROM/MO/MD/DVD/CD−Rなどの光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カードなどのカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROMなどの半導体メモリ系などを用いることができる。
また、文書処理装置10を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網などが利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線などの有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明の実施例について説明する。
図10は、要約生成処理の対象となる文書の一例を示す図である。
本実施例で用いた文書は、文書本体が1つの段落からなり、その段落は、5つの文から構成される。
また、圧縮率は40%に設定したので、要約を構成する文には、2文が選択される。
図11は、前処理部12、分類部13による処理結果を示す図である。前処理部12により全てが単語に分離され、各単語の品詞が分類される。
図12は、キーワードを入力しないときの重要度算出部14、要約生成部15による処理結果を示す図である。
前処理が施された文書を重要度算出部14で重要度を算出し、各文のスコアを算出してスコアの高い順に並べた結果、図12(a)に示すように、第3文(スコア0.175873)、第2文(スコア0.110417)、第1文(スコア0.105556)、第5文(スコア0.006513)、第4文(スコア0.002778)の順となった。
要約生成部15では、スコアの高い方から2文、すなわち第3文と第2文とを選択し、元文書の並びに並び替えて、第2文、第3文の順序としたものを要約とした。結果を図12(b)に示す。
次に、キーワードを入力して重要度の再計算を行った。図13は、キーワードを入力したときの重要度算出部14、要約生成部15による処理結果を示す図である。
本実施例では、キーワードとして「生産力」を入力した。これにより、文中に生産力を含む第3文、第1文のスコアが変化し、その結果、図13(a)に示すように、第3文(スコア0.180635)、第1文(スコア0.147222)、第2文(スコア0.110417)、第5文(スコア0.006513)、第4文(スコア0.002778)の順となった。
要約生成部15では、スコアの高い方から2文、すなわち第3文と第1文とを選択し、元文書の並びに並び替えて、第1文、第3文の順序としたものを要約とした。結果を図13(b)に示す。
このように、ユーザが入力したキーワードによって、生成される要約が変化し、ユーザの好みに応じた要約を作成することができた。
本発明は、その精神または主要な特徴から逸脱することなく、他のいろいろな形態で実施できる。したがって、前述の実施形態はあらゆる点で単なる例示に過ぎず、本発明の範囲は特許請求の範囲に示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲に属する変形や変更は全て本発明の範囲内のものである。
文書処理装置10の機械的構成を示すブロック図である。 文書処理装置10の機能的構成を示すブロック図である。 表示部16の表示画面例を示す図である。 表示部16の表示画面例を示す図である。 表示部16の表示画面例を示す図である。 表示部16の表示画面例を示す図である。 表示部16の表示画面例を示す図である。 表示部16の表示画面例を示す図である。 表示部16の表示画面例を示す図である。 要約生成処理の対象となる文書の一例を示す図である。 前処理部12、分類部13による処理結果を示す図である。 キーワードを入力しないときの重要度算出部14、要約生成部15による処理結果を示す図である。 キーワードを入力したときの重要度算出部14、要約生成部15による処理結果を示す図である。
符号の説明
1 キーボード
2 イメージスキャナ
3 表示装置
4 プロセッサ
5 外部記憶装置
10 文書処理装置
11 入力部
12 前処理部
13 分類部
14 重要度算出部
15 要約生成部
16 表示部
17 文法辞書・類義語辞書
18 分類辞書
20 インターフェイス
21 元文書表示領域
22 要約表示領域
23 ファイルオープンボタン
24 設定ボタン
25 キーワード候補一覧表示領域
26 キーワード表示領域
27 圧縮率設定スライダー
28 処理開始ボタン
29 キーワード入力領域
30 設定フォーム

Claims (7)

  1. 文書を入力する入力部と、
    前記入力部により入力された文書を複数の単語に分離する前処理部と、
    前記前処理部で分離された単語の少なくとも頻度に基づく特徴値を算出し、前記算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する重要度算出部と、
    前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成する要約生成部と、
    前記要約生成部により生成された要約を表示する表示部と、
    前記表示部により表示された要約に基づいて単語を入力する単語入力部とを備え、
    前記要約生成部により生成された入力文書の要約を、前記表示部により表示したのち、
    前記単語入力部により単語が入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、前記表示部は、前記要約生成部により生成された要約を再表示することを特徴とする文書処理装置。
  2. 前記文書は、複数の文で構成される文書本体とタイトルとで構成され、
    前記重要度算出部は、前記タイトルに含まれる単語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする請求項1記載の文書処理装置。
  3. 前記重要度算出部は、予め定める手がかり語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする請求項1記載の文書処理装置。
  4. 前記単語入力部は、前記前処理部によって分離された単語の中から選択することで特定の単語を入力することを特徴とする請求項1記載の文書処理装置。
  5. 前記単語入力部によって単語が再度入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再度算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに再度算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を再度選択し、入力された文書の要約を再度生成し、前記表示部は、前記要約生成部により生成された要約を再度表示することを特徴とする請求項1記載の文書処理装置。
  6. コンピュータを請求項1記載の文書処理装置として機能させるための文書処理プログラム。
  7. コンピュータを請求項1記載の文書装置として機能させるための文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008176387A 2008-03-06 2008-07-04 文書処理装置、文書処理プログラムおよび記録媒体 Active JP4861375B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2008100065570A CN101526938B (zh) 2008-03-06 2008-03-06 文档处理装置
CN200810006557.0 2008-03-08

Publications (2)

Publication Number Publication Date
JP2009217802A true JP2009217802A (ja) 2009-09-24
JP4861375B2 JP4861375B2 (ja) 2012-01-25

Family

ID=41094805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008176387A Active JP4861375B2 (ja) 2008-03-06 2008-07-04 文書処理装置、文書処理プログラムおよび記録媒体

Country Status (2)

Country Link
JP (1) JP4861375B2 (ja)
CN (1) CN101526938B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013187555A1 (ko) * 2012-06-11 2013-12-19 에스케이플래닛 주식회사 데이터 공유 서비스 시스템, 데이터 공유 서비스를 위한 장치 및 방법
JP2014241034A (ja) * 2013-06-11 2014-12-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置、方法およびプログラム
JP2017174059A (ja) * 2016-03-23 2017-09-28 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2019120970A (ja) * 2017-12-28 2019-07-22 コニカミノルタ株式会社 文書スコアリング装置、プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
CN107229939B (zh) * 2016-03-24 2020-12-04 北大方正集团有限公司 相似文档的判定方法和装置
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN107562723A (zh) * 2017-08-24 2018-01-09 网易乐得科技有限公司 会议处理方法、介质、装置和计算设备
CN110781291A (zh) * 2019-10-25 2020-02-11 北京市计算中心 一种文本摘要提取方法、装置、服务器及可读存储介质
CN112541073B (zh) * 2020-12-15 2022-12-06 科大讯飞股份有限公司 一种文本摘要生成方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
JPH11219361A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd 文書閲覧装置およびそのプログラムを格納した記憶媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1145899C (zh) * 2000-09-07 2004-04-14 国际商业机器公司 为文字文档自动生成摘要的方法
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
JPH11219361A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd 文書閲覧装置およびそのプログラムを格納した記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
奥村 学: "3.1 重要文抽出による要約", テキスト自動要約, vol. 第1版, JPN6011001334, 25 March 2005 (2005-03-25), pages 21 - 40, ISSN: 0001825383 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013187555A1 (ko) * 2012-06-11 2013-12-19 에스케이플래닛 주식회사 데이터 공유 서비스 시스템, 데이터 공유 서비스를 위한 장치 및 방법
US11023660B2 (en) 2012-06-11 2021-06-01 Sk Planet Co., Ltd. Terminal device for data sharing service using instant messenger
JP2014241034A (ja) * 2013-06-11 2014-12-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置、方法およびプログラム
US9767186B2 (en) 2013-06-11 2017-09-19 International Business Machines Corporation Retrieving a specific sentence from a document
JP2017174059A (ja) * 2016-03-23 2017-09-28 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2019120970A (ja) * 2017-12-28 2019-07-22 コニカミノルタ株式会社 文書スコアリング装置、プログラム
JP7112650B2 (ja) 2017-12-28 2022-08-04 コニカミノルタ株式会社 文書スコアリング装置、プログラム

Also Published As

Publication number Publication date
CN101526938B (zh) 2011-12-28
CN101526938A (zh) 2009-09-09
JP4861375B2 (ja) 2012-01-25

Similar Documents

Publication Publication Date Title
JP4861375B2 (ja) 文書処理装置、文書処理プログラムおよび記録媒体
JP7421604B2 (ja) モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US8548243B2 (en) Information processing device, information processing method, and program
CN109657054A (zh) 摘要生成方法、装置、服务器及存储介质
CN114254158B (zh) 视频生成方法及其装置、神经网络的训练方法及其装置
JP5620814B2 (ja) トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム
US20080243510A1 (en) Overlapping screen reading of non-sequential text
JP2007079736A (ja) データ編集装置、データ編集方法およびデータ編集プログラム
JP2005122665A (ja) 電子機器装置、関連語データベースの更新方法、プログラム
JP2022061935A (ja) サーバおよびデータ割り当て方法
JP6900334B2 (ja) 映像出力装置、映像出力方法および映像出力プログラム
JP2002297635A (ja) 要約文作成システム及びその方法
TWI288335B (en) Method to automatically summarize Chinese digital documents
JP2004151527A (ja) 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP6451414B2 (ja) 情報処理装置、要約文編集方法、及びプログラム
WO2006003692A1 (ja) 情報検索端末
JP7474295B2 (ja) 情報処理システム、情報処理方法、およびプログラム
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP6490989B2 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
JP7295429B2 (ja) 文書処理プログラム、文書処理方法および文書処理装置
JP2002073644A (ja) 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2011061263A (ja) ダイジェスト映像作成装置およびダイジェスト映像作成プログラム
JP2004199395A (ja) 情報検索端末

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111011

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111104

R150 Certificate of patent or registration of utility model

Ref document number: 4861375

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3