JP2007094838A - 文書処理装置および文書処理方法 - Google Patents

文書処理装置および文書処理方法 Download PDF

Info

Publication number
JP2007094838A
JP2007094838A JP2005284585A JP2005284585A JP2007094838A JP 2007094838 A JP2007094838 A JP 2007094838A JP 2005284585 A JP2005284585 A JP 2005284585A JP 2005284585 A JP2005284585 A JP 2005284585A JP 2007094838 A JP2007094838 A JP 2007094838A
Authority
JP
Japan
Prior art keywords
sentence
document
unit
calculated
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005284585A
Other languages
English (en)
Other versions
JP4618083B2 (ja
Inventor
Koji Okumura
幸治 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2005284585A priority Critical patent/JP4618083B2/ja
Publication of JP2007094838A publication Critical patent/JP2007094838A/ja
Application granted granted Critical
Publication of JP4618083B2 publication Critical patent/JP4618083B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文書から重要部分を高速に抽出する文書処理装置を提供する。
【解決手段】 文書処理装置100は,分割部155と文ハッシュ計算部165と分割文ハッシュテーブル170aと文ハッシュ検索部175と抽出部180とを含んで構成される。分割文ハッシュテーブル170aには,ハッシュ値と出現頻度とが蓄積されている。分割部155は,入力文書を各文に分割する。文ハッシュ計算部165は,ハッシュ関数を用いて分割された各文からハッシュ値を求める。文ハッシュ検索部175は,求められた各文のハッシュ値と分割文ハッシュテーブル170aに記憶されたハッシュ値とをマッチング処理し,一致したハッシュ値に対応する出現度数を検出する。抽出部180は,検出された出現頻度に基づいて,各文のハッシュ値のうちから1または2以上のハッシュ値を選択し,選択されたハッシュ値に対する各文を入力文書の要約として抽出する。
【選択図】 図2

Description

本発明は,文書から重要部分を自動抽出する文書処理装置および文書処理方法に関する。特に,ハッシュ関数を用いて文書の重要部分を自動抽出する文書処理装置および文書処理方法に関する。
近年,ネットワークを利用する人口の急激な増加や,目覚ましい通信技術の進歩に伴い,ネットワークを介して他の機器から配信された文書を,携帯端末などの電子機器を使用して閲覧する機会が多くなっている。このような状況では,携帯端末の利用者は,たとえば,情報量が多いWebページや電子メールのように,予め携帯端末向けに作成されたものではない文書(テキスト)であっても,自己の携帯端末で閲覧したいと感じる機会が非常に多い。
しかし,携帯端末は,利用者により常時携帯されるという性質上,小型かつ軽量であることが求められる。このような要求により,近年,小型化,軽量化が著しい携帯端末では,スペックの問題から情報の記憶量や処理量に一定の制約があるため,電子メールのような文書を一度に表示することができない場合がある。
この問題に対して,自然言語処理技術を用いて,入力された文書から要約文を自動生成することにより文書の情報量を少なくした後,その要約文を携帯端末に送信して表示させようという研究が模索されている。この研究は,意味理解技術や文脈理解技術などを用いて文書の要約を計算機により自動生成することを目指している。しかし,この技術は,今なお,実用レベルまで確立されておらず,現時点では,実用化が困難な状況にある。
そこで,より実用化が容易な方法として,キーワードをマッチングすることにより文書から重要文を抽出する技術が提案されている(たとえば,特許文献1を参照。)。この技術では,まず,重要文あるいは不要文に統計的に多く含まれる特定の単語や言い回しが,予め,人手により計算機に登録され,その上で,テキストの各文の中に先に登録された単語や言い回しが含まれているか否かが検査される。その結果,各文に含まれる特定の単語や言い回しの数に基づき各文の重要度がそれぞれ決定され,重要度が高いと決定された1または2以上の文が要約文として抽出される。
特開平6−259423号公報
しかし,上記の技術には次のような3つの問題点がある。まず,第1は,上記技術では,予め重要度を計算する手がかりとなる特定の単語や言い回しを実用に十分耐えうる程度まで計算機に登録しなければならず,この作業に多くの時間と人手とがかかるという点である。また,時代とともに移り変わる流行語などにも適宜対応するためには,上記登録作業を継続して行うことによって,登録情報を常に更新する必要がある。
第2は,上記技術では,登録された単語や言い回しが,各文に含まれているか否かを判定するために,各文と登録された単語または言い回しとの比較が必要であり,計算機の処理の負荷が非常に高い点である。具体的には,登録された単語や言い回しが各文の一部に含まれているか否かを判定するには,各文に含まれる文字列を一文字ずつ,ずらしながら,登録単語と比較する必要がある。換言すれば,この判定処理は,各文と登録された単語または言い回しとの文字列の比較を,各文の文字数にて示される回数だけ繰り返さなければならない。このため,その文字列をマッチングするための処理量が非常に多くなってしまう。
第3は,上記技術では,多言語に対応することが困難であるという点である。すなわち,登録すべき単語や言い回しの選定は,それぞれの言語で行う必要がある。このため,開発者または登録者は,対象となる言語に精通していなければならない。特に,メジャーでない言語を対象とする場合,そのような言語に精通した者を確保すること自体難しく,もしそのような者を探してきたとしても,その者を雇用するために多くのコストがかかってしまう。
そこで,本発明は,上記問題に鑑みてなされたものであり,本発明の目的とするところは,処理の負荷を軽減することにより,文書から重要部分を高速に自動抽出する,新規かつ改良された文書処理装置および文書処理方法を提供することにある。
上記課題を解決するために,本発明のある観点によれば,所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶する記憶部と,文書を所定の条件に基づいて複数の文字列に分割する分割部と,上記所定の規則に基づいて,上記分割された各文字列から各文字列固有の計算値をそれぞれ求める計算部と,上記計算部により求められた各計算値と上記記憶部に記憶された計算値とを比較することにより,上記求められた各計算値に対応する出現頻度をそれぞれ検出する検索部と,上記検出された各計算値に対応する各出現頻度に基づいて,1または2以上の計算値を選択し,選択された1または2以上の計算値に対する文字列を上記文書の要約として抽出する抽出部と,を備える文書処理装置が提供される。
従来,文書からその要約を抽出する際,文書に含まれる文字列に予め登録された単語が含まれているか否かを一文字ずつ,ずらしながらマッチング処理していた。この文字列の比較は,実際には文字数にて示される回数だけの比較が必要であった。
しかし,本発明によれば,分割された各文の文字列から,その各文に固有な1つのデータ(計算値)が算出され,算出された1つのデータ(計算値)と,記憶部に記憶された計算値と,がマッチング処理される。すなわち,本発明では,文字列の比較ではなく,1回の数値の比較のみが必要になる。このため,文書からその要約を抽出する際,非常に高速にマッチング処理を完了することができる。すなわち,予め登録された単語が,各文に含まれる文字列に含まれているか否かを一文字ずつ,ずらしながらマッチング処理していた従来に比べて処理の負荷を劇的に少なくすることができる。
そして,本発明では,このような高速なマッチング処理の結果,マッチングした計算値に対応して記憶された各出現頻度に基づいて文書の要約となる重要文を高速に抽出することができる。この結果,文書の情報量が多いために携帯電話等の比較的スペックに乏しい機器に今まで表示できなかった情報であっても,これをすばやく要約して表示することができる。このため,ユーザは,いままで見ることさえできなかった文書の要約文により,文書の重要部分をすばやく把握することができる。
また,これによれば,文書を要約する度に,計算された計算値とその計算値の出現度数に関する情報とが,「自動的に」記憶部に蓄積されていく。このため,重要文であるか,または,不要文であるかを判定する手がかりとなる特定の単語や言い回しを実用に充分耐えうる程度まで,記憶部に予め登録しておくという作業が不要になる。
さらに,これによれば,各文の文字列が文書の言語に依存しない単なるデータに変換される。このため,文書の言語に依存せずに,文書を要約することができる。したがって,本文書処理装置を使用してシステムを構築または運用する際,開発者や登録者は,それぞれの言語に精通している必要がなく,未知の言語であってもこれに対応することができる。
上記計算部は,上記所定の規則としてハッシュ関数を用いて,上記各文字列から上記計算値としてのハッシュ値をそれぞれ求めるようにしてもよい。
また,上記抽出部は,上記検索された各計算値に対応する出現頻度をそれぞれ比較することにより,より低い値を有する出現頻度に関連付けて記憶されている計算値から順に1または2以上の計算値を選択するようにしてもよい。
上記検索部は,上記検索部による比較の結果,上記計算部により求められた計算値が上記記憶部に記憶されていると判定された場合には,上記求められた計算値に関連付けて記憶されている出現頻度を増加させ,上記求められた計算値が上記記憶部に記憶されていないと判定された場合には,上記求められた計算値とともに所与の値をもつ出現頻度を新たに記憶してもよい。
上記分割部は,上記文書を文節または文または段落のいずれかを構成する複数の文字列に分割することができる。
上記文書処理装置であって,さらに,上記文書または上記分割された各文のいずれかに含まれる文字列の形式を整える正規化部を備えていてもよい。
これによれば,たとえば,全角文字,半角文字を統一するなど,文字列の形式が整えられる。これにより,表記の違いによる計算の誤差をなくして,形式が整えられた文字列からより正確な計算値を算出することができる。この結果,正確な計算値を用いて,文書からより正確に要約を抽出することができる。
さらに,上記文書処理装置は,上記文書の属性を定めるテキスト分類部を備えていてもよい。このとき,上記記憶部は,上記求められた計算値の出現頻度を文書の属性毎に複数蓄積し,上記抽出部は,上記定められた文書の属性と上記記憶部に記憶された文書の属性との相関関係から定められる相関値をそれぞれ用いて,上記記憶部に文書の属性毎に記憶された複数の出現頻度をそれぞれ重み付けし,重み付けられた各出現頻度に基づき,1または2以上の計算値を選択するようにしてもよい。
また,このとき,上記相関値は,上記テキスト分類部により決定された文書の属性と上記記憶部に記憶された文書の属性との関連が小さいほど,より大きな値をもつように設定されていてもよい。
また,上記抽出部は,上記各相関値を用いて上記計算値に対して上記文書の属性毎に記憶された複数の出現頻度にそれぞれ重み付けし,重み付けられた各出現頻度の総和を上記各計算値に対応した重要度として算出し,算出された重要度のうち高いものから順に,対応する1または2以上の計算値を選択するようにしてもよい。
これによれば,文書の属性に関する相関値が予め定められていて,相関値を用いて各出現度数が重み付けされる。ここで,相関値は,相関度が低いほど高い値に設定される。たとえば,特定の分野でのみ頻出する語や文に対する相関値は,その特定分野との関連性が高いため,予め小さく設定されることができる。これにより,特定の分野でのみ頻出する文が,その他の分野でも頻出する文より重要度が高くなるように重み付けがなされる。この結果,各文に対する重要度mがより適切に算出され,算出された重要度に基づいて,より内容の充実した要約を抽出することができる。
また,上記計算部は,テキストの一部または全部に固有の計算値を全計算値として求め,上記検索部は,上記全計算値が上記記憶部に記憶されているか否かを検索し,上記全計算値が上記記憶部に記憶されていない場合,上記全計算値を,上記抽出部により上記文書の要約として抽出された文字列に関連付けて記憶し,上記抽出部は,上記全計算値が上記記憶部に記憶されている場合,上記分割部,上記計算部,上記検索部および上記抽出部による上記各部の動作を各部に実行させることなく,上記全計算値に関連付けて上記記憶部に記憶されている計算値に応じた文字列を上記文書の要約として抽出するようにしてもよい。
これによれば,同じ内容のメールが操作ミスや誤送により複数回入力された場合にも,出現頻度の値は,実情に沿った適切な値をとるように設定される。これにより,各文の重要度が必要以上に低下することを回避することができる。
また,これによれば,たとえば,同じ内容のメールが複数回入力されたときのように,以前入力したテキストと同一テキストを入力した場合には,再度,処理の負荷が高い計算値の算出やマッチング処理を実行する必要がない。このため,処理の負荷を軽減しながら,前に抽出した重要文を使用してすばやく要約テキストをユーザに提供することができる。
また,上記課題を解決するために,本発明の別の観点によれば,所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶部に記憶し,文書を所定の条件に基づいて複数の文字列に分割し,上記所定の規則に基づいて,上記分割された各文字列から各文字列固有の計算値をそれぞれ求め,上記求められた各計算値と上記記憶部に記憶されている計算値とを比較することにより,上記求められた各計算値に対応する出現頻度をそれぞれ検索し,上記検索された各計算値に対応する各出現頻度に基づき,1または2以上の計算値を選択し,選択された1または2以上の計算値に対する文字列を上記文書の要約として抽出する文書処理方法が提供される。
これによれば,各文に対応した1つの計算値と記憶部に記憶された計算値とが高速にマッチング処理される。これにより,各文の重要度を高速に判定し,その重要度に基づいて入力文書の要約を高速に抽出することができる。この結果,文書をすばやく要約してユーザに提供することができる。
以上説明したように本発明によれば,処理の負荷を軽減することにより,文書から重要部分を高速に自動抽出する,新規かつ改良された文書処理装置および文書処理方法を提供することができる。
以下に添付図面を参照しながら,本発明の好適な実施形態について詳細に説明する。なお,以下の説明及び添付図面において,同一の構成及び機能を有する構成要素については,同一符号を付することにより,重複説明を省略する。また,以下の各実施形態では,電子メールをテキスト(文書)の一例として挙げ,その要約を自動生成する文書処理装置およびその方法について説明する。
(第1実施形態)
(文書処理装置100のハードウエア構成)
まず,第1実施形態にかかる文書処理装置のハードウエア構成について,図1を参照しながら説明する。文書処理装置100は,HDD(Hard Disk Drive)105,ROM(Read Only Memory)110,RAM(Random Access Memory)115,プロセッサ120,インターフェース125およびバス130を含んで構成される。
HDD105には,テキストから重要文を抽出するために必要な情報を含んだ各種データやプログラムが蓄積されている。HDD105は,記憶装置の一例であり,光ディスクや光磁気ディスクなどの記憶装置であってもよい。
ROM110には,プロセッサ120を動作させるための基本的なプログラムやプロセッサ120が異常なときに起動するプログラムなどが記録されている。RAM115には,外部から入力されたテキストや,後述する分割された各文,分類コードなどのデータが一時的に記憶される。プロセッサ120は,入力テキストから要約を生成するために,HDD105やROM110等に記憶されたプログラムを実行するようになっている。
インターフェース125は,たとえば,キーボード200,OCR(Optical Character Reader)205,ネットワークカード210,音声入力装置215などの入力デバイスからテキストを入力するようになっている。また,インターフェース125は,テキストから抽出した要約文を,たとえば,CRT(Cathode Ray Tube)300,プリンタ305,ネットワークカード310,音声出力装置315などの出力デバイスに出力するようになっている。
バス130は,HDD105,ROM110,RAM115,プロセッサ120,インターフェース125の各デバイス間で情報をやりとりする経路である。
(文書処理装置100の機能構成)
つぎに,文書処理装置100の機能構成について,図2を参照しながら説明する。文書処理装置100は,入力部150,分割部155,正規化部160,文ハッシュ計算部165,記憶部170,文ハッシュ検索部175,抽出部180および出力部185の各ブロックにて示される機能を有している。
入力部150は,たとえば,図1に示したキーボード200から打ち込まれたテキストや,OCR205やネットワークカード210から取り込まれたテキストや,音声入力装置215から音声入力されたテキストや,外部から伝送されるWebページや電子メールなどのテキストを入力して電子化する。
分割部155は,所定の条件に基づいて,入力された文書を複数の文字列に分割する。以下の説明では,分割部155は,対象となる電子メールを文単位に分割する。たとえば,分割部155は,文書中に句点(句点で区切られた各文を分割する場合)または改行(箇条書きにされた各行を分割する場合)が出現したら分割するという条件に基づいて,文書を複数の文字列に分割する。
正規化部160は,表記形式の違いを統一する。一例としては,全角文字と半角文字とをいずれかに統一する場合が挙げられる。なお,正規化部160は,分割後の各文に対してその形式を統一してもよく,分割前の文書に対してその形式を統一してもよい。また,正規化部160は,本実施形態にかかる文書処理装置100に必須の機能ではない。しかし,文字列の表記の違いによるハッシュ値の算出誤差をなくし,形式が整えられた文字列からより正確な計算値を算出することができる。この結果,入力文書から,より正確に要約を抽出することができる。
文ハッシュ計算部165(計算部に相当)は,所定の規則に基づいて,分割後の各文字列から文字列毎に固有の計算値を求める。文ハッシュ計算部165は,たとえば,ハッシュ関数を用いて,分割部155にて分割された各文に対するハッシュ値を計算する。ハッシュ関数は,文書や数字などの文字列の羅列を一定長のデータ(ハッシュ値)に変換するための関数である。
記憶部170は,分割文ハッシュテーブル170aを有している。分割文ハッシュテーブル170aには,図3に示したように,いままでに入力されたテキストの各文から計算されたハッシュ値170a1とそのハッシュ値の出現頻度を示す出限度数170a2とが累積されている。なお,出現度数170a2は,文ハッシュ計算部165によりハッシュ値が算出された頻度,すなわち,各文の文字列が出現する頻度を表す値の一例であり,各文字列が出現する頻度を表す値であれば,各文字列が出現する回数以外の値であってもよく,たとえば,各文字列が出現する確率などであってもよい。
文ハッシュ検索部175(検索部に相当)は,文ハッシュ計算部165により今回計算された各文のハッシュ値が分割文ハッシュテーブル170aに記憶されているか否かのマッチング処理を行う。今回計算されたハッシュ値が,分割文ハッシュテーブル170aに記憶されたハッシュ値170a1と一致した場合,文ハッシュ検索部175は,一致したハッシュ値に対応して記憶された出現度数170a2をそれぞれ検出する。
このように,文ハッシュ計算部165により求められたハッシュ値が分割文ハッシュテーブル170aに記憶されている場合,文ハッシュ検索部175は,そのハッシュ値170a1に関連付けて記憶された出現度数170a2の値をたとえば,「1」増加させる。
一方,求められたハッシュ値が分割文ハッシュテーブル170aに記憶されていない場合には,文ハッシュ検索部175は,文ハッシュ計算部165により求められたハッシュ値とともに予め定められた所定値(たとえば,出現回数が一回であることを示す「1」)を有する出現頻度を分割文ハッシュテーブル170aに記憶する。
抽出部180は,文ハッシュ検索部175により検出された各ハッシュ値に対応する各出現度数の値に基づいて,その中から1または2以上の出現度数を選択し,選択された出現度数に関連付けて記憶されている各ハッシュ値に対応する1または2以上の原文を要約として抽出する。このとき,抽出部180は,重要文を抽出する際には,入力されたテキストに含まれる各文に対応したハッシュ値のうち,出現度数が大きいハッシュ値に対応する文は重要度が低く,出現度数が小さいハッシュ値に対応する文は重要度が高いという規則を利用する。具体的には,抽出部180は,分割文ハッシュテーブル170aに記憶されている該当ハッシュ値170a1の出現度数170a2を比較することにより,相対的に出現度数170a2が低いハッシュ値170a1を選択し,選択されたハッシュ値に対応した文を重要文として抽出する。
1または2以上の重要文を決定する具体的方法としては,たとえば,抽出部180は,入力テキストに含まれる各文のうち,一番出現度数が低いハッシュ値に対応する文を重要文として抽出する方法が挙げられる。また,抽出部180は,入力テキストに含まれる各文のうち,出現度数が低い順に重要文を数文抽出するようにしてもよい。出力部185は,このようにして抽出された重要文をテキストの要約文として,たとえば,携帯電話の画面などに出力する。
なお,以上に説明した文書処理装置100の各機能は,実際には,プロセッサ120がこれらの機能を実現する処理手順を記述したプログラムを実行することにより,または,いずれかの機能を実現するためのハードウエアやICの制御により達成される。たとえば,入力部150および出力部185の機能は,図1のインターフェース125として機能するICにより実現されるようにしてもよい。また,分割部155,正規化部160,文ハッシュ計算部165,文ハッシュ検索部175,抽出部180の機能は,これらの機能を実現する処理手順を記述したプログラムを図1のプロセッサ120が実行することにより達成されるようにしてもよい。また,記憶部170の機能は,HDD105,ROM110またはRAM115等の記憶領域を用いて達成されるようにしてもよい。
(文書処理装置100の動作)
つぎに,本実施形態にかかる文書処理装置100の具体的動作について,図4を参照しながら説明する。図4は,本実施形態にかかる文書処理装置100が実行する重要文抽出処理を示したフローチャートである。なお,この重要文抽出処理が実行される前に,入力部150によりテキストが入力され,記憶部170により入力されたテキストがRAM115またはHDD105に記憶されているものとする。
ステップ400から重要文抽出処理が開始され,ステップ405に進むと,分割部155は,入力されたテキストを文単位に分割する。ここでの文には,区点で区切られたものの他に箇条書きにされた各行も含まれている。
つぎに,ステップ410に進み,正規化部160が,句読点や,半角文字,全角文字などの文字列の形式の統一を行い,ステップ415に進んで,文ハッシュ計算部165が,分割された文毎のハッシュ値を計算する。具体的には,文ハッシュ計算部165は,RFC1321に示されているMD5や,RFC3174に示されているSHA−1などのハッシュ関数を用いて,与えられた原文(分割文)から固定長の擬似乱数であるハッシュ値を算出する。
これにより,各分割文の文字列が,たとえば図3に示したように,固定長であって分割された各文に固有の計算値(ハッシュ値170a1)に変換される。そして,このように変換されたハッシュ値170a1は,つぎに説明する文ハッシュ検索部175の機能を用いて,ハッシュ値の出現度数170a2とともに分割文ハッシュテーブル170aに記憶される。このようにして,文ハッシュ計算部165により毎回計算されるハッシュ値とそのハッシュ値の出現度数が分割文ハッシュテーブル170aに蓄積される。
つぎに,ステップ420に進むと,文ハッシュ検索部175は,各文に対応して算出された各ハッシュ値が,分割文ハッシュテーブル170aに記憶されたハッシュ値170a1のいずれかのに一致するか否かを検索する。
検索の結果,文ハッシュ計算部165により求められたハッシュ値が分割文ハッシュテーブル170aに記憶されていると判定された場合,文ハッシュ検索部175は,そのハッシュ値に関連付けて記憶された出現度数170a2を増加(たとえば,出現度数170a2を1つ増加)する。一方,文ハッシュ計算部165により求められたハッシュ値が分割文ハッシュテーブル170aに記憶されていないと判定された場合には,求められたハッシュ値とともに出現度数として予め定められた所定値,たとえば「1」を記憶する。
つぎに,ステップ425に進み,抽出部180が,元の文(原文)の文書(テキスト)から重要文を決定し,出力部185が,抽出した重要文を要約テキストとして出力する。具体的には,抽出部180は,分割文ハッシュテーブル170aに記憶された出現度数170a2を用いて以下のように重要文を抽出する。
分割文ハッシュテーブル170aに記憶された出現度数170a2は,前述したように,今までに計算されたすべてのテキストから分割された各文のハッシュ値が出現した回数の累積であり,各文がこれまでにどれだけ出現したかを表す指標となる。よって,出現度数170a2が大きい値をもつということは,電子メールなどの多くのテキストに出現する文であると判定することができる。そして,このように多く出現する文は,挨拶(たとえば,「おはようございます」や「お世話になります」)などの可能性が高く,一般に,重要度が低いと推定される。このような原理から,各文に対応するハッシュ値の出願度数nと各文の重要度mとの関係は,関数fを用いてつぎのように表される。
m=f(n)+α
ここで,α:他の要因によって決定される重要度(任意)
このとき,m1=f(n1),m2=f(n2)において,
n1>n2ならば,m1≦m2となる。
このようにして算出された各ハッシュ値に対する重要度mに基づいて,抽出部180は,重要度mが大きいハッシュ値170a1に対応した文を重要文として抽出する。
このとき,抽出部180は,たとえば,入力されたテキストに含まれる各文に対応するハッシュ値170a1のうち,一番出現度数170a2が低いハッシュ値170a1に対応する文を重要文として抽出するようにしてもよい。また,抽出部180は,入力されたテキストに含まれる各文に対応するハッシュ値170a1のうち,出現度数170a2が低い順に重要文を数文抽出するようにしてもよい。
なお,入力テキストに含まれる各文とこの各文から求められたハッシュ値とは,重要文抽出処理が終了するまで,記憶部170のいずれかの記憶領域に関連付けて記憶されている。よって,抽出部180は,この記憶領域に記憶されたデータに基づいて,出現度数170a2が低いハッシュ値に対応する文を重要文として抽出する。その後,抽出した重要文が携帯電話等に表示され,ステップ495に進んで本処理は終了となる。
従来においては,登録された単語や言い回しが各文の一部に含まれているか否かを判定する場合,各文に含まれる文字列を一文字ずつずらしながら比較しなければならなかった。この結果,登録された単語や言い回しが,各文に含まれているか否かを判定するために,非常に多くの処理が必要であった。
しかし,以上に説明したように,本実施形態にかかる文書処理装置100によれば,各文をその文に固有な値,すなわち,ハッシュ値として認識し,各文に対応した1つのデータ(ハッシュ値)と分割文ハッシュテーブル170aに記憶されたハッシュ値170a1とをマッチング処理し,マッチングした結果検出される出願度数により,各文の重要度が判定される。このため,従来に比べて処理の負荷を劇的に少なくすることができる。これにより,各文の重要度を高速に判定し,その重要度に基づいて,入力テキストから重要文を高速に抽出することができる。この結果,情報量が多いテキストであって,携帯電話等,比較的スペックに乏しい機器に今まで表示できなかった情報であってもこれをすばやく要約して表示することができる。このため,ユーザは,表示された要約文により,テキストの内容を知ることができるばかりでなく,そのテキストの重要部分をすばやく把握することができる。
また,本実施形態にかかる文書処理装置100によれば,この装置を利用する度に,各文に対応するハッシュ値170a1とそのハッシュ値の出現度数170a2のデータとが,自動的に分割文ハッシュテーブル170aに蓄積される。このため,重要文であるか,または,不要文であるかを判定する手がかりとなる特定の単語や言い回しを,実用に充分耐えうる程度まで計算機に予め登録しておくという作業が不要になる。
さらに,ハッシュ値の計算は,各文の文字列を各文字の種類(言語)に関係しない単なるデータとして計算するため,テキストの言語に依存せずに,本実施形態にかかる文書処理装置100を使用してシステムを構築または運用することができる。このため,開発者や登録者は,それぞれの言語に精通している必要がなく,未知の言語であってもこれに対応することができる。
(第2実施形態)
つぎに,第2実施形態にかかる文書処理装置100について説明する。本実施形態にかかる文書処理装置100は,図5に示したように,分類係数テーブル170bとテキスト分類部190とが新たに追加された点で図2に示した第1実施形態にかかる文書処理装置100と機能構成上相異する。
また,本実施形態にかかる文書処理装置100は,分類係数テーブル170bに予め登録された分類情報に基づいて入力テキストがどの分類に属するかを決定し,前述した出現度数と重要度との相関関係に加え,決定されたテキストの分類と重要度との相関関係をも考慮して入力テキストから重要文を抽出する点で第1実施形態にかかる文書処理装置100と動作上相異する。したがって,これらの相異点を中心に本実施形態にかかる文書処理装置100について説明する。
本実施形態にかかる文書処理装置100は,入力部150,分割部155,正規化部160,文ハッシュ計算部165,記憶部170内の分割文ハッシュテーブル170a,文ハッシュ検索部175,抽出部180,出力部185に加え,テキスト分類係数テーブル170b(記憶部170内)およびテキスト分類部190の各ブロックにて示される機能を有している。
分割文ハッシュテーブル170aは,図6に示したように,ハッシュ値170a1および出現度数170a2の項目に加え,分類コード170a3の項目が新たに記憶されている。たとえば,図3のハッシュ値「2753・・・a759」の出現度数は「1020」であったが,本実施形態では,図6に示したように,ハッシュ値「2753・・・a759」によって表される文が含まれるテキストの分類コード170a3から,その出現度数を二つに分けて分類している。具体的には,図3のハッシュ値「2753・・・a759」の出現度数「1020」は,分類コード170a3が「20」の場合の出現度数「621」と分類コード170a3が「24」の場合の出現度数「399」とに分けてカウントされている。
分類コードは,ハッシュ値170a1を算出した元の文が含まれているテキストの属性を示した一例である。分類コードは,たとえば,図7に示したように,野球(20),サッカー(24),経済(06)というようにテキストを分類するために使用される。また,たとえば,図8に示したように,電子メールの受取人によって,本人(01),本人が属する部(02),本人が属さない部(03)というようにテキストを分類してもよい。
分類コードは,テキストの属性を表す一例であり,テキストの属性を表すことができれば,どんな情報であってもよい。たとえば,テキストの属性は,電子メールまたはWebコンテンツというような文書の種類やテキストを送信した送信元の情報などにより表されてもよい。
分類係数テーブル170bには,分割文ハッシュテーブル170aに記憶された分類コード(図7の横軸)と,入力テキストが属する分類コード(図7の縦軸)と,の2つの分類コードの相関関係により決定される数値(相関値)が予め記憶されている。この数値は,各分類コードの相関度が低いほど高い値をもっている。たとえば,入力テキストが属する分類コードが野球の場合,分割文ハッシュテーブル170aに記憶された各分類コードが野球ならば,相関値は「1」となり,サッカーならば「1.5」となり,経済ならば「4」となる。よって,野球と経済との相関関係が一番低く,サッカー,野球の順に相関関係が高くなることがわかる。
図8には,分類係数テーブル170bに記憶された他の情報の例が示されている。具体的には,分類係数テーブル170bには,電子メールの受取人により分類コードを本人(01),本人が属する部(02),本人が属さない部(03)のいずれかに設定し,それらの分類コードに対する相関値が予め記憶されている。
テキスト分類部190は,入力されたテキストの分類を示す分類コードを特定する。
たとえば,テキストに含まれる単語の出現回数を用いて,図7に示したように,野球(20),サッカー(24),経済(06)といったように入力テキストの分類コードを特定する方法や,図8に示したように,電子メールの受取人によって分類コードを特定する。
(文書処理装置100の動作)
つぎに,本実施形態にかかる文書処理装置100の具体的動作について,図9を参照しながら説明する。図9は,本実施形態にかかる文書処理装置100が実行する重要文抽出処理を示したフローチャートである。
ステップ900から重要文抽出処理が開始され,ステップ905に進むと,テキスト分類部190は,入力されたテキストの分類を示す分類コードを特定する。つぎに,ステップ405〜ステップ415にて,各部が第1実施形態と同様の処理を実行する。すなわち,ステップ405にて,分割部155が,入力されたテキストを文単位に分割し,ステップ410にて,正規化部160が,文字等の正規化を行い,ステップ415にて,文ハッシュ計算部165が,各文のハッシュを計算する。
つぎに,ステップ420に進むと,文ハッシュ検索部175は,各文から算出された各ハッシュ値が,分割文ハッシュテーブル170aに記憶されたいずれかのハッシュ値170a1に一致するか否かを検索する。ここで,本実施形態の分割文ハッシュテーブル170aには,ハッシュ値170a1が同じであっても,分類コード170a3が異なる複数の出現度数170a2が記憶されている。したがって,本実施形態では,文ハッシュ検索部175は,各文に対応する各ハッシュ値に一致する複数の出現度数170a2を検出する。
検索の結果,各文から求められたハッシュ値が分割文ハッシュテーブル170aに記憶されている場合,文ハッシュ検索部175は,そのハッシュ値に関連付けて記憶された出現度数170a2のうち,テキストの分類コードに対応する出現度数170a2を1つ増加する。一方,各文から求められたハッシュ値が分割文ハッシュテーブル170aに記憶されていない場合には,求められたハッシュ値およびテキストの分類コードとともに出現度数として「1」を記憶する。
つぎに,ステップ425に進み,抽出部180が,テキストから重要文を決定し,出力部185が,抽出した重要文を要約テキストとして出力する。本実施形態では,抽出部180は,分割文ハッシュテーブル170aに記憶された出現度数170a2と分類係数テーブル170bに記憶された相関値とを用いて重要文を抽出する。
具体的には,抽出部180は,各文に対応するハッシュ値の出願度数nおよび分類コードから求められる相関値kを変数とする関数fを用いて各文の重要度mを算出する。その関数fを以下に示す。
m=Σf(ki・ni)+α
ここで,α:他の要因によって決定される重要度(任意)
n=Σni(i=分類係数テーブルのインデックス)
このとき,m1=f(n1),m2=f(n2)において,
n1>n2ならば,m1≦m2となる。
たとえば,テキストの分類コードが野球(20)である場合,抽出部180は,分割文ハッシュテーブル170aに記憶された各項目の値と,分類係数テーブル170bに記憶された各相関値と,を用いて以下のように重要度mを算出する。
m=f(1・621)+f(1.5・399)+α
このようにして算出された各ハッシュ値に対する重要度mに基づいて,抽出部180は,重要度mが大きいハッシュ値170a1に対応した文を重要文として抽出する。抽出した重要文が携帯電話等に表示された後,ステップ995に進み本処理は終了となる。
以上に説明したように,本実施形態にかかる文書処理装置100によれば,テキストの分類から相関値kを求め,相関値kを用いて出現度数に重み付けをすることにより,重要度mが求められる。ここで,特定の分野でのみ頻出する語や文に対する相関値kは,分類係数テーブル170bにて,予め,小さく設定されている。よって,本実施形態の場合,特定の分野でのみ頻出する文が,その他の分野でも頻出する文より重要度が高くなるように関数fに重み付けがなされる。このようにして,各文に対する重要度mが適切に算出され,算出された各重要度mに基づいてより適切な要約テキストを抽出することができる。
(第3実施形態)
つぎに,第3実施形態にかかる文書処理装置100について説明する。本実施形態にかかる文書処理装置100は,図10に示したように,全文ハッシュテーブル170cと全ハッシュ計算部195と全ハッシュ検索部199とが新たに追加された点で図2に示した第1実施形態にかかる文書処理装置100と機能構成上相異する。
また,本実施形態にかかる文書処理装置100では,入力テキスト全体の文字列に対するハッシュ値(以下,全ハッシュ値と称呼する。)を求め,求められた全ハッシュ値が,全文ハッシュテーブル170cに予め登録されたハッシュ値に一致する場合には,図4の第1実施形態にかかる重要文抽出処理を実行せずに,該当全ハッシュ値に対応して全文ハッシュテーブル170cに予め登録された文を重要文とする点で第1実施形態にかかる文書処理装置100と動作上相異する。したがって,これらの相異点を中心に本実施形態にかかる文書処理装置100について説明する。
本実施形態にかかる文書処理装置100は,入力部150,分割部155,正規化部160,文ハッシュ計算部165,記憶部170内の分割文ハッシュテーブル170a,文ハッシュ検索部175,抽出部180,出力部185に加え,全文ハッシュテーブル170c(記憶部170内),全ハッシュ計算部195および全ハッシュ検索部199の各ブロックにて示される機能を有している。
全文ハッシュテーブル170cには,図示されていないが,後述する全ハッシュ計算部195によりいままで計算された,各入力テキストの全文字列に対する全ハッシュ値(全計算値に相当)が,その入力テキスト対して以前に抽出された重要文に関連付けて蓄積されている。なお,全ハッシュ計算部195は,入力テキスト中の宛名情報や送信元情報を除いた本文を特定部分とし,その特定部分の全文字列に対する全ハッシュ値を計算してもよい。
全ハッシュ計算部195は,入力テキストの全文字列に対するハッシュ値(全ハッシュ値)を計算する。全ハッシュ検索部199は,全ハッシュ計算部195により求められた各全ハッシュ値が,全文ハッシュテーブル170cに記憶されたいずれかのハッシュ値と一致するか否かを検索する。
(文書処理装置100の動作)
つぎに,本実施形態にかかる文書処理装置100の具体的動作について,図11を参照しながら説明する。図11は,本実施形態にかかる文書処理装置100が実行する重要文抽出処理を示したフローチャートである。
ステップ1100から重要文抽出処理が開始され,ステップ1105に進むと,全ハッシュ計算部195は,入力されたテキスト全体に対するハッシュ値(全ハッシュ値)を計算する。つぎに,ステップ1110に進んで,全ハッシュ検索部199は,全ハッシュ計算部195により求められた全ハッシュ値が,全文ハッシュテーブル170cに記憶されたいずれかのハッシュ値と一致するか否かのマッチング処理を行う。
全ハッシュ検索部199によるマッチング処理の結果,全ハッシュ計算部195により求められた全ハッシュ値が全文ハッシュテーブル170cに記憶されていると判定された場合には,全ハッシュ検索部199は,ステップ1115にて「Yes」と判定し,直ちにステップ1120に進む。抽出部180は,ステップ1120にて,全ハッシュ値に対応して全文ハッシュテーブル170cに記憶されている重要文を要約テキストとして抽出する。この要約テキストは,出力部185により携帯電話を用いてユーザに表示された後,ステップ1195に進んで本処理は終了となる。
一方,全ハッシュ検索部199によるマッチング処理の結果,全ハッシュ計算部195により求められた全ハッシュ値が全文ハッシュテーブル170cに記憶されていないと判定された場合には,全ハッシュ検索部199は,ステップ1115にて「No」と判定し,ステップ405に進んで,ステップ405〜ステップ420にて,第1実施形態と同様の処理を実行することにより,入力テキストに対する各文のハッシュ値の出現度数170a2が検出される。
つぎに,ステップ1120に進み,抽出部180が,第1実施形態と同様の処理を実行することにより,出現度数170a2に基づいて重要文を抽出する。抽出部180は,全ハッシュ計算部195により求められた全ハッシュ値とともに,抽出された重要文を関連付けて全文ハッシュテーブル170cに記憶する。また,ステップ1120にて,出力部185が抽出した重要文を要約テキストとして出力した後,ステップ1195に進んで本処理は終了となる。
以上に説明したように,本実施形態にかかる文書処理装置100によれば,同じ内容のメールが操作ミスや誤送により複数回入力された場合にも,出現頻度の値は必要以上に高くならず,実情に合致した適切な値をとるように設定される。これにより,各文の重要度が必要以上に低下することを回避することができる。
また,本実施形態にかかる文書処理装置100によれば,たとえば,同じ内容のメールが複数回入力されたときのように,以前入力されたテキストと同一テキストが入力された場合には,ステップ405〜ステップ420にて示される処理を実行する必要がない。すなわち,処理の負荷を軽減しながら,以前に抽出した重要文を使用してすばやく要約テキストをユーザに提供することができる。
なお,以上に説明したすべての実施形態では,入力テキストとして電子メールを例に挙げて説明したが,これに限られず,文書処理装置100は,自己が作成したテキストなど複数種類のテキストを対象とすることができる。
また,以上に説明したすべての実施形態では,受信した電子メールを要約する例を挙げて文書処理装置100について説明した。しかし,この例に限られず,文書処理装置100は,たとえば,キーボードなどにより入力された文書や記憶領域に記憶された文書などを要約する際に使用されてもよい。また,文書処理装置100は,自己が作成した文を要約してから送信する際に使用されてもよい。
また,以上の実施形態にて説明した各ハッシュ値の出現度数170a2は,各ハッシュ値の出現頻度の一例であり,各ハッシュ値の出現頻度は,各ハッシュ値が出現する割合を示す値であればどんな値であってもよい。たとえば,ハッシュ値の出現頻度の他の例としては,分割文ハッシュテーブル170aに記憶されたすべてのハッシュ値に対する該当ハッシュ値の出現率や,そのすべてのハッシュ値の平均出現頻度に対する該当ハッシュ値の偏差が挙げられる。
また,以上では,分割部155は,テキストを文単位に分割した。しかし,分割部155は,所定の条件に基づいて,テキストを複数の文字列に分割することができればよく,必ずしも文単位に分割する必要はない。たとえば,分割部155は,テキストを文節単位や段落単位に分割してもよい。より具体的には,分割部155は,テキスト中に改行が生じたら分割するという条件に基づいて,テキストを段落単位に分割してもよい。また,読点または句点のいずれかが出現したら分割するという条件に基づいて,「こんにちは,○○です。」という文書を「こんにちは」,「○○です」という2つの文字列に分割してもよい。この場合,文書処理装置100は,「こんにちは,○○です。」「こんにちは,△△です。」から出現度数の高い「こんにちは」の文字列や「こんにちは」を含んだ行を削除することにより,テキストから重要文(すなわち,「○○です。」および「△△です。」からなる要約文)を抽出することができる。
また,以上の説明では,出力部185は,要約テキストを携帯電話のディスプレイに表示した。しかし,これに限られず,たとえば,出力部185は,図1に示したように他の機器のCRT300,プリンタ305に要約テキストを出力したり,ネットワークカード310などに要約テキストを記憶するようにしてもよいし,音声出力装置315に,要約テキストを音声情報として出力するようにしてもよい。
上記実施形態において,各部の動作はお互いに関連しており,互いの関連を考慮しながら,一連の動作として置き換えることができる。そして,このように置き換えることにより,文書処理装置の発明の実施形態を,文書処理方法の実施形態とすることができる。
また,上記各部の動作を,各部の処理と置き換えることにより,プログラムの実施形態とすることができる。また,プログラムを,プログラムを記録したコンピュータ読み取り可能な記録媒体に記憶させることにより,プログラムの実施形態をプログラムに記録したコンピュータ読み取り可能な記録媒体の実施形態とすることができる。
したがって,文書処理方法の実施形態は,所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶部に記憶する処理と,文書を所定の条件に基づいて複数の文字列に分割する処理と,上記所定の規則に基づいて,上記分割された各文字列から各文字列固有の計算値をそれぞれ求める処理と,上記求められた各計算値と上記記憶部に記憶された計算値とを比較することにより,上記求められた各計算値に対応する出現頻度をそれぞれ検索する処理と,上記検索された各計算値に対応する各出現頻度に基づき,1または2以上の計算値を選択し,選択された1または2以上の計算値に対する文字列を上記文書の要約として抽出する処理とを,をコンピュータに実行させる文書処理プログラムの実施形態とすることができる。
また,文書処理方法の実施形態は,所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶部に記憶する処理と,文書を所定の条件に基づいて複数の文字列に分割する処理と,上記所定の規則に基づいて,上記分割された各文字列から各文字列固有の計算値をそれぞれ求める処理と,上記求められた各計算値と上記記憶部に記憶された計算値とを比較することにより,上記求められた各計算値に対応する出現頻度をそれぞれ検索する処理と,上記検索された各計算値に対応する各出現頻度に基づき,1または2以上の計算値を選択し,選択された1または2以上の計算値に対する文字列を上記文書の要約として抽出する処理とを,をコンピュータに実行させる文書処理プログラムを記憶したコンピュータ読み取り可能な記録媒体の実施形態とすることができる。
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明は係る例に限定されないことは言うまでもない。当業者であれば,特許請求の範囲に記載された範疇内において,各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
たとえば,以上の各実施形態にかかる文書処理装置100では,各部が,すべて文書処理装置100内に存在するように説明したが,本発明はこれに限定されず,各部の機能の一部が,ネットワークで接続された別の制御手段の中に含まれていてもよく,また,負荷分散や安全性の確保のために,各部の手段および機能が複数存在していてもよい。
本発明は,文書から重要部分を高速に自動抽出する文書処理装置および文書処理方法に適用可能である。
本発明の第1実施形態にかかる文書処理装置のハードウエア構成図である。 同実施形態にかかる文書処理装置の機能構成図である。 分割文ハッシュテーブルのデータ構造の一例を示した図である。 同実施形態にて文書処理装置が実行する重要文抽出処理ルーチンを示したフローチャートである。 本発明の第2実施形態にかかる文書処理装置の機能構成図である。 分割文ハッシュテーブルのデータ構造の他の一例を示した図である。 分類係数テーブルのデータ構造の一例を示した構成図である。 分類係数テーブルのデータ構造の他の一例を示した構成図である。 同実施形態にて文書処理装置が実行する重要文抽出処理ルーチンを示したフローチャートである。 本発明の第3実施形態にかかる文書処理装置の機能構成図である。 同実施形態にて文書処理装置が実行する重要文抽出処理ルーチンを示したフローチャートである。
符号の説明
100 文書処理装置
120 プロセッサ
150 入力部
155 分割部
160 正規化部
165 文ハッシュ計算部
170 記憶部
170a 分割文ハッシュテーブル
170b 分類係数テーブル
170c 全文ハッシュテーブル
175 文ハッシュ検索部
180 抽出部
185 出力部
190 テキスト分類部
195 全ハッシュ計算部
199 全ハッシュ検索部

Claims (11)

  1. 所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶する記憶部と;
    文書を所定の条件に基づいて複数の文字列に分割する分割部と;
    前記所定の規則に基づいて,前記分割された各文字列から各文字列固有の計算値をそれぞれ求める計算部と;
    前記計算部により求められた各計算値と前記記憶部に記憶されている計算値とを比較することにより,前記求められた各計算値に対応する出現頻度をそれぞれ検出する検索部と;
    前記検出された各計算値に対応する出現頻度に基づいて,1または2以上の計算値を選択し,選択された1または2以上の計算値に対する文字列を前記文書の要約として抽出する抽出部と;を備える文書処理装置。
  2. 前記計算部は,
    前記所定の規則としてハッシュ関数を用いて,前記各文字列から前記計算値としてのハッシュ値をそれぞれ求める請求項1に記載された文書処理装置。
  3. 前記抽出部は,
    前記検索された各計算値に対応する出現頻度をそれぞれ比較することにより,より低い値を有する出現頻度に関連付けられて記憶されている計算値から順に1または2以上の計算値を選択する請求項1または請求項2のいずれかに記載された文書処理装置。
  4. 前記検索部は,
    前記比較の結果,前記計算部により求められた計算値が前記記憶部に記憶されていると判定された場合には,前記求められた計算値に関連付けて記憶されている出現頻度を増加させ,前記求められた計算値が前記記憶部に記憶されていないと判定された場合には,前記求められた計算値とともに所与の値をもつ出現頻度を新たに記憶する請求項1〜3のいずれかに記載された文書処理装置。
  5. 前記分割部は,
    前記文書を文節または文または段落のいずれかを構成する複数の文字列に分割する請求項1〜4のいずれかに記載された文書処理装置。
  6. 前記文書処理装置であって,さらに,
    前記文書または前記分割された各文のいずれかに含まれる文字列の形式を整える正規化部を備える請求項1〜5のいずれかに記載された文書処理装置。
  7. 前記文書処理装置であって,さらに,
    前記文書の属性を定めるテキスト分類部を備え,
    前記記憶部は,
    前記求められた計算値の出現頻度を文書の属性毎に複数記憶し,
    前記抽出部は,
    前記定められた文書の属性と前記記憶部に記憶された文書の属性との相関関係から定められる相関値をそれぞれ用いて,前記記憶部に文書の属性毎に記憶された複数の出現頻度をそれぞれ重み付けし,重み付けられた各出現頻度に基づき,1または2以上の計算値を選択する請求項1〜6のいずれかに記載された文書処理装置。
  8. 前記抽出部は,
    前記各相関値を用いて前記計算値に対して前記文書の属性毎に記憶された複数の出現頻度にそれぞれ重み付けし,重み付けられた各出現頻度の総和を前記各計算値に対応した重要度として算出し,算出された重要度のうち高いものから順に,対応する1または2以上の計算値を選択する請求項7に記載された文書処理装置。
  9. 前記相関値は,
    前記テキスト分類部により決定された文書の属性と前記記憶部に記憶された文書の属性との関連が小さいほど,より大きな値をもつように設定される請求項7または請求項8のいずれかに記載された文書処理装置。
  10. 前記計算部は,
    テキストの特定部分または全部分に固有の計算値を全計算値として求め,
    前記検索部は,
    前記全計算値が前記記憶部に記憶されているか否かを検索し,前記全計算値が前記記憶部に記憶されていない場合,前記全計算値を,前記抽出部により前記文書の要約として抽出された文字列に関連付けて記憶し,
    前記抽出部は,
    前記全計算値が前記記憶部に記憶されている場合,前記分割部,前記計算部,前記検索部および前記抽出部による各動作を各部に実行させることなく,前記全計算値に関連付けて前記記憶部に記憶されている計算値に応じた文字列を前記文書の要約として抽出する請求項1〜9のいずれかに記載された文書処理装置。
  11. 所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶部に記憶し;
    文書を所定の条件に基づいて複数の文字列に分割し;
    前記所定の規則に基づいて,前記分割された各文字列から各文字列固有の計算値をそれぞれ求め;
    前記求められた各計算値と前記記憶部に記憶されている計算値とを比較することにより,前記求められた各計算値に対応する出現頻度をそれぞれ検索し;
    前記検索された各計算値に対応する各出現頻度に基づき,1または2以上の計算値を選択し,選択された1または2以上の計算値に対する文字列を前記文書の要約として抽出する文書処理方法。

JP2005284585A 2005-09-29 2005-09-29 文書処理装置および文書処理方法 Expired - Fee Related JP4618083B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005284585A JP4618083B2 (ja) 2005-09-29 2005-09-29 文書処理装置および文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005284585A JP4618083B2 (ja) 2005-09-29 2005-09-29 文書処理装置および文書処理方法

Publications (2)

Publication Number Publication Date
JP2007094838A true JP2007094838A (ja) 2007-04-12
JP4618083B2 JP4618083B2 (ja) 2011-01-26

Family

ID=37980468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005284585A Expired - Fee Related JP4618083B2 (ja) 2005-09-29 2005-09-29 文書処理装置および文書処理方法

Country Status (1)

Country Link
JP (1) JP4618083B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009045668A2 (en) * 2007-09-28 2009-04-09 Microsoft Corporation Two-pass hash extraction of text strings
JP2009271796A (ja) * 2008-05-08 2009-11-19 Nomura Research Institute Ltd 文書データのノイズ除去システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305710A (ja) * 1995-04-28 1996-11-22 Toshiba Corp 文書のキーワード抽出方法及び文書検索装置
JPH11212980A (ja) * 1998-01-23 1999-08-06 Fuji Xerox Co Ltd インデクス作成方法および検索方法
JP2000090115A (ja) * 1998-09-11 2000-03-31 Fuji Xerox Co Ltd インデクス作成方法および検索方法
JP2000235584A (ja) * 1998-12-17 2000-08-29 Fuji Xerox Co Ltd 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
JP2004157981A (ja) * 2002-07-09 2004-06-03 Canon Inc 要約表現装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305710A (ja) * 1995-04-28 1996-11-22 Toshiba Corp 文書のキーワード抽出方法及び文書検索装置
JPH11212980A (ja) * 1998-01-23 1999-08-06 Fuji Xerox Co Ltd インデクス作成方法および検索方法
JP2000090115A (ja) * 1998-09-11 2000-03-31 Fuji Xerox Co Ltd インデクス作成方法および検索方法
JP2000235584A (ja) * 1998-12-17 2000-08-29 Fuji Xerox Co Ltd 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
JP2004157981A (ja) * 2002-07-09 2004-06-03 Canon Inc 要約表現装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009045668A2 (en) * 2007-09-28 2009-04-09 Microsoft Corporation Two-pass hash extraction of text strings
WO2009045668A3 (en) * 2007-09-28 2009-05-28 Microsoft Corp Two-pass hash extraction of text strings
US8078454B2 (en) 2007-09-28 2011-12-13 Microsoft Corporation Two-pass hash extraction of text strings
RU2464630C2 (ru) * 2007-09-28 2012-10-20 Майкрософт Корпорейшн Двухпроходное хеш извлечение текстовых строк
JP2009271796A (ja) * 2008-05-08 2009-11-19 Nomura Research Institute Ltd 文書データのノイズ除去システム

Also Published As

Publication number Publication date
JP4618083B2 (ja) 2011-01-26

Similar Documents

Publication Publication Date Title
US7269544B2 (en) System and method for identifying special word usage in a document
US7739220B2 (en) Context snippet generation for book search system
US7346487B2 (en) Method and apparatus for identifying translations
US8868469B2 (en) System and method for phrase identification
US9043339B2 (en) Extracting terms from document data including text segment
JP5370159B2 (ja) 情報抽出装置及び情報抽出システム
CN111858912A (zh) 一种基于单篇长文本的摘要生成方法
US9501557B2 (en) Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
CN107885717B (zh) 一种关键词提取方法及装置
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP4618083B2 (ja) 文書処理装置および文書処理方法
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JP2004054882A (ja) 類義語検索装置、方法、プログラム及び記憶媒体
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
JP2002183194A (ja) 検索式生成装置およびその方法
JP5339628B2 (ja) 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ
JP5495425B2 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
CN113722447B (zh) 一种基于多策略匹配的语音搜索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101011

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees