JP2007094838A

JP2007094838A - 文書処理装置および文書処理方法

Info

Publication number: JP2007094838A
Application number: JP2005284585A
Authority: JP
Inventors: Koji Okumura; 幸治奥村
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-09-29
Filing date: 2005-09-29
Publication date: 2007-04-12
Anticipated expiration: 2025-09-29
Also published as: JP4618083B2

Abstract

【課題】文書から重要部分を高速に抽出する文書処理装置を提供する。
【解決手段】文書処理装置１００は，分割部１５５と文ハッシュ計算部１６５と分割文ハッシュテーブル１７０ａと文ハッシュ検索部１７５と抽出部１８０とを含んで構成される。分割文ハッシュテーブル１７０ａには，ハッシュ値と出現頻度とが蓄積されている。分割部１５５は，入力文書を各文に分割する。文ハッシュ計算部１６５は，ハッシュ関数を用いて分割された各文からハッシュ値を求める。文ハッシュ検索部１７５は，求められた各文のハッシュ値と分割文ハッシュテーブル１７０ａに記憶されたハッシュ値とをマッチング処理し，一致したハッシュ値に対応する出現度数を検出する。抽出部１８０は，検出された出現頻度に基づいて，各文のハッシュ値のうちから１または２以上のハッシュ値を選択し，選択されたハッシュ値に対する各文を入力文書の要約として抽出する。
【選択図】図２

Description

本発明は，文書から重要部分を自動抽出する文書処理装置および文書処理方法に関する。特に，ハッシュ関数を用いて文書の重要部分を自動抽出する文書処理装置および文書処理方法に関する。

近年，ネットワークを利用する人口の急激な増加や，目覚ましい通信技術の進歩に伴い，ネットワークを介して他の機器から配信された文書を，携帯端末などの電子機器を使用して閲覧する機会が多くなっている。このような状況では，携帯端末の利用者は，たとえば，情報量が多いＷｅｂページや電子メールのように，予め携帯端末向けに作成されたものではない文書（テキスト）であっても，自己の携帯端末で閲覧したいと感じる機会が非常に多い。

しかし，携帯端末は，利用者により常時携帯されるという性質上，小型かつ軽量であることが求められる。このような要求により，近年，小型化，軽量化が著しい携帯端末では，スペックの問題から情報の記憶量や処理量に一定の制約があるため，電子メールのような文書を一度に表示することができない場合がある。

この問題に対して，自然言語処理技術を用いて，入力された文書から要約文を自動生成することにより文書の情報量を少なくした後，その要約文を携帯端末に送信して表示させようという研究が模索されている。この研究は，意味理解技術や文脈理解技術などを用いて文書の要約を計算機により自動生成することを目指している。しかし，この技術は，今なお，実用レベルまで確立されておらず，現時点では，実用化が困難な状況にある。

そこで，より実用化が容易な方法として，キーワードをマッチングすることにより文書から重要文を抽出する技術が提案されている（たとえば，特許文献１を参照。）。この技術では，まず，重要文あるいは不要文に統計的に多く含まれる特定の単語や言い回しが，予め，人手により計算機に登録され，その上で，テキストの各文の中に先に登録された単語や言い回しが含まれているか否かが検査される。その結果，各文に含まれる特定の単語や言い回しの数に基づき各文の重要度がそれぞれ決定され，重要度が高いと決定された１または２以上の文が要約文として抽出される。

特開平６−２５９４２３号公報

しかし，上記の技術には次のような３つの問題点がある。まず，第１は，上記技術では，予め重要度を計算する手がかりとなる特定の単語や言い回しを実用に十分耐えうる程度まで計算機に登録しなければならず，この作業に多くの時間と人手とがかかるという点である。また，時代とともに移り変わる流行語などにも適宜対応するためには，上記登録作業を継続して行うことによって，登録情報を常に更新する必要がある。

第２は，上記技術では，登録された単語や言い回しが，各文に含まれているか否かを判定するために，各文と登録された単語または言い回しとの比較が必要であり，計算機の処理の負荷が非常に高い点である。具体的には，登録された単語や言い回しが各文の一部に含まれているか否かを判定するには，各文に含まれる文字列を一文字ずつ，ずらしながら，登録単語と比較する必要がある。換言すれば，この判定処理は，各文と登録された単語または言い回しとの文字列の比較を，各文の文字数にて示される回数だけ繰り返さなければならない。このため，その文字列をマッチングするための処理量が非常に多くなってしまう。

第３は，上記技術では，多言語に対応することが困難であるという点である。すなわち，登録すべき単語や言い回しの選定は，それぞれの言語で行う必要がある。このため，開発者または登録者は，対象となる言語に精通していなければならない。特に，メジャーでない言語を対象とする場合，そのような言語に精通した者を確保すること自体難しく，もしそのような者を探してきたとしても，その者を雇用するために多くのコストがかかってしまう。

そこで，本発明は，上記問題に鑑みてなされたものであり，本発明の目的とするところは，処理の負荷を軽減することにより，文書から重要部分を高速に自動抽出する，新規かつ改良された文書処理装置および文書処理方法を提供することにある。

上記課題を解決するために，本発明のある観点によれば，所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶する記憶部と，文書を所定の条件に基づいて複数の文字列に分割する分割部と，上記所定の規則に基づいて，上記分割された各文字列から各文字列固有の計算値をそれぞれ求める計算部と，上記計算部により求められた各計算値と上記記憶部に記憶された計算値とを比較することにより，上記求められた各計算値に対応する出現頻度をそれぞれ検出する検索部と，上記検出された各計算値に対応する各出現頻度に基づいて，１または２以上の計算値を選択し，選択された１または２以上の計算値に対する文字列を上記文書の要約として抽出する抽出部と，を備える文書処理装置が提供される。

従来，文書からその要約を抽出する際，文書に含まれる文字列に予め登録された単語が含まれているか否かを一文字ずつ，ずらしながらマッチング処理していた。この文字列の比較は，実際には文字数にて示される回数だけの比較が必要であった。

しかし，本発明によれば，分割された各文の文字列から，その各文に固有な１つのデータ（計算値）が算出され，算出された１つのデータ（計算値）と，記憶部に記憶された計算値と，がマッチング処理される。すなわち，本発明では，文字列の比較ではなく，１回の数値の比較のみが必要になる。このため，文書からその要約を抽出する際，非常に高速にマッチング処理を完了することができる。すなわち，予め登録された単語が，各文に含まれる文字列に含まれているか否かを一文字ずつ，ずらしながらマッチング処理していた従来に比べて処理の負荷を劇的に少なくすることができる。

そして，本発明では，このような高速なマッチング処理の結果，マッチングした計算値に対応して記憶された各出現頻度に基づいて文書の要約となる重要文を高速に抽出することができる。この結果，文書の情報量が多いために携帯電話等の比較的スペックに乏しい機器に今まで表示できなかった情報であっても，これをすばやく要約して表示することができる。このため，ユーザは，いままで見ることさえできなかった文書の要約文により，文書の重要部分をすばやく把握することができる。

また，これによれば，文書を要約する度に，計算された計算値とその計算値の出現度数に関する情報とが，「自動的に」記憶部に蓄積されていく。このため，重要文であるか，または，不要文であるかを判定する手がかりとなる特定の単語や言い回しを実用に充分耐えうる程度まで，記憶部に予め登録しておくという作業が不要になる。

さらに，これによれば，各文の文字列が文書の言語に依存しない単なるデータに変換される。このため，文書の言語に依存せずに，文書を要約することができる。したがって，本文書処理装置を使用してシステムを構築または運用する際，開発者や登録者は，それぞれの言語に精通している必要がなく，未知の言語であってもこれに対応することができる。

上記計算部は，上記所定の規則としてハッシュ関数を用いて，上記各文字列から上記計算値としてのハッシュ値をそれぞれ求めるようにしてもよい。

また，上記抽出部は，上記検索された各計算値に対応する出現頻度をそれぞれ比較することにより，より低い値を有する出現頻度に関連付けて記憶されている計算値から順に１または２以上の計算値を選択するようにしてもよい。

上記検索部は，上記検索部による比較の結果，上記計算部により求められた計算値が上記記憶部に記憶されていると判定された場合には，上記求められた計算値に関連付けて記憶されている出現頻度を増加させ，上記求められた計算値が上記記憶部に記憶されていないと判定された場合には，上記求められた計算値とともに所与の値をもつ出現頻度を新たに記憶してもよい。

上記分割部は，上記文書を文節または文または段落のいずれかを構成する複数の文字列に分割することができる。

上記文書処理装置であって，さらに，上記文書または上記分割された各文のいずれかに含まれる文字列の形式を整える正規化部を備えていてもよい。

これによれば，たとえば，全角文字，半角文字を統一するなど，文字列の形式が整えられる。これにより，表記の違いによる計算の誤差をなくして，形式が整えられた文字列からより正確な計算値を算出することができる。この結果，正確な計算値を用いて，文書からより正確に要約を抽出することができる。

さらに，上記文書処理装置は，上記文書の属性を定めるテキスト分類部を備えていてもよい。このとき，上記記憶部は，上記求められた計算値の出現頻度を文書の属性毎に複数蓄積し，上記抽出部は，上記定められた文書の属性と上記記憶部に記憶された文書の属性との相関関係から定められる相関値をそれぞれ用いて，上記記憶部に文書の属性毎に記憶された複数の出現頻度をそれぞれ重み付けし，重み付けられた各出現頻度に基づき，１または２以上の計算値を選択するようにしてもよい。

また，このとき，上記相関値は，上記テキスト分類部により決定された文書の属性と上記記憶部に記憶された文書の属性との関連が小さいほど，より大きな値をもつように設定されていてもよい。

また，上記抽出部は，上記各相関値を用いて上記計算値に対して上記文書の属性毎に記憶された複数の出現頻度にそれぞれ重み付けし，重み付けられた各出現頻度の総和を上記各計算値に対応した重要度として算出し，算出された重要度のうち高いものから順に，対応する１または２以上の計算値を選択するようにしてもよい。

これによれば，文書の属性に関する相関値が予め定められていて，相関値を用いて各出現度数が重み付けされる。ここで，相関値は，相関度が低いほど高い値に設定される。たとえば，特定の分野でのみ頻出する語や文に対する相関値は，その特定分野との関連性が高いため，予め小さく設定されることができる。これにより，特定の分野でのみ頻出する文が，その他の分野でも頻出する文より重要度が高くなるように重み付けがなされる。この結果，各文に対する重要度ｍがより適切に算出され，算出された重要度に基づいて，より内容の充実した要約を抽出することができる。

また，上記計算部は，テキストの一部または全部に固有の計算値を全計算値として求め，上記検索部は，上記全計算値が上記記憶部に記憶されているか否かを検索し，上記全計算値が上記記憶部に記憶されていない場合，上記全計算値を，上記抽出部により上記文書の要約として抽出された文字列に関連付けて記憶し，上記抽出部は，上記全計算値が上記記憶部に記憶されている場合，上記分割部，上記計算部，上記検索部および上記抽出部による上記各部の動作を各部に実行させることなく，上記全計算値に関連付けて上記記憶部に記憶されている計算値に応じた文字列を上記文書の要約として抽出するようにしてもよい。

これによれば，同じ内容のメールが操作ミスや誤送により複数回入力された場合にも，出現頻度の値は，実情に沿った適切な値をとるように設定される。これにより，各文の重要度が必要以上に低下することを回避することができる。

また，これによれば，たとえば，同じ内容のメールが複数回入力されたときのように，以前入力したテキストと同一テキストを入力した場合には，再度，処理の負荷が高い計算値の算出やマッチング処理を実行する必要がない。このため，処理の負荷を軽減しながら，前に抽出した重要文を使用してすばやく要約テキストをユーザに提供することができる。

また，上記課題を解決するために，本発明の別の観点によれば，所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶部に記憶し，文書を所定の条件に基づいて複数の文字列に分割し，上記所定の規則に基づいて，上記分割された各文字列から各文字列固有の計算値をそれぞれ求め，上記求められた各計算値と上記記憶部に記憶されている計算値とを比較することにより，上記求められた各計算値に対応する出現頻度をそれぞれ検索し，上記検索された各計算値に対応する各出現頻度に基づき，１または２以上の計算値を選択し，選択された１または２以上の計算値に対する文字列を上記文書の要約として抽出する文書処理方法が提供される。

これによれば，各文に対応した１つの計算値と記憶部に記憶された計算値とが高速にマッチング処理される。これにより，各文の重要度を高速に判定し，その重要度に基づいて入力文書の要約を高速に抽出することができる。この結果，文書をすばやく要約してユーザに提供することができる。

以上説明したように本発明によれば，処理の負荷を軽減することにより，文書から重要部分を高速に自動抽出する，新規かつ改良された文書処理装置および文書処理方法を提供することができる。

以下に添付図面を参照しながら，本発明の好適な実施形態について詳細に説明する。なお，以下の説明及び添付図面において，同一の構成及び機能を有する構成要素については，同一符号を付することにより，重複説明を省略する。また，以下の各実施形態では，電子メールをテキスト（文書）の一例として挙げ，その要約を自動生成する文書処理装置およびその方法について説明する。

（第１実施形態）
（文書処理装置１００のハードウエア構成）
まず，第１実施形態にかかる文書処理装置のハードウエア構成について，図１を参照しながら説明する。文書処理装置１００は，ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０５，ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１０，ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１５，プロセッサ１２０，インターフェース１２５およびバス１３０を含んで構成される。

ＨＤＤ１０５には，テキストから重要文を抽出するために必要な情報を含んだ各種データやプログラムが蓄積されている。ＨＤＤ１０５は，記憶装置の一例であり，光ディスクや光磁気ディスクなどの記憶装置であってもよい。

ＲＯＭ１１０には，プロセッサ１２０を動作させるための基本的なプログラムやプロセッサ１２０が異常なときに起動するプログラムなどが記録されている。ＲＡＭ１１５には，外部から入力されたテキストや，後述する分割された各文，分類コードなどのデータが一時的に記憶される。プロセッサ１２０は，入力テキストから要約を生成するために，ＨＤＤ１０５やＲＯＭ１１０等に記憶されたプログラムを実行するようになっている。

インターフェース１２５は，たとえば，キーボード２００，ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）２０５，ネットワークカード２１０，音声入力装置２１５などの入力デバイスからテキストを入力するようになっている。また，インターフェース１２５は，テキストから抽出した要約文を，たとえば，ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）３００，プリンタ３０５，ネットワークカード３１０，音声出力装置３１５などの出力デバイスに出力するようになっている。

バス１３０は，ＨＤＤ１０５，ＲＯＭ１１０，ＲＡＭ１１５，プロセッサ１２０，インターフェース１２５の各デバイス間で情報をやりとりする経路である。

（文書処理装置１００の機能構成）
つぎに，文書処理装置１００の機能構成について，図２を参照しながら説明する。文書処理装置１００は，入力部１５０，分割部１５５，正規化部１６０，文ハッシュ計算部１６５，記憶部１７０，文ハッシュ検索部１７５，抽出部１８０および出力部１８５の各ブロックにて示される機能を有している。

入力部１５０は，たとえば，図１に示したキーボード２００から打ち込まれたテキストや，ＯＣＲ２０５やネットワークカード２１０から取り込まれたテキストや，音声入力装置２１５から音声入力されたテキストや，外部から伝送されるＷｅｂページや電子メールなどのテキストを入力して電子化する。

分割部１５５は，所定の条件に基づいて，入力された文書を複数の文字列に分割する。以下の説明では，分割部１５５は，対象となる電子メールを文単位に分割する。たとえば，分割部１５５は，文書中に句点（句点で区切られた各文を分割する場合）または改行（箇条書きにされた各行を分割する場合）が出現したら分割するという条件に基づいて，文書を複数の文字列に分割する。

正規化部１６０は，表記形式の違いを統一する。一例としては，全角文字と半角文字とをいずれかに統一する場合が挙げられる。なお，正規化部１６０は，分割後の各文に対してその形式を統一してもよく，分割前の文書に対してその形式を統一してもよい。また，正規化部１６０は，本実施形態にかかる文書処理装置１００に必須の機能ではない。しかし，文字列の表記の違いによるハッシュ値の算出誤差をなくし，形式が整えられた文字列からより正確な計算値を算出することができる。この結果，入力文書から，より正確に要約を抽出することができる。

文ハッシュ計算部１６５（計算部に相当）は，所定の規則に基づいて，分割後の各文字列から文字列毎に固有の計算値を求める。文ハッシュ計算部１６５は，たとえば，ハッシュ関数を用いて，分割部１５５にて分割された各文に対するハッシュ値を計算する。ハッシュ関数は，文書や数字などの文字列の羅列を一定長のデータ（ハッシュ値）に変換するための関数である。

記憶部１７０は，分割文ハッシュテーブル１７０ａを有している。分割文ハッシュテーブル１７０ａには，図３に示したように，いままでに入力されたテキストの各文から計算されたハッシュ値１７０ａ１とそのハッシュ値の出現頻度を示す出限度数１７０ａ２とが累積されている。なお，出現度数１７０ａ２は，文ハッシュ計算部１６５によりハッシュ値が算出された頻度，すなわち，各文の文字列が出現する頻度を表す値の一例であり，各文字列が出現する頻度を表す値であれば，各文字列が出現する回数以外の値であってもよく，たとえば，各文字列が出現する確率などであってもよい。

文ハッシュ検索部１７５（検索部に相当）は，文ハッシュ計算部１６５により今回計算された各文のハッシュ値が分割文ハッシュテーブル１７０ａに記憶されているか否かのマッチング処理を行う。今回計算されたハッシュ値が，分割文ハッシュテーブル１７０ａに記憶されたハッシュ値１７０ａ１と一致した場合，文ハッシュ検索部１７５は，一致したハッシュ値に対応して記憶された出現度数１７０ａ２をそれぞれ検出する。

このように，文ハッシュ計算部１６５により求められたハッシュ値が分割文ハッシュテーブル１７０ａに記憶されている場合，文ハッシュ検索部１７５は，そのハッシュ値１７０ａ１に関連付けて記憶された出現度数１７０ａ２の値をたとえば，「１」増加させる。

一方，求められたハッシュ値が分割文ハッシュテーブル１７０ａに記憶されていない場合には，文ハッシュ検索部１７５は，文ハッシュ計算部１６５により求められたハッシュ値とともに予め定められた所定値（たとえば，出現回数が一回であることを示す「１」）を有する出現頻度を分割文ハッシュテーブル１７０ａに記憶する。

抽出部１８０は，文ハッシュ検索部１７５により検出された各ハッシュ値に対応する各出現度数の値に基づいて，その中から１または２以上の出現度数を選択し，選択された出現度数に関連付けて記憶されている各ハッシュ値に対応する１または２以上の原文を要約として抽出する。このとき，抽出部１８０は，重要文を抽出する際には，入力されたテキストに含まれる各文に対応したハッシュ値のうち，出現度数が大きいハッシュ値に対応する文は重要度が低く，出現度数が小さいハッシュ値に対応する文は重要度が高いという規則を利用する。具体的には，抽出部１８０は，分割文ハッシュテーブル１７０ａに記憶されている該当ハッシュ値１７０ａ１の出現度数１７０ａ２を比較することにより，相対的に出現度数１７０ａ２が低いハッシュ値１７０ａ１を選択し，選択されたハッシュ値に対応した文を重要文として抽出する。

１または２以上の重要文を決定する具体的方法としては，たとえば，抽出部１８０は，入力テキストに含まれる各文のうち，一番出現度数が低いハッシュ値に対応する文を重要文として抽出する方法が挙げられる。また，抽出部１８０は，入力テキストに含まれる各文のうち，出現度数が低い順に重要文を数文抽出するようにしてもよい。出力部１８５は，このようにして抽出された重要文をテキストの要約文として，たとえば，携帯電話の画面などに出力する。

なお，以上に説明した文書処理装置１００の各機能は，実際には，プロセッサ１２０がこれらの機能を実現する処理手順を記述したプログラムを実行することにより，または，いずれかの機能を実現するためのハードウエアやＩＣの制御により達成される。たとえば，入力部１５０および出力部１８５の機能は，図１のインターフェース１２５として機能するＩＣにより実現されるようにしてもよい。また，分割部１５５，正規化部１６０，文ハッシュ計算部１６５，文ハッシュ検索部１７５，抽出部１８０の機能は，これらの機能を実現する処理手順を記述したプログラムを図１のプロセッサ１２０が実行することにより達成されるようにしてもよい。また，記憶部１７０の機能は，ＨＤＤ１０５，ＲＯＭ１１０またはＲＡＭ１１５等の記憶領域を用いて達成されるようにしてもよい。

（文書処理装置１００の動作）
つぎに，本実施形態にかかる文書処理装置１００の具体的動作について，図４を参照しながら説明する。図４は，本実施形態にかかる文書処理装置１００が実行する重要文抽出処理を示したフローチャートである。なお，この重要文抽出処理が実行される前に，入力部１５０によりテキストが入力され，記憶部１７０により入力されたテキストがＲＡＭ１１５またはＨＤＤ１０５に記憶されているものとする。

ステップ４００から重要文抽出処理が開始され，ステップ４０５に進むと，分割部１５５は，入力されたテキストを文単位に分割する。ここでの文には，区点で区切られたものの他に箇条書きにされた各行も含まれている。

つぎに，ステップ４１０に進み，正規化部１６０が，句読点や，半角文字，全角文字などの文字列の形式の統一を行い，ステップ４１５に進んで，文ハッシュ計算部１６５が，分割された文毎のハッシュ値を計算する。具体的には，文ハッシュ計算部１６５は，ＲＦＣ１３２１に示されているＭＤ５や，ＲＦＣ３１７４に示されているＳＨＡ−１などのハッシュ関数を用いて，与えられた原文（分割文）から固定長の擬似乱数であるハッシュ値を算出する。

これにより，各分割文の文字列が，たとえば図３に示したように，固定長であって分割された各文に固有の計算値（ハッシュ値１７０ａ１）に変換される。そして，このように変換されたハッシュ値１７０ａ１は，つぎに説明する文ハッシュ検索部１７５の機能を用いて，ハッシュ値の出現度数１７０ａ２とともに分割文ハッシュテーブル１７０ａに記憶される。このようにして，文ハッシュ計算部１６５により毎回計算されるハッシュ値とそのハッシュ値の出現度数が分割文ハッシュテーブル１７０ａに蓄積される。

つぎに，ステップ４２０に進むと，文ハッシュ検索部１７５は，各文に対応して算出された各ハッシュ値が，分割文ハッシュテーブル１７０ａに記憶されたハッシュ値１７０ａ１のいずれかのに一致するか否かを検索する。

検索の結果，文ハッシュ計算部１６５により求められたハッシュ値が分割文ハッシュテーブル１７０ａに記憶されていると判定された場合，文ハッシュ検索部１７５は，そのハッシュ値に関連付けて記憶された出現度数１７０ａ２を増加（たとえば，出現度数１７０ａ２を１つ増加）する。一方，文ハッシュ計算部１６５により求められたハッシュ値が分割文ハッシュテーブル１７０ａに記憶されていないと判定された場合には，求められたハッシュ値とともに出現度数として予め定められた所定値，たとえば「１」を記憶する。

つぎに，ステップ４２５に進み，抽出部１８０が，元の文（原文）の文書（テキスト）から重要文を決定し，出力部１８５が，抽出した重要文を要約テキストとして出力する。具体的には，抽出部１８０は，分割文ハッシュテーブル１７０ａに記憶された出現度数１７０ａ２を用いて以下のように重要文を抽出する。

分割文ハッシュテーブル１７０ａに記憶された出現度数１７０ａ２は，前述したように，今までに計算されたすべてのテキストから分割された各文のハッシュ値が出現した回数の累積であり，各文がこれまでにどれだけ出現したかを表す指標となる。よって，出現度数１７０ａ２が大きい値をもつということは，電子メールなどの多くのテキストに出現する文であると判定することができる。そして，このように多く出現する文は，挨拶（たとえば，「おはようございます」や「お世話になります」）などの可能性が高く，一般に，重要度が低いと推定される。このような原理から，各文に対応するハッシュ値の出願度数ｎと各文の重要度ｍとの関係は，関数ｆを用いてつぎのように表される。

ｍ＝ｆ（ｎ）＋α
ここで，α：他の要因によって決定される重要度（任意）
このとき，ｍ１＝ｆ（ｎ１），ｍ２＝ｆ（ｎ２）において，
ｎ１＞ｎ２ならば，ｍ１≦ｍ２となる。

このようにして算出された各ハッシュ値に対する重要度ｍに基づいて，抽出部１８０は，重要度ｍが大きいハッシュ値１７０ａ１に対応した文を重要文として抽出する。

このとき，抽出部１８０は，たとえば，入力されたテキストに含まれる各文に対応するハッシュ値１７０ａ１のうち，一番出現度数１７０ａ２が低いハッシュ値１７０ａ１に対応する文を重要文として抽出するようにしてもよい。また，抽出部１８０は，入力されたテキストに含まれる各文に対応するハッシュ値１７０ａ１のうち，出現度数１７０ａ２が低い順に重要文を数文抽出するようにしてもよい。

なお，入力テキストに含まれる各文とこの各文から求められたハッシュ値とは，重要文抽出処理が終了するまで，記憶部１７０のいずれかの記憶領域に関連付けて記憶されている。よって，抽出部１８０は，この記憶領域に記憶されたデータに基づいて，出現度数１７０ａ２が低いハッシュ値に対応する文を重要文として抽出する。その後，抽出した重要文が携帯電話等に表示され，ステップ４９５に進んで本処理は終了となる。

従来においては，登録された単語や言い回しが各文の一部に含まれているか否かを判定する場合，各文に含まれる文字列を一文字ずつずらしながら比較しなければならなかった。この結果，登録された単語や言い回しが，各文に含まれているか否かを判定するために，非常に多くの処理が必要であった。

しかし，以上に説明したように，本実施形態にかかる文書処理装置１００によれば，各文をその文に固有な値，すなわち，ハッシュ値として認識し，各文に対応した１つのデータ（ハッシュ値）と分割文ハッシュテーブル１７０ａに記憶されたハッシュ値１７０ａ１とをマッチング処理し，マッチングした結果検出される出願度数により，各文の重要度が判定される。このため，従来に比べて処理の負荷を劇的に少なくすることができる。これにより，各文の重要度を高速に判定し，その重要度に基づいて，入力テキストから重要文を高速に抽出することができる。この結果，情報量が多いテキストであって，携帯電話等，比較的スペックに乏しい機器に今まで表示できなかった情報であってもこれをすばやく要約して表示することができる。このため，ユーザは，表示された要約文により，テキストの内容を知ることができるばかりでなく，そのテキストの重要部分をすばやく把握することができる。

また，本実施形態にかかる文書処理装置１００によれば，この装置を利用する度に，各文に対応するハッシュ値１７０ａ１とそのハッシュ値の出現度数１７０ａ２のデータとが，自動的に分割文ハッシュテーブル１７０ａに蓄積される。このため，重要文であるか，または，不要文であるかを判定する手がかりとなる特定の単語や言い回しを，実用に充分耐えうる程度まで計算機に予め登録しておくという作業が不要になる。

さらに，ハッシュ値の計算は，各文の文字列を各文字の種類（言語）に関係しない単なるデータとして計算するため，テキストの言語に依存せずに，本実施形態にかかる文書処理装置１００を使用してシステムを構築または運用することができる。このため，開発者や登録者は，それぞれの言語に精通している必要がなく，未知の言語であってもこれに対応することができる。

（第２実施形態）
つぎに，第２実施形態にかかる文書処理装置１００について説明する。本実施形態にかかる文書処理装置１００は，図５に示したように，分類係数テーブル１７０ｂとテキスト分類部１９０とが新たに追加された点で図２に示した第１実施形態にかかる文書処理装置１００と機能構成上相異する。

また，本実施形態にかかる文書処理装置１００は，分類係数テーブル１７０ｂに予め登録された分類情報に基づいて入力テキストがどの分類に属するかを決定し，前述した出現度数と重要度との相関関係に加え，決定されたテキストの分類と重要度との相関関係をも考慮して入力テキストから重要文を抽出する点で第１実施形態にかかる文書処理装置１００と動作上相異する。したがって，これらの相異点を中心に本実施形態にかかる文書処理装置１００について説明する。

本実施形態にかかる文書処理装置１００は，入力部１５０，分割部１５５，正規化部１６０，文ハッシュ計算部１６５，記憶部１７０内の分割文ハッシュテーブル１７０ａ，文ハッシュ検索部１７５，抽出部１８０，出力部１８５に加え，テキスト分類係数テーブル１７０ｂ（記憶部１７０内）およびテキスト分類部１９０の各ブロックにて示される機能を有している。

分割文ハッシュテーブル１７０ａは，図６に示したように，ハッシュ値１７０ａ１および出現度数１７０ａ２の項目に加え，分類コード１７０ａ３の項目が新たに記憶されている。たとえば，図３のハッシュ値「２７５３・・・ａ７５９」の出現度数は「１０２０」であったが，本実施形態では，図６に示したように，ハッシュ値「２７５３・・・ａ７５９」によって表される文が含まれるテキストの分類コード１７０ａ３から，その出現度数を二つに分けて分類している。具体的には，図３のハッシュ値「２７５３・・・ａ７５９」の出現度数「１０２０」は，分類コード１７０ａ３が「２０」の場合の出現度数「６２１」と分類コード１７０ａ３が「２４」の場合の出現度数「３９９」とに分けてカウントされている。

分類コードは，ハッシュ値１７０ａ１を算出した元の文が含まれているテキストの属性を示した一例である。分類コードは，たとえば，図７に示したように，野球（２０），サッカー（２４），経済（０６）というようにテキストを分類するために使用される。また，たとえば，図８に示したように，電子メールの受取人によって，本人（０１），本人が属する部（０２），本人が属さない部（０３）というようにテキストを分類してもよい。

分類コードは，テキストの属性を表す一例であり，テキストの属性を表すことができれば，どんな情報であってもよい。たとえば，テキストの属性は，電子メールまたはＷｅｂコンテンツというような文書の種類やテキストを送信した送信元の情報などにより表されてもよい。

分類係数テーブル１７０ｂには，分割文ハッシュテーブル１７０ａに記憶された分類コード（図７の横軸）と，入力テキストが属する分類コード（図７の縦軸）と，の２つの分類コードの相関関係により決定される数値（相関値）が予め記憶されている。この数値は，各分類コードの相関度が低いほど高い値をもっている。たとえば，入力テキストが属する分類コードが野球の場合，分割文ハッシュテーブル１７０ａに記憶された各分類コードが野球ならば，相関値は「１」となり，サッカーならば「１．５」となり，経済ならば「４」となる。よって，野球と経済との相関関係が一番低く，サッカー，野球の順に相関関係が高くなることがわかる。

図８には，分類係数テーブル１７０ｂに記憶された他の情報の例が示されている。具体的には，分類係数テーブル１７０ｂには，電子メールの受取人により分類コードを本人（０１），本人が属する部（０２），本人が属さない部（０３）のいずれかに設定し，それらの分類コードに対する相関値が予め記憶されている。

テキスト分類部１９０は，入力されたテキストの分類を示す分類コードを特定する。
たとえば，テキストに含まれる単語の出現回数を用いて，図７に示したように，野球（２０），サッカー（２４），経済（０６）といったように入力テキストの分類コードを特定する方法や，図８に示したように，電子メールの受取人によって分類コードを特定する。

（文書処理装置１００の動作）
つぎに，本実施形態にかかる文書処理装置１００の具体的動作について，図９を参照しながら説明する。図９は，本実施形態にかかる文書処理装置１００が実行する重要文抽出処理を示したフローチャートである。

ステップ９００から重要文抽出処理が開始され，ステップ９０５に進むと，テキスト分類部１９０は，入力されたテキストの分類を示す分類コードを特定する。つぎに，ステップ４０５〜ステップ４１５にて，各部が第１実施形態と同様の処理を実行する。すなわち，ステップ４０５にて，分割部１５５が，入力されたテキストを文単位に分割し，ステップ４１０にて，正規化部１６０が，文字等の正規化を行い，ステップ４１５にて，文ハッシュ計算部１６５が，各文のハッシュを計算する。

つぎに，ステップ４２０に進むと，文ハッシュ検索部１７５は，各文から算出された各ハッシュ値が，分割文ハッシュテーブル１７０ａに記憶されたいずれかのハッシュ値１７０ａ１に一致するか否かを検索する。ここで，本実施形態の分割文ハッシュテーブル１７０ａには，ハッシュ値１７０ａ１が同じであっても，分類コード１７０ａ３が異なる複数の出現度数１７０ａ２が記憶されている。したがって，本実施形態では，文ハッシュ検索部１７５は，各文に対応する各ハッシュ値に一致する複数の出現度数１７０ａ２を検出する。

検索の結果，各文から求められたハッシュ値が分割文ハッシュテーブル１７０ａに記憶されている場合，文ハッシュ検索部１７５は，そのハッシュ値に関連付けて記憶された出現度数１７０ａ２のうち，テキストの分類コードに対応する出現度数１７０ａ２を１つ増加する。一方，各文から求められたハッシュ値が分割文ハッシュテーブル１７０ａに記憶されていない場合には，求められたハッシュ値およびテキストの分類コードとともに出現度数として「１」を記憶する。

つぎに，ステップ４２５に進み，抽出部１８０が，テキストから重要文を決定し，出力部１８５が，抽出した重要文を要約テキストとして出力する。本実施形態では，抽出部１８０は，分割文ハッシュテーブル１７０ａに記憶された出現度数１７０ａ２と分類係数テーブル１７０ｂに記憶された相関値とを用いて重要文を抽出する。

具体的には，抽出部１８０は，各文に対応するハッシュ値の出願度数ｎおよび分類コードから求められる相関値ｋを変数とする関数ｆを用いて各文の重要度ｍを算出する。その関数ｆを以下に示す。

ｍ＝Σｆ（ｋｉ・ｎｉ）＋α
ここで，α：他の要因によって決定される重要度（任意）
ｎ＝Σｎｉ（ｉ＝分類係数テーブルのインデックス）

このとき，ｍ１＝ｆ（ｎ１），ｍ２＝ｆ（ｎ２）において，
ｎ１＞ｎ２ならば，ｍ１≦ｍ２となる。

たとえば，テキストの分類コードが野球（２０）である場合，抽出部１８０は，分割文ハッシュテーブル１７０ａに記憶された各項目の値と，分類係数テーブル１７０ｂに記憶された各相関値と，を用いて以下のように重要度ｍを算出する。
ｍ＝ｆ（１・６２１）＋ｆ（１．５・３９９）＋α

このようにして算出された各ハッシュ値に対する重要度ｍに基づいて，抽出部１８０は，重要度ｍが大きいハッシュ値１７０ａ１に対応した文を重要文として抽出する。抽出した重要文が携帯電話等に表示された後，ステップ９９５に進み本処理は終了となる。

以上に説明したように，本実施形態にかかる文書処理装置１００によれば，テキストの分類から相関値ｋを求め，相関値ｋを用いて出現度数に重み付けをすることにより，重要度ｍが求められる。ここで，特定の分野でのみ頻出する語や文に対する相関値ｋは，分類係数テーブル１７０ｂにて，予め，小さく設定されている。よって，本実施形態の場合，特定の分野でのみ頻出する文が，その他の分野でも頻出する文より重要度が高くなるように関数ｆに重み付けがなされる。このようにして，各文に対する重要度ｍが適切に算出され，算出された各重要度ｍに基づいてより適切な要約テキストを抽出することができる。

（第３実施形態）
つぎに，第３実施形態にかかる文書処理装置１００について説明する。本実施形態にかかる文書処理装置１００は，図１０に示したように，全文ハッシュテーブル１７０ｃと全ハッシュ計算部１９５と全ハッシュ検索部１９９とが新たに追加された点で図２に示した第１実施形態にかかる文書処理装置１００と機能構成上相異する。

また，本実施形態にかかる文書処理装置１００では，入力テキスト全体の文字列に対するハッシュ値（以下，全ハッシュ値と称呼する。）を求め，求められた全ハッシュ値が，全文ハッシュテーブル１７０ｃに予め登録されたハッシュ値に一致する場合には，図４の第１実施形態にかかる重要文抽出処理を実行せずに，該当全ハッシュ値に対応して全文ハッシュテーブル１７０ｃに予め登録された文を重要文とする点で第１実施形態にかかる文書処理装置１００と動作上相異する。したがって，これらの相異点を中心に本実施形態にかかる文書処理装置１００について説明する。

本実施形態にかかる文書処理装置１００は，入力部１５０，分割部１５５，正規化部１６０，文ハッシュ計算部１６５，記憶部１７０内の分割文ハッシュテーブル１７０ａ，文ハッシュ検索部１７５，抽出部１８０，出力部１８５に加え，全文ハッシュテーブル１７０ｃ（記憶部１７０内），全ハッシュ計算部１９５および全ハッシュ検索部１９９の各ブロックにて示される機能を有している。

全文ハッシュテーブル１７０ｃには，図示されていないが，後述する全ハッシュ計算部１９５によりいままで計算された，各入力テキストの全文字列に対する全ハッシュ値（全計算値に相当）が，その入力テキスト対して以前に抽出された重要文に関連付けて蓄積されている。なお，全ハッシュ計算部１９５は，入力テキスト中の宛名情報や送信元情報を除いた本文を特定部分とし，その特定部分の全文字列に対する全ハッシュ値を計算してもよい。

全ハッシュ計算部１９５は，入力テキストの全文字列に対するハッシュ値（全ハッシュ値）を計算する。全ハッシュ検索部１９９は，全ハッシュ計算部１９５により求められた各全ハッシュ値が，全文ハッシュテーブル１７０ｃに記憶されたいずれかのハッシュ値と一致するか否かを検索する。

（文書処理装置１００の動作）
つぎに，本実施形態にかかる文書処理装置１００の具体的動作について，図１１を参照しながら説明する。図１１は，本実施形態にかかる文書処理装置１００が実行する重要文抽出処理を示したフローチャートである。

ステップ１１００から重要文抽出処理が開始され，ステップ１１０５に進むと，全ハッシュ計算部１９５は，入力されたテキスト全体に対するハッシュ値（全ハッシュ値）を計算する。つぎに，ステップ１１１０に進んで，全ハッシュ検索部１９９は，全ハッシュ計算部１９５により求められた全ハッシュ値が，全文ハッシュテーブル１７０ｃに記憶されたいずれかのハッシュ値と一致するか否かのマッチング処理を行う。

全ハッシュ検索部１９９によるマッチング処理の結果，全ハッシュ計算部１９５により求められた全ハッシュ値が全文ハッシュテーブル１７０ｃに記憶されていると判定された場合には，全ハッシュ検索部１９９は，ステップ１１１５にて「Ｙｅｓ」と判定し，直ちにステップ１１２０に進む。抽出部１８０は，ステップ１１２０にて，全ハッシュ値に対応して全文ハッシュテーブル１７０ｃに記憶されている重要文を要約テキストとして抽出する。この要約テキストは，出力部１８５により携帯電話を用いてユーザに表示された後，ステップ１１９５に進んで本処理は終了となる。

一方，全ハッシュ検索部１９９によるマッチング処理の結果，全ハッシュ計算部１９５により求められた全ハッシュ値が全文ハッシュテーブル１７０ｃに記憶されていないと判定された場合には，全ハッシュ検索部１９９は，ステップ１１１５にて「Ｎｏ」と判定し，ステップ４０５に進んで，ステップ４０５〜ステップ４２０にて，第１実施形態と同様の処理を実行することにより，入力テキストに対する各文のハッシュ値の出現度数１７０ａ２が検出される。

つぎに，ステップ１１２０に進み，抽出部１８０が，第１実施形態と同様の処理を実行することにより，出現度数１７０ａ２に基づいて重要文を抽出する。抽出部１８０は，全ハッシュ計算部１９５により求められた全ハッシュ値とともに，抽出された重要文を関連付けて全文ハッシュテーブル１７０ｃに記憶する。また，ステップ１１２０にて，出力部１８５が抽出した重要文を要約テキストとして出力した後，ステップ１１９５に進んで本処理は終了となる。

以上に説明したように，本実施形態にかかる文書処理装置１００によれば，同じ内容のメールが操作ミスや誤送により複数回入力された場合にも，出現頻度の値は必要以上に高くならず，実情に合致した適切な値をとるように設定される。これにより，各文の重要度が必要以上に低下することを回避することができる。

また，本実施形態にかかる文書処理装置１００によれば，たとえば，同じ内容のメールが複数回入力されたときのように，以前入力されたテキストと同一テキストが入力された場合には，ステップ４０５〜ステップ４２０にて示される処理を実行する必要がない。すなわち，処理の負荷を軽減しながら，以前に抽出した重要文を使用してすばやく要約テキストをユーザに提供することができる。

なお，以上に説明したすべての実施形態では，入力テキストとして電子メールを例に挙げて説明したが，これに限られず，文書処理装置１００は，自己が作成したテキストなど複数種類のテキストを対象とすることができる。

また，以上に説明したすべての実施形態では，受信した電子メールを要約する例を挙げて文書処理装置１００について説明した。しかし，この例に限られず，文書処理装置１００は，たとえば，キーボードなどにより入力された文書や記憶領域に記憶された文書などを要約する際に使用されてもよい。また，文書処理装置１００は，自己が作成した文を要約してから送信する際に使用されてもよい。

また，以上の実施形態にて説明した各ハッシュ値の出現度数１７０ａ２は，各ハッシュ値の出現頻度の一例であり，各ハッシュ値の出現頻度は，各ハッシュ値が出現する割合を示す値であればどんな値であってもよい。たとえば，ハッシュ値の出現頻度の他の例としては，分割文ハッシュテーブル１７０ａに記憶されたすべてのハッシュ値に対する該当ハッシュ値の出現率や，そのすべてのハッシュ値の平均出現頻度に対する該当ハッシュ値の偏差が挙げられる。

また，以上では，分割部１５５は，テキストを文単位に分割した。しかし，分割部１５５は，所定の条件に基づいて，テキストを複数の文字列に分割することができればよく，必ずしも文単位に分割する必要はない。たとえば，分割部１５５は，テキストを文節単位や段落単位に分割してもよい。より具体的には，分割部１５５は，テキスト中に改行が生じたら分割するという条件に基づいて，テキストを段落単位に分割してもよい。また，読点または句点のいずれかが出現したら分割するという条件に基づいて，「こんにちは，○○です。」という文書を「こんにちは」，「○○です」という２つの文字列に分割してもよい。この場合，文書処理装置１００は，「こんにちは，○○です。」「こんにちは，△△です。」から出現度数の高い「こんにちは」の文字列や「こんにちは」を含んだ行を削除することにより，テキストから重要文（すなわち，「○○です。」および「△△です。」からなる要約文）を抽出することができる。

また，以上の説明では，出力部１８５は，要約テキストを携帯電話のディスプレイに表示した。しかし，これに限られず，たとえば，出力部１８５は，図１に示したように他の機器のＣＲＴ３００，プリンタ３０５に要約テキストを出力したり，ネットワークカード３１０などに要約テキストを記憶するようにしてもよいし，音声出力装置３１５に，要約テキストを音声情報として出力するようにしてもよい。

上記実施形態において，各部の動作はお互いに関連しており，互いの関連を考慮しながら，一連の動作として置き換えることができる。そして，このように置き換えることにより，文書処理装置の発明の実施形態を，文書処理方法の実施形態とすることができる。

また，上記各部の動作を，各部の処理と置き換えることにより，プログラムの実施形態とすることができる。また，プログラムを，プログラムを記録したコンピュータ読み取り可能な記録媒体に記憶させることにより，プログラムの実施形態をプログラムに記録したコンピュータ読み取り可能な記録媒体の実施形態とすることができる。

したがって，文書処理方法の実施形態は，所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶部に記憶する処理と，文書を所定の条件に基づいて複数の文字列に分割する処理と，上記所定の規則に基づいて，上記分割された各文字列から各文字列固有の計算値をそれぞれ求める処理と，上記求められた各計算値と上記記憶部に記憶された計算値とを比較することにより，上記求められた各計算値に対応する出現頻度をそれぞれ検索する処理と，上記検索された各計算値に対応する各出現頻度に基づき，１または２以上の計算値を選択し，選択された１または２以上の計算値に対する文字列を上記文書の要約として抽出する処理とを，をコンピュータに実行させる文書処理プログラムの実施形態とすることができる。

また，文書処理方法の実施形態は，所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶部に記憶する処理と，文書を所定の条件に基づいて複数の文字列に分割する処理と，上記所定の規則に基づいて，上記分割された各文字列から各文字列固有の計算値をそれぞれ求める処理と，上記求められた各計算値と上記記憶部に記憶された計算値とを比較することにより，上記求められた各計算値に対応する出現頻度をそれぞれ検索する処理と，上記検索された各計算値に対応する各出現頻度に基づき，１または２以上の計算値を選択し，選択された１または２以上の計算値に対する文字列を上記文書の要約として抽出する処理とを，をコンピュータに実行させる文書処理プログラムを記憶したコンピュータ読み取り可能な記録媒体の実施形態とすることができる。

以上，添付図面を参照しながら本発明の好適な実施形態について説明したが，本発明は係る例に限定されないことは言うまでもない。当業者であれば，特許請求の範囲に記載された範疇内において，各種の変更例または修正例に想到し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。

たとえば，以上の各実施形態にかかる文書処理装置１００では，各部が，すべて文書処理装置１００内に存在するように説明したが，本発明はこれに限定されず，各部の機能の一部が，ネットワークで接続された別の制御手段の中に含まれていてもよく，また，負荷分散や安全性の確保のために，各部の手段および機能が複数存在していてもよい。

本発明は，文書から重要部分を高速に自動抽出する文書処理装置および文書処理方法に適用可能である。

本発明の第１実施形態にかかる文書処理装置のハードウエア構成図である。同実施形態にかかる文書処理装置の機能構成図である。分割文ハッシュテーブルのデータ構造の一例を示した図である。同実施形態にて文書処理装置が実行する重要文抽出処理ルーチンを示したフローチャートである。本発明の第２実施形態にかかる文書処理装置の機能構成図である。分割文ハッシュテーブルのデータ構造の他の一例を示した図である。分類係数テーブルのデータ構造の一例を示した構成図である。分類係数テーブルのデータ構造の他の一例を示した構成図である。同実施形態にて文書処理装置が実行する重要文抽出処理ルーチンを示したフローチャートである。本発明の第３実施形態にかかる文書処理装置の機能構成図である。同実施形態にて文書処理装置が実行する重要文抽出処理ルーチンを示したフローチャートである。

符号の説明

１００文書処理装置
１２０プロセッサ
１５０入力部
１５５分割部
１６０正規化部
１６５文ハッシュ計算部
１７０記憶部
１７０ａ分割文ハッシュテーブル
１７０ｂ分類係数テーブル
１７０ｃ全文ハッシュテーブル
１７５文ハッシュ検索部
１８０抽出部
１８５出力部
１９０テキスト分類部
１９５全ハッシュ計算部
１９９全ハッシュ検索部

Claims

所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶する記憶部と；
文書を所定の条件に基づいて複数の文字列に分割する分割部と；
前記所定の規則に基づいて，前記分割された各文字列から各文字列固有の計算値をそれぞれ求める計算部と；
前記計算部により求められた各計算値と前記記憶部に記憶されている計算値とを比較することにより，前記求められた各計算値に対応する出現頻度をそれぞれ検出する検索部と；
前記検出された各計算値に対応する出現頻度に基づいて，１または２以上の計算値を選択し，選択された１または２以上の計算値に対する文字列を前記文書の要約として抽出する抽出部と；を備える文書処理装置。
前記計算部は，
前記所定の規則としてハッシュ関数を用いて，前記各文字列から前記計算値としてのハッシュ値をそれぞれ求める請求項１に記載された文書処理装置。
前記抽出部は，
前記検索された各計算値に対応する出現頻度をそれぞれ比較することにより，より低い値を有する出現頻度に関連付けられて記憶されている計算値から順に１または２以上の計算値を選択する請求項１または請求項２のいずれかに記載された文書処理装置。
前記検索部は，
前記比較の結果，前記計算部により求められた計算値が前記記憶部に記憶されていると判定された場合には，前記求められた計算値に関連付けて記憶されている出現頻度を増加させ，前記求められた計算値が前記記憶部に記憶されていないと判定された場合には，前記求められた計算値とともに所与の値をもつ出現頻度を新たに記憶する請求項１〜３のいずれかに記載された文書処理装置。
前記分割部は，
前記文書を文節または文または段落のいずれかを構成する複数の文字列に分割する請求項１〜４のいずれかに記載された文書処理装置。
前記文書処理装置であって，さらに，
前記文書または前記分割された各文のいずれかに含まれる文字列の形式を整える正規化部を備える請求項１〜５のいずれかに記載された文書処理装置。
前記文書処理装置であって，さらに，
前記文書の属性を定めるテキスト分類部を備え，
前記記憶部は，
前記求められた計算値の出現頻度を文書の属性毎に複数記憶し，
前記抽出部は，
前記定められた文書の属性と前記記憶部に記憶された文書の属性との相関関係から定められる相関値をそれぞれ用いて，前記記憶部に文書の属性毎に記憶された複数の出現頻度をそれぞれ重み付けし，重み付けられた各出現頻度に基づき，１または２以上の計算値を選択する請求項１〜６のいずれかに記載された文書処理装置。
前記抽出部は，
前記各相関値を用いて前記計算値に対して前記文書の属性毎に記憶された複数の出現頻度にそれぞれ重み付けし，重み付けられた各出現頻度の総和を前記各計算値に対応した重要度として算出し，算出された重要度のうち高いものから順に，対応する１または２以上の計算値を選択する請求項７に記載された文書処理装置。
前記相関値は，
前記テキスト分類部により決定された文書の属性と前記記憶部に記憶された文書の属性との関連が小さいほど，より大きな値をもつように設定される請求項７または請求項８のいずれかに記載された文書処理装置。
前記計算部は，
テキストの特定部分または全部分に固有の計算値を全計算値として求め，
前記検索部は，
前記全計算値が前記記憶部に記憶されているか否かを検索し，前記全計算値が前記記憶部に記憶されていない場合，前記全計算値を，前記抽出部により前記文書の要約として抽出された文字列に関連付けて記憶し，
前記抽出部は，
前記全計算値が前記記憶部に記憶されている場合，前記分割部，前記計算部，前記検索部および前記抽出部による各動作を各部に実行させることなく，前記全計算値に関連付けて前記記憶部に記憶されている計算値に応じた文字列を前記文書の要約として抽出する請求項１〜９のいずれかに記載された文書処理装置。
所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶部に記憶し；
文書を所定の条件に基づいて複数の文字列に分割し；
前記所定の規則に基づいて，前記分割された各文字列から各文字列固有の計算値をそれぞれ求め；
前記求められた各計算値と前記記憶部に記憶されている計算値とを比較することにより，前記求められた各計算値に対応する出現頻度をそれぞれ検索し；
前記検索された各計算値に対応する各出現頻度に基づき，１または２以上の計算値を選択し，選択された１または２以上の計算値に対する文字列を前記文書の要約として抽出する文書処理方法。