JP2007102501A

JP2007102501A - 単語間関連度算出方法及び装置

Info

Publication number: JP2007102501A
Application number: JP2005291798A
Authority: JP
Inventors: Yoshihide Sato; 吉秀佐藤; Yuichiro Sekiguchi; 裕一郎関口; Harumi Kawashima; 晴美川島; Masahiro Oku; 雅博奥
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-10-04
Filing date: 2005-10-04
Publication date: 2007-04-19

Abstract

【課題】情報の新しさを考慮した単語間の関連度を算出し、時間と共に推移する単語間の、最新時点における関連度を維持・更新する。
【解決手段】本発明は、解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し、１未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録し、出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する。
【選択図】図１

Description

本発明は、単語間関連度算出方法及び装置に係り、特に、時刻属性を有する文書を逐次解析しながら、文書中に現れる単語間の関連性の強度である関連度を算出、更新する技術であり、文書の入力順序または文書に付随する時刻情報を考慮して、後に入力した文書中での単語の出現状況を特に重視して、常に最新の関連度を維持・更新するための単語間関連度算出方法及び装置に関する。

複数の文書における単語の出現状況から単語間の関連性の強度を算出する技術として、単語Ａと単語Ｂがある文書中に共に出現する頻度（共起頻度）を集計し、共起頻度が高い２単語は関連性が深いとの観点から関連度を数値化する技術がある。単語Ａと単語Ｂが共起する文書数を入力全文書数で除した値、すなわち、共起の確率を単語ＡＢ間の関連度として算出するものである（例えば、特許文献１参照）。

その他、相互情報量（Mutual Information）と呼ぶ量で単語間の関連性を得る技術がある。相互情報量は、情報検索等の分野で用いられる評価式であり、単語ＡＢの共起確率を分子に、各単語の出現確率の積を分母においた商の対数を単語間の関連度とするものである。各単語の出現頻度が小さく、共起頻度が大きいほど相互情報量は大きくなる（例えば、非特許文献１参照）。
特開平５-２８２３６７号公報 K. Church and P. Hanks, "Word Association Norms, Mutual Information and Lexicography", Computational Linguistics, Vol. 16, No.1, pp.22-29, 1990

上記の既存技術は、いずれも文書数の変動しない静的な文書集合を対象に一括処理を行い、文書中に含まれる単語間の関連度を得る技術である。ところが、「○月×日」のような時刻属性や、「新しい」「古い」といった時間的な属性を有するニュース記事のような文書を用い、最近における単語の使用状況から単語間の関連度を得たい場合には、既存技術は適さなかった。

既存技術による一括処理では、例えば、ある事件の発生により現在は非常に関連の深い２単語ＡＢが以前は関連が低かった場合、全体としてはＡＢが共起する頻度が高くなく、低い関連度しか得られないためである。最新文書の検索システムなど、特に情報の新鮮さに主眼を置いて応用したい場合には、このように古い文書の影響を受けてしまう関連度の算出技術では十分な効果が得られなかった。その対策として新しい文書のみを用いて既存手法により関連度を算出する方法も考えられるが、扱う文書を限定してしまうと、小規模の単語間の関連度辞書しか得られなくなってしまうという問題がある。

本発明は、上記の点に鑑みなされたもので、情報の新しさを考慮した単語間の関連度を算出し、時間と共に推移する単語間の、最新時点における関連度を維持・更新することが可能な単語間関連度算出方法及び装置を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、時刻情報を有する複数の文書中に含まれる単語を、時刻順に１文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出方法であって、
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し（ステップ１）、１未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録する出現頻度更新ステップ（ステップ３）と、
出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する関連度算出ステップ（ステップ４）と、を行う。

また、本発明（請求項２）は、請求項１の単語間関連度算出方法であって、
直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出ステップ（ステップ２）を更に行う。

また、本発明（請求項３）は、請求項１または、２の単語間関連度算出方法であって、
単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、出現頻度と同様に、減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新ステップ（ステップ３）を更に行い、
関連度算出ステップ（ステップ４）において、
出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得するのに加え、共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を最新関連度記憶手段に記録する。

図２は、本発明の原理構成図である。

本発明（請求項４）は、時刻情報を有する複数の文書中に含まれる単語を、時刻順に１文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出装置であって、
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段２０４から取得し、１未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段２０４に記録する出現頻度更新手段２０３と、
出現頻度記憶手段２０４から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段２１０に記録する関連度算出手段２０９と、を有する。

また、本発明（請求項５）は、請求項４の単語間関連度算出装置であって、
直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出手段を更に有する。

また、本発明（請求項６）は、請求項４または５の単語間関連度算出装置であって、
単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、出現頻度と同様に、減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新手段を更に有し、
関連度算出手段２０９は、
出現頻度記憶手段２０４から単語並びに該単語の出現頻度の組を取得するのに加え、共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を最新関連度記憶手段２１０に記録する手段を有する。

上記のように本発明によれば、単語間の関連の強度を関連度という数値で得るにあたり、特に新しい文書中での単語の用いられ方を重視した値として得ることができる。単語間の関係性の強弱は、社会情勢や流行によって時間と共に移り変わるため、次々と新しい文書を解析して関連度を最新の状態に反映することで、最新文書の検索などの技術に応用することができる。

以下、図面と共に本発明の実施の形態を説明する。

［第１の実施の形態］
図３は、本発明の第１の実施の形態における単語間関連度算出装置の構成を示す。

同図に示す単語間関連度算出装置は、文書解析部２０１、単語保持部２０２、出現頻度更新部２０３、出現頻度記録部２０４、組み合わせ生成部２０５、共起頻度更新部２０６、共起頻度記録部２０７、文書数記録部２０８、関連度算出部２０９、最新関連度記録部２１０から構成される。

文書解析部２０１は、入力された文書の本文データを解析し、文書中に出現する単語を取得し、単語保持部２０２に渡す。

単語保持部２０２は、１文書から取得した単語全てを一時的に保持するメモリ（図示せず）を有する。

出現頻度更新部２０３は、出現頻度記録部２０４に記録された各単語の出現頻度を、単語保持部２０２に記録されている単語と照らし合わせながら更新する。

出現頻度記録部２０４は、単語の出現頻度を保持するハードディスク等の記憶媒体である。

組み合わせ生成部２０５は、単語保持部２０２に記録された単語から、異なる２単語の組み合わせを生成する。

共起頻度更新部２０６は、共起頻度記録部２０７に記録された２単語の共起頻度を、組み合わせ生成部２０５で生成された２単語の組み合わせと照らし合わせながら更新する。

共起頻度記録部２０７は、２単語の共起頻度を保持するハードディスク等の記憶媒体である。

文書数記録部２０８は、現在まで処理した文書数を記録するカウンタを有する。

関連度算出部２０９は、共起頻度記録部２０７に記録された２単語の共起頻度と出現頻度記録部２０４に記録された各単語の出現頻度、並びに、文書数記録部２０８に記録された現在までの処理文書数を用い、２単語間の関連度を算出し、最新関連度記録部２１０に出力する。

最新関連度記録部２１０は、関連度算出部２０９により算出された関連度及び単語の組み合わせを格納するハードディスク等の記憶媒体である。

以下、各処理部の動作を説明する。

本発明の単語間関連度算出装置は、複数の文書を入力とし、単語の頻度や異なる２単語の共起頻度を用いて、単語間の関連度を算出する。常に最新の時点における関連度を反映させるため、文書の作成時刻または公開時刻などの、文書の持つ時刻情報に基づいて古い文書から新しい文書へと時系列に並べ、１文書ずつ入力する。なお、必ずしも、古い文書から新しい文書に並べ替える必要はなく、時刻順に１文書ずつ入力されればよい。

以下、１文書を入力する度に単語間の関連度を更新する処理として説明するが、定期的、例えば、複数文書を入力する度に更新する処理としてもよい。
図４は、本発明の第１の実施の形態における動作のフローチャートである。

ステップ１００）文書数記録部２０８のカウンタの初期値を０とする。

ステップ１０１）文書解析部２０１は、時刻情報を有する文書が時刻順に入力されると、１文書中に含まれる単語を取得する。単語を取得する処理としては、形態素解析などの既存技術を用いる。形態素解析は、文書を構成する最小の単位である形態素の分割する解析手法である。各形態素には、例えば、「名詞」、「動詞」、「助詞」等の品詞情報や「句点」、「括弧」等の記号種別情報が付与されるが、本実施の形態では、このうち「名詞」という品詞情報を付与された形態素のみを取得し、以後の処理で扱うものとする。また、ここで取得した形態素を以下では「単語」と呼ぶ。

１文書には同一の単語が複数回出現する場合があるが、文書解析部２０１は、文書中に１度以上出現した単語の一覧を作成する。１文書から取得した単語の一覧は単語保持部２０２に送出し、記録する。図５に、ある文書を文書解析部２０１が解析した結果として単語保持部２０２に記録された単語群の例を示す。この文書からは「政府」「首相」「霞ヶ関」「昨日」「法案」の５単語が取得されたものとする。

単語保持部２０２では、１文書から取得した単語を全て記録するが、以下で説明する出現頻度更新部２０３、組み合わせ生成部２０５の両方が処理を終えた時点で単語保持部２０２の内容を削除し、次に入力される文書中の単語の保持に備える。

ステップ１０２）出現頻度更新部２０３は、新しく入力された文書中から取得された単語が単語保持部２０２に記録される度に実施し、出現頻度記録部２０４に保存しておく各単語の出現頻度を逐次更新する。詳細な手順は、図６において後述する。

ステップ１０３）組み合わせ生成部２０５は、単語保持部２０２に記録された図５の単語群を全て取得し、異なる２単語の組み合わせを生成する。例えば、図５に示した５語を取得した場合、『「政府」と「首相」』、『「政府」と「霞ヶ関」』、『「首相」と「法案」』などの組み合わせを生成する。５語から異なる２語を選択する全１０通りの組み合わせが生成される。生成した１０通りの組み合わせは、次に説明する共起頻度更新部２０６に１組ずつ送出される。

ステップ１０４）共起頻度更新部２０６は、出現頻度更新部２０３に類する手順で、共起頻度記録部２０７に記録された共起頻度を更新する。共起頻度更新部２０６では、出現頻度更新部２０３と同様に、新しく入力された文書中から取得された単語が単語保持部２０２に記録される度に実施し、共起頻度記録部２０７に保存しておく各単語組み合わせの共起頻度を逐次更新する。詳細は、図１０で詳細に説明する。

ステップ１０５）文書数記録部２０８は、上記の処理で出現頻度記録部２０４と共起頻度更新部２０６の双方からの処理終了を受けると、カウンタに１加える。

ここまでの処理は、文書を入力する度に逐次的に実施し、次に説明する関連度算出部２０９の処理に備える。このため、関連度算出部２０９が処理を実行すると、実行した時点での最新の単語間関連度が算出される。

ステップ１０６）関連度算出部２０９は、共起頻度記録部２０７に記録された単語組み合わせを１組ずつ取得しながら、該単語間の関連度を算出し、最新関連度記録部２１０に出力する。詳細については、後述する。

＜出現頻度更新部２０３の説明＞
次に、出現頻度更新部２０３の処理を詳細に説明する。

図６は、本発明の第１の実施の形態における出現頻度更新部の処理の流れを示す図である。

ステップ４０１）出現頻度更新部２０３は、出現頻度記録部２０４に保存された単語と出現頻度の組を全て取得する。図７は、出現頻度記録部２０４に既に保存されている出現頻度の例である。図７に示す状態は、既に１以上の文書を処理した後の状態を示す例であり、いくつかの単語に対して出現頻度が算出された状態を表すが、第１番目の文書が文書解析部２０１に入力された段階では、出現頻度記録部２０４は何も保存されない空の状態である。本ステップでは、「政府」の出現頻度が５．８、「郵政」の出現頻度が８．１，…と、全ての単語に対する出現頻度を取得する。

ステップ４０２）続いて、ステップ４０１で取得した全ての単語の出現頻度に減衰定数αを乗じる。減衰定数αは、新しい文書の入力に伴って、既に計算済みの出現頻度を一定割合で減衰させるための定数であり、１未満の値を持つ。逐次新しい文書に入力する本発明の実施状況において、古い文書の影響を一定の度合いで抑制し、新しい文書における各単語の使用状況を強調して単語間の最新の関連度を算出することを目的とする定数である。本実施の形態では、αとして固定値「０．９」を用いるものとして説明する。図８に、取得した単語の出現頻度に減衰定数α（＝０．９）を乗じた結果を示す。

ステップ４０３）その後、単語保持部２０２に記録された図５の単語群から、未取得の単語を１単語取得する。

ステップ４０４）取得した単語がステップ４０１で出現頻度記録部２０４から取得した単語の中に含まれるか確認し、含まれればステップ４０５に移行し、含まれなければステップ４０６に移行する。

ステップ４０５）対応する出現頻度に１を加える。例えば、図５に示す単語から第１番目に取得する単語「政府」は、出現頻度記録部２０４から取得した単語群（図８）中に存在するため、既に減衰定数αを乗じた「政府」の出現頻度５．２２に１を加え、６．２２とし、ステップ４０７に移行する。

ステップ４０６）ステップ４０４において、取得した単語がステップ４０１で出現頻度記録部２０４から取得した単語の中に含まれない場合には、該単語の出現頻度として１を設定し、ステップ４０７に移行する。

ステップ４０７）単語保持部２０２に記録された単語を全て取得したか否かによって処理を終えるかどうかを判定し、未取得の単語が残っていれば、ステップ４０３に移行し、次の単語「首相」を取得する。

ここで、「首相」は「政府」の例と同様に、図８に存在するため、ステップ４０５のステップに移行する。その次に取得する単語「霞ヶ関」は、図８には存在しない新規の単語であるため、ステップ４０４の条件分岐でステップ４０６に移行し、新たに「霞ヶ関」の出現頻度として１を設定する。

図９は、図５の各単語を取得しながら出現頻度を更新した結果である。更新前の図７には、存在しなかった単語「霞ヶ関」「法案」に対し、出現頻度１が設定されている。

ステップ４０８）ここまでの処理によって、単語の出現頻度の更新、並びに新規に追加した単語の出現頻度の設定を終えると、全ての単語及び出現頻度を出現頻度記録部２０４に上書き記録する。つまり、図５の単語を含んだ１文書の入力により、出現頻度記録部２０４の記録内容は図７から図９の状態に更新される。

ステップ４０９）最後に上記の処理が終了したことを文書数記録部２０８に通知し、出現頻度更新部２０３が１文書に対して行う一連の処理を終える。

＜共起頻度更新部２０６の説明＞
次に、上記の共起頻度更新部２０６の処理を詳細に説明する。

図１０は、本発明の第１の実施の形態における共起頻度更新部の処理の流れを示す図である。

ステップ８０１）最初に共起頻度記録部２０７に保存された単語の組み合わせと共起頻度の組を全て取得する。図１１は、共起頻度記録部２０７に保存されている共起頻度の例である。共起頻度は、「政府」と「郵政」のような異なる２単語が同一文書中で出現する頻度を表す数値である。図１１は、既に１以上の文書を入力させた後の状態を示す例であり、いくつかの単語組み合わせに対して共起頻度が算出された状態を表しているが、１番目の文書を文書解析部２０１に入力させた段階では、共起頻度記録部２０７には何も保存されない空の状態である。本ステップでは、「政府」と「郵政」の組み合わせの共起頻度が５．８、「政府」と「首相」の組み合わせの共起頻度が７．２、…と、全ての組み合わせに対する共起頻度を取得する。

ステップ８０２）ステップ８０１で取得した全ての共起頻度に減衰定数αを乗じる。減衰定数αは、出現頻度更新部２０３が扱う定数αと同じく古い記事の影響抑制に用いられる定数であり、ここでは、値も同じ０．９を使用する。

ステップ８０３）以下、組み合わせ生成部２０５で生成された単語の組み合わせを『「政府」と「首相」』『「政府」と「霞ヶ関」』，…と１組ずつ取得する。

ステップ８０４）ステップ８０３で取得した単語の組み合わせが、ステップ８０２で取得済みの組み合わせであるか、すなわち、既に共起頻度の算出済みの組み合わせであるか否かを判定し、そうである場合はステップ８０５に移行し、そうでない場合はステップ８０６に移行する。

ステップ８０５）既に共起頻度の算出済みの組み合わせである場合には、共起頻度に１を加え、ステップ８０７の処理に移行する。

ステップ８０６）既に共起頻度の算出済みの組み合わせでない場合は、該組み合わせの共起頻度として１を設定し、ステップ８０７の処理に移行する。

ステップ８０７）組み合わせ生成部２０５が生成した全ての組み合わせについて共起頻度の更新が終わるまでステップ８０３以降の処理を繰り返す。

図１２は、組み合わせ生成部２０５から『「政府」と「首相」』等の組み合わせを取得しながら共起頻度を更新した結果である。更新前である図１１には存在しなかった単語の組み合わせの共起頻度として１という値が設定されている。

ステップ８０８）図１２に示した更新済みの全ての共起頻度を、単語の組み合わせと共に共起頻度記録部２０７に上書きで記録する。

ステップ８０９）最後にステップ８０８までの処理を終えたことを、文書数記録部２０８に通知し、共起頻度更新部２０６が１文書に対して行う一連の処理を終える。

＜関連度算出部２０９の処理＞
次に、関連度算出部２０９の処理を詳細に説明する。

関連度算出部２０９が算出する単語ｍ，ｎの間の関連度Ｃ（ｍ，ｎ）は、Ｐ（ｍ，ｎ）を単語ｍ，ｎが共起する確率（共起確率），Ｐ（ｗ）を単語ｗが出現する確率（出現確率）として、式（１）のように共起確率を各単語の出現確率で除した値の対数として算出する。単語ｗの出現確率Ｐ（ｗ）は、単語ｗの出現頻度Ｆ（ｗ）を全体量Ｄで除したもの（式（２））であり、単語ｍ，ｎの共起確率Ｐ（ｍ，ｎ）は共起頻度Ｆ（ｍ，ｎ）を全体量Ｄで除したもの（式（３））であるため、式（１）を変形して、関連度Ｃ（ｍ，ｎ）は、単語ｍ，ｎの共起頻度と全体量の積を単語ｍ及びｎの出現頻度の積で除したものとして得ることができる（式（４）参照）。

関連度は、各単語の出現頻度に対して共起頻度が高いほど大きな値になる。例えば、出現頻度が低い２単語ＡＢは一般性の低い特殊な単語である可能性が高い。それにも関わらず当該２単語の共起頻度が高いとすると、関連性が非常に深い組み合わせであると考えられる。このため、上記関連度を単語間の関連性の強度として表す指標として用いることができる。

全体量Ｄは、文書が入力される度に減衰定数αを乗じながら１を加える値として算出する。図１３のように、最も最近に入力された文書については１を、その直前に入力された文書についてはαを、更にその直前に入力された文書についてはα^２を…と、初期値１にαを複数回乗じた値を全て加算する。

現在までに処理した文書数をｄとすると、全体量Ｄは、式（５）のように変形することができるため、減衰定数αの値及び文書数ｄが定まれば、全体量Ｄを算出することができる。

なお、ある単語ｗが現在までのｄ個全ての文書に出現した場合、ｗの出現頻度は、図６の処理手順によって、１文書を処理する度に減衰定数αを乗じ（ステップ４０２）、ステップ４０４の分岐では、常にステップ４０５に進んで、１の加算を繰り返すため、Ｄと同じ値になる。つまり、出現頻度を全体量で除した単語ｗの出現確率は１となる。

共起確率についても全く同様で、ｄ個全ての文書で単語ｍ，ｎが共起する場合の共起頻度がＤと等しくなるため、共起確率は１となる。

関連度算出部２０９の処理の流れを、図１４を用いて説明する。

図１４は、本発明の第１の実施の形態における関連度算出部の処理の流れを示す図である。

ステップ１２０１）関連度算出部２０９は、現在までに処理した文書数ｄを文書数記録部２０８から取得する。以下では、現在までに５０文書の処理を終えた段階であるものとし、以下ではｄ＝５０として説明する。

ステップ１２０２）ｄの値から上記の式（５）に基づいて全体量Ｄを算出し、その値をメモリ（図示せず）に保持しておく。α＝０．９としているため、Ｄ＝９．９９（小数第３位で四捨五入）となる。

ステップ１２０３）共起頻度記録部２０７に保存されている単語の組み合わせ１組、並びに、当該組み合わせに対応する共起頻度を取得する。例えば、図１２において単語の組み合わせ『「政府」と「郵政」』と共起頻度５．２２を取得する。

ステップ１２０４）ステップ１２０３で取得した組み合わせに含まれる単語「政府」と「郵政」の出現頻度を出現頻度記録部２０４からそれぞれ取得する。図９より、「政府」の出現頻度６．２２、「郵政」の出現頻度７．２９が取得されることになる。

ステップ１２０５）ここまでのステップで得た全体量Ｄ，「政府」「郵政」の出現頻度、並びに、当該２単語の組み合わせに対応する共起頻度を用いて、上記の式（４）によって当該単語間の関連度Ｃ（政府，郵政）を算出する。各値は、Ｄ＝９．９９、出現頻度が６．２２と７．２９、共起頻度が５．２２であるため、関連度はおよそ０．２０２となる。

ステップ１２０６）ステップ１２０５で算出した関連度０．２０２は、『「政府」と「郵政」』という単語の組み合わせと共に、最新関連度記録部２１０に記録する。

ステップ１２０７）ステップ１２０３以降の処理を、共起頻度記録部２０７に記録されている単語の組み合わせ全てに対して終了するまで行い、全ての処理を終了する。

図１５に、上記の最新関連度記録部２１０に記録された単語の関連度を示す。

［第２の実施の形態］
図１６は、本発明の第２の実施の形態における単語間関連度算出装置の構成を示す。

同図に示す単語間関連度算出装置は、時刻情報を有する複数の文書を入力とし、単語の頻度や異なる２単語の共起頻度を用いて、単語間の関連度を算出するものであり、文書解析部１４０１、減衰定数算出部１４０２、単語保持部１４０３、出現頻度更新部１４０４、出現頻度記録部１４０５、組み合わせ生成部１４０６、共起頻度更新部１４０７、共起頻度記録部１４０８、全体量算出部１４０９、関連度算出部１４１０、最新関連度記録部１４１１から構成される。

文書解析部１４０１は、時刻情報が付与された入力文書中の本文データを解析し、文書中に出現する単語を取得すると同時に、該文書が有する時刻情報を取得して以下に述べる減衰定数算出部１４０２に送出する。

減衰定数算出部１４０２は、内部に保持しておく直前に処理した文書が有する時刻情報と、新規に文書解析部１４０１から受け取った時刻情報とを比較し、その差分から減衰定数を算出し、当該減衰定数算出部１４０２内のバッファ（図示せず）に保持する。

単語保持部１４０３は、１文書から取得した単語全てを一時的に保持する。

出現頻度更新部１４０４は、出現頻度記録部１４０５に記録された各単語の出現頻度を、単語保持部１４０３に記録されている単語と照らし合わせながら更新する。

出現頻度記録部１４０５は、単語の出現頻度を保持するハードディスク等の記憶媒体である。

組み合わせ生成部１４０６は、単語保持部１４０３に記録された単語から、異なる２単語の組み合わせを生成する。

共起頻度更新部１４０７は、共起頻度記録部１４０８に記録された２単語の共起頻度を組み合わせ生成部１４０６で生成された２単語の組み合わせと照らし合わせながら更新する。

共起頻度記録部１４０８は、２単語の共起頻度を保持するハードディスク等の記憶媒体である。

全体量算出部１４０９は、単語間の関連度算出に必要な全体量を算出し、当該全体量算出部１４０９内のメモリ（図示せず）に保持する。

関連度算出部１４１０は、２単語間の関連度を算出し、最新関連度記録部１４１１に出力する。

最新関連度記録部１４１１は、関連度算出部１４１０により算出された単語の組み合わせ及び、該単語間の関連度を格納するハードディスク等の記憶媒体である。

前述の第１の実施の形態では、減衰定数αの値として定数を用いたのに対して、本実施の形態では、文書を入力する度に減衰定数αを更新する点が大きく異なる。

図１７は、本発明の第２の実施の形態における動作のフローチャートである。

ステップ２０１）文書解析部１４０１において、時刻情報が付加された入力文書中に含まれる単語を取得すると同時に、当該時刻情報を取得して減衰定数算出部１４０２に送出する。ここで、文書解析部１４０１に入力される文書は、時刻情報が古い文書から新しい文書へと時系列に並べ、１文書ずつ順に入力される。なお、必ずしも、古い文書から新しい文書に並べ替える必要はなく、時刻順に１文書ずつ入力されればよい。各文書は、当該文書が作成された時刻や公開された時刻、最終更新された時刻など、当該文書の内容に直接的に関係する時刻情報を有する必要がある。

また、文書中から単語を取得する際には、形態素解析などの既存技術を用い、第１の実施の形態における文書解析部２０１と同様の手順で行う。

ステップ２０２）単語保持部１４０３では、１文書から取得した単語を全て記録するが、以下で説明する出現頻度更新部１４０４、組み合わせ生成部１４０６の両方が処理を終えた時点で単語保持部１４０３の保存内容を削除し、次に入力される文書中の単語の保持に備える。

ステップ２０３）減衰定数算出部１４０２において、現在処理中の文書の時刻情報に基づいて、減衰定数を算出し、減衰定数算出部１４０２内のバッファ（図示せず）に保持しておく。詳細な手順は、図１８で後述する。

ステップ２０４）次に、組み合わせ生成部１４０６が、前述の第１の実施の形態と同様の処理を行う。

ステップ２０５）出現頻度更新部１４０４は、第１の実施の形態と同様の処理を行う。但し、減衰定数αの値として定数を用いず、減衰定数算出部１４０２内部のバッファ（図示せず）に保持されている減衰定数の値を逐次取得して使用する。処理が終了すると、終了通知を全体量算出部１４０９に送出する。

ステップ２０６）共起頻度更新部１４０７も、第１の実施の形態と同様の処理を行う。但し、減衰定数αの値として定数を用いず、減衰定数算出部１４０２内部のバッファ（図示せず）に保持されている減衰定数の値を逐次取得して使用する。処理が終了すると、終了通知を全体量算出部１４０９に送出する。

ステップ２０７）全体量算出部１４０９は、出現頻度更新部１４０４と共起頻度更新部１４０７の双方から処理終了の通知を受け取ると、内部に保持する全体量Dの値を更新する。全体量Dの値は次式に従って更新する。D’は、更新前の全体量であり、減衰定数算出部１４０２から取得する減衰定数αに乗じて１を加えたもので更新する。

D=α×D’＋１式（７）
本実施の形態では、全体量を逐次更新する処理例を示すが、算出する全体量Dは第１の実施の形態における全体量と同一の値である。第１番目の文書を処理する時点では、Ｄ’は０と見做し、更新後の全体量を１とする。

なお、ある単語ｗが現在までのｄ個全ての文書に出現した場合、ｗの出現頻度はDに等しくなるため、出現頻度を全体量で除した出現確率は１となる。また、共起確率についても全く同様で、ｄ個全ての文書で単語m，nが共起する場合の共起頻度がDと等しくなるため、共起確率は１となる。

ステップ２０８）次に、関連度算出部１４１０において、関連度を算出する。関連度算出部１４１０の処理は、第１の実施の形態の関連度算出部２０９の処理と同様であるが、この段階で既に算出済みである全体量Dを全体量算出部１４０９から取得して用いる点が異なる。詳細は、図２０を用いて後述する。

＜減衰定数算出部１４０２の処理＞
図１８は、本発明の第２の実施の形態における減衰定数算出部の処理の流れを示す。

ステップ１５０１）減衰定数算出部１４０２は、文書解析部１４０１から受け取った時刻情報が「2005/1/1/12:30」であったとする。まず、前回に処理した文書の時刻情報（前回時刻）が当該減衰定数算出部１４０２のバッファ（図示せず）に保持されているか否かを確認し、存在する場合はステップ１５０２に移行し、存在しない場合には、ステップ１５０５に移行する。第１番目の文書が当該装置に入力された時点では、前回時刻がバッファ（図示せず）内に存在しないため、ステップ１５０５に移行する。

ステップ１５０２）２番目の文書の入力以降は、既にバッファ（図示せず）の前回時刻に何らかの値が記録されているため、前回時刻として「2005/1/1/12:00」という値が記録されていたものとする。ここでは、バッファ（図示せず）に記録されている前回時刻「2005/1/1/12:00」を取得する。

ステップ１５０３）ステップ１５０２で取得した前回時刻「2005/1/1/12:00」、並びに、今回、文書解析部１４０１から受け取った時刻情報「2005/1/1/12:30」を用い、減衰定数αを算出する。減衰定数αは、新しい文書の入力に伴って、既に計算済みの出現頻度を一定割合で減衰させるための定数であるが、入力する文書の時刻情報の間隔が一定でない場合に前回時刻から実質的な時間経過の大小を反映した減衰度合いを決定するため、例えば、次式で計算する。ｔは、文書解析部１４０１から受け取った時刻情報「2005/1/1/12:30」、ｔ’は、前回時刻「2005/1/1/12:00」である。Ｔは、減衰の速度を決定する定数である。

図１９は、減衰定数の値が前回時刻からの時間経過によって変化する様子を示す。tとt’の差が大きい。すなわち、直前に処理した文書の有する時刻情報からの時間経過が大きいほど減衰定数αの値は小さくなり、減衰の度合いが大きいことを表す。

ステップ１５０４）算出した減衰定数は、減衰定数算出部１４０２内部のバッファ（図示せず）に保持しておく。

ステップ１５０５）最後に、ステップ１５０１、Noの場合と同様に、前回時刻を保持するバッファ（図示せず）に今回受け取った文書の時刻情報である「2005/1/1/12:30」を記録して処理を終える。

上記に示した手順により、新しい文書を入力する度に減衰定数αが更新される。但し、第１番目の文書を入力した時点では、前回時刻が存在せず、減衰定数αの値は不定となるが、出現頻度記録部１４０５、出現頻度記録部１４０８内部は何も記録されない空の状態であるため、減衰させる対象が存在せず、問題はない。第２番目の文書の入力以降は、１以下の減衰定数αが上記手順にて計算され、出現頻度記録部１４０５、出現頻度記録部１４０８内部の各値の減衰に用いられる。

＜関連度算出部１４１０の処理＞
図２０は、本発明の第２の実施の形態における関連度算出部の処理を示す。

ステップ１７０１）関連度算出部１４１０は、全体量算出部１４０９に記録されている全体量Dの値を取得する。

ステップ１７０２）共起頻度記録部１４０８に保存されている単語の組み合わせ１組、並びに、当該組み合わせに対応する共起頻度を取得する。

ステップ１７０３）ステップ１７０２で取得した組み合わせに含まれる単語それぞれの出現頻度を出現頻度記録部１４０５から取得する。

ステップ１７０４）取得した全体量D、２単語それぞれの出現頻度、並びに当該２単語の組み合わせに対応する共起頻度を用いて、前述の第１の実施の形態における式（４）によって、当該単語間の関連度を算出する。

ステップ１７０５）ステップ１７０４で算出された関連度は、単語の組み合わせと共に、最新関連度記録部１４１１に記録する。

ステップ１７０６）共起頻度記録部１４０８に記録されている単語の組み合わせに対して終了するまで上記の処理を行う。

［第３の実施の形態］
図２１は、本発明の第３の実施の形態における単語間関連度算出装置の構成を示す。

同図に示す単語間関連度算出装置は、時刻情報を有する複数の文書を入力とし、各文書内での単語の出現の有無に基づいて、単語間の関連度を算出する装置であり、文書解析部１８０１、減衰定数算出部１８０２、単語保持部１８０３、頻度ベクトル更新部１８０４、頻度ベクトル記録部１８０５、関連度算出部１８０６、最新関連度記録部１８０７から構成される。

文書解析部１８０１は、時刻情報を有する入力文書中の本文データを解析し、文書中に出現する単語を取得すると同時に、当該文書が有する時刻情報を取得して以下に述べる減衰定数算出部１８０２に送出する。

減衰定数算出部１８０２は、内部のバッファ（図示せず）に保持しておく直前に処理した文書が有する時刻情報と、新規に文書解析部１８０１から受け取った時刻情報とを比較し、その差分から減衰定数を算出、保持する。

単語保持部１８０３は、１文書から取得した単語、並びに、当該文書内での各単語の出現回数を文書解析部１８０１から受け取り、一時的に保持する。

頻度ベクトル更新部１８０４は、頻度ベクトル記録部１８０５に記録された各頻度ベクトルを、単語保持部１８０３に記録されている単語と照らし合わせながら更新する。

頻度ベクトル記録部１８０５は、単語と頻度ベクトルを格納するハードディスク等の記憶媒体である。

関連度算出部１８０６は、２単語間の関連度を算出し、最新関連度記録部１８０７に出力する。

最新関連度記録部１８０７は、関連度算出部１８０６により算出された関連度及び単語の組み合わせを格納するハードディスク等の記憶媒体である。

次に、上記の構成による処理を説明する。

図２２は、本発明の第３の実施の形態における単語間関連度算出装置の動作のフローチャートである。

ステップ３０１）文書解析部１８０１は、時刻情報が古い文書から新しい文書へと時系列に並べ、１文書ずつ順に入力される。なお、必ずしも、古い文書から新しい文書に並べ替える必要はなく、時刻順に１文書ずつ入力されればよい。また、各文書は、当該文書が作成された時刻や公開された時刻、最終更新された時刻など、当該文書の内容に直接的に関係する時刻情報を有する。文書解析部１８０１は、時刻情報を有する文書を１文書ずつ入力させ、入力文書中に含まれる単語と出現回数を取得すると同時に、当該時刻情報を取得して減衰定数算出部１８０２に送出する。文書中から単語を取得する際は、形態素解析などの既存技術を用い、第１の実施の形態における文書解析部と同様の手順で行う。１文書から取得した単語と出現回数の一覧は、単語保持部１８０３に送出する。

ステップ３０２）単語保持部１８０３では、１文書から取得した単語、並びに、当該文書内での各単語の出現回数を全て記録する。図２３に、単語保持部１８０３に記録された単語と出現回数の例を示す。なお、以下で説明する頻度ベクトル更新部１８０４が１文書分の単語全てを参照し終えた時点で単語保持部１８０３の内容を削除し、次に入力される文書中の単語の保持に備える。

ステップ３０３）減衰定数算出部１８０２は、第２の実施の形態おける減衰定数算出部１４０２と同様に、現在処理中の文書の時刻情報に基づいて、第２の実施の形態の図１８の手順に従って減衰定数を算出する。算出した減衰定数は、減衰定数算出部１８０２の内部のバッファ（図示せず）に保持しておく。

ステップ３０４）頻度ベクトル更新部１８０４は、第１の実施の形態の図６に示す手順で頻度ベクトル記録部１８０５の各単語の頻度ベクトルを更新する。本処理は、新しく入力された文書中から取得された単語が単語保持部１８０３に記録される度に実施し、頻度ベクトル記録部１８０５に保存しておく各単語の頻度ベクトルを逐次更新する。詳細は、図２４で後述する。

ステップ３０５）関連度算出部１８０６は、頻度ベクトル記録部１８０５に記録された単語とその頻度ベクトルを参照して、異なる単語の組み合わせに対して単語間の関連度を算出し、単語の組み合わせと関連度との対を最新関連度記録部１８０７に出力する。詳細については、図２７で後述する。

＜頻度ベクトル更新部１８０４の処理＞
図２４は、本発明の第３の実施の形態における頻度ベクトル出現頻度更新部の処理の流れを示す図である。

ステップ２００１）最初に頻度ベクトル記録部１８０５に保存された単語と頻度ベクトルの組を全て取得する。図２５は、頻度ベクトル記録部１８０５に既に保存されている単語と頻度ベクトルの例である。同図に示す状態は、既にｄ１〜ｄ６までの６文書を処理した後の状態を示すものであり、各文書における出現回数が、各単語について記録されている。但し、以下で説明するように、新しい文書を処理する度に各要素に１ではない定数（減衰定数）を乗じるため、要素値は自然数であるとは限らない。図２５は、いくつかの単語に対して頻度ベクトルが算出された状態を示すが、第１番目の文書を文書解析部１８０１に入力させた段階では、頻度ベクトル記録部１８０５には何も保存されない空の状態である。本ステップでは、単語「政府」とその頻度ベクトル『０．１，０，２．１，１．８，０．２．０』の組を、全ての単語について取得する。

ステップ２００２）続いて、ステップ２００１で取得した全単語の頻度ベクトルの全ての要素に減衰定数αを乗じ、さらに、各ベクトルの末尾の要素として「０」を追加する。すなわち、各頻度ベクトルのｄ１〜ｄ６に対応する要素全てに減衰定数αを乗じた後、ｄ７に対応する要素として新しく「０」を追加することになる。減衰定数αは、減衰定数算出部１８０２内部のバッファ（図示せず）に保持された値を用いる。

ステップ２００３）その後、単語保持部１８０３に記録された単語群から、未取得の１単語とその出現回数を取得する。

ステップ２００４）取得した単語がステップ２００１で頻度ベクトル記録部１８０５から取得した単語の中に含まれるかを確認し、含まれる場合にはステップ２００５に移行し、含まれない場合はステップ２００６に移行する。

ステップ２００５）出現回数を、ベクトルの末尾の要素として追加する。例えば、図２３に示す単語から第１番目に取得する単語「政府」は、頻度ベクトル記録部１８０５から取得した単語群中に存在するため、「政府」の頻度ベクトルの末尾の要素（ｄ７に対応する要素）として、「政府」の出現回数「３」を設定し、ステップ２００７に移行する。

ステップ２００６）新たに「霞ヶ関」の頻度ベクトルを頻度ベクトル記録部１８０５に追加する。取得した「霞ヶ関」の出現回数は「１」であるため、追加する頻度ベクトルｄ１〜ｄ６に対応する要素が全て０、ｄ７に対応する末尾の要素が１であるようなベクトルとなる。ステップ２００７に移行する。

ステップ２００７）単語保存部１８０３に記録された単語を全て取得したか否かによって処理を終えるかどうかを判定し、未取得の単語が残っていれば、ステップ２００３に移行し、次の単語「首相」とその出現回数「４」を取得する。ここでは、「首相」は「政府」の例と同様に、図２５に存在するため、ステップ２００５に移行する。その次に取得する単語「霞ヶ関」は、図２５に存在しない新規の単語であるため、ステップ２００４の条件分岐でステップ２００６に移行し、新たに「霞ヶ関」の頻度ベクトルを追加する。取得した「霞ヶ関」の出現回数は「１」であるため、追加する頻度ベクトルｄ１〜ｄ６に対応する要素が全て０，ｄ７に対応する末尾の要素が１であるようなベクトルとなる。

ステップ２００８）ベクトルの肥大化を防ぐための古い情報の削除を行う。まず、ベクトルの要素数（次元）を調べ、要素数が規定値以下か否かの判定を行う。例えば、上記の例では、新規文書を処理することにより、要素数が７のベクトルが生成されている。予め定めておくベクトルの要素数の規定値が６であったと仮定すると、要素数が規定値を超えるため、ステップ２００９に移行する。

ステップ２００９）頻度ベクトル記録部１８０５のベクトルの要素数が規定値以下になるよう、ベクトルの先頭の要素、すなわちｄ１に対応する要素を、全てのベクトルから削除する。

この更新処理により、ベクトルの要素数は常に規定値以下に抑えられる。また、新規文書から取得される単語の出現回数は、ベクトルの末尾に反映されるため、常に最新の６文書分の単語の出現回数が反映されたベクトルを保持することができる。

なお、本実施の形態では、ベクトルの要素数の規定値を「６」という小さな値として説明したが、本規定値は、ベクトルの肥大化に伴う計算量の増加や記憶領域の消費を抑えるために設定する値であり、更に大きな値としてもよい。

ステップ２０１０）上記のステップ２００１〜ステップ２００９までのステップにより更新された頻度ベクトルは、頻度ベクトル記録部１８０５に保存する。

図２６は、図２３に示す単語保持部１９０３の各単語と出現回数を取得しながら、頻度ベクトルを更新した結果である。各単語の出現回数がｄ７に対応する要素として追加され、ｄ１に対応する要素が削除されている。また、「霞ヶ関」「昨日」「法案」は新規に出現した単語であるため、ｄ２〜ｄ６に対応する要素は全て０となっている。

＜関連度算出部１８０６の処理＞
図２７は、本発明の第３の実施の形態における関連度算出部の処理の流れを示す。

ステップ２３０１）関連度算出部１８０６が処理を開始すると、まず、最初に頻度ベクトル記録部１８０５に記録された単語を全て取得する。

ステップ２３０２）続いて、取得した単語から、異なる２単語の組み合わせを生成する。

ステップ２３０３）次に、１組の単語の組み合わせについて関連度を算出するため、当該組み合わせに含まれる２単語について、頻度ベクトル記録部１８０５に問い合わせて頻度ベクトルを取得する。

ステップ２３０４）図２６に示す単語群から『「政府」と「郵政」』という組み合わせが生成され、これらの単語の頻度ベクトルが取得されると、これらの単語間の関連度を算出する。

ここで、関連度を算出しようとする２単語をｍ，ｎとすると、単語ｍ，ｎ間の関連度Ｃ（ｍ，ｎ）は、例えば、以下の式よって算出する。

上記の式（８）は、ベクトル間の類似度を表現する１つの方法である。２単語の頻度ベクトルが類似するほど、すなわち２単語が同じ文書に含まれる回数が多ければ多いほど、大きな値を取るため、２単語間の関連性の大きさを表す値として利用することができる。

ステップ２３０５）算出した単語間の関連度は、単語組み合わせと共に最新関連度記録部１８０７に出力する。

ステップ２３０６）全ての組み合わせについて関連度が算出されるまで上記の処理（ステップ２３０３以降）を繰り返す。

以上の処理により単語の組み合わせと関連度の対が得られる。

上記の第３の実施の形態では、第２の実施の形態における減衰定数算出部１４０２と同様の方法で、文書の時刻情報の差に基づいて算出する減衰定数αを用いる例を示したが、この例に限定されることなく、第１の実施の形態と同様に減衰定数αを固定値としてもよい。

また、上記の第１〜第３の実施の形態における単語間関連度算出装置の動作をプログラムとして構築し、単語間関連度算出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、文書解析技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の第１の実施の形態における単語間関連度算出装置の構成例である。本発明の第１の実施の形態における動作のフローチャートである。本発明の第１の実施の形態における単語保持部に記録された単語の例である。本発明の第１の実施の形態における出現頻度更新部の処理の流れを示す図である。本発明の第１の実施の形態における出現頻度記録部に記録された出現頻度の例である。本発明の第１の実施の形態における単語の出現頻度に減衰定数α（=０．９）を乗じた結果である。本発明の第１の実施の形態における単語の出現頻度を更新した結果である。本発明の第１の実施の形態における共起頻度更新部の処理の流れを示す図である。本発明の第１の実施の形態における共起頻度記録部に記録された共起頻度の例である。本発明の第１の実施の形態における共起頻度を更新した結果である。本発明の第１の実施の形態における関連度算出部による全体量の算出例である。本発明の第１の実施の形態における関連度算出部の処理の流れを示す図である。本発明の第１の実施の形態における単語間の関連度の算出結果である。本発明の第２の実施の形態における単語間関連度算出装置の構成例である。本発明の第２の実施の形態における動作のフローチャートである。本発明の第２の実施の形態における減衰定数算出部の処理の流れを示す図である。本発明の第２の実施の形態における減衰定数の値が前回時刻からの時間経過によって変化する様子を示す図である。本発明の第２の実施の形態における関連度算出部の処理の流れを示す図である。本発明の第３の実施の形態における単語間関連度算出装置の構成例である。本発明の第３の実施の形態における動作のフローチャートである。本発明の第３の実施の形態における単語保持部に記録された単語の出現回数の例である。本発明の第３の実施の形態における頻度ベクトル更新部の処理の流れを示す図である。本発明の第３の実施の形態における頻度ベクトル記録部に記録された単語と頻度ベクトルの例である。本発明の第３の実施の形態における単語の頻度ベクトルを更新した結果である。本発明の第３の実施の形態における関連度算出部の処理の流れを示す図である。

符号の説明

２０１文書解析部
２０２単語保持部
２０３出現頻度更新手段、出現頻度更新部
２０４出現頻度記憶手段、出現頻度記録部
２０５組み合わせ生成部
２０６共起頻度更新部
２０７共起頻度記録部
２０８文書数記録部
２０９関連度算出手段、関連度算出部
２１０最新関連度記憶手段、最新関連度記録部
１４０１文書解析部
１４０２減衰定数算出部
１４０３単語保持部
１４０４出現頻度更新部
１４０５出現頻度記録部
１４０６組み合わせ生成部
１４０７共起頻度更新部
１４０８共起頻度記録部
１４０９全体量算出部
１４１０関連度算出部
１４１１最新関連度記録部
１８０１文書解析部
１８０２減衰定数算出部
１８０３単語保持部
１８０４頻度ベクトル更新部
１８０５頻度ベクトル記録部
１８０６関連度算出部
１８０７最新関連度記録部

Claims

時刻情報を有する複数の文書中に含まれる単語を、時刻順に１文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出方法であって、
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し、１未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録する出現頻度更新ステップと、
前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する関連度算出ステップと、
を行うことを特徴とする単語間関連度算出方法。
直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出ステップを更に行う請求項１記載の単語間関連度算出方法。
前記単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、前記出現頻度と同様に、前記減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新ステップを更に行い、
前記関連度算出ステップにおいて、
前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得するのに加え、前記共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を前記最新関連度記憶手段に記録する、
請求項１または、２記載の単語間関連度算出方法。
時刻情報を有する複数の文書中に含まれる単語を、時刻順に１文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出装置であって、
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し、１未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録する出現頻度更新手段と、
前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する関連度算出手段と、
を有することを特徴とする単語間関連度算出装置。
直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出手段を更に有する請求項４記載の単語間関連度算出装置。
前記単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、前記出現頻度と同様に、前記減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新手段を更に有し、
前記関連度算出手段は、
前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得するのに加え、前記共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を前記最新関連度記憶手段に記録する手段を有する、
請求項４または、５記載の単語間関連度算出装置。