JP2007102501A - 単語間関連度算出方法及び装置 - Google Patents

単語間関連度算出方法及び装置 Download PDF

Info

Publication number
JP2007102501A
JP2007102501A JP2005291798A JP2005291798A JP2007102501A JP 2007102501 A JP2007102501 A JP 2007102501A JP 2005291798 A JP2005291798 A JP 2005291798A JP 2005291798 A JP2005291798 A JP 2005291798A JP 2007102501 A JP2007102501 A JP 2007102501A
Authority
JP
Japan
Prior art keywords
words
word
frequency
document
appearance frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005291798A
Other languages
English (en)
Inventor
Yoshihide Sato
吉秀 佐藤
Yuichiro Sekiguchi
裕一郎 関口
Harumi Kawashima
晴美 川島
Masahiro Oku
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005291798A priority Critical patent/JP2007102501A/ja
Publication of JP2007102501A publication Critical patent/JP2007102501A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 情報の新しさを考慮した単語間の関連度を算出し、時間と共に推移する単語間の、最新時点における関連度を維持・更新する。
【解決手段】 本発明は、解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録し、出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する。
【選択図】 図1

Description

本発明は、単語間関連度算出方法及び装置に係り、特に、時刻属性を有する文書を逐次解析しながら、文書中に現れる単語間の関連性の強度である関連度を算出、更新する技術であり、文書の入力順序または文書に付随する時刻情報を考慮して、後に入力した文書中での単語の出現状況を特に重視して、常に最新の関連度を維持・更新するための単語間関連度算出方法及び装置に関する。
複数の文書における単語の出現状況から単語間の関連性の強度を算出する技術として、単語Aと単語Bがある文書中に共に出現する頻度(共起頻度)を集計し、共起頻度が高い2単語は関連性が深いとの観点から関連度を数値化する技術がある。単語Aと単語Bが共起する文書数を入力全文書数で除した値、すなわち、共起の確率を単語AB間の関連度として算出するものである(例えば、特許文献1参照)。
その他、相互情報量(Mutual Information)と呼ぶ量で単語間の関連性を得る技術がある。相互情報量は、情報検索等の分野で用いられる評価式であり、単語ABの共起確率を分子に、各単語の出現確率の積を分母においた商の対数を単語間の関連度とするものである。各単語の出現頻度が小さく、共起頻度が大きいほど相互情報量は大きくなる(例えば、非特許文献1参照)。
特開平5-282367号公報 K. Church and P. Hanks, "Word Association Norms, Mutual Information and Lexicography", Computational Linguistics, Vol. 16, No.1, pp.22-29, 1990
上記の既存技術は、いずれも文書数の変動しない静的な文書集合を対象に一括処理を行い、文書中に含まれる単語間の関連度を得る技術である。ところが、「○月×日」のような時刻属性や、「新しい」「古い」といった時間的な属性を有するニュース記事のような文書を用い、最近における単語の使用状況から単語間の関連度を得たい場合には、既存技術は適さなかった。
既存技術による一括処理では、例えば、ある事件の発生により現在は非常に関連の深い2単語ABが以前は関連が低かった場合、全体としてはABが共起する頻度が高くなく、低い関連度しか得られないためである。最新文書の検索システムなど、特に情報の新鮮さに主眼を置いて応用したい場合には、このように古い文書の影響を受けてしまう関連度の算出技術では十分な効果が得られなかった。その対策として新しい文書のみを用いて既存手法により関連度を算出する方法も考えられるが、扱う文書を限定してしまうと、小規模の単語間の関連度辞書しか得られなくなってしまうという問題がある。
本発明は、上記の点に鑑みなされたもので、情報の新しさを考慮した単語間の関連度を算出し、時間と共に推移する単語間の、最新時点における関連度を維持・更新することが可能な単語間関連度算出方法及び装置を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、時刻情報を有する複数の文書中に含まれる単語を、時刻順に1文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出方法であって、
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し(ステップ1)、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録する出現頻度更新ステップ(ステップ3)と、
出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する関連度算出ステップ(ステップ4)と、を行う。
また、本発明(請求項2)は、請求項1の単語間関連度算出方法であって、
直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出ステップ(ステップ2)を更に行う。
また、本発明(請求項3)は、請求項1または、2の単語間関連度算出方法であって、
単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、出現頻度と同様に、減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新ステップ(ステップ3)を更に行い、
関連度算出ステップ(ステップ4)において、
出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得するのに加え、共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を最新関連度記憶手段に記録する。
図2は、本発明の原理構成図である。
本発明(請求項4)は、時刻情報を有する複数の文書中に含まれる単語を、時刻順に1文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出装置であって、
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段204から取得し、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段204に記録する出現頻度更新手段203と、
出現頻度記憶手段204から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段210に記録する関連度算出手段209と、を有する。
また、本発明(請求項5)は、請求項4の単語間関連度算出装置であって、
直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出手段を更に有する。
また、本発明(請求項6)は、請求項4または5の単語間関連度算出装置であって、
単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、出現頻度と同様に、減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新手段を更に有し、
関連度算出手段209は、
出現頻度記憶手段204から単語並びに該単語の出現頻度の組を取得するのに加え、共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を最新関連度記憶手段210に記録する手段を有する。
上記のように本発明によれば、単語間の関連の強度を関連度という数値で得るにあたり、特に新しい文書中での単語の用いられ方を重視した値として得ることができる。単語間の関係性の強弱は、社会情勢や流行によって時間と共に移り変わるため、次々と新しい文書を解析して関連度を最新の状態に反映することで、最新文書の検索などの技術に応用することができる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における単語間関連度算出装置の構成を示す。
同図に示す単語間関連度算出装置は、文書解析部201、単語保持部202、出現頻度更新部203、出現頻度記録部204、組み合わせ生成部205、共起頻度更新部206、共起頻度記録部207、文書数記録部208、関連度算出部209、最新関連度記録部210から構成される。
文書解析部201は、入力された文書の本文データを解析し、文書中に出現する単語を取得し、単語保持部202に渡す。
単語保持部202は、1文書から取得した単語全てを一時的に保持するメモリ(図示せず)を有する。
出現頻度更新部203は、出現頻度記録部204に記録された各単語の出現頻度を、単語保持部202に記録されている単語と照らし合わせながら更新する。
出現頻度記録部204は、単語の出現頻度を保持するハードディスク等の記憶媒体である。
組み合わせ生成部205は、単語保持部202に記録された単語から、異なる2単語の組み合わせを生成する。
共起頻度更新部206は、共起頻度記録部207に記録された2単語の共起頻度を、組み合わせ生成部205で生成された2単語の組み合わせと照らし合わせながら更新する。
共起頻度記録部207は、2単語の共起頻度を保持するハードディスク等の記憶媒体である。
文書数記録部208は、現在まで処理した文書数を記録するカウンタを有する。
関連度算出部209は、共起頻度記録部207に記録された2単語の共起頻度と出現頻度記録部204に記録された各単語の出現頻度、並びに、文書数記録部208に記録された現在までの処理文書数を用い、2単語間の関連度を算出し、最新関連度記録部210に出力する。
最新関連度記録部210は、関連度算出部209により算出された関連度及び単語の組み合わせを格納するハードディスク等の記憶媒体である。
以下、各処理部の動作を説明する。
本発明の単語間関連度算出装置は、複数の文書を入力とし、単語の頻度や異なる2単語の共起頻度を用いて、単語間の関連度を算出する。常に最新の時点における関連度を反映させるため、文書の作成時刻または公開時刻などの、文書の持つ時刻情報に基づいて古い文書から新しい文書へと時系列に並べ、1文書ずつ入力する。なお、必ずしも、古い文書から新しい文書に並べ替える必要はなく、時刻順に1文書ずつ入力されればよい。
以下、1文書を入力する度に単語間の関連度を更新する処理として説明するが、定期的、例えば、複数文書を入力する度に更新する処理としてもよい。
図4は、本発明の第1の実施の形態における動作のフローチャートである。
ステップ100) 文書数記録部208のカウンタの初期値を0とする。
ステップ101) 文書解析部201は、時刻情報を有する文書が時刻順に入力されると、1文書中に含まれる単語を取得する。単語を取得する処理としては、形態素解析などの既存技術を用いる。形態素解析は、文書を構成する最小の単位である形態素の分割する解析手法である。各形態素には、例えば、「名詞」、「動詞」、「助詞」等の品詞情報や「句点」、「括弧」等の記号種別情報が付与されるが、本実施の形態では、このうち「名詞」という品詞情報を付与された形態素のみを取得し、以後の処理で扱うものとする。また、ここで取得した形態素を以下では「単語」と呼ぶ。
1文書には同一の単語が複数回出現する場合があるが、文書解析部201は、文書中に1度以上出現した単語の一覧を作成する。1文書から取得した単語の一覧は単語保持部202に送出し、記録する。図5に、ある文書を文書解析部201が解析した結果として単語保持部202に記録された単語群の例を示す。この文書からは「政府」「首相」「霞ヶ関」「昨日」「法案」の5単語が取得されたものとする。
単語保持部202では、1文書から取得した単語を全て記録するが、以下で説明する出現頻度更新部203、組み合わせ生成部205の両方が処理を終えた時点で単語保持部202の内容を削除し、次に入力される文書中の単語の保持に備える。
ステップ102) 出現頻度更新部203は、新しく入力された文書中から取得された単語が単語保持部202に記録される度に実施し、出現頻度記録部204に保存しておく各単語の出現頻度を逐次更新する。詳細な手順は、図6において後述する。
ステップ103) 組み合わせ生成部205は、単語保持部202に記録された図5の単語群を全て取得し、異なる2単語の組み合わせを生成する。例えば、図5に示した5語を取得した場合、『「政府」と「首相」』、『「政府」と「霞ヶ関」』、『「首相」と「法案」』などの組み合わせを生成する。5語から異なる2語を選択する全10通りの組み合わせが生成される。生成した10通りの組み合わせは、次に説明する共起頻度更新部206に1組ずつ送出される。
ステップ104) 共起頻度更新部206は、出現頻度更新部203に類する手順で、共起頻度記録部207に記録された共起頻度を更新する。共起頻度更新部206では、出現頻度更新部203と同様に、新しく入力された文書中から取得された単語が単語保持部202に記録される度に実施し、共起頻度記録部207に保存しておく各単語組み合わせの共起頻度を逐次更新する。詳細は、図10で詳細に説明する。
ステップ105) 文書数記録部208は、上記の処理で出現頻度記録部204と共起頻度更新部206の双方からの処理終了を受けると、カウンタに1加える。
ここまでの処理は、文書を入力する度に逐次的に実施し、次に説明する関連度算出部209の処理に備える。このため、関連度算出部209が処理を実行すると、実行した時点での最新の単語間関連度が算出される。
ステップ106) 関連度算出部209は、共起頻度記録部207に記録された単語組み合わせを1組ずつ取得しながら、該単語間の関連度を算出し、最新関連度記録部210に出力する。詳細については、後述する。
<出現頻度更新部203の説明>
次に、出現頻度更新部203の処理を詳細に説明する。
図6は、本発明の第1の実施の形態における出現頻度更新部の処理の流れを示す図である。
ステップ401) 出現頻度更新部203は、出現頻度記録部204に保存された単語と出現頻度の組を全て取得する。図7は、出現頻度記録部204に既に保存されている出現頻度の例である。図7に示す状態は、既に1以上の文書を処理した後の状態を示す例であり、いくつかの単語に対して出現頻度が算出された状態を表すが、第1番目の文書が文書解析部201に入力された段階では、出現頻度記録部204は何も保存されない空の状態である。本ステップでは、「政府」の出現頻度が5.8、「郵政」の出現頻度が8.1,…と、全ての単語に対する出現頻度を取得する。
ステップ402) 続いて、ステップ401で取得した全ての単語の出現頻度に減衰定数αを乗じる。減衰定数αは、新しい文書の入力に伴って、既に計算済みの出現頻度を一定割合で減衰させるための定数であり、1未満の値を持つ。逐次新しい文書に入力する本発明の実施状況において、古い文書の影響を一定の度合いで抑制し、新しい文書における各単語の使用状況を強調して単語間の最新の関連度を算出することを目的とする定数である。本実施の形態では、αとして固定値「0.9」を用いるものとして説明する。図8に、取得した単語の出現頻度に減衰定数α(=0.9)を乗じた結果を示す。
ステップ403) その後、単語保持部202に記録された図5の単語群から、未取得の単語を1単語取得する。
ステップ404) 取得した単語がステップ401で出現頻度記録部204から取得した単語の中に含まれるか確認し、含まれればステップ405に移行し、含まれなければステップ406に移行する。
ステップ405) 対応する出現頻度に1を加える。例えば、図5に示す単語から第1番目に取得する単語「政府」は、出現頻度記録部204から取得した単語群(図8)中に存在するため、既に減衰定数αを乗じた「政府」の出現頻度5.22に1を加え、6.22とし、ステップ407に移行する。
ステップ406) ステップ404において、取得した単語がステップ401で出現頻度記録部204から取得した単語の中に含まれない場合には、該単語の出現頻度として1を設定し、ステップ407に移行する。
ステップ407) 単語保持部202に記録された単語を全て取得したか否かによって処理を終えるかどうかを判定し、未取得の単語が残っていれば、ステップ403に移行し、次の単語「首相」を取得する。
ここで、「首相」は「政府」の例と同様に、図8に存在するため、ステップ405のステップに移行する。その次に取得する単語「霞ヶ関」は、図8には存在しない新規の単語であるため、ステップ404の条件分岐でステップ406に移行し、新たに「霞ヶ関」の出現頻度として1を設定する。
図9は、図5の各単語を取得しながら出現頻度を更新した結果である。更新前の図7には、存在しなかった単語「霞ヶ関」「法案」に対し、出現頻度1が設定されている。
ステップ408) ここまでの処理によって、単語の出現頻度の更新、並びに新規に追加した単語の出現頻度の設定を終えると、全ての単語及び出現頻度を出現頻度記録部204に上書き記録する。つまり、図5の単語を含んだ1文書の入力により、出現頻度記録部204の記録内容は図7から図9の状態に更新される。
ステップ409) 最後に上記の処理が終了したことを文書数記録部208に通知し、出現頻度更新部203が1文書に対して行う一連の処理を終える。
<共起頻度更新部206の説明>
次に、上記の共起頻度更新部206の処理を詳細に説明する。
図10は、本発明の第1の実施の形態における共起頻度更新部の処理の流れを示す図である。
ステップ801) 最初に共起頻度記録部207に保存された単語の組み合わせと共起頻度の組を全て取得する。図11は、共起頻度記録部207に保存されている共起頻度の例である。共起頻度は、「政府」と「郵政」のような異なる2単語が同一文書中で出現する頻度を表す数値である。図11は、既に1以上の文書を入力させた後の状態を示す例であり、いくつかの単語組み合わせに対して共起頻度が算出された状態を表しているが、1番目の文書を文書解析部201に入力させた段階では、共起頻度記録部207には何も保存されない空の状態である。本ステップでは、「政府」と「郵政」の組み合わせの共起頻度が5.8、「政府」と「首相」の組み合わせの共起頻度が7.2、…と、全ての組み合わせに対する共起頻度を取得する。
ステップ802) ステップ801で取得した全ての共起頻度に減衰定数αを乗じる。減衰定数αは、出現頻度更新部203が扱う定数αと同じく古い記事の影響抑制に用いられる定数であり、ここでは、値も同じ0.9を使用する。
ステップ803) 以下、組み合わせ生成部205で生成された単語の組み合わせを『「政府」と「首相」』『「政府」と「霞ヶ関」』,…と1組ずつ取得する。
ステップ804) ステップ803で取得した単語の組み合わせが、ステップ802で取得済みの組み合わせであるか、すなわち、既に共起頻度の算出済みの組み合わせであるか否かを判定し、そうである場合はステップ805に移行し、そうでない場合はステップ806に移行する。
ステップ805) 既に共起頻度の算出済みの組み合わせである場合には、共起頻度に1を加え、ステップ807の処理に移行する。
ステップ806) 既に共起頻度の算出済みの組み合わせでない場合は、該組み合わせの共起頻度として1を設定し、ステップ807の処理に移行する。
ステップ807) 組み合わせ生成部205が生成した全ての組み合わせについて共起頻度の更新が終わるまでステップ803以降の処理を繰り返す。
図12は、組み合わせ生成部205から『「政府」と「首相」』等の組み合わせを取得しながら共起頻度を更新した結果である。更新前である図11には存在しなかった単語の組み合わせの共起頻度として1という値が設定されている。
ステップ808) 図12に示した更新済みの全ての共起頻度を、単語の組み合わせと共に共起頻度記録部207に上書きで記録する。
ステップ809) 最後にステップ808までの処理を終えたことを、文書数記録部208に通知し、共起頻度更新部206が1文書に対して行う一連の処理を終える。
<関連度算出部209の処理>
次に、関連度算出部209の処理を詳細に説明する。
関連度算出部209が算出する単語m,nの間の関連度C(m,n)は、P(m,n)を単語m,nが共起する確率(共起確率),P(w)を単語wが出現する確率(出現確率)として、式(1)のように共起確率を各単語の出現確率で除した値の対数として算出する。単語wの出現確率P(w)は、単語wの出現頻度F(w)を全体量Dで除したもの(式(2))であり、単語m,nの共起確率P(m,n)は共起頻度F(m,n)を全体量Dで除したもの(式(3))であるため、式(1)を変形して、関連度C(m,n)は、単語m,nの共起頻度と全体量の積を単語m及びnの出現頻度の積で除したものとして得ることができる(式(4)参照)。
関連度は、各単語の出現頻度に対して共起頻度が高いほど大きな値になる。例えば、出現頻度が低い2単語ABは一般性の低い特殊な単語である可能性が高い。それにも関わらず当該2単語の共起頻度が高いとすると、関連性が非常に深い組み合わせであると考えられる。このため、上記関連度を単語間の関連性の強度として表す指標として用いることができる。
Figure 2007102501
全体量Dは、文書が入力される度に減衰定数αを乗じながら1を加える値として算出する。図13のように、最も最近に入力された文書については1を、その直前に入力された文書についてはαを、更にその直前に入力された文書についてはαを…と、初期値1にαを複数回乗じた値を全て加算する。
Figure 2007102501
現在までに処理した文書数をdとすると、全体量Dは、式(5)のように変形することができるため、減衰定数αの値及び文書数dが定まれば、全体量Dを算出することができる。
なお、ある単語wが現在までのd個全ての文書に出現した場合、wの出現頻度は、図6の処理手順によって、1文書を処理する度に減衰定数αを乗じ(ステップ402)、ステップ404の分岐では、常にステップ405に進んで、1の加算を繰り返すため、Dと同じ値になる。つまり、出現頻度を全体量で除した単語wの出現確率は1となる。
共起確率についても全く同様で、d個全ての文書で単語m,nが共起する場合の共起頻度がDと等しくなるため、共起確率は1となる。
関連度算出部209の処理の流れを、図14を用いて説明する。
図14は、本発明の第1の実施の形態における関連度算出部の処理の流れを示す図である。
ステップ1201) 関連度算出部209は、現在までに処理した文書数dを文書数記録部208から取得する。以下では、現在までに50文書の処理を終えた段階であるものとし、以下ではd=50として説明する。
ステップ1202) dの値から上記の式(5)に基づいて全体量Dを算出し、その値をメモリ(図示せず)に保持しておく。α=0.9としているため、D=9.99(小数第3位で四捨五入)となる。
ステップ1203) 共起頻度記録部207に保存されている単語の組み合わせ1組、並びに、当該組み合わせに対応する共起頻度を取得する。例えば、図12において単語の組み合わせ『「政府」と「郵政」』と共起頻度5.22を取得する。
ステップ1204) ステップ1203で取得した組み合わせに含まれる単語「政府」と「郵政」の出現頻度を出現頻度記録部204からそれぞれ取得する。図9より、「政府」の出現頻度6.22、「郵政」の出現頻度7.29が取得されることになる。
ステップ1205) ここまでのステップで得た全体量D,「政府」「郵政」の出現頻度、並びに、当該2単語の組み合わせに対応する共起頻度を用いて、上記の式(4)によって当該単語間の関連度C(政府,郵政)を算出する。各値は、D=9.99、出現頻度が6.22と7.29、共起頻度が5.22であるため、関連度はおよそ0.202となる。
ステップ1206) ステップ1205で算出した関連度0.202は、『「政府」と「郵政」』という単語の組み合わせと共に、最新関連度記録部210に記録する。
ステップ1207) ステップ1203以降の処理を、共起頻度記録部207に記録されている単語の組み合わせ全てに対して終了するまで行い、全ての処理を終了する。
図15に、上記の最新関連度記録部210に記録された単語の関連度を示す。
[第2の実施の形態]
図16は、本発明の第2の実施の形態における単語間関連度算出装置の構成を示す。
同図に示す単語間関連度算出装置は、時刻情報を有する複数の文書を入力とし、単語の頻度や異なる2単語の共起頻度を用いて、単語間の関連度を算出するものであり、文書解析部1401、減衰定数算出部1402、単語保持部1403、出現頻度更新部1404、出現頻度記録部1405、組み合わせ生成部1406、共起頻度更新部1407、共起頻度記録部1408、全体量算出部1409、関連度算出部1410、最新関連度記録部1411から構成される。
文書解析部1401は、時刻情報が付与された入力文書中の本文データを解析し、文書中に出現する単語を取得すると同時に、該文書が有する時刻情報を取得して以下に述べる減衰定数算出部1402に送出する。
減衰定数算出部1402は、内部に保持しておく直前に処理した文書が有する時刻情報と、新規に文書解析部1401から受け取った時刻情報とを比較し、その差分から減衰定数を算出し、当該減衰定数算出部1402内のバッファ(図示せず)に保持する。
単語保持部1403は、1文書から取得した単語全てを一時的に保持する。
出現頻度更新部1404は、出現頻度記録部1405に記録された各単語の出現頻度を、単語保持部1403に記録されている単語と照らし合わせながら更新する。
出現頻度記録部1405は、単語の出現頻度を保持するハードディスク等の記憶媒体である。
組み合わせ生成部1406は、単語保持部1403に記録された単語から、異なる2単語の組み合わせを生成する。
共起頻度更新部1407は、共起頻度記録部1408に記録された2単語の共起頻度を組み合わせ生成部1406で生成された2単語の組み合わせと照らし合わせながら更新する。
共起頻度記録部1408は、2単語の共起頻度を保持するハードディスク等の記憶媒体である。
全体量算出部1409は、単語間の関連度算出に必要な全体量を算出し、当該全体量算出部1409内のメモリ(図示せず)に保持する。
関連度算出部1410は、2単語間の関連度を算出し、最新関連度記録部1411に出力する。
最新関連度記録部1411は、関連度算出部1410により算出された単語の組み合わせ及び、該単語間の関連度を格納するハードディスク等の記憶媒体である。
前述の第1の実施の形態では、減衰定数αの値として定数を用いたのに対して、本実施の形態では、文書を入力する度に減衰定数αを更新する点が大きく異なる。
図17は、本発明の第2の実施の形態における動作のフローチャートである。
ステップ201) 文書解析部1401において、時刻情報が付加された入力文書中に含まれる単語を取得すると同時に、当該時刻情報を取得して減衰定数算出部1402に送出する。ここで、文書解析部1401に入力される文書は、時刻情報が古い文書から新しい文書へと時系列に並べ、1文書ずつ順に入力される。なお、必ずしも、古い文書から新しい文書に並べ替える必要はなく、時刻順に1文書ずつ入力されればよい。各文書は、当該文書が作成された時刻や公開された時刻、最終更新された時刻など、当該文書の内容に直接的に関係する時刻情報を有する必要がある。
また、文書中から単語を取得する際には、形態素解析などの既存技術を用い、第1の実施の形態における文書解析部201と同様の手順で行う。
ステップ202) 単語保持部1403では、1文書から取得した単語を全て記録するが、以下で説明する出現頻度更新部1404、組み合わせ生成部1406の両方が処理を終えた時点で単語保持部1403の保存内容を削除し、次に入力される文書中の単語の保持に備える。
ステップ203) 減衰定数算出部1402において、現在処理中の文書の時刻情報に基づいて、減衰定数を算出し、減衰定数算出部1402内のバッファ(図示せず)に保持しておく。詳細な手順は、図18で後述する。
ステップ204) 次に、組み合わせ生成部1406が、前述の第1の実施の形態と同様の処理を行う。
ステップ205) 出現頻度更新部1404は、第1の実施の形態と同様の処理を行う。但し、減衰定数αの値として定数を用いず、減衰定数算出部1402内部のバッファ(図示せず)に保持されている減衰定数の値を逐次取得して使用する。処理が終了すると、終了通知を全体量算出部1409に送出する。
ステップ206) 共起頻度更新部1407も、第1の実施の形態と同様の処理を行う。但し、減衰定数αの値として定数を用いず、減衰定数算出部1402内部のバッファ(図示せず)に保持されている減衰定数の値を逐次取得して使用する。処理が終了すると、終了通知を全体量算出部1409に送出する。
ステップ207) 全体量算出部1409は、出現頻度更新部1404と共起頻度更新部1407の双方から処理終了の通知を受け取ると、内部に保持する全体量Dの値を更新する。全体量Dの値は次式に従って更新する。D’は、更新前の全体量であり、減衰定数算出部1402から取得する減衰定数αに乗じて1を加えたもので更新する。
D=α×D’+1 式(7)
本実施の形態では、全体量を逐次更新する処理例を示すが、算出する全体量Dは第1の実施の形態における全体量と同一の値である。第1番目の文書を処理する時点では、D’は0と見做し、更新後の全体量を1とする。
なお、ある単語wが現在までのd個全ての文書に出現した場合、wの出現頻度はDに等しくなるため、出現頻度を全体量で除した出現確率は1となる。また、共起確率についても全く同様で、d個全ての文書で単語m,nが共起する場合の共起頻度がDと等しくなるため、共起確率は1となる。
ステップ208) 次に、関連度算出部1410において、関連度を算出する。関連度算出部1410の処理は、第1の実施の形態の関連度算出部209の処理と同様であるが、この段階で既に算出済みである全体量Dを全体量算出部1409から取得して用いる点が異なる。詳細は、図20を用いて後述する。
<減衰定数算出部1402の処理>
図18は、本発明の第2の実施の形態における減衰定数算出部の処理の流れを示す。
ステップ1501) 減衰定数算出部1402は、文書解析部1401から受け取った時刻情報が「2005/1/1/12:30」であったとする。まず、前回に処理した文書の時刻情報(前回時刻)が当該減衰定数算出部1402のバッファ(図示せず)に保持されているか否かを確認し、存在する場合はステップ1502に移行し、存在しない場合には、ステップ1505に移行する。第1番目の文書が当該装置に入力された時点では、前回時刻がバッファ(図示せず)内に存在しないため、ステップ1505に移行する。
ステップ1502) 2番目の文書の入力以降は、既にバッファ(図示せず)の前回時刻に何らかの値が記録されているため、前回時刻として「2005/1/1/12:00」という値が記録されていたものとする。ここでは、バッファ(図示せず)に記録されている前回時刻「2005/1/1/12:00」を取得する。
ステップ1503) ステップ1502で取得した前回時刻「2005/1/1/12:00」、並びに、今回、文書解析部1401から受け取った時刻情報「2005/1/1/12:30」を用い、減衰定数αを算出する。減衰定数αは、新しい文書の入力に伴って、既に計算済みの出現頻度を一定割合で減衰させるための定数であるが、入力する文書の時刻情報の間隔が一定でない場合に前回時刻から実質的な時間経過の大小を反映した減衰度合いを決定するため、例えば、次式で計算する。tは、文書解析部1401から受け取った時刻情報「2005/1/1/12:30」、t’は、前回時刻「2005/1/1/12:00」である。Tは、減衰の速度を決定する定数である。
Figure 2007102501
図19は、減衰定数の値が前回時刻からの時間経過によって変化する様子を示す。tとt’の差が大きい。すなわち、直前に処理した文書の有する時刻情報からの時間経過が大きいほど減衰定数αの値は小さくなり、減衰の度合いが大きいことを表す。
ステップ1504) 算出した減衰定数は、減衰定数算出部1402内部のバッファ(図示せず)に保持しておく。
ステップ1505) 最後に、ステップ1501、Noの場合と同様に、前回時刻を保持するバッファ(図示せず)に今回受け取った文書の時刻情報である「2005/1/1/12:30」を記録して処理を終える。
上記に示した手順により、新しい文書を入力する度に減衰定数αが更新される。但し、第1番目の文書を入力した時点では、前回時刻が存在せず、減衰定数αの値は不定となるが、出現頻度記録部1405、出現頻度記録部1408内部は何も記録されない空の状態であるため、減衰させる対象が存在せず、問題はない。第2番目の文書の入力以降は、1以下の減衰定数αが上記手順にて計算され、出現頻度記録部1405、出現頻度記録部1408内部の各値の減衰に用いられる。
<関連度算出部1410の処理>
図20は、本発明の第2の実施の形態における関連度算出部の処理を示す。
ステップ1701) 関連度算出部1410は、全体量算出部1409に記録されている全体量Dの値を取得する。
ステップ1702) 共起頻度記録部1408に保存されている単語の組み合わせ1組、並びに、当該組み合わせに対応する共起頻度を取得する。
ステップ1703) ステップ1702で取得した組み合わせに含まれる単語それぞれの出現頻度を出現頻度記録部1405から取得する。
ステップ1704) 取得した全体量D、2単語それぞれの出現頻度、並びに当該2単語の組み合わせに対応する共起頻度を用いて、前述の第1の実施の形態における式(4)によって、当該単語間の関連度を算出する。
ステップ1705) ステップ1704で算出された関連度は、単語の組み合わせと共に、最新関連度記録部1411に記録する。
ステップ1706) 共起頻度記録部1408に記録されている単語の組み合わせに対して終了するまで上記の処理を行う。
[第3の実施の形態]
図21は、本発明の第3の実施の形態における単語間関連度算出装置の構成を示す。
同図に示す単語間関連度算出装置は、時刻情報を有する複数の文書を入力とし、各文書内での単語の出現の有無に基づいて、単語間の関連度を算出する装置であり、文書解析部1801、減衰定数算出部1802、単語保持部1803、頻度ベクトル更新部1804、頻度ベクトル記録部1805、関連度算出部1806、最新関連度記録部1807から構成される。
文書解析部1801は、時刻情報を有する入力文書中の本文データを解析し、文書中に出現する単語を取得すると同時に、当該文書が有する時刻情報を取得して以下に述べる減衰定数算出部1802に送出する。
減衰定数算出部1802は、内部のバッファ(図示せず)に保持しておく直前に処理した文書が有する時刻情報と、新規に文書解析部1801から受け取った時刻情報とを比較し、その差分から減衰定数を算出、保持する。
単語保持部1803は、1文書から取得した単語、並びに、当該文書内での各単語の出現回数を文書解析部1801から受け取り、一時的に保持する。
頻度ベクトル更新部1804は、頻度ベクトル記録部1805に記録された各頻度ベクトルを、単語保持部1803に記録されている単語と照らし合わせながら更新する。
頻度ベクトル記録部1805は、単語と頻度ベクトルを格納するハードディスク等の記憶媒体である。
関連度算出部1806は、2単語間の関連度を算出し、最新関連度記録部1807に出力する。
最新関連度記録部1807は、関連度算出部1806により算出された関連度及び単語の組み合わせを格納するハードディスク等の記憶媒体である。
次に、上記の構成による処理を説明する。
図22は、本発明の第3の実施の形態における単語間関連度算出装置の動作のフローチャートである。
ステップ301) 文書解析部1801は、時刻情報が古い文書から新しい文書へと時系列に並べ、1文書ずつ順に入力される。なお、必ずしも、古い文書から新しい文書に並べ替える必要はなく、時刻順に1文書ずつ入力されればよい。また、各文書は、当該文書が作成された時刻や公開された時刻、最終更新された時刻など、当該文書の内容に直接的に関係する時刻情報を有する。文書解析部1801は、時刻情報を有する文書を1文書ずつ入力させ、入力文書中に含まれる単語と出現回数を取得すると同時に、当該時刻情報を取得して減衰定数算出部1802に送出する。文書中から単語を取得する際は、形態素解析などの既存技術を用い、第1の実施の形態における文書解析部と同様の手順で行う。1文書から取得した単語と出現回数の一覧は、単語保持部1803に送出する。
ステップ302) 単語保持部1803では、1文書から取得した単語、並びに、当該文書内での各単語の出現回数を全て記録する。図23に、単語保持部1803に記録された単語と出現回数の例を示す。なお、以下で説明する頻度ベクトル更新部1804が1文書分の単語全てを参照し終えた時点で単語保持部1803の内容を削除し、次に入力される文書中の単語の保持に備える。
ステップ303) 減衰定数算出部1802は、第2の実施の形態おける減衰定数算出部1402と同様に、現在処理中の文書の時刻情報に基づいて、第2の実施の形態の図18の手順に従って減衰定数を算出する。算出した減衰定数は、減衰定数算出部1802の内部のバッファ(図示せず)に保持しておく。
ステップ304) 頻度ベクトル更新部1804は、第1の実施の形態の図6に示す手順で頻度ベクトル記録部1805の各単語の頻度ベクトルを更新する。本処理は、新しく入力された文書中から取得された単語が単語保持部1803に記録される度に実施し、頻度ベクトル記録部1805に保存しておく各単語の頻度ベクトルを逐次更新する。詳細は、図24で後述する。
ステップ305) 関連度算出部1806は、頻度ベクトル記録部1805に記録された単語とその頻度ベクトルを参照して、異なる単語の組み合わせに対して単語間の関連度を算出し、単語の組み合わせと関連度との対を最新関連度記録部1807に出力する。詳細については、図27で後述する。
<頻度ベクトル更新部1804の処理>
図24は、本発明の第3の実施の形態における頻度ベクトル出現頻度更新部の処理の流れを示す図である。
ステップ2001) 最初に頻度ベクトル記録部1805に保存された単語と頻度ベクトルの組を全て取得する。図25は、頻度ベクトル記録部1805に既に保存されている単語と頻度ベクトルの例である。同図に示す状態は、既にd1〜d6までの6文書を処理した後の状態を示すものであり、各文書における出現回数が、各単語について記録されている。但し、以下で説明するように、新しい文書を処理する度に各要素に1ではない定数(減衰定数)を乗じるため、要素値は自然数であるとは限らない。図25は、いくつかの単語に対して頻度ベクトルが算出された状態を示すが、第1番目の文書を文書解析部1801に入力させた段階では、頻度ベクトル記録部1805には何も保存されない空の状態である。本ステップでは、単語「政府」とその頻度ベクトル『0.1,0,2.1,1.8,0.2.0』の組を、全ての単語について取得する。
ステップ2002) 続いて、ステップ2001で取得した全単語の頻度ベクトルの全ての要素に減衰定数αを乗じ、さらに、各ベクトルの末尾の要素として「0」を追加する。すなわち、各頻度ベクトルのd1〜d6に対応する要素全てに減衰定数αを乗じた後、d7に対応する要素として新しく「0」を追加することになる。減衰定数αは、減衰定数算出部1802内部のバッファ(図示せず)に保持された値を用いる。
ステップ2003) その後、単語保持部1803に記録された単語群から、未取得の1単語とその出現回数を取得する。
ステップ2004) 取得した単語がステップ2001で頻度ベクトル記録部1805から取得した単語の中に含まれるかを確認し、含まれる場合にはステップ2005に移行し、含まれない場合はステップ2006に移行する。
ステップ2005) 出現回数を、ベクトルの末尾の要素として追加する。例えば、図23に示す単語から第1番目に取得する単語「政府」は、頻度ベクトル記録部1805から取得した単語群中に存在するため、「政府」の頻度ベクトルの末尾の要素(d7に対応する要素)として、「政府」の出現回数「3」を設定し、ステップ2007に移行する。
ステップ2006) 新たに「霞ヶ関」の頻度ベクトルを頻度ベクトル記録部1805に追加する。取得した「霞ヶ関」の出現回数は「1」であるため、追加する頻度ベクトルd1〜d6に対応する要素が全て0、d7に対応する末尾の要素が1であるようなベクトルとなる。ステップ2007に移行する。
ステップ2007) 単語保存部1803に記録された単語を全て取得したか否かによって処理を終えるかどうかを判定し、未取得の単語が残っていれば、ステップ2003に移行し、次の単語「首相」とその出現回数「4」を取得する。ここでは、「首相」は「政府」の例と同様に、図25に存在するため、ステップ2005に移行する。その次に取得する単語「霞ヶ関」は、図25に存在しない新規の単語であるため、ステップ2004の条件分岐でステップ2006に移行し、新たに「霞ヶ関」の頻度ベクトルを追加する。取得した「霞ヶ関」の出現回数は「1」であるため、追加する頻度ベクトルd1〜d6に対応する要素が全て0,d7に対応する末尾の要素が1であるようなベクトルとなる。
ステップ2008) ベクトルの肥大化を防ぐための古い情報の削除を行う。まず、ベクトルの要素数(次元)を調べ、要素数が規定値以下か否かの判定を行う。例えば、上記の例では、新規文書を処理することにより、要素数が7のベクトルが生成されている。予め定めておくベクトルの要素数の規定値が6であったと仮定すると、要素数が規定値を超えるため、ステップ2009に移行する。
ステップ2009) 頻度ベクトル記録部1805のベクトルの要素数が規定値以下になるよう、ベクトルの先頭の要素、すなわちd1に対応する要素を、全てのベクトルから削除する。
この更新処理により、ベクトルの要素数は常に規定値以下に抑えられる。また、新規文書から取得される単語の出現回数は、ベクトルの末尾に反映されるため、常に最新の6文書分の単語の出現回数が反映されたベクトルを保持することができる。
なお、本実施の形態では、ベクトルの要素数の規定値を「6」という小さな値として説明したが、本規定値は、ベクトルの肥大化に伴う計算量の増加や記憶領域の消費を抑えるために設定する値であり、更に大きな値としてもよい。
ステップ2010) 上記のステップ2001〜ステップ2009までのステップにより更新された頻度ベクトルは、頻度ベクトル記録部1805に保存する。
図26は、図23に示す単語保持部1903の各単語と出現回数を取得しながら、頻度ベクトルを更新した結果である。各単語の出現回数がd7に対応する要素として追加され、d1に対応する要素が削除されている。また、「霞ヶ関」「昨日」「法案」は新規に出現した単語であるため、d2〜d6に対応する要素は全て0となっている。
<関連度算出部1806の処理>
図27は、本発明の第3の実施の形態における関連度算出部の処理の流れを示す。
ステップ2301) 関連度算出部1806が処理を開始すると、まず、最初に頻度ベクトル記録部1805に記録された単語を全て取得する。
ステップ2302) 続いて、取得した単語から、異なる2単語の組み合わせを生成する。
ステップ2303) 次に、1組の単語の組み合わせについて関連度を算出するため、当該組み合わせに含まれる2単語について、頻度ベクトル記録部1805に問い合わせて頻度ベクトルを取得する。
ステップ2304) 図26に示す単語群から『「政府」と「郵政」』という組み合わせが生成され、これらの単語の頻度ベクトルが取得されると、これらの単語間の関連度を算出する。
ここで、関連度を算出しようとする2単語をm,nとすると、単語m,n間の関連度C(m,n)は、例えば、以下の式よって算出する。
Figure 2007102501
上記の式(8)は、ベクトル間の類似度を表現する1つの方法である。2単語の頻度ベクトルが類似するほど、すなわち2単語が同じ文書に含まれる回数が多ければ多いほど、大きな値を取るため、2単語間の関連性の大きさを表す値として利用することができる。
ステップ2305) 算出した単語間の関連度は、単語組み合わせと共に最新関連度記録部1807に出力する。
ステップ2306) 全ての組み合わせについて関連度が算出されるまで上記の処理(ステップ2303以降)を繰り返す。
以上の処理により単語の組み合わせと関連度の対が得られる。
上記の第3の実施の形態では、第2の実施の形態における減衰定数算出部1402と同様の方法で、文書の時刻情報の差に基づいて算出する減衰定数αを用いる例を示したが、この例に限定されることなく、第1の実施の形態と同様に減衰定数αを固定値としてもよい。
また、上記の第1〜第3の実施の形態における単語間関連度算出装置の動作をプログラムとして構築し、単語間関連度算出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、文書解析技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における単語間関連度算出装置の構成例である。 本発明の第1の実施の形態における動作のフローチャートである。 本発明の第1の実施の形態における単語保持部に記録された単語の例である。 本発明の第1の実施の形態における出現頻度更新部の処理の流れを示す図である。 本発明の第1の実施の形態における出現頻度記録部に記録された出現頻度の例である。 本発明の第1の実施の形態における単語の出現頻度に減衰定数α(=0.9)を乗じた結果である。 本発明の第1の実施の形態における単語の出現頻度を更新した結果である。 本発明の第1の実施の形態における共起頻度更新部の処理の流れを示す図である。 本発明の第1の実施の形態における共起頻度記録部に記録された共起頻度の例である。 本発明の第1の実施の形態における共起頻度を更新した結果である。 本発明の第1の実施の形態における関連度算出部による全体量の算出例である。 本発明の第1の実施の形態における関連度算出部の処理の流れを示す図である。 本発明の第1の実施の形態における単語間の関連度の算出結果である。 本発明の第2の実施の形態における単語間関連度算出装置の構成例である。 本発明の第2の実施の形態における動作のフローチャートである。 本発明の第2の実施の形態における減衰定数算出部の処理の流れを示す図である。 本発明の第2の実施の形態における減衰定数の値が前回時刻からの時間経過によって変化する様子を示す図である。 本発明の第2の実施の形態における関連度算出部の処理の流れを示す図である。 本発明の第3の実施の形態における単語間関連度算出装置の構成例である。 本発明の第3の実施の形態における動作のフローチャートである。 本発明の第3の実施の形態における単語保持部に記録された単語の出現回数の例である。 本発明の第3の実施の形態における頻度ベクトル更新部の処理の流れを示す図である。 本発明の第3の実施の形態における頻度ベクトル記録部に記録された単語と頻度ベクトルの例である。 本発明の第3の実施の形態における単語の頻度ベクトルを更新した結果である。 本発明の第3の実施の形態における関連度算出部の処理の流れを示す図である。
符号の説明
201 文書解析部
202 単語保持部
203 出現頻度更新手段、出現頻度更新部
204 出現頻度記憶手段、出現頻度記録部
205 組み合わせ生成部
206 共起頻度更新部
207 共起頻度記録部
208 文書数記録部
209 関連度算出手段、関連度算出部
210 最新関連度記憶手段、最新関連度記録部
1401 文書解析部
1402 減衰定数算出部
1403 単語保持部
1404 出現頻度更新部
1405 出現頻度記録部
1406 組み合わせ生成部
1407 共起頻度更新部
1408 共起頻度記録部
1409 全体量算出部
1410 関連度算出部
1411 最新関連度記録部
1801 文書解析部
1802 減衰定数算出部
1803 単語保持部
1804 頻度ベクトル更新部
1805 頻度ベクトル記録部
1806 関連度算出部
1807 最新関連度記録部

Claims (6)

  1. 時刻情報を有する複数の文書中に含まれる単語を、時刻順に1文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出方法であって、
    解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録する出現頻度更新ステップと、
    前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する関連度算出ステップと、
    を行うことを特徴とする単語間関連度算出方法。
  2. 直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出ステップを更に行う請求項1記載の単語間関連度算出方法。
  3. 前記単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、前記出現頻度と同様に、前記減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新ステップを更に行い、
    前記関連度算出ステップにおいて、
    前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得するのに加え、前記共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を前記最新関連度記憶手段に記録する、
    請求項1または、2記載の単語間関連度算出方法。
  4. 時刻情報を有する複数の文書中に含まれる単語を、時刻順に1文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出装置であって、
    解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録する出現頻度更新手段と、
    前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する関連度算出手段と、
    を有することを特徴とする単語間関連度算出装置。
  5. 直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出手段を更に有する請求項4記載の単語間関連度算出装置。
  6. 前記単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、前記出現頻度と同様に、前記減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新手段を更に有し、
    前記関連度算出手段は、
    前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得するのに加え、前記共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を前記最新関連度記憶手段に記録する手段を有する、
    請求項4または、5記載の単語間関連度算出装置。
JP2005291798A 2005-10-04 2005-10-04 単語間関連度算出方法及び装置 Pending JP2007102501A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005291798A JP2007102501A (ja) 2005-10-04 2005-10-04 単語間関連度算出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005291798A JP2007102501A (ja) 2005-10-04 2005-10-04 単語間関連度算出方法及び装置

Publications (1)

Publication Number Publication Date
JP2007102501A true JP2007102501A (ja) 2007-04-19

Family

ID=38029377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005291798A Pending JP2007102501A (ja) 2005-10-04 2005-10-04 単語間関連度算出方法及び装置

Country Status (1)

Country Link
JP (1) JP2007102501A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069874A (ja) * 2007-09-10 2009-04-02 Sharp Corp コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体
JP2009086773A (ja) * 2007-09-27 2009-04-23 Nomura Research Institute Ltd 検索サービス装置
JP2009271795A (ja) * 2008-05-08 2009-11-19 Nomura Research Institute Ltd 検索システム
JP2010205224A (ja) * 2009-03-06 2010-09-16 Yahoo Japan Corp 商品情報提供装置、商品情報の提供方法及びプログラム
JP2012164018A (ja) * 2011-02-03 2012-08-30 Nifty Corp タグ推薦装置
JP2014052694A (ja) * 2012-09-05 2014-03-20 Nippon Telegr & Teleph Corp <Ntt> 同義タグ抽出装置及び方法及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05282367A (ja) * 1992-03-30 1993-10-29 Nippon Telegr & Teleph Corp <Ntt> 関連キーワード自動生成装置
JP2001155020A (ja) * 1999-11-25 2001-06-08 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2002518748A (ja) * 1998-06-15 2002-06-25 アマゾン ドット コム インコーポレイテッド 検索照会改善システムおよび方法
JP2002334106A (ja) * 2001-05-11 2002-11-22 Fujitsu Ltd 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2004005063A (ja) * 2002-05-30 2004-01-08 Ricoh Co Ltd 文書処理装置
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2005122665A (ja) * 2003-10-20 2005-05-12 Sony Corp 電子機器装置、関連語データベースの更新方法、プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05282367A (ja) * 1992-03-30 1993-10-29 Nippon Telegr & Teleph Corp <Ntt> 関連キーワード自動生成装置
JP2002518748A (ja) * 1998-06-15 2002-06-25 アマゾン ドット コム インコーポレイテッド 検索照会改善システムおよび方法
JP2001155020A (ja) * 1999-11-25 2001-06-08 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2002334106A (ja) * 2001-05-11 2002-11-22 Fujitsu Ltd 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2004005063A (ja) * 2002-05-30 2004-01-08 Ricoh Co Ltd 文書処理装置
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2005122665A (ja) * 2003-10-20 2005-05-12 Sony Corp 電子機器装置、関連語データベースの更新方法、プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069874A (ja) * 2007-09-10 2009-04-02 Sharp Corp コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体
JP2009086773A (ja) * 2007-09-27 2009-04-23 Nomura Research Institute Ltd 検索サービス装置
JP2009271795A (ja) * 2008-05-08 2009-11-19 Nomura Research Institute Ltd 検索システム
JP2010205224A (ja) * 2009-03-06 2010-09-16 Yahoo Japan Corp 商品情報提供装置、商品情報の提供方法及びプログラム
JP2012164018A (ja) * 2011-02-03 2012-08-30 Nifty Corp タグ推薦装置
JP2014052694A (ja) * 2012-09-05 2014-03-20 Nippon Telegr & Teleph Corp <Ntt> 同義タグ抽出装置及び方法及びプログラム

Similar Documents

Publication Publication Date Title
US7284009B2 (en) System and method for command line prediction
US9880997B2 (en) Inferring type classifications from natural language text
US9864741B2 (en) Automated collective term and phrase index
US9558263B2 (en) Identifying and displaying relationships between candidate answers
US9448990B2 (en) Adaptive construction of a statistical language model
US7584184B2 (en) System of effectively searching text for keyword, and method thereof
JP2009545809A (ja) インクリメンタルに更新可能な変形ナイーブベイズクエリ分類器を使用したランク付け関数
US20100198802A1 (en) System and method for optimizing search objects submitted to a data resource
CN110569494B (zh) 用于生成信息的方法、装置、电子设备及可读介质
US9507767B2 (en) Caching of deep structures for efficient parsing
JP2007102501A (ja) 単語間関連度算出方法及び装置
CN111651552B (zh) 结构化信息确定方法、装置和电子设备
US20090182797A1 (en) Consistent contingency table release
US8645428B2 (en) Arithmetic node encoding for tree structures
US11074276B2 (en) Methods and systems for optimized visual summarization for sequences of temporal event data
US10719663B2 (en) Assisted free form decision definition using rules vocabulary
CN116340617B (zh) 一种搜索推荐方法和装置
JP2004240488A (ja) 文書管理装置
US11550777B2 (en) Determining metadata of a dataset
Wongchaisuwat Automatic keyword extraction using textrank
US7035861B2 (en) System and methods for providing data management and document data retrieval
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP6764973B1 (ja) 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム
CN112988668B (zh) 基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法
US20240012627A1 (en) Entity search engine powered by copy-detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100624

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101109