JP4938515B2

JP4938515B2 - 単語間相関度計算装置および方法、プログラム並びに記録媒体

Info

Publication number: JP4938515B2
Application number: JP2007068202A
Authority: JP
Inventors: 敏鈴木
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2007-03-16
Filing date: 2007-03-16
Publication date: 2012-05-23
Anticipated expiration: 2027-03-16
Also published as: JP2008233963A

Description

本発明は、自然言語解析技術に関し、特に特定の話題に関する文書に登場する単語間の相関度を計算する単語間相関度算出技術に関する。

特定の話題に関連する文書に登場する単語間の関係を調べる場合、この話題に関する文書集合のコーパスを集め、例えば、ＴＦ−ＩＤＦ(Term Frequency-Inverted Document Frequency)と呼ばれる手法によりベクトル化し、このベクトルを用いて単語間の関係を取り出すという手法が考えられる。ＴＦ−ＩＤＦ法は、任意の単語の重要度を算出する公知の手法の１つである（例えば、非特許文献１など参照）。あるいは、特許文献１による手法等も利用できる。

特開２００４−００５３３７号公報「形態素解析と検索APIとTF-IDFでキーワード抽出」, http://chalow.net/2005-10-12-1.html 日本語語彙体系、岩波書店、1997

単語間の関係を調べる場合、特定の話題に絞った文書を大量に集めることは困難であるため、小規模なコーパスで代用する方法が考えられる。しかしながら、このような従来技術では、小規模なコーパスを用いた場合、ＴＦ−ＩＤＦでのベクトル化の際に単語数が限定されてベクトルがスパースになるため、結果として、単語間の関係を相関情報として十分に反映できないという問題点があった。

一方、大規模コーパスに目的の小規模コーパスを組込み計算するという方法も考えられる。しかし従来技術では、単語間の関係を調べるごとにコーパス全体について再計算する必要があるため、その再計算に多くの時間を要する。したがって、例えばウェブ上のサービスとして、ユーザからの要求に応じて単語間の関係を調べて提供するには応答時間がかかり過ぎるという問題がある。また、コーパスから生成されるベクトルは、単語の共起情報を反映するものとなり、単語の意味的情報は反映されないという問題もある。

本発明はこのような課題を解決するためのものであり、特定の話題に関連する文書に登場する単語間の関係を示す相関度を短時間で算出できる単語間相関度計算装置および方法、プログラム並びに記録媒体を提供することを目的としている。

このような目的を達成するために、本発明にかかる単語間相関度計算装置は、文書集合に含まれる対象単語間についてその関係を示す相関度を計算する単語間相関度計算装置であって、特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶する記憶部と、記憶部から特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算する特定相関計算部と、記憶部の相関データベースから対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算する相関統合部とを備えている。

この際、一般文書集合として、見出し語とその語義文の組からなる辞書、または大規模コーパスから構成しもよく、一般相関度として、再帰的展開手法（例えば、特許文献１など参照）により生成されたベクトルを用いてもよい。
また、相関統合部で、対象単語間の相関度として、一方の対象単語の共起情報または語義情報から他方の対象単語を想起する確率を用いるようにしてもよい。
また、相関統合部で計算された相関度で相関データベースを更新する相関ＤＢ更新機能をさらに備えてもよい。

また、本発明にかかる単語間相関度計算方法は、文書集合に含まれる対象単語間についてその関係を示す相関度を計算する単語間相関度計算方法であって、記憶部により、特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶する記憶ステップと、特定相関計算部により、記憶部から特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算する特定相関計算ステップと、相関統合部により、記憶部の相関データベースから対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算する相関度統合ステップとを備えている。

また、本発明にかかるプログラムは、コンピュータに、上記単語間相関度計算方法の各ステップを実行させるためのプログラムである。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。

本発明によれば、記憶部で、特定文書集合と相関ＤＢとを記憶しておき、特定相関計算部により、特定文書集合の各文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算し、相関統合部により、相関ＤＢから対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算するようにしたので、一般相関度を相関ＤＢから取得できることから、一般相関度を計算する場合と比較して当該計算に要する処理を省くことができ、特定の話題に関連する文書に登場する単語間の関係を示す相関度を短時間で算出できる。

次に、本発明の実施の形態について図面を参照して説明する。
［第１の実施の形態］
まず、図１を参照して、本発明の第１の実施の形態にかかる単語間相関度計算装置について説明する。図１は、本発明の第１の実施の形態にかかる単語間相関度計算装置の構成を示すブロック図である。
この単語間相関度計算装置１０は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、文書集合に含まれる対象単語間についてその関係を示す相関度を計算する機能を有している。

本実施の形態は、記憶部により、特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶しておき、特定相関計算部により、記憶部から特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算し、相関統合部により、記憶部の相関データベースから対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算するようにしたものである。

以下、図１を参照して、本発明の第１の実施の形態にかかる単語間相関度計算装置の構成について詳細に説明する。
単語間相関度計算装置１０には、主な機能部として、一般的な情報処理装置と同様に、演算処理部１、記憶部２、入出力インターフェース部（以下、入出力Ｉ／Ｆ部という）３、通信インターフェース部（以下、通信Ｉ／Ｆ部という）４、操作入力部５、および画面表示部６が設けられている。

演算処理部１は、ＣＰＵなどのマイクロプロセッサとその周辺回路からなり、記憶部２に格納されているプログラム２０を読み出して実行することにより、上記ハードウェアとプログラム２０とを協働させて各種処理部を実現する。
演算処理部１で実現される主な処理部としては、特定相関計算部１１、および相関統合部１２がある。

記憶部２は、ハードディスクやメモリなどの記憶装置からなり、演算処理部１で実行するプログラム２０や、相関度の計算処理に用いる各種処理情報を記憶する。プログラム２０は、例えば入出力Ｉ／Ｆ部３を介して記録媒体Ｍから読み込まれ、あるいは通信Ｉ／Ｆ部４を介して外部装置（図示せず）から読み込まれ、記憶部２へ予め格納される。
記憶部２で記憶する主な処理情報としては、特定文書集合２１と相関データベース（以下、相関ＤＢという）２２がある。

入出力Ｉ／Ｆ部３は、専用のデータ入出力回路からなり、ＣＤやＤＶＤ、さらには不揮発性メモリカードなどの記録媒体Ｍとの間で、演算処理部１からの指示に応じて、対象単語Ｗ、相関結果情報Ｙ、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。
通信Ｉ／Ｆ部４は、専用のデータ通信回路からなり、ＬＡＮなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部１からの指示に応じて、対象単語Ｗ、相関結果情報Ｙ、辞書、データベースなどの各種データやプログラムを送受信する機能を有している。

操作入力部５は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部１へ出力する機能を有している。
画面表示部６は、ＬＣＤやＰＤＰなどの画面表示装置からなり、演算処理部１からの指示に応じて対象単語Ｗや相関結果情報Ｙなどの各種データや操作画面を画面表示する機能を有している。

図２は、本発明の第１の実施の形態にかかる単語間相関度計算装置の要部を示すブロック図である。特定相関計算部１１は、自然言語データからなる対象単語Ｗを、記憶部２、入出力Ｉ／Ｆ部３、通信Ｉ／Ｆ部４、操作入力部５などから受け取る機能と、記憶部２から特定文書集合２１の各文書を読み出す機能と、これら文書における対象単語Ｗの出現頻度に基づいて対象単語間に関する特定相関度を計算する機能とを有している。特定文書集合２１は、特定の話題に関する内容が記述された複数の文書からなる文書集合であり、相関度を計算する対象となる対象単語がこれら文書に含まれている。特定文書集合２１の具体例としては、例えば大規模コーパスから抽出した特定の話題に関するコーパスから構成してもよい。

相関統合部１２は、記憶部２の相関ＤＢ２２から対象単語Ｗ間に関する一般相関度を検索する機能と、この一般相関度と特定相関計算部１１で得られた特定相関度とに基づいて、特定文書集合２１および一般文書集合からなる全体文書集合における対象単語間の相関度を計算する機能と、得られた相関度を当該対象単語とともに、相関結果情報Ｙとして、記憶部２、入出力Ｉ／Ｆ部３、通信Ｉ／Ｆ部４、画面表示部６などへ出力する機能とを有している。

相関ＤＢ２２は、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積するデータベースである。この一般相関度については、特許文献１などの公知の手法で予め計算しておけばよい。
一般文書集合の具体例としては、話題の偏らない大規模コーパスを利用してもよく、国語辞典、専門語辞典、Wikipediaなどのインターネット辞書を利用してもよい。一般相関度の具体例としては、単語類似度、単語共起頻度、あるいは単語間の確率的尺度等が利用できる。

次に、図３および図４を参照して、文書集合の構成が異なる２つの相関度計算手法について比較する。図３は、１つの文書集合を用いた相関度計算例を示す概略フローである。図４は、特定文書集合と一般文書集合の２つの文書集合を用いた相関度計算例を示す概略フローである。ここでは、指定した対象単語と文書集合に含まれる特定単語との間の相関度を計算する場合を例として説明する。

図３の相関度計算例では、特定の話題に関する文書と話題の偏らない一般的な文書の両方を含む１つの大規模な文書集合を予め用意しておき、相関を計算したい対象単語の入力に応じて（ステップ１００）、まず文書集合の中からその対象単語を含む文書を検索する（ステップ１０１）。次に、検索した各文書に共通に現れる特定単語を抽出し（ステップ１０２）、検索した各文書に共通に現れ、かつそれ以外の文書に現れにくい単語の方が、より相関が高くなるように対象単語と特定単語との間の相関度を計算する（ステップ１０３）。

一方、図４の相関度計算例では、特定の話題に関する文書を含む小規模な特定文書集合と、話題の偏らない一般的な文書を含む一般文書集合の２つの文書集合を別個に用意しておき、相関を計算したい対象単語の入力に応じて（ステップ１１０）、まず特定の話題に関する特定文書集合２１から対象単語を含む文書を検索し（ステップ１１１）、これと並行して、一般文書集合ここでは辞書を利用して、対象単語を語義文中に含む見出語を検索する（ステップ１１２）。次に、検索した各文書と各語義文にそれぞれ共通に現れる特定単語を抽出し（ステップ１１３）、検索した文書および語義文に共通に現れ、かつそれ以外の文書および語義文に現れにくい単語の方が、より相関が高くなるように対象単語と特定単語との間の相関度を計算する（ステップ１１４）。

ここで、文書集合のうち一般的な文書を元にして計算される単語間の相関度は、これら文書における単語の出現頻度は一定である。このため、指定された対象単語の話題とは関係なく常に不変であるから、一度計算をしておけば再計算の必要はない。
本発明はこのような点に着目し、一般的な文書を元にして計算される単語間の相関度を予め計算して相関ＤＢ２２に蓄積しておき、相関統合部１２により、指定された対象単語の相関度を計算する際、一般的な文書を元にして計算される対象単語間の一般相関度を相関ＤＢ２２から検索し、特定相関計算部１１で計算した特定相関度と統合することにより、特定文書集合２１および一般文書集合からなる全体文書集合における対象単語間の相関度を計算している。

これにより、指定された対象単語について相関度を計算する際に再計算が必要なのは、特定文書集合を元にした特定相関度に関する計算と、特定相関度と一般相関度との統合に関する計算のみとなり、一般相関度に関する計算を省くことができる。特に、一般相関度の元となる一般文書集合は、話題に偏りがない大量の文書を用いる必要があるため、文書数が比較的少ない特定相関度の計算と比較して膨大な計算処理が必要となる。本発明によれば、このような膨大な計算処理が必要となる一般相関度に関する計算を省くことができ、計算処理負担を大幅に削減できる。

［第１の実施の形態の動作］
次に、図２を参照して、本発明の第１の実施の形態にかかる単語間相関度計算装置の動作について説明する。ここでは、指定された対象単語Ｗと関連性の高い特定単語との間の相関度を求める場合を例として説明する。なお、相関度計算を開始するにあたり、特定の話題に関する特定文書集合２１と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関ＤＢ２２は、予め用意されているものとする。

単語間相関度計算装置１０の演算処理部１は、操作入力部５により、オペレータによる相関度計算処理の開始操作を検出した場合、特定相関計算部１１により、相関度の計算対象となる対象単語Ｗを受け取り、その対象単語Ｗに関する特定相関度の算出処理を行う。
特定相関計算部１１は、まず、記憶部２から特定文書集合２１の各文書を読み出し、対象単語Ｗを含む文書を検索し、検索したこれら文書に含まれる各単語のうち出現頻度の高い複数の単語を特定単語として検索する。

次に、特定相関計算部１１は、対象単語Ｗと特定文書集合２１中の文との間の特定相関度を計算する。ここで、確率的手法を適用した場合、単語間の相関度は次のようにして計算できる。指定された対象単語Ｗａから想起しうる特定単語をＷｂとし、特定文書集合２１を構成する各文書に含まれる文をＣｊとし、特定文書集合２１においてＷａを含む文Ｃｊが現れる確率をＰ（Ｃｊ｜Ｗａ）とし、Ｗｂが特定単語として計算対象に選ばれる確率をＰ（Ｗｂ）とし、特定文書集合２１の中から文Ｃｊが選ばれる確率をＰ（Ｃｊ）とした場合、特定相関度、すなわち与えられたＣｊからＷｂを想起する確率Ｐ（Ｗｂ｜Ｃｊ）は、式（１）で求められる。

次に、演算処理部１は、相関統合部１２により、対象単語Ｗと任意の単語との間に関する一般相関度を記憶部２の相関ＤＢ２２から検索する。一般文書集合の文書中の単語をＤｉとし、対象単語Ｗａを含む一般文書集合内の文書中に単語Ｄｉが現れる確率をＰ（Ｄｉ｜Ｗａ）とした場合、一般相関度、すなわちＤｉが与えられたときに特定単語Ｗｂを想起する確率Ｐ（Ｗｂ｜Ｄｊ）は、式（２）で表される関係を持つ。

このようにして対象単語Ｗについて特定相関度と一般相関度を計算した後、相関統合部１２は、次のようにして特定相関度と一般相関度を統合し、特定文書集合２１および一般文書集合からなる全体文書集合における対象単語Ｗａと特定単語Ｗｂの間の相関度Ｐ（Ｗｂ｜Ｗａ）を計算し、相関結果情報Ｙとして出力する。
Ｐ（Ｗｂ｜Ｗａ）は、Ｗａが与えられたときにＷｂ，Ｄｉ，Ｃｊが選択される確率Ｐ（Ｗｂ，Ｄｉ，Ｃｊ｜Ｗａ）を、各Ｄｉ，Ｃｊごとに合計することにより計算でき、式（３）のように展開できる。

ここで、単語Ｗｘの事前確率は等しいとすれば、Ｐ（Ｗｂ｜Ｗａ）は、特定相関度Ｐ（Ｗｂ｜Ｃｊ）と一般相関度Ｐ（Ｗｂ｜Ｄｉ）を用いて、式（４）のように表すことができる。

したがって、相関統合部１２は、式（４）に特定相関度Ｐ（Ｗｂ｜Ｃｊ）と一般相関度Ｐ（Ｗｂ｜Ｄｉ）を代入することにより、対象単語Ｗａと特定単語Ｗｂの間の相関度を計算すればよい。
なお、相関計算の手法としては、ベクトル間の角度や内積を用いる方法、相関の統合方法として単純に総和をとる方法、あるいは積をとる方法など、他の公知の手法を適用してもよい。

［第１の実施の形態の効果］
このように本実施の形態では、記憶部２により、特定の話題に関する特定文書集合２１と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関ＤＢ２２とを記憶しておき、特定相関計算部１１により、記憶部２から特定文書集合２１の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算し、相関統合部１２により、記憶部２の相関ＤＢ２２から対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部１１で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算するようにしている。

したがって、一般相関度を相関ＤＢから取得できるため、一般相関度を計算する場合と比較して当該計算に要する処理を省くことができ、特定の話題に関連する文書に登場する単語間の関係を示す相関度を短時間で算出できる。
また、単語間の相関度を、特定の話題に関する文書集合に記載の無い単語を介して計算することが可能となる。このことは式（４）からも明らかである。これにより、文書集合単独で計算するよりも、より広い相関を考慮した計算が可能となる。

また、相関ＤＢの各一般相関度を辞書を利用して計算した場合には、辞書の性質により単語ベクトルが意味情報により構成されるという特徴がある。図５は、上位語に関する単語ベクトルと日本語語彙大系との比較結果を示すグラフである。図６は、同義語に関する単語ベクトルと日本語語彙大系との比較結果を示すグラフである。ここでは、任意の対象単語と単語ベクトル要素の大きい順に得られた１００語について、単語間の意味関係を著した辞書である日本語語彙大系（例えば、非特許文献２など参照）での記載有無に応じて正解／不正解を判定し、これら判定結果を複数の対象単語について統計処理したものである。

これら図５および図６によれば、単語ベクトル要素の順位が高いほど正解率も高く、上位語や同義語である確率が高いことが示されている。言い換えれば、単位ベクトルを算出した手法は、単語間における上位語や同義語といった意味的な距離をそのままベクトル化する手法であるといえる。これは、ＴＦ−ＩＤＦなどの共起情報から生成されるベクトルとは明らかに異なる性質を持つものである。したがって、このようにして生成されたベクトルを相関情報の計算に利用することにより、単語間の相関度に対して意味的な距離を直接反映することができる。

また、一般文書集合について、辞書の代わりに大規模コーパスを利用した場合、意味情報による計算は包含されないが、その場合でも文書集合単独で計算するよりも、より広い相関を考慮した計算が可能となる。一般には、２つ以上のコーパスがあっても、言語が同じであれば１つのコーパスとしてまとめ、１つの大規模コーパスとして扱うのが通常の利用方法である。したがって、本発明のように、１つに集約できる文書集合を敢えて２つの特定文書集合と一般文書集合として、それぞれ独立して扱う点も従来には無い考え方であり、従来技術とは異なる新しい点である。

文書集合を２つに分けておくことにより、一般文書集合における一般相関度を一度計算しておけば再計算をする必要がなくなり、その分だけ計算時間が短くなり、対象とする話題が様々に変化しても短い応答時間で答えを得ることができる点にある。これは、ウェブサービスなど短い応答時間を要求されるサービスにとって非常に重要な要素である。

［第２の実施の形態］
次に、本発明の第２の実施の形態にかかる単語間相関度計算装置について説明する。
第１の実施の形態では、相関ＤＢ２２の元となる一般文書集合として、話題の偏らない大規模コーパスやインターネット辞書を単独で用いる場合を例として説明したが、本実施の形態のように、これらを組み合わせて用いてもよい。
例えば、大規模コーパスを利用する場合は話題に偏った単語を補間し、辞書を利用する場合はコーパスと組み合わせておく。これにより、共起情報と意味情報を同時に利用できるとともに、コーパスの話題に偏った専門的な単語を辞書の一般的な単語により補間でき、より多くのパラメータを介した高密度な単語間の相関度を計算することが可能となる。

図７は、対象単語間の相関度の計算結果例である。ここでは、対象単語「タイヤ」に関する意見を求めた複数の記事からなるコーパスを特定文書集合２１として用い、一般的な国語辞典を一般文書集合として用いて算出した一般相関度を蓄積する相関ＤＢ２２を用いた場合に、式（４）から計算した各相関度が、その相関度の高い上位３０語が特定単語ごとに示されている。またこれら相関度は、国語辞典のみ、コーパスのみの場合についても計算した。

コーパスと国語辞典を組み合わせた場合には、自動車関連の単語に絞り込まれており、国語辞典やコーパスを単独で用いた場合と比較して、高い精度で相関度が計算可能なことが示されている。また逆に、コーパス中の記事が自動車に興味のある人達によって作成されたことを示しており、コーパスドメイン（記事製作者の集合）の特徴抽出も可能となる。一般文書集合として辞書ではなく一般の大規模コーパスを用いる場合、上記計算式のＤｉを大規模コーパス中のｉ番目の文書とみなすことで同様の計算を行うことができる。

［第３の実施の形態］
次に、図８を参照して、本発明の第３の実施の形態にかかる単語間相関度計算装置について説明する。図８は、本発明の第３の実施の形態にかかる単語間相関度計算装置を示すブロック図であり、前述した図１と同じまたは同等部分には同一符号を付してある。
第１の実施の形態では、相関ＤＢ２２が特定文書集合２１のように予め用意されている場合について説明した。本実施の形態では、単語間相関度計算装置１０で相関ＤＢ２２を予め計算する場合について説明する。

本実施の形態にかかる単語間相関度計算装置１０には、第１の実施の形態と比較して、演算処理部１に一般相関計算部１３が設けられており、記憶部２には、一般文書集合２３が予め記憶されている。なお、この他の構成については、第１の実施の形態と同様であり、ここでの説明は省略する。

一般相関計算部１３は、前述した式（２）を用いて、記憶部２の一般文書集合２３から各単語間について一般相関度を算出する機能を有している。一般文書集合２３は、話題が特定されていない複数の文書からなり、具体例としては、話題の偏らない大規模コーパスを利用してもよく、国語辞典、専門語辞典、Wikipediaなどのインターネット辞書を利用すればよい。

単語間相関度計算装置１０の演算処理部１は、操作入力部５により、オペレータによる相関ＤＢ作成処理の開始操作を検出した場合、一般相関計算部１３により、記憶部２の一般文書集合２３から各文書を読み込み、これら文書に含まれる単語について、式（２）を用いて一般相関度の算出処理を行う。このようにして得られた一般相関度を当該単語対との組として相関ＤＢ２２に蓄積し、記憶部２へ格納する。

本実施の形態は、記憶部２の一般文書集合２３から各単語間について一般相関度を算出する一般相関計算部１３を設けたので、任意の一般文書集合２３について、単語間相関度計算装置１０により、所望の相関ＤＢ２２を作成することができる。

[実施の形態の拡張]
以上の各実施の形態では、指定された対象単語と共起頻度が高く関連性の高い特定単語を文書集合から抽出し、対象単語とこれら特定単語との間の相関度を計算する場合を例として説明したが、特定単語についてはこれに限定されるものではない。例えば、対象単語と１つ以上の特定単語を指定し、これら対象単語と特定単語との間の相関度を計算するようにしてもよい。

また、各実施の形態において、演算処理部１に相関ＤＢ更新部を追加して設け、この相関ＤＢ更新部により、相関統合部１２で計算した相関度で当該対象単語対と関連付けて相関ＤＢ２２を更新するようにしてもよい。これにより、計算された新たな相関度が相関ＤＢ２２に更新登録されて、相関ＤＢ２２を学習させることが可能となり、以降の相関度の計算において、相関度の計算精度の改善が期待できる。

本発明の第１の実施の形態にかかる単語間相関度計算装置の構成を示すブロック図である。本発明の第１の実施の形態にかかる単語間相関度計算装置の要部を示すブロック図である。１つの文書集合を用いた相関度計算例を示す概略フローである。特定文書集合と一般文書集合の２つの文書集合を用いた相関度計算例を示す概略フローである。上位語に関する単語ベクトルと日本語語彙大系との比較結果を示すグラフである。同義語に関する単語ベクトルと日本語語彙大系との比較結果を示すグラフである。対象単語間の相関度の計算結果例である。本発明の第２の実施の形態にかかる単語間相関度計算装置を示すブロック図である。

符号の説明

１０…単語間相関度計算装置、１…演算処理部、１１…特定相関計算部、１２…相関統合部、１３…一般相関計算部、２…記憶部、２０…プログラム、２１…特定文書集合、２２…相関ＤＢ、２３…一般文書集合、３…入出力Ｉ／Ｆ部、４…通信Ｉ／Ｆ部、５…操作入力部、６…画面表示部、Ｗ…対象単語、Ｙ…相関結果情報、Ｍ…記録媒体。

Claims

文書集合に含まれる対象単語間についてその関係を示す相関度を計算する単語間相関度計算装置であって、
特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した前記対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶する記憶部と、
前記記憶部から前記特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて前記対象単語間に関する特定相関度を計算する特定相関計算部と、
前記記憶部の相関データベースから前記対象単語間に関する一般相関度を検索し、当該一般相関度と前記特定相関計算部で得られた特定相関度とに基づいて前記特定文書集合および前記一般文書集合からなる全体文書集合における前記対象単語間の相関度を計算する相関統合部と
を備えることを特徴とする単語間相関度計算装置。
請求項１に記載の単語間相関度計算装置において、
前記一般文書集合は、見出し語とその語義文の組からなる辞書、または大規模コーパスからなることを特徴とする単語間相関度計算装置。
請求項２に記載の単語間相関度計算装置において、
前記一般相関度は、再帰的展開手法により生成されたベクトルを用いることを特徴とする単語間相関度計算装置。
請求項３に記載の単語間相関度計算装置において、
相関統合部は、前記対象単語間の相関度として、一方の対象単語の共起情報または語義情報から他方の対象単語を想起する確率を用いることを特徴とする単語間相関度計算装置。
請求項１に記載の単語間相関度計算装置において、
前記相関統合部で計算された相関度で前記相関データベースを更新する相関ＤＢ更新機能をさらに備えることを特徴とする単語間相関度計算装置。
文書集合に含まれる対象単語間についてその関係を示す相関度を計算する単語間相関度計算方法であって、
記憶部により、特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した前記対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶する記憶ステップと、
特定相関計算部により、前記記憶部から前記特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて前記対象単語間に関する特定相関度を計算する特定相関計算ステップと、
相関統合部により、前記記憶部の相関データベースから前記対象単語間に関する一般相関度を検索し、当該一般相関度と前記特定相関計算部で得られた特定相関度とに基づいて前記特定文書集合および前記一般文書集合からなる全体文書集合における前記対象単語間の相関度を計算する相関度統合ステップと
を備えることを特徴とする単語間相関度計算方法。
コンピュータに、請求項５に記載の単語間相関度計算方法の各ステップを実行させるためのプログラム。
請求項７に記載のプログラムが記録された記録媒体。