JP4938515B2 - 単語間相関度計算装置および方法、プログラム並びに記録媒体 - Google Patents

単語間相関度計算装置および方法、プログラム並びに記録媒体 Download PDF

Info

Publication number
JP4938515B2
JP4938515B2 JP2007068202A JP2007068202A JP4938515B2 JP 4938515 B2 JP4938515 B2 JP 4938515B2 JP 2007068202 A JP2007068202 A JP 2007068202A JP 2007068202 A JP2007068202 A JP 2007068202A JP 4938515 B2 JP4938515 B2 JP 4938515B2
Authority
JP
Japan
Prior art keywords
correlation
specific
general
document set
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007068202A
Other languages
English (en)
Other versions
JP2008233963A (ja
Inventor
敏 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007068202A priority Critical patent/JP4938515B2/ja
Publication of JP2008233963A publication Critical patent/JP2008233963A/ja
Application granted granted Critical
Publication of JP4938515B2 publication Critical patent/JP4938515B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、自然言語解析技術に関し、特に特定の話題に関する文書に登場する単語間の相関度を計算する単語間相関度算出技術に関する。
特定の話題に関連する文書に登場する単語間の関係を調べる場合、この話題に関する文書集合のコーパスを集め、例えば、TF−IDF(Term Frequency-Inverted Document Frequency)と呼ばれる手法によりベクトル化し、このベクトルを用いて単語間の関係を取り出すという手法が考えられる。TF−IDF法は、任意の単語の重要度を算出する公知の手法の1つである(例えば、非特許文献1など参照)。あるいは、特許文献1による手法等も利用できる。
特開2004−005337号公報 「形態素解析と検索APIとTF-IDFでキーワード抽出」, http://chalow.net/2005-10-12-1.html 日本語語彙体系、岩波書店、1997
単語間の関係を調べる場合、特定の話題に絞った文書を大量に集めることは困難であるため、小規模なコーパスで代用する方法が考えられる。しかしながら、このような従来技術では、小規模なコーパスを用いた場合、TF−IDFでのベクトル化の際に単語数が限定されてベクトルがスパースになるため、結果として、単語間の関係を相関情報として十分に反映できないという問題点があった。
一方、大規模コーパスに目的の小規模コーパスを組込み計算するという方法も考えられる。しかし従来技術では、単語間の関係を調べるごとにコーパス全体について再計算する必要があるため、その再計算に多くの時間を要する。したがって、例えばウェブ上のサービスとして、ユーザからの要求に応じて単語間の関係を調べて提供するには応答時間がかかり過ぎるという問題がある。また、コーパスから生成されるベクトルは、単語の共起情報を反映するものとなり、単語の意味的情報は反映されないという問題もある。
本発明はこのような課題を解決するためのものであり、特定の話題に関連する文書に登場する単語間の関係を示す相関度を短時間で算出できる単語間相関度計算装置および方法、プログラム並びに記録媒体を提供することを目的としている。
このような目的を達成するために、本発明にかかる単語間相関度計算装置は、文書集合に含まれる対象単語間についてその関係を示す相関度を計算する単語間相関度計算装置であって、特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶する記憶部と、記憶部から特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算する特定相関計算部と、記憶部の相関データベースから対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算する相関統合部とを備えている。
この際、一般文書集合として、見出し語とその語義文の組からなる辞書、または大規模コーパスから構成しもよく、一般相関度として、再帰的展開手法(例えば、特許文献1など参照)により生成されたベクトルを用いてもよい。
また、相関統合部で、対象単語間の相関度として、一方の対象単語の共起情報または語義情報から他方の対象単語を想起する確率を用いるようにしてもよい。
また、相関統合部で計算された相関度で相関データベースを更新する相関DB更新機能をさらに備えてもよい。
また、本発明にかかる単語間相関度計算方法は、文書集合に含まれる対象単語間についてその関係を示す相関度を計算する単語間相関度計算方法であって、記憶部により、特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶する記憶ステップと、特定相関計算部により、記憶部から特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算する特定相関計算ステップと、相関統合部により、記憶部の相関データベースから対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算する相関度統合ステップとを備えている。
また、本発明にかかるプログラムは、コンピュータに、上記単語間相関度計算方法の各ステップを実行させるためのプログラムである。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。
本発明によれば、記憶部で、特定文書集合と相関DBとを記憶しておき、特定相関計算部により、特定文書集合の各文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算し、相関統合部により、相関DBから対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算するようにしたので、一般相関度を相関DBから取得できることから、一般相関度を計算する場合と比較して当該計算に要する処理を省くことができ、特定の話題に関連する文書に登場する単語間の関係を示す相関度を短時間で算出できる。
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる単語間相関度計算装置について説明する。図1は、本発明の第1の実施の形態にかかる単語間相関度計算装置の構成を示すブロック図である。
この単語間相関度計算装置10は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、文書集合に含まれる対象単語間についてその関係を示す相関度を計算する機能を有している。
本実施の形態は、記憶部により、特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶しておき、特定相関計算部により、記憶部から特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算し、相関統合部により、記憶部の相関データベースから対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算するようにしたものである。
以下、図1を参照して、本発明の第1の実施の形態にかかる単語間相関度計算装置の構成について詳細に説明する。
単語間相関度計算装置10には、主な機能部として、一般的な情報処理装置と同様に、演算処理部1、記憶部2、入出力インターフェース部(以下、入出力I/F部という)3、通信インターフェース部(以下、通信I/F部という)4、操作入力部5、および画面表示部6が設けられている。
演算処理部1は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部2に格納されているプログラム20を読み出して実行することにより、上記ハードウェアとプログラム20とを協働させて各種処理部を実現する。
演算処理部1で実現される主な処理部としては、特定相関計算部11、および相関統合部12がある。
記憶部2は、ハードディスクやメモリなどの記憶装置からなり、演算処理部1で実行するプログラム20や、相関度の計算処理に用いる各種処理情報を記憶する。プログラム20は、例えば入出力I/F部3を介して記録媒体Mから読み込まれ、あるいは通信I/F部4を介して外部装置(図示せず)から読み込まれ、記憶部2へ予め格納される。
記憶部2で記憶する主な処理情報としては、特定文書集合21と相関データベース(以下、相関DBという)22がある。
入出力I/F部3は、専用のデータ入出力回路からなり、CDやDVD、さらには不揮発性メモリカードなどの記録媒体Mとの間で、演算処理部1からの指示に応じて、対象単語W、相関結果情報Y、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。
通信I/F部4は、専用のデータ通信回路からなり、LANなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部1からの指示に応じて、対象単語W、相関結果情報Y、辞書、データベースなどの各種データやプログラムを送受信する機能を有している。
操作入力部5は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部1へ出力する機能を有している。
画面表示部6は、LCDやPDPなどの画面表示装置からなり、演算処理部1からの指示に応じて対象単語Wや相関結果情報Yなどの各種データや操作画面を画面表示する機能を有している。
図2は、本発明の第1の実施の形態にかかる単語間相関度計算装置の要部を示すブロック図である。特定相関計算部11は、自然言語データからなる対象単語Wを、記憶部2、入出力I/F部3、通信I/F部4、操作入力部5などから受け取る機能と、記憶部2から特定文書集合21の各文書を読み出す機能と、これら文書における対象単語Wの出現頻度に基づいて対象単語間に関する特定相関度を計算する機能とを有している。特定文書集合21は、特定の話題に関する内容が記述された複数の文書からなる文書集合であり、相関度を計算する対象となる対象単語がこれら文書に含まれている。特定文書集合21の具体例としては、例えば大規模コーパスから抽出した特定の話題に関するコーパスから構成してもよい。
相関統合部12は、記憶部2の相関DB22から対象単語W間に関する一般相関度を検索する機能と、この一般相関度と特定相関計算部11で得られた特定相関度とに基づいて、特定文書集合21および一般文書集合からなる全体文書集合における対象単語間の相関度を計算する機能と、得られた相関度を当該対象単語とともに、相関結果情報Yとして、記憶部2、入出力I/F部3、通信I/F部4、画面表示部6などへ出力する機能とを有している。
相関DB22は、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積するデータベースである。この一般相関度については、特許文献1などの公知の手法で予め計算しておけばよい。
一般文書集合の具体例としては、話題の偏らない大規模コーパスを利用してもよく、国語辞典、専門語辞典、Wikipediaなどのインターネット辞書を利用してもよい。一般相関度の具体例としては、単語類似度、単語共起頻度、あるいは単語間の確率的尺度等が利用できる。
次に、図3および図4を参照して、文書集合の構成が異なる2つの相関度計算手法について比較する。図3は、1つの文書集合を用いた相関度計算例を示す概略フローである。図4は、特定文書集合と一般文書集合の2つの文書集合を用いた相関度計算例を示す概略フローである。ここでは、指定した対象単語と文書集合に含まれる特定単語との間の相関度を計算する場合を例として説明する。
図3の相関度計算例では、特定の話題に関する文書と話題の偏らない一般的な文書の両方を含む1つの大規模な文書集合を予め用意しておき、相関を計算したい対象単語の入力に応じて(ステップ100)、まず文書集合の中からその対象単語を含む文書を検索する(ステップ101)。次に、検索した各文書に共通に現れる特定単語を抽出し(ステップ102)、検索した各文書に共通に現れ、かつそれ以外の文書に現れにくい単語の方が、より相関が高くなるように対象単語と特定単語との間の相関度を計算する(ステップ103)。
一方、図4の相関度計算例では、特定の話題に関する文書を含む小規模な特定文書集合と、話題の偏らない一般的な文書を含む一般文書集合の2つの文書集合を別個に用意しておき、相関を計算したい対象単語の入力に応じて(ステップ110)、まず特定の話題に関する特定文書集合21から対象単語を含む文書を検索し(ステップ111)、これと並行して、一般文書集合ここでは辞書を利用して、対象単語を語義文中に含む見出語を検索する(ステップ112)。次に、検索した各文書と各語義文にそれぞれ共通に現れる特定単語を抽出し(ステップ113)、検索した文書および語義文に共通に現れ、かつそれ以外の文書および語義文に現れにくい単語の方が、より相関が高くなるように対象単語と特定単語との間の相関度を計算する(ステップ114)。
ここで、文書集合のうち一般的な文書を元にして計算される単語間の相関度は、これら文書における単語の出現頻度は一定である。このため、指定された対象単語の話題とは関係なく常に不変であるから、一度計算をしておけば再計算の必要はない。
本発明はこのような点に着目し、一般的な文書を元にして計算される単語間の相関度を予め計算して相関DB22に蓄積しておき、相関統合部12により、指定された対象単語の相関度を計算する際、一般的な文書を元にして計算される対象単語間の一般相関度を相関DB22から検索し、特定相関計算部11で計算した特定相関度と統合することにより、特定文書集合21および一般文書集合からなる全体文書集合における対象単語間の相関度を計算している。
これにより、指定された対象単語について相関度を計算する際に再計算が必要なのは、特定文書集合を元にした特定相関度に関する計算と、特定相関度と一般相関度との統合に関する計算のみとなり、一般相関度に関する計算を省くことができる。特に、一般相関度の元となる一般文書集合は、話題に偏りがない大量の文書を用いる必要があるため、文書数が比較的少ない特定相関度の計算と比較して膨大な計算処理が必要となる。本発明によれば、このような膨大な計算処理が必要となる一般相関度に関する計算を省くことができ、計算処理負担を大幅に削減できる。
[第1の実施の形態の動作]
次に、図2を参照して、本発明の第1の実施の形態にかかる単語間相関度計算装置の動作について説明する。ここでは、指定された対象単語Wと関連性の高い特定単語との間の相関度を求める場合を例として説明する。なお、相関度計算を開始するにあたり、特定の話題に関する特定文書集合21と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関DB22は、予め用意されているものとする。
単語間相関度計算装置10の演算処理部1は、操作入力部5により、オペレータによる相関度計算処理の開始操作を検出した場合、特定相関計算部11により、相関度の計算対象となる対象単語Wを受け取り、その対象単語Wに関する特定相関度の算出処理を行う。
特定相関計算部11は、まず、記憶部2から特定文書集合21の各文書を読み出し、対象単語Wを含む文書を検索し、検索したこれら文書に含まれる各単語のうち出現頻度の高い複数の単語を特定単語として検索する。
次に、特定相関計算部11は、対象単語Wと特定文書集合21中の文との間の特定相関度を計算する。ここで、確率的手法を適用した場合、単語間の相関度は次のようにして計算できる。指定された対象単語Waから想起しうる特定単語をWbとし、特定文書集合21を構成する各文書に含まれる文をCjとし、特定文書集合21においてWaを含む文Cjが現れる確率をP(Cj|Wa)とし、Wbが特定単語として計算対象に選ばれる確率をP(Wb)とし、特定文書集合21の中から文Cjが選ばれる確率をP(Cj)とした場合、特定相関度、すなわち与えられたCjからWbを想起する確率P(Wb|Cj)は、式(1)で求められる。
Figure 0004938515
次に、演算処理部1は、相関統合部12により、対象単語Wと任意の単語との間に関する一般相関度を記憶部2の相関DB22から検索する。一般文書集合の文書中の単語をDiとし、対象単語Waを含む一般文書集合内の文書中に単語Diが現れる確率をP(Di|Wa)とした場合、一般相関度、すなわちDiが与えられたときに特定単語Wbを想起する確率P(Wb|Dj)は、式(2)で表される関係を持つ。
Figure 0004938515
このようにして対象単語Wについて特定相関度と一般相関度を計算した後、相関統合部12は、次のようにして特定相関度と一般相関度を統合し、特定文書集合21および一般文書集合からなる全体文書集合における対象単語Waと特定単語Wbの間の相関度P(Wb|Wa)を計算し、相関結果情報Yとして出力する。
P(Wb|Wa)は、Waが与えられたときにWb,Di,Cjが選択される確率P(Wb,Di,Cj|Wa)を、各Di,Cjごとに合計することにより計算でき、式(3)のように展開できる。
Figure 0004938515
ここで、単語Wxの事前確率は等しいとすれば、 P(Wb|Wa)は、特定相関度P(Wb|Cj)と一般相関度P(Wb|Di)を用いて、式(4)のように表すことができる。
Figure 0004938515
したがって、相関統合部12は、式(4)に特定相関度P(Wb|Cj)と一般相関度P(Wb|Di)を代入することにより、対象単語Waと特定単語Wbの間の相関度を計算すればよい。
なお、相関計算の手法としては、ベクトル間の角度や内積を用いる方法、相関の統合方法として単純に総和をとる方法、あるいは積をとる方法など、他の公知の手法を適用してもよい。
[第1の実施の形態の効果]
このように本実施の形態では、記憶部2により、特定の話題に関する特定文書集合21と、話題が特定されていない一般文書集合から予め計算した対象単語間の関係を示す一般相関度を蓄積する相関DB22とを記憶しておき、特定相関計算部11により、記憶部2から特定文書集合21の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて対象単語間に関する特定相関度を計算し、相関統合部12により、記憶部2の相関DB22から対象単語間に関する一般相関度を検索し、当該一般相関度と特定相関計算部11で得られた特定相関度とに基づいて特定文書集合および一般文書集合からなる全体文書集合における対象単語間の相関度を計算するようにしている。
したがって、一般相関度を相関DBから取得できるため、一般相関度を計算する場合と比較して当該計算に要する処理を省くことができ、特定の話題に関連する文書に登場する単語間の関係を示す相関度を短時間で算出できる。
また、単語間の相関度を、特定の話題に関する文書集合に記載の無い単語を介して計算することが可能となる。このことは式(4)からも明らかである。これにより、文書集合単独で計算するよりも、より広い相関を考慮した計算が可能となる。
また、相関DBの各一般相関度を辞書を利用して計算した場合には、辞書の性質により単語ベクトルが意味情報により構成されるという特徴がある。図5は、上位語に関する単語ベクトルと日本語語彙大系との比較結果を示すグラフである。図6は、同義語に関する単語ベクトルと日本語語彙大系との比較結果を示すグラフである。ここでは、任意の対象単語と単語ベクトル要素の大きい順に得られた100語について、単語間の意味関係を著した辞書である日本語語彙大系(例えば、非特許文献2など参照)での記載有無に応じて正解/不正解を判定し、これら判定結果を複数の対象単語について統計処理したものである。
これら図5および図6によれば、単語ベクトル要素の順位が高いほど正解率も高く、上位語や同義語である確率が高いことが示されている。言い換えれば、単位ベクトルを算出した手法は、単語間における上位語や同義語といった意味的な距離をそのままベクトル化する手法であるといえる。これは、TF−IDFなどの共起情報から生成されるベクトルとは明らかに異なる性質を持つものである。したがって、このようにして生成されたベクトルを相関情報の計算に利用することにより、単語間の相関度に対して意味的な距離を直接反映することができる。
また、一般文書集合について、辞書の代わりに大規模コーパスを利用した場合、意味情報による計算は包含されないが、その場合でも文書集合単独で計算するよりも、より広い相関を考慮した計算が可能となる。一般には、2つ以上のコーパスがあっても、言語が同じであれば1つのコーパスとしてまとめ、1つの大規模コーパスとして扱うのが通常の利用方法である。したがって、本発明のように、1つに集約できる文書集合を敢えて2つの特定文書集合と一般文書集合として、それぞれ独立して扱う点も従来には無い考え方であり、従来技術とは異なる新しい点である。
文書集合を2つに分けておくことにより、一般文書集合における一般相関度を一度計算しておけば再計算をする必要がなくなり、その分だけ計算時間が短くなり、対象とする話題が様々に変化しても短い応答時間で答えを得ることができる点にある。これは、ウェブサービスなど短い応答時間を要求されるサービスにとって非常に重要な要素である。
[第2の実施の形態]
次に、本発明の第2の実施の形態にかかる単語間相関度計算装置について説明する。
第1の実施の形態では、相関DB22の元となる一般文書集合として、話題の偏らない大規模コーパスやインターネット辞書を単独で用いる場合を例として説明したが、本実施の形態のように、これらを組み合わせて用いてもよい。
例えば、大規模コーパスを利用する場合は話題に偏った単語を補間し、辞書を利用する場合はコーパスと組み合わせておく。これにより、共起情報と意味情報を同時に利用できるとともに、コーパスの話題に偏った専門的な単語を辞書の一般的な単語により補間でき、より多くのパラメータを介した高密度な単語間の相関度を計算することが可能となる。
図7は、対象単語間の相関度の計算結果例である。ここでは、対象単語「タイヤ」に関する意見を求めた複数の記事からなるコーパスを特定文書集合21として用い、一般的な国語辞典を一般文書集合として用いて算出した一般相関度を蓄積する相関DB22を用いた場合に、式(4)から計算した各相関度が、その相関度の高い上位30語が特定単語ごとに示されている。またこれら相関度は、国語辞典のみ、コーパスのみの場合についても計算した。
コーパスと国語辞典を組み合わせた場合には、自動車関連の単語に絞り込まれており、国語辞典やコーパスを単独で用いた場合と比較して、高い精度で相関度が計算可能なことが示されている。また逆に、コーパス中の記事が自動車に興味のある人達によって作成されたことを示しており、コーパスドメイン(記事製作者の集合)の特徴抽出も可能となる。一般文書集合として辞書ではなく一般の大規模コーパスを用いる場合、上記計算式のDiを大規模コーパス中のi番目の文書とみなすことで同様の計算を行うことができる。
[第3の実施の形態]
次に、図8を参照して、本発明の第3の実施の形態にかかる単語間相関度計算装置について説明する。図8は、本発明の第3の実施の形態にかかる単語間相関度計算装置を示すブロック図であり、前述した図1と同じまたは同等部分には同一符号を付してある。
第1の実施の形態では、相関DB22が特定文書集合21のように予め用意されている場合について説明した。本実施の形態では、単語間相関度計算装置10で相関DB22を予め計算する場合について説明する。
本実施の形態にかかる単語間相関度計算装置10には、第1の実施の形態と比較して、演算処理部1に一般相関計算部13が設けられており、記憶部2には、一般文書集合23が予め記憶されている。なお、この他の構成については、第1の実施の形態と同様であり、ここでの説明は省略する。
一般相関計算部13は、前述した式(2)を用いて、記憶部2の一般文書集合23から各単語間について一般相関度を算出する機能を有している。一般文書集合23は、話題が特定されていない複数の文書からなり、具体例としては、話題の偏らない大規模コーパスを利用してもよく、国語辞典、専門語辞典、Wikipediaなどのインターネット辞書を利用すればよい。
単語間相関度計算装置10の演算処理部1は、操作入力部5により、オペレータによる相関DB作成処理の開始操作を検出した場合、一般相関計算部13により、記憶部2の一般文書集合23から各文書を読み込み、これら文書に含まれる単語について、式(2)を用いて一般相関度の算出処理を行う。このようにして得られた一般相関度を当該単語対との組として相関DB22に蓄積し、記憶部2へ格納する。
本実施の形態は、記憶部2の一般文書集合23から各単語間について一般相関度を算出する一般相関計算部13を設けたので、任意の一般文書集合23について、単語間相関度計算装置10により、所望の相関DB22を作成することができる。
[実施の形態の拡張]
以上の各実施の形態では、指定された対象単語と共起頻度が高く関連性の高い特定単語を文書集合から抽出し、対象単語とこれら特定単語との間の相関度を計算する場合を例として説明したが、特定単語についてはこれに限定されるものではない。例えば、対象単語と1つ以上の特定単語を指定し、これら対象単語と特定単語との間の相関度を計算するようにしてもよい。
また、各実施の形態において、演算処理部1に相関DB更新部を追加して設け、この相関DB更新部により、相関統合部12で計算した相関度で当該対象単語対と関連付けて相関DB22を更新するようにしてもよい。これにより、計算された新たな相関度が相関DB22に更新登録されて、相関DB22を学習させることが可能となり、以降の相関度の計算において、相関度の計算精度の改善が期待できる。
本発明の第1の実施の形態にかかる単語間相関度計算装置の構成を示すブロック図である。 本発明の第1の実施の形態にかかる単語間相関度計算装置の要部を示すブロック図である。 1つの文書集合を用いた相関度計算例を示す概略フローである。 特定文書集合と一般文書集合の2つの文書集合を用いた相関度計算例を示す概略フローである。 上位語に関する単語ベクトルと日本語語彙大系との比較結果を示すグラフである。 同義語に関する単語ベクトルと日本語語彙大系との比較結果を示すグラフである。 対象単語間の相関度の計算結果例である。 本発明の第2の実施の形態にかかる単語間相関度計算装置を示すブロック図である。
符号の説明
10…単語間相関度計算装置、1…演算処理部、11…特定相関計算部、12…相関統合部、13…一般相関計算部、2…記憶部、20…プログラム、21…特定文書集合、22…相関DB、23…一般文書集合、3…入出力I/F部、4…通信I/F部、5…操作入力部、6…画面表示部、W…対象単語、Y…相関結果情報、M…記録媒体。

Claims (8)

  1. 文書集合に含まれる対象単語間についてその関係を示す相関度を計算する単語間相関度計算装置であって、
    特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した前記対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶する記憶部と、
    前記記憶部から前記特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて前記対象単語間に関する特定相関度を計算する特定相関計算部と、
    前記記憶部の相関データベースから前記対象単語間に関する一般相関度を検索し、当該一般相関度と前記特定相関計算部で得られた特定相関度とに基づいて前記特定文書集合および前記一般文書集合からなる全体文書集合における前記対象単語間の相関度を計算する相関統合部と
    を備えることを特徴とする単語間相関度計算装置。
  2. 請求項1に記載の単語間相関度計算装置において、
    前記一般文書集合は、見出し語とその語義文の組からなる辞書、または大規模コーパスからなることを特徴とする単語間相関度計算装置。
  3. 請求項2に記載の単語間相関度計算装置において、
    前記一般相関度は、再帰的展開手法により生成されたベクトルを用いることを特徴とする単語間相関度計算装置。
  4. 請求項3に記載の単語間相関度計算装置において、
    相関統合部は、前記対象単語間の相関度として、一方の対象単語の共起情報または語義情報から他方の対象単語を想起する確率を用いることを特徴とする単語間相関度計算装置。
  5. 請求項1に記載の単語間相関度計算装置において、
    前記相関統合部で計算された相関度で前記相関データベースを更新する相関DB更新機能をさらに備えることを特徴とする単語間相関度計算装置。
  6. 文書集合に含まれる対象単語間についてその関係を示す相関度を計算する単語間相関度計算方法であって、
    記憶部により、特定の話題に関する特定文書集合と、話題が特定されていない一般文書集合から予め計算した前記対象単語間の関係を示す一般相関度を蓄積する相関データベースとを記憶する記憶ステップと、
    特定相関計算部により、前記記憶部から前記特定文書集合の各文書を読み出し、これら文書における対象単語の出現頻度に基づいて前記対象単語間に関する特定相関度を計算する特定相関計算ステップと、
    相関統合部により、前記記憶部の相関データベースから前記対象単語間に関する一般相関度を検索し、当該一般相関度と前記特定相関計算部で得られた特定相関度とに基づいて前記特定文書集合および前記一般文書集合からなる全体文書集合における前記対象単語間の相関度を計算する相関度統合ステップと
    を備えることを特徴とする単語間相関度計算方法。
  7. コンピュータに、請求項5に記載の単語間相関度計算方法の各ステップを実行させるためのプログラム。
  8. 請求項7に記載のプログラムが記録された記録媒体。
JP2007068202A 2007-03-16 2007-03-16 単語間相関度計算装置および方法、プログラム並びに記録媒体 Expired - Fee Related JP4938515B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007068202A JP4938515B2 (ja) 2007-03-16 2007-03-16 単語間相関度計算装置および方法、プログラム並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007068202A JP4938515B2 (ja) 2007-03-16 2007-03-16 単語間相関度計算装置および方法、プログラム並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2008233963A JP2008233963A (ja) 2008-10-02
JP4938515B2 true JP4938515B2 (ja) 2012-05-23

Family

ID=39906719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007068202A Expired - Fee Related JP4938515B2 (ja) 2007-03-16 2007-03-16 単語間相関度計算装置および方法、プログラム並びに記録媒体

Country Status (1)

Country Link
JP (1) JP4938515B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6233798B2 (ja) 2013-09-11 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation データを変換する装置及び方法
KR101727222B1 (ko) * 2016-09-27 2017-04-17 한국과학기술정보연구원 관계정보 생성 방법 및 장치
JP6737151B2 (ja) * 2016-11-28 2020-08-05 富士通株式会社 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005337A (ja) * 2002-03-28 2004-01-08 Nippon Telegr & Teleph Corp <Ntt> 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法
JP2005122665A (ja) * 2003-10-20 2005-05-12 Sony Corp 電子機器装置、関連語データベースの更新方法、プログラム
JP4428703B2 (ja) * 2004-11-11 2010-03-10 日本電信電話株式会社 情報検索方法及びそのシステム並びにコンピュータプログラム

Also Published As

Publication number Publication date
JP2008233963A (ja) 2008-10-02

Similar Documents

Publication Publication Date Title
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
US8719246B2 (en) Generating and presenting a suggested search query
JP5078173B2 (ja) 多義性解消方法とそのシステム
US20130018650A1 (en) Selection of Language Model Training Data
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US20110040769A1 (en) Query-URL N-Gram Features in Web Ranking
US20190197184A1 (en) Constructing content based on multi-sentence compression of source content
JP5522389B2 (ja) 類似度算出装置、類似度算出方法、及びプログラム
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
JP2007219929A (ja) 感性評価システム及び方法
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
Li et al. A novel methodology for retrieving infographics utilizing structure and message content
JP4938515B2 (ja) 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP2009015796A (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
JP2009015795A (ja) テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
US9336317B2 (en) System and method for searching aliases associated with an entity
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
Wongchaisuwat Automatic keyword extraction using textrank
JP5499546B2 (ja) 重要語抽出方法、装置、プログラム、記録媒体
Tian et al. A prediction model for web search hit counts using word frequencies
JP5594225B2 (ja) 知識獲得装置、知識取得方法、及びプログラム
JP2011081626A (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120223

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees