JP2004005337A

JP2004005337A - 単語関係データベース構築方法および装置、単語関係データベースを用いた単語／文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法

Info

Publication number: JP2004005337A
Application number: JP2002211621A
Authority: JP
Inventors: Satoshi Suzuki; 鈴木　敏
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-03-28
Filing date: 2002-07-19
Publication date: 2004-01-08

Abstract

【課題】単語のベクトル表記により与えられる単語情報をアプリケーションに適用する際に必要となる、適用の可否の判断要素を提供する。
【解決手段】まず、辞書ＤＢ１０から、説明文によって説明されている単語見出し語を全て取り出し、各説明文中に現れる「見出し語」の頻度を出現頻度集計部１１で計算する。次に、直接出現確率計算部１２で、上記頻度から、見出し語に対する、説明文中の単語の出現確率を計算する。次に、間接出現確率計算部１３で、説明文中の単語が、さらに説明文により間接的に説明されると仮定し、見出し語に対する間接的な説明文中の単語の出現確率を計算する。次に、直接／間接出現確率計算部１４で、上記の説明文中の単語の直接、間接の出現確率を加算して全説明語の出現確率を求める。最後に、ベクトル表記記録部１５で、全説明語の出現確率を見出し語毎に取り出し、ベクトル表記として単語関係データベース１６に格納する。
【選択図】　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は単語のベクトルを計算する方法および装置、単語間の類似性を計算する方法、単語を意味的にグループ化する方法、および単語概念の階層化方法に関する。
【０００２】
【従来の技術】
従来、単語のベクトル表記は、単語の出現頻度をそのまま、あるいは正規化し、またはＴＦ（Ｔｅｘｔ　Ｆｒｅｑｕｅｎｃｙ）／ＩＤＦ（Ｉｎｖｅｒｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙ）と呼ばれる、単語の出現頻度を文書における出現頻度で割ることで求められていた。
【０００３】
【発明が解決しようとする課題】
ところが、これらのベクトル化方法は、計算式の算出に関して、論理的な説明を与えられていない。例えば、ＴＦ／ＩＤＦにより求められた単語の出現頻度行列をＡとするとき、Ａ＋Ａ^２，Ａ＋Ａ^ｔ等がどのような意味を持つのか、あるいは、意味がない式なのか、明確に説明することは難しい。
【０００４】
したがって、これらの計算式から求められたベクトル表記をアプリケーションに適用しようとするとき、どのような適用が可能なのか不可能なのかの判断を行うことができないという問題があった。
【０００５】
また、従来の、確率ベクトルを用いた単語の類似性計算方法では、ベクトルとしての距離を用いてその類似度としていたため、ベクトルに含まれる確率としての情報を有効に利用できず、その結果、十分な精度が得られなかった。
【０００６】
また、単語をグループ化する場合に、単語の類似度を用いていたため、グループの境界を明確に決定できなかった。
【０００７】
また、得られたグループの代表的な語あるいはその概念を与えることができなかった。
【０００８】
また、確率ベクトルを用いた、単語あるいは単語概念の階層表現を生成する方法は提案されていなかった。
【０００９】
本発明の目的は、ベクトル表記により与えられる単語情報をアプリケーションに適用する際に必要となる、適用の可否の判断要素を提供する単語関係データベース構築方法および装置を提供することにある。
【００１０】
本発明の他の目的は、求められたベクトル表記を用いて単語や文書を処理する方法および装置を提供することにある。
【００１１】
本発明のさらに他の目的は、辞書の説明文の妥当性を検証する方法を提供することにある。
【００１２】
本発明のさらに他の目的は、十分な精度を有する、単語間の類似度を計算する方法を提供することにある。
【００１３】
本発明のさらに他の目的は、グループの境界を明確に決定できる、単語のグループ化方法を提供することにある。
【００１４】
本発明のさらに他の目的は、単語グループの代表語を抽出する方法を提供することにある。
【００１５】
本発明のさらに他の目的は、単語あるいは単語概念の階層表現を生成する方法を提供することにある。
【００１６】
【課題を解決するための手段】
上記目的を達成するために、本発明では、確率モデルを用いた計算手法の定式化を行う。
【００１７】
本発明では、辞書など、単語とその説明文の組合わせを多数持つデータに対し、次のような処理を行う。
【００１８】
まず、説明文によって説明されている単語である「見出し語」を全て取り出す。次に、各説明文中に現れる「単語」の頻度を計算する。次に、上記頻度から、見出し語に対する、説明文中の単語の出現確率（直接出現確率）を計算する。次に、説明文中の単語が、さらに説明文により間接的に説明されると仮定し、見出し語に対する間接的な説明文中の単語の出現確率（間接出現確率）を計算する。
【００１９】
上記の、説明文中の単語の直接、間接の出現確率を、対応する見出し語のベクトル表記として統合することにより得られる出現確率を単語のベクトル表記として計算し、データベースに格納する。
【００２０】
このベクトル表記を利用して、各単語間の距離計算、単語の分類、文書間の距離計算、文書の分類などを行う。
【００２１】
また、ベクトル表記の各ベクトルを比較して、辞書の説明表現の妥当性を検証する。
【００２２】
また、確率ベクトル形式の単語表記、すなわち見出し語ｗ_ｉに対して、その直接／間接説明文中の全単語ｗ_ｊの出現確率Ｐ（ｗ_ｊ｜ｗ_ｉ）（ある単語から別の単語を想起する確率）のベクトル表記を用いて単語間の類似度を計算する。この類似度は一般には単語間で非対称であり、特定の単語を想起する単語集合が求められる。
【００２３】
また、求められた単語間の類似度を用い、単語をその意味によりグループ化する。
【００２４】
また、分類された各グループの中で最大類似度の単語を、当該グループの代表語とする。
【００２５】
説明文中に最も多く現れる単語あるいは単語類似度中の最大類似度の単語を当該単語の上位概念であると仮定し、単語間あるいは代表語間の関係から単語あるいは単語グループの階層構造を決定する。
【００２６】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【００２７】
単語関係データベース構築
図１は本発明の一実施形態の単語関係データベース構築装置のブロック図、図２はその処理の流れを示すフローチャートである。
【００２８】
本実施形態の単語関係データベース構築装置は、電子化された「単語とその説明文」を集めた辞書ＤＢ１０と、各単語に関してその説明文中に使われる語（説明語）の出現頻度を計算する出現頻度集計部１１と、出現頻度から、各単語に関して、説明文中に使われる語の出現確率（直接出現確率）を計算する直接出現確率計算部１２と、説明文が説明文の組合わせにより説明されることを仮定した場合に、各単語の説明のために使われる語の出現確率（間接出現確率）を計算する間接出現確率計算部１３と、各単語に関して、説明文中に使われる語の直接出現確率および間接出現確率を加算して、説明文に出現する説明語の出現確率を求める直接／間接出現確率計算部１４と、全説明語の出現確率を見出し語毎にベクトル表記として取り出すベクトル表記記録部１５と、ベクトル表記が格納される単語関係データベース１６で構成されている。
【００２９】
本例では、「単語とそれに対する説明文」を集めた辞書ＤＢ１０が一般の国語辞典であると仮定して、処理の一例を説明する。
【００３０】
出現頻度集計部１１を用いて、電子化された国語辞典１０を読取り、見出し語毎に、その説明文中に含まれる単語（説明語）の頻度を計算する（ステップ２０）。この時、頻度計算の対象とする単語は、国語辞典１０の全ての見出し語であるとする。すなわち、見出し語と説明語は同じ単語の集合である。
【００３１】
次に、上記の頻度情報を確率表現に直す（ステップ２１）。すなわち、見出し語ｗが与えられた時に、説明文中に説明語ｄが現れる確率Ｐ（ｄ｜ｗ）を直接出現確率計算部１２により計算する。全ての見出し語に関して、確率Ｐ（ｄ｜ｗ）を計算した後、これらの値を次のような行列の表現形式Ａに変換する。
【００３２】
【数１】

【００３３】
この行列表現Ａを直接出現確率とする。国語辞典１０の全見出し語数をＮとすると、ＡはＮ×Ｎの正方行列となる。
【００３４】
次に、間接出現確率計算部１３において、上記の直接出現確率Ａを利用して間接出現確率を計算する（ステップ２２）。説明文中の単語（説明語）を見出し語とみなした時の説明文を「一次間接説明文」とすると（図３）、見出し語ｗに関する説明語ｄ_ｎが１次間接説明文中に出現する確率（間接出現確率）は、
【００３５】
【数２】

【００３６】
となる。同様にして、ｎ次間接説明文中に説明語ｄ_ｎが出現する確率（間接出現確率）は、
【００３７】
【数３】

【００３８】
と表される。見出し語ｗの説明として、ｎ次間接説明文が使われる確率（間接出現確率）をＰ_ｎとすると、説明文中に出現する全説明語の確率は、行列表現により、
【００３９】
【数４】

【００４０】
と表される。
【００４１】
特に、Ｐ_ｎがｎに従って一定の割合ａに従い小さくなると仮定すると、上記の式Ｂは、Ｐ_ｎを２つの定数ａ，ｂを用いて書き換えることで、
【００４２】
【数５】

【００４３】
と、表すことができる。ただし、
【００４４】
【数６】

【００４５】
である。
【００４６】
特に、ｄｅｔ（Ｂ）≠０であれば、
【００４７】
【数７】

【００４８】
となり、直接計算が可能となる。また、ｄｅｔ（Ｂ）＝０の場合は、
【００４９】
【数８】

【００５０】
から推定可能である。
【００５１】
直接／間接出現確率計算部１４は上式により、直接／間接説明文中に出現する全説明語の出現確率Ｂを求める。
【００５２】
ベクトル表記記録部１５は、全説明語の出現確率Ｂを見出し語毎に取り出し、ベクトル化し、単語関係データベース１６に格納する（ステップ２３）。なお、頻度、直接出現確率、間接出現確率等の中間の値は記憶装置（不図示）に一時的に保存される。
【００５３】
単語関係データベースを用いた単語／文書処理
図４は本発明の一実施形態の単語／文書処理装置のブロック図、図５はその処理を示すフローチャートである。
【００５４】
本実施形態の単語／文書処理装置は、各単語間の距離計算、単語の分類、文書間の距離計算、文書の分類等、単語および文書の処理を行う単語／文書処理部１８と、単語／文書処理結果の表示を行う単語／文書処理結果表示部１９で構成され、図１の単語関係データベース１６に格納されたベクトル表記を用いる。
【００５５】
例えば、単語間の距離ｄを計算するには、２つの単語のベクトル表記をそれぞれｆ，ｑとすると、
【００５６】
【数９】

【００５７】
と表せる。
【００５８】
また、特定の観点から２つの単語間の距離を計算したいとき（例えば、「馬」と「豚」を「乗り物」という観点から比較したいとき）、特定の観点がｋ次元で表わされるとすれば、２つの単語ｆ，ｑのベクトル表記はｋ個の要素となり、そのｋ個の要素からなるベクトルから上記（１３）と同様な計算によって特定の観点からの２単語距離とする。
【００５９】
次に、文書の処理の例を挙げる。
【００６０】
今、処理対象とする文書が確率Ｐ（ｗ）の割合で単語ｗを含んでいるとすると、この文書を説明する説明文中に現れる単語の間接出現確率ｑは、単語ｗのベクトル表記をＶ_ｗとして、
【００６１】
【数１０】

【００６２】
となると見なすことができる。ここで、Σ_ｗは文書中に現れる全ての単語に関しての総和である。
【００６３】
文書のベクトル表記も単語のベクトル表記と同様に確率のベクトルとして表されるため、２つの文書間の距離ｈは、単語間の距離の計算と同様に、
【００６４】
【数１１】

【００６５】
により計算できる。特定の観点から文書間の距離を計算したいときも同様である。
【００６６】
上記の計算は、単語／文書処理部１８において行われる（ステップ２４）。また、これらの結果は単語／文書処理結果表示部１９により表示される（ステップ２５）。
【００６７】
説明文表現妥当性の検証
次に、辞書の説明文の妥当性を検証する。例えば、辞書の理想的な表記方法ができる限り一般的な単語で見出し語を説明することであるとすれば、直接出現確率の行列表記Ａを用いて、
【００６８】
【数１２】

【００６９】
と表すことができる。ここで、ｖは一般的な単語のみが値を持つような確率ベクトル（列ベクトル）である。すなわち、理想的な辞書では、∞次間接説明文の出現単語は全ての見出し語に関して、ほぼ等しくなることが期待できる。
【００７０】
したがって、説明表現妥当性検証部１７（図１）でＡ^ｎを計算し、各ベクトルを比較することにより、各見出し語の説明の記述が適切か否かがわかる。検証結果は出力装置（ディスプレイ、プリンタ）に出力される。
【００７１】
次に、本実施形態を具体例により説明する。
【００７２】
３つの単語ｗ１，ｗ２，ｗ３のみからなる国語辞典を仮定する。この辞書から取り出される出現頻度情報が
【００７３】
【数１３】

【００７４】
であるとする。すなわち、例えば、単語ｗ１の説明文中にはｗ２，ｗ３がそれぞれ１度ずつ現れている。
【００７５】
これから、直接出現確率は
【００７６】
【数１４】

【００７７】
と計算される。
【００７８】
また、これから、直接／間接出現確率は、ａ＝０．９とした場合、
【００７９】
【数１５】

【００８０】
となる。したがって、それぞれの単語のベクトル表記は
【００８１】
【数１６】

【００８２】
として記録される。
【００８３】
二単語間の距離は
【００８４】
【数１７】

【００８５】
と計算でき、比較が可能である。
【００８６】
また、間接出現確率の極限は
【００８７】
【数１８】

【００８８】
となり、全ての単語のベクトル表記が等しくなる。この例では、いずれの単語も一般的な単語と見なすことができ、その説明文も妥当であると判断できる。もしも、他の単語と著しく異なるベクトル表記を持つ単語が存在すれば、その単語の説明文は妥当ではないと判断できる。
【００８９】
単語の類似性
単語の類似性は、確率ベクトル形式の単語表記、すなわち見出し語ｗ_ｉに対して、その直接／間接説明文中の全単語ｗ_ｊの出現確率
【００９０】
【外２】

【００９１】
のベクトル表記（表１に例を示す）を用いて
【００９２】
【数１９】

【００９３】
として表される。ここで、
【００９４】
【外３】

【００９５】
は説明文中の単語の意味を表し、
【００９６】
【数２０】

【００９７】
である。Ｐ（ｗ）は単語ｗの事前確率（前提条件なしの確率）であり、
１．全ての単語に関して一定であると仮定する
２．心理実験により得られた単語親密度（ある単語に対して、人がどれだけ馴染みがあるかの心理的度合い）などを当てはめる
などの場合が考えられる。類似度Ｐ（ｗ_ｉ｜ｗ_ｊ）はｗ_ｊに対するｗ_ｉの類似度であり、２単語間の類似度は非対称（Ｐ（ｗ_ｉ｜ｗ_ｊ）≠Ｐ（ｗ_ｊ｜ｗ_ｉ））である。条件１を仮定した場合には対称になる。事前確率を全ての単語に関して一定であると仮定した場合の例を表２に示す。
【００９８】
【表１】

【００９９】
【表２】

【０１００】
単語のグループ化および代表語の抽出
上記の類似度を用いて、単語をグループ化する方法について説明する。
【０１０１】
表２に示されているように、類似度の計算から、類似度が最も高い単語が自分自身である単語（出歯亀、制式、劣性、レスラー、形体、フォーミュラ、無体物、レスリング）と自身より他の単語が類似度が高い単語（唐様、様式、スタイル、形質、形態、変態）が得られる。最大類似度の単語が同一である見出し語をグループ化することにより、同一の概念を持つ単語を一つのカテゴリーとして分類できる。
【０１０２】
また、このときの最大類似度の単語を、そのカテゴリーの代表語とすることができる。表２の例では、出歯亀、唐様、様式、制式、スタイル、劣性、レスラー、形質、形態、フォーミュラ、変態、無体物、レスリングが代表語となり、カテゴリーを作る。
【０１０３】
階層的な意味構造の抽出
上記の類似度、代表語を用いて、階層的な意味構造を抽出する方法について説明する。
例１．説明文中に最も多く現れる単語を、見出し語の上位概念であると仮定し、確率ベクトル形式の単語表記から、最大の出現確率
【０１０４】
【外４】

【０１０５】
を持つ単語ｗ_ｉを抽出する。この結果得られた、ｗ_ｉとｗ_ｊの関係から階層構造を決定する。すなわち、
１．　表１に示されるような単語の確率ベクトル表記から、各見出し語の上位概念（確率のもっとも高い単語）を特定する。
２．　上位概念が自分自身である見出し語を最上位概念とし、最上位概念を上位概念として持つ見出し語を最上位概念の次の階層に置く。
３．　以下、上位から順次、各階層に入る単語を決めて行くことにより、全体の階層構造ができあがる。
この例では、類似度、代表語は利用していない。
【０１０６】
表１と図６を用いてより具体的に説明する。表１のそれぞれの見出し語に対して上位概念（出現確率の最も高い単語）を選び出すと表１の２重線で囲んだ要素が選び出されることとなる。つまり、見出し語と上位概念の組み合わせを（見出し語、上位概念）で記載すると、（出歯亀、変態）、（唐様、様式）、（様式、形態）、（制式、様式）、（スタイル、様式）、（劣性、形質）、（レスラー、レスリング）、（形質、形態）、（形体、形態）、（形態、形態）、（フォーミュラ、形態）、（変態、形態）、（無体物、形体）、（レスリング、スタイル）である。
【０１０７】
「形態」の上位概念は「形態」であるので、もっとも上位の階層の単語とする。次に「形態」が上位概念となっている見出し語、「様式」、「形質」、「形体」、「フォーミュラ」、「変態」を「形態」の次の階層に配置する。そして、今配置した単語が上位概念となっている見出し語を更に、それぞれの上位概念の配下に配置する。これを繰り返すことにより、表１から図６に示す階層構造を求められる。
【０１０８】
例２．例１で、単語の確率ベクトル表記を表２に示すような類似度に置き換え、最大類似度の単語を当該単語の上位概念であると仮定すると、異なる階層構造を得ることができる。
【０１０９】
例３．全ての代表語に関して例１あるいは例２の手法を用いると、代表語の階層構造を得る。この階層構造中の各代表語に、対応する単語グループを割り当てると、単語グループの階層構造を得ることができる。
【０１１０】
なお、以上示した処理は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、ＣＤ−ＲＯＭ等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの（伝送媒体もしくは伝送波）、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【０１１１】
また、本発明は、日本語以外の他の言語にも適用できる。
【０１１２】
【発明の効果】
以上、説明したように本発明によれば、下記の効果がある。
【０１１３】
確率の表現形式を用いて、単語ベクトルの計算方法を定式化することにより、単語のベクトル表記の意味を、「見出し語を説明する単語の出現確率の組合わせ」という形で、明確な意味を持たせることが可能になる。
【０１１４】
さらに、このベクトル表記を各種アプリケーションに適用することにより、より正確な各単語間の距離計算、単語の分類、文書間の距離計算、文書の分類などを行うことが可能となる。
【０１１５】
また、「見出し語」と「見出し語を説明する単語」により単語のベクトルが表現され、「見出し語」と「見出し語を説明する単語」間の依存関係が明確となるため、元データとして利用した辞書の説明文の妥当性の判別が可能となる。
【０１１６】
また、確率ベクトルを用いた計算方法において、確率としての情報を有効利用することにより、単語間の類似性を高い精度で計算でき、導出された類似度を用いた単語のグループ化および導出されたグループの代表語（概念）の抽出が可能となり、さらに、単語あるいは概念の階層的表記を生成でき、各種の言語処理に利用できる。
【図面の簡単な説明】
【図１】本発明の一実施形態の単語関係データベース構築装置のブロック図である。
【図２】図１の単語関係データベース構築装置の処理を示すフローチャートである。
【図３】見出し語と説明語の関係、および１次間接説明文の簡単な説明を示す図である。
【図４】本発明の一実施形態の単語／文書処理装置のブロック図である。
【図５】図４の単語／文書処理装置の処理を示すフローチャートである。
【図６】単語のみを用いた階層構造の例を示す図である。
【符号の説明】
１０　　辞書ＤＢ
１１　　出現頻度集計部
１２　　直接出現確率計算部
１３　　間接出現確率計算部
１４　　直接／間接出現確率計算部
１５　　ベクトル表記記録部
１６　　単語関係データベース
１７　　説明表現妥当性検証部
１８　　単語／文書処理部
１９　　単語／文書処理結果表示部
２０〜２５　　ステップ

Claims

見出し語と、その説明文を集め、見出し語と、説明文中に含まれる単語である説明語が同じ単語の集合である、電子化された辞書ＤＢを読み取り、見出し語毎にその説明語が説明文中に出現する頻度を求める出現頻度集計ステップと、
全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率を求める直接出現確率計算ステップと、
ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を１次間接説明文としたときの、前記見出し語の説明語が１次間接説明文中に出現する確率である間接出現確率を求め、１次間接説明文中の各説明語を見出し語とみなした時の説明文を２次間接説明文としたときの、前記見出し語の説明語が２次間接説明文中に出現する確率である間接出現確率を求め、以後同様にしてｎ次間接説明文まで間接出現確率を求める間接出現確率計算ステップと、
前記直接出現確率と前記間接出現確率を加算することで説明文中に出現する全説明語の出現確率を求める直接／間接出現確率計算ステップと、
前記の全説明語の出現確率を見出し語毎に取り出し、ベクトル化し、ベクトル表記をデータベースに格納するベクトル表記記録ステップを有する単語関係データベース構築方法。
辞書中の全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率を求め、ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を１次間接説明文としたときの、前記見出し語の説明語が１次間接説明文中に出現する確率である間接出現確率を求め、１次間接説明文中の各説明語を見出し語とみなした時の説明文を２次間接説明文としたときの、前記見出し語の説明語が２次間接説明文中に出現する確率を求め、以後同様にしてｎ次間接説明文まで間接出現確率を求め、こうして求めた直接出現確率と間接出現確率を加算することで求めた全説明語の出現確率が見出し語毎に取り出されて、ベクトル化されているベクトル表記が格納されているデータベースを用いて単語／文書を処理する方法であって、
単語のベクトル表記を用い、単語間の距離を計算する場合、両単語のベクトルの差を計算し、２つの文書間の距離を計算する場合、各文書を説明する説明文中に現われる単語の間接出現確率を、各単語が含まれる確率と、各単語のベクトル表記を用いて計算し、両間接出現確率の差を計算する単語／文書処理ステップと、
該単語／文書処理ステップの計算結果を表示する単語／文書処理結果表示ステップを有する、単語関係データベースを用いた単語／文書処理方法。
辞書中の全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率を求め、ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を１次間接説明文としたときの、前記見出し語の説明語が１次間接説明文中に出現する確率である間接出現確率を求め、１次間接説明文中の各説明語を見出し語とみなした時の説明文を２次間接説明文としたときの、前記見出し語の説明語が２次間接説明文中に出現する確率を求め、以後同様にしてｎ次間接説明文まで間接出現確率を求め、こうして求めた直接出現確率と間接出現確率を加算することで求めた全説明語の出現確率が見出し語毎に取り出されて、ベクトル化されているベクトル表記の各ベクトルを比較することにより、各見出し語の説明文の妥当性を検証する説明表現妥当性検証方法。
見出し語と、その説明文を集め、見出し語と、説明文中に含まれる単語である説明語が同じ単語の集合である、電子化された辞書ＤＢを読み取り、見出し語毎にその説明語が説明文中に出現する頻度を求める出現頻度集計手段と、
全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率を求める直接出現確率計算手段と、
ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を１次間接説明文としたときの、前記見出し語の説明語が１次間接説明文中に出現する確率である間接出現確率を求め、１次間接説明文中の各説明語を見出し語とみなした時の説明文を２次間接説明文としたときの、前記見出し語の説明語が２次間接説明文中に出現する確率である間接出現確率を求め、以後同様にしてｎ次間接説明文まで間接出現確率を求める間接出現確率計算手段と、
前記直接出現確率と前記間接出現確率を加算することで説明文中に出現する全説明語の出現確率を求める直接／間接出現確率計算手段と、
前記の全説明語の出現確率を見出し語毎に取り出し、ベクトル化し、ベクトル表記をデータベースに格納するベクトル表記記録手段を有する単語関係データベース構築装置。
辞書中の全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率と、ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を１次間接説明文としたときの、前記見出し語の説明語が１次間接説明文中に出現する確率である間接出現確率である間接出現確率を求め、１次間接説明文中の各説明語を見出し語とみなした時の説明文を２次間接説明文としたときの、前記見出し語の説明語が２次間接説明文中に出現する確率を求め、以後同様にしてｎ次間接説明文まで間接出現確率を求め、こうして求めた直接出現確率と間接出現確率を加算することで求めた、説明文中に出現する全説明語の出現確率が見出し語毎に取り出されて、ベクトル化されたベクトル表記が格納されているデータベースを用いて単語／文書を処理する装置であって、
単語のベクトル表記を用い、単語間の距離を計算する場合、両単語のベクトルの差を計算し、２つの文書間の距離を計算する場合、各文書を説明する説明文中に現われる単語の間接出現確率を、各単語が含まれる確率と、各単語のベクトル表記を用いて計算し、両間接出現確率の差を計算する単語／文書処理手段と、
該単語／文書処理手段の計算結果を表示する単語／文書処理結果表示手段を有する、単語関係データベースを用いた単語／文書処理装置。
請求項１に記載の単語関係データベース構築方法をコンピュータに実行させるための単語関係データベース構築プログラム。
請求項２に記載の単語／文書処理方法をコンピュータに実行させるための単語／文書処理プログラム。
請求項１に記載の単語関係データベース構築方法をコンピュータに実行させるための単語関係データベース構築プログラムを記録した記録媒体。
請求項２に記載の単語／文書処理方法をコンピュータに実行させるための単語／文書処理プログラムを記録した記録媒体。
請求項１記載の単語関係データベース構築方法で求められた確率ベクトル形式の単語表記、すなわち見出し語ｗ_ｉに対して、その直接／間接説明文中の全単語ｗ_ｊの出現確率
【外１】

のベクトル表記を用いて単語間の類似度を計算する、単語の類似度計算方法。
請求項１０記載の単語の類似度計算方法で求められた単語間の類似度を用い、単語をその意味によりグループ化する、単語のグループ化方法。
請求項１１記載の単語のグループ化方法で分類された各グループの中で最大類似度の単語を、当該グループの代表語とする、代表語の抽出方法。
説明文中に最も多く現われる単語を見出し語の上位概念であると仮定し、請求項１に記載の単語関係データベース構築方法で求められた確率ベクトル形式の単語表記から最大の出現確率を持つ単語を抽出し、この結果得られた該単語とその他の単語の関係から階層構造を決定する、単語概念の階層化方法。
請求項１０に記載の方法により求められた単語の類似度の中で、最大類似度の単語を当該単語の上位概念であると仮定し、当該単語とその他の単語の関係から階層構造を決定する、単語概念の階層化方法。
請求項１２に記載の方法により求められた全ての代表語を、請求項１３または１４に示された方法により階層構造を決定し、請求項１１に記載の方法により求められた単語のグループを対応する各代表語に当てはめることにより構造を決定する、単語グループ概念の階層化方法。