JP2004005337A - 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法 - Google Patents

単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法 Download PDF

Info

Publication number
JP2004005337A
JP2004005337A JP2002211621A JP2002211621A JP2004005337A JP 2004005337 A JP2004005337 A JP 2004005337A JP 2002211621 A JP2002211621 A JP 2002211621A JP 2002211621 A JP2002211621 A JP 2002211621A JP 2004005337 A JP2004005337 A JP 2004005337A
Authority
JP
Japan
Prior art keywords
word
explanatory
indirect
probability
headword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002211621A
Other languages
English (en)
Inventor
Satoshi Suzuki
鈴木 敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002211621A priority Critical patent/JP2004005337A/ja
Publication of JP2004005337A publication Critical patent/JP2004005337A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】単語のベクトル表記により与えられる単語情報をアプリケーションに適用する際に必要となる、適用の可否の判断要素を提供する。
【解決手段】まず、辞書DB10から、説明文によって説明されている単語見出し語を全て取り出し、各説明文中に現れる「見出し語」の頻度を出現頻度集計部11で計算する。次に、直接出現確率計算部12で、上記頻度から、見出し語に対する、説明文中の単語の出現確率を計算する。次に、間接出現確率計算部13で、説明文中の単語が、さらに説明文により間接的に説明されると仮定し、見出し語に対する間接的な説明文中の単語の出現確率を計算する。次に、直接/間接出現確率計算部14で、上記の説明文中の単語の直接、間接の出現確率を加算して全説明語の出現確率を求める。最後に、ベクトル表記記録部15で、全説明語の出現確率を見出し語毎に取り出し、ベクトル表記として単語関係データベース16に格納する。
【選択図】  図1

Description

【0001】
【発明の属する技術分野】
本発明は単語のベクトルを計算する方法および装置、単語間の類似性を計算する方法、単語を意味的にグループ化する方法、および単語概念の階層化方法に関する。
【0002】
【従来の技術】
従来、単語のベクトル表記は、単語の出現頻度をそのまま、あるいは正規化し、またはTF(Text Frequency)/IDF(Inverse Document Frequency)と呼ばれる、単語の出現頻度を文書における出現頻度で割ることで求められていた。
【0003】
【発明が解決しようとする課題】
ところが、これらのベクトル化方法は、計算式の算出に関して、論理的な説明を与えられていない。例えば、TF/IDFにより求められた単語の出現頻度行列をAとするとき、A+A,A+A等がどのような意味を持つのか、あるいは、意味がない式なのか、明確に説明することは難しい。
【0004】
したがって、これらの計算式から求められたベクトル表記をアプリケーションに適用しようとするとき、どのような適用が可能なのか不可能なのかの判断を行うことができないという問題があった。
【0005】
また、従来の、確率ベクトルを用いた単語の類似性計算方法では、ベクトルとしての距離を用いてその類似度としていたため、ベクトルに含まれる確率としての情報を有効に利用できず、その結果、十分な精度が得られなかった。
【0006】
また、単語をグループ化する場合に、単語の類似度を用いていたため、グループの境界を明確に決定できなかった。
【0007】
また、得られたグループの代表的な語あるいはその概念を与えることができなかった。
【0008】
また、確率ベクトルを用いた、単語あるいは単語概念の階層表現を生成する方法は提案されていなかった。
【0009】
本発明の目的は、ベクトル表記により与えられる単語情報をアプリケーションに適用する際に必要となる、適用の可否の判断要素を提供する単語関係データベース構築方法および装置を提供することにある。
【0010】
本発明の他の目的は、求められたベクトル表記を用いて単語や文書を処理する方法および装置を提供することにある。
【0011】
本発明のさらに他の目的は、辞書の説明文の妥当性を検証する方法を提供することにある。
【0012】
本発明のさらに他の目的は、十分な精度を有する、単語間の類似度を計算する方法を提供することにある。
【0013】
本発明のさらに他の目的は、グループの境界を明確に決定できる、単語のグループ化方法を提供することにある。
【0014】
本発明のさらに他の目的は、単語グループの代表語を抽出する方法を提供することにある。
【0015】
本発明のさらに他の目的は、単語あるいは単語概念の階層表現を生成する方法を提供することにある。
【0016】
【課題を解決するための手段】
上記目的を達成するために、本発明では、確率モデルを用いた計算手法の定式化を行う。
【0017】
本発明では、辞書など、単語とその説明文の組合わせを多数持つデータに対し、次のような処理を行う。
【0018】
まず、説明文によって説明されている単語である「見出し語」を全て取り出す。次に、各説明文中に現れる「単語」の頻度を計算する。次に、上記頻度から、見出し語に対する、説明文中の単語の出現確率(直接出現確率)を計算する。次に、説明文中の単語が、さらに説明文により間接的に説明されると仮定し、見出し語に対する間接的な説明文中の単語の出現確率(間接出現確率)を計算する。
【0019】
上記の、説明文中の単語の直接、間接の出現確率を、対応する見出し語のベクトル表記として統合することにより得られる出現確率を単語のベクトル表記として計算し、データベースに格納する。
【0020】
このベクトル表記を利用して、各単語間の距離計算、単語の分類、文書間の距離計算、文書の分類などを行う。
【0021】
また、ベクトル表記の各ベクトルを比較して、辞書の説明表現の妥当性を検証する。
【0022】
また、確率ベクトル形式の単語表記、すなわち見出し語wに対して、その直接/間接説明文中の全単語wの出現確率P(w|w)(ある単語から別の単語を想起する確率)のベクトル表記を用いて単語間の類似度を計算する。この類似度は一般には単語間で非対称であり、特定の単語を想起する単語集合が求められる。
【0023】
また、求められた単語間の類似度を用い、単語をその意味によりグループ化する。
【0024】
また、分類された各グループの中で最大類似度の単語を、当該グループの代表語とする。
【0025】
説明文中に最も多く現れる単語あるいは単語類似度中の最大類似度の単語を当該単語の上位概念であると仮定し、単語間あるいは代表語間の関係から単語あるいは単語グループの階層構造を決定する。
【0026】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0027】
単語関係データベース構築
図1は本発明の一実施形態の単語関係データベース構築装置のブロック図、図2はその処理の流れを示すフローチャートである。
【0028】
本実施形態の単語関係データベース構築装置は、電子化された「単語とその説明文」を集めた辞書DB10と、各単語に関してその説明文中に使われる語(説明語)の出現頻度を計算する出現頻度集計部11と、出現頻度から、各単語に関して、説明文中に使われる語の出現確率(直接出現確率)を計算する直接出現確率計算部12と、説明文が説明文の組合わせにより説明されることを仮定した場合に、各単語の説明のために使われる語の出現確率(間接出現確率)を計算する間接出現確率計算部13と、各単語に関して、説明文中に使われる語の直接出現確率および間接出現確率を加算して、説明文に出現する説明語の出現確率を求める直接/間接出現確率計算部14と、全説明語の出現確率を見出し語毎にベクトル表記として取り出すベクトル表記記録部15と、ベクトル表記が格納される単語関係データベース16で構成されている。
【0029】
本例では、「単語とそれに対する説明文」を集めた辞書DB10が一般の国語辞典であると仮定して、処理の一例を説明する。
【0030】
出現頻度集計部11を用いて、電子化された国語辞典10を読取り、見出し語毎に、その説明文中に含まれる単語(説明語)の頻度を計算する(ステップ20)。この時、頻度計算の対象とする単語は、国語辞典10の全ての見出し語であるとする。すなわち、見出し語と説明語は同じ単語の集合である。
【0031】
次に、上記の頻度情報を確率表現に直す(ステップ21)。すなわち、見出し語wが与えられた時に、説明文中に説明語dが現れる確率P(d|w)を直接出現確率計算部12により計算する。全ての見出し語に関して、確率P(d|w)を計算した後、これらの値を次のような行列の表現形式Aに変換する。
【0032】
【数1】
Figure 2004005337
【0033】
この行列表現Aを直接出現確率とする。国語辞典10の全見出し語数をNとすると、AはN×Nの正方行列となる。
【0034】
次に、間接出現確率計算部13において、上記の直接出現確率Aを利用して間接出現確率を計算する(ステップ22)。説明文中の単語(説明語)を見出し語とみなした時の説明文を「一次間接説明文」とすると(図3)、見出し語wに関する説明語dが1次間接説明文中に出現する確率(間接出現確率)は、
【0035】
【数2】
Figure 2004005337
【0036】
となる。同様にして、n次間接説明文中に説明語dが出現する確率(間接出現確率)は、
【0037】
【数3】
Figure 2004005337
【0038】
と表される。見出し語wの説明として、n次間接説明文が使われる確率(間接出現確率)をPとすると、説明文中に出現する全説明語の確率は、行列表現により、
【0039】
【数4】
Figure 2004005337
【0040】
と表される。
【0041】
特に、Pがnに従って一定の割合aに従い小さくなると仮定すると、上記の式Bは、Pを2つの定数a,bを用いて書き換えることで、
【0042】
【数5】
Figure 2004005337
【0043】
と、表すことができる。ただし、
【0044】
【数6】
Figure 2004005337
【0045】
である。
【0046】
特に、det(B)≠0であれば、
【0047】
【数7】
Figure 2004005337
【0048】
となり、直接計算が可能となる。また、det(B)=0の場合は、
【0049】
【数8】
Figure 2004005337
【0050】
から推定可能である。
【0051】
直接/間接出現確率計算部14は上式により、直接/間接説明文中に出現する全説明語の出現確率Bを求める。
【0052】
ベクトル表記記録部15は、全説明語の出現確率Bを見出し語毎に取り出し、ベクトル化し、単語関係データベース16に格納する(ステップ23)。なお、頻度、直接出現確率、間接出現確率等の中間の値は記憶装置(不図示)に一時的に保存される。
【0053】
単語関係データベースを用いた単語/文書処理
図4は本発明の一実施形態の単語/文書処理装置のブロック図、図5はその処理を示すフローチャートである。
【0054】
本実施形態の単語/文書処理装置は、各単語間の距離計算、単語の分類、文書間の距離計算、文書の分類等、単語および文書の処理を行う単語/文書処理部18と、単語/文書処理結果の表示を行う単語/文書処理結果表示部19で構成され、図1の単語関係データベース16に格納されたベクトル表記を用いる。
【0055】
例えば、単語間の距離dを計算するには、2つの単語のベクトル表記をそれぞれf,qとすると、
【0056】
【数9】
Figure 2004005337
【0057】
と表せる。
【0058】
また、特定の観点から2つの単語間の距離を計算したいとき(例えば、「馬」と「豚」を「乗り物」という観点から比較したいとき)、特定の観点がk次元で表わされるとすれば、2つの単語f,qのベクトル表記はk個の要素となり、そのk個の要素からなるベクトルから上記(13)と同様な計算によって特定の観点からの2単語距離とする。
【0059】
次に、文書の処理の例を挙げる。
【0060】
今、処理対象とする文書が確率P(w)の割合で単語wを含んでいるとすると、この文書を説明する説明文中に現れる単語の間接出現確率qは、単語wのベクトル表記をVとして、
【0061】
【数10】
Figure 2004005337
【0062】
となると見なすことができる。ここで、Σは文書中に現れる全ての単語に関しての総和である。
【0063】
文書のベクトル表記も単語のベクトル表記と同様に確率のベクトルとして表されるため、2つの文書間の距離hは、単語間の距離の計算と同様に、
【0064】
【数11】
Figure 2004005337
【0065】
により計算できる。特定の観点から文書間の距離を計算したいときも同様である。
【0066】
上記の計算は、単語/文書処理部18において行われる(ステップ24)。また、これらの結果は単語/文書処理結果表示部19により表示される(ステップ25)。
【0067】
説明文表現妥当性の検証
次に、辞書の説明文の妥当性を検証する。例えば、辞書の理想的な表記方法ができる限り一般的な単語で見出し語を説明することであるとすれば、直接出現確率の行列表記Aを用いて、
【0068】
【数12】
Figure 2004005337
【0069】
と表すことができる。ここで、vは一般的な単語のみが値を持つような確率ベクトル(列ベクトル)である。すなわち、理想的な辞書では、∞次間接説明文の出現単語は全ての見出し語に関して、ほぼ等しくなることが期待できる。
【0070】
したがって、説明表現妥当性検証部17(図1)でAを計算し、各ベクトルを比較することにより、各見出し語の説明の記述が適切か否かがわかる。検証結果は出力装置(ディスプレイ、プリンタ)に出力される。
【0071】
次に、本実施形態を具体例により説明する。
【0072】
3つの単語w1,w2,w3のみからなる国語辞典を仮定する。この辞書から取り出される出現頻度情報が
【0073】
【数13】
Figure 2004005337
【0074】
であるとする。すなわち、例えば、単語w1の説明文中にはw2,w3がそれぞれ1度ずつ現れている。
【0075】
これから、直接出現確率は
【0076】
【数14】
Figure 2004005337
【0077】
と計算される。
【0078】
また、これから、直接/間接出現確率は、a=0.9とした場合、
【0079】
【数15】
Figure 2004005337
【0080】
となる。したがって、それぞれの単語のベクトル表記は
【0081】
【数16】
Figure 2004005337
【0082】
として記録される。
【0083】
二単語間の距離は
【0084】
【数17】
Figure 2004005337
【0085】
と計算でき、比較が可能である。
【0086】
また、間接出現確率の極限は
【0087】
【数18】
Figure 2004005337
【0088】
となり、全ての単語のベクトル表記が等しくなる。この例では、いずれの単語も一般的な単語と見なすことができ、その説明文も妥当であると判断できる。もしも、他の単語と著しく異なるベクトル表記を持つ単語が存在すれば、その単語の説明文は妥当ではないと判断できる。
【0089】
単語の類似性
単語の類似性は、確率ベクトル形式の単語表記、すなわち見出し語wに対して、その直接/間接説明文中の全単語wの出現確率
【0090】
【外2】
Figure 2004005337
【0091】
のベクトル表記(表1に例を示す)を用いて
【0092】
【数19】
Figure 2004005337
【0093】
として表される。ここで、
【0094】
【外3】
Figure 2004005337
【0095】
は説明文中の単語の意味を表し、
【0096】
【数20】
Figure 2004005337
【0097】
である。P(w)は単語wの事前確率(前提条件なしの確率)であり、
1.全ての単語に関して一定であると仮定する
2.心理実験により得られた単語親密度(ある単語に対して、人がどれだけ馴染みがあるかの心理的度合い)などを当てはめる
などの場合が考えられる。類似度P(w|w)はwに対するwの類似度であり、2単語間の類似度は非対称(P(w|w)≠P(w|w))である。条件1を仮定した場合には対称になる。事前確率を全ての単語に関して一定であると仮定した場合の例を表2に示す。
【0098】
【表1】
Figure 2004005337
【0099】
【表2】
Figure 2004005337
【0100】
単語のグループ化および代表語の抽出
上記の類似度を用いて、単語をグループ化する方法について説明する。
【0101】
表2に示されているように、類似度の計算から、類似度が最も高い単語が自分自身である単語(出歯亀、制式、劣性、レスラー、形体、フォーミュラ、無体物、レスリング)と自身より他の単語が類似度が高い単語(唐様、様式、スタイル、形質、形態、変態)が得られる。最大類似度の単語が同一である見出し語をグループ化することにより、同一の概念を持つ単語を一つのカテゴリーとして分類できる。
【0102】
また、このときの最大類似度の単語を、そのカテゴリーの代表語とすることができる。表2の例では、出歯亀、唐様、様式、制式、スタイル、劣性、レスラー、形質、形態、フォーミュラ、変態、無体物、レスリングが代表語となり、カテゴリーを作る。
【0103】
階層的な意味構造の抽出
上記の類似度、代表語を用いて、階層的な意味構造を抽出する方法について説明する。
例1.説明文中に最も多く現れる単語を、見出し語の上位概念であると仮定し、確率ベクトル形式の単語表記から、最大の出現確率
【0104】
【外4】
Figure 2004005337
【0105】
を持つ単語wを抽出する。この結果得られた、wとwの関係から階層構造を決定する。すなわち、
1. 表1に示されるような単語の確率ベクトル表記から、各見出し語の上位概念(確率のもっとも高い単語)を特定する。
2. 上位概念が自分自身である見出し語を最上位概念とし、最上位概念を上位概念として持つ見出し語を最上位概念の次の階層に置く。
3. 以下、上位から順次、各階層に入る単語を決めて行くことにより、全体の階層構造ができあがる。
この例では、類似度、代表語は利用していない。
【0106】
表1と図6を用いてより具体的に説明する。表1のそれぞれの見出し語に対して上位概念(出現確率の最も高い単語)を選び出すと表1の2重線で囲んだ要素が選び出されることとなる。つまり、見出し語と上位概念の組み合わせを(見出し語、上位概念)で記載すると、(出歯亀、変態)、(唐様、様式)、(様式、形態)、(制式、様式)、(スタイル、様式)、(劣性、形質)、(レスラー、レスリング)、(形質、形態)、(形体、形態)、(形態、形態)、(フォーミュラ、形態)、(変態、形態)、(無体物、形体)、(レスリング、スタイル)である。
【0107】
「形態」の上位概念は「形態」であるので、もっとも上位の階層の単語とする。次に「形態」が上位概念となっている見出し語、「様式」、「形質」、「形体」、「フォーミュラ」、「変態」を「形態」の次の階層に配置する。そして、今配置した単語が上位概念となっている見出し語を更に、それぞれの上位概念の配下に配置する。これを繰り返すことにより、表1から図6に示す階層構造を求められる。
【0108】
例2.例1で、単語の確率ベクトル表記を表2に示すような類似度に置き換え、最大類似度の単語を当該単語の上位概念であると仮定すると、異なる階層構造を得ることができる。
【0109】
例3.全ての代表語に関して例1あるいは例2の手法を用いると、代表語の階層構造を得る。この階層構造中の各代表語に、対応する単語グループを割り当てると、単語グループの階層構造を得ることができる。
【0110】
なお、以上示した処理は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0111】
また、本発明は、日本語以外の他の言語にも適用できる。
【0112】
【発明の効果】
以上、説明したように本発明によれば、下記の効果がある。
【0113】
確率の表現形式を用いて、単語ベクトルの計算方法を定式化することにより、単語のベクトル表記の意味を、「見出し語を説明する単語の出現確率の組合わせ」という形で、明確な意味を持たせることが可能になる。
【0114】
さらに、このベクトル表記を各種アプリケーションに適用することにより、より正確な各単語間の距離計算、単語の分類、文書間の距離計算、文書の分類などを行うことが可能となる。
【0115】
また、「見出し語」と「見出し語を説明する単語」により単語のベクトルが表現され、「見出し語」と「見出し語を説明する単語」間の依存関係が明確となるため、元データとして利用した辞書の説明文の妥当性の判別が可能となる。
【0116】
また、確率ベクトルを用いた計算方法において、確率としての情報を有効利用することにより、単語間の類似性を高い精度で計算でき、導出された類似度を用いた単語のグループ化および導出されたグループの代表語(概念)の抽出が可能となり、さらに、単語あるいは概念の階層的表記を生成でき、各種の言語処理に利用できる。
【図面の簡単な説明】
【図1】本発明の一実施形態の単語関係データベース構築装置のブロック図である。
【図2】図1の単語関係データベース構築装置の処理を示すフローチャートである。
【図3】見出し語と説明語の関係、および1次間接説明文の簡単な説明を示す図である。
【図4】本発明の一実施形態の単語/文書処理装置のブロック図である。
【図5】図4の単語/文書処理装置の処理を示すフローチャートである。
【図6】単語のみを用いた階層構造の例を示す図である。
【符号の説明】
10  辞書DB
11  出現頻度集計部
12  直接出現確率計算部
13  間接出現確率計算部
14  直接/間接出現確率計算部
15  ベクトル表記記録部
16  単語関係データベース
17  説明表現妥当性検証部
18  単語/文書処理部
19  単語/文書処理結果表示部
20〜25  ステップ

Claims (15)

  1. 見出し語と、その説明文を集め、見出し語と、説明文中に含まれる単語である説明語が同じ単語の集合である、電子化された辞書DBを読み取り、見出し語毎にその説明語が説明文中に出現する頻度を求める出現頻度集計ステップと、
    全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率を求める直接出現確率計算ステップと、
    ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を1次間接説明文としたときの、前記見出し語の説明語が1次間接説明文中に出現する確率である間接出現確率を求め、1次間接説明文中の各説明語を見出し語とみなした時の説明文を2次間接説明文としたときの、前記見出し語の説明語が2次間接説明文中に出現する確率である間接出現確率を求め、以後同様にしてn次間接説明文まで間接出現確率を求める間接出現確率計算ステップと、
    前記直接出現確率と前記間接出現確率を加算することで説明文中に出現する全説明語の出現確率を求める直接/間接出現確率計算ステップと、
    前記の全説明語の出現確率を見出し語毎に取り出し、ベクトル化し、ベクトル表記をデータベースに格納するベクトル表記記録ステップを有する単語関係データベース構築方法。
  2. 辞書中の全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率を求め、ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を1次間接説明文としたときの、前記見出し語の説明語が1次間接説明文中に出現する確率である間接出現確率を求め、1次間接説明文中の各説明語を見出し語とみなした時の説明文を2次間接説明文としたときの、前記見出し語の説明語が2次間接説明文中に出現する確率を求め、以後同様にしてn次間接説明文まで間接出現確率を求め、こうして求めた直接出現確率と間接出現確率を加算することで求めた全説明語の出現確率が見出し語毎に取り出されて、ベクトル化されているベクトル表記が格納されているデータベースを用いて単語/文書を処理する方法であって、
    単語のベクトル表記を用い、単語間の距離を計算する場合、両単語のベクトルの差を計算し、2つの文書間の距離を計算する場合、各文書を説明する説明文中に現われる単語の間接出現確率を、各単語が含まれる確率と、各単語のベクトル表記を用いて計算し、両間接出現確率の差を計算する単語/文書処理ステップと、
    該単語/文書処理ステップの計算結果を表示する単語/文書処理結果表示ステップを有する、単語関係データベースを用いた単語/文書処理方法。
  3. 辞書中の全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率を求め、ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を1次間接説明文としたときの、前記見出し語の説明語が1次間接説明文中に出現する確率である間接出現確率を求め、1次間接説明文中の各説明語を見出し語とみなした時の説明文を2次間接説明文としたときの、前記見出し語の説明語が2次間接説明文中に出現する確率を求め、以後同様にしてn次間接説明文まで間接出現確率を求め、こうして求めた直接出現確率と間接出現確率を加算することで求めた全説明語の出現確率が見出し語毎に取り出されて、ベクトル化されているベクトル表記の各ベクトルを比較することにより、各見出し語の説明文の妥当性を検証する説明表現妥当性検証方法。
  4. 見出し語と、その説明文を集め、見出し語と、説明文中に含まれる単語である説明語が同じ単語の集合である、電子化された辞書DBを読み取り、見出し語毎にその説明語が説明文中に出現する頻度を求める出現頻度集計手段と、
    全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率を求める直接出現確率計算手段と、
    ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を1次間接説明文としたときの、前記見出し語の説明語が1次間接説明文中に出現する確率である間接出現確率を求め、1次間接説明文中の各説明語を見出し語とみなした時の説明文を2次間接説明文としたときの、前記見出し語の説明語が2次間接説明文中に出現する確率である間接出現確率を求め、以後同様にしてn次間接説明文まで間接出現確率を求める間接出現確率計算手段と、
    前記直接出現確率と前記間接出現確率を加算することで説明文中に出現する全説明語の出現確率を求める直接/間接出現確率計算手段と、
    前記の全説明語の出現確率を見出し語毎に取り出し、ベクトル化し、ベクトル表記をデータベースに格納するベクトル表記記録手段を有する単語関係データベース構築装置。
  5. 辞書中の全ての見出し語について、その各説明語が説明文中に現われる確率を、その出現頻度から計算し、これら確率を、見出し語、説明語をそれぞれ行、列または列、行とする行列の表現に変換した直接出現確率と、ある見出し語の説明文中の各説明語を見出し語とみなした時の説明文を1次間接説明文としたときの、前記見出し語の説明語が1次間接説明文中に出現する確率である間接出現確率である間接出現確率を求め、1次間接説明文中の各説明語を見出し語とみなした時の説明文を2次間接説明文としたときの、前記見出し語の説明語が2次間接説明文中に出現する確率を求め、以後同様にしてn次間接説明文まで間接出現確率を求め、こうして求めた直接出現確率と間接出現確率を加算することで求めた、説明文中に出現する全説明語の出現確率が見出し語毎に取り出されて、ベクトル化されたベクトル表記が格納されているデータベースを用いて単語/文書を処理する装置であって、
    単語のベクトル表記を用い、単語間の距離を計算する場合、両単語のベクトルの差を計算し、2つの文書間の距離を計算する場合、各文書を説明する説明文中に現われる単語の間接出現確率を、各単語が含まれる確率と、各単語のベクトル表記を用いて計算し、両間接出現確率の差を計算する単語/文書処理手段と、
    該単語/文書処理手段の計算結果を表示する単語/文書処理結果表示手段を有する、単語関係データベースを用いた単語/文書処理装置。
  6. 請求項1に記載の単語関係データベース構築方法をコンピュータに実行させるための単語関係データベース構築プログラム。
  7. 請求項2に記載の単語/文書処理方法をコンピュータに実行させるための単語/文書処理プログラム。
  8. 請求項1に記載の単語関係データベース構築方法をコンピュータに実行させるための単語関係データベース構築プログラムを記録した記録媒体。
  9. 請求項2に記載の単語/文書処理方法をコンピュータに実行させるための単語/文書処理プログラムを記録した記録媒体。
  10. 請求項1記載の単語関係データベース構築方法で求められた確率ベクトル形式の単語表記、すなわち見出し語wに対して、その直接/間接説明文中の全単語wの出現確率
    【外1】
    Figure 2004005337
    のベクトル表記を用いて単語間の類似度を計算する、単語の類似度計算方法。
  11. 請求項10記載の単語の類似度計算方法で求められた単語間の類似度を用い、単語をその意味によりグループ化する、単語のグループ化方法。
  12. 請求項11記載の単語のグループ化方法で分類された各グループの中で最大類似度の単語を、当該グループの代表語とする、代表語の抽出方法。
  13. 説明文中に最も多く現われる単語を見出し語の上位概念であると仮定し、請求項1に記載の単語関係データベース構築方法で求められた確率ベクトル形式の単語表記から最大の出現確率を持つ単語を抽出し、この結果得られた該単語とその他の単語の関係から階層構造を決定する、単語概念の階層化方法。
  14. 請求項10に記載の方法により求められた単語の類似度の中で、最大類似度の単語を当該単語の上位概念であると仮定し、当該単語とその他の単語の関係から階層構造を決定する、単語概念の階層化方法。
  15. 請求項12に記載の方法により求められた全ての代表語を、請求項13または14に示された方法により階層構造を決定し、請求項11に記載の方法により求められた単語のグループを対応する各代表語に当てはめることにより構造を決定する、単語グループ概念の階層化方法。
JP2002211621A 2002-03-28 2002-07-19 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法 Pending JP2004005337A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002211621A JP2004005337A (ja) 2002-03-28 2002-07-19 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002092914 2002-03-28
JP2002211621A JP2004005337A (ja) 2002-03-28 2002-07-19 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法

Publications (1)

Publication Number Publication Date
JP2004005337A true JP2004005337A (ja) 2004-01-08

Family

ID=30446285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002211621A Pending JP2004005337A (ja) 2002-03-28 2002-07-19 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法

Country Status (1)

Country Link
JP (1) JP2004005337A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006106740A1 (ja) * 2005-03-31 2006-10-12 Sony Corporation 情報処理装置および方法、並びにプログラム記録媒体
JP2008233963A (ja) * 2007-03-16 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP2009265736A (ja) * 2008-04-22 2009-11-12 Sharp Corp 電子機器、その制御方法およびコンピュータプログラム
KR100992364B1 (ko) 2008-12-22 2010-11-04 포항공과대학교 산학협력단 비음수 행렬의 직교 분해를 이용한 문서 집단화 방법, 이를수행하기 위한 컴퓨팅 장치 및 이를 수행하기 위한 프로그램 기록매체
CN108572954A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种近似词条结构推荐方法和系统
US20210118431A1 (en) * 2018-01-18 2021-04-22 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006106740A1 (ja) * 2005-03-31 2006-10-12 Sony Corporation 情報処理装置および方法、並びにプログラム記録媒体
JP2008233963A (ja) * 2007-03-16 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP2009265736A (ja) * 2008-04-22 2009-11-12 Sharp Corp 電子機器、その制御方法およびコンピュータプログラム
KR100992364B1 (ko) 2008-12-22 2010-11-04 포항공과대학교 산학협력단 비음수 행렬의 직교 분해를 이용한 문서 집단화 방법, 이를수행하기 위한 컴퓨팅 장치 및 이를 수행하기 위한 프로그램 기록매체
CN108572954A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种近似词条结构推荐方法和系统
CN108572954B (zh) * 2017-03-07 2023-04-28 上海颐为网络科技有限公司 一种近似词条结构推荐方法和系统
US20210118431A1 (en) * 2018-01-18 2021-04-22 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning

Similar Documents

Publication Publication Date Title
US7236923B1 (en) Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
US20170278510A1 (en) Electronic device, method and training method for natural language processing
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
Hetzner A simple method for citation metadata extraction using hidden markov models
US20110137919A1 (en) Apparatus and method for knowledge graph stabilization
CA2853627C (en) Automatic creation of clinical study reports
EP1542138A1 (en) Learning and using generalized string patterns for information extraction
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
CN112925901B (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
US20220358361A1 (en) Generation apparatus, learning apparatus, generation method and program
Yang et al. Journalistic guidelines aware news image captioning
EP4060548A1 (en) Method and device for presenting prompt information and storage medium
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
Ferreira et al. A new sentence similarity assessment measure based on a three-layer sentence representation
CN111241397A (zh) 一种内容推荐方法、装置和计算设备
US20220138267A1 (en) Generation apparatus, learning apparatus, generation method and program
CN113704415B (zh) 医学文本的向量表示生成方法和装置
Üstün et al. Unsupervised morphological segmentation using neural word embeddings
US11829722B2 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
JP2004005337A (ja) 単語関係データベース構築方法および装置、単語関係データベースを用いた単語/文書処理方法および装置、説明表現妥当性検証方法、それらプログラム、それらプログラムを記録した記録媒体、単語の類似度計算方法、単語のグループ化方法、代表語の抽出方法、および単語概念の階層化方法
Lopresti et al. Issues in ground-truthing graphic documents
Yuan et al. Personalized sentence generation using generative adversarial networks with author-specific word usage
Wu Automating Knowledge Distillation and Representation from Richly Formatted Data