JP3875143B2 - 単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体 - Google Patents

単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3875143B2
JP3875143B2 JP2002150721A JP2002150721A JP3875143B2 JP 3875143 B2 JP3875143 B2 JP 3875143B2 JP 2002150721 A JP2002150721 A JP 2002150721A JP 2002150721 A JP2002150721 A JP 2002150721A JP 3875143 B2 JP3875143 B2 JP 3875143B2
Authority
JP
Japan
Prior art keywords
language
word
words
coordinates
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002150721A
Other languages
English (en)
Other versions
JP2003345828A (ja
Inventor
要 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002150721A priority Critical patent/JP3875143B2/ja
Publication of JP2003345828A publication Critical patent/JP2003345828A/ja
Application granted granted Critical
Publication of JP3875143B2 publication Critical patent/JP3875143B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体に関し、特に、人間が単語間の近さを判定する類似性判別の工学的なシミュレーションを実施する単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
従来例を図を参照して説明する。
人間は、単語が表す意味を考慮して、指定された単語に対して複数の単語の中から類似した単語を選択したり、指定された単語に対して類似した単語を回答すること(以降、「類似性判別」と呼ぶ)ができる。数万以上の多数の単語を対象として、人間が行うこの様な類似性判別をコンピュータを使用して再現する技術は、テキストに関する情報処理の基盤となる重要な技術の1つである。類似性判別技術およびそれに基づく単語のデータベースは、コンピュータ、ネットワーク中に蓄積された膨大な規模のテキストデータを処理したり、人間の知的活動の一部を肩代りするために幅広く使用されている。例えば、情報検索、機械翻訳、オントロジー構築、ナレッジマネージメント技術で具体的に応用されている。
【0003】
類似性判別の再現を実現する技術の1つとして、単語を多次元空間中に配置して、2つの単語の類似性の度合(以降、「類似度」と呼ぶ)を空間中の単語同志の近さの度合に基づいて計算する方法(以降、「ベクトルモデル」と呼ぶ)がある[Deerwester90,Schutze92,笠原 97]。単語間の類似度としては、一般的に、空間中の単語の位置ベクトルのなす角度の余弦を類似度とする方法が採用されている。また、多次元空間の次元数は数百から数千に渡っている。この様な多次元空間中に多数の単語を人手で配置することは技術的に困難であるので、既存のテキストデータを使用して配置する技術が検討されている。例えば、[笠原 97]においては、国語辞典の見出し語の空間配置を説明文中の単語の出現頻度に基づいて決定している。また、[Deerwester 90 ]においては、単語が出現する検索文書の傾向に基づいて決定し、[Schutze 92 ]においては、文書中での2つの単語が同時に現れる傾向に基づいて決定している。これらは文書集合を対象として質問に適合する文書を探して出力する情報検索[Deerwester 90,Schutze 95,熊本 99]、文書を内容に基づいて分割するテキストセグメンテーション[別所 01 ]に適用されている。
【0004】
ベクトルモデルを使用して日本語と英語の様な複数の言語について、含まれる単語群を多次元空間中に配置して、空間中の任意の単語の類似度を計算することができれば、翻訳にかかわる様々な技術への利用が可能である。例えば、コンピュータを使用して或る言語の文を別の言語の文に変換する技術である機械翻訳においては、双方の言語で同じ意味を表す単語の対応関係より成る対訳辞書を技術の基盤としている。上記2言語の単語に関する多次元空間を使用して、1方の言語の単語に対して類似している他方の言語の単語を検索することができれは、上記対訳辞書を自動生成することが可能である。また、複数の言語で記述された文書群から情報を検索する多言語情報検索においては、様々な言語で記述された個々の文書、質問について、構成する単語の重心として多次元空間に配置することによって検索することが可能である。
【0005】
【発明が解決しようとする課題】
上述した2つの言語それぞれを構成する単語の任意の組み合わせについて類似性判別を再現するに、ベクトルモデルを使用する場合は、2つの言語の単語が1つの多次元空間中に適正に配置されていることが要求される。
[Schutze 92]の方法論を使用して2つの言語の単語を1つの多次元空間に配置する方法としては、文献[Masuichi 00 ]があげられる。これは、一方の言語のテキストコーパスに対してもう一方の言語の対訳より成る2言語対訳コーパスを利用し、2言語の全単語間の共起関係の傾向に基づいて多次元空間中に配置する方法である。しかし、この技術で使用する2言語対訳コーパスは任意の2言語でもれなく充分に用意されていないので、技術の適用範囲は狭まることになる。
【0006】
一方、辞典は、英和辞典、独和辞典、西和辞典の様に多種の2言語辞典が存在するので、これらを使用してベクトルモデルを適用することができれば、数多くの2言語の単語の多次元空間を作成することができ、2言語の類似性判別を可能とする。しかし、辞典を使用したベクトルモデルに関する技術を2言語の類似性判別の再現に使用するには、2つの言語の単語が見出し語として現われる辞典が必要である。実際は、その様な辞典は殆ど存在しないので、直接適用することはできない。また、容易に推測可能な適用方法としては、複数の辞典を組み合わせて上記の様な辞典を作成してモデルを適用する方法があろう。例えば、日本語と英語を対象とした場合、国語辞典と英和辞典とを用意して1つの辞典としてまとめる。このことによって、日本語の単語と英語の単語について、何れも日本語による説明文が付与された辞典とみなすことができるので、この辞典にベクトルモデルを適用することで、日本語と英語の単語を一緒に1つの多次元空間中に配置することができる。
【0007】
しかし、一方の言語の単語を他方の言語の単語で説明する2言語辞典の説明文の傾向は、1つの言語の単語を同じ言語の単語で説明する国語辞典の説明文と傾向が異なるところから、上記の様な単純な適用は困難である。例えば、英和辞典は、見出し語'COW' に対して、「乳牛、牝牛」の様に対応する訳語のみが簡潔に記載されている。一方、国語辞典は、見出し語'乳牛'に対して、「主として牛乳を取るために家畜として飼育される牛の名称。・・・・」の様に定義的な長文の説明文が対応しており、両者の辞典の説明文の長さは大きく異なっている。従って、説明文中の単語同志の出現傾向を比較することを基本とするベクトルモデルは、英和辞典に起因する'COW' と国語辞典に起因する'乳牛'の様な、意味を人間が考慮した場合類似していると考えられる異なる言語での単語同志は、単純に2つの辞書を足し合わせて作成した多次元空間中においては、互いに近接して配置はされない点が問題である。辞典とは、作成する目的によって記述方法、記述の長さが異なっているために、個々の辞典から作成される多次元空間同志を直接比較することは困難である。
【0008】
以上を要約するに、従来は1種類の言語に関するテキストデータを使用してそれに含まれる単語間の類似度を計算していたベクトルモデルを使用して、2つの言語内の任意の単語間の類似性判別を行うことを考える場合、種類、形式、或いは規模の異なる2つのテキストデータを単純に1つのテキストデータとしてまとめてベクトルモデルを適用することはできないので、如何にして2種類のテキストデータを併用するかが問題となる。
この発明は、上述の問題を解消した単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体を提供するものである。
【0009】
【課題を解決するための手段】
この発明は、2つの自然言語(言語A、言語Bと呼ぶ)中の任意の単語2つが入力として外部より与えられた時に、2単語間の似ている度合を表す尺度である類似度を計算する単語類似度計算装置であり、言語Aで使用される単語を多次元空間中に配置し、また、言語Bで使用される単語多次元空間に配置する知識源とするために、言語Aで使用される単語複数それぞれについて、多次元空間中での位置を表す座標が付与されているデータベース(概念ベース)を備える。
そして、言語Bで使用される単語を言語Aで用いられている単語と関連づけるために、言語Bで使用される単語(見出し語と呼ぶ)を言語Aで使用される単語(説明語と呼ぶ)で説明するデータベース(2言語辞典と呼ぶ)を備える。
【0010】
また、言語Bで使用される単語を言語Aの単語に関する多次元空間中に配置する操作を行うために、2言語辞典中の個々の見出し語に対応する説明語個々に対して、概念ベース中の説明語の座標を取得して、その結果に基づいて言語Bの見出し語の座標を決定する部(他言語概念ベース作成部)を備える。
更に、言語Bで使用される単語の多次元空間中の座標を参照するために、該他言語概念ベース作成部によって作成された言語Bの多次元空間での座標を表すデータベース(他言語概念ベース)を備える。
そして、A、B2つの言語の単語の多次元空間中の座標を一括して参照するための操作を行うために、該概念ベースと該他言語概念ベースより、言語Aと言語Bの単語個々について、多次元空間中の座標を対応づけるデータベース(2言語概念ベース)を作成する部を備える。
【0011】
また、A、B2つの言語の単語の多次元空間中の座標を一括して参照するために、2言語概念ベースを備え、言語A、Bで使用される単語のいかなる組み合わせに対しても単語の類似度を計算するために、外部より入力されて言語A、或いは言語Bの単語1つのないし複数の単語で構成された単語の集合2つ(単語1および単語2)に対して、単語1と単語2の多次元空間中での座標を計算し、これらの似ている度合である類似度を計算し、外部に出力する類似度計算部を備えている。
【0012】
【発明の実施の形態】
この発明の実施の形態を図1の実施例を参照して説明する。
この発明による単語類似度計算装置は2つの任意の自然言語である一方の言語Aと他方の言語Bを構成する任意の2つの単語を入力として、2つの単語の類似の度合を表す数値である類似度を出力する。従来の単語類似度計算装置1は個別の言語A或いは言語Bを内の単語同志の類似性判別のみを行うことができるに過ぎないが、この発明による単語類似度計算装置は、類似度を計算する対象である2つの単語は一方の言語Aの2単語、他方の言語Bの2単語とするのみならず、一方の言語Aと他方の言語Bに亘って言語Aの単語と言語Bの単語の2単語を組み合せて類似度を計算する対象とすることができる。そして、この単語類似度計算装置は電子計算機を主要な構成要素として構成されている。
【0013】
この単語類似度計算装置1は、一方の言語Aで使用される単語複数それぞれについて、多次元空間中における位置を表す座標が付与されているデータベース(概念ベース)11と、
他方の言語Bで使用される単語(見出し語)を言語Aで使用される単語(説明語)で説明するデータベース(2言語辞典)12と、
2言語辞典12中の個々の見出し語に対応する説明語個々に対して、概念ベース11中の説明語の座標を取得して、その結果に基づいて言語Bの見出し語の座標を決定する他言語概念ベース作成部13と、
他言語概念ベース作成部13によって作成された言語Bの多次元空間における座標を表すデータベースである他言語概念ベース14と、
概念ベース11と他言語概念ベース14より、言語Aと言語Bの単語個々について、多次元空間中の座標を対応づけるデータベースである2言語概念ベースを作成する部である2言語概念ベース作成部15と、
概念ベース11と他言語概念ベース14より、言語Aと言語Bの単語個々について、多次元空間中の座標を対応づけるデータベースである2言語概念ベース16と、
外部の単語入力源21より入力された言語Aと言語B中の2単語に対して、単語1、単語2の多次元空間中における座標を取得して、類似する度合である類似度を計算し、外部に出力する類似度計算部17とを具備している。
【0014】
以下、単語類似度計算装置1およびその動作について説明する。
先ず、概念ベースについて説明する。概念ベースとは単語を属性の重みを表す実数を要素とするベクトル(「属性ベクトル」)で表現した知識ベースである。概念ベース中の単語Wi (i=1、・・・・、n)の属性ベクトルWordi は以下の通りとなる。
Wordi=(vi1、vi2、・・・・、vin)・・・・・・・・・・(1)
属性として、概念ベース中の単語すべて(n語)を用いており、概念ベース全体は、属性の重みを要素とするn行n列の行列(G1)となる。また、n 語の属性をm個のカテゴリーに分離するシソーラス(類語辞典)を用い、同じ分類に含まれる属性をカテゴリーに一般化する。
【0015】
Word'i=(v'i1、・・・・、v'ik、・・・・、v'im
v'ik=ΣvilT(l、k) 但し、l=1〜n・・・・・・(2)
T(l、k)はシソーラスを表す関数であり、l番目の属性がk番目のカテゴリーに含まれるときは1、それ以外は1を取る。(l、k)の要素の値をT(l、k)としたn行m列の行列をTとすれば、シソーラスで属性を一般化した概念ベース全体は、n行M列の行列(G2=G1T)となる。
属性の重みは国語辞典の見出し語に対する説明文中の単語の出現頻度に基づいて獲得する。獲得方式の詳細は文献[笠原 97]を参照されたい。なお、獲得された属性ベクトルそれぞれについて、個々の重みは正規化しておく(Σv'2 ik=1但し、k=1〜n)。これを用いて概念ベースに含まれるWi、Wj(1≦i、j≦n)の類似度sim(0≦sim≦1)を対応する属性ベクトルWord'iのなす角度の余弦で表す。
sim(Wi、Wj)=Word'i・Word'j=Σv' ik' jk
但し、k=1〜m・・・・・・(3)
現在は、学研 国語大辞典[金田一 88]と30万語を3000カテゴリーに分類したシソーラス[池原 97]を用い、約9万語の概念ベースが自動構築されている[永森 00]。実施例における概念ベース11は、この一般的な概念ベースにおけるカテゴリーが2の場合に対応する。
【0016】
概念ベース11は、言語Aに含まれる複数の単語それぞれについて、多次元空間中の座標が予め付与されたもののデータベースである。多次元空間とは次元数が1、2、3、或いはそれ以上の任意の次元数を持つ空間であり、個々の単語の多次元空間中の座標は関連する単語同志は互いに近接して設定されている。座標は、多次元空間中の次元数と同じ数の要素より成り、2次元であれば要素数は2である。概念ベース11に含まれる単語の数は、2単語以上ならば何単語であっても差し支えない。この実施例において使用する概念ベース11中の単語に付与される座標は人間が決定したものでも差し支えないし、文献[笠原 97]に記載される様な国語辞書より自動的に決定した座標であっても差し支えないし、文献[Schutze 92]の様な新聞記事その他のテキストコーパスを使用して自動的に決定したものであっても差し支えない。この概念ベース11は、言語Aの単語を受け取り、他言語概念ベース作成部13および2言語概念ベース作成部15に対して対応する座標を出力する。入力された単語が存在しないときは、原点の座標を出力する。
【0017】
2言語辞典12は、言語Bで使用されている単語である見出し語に対して、言語Aで説明するために使用される単語(説明語)が列挙されたデータベースである。説明語としては、見出し語の訳語1語ないし複数語であっても差し支えないし、言語Aを日本語、言語Bを英語としたときの英和辞典中の英語の見出し語を日本語で説明した説明文を元として形態素解析を行い、名詞、動詞、形容詞の様な類似性判別に関わる単語を抽出した結果であっても差し支えない。
他言語概念ベース作成部13は、先ず、2言語辞典12から言語Bの見出し語毎に、それに対する言語Aの説明語を読み取る。次に、概念ベース11を参照して言語Aの説明語各々の座標を読み込む。座標の記述されていない説明語の場合は、これ以降の見出し語の座標を決定する処理の対象外とする。全ての説明語について概念ベース11中に対応する座標が記述されていない場合、或いは、全ての説明語の座標が原点の座標の場合は、単語リストの座標を原点の座標とする。
【0018】
原点以外に位置する1つ以上の単語の座標が得られた場合、その座標を平均して見出し語の座標とする。平均の座標を計算する方法として、個々の次元毎に座標の要素を加算平均して得られた座標を平均の座標とする方法、個々の単語の座標の要素に対して先ず要素の2乗和で除し、その結果を個々の次元毎に座標の要素を加算平均して得られた座標を平均の座標とする方法、その他の平均の座標が個々の単語の座標と等しく近くなる方法であれば何れであっても差し支えない。但し、複数の単語中に同じ座標を持つ単語が複数存在する場合は、それらの単語の座標は他の単語の座標よりも単語リストの座標に近くなる。上述の方法により取得された見出し語の座標を見出し語と対応づけて他言語概念ベース14に収録する。
【0019】
他言語概念ベース14は、他言語概念ベース部13より与えられた、言語Bの複数の見出し語と各々に対応する座標より成るデータベースであり、2言語概念ベース作成部15に対して言語Bの見出し語に対応する座標を与える。
2言語概念ベース作成部15は、概念ベース11を参照して含まれる言語Aの単語全てに対する座標を取得する。また、他言語概念ベース14を参照して含まれる言語Bの単語全てに対する座標を取得する。これら全てを2言語概念ベース16に出力する。
2言語概念ベース16は、2言語概念ベース作成部15より出力された言語Aと言語Bの単語と対応する座標を受け取り収納する。類似度計算部17より言語A、或いは言語Bの単語を指定された時、対応する座標を検索して出力することができるならば、如何なる形式の収納であっても差し支えない。但し、含まれない単語を指定された時は、原点の座標を出力する。
【0020】
類似度計算部17は、単語類似度計算装置1の外部の単語入力源21より入力される言語A、言語Bの2つの単語、単語1および単語2を受け取る。次に、2つの単語のそれぞれに対して2言語概念ベース16を参照して2つの座標を取得する。そして、2つの座標に基づいて類似度を計算してこれを当該単語類似度計算装置1の外部に出力する。類似度の計算方法としては、2つの座標の同じ次元毎の要素の値の差の絶対値を加算した値の逆数(但し、同じ座標の場合は無限大とする)、2つの座標の同じ次元毎の要素の値の差の2乗和の逆数(但し、同じ座標の場合は無限大とする)、2つの座標の位置ベクトルのなす角度の余弦とする他の、座標同志が近接する程類似度の値が大きくなる計算方法であるならば、如何なる計算方法であっても差し支えない。
【0021】
上述した単語類似度計算装置1およびその動作を具体例について更に具体的に説明する。言語Aは日本語、言語Bは英語とする。
概念ベース11としては、図2に記載されるものを使用する。これは2次元平面に単語を配置したものである。また、2言語辞典12としては、英語の見出し語に対して訳語を列挙した図3に記載されるものを使用する。ここで、外部より英語、日本語の単語2語が与えられる先だって、概念ベース11と2言語辞典12を使用して2言語概念ベース16を予め作成しておく。
先ず、他言語概念ベース作成部13は、2言語辞典12を参照して、見出し語'cow'、'bull、'bird' のそれぞれに対応する説明語のリスト'牝牛'、'乳牛'、'雄牛'、および'鳥'を取得する。次に、個々の見出し語に対応する説明語のリストに対して、概念ベース11を参照して各説明語の座標を取得する。例えば'cow' の場合は、説明語 '牝牛'の座標[0.6,0.7]と、'乳牛'の座標[0.55,0.6]を取得する。そして、見出し語に対して獲得された座標複数[0.6,0.7]、[0.55,0.6]より他言語概念ベース作成部13は、見出し語の座標を決定する。ここで、各座標の次元毎に値を平均したものを見出し語の座標とする。従って、[(0.6+0.55)/2、(0.7+0.6)/2]=[0.575,0.650 ]が見出し語 'cow' の座標となる。同様にして、'bull'の座標は、概念ベース11の座標そのままの[0.90,0.60]、'bird'の座標も概念ベース11の座標そのままの [0.10,0.80]と決定される。決定した各々の座標と見出し語を他言語概念ベース14に送る。
【0022】
他言語概念ベース14は、他言語概念ベース作成部13より送られた言語Bの単語の見出し語と座標を図4の様に収納する。
2言語概念ベース作成部15は、概念ベース11を参照して含まれる言語Aの単語全てに対する座標を取得すると共に、他言語概念ベース14を参照して含まれる言語Bの単語全てに対する座標を取得する。これら全てを2言語概念ベース16に出力する。
2言語概念ベース16は、他言語概念ベース14、概念ベース11より全ての単語と対応する座標を取得し、2言語概念ベース16に収納する。この様な2言語概念ベース16を図5に示す。
【0023】
ここで、以上の単語類似度計算装置1に外部より単語 'COW'、'牝牛'が与えられた場合について説明する。単語類似度計算装置1は、類似度計算部17を介してこの2単語を外部より受け取り、2言語概念ベース16を参照してそれぞれの単語の座標[0.575,0.65]と[0.55,0.6]を取得する。次に、この2つの座標に基づいて類似度を計算する。ここにおいては、2つの座標の位置ベクトルの余弦を類似度とする。従って、以下の様に求められる。
Figure 0003875143
この様に日本語の単語'牝牛'と英語の単語'COW'の類似度を計算することができる。
【0024】
同様にして、'cow'に対して、2言語概念ベース16中の単語'牛'、'乳牛'、'雄牛'、'烏'、'bull'、'bird' の類似度を計算すると、'牛'=0.99813、'乳牛'=0.99984、'雄牛'=0.96676、'烏'=0.82539、'bull'=0.96676、'bird'=0.82539となり、2言語概念ベース16中で'cow'に類似する日本語の単語を大きさの順に並べると、'牝牛'、'乳牛'、'牛'、'雄牛'、'鳥'と求めることができる。従って、この単語類似度計算装置1を他言語類似語検索に利用すれば、英語 'COW'に対する日本語の類似語を'牝牛'と決定することができる。
図3の2言語辞典を辞典と見なして文献[笠原 97]に記載される方法で概念ベースを作成すること自体は可能である。しかし、英和辞典から単純に作成された英語の概念ベースは、数語程度の説明語から作成された属性ベクトルより成る。一方、国語辞典から作成された概念ベースは、1つの単語について数十から数百の単語を説明語として保有している国語辞典から作成される。従って、数語程度の説明語から決定される座標と多数の説明語から決定される座標の性質が異なるところから、類似度計算の比較は困難である。
【0025】
これに対して、この発明の単語類似度計算装置1の実施例は、2言語辞典だけを概念ベース作成にするのではなく概念ベースを参照して2言語辞典から英語の概念ベースを作成しているので、2言語辞典の説明語の多数に関わらない英語の座標を決定することができる。
【0026】
【発明の効果】
以上の通りであって、この発明は、2つの自然言語、言語Aおよび言語Bの中の任意の単語2つが入力として外部より与えられた時に、2単語間の類似の度合を表す尺度である類似度を計算する単語類似度計算装置であり、従来の単語類似度計算装置の如く個別の言語内の単語同志の類似性判別を行うだけではなく、2つの言語AおよびBに亘って単語の任意の組み合わせで単語の類似度を計算することができる単語類似度計算装置である。
言語Aで使用される複数の単語それぞれについて、多次元空間中における位置を表す座標が付与されているデータベースである概念ベースを使用することにより、単語同志の類似の度合を数値で表現することができる。
【0027】
言語Bで使用される単語である見出し語を言語Aで使用される単語である説明語で説明するデータベースである2言語辞典と、2言語辞典中の個々の見出し語に対応する説明語個々に対して、概念ベース中の説明語の座標を取得して、その結果に基づいて言語Bの見出し語の座標を決定する部である他言語概念ベース作成部を保有し、他言語概念ベース作成部によって作成された言語Bの多次元空間での座標を表すデータベースである他言語概念ベースを装置内部で作成するために、少ない説明語で記載されており、概念ベースを作成するには困難な2言語辞典からでも言語Aの単語と類似度を計算する言語Bの単語の座標を与えることができる。
【0028】
そして、概念ベースと他言語概念ベースより、言語Aと言語Bの単語個々について、多次元空間中の座標を対応づけるデータベースである2言語概念ベースを作成する部である2言語概念ベース作成部と、概念ベースと他言語概念ベースより、言語Aと言語Bの単語個々について、多次元空間中の座標を対応づけるデータベースである2言語概念ベースを保有するので、2言語の任意の単語の座標を画一的に取得することができる。
また、外部より入力された言語Aと言語B中の2単語に対して、単語1、単語2の多次元空間中での座標を取得して、似ている度合である類似度を計算し、外部に出力する類似度計算部を備えるので、2言語の任意の単語の類似度を計算することができ、情報検索等、2言語のテキストに関する情報処理への利用が容易となる。
【0029】
Figure 0003875143

【図面の簡単な説明】
【図1】実施例を説明する図。
【図2】概念ベースを示す図。
【図3】2言語辞典を示す図。
【図4】他言語概念ベースを示す図。
【図5】2言語概念ベースを示す図。
【符号の説明】
11 概念ベース 12 2言語辞典
13 他言語概念ベース作成部 14 他言語概念ベース
15 2言語概念ベース作成部 16 2言語概念ベース
17 類似度計算部

Claims (4)

  1. 2つの自然言語(以下、言語A、言語Bと呼ぶ)の一方の言語Aの1単語と他方の言語Bの1単語とを組み合わせた2単語が入力として外部より与えられた時に2単語間の類似度を計算する単語類似度計算装置において、
    で使用される単語複数それぞれについて、多次元空間中での位置を表す座標が付与されているデータベースである概念ベースと、
    で使用される単語より成る見出し語を言で説明する単語より成る説明語のデータベースである2言語辞典と、
    2言語辞典中の個々の見出し語に対応する説明語個々に対して、概念ベース中の説明語の座標を取得して、これら取得した座標に基づいて言の見出し語の座標を決定する他言語概念ベース作成部と、
    他言語概念ベース作成部によって作成された言の多次元空間の座標を表すデータベースである他言語概念ベースと、
    概念ベースと他言語概念ベースより、言Aと言の単語個々について、多次元空間中の座標を対応づけるデータベースである2言語概念ベースを作成する2言語概念ベース作成部と、
    概念ベースと他言語概念ベースより、言Aと言の単語個々について多次元空間中の座標を対応づけるデータベースである2言語概念ベースと、
    外部より入力された前記2単語に対して、2言語概念ベースを参照して各単語の多次元空間中の座標を取得し、該2単語間の類似度を計算し外部に出力する類似度計算部とを具備し、個別の言語内の2単語の類似度判別と統一的に類似性判別が可能であることを特徴とする単語類似度計算装置。
  2. 2つの自然言語(以下、言語A、言語Bと呼ぶ)の一方の言語Aの1単語と他方の言語Bの1単語とを組み合わせた2単語単語類似度計算装置に入力として外部より与えられた時に2単語間の類似度を計算する単語類似度計算方法であって
    他言語概念ベース作成部言語Bで使用される単語より成る見出し語を言語Aで説明する単語より成る説明語のデータベースである2言語辞典を参照して、見出し語のそれぞれに対応する説明語のリストを取得し、各説明語のリストに対して、言語Aで使用される単語複数それぞれについて多次元空間中での位置を表す座標が付与されているデータベースである概念ベースを参照して各説明語の座標を取得し、更に、各説明語に対して獲得された1或いは複数の座標より見出し語の座標を決定し、その見出し語と決定した座標を他言語概念ベースに出力する過程と、
    他言語概念ベースが、他言語概念ベース作成部より送られた言語Bの単語の見出し語と座標を受け取り、該他言語概念ベースに収納する過程と
    2言語概念ベース作成部前記概念ベースを参照して含まれる言の単語全てに対する座標を取得すると共に前記他言語概念ベースを参照して含まれる言の見出し語全てに対する座標を取得し、取得した言語Aの単語とそれに対する座標、及び言語Bの見出し語とそれに対する座標を2言語概念ベースに出力する過程と
    2言語概念ベースが、2言語概念ベース作成部より送られた言語Aの単語とそれに対する座標、及び言語Bの見出し語とそれに対する座標を受け取り、該2言語概念ベースに収納する過程と、
    似度計算部が、前記2単語を外部より受け取り、前記2言語概念ベースを参照して前記2単語それぞれの座標を取得し、これら2つの座標に基づいて該2単語間の類似度を計算し、外部に出力する過程と
    からなり、個別の言語内の2単語の類似度判別と統一的に類似性判別が可能であることを特徴とした単語類似度計算方法。
  3. 請求項1に記載した装置としてコンピュータを機能させるためのプログラム。
  4. 請求項3に記載したプログラムを記録した、コンピュータが読み取り可能な記録媒体。
JP2002150721A 2002-05-24 2002-05-24 単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体 Expired - Fee Related JP3875143B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002150721A JP3875143B2 (ja) 2002-05-24 2002-05-24 単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002150721A JP3875143B2 (ja) 2002-05-24 2002-05-24 単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2003345828A JP2003345828A (ja) 2003-12-05
JP3875143B2 true JP3875143B2 (ja) 2007-01-31

Family

ID=29768503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002150721A Expired - Fee Related JP3875143B2 (ja) 2002-05-24 2002-05-24 単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3875143B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5116580B2 (ja) * 2008-06-25 2013-01-09 日本電信電話株式会社 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
CN104699668B (zh) * 2015-03-26 2017-09-26 小米科技有限责任公司 确定词语相似度的方法及装置
KR102396250B1 (ko) * 2015-07-31 2022-05-09 삼성전자주식회사 대역 어휘 결정 장치 및 방법

Also Published As

Publication number Publication date
JP2003345828A (ja) 2003-12-05

Similar Documents

Publication Publication Date Title
JP5356197B2 (ja) 単語意味関係抽出装置
CN109933785A (zh) 用于实体关联的方法、装置、设备和介质
US11645475B2 (en) Translation processing method and storage medium
CN111401045B (zh) 一种文本生成方法、装置、存储介质和电子设备
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
CN110909539A (zh) 语料库的词语生成方法、系统、计算机设备和存储介质
Bhat et al. Sumitup: A hybrid single-document text summarizer
US11023503B2 (en) Suggesting text in an electronic document
CN106778878B (zh) 一种人物关系分类方法及装置
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
CN112052308A (zh) 一种摘要文本提取方法、装置、存储介质和电子设备
EP3994589A1 (en) System, apparatus and method of managing knowledge generated from technical data
Zad et al. Hell hath no fury? correcting bias in the nrc emotion lexicon
Scheible Sentiment translation through lexicon induction
JP7389330B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Cristani et al. A multimodal approach to relevance and pertinence of documents
Alian et al. Word sense disambiguation for Arabic text using Wikipedia and Vector Space Model
KR102150560B1 (ko) 토픽을 이용한 타겟 분석 장치 및 방법
JP3875143B2 (ja) 単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体
JP6303669B2 (ja) 資料検索装置、資料検索システム、資料検索方法、及び、プログラム
Singh et al. Query relational databases in Punjabi language
Silva et al. Improving CoGrOO: the Brazilian Portuguese Grammar Checker
Vaca-Castano et al. Semantic image search from multiple query images
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
JP2017215893A (ja) 特許情報処理装置、特許情報処理方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060915

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061025

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees