JP3875357B2 - Word / collocation classification processing method, collocation extraction method, word / collocation classification processing device, speech recognition device, machine translation device, collocation extraction device, and word / collocation storage medium - Google Patents

Word / collocation classification processing method, collocation extraction method, word / collocation classification processing device, speech recognition device, machine translation device, collocation extraction device, and word / collocation storage medium Download PDF

Info

Publication number
JP3875357B2
JP3875357B2 JP16724397A JP16724397A JP3875357B2 JP 3875357 B2 JP3875357 B2 JP 3875357B2 JP 16724397 A JP16724397 A JP 16724397A JP 16724397 A JP16724397 A JP 16724397A JP 3875357 B2 JP3875357 B2 JP 3875357B2
Authority
JP
Japan
Prior art keywords
word
class
words
text data
collocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP16724397A
Other languages
Japanese (ja)
Other versions
JPH1097286A (en
Inventor
明 潮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP16724397A priority Critical patent/JP3875357B2/en
Publication of JPH1097286A publication Critical patent/JPH1097286A/en
Application granted granted Critical
Publication of JP3875357B2 publication Critical patent/JP3875357B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体に関し、特に、テキストデータの中から連語を自動的に抽出し、単語及び連語を自動的に分類する場合に好適なものである。
【0002】
【従来の技術】
従来の単語分類処理装置には、例えば、「Brown,P.,Della Pietra,V.,deSouza,P.,Lai,J.,Mercer,R.(1992)“Class−Based n−gram Models of Natural Language”.Computational Linguistics,Vol.18,No4,pp.467−479」に記載されているように、テキストデータの中で使用されている単独の単語を統計的に処理することにより、単独の単語を自動的に分類するものがあり、この単独の単語の分類結果を用いて音声認識や機械翻訳を行っていた。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の単語分類処理装置は、単語と連語とをまとめて自動的に分類することができず、単語と連語あるいは連語と連語の対応関係や類似度を用いて、音声認識や機械翻訳を行うことがきないため、音声認識や機械翻訳を正確に実行することができないという問題があった。
【0004】
そこで、本発明の第1の目的は、単語と連語とをまとめて自動的に分類することが可能な単語・連語分類処理方法及び単語・連語分類処理装置を提供することである。
【0005】
また、本発明の第2の目的は、大量のテキストデータから高速に連語を抽出することが可能な連語抽出装置を提供することである。
また、本発明の第3の目的は、単語と連語あるいは連語と連語の対応関係や類似度を用いることにより、正確な音声認識が可能な音声認識装置を提供することである。
【0006】
また、本発明の第4の目的は、単語と連語あるいは連語と連語の対応関係や類似度を用いることにより、正確な機械翻訳が可能な機械翻訳装置を提供することである。
【0007】
【課題を解決するための手段】
上述した第1の目的を達成するために、本発明によれば、テキストデータに含まれる単語と連語とを一緒に分類して、単語と連語とが混在するクラスを生成するようにしている。
【0008】
このことにより、単語と単語とをまとめて分類するだけでなく、単語と連語あるいは連語と連語とをまとめて一緒に分類することができ、単語と連語あるいは連語と連語との対応関係や類似度を容易に判別することができる。
【0009】
また、本発明の一態様によれば、単語を分類した単語クラスをテキストデータの単語の一次元列にマッピングして単語クラスの一次元列を生成し、テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を抽出してその単語クラス列にトークンを付与し、単語とトークンとを一緒に分類してから、トークンに対応する単語クラス列をその単語クラス列に属する連語で置換するようにしている。
【0010】
このことにより、単語クラス列にトークンを付与してその単語クラス列を1つの単語とみなし、テキストデータに含まれる単語とトークンを付与された単語クラス列とを同等に取り扱って単語と連語との区別なく分類処理を行うことができる。また、単語を分類した単語クラスをテキストデータの単語の一次元列にマッピングして単語クラスの一次元列を生成し、隣接する単語クラス間の粘着度に基づいて連語を抽出することにより、テキストデータからの連語の抽出を高速に行うことができる。
【0011】
また、上述した第2の目的を達成するために、本発明によれば、単語を分類した単語クラスをテキストデータの単語の一次元列にマッピングして単語クラスの一次元列を生成し、テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を抽出し、単語クラス列を構成する個々の単語クラスから、テキストデータに隣接して存在する個々の単語を別々に取り出して連語を抽出するようにしている。
【0012】
このことにより、単語クラス列に基づいて連語を抽出することができ、テキストデータに存在する異なる単語の数よりも、それらの単語を分類した単語クラスの数のほうが少ないので、テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が所定値以上の単語クラス列を抽出するほうが、テキストデータの単語の一次元列において、隣接する単語間の粘着度が所定値以上の単語列を抽出する場合に比べて、演算量及びメモリ容量を少なくすることができ、連語の抽出処理を高速に行うことができるとともに、メモリ資源を節約できる。なお、単語クラス列には、テキストデータの単語の一次元列に存在しない単語列が含まれている場合があるので、単語クラス列を構成する個々の単語クラスから、テキストデータに隣接して存在する個々の単語を別々に取り出して連語としている。
【0013】
また、上述した第3の目的を達成するために、本発明によれば、所定のテキストデータに含まれる単語と連語とを、単語と連語とが混在するクラスに分類して格納している単語・連語辞書を参照することにより、発音音声を音声認識するようにしている。
【0014】
このことにより、単語と連語あるいは連語と連語の対応関係や類似度を用いながら音声認識を行うことができ、正確な処理が可能になる。
また、上述した第4の目的を達成するために、本発明によれば、所定のテキストデータに含まれる単語と連語とを、単語と連語とが混在するクラスに分類して格納している単語・連語辞書に基づいて、用例文集に格納されている用例原文と入力された原文とを対応させるようにしている。
【0015】
このことにより、用例文集に格納されている用例原文の単語が連語に置き換わった原文が入力された場合においても、入力された原文に用例原文を適用して機械翻訳を行うことができ、単語と連語あるいは連語と連語の対応関係や類似度を用いた正確な機械翻訳が可能になる。
【0016】
【発明の実施の形態】
以下、本発明の一実施例に係わる単語・連語分類処理装置について図面を参照しながら説明する。この実施例は、所定のテキストデータに含まれる単語と連語とを、単語と連語とが混在するクラスに分類するものである。
【0017】
図1は、本発明の一実施例に係わる単語・連語分類処理装置の機能的な構成を示すブロック図である。
図1において、単語分類手段1は、テキストデータの単語の一次元列から互いに異なる単語を抽出し、抽出された単語の集合を分割して単語クラスを生成する。
【0018】
図2は、単語分類手段1の処理を説明するもので、テキストデータに含まれるT個の単語よりなる単語の一次元列(w1 2 3 4 ・・・wT )から、テキストデータでの出現頻度順に並べたV個のボキャブラリーとしての単語{v1 、v2 、v3 、v4 、・・・、vV }を生成し、このテキストデータのボキャブラリーとしての単語{v1 、v2 、v3 、v4 、・・・、vV }のそれぞれに初期化クラスを割り当てる。ここで、単語の個数T個は、例えば、5000万個であり、ボキャブラリーの個数V個は、例えば、7000個である。
【0019】
図2の例では、テキストデータでの出現頻度が高い、例えば、“the”、“a”、“in”、“of”が、それぞれボキャブラリーとしての単語v1 、v2 、v3 、v4 に対応している。初期化クラスを割り当てられたV個のボキャブラリーとしての単語{v1 、v2 、v3 、v4 、・・・、vV }は、クラスタリングによりC個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }に分割される。ここで、単語クラスの個数C個は、例えば、500個である。
【0020】
また、図2では、例えば、“speak”、“say”、“tell”、“talk”・・・が単語クラスC1 に分類され、“he”、“she”、“it”・・・が単語クラスC5 に分類され、“car”、“track”、“wagon”・・・が単語クラスC32に分類され、“Toyota”、“Nissan”、“GM”・・・が単語クラスC300 に分類されている例を示している。
【0021】
このV個のボキャブラリーとしての単語{v1 、v2 、v3 、v4 、・・・、vV }よりなる単語の分類は、例えば、テキストデータに存在する2つの単語がおのおの属する2つの単語クラスをマージした場合、元のテキストデータの生成確率の減少が最も少なくなるものを同一の単語クラスに統合することにより行う。ここで、元のテキストデータのクラスバイモデルによる生成確率は、平均相互情報量AMIを用いて表現することができ、この平均相互情報量AMIは以下の式により表すことができる。
【0022】
【数1】

Figure 0003875357
【0023】
ここで、
Pr(Ci )は、テキストデータの単語の一次元列(w1 2 3 4 ・・・wT )をその単語が属する単語クラスで置き換えた場合、そのテキストデータの単語クラスの一次元列でのクラスCi の出現確率、
Pr(Cj )は、テキストデータの単語の一次元列(w1 2 3 4 ・・・wT )をその単語が属する単語クラスで置き換えた場合、そのテキストデータの単語クラスの一次元列でのクラスCj の出現確率、
Pr(Ci 、Cj )は、テキストデータの単語の一次元列(w1 2 3 4 ・・・wT )を、その単語が属する単語クラスで置き換えた場合、そのテキストデータの単語クラスの一次元列での単語クラスCi の次に隣接して単語クラスCj が出現する確率である。
【0024】
図3は、図1の単語分類手段1の機能的な構成の一例を示すブロック図である。
図3において、初期化クラス設定部10は、テキストデータの単語の一次元列{w1 2 3 4 ・・・wT }から互いに異なる単語を抽出し、所定の出現頻度を有する単語{v1 、v2 、v3 、v4 、・・・、vV }のそれぞれに固有の単語クラス{C1 、C2 、C3 、C4 、・・・、CV }を割り当てる。
【0025】
仮マージ部11は、単語クラスの集合{C1 、C2 、C3 、C4 、・・・、CM }から2つの単語クラス{Ci 、Cj }を取り出して仮マージする。
平均相互情報量算出部12は、テキストデータの仮マージされた単語クラス{C1 、C2 、C3 、C4 、・・・、CM-1 }についての平均相互情報量AMIを(1)式により算出する。この場合、M個の単語クラスの集合{C1 、C2 、C3 、C4 、・・・、CM }から2つの単語クラス{Ci 、Cj }を取り出だす取り出しかたは、M(M−1)/2個だけ存在するので、M(M−1)/2回の平均相互情報量AMIの計算を行う必要がある。
【0026】
本マージ部13は、仮マージにより計算されたM(M−1)/2個の平均相互情報量AMIの基づいて、平均相互情報量AMIを最大とする2つの単語クラス{Ci 、Cj }を単語クラスの集合{C1 、C2 、C3 、C4 、・・・、CM }から取り出して本マージする。このことにより、本マージされたいずれかの単語クラス{Ci 、Cj }に属する単語は、同一の単語クラスに分類される。
【0027】
図1の単語クラス列生成手段2は、テキストデータの単語列(w1 2 3 4 ・・・wT )を構成する個々の単語を、単語が属する単語クラス{C1 、C2、C3 、C4 、・・・、CV }で置換することにより、テキストデータの単語クラス列を生成する。
【0028】
図4は、テキストデータの単語クラスの一次元列の一例を示す図である。
図4において、単語分類手段1によりC個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }が生成されているものとし、例えば、単語クラスC1 には、ボキャブラリーv1 、v37、・・・が属しており、単語クラスC2 には、ボキャブラリーv3 、v15、・・・が属しており、単語クラスC3 には、ボキャブラリーv2 、v4 、・・・が属しており、単語クラスC4 には、ボキャブラリーv7 、v9 、・・・が属しており、単語クラスC5 には、ボキャブラリーv6 、v8 、v26、vV 、・・・が属しており、単語クラスC6 には、ボキャブラリーv6 、v23、・・・が属しており、単語クラスC7 には、ボキャブラリーv5 、v10、・・・が属しているものとする。
【0029】
また、テキストデータの単語の一次元列(w1 2 3 4 ・・・wT )において、例えば、単語w1 が示すボキャブラリーとしての単語がv15、単語w2 が示すボキャブラリーとしての単語がv2 、単語w3 が示すボキャブラリーとしての単語がv23、単語w4 が示すボキャブラリーとしての単語がv4 、単語w5 が示すボキャブラリーとしての単語がv5 、単語w6 が示すボキャブラリーとしての単語がv15、単語w7 が示すボキャブラリーとしての単語がv5 、単語w8 が示すボキャブラリーとしての単語がv26、単語w9 が示すボキャブラリーとしての単語がv37、単語w10が示すボキャブラリーとしての単語がv2 、・・・、単語wT が示すボキャブラリーとしての単語がv8 であるとする。
【0030】
この場合、ボキャブラリーv15は単語クラスC2 に属しているので、単語w1 は単語クラスC2 にマッピングされ、ボキャブラリーv2 は単語クラスC3 に属しているので、単語w2 は単語クラスC3 にマッピングされ、ボキャブラリーv23は単語クラスC6 に属しているので、単語w3 は単語クラスC6 にマッピングされ、ボキャブラリーv4 は単語クラスC3 に属しているので、単語w4 は単語クラスC3 にマッピングされ、ボキャブラリーv5 は単語クラスC7 に属しているので、単語w5 は単語クラスC7 にマッピングされ、ボキャブラリーv15は単語クラスC2 に属しているので、単語w6 は単語クラスC2 にマッピングされ、ボキャブラリーv5 は単語クラスC7 に属しているので、単語w7 は単語クラスC7 にマッピングされ、ボキャブラリーv26は単語クラスC5 に属しているので、単語w8 は単語クラスC5 にマッピングされ、ボキャブラリーv37は単語クラスC1 に属しているので、単語w9 は単語クラスC1 にマッピングされ、ボキャブラリーv2 は単語クラスC3 に属しているので、単語w10は単語クラスC3 にマッピングされ、・・・、ボキャブラリーv8 は単語クラスC5 に属しているので、単語wT は単語クラスC5 にマッピングされる。
【0031】
すなわち、テキストデータの単語の一次元列(w1 2 3 4 ・・・wT )が、C個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }によりマッピングされた結果として、テキストデータの単語クラスの一次元列(C2 3 6 3 7 2 7 5 1 3 ・・・C5 )が1対1対応で生成される。
【0032】
図1の単語クラス列抽出手段3は、テキストデータの単語クラスの一次元列においての単語クラス間の粘着度が全て所定値以上の単語クラス列を、テキストデータの単語クラスの一次元列から抽出する。ここで、単語クラス間の粘着度は、単語クラス列を構成する単語クラス間のつながりの強さを示す指標であり、この粘着度を表現するものとして、例えば、相互情報量MI、相関係数、コサインメジャー、liklihood ratioなどがある。
【0033】
以下の説明では、単語クラス間の粘着度として、相互情報量MIを用いることにより、テキストデータの単語クラスの一次元列から単語クラス列を抽出する場合を例にとる。
【0034】
図5は、単語クラス列抽出手段3により抽出された単語クラス列の一例を示す図である。
図5において、テキストデータの単語の一次元列(w1 2 3 4 5 6 7 ・・・wT )に対してマッピングされた結果として、テキストデータの単語クラスの一次元列(C2 3 6 3 7 2 7 ・・・C5 )が1対1対応で生成されているものとする。このテキストデータの単語クラスの一次元列(C2 3 6 3 7 2 7 ・・・C5 )から、隣接する2つの単語クラス(Ci 、Cj )を順次に取り出し、隣接する2つの単語クラス(Ci 、Cj )についての相互情報量MI(Ci 、Cj )を、以下の(2)式により計算する。
【0035】
Figure 0003875357
そして、隣接する2つの単語クラス(Ci 、Cj )についての相互情報量MI(Ci 、Cj )が所定のしきい値TH以上の場合、これら隣接する2つの単語クラス(Ci 、Cj )をクラスチェーンで結んで互いに関連づける。
【0036】
例えば、図5において、隣接する2つの単語クラス(C2 、C3 )についての相互情報量MI(C2 、C3 )、隣接する2つの単語クラス(C3 、C6 )についての相互情報量MI(C3 、C6 )、隣接する2つの単語クラス(C6 、C3 )についての相互情報量MI(C6 、C3 )、隣接する2つの単語クラス(C3 、C7 )についての相互情報量MI(C3 、C7 )、隣接する2つの単語クラス(C7 、C2 )についての相互情報量MI(C7 、C2 )、隣接する2つの単語クラス(C2 、C7 )についての相互情報量MI(C2 、C7 )、・・・を(2)式により順次に計算する。
【0037】
そして、相互情報量MI(C2 、C3 )、相互情報量MI(C3 、C7 )、相互情報量MI(C7 、C2 )、・・・がしきい値TH以上で、相互情報量MI(C3 、C6 )、相互情報量MI(C6 、C3 )、相互情報量MI(C2 、C7 )、・・・がしきい値THより小さい場合、隣接する2つの単語クラス(C2 、C3 )、(C3 、C7 )、(C7 、C2 )、・・・をそれぞれクラスチェーンで結ぶことにより、単語クラス列C2 −C3 、C3 −C7 −C2 、・・・を抽出する。
【0038】
図6は、図1の単語クラス列抽出手段3の機能的な構成の一例を示すブロック図である。
図6において、単語クラス取出部30は、テキストデータの単語クラスの一次元列から、隣接して存在する2つの単語クラス(Ci 、Cj )を順次に取り出す。
【0039】
相互情報量算出部31は、単語クラス取出部30により取り出した2つの単語クラス(Ci 、Cj )の相互情報量MI(Ci 、Cj )を(2)式により算出する。
【0040】
クラスチェーン結合部32は、相互情報量MI(Ci 、Cj )が所定のしきい値以上の2つの単語クラス(Ci 、Cj )をクラスチェーンで結ぶ。
図1のトークン付与手段4は、単語クラス列抽出手段3によりクラスチェーンで結ばれた単語クラス列にトークンを付与する。
【0041】
図7は、トークン付与手段4により付与されたトークンの一例を示す図である。
図7において、クラスチェーンで結ばれた単語クラス列は、例えば、C1 −C3 、C1 −C7 、・・・、C2 −C3 、C2 −C11、・・・、C300 −C32、・・・、C1 −C3 −C80、C1 −C4 −C5 、C3 −C7 −C2 、・・・、C1 −C9 −C11−C32、・・・とする。この場合、単語クラス列C1 −C3 に対してトークンt1 を付与し、単語クラス列C1 −C7 に対してトークンt2 を付与し、・・・、単語クラス列C2 −C3 に対してトークンt3 を付与し、単語クラス列C2 −C11に対してトークンt4 を付与し、・・・、単語クラス列C300 −C32に対してトークンt5 を付与し、、・・・、単語クラス列C1 −C3 −C80に対してトークンt6 を付与し、単語クラス列C1 −C4 −C5 に対してトークンt7 を付与し、単語クラス列C3 −C7 −C2 に対してトークンt8 を付与し、・・・、単語クラス列C1 −C9 −C11−C32に対してトークンt9 を付与する。
【0042】
図1の単語・トークン列生成手段5は、テキストデータの単語の一次元列(w1 2 3 4 5 6 7 ・・・wT )のうち、単語クラス列抽出手段4により抽出された単語クラス列に属する単語列をトークンで置換することにより、テキストデータの単語・トークンの一次元列を生成する。
【0043】
図8は、テキストデータの単語・トークンの一次元列の一例を示す図である。図8において、テキストデータの単語の一次元列(w1 2 3 4 5 6 7 ・・・wT )に対してマッピングされた結果として、テキストデータの単語クラスの一次元列(C2 3 6 3 7 2 7 ・・・C5 )が1対1対応で生成されているものとし、クラスチェーンで結ばれた単語クラス列C2 −C3 、C3 −C7 −C2 、・・・に対して、図7に示すように、トークンt3 、t8 、・・・が付与されているものとする。
【0044】
この場合、クラスチェーンで結ばれた単語クラス列C2 −C3 に属するテキストデータの単語列(w1 2 )をトークンt3 で置き換え、クラスチェーンで結ばれた単語クラス列C3 −C7 −C2 に属するテキストデータの単語列(w4 5 6 )をトークンt8 で置き換えることにより、テキストデータの単語・トークンの一次元列(t3 3 8 7 ・・・wT )を生成する。
【0045】
図9は、テキストデータの単語・トークンの一次元列の一例を英文を例にとって示す図である。
図9(b)のテキストデータの単語の一次元列(w1 2 3 4 5 6 7 8 9 101112131415)として、図9(a)の“He wentto the apartment by bus and she went to New York by plane”が対応しているものとし、この単語の一次元列(w1 2 3 4 5 6 7 8 9 101112131415)に1対1で対応する単語クラスの一次元列が図9(c)の(C5 903 2118101 322 5 903 6328101 32)で与えられるものとする。
【0046】
この単語クラスの一次元列(C5 903 2118101 322 5 903 6328101 32)において、隣接する2つの単語クラス(Ci 、Cj )の相互情報量MI(Ci 、Cj )を計算し、相互情報量MI(C63、C28)が所定のしきい値TH以上、相互情報量MI(C5 、C90)、MI(C90、C3 )、MI(C3 、C21)、MI(C21、C18)、MI(C18、C101 )、MI(C101 、C32)、MI(C32、C2 )、MI(C2 、C5 )、MI(C5 、C90)、MI(C90、C3 )、MI(C3 、C63)、MI(C28、C101)及びMI(C101 、C32)が所定のしきい値THより小さい場合、隣接する2つの単語クラス(C63、C28)が、図9(d)に示すように、クラスチェーンで結ばれる。
【0047】
このクラスチェーンで結ばれた2つの単語クラス(C63、C28)はトークンt1 に置き換えられ、図9(e)に示すように、単語・トークンの一次元列(w1 2 3 4 5 6 7 8 9 10111 1415)が生成される。
【0048】
図1の単語・トークン分類手段6は、テキストデータの単語・トークンの一次元列のN個の単語の集合{w1 、w2 、w3 、w4 、・・・、wN }又はL個のトークンの集合{t1 、t2 、t3 、t4 、・・・、tL }を分割することにより、単語とトークンとが混在して存在するD個の単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }を生成する。
【0049】
この単語・トークン分類手段6では、トークンを付与された単語クラス列が1つの単語のようにみなされ、テキストデータに含まれる単語{w1 、w2 、w3 、w4 、・・・、wN }とトークン{t1 、t2 、t3 、t4 、・・・、tL }とを同等に取り扱うことができるので、単語{w1 、w2 、w3 、w4 、・・・、wN }とトークン{t1 、t2 、t3 、t4 、・・・、tL }との区別なく分類処理を行うことができる
図10は、図1の単語・トークン分類手段6の機能的な構成を示すブロック図である。
【0050】
図10において、初期化クラス設定部40は、テキストデータの単語・トークン列から互いに異なる単語と互いに異なるトークンとを抽出し、所定の出現頻度を有するN個の単語{w1 、w2 、w3 、w4 、・・・、wN }とL個のトークン{t1 、t2 、t3 、t4 、・・・、tL }とのそれぞれに固有の単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TY }を割り当てる。
【0051】
仮マージ部41は、単語・トークンクラスの集合{T1 、T2 、T3 、T4 、・・・、TM }から2つの単語・トークンクラス{Ti 、Tj }を取り出して仮マージする。
【0052】
平均相互情報量算出部42は、テキストデータの仮マージされた単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TM-1 }についての平均相互情報量AMIを(1)式により算出する。この場合、M個の単語クラス・トークンクラスの集合{T1 、T2 、T3 、T4 、・・・、TM }から、2つの単語・トークンクラス{Ti 、Tj }を取り出だす取り出しかたは、M(M−1)/2個だけ存在するので、M(M−1)/2回の平均相互情報量AMIの計算を行う必要がある。
【0053】
本マージ部43は、仮マージにより計算されたM(M−1)/2個の平均相互情報量AMIの基づいて、平均相互情報量AMIを最大とする2つの単語・トークンクラス{Ti 、Tj }を単語クラス・トークンクラスの集合{T1 、T2 、T3 、T4 、・・・、TM }から取り出して本マージする。このことにより、本マージされたいずれかの単語・トークンクラス{Ti 、Tj }に属する単語及びトークンは、同一の単語クラス・トークンクラスに分類される。
【0054】
図1の連語置換手段7は、単語・トークンクラスの中のトークンを、単語・トークン列生成手段5により置換された単語列に逆置換して連語を生成する。
図11は、クラスチェーンと連語との関係を説明する図である。
【0055】
図11において、例えば、単語クラスC300 と単語クラスC32とがクラスチェーンで結ばれ、このクラスチェーンで結ばれた単語クラス列C300 −C32にトークンt5 が付与されているとする。また、単語“Toyota”、“Nissan”、“GM”・・・などのA個の単語が単語クラスC300 に属し、単語“car”、“track”、“wagon”・・・などのB個の単語が単語クラスC32に属しているものとする。
【0056】
この場合、連語の候補として、図11(b)に示すように、“Toyota car”、“Toyota track”、“Toyota wagon”、 “Nissan car”、“Nissan track”、“Nissan wagon”、“GM car”、“GM track”、“GM wagon”、・・・など、単語クラスC300 に属するA個の単語と単語クラスC32に属するB個の単語との順列の数A×Bだけ連語の候補が生成される。この連語の候補の中にはテキストデータに存在しない連語も含まれているので、テキストデータをスキャンすることにより、これらの連語の候補からテキストデータに存在する連語のみを抽出する。例えば、テキストデータには、“Nissan track”及び“Toyota wagon”は存在するが、“Toyota car”、“Toyota track”、 “Nissan car”、“Nissan wagon”、“GM car”、“GM track”及び“GM wagon”は存在しない場合、図11(c)に示すように、“Nissan track”及び“Toyota wagon”のみが連語としてテキストデータから抽出される。
【0057】
図12は、C個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }、D個の単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }及びD個の単語・連語クラス{R1 、R2 、R3 、R4 、・・・、RD }の一例を示す図である。
【0058】
図12(a)において、C個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }が、図1の単語分類手段1により生成され、例えば、“he”、“she”、“it”・・・などの単語が単語クラスC5 に属し、“York”、“London”・・・などの単語が単語クラスC28に属し、“car”、“track”、“wagon”・・・などの単語が単語クラスC32に属し、“new”、“old”・・・などの単語が単語クラスC63に属し、“Toyota”、“Nissan”、“GM”・・・などの単語が単語クラスC300 に属しているものとする。また、テキストデータには、“New York”、“Nissantrack”及び“Toyota wagon”の連語が多数存在しているものとする。
【0059】
このC個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }をテキストデータの単語の一次元列(w1 2 3 4 ・・・wT )に1対1対応でマッピングした単語クラスの一次元列において、図1の単語クラス列抽出手段3は、“new”が属する単語クラスC63と“York”が属する単語クラスC28との粘着度が大きいと判断し、単語クラスC63と単語クラスC28とをクラスチェーンで結ぶ。また、単語クラス列抽出手段3は、“Toyota”及び“Nissan”が属する単語クラスC300 と“track”及び“wagon”が属する単語クラスC32との粘着度が大きいと判断し、単語クラスC300 と単語クラスC32とをクラスチェーンで結ぶ。
【0060】
トークン付与手段4は、単語クラス列C63−C28にトークンt1 を付与し、単語クラス列C300 −C32にトークンt5 を付与する。
単語・トークン列生成手段5は、テキストデータの単語の一次元列(w1 2 3 4 ・・・wT )に存在する“New York”をトークンt1 で置き換え、テキストデータの単語の一次元列(w1 2 3 4 ・・・wT )に存在する“Nissan track”及び“Toyota wagon”をトークンt5 で置き換えた単語・トークンの一次元列を生成する。
【0061】
単語・トークン分類手段6は、この単語・トークンの一次元列に存在する“he”、“she”、“it”、“London”、“car”、“track”、“wagon”・・・などの単語及び“t1 ”、“t5 ”などのトークンについての分類処理を行い、図12(b)のD個の単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }を生成する。
【0062】
単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }において、例えば、“he”、“she”、“it”・・・などの単語やトークンが単語・トークンクラスT5 に属し、“t1 ”、“London”・・・などの単語やトークンが単語・トークンクラスT28に属し、“car”、“track”、“wagon”、“t5 ”・・・などの単語やトークンが単語・トークンクラスT32に属し、“new”、“old”・・・などの単語やトークンが単語・トークンクラスT63に属し、“Toyota”、“Nissan”、“GM”・・・などの単語やトークンが単語・トークンクラスT300 に属している。このように、単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }には、単語とトークンとの区別なく、単語とトークンとが混在して分類されている。
【0063】
連語置換手段7は、図12(b)の単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }に存在する“t1 ”、“t5 ”などのトークンを、テキストデータの単語の一次元列に存在する連語で逆置換することにより、図12(c)の単語・連語クラス{R1 、R2 、R3 、R4 、・・・、RD }を生成する。例えば、単語・トークンクラスT28に属しているトークンt1 は、 単語・トークン列生成手段5により、テキストデータの単語の一次元列に存在する“New York”と置換されたものなので、このトークンt1 を“New York”で逆置換することにより、単語・連語クラスR28を生成し、単語・トークンクラスT32に属しているトークンt5 は、単語・トークン列生成手段5により、テキストデータの単語の一次元列に存在する“Nissan track”及び“Toyota wagon”と置換されたものなので、このトークンt5 を“Nissan track”及び“Toyota wagon”で逆置換することにより、単語・連語クラスR32を生成する。
【0064】
図13は、図1の単語・連語分類処理装置を実現するシステム構成を示すブロック図である。
図13において、単語・連語分類処理部41のメモリインターフェース42、46、CPU43、ROM44、ワークRAM45、RAM47、ドライバ71及び通信インタフェース72はバス48を介して互いに接続され、テキストデータ40が単語・連語分類処理部41に入力されると、ROM44に格納されているプログラムに従って、CPU43はテキストデータ40を処理し、テキストデータ40の単語及び連語の分類処理を行う。テキストデータ40の単語及び連語の分類処理結果は、単語・連語辞書49に格納される。なお、テキストデータ40や単語及び連語の分類処理結果を通信インタフェース72から通信ネットワーク73を介して送信したり、受信したりすることも可能である。
【0065】
また、単語及び連語の分類処理を行うプログラムを、ハードディスク74、ICメモリカード75、磁気テープ76、フロッピーディスク77またはCD−ROMやDVD−ROMなどの光ディスク78による記憶媒体からRAM47にロードした後、このプログラムをCPU43で実行させるようにしてもよい。
【0066】
さらに、単語及び連語の分類処理を行うプログラムを、通信インタフェース72を介して通信ネットワーク73から取り出すこともできる。通信インタフェース72と接続される通信ネットワーク73として、例えば、LAN(LocalArea Network)、WAN(Wide Area Network)、インターネット、アナログ電話網、デジタル電話網(ISDN:Integral Service Digital Network)、PHS(パーソナルハンディシステム)や衛星通信などの無線通信網などを用いることが可能である。
【0067】
図14は、図1の単語・連語分類処理装置の動作を示すフローチャートである。
図14において、まず、ステップS1に示すように、単語クラスタリング処理を行う。この単語クラスタリング処理では、複数の単語の一次元列(w1 2 3 4 ・・・wT )としてのテキストデータから、互いに異なるV個の単語{v1 、v2 、v3 、v4 、・・・、vV }を抽出し、V個の単語の集合{v1 、v2 、v3 、v4 、・・・、vV }をC個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }に分割する第1のクラスタリング処理を行う。
【0068】
ここで、V個の単語{v1 、v2 、v3 、v4 、・・・、vV }それぞれに単語クラス{C1 、C2 、C3 、C4 、・・・、CV }を割り当ててから、V個の単語クラス{C1 、C2 、C3 、C4 、・・・、CV }についてマージ処理を行うことにより、V個の単語クラス{C1 、C2 、C3 、C4 、・・・、CV }の個数を1つずつ減らしてC個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }を生成する場合、Vが7000もの数となって大きなものとなるときは、マージ処理を行うための(1)式の平均相互情報量AMIの計算回数が莫大なものとなり、現実的ではなくなる。このため、ウィンドウ処理を行って、マージ処理を行う単語クラスの数を減らすようにする。
【0069】
図15は、ウィンドウ処理を説明する図である。
図15(a)において、テキストデータのV個の単語{v1 、v2 、v3 、v4 、・・・、vV }それぞれに割り当てられたV個の単語クラス{C1 、C2 、C3 、C4 、・・・、CV }のうち、テキストデータでの出現頻度の大きい単語に割り当てられたC+1個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC 、CC+1 }を取り出し、このC+1個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC 、CC+1 }についてのマージ処理を行う。
【0070】
ここで、図15(b)に示すように、M個の単語クラス{C1 、C2 、C3 、C4 、・・・、CM }は、ウィンドウ内のC+1個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC 、CC+1 }についてのマージ処理を行った場合、M個の単語クラス{C1 、C2 、C3 、C4 、・・・、CM }の数が1つ減ってM−1個の単語クラス{C1 、C2 、C3 、C4 、・・・、CM-1 }となるとともに、ウィンドウ内のC+1個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC 、CC+1 }の数も1つ減ってC個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }となる。
【0071】
この場合、図15(c)に示すように、ウィンドウ外の単語クラス{CC+1 、・・・、CM-1 }のうち、テキストデータでの出現頻度が最も大きい単語クラスCC+1 をウィンドウ内に入れ、ウィンドウ内の単語クラスの数が一定に保たれるようにする。
【0072】
そして、ウィンドウ外に単語クラスがなくなり、図15(d)のC個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }が生成された時に、単語クラスタリング処理を終了する。
【0073】
なお、上述した実施例では、ウィンドウ内の単語クラスの個数をC+1個に設定したが、C+1個以外のV個未満の数でもよく、また、途中で変化させるようにしてもよい。
【0074】
図16は、ステップS1の単語クラスタリング処理を示すフローチャートである。
図16において、まず、ステップS10に示すように、T個の単語の一次元列(w1 2 3 4 ・・・wT )としてのテキストデータに基づいて、重複を除いた全てのV個の単語{v1 、v2 、v3 、v4 、・・・、vV }の出現頻度を調べ、これらのV個の単語{v1 、v2 、v3 、v4 、・・・、vV }を出現頻度の高い単語から順に並べて、これらのV個の単語{v1 、v2 、v3 、v4 、・・・、vV }のそれぞれをV個の単語クラス{C1 、C2 、C3 、C4 、・・・、CV }に割り当てる。
【0075】
次に、ステップS11に示すように、V個の単語クラス{C1 、C2 、C3 、C4 、・・・、CV }の単語のうち、出現頻度の高い単語クラスの単語から、V個未満のC+1個の単語クラスの単語を1つのウィンドウ内の単語クラスの単語とする。
【0076】
次に、ステップS12に示すように、1つのウィンドウ内の単語クラスの単語の中で、全ての組み合わせの仮ペアを作り、各仮ペアを仮マージした時の平均相互情報量AMIを(1)式により計算する。
【0077】
次に、ステップS13に示すように、全ての組み合わせの仮ペアについての平均相互情報量AMIのうち、最大となる平均相互情報量AMIを有する仮ペアを本マージすることにより、単語クラスを1つだけ減らし、本マージ後の1つのウィンドウ内の単語クラスの単語を更新する。
【0078】
次に、ステップS14に示すように、ウィンドウ外の単語クラスはなくなり、かつ、ウィンドウ内の単語クラスはC個になったかどうかを判断し、この条件が成り立たない場合、ステップS15に進み、現在のウィンドウよりも外側にあり、最大の出現頻度を有するクラスの単語をウィンドウ内に入れ、ステップS12に戻り、以上の処理を繰り返すことにより、単語クラスの数を減少させる。
【0079】
一方、ステップS14の条件が成り立ち、ウィンドウ外に単語クラスがなくなり、単語クラスの数がC個となった場合、ステップS16に進み、ウィンドウ内のC個の単語クラス{C1 、C2 、C3 、C4 、・・・、CC }をメモリに記憶する。
【0080】
次に、図14のステップS2に示すように、クラスチェーン抽出処理を行う。このクラスチェーン抽出処理では、ステップS1の第1のクラスタリング処理に基づいて生成されたテキストデータの単語クラスの一次元列において、所定のしきい値以上の相互情報量を有する隣接する2つの単語クラスをチェーンで結ぶことにより、チェーンで結ばれた単語クラス列の集合を抽出する。
【0081】
図17は、ステップS2のクラスチェーン抽出処理の第1実施例を示すフローチャートである。
図17において、まず、ステップS20に示すように、テキストデータの単語クラスの一次元列から、互いに隣接する2つの単語クラス(Ci 、Cj )を取り出す。
【0082】
次に、ステップS21に示すように、ステップS20で取り出した2つの単語クラス(Ci 、Cj )についての相互情報量MI(Ci 、Cj )を(2)式により計算する。
【0083】
次に、ステップS22に示すように、ステップS21で計算した相互情報量MI(Ci 、Cj )が所定のしきい値TH以上であるかどうかを判断し、相互情報量MI(Ci 、Cj )が所定のしきい値TH以上である場合、ステップS23に進んで、ステップS20で取り出した2つの単語クラス(Ci 、Cj )をクラスチェーンで結んでメモリに格納し、相互情報量MI(Ci 、Cj )が所定のしきい値THより小さい場合、ステップS23をスキップする。
【0084】
次に、ステップS24に示すように、メモリに格納されているクラスチェーンで結ばれた単語クラスにおいて、単語クラスCi で終了しているクラスチェーンが存在するかどうかを判断し、単語クラスCi で終了しているクラスチェーンが存在する場合、ステップS25に進んで、単語クラスCi で終了しているクラスチェーンに単語クラスCj をつなぐ。
【0085】
一方、ステップS24において、単語クラスCi で終了しているクラスチェーンが存在しない場合、ステップS25をスキップする。
次に、ステップS26に示すように、テキストデータの単語クラスの一次元列から、互いに隣接する2つの単語クラス(Ci 、Cj )を全て取り出したかどうかを判断し、互いに隣接する2つの単語クラス(Ci 、Cj )を全て取り出した場合、クラスチェーン抽出処理を終了し、互いに隣接する2つの単語クラス(Ci 、Cj )を全て取り出していない場合、ステップS20に戻って以上の処理を繰り返す。
【0086】
図18は、ステップS2のクラスチェーン抽出処理の第2実施例を示すフローチャートである。
図18において、まず、ステップS201に示すように、テキストデータの単語クラスの一次元列から、互いに隣接する2つの単語クラス(Ci 、Cj )を順次に取り出す。そして、取り出した2つの単語クラス(Ci 、Cj )について、相互情報量MI(Ci 、Cj )を(2)式により計算することにより、長さ2の全てのクラスチェーンをテキストデータの単語クラスの一次元列から抽出する。
【0087】
次に、ステップS202に示すように、長さ2の全てのクラスチェーンをそれぞれオブジェクトで置き換える。ここで、オブジェクトは、上述したトークンと同じものを表しているが、長さ2のクラスチェーンに付与されたトークンを、特に、オブジェクトと呼ぶ。
【0088】
次に、ステップS203に示すように、テキストデータのクラスの一次元列に対し、ステップS202でオブジェクトが付与された長さ2のクラスチェーンをオブジェクトで置き換え、テキストデータのクラスとオブジェクトの一次元列を生成する。
【0089】
次に、ステップS204に示すように、テキストデータのクラスとオブジェクトの一次元列の中に存在する1つのオブジェクトを1つのクラスとみなし、2つのクラス(Ci 、Cj )についての相互情報量MI(Ci 、Cj )を(2)式により計算する。すなわち、テキストデータのクラスとオブジェクトの一次元列においての相互情報量MI(Ci 、Cj )は、互いに隣接する1つのクラスと1つのクラスとの間で算出される場合、互いに隣接する1つのクラスと1つのオブジェクト(長さ2のクラスチェーン)との間で算出される場合、及び互いに隣接する1つのオブジェクト(長さ2のクラスチェーン)と1つのオブジェクト(長さ2のクラスチェーン)との間で算出される場合がある。
【0090】
次に、ステップS205に示すように、ステップS204で計算した相互情報量MI(Ci 、Cj )が所定のしきい値TH以上であるかどうかを判断し、相互情報量MI(Ci 、Cj )が所定のしきい値TH以上である場合、ステップS26に進んで、ステップS204で取り出した互いに隣接する2つのクラス、又は互いに隣接する1つのクラスと1つのオブジェクト、又は互いに隣接する2つのオブジェクトをクラスチェーンで結び、相互情報量MI(Ci 、Cj )が所定のしきい値THより小さい場合、ステップS206をスキップする。
【0091】
図19は、テキストデータのクラスとオブジェクトの一次元列において抽出されたクラスチェーンを示す図である。
図19において、互いに隣接する1つのクラスと1つのクラスとの間でクラスチェーンが抽出された場合、長さ2のクラスチェーン(オブジェクト)が生成され、互いに隣接する1つのクラスと1つのオブジェクトとの間でクラスチェーンが抽出された場合、長さ3のクラスチェーンが生成され、互いに隣接する1つのオブジェクトと1つのオブジェクトとの間でクラスチェーンが抽出された場合、長さ4のクラスチェーンが生成される。
【0092】
次に、図18のステップS207に示すように、クラスチェーン抽出処理が所定の回数行われたかどうかを判断し、所定の回数行われていない場合は、ステップS202に戻って以上の処理を繰り返す。
【0093】
このように、長さ2のクラスチェーンをオブジェクトに置き換えて、相互情報量MI(Ci 、Cj )を算出することを繰り返すことにより、任意の長さのクラスチェーンを抽出することができる。
【0094】
次に、図14のステップS3に示すように、トークン置換処理を行う。このトークン置換処理では、ステップS2のクラスチェーン抽出処理で抽出された単語クラス列に固有のトークンを対応させ、この単語クラス列に属する単語列をテキストデータの単語の一次元列から検索し、テキストデータの単語列を対応するトークンで置換することにより、テキストデータについての単語とトークンとの一次元列を生成する。
【0095】
図20は、ステップS3のトークン置換処理を示すフローチャートである。
図20において、まず、ステップS30に示すように、抽出されたクラスチェーンを重複を除いて所定の規則でソートし、それぞれのクラスチェーンにトークンを対応させて、クラスチェーンに名前を付ける。ここで、クラスチェーンのソートは、例えば、ASCIIコード順で行う。
【0096】
次に、ステップS31に示すように、トークンに対応させたクラスチェーンを1つ取り出す。
次に、ステップS32に示すように、テキストデータの単語の一次元列の中にクラスチェーンで結ばれた単語クラス列に属する単語列が存在するかどうかを判断し、クラスチェーンで結ばれた単語クラス列に属する単語列が存在する場合、ステップS33に進み、テキストデータの対応する単語列を1つのトークンで置き換え、クラスチェーンで結ばれた単語クラス列に属する単語列がテキストデータの単語の一次元列の中に存在しなくなるまで以上の処理を繰り返す。
【0097】
一方、クラスチェーンで結ばれた単語クラス列に属する単語列が存在しない場合、ステップS34に進み、ステップS30でトークンに対応させた全てのクラスチェーンについての連語・トークン置換処理が終了したかどうかを判断し、全てのクラスチェーンについての連語・トークン置換処理が終了してない場合、ステップS31に戻って、新たなクラスチェーンを1つ取り出して、以上の処理を繰り返す。
【0098】
次に、図14のステップS4に示すように、単語・トークンクラスタリング処理を行う。この単語・トークンクラスタリング処理では、テキストデータについての単語とトークンとの一次元列において、互いに異なる単語と互いに異なるトークンとを抽出し、単語とトークンとが混在する集合を単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }に分割する第2のクラスタリング処理を行う。
【0099】
図21は、ステップS4の単語・トークンクラスタリング処理を示すフローチャートである。
図21において、ステップS40に示すように、ステップS3で得られたテキストデータの単語・トークンの一次元列を入力データとして、ステップS1の第1の単語クラスタリング処理と同一の方法でクラスタリングを行うことより、単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }を生成する。この第2のクラスタリング処理では、単語とトークンは区別せず、トークンは1つの単語として扱われる。また、生成されたそれぞれの単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }は、その要素として単語とトークンを含んでいる。
【0100】
次に、図14のステップS5に示すように、データ出力処理を行う。このデータ出力処理では、テキストデータの単語の一次元列に存在する単語列のうち、トークンに対応するものを連語として抽出し、単語・トークンクラス{T1 、T2 、T3 、T4 、・・・、TD }の中のトークンを連語で置換することにより、単語と連語とが混在する集合を単語・連語クラス{R1 、R2 、R3 、R4 、・・・、RD }に分割する第3のクラスタリング処理を行う。
【0101】
図22は、ステップS5のデータ出力処理を示すフローチャートである。
図22において、まず、ステップS50に示すように、1つの単語・トークンクラスTi から1つのトークンtK を取り出す。
【0102】
次に、ステップS51に示すように、テキストデータの単語の一次元列をスキャンし、ステップS52において、ステップS50で取り出したトークンtK に対応するクラスチェーンで結ばれた単語クラス列に属する単語列が存在するかどうかを判断する。そして、トークンtK に対応するクラスチェーンで結ばれた単語クラス列に属する単語列がテキストデータの単語の一次元列に存在する場合、ステップS53に進んで、この単語列を連語とみなす処理を繰り返し、テキストデータの単語の一次元列をスキャンすることにより得られたこれらの連語でトークンtK を置き換える。
【0103】
一方、トークンtK に対応するクラスチェーンで結ばれた単語クラス列に属する単語列がテキストデータの単語の一次元列に存在しない場合、ステップS54に進んで、全てのトークンについて処理が終了したかどうかを判断し、全てのトークンについて処理が終了していない場合、ステップS50に進んで、以上の処理を繰り返す。
【0104】
例えば、ステップS3のトークン置換処理において、テキストデータの単語の一次元列(w1 2 3 4 ・・・wT )のうち、単語列(w1 2 )、(w1314)、・・・がトークンt1 で置換され、単語列(w4 5 6 )、(w1718)、・・・がトークンt2 で置換されたとすると、トークンt1 に対応する連語として、{w1 −w2 、w13−w14、・・・}がテキストデータから抽出され、トークンt2 に対応する連語として、{w4 −w5 −w6 、w17−w18、・・・}がテキストデータから抽出される。
【0105】
1つの単語・トークンクラスTi が単語の集合Wi とトークンの集合Ji ={ti1、ti2、・・・tin}からなり、トークンクラスTi が{Wi ∪Ji }により表され、、トークンの集合Ji の中の1つのトークンtimが、連語の集合Vim={vim (1) 、vim (2) 、・・・}に逆トークン置換されたとすると、1つの単語・連語クラスRi は、
【0106】
【数2】
Figure 0003875357
【0107】
で与えられる。
以上説明したように、本発明の一実施例による単語・連語分類処理装置によれば、単語と連語とを区別することなく分類することができる。
【0108】
次に、本発明の一実施例による音声認識装置について説明する。
図23は、図1の単語・連語分類処理装置により得られた単語・連語分類処理結果を利用して音声認識を行う音声認識装置の構成を示すブロック図である。
【0109】
図23において、所定のテキストデータ40に含まれる単語と連語とが、単語・連語分類処理部41により単語と連語とが混在するクラスに分類され、この分類された単語と連語とが単語・連語辞書49に格納されている。
【0110】
一方、複数の単語と連語とからなる発音音声は、マイクロフォン50によりアナログ音声信号に変換された後、A/D変換器51でデジタル音声信号に変換され、特徴抽出部52に入力される。特徴抽出部52は、デジタル音声信号に対して、例えば、LPC分析を行い、ケプストラム係数や対数パワーなどの特徴パラメータを抽出する。特徴抽出部52で抽出された特徴パラメータは、音声認識部54に出力され、音素隠れマルコフモデルなどの言語モデル55を参照するとともに、単語・連語辞書49に格納されている単語と連語との分類結果を参照しながら、単語及び連語ごとに音声認識を行う。
【0111】
図24は、単語・連語分類処理結果を利用して音声認識を行う場合の例を示す図である。
図24において、「本日は晴天なり」と発声された発音音声がマイクロフォン50に入力され、この発音音声に対して音声モデルを適用するとにより、例えば、「本日は晴天なり」という認識結果と「本日は静電なり」という認識結果とが得られる。これらの音声モデルによる認識結果に対し、言語モデルによる処理を行って単語・連語辞書49の参照を行い、「晴天なり」という連語が単語・連語辞書49に登録されている場合、「本日は晴天なり」という認識結果に対しては高い確率が与えられ、「本日は静電なり」という認識結果に対しては低い確率が与えられる。
【0112】
以上説明したように、本発明の一実施例による音声認識装置によれば、単語・連語辞書49を参照して音声認識を行うことにより、より正確な認識処理が可能になる。
【0113】
次に、本発明の一実施例による機械翻訳装置について説明する。
図25は、図1の単語・連語分類処理装置により得られた単語・連語分類処理結果を利用して機械翻訳を行う機械翻訳装置の構成を示すブロック図である。
【0114】
図25において、所定のテキストデータ40に含まれる単語と連語とが、単語・連語分類処理部41により単語と連語とが混在するクラスに分類され、この分類された単語と連語とが単語・連語辞書49に格納されている。また、用例原文とその用例原文に対する用例訳文とが、それぞれ対応させて用例文集60に格納されている。
【0115】
用例検索部61に原文が入力されると、単語・連語辞書49を参照しながら入力された原文の単語が属するクラスを検索し、そのクラスと同一のクラスに属する単語又は連語により構成される用例原文を用例文集60から検索する。用例文集60から検索された用例原文及びその用例訳文は、用例適用部62に入力され、用例訳文の中の訳語を、入力された原文の単語に対する訳語に置換することにより、入力された原文に対する訳文を生成する。
【0116】
図26は、単語・連語分類処理結果を利用して音声認識を行う場合の例を示す図である。
図26において、“Toyota”と“Kohlberg Kravis Robert & Co.”とは同一のクラスに属し、“gained”と“lost”とは同一のクラスに属し、“2”と“1”とは同一のクラスに属し、“30 1/4”と“80 1/2”とは同一のクラスに属しているものとする。
【0117】
原文として、“Toyota gained 2 to 30 1/4.”が入力されると、用例原文として、用例文集60から“Kohlberg Kravis Robert & Co. lost 1 to 80 1/2.”が検索されるとともに、その用例原文に対する用例訳文「Kohlberg Kravis Robert & Co.社は、1ドル値を下げて終値80 1/2ドルだった。」も検索される。
【0118】
次に、用例原文の原語“Kohlberg Kravis Robert &Co.”と同一のクラスに属している入力原文の原語“Toyota”に対する訳語「トヨタ」で、用例訳文の訳語「Kohlberg Kravis Robert & Co.社」を置き換え、用例原文の原語“lost”と同一のクラスに属している入力原文の原語“gained”に対する訳語「上げて」で、用例訳文の訳語「下げて」を置き換え、用例訳文の数値“1”を“2”で置き換え、用例訳文の数値“80 1/2”を“30 1/4”で置き換えることにより、入力原文に対する訳文「トヨタは、2ドル値を上げて終値30 1/2ドルだった。」を出力する。
【0119】
以上説明したように、本発明の一実施例による機械翻訳装置によれば、単語・連語辞書49を参照して機械翻訳を行うことにより、より正確な翻訳処理が可能になる。
【0120】
以上、本発明の一実施例について説明したが、本発明は上述した実施例に限定されるものではなく、本発明の技術的思想の範囲内で他の様々な変更が可能である。例えば、上述した実施例では、単語・連語分類処理装置を音声認識装置及び機械翻訳装置に適用した場合について説明したが、単語・連語分類処理装置を文字認識装置に用いるようにしてもよい。また、上述した実施例では、単語と連語とを混在される分類する場合について説明したが、連語のみを抽出し、この抽出した連語を分類するようにしてもよい。
【0121】
【発明の効果】
以上説明したように、本発明の単語・連語分類処理装置によれば、テキストデータに含まれる単語と連語とを一緒に分類して、単語と連語とが混在するクラスを生成することにより、単語と単語とをまとめて分類するだけでなく、単語と連語あるいは連語と連語とをまとめて分類することができ、単語と連語あるいは連語と連語との対応関係や類似度を容易に判別することができる。
【0122】
また、本発明の一態様によれば、テキストデータの単語クラス列にトークンを付与して単語クラス列を1つの単語とみなし、テキストデータに含まれる単語とトークンを付与された単語クラス列とを同等に取り扱ってこれらを分類してから、テキストデータに存在する単語列で対応する単語クラス列を置き換えるようにしたので、単語と連語との区別なく分類処理を行うことができるとともに、テキストデータからの連語の抽出を高速に行うことができる。
【0123】
また、本発明の連語抽出装置によれば、テキストデータの単語列を構成する個々の単語を、その単語が属する単語クラスで置換し、テキストデータにおいて出現する確率が所定値以上の単語クラス列を抽出してから、テキストデータに存在する連語を抽出することにより、連語を高速に抽出することができる。
【0124】
また、本発明の音声認識装置によれば、単語と連語あるいは連語と連語の対応関係や類似度を用いながら音声認識を行うことができ、正確な処理が可能になる。
【0125】
また、本発明の機械翻訳装置によれば、用例文集に格納されている用例原文の単語が連語に置き換わった原文が入力された場合においても、入力された原文に用例原文を適用して機械翻訳を行うことができ、単語と連語あるいは連語と連語の対応関係や類似度を用いた正確な機械翻訳が可能になる。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる単語・連語分類処理装置の機能的な構成を示すブロック図である。
【図2】本発明の一実施例に係わる単語・連語分類処理装置の単語クラスタリング処理を説明する図である。
【図3】図1の単語分類手段の機能的な構成を示すブロック図である。
【図4】本発明の一実施例に係わる単語・連語分類処理装置の単語クラス列生成処理を説明する図である。
【図5】本発明の一実施例に係わる単語・連語分類処理装置のクラスチェーン抽出処理を説明する図である。
【図6】図1の単語クラス列抽出手段の機能的な構成を示すブロック図である。
【図7】本発明の一実施例に係わる単語・連語分類処理装置によるクラスチェーンとトークンとの関係を示す図である。
【図8】本発明の一実施例に係わる単語・連語分類処理装置のトークン置換処理を説明する図である。
【図9】本発明の一実施例に係わる単語・連語分類処理装置によるトークン置換処理の英文例を示す図である。
【図10】図1の単語・トークン分類手段の機能的な構成を示すブロック図である。
【図11】本発明の一実施例に係わる単語・連語分類処理装置によるトークンと連語の関係を示す図である。
【図12】本発明の一実施例に係わる単語・連語分類処理装置による単語・連語分類処理結果を示す図である。
【図13】本発明の一実施例に係わる単語・連語分類処理装置のシステム構成を示すブロック図である。
【図14】本発明の一実施例に係わる単語・連語分類処理装置の単語・連語分類処理を示すフローチャートである。
【図15】本発明の一実施例に係わる単語・連語分類処理装置のウインドウ処理を説明する図である。
【図16】本発明の一実施例に係わる単語・連語分類処理装置の単語クラスタリング処理を示すフローチャートである。
【図17】本発明に係わる単語・連語分類処理装置のクラスチェーン抽出処理の第1実施例を示すフローチャートである。
【図18】本発明に係わる単語・連語分類処理装置のクラスチェーン抽出処理の第2実施例を示すフローチャートである。
【図19】本発明に係わる単語・連語分類処理装置のクラスチェーン抽出処理の第2実施例を説明する図である。
【図20】本発明の一実施例に係わる単語・連語分類処理装置のトークン置換処理を示すフローチャートである。
【図21】本発明の一実施例に係わる単語・連語分類処理装置の単語・トークンクラスタリング処理を示すフローチャートである。
【図22】本発明の一実施例に係わる単語・連語分類処理装置のデータ出力処理を示すフローチャートである。
【図23】本発明の一実施例に係わる音声認識装置の機能的な構成を示すブロック図である。
【図24】本発明の一実施例に係わる音声認識方法を説明する図である。
【図25】本発明の一実施例に係わる機械翻訳装置の機能的な構成を示すブロック図である。
【図26】本発明の一実施例に係わる機械翻訳方法を説明する図である。
【符号の説明】
1 単語分類手段
2 単語クラス列生成手段
3 単語クラス列抽出手段
4 トークン付与手段
5 単語・トークン列生成手段
6 単語・トークン分類手段
7 連語置換手段
40 テキストデータ
41 単語・連語分類処理部
42、46 メモリインターフェイス
43 CPU
44 ROM
45 ワークRAM
47 RAM
48 バス
49 単語・連語辞書
50 マイクロフォン
51 A/D変換器
52 特徴抽出部
53 バッファメモリ
54 音声認識部
55 言語モデル
60 用例文集
61 用例検索部
62 用例適用部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a word / collocation classification processing method, a collocation extraction method, a word / collocation classification processing device, a speech recognition device, a machine translation device, a collocation extraction device, and a word / collocation storage medium. This is suitable for automatically extracting and automatically classifying words and collocations.
[0002]
[Prior art]
Conventional word classification processing apparatuses include, for example, “Brown, P., Della Pietra, V., deSouza, P., Lai, J., Mercer, R. (1992)“ Class-Based n-gram Models of Natural. Language ”. Computational Linguistics, Vol. 18, No. 4, pp. 467-479”, by statistically processing the single word used in the text data, the single word Are automatically classified, and speech recognition and machine translation are performed using the classification result of this single word.
[0003]
[Problems to be solved by the invention]
However, conventional word classification processing devices cannot automatically classify words and collocations, and perform speech recognition and machine translation using correspondence and similarity between words and collocations or collocations and collocations. There was a problem that speech recognition and machine translation could not be executed accurately because they could not be performed.
[0004]
Accordingly, a first object of the present invention is to provide a word / collocation classification processing method and a word / collocation classification processing apparatus capable of automatically classifying words and collocations together.
[0005]
A second object of the present invention is to provide a collocation extracting apparatus capable of extracting collocations from a large amount of text data at high speed.
A third object of the present invention is to provide a speech recognition device that can perform accurate speech recognition by using correspondence and similarity between words and collocations or collocations and collocations.
[0006]
A fourth object of the present invention is to provide a machine translation apparatus capable of performing accurate machine translation by using correspondence and similarity between words and collocations or collocations and collocations.
[0007]
[Means for Solving the Problems]
In order to achieve the first object described above, according to the present invention, words and collocations included in text data are classified together to generate a class in which words and collocations are mixed.
[0008]
This makes it possible to classify words and collocations or collocations and collocations together, as well as categorizing words and vocabularies together. Correspondence and similarity between words and collocations or collocations and collocations Can be easily determined.
[0009]
Further, according to one aspect of the present invention, a word class in which words are classified is mapped to a one-dimensional column of words in text data to generate a one-dimensional column of word classes. , Extract a word class string in which the adhesion between adjacent word classes is all equal to or greater than a predetermined value, assign tokens to the word class string, classify the words and tokens together, and then the word class corresponding to the token The column is replaced with a collocation that belongs to the word class column.
[0010]
As a result, a token is assigned to the word class string, the word class string is regarded as one word, the word included in the text data and the word class string to which the token is assigned are treated equally, Classification processing can be performed without distinction. In addition, the word class that classifies the word is mapped to a one-dimensional column of words in the text data to generate a one-dimensional column of the word class, and the collocation is extracted based on the degree of adhesion between the adjacent word classes, so that the text Extraction of collocations from data can be performed at high speed.
[0011]
In order to achieve the second object described above, according to the present invention, a word class in which words are classified is mapped to a one-dimensional column of words in text data to generate a one-dimensional column of word classes, and a text In a one-dimensional column of data word classes, extract word class columns where the degree of adhesion between adjacent word classes is all equal to or greater than a predetermined value, and present adjacent to text data from the individual word classes that make up the word class column Each word to be extracted is extracted separately and a collocation is extracted.
[0012]
This makes it possible to extract collocations based on the word class sequence, and since the number of word classes into which these words are classified is smaller than the number of different words existing in the text data, the word class of the text data In a one-dimensional sequence of words, it is better to extract a word class sequence in which the degree of adhesion between adjacent word classes is greater than or equal to a predetermined value. Compared with the case of extracting a column, the amount of calculation and the memory capacity can be reduced, the collocation extraction process can be performed at high speed, and the memory resources can be saved. Note that the word class string may contain word strings that do not exist in the one-dimensional string of words in the text data, so it exists adjacent to the text data from the individual word classes that make up the word class string. Each word is taken separately and used as a collocation.
[0013]
In order to achieve the third object described above, according to the present invention, words and collocations included in predetermined text data are classified and stored in a class in which words and collocations are mixed. -By referring to the collocation dictionary, pronunciation speech is recognized.
[0014]
As a result, speech recognition can be performed using the correspondence and similarity between words and collocations or collocations and collocations, and accurate processing becomes possible.
In order to achieve the fourth object described above, according to the present invention, words and collocations included in predetermined text data are classified and stored in a class in which words and collocations are mixed. -Based on the collocation dictionary, the example original sentence stored in the example sentence collection is made to correspond to the inputted original sentence.
[0015]
As a result, even when an original text in which a word in the example text stored in the example sentence collection is replaced with a collocation is input, machine translation can be performed by applying the example text to the input original text. Accurate machine translation using correspondence or similarity between collocations or collocations is possible.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a word / cold word classification processing apparatus according to an embodiment of the present invention will be described with reference to the drawings. In this embodiment, words and collocations included in predetermined text data are classified into classes in which words and collocations are mixed.
[0017]
FIG. 1 is a block diagram showing a functional configuration of a word / collocation classification processing apparatus according to an embodiment of the present invention.
In FIG. 1, a word classification unit 1 extracts different words from a one-dimensional string of words in text data, and divides the extracted set of words to generate a word class.
[0018]
FIG. 2 explains the processing of the word classification means 1 and is a one-dimensional string (w) of words consisting of T words included in the text data.1w2wThreewFour... wT) As V vocabularies arranged in the order of appearance frequency in the text data {v1, V2, VThree, VFour, ..., vV}, And the word {v as the vocabulary of this text data1, V2, VThree, VFour, ..., vV} Is assigned an initialization class. Here, the number T of words is, for example, 50 million, and the number V of vocabularies is, for example, 7000.
[0019]
In the example of FIG. 2, for example, “the”, “a”, “in”, and “of”, which appear frequently in text data, are words v as vocabulary.1, V2, VThree, VFourIt corresponds to. V vocabulary words {v assigned to an initialization class1, V2, VThree, VFour, ..., vV} Represents C word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC}. Here, the number C of word classes is, for example, 500.
[0020]
In FIG. 2, for example, “speak”, “say”, “tell”, “talk”,.1"He", "she", "it" ... are word classes CFive"Car", "track", "wagon" ... are word classes C32"Toyota", "Nissan", "GM" ... are word classes C300The example classified into is shown.
[0021]
These V vocabulary words {v1, V2, VThree, VFour, ..., vV}, For example, when two word classes to which two words existing in the text data belong are merged, those having the smallest decrease in the generation probability of the original text data are assigned to the same word class. Do by integrating. Here, the generation probability of the original text data by the class-by model can be expressed using the average mutual information AMI, and the average mutual information AMI can be expressed by the following equation.
[0022]
[Expression 1]
Figure 0003875357
[0023]
here,
Pr (Ci) Is a one-dimensional string (w1w2wThreewFour... wT) Is replaced with the word class to which the word belongs, the class C in the one-dimensional column of the word class of the text dataiOccurrence probability,
Pr (Cj) Is a one-dimensional string (w1w2wThreewFour... wT) Is replaced with the word class to which the word belongs, the class C in the one-dimensional column of the word class of the text datajOccurrence probability,
Pr (Ci, Cj) Is a one-dimensional string (w1w2wThreewFour... wT) Is replaced with the word class to which the word belongs, the word class C in the one-dimensional column of the word class of the text data.iNext to the word class CjIs the probability of appearing.
[0024]
FIG. 3 is a block diagram showing an example of a functional configuration of the word classification unit 1 of FIG.
In FIG. 3, the initialization class setting unit 10 performs a one-dimensional sequence {w1w2wThreewFour... wT}, Different words from each other are extracted from the word {v1, V2, VThree, VFour, ..., vV}, A unique word class {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CV} Is assigned.
[0025]
The temporary merge unit 11 sets a set of word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CM} From two word classes {Ci, Cj} And temporarily merge.
The average mutual information calculation unit 12 uses the word class {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CM-1}, The average mutual information AMI is calculated by the equation (1). In this case, a set of M word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CM} From two word classes {Ci, Cj}, There are only M (M−1) / 2 extraction methods, and it is necessary to calculate M (M−1) / 2 average mutual information AMI.
[0026]
Based on the M (M−1) / 2 average mutual information AMI calculated by the temporary merge, the merging unit 13 uses two word classes {Ci, Cj} Is a set of word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CM} And merge it. As a result, any merged word class {Ci, Cj} Belong to the same word class.
[0027]
The word class string generation means 2 in FIG.1w2wThreewFour... wT) For each word constituting the word class {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CV} To generate a word class string of text data.
[0028]
FIG. 4 is a diagram illustrating an example of a one-dimensional column of word classes of text data.
In FIG. 4, C word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC}, For example, the word class C1In the vocabulary v1, V37, ... belong to the word class C2In the vocabulary vThree, V15, ... belong to the word class CThreeIn the vocabulary v2, VFour, ... belong to the word class CFourIn the vocabulary v7, V9, ... belong to the word class CFiveIn the vocabulary v6, V8, V26, VV, ... belong to the word class C6In the vocabulary v6, Vtwenty three, ... belong to the word class C7In the vocabulary vFive, VTen, ... shall belong.
[0029]
In addition, a one-dimensional sequence of words (w1w2wThreewFour... wT), For example, the word w1Indicates the word vocabulary as v15, Word w2Indicates the word vocabulary as v2, Word wThreeIndicates the word vocabulary as vtwenty three, Word wFourIndicates the word vocabulary as vFour, Word wFiveIndicates the word vocabulary as vFive, Word w6Indicates the word vocabulary as v15, Word w7Indicates the word vocabulary as vFive, Word w8Indicates the word vocabulary as v26, Word w9Indicates the word vocabulary as v37, Word wTenIndicates the word vocabulary as v2... word wTIndicates the word vocabulary as v8Suppose that
[0030]
In this case, vocabulary v15Is word class C2Because it belongs to1Is word class C2Mapped to vocabulary v2Is word class CThreeBecause it belongs to2Is word class CThreeMapped to vocabulary vtwenty threeIs word class C6Because it belongs toThreeIs word class C6Mapped to vocabulary vFourIs word class CThreeBecause it belongs toFourIs word class CThreeMapped to vocabulary vFiveIs word class C7Because it belongs toFiveIs word class C7Mapped to vocabulary v15Is word class C2Because it belongs to6Is word class C2Mapped to vocabulary vFiveIs word class C7Because it belongs to7Is word class C7Mapped to vocabulary v26Is word class CFiveBecause it belongs to8Is word class CFiveMapped to vocabulary v37Is word class C1Because it belongs to9Is word class C1Mapped to vocabulary v2Is word class CThreeBecause it belongs toTenIs word class CThreeIs mapped to ... vocabulary v8Is word class CFiveBecause it belongs toTIs word class CFiveMapped to
[0031]
That is, a one-dimensional string (w1w2wThreewFour... wT) Has C word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC} As a result of mapping by a one-dimensional sequence of word classes of text data (C2CThreeC6CThreeC7C2C7CFiveC1CThree... CFive) Is generated in a one-to-one correspondence.
[0032]
The word class string extracting means 3 in FIG. 1 extracts a word class string whose degree of adhesion between word classes in the one-dimensional string of the word class of text data is all equal to or greater than a predetermined value from the one-dimensional string of the word class of text data. To do. Here, the degree of adhesion between word classes is an index indicating the strength of the connection between the word classes constituting the word class sequence. Examples of expressing this degree of adhesion include mutual information MI, correlation coefficient, and the like. , Cosine measure, liklihood ratio, etc.
[0033]
In the following description, a case where a word class string is extracted from a one-dimensional string of word classes of text data by using the mutual information MI as the degree of adhesion between word classes is taken as an example.
[0034]
FIG. 5 is a diagram illustrating an example of a word class string extracted by the word class string extracting unit 3.
In FIG. 5, a one-dimensional string (w1w2wThreewFourwFivew6w7... wT) As a result of mapping to a one-dimensional column of word classes of text data (C2CThreeC6CThreeC7C2C7... CFive) Is generated in a one-to-one correspondence. A one-dimensional sequence of word classes (C2CThreeC6CThreeC7C2C7... CFive) From two adjacent word classes (Ci, Cj) In succession and two adjacent word classes (Ci, Cj) Mutual information MI (Ci, Cj) Is calculated by the following equation (2).
[0035]
Figure 0003875357
And two adjacent word classes (Ci, Cj) Mutual information MI (Ci, Cj) Is greater than or equal to a predetermined threshold TH, these two adjacent word classes (Ci, Cj) In the class chain and relate to each other.
[0036]
For example, in FIG. 5, two adjacent word classes (C2, CThree) Mutual information MI (C2, CThree), Two adjacent word classes (CThree, C6) Mutual information MI (CThree, C6), Two adjacent word classes (C6, CThree) Mutual information MI (C6, CThree), Two adjacent word classes (CThree, C7) Mutual information MI (CThree, C7), Two adjacent word classes (C7, C2) Mutual information MI (C7, C2), Two adjacent word classes (C2, C7) Mutual information MI (C2, C7),... Are sequentially calculated by equation (2).
[0037]
The mutual information MI (C2, CThree), Mutual information MI (CThree, C7), Mutual information MI (C7, C2),... Is greater than or equal to the threshold value TH and the mutual information MI (CThree, C6), Mutual information MI (C6, CThree), Mutual information MI (C2, C7),... Is smaller than the threshold TH, two adjacent word classes (C2, CThree), (CThree, C7), (C7, C2), ... are connected to each other by a class chain so that the word class sequence C2-CThree, CThree-C7-C2, ... are extracted.
[0038]
FIG. 6 is a block diagram showing an example of a functional configuration of the word class string extraction unit 3 of FIG.
In FIG. 6, the word class extracting unit 30 extracts two adjacent word classes (Ci, Cj) In order.
[0039]
The mutual information calculation unit 31 uses the two word classes (Ci, Cj) Mutual information MI (Ci, Cj) Is calculated by equation (2).
[0040]
The class chain coupling unit 32 uses the mutual information MI (Ci, Cj) Two word classes (Ci, Cj) In the class chain.
The token granting means 4 in FIG. 1 gives tokens to the word class strings connected by the class chain by the word class string extracting means 3.
[0041]
FIG. 7 is a diagram illustrating an example of a token granted by the token granting unit 4.
In FIG. 7, the word class string connected by the class chain is, for example, C1-CThree, C1-C7・ ・ ・ ・ ・ ・ C2-CThree, C2-C11・ ・ ・ ・ ・ ・ C300-C32・ ・ ・ ・ ・ ・ C1-CThree-C80, C1-CFour-CFive, CThree-C7-C2・ ・ ・ ・ ・ ・ C1-C9-C11-C32... In this case, the word class string C1-CThreeToken t1And the word class sequence C1-C7Token t2, ..., word class sequence C2-CThreeToken tThreeAnd the word class sequence C2-C11Token tFour, ..., word class sequence C300-C32Token tFive, ..., word class sequence C1-CThree-C80Token t6And the word class sequence C1-CFour-CFiveToken t7And the word class sequence CThree-C7-C2Token t8, ..., word class sequence C1-C9-C11-C32Token t9Is granted.
[0042]
The word / token sequence generating means 5 in FIG.1w2wThreewFourwFivew6w7... wT), A word string belonging to the word class string extracted by the word class string extracting means 4 is replaced with a token to generate a one-dimensional string of words / tokens of text data.
[0043]
FIG. 8 is a diagram illustrating an example of a one-dimensional sequence of words / tokens of text data. In FIG. 8, a one-dimensional string (w1w2wThreewFourwFivew6w7... wT) As a result of mapping to a one-dimensional column of word classes of text data (C2CThreeC6CThreeC7C2C7... CFive) Is generated in a one-to-one correspondence, and the word class string C connected by the class chain2-CThree, CThree-C7-C2,..., As shown in FIG.Three, T8, ... are given.
[0044]
In this case, the word class string C connected by the class chain2-CThreeWord string of text data belonging to (w1w2) To token tThreeThe word class sequence C replaced by the class chainThree-C7-C2Word string of text data belonging to (wFourwFivew6) To token t8Is replaced with a one-dimensional sequence of words / tokens of text data (tThreewThreet8w7... wT) Is generated.
[0045]
FIG. 9 is a diagram illustrating an example of a one-dimensional sequence of words / tokens of text data, using English as an example.
A one-dimensional sequence of words (w) in the text data of FIG.1w2wThreewFourwFivew6w7w8w9wTenw11w12w13w14w15) In FIG. 9A corresponds to “He Went to the apartment by Bus and She Went to New York by plane”.1w2wThreewFourwFivew6w7w8w9wTenw11w12w13w14w15) Is a one-dimensional column of word classes corresponding one-to-one with (C) in FIG.FiveC90CThreeCtwenty oneC18C101C32C2CFiveC90CThreeC63C28C101C32).
[0046]
A one-dimensional sequence of this word class (CFiveC90CThreeCtwenty oneC18C101C32C2CFiveC90CThreeC63C28C101C32) In two adjacent word classes (Ci, Cj) Mutual information MI (Ci, Cj) To calculate the mutual information MI (C63, C28) Is equal to or greater than a predetermined threshold value TH and the mutual information MI (CFive, C90), MI (C90, CThree), MI (CThree, Ctwenty one), MI (Ctwenty one, C18), MI (C18, C101), MI (C101, C32), MI (C32, C2), MI (C2, CFive), MI (CFive, C90), MI (C90, CThree), MI (CThree, C63), MI (C28, C101) And MI (C101 , C32) Is smaller than a predetermined threshold TH, two adjacent word classes (C63, C28) Are connected by a class chain as shown in FIG.
[0047]
Two word classes (C63, C28) Is token t1As shown in FIG. 9E, a one-dimensional sequence of words / tokens (w1w2wThreewFourwFivew6w7w8w9wTenw11t1w14w15) Is generated.
[0048]
The word / token classifying means 6 in FIG. 1 sets a set of N words {w1, W2, WThree, WFour... wN} Or a set of L tokens {t1, T2, TThree, TFour, ..., tL} Is divided into D words / token classes {T1, T2, TThree, TFour... TD} Is generated.
[0049]
In this word / token classification means 6, the word class sequence to which the token is given is regarded as one word, and the word {w1, W2, WThree, WFour... wN} And token {t1, T2, TThree, TFour, ..., tL} Can be treated equally, so the word {w1, W2, WThree, WFour... wN} And token {t1, T2, TThree, TFour, ..., tL} Can be classified without distinction
FIG. 10 is a block diagram showing a functional configuration of the word / token classification means 6 of FIG.
[0050]
In FIG. 10, the initialization class setting unit 40 extracts different words and different tokens from the word / token string of text data, and N words {w with a predetermined appearance frequency {w1, W2, WThree, WFour... wN} And L tokens {t1, T2, TThree, TFour, ..., tL} And a unique word / token class {T1, T2, TThree, TFour... TY} Is assigned.
[0051]
The temporary merge unit 41 sets a set of words / token classes {T1, T2, TThree, TFour... TM} From two words / token class {Ti, Tj} And temporarily merge.
[0052]
The average mutual information calculation unit 42 tentatively merges the word / token class {T1, T2, TThree, TFour... TM-1}, The average mutual information AMI is calculated by the equation (1). In this case, a set of M word classes and token classes {T1, T2, TThree, TFour... TM} From two words / token class {Ti, Tj}, There are only M (M−1) / 2 extraction methods, and it is necessary to calculate M (M−1) / 2 average mutual information AMI.
[0053]
The merging unit 43, based on the M (M−1) / 2 average mutual information AMI calculated by the temporary merge, uses two word / token classes {T that maximize the average mutual information AMI.i, Tj} Is a set of word classes and token classes {T1, T2, TThree, TFour... TM} And merge it. As a result, any merged word / token class {Ti, Tj} And tokens belonging to} are classified into the same word class / token class.
[0054]
The collocation replacement means 7 in FIG. 1 generates a collocation by reversely replacing the tokens in the word / token class with the word string replaced by the word / token string generation means 5.
FIG. 11 is a diagram illustrating the relationship between class chains and collocations.
[0055]
In FIG. 11, for example, word class C300And word class C32Are connected by a class chain, and the word class sequence C connected by this class chain300-C32Token tFiveIs given. A words such as the words “Toyota”, “Nissan”, “GM”.300B words such as “car”, “track”, “wagon”...32It belongs to.
[0056]
In this case, as a collocation candidate, as shown in FIG. 11B, “Toyota car”, “Toyota track”, “Toyota wagon”, “Nissan car”, “Nissan track”, “Nissan wagon”, “GM” word class C, such as “car”, “GM track”, “GM wagon”,.300A words and word class C belonging to32Conjunction candidates are generated by the number A × B of permutations with B words belonging to. Since the collocation candidates include collocations that do not exist in the text data, by scanning the text data, only collocations existing in the text data are extracted from these collocation candidates. For example, “Nissan track” and “Toyota wagon” exist in text data, but “Toyota car”, “Toyota track”, “Nissan car”, “Nissan wagon”, “GM car”, “GM track”. When “GM wagon” does not exist, only “Nissan track” and “Toyota wagon” are extracted from the text data as collocations as shown in FIG.
[0057]
FIG. 12 shows C word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC}, D words / token class {T1, T2, TThree, TFour... TD} And D words and collocation classes {R1, R2, RThree, RFour・ ・ ・ ・ ・ ・ RD} Is a diagram showing an example.
[0058]
In FIG. 12A, C word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC} Is generated by the word classification means 1 of FIG. 1, and for example, words such as “he”, “she”, “it”.FiveAnd words such as “York”, “London”...28And the words “car”, “track”, “wagon”...32And the words “new”, “old”...63And the words “Toyota”, “Nissan”, “GM”...300It belongs to. In addition, it is assumed that there are many collocations of “New York”, “Nissanttrack”, and “Toyota wagon” in the text data.
[0059]
This C word class {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC} Is a one-dimensional sequence of words (w1w2wThreewFour... wT) In a one-dimensional string of word classes mapped in a one-to-one correspondence, the word class string extracting means 3 in FIG.63And word class C to which “York” belongs28The word class C63And word class C28Are connected with a class chain. Further, the word class string extraction means 3 uses the word class C to which “Toyota” and “Nissan” belong.300Class C to which “track” and “wagon” belong32The word class C300And word class C32Are connected with a class chain.
[0060]
The token granting means 4 uses the word class sequence C63-C28Token t1And the word class sequence C300-C32Token tFiveIs granted.
The word / token string generation means 5 is a one-dimensional string (w1w2wThreewFour... wT) With “New York” in token t1Replaced with a one-dimensional string of words in the text data (w1w2wThreewFour... wT) “Nissan track” and “Toyota wagon” existing in the token tFiveGenerate a one-dimensional sequence of words / tokens replaced with.
[0061]
The word / token classifying means 6 includes “he”, “she”, “it”, “London”, “car”, “track”, “wagon”,. The word “t”1"," TFive”And the like, and the D words / token class {T in FIG.1, T2, TThree, TFour... TD} Is generated.
[0062]
Word / token class {T1, T2, TThree, TFour... TD}, For example, a word or token such as “he”, “she”, “it”.FiveBelonging to “t1”,“ London ”... and other words and tokens are word / token class T28, "Car", "track", "wagon", "tFiveWords such as "..." and tokens are word / token class T32And the words and tokens such as “new”, “old”...63The words and tokens such as “Toyota”, “Nissan”, “GM”.300Belongs to. Thus, the word / token class {T1, T2, TThree, TFour... TD}, A word and a token are mixed and classified without distinction between the word and the token.
[0063]
The collocation replacement means 7 uses the word / token class {T in FIG.1, T2, TThree, TFour... TD} In “t”1"," TFiveThe tokens such as “” are reversely replaced with the collocations existing in the one-dimensional sequence of the words of the text data, whereby the word / collocation class {R in FIG.1, R2, RThree, RFour・ ・ ・ ・ ・ ・ RD} Is generated. For example, word / token class T28Token t belonging to1Is replaced by “New York” existing in the one-dimensional string of the word of the text data by the word / token string generation means 5, so this token t1Is replaced by “New York” to obtain the word / collocation class R28And the word / token class T32Token t belonging toFiveIs replaced by “Nissan track” and “Toyota wagon” existing in the one-dimensional string of words of the text data by the word / token string generation means 5.FiveIs replaced by “Nissan track” and “Toyota wagon”, so that the word / collocation class R32Is generated.
[0064]
13 is a block diagram showing a system configuration for realizing the word / collocation classification processing apparatus of FIG.
In FIG. 13, the memory interfaces 42 and 46, the CPU 43, the ROM 44, the work RAM 45, the RAM 47, the driver 71, and the communication interface 72 of the word / collocation classification processing unit 41 are connected to each other via a bus 48, and the text data 40 is When input to the classification processing unit 41, the CPU 43 processes the text data 40 according to a program stored in the ROM 44 and performs a classification process of words and collocations of the text data 40. The word and collocation classification results of the text data 40 are stored in the word / collocation dictionary 49. Note that the text data 40 and the word and collocation classification processing results can be transmitted and received from the communication interface 72 via the communication network 73.
[0065]
Further, after loading a program for performing classification processing of words and collocations from a hard disk 74, an IC memory card 75, a magnetic tape 76, a floppy disk 77 or a storage medium such as a CD-ROM or DVD-ROM into the RAM 47, This program may be executed by the CPU 43.
[0066]
Further, a program for performing word and collocation classification processing can be taken out from the communication network 73 via the communication interface 72. As the communication network 73 connected to the communication interface 72, for example, a LAN (Local Area Network), a WAN (Wide Area Network), the Internet, an analog telephone network, a digital telephone network (ISDN: Integrated Service Digital Network), a PHS (Personal Handy System). ) Or a wireless communication network such as satellite communication.
[0067]
FIG. 14 is a flowchart showing the operation of the word / collocation classification processing apparatus of FIG.
In FIG. 14, first, as shown in step S1, word clustering processing is performed. In this word clustering process, a one-dimensional sequence (w1w2wThreewFour... wT) As V words different from each other {v1, V2, VThree, VFour, ..., vV} And extract a set of V words {v1, V2, VThree, VFour, ..., vV} To C word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC} To perform the first clustering process.
[0068]
Where V words {v1, V2, VThree, VFour, ..., vV} Each word class {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CV} And then V word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CV} Is merged to obtain V word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CV} Is reduced by one to C word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC}, When V becomes as large as 7000, the number of calculations of the average mutual information AMI of the expression (1) for performing the merge processing becomes enormous, which is not realistic. . For this reason, window processing is performed to reduce the number of word classes to be merged.
[0069]
FIG. 15 is a diagram illustrating window processing.
In FIG. 15A, V words {v of text data1, V2, VThree, VFour, ..., vV} V word classes assigned to each {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CV}, C + 1 word classes {C assigned to words with high appearance frequency in the text data1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC, CC + 1}, And this C + 1 word class {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC, CC + 1} Is merged.
[0070]
Here, as shown in FIG. 15B, M word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CM} Means C + 1 word classes {C in the window1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC, CC + 1}, The M word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CM} Is reduced by one and M−1 word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CM-1} And C + 1 word classes {C in the window1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC, CC + 1} Is also reduced by 1 and C word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC}.
[0071]
In this case, as shown in FIG. 15C, the word class {CC + 1・ ・ ・ ・ ・ ・ CM-1}, The word class C having the highest appearance frequency in the text dataC + 1Into the window to keep the number of word classes in the window constant.
[0072]
Then, there is no word class outside the window, and C word classes {C in FIG.1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC} Is generated, the word clustering process is terminated.
[0073]
In the above-described embodiment, the number of word classes in the window is set to C + 1. However, the number may be less than V + 1 other than C + 1, or may be changed in the middle.
[0074]
FIG. 16 is a flowchart showing the word clustering process in step S1.
In FIG. 16, first, as shown in step S10, a one-dimensional sequence of T words (w1w2wThreewFour... wT) Based on the text data of all V words {v1, V2, VThree, VFour, ..., vV} And the V words {v1, V2, VThree, VFour, ..., vV} Are arranged in descending order of appearance frequency, and these V words {v1, V2, VThree, VFour, ..., vV} With V word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CV}.
[0075]
Next, as shown in step S11, V word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CV}, From the words of the word class having a high appearance frequency, the words of the C + 1 word class of less than V are set as the words of the word class in one window.
[0076]
Next, as shown in step S12, among the words of the word class in one window, temporary pairs of all combinations are created, and the average mutual information AMI when the temporary pairs are temporarily merged is expressed by (1) Calculate with the formula.
[0077]
Next, as shown in step S13, one temporary word pair having the maximum average mutual information AMI among the average mutual information AMI for all combinations of temporary pairs is fully merged, thereby obtaining one word class. Only the words of the word class in one window after this merge are updated.
[0078]
Next, as shown in step S14, it is determined whether or not there are no word classes outside the window and there are C word classes in the window. If this condition is not satisfied, the process proceeds to step S15, and the current class is determined. The words of the class having the maximum appearance frequency outside the window are put in the window, the process returns to step S12, and the number of word classes is decreased by repeating the above processing.
[0079]
On the other hand, if the condition of step S14 is satisfied and there are no word classes outside the window and the number of word classes is C, the process proceeds to step S16, where C word classes {C1, C2, CThree, CFour・ ・ ・ ・ ・ ・ CC} Is stored in the memory.
[0080]
Next, as shown in step S2 of FIG. 14, class chain extraction processing is performed. In this class chain extraction process, two adjacent word classes having a mutual information amount equal to or greater than a predetermined threshold in a one-dimensional sequence of word classes of text data generated based on the first clustering process in step S1. A set of word class strings connected by a chain is extracted by connecting.
[0081]
FIG. 17 is a flowchart showing a first embodiment of the class chain extraction process in step S2.
In FIG. 17, first, as shown in step S20, two word classes (Ci, Cj).
[0082]
Next, as shown in step S21, the two word classes (Ci, Cj) Mutual information MI (Ci, Cj) Is calculated by equation (2).
[0083]
Next, as shown in step S22, the mutual information MI (Ci, Cj) Is equal to or greater than a predetermined threshold value TH, and the mutual information MI (Ci, Cj) Is greater than or equal to a predetermined threshold value TH, the process proceeds to step S23, and the two word classes (Ci, Cj) In the class chain and stored in the memory, mutual information MI (Ci, Cj) Is smaller than the predetermined threshold value TH, step S23 is skipped.
[0084]
Next, as shown in step S24, in the word class connected by the class chain stored in the memory, the word class CiTo determine if there is a class chain that ends with the word class CiIf there is a class chain that ends in step S25, the process proceeds to step S25, and the word class CiThe word class C in the class chain ending withjConnect.
[0085]
On the other hand, in step S24, the word class CiIf there is no class chain terminated in step S25, step S25 is skipped.
Next, as shown in step S26, two word classes (Ci, Cj) Are extracted, and two adjacent word classes (Ci, Cj) Are extracted, the class chain extraction process ends, and two adjacent word classes (Ci, Cj) Are not extracted, the process returns to step S20 and the above processing is repeated.
[0086]
FIG. 18 is a flowchart showing a second embodiment of the class chain extraction process in step S2.
In FIG. 18, first, as shown in step S201, two word classes (Ci, Cj) In order. Then, the two extracted word classes (Ci, Cj) For mutual information MI (Ci, Cj) Is calculated from the expression (2) to extract all class chains of length 2 from a one-dimensional sequence of word classes of text data.
[0087]
Next, as shown in step S202, all class chains of length 2 are replaced with objects, respectively. Here, the object represents the same token as the above-described token, but the token given to the class chain of length 2 is particularly called an object.
[0088]
Next, as shown in step S203, for the one-dimensional column of the text data class, the class chain of length 2 to which the object is assigned in step S202 is replaced with the object, and the text data class and the one-dimensional column of the object are replaced. Is generated.
[0089]
Next, as shown in step S204, one object existing in the one-dimensional column of the text data class and the object is regarded as one class, and two classes (Ci, Cj) Mutual information MI (Ci, Cj) Is calculated by equation (2). That is, the mutual information MI (Ci, Cj) Is calculated between one class and one class adjacent to each other, calculated between one class adjacent to each other and one object (class chain of length 2), and There are cases where the calculation is performed between one object (class chain having a length of 2) and one object (class chain having a length of 2) that are adjacent to each other.
[0090]
Next, as shown in step S205, the mutual information amount MI (Ci, Cj) Is equal to or greater than a predetermined threshold value TH, and the mutual information MI (Ci, Cj) Is equal to or greater than the predetermined threshold value TH, the process proceeds to step S26, and the two adjacent classes extracted in step S204, the one class and one object adjacent to each other, or the two objects adjacent to each other Are connected by a class chain and mutual information MIi, Cj) Is smaller than the predetermined threshold value TH, step S206 is skipped.
[0091]
FIG. 19 is a diagram showing a class chain extracted from a one-dimensional sequence of text data classes and objects.
In FIG. 19, when a class chain is extracted between one class adjacent to each other and one class, a class chain (object) having a length of 2 is generated, and one class and one object adjacent to each other are generated. If a class chain is extracted between two objects, a class chain with a length of 3 is generated. If a class chain is extracted between one object and one object adjacent to each other, a class chain with a length of 4 is Generated.
[0092]
Next, as shown in step S207 of FIG. 18, it is determined whether or not the class chain extraction process has been performed a predetermined number of times. If the predetermined number of times has not been performed, the process returns to step S202 and the above process is repeated.
[0093]
In this way, the class chain of length 2 is replaced with an object, and the mutual information MI (Ci, Cj) Is repeated, a class chain having an arbitrary length can be extracted.
[0094]
Next, as shown in step S3 of FIG. 14, token replacement processing is performed. In this token replacement process, a unique token is associated with the word class string extracted in the class chain extraction process in step S2, a word string belonging to this word class string is searched from a one-dimensional string of words in the text data, and the text By replacing the word string of data with the corresponding token, a one-dimensional string of words and tokens for the text data is generated.
[0095]
FIG. 20 is a flowchart showing the token replacement process in step S3.
In FIG. 20, first, as shown in step S30, the extracted class chains are sorted according to a predetermined rule except for duplication, and a token is associated with each class chain, and a name is given to the class chain. Here, the class chains are sorted in the order of ASCII codes, for example.
[0096]
Next, as shown in step S31, one class chain corresponding to the token is taken out.
Next, as shown in step S32, it is determined whether or not there is a word string belonging to the word class string connected by the class chain in the one-dimensional string of the words of the text data, and the words connected by the class chain If there is a word string belonging to the class string, the process proceeds to step S33, where the corresponding word string in the text data is replaced with one token, and the word string belonging to the word class string connected by the class chain is the primary word of the text data word. Repeat the above process until it no longer exists in the original sequence.
[0097]
On the other hand, if there is no word string belonging to the word class string connected by the class chain, the process proceeds to step S34, and whether or not the collocation / token replacement process for all the class chains associated with the tokens in step S30 is completed. If it is determined that the collocation / token replacement process has not been completed for all the class chains, the process returns to step S31, one new class chain is taken out, and the above process is repeated.
[0098]
Next, as shown in step S4 of FIG. 14, a word / token clustering process is performed. In this word / token clustering process, different words and different tokens are extracted in a one-dimensional sequence of words and tokens for text data, and a set of mixed words and tokens is defined as a word / token class {T1, T2, TThree, TFour... TD} To perform the second clustering process.
[0099]
FIG. 21 is a flowchart showing the word / token clustering process in step S4.
In FIG. 21, as shown in step S40, clustering is performed by the same method as the first word clustering process in step S1, using the one-dimensional string / word token of the text data obtained in step S3 as input data. From word / token class {T1, T2, TThree, TFour... TD} Is generated. In the second clustering process, the word and token are not distinguished, and the token is treated as one word. Each generated word / token class {T1, T2, TThree, TFour... TD} Includes a word and a token as its elements.
[0100]
Next, as shown in step S5 of FIG. 14, data output processing is performed. In this data output process, a word string corresponding to a token among word strings existing in a one-dimensional string of words of text data is extracted as a collocation, and a word / token class {T1, T2, TThree, TFour... TD} Is replaced with a collocation, and a set of words and collocations is converted into a word / collocation class {R1, R2, RThree, RFour・ ・ ・ ・ ・ ・ RD} To perform a third clustering process.
[0101]
FIG. 22 is a flowchart showing the data output process in step S5.
In FIG. 22, first, as shown in step S50, one word / token class TiOne token t fromKTake out.
[0102]
Next, as shown in step S51, the one-dimensional string of words of the text data is scanned, and in step S52, the token t taken out in step S50 is retrieved.KIt is determined whether or not there is a word string belonging to the word class string connected by the class chain corresponding to. And token tKIf the word string belonging to the word class string connected by the class chain corresponding to is present in the one-dimensional string of the word of the text data, the process proceeds to step S53, and the process of regarding this word string as a collocation is repeated, The token t in these collocations obtained by scanning a one-dimensional string of wordsKReplace
[0103]
On the other hand, token tKIf the word string belonging to the word class string connected by the class chain corresponding to is not present in the one-dimensional string of the words of the text data, the process proceeds to step S54 to determine whether the processing has been completed for all tokens, If the processing has not been completed for all tokens, the process proceeds to step S50, and the above processing is repeated.
[0104]
For example, in the token replacement process in step S3, a one-dimensional string (w1w2wThreewFour... wT) Word string (w1w2), (W13w14), ... token t1Is replaced by the word string (wFourwFivew6), (W17w18), ... token t2Is replaced by the token t1As a collocation corresponding to {w1-W2, W13-W14, ...} are extracted from the text data and the token t2As a collocation corresponding to {wFour-WFive-W6, W17-W18,... Are extracted from the text data.
[0105]
One word / token class TiIs a set of words WiAnd token set Ji= {Ti1, Ti2, ... tin}, Token class TiIs {Wi∪Ji}, And a set of tokens JiOne token t inimIs a set of collocations Vim= {Vim (1), Vim (2), ...}, if reverse token substitution is performed, one word / collocation class RiIs
[0106]
[Expression 2]
Figure 0003875357
[0107]
Given in.
As described above, according to the word / collocation classification processing apparatus according to the embodiment of the present invention, it is possible to classify a word and a collocation without distinction.
[0108]
Next, a speech recognition apparatus according to an embodiment of the present invention will be described.
FIG. 23 is a block diagram illustrating a configuration of a speech recognition apparatus that performs speech recognition using a word / collocation classification processing result obtained by the word / collocation classification processing apparatus of FIG. 1.
[0109]
In FIG. 23, words and collocations included in predetermined text data 40 are classified into a class in which words and collocations are mixed by the word / collocation classification processing unit 41, and the classified words and collocations are classified into words / collocations. It is stored in the dictionary 49.
[0110]
On the other hand, a pronunciation sound composed of a plurality of words and collocations is converted into an analog sound signal by the microphone 50, converted into a digital sound signal by the A / D converter 51, and input to the feature extraction unit 52. The feature extraction unit 52 performs, for example, LPC analysis on the digital audio signal, and extracts feature parameters such as cepstrum coefficients and logarithmic power. The feature parameters extracted by the feature extraction unit 52 are output to the speech recognition unit 54, refer to a language model 55 such as a phoneme hidden Markov model, and classify words and collocations stored in the word / collocation dictionary 49. Speech recognition is performed for each word and collocation while referring to the result.
[0111]
FIG. 24 is a diagram illustrating an example in the case where speech recognition is performed using the word / collocation classification processing result.
In FIG. 24, the pronunciation sound uttered as “Today is sunny” is input to the microphone 50, and the speech model is applied to the pronunciation sound, for example, the recognition result “Today is sunny” and “Today The recognition result “is electrostatic” is obtained. When the recognition result by these speech models is processed by the language model and the word / collocation dictionary 49 is referred to and the collocation “sunny weather” is registered in the word / collusion dictionary 49, “Today is a fine weather” A high probability is given to the recognition result “Nari”, and a low probability is given to the recognition result “Today is electrostatic”.
[0112]
As described above, according to the speech recognition apparatus according to the embodiment of the present invention, more accurate recognition processing can be performed by referring to the word / collocation dictionary 49 and performing speech recognition.
[0113]
Next, a machine translation apparatus according to an embodiment of the present invention will be described.
FIG. 25 is a block diagram illustrating a configuration of a machine translation apparatus that performs machine translation using the word / collocation classification processing result obtained by the word / collocation classification processing apparatus of FIG. 1.
[0114]
In FIG. 25, words and collocations included in the predetermined text data 40 are classified into a class in which words and collocations are mixed by the word / collocation classification processing unit 41, and the classified words and collocations are classified into words / collocations. It is stored in the dictionary 49. In addition, the example original sentence and the example translated sentence for the example original sentence are stored in the example sentence collection 60 in association with each other.
[0115]
When the original text is input to the example search unit 61, the class to which the input original word belongs is searched while referring to the word / collocation dictionary 49, and the example includes words or collocations belonging to the same class as the class. The original sentence is searched from the example sentence collection 60. The example original sentence retrieved from the example sentence collection 60 and its example translation are input to the example application unit 62, and the translation of the example translation is replaced with the translation for the input original word. Generate a translation.
[0116]
FIG. 26 is a diagram illustrating an example in the case where speech recognition is performed using the word / collocation classification processing result.
In FIG. 26, “Toyota” and “Kohlberg Kravis Robert & Co.” belong to the same class, “gained” and “lost” belong to the same class, and “2” and “1” are the same. It is assumed that “30 1/4” and “80 1/2” belong to the same class.
[0117]
When “Toyota gained 2 to 30 1/4” is input as the original text, “Kohlberg Kravis Robert & Co. last 1 to 80 1/2.” Is retrieved from the example sentence collection 60 as an example original text. An example translated sentence “Kohlberg Kravis Robert & Co., Inc. lowered the dollar value to the closing price of 80 1/2 dollars” for the original example text is also searched.
[0118]
Next, the translated word “Kohberg Kravis Robert & Co.” of the example translation is used with the translation “Toyota” for the source word “Toyota” belonging to the same class as the original word “Kohlberg Kravis Robert & Co.”. Replace the translated word “down” with the translated word “raised” for the source word “gained” belonging to the same class as the original word “lost” of the example source text, and replace the translated value “1” with the example translated text “1” Is replaced with “2”, and the numerical value “80 1/2” in the example translation is replaced with “30 1/4”. Is output.
[0119]
As described above, according to the machine translation apparatus according to an embodiment of the present invention, by performing machine translation with reference to the word / collocation dictionary 49, more accurate translation processing can be performed.
[0120]
As mentioned above, although one Example of this invention was described, this invention is not limited to the Example mentioned above, Various other changes are possible within the range of the technical idea of this invention. For example, in the above-described embodiments, the case where the word / collocation classification processing apparatus is applied to a speech recognition apparatus and a machine translation apparatus has been described. However, the word / collocation classification processing apparatus may be used as a character recognition apparatus. In the above-described embodiments, the case where words and collocations are classified is described. However, only collocations may be extracted and the extracted collocations may be classified.
[0121]
【The invention's effect】
As described above, according to the word and collocation classification processing apparatus of the present invention, by classifying words and collocations included in text data together and generating a class in which words and collocations are mixed, the word In addition to categorizing words and collocations or collocations and collocations, the correspondence and similarity between words and collocations or collocations and collocations can be easily identified. it can.
[0122]
According to one aspect of the present invention, a token is assigned to a word class string of text data, the word class string is regarded as one word, and a word included in the text data and a word class string to which the token is given are Since they are treated equally and classified, and the corresponding word class string is replaced with the word string existing in the text data, classification processing can be performed without distinguishing between words and collocations, and from the text data Can be extracted at high speed.
[0123]
Further, according to the collocation extracting apparatus of the present invention, each word constituting the word string of the text data is replaced with the word class to which the word belongs, and the word class string whose probability of appearing in the text data is a predetermined value or more. By extracting collocations existing in the text data after extraction, collocations can be extracted at high speed.
[0124]
Furthermore, according to the speech recognition apparatus of the present invention, speech recognition can be performed using the correspondence and similarity between words and collocations or collocations and collocations, and accurate processing is possible.
[0125]
Further, according to the machine translation device of the present invention, even when an original sentence in which a word of an example original sentence stored in the example sentence collection is replaced with a collocation is inputted, the example original sentence is applied to the inputted original sentence and machine translation is performed. Therefore, accurate machine translation using correspondence and similarity between words and collocations or collocations and collocations becomes possible.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional configuration of a word / collocation classification processing apparatus according to an embodiment of the present invention;
FIG. 2 is a diagram for explaining word clustering processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 3 is a block diagram showing a functional configuration of the word classification unit of FIG. 1;
FIG. 4 is a diagram for explaining word class string generation processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 5 is a diagram for explaining class chain extraction processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
6 is a block diagram showing a functional configuration of the word class string extraction unit in FIG. 1; FIG.
FIG. 7 is a diagram showing a relationship between a class chain and a token by a word / collocation classification processing apparatus according to an embodiment of the present invention;
FIG. 8 is a diagram for explaining token replacement processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 9 is a diagram illustrating an English example of token replacement processing by the word / collocation classification processing apparatus according to the embodiment of the present invention;
10 is a block diagram showing a functional configuration of the word / token classification means of FIG. 1. FIG.
FIG. 11 is a diagram showing a relationship between tokens and collocations by the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 12 is a diagram showing a word / collocation classification processing result by the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 13 is a block diagram showing a system configuration of a word / collocation classification processing apparatus according to an embodiment of the present invention;
FIG. 14 is a flowchart showing word / collocation classification processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 15 is a diagram for explaining window processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 16 is a flowchart showing word clustering processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 17 is a flowchart showing a first embodiment of class chain extraction processing of the word / collocation classification processing apparatus according to the present invention;
FIG. 18 is a flowchart showing a second embodiment of class chain extraction processing of the word / collocation classification processing apparatus according to the present invention;
FIG. 19 is a diagram for explaining a second embodiment of class chain extraction processing of the word / collocation classification processing apparatus according to the present invention;
FIG. 20 is a flowchart showing token replacement processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 21 is a flowchart showing word / token clustering processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 22 is a flowchart showing data output processing of the word / collocation classification processing apparatus according to the embodiment of the present invention;
FIG. 23 is a block diagram showing a functional configuration of a speech recognition apparatus according to an embodiment of the present invention.
FIG. 24 is a diagram illustrating a speech recognition method according to an embodiment of the present invention.
FIG. 25 is a block diagram showing a functional configuration of a machine translation apparatus according to an embodiment of the present invention.
FIG. 26 is a diagram illustrating a machine translation method according to an embodiment of the present invention.
[Explanation of symbols]
1 Word classification means
2 Word class string generation means
3. Word class string extraction means
4 token granting means
5 Word / token sequence generation means
6 Word / Token Classification Method
7 collocation means
40 text data
41 Word / Collaborative Word Classification Processing Unit
42, 46 Memory interface
43 CPU
44 ROM
45 Work RAM
47 RAM
48 bus
49 Word / Collaborative Dictionary
50 microphone
51 A / D converter
52 Feature Extraction Unit
53 Buffer memory
54 Voice recognition unit
55 language models
60 example sentences
61 Example search part
62 Application example

Claims (16)

複数の単語の一次元列としてのテキストデータから、互いに異なるV個の単語を抽出し、前記V個の単語の集合をC個の単語クラスに分割した第1のクラスタリングを生成するステップと、
前記第1のクラスタリングに基づいて生成された前記テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列の集合を抽出するステップと、
前記単語クラス列に固有のトークンを対応させ、前記単語クラス列に属する単語列を前記テキストデータから検索し、前記テキストデータの単語列を対応するトークンで置換することにより、前記テキストデータについての単語とトークンとの一次元列を生成するステップと、
前記テキストデータについての単語とトークンとの一次元列において、互いに異なる単語と互いに異なるトークンとを抽出し、前記単語と前記トークンとが混在する集合を単語・トークンクラスに分割した第2のクラスタリングを生成するステップと、
前記テキストデータに存在する単語列のうち、前記トークンに対応するものを連語として抽出し、前記単語・トークンクラスの中のトークンを前記連語で置換することにより、前記単語と前記連語とが混在する集合を単語・連語クラスに分割した第3のクラスタリングを生成するステップとを備えることを特徴とする単語・連語分類処理方法。
Extracting V words different from each other from text data as a one-dimensional sequence of a plurality of words, and generating a first clustering in which the set of V words is divided into C word classes;
Extracting a set of word class strings in which the degree of adhesion between adjacent word classes is a predetermined value or more in a one-dimensional string of word classes of the text data generated based on the first clustering;
By associating a unique token with the word class string, searching for a word string belonging to the word class string from the text data, and replacing the word string of the text data with a corresponding token, the word for the text data Generating a one-dimensional sequence of tokens and tokens;
In a one-dimensional sequence of words and tokens for the text data, a second clustering is performed in which different words and different tokens are extracted, and a set in which the words and the tokens are mixed is divided into word / token classes. Generating step;
Of the word string existing in the text data, the word corresponding to the token is extracted as a collocation, and the token in the word / token class is replaced with the collocation, so that the word and the collocation are mixed. Generating a third clustering by dividing the set into word / collocation classes, and a word / collocation classification processing method.
前記第1のクラスタリングは、前記単語クラスの平均相互情報量に基づいて生成されることを特徴とする請求項1に記載の単語・連語分類処理方法。  2. The word / collocation classification processing method according to claim 1, wherein the first clustering is generated based on an average mutual information amount of the word class. 前記第2のクラスタリングは、前記単語・トークンクラスの平均相互情報量に基づいて生成されることを特徴とする請求項1に記載の単語・連語分類処理方法。  The method of claim 1, wherein the second clustering is generated based on an average mutual information amount of the word / token class. テキストデータに含まれる単語を分類した単語クラスを生成するステップと、
前記単語クラスを前記テキストデータの単語の一次元列にマッピングして単語クラスの一次元列を生成するステップと、
前記テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を、前記テキストデータの単語クラスの一次元列から抽出するステップと、
前記テキストデータに含まれる単語と前記単語クラス列とを一緒に分類するステップと、
前記単語クラス列を構成する個々の単語クラスから、前記テキストデータに隣接して存在する個々の単語を別々に取り出して連語を抽出するステップと、
前記単語クラス列を前記単語クラス列に属する連語で置換するステップとを備えることを特徴とする単語・連語分類処理方法。
Generating a word class in which words included in text data are classified;
Mapping the word class to a one-dimensional sequence of words of the text data to generate a one-dimensional sequence of word classes;
In the one-dimensional column of the word class of the text data, extracting from the one-dimensional column of the word class of the text data, a word class column in which the adhesion between adjacent word classes is all equal to or greater than a predetermined value;
Classifying together the words contained in the text data and the word class sequence;
Extracting individual words by separately taking out individual words existing adjacent to the text data from individual word classes constituting the word class sequence; and
Replacing the word class string with the collocations belonging to the word class string.
テキストデータに含まれる単語を分類した単語クラスを生成するステップと、
前記単語クラスを前記テキストデータの単語の一次元列にマッピングして単語クラスの一次元列を生成するステップと、
前記テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を、前記テキストデータの単語クラスの一次元列から抽出するステップと、
前記単語クラス列を構成する個々の単語クラスから、前記テキストデータに隣接して存在する個々の単語を別々に取り出して連語を抽出するステップとを備えることを特徴とする連語抽出方法。
Generating a word class in which words included in text data are classified;
Mapping the word class to a one-dimensional sequence of words of the text data to generate a one-dimensional sequence of word classes;
In the one-dimensional column of the word class of the text data, extracting from the one-dimensional column of the word class of the text data, a word class column in which the adhesion between adjacent word classes is all equal to or greater than a predetermined value;
A collocation extraction method, comprising: separately extracting individual words existing adjacent to the text data from individual word classes constituting the word class sequence and extracting collocations.
テキストデータの単語列から互いに異なる単語を抽出し、抽出された前記単語の集合を分割して単語クラスを生成する単語分類手段と、
前記テキストデータの単語の一次元列を構成する個々の単語を、前記単語が属する前記単語クラスで置換することにより、前記テキストデータの単語クラスの一次元列を生成する単語クラス列生成手段と、
前記テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を、前記テキストデータの単語クラスの一次元列から抽出する単語クラス列抽出手段と、
前記単語クラス列抽出手段により抽出された各単語クラス列にトークンを付与するトークン付与手段と、
前記テキストデータの単語の一次元列のうち、前記単語クラス列抽出手段により抽出された単語クラス列に属する単語列を前記トークンで置換することにより、前記テキストデータの単語・トークンの一次元列を生成する単語・トークン列生成手段と、
前記テキストデータの単語・トークンの一次元列に含まれる単語とトークンとが混在する集合を分割して単語・トークンクラスを生成する単語・トークン分類手段と、
前記単語・トークンクラスの中のトークンを、前記単語・トークン列生成手段により置換された単語列に逆置換して連語を生成する連語置換手段とを備えることを特徴とする単語・連語分類処理装置。
Word classification means for extracting different words from a word string of text data and dividing the extracted set of words to generate a word class;
A word class string generating means for generating a one-dimensional string of the word class of the text data by replacing individual words constituting the one-dimensional string of words of the text data with the word class to which the word belongs;
A word class string extracting means for extracting a word class string in which the degree of adhesion between adjacent word classes is a predetermined value or more from a one-dimensional string of the word class of the text data in the one-dimensional string class of the text data; ,
Token giving means for giving a token to each word class string extracted by the word class string extracting means;
By replacing the word string belonging to the word class string extracted by the word class string extraction unit with the token among the one-dimensional string of words of the text data, the one-dimensional string of words / tokens of the text data is changed. A word / token sequence generation means to generate;
A word / token classifying means for generating a word / token class by dividing a set of mixed words and tokens included in a one-dimensional column of words / tokens of the text data;
A word / collocation classification processing apparatus comprising: a collocation replacing unit that reversely replaces a token in the word / token class with a word string replaced by the word / token string generation unit to generate a collocation. .
前記単語分類手段は、
前記テキストデータの単語の一次元列から互いに異なる単語を抽出し、所定の出現頻度を有する単語のそれぞれに固有の単語クラスを割り当てる初期化クラス設定部と、
単語クラスの集合から2つの単語クラスを取り出して仮マージする仮マージ部と、
前記テキストデータの仮マージされた単語クラスについての平均相互情報量を算出する平均相互情報量算出部と、
前記単語クラスの集合のうち、前記平均相互情報量が最大である2つの単語クラスを本マージする本マージ部とを備えることを特徴とする請求項6に記載の単語・連語分類処理装置。
The word classification means includes
An initialization class setting unit that extracts different words from a one-dimensional sequence of words of the text data and assigns a unique word class to each word having a predetermined appearance frequency;
A temporary merge unit that extracts two word classes from a set of word classes and temporarily merges them;
An average mutual information amount calculating unit for calculating an average mutual information amount for the temporarily merged word class of the text data;
The word / collocation classification processing apparatus according to claim 6, further comprising: a main merging unit that performs main merging of two word classes having the maximum average mutual information amount among the set of word classes.
前記単語クラス列抽出手段は、
前記テキストデータの単語クラスの一次元列から、隣接して存在する2つの単語クラスを順次に取り出す単語クラス取出部と、
前記単語クラス取出部により取り出した2つの単語クラスの相互情報量を算出する相互情報量算出部と、
前記相互情報量が所定のしきい値以上の2つの単語クラスをクラスチェーンで結ぶクラスチェーン結合部とを備えることを特徴とする請求項6に記載の単語・連語分類処理装置。
The word class string extraction means includes
A word class extraction unit for sequentially extracting two adjacent word classes from a one-dimensional sequence of word classes of the text data;
A mutual information amount calculation unit that calculates the mutual information amount of the two word classes extracted by the word class extraction unit;
The word / collocation classification processing apparatus according to claim 6, further comprising a class chain coupling unit that connects two word classes having a mutual information amount equal to or greater than a predetermined threshold by a class chain.
前記単語・トークン分類手段は、
前記テキストデータの単語・トークンの一次元列から互いに異なる単語と互いに異なるトークンとを抽出し、所定の出現頻度を有する単語とトークンとのそれぞれに固有の単語・トークンクラスを割り当てる初期化クラス設定部と、
単語・トークンクラスの集合から2つの単語・トークンクラスを取り出して仮マージする仮マージ部と、
前記テキストデータの仮マージされた単語・トークンクラスについての平均相互情報量を算出する平均相互情報量算出部と、
前記単語・トークンクラスの集合のうち、前記平均相互情報量が最大である2つの単語・トークンクラスを本マージする本マージ部とを備えることを特徴とする請求項6に記載の単語・連語分類処理装置。
The word / token classification means includes:
An initialization class setting unit that extracts different words and different tokens from a one-dimensional sequence of words / tokens of the text data, and assigns unique words / token classes to words and tokens having a predetermined appearance frequency. When,
A temporary merging unit that extracts two words / token classes from a set of words / token classes and temporarily merges them;
An average mutual information calculation unit for calculating an average mutual information amount for the temporarily merged word / token class of the text data;
The word / collocation classification according to claim 6, further comprising: a main merging unit that performs a main merging of two words / token classes having the maximum average mutual information amount among the set of the word / token classes. Processing equipment.
テキストデータに含まれる単語を分類した単語クラスを生成し、該単語クラスを該テキストデータの単語の一次元列にマッピングして単語クラスの一次元列を生成し、該テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を、該テキストデータの単語クラスの一次元列から抽出し、該単語クラス列を構成する個々の単語クラスから、該テキストデータに隣接して存在する個々の単語を別々に取り出して連語を抽出する連語抽出手段と、
前記テキストデータに含まれる単語と連語とを一緒に分類して、単語と連語とが混在するクラスを生成する単語・連語分類手段とを備えることを特徴とする単語連語分類処理装置。
Generating a word class in which words included in the text data are classified, mapping the word class to a one-dimensional column of words of the text data to generate a one-dimensional column of the word class, In the original sequence, word class sequences in which the adhesion levels between adjacent word classes are all equal to or greater than a predetermined value are extracted from the one-dimensional sequence of the word classes of the text data, and from the individual word classes constituting the word class sequence, Collocation extraction means for separately extracting individual words that are adjacent to the text data and extracting collocations;
A word collocation classification processing apparatus comprising: word / collocation classification means for classifying words and collocations included in the text data together to generate a class in which words and collocations are mixed.
前記クラスは、前記クラスの平均相互情報量に基づいて生成されることを特徴とする請求項10に記載の単語・連語分類処理装置。  The word / collocation classification processing apparatus according to claim 10, wherein the class is generated based on an average mutual information amount of the class. テキストデータに含まれる単語を分類して単語クラスを生成する単語分類手段と、
前記テキストデータの単語の一次元列を構成する個々の単語を、前記単語が属する前記単語クラスで置換することにより、前記テキストデータの単語クラスの一次元列を生成する単語クラス列生成手段と、
前記テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を、前記テキストデータの単語クラスの一次元列から抽出する単語クラス列抽出手段と、
前記単語クラス列を構成する個々の単語クラスから、前記テキストデータに隣接して存在する個々の単語を別々に取り出して連語を抽出する連語抽出手段とを備えることを特徴とする連語抽出装置。
Word classification means for classifying words contained in text data to generate a word class;
A word class string generating means for generating a one-dimensional string of the word class of the text data by replacing individual words constituting the one-dimensional string of words of the text data with the word class to which the word belongs;
A word class string extracting means for extracting a word class string in which the degree of adhesion between adjacent word classes is a predetermined value or more from a one-dimensional string of the word class of the text data in the one-dimensional string class of the text data; ,
A collocation extraction means comprising: collocation extraction means for extracting collocations by separately extracting individual words existing adjacent to the text data from the individual word classes constituting the word class sequence.
前記単語クラスは、前記単語クラスの平均相互情報量に基づいて生成されることを特徴とする請求項12に記載の連語抽出装置。  The collocation extracting apparatus according to claim 12, wherein the word class is generated based on an average mutual information amount of the word class. テキストデータに含まれる単語を分類した単語クラスを生成し、該単語クラスを該テキストデータの単語の一次元列にマッピングして単語クラスの一次元列を生成し、該テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を、該テキストデータの単語クラスの一次元列から抽出し、該単語クラス列を構成する個々の単語クラスから、該テキストデータに隣接して存在する個々の単語を別々に取り出して連語を抽出する連語抽出手段と、前記テキストデータに含まれる単語と連語とを一緒に分類して、単語と連語とが混在するクラスを生成する単語・連語分類手段とを備える単語連語分類処理装置によって、所定のテキストデータに含まれる単語と連語とを、単語と連語とが存在するクラスに分類し、該分類結果を格納している単語・連語辞書と、
前記単語・連語辞書と所定の隠れマルコフモデルとを参照することにより、発音音声を音声認識する音声認識手段とを備えることを特徴とする音声認識装置。
Generating a word class in which words included in the text data are classified, mapping the word class to a one-dimensional column of words of the text data to generate a one-dimensional column of the word class, In the original sequence, word class sequences in which the adhesion levels between adjacent word classes are all equal to or greater than a predetermined value are extracted from the one-dimensional sequence of the word classes of the text data, and from the individual word classes constituting the word class sequence, A word extraction unit that extracts individual words by separately extracting individual words existing adjacent to the text data and a word and a combination word are classified together, and the word and the combination word are mixed. A word collocation classification processing device comprising a word and collocation classification means for generating a class includes words and collocations, words and collocations included in predetermined text data. Classified into class that, and the word-phrase dictionary which stores the classification result,
A speech recognition apparatus comprising speech recognition means for recognizing pronunciation speech by referring to the word / collocation dictionary and a predetermined hidden Markov model.
テキストデータに含まれる単語を分類した単語クラスを生成し、該単語クラスを該テキストデータの単語の一次元列にマッピングして単語クラスの一次元列を生成し、該テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を、該テキストデータの単語クラスの一次元列から抽出し、該単語クラス列を構成する個々の単語クラスから、該テキストデータに隣接して存在する個々の単語を別々に取り出して連語を抽出する連語抽出手段と、前記テキストデータに含まれる単語と連語とを一緒に分類して、単語と連語とが混在するクラスを生成する単語・連語分類手段とを備える単語連語分類処理装置によって、所定のテキストデータに含まれる単語と連語とを、単語と連語とが存在するクラスに分類し、該分類結果を格納している単語・連語辞書と、
用例原文と前記用例原文に対する用例訳文とを対応させて格納している用例文集と、
入力された原文の単語が属するクラスと同一のクラスに属する単語または連語により構成される用例原文を前記用例文集から検索する用例検索手段と、
前記用例原文に対する用例訳文の中の訳語を、入力された原文の単語に対する訳語に置換することにより、前記入力された原文に対する訳文を生成する用例適用手段と、
を備えることを特徴とする機械翻訳装置。
Generating a word class in which words included in the text data are classified, mapping the word class to a one-dimensional column of words of the text data to generate a one-dimensional column of the word class, In the original sequence, word class sequences in which the adhesion levels between adjacent word classes are all equal to or greater than a predetermined value are extracted from the one-dimensional sequence of the word classes of the text data, and from the individual word classes constituting the word class sequence, A word extraction unit that extracts individual words by separately extracting individual words existing adjacent to the text data and a word and a combination word are classified together, and the word and the combination word are mixed. A word collocation classification processing device comprising a word and collocation classification means for generating a class includes words and collocations, words and collocations included in predetermined text data. Classified into class that, and the word-phrase dictionary which stores the classification result,
A collection of example sentences storing an example original text and an example translation corresponding to the example original text;
An example search means for searching an example original sentence composed of words or collocations belonging to the same class as the class to which the input original word belongs, from the example sentence collection;
An example application means for generating a translation for the input original text by replacing a translation in the example translation for the example original text with a translation for the word of the input text;
A machine translation device comprising:
テキストデータの単語の一次元列から互いに異なる単語を抽出し、抽出された前記単語の集合を分割して単語クラスを生成する機能と、
前記テキストデータの単語の一次元列を構成する個々の単語を、前記単語が属する前記単語クラスで置換することにより、前記テキストデータの単語クラスの一次元列を生成する機能と、
前記テキストデータの単語クラスの一次元列から、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列を抽出する機能と、
前記単語クラス列にトークンを付与する機能と、
前記テキストデータの単語の一次元列のうち、前記単語クラス列に属する単語列を前記トークンで置換することにより、前記テキストデータの単語・トークンの一次元列を生成する機能と、
前記テキストデータの単語・トークンの一次元列に含まれる単語とトークンとが混在する集合を分割して単語・トークンクラスを生成する機能と、
前記単語・トークンクラスの中のトークンを、前記テキストデータに存在する単語列に逆置換して連語を生成する機能とをコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記憶媒体。
A function of extracting different words from a one-dimensional sequence of words of text data and generating a word class by dividing the extracted set of words;
A function of generating a one-dimensional column of the word class of the text data by replacing individual words constituting the one-dimensional column of the words of the text data with the word class to which the word belongs;
A function of extracting a word class string in which all the adhesion levels between adjacent word classes are a predetermined value or more from a one-dimensional string of word classes of the text data;
A function of giving a token to the word class sequence;
A function of generating a one-dimensional sequence of words / tokens of the text data by replacing a word sequence belonging to the word class sequence with the tokens in a one-dimensional sequence of words of the text data;
A function of generating a word / token class by dividing a set of mixed words and tokens included in a one-dimensional sequence of words / tokens of the text data;
A computer-readable storage medium storing a program that causes a computer to execute a function of generating a collocation by reversely replacing a token in the word / token class with a word string existing in the text data.
JP16724397A 1996-08-02 1997-06-24 Word / collocation classification processing method, collocation extraction method, word / collocation classification processing device, speech recognition device, machine translation device, collocation extraction device, and word / collocation storage medium Expired - Fee Related JP3875357B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16724397A JP3875357B2 (en) 1996-08-02 1997-06-24 Word / collocation classification processing method, collocation extraction method, word / collocation classification processing device, speech recognition device, machine translation device, collocation extraction device, and word / collocation storage medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-204986 1996-08-02
JP20498696 1996-08-02
JP16724397A JP3875357B2 (en) 1996-08-02 1997-06-24 Word / collocation classification processing method, collocation extraction method, word / collocation classification processing device, speech recognition device, machine translation device, collocation extraction device, and word / collocation storage medium

Publications (2)

Publication Number Publication Date
JPH1097286A JPH1097286A (en) 1998-04-14
JP3875357B2 true JP3875357B2 (en) 2007-01-31

Family

ID=26491346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16724397A Expired - Fee Related JP3875357B2 (en) 1996-08-02 1997-06-24 Word / collocation classification processing method, collocation extraction method, word / collocation classification processing device, speech recognition device, machine translation device, collocation extraction device, and word / collocation storage medium

Country Status (1)

Country Link
JP (1) JP3875357B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1551007A4 (en) * 2002-10-08 2008-05-21 Matsushita Electric Ind Co Ltd Language model creation/accumulation device, speech recognition device, language model creation method, and speech recognition method
JP2004310691A (en) 2003-04-10 2004-11-04 Mitsubishi Electric Corp Text information processor
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
JP5799733B2 (en) 2011-10-12 2015-10-28 富士通株式会社 Recognition device, recognition program, and recognition method
CN111159409B (en) * 2019-12-31 2023-06-02 腾讯科技(深圳)有限公司 Text classification method, device, equipment and medium based on artificial intelligence
CN111768023B (en) * 2020-05-11 2024-04-09 国网冀北电力有限公司电力科学研究院 Probability peak load estimation method based on smart city electric energy meter data

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6154562A (en) * 1984-08-24 1986-03-18 Nec Corp Japanese input device
JPH03179498A (en) * 1989-12-08 1991-08-05 Nippon Telegr & Teleph Corp <Ntt> Voice japanese conversion system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
JPH06274546A (en) * 1993-03-19 1994-09-30 A T R Jido Honyaku Denwa Kenkyusho:Kk Information quantity matching degree calculation system
JP3361563B2 (en) * 1993-04-13 2003-01-07 松下電器産業株式会社 Morphological analysis device and keyword extraction device

Also Published As

Publication number Publication date
JPH1097286A (en) 1998-04-14

Similar Documents

Publication Publication Date Title
CN110364171B (en) Voice recognition method, voice recognition system and storage medium
US6178396B1 (en) Word/phrase classification processing method and apparatus
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
CN109979432B (en) Dialect translation method and device
US20070219777A1 (en) Identifying language origin of words
WO2011096015A1 (en) Recognition dictionary creation device and speech recognition device
CN111243602A (en) Voiceprint recognition method based on gender, nationality and emotional information
JPH08328585A (en) Method and device for natural language processing and method and device for voice recognition
CN112397054B (en) Power dispatching voice recognition method
CN110019741A (en) Request-answer system answer matching process, device, equipment and readable storage medium storing program for executing
CN112259083A (en) Audio processing method and device
JP3875357B2 (en) Word / collocation classification processing method, collocation extraction method, word / collocation classification processing device, speech recognition device, machine translation device, collocation extraction device, and word / collocation storage medium
CN113327574A (en) Speech synthesis method, device, computer equipment and storage medium
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
US7302381B2 (en) Specifying arbitrary words in rule-based grammars
CN117292680A (en) Voice recognition method for power transmission operation detection based on small sample synthesis
CN113051923B (en) Data verification method and device, computer equipment and storage medium
CN113990288B (en) Method for automatically generating and deploying voice synthesis model by voice customer service
CN116052655A (en) Audio processing method, device, electronic equipment and readable storage medium
JPH1097285A (en) Speech recognition system
Shah et al. Speaker recognition for pashto speakers based on isolated digits recognition using accent and dialect approach
CN113077793A (en) Voice recognition method, device, equipment and storage medium
CN116341543B (en) Method, system, equipment and storage medium for identifying and correcting personal names
JP2011107251A (en) Voice recognition device, language model creation device and voice recognition method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060704

AA91 Notification that invitation to amend document was cancelled

Free format text: JAPANESE INTERMEDIATE CODE: A971091

Effective date: 20060725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061026

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees