JPH06274547A

JPH06274547A - 複合語認識装置

Info

Publication number: JPH06274547A
Application number: JP5062255A
Authority: JP
Inventors: Eiichi Niwano; 栄一庭野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-03-22
Filing date: 1993-03-22
Publication date: 1994-09-30

Abstract

(57)【要約】【目的】本発明の目的は、表記の多様性による表記揺
れ等の複合語の多様な曖昧性の問題を解決でき、より柔
軟に認識できる複合語認識装置を提供することである。【構成】本発明は、複合語解析手段２として、複合語
入力手段１から入力された複合語を単位語単位に分解す
る形態素解析手段２１と、複合語照合手段３として、少
なくとも２つの複合語を構成する単位語間の類似度を単
位語の構成要素である文字を単位として計算する単位語
類似度計算手段３１と、少なくとも単位語類似度計算手
段３１により得られた単位語の類似度を反映した単位語
を単位とする複合語の類似度を計算する複合語類似度計
算手段３２を有する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複合語認識装置に係
り、特に複数の単位語（単語）で構成される複合語が付
与されたマルチメディア情報を予め蓄積しておき、複合
語の入力により対応する情報を抽出する情報検索装置の
複合語照合部分等に応用可能な複合語認識装置に関す
る。

【０００２】

【従来の技術】複合語認識方法として最も基本的な方法
は完全一致によるものである。この方法は、入力語と標
準語が完全に一致した場合にのみ、一致したと認識する
ものである。

【０００３】この完全一致を用いる方法の高度化された
ものとして、部分一致を用いる方法とマッチング関数に
より複合語間の度合いを計算する２つの方法がある。

【０００４】最初に部分一致を用いる方法について説明
する。部分一致とは、完全一致より一致条件を緩和させ
たもので、入力文字列が標準文字列に部分的に一致して
いる場合に一致と認識する方法で、完全一致より曖昧な
文字列の認識が可能となる。

【０００５】部分一致としては、前方一致・中間一致・
後方一致を用いた方法がある。前方一致とは、語が一致
しない場合、後方より語を削除してゆき、格納されてい
る情報と前方で完全一致した場合に一致とみなすもので
ある。中間一致、後方一致も同様の手法による。

【０００６】次にマッチング関数による方法について説
明する。このマッチング関数により文字を単位とする類
似性評価よる方法は、“庭野「ファジーマッチング関数
による言語の類似性の定量化及び情報検索への応用」電
子情報通信学会秋期大会論文集pp. ６−５２”に示され
ている。

【０００７】代表的なマッチング関数にコサイン関数が
ある。これは、文字列の長さ、文字の一致数の違いを反
映させたものである。尚、従来の認識精度の高さ（柔軟
性）は、完全一致＜部分一致＜コサイン関数のようになっている。

【０００８】そこで、この中で最も認識精度の高いコサ
イン関数を用いた複合語認識方法について詳細に説明す
る。

【０００９】最初に完全一致によるマッチング関数につ
いて説明する。以下に説明するにあたり、ｘを入力語、
ｙを標準語とし、集合論における記号を用いて以下のよ
うに定義するｘ＝｛ｘ_n，ｘ_n-1，…，ｘ₁｝（ｘ：順序集合，ｘ_n，ｘ_n-1，…，ｘ₁：文字）と記述し、同様に標準語ｙをｙ＝｛ｙ_m，ｙ_m-1，…，ｙ₁｝（ｙ：順序集合、ｙ_m，ｙ_m-1，…，ｙ₁：文字）とする。

【００１０】Ｅ（ｘ）は語ｘの文字数、即ち，ｎ＝Ｅ
（ｘ），ｍ＝Ｅ（ｙ）であり、ｘ∩ｙは複合語ｘ，ｙの
一致文字の集合を表し、ｘとｙの類似度をμ（ｘ，ｙ）
と表す。

【００１１】図６は従来のコサイン関数を用いた複合語
認識処理の概要を示す。まず、複合語入力部１０１より
複合語ｘ，ｙが入力される。複合語入力部１０１より入
力された複合語ｘ，ｙが複合語照合部１０２に渡され
る。

【００１２】複合語照合部１０２は、文字一致評価部１
０３と複合語類似度計算部１０４より構成される。文字
一致評価部１０３は、複合語ｘ，ｙの文字数Ｅ（ｘ）、
Ｅ（ｙ）を計算する。さらに、複合語ｘとｙの文字の一
致を確定し、文字の一致数Ｅ（ｘ∩ｙ）を計算する。次
に、複合語類似度計算部１０４により上記で得られた文
字の一致数Ｅ（ｘ∩ｙ）を以下に式に代入し、複合語ｘ
とｙの類似度μ（ｘ，ｙ）を計算する。

【数１】

【００１３】最後に複合語類似度計算部１０４で求めら
れた類似度を複合語照合結果出力部１０５で複合語間の
類似度を出力する。

【００１４】さらに、コサイン関数を高度化したものと
して、文字列の文字の数、一致した文字の数という特徴
量の他に、一致した文字の文字列の中での順序、文字の
文字列の中での位置の重みの特徴をマッチング関数に反
映した方法がある。これをファジーマッチング関数を呼
ぶことにする。

【００１５】

【発明が解決しようとする課題】しかしながら、上記従
来の技術は、入力語の曖昧性を充分に吸収できないとい
う問題がある。例えば、前述のように従来の方法では、
完全一致、部分一致、コサイン関数、ファジーマッチン
グ関数の順で曖昧性を吸収できるが、（処理速度は逆に
この順で遅くなる）、コサイン関数あるいは最も精度の
高いファジーマッチング関数でも、複合語の類似度を文
字単位で評価しているため、以下のような問題が生じ
る。

【００１６】例えば、いま、複合語Ａを“ａｄ”、複合
語Ｂを“ａｂｄｅｆ”、複合語Ｃを“ａｃｄｈｉ”と
し、複合語Ａと複合語Ｂ、複合語Ｃをそれぞれ比較する
とする。ここで、複合語Ａは単位語に分解したときに
（ａ），（ｂ）となり、さらにこれは、（ａｂ）（ｄｅ
ｆ）（括弧内は単位語）となるような複合語Ｂの略語で
あったとする。また、複合語Ｂは、（ａｂ）（ｄｅ
ｆ）、複合語Ｃは（ａ）（ｃｄ）（ｈｉ）のように単位
語に分割されたとする。このとき本来であるならば、
“ａｄ”は、“ａｃｄｈｉ”よりも“ａｂｄｅｆ”に類
似しているとみなされるべきである。しかし、“ａｄ”
に対し、“ａｂｄｅｆ”、“ａｃｄｈｉ”はそれぞれ文
字数も等しく、また、文字の一致数、文字の文字列にお
ける一致順序、文字の文字列における一致した位置も等
しいと認識されるため、等価のものとして扱われる。こ
れは、複合語がまず単位語の集まりとして構成され、さ
らに単位語が文字の集まりとして構成されているという
段階を無視しているために起こる問題である。

【００１７】例えば、上記で、複合語Ａに対して複合語
Ｂ，複合語Ｃについて複合語の構成数は、文字単位での
比較を行った場合、それぞれ２：５、２：５となり、複
合語Ａと複合語Ｂ，Ｃは２：５の割合で構成数が違うと
みなされ、また、複合語Ｂ，複合語Ｃとも同じ割合で、
複合語Ａに類似しているとされる。

【００１８】一方、単位語単位での比較を行った場合、
２：２、２：３となり、複合語Ａと複合語Ｂは構成数と
しては同じであるとの認識が可能となり、また、複合語
Ｃと複合語Ｂの類似度が違うと認識できる。

【００１９】また、単位語単位での比較のみを行い、例
えば単位語の類似度を考慮しない、即ち、文字列の比較
を行わない場合、複合語Ａの文字“ａ”と複合語Ｂの
“ａｂ”は一致しないとみなされ、さらに“ｄ”も“ｄ
ｅｆ”と一致しないとみなされるため、複合語Ａと複合
語Ｂは全く類似していないと認識されるという問題が生
じる。

【００２０】従って、文字列を単位として単位語の類似
度を計算し、さらに、単位語を単位として複合語の類似
度を計算する必要がある。

【００２１】本発明は上記の点に鑑みなされたもので、
上記従来の問題を解決し、利用者の知識不足、記憶の不
確実性、入力ミスによる表記違い、表記の多様性による
表記揺れ等の複合語の多様な曖昧性の問題を解決でき、
より柔軟に認識できる複合語認識装置を提供することを
目的とする。

【００２２】

【課題を解決するための手段】図１は本発明の原理構成
図である。

【００２３】本発明は、複数の単位語で構成される複合
語を入力する複合語入力手段１と入力された複合語の特
徴抽出を行う複合語解析手段２と、該複合語間の照合を
行う複合語照合手段３と照合結果を出力する複合語照合
結果出力手段４により構成される複合語認識装置におい
て、複合語解析手段２として、複合語入力手段１から入
力された複合語を単位語単位に分解する形態素解析手段
２１と、複合語照合手段３として、少なくとも２つの複
合語を構成する単位語間の類似度を単位語の構成要素で
ある文字を単位として計算する単位語類似度計算手段３
１と、少なくとも単位語類似度計算手段３１により得ら
れた単位語の類似度を反映した単位語を単位とする複合
語の類似度を計算する複合語類似度計算手段３２を有す
る。

【００２４】

【作用】本発明は、単位語を単位とした複合語の比較を
行い、複合語を構成する単位語間の類似度を反映した複
合語の類似性を評価するマッチング関数を用いて、複合
語の特徴を反映した複合語の間の類似度を計算するもの
である。これは、文字列の関係を考慮した多値をもつ単
位語類似度計算法を用いるものである。例えば、入力語
を“数理情報”、“情報数学”をそれぞれ形態素解析に
より「数理」「情報」と「情報」「数学」のように単位
語に分割し、複合語を構成する単位語単位での照合を可
能にする。さらに略語等の単位語の先頭の文字に重みを
もたせることができ、略語の認識に有効である。

【００２５】また、単位語の類似度を反映するために、
複合語双方の全ての単位語間の類似度を文字単位として
複合語の類似度を計算することにより、例えば、従来の
技術の説明で用いた複合語Ａ，Ｂ，Ｃの類似性の違いを
認識可能とする。

【００２６】

【実施例】以下、図面と共に本発明の実施例を詳細に説
明する。

【００２７】図２は本発明の一実施例の複合語認識処理
の概要を示す。

【００２８】複合語入力部２０１は、最初に照合を行う
複合語を入力する。

【００２９】複合語入力部２０１により入力された複合
語をｘ，ｙとし、集合論の記号を用いて、複合語ｘにつ
いては、ｘ＝｛ｘ_n，ｘ_n-1，…，ｘ_i，…，ｘ₁｝（順序集
合、ｘ_i：単位語）と表記する。同様に複合語ｙについては、ｙ＝｛ｙ_m，ｙ_m-1，…，ｙ_j，…，ｙ₁｝と表記する。

【００３０】また、以下よりｘ_i，ｙ_jの項番ｉ，ｊの
小さい方を前方と呼ぶことにする。

【００３１】次に、複合語解析部２０２は、複合語入力
部２０１により入力された複合語を形態素解析部２０３
により単位語単位に分割する。但し、形態素解析部２０
３は、もし、単位語が単位語辞書２０４に登録されてい
なければ、未登録語が出現してもこれを単位語とみな
し、そのまま分割し、複合語の単位語数を計算する。複
合語ｘの単位語数をＥ（ｘ）、複合語ｙの単位語数をＥ
（ｙ）とする。

【００３２】次に、複合語照合部２０５は単位語類似度
計算部２０６、単位語類似度確定部２０７、単位語順序
評価部２０８、単位語重み評価部２０９、複合語類似度
計算部２１０により構成される。

【００３３】単位語類似度計算部２０６は、複合語
ｘ_i，ｙ_jの比較を行い、単位語を構成する文字間の類
似度計算を行う。図３は本発明の一実施例の単位類似度
計算部の詳細を説明するための図である。

【００３４】単位語類似計算部２０６は、単位語入力部
３０１、単位語照合部３０２及び単位語照合結果出力部
３０８より構成される。

【００３５】例えば、以下のようなマッチング関数を用
いた類似度計算を行う。最初に単位語類似度計算部２０
６の単位語入力部３０１は単位語ｘ_iと単位語ｙ_jが入
力される。

【００３６】ここで、単位語ｘ_iを集合の記号を用い
て、ｘ_i＝｛ｓ_n，ｓ_n-1，ｓ_k，…，ｓ₁｝（ｓ_n，ｓ
_n-1，…，ｓ₁は文字）と表記する。同様に、単位語ｙ_jをｙ_i＝｛ｔ_m，ｔ_m-1，ｔ_w，…，ｔ₁｝（ｔ_m，ｔ
_m-1，…，ｔ₁は文字）と表記する。例えば、（例１）ｘ_i＝｛ａ，ｂ，ｃ｝ｙ_j＝｛ｃ，ｂ，ｃ，ｄ｝とする。

【００３７】単位語類似度計算部２０６の単位語照合部
３０２は、文字類似度計算部３０３、文字類似度画定部
３０４、文字順序評価部３０５、文字重み評価部３０６
及び単位語類似度計算部３０７より構成され、単位語ｘ
_i，ｙ_jの比較を行い、文字数、文字類似度、文字一致
数、文字の順序・位置情報の検出を行う。

【００３８】文字類似度計算３０３は単位語の文字数を
計算する。ｘ_iの文字数をＥ（ｘ_i），ｙの文字数をＥ
（ｙ_j）とする。即ち、Ｅ（ｘ_i）＝ｎ，Ｅ（ｙ_j）＝ｍとなり、例１の場合：Ｅ（ｘ_i）＝３，Ｅ（ｙ_j）＝４
となる。

【００３９】まず、文字類似度計算部３０３は、文字類
似度計算を行う。ここで、以下のように、ｘ_i，ｙ_jの
文字をそれぞれｓｋ（１≦ｋ≦Ｅ（ｘ_i）），ｔｗ（１
≦ｗ≦Ｅ（ｘ_i））としたとき、ｓｋとｔｗの類似度を
ｄｃ（ｘ_i，ｙ_j）（０≦ｄｃ（ｘ_i，ｙ_j）≦１）と
する。

【００４０】例えば、文字ｓｋと文字ｔｗが一致する場
合、（ｓｋ＝ｔｗ）と、文字ｓｋとｔｗが一致しない場
合（ｓｋ≠ｔｗ）に分けてこれを以下のように定義して
もよい。

【数２】例１の場合、類似度ｄｃは、ｄｃ（ｓ１，ｔ１）＝ｄｃ（ｃ，ｄ）＝０，ｄｃ（ｓ１，ｔ２）＝ｄｃ（ｃ，ｃ）＝１となる。

【００４１】次に、文字類似度確定部３０４は文字ｓｋ
とｔｗの一致の確定を行う。これは、ｓｋと一致してい
るｔｗは複数ある場合もあり、これを複合語の中の単位
語という観点から、その一致を一つに対してｗをひとつ
だけ対応させるものである。これにより、以降の複合語
の類似度計算に必要な情報の検出が可能となる。

【００４２】そこで、以下文字ｓｋ，ｔｗに対して、一
致が確定された場合、ｆ（ｋ，ｗ）＝１，確定されない
場合、ｆ（ｋ，ｗ）＝０と記述することにする。また、
ここで、（ｋ，ｗ）に順序を導入する。まず、Ａ_n＝｛（ｋ，ｗ）｜ｋ_n＜ｋ≦Ｅ（ｘ_i），ｗ_n＜ｗ
≦Ｅ（ｘ_i）｝Ｂ_n＝｛（ｋ，ｗ）｜１＜ｋ≦ｋ，１＜ｗ
≦ｗ_n｝Ｃ_n＝｛（ｋ，ｗ）｜１＜ｋ≦ｋ_n，ｗ_n＜ｗ
≦Ｅ（ｙ_j）｝Ｄ_n＝｛（ｋ，ｗ）｜ｋ_n＜ｋ≦Ｅ（ｘ_i），１≦ｗ≦
ｗ_n｝但し、ｉ０＝ｊ０＝０，Ｗ_n＝Ａ_n∪ Ｂ_n∪ Ｃ_n∪
Ｄ_nとする。Ａ_n〜Ｄ _nはこの順序で順序付けされ
る。また、それぞれの内部では以下のように（ｋ，ｗ）
順序を導入する。（ｋ，＊）≦（ｋ１，＊）（ｋ≦ｋ１，＊：任意）これを以下に説明する。

【００４３】図４は本発明の一実施例の単位語間の文字
類似度計算結果の構成を示す。

【００４４】同図は、単位語ｘ_i,ｙ_jを構成する文字ｓ
ｋ，ｔｗ間の類似度ｄｃ（ｓｋ，ｔｗ）の値を並べたも
ので、Ａ_n〜Ｄ_nとの関係を表している。これにより、
上記で定義された順序は、ａ１の矢印の順に次にａ２の
矢印の順に順序付けられ、Ａ _nでの順序付けが終わる
と、次に、ｂ１，ｂ２の順で順序付けられることを示し
ている。Ｂ_nの次はＣ_n，Ｄ_nの順番に同様に順序付け
られる。即ち、

【数３】のように順序付けされる。また、Ｚ_n＝｛（ｋ，ｗ）｜ｋ＝ｋ₁，ｋ₂，・・・ｋ
_nｏｒｗ＝ｗ₁，ｗ₂，・・・ｗ_n｝Ｚ₀＝φ とおく、ここで、Ｚ_nは、ｋがｋ₁，ｋ₂，…ｋ_nのど
れであるか、ｗがｗ₁，…，ｗ_nのどれであるかのよう
な（ｋ，ｗ）∈Ｗ_nの集合である。

【００４５】ここで、次のような順序で一致の確定を行
う。図５は本発明の一実施例の文字一致確定処理のフロ
ーチャートを示す。先ず、カウントｎ＝１とし（ステッ
プ４０１）、ｄｃ（ｓｋ，ｔｗ）（（ｋ，ｔ）∈Ｗ₀−
Ｚ₀）を満たす最小の（ｋ，ｗ）である（ｋ_n，ｗ_n）
に対しｆ（ｋ_n，ｗ_n）＝１とする、即ち、一致が確定
されたとする（ステップ４０２）。これは、すべての類
似度ｄｃ（ｓｋ，ｔｗ）の中で値が最大のもの（ｋ，
ｗ）が最小のものをｆ（ｋ₁，ｗ₁）＝１とするもので
ある。

【００４６】同様に、ｎ≧２に対して、maxｄｃ（ｓ
ｋ，ｔｗ），ｋ≠１，…，ｋ_n或いはｗ≠１，…，ｗ_n
でないような（ｋ，ｗ）を満たす最小の（ｋ，ｗ）であ
る（ｋ_n，ｗ_n）に対してｆ（ｋ _n,ｗ_n）＝１とする
（ステップ４０２）。これは、ｆ（ｋ，ｗ）が確定して
いるすべてのｋ，ｗ、即ち、ｋ＝ｋ_1,・・・ｋ_n-1、ま
たは、ｗ＝ｗ₁，・・・ｗ_n- ₁となるすべての類似度ｄ
ｃ（ｓｋ，ｔｗ）を除くｄｃ（ｓｋ，ｔｗ）の中で値が
最大のもので、（ｋ，ｗ）が最小のものをｆ（ｋ_n，ｗ
_n）＝１とする。

【００４７】次に、上記の（ｋ，ｗ）に対してｄｃ（ｓ
ｋ，ｔｗ）の最大値をとるmax ｄｃ（ｓｋ，ｔｗ）＝０
（（ｋ，ｗ）∈ｗ_n-1−ｚ_n-1）或いはｎ＝Ｅ（ｘ）で
あるかどうか判断し（ステップ４０３）、これが成立し
ない場合ｎ＝ｎ＋１としてステップ４０４の動作を繰り
返す。一方、成立する場合には処理を終了する。

【００４８】これにより、例えば、以下のように、文字
の順序の差異・違いが最小化される（なるべくなくな
る）ような一致の確定がなされる。

【数４】

【００４９】即ち、ｆ（１，２）＝１，ｆ（１，４）＝
０となる。ここで、文字ｓｋ，ｔｗの類似度を確定す
る。これをυ１（ｓｋ，ｔｗ）とすると、

【数５】ここで、例１の場合、 υ１（ｓ１，ｔ２）＝１， υ１（ｓ１，ｔ４）＝０となる。

【００５０】次に文字一致数を計算する。上記の文字一
致の確定に基づいて、文字の一致数、即ち、ｆ（ｋ，
ｗ）＝１となるｋの数を計算し、これをｒとする。ここ
で、例の場合には２となる。

【００５１】次に、文字順序評価部３０５について説明
する。いま、文字類似度確定部３０４によって確定され
た文字の対応を基に、以下のように文字列ｘ_i，ｙ_jの
一致順序を反映させた評価関数υ２（ｓｋ，ｔｗ）を定
義する。

【数６】ここで、文字の順序の重要度を前方に置く場合、φ（ｓ
ｋ，ｔｗ）は以下のように定義する。

【００５２】（ａ）文字ｓｋが一致の確定がされた最
前方文字、即ち、ｆ（ｋ，ｔ）＝１を満たすｋの中で最
小であり、かつ、このｋが文字列の中で、最前方文字で
ある、即ち、ｋ＝１である場合（ｓ１があるｔ１に対し
て一致の確定がされている場合）

【数７】 φ（ｓｋ，ｔｗ）＝｜ｋ−１｜例． φ（ｓ１，ｔ２）＝｜１−２｜＝１ υ２（ｓ１，ｔ２）＝２^-e もし、単位語ｙ_jのｊがなければ、即ち

【数８】

【００５３】（ｂ）文字ｓｋが一致の確定がされた最前
方文字、即ち、ｆ（ｋ，ｗ）＝１を満たすｋの中で最小
であり、かつこのｋが文字列の中で最前方文字でない、
即ち、ｋ≠１である場合、（一致の確定がされた最小項
番の文字がｓ１以外即ち中間の場合）例．

【数９】もし、ｙ_jのｊがなければ、即ち、

【数１０】

【００５４】（ｃ）ｓｋが一致の確定がされた最前方文
字でない場合、即ち、ｆ（ｋ，ｗ）＝１を満たすｋの中
で最小でない場合、ｓｋより項番の小さい一致の確定が
された文字の中で最大の項番をｋ’とし、このとき、ｆ
（ｋ’，ｗ’）＝１とし、負の整数に対する特性関数を
ｃ_s-とすると、例．

【数１１】

【００５５】また、文字の順序の重要度を後方（項番の
大きい方）に置く場合は、上記の項番ｗをＥ（ｘ_i）に
また、最大を最小（最小を最大）に、小さいを大きい
に、ｚ−をｚ＋に、前方を後方に加えて計算する。

【００５６】文字重み評価部３０６について説明する。
ここでは、文字の一致にその一致の位置により重みを付
けるため、以下のようにｓｋに対し、重み関数α（ｓ
ｋ，ｔｗ）を定義する。

【００５７】（ａ）入力語の重みを反映（ａ−１）単位語の位置の重要度を前方に置く場合：

【数１２】（ｖ＜ｕ，ｕ，ｖ：任意の自然数）例．ｖ＝１，ｕ＝２，ｏｒｖ＝１，ｕ＝Ｅ（ｘ_i））（ａ−２）単位語の位置の重要度を後方に置く場合

【００５８】

【数１３】（ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｖ＝１，ｕ＝２，ｏｒｖ＝１，ｕ＝Ｅ（ｘ_i））（ｂ）入力語・標準語双方の重みを反映（ｂ−１）単位語の位置の重要度を前方に置く場合：

【数１４】（ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｖ，ｖ’＝１，ｕ，ｕ’＝２ｏｒｖ，ｖ’＝１，ｕ＝Ｅ（ｘ_i），ｕ’＝Ｅ
（ｙ_j））

【００５９】（ｂ−２）単位語の位置の重要度を後方に
おく場合、

【数１５】（ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｖ，ｖ’＝１，ｕ，ｕ’＝２ｏｒｖ，ｖ’，ｕ＝Ｅ（ｘ_i），ｕ’＝Ｅ（ｙ_j））次に、単位語類似度計算部３０７について説明する。

【００６０】以下の文字列ｘ_iに対する文字列ｙの類似
度を求める単位語類似度評価関数に以上で求めた値を代
入し、計算を実行する。

【数１６】以下に簡単な例を示す。

【００６１】いま、複合語ｘ_i＝｛東、京、都｝、ｙ_j
＝｛東、京、都｝とする。このとき、文字類似度計算部
３０３によりｄｃ（ｓ１，ｔ１）＝１，ｄｃ（ｓ１，ｔ２）＝０，ｄ
ｃ（ｓ１，ｔ３）＝０ｄｃ（ｓ２，ｔ１）＝０，ｄｃ（ｓ２，ｔ２）＝１，ｄ
ｃ（ｓ２，ｔ３）＝０ｄｃ（ｓ３，ｔ１）＝０，ｄｃ（ｓ３，ｔ２）＝０，ｄ
ｃ（ｓ３，ｔ３）＝１文字類似度確定部３０４により、 υ１（ｓ１，ｔ１）＝１，υ１（ｓ１，ｔ２）＝０，υ
１（ｓ１，ｔ３）＝０ υ１（ｓ２，ｔ１）＝０，υ１（ｓ２，ｔ２）＝１，υ
１（ｓ２，ｔ３）＝０ υ１（ｓ３，ｔ１）＝０，υ１（ｓ３，ｔ２）＝０，υ
１（ｓ３，ｔ３）＝１文字順序評価部３０５により、 υ２（ｓ１，ｔ１）＝１，υ２（ｓ１，ｔ２）＝０，υ
２（ｓ１，ｔ３）＝０ υ２（ｓ２，ｔ１）＝０，υ２（ｓ２，ｔ２）＝１，υ
２（ｓ２，ｔ３）＝０ υ２（ｓ３，ｔ１）＝０，υ２（ｓ３，ｔ２）＝０，υ
２（ｓ３，ｔ３）＝１文字重み評価部３０６により、ｕ，ｕ’，ｖ，ｖ’＝１
／２とすると、

【数１７】

【００６２】単位語照合結果出力部３０８は、単位語の
類似度を単位語類似度確定部２０７に出力する。

【００６３】上記で決定された単位語の類似度に基づい
て、単位語類似度確定部２０７は単位語の一致の確定を
行う。単位語の一致の確定は、上記単位語の一致の確定
方法と同様に行う。即ち、上記説明における文字を単位
語と置き換えて考えればよい。

【００６４】次に、単語類似度確定部２０７により単位
語の類似度の確定が行われる。

【００６５】単位語ｘ_i，ｙ_jの類似度をμ１（ｘ_i，
ｙ_j）とすると、

【数１８】

【００６６】次に、単位語の一致数を計算する。上記の
単位語類似度確定部２０７による単位語の一致の確定に
基づいて、単位語の一致数、即ちｆ（ｉ，ｊ）＝１とな
るｉの数を計算し、これをｒとする。

【００６７】単位語順序評価部２０８は、単位語の一致
の確定に基づいて、以下のように複合語ｘ_i，ｙ_jの一
致順序を反映させた評価関数μ（ｘ_i，ｙ_j）を定義す
る。

【数１９】ここで、単位語の順序の重要度を前方に置く場合、φ
（ｘ_i，ｙ_j）は以下のように定義される。これは、以
下（ａ），（ｂ），（ｃ）の３つの場合がある。

【００６８】（ａ）ｘ_iが一致の確定がされた最前方単
位語、即ち、ｆ（ｉ，ｊ）＝１を満たすｉの中で最小で
あり、かつこのｉが複合語の中で最前方単位語である、
即ち、ｉ＝１である場合（ｘ₁と、あるｙ_jが位置の確
定がされている場合）例．ｘ＝｛ａ，ｂ，ｃ，ｄ，ｅ｝ｙ＝｛ｆ，ｇ，ｈ，ｅ，ｊ｝（ｘ，ｙは順序付き） φ（ｘ_i、ｙ_j）＝｜ｉ−ｊ｜（ｂ）ｘ_iが一致の確定がされた最前方単位語、即ちｆ
（ｉ，ｊ）＝１を満たすｉの中で最小であり、かつこの
ｉが複合語の中で最前方単位語でない、即ち、ｉ≠１で
ある場合（一致の確定がされた最小項番の単位語がｘ１
以外即ち、中間の場合）例．

【数２０】

【００６９】（ｃ）ｘ_iが一致の確定がされた最前方単
語でない場合、即ちｆ（ｉ，ｊ）＝１を満たすｉの中で
最小でない場合、ｘ_iより項番の小さい一致の確定がさ
れた単位語の中で、最大の項番をｉ’とし、このとき、
ｆ（ｉ’，ｊ’）＝１とし、負の整数に対する特性関数
をｃ_s-とすると、例．

【数２１】

【００７０】また、単位語の順序の重要度を後方（項番
の大きい方）に置く場合は、上記の項番１をＥ（ｘ）
に、また、最大を最小（最小を最大）に小さいを大きい
に、ｚ−をｚ＋に前方を後方に代えて計算する。

【００７１】単語重み評価部２０９は、単位語の一致に
その一致の位置により重みをつけるため、以下のように
ｘ_iに対し、重み関数α（ｘ_i，ｙ_j）を定義する。

【００７２】（ａ）入力語の重みを反映（ａ−１）単位語の位置の重要度を前方に置く場合、

【数２２】（ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｕ／ｖ＝１／２，１／Ｅ（ｘ））

【００７３】（ａ−２）単位語の位置の重要度を後方に
置く場合

【数２３】（ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｕ／ｖ＝１／２，１／Ｅ（ｘ））（ｂ）入力語・標準語双方の重みを反映（ｂ−１）単位語の位置の重要度を前方に置く場合

【数２４】（ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｖ，ｖ’＝１，ｕ，ｕ’＝２ｏｒｖ，ｖ’＝１，ｕ＝Ｅ（ｘ），ｕ’＝Ｅ（ｙ））

【００７４】（ｂ−２）単位語の位置の重要度を後方に
置く場合

【数２５】ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｖ，ｖ’＝１，ｕ，ｕ’＝２ｏｒｖ，ｖ’＝１，ｕ＝Ｅ（ｘ），ｕ’＝Ｅ（ｙ））次に、複合語類似度計算部２１０は、以下の複合語ｘに
対する複合語ｙの類似度を求める複合語類似度評価関数
に上記で求めた値を代入して計算を実行する。

【数２６】複合語照合結果出力部２１１は、複合語類似度計算部２
１０で得られた複合語ｘに対する複合語ｙの類似度を出
力する。

【００７５】

【発明の効果】上述のように、本発明によれば複合語の
類似度を計算するときに、複合語を構成する単位語単位
の比較を行い、単位語の類似度を複合語の類似度に反映
し、さらに、入力した複合語を構成する単位語の双方の
一致位置の重みを反映する柔軟な複合語のマッチング関
数による複合語の認識方法により、例えは、統制語方式
による文書検索の統制語の検索に応用できる。

【００７６】また、複合語に限らず、図書のタイトルの
検索等の日本語分の検索、或いは、名義・住所等のディ
レクトリ情報の検索に適応することにより、入力された
名義あるいは、住所等に対しても、例えば「中医協＝中
央社会保健医療協議会」、「／神奈川横須賀／と／神奈
川／横浜等（この場合、全体を複合語列と考えればよ
く、文字列を文字列の列、即ち、複合語に拡張したのと
同様に複合語列に拡張すればよい）の認識を柔軟に行う
ことができる。

【００７７】他にも、全文データベース検索等の自然言
語処理システムにおける複合語の照合処理部分で柔軟な
複合語の認識を実現する。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の一実施例の複合語認識処理の概要を示
す図である。

【図３】本発明の一実施例の単位類似度計算処理を説明
するための図である。

【図４】本発明の一実施例の単位語間の文字類似度計算
結果の構成図である。

【図５】本発明の一実施例の文字一致確定処理のフロー
チャートである。

【図６】従来のコサイン関数を用いた複合語認識処理の
概要を示す図である。

【符号の説明】

１複合語入力手段２複合語解析手段３複合語照合手段４複合語照合結果出力手段２１形態素解析手段３１単位語類似度計算手段３２複合語類似度計算手段１０１２０１複合語入力部１０２２０５複合語照合部１０３文字一致評価部１０４複合語類似度計算部１０５２１１複合語照合結果出力部２０２複合語解析部２０３形態素解析部２０４単位語辞書２０６単語類似度計算部２０７単位語類似度確定部２０８単位語順序評価部２０９単位語重み評価部２１０複合語類似度計算部２１１複合語照合結果出力部３０１単位語入力部３０２単語照合部３０３文字類似度計算部３０４文字類似度確定部３０５文字順序評価部３０６文字重み評価部３０７単位語類似度計算部３０８単語照合結果出力部

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成５年３月２５日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】０００９

【補正方法】変更

【補正内容】

【０００９】最初に完全一致によるマッチング関数につ
いて説明する。以下に説明するにあたり、ｘを入力語、
ｙを標準語とし、集合論における記号を用いて以下のよ
うに定義する。入力語ｘを、ｘ＝｛ｘ_n，ｘ_n-1，…，ｘ₁｝（ｘ：順序集合，ｘ_n，ｘ_n-1，…，ｘ₁：文字）と記述し、同様に標準語ｙをｙ＝｛ｙ_m，ｙ_m-1，…，ｙ₁｝（ｙ：順序集合、ｙ_m，ｙ_m-1，…，ｙ₁：文字）とする。

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００３９

【補正方法】変更

【補正内容】

【００３９】まず、文字類似度計算部３０３は、文字類
似度計算を行う。ここで、以下のように、ｘ_i，ｙ_jの
文字をそれぞれｓｋ（１≦ｋ≦Ｅ（ｘ_i）），ｔｗ（１
≦ｗ≦Ｅ（ｙ_j ））としたとき、ｓｋとｔｗの類似度を
ｄｃ（ｘ_i，ｙ_j）（０≦ｄｃ（ｘ_i，ｙ_j）≦１）と
する。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００４１

【補正方法】変更

【補正内容】

【００４１】次に、文字類似度確定部３０４は文字ｓｋ
とｔｗの一致の確定を行う。これは、ｓｋと一致してい
るｔｗは複数ある場合もあり、これを複合語の中の単位
語という観点から、その一致をｓｋ一つに対してｔｗを
ひとつだけ対応させるものである。これにより、以降の
複合語の類似度計算に必要な情報の検出が可能となる。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００４２

【補正方法】変更

【補正内容】

【００４２】そこで、以下文字ｓｋ，ｔｗに対して、一
致が確定された場合、ｆ（ｋ，ｗ）＝１，確定されない
場合、ｆ（ｋ，ｗ）＝０と記述することにする。また、
ここで、（ｋ，ｗ）に順序を導入する。まず、Ａ_n＝｛（ｋ，ｗ）｜ｋ_n＜ｋ≦Ｅ（ｘ_i），ｗ_n＜ｗ
≦Ｅ（ｘ_i）｝Ｂ_n＝｛（ｋ，ｗ）｜１＜ｋ≦ｋ _n ，１＜
ｗ≦ｗ_n｝Ｃ_n＝｛（ｋ，ｗ）｜１＜ｋ≦ｋ_n，１_n＜ｗ
≦Ｅ（ｙ_j）｝Ｄ_n＝｛（ｋ，ｗ）｜ｋ_n＜ｋ≦Ｅ（ｘ_i），１≦ｗ≦
ｗ_n｝但し、ｉ０＝ｊ０＝０，Ｗ_n＝Ａ_n∪ Ｂ_n∪ Ｃ_n∪
Ｄ_nとする。Ａ_n〜Ｄ _nはこの順序で順序付けされ
る。また、それぞれの内部では以下のように（ｋ，ｗ）
に順序を導入する。（ｋ，１）≦（ｋ，ｗ１）（ｗ≦ｗ１）（ｋ１，＊）≦（ｋ２，＊）（ｋ１≦ｋ２，＊：任
意）これを以下に説明する。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００４４

【補正方法】変更

【補正内容】

【００４４】同図は単位語ｘ_i,ｙ_jを構成する文字ｓ
ｋ，ｔｗ間の類似度ｄｃ（ｓｋ，ｔｗ）の値を並べたも
ので、Ａ_n〜Ｄ_nとの関係を表している。これにより、
上記で定義された順序は、ａ１の矢印の順に次にａ２の
矢印の順に順序付けられ、Ａ_nでの順序付けが終わる
と、次に、ｂ１，ｂ２の順で順序付けられることを示し
ている。Ｂ_nの次はＣ_n，Ｄ_nの順番に同様に順序付け
られる。即ち、

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００４７

【補正方法】変更

【補正内容】

【００４７】次に、max ｄｃ（ｓｋ，ｔｗ）は上記の
（ｋ，ｗ）に対してｄｃ（ｓｋ，ｔｗ）の最大値をとる
max ｄｃ（ｓｋ，ｔｗ）＝０（（ｋ，ｗ）∈ｗ_n-1−ｚ
_n-1）あるいは、ｎ＝Ｅ（ｘ）であるかどうか判断し
（ステップ４０３）、これが成立しない場合、ｎ＝ｎ＋
１としてステップ４０４の操作を繰り返す。一方、成立
する場合には処理を終了する。

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】００５３

【補正方法】変更

【補正内容】

【数９】もし、ｙ_jのｊがなければ、即ち、

【数１０】

【手続補正８】

【補正対象書類名】明細書

【補正対象項目名】００５４

【補正方法】変更

【補正内容】

【数１１】

【手続補正９】

【補正対象書類名】明細書

【補正対象項目名】００５８

【補正方法】変更

【補正内容】

【００５８】

【手続補正１０】

【補正対象書類名】明細書

【補正対象項目名】００６８

【補正方法】変更

【補正内容】

【００６８】（ａ）ｘ_iが一致の確定がされた最前方単
位語、即ち、ｆ（ｉ，ｊ）＝１を満たすｉの中で最小で
あり、かつこのｉが複合語の中で最前方単位語である、
即ち、ｉ＝１である場合（ｘ₁と、あるｙ_jが位置の確
定がされている場合）例．

【数２０】 φ（ｘ_i、ｙ_j）＝｜ｉ−ｊ｜（ｂ）ｘ_iが一致の確定がされた最前方単位語、即ちｆ
（ｉ，ｊ）＝１を満たすｉの中で最小であり、かつこの
ｉが複合語の中で最前方単位語でない、即ち、ｉ≠１で
ある場合（一致の確定がされた最小項番の単位語がｘ１
以外即ち、中間の場合）例．

【数２１】

【手続補正１１】

【補正対象書類名】明細書

【補正対象項目名】００６９

【補正方法】変更

【補正内容】

【数２２】

【手続補正１２】

【補正対象書類名】明細書

【補正対象項目名】００７２

【補正方法】変更

【補正内容】

【数２３】

【手続補正１３】

【補正対象書類名】明細書

【補正対象項目名】００７３

【補正方法】変更

【補正内容】

【数２４】（ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｕ／ｖ＝１／２，１／Ｅ（ｘ））（ｂ）入力語・標準語双方の重みを反映（ｂ−１）単位語の位置の重要度を前方に置く場合

【数２５】（ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｖ，ｖ’＝１，ｕ，ｕ’＝２ｏｒｖ，ｖ’＝１，ｕ＝Ｅ（ｘ），ｕ’＝Ｅ（ｙ））

【手続補正１４】

【補正対象書類名】明細書

【補正対象項目名】００７４

【補正方法】変更

【補正内容】

【数２６】ｖ＜ｕ，ｕ，ｖ：任意の自然数例．ｖ，ｖ’＝１，ｕ，ｕ’＝２ｏｒｖ，ｖ’＝１，ｕ＝Ｅ（ｘ），ｕ’＝Ｅ（ｙ））次に、複合語類似度計算部２１０は、以下の複合語ｘに
対する複合語ｙの類似度を求める複合語類似度評価関数
に上記で求めた値を代入して計算を実行する。

【数２７】複合語照合結果出力部２１１は、複合語類似度計算部２
１０で得られた複合語ｘに対する複合語ｙの類似度を出
力する。

【手続補正１５】

【補正対象書類名】明細書

【補正対象項目名】００７６

【補正方法】変更

【補正内容】

【００７６】また、複合語に限らず、図書のタイトルの
検索等の日本語文の検索、或いは、名義・住所等のディ
レクトリ情報の検索に適応することにより、入力された
名義あるいは、住所等に対しても、例えば「中医協＝中
央社会保健医療協議会」、「／神奈川横須賀／と／神奈
川／横浜等（この場合、全体を複合語列と考えればよ
く、文字列を文字列の列、即ち、複合語に拡張したのと
同様に複合語列に拡張すればよい）の認識を柔軟に行う
ことができる。

Claims

【特許請求の範囲】

【請求項１】複数の単位語で構成される複合語を入力
する複合語入力手段と入力された複合語の特徴抽出を行
う複合語解析手段と、該複合語間の照合を行う複合語照
合手段と照合結果を出力する複合語照合結果出力手段に
より構成される複合語認識装置において、該複合語解析手段として、該複合語入力手段より入力さ
れた該複合語を単位語単位に分解する形態素解析手段
と、該複合語照合手段として、少なくとも２つの複合語を構
成する単位語間の類似度を単位語の構成要素である文字
を単位として計算する単位語類似度計算手段と、少なくとも該単位語類似度計算手段により得られた単位
語の類似度を反映した単位語を単位とする複合語の類似
度を計算する複合語類似度計算手段を有することを特徴
とする複合語認識装置。