JPH06274547A - 複合語認識装置 - Google Patents

複合語認識装置

Info

Publication number
JPH06274547A
JPH06274547A JP5062255A JP6225593A JPH06274547A JP H06274547 A JPH06274547 A JP H06274547A JP 5062255 A JP5062255 A JP 5062255A JP 6225593 A JP6225593 A JP 6225593A JP H06274547 A JPH06274547 A JP H06274547A
Authority
JP
Japan
Prior art keywords
word
unit
compound
compound word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5062255A
Other languages
English (en)
Inventor
Eiichi Niwano
栄一 庭野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5062255A priority Critical patent/JPH06274547A/ja
Publication of JPH06274547A publication Critical patent/JPH06274547A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明の目的は、表記の多様性による表記揺
れ等の複合語の多様な曖昧性の問題を解決でき、より柔
軟に認識できる複合語認識装置を提供することである。 【構成】 本発明は、複合語解析手段2として、複合語
入力手段1から入力された複合語を単位語単位に分解す
る形態素解析手段21と、複合語照合手段3として、少
なくとも2つの複合語を構成する単位語間の類似度を単
位語の構成要素である文字を単位として計算する単位語
類似度計算手段31と、少なくとも単位語類似度計算手
段31により得られた単位語の類似度を反映した単位語
を単位とする複合語の類似度を計算する複合語類似度計
算手段32を有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複合語認識装置に係
り、特に複数の単位語(単語)で構成される複合語が付
与されたマルチメディア情報を予め蓄積しておき、複合
語の入力により対応する情報を抽出する情報検索装置の
複合語照合部分等に応用可能な複合語認識装置に関す
る。
【0002】
【従来の技術】複合語認識方法として最も基本的な方法
は完全一致によるものである。この方法は、入力語と標
準語が完全に一致した場合にのみ、一致したと認識する
ものである。
【0003】この完全一致を用いる方法の高度化された
ものとして、部分一致を用いる方法とマッチング関数に
より複合語間の度合いを計算する2つの方法がある。
【0004】最初に部分一致を用いる方法について説明
する。部分一致とは、完全一致より一致条件を緩和させ
たもので、入力文字列が標準文字列に部分的に一致して
いる場合に一致と認識する方法で、完全一致より曖昧な
文字列の認識が可能となる。
【0005】部分一致としては、前方一致・中間一致・
後方一致を用いた方法がある。前方一致とは、語が一致
しない場合、後方より語を削除してゆき、格納されてい
る情報と前方で完全一致した場合に一致とみなすもので
ある。中間一致、後方一致も同様の手法による。
【0006】次にマッチング関数による方法について説
明する。このマッチング関数により文字を単位とする類
似性評価よる方法は、“庭野「ファジーマッチング関数
による言語の類似性の定量化及び情報検索への応用」電
子情報通信学会秋期大会論文集pp. 6−52”に示され
ている。
【0007】代表的なマッチング関数にコサイン関数が
ある。これは、文字列の長さ、文字の一致数の違いを反
映させたものである。尚、従来の認識精度の高さ(柔軟
性)は、 完全一致<部分一致<コサイン関数 のようになっている。
【0008】そこで、この中で最も認識精度の高いコサ
イン関数を用いた複合語認識方法について詳細に説明す
る。
【0009】最初に完全一致によるマッチング関数につ
いて説明する。以下に説明するにあたり、xを入力語、
yを標準語とし、集合論における記号を用いて以下のよ
うに定義する x={xn ,xn-1 ,…,x1 } (x:順序集合,xn ,xn-1 ,…,x1 :文字) と記述し、同様に標準語yを y={ym ,ym-1 ,…,y1 } (y:順序集合、ym ,ym-1 ,…,y1 :文字) とする。
【0010】E(x)は語xの文字数、即ち,n=E
(x),m=E(y)であり、x∩yは複合語x,yの
一致文字の集合を表し、xとyの類似度をμ(x,y)
と表す。
【0011】図6は従来のコサイン関数を用いた複合語
認識処理の概要を示す。まず、複合語入力部101より
複合語x,yが入力される。複合語入力部101より入
力された複合語x,yが複合語照合部102に渡され
る。
【0012】複合語照合部102は、文字一致評価部1
03と複合語類似度計算部104より構成される。文字
一致評価部103は、複合語x,yの文字数E(x)、
E(y)を計算する。さらに、複合語xとyの文字の一
致を確定し、文字の一致数E(x∩y)を計算する。次
に、複合語類似度計算部104により上記で得られた文
字の一致数E(x∩y)を以下に式に代入し、複合語x
とyの類似度μ(x,y)を計算する。
【数1】
【0013】最後に複合語類似度計算部104で求めら
れた類似度を複合語照合結果出力部105で複合語間の
類似度を出力する。
【0014】さらに、コサイン関数を高度化したものと
して、文字列の文字の数、一致した文字の数という特徴
量の他に、一致した文字の文字列の中での順序、文字の
文字列の中での位置の重みの特徴をマッチング関数に反
映した方法がある。これをファジーマッチング関数を呼
ぶことにする。
【0015】
【発明が解決しようとする課題】しかしながら、上記従
来の技術は、入力語の曖昧性を充分に吸収できないとい
う問題がある。例えば、前述のように従来の方法では、
完全一致、部分一致、コサイン関数、ファジーマッチン
グ関数の順で曖昧性を吸収できるが、(処理速度は逆に
この順で遅くなる)、コサイン関数あるいは最も精度の
高いファジーマッチング関数でも、複合語の類似度を文
字単位で評価しているため、以下のような問題が生じ
る。
【0016】例えば、いま、複合語Aを“ad”、複合
語Bを“abdef”、複合語Cを“acdhi”と
し、複合語Aと複合語B、複合語Cをそれぞれ比較する
とする。ここで、複合語Aは単位語に分解したときに
(a),(b)となり、さらにこれは、(ab)(de
f)(括弧内は単位語)となるような複合語Bの略語で
あったとする。また、複合語Bは、(ab)(de
f)、複合語Cは(a)(cd)(hi)のように単位
語に分割されたとする。このとき本来であるならば、
“ad”は、“acdhi”よりも“abdef”に類
似しているとみなされるべきである。しかし、“ad”
に対し、“abdef”、“acdhi”はそれぞれ文
字数も等しく、また、文字の一致数、文字の文字列にお
ける一致順序、文字の文字列における一致した位置も等
しいと認識されるため、等価のものとして扱われる。こ
れは、複合語がまず単位語の集まりとして構成され、さ
らに単位語が文字の集まりとして構成されているという
段階を無視しているために起こる問題である。
【0017】例えば、上記で、複合語Aに対して複合語
B,複合語Cについて複合語の構成数は、文字単位での
比較を行った場合、それぞれ2:5、2:5となり、複
合語Aと複合語B,Cは2:5の割合で構成数が違うと
みなされ、また、複合語B,複合語Cとも同じ割合で、
複合語Aに類似しているとされる。
【0018】一方、単位語単位での比較を行った場合、
2:2、2:3となり、複合語Aと複合語Bは構成数と
しては同じであるとの認識が可能となり、また、複合語
Cと複合語Bの類似度が違うと認識できる。
【0019】また、単位語単位での比較のみを行い、例
えば単位語の類似度を考慮しない、即ち、文字列の比較
を行わない場合、複合語Aの文字“a”と複合語Bの
“ab”は一致しないとみなされ、さらに“d”も“d
ef”と一致しないとみなされるため、複合語Aと複合
語Bは全く類似していないと認識されるという問題が生
じる。
【0020】従って、文字列を単位として単位語の類似
度を計算し、さらに、単位語を単位として複合語の類似
度を計算する必要がある。
【0021】本発明は上記の点に鑑みなされたもので、
上記従来の問題を解決し、利用者の知識不足、記憶の不
確実性、入力ミスによる表記違い、表記の多様性による
表記揺れ等の複合語の多様な曖昧性の問題を解決でき、
より柔軟に認識できる複合語認識装置を提供することを
目的とする。
【0022】
【課題を解決するための手段】図1は本発明の原理構成
図である。
【0023】本発明は、複数の単位語で構成される複合
語を入力する複合語入力手段1と入力された複合語の特
徴抽出を行う複合語解析手段2と、該複合語間の照合を
行う複合語照合手段3と照合結果を出力する複合語照合
結果出力手段4により構成される複合語認識装置におい
て、複合語解析手段2として、複合語入力手段1から入
力された複合語を単位語単位に分解する形態素解析手段
21と、複合語照合手段3として、少なくとも2つの複
合語を構成する単位語間の類似度を単位語の構成要素で
ある文字を単位として計算する単位語類似度計算手段3
1と、少なくとも単位語類似度計算手段31により得ら
れた単位語の類似度を反映した単位語を単位とする複合
語の類似度を計算する複合語類似度計算手段32を有す
る。
【0024】
【作用】本発明は、単位語を単位とした複合語の比較を
行い、複合語を構成する単位語間の類似度を反映した複
合語の類似性を評価するマッチング関数を用いて、複合
語の特徴を反映した複合語の間の類似度を計算するもの
である。これは、文字列の関係を考慮した多値をもつ単
位語類似度計算法を用いるものである。例えば、入力語
を“数理情報”、“情報数学”をそれぞれ形態素解析に
より「数理」「情報」と「情報」「数学」のように単位
語に分割し、複合語を構成する単位語単位での照合を可
能にする。さらに略語等の単位語の先頭の文字に重みを
もたせることができ、略語の認識に有効である。
【0025】また、単位語の類似度を反映するために、
複合語双方の全ての単位語間の類似度を文字単位として
複合語の類似度を計算することにより、例えば、従来の
技術の説明で用いた複合語A,B,Cの類似性の違いを
認識可能とする。
【0026】
【実施例】以下、図面と共に本発明の実施例を詳細に説
明する。
【0027】図2は本発明の一実施例の複合語認識処理
の概要を示す。
【0028】複合語入力部201は、最初に照合を行う
複合語を入力する。
【0029】複合語入力部201により入力された複合
語をx,yとし、集合論の記号を用いて、複合語xにつ
いては、 x={xn ,xn-1 ,…,xi ,…,x1 } (順序集
合、xi :単位語) と表記する。同様に複合語yについては、 y={ym ,ym-1 ,…,yj ,…,y1 } と表記する。
【0030】また、以下よりxi ,yj の項番i,jの
小さい方を前方と呼ぶことにする。
【0031】次に、複合語解析部202は、複合語入力
部201により入力された複合語を形態素解析部203
により単位語単位に分割する。但し、形態素解析部20
3は、もし、単位語が単位語辞書204に登録されてい
なければ、未登録語が出現してもこれを単位語とみな
し、そのまま分割し、複合語の単位語数を計算する。複
合語xの単位語数をE(x)、複合語yの単位語数をE
(y)とする。
【0032】次に、複合語照合部205は単位語類似度
計算部206、単位語類似度確定部207、単位語順序
評価部208、単位語重み評価部209、複合語類似度
計算部210により構成される。
【0033】単位語類似度計算部206は、複合語
i ,yj の比較を行い、単位語を構成する文字間の類
似度計算を行う。図3は本発明の一実施例の単位類似度
計算部の詳細を説明するための図である。
【0034】単位語類似計算部206は、単位語入力部
301、単位語照合部302及び単位語照合結果出力部
308より構成される。
【0035】例えば、以下のようなマッチング関数を用
いた類似度計算を行う。最初に単位語類似度計算部20
6の単位語入力部301は単位語xi と単位語yj が入
力される。
【0036】ここで、単位語xi を集合の記号を用い
て、 xi ={sn ,sn-1 ,sk ,…,s1 } (sn ,s
n-1 ,…,s1 は文字) と表記する。同様に、単位語yj を yi ={tm ,tm-1 ,tw ,…,t1 } (tm ,t
m-1 ,…,t1 は文字) と表記する。例えば、 (例1) xi ={a,b,c} yj ={c,b,c,d} とする。
【0037】単位語類似度計算部206の単位語照合部
302は、文字類似度計算部303、文字類似度画定部
304、文字順序評価部305、文字重み評価部306
及び単位語類似度計算部307より構成され、単位語x
i ,yj の比較を行い、文字数、文字類似度、文字一致
数、文字の順序・位置情報の検出を行う。
【0038】文字類似度計算303は単位語の文字数を
計算する。xi の文字数をE(xi),yの文字数をE
(yj )とする。即ち、 E(xi )=n,E(yj )=m となり、例1の場合:E(xi )=3,E(yj )=4
となる。
【0039】まず、文字類似度計算部303は、文字類
似度計算を行う。ここで、以下のように、xi ,yj
文字をそれぞれsk(1≦k≦E(xi )),tw(1
≦w≦E(xi ))としたとき、skとtwの類似度を
dc(xi ,yj )(0≦dc(xi ,yj )≦1)と
する。
【0040】例えば、文字skと文字twが一致する場
合、(sk=tw)と、文字skとtwが一致しない場
合(sk≠tw)に分けてこれを以下のように定義して
もよい。
【数2】 例1の場合、類似度dcは、 dc(s1,t1)=dc(c,d)=0, dc(s1,t2)=dc(c,c)=1 となる。
【0041】次に、文字類似度確定部304は文字sk
とtwの一致の確定を行う。これは、skと一致してい
るtwは複数ある場合もあり、これを複合語の中の単位
語という観点から、その一致を一つに対してwをひとつ
だけ対応させるものである。これにより、以降の複合語
の類似度計算に必要な情報の検出が可能となる。
【0042】そこで、以下文字sk,twに対して、一
致が確定された場合、f(k,w)=1,確定されない
場合、f(k,w)=0と記述することにする。また、
ここで、(k,w)に順序を導入する。まず、 An ={(k,w)|kn <k≦E(xi ),wn <w
≦E(xi )} Bn ={(k,w)|1 <k≦k, 1 <w
≦wn } Cn ={(k,w)|1 <k≦kn , wn <w
≦E(yj )} Dn ={(k,w)|kn <k≦E(xi ),1≦w≦
n } 但し、i0=j0=0,Wn =An ∪ Bn ∪ Cn
n とする。An 〜D n はこの順序で順序付けされ
る。また、それぞれの内部では以下のように(k,w)
順序を導入する。 (k,*)≦(k1,*) (k≦k1,*:任意) これを以下に説明する。
【0043】図4は本発明の一実施例の単位語間の文字
類似度計算結果の構成を示す。
【0044】同図は、単位語xi,j を構成する文字s
k,tw間の類似度dc(sk,tw)の値を並べたも
ので、An 〜Dn との関係を表している。これにより、
上記で定義された順序は、a1の矢印の順に次にa2の
矢印の順に順序付けられ、A n での順序付けが終わる
と、次に、b1,b2の順で順序付けられることを示し
ている。Bn の次はCn ,Dn の順番に同様に順序付け
られる。即ち、
【数3】 のように順序付けされる。 また、Zn ={(k,w)|k=k1 ,k2 ,・・・k
nor w=w1 ,w2 ,・・・wn } Z0 =φ とおく、ここで、Zn は、kがk1 ,k2 ,…kn のど
れであるか、wがw1 ,…,wn のどれであるかのよう
な(k,w)∈Wn の集合である。
【0045】ここで、次のような順序で一致の確定を行
う。図5は本発明の一実施例の文字一致確定処理のフロ
ーチャートを示す。先ず、カウントn=1とし(ステッ
プ401)、dc(sk,tw)((k,t)∈W0
0 )を満たす最小の(k,w)である(kn ,wn
に対しf(kn ,wn )=1とする、即ち、一致が確定
されたとする(ステップ402)。これは、すべての類
似度dc(sk,tw)の中で値が最大のもの(k,
w)が最小のものをf(k1 ,w1 )=1とするもので
ある。
【0046】同様に、n≧2に対して、maxdc(s
k,tw),k≠1,…,kn 或いはw≠1,…,wn
でないような(k,w)を満たす最小の(k,w)であ
る(kn ,wn )に対してf(k n,n )=1とする
(ステップ402)。これは、f(k,w)が確定して
いるすべてのk,w、即ち、k=k1,・・・kn-1 、ま
たは、w=w1 ,・・・wn- 1 となるすべての類似度d
c(sk,tw)を除くdc(sk,tw)の中で値が
最大のもので、(k,w)が最小のものをf(kn ,w
n )=1とする。
【0047】次に、上記の(k,w)に対してdc(s
k,tw)の最大値をとるmax dc(sk,tw)=0
((k,w)∈wn-1 −zn-1 )或いはn=E(x)で
あるかどうか判断し(ステップ403)、これが成立し
ない場合n=n+1としてステップ404の動作を繰り
返す。一方、成立する場合には処理を終了する。
【0048】これにより、例えば、以下のように、文字
の順序の差異・違いが最小化される(なるべくなくな
る)ような一致の確定がなされる。
【数4】
【0049】即ち、f(1,2)=1,f(1,4)=
0となる。ここで、文字sk,twの類似度を確定す
る。これをυ1(sk,tw)とすると、
【数5】 ここで、例1の場合、 υ1(s1,t2)=1, υ1(s1,t4)=0 となる。
【0050】次に文字一致数を計算する。上記の文字一
致の確定に基づいて、文字の一致数、即ち、f(k,
w)=1となるkの数を計算し、これをrとする。ここ
で、例の場合には2となる。
【0051】次に、文字順序評価部305について説明
する。いま、文字類似度確定部304によって確定され
た文字の対応を基に、以下のように文字列xi ,yj
一致順序を反映させた評価関数υ2(sk,tw)を定
義する。
【数6】 ここで、文字の順序の重要度を前方に置く場合、φ(s
k,tw)は以下のように定義する。
【0052】(a) 文字skが一致の確定がされた最
前方文字、即ち、f(k,t)=1を満たすkの中で最
小であり、かつ、このkが文字列の中で、最前方文字で
ある、即ち、k=1である場合(s1があるt1に対し
て一致の確定がされている場合)
【数7】 φ(sk,tw)=|k−1| 例. φ(s1,t2)=|1−2|=1 υ2(s1,t2)=2-e もし、単位語yj のjがなければ、即ち
【数8】
【0053】(b)文字skが一致の確定がされた最前
方文字、即ち、f(k,w)=1を満たすkの中で最小
であり、かつこのkが文字列の中で最前方文字でない、
即ち、k≠1である場合、(一致の確定がされた最小項
番の文字がs1以外即ち中間の場合) 例.
【数9】 もし、yj のjがなければ、即ち、
【数10】
【0054】(c)skが一致の確定がされた最前方文
字でない場合、即ち、f(k,w)=1を満たすkの中
で最小でない場合、skより項番の小さい一致の確定が
された文字の中で最大の項番をk’とし、このとき、f
(k’,w’)=1とし、負の整数に対する特性関数を
s-とすると、 例.
【数11】
【0055】また、文字の順序の重要度を後方(項番の
大きい方)に置く場合は、上記の項番wをE(xi )に
また、最大を最小(最小を最大)に、小さいを大きい
に、z−をz+に、前方を後方に加えて計算する。
【0056】文字重み評価部306について説明する。
ここでは、文字の一致にその一致の位置により重みを付
けるため、以下のようにskに対し、重み関数α(s
k,tw)を定義する。
【0057】(a)入力語の重みを反映 (a−1)単位語の位置の重要度を前方に置く場合:
【数12】 (v<u,u,v:任意の自然数) 例.v=1,u=2,or v=1,u=E(xi )) (a−2)単位語の位置の重要度を後方に置く場合
【0058】
【数13】 (v<u,u,v:任意の自然数 例.v=1,u=2,or v=1,u=E(xi )) (b)入力語・標準語双方の重みを反映 (b−1)単位語の位置の重要度を前方に置く場合:
【数14】 (v<u,u,v:任意の自然数 例.v,v’=1,u,u’=2 or v,v’=1,u=E(xi ),u’=E
(yj ))
【0059】(b−2)単位語の位置の重要度を後方に
おく場合、
【数15】 (v<u,u,v:任意の自然数 例.v,v’=1,u,u’=2 or v,v’,u=E(xi ),u’=E(yj )) 次に、単位語類似度計算部307について説明する。
【0060】以下の文字列xi に対する文字列yの類似
度を求める単位語類似度評価関数に以上で求めた値を代
入し、計算を実行する。
【数16】 以下に簡単な例を示す。
【0061】いま、複合語xi ={東、京、都}、yj
={東、京、都}とする。このとき、文字類似度計算部
303により dc(s1,t1)=1,dc(s1,t2)=0,d
c(s1,t3)=0 dc(s2,t1)=0,dc(s2,t2)=1,d
c(s2,t3)=0 dc(s3,t1)=0,dc(s3,t2)=0,d
c(s3,t3)=1 文字類似度確定部304により、 υ1(s1,t1)=1,υ1(s1,t2)=0,υ
1(s1,t3)=0 υ1(s2,t1)=0,υ1(s2,t2)=1,υ
1(s2,t3)=0 υ1(s3,t1)=0,υ1(s3,t2)=0,υ
1(s3,t3)=1 文字順序評価部305により、 υ2(s1,t1)=1,υ2(s1,t2)=0,υ
2(s1,t3)=0 υ2(s2,t1)=0,υ2(s2,t2)=1,υ
2(s2,t3)=0 υ2(s3,t1)=0,υ2(s3,t2)=0,υ
2(s3,t3)=1 文字重み評価部306により、u,u’,v,v’=1
/2とすると、
【数17】
【0062】単位語照合結果出力部308は、単位語の
類似度を単位語類似度確定部207に出力する。
【0063】上記で決定された単位語の類似度に基づい
て、単位語類似度確定部207は単位語の一致の確定を
行う。単位語の一致の確定は、上記単位語の一致の確定
方法と同様に行う。即ち、上記説明における文字を単位
語と置き換えて考えればよい。
【0064】次に、単語類似度確定部207により単位
語の類似度の確定が行われる。
【0065】単位語xi ,yj の類似度をμ1(xi
j )とすると、
【数18】
【0066】次に、単位語の一致数を計算する。上記の
単位語類似度確定部207による単位語の一致の確定に
基づいて、単位語の一致数、即ちf(i,j)=1とな
るiの数を計算し、これをrとする。
【0067】単位語順序評価部208は、単位語の一致
の確定に基づいて、以下のように複合語xi ,yj の一
致順序を反映させた評価関数μ(xi ,yj )を定義す
る。
【数19】 ここで、単位語の順序の重要度を前方に置く場合、φ
(xi ,yj )は以下のように定義される。これは、以
下(a),(b),(c)の3つの場合がある。
【0068】(a)xi が一致の確定がされた最前方単
位語、即ち、f(i,j)=1を満たすiの中で最小で
あり、かつこのiが複合語の中で最前方単位語である、
即ち、i=1である場合(x1 と、あるyj が位置の確
定がされている場合) 例. x={a,b,c,d,e} y={f,g,h,e,j} (x,yは順序付き) φ(xi 、yj )=|i−j| (b)xi が一致の確定がされた最前方単位語、即ちf
(i,j)=1を満たすiの中で最小であり、かつこの
iが複合語の中で最前方単位語でない、即ち、i≠1で
ある場合(一致の確定がされた最小項番の単位語がx1
以外即ち、中間の場合) 例.
【数20】
【0069】(c)xi が一致の確定がされた最前方単
語でない場合、即ちf(i,j)=1を満たすiの中で
最小でない場合、xi より項番の小さい一致の確定がさ
れた単位語の中で、最大の項番をi’とし、このとき、
f(i’,j’)=1とし、負の整数に対する特性関数
をcs-とすると、 例.
【数21】
【0070】また、単位語の順序の重要度を後方(項番
の大きい方)に置く場合は、上記の項番1をE(x)
に、また、最大を最小(最小を最大)に小さいを大きい
に、z−をz+に前方を後方に代えて計算する。
【0071】単語重み評価部209は、単位語の一致に
その一致の位置により重みをつけるため、以下のように
i に対し、重み関数α(xi ,yj )を定義する。
【0072】(a)入力語の重みを反映 (a−1)単位語の位置の重要度を前方に置く場合、
【数22】 (v<u,u,v:任意の自然数 例.u/v=1/2,1/E(x))
【0073】(a−2)単位語の位置の重要度を後方に
置く場合
【数23】 (v<u,u,v:任意の自然数 例.u/v=1/2,1/E(x)) (b)入力語・標準語双方の重みを反映 (b−1)単位語の位置の重要度を前方に置く場合
【数24】 (v<u,u,v:任意の自然数 例.v,v’=1,u,u’=2 or v,v’=1,u=E(x),u’=E(y))
【0074】(b−2)単位語の位置の重要度を後方に
置く場合
【数25】 v<u,u,v:任意の自然数 例.v,v’=1,u,u’=2 or v,v’=1,u=E(x),u’=E(y)) 次に、複合語類似度計算部210は、以下の複合語xに
対する複合語yの類似度を求める複合語類似度評価関数
に上記で求めた値を代入して計算を実行する。
【数26】 複合語照合結果出力部211は、複合語類似度計算部2
10で得られた複合語xに対する複合語yの類似度を出
力する。
【0075】
【発明の効果】上述のように、本発明によれば複合語の
類似度を計算するときに、複合語を構成する単位語単位
の比較を行い、単位語の類似度を複合語の類似度に反映
し、さらに、入力した複合語を構成する単位語の双方の
一致位置の重みを反映する柔軟な複合語のマッチング関
数による複合語の認識方法により、例えは、統制語方式
による文書検索の統制語の検索に応用できる。
【0076】また、複合語に限らず、図書のタイトルの
検索等の日本語分の検索、或いは、名義・住所等のディ
レクトリ情報の検索に適応することにより、入力された
名義あるいは、住所等に対しても、例えば「中医協=中
央社会保健医療協議会」、「/神奈川横須賀/と/神奈
川/横浜等(この場合、全体を複合語列と考えればよ
く、文字列を文字列の列、即ち、複合語に拡張したのと
同様に複合語列に拡張すればよい)の認識を柔軟に行う
ことができる。
【0077】他にも、全文データベース検索等の自然言
語処理システムにおける複合語の照合処理部分で柔軟な
複合語の認識を実現する。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例の複合語認識処理の概要を示
す図である。
【図3】本発明の一実施例の単位類似度計算処理を説明
するための図である。
【図4】本発明の一実施例の単位語間の文字類似度計算
結果の構成図である。
【図5】本発明の一実施例の文字一致確定処理のフロー
チャートである。
【図6】従来のコサイン関数を用いた複合語認識処理の
概要を示す図である。
【符号の説明】
1 複合語入力手段 2 複合語解析手段 3 複合語照合手段 4 複合語照合結果出力手段 21 形態素解析手段 31 単位語類似度計算手段 32 複合語類似度計算手段 101 201 複合語入力部 102 205 複合語照合部 103 文字一致評価部 104 複合語類似度計算部 105 211 複合語照合結果出力部 202 複合語解析部 203 形態素解析部 204 単位語辞書 206 単語類似度計算部 207 単位語類似度確定部 208 単位語順序評価部 209 単位語重み評価部 210 複合語類似度計算部 211 複合語照合結果出力部 301 単位語入力部 302 単語照合部 303 文字類似度計算部 304 文字類似度確定部 305 文字順序評価部 306 文字重み評価部 307 単位語類似度計算部 308 単語照合結果出力部
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成5年3月25日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正内容】
【0009】最初に完全一致によるマッチング関数につ
いて説明する。以下に説明するにあたり、xを入力語、
yを標準語とし、集合論における記号を用いて以下のよ
うに定義する。入力語xを、 x={xn ,xn-1 ,…,x1 } (x:順序集合,xn ,xn-1 ,…,x1 :文字) と記述し、同様に標準語yを y={ym ,ym-1 ,…,y1 } (y:順序集合、ym ,ym-1 ,…,y1 :文字) とする。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0039
【補正方法】変更
【補正内容】
【0039】まず、文字類似度計算部303は、文字類
似度計算を行う。ここで、以下のように、xi ,yj
文字をそれぞれsk(1≦k≦E(xi )),tw(1
≦w≦E(j ))としたとき、skとtwの類似度を
dc(xi ,yj )(0≦dc(xi ,yj )≦1)と
する。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0041
【補正方法】変更
【補正内容】
【0041】次に、文字類似度確定部304は文字sk
とtwの一致の確定を行う。これは、skと一致してい
るtwは複数ある場合もあり、これを複合語の中の単位
語という観点から、その一致をsk一つに対してwを
ひとつだけ対応させるものである。これにより、以降の
複合語の類似度計算に必要な情報の検出が可能となる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0042
【補正方法】変更
【補正内容】
【0042】そこで、以下文字sk,twに対して、一
致が確定された場合、f(k,w)=1,確定されない
場合、f(k,w)=0と記述することにする。また、
ここで、(k,w)に順序を導入する。まず、 An ={(k,w)|kn <k≦E(xi ),wn <w
≦E(xi )} Bn ={(k,w)|1 <k≦k n , 1 <
w≦wn } Cn ={(k,w)|1 <k≦kn , 1n <w
≦E(yj )} Dn ={(k,w)|kn <k≦E(xi ),1≦w≦
n } 但し、i0=j0=0,Wn =An ∪ Bn ∪ Cn
n とする。An 〜D n はこの順序で順序付けされ
る。また、それぞれの内部では以下のように(k,w)
に順序を導入する。(k,1)≦(k,w1) (w≦w1) (k1,*)≦(k2,*) (k1≦k2,*:任
意) これを以下に説明する。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0044
【補正方法】変更
【補正内容】
【0044】同図は単位語xi,j を構成する文字s
k,tw間の類似度dc(sk,tw)の値を並べたも
ので、An 〜Dn との関係を表している。これにより、
上記で定義された順序は、a1の矢印の順に次にa2の
矢印の順に順序付けられ、Anでの順序付けが終わる
と、次に、b1,b2の順で順序付けられることを示し
ている。Bn の次はCn ,Dn の順番に同様に順序付け
られる。即ち、
【数3】 のように順序付けされる。 また、Zn ={(k,w)|k=k1 ,k2 ,・・・k
nor w=w1 ,w2 ,・・・wn } Z0 =φ とおく、ここで、Zn は、kがk1 ,k2 ,…kn のど
れであるか、wがw1 ,…,wn のどれであるかのよう
な(k,w)∈Wn の集合である。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0047
【補正方法】変更
【補正内容】
【0047】次に、max dc(sk,tw)は上記の
(k,w)に対してdc(sk,tw)の最大値をとる
max dc(sk,tw)=0((k,w)∈wn-1 −z
n-1 あるいは、n=E(x)であるかどうか判断し
(ステップ403)、これが成立しない場合n=n+
1としてステップ404の操作を繰り返す。一方、成立
する場合には処理を終了する。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0053
【補正方法】変更
【補正内容】
【0053】(b)文字skが一致の確定がされた最前
方文字、即ち、f(k,w)=1を満たすkの中で最小
であり、かつこのkが文字列の中で最前方文字でない、
即ち、k≠1である場合、(一致の確定がされた最小項
番の文字がs1以外即ち中間の場合) 例.
【数9】 もし、yj のjがなければ、即ち、
【数10】
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0054
【補正方法】変更
【補正内容】
【0054】(c)skが一致の確定がされた最前方文
字でない場合、即ち、f(k,w)=1を満たすkの中
で最小でない場合、skより項番の小さい一致の確定が
された文字の中で最大の項番をk’とし、このとき、f
(k’,w’)=1とし、負の整数に対する特性関数を
s-とすると、 例.
【数11】
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0058
【補正方法】変更
【補正内容】
【0058】
【数13】 (v<u,u,v:任意の自然数 例.v=1,u=2,or v=1,u=E(xi )) (b)入力語・標準語双方の重みを反映 (b−1)単位語の位置の重要度を前方に置く場合:
【数14】 (v<u,u,v:任意の自然数 例.v,v’=1,u,u’=2 or v,v’=1,u=E(xi ),u’=E
(yj ))
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0068
【補正方法】変更
【補正内容】
【0068】(a)xi が一致の確定がされた最前方単
位語、即ち、f(i,j)=1を満たすiの中で最小で
あり、かつこのiが複合語の中で最前方単位語である、
即ち、i=1である場合(x1 と、あるyj が位置の確
定がされている場合) 例.
【数20】 φ(xi 、yj )=|i−j| (b)xi が一致の確定がされた最前方単位語、即ちf
(i,j)=1を満たすiの中で最小であり、かつこの
iが複合語の中で最前方単位語でない、即ち、i≠1で
ある場合(一致の確定がされた最小項番の単位語がx1
以外即ち、中間の場合) 例.
【数2
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0069
【補正方法】変更
【補正内容】
【0069】(c)xi が一致の確定がされた最前方単
語でない場合、即ちf(i,j)=1を満たすiの中で
最小でない場合、xi より項番の小さい一致の確定がさ
れた単位語の中で、最大の項番をi’とし、このとき、
f(i’,j’)=1とし、負の整数に対する特性関数
をcs-とすると、 例.
【数2
【手続補正12】
【補正対象書類名】明細書
【補正対象項目名】0072
【補正方法】変更
【補正内容】
【0072】(a)入力語の重みを反映 (a−1)単位語の位置の重要度を前方に置く場合、
【数2
【手続補正13】
【補正対象書類名】明細書
【補正対象項目名】0073
【補正方法】変更
【補正内容】
【0073】(a−2)単位語の位置の重要度を後方に
置く場合
【数2(v<u,u,v:任意の自然数 例.u/v=1/2,1/E(x)) (b)入力語・標準語双方の重みを反映 (b−1)単位語の位置の重要度を前方に置く場合
【数2(v<u,u,v:任意の自然数 例.v,v’=1,u,u’=2 or v,v’=1,u=E(x),u’=E(y))
【手続補正14】
【補正対象書類名】明細書
【補正対象項目名】0074
【補正方法】変更
【補正内容】
【0074】(b−2)単位語の位置の重要度を後方に
置く場合
【数2v<u,u,v:任意の自然数 例.v,v’=1,u,u’=2 or v,v’=1,u=E(x),u’=E(y)) 次に、複合語類似度計算部210は、以下の複合語xに
対する複合語yの類似度を求める複合語類似度評価関数
に上記で求めた値を代入して計算を実行する。
【数2複合語照合結果出力部211は、複合語類似度計算部2
10で得られた複合語xに対する複合語yの類似度を出
力する。
【手続補正15】
【補正対象書類名】明細書
【補正対象項目名】0076
【補正方法】変更
【補正内容】
【0076】また、複合語に限らず、図書のタイトルの
検索等の日本語の検索、或いは、名義・住所等のディ
レクトリ情報の検索に適応することにより、入力された
名義あるいは、住所等に対しても、例えば「中医協=中
央社会保健医療協議会」、「/神奈川横須賀/と/神奈
川/横浜等(この場合、全体を複合語列と考えればよ
く、文字列を文字列の列、即ち、複合語に拡張したのと
同様に複合語列に拡張すればよい)の認識を柔軟に行う
ことができる。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 複数の単位語で構成される複合語を入力
    する複合語入力手段と入力された複合語の特徴抽出を行
    う複合語解析手段と、該複合語間の照合を行う複合語照
    合手段と照合結果を出力する複合語照合結果出力手段に
    より構成される複合語認識装置において、 該複合語解析手段として、該複合語入力手段より入力さ
    れた該複合語を単位語単位に分解する形態素解析手段
    と、 該複合語照合手段として、少なくとも2つの複合語を構
    成する単位語間の類似度を単位語の構成要素である文字
    を単位として計算する単位語類似度計算手段と、 少なくとも該単位語類似度計算手段により得られた単位
    語の類似度を反映した単位語を単位とする複合語の類似
    度を計算する複合語類似度計算手段を有することを特徴
    とする複合語認識装置。
JP5062255A 1993-03-22 1993-03-22 複合語認識装置 Pending JPH06274547A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5062255A JPH06274547A (ja) 1993-03-22 1993-03-22 複合語認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5062255A JPH06274547A (ja) 1993-03-22 1993-03-22 複合語認識装置

Publications (1)

Publication Number Publication Date
JPH06274547A true JPH06274547A (ja) 1994-09-30

Family

ID=13194859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5062255A Pending JPH06274547A (ja) 1993-03-22 1993-03-22 複合語認識装置

Country Status (1)

Country Link
JP (1) JPH06274547A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003319285A (ja) * 2002-04-23 2003-11-07 Nec Corp 番組検索装置、番組映像処理装置及びプログラム
JP2007025834A (ja) * 2005-07-13 2007-02-01 Hitachi Ltd 読影レポート入力支援方法及び読影レポート入力支援システム
JP2009295052A (ja) * 2008-06-06 2009-12-17 Yahoo Japan Corp 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP2010152884A (ja) * 2008-12-02 2010-07-08 Intel Corp 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003319285A (ja) * 2002-04-23 2003-11-07 Nec Corp 番組検索装置、番組映像処理装置及びプログラム
JP2007025834A (ja) * 2005-07-13 2007-02-01 Hitachi Ltd 読影レポート入力支援方法及び読影レポート入力支援システム
JP4661415B2 (ja) * 2005-07-13 2011-03-30 株式会社日立製作所 表現ゆれ処理システム
JP2009295052A (ja) * 2008-06-06 2009-12-17 Yahoo Japan Corp 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP2010152884A (ja) * 2008-12-02 2010-07-08 Intel Corp 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法
US8391615B2 (en) 2008-12-02 2013-03-05 Intel Corporation Image recognition algorithm, method of identifying a target image using same, and method of selecting data for transmission to a portable electronic device

Similar Documents

Publication Publication Date Title
US5715469A (en) Method and apparatus for detecting error strings in a text
US8386264B2 (en) Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
JP3041268B2 (ja) 中国語誤り検査(cec)システム
US20150100307A1 (en) Text segmentation with multiple granularity levels
JPH096924A (ja) 電子手書きパターンを格納されたストリングと比較する装置および方法
JPH079655B2 (ja) スペルの誤りの検出訂正方法及び装置
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
Lee et al. Deep learning-based context-sensitive spelling typing error correction
Rehman et al. Morpheme matching based text tokenization for a scarce resourced language
Shah et al. Improvement of Soundex algorithm for Indian language based on phonetic matching
JP7487532B2 (ja) 画像ブロックの認識結果の補正方法及び装置、並びに記憶媒体
JP3777456B2 (ja) 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
JPH06274547A (ja) 複合語認識装置
JP3309174B2 (ja) 文字認識方法及び装置
CN115455948A (zh) 一种拼写纠错模型训练方法、拼写纠错方法及存储介质
JP2010097239A (ja) 辞書作成装置、辞書作成方法、および辞書作成プログラム
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
JP7098463B2 (ja) 単語列修正装置、単語列修正方法及びプログラム
JP2003288366A (ja) 類似テキスト検索装置
JP3241854B2 (ja) 単語スペル自動補正装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPS646514B2 (ja)
JP2006163830A (ja) 文字認識装置、文字認識方法、および文字認識プログラム
JPH0721196A (ja) 固有名詞特定方法
Makara et al. Bi-directional Maximal Matching Algorithm to Segment Khmer Words in Sentence