JPH05257982A - 文字列認識方法 - Google Patents
文字列認識方法Info
- Publication number
- JPH05257982A JPH05257982A JP4028349A JP2834992A JPH05257982A JP H05257982 A JPH05257982 A JP H05257982A JP 4028349 A JP4028349 A JP 4028349A JP 2834992 A JP2834992 A JP 2834992A JP H05257982 A JPH05257982 A JP H05257982A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- characters
- matching
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 本発明は、文字列と、これとの比較のための
文字列との類似点を求めることにより、情報検索装置、
あるいは、全文データベース検索装置、キーワード抽出
装置等における文字列認識を効率良く行うことを目的と
する。 【構成】本発明の文字列認識方法は、文字列の順序と文
字列における文字の位置を特徴量として反映させるた
め、文字の順序を認定するために文字と文字の一致の対
応を1対1に認定する文字一致認定と、文字の類似度を
計算する文字類似度評価計算と、一致した文字の順序の
評価計算を行う文字一致順序評価計算と、一致した文字
の位置場所による評価計算を行う文字一致位置評価計算
を行い、従来の文字列長、文字一致数を特徴量として反
映した文字列類似度評価計算の代わりに、文字列間の文
字列長・文字一致数・一致文字順序・一致文字位置重み
全ての特徴量を反映することを特徴とする。
文字列との類似点を求めることにより、情報検索装置、
あるいは、全文データベース検索装置、キーワード抽出
装置等における文字列認識を効率良く行うことを目的と
する。 【構成】本発明の文字列認識方法は、文字列の順序と文
字列における文字の位置を特徴量として反映させるた
め、文字の順序を認定するために文字と文字の一致の対
応を1対1に認定する文字一致認定と、文字の類似度を
計算する文字類似度評価計算と、一致した文字の順序の
評価計算を行う文字一致順序評価計算と、一致した文字
の位置場所による評価計算を行う文字一致位置評価計算
を行い、従来の文字列長、文字一致数を特徴量として反
映した文字列類似度評価計算の代わりに、文字列間の文
字列長・文字一致数・一致文字順序・一致文字位置重み
全ての特徴量を反映することを特徴とする。
Description
【0001】
【産業上の利用分野】本発明は、文字列が付加されたマ
ルチメディア情報をあらかじめ蓄積しておき、文字列の
入力により対応する情報を抽出する情報検索装置、ある
いは、全文データベース検索装置、キーワード抽出装置
等における未知語処理等の文字列照合部分にも応用可能
な文字列認識方法に関する。
ルチメディア情報をあらかじめ蓄積しておき、文字列の
入力により対応する情報を抽出する情報検索装置、ある
いは、全文データベース検索装置、キーワード抽出装置
等における未知語処理等の文字列照合部分にも応用可能
な文字列認識方法に関する。
【0002】
【従来の技術】従来のキーワードマッチング装置等の文
字列の認識においては最も基本的な方法として、完全一
致が用いられてきた。これは、入力した文字列とあらか
じめ管理されている文字列とが完全一致した場合にの
み、一致するとみなすものである。これは、主に統制キ
ーワード方式における入力語と標準語の照合に用いられ
てきた方法である。統制キーワード方式とは、あらかじ
め、文書に付加されるキーワードが制限されるもので、
入力するキーワードも統制キーワードでなければならな
い。これに対して、自由キーワード方式があるが、これ
は蓄積文書に対して、自由なキーワードが付加されてい
るもので、また、入力も自由なキーワードを入力する。
このため、この場合入力キーワードと情報に付与されて
いるキーワードのマッチングの問題がある。また、統制
キーワード方式の場合でも、利用者が統制キーワードか
ら選択して入力しなければならないという負荷の問題が
あり、自由なキーワードを入力し、近似する統制キーワ
ードへ変換する装置あるいは近似する統制キーワードを
検索する装置が必要である。
字列の認識においては最も基本的な方法として、完全一
致が用いられてきた。これは、入力した文字列とあらか
じめ管理されている文字列とが完全一致した場合にの
み、一致するとみなすものである。これは、主に統制キ
ーワード方式における入力語と標準語の照合に用いられ
てきた方法である。統制キーワード方式とは、あらかじ
め、文書に付加されるキーワードが制限されるもので、
入力するキーワードも統制キーワードでなければならな
い。これに対して、自由キーワード方式があるが、これ
は蓄積文書に対して、自由なキーワードが付加されてい
るもので、また、入力も自由なキーワードを入力する。
このため、この場合入力キーワードと情報に付与されて
いるキーワードのマッチングの問題がある。また、統制
キーワード方式の場合でも、利用者が統制キーワードか
ら選択して入力しなければならないという負荷の問題が
あり、自由なキーワードを入力し、近似する統制キーワ
ードへ変換する装置あるいは近似する統制キーワードを
検索する装置が必要である。
【0003】これらの要求に応えるために、従来より部
分一致による方法が用いられてきた。従来の部分一致の
方法としては前方一致、後方一致、語の類似度を
算出するマッチング関数を用いる方法がある。は語の
前方で一致した場合、一致とみなすもので、前方で一致
しない場合さらに、文字列を前方より削除してゆき、削
除後の文字列での前方一致の判定を繰り返す方法であ
る。は語の後方で一致した場合、一致とみなすもの
で、後方で一致しない場合さらに、文字列を後方より削
除してゆき、削除後の文字列での後方一致の判定を繰り
返す方法である。はマッチング関数を用いて、文字列
の比較を行うもので、類似度を算出し、しきい値以上の
語を一致とみなす方法である。前方一致、後方一致は処
理が簡易であり、処理速度にすぐれているという点があ
るが、入力された多様な文字列(キーワードの場合、利
用者の知識不足・記憶の不確実性による曖昧性、入力ミ
スによる表記違い、表記の多様性による表記ゆれ等によ
る多様性)に柔軟に、しかも精度的に十分に対応できな
いという欠点がある。一方、マッチング関数は文字列
数、文字一致数、を文字列の特徴量として反映させ柔軟
な処理を可能とする。
分一致による方法が用いられてきた。従来の部分一致の
方法としては前方一致、後方一致、語の類似度を
算出するマッチング関数を用いる方法がある。は語の
前方で一致した場合、一致とみなすもので、前方で一致
しない場合さらに、文字列を前方より削除してゆき、削
除後の文字列での前方一致の判定を繰り返す方法であ
る。は語の後方で一致した場合、一致とみなすもの
で、後方で一致しない場合さらに、文字列を後方より削
除してゆき、削除後の文字列での後方一致の判定を繰り
返す方法である。はマッチング関数を用いて、文字列
の比較を行うもので、類似度を算出し、しきい値以上の
語を一致とみなす方法である。前方一致、後方一致は処
理が簡易であり、処理速度にすぐれているという点があ
るが、入力された多様な文字列(キーワードの場合、利
用者の知識不足・記憶の不確実性による曖昧性、入力ミ
スによる表記違い、表記の多様性による表記ゆれ等によ
る多様性)に柔軟に、しかも精度的に十分に対応できな
いという欠点がある。一方、マッチング関数は文字列
数、文字一致数、を文字列の特徴量として反映させ柔軟
な処理を可能とする。
【0004】そこで従来より提案されているマッチング
関数を用いた文字列類似度算出方法を以下に挙げる。こ
こで入力語xを集合の記号を用い、x={xn,xn-1,
・・・,x1}(xn,xn-1,・・・,x1は文字列)と
する。同様に標準語y={ym,ym-1,・・・,y1}
とする。また、E(x)は語xの文字列数、語yのxへ
の類似度をμ(x,y)と表す。
関数を用いた文字列類似度算出方法を以下に挙げる。こ
こで入力語xを集合の記号を用い、x={xn,xn-1,
・・・,x1}(xn,xn-1,・・・,x1は文字列)と
する。同様に標準語y={ym,ym-1,・・・,y1}
とする。また、E(x)は語xの文字列数、語yのxへ
の類似度をμ(x,y)と表す。
【0005】図1により説明する。101において文字列
x,yを読み取る。文字列長計算102 により文字列x、
yの文字数E(x),E(y)を計算する。文字一致検
出103 により語xとyの文字列の一致を検出する。ここ
で一致文字の集合をx∩yと表す。文字一致数計算104
により語xとyの文字列の一致数E(x∩y)を計算
し、文字列一致数評価を行う。文字列類似度評価計算10
5 により上記で得られた値を数式1に代入し、語xとy
の類似度を評価計算する。
x,yを読み取る。文字列長計算102 により文字列x、
yの文字数E(x),E(y)を計算する。文字一致検
出103 により語xとyの文字列の一致を検出する。ここ
で一致文字の集合をx∩yと表す。文字一致数計算104
により語xとyの文字列の一致数E(x∩y)を計算
し、文字列一致数評価を行う。文字列類似度評価計算10
5 により上記で得られた値を数式1に代入し、語xとy
の類似度を評価計算する。
【数1】 入力された文字列に対する標準文字列の類似度を106 に
おいて出力する
おいて出力する
【0006】
【発明が解決しようとする課題】コサイン関数に代表さ
れるマッチング関数は文字列数、文字一致数、を文字列
の特徴量として反映させた柔軟なものではあるが、文字
列の順序が違う場合、たとえば、abの入力に対し、a
bcとbacの違い、あるいは文字列の全体における一
致した位置のよる違い、たとえば、abの入力に対し、
acとcbの違いを認識することはできなく、文字列認
識等に適用する技術としてはまだ十分なものではないと
いう問題がある。
れるマッチング関数は文字列数、文字一致数、を文字列
の特徴量として反映させた柔軟なものではあるが、文字
列の順序が違う場合、たとえば、abの入力に対し、a
bcとbacの違い、あるいは文字列の全体における一
致した位置のよる違い、たとえば、abの入力に対し、
acとcbの違いを認識することはできなく、文字列認
識等に適用する技術としてはまだ十分なものではないと
いう問題がある。
【0007】
【課題を解決するための手段】本発明は、文字列(入力
文字列)と比較する文字列(標準文字列)の2つの文字
列を読み込み、双方の文字列長さ(文字列の文字数)を
それぞれ計算し、双方の文字列の文字の比較により同一
文字を検出し、前記同一文字の中から同等の文字を1対
1に認定し、前記1対1に認定した結果を数値化して文
字類似度評価計算を行い、さらに前記文字類似度評価計
算の結果から双方の文字列の文字一致数の計算、文字一
致順序の評価計算、文字一致位置の評価計算を行い、前
記文字列長・前記文字一致数・前記文字一致順序・前記
文字一致位置の特徴量を反映した文字列類似度を評価計
算し、文字列の類似度を出力する。
文字列)と比較する文字列(標準文字列)の2つの文字
列を読み込み、双方の文字列長さ(文字列の文字数)を
それぞれ計算し、双方の文字列の文字の比較により同一
文字を検出し、前記同一文字の中から同等の文字を1対
1に認定し、前記1対1に認定した結果を数値化して文
字類似度評価計算を行い、さらに前記文字類似度評価計
算の結果から双方の文字列の文字一致数の計算、文字一
致順序の評価計算、文字一致位置の評価計算を行い、前
記文字列長・前記文字一致数・前記文字一致順序・前記
文字一致位置の特徴量を反映した文字列類似度を評価計
算し、文字列の類似度を出力する。
【0008】
【作用】文字一致計算で得られた文字の一致の対応を1
対1に認定することで文字列間の一致文字の順序及び位
置を特定することにより、これ以降に行う文字一致順序
計算と文字一致位置計算を可能とする。また、双方の文
字列の文字の一致度を計算する文字類似度計算で一致の
認定が行われた文字列の文字の類似性を認識し定量化す
ることにより、文字一致認定による文字列間の文字の類
似度を文字列類似度評価計算に反映させることを可能と
する。一致した文字の順序の評価計算を行う文字一致順
序評価計算で一致した文字の一致位置の相違(ずれ)す
なわち、例えば、”数理情報”と”情報数理”の違い等
の文字の一致順序による文字列における文字間の類似性
の相違を認識、定量化することにより、文字列類似度評
価計算に文字の一致順序による文字列における文字間の
類似性を反映させることを可能とする。一致した文字の
位置場所による評価計算を行う文字一致位置評価計算
で、例えば、入力文字列”医療情報システム”を入力文
字列、”医療システム”と”情報システム”を標準文字
列とし、文字列の前方に重みがあるとした場合、その標
準文字列のうち前方の文字列が一致している”医療シス
テム”の方が類似度が高いと認識できる等その違いを定
量化することにより、文字列類似度評価関数に一致した
文字の位置による相違を反映させることを可能とする。
最後に、計算された文字列双方の文字列長・文字一致数
・一致文字順序・一致文字位置の特徴量を反映した文字
列の類似度を計算する文字列類似度評価計算で、従来の
文字列長・文字一致数の違いだけではなく、文字列の順
序及び、文字の一致した位置の重要度を含めた要素の違
い、すなわちその中の任意の要素の組み合わせの違いを
1つの尺度(類似度)で定量化することを可能とする。
以上、本方法により、文字列長・文字一致数・文字列の
順序・文字の一致した位置の重要度の特徴を反映した精
密な文字列の一致の認定及び、入力文字文字列に対する
標準文字列群の類似度による精密な順序づけ等を可能と
する。
対1に認定することで文字列間の一致文字の順序及び位
置を特定することにより、これ以降に行う文字一致順序
計算と文字一致位置計算を可能とする。また、双方の文
字列の文字の一致度を計算する文字類似度計算で一致の
認定が行われた文字列の文字の類似性を認識し定量化す
ることにより、文字一致認定による文字列間の文字の類
似度を文字列類似度評価計算に反映させることを可能と
する。一致した文字の順序の評価計算を行う文字一致順
序評価計算で一致した文字の一致位置の相違(ずれ)す
なわち、例えば、”数理情報”と”情報数理”の違い等
の文字の一致順序による文字列における文字間の類似性
の相違を認識、定量化することにより、文字列類似度評
価計算に文字の一致順序による文字列における文字間の
類似性を反映させることを可能とする。一致した文字の
位置場所による評価計算を行う文字一致位置評価計算
で、例えば、入力文字列”医療情報システム”を入力文
字列、”医療システム”と”情報システム”を標準文字
列とし、文字列の前方に重みがあるとした場合、その標
準文字列のうち前方の文字列が一致している”医療シス
テム”の方が類似度が高いと認識できる等その違いを定
量化することにより、文字列類似度評価関数に一致した
文字の位置による相違を反映させることを可能とする。
最後に、計算された文字列双方の文字列長・文字一致数
・一致文字順序・一致文字位置の特徴量を反映した文字
列の類似度を計算する文字列類似度評価計算で、従来の
文字列長・文字一致数の違いだけではなく、文字列の順
序及び、文字の一致した位置の重要度を含めた要素の違
い、すなわちその中の任意の要素の組み合わせの違いを
1つの尺度(類似度)で定量化することを可能とする。
以上、本方法により、文字列長・文字一致数・文字列の
順序・文字の一致した位置の重要度の特徴を反映した精
密な文字列の一致の認定及び、入力文字文字列に対する
標準文字列群の類似度による精密な順序づけ等を可能と
する。
【0009】
【実施例】以下、図2〜図3により詳細に説明する。ま
ず図2において、本発明文字列認識方法を説明する。20
1 において入力文字列、標準文字列を読み込む。ここで
入力文字列xを集合の記号を用い以下のように表す。 x={xn,xn-1,・・・,x1}(xn,xn-1,・
・,x1は文字) 同様に標準文字列yを以下のように表す。 y={ym,ym-1,・・・,y1}
ず図2において、本発明文字列認識方法を説明する。20
1 において入力文字列、標準文字列を読み込む。ここで
入力文字列xを集合の記号を用い以下のように表す。 x={xn,xn-1,・・・,x1}(xn,xn-1,・
・,x1は文字) 同様に標準文字列yを以下のように表す。 y={ym,ym-1,・・・,y1}
【0010】202 において文字列の文字数を計算する。
xの文字数をE(x)、yの文字数をE(y)とする。
このとき E(x)=n,E(y)=m 203 において文字列x,yの比較を行い、文字列の文字
の一致の検出を行う。ここで以下のように、x,yの文
字をそれぞれxi(1≦i≦E(x)),yj(1≦j≦
E(y))としたときxiとyjが一致する場合(xi=
yj)、一致しない場合(xi≠yj)に分けてこれを数
式2のように定義する。
xの文字数をE(x)、yの文字数をE(y)とする。
このとき E(x)=n,E(y)=m 203 において文字列x,yの比較を行い、文字列の文字
の一致の検出を行う。ここで以下のように、x,yの文
字をそれぞれxi(1≦i≦E(x)),yj(1≦j≦
E(y))としたときxiとyjが一致する場合(xi=
yj)、一致しない場合(xi≠yj)に分けてこれを数
式2のように定義する。
【数2】 例 x={通、信} y={通、信、路、上、通、話} とすると、 M(x1 ,y1)=1,M(x1 ,y2)=0,M(x1
,y3)=0 M(x1 ,y4)=0,M(x1 ,y5)=1,M(x1
,y6)=0 M(x2 ,y1)=0,M(x2 ,y2)=1,M(x2
,y3)=0 M(x2 ,y4)=0,M(x2 ,y5)=0,M(x2
,y6)=0 のようになる。
,y3)=0 M(x1 ,y4)=0,M(x1 ,y5)=1,M(x1
,y6)=0 M(x2 ,y1)=0,M(x2 ,y2)=1,M(x2
,y3)=0 M(x2 ,y4)=0,M(x2 ,y5)=0,M(x2
,y6)=0 のようになる。
【0011】文字一致認定204 においては、上記文字一
致検出203 において検出された文字の文字列間の文字の
一致を基に、文字の一致の対応を1対1に認定する。な
ぜなら、上記において、xの1文字とyの複数の文字が
一致している場合(例えば上記においてM(x1 ,y
1)=1,M(x1 ,y5)=1であり、xの”通”はy
の2つの文字に対応している)があり、このままでは後
述する文字の一致の順序の特定ができないためである。
認定の方法としては、文字の後方すなわちiの項番の小
さい方に優先度をおいた場合、iの項番の小さい順でか
つjの項番の小さい順に優先順位をおいて認定するとい
う方法を行う。すなわち、、あるiに対し、認定が行わ
れたら、次はそれに対応するjの次のjの項から認定の
優先順位を置き認定を行い、j=E(y)まで、一致し
なかった場合、j=1からまた項の順番に一致の判定を
行っていく。また、一度認定の行われたjに対してはそ
れ以後認定の対象外とする。上記の例で説明すれば、ま
ず、xの”信”を対象にyの”話”から一致の判定を行
い”信”への一致で”信”への一致の認定を行う。次に
xの”通”を対象にyの”信”の次の項から一致の判定
を行い”通”への一致で”通”への一致の認定を行う。
文字の前方すなわちiの項番の大きい方に優先度をおい
た場合これとは逆向きに同様の操作により一致の認定を
行っていく。認定は、項番毎に数式3のように定義す
る。
致検出203 において検出された文字の文字列間の文字の
一致を基に、文字の一致の対応を1対1に認定する。な
ぜなら、上記において、xの1文字とyの複数の文字が
一致している場合(例えば上記においてM(x1 ,y
1)=1,M(x1 ,y5)=1であり、xの”通”はy
の2つの文字に対応している)があり、このままでは後
述する文字の一致の順序の特定ができないためである。
認定の方法としては、文字の後方すなわちiの項番の小
さい方に優先度をおいた場合、iの項番の小さい順でか
つjの項番の小さい順に優先順位をおいて認定するとい
う方法を行う。すなわち、、あるiに対し、認定が行わ
れたら、次はそれに対応するjの次のjの項から認定の
優先順位を置き認定を行い、j=E(y)まで、一致し
なかった場合、j=1からまた項の順番に一致の判定を
行っていく。また、一度認定の行われたjに対してはそ
れ以後認定の対象外とする。上記の例で説明すれば、ま
ず、xの”信”を対象にyの”話”から一致の判定を行
い”信”への一致で”信”への一致の認定を行う。次に
xの”通”を対象にyの”信”の次の項から一致の判定
を行い”通”への一致で”通”への一致の認定を行う。
文字の前方すなわちiの項番の大きい方に優先度をおい
た場合これとは逆向きに同様の操作により一致の認定を
行っていく。認定は、項番毎に数式3のように定義す
る。
【数3】 なおこの値はxi,yjの一致の認定が行われた場合
と、xi,yjの一致の認定が行われなたった場合を識
別するためのものであり、特に1、0でなくてもよい
(a、b等の表記でもよい)。
と、xi,yjの一致の認定が行われなたった場合を識
別するためのものであり、特に1、0でなくてもよい
(a、b等の表記でもよい)。
【0012】文字類似度評価計算205 では、上記で決定
された文字一致の認定に基づき、文字列x,y間の文字
の類似度を計算する。文字xi,yjの類似度をμ1(x
i,yj)とする。ここでμ1(xi,yj)は数式4のよ
うに表す。
された文字一致の認定に基づき、文字列x,y間の文字
の類似度を計算する。文字xi,yjの類似度をμ1(x
i,yj)とする。ここでμ1(xi,yj)は数式4のよ
うに表す。
【数4】 文字一致数計算206 では、上記の文字一致の認定に基づ
き、文字の一致数、すなわち、f(i,j)=1となる
iの数を計算し、これをrとする。
き、文字の一致数、すなわち、f(i,j)=1となる
iの数を計算し、これをrとする。
【0013】文字一致順序評価計算207 を説明する。い
ま、文字の一致の認定を基に、以下のように文字列x
i,yjの一致順序を反映させた評価関数 μ(xi,y
j)を数式5のように定義する。
ま、文字の一致の認定を基に、以下のように文字列x
i,yjの一致順序を反映させた評価関数 μ(xi,y
j)を数式5のように定義する。
【数5】 ここで、文字の順序の重要度を後方(項番の小さい方)
に置く場合、P(xi,yj)は以下のように定義され
る。これは、次の3つの場合がある。
に置く場合、P(xi,yj)は以下のように定義され
る。これは、次の3つの場合がある。
【0014】(a)xi が一致の認定がされた最後方文
字すなわち、f(i,j)=1を満たすiの中で最小で
あり、かつこのiが文字列の中で最後方文字である、す
なわちi=E(x)である場合(x1とyjが一致の認定
がされている場合) 例. x={a,b,c,d,e} y={f,g,h,e,j} (x,yは順序付き) ( は一致していることを示す。以下同じ) P(xi,yj)=|i−j|
字すなわち、f(i,j)=1を満たすiの中で最小で
あり、かつこのiが文字列の中で最後方文字である、す
なわちi=E(x)である場合(x1とyjが一致の認定
がされている場合) 例. x={a,b,c,d,e} y={f,g,h,e,j} (x,yは順序付き) ( は一致していることを示す。以下同じ) P(xi,yj)=|i−j|
【0015】(b)xi が一致の認定がされた最後方文
字すなわち、f(i,j)=1を満たすiの中で最小で
あり、かつこのiが文字列の中で最後方文字でない、す
なわちi≠1である場合(一致の認定がされた最小項番
の文字がx1 以外すなわち中間の場合) 例. x={a,b,c,d,e,k} y={f,g,h,e,j,l}(x,yは順序付き) P(xi,yj)=1−2-Ii-jI
字すなわち、f(i,j)=1を満たすiの中で最小で
あり、かつこのiが文字列の中で最後方文字でない、す
なわちi≠1である場合(一致の認定がされた最小項番
の文字がx1 以外すなわち中間の場合) 例. x={a,b,c,d,e,k} y={f,g,h,e,j,l}(x,yは順序付き) P(xi,yj)=1−2-Ii-jI
【0016】(c)xiが一致の認定がされた最後方文
字でない場合すなわち、f(i,j)=1を満たすiの
中で最小でない場合、xiより項番の小さい一致の認定
がされた文字の中で最大の項番をi’としこのとき、f
(i’,j’)=1とし、正の整数に対する特性関数を
cZ+(j’−j)とすると 例. x={a,b,c,e,d,k} i i’ y={f,g,e,d,l}(x,yは順序付き) j j’ P(xi,yj)=cZ+(j’−j)
字でない場合すなわち、f(i,j)=1を満たすiの
中で最小でない場合、xiより項番の小さい一致の認定
がされた文字の中で最大の項番をi’としこのとき、f
(i’,j’)=1とし、正の整数に対する特性関数を
cZ+(j’−j)とすると 例. x={a,b,c,e,d,k} i i’ y={f,g,e,d,l}(x,yは順序付き) j j’ P(xi,yj)=cZ+(j’−j)
【0017】また、文字の順序の重要度を前方(項番の
大きい方)に置く場合は、上記の項番を1をE(x)に
また最大を最小(最小を最大)に小さいを大きいにz+
をz−に後方を前方に代えて計算する。文字一致位置評
価計算208 について説明する。ここでは、文字の一致に
その一致の位置により重みをつけるため、以下のように
xiに対し、重み関数α(xi,yj)を定義する。
大きい方)に置く場合は、上記の項番を1をE(x)に
また最大を最小(最小を最大)に小さいを大きいにz+
をz−に後方を前方に代えて計算する。文字一致位置評
価計算208 について説明する。ここでは、文字の一致に
その一致の位置により重みをつけるため、以下のように
xiに対し、重み関数α(xi,yj)を定義する。
【0018】(a)文字の位置の重要度を後方におく場
合、重み関数α(xi,yj)を以下の数式6のように定
義する。
合、重み関数α(xi,yj)を以下の数式6のように定
義する。
【数6】
【0019】(b)文字の位置の重要度を前方におく場
合、重み関数α(xi,yj)を以下の数式7のように定
義する。
合、重み関数α(xi,yj)を以下の数式7のように定
義する。
【数7】
【0020】文字列類似度評価計算209 について説明す
る。数式8の文字列xに対する文字列yの類似度を求め
る文字列類似度評価関数に以上で求めた値を代入し計算
を実行する。
る。数式8の文字列xに対する文字列yの類似度を求め
る文字列類似度評価関数に以上で求めた値を代入し計算
を実行する。
【数8】
【0021】類似度出力210 について説明する。ここで
は、文字列類似度評価計算209 で得られた、入力文字列
xに対する、標準文字列yの類似度を出力する。図3に
おいて204 の文字一致認定のフローについて説明する。
は、文字列類似度評価計算209 で得られた、入力文字列
xに対する、標準文字列yの類似度を出力する。図3に
おいて204 の文字一致認定のフローについて説明する。
【0022】f(i,j)=0(1≦i≦E(x),1
≦j≦E(j))とし、h(j)=0(1≦j≦E
(y))とする(302) 。t=0とする(303) 。i=1と
する(304)。j=1とする(305) 。M(xi,yj)=1か
どうかの判断を行う(306) 。M(xi,yj)=1である
場合、307 の判断に移り、M(xi,yj)=1 でない
場合、 308 の判断に移る。307では、h(j)=0であ
るかどうかの判断を行い、h(j)=0である場合、30
9 の処理を実行し、h(j)=0でない場合(308)の判
断に移る。309 ではf(i,j)=1、h(j)=1、
t=jと代入後、310 の判断に移る。310ではj=E
(y)の判断を行い、j=E(y)でない場合、322の
判断に移る。322ではi=E(x)であるかどうかの判
断を行い、i=E(x)である場合、314に移り処理を
終了する。i=E(x)でない場合311に移り、i+
+,j++とし、306に移る。
≦j≦E(j))とし、h(j)=0(1≦j≦E
(y))とする(302) 。t=0とする(303) 。i=1と
する(304)。j=1とする(305) 。M(xi,yj)=1か
どうかの判断を行う(306) 。M(xi,yj)=1である
場合、307 の判断に移り、M(xi,yj)=1 でない
場合、 308 の判断に移る。307では、h(j)=0であ
るかどうかの判断を行い、h(j)=0である場合、30
9 の処理を実行し、h(j)=0でない場合(308)の判
断に移る。309 ではf(i,j)=1、h(j)=1、
t=jと代入後、310 の判断に移る。310ではj=E
(y)の判断を行い、j=E(y)でない場合、322の
判断に移る。322ではi=E(x)であるかどうかの判
断を行い、i=E(x)である場合、314に移り処理を
終了する。i=E(x)でない場合311に移り、i+
+,j++とし、306に移る。
【0023】また、310でj=E(y)である場合、312
の判断に移る。312では、i=E(x)の判断を行い、
i=E(x)でない場合、313に移り、i++とし、305
に移る。また312で i=E(x)である場合、314に
移り処理を終了する。308ではj=E(y)の判断を行
い、j=E(y)でない場合、315でj++とし、316の
判断に移る。308でj=E(y)である場合、317の判断
に移る。316では、j=tであるかどうかの判断を行
い、j=tである場合、320の判断に移り、i=E
(x)である場合、314に移り処理を終了し、i=E
(x)でない場合318に移り、j=t+1,i++と
し、306に移る。316においてj=tでない場合、j ++
とし315 、306に移る。317において、t=0またはE
(y)でない場合、305に移り、t=0またはE(y)
である場合、312の判断に移り、i=E(x)でない場
合、319 にてi++とし、305に移りi=E(x)であ
る場合314に移り処理を終了する
の判断に移る。312では、i=E(x)の判断を行い、
i=E(x)でない場合、313に移り、i++とし、305
に移る。また312で i=E(x)である場合、314に
移り処理を終了する。308ではj=E(y)の判断を行
い、j=E(y)でない場合、315でj++とし、316の
判断に移る。308でj=E(y)である場合、317の判断
に移る。316では、j=tであるかどうかの判断を行
い、j=tである場合、320の判断に移り、i=E
(x)である場合、314に移り処理を終了し、i=E
(x)でない場合318に移り、j=t+1,i++と
し、306に移る。316においてj=tでない場合、j ++
とし315 、306に移る。317において、t=0またはE
(y)でない場合、305に移り、t=0またはE(y)
である場合、312の判断に移り、i=E(x)でない場
合、319 にてi++とし、305に移りi=E(x)であ
る場合314に移り処理を終了する
【0024】
【発明の効果】以上説明したように、文字列の類似度を
計算するときに文字列の文字列長、文字一致数だけでな
く、文字列における一致した文字の順序の違い、および
一致した文字の位置による重要度を全て反映した柔軟な
文字列の類似度を計算するという本発明の方法により、
統制キーワード方式による情報検索の場合、入力したキ
ーワードに類似する統制キーワードを類似度順に出力す
る統制キーワード検索装置を統制キーワード入力支援と
して設けることにより利用者が望むキーワードをあらか
じめ従来より柔軟に選ぶことができ、また、統制/自由
キーワード方式双方において、利用者が入力した自由な
キーワードに対して、本方法により文書に付加された統
制/自由キーワードとの類似度を計算し、類似度がある
しきい値以上であれば統制/自由キーワードに変換する
ことにより、従来より、より曖昧なキーワードの指定が
可能となる。また、名義・住所等のディレクトリ情報の
検索に適応することにより、入力された名義あるいは住
所等に対しても、従来は例えば、ABCとBACの識別
が不可能であったがこれの識別を可能とする等、柔軟な
検索結果候補の出力を可能とする。他にも、全文データ
ベース検索、形態素解析、キーワード自動抽出等の文字
列照合処理部分への適応により、柔軟な文字列照合を実
現する。
計算するときに文字列の文字列長、文字一致数だけでな
く、文字列における一致した文字の順序の違い、および
一致した文字の位置による重要度を全て反映した柔軟な
文字列の類似度を計算するという本発明の方法により、
統制キーワード方式による情報検索の場合、入力したキ
ーワードに類似する統制キーワードを類似度順に出力す
る統制キーワード検索装置を統制キーワード入力支援と
して設けることにより利用者が望むキーワードをあらか
じめ従来より柔軟に選ぶことができ、また、統制/自由
キーワード方式双方において、利用者が入力した自由な
キーワードに対して、本方法により文書に付加された統
制/自由キーワードとの類似度を計算し、類似度がある
しきい値以上であれば統制/自由キーワードに変換する
ことにより、従来より、より曖昧なキーワードの指定が
可能となる。また、名義・住所等のディレクトリ情報の
検索に適応することにより、入力された名義あるいは住
所等に対しても、従来は例えば、ABCとBACの識別
が不可能であったがこれの識別を可能とする等、柔軟な
検索結果候補の出力を可能とする。他にも、全文データ
ベース検索、形態素解析、キーワード自動抽出等の文字
列照合処理部分への適応により、柔軟な文字列照合を実
現する。
【図1】図1は従来文字列認識方法のブロック図であ
る。
る。
【図2】図2は本発明文字列認識方法のブロック図であ
る。
る。
【図3】図3は文字一致認定のフロー図である。
101 文字列の読み込み 102 文字列長計算 103 文字一致検出 104 文字一致数計算 105 文字列類似度評価計算 106 類似度の出力 201 文字列の読み込み 202 文字列長計算 203 文字一致検出 204 文字一致認定 205 文字類似度評価計算 206 文字一致数計算 207 文字一致順序評価計算 208 文字一致位置評価計算 209 文字列類似度評価計算 210 類似度の出力 301〜319 文字一致認定フローの各処理過程を
示す
示す
Claims (1)
- 【請求項1】 類似度を比較する対象としての2つの文
字列について、それぞれの文字の数を計算し、前記2つ
の文字列の文字を突合して同一である文字と、文字列の
中での同一となる位置、同一となる数を検出し、さらに
前記同一である文字の中から同じ目的で使われる文字を
対応する文字として検出し、さらに該検出結果から前記
対応する文字の数、前記対応する文字の文字列の中での
順序、前記対応する文字の文字列の中での位置を求める
ことにより、前記文字の数、前記同一である文字の文字
列の中での同一となる位置、同一となる数、前記対応す
る文字の数、前記対応する文字の文字列の中での順序、
前記対応する文字の文字列の中での位置の特徴量を反映
して前記2つの文字列の文字列類似度を求めることを特
徴とする文字列認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4028349A JPH05257982A (ja) | 1992-02-14 | 1992-02-14 | 文字列認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4028349A JPH05257982A (ja) | 1992-02-14 | 1992-02-14 | 文字列認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05257982A true JPH05257982A (ja) | 1993-10-08 |
Family
ID=12246129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4028349A Pending JPH05257982A (ja) | 1992-02-14 | 1992-02-14 | 文字列認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05257982A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0895982A (ja) * | 1994-09-29 | 1996-04-12 | Ricoh Co Ltd | キーワード抽出装置 |
JPH11175557A (ja) * | 1997-12-16 | 1999-07-02 | Sanyo Electric Co Ltd | 情報通信端末装置 |
JP2003044515A (ja) * | 2001-08-01 | 2003-02-14 | Aisin Aw Co Ltd | 検索装置及び検索プログラム |
JP2007034870A (ja) * | 2005-07-29 | 2007-02-08 | Team Lab Inc | 距離の概念に基づく言語処理装置 |
JP2007206976A (ja) * | 2006-02-01 | 2007-08-16 | Alpine Electronics Inc | 情報処理装置 |
JP2008310772A (ja) * | 2007-06-18 | 2008-12-25 | Sharp Corp | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 |
JP2010009399A (ja) * | 2008-06-27 | 2010-01-14 | Yahoo Japan Corp | 辞書情報表示装置、辞書情報表示システム、検索装置、辞書情報表示方法、および、そのプログラム |
JP2016014998A (ja) * | 2014-07-02 | 2016-01-28 | 株式会社日立ソリューションズ東日本 | データ処理装置およびデータ処理方法 |
-
1992
- 1992-02-14 JP JP4028349A patent/JPH05257982A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0895982A (ja) * | 1994-09-29 | 1996-04-12 | Ricoh Co Ltd | キーワード抽出装置 |
JPH11175557A (ja) * | 1997-12-16 | 1999-07-02 | Sanyo Electric Co Ltd | 情報通信端末装置 |
JP2003044515A (ja) * | 2001-08-01 | 2003-02-14 | Aisin Aw Co Ltd | 検索装置及び検索プログラム |
JP2007034870A (ja) * | 2005-07-29 | 2007-02-08 | Team Lab Inc | 距離の概念に基づく言語処理装置 |
JP2007206976A (ja) * | 2006-02-01 | 2007-08-16 | Alpine Electronics Inc | 情報処理装置 |
JP2008310772A (ja) * | 2007-06-18 | 2008-12-25 | Sharp Corp | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 |
JP2010009399A (ja) * | 2008-06-27 | 2010-01-14 | Yahoo Japan Corp | 辞書情報表示装置、辞書情報表示システム、検索装置、辞書情報表示方法、および、そのプログラム |
JP2016014998A (ja) * | 2014-07-02 | 2016-01-28 | 株式会社日立ソリューションズ東日本 | データ処理装置およびデータ処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3041268B2 (ja) | 中国語誤り検査(cec)システム | |
EP0510634B1 (en) | Data base retrieval system | |
JP3689455B2 (ja) | 情報処理方法及び装置 | |
JP2607818B2 (ja) | コンピュータシステム内にレコードが記憶されているか否かを判定する方法及び装置 | |
JP2832988B2 (ja) | データ検索システム | |
JP2001291060A (ja) | 単語列照合装置および単語列照合方法 | |
CN104112005B (zh) | 分布式海量指纹识别方法 | |
WO2008047136A1 (en) | Biometric matching method and apparatus | |
JPH05257982A (ja) | 文字列認識方法 | |
JP2002007413A (ja) | 画像検索装置 | |
JPH0729003A (ja) | 指紋照合装置 | |
CN110941730B (zh) | 基于人脸特征数据偏移的检索方法与装置 | |
JP3534471B2 (ja) | マージソート方法及びマージソート装置 | |
JP2786380B2 (ja) | キーワード照合検索処理方法 | |
CN111737513A (zh) | 一种针对海量音乐数据的哼唱检索系统 | |
JP2010237909A (ja) | 知識補正プログラム、知識補正装置および知識補正方法 | |
JP2003288366A (ja) | 類似テキスト検索装置 | |
JPH06325091A (ja) | 類似度評価型データベース検索装置 | |
JP2682448B2 (ja) | 索引検索方式 | |
JPH08272813A (ja) | ファイリング装置 | |
JPH07296005A (ja) | 日本語テキスト登録・検索装置 | |
JP3657680B2 (ja) | 名標検索装置 | |
JP3446866B2 (ja) | データベース作成装置および方法 | |
JP2845463B2 (ja) | パターン認識装置 | |
JP2023135489A (ja) | 情報処理装置、および、情報処理方法とプログラム |