JP2001291060A - 単語列照合装置および単語列照合方法 - Google Patents
単語列照合装置および単語列照合方法Info
- Publication number
- JP2001291060A JP2001291060A JP2000102370A JP2000102370A JP2001291060A JP 2001291060 A JP2001291060 A JP 2001291060A JP 2000102370 A JP2000102370 A JP 2000102370A JP 2000102370 A JP2000102370 A JP 2000102370A JP 2001291060 A JP2001291060 A JP 2001291060A
- Authority
- JP
- Japan
- Prior art keywords
- word
- word string
- words
- string
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99951—File or database maintenance
- Y10S707/99952—Coherency, e.g. same view to multiple users
- Y10S707/99953—Recoverability
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【課題】文字認識分野において、入力された単語列と単
語辞書内の各単語との照合の際、従来よりも高精度な単
語列照合が行なえる単語列照合装置および単語列照合方
法を提供する。 【解決手段】複数の単語からなる住所情報などの単語列
に対する文字認識結果から単語列を抽出する際に入力さ
れた単語列と住所辞書内の住所データとの照合を行なう
単語列照合方法において、入力された単語列と住所辞書
内の住所データとを対応付け、この対応付けられた入力
された単語列の単語間の距離と住所辞書内の住所データ
間の距離との位置関係を求め、この求められた位置関係
と入力された単語列の単語間の距離とに基づき、前記対
応付けられた入力された単語列と住所辞書内の住所デー
タとの対応関係が最適か否かを決定する。
語辞書内の各単語との照合の際、従来よりも高精度な単
語列照合が行なえる単語列照合装置および単語列照合方
法を提供する。 【解決手段】複数の単語からなる住所情報などの単語列
に対する文字認識結果から単語列を抽出する際に入力さ
れた単語列と住所辞書内の住所データとの照合を行なう
単語列照合方法において、入力された単語列と住所辞書
内の住所データとを対応付け、この対応付けられた入力
された単語列の単語間の距離と住所辞書内の住所データ
間の距離との位置関係を求め、この求められた位置関係
と入力された単語列の単語間の距離とに基づき、前記対
応付けられた入力された単語列と住所辞書内の住所デー
タとの対応関係が最適か否かを決定する。
Description
【0001】
【発明の属する技術分野】本発明は、たとえば、住所情
報などを読取る光学的文字読取装置や帳票入力装置など
で用いられる文字認識分野において、誤りを含む文字認
識結果から住所などの単語列を抽出する際に住所辞書と
の照合を行なう単語列照合装置および単語列照合方法に
関する。
報などを読取る光学的文字読取装置や帳票入力装置など
で用いられる文字認識分野において、誤りを含む文字認
識結果から住所などの単語列を抽出する際に住所辞書と
の照合を行なう単語列照合装置および単語列照合方法に
関する。
【0002】
【従来の技術】この種の単語列照合装置として、単語間
の距離に基づく住所照合装置、たとえば、編集距離(レ
ーベンシュタイン距離、LD、V.Levenshtein:So
v.Phys.Dokl.10,707など)に基づく単語照合
を用いた装置が知られている。その概要は、入力された
誤りを含む文字認識結果の集合から単語列を抽出する際
に、入力単語列と住所辞書内の単語との距離(類似度)
を求め、それを測度として住所照合を行なうものであ
る。
の距離に基づく住所照合装置、たとえば、編集距離(レ
ーベンシュタイン距離、LD、V.Levenshtein:So
v.Phys.Dokl.10,707など)に基づく単語照合
を用いた装置が知られている。その概要は、入力された
誤りを含む文字認識結果の集合から単語列を抽出する際
に、入力単語列と住所辞書内の単語との距離(類似度)
を求め、それを測度として住所照合を行なうものであ
る。
【0003】以下、技術技術について詳細に説明する。
【0004】図7は、従来の単語列照合装置としての住
所照合装置の構成を示すものである。図7において、入
力部1は、文書画像を入力すると、それをコンピュータ
で扱える形式に変換する(たとえば、イメージスキャナ
のような光電変換装置など)。
所照合装置の構成を示すものである。図7において、入
力部1は、文書画像を入力すると、それをコンピュータ
で扱える形式に変換する(たとえば、イメージスキャナ
のような光電変換装置など)。
【0005】文字認識部2は、入力された文書画像を基
に2値化、セグメンテーション、個別文字認識など、文
書画像の内容を理解するための処理を行なう。文字認識
部2で得られる認識結果を文字認識結果と呼ぶことにす
る。なお、文字認識は古くから研究されている分野であ
るが、限られた場合を除き、文字認識率100%を保証
できるシステムは未だ存在しない。そこで、文字認識結
果に誤りが含まれる場合でも正しく単語列を抽出できる
手段が、実用上、求められる。
に2値化、セグメンテーション、個別文字認識など、文
書画像の内容を理解するための処理を行なう。文字認識
部2で得られる認識結果を文字認識結果と呼ぶことにす
る。なお、文字認識は古くから研究されている分野であ
るが、限られた場合を除き、文字認識率100%を保証
できるシステムは未だ存在しない。そこで、文字認識結
果に誤りが含まれる場合でも正しく単語列を抽出できる
手段が、実用上、求められる。
【0006】単語列生成部3は、文字認識結果から単語
列Aを生成し、メモリM1に格納する。単語列Aは、単
語単位で区切られた文字列の集合である。
列Aを生成し、メモリM1に格納する。単語列Aは、単
語単位で区切られた文字列の集合である。
【0007】一方、単語辞書としての住所辞書M2に
は、あらかじめ複数の住所データ(単語)Bが格納され
ており、随時、任意の住所データBが読出されるように
なっている。
は、あらかじめ複数の住所データ(単語)Bが格納され
ており、随時、任意の住所データBが読出されるように
なっている。
【0008】距離算出部11は、単語列Aと住所データ
Bとで、単語間の距離Dを算出し、メモリM4に格納す
る。単語間の距離の定義にはさまざまなものがあるが、
その一例として、編集距離(レーベンシュタイン距離と
も言う、以下、LDと略称する)が挙げられる。LD
は、一方の単語列Aを他方の単語列Bに変換するのに必
要な文字の置換・挿入・削除の操作回数の最小値のこと
である。式で表わすと以下のようになる。
Bとで、単語間の距離Dを算出し、メモリM4に格納す
る。単語間の距離の定義にはさまざまなものがあるが、
その一例として、編集距離(レーベンシュタイン距離と
も言う、以下、LDと略称する)が挙げられる。LD
は、一方の単語列Aを他方の単語列Bに変換するのに必
要な文字の置換・挿入・削除の操作回数の最小値のこと
である。式で表わすと以下のようになる。
【0009】LD(A,B)=min{pa(i)+q
b(i)+rc(i)} ここで、a(i)はある置換回数、b(i)はある挿入
回数、c(i)はある削除回数である。また、p,q,
rはそれぞれ置換・挿入・削除の編集操作に対する重み
係数であり、出現文字に依存する。一般に、a(i)、
b(i)、c(i)の組合わせは無限に存在するため、
LD(A,B)の最小値は、動的計画法(DP)によっ
て求められる。
b(i)+rc(i)} ここで、a(i)はある置換回数、b(i)はある挿入
回数、c(i)はある削除回数である。また、p,q,
rはそれぞれ置換・挿入・削除の編集操作に対する重み
係数であり、出現文字に依存する。一般に、a(i)、
b(i)、c(i)の組合わせは無限に存在するため、
LD(A,B)の最小値は、動的計画法(DP)によっ
て求められる。
【0010】最適解算出部12は、複数の住所データの
中で、単語列Aとの距離が最小となるものを選び出し、
最適解とする。
中で、単語列Aとの距離が最小となるものを選び出し、
最適解とする。
【0011】出力部10は、求められた最適解を利用者
が理解できる形式に変換して出力するもので、たとえ
ば、画面表示装置などである。
が理解できる形式に変換して出力するもので、たとえ
ば、画面表示装置などである。
【0012】
【発明が解決しようとする課題】従来は、上記したよう
に、単語間の距離(類似度)だけを用いて住所照合を行
なっていたため、正解の住所データよりも誤った住所デ
ータの方が最適解として選ばれてしまうことがあった。
これについて、図8および図9を用いて説明する。
に、単語間の距離(類似度)だけを用いて住所照合を行
なっていたため、正解の住所データよりも誤った住所デ
ータの方が最適解として選ばれてしまうことがあった。
これについて、図8および図9を用いて説明する。
【0013】図9は、たとえば、カナダ国の住所(架
空)を例に、従来手法による住所照合の方法を示したも
のである。なお、入力される文書画像は、図8に示した
通りである。ここでは、「John Williams
/Multiple District C/1278
Sheraton Street Unit 5/R
ichmondhill Ontario L4B 2
N1 CANADA」と書かれている。この文書画像を
文字認識部2およ単語列生成部3が処理した結果が、文
字誤りを含む単語列である。前述した理由により、単語
列には文字誤りが含まれている。
空)を例に、従来手法による住所照合の方法を示したも
のである。なお、入力される文書画像は、図8に示した
通りである。ここでは、「John Williams
/Multiple District C/1278
Sheraton Street Unit 5/R
ichmondhill Ontario L4B 2
N1 CANADA」と書かれている。この文書画像を
文字認識部2およ単語列生成部3が処理した結果が、文
字誤りを含む単語列である。前述した理由により、単語
列には文字誤りが含まれている。
【0014】なお、ここでは認識された文字は、全て大
文字に変換される(大文字・小文字の区別がない)。文
字誤りを含む単語列は、「JOHN−WILLIAMS
−MULTLPLE−DLSTRICT−C−1278
−SHEIATON−STREET−UNLT−5−R
ICHRTIONDHILL−ONTARIO−L4B
−2N1−CANADA」となっている。
文字に変換される(大文字・小文字の区別がない)。文
字誤りを含む単語列は、「JOHN−WILLIAMS
−MULTLPLE−DLSTRICT−C−1278
−SHEIATON−STREET−UNLT−5−R
ICHRTIONDHILL−ONTARIO−L4B
−2N1−CANADA」となっている。
【0015】一方、住所辞書M2には、複数の住所デー
タが蓄積されている。ここでは、説明を簡単にするため
に、第1の住所データ「WILLIAMS−STREE
T−RICHMONDHILL−ONTARIO−L4
B−2N1」と、第2の住所データ「SHERATON
−STREET−RICHMONDHILL−ONTA
RIO−L4B−2N1」の2つのみとする。なお、そ
れぞれ先頭から、ストリート名、ストリート接尾語、都
市名、州名、郵便番号(前3桁)、郵便番号(後3桁)
を意味する。
タが蓄積されている。ここでは、説明を簡単にするため
に、第1の住所データ「WILLIAMS−STREE
T−RICHMONDHILL−ONTARIO−L4
B−2N1」と、第2の住所データ「SHERATON
−STREET−RICHMONDHILL−ONTA
RIO−L4B−2N1」の2つのみとする。なお、そ
れぞれ先頭から、ストリート名、ストリート接尾語、都
市名、州名、郵便番号(前3桁)、郵便番号(後3桁)
を意味する。
【0016】距離算出部11は、単語列Aと第1の住所
データ、単語列Aと第2の住所データとをそれぞれ比較
する。その方法は、住所データの各項目ごとに、最も距
離の最小となる単語を求める。図9では、単語間の距離
をLDに基づいて求め、下記数1により類似度を算出し
ている。
データ、単語列Aと第2の住所データとをそれぞれ比較
する。その方法は、住所データの各項目ごとに、最も距
離の最小となる単語を求める。図9では、単語間の距離
をLDに基づいて求め、下記数1により類似度を算出し
ている。
【0017】
【数1】
【0018】ただし、len(・)は文字列の長さを返
す関数、LD′(・,・)は正規化されたLDである。
εは任意の小さな実数でよいが、ここではε=1として
いる。すると、LDが最小値(すなわち、単語列AとB
が同一)のとき、類似度は最大値「1」となる。
す関数、LD′(・,・)は正規化されたLDである。
εは任意の小さな実数でよいが、ここではε=1として
いる。すると、LDが最小値(すなわち、単語列AとB
が同一)のとき、類似度は最大値「1」となる。
【0019】ここで、文書画像には住所データにない、
さまざまな単語が介在する。たとえば、「Multip
le District C」というのは正式な住所で
はないが、区画を表記するものである。他にも、宛名、
部屋番号、国名などがあり得る。その中で、この例の
「Williams」のように、宛名がストリート名や
都市名などと同一となる場合がある。
さまざまな単語が介在する。たとえば、「Multip
le District C」というのは正式な住所で
はないが、区画を表記するものである。他にも、宛名、
部屋番号、国名などがあり得る。その中で、この例の
「Williams」のように、宛名がストリート名や
都市名などと同一となる場合がある。
【0020】従来手法では、距離(類似度)だけを用い
るため、この単語列Aと第1の住所データとの例では、
第1の住所データのストリート名と宛名とが誤って照合
してしまう。しかも、単語列Aと第2の住所データとの
比較では、文字認識において「Sheraton」が
「SHELATON」のように文字誤りを起こしたた
め、距離(類似度)だけでは、単語列Aと第1の住所デ
ータとの比較よりも劣ってしまい、結果的に、誤認識と
なる場合があった。
るため、この単語列Aと第1の住所データとの例では、
第1の住所データのストリート名と宛名とが誤って照合
してしまう。しかも、単語列Aと第2の住所データとの
比較では、文字認識において「Sheraton」が
「SHELATON」のように文字誤りを起こしたた
め、距離(類似度)だけでは、単語列Aと第1の住所デ
ータとの比較よりも劣ってしまい、結果的に、誤認識と
なる場合があった。
【0021】そこで、本発明は、文字認識分野におい
て、入力された単語列と単語辞書内の各単語との照合の
際、従来よりも高精度な単語列照合が行なえる単語列照
合装置および単語列照合方法を提供することを目的とす
る。
て、入力された単語列と単語辞書内の各単語との照合の
際、従来よりも高精度な単語列照合が行なえる単語列照
合装置および単語列照合方法を提供することを目的とす
る。
【0022】
【課題を解決するための手段】本発明の単語列照合装置
は、複数の単語からなる単語列に対する文字認識結果か
ら単語列を抽出する際に入力された単語列と単語辞書内
の単語との照合を行なう単語列照合装置において、入力
された単語列と単語辞書内の各単語とを対応付ける対応
付け手段と、この対応付け手段により対応付けられた入
力された単語列の単語間の距離と単語辞書内の単語間の
距離との位置関係を求める位置関係算出手段と、この位
置関係算出手段により求められた位置関係と入力された
単語列の単語間の距離とに基づき、前記対応付け手段に
より対応付けられた入力された単語列と単語辞書内の各
単語との対応関係が最適か否かを決定する手段とを具備
している。
は、複数の単語からなる単語列に対する文字認識結果か
ら単語列を抽出する際に入力された単語列と単語辞書内
の単語との照合を行なう単語列照合装置において、入力
された単語列と単語辞書内の各単語とを対応付ける対応
付け手段と、この対応付け手段により対応付けられた入
力された単語列の単語間の距離と単語辞書内の単語間の
距離との位置関係を求める位置関係算出手段と、この位
置関係算出手段により求められた位置関係と入力された
単語列の単語間の距離とに基づき、前記対応付け手段に
より対応付けられた入力された単語列と単語辞書内の各
単語との対応関係が最適か否かを決定する手段とを具備
している。
【0023】また、本発明の単語列照合装置は、複数の
単語からなる単語列に対する文字認識結果から単語列を
抽出する際に入力された単語列と単語辞書内の単語との
照合を行なう単語列照合装置において、複数の単語から
なる単語列に対する文字認識結果から単語列を生成する
単語列生成手段と、この単語列生成手段により生成され
た単語列と単語辞書内の各単語とを対応付ける対応付け
手段と、前記単語列生成手段により生成された単語列と
単語辞書内の各単語とで単語間の距離を求める距離算出
手段と、前記対応付け手段により対応付けられた入力さ
れた単語列の単語間の距離と単語辞書内の単語間の距離
との位置関係を求める位置関係算出手段と、この位置関
係算出手段により求められた位置関係と前記距離算出手
段により求められた単語間の距離とに基づき評価値を求
める評価値算出手段と、この評価値算出手段により求め
られた評価値に基づき前記対応付け手段により対応付け
られた入力された単語列と単語辞書内の各単語との対応
関係を更新する更新手段と、前記評価値算出手段により
求められた評価値が最小となる最適解を求めて出力する
最適解算出手段とを具備している。
単語からなる単語列に対する文字認識結果から単語列を
抽出する際に入力された単語列と単語辞書内の単語との
照合を行なう単語列照合装置において、複数の単語から
なる単語列に対する文字認識結果から単語列を生成する
単語列生成手段と、この単語列生成手段により生成され
た単語列と単語辞書内の各単語とを対応付ける対応付け
手段と、前記単語列生成手段により生成された単語列と
単語辞書内の各単語とで単語間の距離を求める距離算出
手段と、前記対応付け手段により対応付けられた入力さ
れた単語列の単語間の距離と単語辞書内の単語間の距離
との位置関係を求める位置関係算出手段と、この位置関
係算出手段により求められた位置関係と前記距離算出手
段により求められた単語間の距離とに基づき評価値を求
める評価値算出手段と、この評価値算出手段により求め
られた評価値に基づき前記対応付け手段により対応付け
られた入力された単語列と単語辞書内の各単語との対応
関係を更新する更新手段と、前記評価値算出手段により
求められた評価値が最小となる最適解を求めて出力する
最適解算出手段とを具備している。
【0024】また、本発明の単語列照合装置は、前記対
応付け手段は、単語辞書から読込んだ1つの単語に応じ
て対応関係を初期化することを特徴とする。
応付け手段は、単語辞書から読込んだ1つの単語に応じ
て対応関係を初期化することを特徴とする。
【0025】また、本発明の単語列照合装置は、前記対
応付け手段は、単語辞書内の各単語について単語間の距
離が最小となる単語を求め、それを初期値として用いる
ことを特徴とする。
応付け手段は、単語辞書内の各単語について単語間の距
離が最小となる単語を求め、それを初期値として用いる
ことを特徴とする。
【0026】また、本発明の単語列照合装置は、前記対
応付け手段は、以前に照合した単語辞書内の単語と共通
した単語が存在する場合、その結果を初期値として再利
用することを特徴とする。
応付け手段は、以前に照合した単語辞書内の単語と共通
した単語が存在する場合、その結果を初期値として再利
用することを特徴とする。
【0027】また、本発明の単語列照合方法は、複数の
単語からなる単語列に対する文字認識結果から単語列を
抽出むする際に入力された単語列と単語辞書内の単語と
の照合を行なう単語列照合方法において、入力された単
語列と単語辞書内の各単語とを対応付けるステップと、
この対応付けられた入力された単語列の単語間の距離と
単語辞書内の単語間の距離との位置関係を求めるステッ
プと、この求められた位置関係と入力された単語列の単
語間の距離とに基づき、前記対応付けられた入力された
単語列と単語辞書内の各単語との対応関係が最適か否か
を決定するステップとを具備している。
単語からなる単語列に対する文字認識結果から単語列を
抽出むする際に入力された単語列と単語辞書内の単語と
の照合を行なう単語列照合方法において、入力された単
語列と単語辞書内の各単語とを対応付けるステップと、
この対応付けられた入力された単語列の単語間の距離と
単語辞書内の単語間の距離との位置関係を求めるステッ
プと、この求められた位置関係と入力された単語列の単
語間の距離とに基づき、前記対応付けられた入力された
単語列と単語辞書内の各単語との対応関係が最適か否か
を決定するステップとを具備している。
【0028】さらに、本発明の単語列照合方法は、複数
の単語からなる単語列に対する文字認識結果から単語列
を抽出する際に入力された単語列と単語辞書内の単語と
の照合を行なう単語列照合方法において、複数の単語か
らなる単語列に対する文字認識結果から単語列を生成す
るステップと、この生成された単語列と単語辞書内の各
単語とを対応付けるステップと、前記生成された単語列
と単語辞書内の各単語とで単語間の距離を求めるステッ
プと、前記対応付けられた入力された単語列の単語間の
距離と単語辞書内の単語間の距離との位置関係を求める
ステップと、この求められた位置関係と前記求められた
単語間の距離とに基づき評価値を求めるステップと、こ
の求められた評価値に基づき前記対応付けられた入力さ
れた単語列と単語辞書内の各単語との対応関係を更新す
るステップと、前記求められた評価値が最小となる最適
解を求めて出力するステップとを具備している。
の単語からなる単語列に対する文字認識結果から単語列
を抽出する際に入力された単語列と単語辞書内の単語と
の照合を行なう単語列照合方法において、複数の単語か
らなる単語列に対する文字認識結果から単語列を生成す
るステップと、この生成された単語列と単語辞書内の各
単語とを対応付けるステップと、前記生成された単語列
と単語辞書内の各単語とで単語間の距離を求めるステッ
プと、前記対応付けられた入力された単語列の単語間の
距離と単語辞書内の単語間の距離との位置関係を求める
ステップと、この求められた位置関係と前記求められた
単語間の距離とに基づき評価値を求めるステップと、こ
の求められた評価値に基づき前記対応付けられた入力さ
れた単語列と単語辞書内の各単語との対応関係を更新す
るステップと、前記求められた評価値が最小となる最適
解を求めて出力するステップとを具備している。
【0029】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。
て図面を参照して説明する。
【0030】まず、第1の実施の形態について説明す
る。
る。
【0031】図1は、第1の実施の形態に係る単語列照
合装置の構成を概略的に示すものである。この単語列照
合装置は、入力手段としての入力部1、認識手段として
の文字認識部2、単語列生成手段としての単語列生成部
3、対応付け手段としてのリンク初期化部4、距離算出
手段としての距離算出部5、位置関係算出手段としての
位相算出部6、評価値算出手段としての評価値算出部
7、更新手段としてのリンク更新部8、最適解算出手段
としての最適解算出部9、出力部10、単語列Aが格納
されるメモリM1、複数の住所データ(単語)Bが格納
されている単語辞書としての住所辞書M2、リンクCが
格納されるメモリM3、距離Dが格納されるメモリM
4、および、評価値Fが格納されるメモリM5から構成
されている。
合装置の構成を概略的に示すものである。この単語列照
合装置は、入力手段としての入力部1、認識手段として
の文字認識部2、単語列生成手段としての単語列生成部
3、対応付け手段としてのリンク初期化部4、距離算出
手段としての距離算出部5、位置関係算出手段としての
位相算出部6、評価値算出手段としての評価値算出部
7、更新手段としてのリンク更新部8、最適解算出手段
としての最適解算出部9、出力部10、単語列Aが格納
されるメモリM1、複数の住所データ(単語)Bが格納
されている単語辞書としての住所辞書M2、リンクCが
格納されるメモリM3、距離Dが格納されるメモリM
4、および、評価値Fが格納されるメモリM5から構成
されている。
【0032】以下、各部について詳細に説明する。
【0033】入力部1は、図8に示したような文書画像
を入力すると、それをコンピュータで扱える形式に変換
する(たとえば、イメージスキャナのような光電変換装
置など)。
を入力すると、それをコンピュータで扱える形式に変換
する(たとえば、イメージスキャナのような光電変換装
置など)。
【0034】文字認識部2は、入力部1で入力された文
書画像を基に2値化、セグメンテーション、個別文字認
識など、文書画像の内容を理解するための処理を行な
う。文字認識部2で得られる認識結果を文字認識結果と
呼ぶことにする。
書画像を基に2値化、セグメンテーション、個別文字認
識など、文書画像の内容を理解するための処理を行な
う。文字認識部2で得られる認識結果を文字認識結果と
呼ぶことにする。
【0035】単語列生成部3は、文字認識部2の文字認
識結果から単語列Aを生成し、メモリM1に格納する。
単語列Aは、単語単位で区切られた文字列の集合であ
る。
識結果から単語列Aを生成し、メモリM1に格納する。
単語列Aは、単語単位で区切られた文字列の集合であ
る。
【0036】一方、単語辞書としての住所辞書M2に
は、あらかじめ複数の住所データ(単語)Bが格納され
ており、随時、任意の住所データBが読出されるように
なっている。
は、あらかじめ複数の住所データ(単語)Bが格納され
ており、随時、任意の住所データBが読出されるように
なっている。
【0037】リンク初期化部4は、住所辞書M2から読
込んだ1つの住所データBに応じてリンクCを初期化す
る。この場合、住所データBを読込むごとに全て再設定
するもので、その様子を図2に示す。リンクCとは、単
語列Aと住所データBとの対応関係を表わすものであ
り、その対応関係は、後述するリンク更新部8により随
時変化する(更新される)。
込んだ1つの住所データBに応じてリンクCを初期化す
る。この場合、住所データBを読込むごとに全て再設定
するもので、その様子を図2に示す。リンクCとは、単
語列Aと住所データBとの対応関係を表わすものであ
り、その対応関係は、後述するリンク更新部8により随
時変化する(更新される)。
【0038】以下、リンク初期化の一例を述べる。ここ
では、リンクの数を住所データBの項目の数とする。す
なわち、ストリート名、ストリート接尾語、都市名、州
名、郵便番号(前3桁)、郵便番号(後3桁)に対応す
る6つである。リンクを2つの配列で表現する。すなわ
ち、下記数2で表わされる。
では、リンクの数を住所データBの項目の数とする。す
なわち、ストリート名、ストリート接尾語、都市名、州
名、郵便番号(前3桁)、郵便番号(後3桁)に対応す
る6つである。リンクを2つの配列で表現する。すなわ
ち、下記数2で表わされる。
【0039】
【数2】
【0040】ただし、iはリンクのインデックス番号
で、
で、
【0041】
【数3】
【0042】nは単語列の単語の数、xM[・]は住所デー
タ側の項目番号(ストリート名(0)から郵便番号
(5)までの範囲をとる)、xI[・]は単語列側の単語番
号(先頭(0)から末尾(n−1)までの範囲をとる)
である。
タ側の項目番号(ストリート名(0)から郵便番号
(5)までの範囲をとる)、xI[・]は単語列側の単語番
号(先頭(0)から末尾(n−1)までの範囲をとる)
である。
【0043】このように、初期化した場合の結果を図3
に示す。図3に示したように、リンクは均等配置され
る。
に示す。図3に示したように、リンクは均等配置され
る。
【0044】距離算出部5は、単語列Aと住所データB
とで、単語間の距離Dを算出し、メモリM4に格納す
る。単語間の距離の定義にはさまざまなものがあるが、
その一例として、編集距離(レーベンシュタイン距離と
も言う、以下、LDと略称する)が挙げられる。本実施
の形態では、単語間の距離をLDに基づいて求め、下記
数4により類似度を算出している。
とで、単語間の距離Dを算出し、メモリM4に格納す
る。単語間の距離の定義にはさまざまなものがあるが、
その一例として、編集距離(レーベンシュタイン距離と
も言う、以下、LDと略称する)が挙げられる。本実施
の形態では、単語間の距離をLDに基づいて求め、下記
数4により類似度を算出している。
【0045】
【数4】
【0046】ただし、len(・)は文字列の長さを示
す関数、LD′(・,・)は正規化されたLDである。
εは任意の小さな実数でよいが、ここではε=1として
いる。すると、LDが最小値(すなわち、単語列AとB
が同一)のとき、類似度は最大値「1」となる。
す関数、LD′(・,・)は正規化されたLDである。
εは任意の小さな実数でよいが、ここではε=1として
いる。すると、LDが最小値(すなわち、単語列AとB
が同一)のとき、類似度は最大値「1」となる。
【0047】距離算出部5では、各リンクによって関連
付けられている単語同士について上記の計算を行ない、
さらにそれらを平均化する。すなわち、下記数5のよう
な値を求め、この求めた値を距離DとしてメモリM4に
格納する。
付けられている単語同士について上記の計算を行ない、
さらにそれらを平均化する。すなわち、下記数5のよう
な値を求め、この求めた値を距離DとしてメモリM4に
格納する。
【0048】
【数5】
【0049】位相算出部6は、下記数6により、各リン
クにつき、近傍のリンクとの位相差を算出する。本実施
の形態では、説明を簡単にするため、前後のリンク(た
かだか2本)のみを近傍リンクとする。
クにつき、近傍のリンクとの位相差を算出する。本実施
の形態では、説明を簡単にするため、前後のリンク(た
かだか2本)のみを近傍リンクとする。
【0050】
【数6】
【0051】ただし、norm(・)は、住所データ、
単語列それぞれの単語数に応じた正規化関数である(こ
こでは、住所データの単語数(項目数)は6つに固定と
している)。
単語列それぞれの単語数に応じた正規化関数である(こ
こでは、住所データの単語数(項目数)は6つに固定と
している)。
【0052】位相算出部6では、各リンクについて上記
の計算を行ない、さらにそれらを平均化する。すなわ
ち、下記数7のような値を求め、この求めた値を位相E
としてメモリM5に格納する。
の計算を行ない、さらにそれらを平均化する。すなわ
ち、下記数7のような値を求め、この求めた値を位相E
としてメモリM5に格納する。
【0053】
【数7】
【0054】評価値算出部7は、先に求めた距離Dと位
相Eとから、以下のような評価関数にしたがって評価値
Fを算出し、この算出した評価値FをメモリM6に格納
する。この算出した評価値Fは、値が小さければ小さい
ほど照合がうまくいったことを示す。
相Eとから、以下のような評価関数にしたがって評価値
Fを算出し、この算出した評価値FをメモリM6に格納
する。この算出した評価値Fは、値が小さければ小さい
ほど照合がうまくいったことを示す。
【0055】CALL =CP −CLDリンク更新部8は、上
記したように算出された評価値Fを基にリンクCを更新
する。すなわち、前回の評価値Fと今回の評価値F′と
を比較して、今回の評価値F′が小さければ、それを前
回の評価値Fと入れ替える。そして、リンクの一部を更
新し、再び距離算出部5の処理から繰り返す。この繰り
返しは、後述する最適解算出部9によって止められるま
で行なわれる。
記したように算出された評価値Fを基にリンクCを更新
する。すなわち、前回の評価値Fと今回の評価値F′と
を比較して、今回の評価値F′が小さければ、それを前
回の評価値Fと入れ替える。そして、リンクの一部を更
新し、再び距離算出部5の処理から繰り返す。この繰り
返しは、後述する最適解算出部9によって止められるま
で行なわれる。
【0056】最適解算出部9は、評価値Fの推移が収束
したことを判断し、次の住所データB′に対してリンク
初期化部4の処理から繰り返す。比較対象となる住所デ
ータB′がなくなった時点で、繰り返しは終了する。そ
して、複数の住所データBとの比較において評価値Fが
最小となるものを選び出し、それを最適解とする。
したことを判断し、次の住所データB′に対してリンク
初期化部4の処理から繰り返す。比較対象となる住所デ
ータB′がなくなった時点で、繰り返しは終了する。そ
して、複数の住所データBとの比較において評価値Fが
最小となるものを選び出し、それを最適解とする。
【0057】図4に示したのが、本実施の形態による住
所照合の模式図である。距離(類似度)だけでは、第1
の住所データの方が高いが、第1の住所データは「WI
LLIAMS」と「STREET」との位相関係が悪
く、本実施の形態による評価基準では、「SHERAT
ON」と「SHELTON」のように、文字認識結果の
段階では必ずしも完全に一致しなくても、隣接リンクと
の位相関係が考慮され、最適解として第2の住所データ
(正解)が選ばれる。
所照合の模式図である。距離(類似度)だけでは、第1
の住所データの方が高いが、第1の住所データは「WI
LLIAMS」と「STREET」との位相関係が悪
く、本実施の形態による評価基準では、「SHERAT
ON」と「SHELTON」のように、文字認識結果の
段階では必ずしも完全に一致しなくても、隣接リンクと
の位相関係が考慮され、最適解として第2の住所データ
(正解)が選ばれる。
【0058】出力部10は、最適解算出部9で求められ
た最適解を利用者が理解できる形式に変換して出力する
もので、たとえば、画面表示装置などである。
た最適解を利用者が理解できる形式に変換して出力する
もので、たとえば、画面表示装置などである。
【0059】このように、第1の実施の形態によれば、
住所照合の際、単語列と住所データとのつながり(対応
付け)を表わす「リンク」を有するとともに、このリン
クを用いて単語間の距離(類似度)と位相(位置関係)
との両方から局所的に類似した特徴同士を結び付けるこ
とで、きわめて高精度な住所照合を行なうことができ
る。
住所照合の際、単語列と住所データとのつながり(対応
付け)を表わす「リンク」を有するとともに、このリン
クを用いて単語間の距離(類似度)と位相(位置関係)
との両方から局所的に類似した特徴同士を結び付けるこ
とで、きわめて高精度な住所照合を行なうことができ
る。
【0060】次に、第2の実施の形態について説明す
る。
る。
【0061】前記した第1の実施の形態において、リン
ク初期化部4では、リンクの初期値を均等配分で決めて
いたが、第2の実施の形態では、初期化前に一旦、住所
データの各項目について距離最小(類似度最大)となる
単語を求め、それを初期値として採用するもので、図5
はその様子を示したものである。
ク初期化部4では、リンクの初期値を均等配分で決めて
いたが、第2の実施の形態では、初期化前に一旦、住所
データの各項目について距離最小(類似度最大)となる
単語を求め、それを初期値として採用するもので、図5
はその様子を示したものである。
【0062】このように、第2の実施の形態によれば、
リンクの初期化段階において準最適解が求まり、その値
から最適解計算が始まるので、最適解探索時間を短縮で
きる。
リンクの初期化段階において準最適解が求まり、その値
から最適解計算が始まるので、最適解探索時間を短縮で
きる。
【0063】次に、第3の実施の形態について説明す
る。
る。
【0064】前記第1の実施の形態において、リンク初
期化部4では、住所データBを読込むごとに全て再設定
していたが、第3の実施の形態では、それ以前に照合し
た住所データと共通した項目(単語)がある場合、その
結果を初期値として再利用するもので、図6はその様子
を示したものである。
期化部4では、住所データBを読込むごとに全て再設定
していたが、第3の実施の形態では、それ以前に照合し
た住所データと共通した項目(単語)がある場合、その
結果を初期値として再利用するもので、図6はその様子
を示したものである。
【0065】このように、第3の実施の形態によれば、
以前に得られた最適解のうち、共通化(再利用)可能な
部分について計算を省略でき、最適解の探索時間を短縮
できる。
以前に得られた最適解のうち、共通化(再利用)可能な
部分について計算を省略でき、最適解の探索時間を短縮
できる。
【0066】なお、本発明は、前記実施の形態に限定さ
れるものではなく、その要旨を逸脱しない範囲で種々変
形して実施することができる、たとえば、単語間の距離
や位相、評価値の求め方などは、前述した数式に限定さ
れるものではない。また、リンク更新の方法も、前述し
たような山登り法以外にも、広く知られている各種最適
化手法を用いることが可能である。
れるものではなく、その要旨を逸脱しない範囲で種々変
形して実施することができる、たとえば、単語間の距離
や位相、評価値の求め方などは、前述した数式に限定さ
れるものではない。また、リンク更新の方法も、前述し
たような山登り法以外にも、広く知られている各種最適
化手法を用いることが可能である。
【0067】
【発明の効果】以上詳述したように本発明によれば、文
字認識分野において、入力された単語列と単語辞書内の
各単語との照合の際、従来よりも高精度な単語列照合が
行なえる単語列照合装置および単語列照合方法を提供で
きる。
字認識分野において、入力された単語列と単語辞書内の
各単語との照合の際、従来よりも高精度な単語列照合が
行なえる単語列照合装置および単語列照合方法を提供で
きる。
【図1】本発明の第1の実施の形態に係る単語列照合装
置の構成を概略的に示すブロック図。
置の構成を概略的に示すブロック図。
【図2】第1の実施の形態に係るリンク初期化部を説明
するための図。
するための図。
【図3】第1の実施の形態に係るリンク初期化部を説明
するための図。
するための図。
【図4】第1の実施の形態に係る住所照合方法を説明す
る模式図。
る模式図。
【図5】本発明の第2の実施の形態に係るリンク初期化
部を説明するための図。
部を説明するための図。
【図6】本発明の第3の実施の形態に係るリンク初期化
部を説明するための図。
部を説明するための図。
【図7】従来の単語列照合装置の構成を概略的に示すブ
ロック図。
ロック図。
【図8】被読取物である文書画像の一例を示す図。
【図9】従来の住所照合方法を説明する模式図。
1……入力部(入力手段) 2……文字認識部(認識手段) 3……単語列生成部(単語列生成手段) 4……リンク初期化部(対応付け手段) 5……距離算出部(距離算出手段) 6……位相算出部(位置関係算出手段) 7……評価値算出部(評価値算出手段) 8……リンク更新部(更新手段) 9……最適解算出部(最適解算出手段) 10……出力部 M2……住所辞書(単語辞書) A……単語列 B……住所データ(辞書単語) C……リンク D……距離(類似度) E……位相(位置関係) F……評価値
Claims (7)
- 【請求項1】 複数の単語からなる単語列に対する文字
認識結果から単語列を抽出する際に入力された単語列と
単語辞書内の単語との照合を行なう単語列照合装置にお
いて、 入力された単語列と単語辞書内の各単語とを対応付ける
対応付け手段と、 この対応付け手段により対応付けられた入力された単語
列の単語間の距離と単語辞書内の単語間の距離との位置
関係を求める位置関係算出手段と、 この位置関係算出手段により求められた位置関係と入力
された単語列の単語間の距離とに基づき、前記対応付け
手段により対応付けられた入力された単語列と単語辞書
内の各単語との対応関係が最適か否かを決定する手段
と、 を具備したことを特徴とする単語列照合装置。 - 【請求項2】 複数の単語からなる単語列に対する文字
認識結果から単語列を抽出する際に入力された単語列と
単語辞書内の単語との照合を行なう単語列照合装置にお
いて、 複数の単語からなる単語列に対する文字認識結果から単
語列を生成する単語列生成手段と、 この単語列生成手段により生成された単語列と単語辞書
内の各単語とを対応付ける対応付け手段と、 前記単語列生成手段により生成された単語列と単語辞書
内の各単語とで単語間の距離を求める距離算出手段と、 前記対応付け手段により対応付けられた入力された単語
列の単語間の距離と単語辞書内の単語間の距離との位置
関係を求める位置関係算出手段と、 この位置関係算出手段により求められた位置関係と前記
距離算出手段により求められた単語間の距離とに基づき
評価値を求める評価値算出手段と、 この評価値算出手段により求められた評価値に基づき前
記対応付け手段により対応付けられた入力された単語列
と単語辞書内の各単語との対応関係を更新する更新手段
と、 前記評価値算出手段により求められた評価値が最小とな
る最適解を求めて出力する最適解算出手段と、 を具備したことを特徴とする単語列照合装置。 - 【請求項3】 前記対応付け手段は、単語辞書から読込
んだ1つの単語に応じて対応関係を初期化することを特
徴とする請求項1または請求項2記載の単語列照合装
置。 - 【請求項4】 前記対応付け手段は、単語辞書内の各単
語について単語間の距離が最小となる単語を求め、それ
を初期値として用いることを特徴とする請求項1または
請求項2記載の単語列照合装置。 - 【請求項5】 前記対応付け手段は、以前に照合した単
語辞書内の単語と共通した単語が存在する場合、その結
果を初期値として再利用することを特徴とする請求項1
または請求項2記載の単語列照合装置。 - 【請求項6】 複数の単語からなる単語列に対する文字
認識結果から単語列を抽出する際に入力された単語列と
単語辞書内の単語との照合を行なう単語列照合方法にお
いて、 入力された単語列と単語辞書内の各単語とを対応付ける
ステップと、 この対応付けられた入力された単語列の単語間の距離と
単語辞書内の単語間の距離との位置関係を求めるステッ
プと、 この求められた位置関係と入力された単語列の単語間の
距離とに基づき、前記対応付けられた入力された単語列
と単語辞書内の各単語との対応関係が最適か否かを決定
するステップと、 を具備したことを特徴とする単語列照合方法。 - 【請求項7】 複数の単語からなる単語列に対する文字
認識結果から単語列を抽出する際に入力された単語列と
単語辞書内の単語との照合を行なう単語列照合方法にお
いて、 複数の単語からなる単語列に対する文字認識結果から単
語列を生成するステップと、 この生成された単語列と単語辞書内の各単語とを対応付
けるステップと、 前記生成された単語列と単語辞書内の各単語とで単語間
の距離を求めるステップと、 前記対応付けられた入力された単語列の単語間の距離と
単語辞書内の単語間の距離との位置関係を求めるステッ
プと、 この求められた位置関係と前記求められた単語間の距離
とに基づき評価値を求めるステップと、 この求められた評価値に基づき前記対応付けられた入力
された単語列と単語辞書内の各単語との対応関係を更新
するステップと、 前記求められた評価値が最小となる最適解を求めて出力
するステップと、 を具備したことを特徴とする単語列照合方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000102370A JP2001291060A (ja) | 2000-04-04 | 2000-04-04 | 単語列照合装置および単語列照合方法 |
US09/824,876 US6643647B2 (en) | 2000-04-04 | 2001-04-04 | Word string collating apparatus, word string collating method and address recognition apparatus |
KR10-2001-0017871A KR100417306B1 (ko) | 2000-04-04 | 2001-04-04 | 단어열 대조장치, 단어열 대조방법 및 주소 인식장치 |
US10/653,924 US7124130B2 (en) | 2000-04-04 | 2003-09-04 | Word string collating apparatus, word string collating method and address recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000102370A JP2001291060A (ja) | 2000-04-04 | 2000-04-04 | 単語列照合装置および単語列照合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001291060A true JP2001291060A (ja) | 2001-10-19 |
Family
ID=18616268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000102370A Pending JP2001291060A (ja) | 2000-04-04 | 2000-04-04 | 単語列照合装置および単語列照合方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US6643647B2 (ja) |
JP (1) | JP2001291060A (ja) |
KR (1) | KR100417306B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011036830A1 (ja) * | 2009-09-24 | 2011-03-31 | 日本電気株式会社 | 単語認識装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体並びに発送物区分装置 |
JP4809477B2 (ja) * | 2006-06-09 | 2011-11-09 | ソニー エリクソン モバイル コミュニケーションズ, エービー | 電子メールアドレスの検査 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031002B1 (en) | 1998-12-31 | 2006-04-18 | International Business Machines Corporation | System and method for using character set matching to enhance print quality |
US7039637B2 (en) * | 1998-12-31 | 2006-05-02 | International Business Machines Corporation | System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search |
US7030863B2 (en) | 2000-05-26 | 2006-04-18 | America Online, Incorporated | Virtual keyboard system with automatic correction |
US7821503B2 (en) | 2003-04-09 | 2010-10-26 | Tegic Communications, Inc. | Touch screen and graphical user interface |
US7750891B2 (en) * | 2003-04-09 | 2010-07-06 | Tegic Communications, Inc. | Selective input system based on tracking of motion parameters of an input device |
US7286115B2 (en) | 2000-05-26 | 2007-10-23 | Tegic Communications, Inc. | Directional input system with automatic correction |
US7191114B1 (en) | 1999-08-27 | 2007-03-13 | International Business Machines Corporation | System and method for evaluating character sets to determine a best match encoding a message |
US7899665B2 (en) * | 2004-08-20 | 2011-03-01 | International Business Machines Corporation | Methods and systems for detecting the alphabetic order used by different languages |
JP4855698B2 (ja) * | 2005-03-22 | 2012-01-18 | 株式会社東芝 | 宛先認識装置 |
JP4740060B2 (ja) * | 2006-07-31 | 2011-08-03 | 富士通株式会社 | 重複データ検出プログラム、重複データ検出方法および重複データ検出装置 |
US8255216B2 (en) | 2006-10-30 | 2012-08-28 | Nuance Communications, Inc. | Speech recognition of character sequences |
KR100835289B1 (ko) * | 2006-11-20 | 2008-06-05 | 엔에이치엔(주) | 키 배열 정보를 이용한 단어 추천 방법 및 그 시스템 |
US8225203B2 (en) | 2007-02-01 | 2012-07-17 | Nuance Communications, Inc. | Spell-check for a keyboard system with automatic correction |
US8201087B2 (en) * | 2007-02-01 | 2012-06-12 | Tegic Communications, Inc. | Spell-check for a keyboard system with automatic correction |
DE102007010259A1 (de) | 2007-03-02 | 2008-09-04 | Volkswagen Ag | Sensor-Auswertevorrichtung und Verfahren zum Auswerten von Sensorsignalen |
US8775931B2 (en) * | 2007-03-30 | 2014-07-08 | Blackberry Limited | Spell check function that applies a preference to a spell check algorithm based upon extensive user selection of spell check results generated by the algorithm, and associated handheld electronic device |
US8023719B2 (en) * | 2007-08-15 | 2011-09-20 | International Business Machines Corporation | MICR reader using phase angle extracted from frequency domain analysis |
KR101126406B1 (ko) * | 2008-11-27 | 2012-04-20 | 엔에이치엔(주) | 유사어 결정 방법 및 시스템 |
US20110106836A1 (en) * | 2009-10-30 | 2011-05-05 | International Business Machines Corporation | Semantic Link Discovery |
US20130007004A1 (en) * | 2011-06-30 | 2013-01-03 | Landon Ip, Inc. | Method and apparatus for creating a search index for a composite document and searching same |
US10146979B2 (en) * | 2015-06-03 | 2018-12-04 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Processing visual cues to improve device understanding of user input |
US9858385B2 (en) | 2015-07-23 | 2018-01-02 | International Business Machines Corporation | Identifying errors in medical data |
CN105446957B (zh) * | 2015-12-03 | 2018-07-20 | 小米科技有限责任公司 | 相似性确定方法、装置及终端 |
JP6690484B2 (ja) * | 2016-09-15 | 2020-04-28 | 富士通株式会社 | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 |
KR102322703B1 (ko) * | 2016-10-21 | 2021-11-08 | 두나무 주식회사 | 주식 매매일지 자동 작성 방법 |
KR102132745B1 (ko) * | 2016-10-21 | 2020-07-10 | 두나무 주식회사 | Sms 메시지를 이용한 주식 매매일지 작성 장치 |
CN107133215A (zh) * | 2017-05-20 | 2017-09-05 | 复旦大学 | 一种脱机手写中文规范地址识别方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2737173B2 (ja) * | 1988-10-25 | 1998-04-08 | 日本電気株式会社 | 記号列照合装置とその制御方法 |
US5020112A (en) * | 1989-10-31 | 1991-05-28 | At&T Bell Laboratories | Image recognition method using two-dimensional stochastic grammars |
US5497488A (en) * | 1990-06-12 | 1996-03-05 | Hitachi, Ltd. | System for parallel string search with a function-directed parallel collation of a first partition of each string followed by matching of second partitions |
US5526444A (en) * | 1991-12-10 | 1996-06-11 | Xerox Corporation | Document image decoding using modified branch-and-bound methods |
US5321773A (en) * | 1991-12-10 | 1994-06-14 | Xerox Corporation | Image recognition method using finite state networks |
US5535119A (en) * | 1992-06-11 | 1996-07-09 | Hitachi, Ltd. | Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
US5594809A (en) * | 1995-04-28 | 1997-01-14 | Xerox Corporation | Automatic training of character templates using a text line image, a text line transcription and a line image source model |
JP3040945B2 (ja) * | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
US5933525A (en) * | 1996-04-10 | 1999-08-03 | Bbn Corporation | Language-independent and segmentation-free optical character recognition system and method |
US5873111A (en) * | 1996-05-10 | 1999-02-16 | Apple Computer, Inc. | Method and system for collation in a processing system of a variety of distinct sets of information |
US5995963A (en) * | 1996-06-27 | 1999-11-30 | Fujitsu Limited | Apparatus and method of multi-string matching based on sparse state transition list |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
JPH1153384A (ja) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
JP3275816B2 (ja) * | 1998-01-14 | 2002-04-22 | 日本電気株式会社 | 記号列検索方法及び記号列検索装置並びに記号列検索プログラムを記録した記録媒体 |
US6507678B2 (en) * | 1998-06-19 | 2003-01-14 | Fujitsu Limited | Apparatus and method for retrieving character string based on classification of character |
-
2000
- 2000-04-04 JP JP2000102370A patent/JP2001291060A/ja active Pending
-
2001
- 2001-04-04 KR KR10-2001-0017871A patent/KR100417306B1/ko not_active IP Right Cessation
- 2001-04-04 US US09/824,876 patent/US6643647B2/en not_active Expired - Fee Related
-
2003
- 2003-09-04 US US10/653,924 patent/US7124130B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4809477B2 (ja) * | 2006-06-09 | 2011-11-09 | ソニー エリクソン モバイル コミュニケーションズ, エービー | 電子メールアドレスの検査 |
WO2011036830A1 (ja) * | 2009-09-24 | 2011-03-31 | 日本電気株式会社 | 単語認識装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体並びに発送物区分装置 |
JP5621777B2 (ja) * | 2009-09-24 | 2014-11-12 | 日本電気株式会社 | 単語認識装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体並びに発送物区分装置 |
US9101961B2 (en) | 2009-09-24 | 2015-08-11 | Nec Corporation | Word recognition apparatus, word recognition method, non-transitory computer readable medium storing word recognition program, and delivery item sorting apparatus |
Also Published As
Publication number | Publication date |
---|---|
US7124130B2 (en) | 2006-10-17 |
US20010031088A1 (en) | 2001-10-18 |
KR20010095304A (ko) | 2001-11-03 |
US6643647B2 (en) | 2003-11-04 |
US20040044676A1 (en) | 2004-03-04 |
KR100417306B1 (ko) | 2004-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2001291060A (ja) | 単語列照合装置および単語列照合方法 | |
US8745077B2 (en) | Searching and matching of data | |
JP3689455B2 (ja) | 情報処理方法及び装置 | |
US7092567B2 (en) | Post-processing system and method for correcting machine recognized text | |
EP0844583B1 (en) | Method and apparatus for character recognition | |
US8069033B2 (en) | Document based character ambiguity resolution | |
US20090006394A1 (en) | Systems and methods for validating an address | |
US20060004744A1 (en) | Method and system for approximate string matching | |
CN111209447A (zh) | 一种基于音形码的中文字符串相似度计算方法及装置 | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
US20120254190A1 (en) | Extracting method, computer product, extracting system, information generating method, and information contents | |
JPH087033A (ja) | 情報処理方法及び装置 | |
JP4066507B2 (ja) | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 | |
WO2016181470A1 (ja) | 認識装置、認識方法およびプログラム | |
CN111814781A (zh) | 用于对图像块识别结果进行校正的方法、设备和存储介质 | |
KR20110044253A (ko) | 근사조합장치, 근사조합방법, 프로그램 및 기록매체 | |
JPH05257982A (ja) | 文字列認識方法 | |
JP3080066B2 (ja) | 文字認識装置、方法及び記憶媒体 | |
JP6320089B2 (ja) | 認識装置、認識方法およびプログラム | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP3274014B2 (ja) | 文字認識装置および文字認識方法 | |
JP3548372B2 (ja) | 文字認識装置 | |
JP2894305B2 (ja) | 認識装置の候補修正方式 | |
US8019158B2 (en) | Method and computer program product for recognition error correction data | |
KR100258923B1 (ko) | 한글 및 영문 성명인식 및 오인식 교정방법 |