JPS60134992A - 文字入力装置 - Google Patents

文字入力装置

Info

Publication number
JPS60134992A
JPS60134992A JP58241992A JP24199283A JPS60134992A JP S60134992 A JPS60134992 A JP S60134992A JP 58241992 A JP58241992 A JP 58241992A JP 24199283 A JP24199283 A JP 24199283A JP S60134992 A JPS60134992 A JP S60134992A
Authority
JP
Japan
Prior art keywords
character
candidate
candidates
character string
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58241992A
Other languages
English (en)
Other versions
JPH0614375B2 (ja
Inventor
Kenji Fujikata
藤方 健二
Noriyuki Takechi
武市 宣之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58241992A priority Critical patent/JPH0614375B2/ja
Publication of JPS60134992A publication Critical patent/JPS60134992A/ja
Publication of JPH0614375B2 publication Critical patent/JPH0614375B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は文字認識、いわゆるO CR(Optical
Character Recognition )の後
処理方式あるいは音声認識の後処理方式に係り、特に−
意に認識できないいわゆる不読文字を、言語としての観
点から評価して決定する文字入力装置に関する。
〔発明の背景〕 手書き文字や印刷文字をそのパターンを調べて文字認識
する場合において、書かれている文字を正しく認識でき
ない不読文字の場合でも、何番目かの候補には正しい文
字が含まれている場合が多い。従来、このような場合の
正しい候補を選び出すための文字認識の後処理方式とし
て、認識した文字列を単語辞書と比較することによって
正誤を判定する方式が知られており、すでに住所などの
単語入力について効果があることが報告されているが、
一般の文章入力に対しては、単語数が膨大でかつ処理が
複雑で時間がかかり、実用は困難であった。
〔発明の目的〕
本発明の目的は、一般の文章に対しても適用可能な言語
解析による認識後処理機能により、入力文字の修正工数
を削減可能な文字Iによる文字入力装置を提供すること
にある。
以下の説明では日本語の場合を例にとり説明するが、他
の言語たとえば英語、韓国語、中国語等においても実施
可能である。また以下とくに文字認識の出力について説
明するが、音声認識による認識出力についても実施可能
である。
〔発明の概要〕
第1図は文字Mmlを文字認識部2によって文字認識し
、その結果を日本文解析部3によって評価して最適な認
識文字候補を選択し、テキストデータ4としてコード化
するための処理手順の概要である。本発明はこのうちの
日本文解析部3の構成と制御に関し、必要最小限の日本
文解析処理を行なうとともに、日本文解析の評価値と認
識類似度の両者によって最適な認識文字候補を選択出方
するものである。
〔発明の実施例〕
以下、本発明の一実施例を第2図の構成図、第3図のフ
ローチャート、第4図がら第6図までのデータにより説
明する。
第2図の文字Lg識部11は手書きあるいは印刷文書の
文字原稿21に書がれ文字を認識し、各文字に対する認
識結果を複数の文字コードと類似度および順位の組で構
成される認識文字候補22として出力する。例えば「大
きい犬だ。」という文を認識した場合の認識文字候補2
2は第4図に示した形式で出力される。すなわち各文字
の候補数31、文字コードイと類似度口から成る文字候
補32が出力され、順位は類似度の大きい上から順に1
位、2位、3位・・・となる。
文字列区切り判定部12は、認識文字候補22を、後続
の日本文解析処理が簡単になるように、解析処理単位に
区切るものであり、第1位の文字候補が句読点やスペー
スであるところで区切る。
第4図の−では「大きり犬だ」が1つの解析処理単位と
なる。
つぎに類似度閾値判定部13では解析処理単位の各文字
候補の類似度を所定の類似度閾値と比較し、日本文解析
の対象とすべき文字列候補作成のための組合せ文字候補
23を抽出する。具体的には第5図に示したように所定
の類似度閾値を越える文字候補については、各文字毎に
その候補数をめ、組合せ文字候補数41として対応する
組合せ文字候補42に対応して記録する。ただし所定の
類似度閾値を越える文字候補がない場合はその組合せ文
字候補数は1とする。第5図は所定の類傾度閾値を60
とした場合の組合せ文字候補である。
文字列候補作成部14は、組合せ文字候補23を組合せ
て文字列候補24を作る。第5図の組合せ文字候補に対
しては、組合せ文字候補数41の積に相当する組合せが
でき、第6図に示すように12種の文字列候補24が出
力される。
日本文解析部15は与えられた文字列について日本文と
しての妥当性をチェックするものであり、公知の技術を
用いて実現できる。簡単な方法としては、文字列を単語
辞書と比較し、対応する単語の有無や品詞あるいは単語
の使用頻度を得、また前後の文字列と文法的に接続可能
性を評価して言語尤度をめることができる。さらに進ん
だ方法としては、文節で区切られていないベタ書き文に
ついても文献(「ベタ書き文の仮名漢字変換」。
昭和52年度電子通信学会情報部門全国大会91)など
に見られる技術を用いて日本文の尤度をめることができ
る。日本文解析手法については本発明の請求事項ではな
いので詳細説明は省略し、文字列に対して日本語尤度J
を出力する機能を有するものとして扱かう。第2図の日
本文解析部15では、文字列候補24の各々について日
本語尤度25をめる。日本文解析部15による処理は、
第3図のフローチャートの上部に示すように、文字列候
補24すべてについて日本語尤度25をめ終るまで続け
られ、その結果は第6図で示したようになる。第6図の
例では日本語尤度は5段階評価で表わされており、3番
目の文字列候補の光度が5で最大である。
文字列候補選択部16では、日本語尤度25を比較と、
最大な日本語尤度を検出する。この最大な日本語尤度を
J HA工とする。また予め定めた日本語尤度藺値をJ
T)lとする。第3図のフローチャートの下半分に示し
たように、JMAxとJTHを比較して、J 14AX
 > J T)Iの場合はJMAxに対応する文字列を
最適文字列出力26として選択出力する。
第6図では3番目の文字列候補「大きい犬だ」の日本語
尤度が最下で、JMA工=5であるので、J TI(=
 4と仮定した場合には「大きい犬だ」が出力される。
J HA工≦JTIIの場合には、当該文字列は日本文
としての体をなしていないことになり、日本文解析によ
っても正しい文字列候補の判定力1できないので、第1
位の文字候補から成る文字列を文字列候補24の中から
選択して最適文字列出力26として出力する。
この結果を具体的に説明するとつぎのようになる。まず
J)IAx≦J1□となるのは、文字候補の中に正解が
存在しない場合に生じ易い。具体例を第7図に示すが、
これはr日本国民はjを文字認識させた場合に「日」と
いう字が認識できず、候補に含まれていない例である。
この場合には隣接する文字の誤った候補と組合わされた
文字列候補の日本語尤度が最大になる。すなわち2番目
の誤った候補と組合された「白木国民は」という文字列
候補の日本語尤度が最大値JMA!となり、このままで
は正しく認識された2番目の1本」とし)う文字まで巻
き添えを受けて改悪されることになるが、JMA!≦J
THの場合の処理によりこのような併置を無くすことが
可能となり、第1位の文字候補から成る「白木国民は」
が出力される。
なお、本実施例において認識文字候補の類似度が非常に
低い場合には、正しい組合せ文字候補が存在しない可能
性が大であり、その場合には無駄に日本文解析するのを
止めるように制御することが望ましい。そのため制御を
追加した実施例のフローチャートを第8図に示す。すな
わち、類似度閾値判定部13において、所定の類似度閾
値の照合に先立って、それよりも低い足切り類似度閾値
と第1位の文字候補の類似度を比較し、足切り類似度閾
値以下の第1位の文字候補の類似度が存在する場合は文
字列候補作成部14において類似度が第1位の文字候補
から成る文字列を作成し、これを直接に最適文字列出力
26として出力する。
つぎに本発明をワードプロセッサの入力アダプタとして
用いた実施例を第9図により説明する。
本実施例は、0CR63をワードプロセッサ61の入力
手段として用いるものである。文書入力制御装置62は
0CR63による手書き文書や印刷文書の認識入力、認
識結果の認識文字候補メモリ64への格納、言語解析す
べき文字列候補の作成とその文字列候補メモリ65への
格納、言語解析装置66の制御、処理結果の文字列出力
用テキストメモリ67への格納などの、各制御を行なう
文書入力制御装置62はマイクロプロセッサにより構成
され、認識文字候補メモリ64、文字列候補メモリ65
、文字列出力用テキス)〜メモリ67はマイクロプロセ
ッサのメモリであり、0CR63や言語解析装置I!6
6はそれぞれマイクロプロセッサの付加装置として構成
される。
本爽施例によれば、OCRで読みとった文字のうち、−
意に決定できない不読文字を、言語としての尤度という
別の観点から評価することにより決定することが可能と
なり、ワードプロセッサの初期入力用にOCRを使用す
ることが可能となる。
ここで、演字OCRの代りに音声認識装置を用いた場合
でも同様の効果が得られることは言うまでもなく、音声
入力によるワードプロセッサの実現も可能となる。
〔発明の効果〕
以上述べたように、本発明によれば、まず言語解析すべ
き文字列候補を必要最小限に絞ることにより、処理時間
の減少を図ることができる8つぎに、言語解析によって
も評価の良くない文字列については、認識類似度第1位
の文字候補を選択出力するため、隣接の誤認識文字につ
られて誤った文字候補が文として成り立つ場合の誤判定
の併置を無くすることができ、言語解析の適用による文
字認識後処理の効果を高めることができるので。
OCRや音声認識を一般の文章入力に利用することが可
能となる。
【図面の簡単な説明】
第1図は本発明の概要を示す図、第2図は本発明の一実
施例、第3図はそのフローチャート、第4図は認識文字
候補、第5rJAは組合せ文字候補。 第6図は文字列候補とその日本語尤度、第7図は組合せ
候補の他の例、第8図は第2図の構成において制御機能
を追加した場合のフローチャート。 第9図は他の実施例を示す図である。 11・・・文字認識部、12・・・文字列区切り判定部
、13・・・類似度閾値判定部、14・・・文字列候補
作成部、15・・・日本文解析部、16・・・文字列候
補選択第10 第2)躬 某3(2) 不zi 4イ嘱コ ′!= 1 豫乙)] %7已 沼31霞 不qlE] ス9

Claims (1)

  1. 【特許請求の範囲】 ■1文字を入力し、その結果を文字コードと順位および
    類似度から成る確認文字候補列として出力する文字確認
    手段、あるいは音声入力により表音文字を認識文字候補
    列として出力する音声認識手段と、認識文字候補列を処
    理単位となる文字列に区切る文字列区切り判定手段と、
    処理単位内の各文字候補を組合わせて複数の文字列候補
    を作成する文字列候補作成手段と、文字列候補について
    言語としての妥当性を示す言語尤度を出力する言語処理
    手段とより成る構成において、各文字列候補についてめ
    た言語尤度のうち最大の言語尤度に対応する文字列候補
    を出力する文字列候補選択手段を設けることにより、文
    字認識あるいは音声認識による文字候補を選択出力する
    ことを特徴とする文字入力装置。 2、特許請求の範囲第1項記載の構成において、各文字
    列候補についてめた言語尤度のうち最大の言語先度が、
    所定の言語尤度閾値を越える場合は該最大の言語先度に
    対応する文字列候補を出力し、最大の言語尤度が所定の
    言語尤度閾値以下の場合は類似度が第1位の文字候補か
    ら成る文字列候補を出力する文字列候補選択手段を設け
    ることを特徴とする文字入力装置。 3、特許請求の範囲第1項記載の構成において、文字列
    候補作成手段として、各認識文字について組合せ対象文
    字候補数を記録するための組合せ文字候補数メモリを設
    け、各認識文字毎に所定の類似度閾値を越える認識文字
    候補がある場合はその候補数を該組合せ文字候補数メモ
    リに記録し、類似度閾値を越える認識文字候補が無い場
    合は候補数としてlを該組合せ文字候補数メモリに記録
    することにより、各文字候補数の組合せに対応した認識
    文字候補の組合せによる文字列候補を作成することを特
    徴とする文字入力装置。 4、特許請求の範囲第1項記載の構成において、文字列
    区切り判定手段により得られた処理単位内の第1位の各
    文字候補のうち、所定の足切り類似度閾値以下のものが
    1つでも存在する場合は1文字列候補作成手段において
    類似度が第1位の文字候補から成る文字列を作成し:該
    文字列を出力することを特徴とする文字入力装置。 5、特許請求の範囲第1項記載の構成において、認識文
    字候補列を処理単位に区切る手段として、第1位の認識
    文字候補が句点と読点および空白の場合には該文字をも
    って処理単位の区切りとすることを特徴とする文字入力
    装置。
JP58241992A 1983-12-23 1983-12-23 文字入力装置 Expired - Lifetime JPH0614375B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58241992A JPH0614375B2 (ja) 1983-12-23 1983-12-23 文字入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58241992A JPH0614375B2 (ja) 1983-12-23 1983-12-23 文字入力装置

Publications (2)

Publication Number Publication Date
JPS60134992A true JPS60134992A (ja) 1985-07-18
JPH0614375B2 JPH0614375B2 (ja) 1994-02-23

Family

ID=17082634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58241992A Expired - Lifetime JPH0614375B2 (ja) 1983-12-23 1983-12-23 文字入力装置

Country Status (1)

Country Link
JP (1) JPH0614375B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01183795A (ja) * 1988-01-18 1989-07-21 Fujitsu Ltd 文書リーダ後処理装置
JPH01259477A (ja) * 1988-04-11 1989-10-17 Canon Inc 文字認識装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5725074A (en) * 1980-07-21 1982-02-09 Fujitsu Ltd Character recognition post-processing system
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置
JPS58200328A (ja) * 1982-05-14 1983-11-21 Matsushita Electric Ind Co Ltd カナ漢字変換装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5725074A (en) * 1980-07-21 1982-02-09 Fujitsu Ltd Character recognition post-processing system
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置
JPS58200328A (ja) * 1982-05-14 1983-11-21 Matsushita Electric Ind Co Ltd カナ漢字変換装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01183795A (ja) * 1988-01-18 1989-07-21 Fujitsu Ltd 文書リーダ後処理装置
JPH01259477A (ja) * 1988-04-11 1989-10-17 Canon Inc 文字認識装置

Also Published As

Publication number Publication date
JPH0614375B2 (ja) 1994-02-23

Similar Documents

Publication Publication Date Title
US6862566B2 (en) Method and apparatus for converting an expression using key words
CN109801630B (zh) 语音识别的数字转换方法、装置、计算机设备和存储介质
JPH10232866A (ja) データ処理方法及び装置
US7328404B2 (en) Method for predicting the readings of japanese ideographs
US7212963B2 (en) System for distinguishing names in Asian writing systems
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
US20230177266A1 (en) Sentence extracting device and sentence extracting method
US20210064820A1 (en) Machine learning lexical discovery
US20210073466A1 (en) Semantic vector rule discovery
KR101086550B1 (ko) 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법
Lehal et al. A post-processor for Gurmukhi OCR
Giguet Multilingual sentence categorization according to language
US6219449B1 (en) Character recognition system
JPS60134992A (ja) 文字入力装置
Min et al. Typographical and Orthographical Spelling Error Correction.
Kumolalo et al. Development of a syllabicator for Yorùbá language
KR20050064574A (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Mohammed et al. Translating Ambiguous Arabic Words Using Text Mining
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Tukur et al. Parts-of-speech tagging of Hausa-based texts using hidden Markov model
KR20210020294A (ko) 단어 또는 문장 단위 음성 인식 방법 및 장치
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
US5689583A (en) Character recognition apparatus using a keyword
Vayadande et al. Spell Checker Model for String Comparison in Automata
KR20170088169A (ko) 기계학습 기반의 중국어 단어 분리 장치