JP2005100305A - 文字認識装置および辞書システム - Google Patents

文字認識装置および辞書システム Download PDF

Info

Publication number
JP2005100305A
JP2005100305A JP2003369627A JP2003369627A JP2005100305A JP 2005100305 A JP2005100305 A JP 2005100305A JP 2003369627 A JP2003369627 A JP 2003369627A JP 2003369627 A JP2003369627 A JP 2003369627A JP 2005100305 A JP2005100305 A JP 2005100305A
Authority
JP
Japan
Prior art keywords
character
character signal
line
lines
signal line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003369627A
Other languages
English (en)
Inventor
Fumihisa Kobayashi
史久 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2003369627A priority Critical patent/JP2005100305A/ja
Publication of JP2005100305A publication Critical patent/JP2005100305A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Input (AREA)
  • Character Discrimination (AREA)
  • Facsimile Scanning Arrangements (AREA)

Abstract

【課題】 従来の電子辞書装置やハンドスキャナにより外国語の単語の訳語および意味を検索するには、キー入力操作や検索結果の情報の多様性についてさらなる改良が求められる。
【解決手段】 文字認識装置において、読取器で文字を読取り、読取った文字の縦方向を所定幅に対応のライン長とした文字信号ラインを文字バッファに記憶し、予め定められた複数の文字について、これらの文字の縦方向をライン長とした基準文字信号ラインを予め記憶し、基準文字信号ラインのライン長を、文字信号ラインのライン長に近づけ、比較すべき、文字信号ラインと基準文字信号ラインの2値信号をそれぞれのライン長毎に比較し、それぞれの2値信号が対応したときのラインの数を数え、数えられたライン数、および比較された文字信号ラインのライン数と基準文字信号ラインのライン数の割合を算出し、この割合が所定値に近似した基準文字のうちの1つを認識した文字と判定する。
【選択図】 図1

Description

本発明は外国語の単語を構成する文字を認識する文字認識装置および文字認識装置を複数使用して単語の訳語や用法を検索する辞書システムに関する。
外国語の単語を日本語に翻訳し表示する装置として、キーボードから単語を入力しその単語の和訳を表示するような市販の電子辞書装置、また入力した単語の訳語や用法を検索して表示するパーソナルコンピュータや翻訳装置がよく知られている。また、ペン型のハンドスキャナで単語を検索するものも知られている。
この他、キーボード入力によらず光学的読取装置で文字を読取る方式としては、特開平9−138802、脇坂新路氏ほかによる「文字認識翻訳システム」がある。これは看板やパンフレット等の文字をカメラ画像データとして取り込み、カメラからの画像を信号処理して文字認識をする。また、特開平5−81469、伊藤美春氏による「ペン型光学式文字認識装置」がある。これは手動により文字を走査し、左右どちらからでも読取れる特徴を有する。手動による文字走査については、上記の他に、特開平2000−99709、山下良蔵氏による「手走査型スキャナ」がある。さらに、多数のサンプル文字から辞書データを作成する方式として、特開平9−27014、萩原政夫氏による「ハンディ型光学式文字認識装置の辞書データ学習方式」がある。
特開平9−138802 特開平5−81469 特開平2000−99709 特開平9−27014
あらゆる分野において外国語で書かれた文書にふれる機会があり、学術分野や外国と関わりのある組織のみならず、学生においても外国語に直面する機会は多くある。例えば、留学した場合、多くの書物を読破しなければならない状況に追いやられる。このような状況で、外国語で書かれた書物をできるだけ多く読むためには、分からない単語の訳や意味、またその用法を簡単な操作で知ることのできる手段があれば望ましい。
本発明の目的は、様々な大きさの文字を読取ることができ、かつ、読書の理解や関心が、煩雑な文字入力により妨げられることなく、読取った文字で構成された外国語の少なくとも1つの単語の訳語や意味またその用法等を簡単な操作で知ることのできる文字認識装置および辞書システムを提供することにある。
上記の目的を達成するために、本発明の文字認識装置は、発光部とアレイ構造の受光素子を所定幅で、かつ複数の長方形状に区画した受光部とからなる読取器を有し、区画された受光部のそれぞれに対応して設けられ、読取器で読取られた文字の縦方向を所定幅に対応のライン長とした複数の文字信号ラインを連続して一時記憶する文字バッファを有し、予め定められた複数の文字について、複数の文字毎に、文字の縦方向をライン長として複数の基準文字信号ラインを予め記憶した複数の基準文字記憶ユニットを有し、基準文字記憶ユニットに対応して設けられ、基準文字信号ラインのライン長を、前記文字信号ラインのライン長に近づける複数の文字調整ユニットを有し、文字調整ユニットに対応して設けられ、予め定められた比較すべき、複数の文字信号ラインと文字信号ラインのライン長に近似した複数の基準文字信号ラインの2値信号をライン長毎に比較し、それぞれの2値信号が対応したときのラインの数を数える複数の比較ユニットを有し、複数の比較ユニットが数えたライン数、および比較された文字信号ラインのライン数と基準文字信号ラインのライン数の割合を算出し、割合が所定値に近似した複数の基準文字のうちの1つを、認識した文字と判定する判定ユニットとを有する。
本発明の辞書システムは、少なくとも翻訳ソフトウェアプログラムおよび辞書データを有する既存の翻訳装置に、上記の文字認識装置を接続した構成である。翻訳装置は少なくとも翻訳ソフトウェアプログラムおよび辞書データを有するパーソナルコンピュータでもよく、翻訳サーバであってもよい。この場合、翻訳サーバに複数のパーソナルコンピュータを接続してもよく、また表示器を有する複数の文字認識装置を接続してもよい。
本発明の文字認識装置および辞書システムを使用することにより、分からない単語の訳語や意味またその用法等を早く知ることができ、これまで使われてきた辞書の検索や市販されている電子辞書のキー入力による煩雑さを避けることができるので、書物を読むときの集中力を持続することができ、読書から得る知識の向上に有効である。特に、文字からなる単語で構成された外国語の書物を読むときに有効である。また、書物に印字の文字高に応じて読取器を選択できるので、文字認識の範囲が広くなる。
発明のを実施するための最良の形態
以下、本発明の実施の形態を図面に沿って説明する。図1は本発明の文字認識装置の一実施例を示す構成図である。
図1を参照すると、1は受光素子を長方形のアレイ状に配置した受光部である。受光部1の幅方向は所定の受光素子数からなり、かつ受光部1の長手方向は複数に区画され、発光ダイオードからの光の照射により書面と文字の明暗による反射光を受けて受光信号を出力する。
受光部1については、受光素子がXYアドレス型のCMOS形センサの場合、その垂直・水平走査用回路等を、電荷転送型のCCDの場合、その垂直・水平レジスタ等をその周辺に設けている。これらの受光素子の走査方式についてはよく知られた技術なので説明は省略する。
2は受光信号をアナログからディジタル信号に変換するA−D回路およびディジタル信号を2値信号にする2値化回路を有する変換回路である。3は2値信号を一時的に取り込む文字バッファであり、複数のシフトレジスタなどで構成され、受光部1の幅方向の受光素子数に対応する文字信号ライン毎に2値信号として一時取り込む。
4は文字信号処理ユニットであり、文字認識装置全体を制御し、かつ文字バッファ3に取り込まれた文字信号ラインの状態を調べて後で述べる文字認識を開始させるための制御ブロック5と、文字の認識を最終的に判定する判定ブロック6とから構成されている。制御ブロック5は受光部1のための制御回路や制御用コンピュータプログラムを含む。
7は比較ユニットであり、この比較ユニット7は複数の文字比較ブロック8...8から構成されている。それぞれの文字比較ブロック8...8は文字バッファ3に一時記憶された複数の文字信号ラインと、文字比較ブロック8...8自体に予め記憶している複数の基準文字信号ラインと比較する。判定ブロック6は比較ユニット7のそれぞれの文字比較ブロック8...8からの比較結果を受けて認識した文字を判定し翻訳器9にその信号を転送する。
図2は、受光部1、変換回路2、および文字バッファ3を3つに分割して文字バッファを3−1、3−2、3−3で表わした構成図である。受光部1は3つの回路に分かれ、それぞれの各受光部1からの文字信号ラインはそれぞれの受光部1に対応して設けられた変換回路2によりA−D変換され、かつ2値信号化されて、変換回路2に対応して設けられた文字バッファ3−1、3−2、3−3のデータ入力端Dを通して一時記憶される。それぞれの受光部1は独立した回路構成であり、かつそれぞれの受光素子は均一なアレイ構造となっている。3つのそれぞれの受光部1は独立した回路ではあるが、受光素子の配列は均一であるから受光素子が書面の文字を検知する際、たとえ1文字が受光部1と次の受光部1にわたって検知されたとしても文字信号ラインの連続性に変わりはない。従って、それぞれの受光部1からの文字信号ラインは、変換回路2を通してこれらに対応の文字バッファ3−1、3−2、3−3に1文字毎の複数の文字信号ライン単位で連続して移送されるので、文字バッファ3−1から3−2、3−3の順に連続して一時的に取り込まれる。図2の例では受光部1を3つに分けた例を示しているが、この分割する数は文字認識速度や回路のコストに応じて決定する。
図2に示す文字バッファでは、文字バッファ3−3のデータ出力端Qがダイオードを通して次の文字バッファ3−2のデータ入力端Dに接続され、文字バッファ3−2のデータ出力Qは同じくダイオードを通して次の文字バッファ3−1のデータ入力端Dに接続される。文字バッファ3−1のデータ出力端Qは図3に示すそれぞれの文字比較ブロック8...8に接続される。この接続については図3を参照して後で詳しく説明する。
このような回路構成から、制御ブロック5からのクロック信号がそれぞれの文字バッファ3−1、3−2、3−3のクロック入力端Cに供給されると、それぞれの文字バッファ3−1、3−2、3−3に一時記憶されている文字信号ラインがシフトされて文字バッファ3−1のデータ出力端Qから文字信号ライン毎に出力され、図3に示す文字比較ブロック8...8がそれぞれ有するレジスタ25に並列に取り込まれる。
文字バッファ3−1、3−2、3−3はそれぞれ模式的に示しているが、これらは複数のシフトレジスタ素子から構成され、それぞれのデータ出力端Qは制御ブロック5に予め記憶されているコンピュータプログラムからみて参照できるようになっている。これによって、文字バッファ3−1、3−2、3−3のそれぞれを構成する各シフトレジスタ素子のデータ出力端Qの出力状態を判別することができる。
図3は比較ユニット7が有する文字比較ブロック8...8を示す詳細図である。それぞれの文字比較ブロック8...8は、英語の場合、小文字のaからz、大文字のAからZ、その他ハイフン、ダッシュ、ピリオド、コロン、セミコロン等をラン・レングス形式でエンドコードで区切られた複数の基準文字信号ラインを予め記憶したROMからなる基準文字ブロック20と、基準文字信号ラインをエンドコード毎に取り込むシフトレジスタ21と、複数の文字信号ラインで表わした文字の縦方向に対応するライン長に、基準文字ブロック20に予め記憶されている複数の基準文字信号ラインで表わした基準文字の縦方向に対応するライン長を近づけるための文字調整ブロック22と、を有する。なお、文字信号ラインのライン長とは長方形状の受光部1に配された受光素子のうち幅方向の受光素子数に対応する。
さらに、それぞれの文字比較ブロック8...8では、文字信号ラインのライン長に近づけられたライン長の基準文字信号ラインをシフトレジスタ21から受け、エンドコード毎に区切って記憶するRAMからなる比較文字ブロック23と、比較文字ブロック23に記憶された基準文字信号ラインをエンドコード毎に一時的に取り込む直列入力・並列出力型のレジスタ24と、文字バッファ3−1からの文字信号ラインをそれぞれが並列に取り込む直列入力・並列出力型の複数のレジスタ25と、レジスタ25に取り込まれた文字信号ラインとレジスタ24に取り込まれた基準文字信号ラインとをそれぞれのレジスタ素子毎に比較する複数の論理積回路26と、これら論理積回路26の全ての出力を受ける排他的論理回路27と、この排他的論理回路27の出力を反転させる反転回路28と、反転回路28から出力される1の信号を数えるカウンタ29と、から構成される。
このような文字比較ブロック8...8のうち、それぞれレジスタ25を構成するレジスタ素子の入力端Dは文字バッファ3−1の出力端Qに共通に接続され、それぞれのレジスタ25は文字信号ラインを並列に受けて取り込む。カウンタ29で数えた1の数、即ち、文字信号ラインと基準文字信号ラインが2値信号の数の点で一致したときの数が図1に示す判定ブロック6に転送される。これについては詳しく後述する。文字調整ブロック22はコンピュータプログラムからなり、この動作については後述するが、その動作指令は制御ブロック5から受ける。
ここで、それぞれの文字比較ブロック8...8が有する基準文字ブロック20について詳細に説明すると、これらの基準文字ブロック20は、英語の場合、大文字AからZ、小文字aからzおよびコロン、セミコロン、ハイフン、ダッシュなどの符号を、エンドコードで区切った複数の基準文字信号ラインをラン・レングス形式で記憶しているものである。基準文字信号ラインは0信号と1信号からなる2値信号で構成され、分かり易く説明するために模式的に表わせば、例えば、小文字「a」は図3に示すように文字の縦方向が図面上で基準文字ブロック20の横方向を向くように連続して記憶されている。それぞれの基準文字ブロック20は1つの文字または符号を構成する複数の基準文字信号ラインのライン長および基準文字信号ライン数Mを予め記憶している。
図4は読取器40を示す斜視図である。読取器40はケース状で、上面には本発明の文字認識装置を起動させる起動スイッチ41と、検索した単語をスクロールして類似語および複数語でなる用語を辞書データから探し出すためのスクロールスイッチ42と、電源ランプ43が配されている。ケースの底面左端にはガイド44、44が突き出ていて、新聞、雑誌、教科書、文献等などの書面から単語群を読取る際に、単語がガイド44、44の間にあることを概ね確認できるようになっている。ガイドはケースの底面右端にも設けることができる。読取器40からは導線が延び、この導線にはコネクタ45が取り付けられて翻訳器9のソケットに接続できるようになっている。
読取器40の縦断面を図5の(a)および(b)に示す。図5の(a)および(b)に共通する構成として、ケースの底面から所定間隔を隔てて、ケースの長手方向に沿って受光部1が配され、この受光部1は長方形状でかつ所定幅のアレイ構造に配された受光素子46を有する。図5の(a)に示す構成では、光を書面に照射するために光ファイバ47を使用している。この光ファイバ47は、受光部1の両側で長手方向に沿って、かつ全ての受光素子46が書面からの反射光を均等に受けるように配されている。光ファイバ47の先端部の断面に直交する光軸は光が書面に均等に照射するように書面と所定の角度をなす。なお、先端部の切断面は光を広く散乱させるために斜断面にすることもできる。これら光ファイバ47の基端部は、図示されていないが、発光ダイオードで構成された発光源に集められて、均等の光を受けるように、例えば、球状容器や円筒状容器内に発光ダイオードを並べ、それぞれの基端部を発光ダイオードから等距離に配する構造にする。
図5の(b)に示す読取器40の構造は、発光ダイオード48を使用する。発光ダイオード48は受光部1の長手方向に沿って全ての受光素子46が均等に書面からの反射光を受けるように配される。図5の(b)では、発光ダイオード48を受光部1の片側にだけ配した例を示しているが、両側に設けることもできる。また、図5の(a)および(b)に共通することであるが、プリズム等の光学部品を受光部1の長手方向に沿って配し、光ファイバ47の先端部や発光ダイオード48からの光を書面上に均等に散乱させるようにすることもできる。
また、既に説明した文字バッファ3−1、3−2、3−3、文字信号処理ユニット4および比較ユニット7は、文字認識装置の規模に応じて、例えば、読取る文字の大きさが予め定められている場合、比較ユニット7の規模を小さくすることができるので、既存の翻訳器9や携帯電子辞書内に搭載できる。特に、これらの回路の規模が小さい場合は、文字バッファ3−1、3−2、3−3、文字信号処理ユニット4および比較ユニット7を読取器40内に収めることもできる。この場合、制御ブロック5に翻訳ソフトウェアプログラムを追加し、辞書データを記憶したROMを追加し、ケースの側面に液晶の表示器を設ければ、本発明の文字認識装置は単語翻訳器となり得る。
受光素子46はマイクロレンズと共に受光部1にアレイ構造で形成され、所謂、オンチップ・マイクロレンズとして形成される。それぞれの受光素子46はマイクロレンズにより書面からの反射光を最もよく集光できるようにケース内に位置づけられる。受光素子46の書面と対向する面にはレンズ等の光学部品を設けることもできる。受光部1の幅方向は受光素子46の数が予め定められており、この受光素子46の数は制御ブロック5で予め判別できるようになっている。受光素子46は書面と文字の明暗を検出するだけに使用するので、精細な画像を検知する受光素子と比べて、マイクロレンズと共に比較的大きな素子のものを使用できる。なお、発光源として白色光や赤外光を使用することもできる。赤外光の場合、書面に均等に光を照射する点で白色光よりも比較的容易である。
受光素子46の幅方向の数は書物に印字された文章の行間に及ぶ幅にほぼ等しく、書物の行間は様々であるが、本発明では、様々な行間で印字された書物に対応できるように、かつ様々な大きさの文字で印字された書物に対応できるように、幅方向の受光素子46の数が異なる複数の読取器40を図4、図5(a)および図5(b)に示す構造に作成することができる。また、幅方向の受光素子46に直交する長手方向の受光素子ラインの長さについても複数種のものを作成することができる。このようにして、前述した文字バッファ3−1、3−2、3−3の記憶容量は受光素子46の最大の受光素子数に対応できるものである。また、文字の大きさに応じて異なった行間で印字された書物に対応できるように、複数の読取器40を作成することにより文字読取りの範囲を広げることができる。
次に、図6から図8に示すフローチャートに沿って本発明の文字認識装置の動作を説明する。これらのうち図6および図8に示すフローチャートはコンピュータプログラムとして制御ブロック5に予め記憶されており、これらは図示していないがプロセッサにより実行する。図7に示すフローチャートに相当するコンピュータプログラムは図3に示すそれぞれの文字調整ブロック22に予め記憶され、所謂、1−チップ・マイコン内で実行される。
まず、読取器40を書物に印刷された単語群上に置く。この時、単語がガイド44、44の間にあること、読取るべき単語の先頭の文字が読取器40の底面に隠れていることを確認した後、ステップ600では、初期設定として、起動スイッチ41を押すと本発明の文字認識装置の動作が開始し、読取器40のコネクタ45を通してピンの位置で指定される受光部1の幅方向の受光素子数Pが素子数カウンタPに設定され、発光ダイオードの発光が開始し、受光素子46により単語の文字が読取られる。読取られた受光信号は変換回路2によりディジタル変換され、かつ2値信号に変換されて文字バッファ3−1、3−2、3−3に文字信号ラインとして移送される。全ての文字信号ラインが受光部1から文字バッファ3−1、3−2、3−3に移送された時点で、起動スイッチ41が自動的に開放し発光が停止する。
ステップ601では、文字フラグがオンか判断する。最初はオフのため図7に示すフローチャートに移り、それぞれの基準文字ブロック20に記憶されている基準文字信号ラインのライン長を文字バッファ3−1、3−2、3−3に2値信号として取り込まれた文字信号ラインのライン長に近づける。所謂、基準文字信号ラインのライン長を、受光部1の幅方向の受光素子46の数Pに相当する文字信号ラインのライン長に近づける。これは、検出した文字の文字信号ラインの文字高に基準文字信号ラインで表わす基準文字の文字高を近づけるともいえる。
その動作を図7のフローチャートに基づいて説明する。ステップ700では、それぞれの文字調整ブロック22において受光素子46の数Pに相当する文字信号ラインのライン長LORGを基準文字信号ラインのライン長LREFで除算し、その割合LRATEを得る。ステップ701では、まず、それぞれの基準文字ブロック20からそれぞれのシフトレジスタ21にエンドコードで区切られた基準文字信号ラインを取り込む。ステップ702では、シフトレジスタ21のそれぞれのレジスタ素子の出力端Qをみて、ステップ703でエンドコードがあれば、ステップ704でさらに走査を続け、エンドコードがみつからなければステップ702に戻りシフトレジスタ21のレジスタ素子の出力端Qの走査を続ける。
ステップ705では、エンドコードに続いて基準文字信号ラインにH(高)信号またはL(低)信号があるか判断し、L信号があればステップ706でL信号の時間幅の基準クロック信号をカウントし、これをカウント値Cとする。さらに走査し続けてステップ707でL信号と判断すれば、ステップ708で、カウント値Cに、既に算出したライン長の割合LRATEを乗算し、割合LRATEに縮小された時間幅のL信号ラインを得る。ステップ707でH信号と判断すれば、後述するステップ712でH信号の時間幅の基準クロック信号をカウントする。ステップ709では、L信号ラインを比較文字ブロック23に移送する。
ステップ710では、さらにシフトレジスタ21を走査して、ステップ711ではエンドコードかどうか判断し、ここで未だエンドコードはみつからないとなれば、ステップ704でさらに走査を続け、次いで、ステップ705でH信号がみつかれば、ステップ712で、そのH信号の時間幅の基準クロック信号をカウントし、これをカウント値Cとする。さらに走査し続けてステップ713でH信号と判断すれば、ステップ708と同様、ステップ714では、カウント値Cに、算出したライン長の割合LRATEを乗算し、割合LRATEに縮小した時間幅のH信号ラインを得る。ステップ713でL信号と判断すれば、ステップ706でL信号の時間幅の基準クロック信号をカウントする。ステップ715では、H信号ラインを比較文字ブロック23に前述のL信号ラインに続いて移送する。
このようにして、ステップ705からステップ711、またステップ712からステップ711を繰り返して、それぞれの基準文字ブロック20に記憶されている1基準文字信号ラインの縮小を実行してそれぞれの比較文字ブロック23に順次移送する。
ステップ711でエンドコードがあれば、1基準文字信号ラインの縮小を終了する。ステップ716で基準文字信号ライン総数Mの全てについて縮小したか判断し、終了していなければステップ717でライン総数Mから1を差し引いてステップ701に戻り、次のエンドコードで区切られた1基準文字信号ラインをシフトレジスタ21に取り込み、上記同様、基準文字信号ライン毎に割合LRATEに相当する縮小を実行する。ステップ716で基準文字信号ライン総数Mの全てについて縮小を終えると、ステップ718で文字高フラグをオンに設定して図6に示すフローチャートのステップ602に移る。
このように、それぞれの基準文字ブロック20に記憶の基準文字信号ラインのライン長LREFを読取器40で読取った最初の1文字の文字信号ラインのライン長LORGに近づける。この基準文字の縮小は読取器40が検出した最初の文字についてだけ、それぞれの文字比較ブロック8...8で同時に実行され、2文字目から以降は、ステップ718で文字高フラグをオンに設定することにより、基準文字の縮小は実行せず、後で詳しく説明するが、文字信号ラインの比較対象はそれぞれの比較文字ブロック23に縮小して移送された基準文字信号ラインとなる。なお、本実施例では基準文字の基準文字信号ラインのライン長LORGを検出した文字の文字信号ラインのライン長LREFに近づけるようにしたので、それぞれの基準文字ブロック20に記憶の基準文字信号ラインのライン長は実用上の文字の大きさから判断して比較的長く定めることができる。また、本実施例では、基準文字のライン長LREFを検出した文字のライン長LORGに近づけるように縮小したが、拡大することも容易になし得る。
図6に示すフローチャートのステップ602の説明に戻り、基準文字のライン長を最初に検出した文字のライン長に近づけたことにより、文字バッファ3に記憶された続く文字の文字信号ラインから、1つの文字信号ラインの区別と、複数の文字信号ラインからなる1文字の区別と、さらに複数の文字からなる単語の区別を実行する動作を説明する。
ステップ602では、図2に示す文字バッファ3−1、3−2、3−3の出力端Qの走査をし、ステップ603で出力端QがH信号かL信号を判断する。はじめにL信号と判断すると、ステップ604では、最初の文字信号ラインが全てL信号、即ち、スペースと想定してSフラグがオフか判断する。Sフラグは最初オフなので、ステップ605で素子数カウンタPから1を差し引き、即ち、1素子分を差し引き、ステップ606でPがゼロか判断する。これは1つの文字信号ラインに対応の受光素子数Pが全て走査されたかの判断である。Pがゼロでなければ、ステップ602に戻りさらに走査が続ける。ステップ606でPがゼロならば、1つの文字信号ラインがL信号なので、スペースとみなし、ステップ607で文字前スペースカウンタSに1を加えてステップ602に戻りさらに走査を続ける。このようにして1文字前のスペースを文字前スペースカウンタSで数える。
ステップ602で走査しているうちに、ステップ603でH信号と判断すれば、ステップ608でSフラグをオンにしてステップ609で素子数カウンタPから1を差し引き、ステップ610で1文字信号ラインに対応の全ての受光素子の走査を終了したか判断する。終了していなければ再びステップ602に戻り走査を続ける。1文字信号ラインを走査しているときに、ステップ603でL信号があれば、Sフラグがステップ608によりオンとなっているので、ステップ604からステップ609に移り、素子数カウンタPから1を差し引いて、ステップ610で素子数カウンタPがゼロか判断し、ステップ610で素子数カウンタPがゼロならば、1つの文字信号ラインの走査を終了する。ステップ604でSフラグがオンのとき、ステップ611で同時にL信号カウンタPに1を加えて、ステップ612でL信号カウンタPが受光素子数Pに等しいか判断する。等しくなければステップ602に戻り走査を続け、等しければステップ613で文字後スペースカウンタSに1を加えて、さらにステップ602で走査を続ける。ここで、文字後スペースカウンタSは1文字分の文字信号ラインを走査した後のスペースを数えている。
ステップ610で1つの文字信号ラインに相当する受光素子数Pの走査を終えたならば、ステップ614で文字信号ラインカウンタLに1を加える。ステップ615では、L信号カウンタPが受光素子数Pよりも大きいか等しいかを判断し、等しくなければ、ステップ616でL信号カウンタPをゼロに設定してステップ602に戻り、次の文字信号ラインの走査をして、文字信号ラインカウンタLに1を加えていく。ステップ615でL信号カウンタPが受光素子数Pよりも大きいか等しいとなれば、1文字分の文字信号ラインの走査を終了したことになり、ステップ617では、文字後スペースカウンタSの値が文字と文字の間隔を表わす予め定められた文字間スペース数と等しいか小さいか判断し、そうであれば1文字の走査を終えたので図8に示す文字信号ラインと基準文字信号ラインとを同期させてそれぞれのライン長毎に比較する動作に移る。ステップ617で文字後スペースカウンタSの値が文字間スペース数と等しいか小さくなければ、文字後スペースカウンタSの値は文字間スペース数よりも大きいので複数文字からなる単語の末尾であると判断し、ステップ618で全てのカウンタをゼロにし、かつ全てのフラグをオフにして1つの単語の認識を終了する。
次に、図8に示すフローチャートに沿って、文字バッファ3−1、3−2、3−3に記憶されている文字信号ラインと、文字比較ブロック8...8のそれぞれの比較文字ブロック23に記憶されている基準文字信号ラインとを比較する動作を説明する。まず、制御ブロック5から基準クロック信号を文字バッファ3−1、3−2、3−3のそれぞれのクロック入力端Cに供給することにより、文字信号ラインが文字バッファ3−1のデータ出力端Qから文字比較ブロック8...8のそれぞれのレジスタ25に並列に順次移送される。まず、ステップ800では、最初の1つのライン長の文字信号ラインを移送し、この文字信号ラインは単語の先頭文字の前のスペースであることを想定して、ステップ801で文字前スペースカウンタSの値があるか判断する。あればステップ802で文字前スペースカウンタSから1を差し引いて次のライン長の文字信号ラインを移送し、スペースが無くなるまでステップ800でスペースを文字バッファ3−1からそれぞれレジスタ25へ並列移送する。
ステップ801でスペースがないと判断すれば、ステップ803では、ステップ614で加算し続けた文字信号ラインの総数Lに応じて、(L+1)−L、即ち、文字信号ライン総数のうち最初のラインの位置を算出し、これをカウンタLに格納する。ステップ804では、カウンタLが指す最初の文字信号ラインを図3に示すそれぞれレジスタ25へ並列に移送する。ステップ805ではカウンタLの値が文字信号ラインの総数Lに等しいか否か判断し、始めは等しくないのでステップ806に移り、カウンタYに1を加える。次に、ステップ807では、(Lx0.125)xYの演算をし、この結果をカウンタLに格納する。ここでは、文字信号ラインの総数Lの中間ラインを中心に前後を8分割して、合計9ラインの文字信号ラインだけをそれぞれレジスタ25に移送することを意味する。このように、ステップ804からステップ805を繰り返すことにより文字信号ラインカウンタLで示す1文字分の文字信号ラインをそれぞれレジスタ25に並列に順次移送する。
一方、ステップ803からステップ807と同期して、ステップ808では、(M+1)−M、即ち、図3に示すそれぞれ基準文字ブロック20の基準文字信号ライン総数Mのうちの最初のライン位置を算出し、これをカウンタLに格納する。次に、ステップ809ではステップ804と同期してそれぞれ比較文字ブロック23から最初のライン長の基準文字信号ラインをそれぞれレジスタ24に同時に並列に移送する。ステップ810ではカウンタLの値はカウンタMの値とは等しくないので、ステップ811でカウンタZに1を加えて、ステップ812では(Mx0.125)xZの演算をしてカウンタLに格納する。ここでは、基準文字信号ラインの総数Mの中間ラインを中心に前後を8分割して、合計9本の基準文字信号ラインだけをそれぞれレジスタ24に並列に移送することを意味する。このように、ステップ808からステップ810を繰り返すことによりカウンタMで示す1文字分の基準文字信号ラインをそれぞれ比較文字ブロック23からそれぞれレジスタ24に並列に順次移送する。
ステップ805において文字信号ラインカウンタLのライン総数全てが移送され、かつステップ810において基凖文字ラインカウンタMのライン総数全てが移送されたと判断すると、ステップ813では、素子数カウンタPに元の素子数Pを設定し、ステップ814で各カウンタをゼロに、かつ文字フラグを除く各フラグをオフに設定して、文字バッファ3−1、3−2、3−3内の次の1文字分の文字信号ラインを処理するめに図6のステップ602へ移る。なお、比較の回数はステップ807、812の定数0.125を変更することにより、文字信号ラインと基凖文字信号ラインを細かくまたは粗く比較することができる。
上記のように動作する図8に示すフローチャートのうち、ステップ800から807および813、814は制御ブロック5にコンピュータプログラムとして常駐している。さらに、ステップ808から812は文字比較ブロック8...8のそれぞれに特有なコンピュータプログラムとして、上記同様、制御ブロック5に常駐している。ステップ808から812のコンピュータプログラムは図3で説明した文字調整ブロック22の1−チップ・マイコンに組み込まれた図7に示す文字調整プログラムと一緒に組み込むこともできる。
上記したように、1文字分の文字信号ラインがそれぞれレジスタ25に、基準文字信号ラインがそれぞれレジスタ24に並列に順次移送されると、それぞれの文字比較ブロック8...8では、レジスタ25に記憶された文字信号ラインとレジスタ24に記憶された基準文字信号ラインとがそれぞれのレジスタ素子毎に、2値信号の一致ではなく、それらの時間がずれていても対応するところで、それぞれ論理積回路26により比較され、これらの全ての出力は排他的論理和回路27で排他的論理和をとり、この出力を反転回路28で反転させる。ここで、レジスタ24内の基準文字信号ラインとレジスタ25内の文字信号ラインが2値信号の数の点で一致したときに、反転回路28から1が出力され、1つでも不一致のときはゼロが出力される。反転回路28から出力された1はカウンタ29で数えられる。
言い換えれば、基準文字ブロック20の1文字の基準文字信号ラインを8分割したときの9ライン分の基準文字信号ライン上の2値信号と文字信号ラインの2値信号の数の点で一致した数を数える。カウンタ29が9回数えると9回のうち一致した数Xを判定ブロック6に出力し、判定ブロック6は数Xを9で除算する。この動作は、他の文字比較ブロックでも並列に実行され、例えば、図3に示す文字比較ブロック8においても同じようにカウンタ29から9回数えたうちの一致した数Xが判定ブロック6に出力され、そこで数Xを9で除算する。
判定回路6は、数X...Xについてそれぞれ9で除算したうち、この中からもっとも「1」に近い値を算出した文字比較ブロック8...8のうちの基準文字ブロック20による文字を認識したと判定する。判定された文字信号は判定ブロック6から導線を通してその文字信号に対応した翻訳器9が有するキー入力端に伝送される。判定回路6から翻訳器9に伝送される文字信号は文字を表わす信号である必要はなく認識した文字に対応する判定回路6の出力端から翻訳器9が有する対応のキー入力端に信号が伝送されるだけである。翻訳器9は単語構成の信号を受けて、翻訳ソフトウェアプログラムと辞書データにより単語を翻訳し、その訳語または意味を表示器に表示する。
なお、読取器40で複数の単語を読む場合、読取器40に語数指定のスイッチを表示器と共に設けて、図6に示すフローチャートに複数語を区別する機能を追加すれば、複数の単語からなる専門用語や熟語の検索に有効である。一方、単語の類似語や文法的用法また例文等はスクロールスイッチ42を押すことにより翻訳ソフトウェアプログラムを通して辞書データを検索すれば可能である。
図9は本発明の読取器40をパーソナルコンピュータ101に接続した辞書システムの構成図である。この場合、パーソナルコンピュータ101には、一例として、少なくとも図1に示す文字信号処理ユニット4および比較ユニット7が搭載され、かつ読取器40で読取った単語が翻訳サーバ100により翻訳されてパーソナルコンピュータ101の表示器に表示される。パーソナルコンピュータ101は単にディスプレイ装置とこれに接続された読取器40だけに置き換えることもでき、読取器40とディスプレイ装置だけで、学校や図書館等において専用の辞書システムとして使用することができる。この場合、翻訳サーバ100に変換回路2、文字バッファ3、文字信号処理ユニット4、比較ユニット7を搭載する。さらに、翻訳サーバ100の処理対象とする辞書データおよび翻訳ソフトウェアプログラムは英語、ドイツ語、フランス語等の複数文字からなる単語を対象とする外国語対日本語のみならず、外国語対外国語、例えば、英・英、独・韓、ロ・中等のものも含まれる。このために、翻訳サーバ100には、外国語別に翻訳ソフトウェアプログラムおよび辞書データを切り換えることのできるソフトウェアプログラムを備えることができる。
ここで、読取る単語の文字には様々な形状、所謂、フォントがあり、異なるフォントのために同じ文字でも文字信号ラインと基準文字信号ラインでは時間軸上でそれぞれの2値信号の位置がずれている。しかし、2値信号の位置がずれていても、本実施例では、基準文字信号ラインのライン長を文字信号ラインのライン長に近づけ、かつ検出した文字の比較すべき文字信号ラインと、基準文字の比較すべき基準文字信号ラインが、文字および基準文字のそれぞれ9本のラインの対称位置に定められているので、文字の認識が確実となり、異なったフォントの文字認識も可能である。また、書面上の文字と文字が文字高方向の縦軸上で重なる場合があるが、文字信号ラインカウンタLが数える文字幅の異常を検出、例えば、基準文字ラインカウンタMの値との間でカウンタLの値が異常であることを検出すれば重なった文字と文字の区別は可能である。また、カウンタLの値が予め定められた文字幅、即ちライン長の数を超えたことを検出してもよい。
本発明の文字認識装置および辞書システムは書物に印刷された外国語の単語の訳語や意味を素早く知るために利用することができ、かつ学校や図書館等で集中管理の可能な辞書システムが実現できる。
文字認識装置を示す構成図である。 図1に示す受光部、変換回路および文字バッファの構成図である。 図1に示す比較ユニット内の文字比較ブロックを示す詳細図である。 読取器を示す斜視図である。 読取器を示す断面図であり、(a)は光ファイバを用いた例、(b)は発光ダイオードから直接照射する例を示す略断面図である。 文字バッファに記憶された文字信号ラインを整理するためのフローチャートである。 基準文字信号ラインのライン長を文字信号ラインのライン長に近づけるためのフローチャートである。 文字信号ラインと基準文字信号ラインを同期させてレジスタに移送するためのフローチャートである。 文字認識装置をパーソナルコンピュータに接続した辞書システムを示す構成図である。
符号の説明
1 受光部
2 変換回路
3 文字バッファ
4 文字信号処理ブロック
5 制御ブロック
6 判定ブロック
7 比較ユニット
…8 文字比較ブロック
9 翻訳器

Claims (10)

  1. 書面から外国語の少なくとも1つの単語を読取り、該単語の文字を認識してその訳語や用法の検索に使用する文字認識装置において、
    発光部と、アレイ構造の受光素子を所定幅で、かつ複数の長方形状に区画した受光部とからなる読取器を有し、
    区画された前記受光部のそれぞれに対応して設けられ、前記読取器により読取られた文字の縦方向を前記所定幅に対応のライン長とした複数の文字信号ラインを連続して一時記憶する文字バッファを有し、
    予め定められた複数の文字について、該複数の文字毎に、該文字の縦方向をライン長として複数の基準文字信号ラインを予め記憶した複数の基準文字記憶手段を有し、
    該基準文字記憶手段に対応して設けられ、前記基準文字信号ラインのライン長を、前記文字信号ラインのライン長に近づける複数の文字調整手段を有し、
    該文字調整手段に対応して設けられ、予め定められた比較すべき、前記複数の文字信号ラインと前記文字信号ラインのライン長に近似した前記複数の基準文字信号ラインの2値信号を前記ライン長毎に比較し、それぞれの2値信号が対応したときの前記ラインの数を数える複数の比較手段を有し、
    該複数の比較手段が数えた前記ライン数、および比較された前記文字信号ラインのライン数と基準文字信号ラインのライン数の割合を算出し、該割合が所定値に近似した前記複数の基準文字のうちの1つを、認識した文字と判定する判定手段を有する、ことを特徴とする文字認識装置。
  2. 前記判定手段は、比較された前記文字信号ラインと基準文字信号ラインのライン数を、前記複数の比較手段のそれぞれにより数えた前記文字信号ラインと基準文字信号ラインのうちそれぞれ2値信号が対応した前記ラインの数で除算し、その値が所定値に近似した前記複数の基準文字のうちの1つを、認識した文字と判定することを特徴とする請求項1に記載の文字認識装置。
  3. 前記読取器は、前記受光部の所定幅の受光素子数が異なるもの、かつ長手方向に延びる受光素子数が異なるものを含み、書面上の文字の文字高に応じて取替可能であることを特徴とする請求項1に記載の文字認識装置。
  4. 前記受光部のそれぞれの出力は、前記受光信号を2値化する変換回路を介して前記文字バッファのそれぞれの入力に接続され、該文字バッファのそれぞれは、それらの出力と入力とが接続された直列接続構造であることを特徴とする請求項1に記載の文字認識装置。
  5. 前記比較手段は複数の基準文字毎に文字比較ブロックを有し、該文字比較ブロックは、ラン・レングス形式で前記基本文字をエンドコードにより区切った複数の基準文字信号ラインを予め記憶している基準文字ブロックと、前記基準文字信号ラインをエンドコード毎に取り込むシフトレジスタと、前記基準文字信号ラインのライン長を前記文字信号ラインのライン長に近づけるための文字調整ブロックと、前記ライン長が調整された前記基準文字信号ラインをエンドコード毎に取り込むシフトレジスタと、調整された前記基準文字信号ラインをエンドコード毎に区切って記憶する比較文字ブロックと、該比較文字ブロックに記憶された前記基準文字信号ラインをエンドコード毎に取込む直列入力・並列出力型のレジスタと、前記文字バッファからの文字信号ラインを取り込む直列入力・並列出力型の複数のレジスタと、該レジスタに取り込まれた前記文字信号ラインと前記レジスタに取り込まれた前記基準文字信号ラインとを比較する複数の論理積回路と、これら論理積回路の全ての出力を受けて該出力が一致したときに所定の論理値を出力し、該出力を数えるカウンタとを有する、ことを特徴とする請求項1に記載の文字認識装置。
  6. 前記文字バッファから文字信号ラインを取り込むためのそれぞれ前記文字比較ブロックに内蔵の前記レジスタは、前記文字バッファからの文字信号ラインをそれぞれ並列に取り込む、ことを特徴とする請求項4に記載の文字認識装置。
  7. 書面から外国語の少なくとも1つの単語を読取り、該単語の文字を認識してその訳語や用法の検索に使用する文字認識装置を有し、該文字認識装置で認識した文字の信号を、少なくとも翻訳ソフトウェアプログラムおよび辞書データを有する翻訳装置の入力とする辞書システムにおいて、
    前記文字認識装置は、
    発光部、およびアレイ構造の受光素子を所定幅でかつ複数の長方形状に区画した受光部からなる読取器と、
    区画された前記受光部のそれぞれに対応して設けられ、前記読取器により読取られた文字の文字高方向を前記所定幅に対応のライン長とした複数の文字信号ラインを連続して一時記憶する文字バッファと、
    予め定められた複数の文字について、該複数の文字毎に、該文字の縦方向をライン長として複数の基準文字信号ラインを予め記憶した複数の基準文字記憶手段と、
    前記基準文字記憶手段に対応して設けられ、前記基準文字信号ラインのライン長を、前記文字信号ラインのライン長に近づける複数の文字調整手段と、
    該文字調整手段に対応して設けられ、予め定められた比較すべき、前記複数の文字信号ラインと前記文字信号ラインのライン長に近似した前記複数の基準文字信号ラインの2値信号を前記ライン長毎に比較し、それぞれの2値信号が対応したときの前記ラインの数を数える複数の比較手段と、
    該複数の比較手段が数えた前記ライン数、および比較された前記文字信号ラインのライン数と基準文字信号ラインのライン数の割合を算出し、該割合が所定値に近似した前記複数の基準文字のうちの1つを、認識した文字と判定する判定手段と、を備えたことを特徴とする辞書システム。
  8. 前記翻訳装置は、少なくとも翻訳ソフトウェアプログラムおよび辞書データを有するパーソナルコンピュータであることを特徴とする請求項7に記載の辞書システム。
  9. 前記翻訳装置は、少なくとも翻訳ソフトウェアプログラムおよび辞書データを有する翻訳サーバであり、該翻訳サーバに複数のパーソナルコンピュータが接続されていることを特徴とする請求項7に記載の辞書システム。
  10. 前記翻訳装置は、少なくとも翻訳ソフトウェアプログラムおよび辞書データを有する翻訳サーバであり、該翻訳サーバに複数の前記文字認識装置が表示器と共に接続されていることを特徴とする請求項7に記載の辞書システム。
JP2003369627A 2003-09-25 2003-09-25 文字認識装置および辞書システム Pending JP2005100305A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003369627A JP2005100305A (ja) 2003-09-25 2003-09-25 文字認識装置および辞書システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003369627A JP2005100305A (ja) 2003-09-25 2003-09-25 文字認識装置および辞書システム

Publications (1)

Publication Number Publication Date
JP2005100305A true JP2005100305A (ja) 2005-04-14

Family

ID=34463691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003369627A Pending JP2005100305A (ja) 2003-09-25 2003-09-25 文字認識装置および辞書システム

Country Status (1)

Country Link
JP (1) JP2005100305A (ja)

Similar Documents

Publication Publication Date Title
WO1994010652A1 (en) Apparatus and method for a text input system and universal computer input device
CN111539236A (zh) 一种一次性读取多个条码的方法
CA2044935C (en) Bar-code reading apparatus
US8783570B2 (en) Reader with optical character recognition
US5335294A (en) Image processing for pattern extraction
EP0496297B1 (en) Character data input apparatus
EP0331758B1 (en) Data code on a code sheet and apparatus of recognizing the code
JP2005100305A (ja) 文字認識装置および辞書システム
CN103455808B (zh) 机器字符阅读码的发送装置及编码方法
US5984189A (en) Sheet for data codes and method of recognizing these codes
KR100829108B1 (ko) 패턴 기울기 계산 기능을 갖는 2차원 바코드 판독 장치 및방법
KR19990006421A (ko) 카메라에 의해 포착된 영상에 관련된 정보 처리 및 디스플레이용 시스템
KR20050003075A (ko) 문자인식기능과 전자사전을 구비하는 휴대통신장치및 문자인식기능을 구비하는 전자사전
KR100631790B1 (ko) 음향도서장치 및 페이지 인식 방법
JPS61150081A (ja) 文字認識装置
JP2000029984A (ja) 文字認識装置および文字認識方法
JP2002216073A (ja) 可読文字等の読取り装置及び可読文字等の読取り方法
RU2239232C1 (ru) Система управления идентификацией и конвертацией форматов объектов текстовых документов
JP2000020677A (ja) 画像取込み/メッセージ表示装置
JP2006048324A (ja) 文書翻訳システム
JPS62123581A (ja) 文書画像入力装置
JPS61226883A (ja) 文字認識装置
JPH081640B2 (ja) 小型電子辞書
JPH01169673A (ja) 電子辞書
JPH0554173A (ja) 名刺読取り装置