JP2010218043A - 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法 - Google Patents

文字情報取得装置、文字情報取得プログラム、および文字情報取得方法 Download PDF

Info

Publication number
JP2010218043A
JP2010218043A JP2009061772A JP2009061772A JP2010218043A JP 2010218043 A JP2010218043 A JP 2010218043A JP 2009061772 A JP2009061772 A JP 2009061772A JP 2009061772 A JP2009061772 A JP 2009061772A JP 2010218043 A JP2010218043 A JP 2010218043A
Authority
JP
Japan
Prior art keywords
character
category
character string
data
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009061772A
Other languages
English (en)
Inventor
Seiichi Manabe
誠一 真鍋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2009061772A priority Critical patent/JP2010218043A/ja
Publication of JP2010218043A publication Critical patent/JP2010218043A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】文字データからより確実に文字列のカテゴリを判別することができる文字情報取得装置、文字情報取得プログラム、および文字情報取得方法を提供する。
【解決手段】第1認識用カテゴリ文字部24aに記憶している文字の文字データ取得により(ステップS4)、文字データ内の文字列から、電気通信用に予め割り当てられたE−Mailカテゴリ、URLカテゴリを判別する第1カテゴリ判別処理(ステップS9)と、該第1カテゴリ判別処理により判別したE−Mailカテゴリ、URLカテゴリのドメイン名文字列に基づいて、カテゴリ不明文字列に対し組織名カテゴリ判別を実行する第2カテゴリ判別処理(ステップS13〜S17)を実行する。
【選択図】図6

Description

この発明は、文字データから文字情報を取得するような文字情報取得装置、文字情報取得プログラム、および文字情報取得方法に関する。
例えば、名刺、葉書などの文字印刷媒体から文字を読取った文字列より各種文字情報を取得する場合には、各文字列のカテゴリ(住所、氏名、組織名、電話番号など)を判別する必要がある。
また、例えば、電子メール(E−Mail)については、その文面の冒頭(ヘッダ部ともいう)にメール送信者の氏名と自身が所属する組織名とを併記するとともに、文面の末尾に、氏名、組織名、住所、電話番号などを列挙した署名欄(シグネチャともいう)を記載する習慣が定着しつつあり、これらの文字データより各種文字情報を取得することも可能である。
但し、このように、E−Mailの文面に記載された文字データより各種文字情報を取得する場合においても、同様に各文字列のカテゴリ(住所、氏名、組織名、電話番号など)を判別する必要がある。
特許文献1〜3に開示された技術では、例えば名刺など、記載内容がある程度決まっている文字印刷媒体から認識した文字列のうち、「株式会社」、「(株)」、「有限会社」など、組織(会社)名を示す象徴的なキーワードを検索することにより、組織名カテゴリの判別を行う装置が提案されている(特許文献1〜3参照)。
しかしながら、名刺などに組織名を記載していたとしても、「株式会社」のようなキーワードが必ずしも記載されているとは限らない。従って、上述した従来技術のように、キーワードを検索する方式では、組織名カテゴリの判別が行えない場合があった。
また、名刺などにおいて、図9(A)に示すように、「株式会社」の記載部分のフォントサイズが、会社名の記載部分(ここでは「エービーシー」)と異なることによって、「株式会社」の文字認識を正しく行えなかったり、図9(B)に示すように、「株式会社」の書体が、会社名の記載部分と異なることによって、「株式会社」の文字認識を正しく行えなかったりする場合も、組織名カテゴリの判別を正しく行えない虞がある。
ところで、近年、名刺などの文字印刷媒体には、氏名や組織名、住所、電話番号などの他にも、電気通信用に予め割り当てられたE−MailアドレスやURLといった電気通信用のアドレス情報を併記する習慣が定着しつつある。
特許文献4では、文字印刷媒体の文字列から、氏名カテゴリを判別するとともに、文字認識によって認識された姓および名の複数の読み候補についてローマ字変換し、このローマ字変換を実行した後の文字列と、E−Mailアドレスを記載した文字列とを比較することによって、氏名の読みを判定する技術が開示されている。
しかしながら、特許文献4に開示された技術は、E−Mailアドレスの文字列に基づいて、氏名の読みを判定するに過ぎず、文字列のカテゴリ(例えば氏名カテゴリ)を判別するものではない。
特許文献4では、姓および名に良く用いられている文字が連続している文字列を認識することによって、氏名カテゴリを判別するようにしている。
しかしながら、例えば、日本語や中国語の氏名である場合、姓および名に用いられる文字として無数の漢字が存在している。従って、氏名に用いられると考えられるあらゆる文字(漢字)を予め予測して全てを装置内に記憶させることは極めて困難である。
このため、氏名が記載されている文字列の中に、姓および名の文字パターンとして予め記憶されていないものが含まれている可能性もあり、このような場合には、氏名カテゴリの判別漏れが生じる虞がある。つまり、特許文献4に開示されている技術では、氏名カテゴリを確実に判別できないという問題がある。
また、特許文献4では、印刷用媒体の中央付近に位置する文字列を抽出することによって氏名カテゴリを判別することが提案されている。しかしながら、氏名が記載された文字列が必ずしも印刷用媒体の中央付近にあるとは限らないため、この場合もやはり、氏名カテゴリを確実に判別することができないという問題がある。
特開平6−103402号公報 特開2004−102523号公報 特開平11−154157号公報 特開2007−305046号公報
この発明は、上述した問題に鑑み、文字データからより確実に文字列のカテゴリを判別することができる文字情報取得装置、文字情報取得プログラム、および文字情報取得方法を提供し、利用者の満足度を向上させることを目的としている。
この発明は、情報取得対象データから文字データを取得する文字データ取得手段と、前記文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含んだマッチングデータを記憶する記憶手段とを備え、前記カテゴリ判別用文字の文字データ取得により、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第1カテゴリ判別処理と、該第1カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、他の文字列に対しカテゴリ判別を実行する第2カテゴリ判別処理とを実行するカテゴリ判別処理手段を備えた構成である文字情報取得装置であることを特徴とする。
前記情報取得対象データは、例えば、名刺、葉書などの文字印刷媒体を、CCDカメラやCMOSカメラなどの撮像手段で撮像した文字列画像のデータや、E−Mailなどの文面を構成するテキストデータで構成することができる。
前記文字データ取得手段は、例えば、画像データ中の文字画像から特徴データを抽出し該特徴データをマッチングデータの特徴データとマッチングし、どの文字かを認識する文字認識手段で構成することができる。
また、前記文字データ取得手段は、例えば、E−Mailなどのテキストデータから文字データを取得する手段で構成することができる。
前記記憶手段は、ハードディスクや不揮発性メモリなど、データを記憶する手段で構成することができる。
前記カテゴリ判別用文字は、例えば「E−Mail」、「URL」、「TEL」、「FAX」、「部」、「市」、「区」、またはこれらの複数に用いられる文字など、カテゴリ判別に使用する文字で構成することができる。
前記アドレス情報は、電気通信において個々の電子計算機(通信端末)を識別するために予め割り当てられた、少なくともローマ字を含むアドレス情報で構成することができ、例えば、ローマ字、数字、記号などの組合わせで表記されたE−MailアドレスやURLで構成することができる。
前記アドレス構成文字列は、電気通信において個々の電子計算機(通信端末)を識別するために予め割り当てられた識別子であって、E−Mailアドレスの「@」の後ろや、URLの「WWW.」の後ろに配置されるドメイン名により構成することができる。
また、前記アドレス構成文字列は、E−Mailアドレスの「@」の前の文字列により構成することができる。
前記文字情報は、住所、氏名、組織名、電話番号、E−Mailアドレス、URLなどで構成することができる。
前記文字情報取得装置は、情報処理を実行するCPUなどの情報処理部と情報記憶を行うメモリなどの情報記憶部と外部装置に接続する接続端子などのインターフェース部とを有する半導体チップなどの装置で構成する、あるいは、撮像手段と制御手段と記憶手段とを備えた携帯電話機やPDA(Personal Digital Assistants)やパーソナルコンピュータなどの情報処理端末で構成するなど、適宜の装置で構成することができる。
この発明により、文字データからより確実に文字列のカテゴリを判別することができ、利用者の満足度を向上させることができる。
この発明の態様として、前記第2カテゴリ判別処理は、前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、非英語文字列を含む場合に、該文字列を、その読み方を示すローマ字表記に変換し、該変換により作成した変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成とすることができる。
前記非英語文字列は、例えば、日本語、中国語、ドイツ語など、英語圏以外で使用される言語の文字列で構成することができる。
この態様により、ローマ字表記に変換した変換後文字列と、おおよそローマ字、数字、記号などで構成されるアドレス情報の文字列との比較が容易になり、この比較に基づいてカテゴリ判別を実行することができる。
またこの発明の態様として、前記記憶手段は、英語辞書データを記憶しており、前記第2カテゴリ判別処理は、前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、非英語文字列を含む場合に、該文字列からなる単語に対応する英単語を、前記英語辞書データから検索し、該検索により抽出した前記英単語の文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成とすることができる。
これにより、他の文字列にて非英語文字列が使用される一方で、アドレス情報カテゴリの文字列に英語が使用される場合であっても、英語辞典データから検索、抽出した変換後文字列と比較することで、前記他の文字列に対するカテゴリ判別を実行することができる。
またこの発明の態様として、前記記憶手段は、予め登録した登録文字列とローマ字文字列との観念的な関連を定義して、両者を対応づけた観念対応付けデータを記憶しており、前記第2カテゴリ判別処理は、前記他の文字列において、前記登録文字列を含むか否かを判定するとともに、前記登録文字列を含む場合に、該文字列に対応するローマ字文字列を、前記観念対応付けデータから抽出し、抽出した前記ローマ字文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成とすることができる。
前記観念対応付けデータは、ローマ字の読み方の観念や、ローマ字を用いた略語の意味に関する観念などに基づいて関連性を定義し、登録文字列とローマ字文字列とを対応付けたデータで構成することができる。
この態様により、ローマ字の読み方の観念や、ローマ字を用いた略語の意味に関する観念などに基づく文字列であれば、観念対応付けデータからローマ字文字列を作成することができる。
このため、変換後文字列のバリエーションを増やすことができ、その結果、他の文字列のカテゴリ判別漏れを削減することができる。
またこの発明の態様として、前記第2カテゴリ判別処理は、カテゴリ判別の際に、連続して一致する文字数を算出し、該算出結果に基づいて、前記他の文字列に対しカテゴリ判別を実行する構成とすることができる。
これにより、一致度合いを評価するための一致数の閾値を小さな値に設定したとしても、一致度合いの正確な判定を行うことができ、その結果、カテゴリの誤判別を削減することができる。
そして、閾値を小さな値に抑えることが可能になったことで、判別精度の著しい低下を招くことなく、多数の文字列をアドレス構成文字列と比較することができ、その結果、カテゴリの判別漏れを削減することができる。
また、カテゴリに関連する文字列に、カテゴリとは無関係な文字列が連結されていた場合でも、連続一致文字数に基づいた一致度合いの判定により、カテゴリ判別を確実に行うことができる。
またこの発明は、文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、前記カテゴリ判別用文字の文字データ取得によって、第1カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第1カテゴリ判別処理ステップと、該第1カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第2カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第2カテゴリ判別処理ステップとをコンピュータに実行させる文字情報取得プログラムとすることができる。
前記文字情報取得プログラムは、CD(Compact Disc)、DVD(Digital Versatile Disk)、フレキシブリディスク、メモリ、チップ、またはハードディスクなど、適宜の記憶媒体に格納することができる。
この発明により、コンピュータに文字情報取得プログラムをインストールすれば、文字データからより確実に文字列のカテゴリを判別することができる。
またこの発明は、文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、前記カテゴリ判別用文字の文字データ取得によって、第1カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第1カテゴリ判別処理ステップと、該第1カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第2カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第2カテゴリ判別処理ステップとを実行する文字情報取得方法とすることができる。
この発明により、文字データからより確実に文字列のカテゴリを判別する処理を実行することができる。
この発明により、文字データからより確実に文字列のカテゴリを判別することができる文字情報取得装置、文字情報取得プログラム、および文字情報取得方法を提供し、利用者の満足度を向上させることができる。
携帯端末の斜視図。 携帯端末の構成を示すブロック図。 マッチング用辞書データ、カテゴリ判別用辞書データの構成を説明する説明図。 英語辞書データ、漢字読み方辞書データ、ローマ字表記対応データ、観念対応付けデータの構成を説明する説明図。 文字情報取得プログラムによる文字情報取得処理のフローチャート。 文字情報取得プログラムによる文字情報取得処理のフローチャート。 ローマ字変換処理サブルーチンのフローチャート。 文字認識する撮影画像や認識文字の説明図。 「株式会社」の文字認識が困難な例を示す図。
この発明の一実施形態を以下図面と共に説明する。
図1は、携帯端末1の斜視図を示し、図2は、携帯端末1の構成のブロック図を示し、図3はマッチング用辞書データ24、カテゴリ判別用辞書データ25辞書データの構成図を示す。
携帯端末1は、図1に示すように、画像入力部3、操作部5、及び画面表示部7が設けられている。画像入力部3は、画像を撮像するデジタルカメラであり、操作部5は、押下操作されるボタンであり、画面表示部7は、画像を表示する液晶ディスプレイあるいは有機ELディスプレイである。
図2に示すように、携帯端末1は、画像入力部3、操作部5、及び画面表示部7に加えて、CPU11、ROM12、およびRAM13が、バス16に接続して設けられている。
画像入力部3は、CCDカメラまたはCMOSカメラなどのデジタルカメラであり、バス16に接続されている。画像入力部3が撮像して得た撮像画像は、デジタル画像データとしてCPU11に送信される。このデジタル画像データは、最終的に別途の記憶装置(不揮発性メモリなど)に記憶しても良い。なお、画像入力部3は、CPU11から撮像信号を受けて撮像を開始する。ここで、前記画像データは、カラー画像やグレースケール画像やモノクロ2階調画像など、適宜の画像のデータとすることができる。
操作部5は、バス16に接続されている。この操作部5は、利用者に押下操作された押下信号を、バス16を介してCPU11に送信する。
画面表示部7は、操作画面を表示する操作画面表示部7aとしての機能と、文字認識した認識結果を表示する認識結果表示部7bとしての機能とを有している。この操作画面表示部7は、バス16に接続されている。CPU11から画像データが送られてくると、この画像データの画像を操作画面表示部7aまたは認識結果表示部7bに表示する。
CPU11は、ROM12に記憶されたプログラムに従ってRAM13を一時記憶領域に使用して各種動作を行うプロセッサであり、各部を制御する制御機能21と、文字情報取得機能22を有している。
この文字情報取得機能22は、文字列抽出処理部31、文字抽出処理部32、文字認識処理部33、第1カテゴリ判別処理部34、および第2カテゴリ判別処理部35を有している。また、第2カテゴリ判別処理部35は、ドメイン名抽出処理部35a、ローマ字判定処理部35b、ローマ字変換処理部35c、および連続一致文字数算出処理部35dから構成されている。
文字列抽出処理部31は、画像データから文字列を抽出する処理を実行する。この文字列の抽出は、例えば画像データを2値化して射影データを取得し、この射影データから文字列と余白を区別する等、適宜の方法により実行する。具体的には、例えば名刺などの横書き文字に対して画素行別の黒画素数から上下方向のヒストグラムを算出し、所定数以上の黒画素の行が連続している範囲を文字列とする、あるいは葉書の宛名などの縦書き文字に対して画素列別の黒画素数から左右方向のヒストグラムを算出し、所定数以上の黒画素の列が連続している範囲を文字列とするなど、適宜の方法により実行する。
文字抽出処理部32は、前記文字列から文字を抽出する処理を実行する。この文字の抽出は、横書き文字に対して画素列別の黒画素数から左右方向のヒストグラムを算出し、所定数以上の黒画素が連続している範囲を1文字とする、あるいは縦書き文字に対して画素行別の黒画素数から上下方向のヒストグラムを算出し、所定数以上の黒画素が連続している範囲を1文字とするなど、適宜の方法により実行する。
文字認識処理部33は、マッチング用辞書データ24のマッチング情報を用いてどの文字のマッチング情報と一致あるいは近似するか判別することで文字を認識する処理がある。
第1カテゴリ判別処理部34は、カテゴリ判別用辞書データ25を用いて文字列がどのカテゴリに属するかを判別する処理を実行する。
第2カテゴリ判別処理部35は、上述した第1カテゴリ判定処理部34における処理でカテゴリを判別できなかった文字列に対し後述する組織名カテゴリを判別する処理を実行する。
ここで、第2カテゴリ判別処理部35のうち、ドメイン名抽出処理部35aは、後述するE−Mailカテゴリや、URLカテゴリといった、電気通信用のアドレス情報カテゴリの文字列からドメイン名を抽出する処理を実行する。
ローマ字判定処理部35bは、文字認識処理部33の処理で認識された文字列がローマ字で構成されているか否かを判定する。
ローマ字変換処理部35cは、文字認識処理部33により認識された文字列が、ローマ字判定処理部35bによって、ローマ字以外の文字を含んでいると判定された場合、ローマ字以外の文字列から、それに関連するローマ字文字列を作成する。
連続一致文字数算出処理部35dは、異なる文字列同士で文字列の一致度合いを判定するものであり、連続して一致する文字数を算出して前記一致度合いを判定する。
ROM12は、文字情報取得プログラム23、マッチング用辞書データ24、カテゴリ判別用辞書データ25、英語辞書データ26、漢和読み方辞書データ27、ローマ字表記対応データ28、および観念対応付けデータ29を記憶している。
マッチング用辞書データ24は、図3(A)に示すように、文字コード、マッチング情報、および対象カテゴリによって構成されている。
文字コードは、例えばShift−JISなどの適宜の方式の文字コードである。
マッチング情報は、文字の特徴データを文字別に記憶している。
対象カテゴリは、1つの文字に対して複数種類登録されている。具体的には、対象カテゴリとして、前記アドレス情報カテゴリとしての「E−Mail」、「URL」の他、「TEL」、「FAX」、「部署」、「住所」等が登録されている。
このマッチング用辞書データ24に記憶されているデータは、第1認識用カテゴリ文字部24a、および第2認識用文字部24bに区別可能に記憶されている。
第1認識用カテゴリ文字部24aは、カテゴリの判別に用いられる文字、すなわち、マッチング用辞書データ24の対象カテゴリとして登録された「E−Mail」、「URL」、「TEL」、「FAX」、「部署」、「住所」のいずれかで使用される文字で構成されている。
具体的には、対象カテゴリであることを示すキーワードとなる「メ」、「ー」、「ル」、「ホ」、「ム」、「ペ」、「ジ」、「電」、「話」、「フ」、「ァ」、「ッ」、「ク」、「ス」、「部」、「市」、「区」などの文字が含まれている。なお、この文字のうち「話」などの結合文字については、その部品となる偏(へん)や旁(つくり)を一文字とした「言」、「舌」などの部品文字も含むようにしてもよい。
第2認識用文字部24bは、第1認識用カテゴリ文字部24aに入らない文字で構成されている。
なお、この第2認識用文字部24bは、第1認識用カテゴリ文字部24bを含まない構成としているが、第2認識用文字部24bの一部を第1認識用カテゴリ文字部24aとする構成にしてもよい。
カテゴリ判別用辞書データ25は、図3(B)に示すように、カテゴリ別の複数ファイルによって構成されており、各ファイルには、そのカテゴリとして判別する文字列が記憶されている。なお、カテゴリ判別用辞書データ25に記憶する文字列は、文字コードの羅列としてもよい。
英語辞書データ26は、図4(A)に示すように、文字列例、および対象英単語によって構成されている。英語辞書データ26では、英語とは異なる言語の文字列(例えば、日本語、中国語、ドイツ語、…など)に対応付けした形で英単語の文字列が記憶されている。
漢字読み方辞書データ27は、図4(B)に示すように、文字列例および読み仮名によって構成されている。漢字読み方辞書データ26では、漢字からなる文字列(漢字1文字で成立する単語および熟語を含む)と、その読みを示す読み仮名文字列とを対応付けて記憶している。この漢字読み方辞書データ27では、1つの単語に対し、その音読み、訓読みに対応して、複数の読み仮名文字列を記憶している。
ローマ字表記対応データ28は、図4(C)に示すように、マッチング情報、およびローマ字表記によって構成されている。ローマ字表記対応データ28では、仮名文字と、その読みをローマ字表記で示した時の文字列とを対応付けて記憶している。このローマ字表記対応データ28では、例えば、「し」を「shi」、「しゃ」を「sha」と表記するヘボン式や、「し」を「si」、「しゃ」を「sya」と表記する日本式など、複数の方式に基づいたデータ構成となっている。
観念対応づけデータ29は、図4(D)に示すように、マッチング情報、およびローマ字文字列によって構成されている。観念対応づけデータ29では、予め該データ29内に登録した登録文字列とローマ字文字列との観念的な関連を定義し、両者を対応づけて記憶している。例えば、ローマ字「a」、「b」、…を見た時、一般的にこれらを「エー」、「ビー」、…と読むという観念がある。そこで、観念対応づけデータ29では、仮名文字列の「エー」、「ビー」、…を、ローマ字「a」、「b」、…と対応付けて記憶している。
また、観念対応づけデータ29には、慣習的にローマ字文字列で構成された複数の略語が予め登録されており、この略語とそれが示す意味とを対応付けて記憶している。例えば、「システム」は「sys」という略語で示されることがあり、この略語「sys」を見れば、その表記が「システム」を意味していると理解できる。このような略語の意味に関する観念に基づき、観念対応づけデータ29は、文字列「システム」とローマ字文字列「sys」とを対応付けて記憶している。
RAM13は、CPU11が各種制御や演算に使用するデータを一時記憶すると共に、画像RAM13に文字列画像などの画像を記憶する。
なお、携帯端末1には、無線通信を行う通信アンテナ、音声出力を行うスピーカ、および集音を行うマイク等も設けられている。これにより、携帯電話機として利用できるように構成されている。
また、図2に仮想線で示すように、CPU11とROM12は、1つのチップ15に搭載して電子部品として構成してもよい。この場合、チップ15を携帯端末1に備えれば、簡単に文字情報取得機能を追加することができる。
図5〜図7は、携帯端末1のCPU11が文字情報取得プログラム23に従って実行する文字情報取得処理のフローチャートであり、図8は文字認識する撮影画像や認識文字の説明図である。
まず事前準備として、CPU11は、利用者の操作入力に応じて名刺読取りモードなどの文字認識処理が選択されると、画像入力部3によって画像撮影が可能な状態とし、画面表示部7に図8(A)に示す操作画面表示部7aを表示する。
この操作画面表示部7aには、文字認識を行う画面であることを示す認識画面表示部71、画像入力部3(カメラ)によって撮影しているプレビュー画像を動画表示するプレビュー画像表示部72、前画面に戻るための戻るボタン73、認識処理を開始するための認識ボタン74、およびサブメニューを表示するためのサブメニューボタン75が設けられている。
利用者に認識ボタン74が選択されると、CPU11は、画像入力部3による画像撮影を実行して文字画像を取得する(ステップS1)。
CPU11は、文字列抽出処理部31による文字列抽出処理を実行し、文字画像から文字列を抽出する(ステップS2)。このとき、組織名表示部分の文字列、氏名表示部分の文字列、住所表示部分の文字列など、複数の文字列を取得する。
CPU11は、変数「i」に「0」を代入して初期化し(ステップS3)、i番目の抽出文字列について、文字認識処理部33により第1文字認識処理を実行する(ステップS4)。この第1文字認識処理では、文字抽出処理部32により文字列から抽出した各文字について、マッチング用辞書データ24のうち第1認識用カテゴリ文字部24aのみを用いて文字認識を実行し、文字データを取得する。
なお、文字抽出処理部32による文字抽出は、文字と文字の境界を抽出する処理に相当する。例えば、文字列画像について、文字部分が黒になるように2値化され、文字列に垂直方向に黒画素が射影され、その射影データの切れ目を文字と文字の境界の候補とする。
CPU11は、文字認識処理部33により第2文字認識処理を実行する(ステップS5)。この第2字認識処理では、マッチング用辞書データ24の全てのデータを用いて文字認識を実行し、文字データを取得する。
なお、この第2文字認識処理では、文字列から文字を抽出する際に、結合文字を複数の部品文字と誤認識しないように、文字の境界候補を検討し、第1文字認識処理よりも1文字を精度良く切り出す構成にしてもよい。この場合、1文字の文字長を認識し、該文字長単位で境界を認識するとよい。この文字長は、文字列方向の1文字の長さを指し、例えば1文字における文字列方向の画素数とすることができる。これにより、文字の認識精度をさらに向上することができる。
CPU11は、変数「i」に1加算し(ステップS6)、「i」が抽出文字列数に達するまで(ステップS7:Yes)、ステップS4に処理を戻して繰り返す。
「i」が抽出文字列数に達すると(ステップS7:No)、CPU11は、変数「i」に「0」を代入して初期化し(ステップS8)、i番目の抽出文字列について第1カテゴリ判別処理部34により第1カテゴリ判別処理を実行する(ステップS9)。
この第1カテゴリ判別処理は、ステップS4で認識した文字の並びが、カテゴリ判別用辞書データ25に記憶されている各カテゴリの文字の並びと一致するか判別することにより実行する。一致すれば、そのカテゴリであると判別する。
例えば、ステップS9では、CPU11が、例えば、文字列「E−Mail」、「URL」を認識することにより、アドレス情報カテゴリを判別する。
なお、ここで言うアドレス情報とは、電気通信において個々の電子計算機(通信端末)を識別するために予め割り当てられたアドレス情報であり、少なくともローマ字を含んでいるものとする。また、アドレス情報カテゴリは、E−mailカテゴリと、URLカテゴリとに分けられ、ステップS9の第1カテゴリ判別処理では、文字列「E−mail」の認識により、E−mailカテゴリが判別され、文字列「URL」の認識により、URLカテゴリが判別される。
CPU11は、変数「i」に1加算し(ステップS10)、「i」が抽出文字列数に達するまで(ステップS11:Yes)、ステップS9に処理を戻して繰り返す。「i」が抽出文字列数に達すれば(ステップS11:No)、CPU11は、図6に示すステップS12に処理を進め、ステップS9の第1カテゴリ判別処理において、カテゴリが判別できなかったカテゴリ不明文字列が存在するか否かの判定を行う。
ここで、CPU11は、全ての文字列についてカテゴリ判別が完了し、カテゴリ不明文字列が存在しないと判定すれば(ステップS12:No)、図8(B)に示す認識結果表示部7bを画面表示部7に表示して処理を終了する。
カテゴリ不明文字列が存在していれば(ステップS12:Yes)、CPU11は、カテゴリ不明文字列について、第2カテゴリ判別処理部35により第2カテゴリ判別処理を実行する。
CPU11は、まず、ステップS9にて判別したカテゴリのうち、アドレス情報カテゴリについて、その構成文字からドメイン名文字列を抽出する(ステップS13)。
そして、CPU11は、前記カテゴリ不明文字列の文字識別を判定することで、該文字列がローマ字のみによって構成されているか否かの判定を行う(ステップS14)。ここで、カテゴリ不明文字列がローマ字のみによって構成されていなければ(ステップS14:No)、図7に示すローマ字変換処理サブルーチンを実行する(ステップS15)。
図7に示すローマ字変換処理サブルーチンにおいて、CPU11は、まず英語辞書データ26から、文字列に対応する英単語を検索し、該検索により抽出した英単語の文字列からローマ字文字列に変換する(ステップS151)。そして、この時、CPU11は、変換後文字列をRAM13に記憶させる。
次に、CPU11は、カテゴリ不明文字列が漢字および/または仮名文字を含むか否かを判定する(ステップS152)。ここで、カテゴリ不明文字列が、漢字および/または仮名文字を含んでいれば(ステップS152:Yes)、CPU11は、漢字読み方辞書データ27およびローマ字表記対応データ28からローマ字文字列に変換する(ステップS153)。
ここで、ステップS153において、カテゴリ不明文字列に漢字を含んでいれば、CPU11は、まず、漢字読み方辞書データ27から対応する読み仮名文字列を検索、抽出する。そして、抽出した読み仮名文字列を構成する各文字に対応するローマ字文字列を、ローマ字表記対応データ28から検索、抽出することにより、ローマ字文字列に変換する。
また、文字列に仮名文字を含んでいれば、CPU11は、この仮名文字列を構成する各文字に対応するローマ字文字列を、ローマ字表記対応データ28から検索、抽出することにより、ローマ文字列に変換する。
CPU11は、ステップS153にてローマ字文字列に変換すると、変換後文字列をRAM13に記憶させ、ステップS154に処理を進める。
一方、カテゴリ不明文字列の言語が漢字および/または仮名文字を含んでいなければ(ステップS152:No)、CPU11は、ステップS153の処理を実行することなく、ステップS154に処理を進める。
CPU11は、ステップS154において、カテゴリ不明文字列の中から、観念対応付けデータ29に記憶された登録文字列を検索し、カテゴリ不明文字列内に、前記登録文字列を含むか否かを判定する。ここで、登録文字列を含んでいれば(ステップS154:Yes)、CPU11は、観念対応付けデータ29から、対応するローマ字文字列を抽出することにより、ローマ字文字列に変換する(ステップS155)。
CPU11は、ステップS155にてローマ字文字列に変換すると、変換後文字列をRAM13に記憶させ、ローマ字変換処理サブルーチンを終了する。
一方、カテゴリ不明文字列に登録文字列を含んでいなければ(ステップS154:No)、CPU11は、ステップS155の処理を実行することなく、ローマ字変換処理サブルーチンを終了する。
図6に戻り、CPU11は、ステップS15のローマ字変換処理サブルーチンで変換した変換後文字列と、ステップS9において判別したアドレス情報カテゴリの文字列との比較によって、文字構成の一致度合いを判定するための連続一致文字数算出処理を実行する(ステップS16)。
ステップS16では、CPU11が、ステップS13により抽出したドメイン名文字列と、ステップS15にて変換した変換後文字列とを比較し、連続一致文字数を算出する。
また、ステップS14において、カテゴリ不明文字列がローマ字のみによって構成された場合には(ステップS14:Yes)、CPU11は、ステップS15のローマ字変換処理サブルーチンを実行することなく、ステップS16に処理を進める。
そして、ステップS16では、カテゴリ不明文字列と、前記ドメイン名文字列とを直接比較し、連続一致文字数を算出する。
CPU11は、連続一致文字数が、予め設定された閾値以上であり、かつ最大であった文字列(ステップS15の処理により変換されたものについては変換前の文字列)のカテゴリを、会社、学校などの組織の名前が記載されるカテゴリ(組織名カテゴリという)であると判定する(ステップS17)。そして、CPU11は、図8(B)に示す認識結果表示部7bを画面表示部7に表示して処理を終了する。
この文字情報取得処理により、図8に図示した例であれば、次のように処理される。
まず、文字列抽出処理(ステップS2)により、図8(B)に示すように、(1)〜(8)の各文字列が認識される。
この(1)〜(8)の各文字列に対して順番に第1文字認識処理(ステップS4)を実行することで、第1認識用カテゴリ文字部24aで文字認識できるカテゴリの文字認識ができる。すなわち、(2)の部、(4)の市、区、(5)の電話、(6)のFAX、および、前記アドレス情報を示す(7)のE−mail、および(8)のURLを認識できる。そして、このような文字列の認識により、第1カテゴリ判別処理(ステップS9)において、(2)(4)(5)(6)(7)(8)のカテゴリを判別することができる。
このうち、(2)の部については、文字列の末尾に文字「部」を認識できた時に、第1カテゴリ判別処理では、(2)についてこれを部署カテゴリと判別することが可能になる。
一方、図8(B)の(1)(3)は、カテゴリ判別用辞書データ25に記憶された対象カテゴリの文字列を含んでいないため、(1)(3)はカテゴリ不明とされ、ステップS11〜S16の第2カテゴリ判別処理を実行して組織名(ここでは、会社名)カテゴリ判別処理を行う。
ここで、名刺の読取りにおいては、E−Mailアドレスの文字列やURLの文字列といった、前記アドレス情報を表す文字列は、おおよそ、ローマ字、数字、記号などの欧米系の文字で構成されている。さらに、前記アドレス情報を表す文字列においては、一般的に、E−Mailアドレスの「@」の後ろや、URLの「WWW.」の後ろに配置されるいわゆるドメイン名の文字列内に、会社名などの組織名に関連する文字列が配置されることが多い。
そこで、図8に示した例であれば、(7)の文字列に対して、ドメイン名文字列抽出処理(ステップS13)を実行する。具体的には、まず、(7)の文字列から「@」を検索し、その後ろに配置された文字列「mx.jp.om.soft.com」をドメイン名文字列として抽出する。また、(8)の文字列から「WWW.」を検索し、その後ろに配置された文字列「om.software.co.jp」を抽出する。
なお、ステップS13では、同時にドメイン名文字列から「.」などの記号を除去して、ローマ字のみからなる文字列を形成するとともに、ドメイン名末尾の「com」や「co」といった組織コードや、「jp」といったゾーンコードをさらに除去し、組織名とは直接関連性のない文字列を除去する。その結果、(7)から、ドメイン名文字列として、「mxjpomsoft」が抽出され、(8)からは、「omsoftware」が抽出される。
次に、カテゴリ不明とされている(1)(3)の文字列「オーエムソフトウェア」、「御室太郎」は、ローマ字以外の文字列であると判定し(ステップS14)、ローマ字変換処理サブルーチンを実行する(ステップS15)。
ここで、(1)の文字列については、英語辞書データ26により、「ソフトウェア」について、ローマ字文字列「software」に変換する(ステップS151)。
そして、ローマ字表記対応データ28により、ローマ文字列「oemusofutouea」に変換する(ステップS153)。
また、「オーエム」については、「オー」と「エム」とに分離し、観念対応付けデータ29内を検索することにより、それぞれローマ字文字列「om」に変換する。そして、「ソフトウェア」についても、観念対応付けデータ29内を検索することにより、ローマ字文字列「soft」に変換する(ステップS155)。
そして、このようにして様々な方法により作成したローマ字文字列の組み合わせを変えることにより、「オーエムソフトウェア」について、「oemusofutouea」、「omsoftware」、「omsoft」、…といった複数のローマ字文字列を作成する。
さらに、(3)の文字列についても、(1)の文字列と同様の方法により、「omurotarou」、「onmurotarou」、「gomurotarou」、…といった複数のローマ字文字列を作成する。
このようにして作成した各ローマ字文字列を、変換後文字列として、ステップS13にて抽出した文字列「mxjpomsoft」、および「omsoftware」とを比較し、連続一致文字数を算出する(ステップS16)。
例えば、(7)から抽出した「mxjpomsoft」と(1)の「オーエムソフトウェア」を変換した「omsoft」とを比較すると、連続一致文字数は6文字であり、(3)の「御室太郎」を変換した「omurotarou」などと比較すると、連続一致文字数は2文字である。
また、(8)から抽出した「omsoftware」と「オーエムソフトウェア」を変換した「omsoftware」とを比較すると、連続一致文字数は10文字であり、「御室太郎」を変換した「omurotarou」などと比較すると、連続一致文字数は2文字である。
ここで、ROM12(図2参照)には、文字数の一致度合いを評価するための閾値が記憶されており、組織名カテゴリ判別処理(ステップS17)では、連続一致文字数と前記閾値とを比較する処理を実行する。
ここで、前記閾値以上であった変換後文字列については、その一致度合いが高いことから、組織(会社)名に関連している可能性が高いものとして、組織名関連候補とする。例えば、前記閾値が3文字であった場合、組織名関連候補としては、「omsoft」、「omsoftware」が挙げられることになる。この場合、組織名カテゴリ判別処理では、組織名関連候補となっている文字列の変換前の文字列「オーエムソフトウェア」を組織名であると判定する。これにより、図8(B)の(1)に対して組織名カテゴリの判別ができる。
すなわち、図8に図示した例のように、組織名の文字列に、「株式会社」など、組織名を示すキーワードが文字列に含まれていない場合や、前記キーワードが含まれているものの、その認識が困難な場合であっても、組織名に関連する文字列が含まれている可能性が高い(7)のE−Mailアドレスおよび/または(8)のURLのドメイン名文字列に基づいて、組織名カテゴリを判別することができる。
そして、ドメイン名文字列に基づいたカテゴリの判別により、組織名の文字列として使用される可能性がある文字列の組合わせを予め記憶させるといった構成が不要になる。このため、組織名カテゴリの判別漏れが発生する可能性を低減でき、換言すれば、画像データからより確実に組織名カテゴリを判別することができる。
以上の構成および動作により、文字データからより確実に文字列のカテゴリを判別することができる。
またカテゴリ不明文字列から組織名カテゴリを判別するにあたり、E−Mailアドレス、URLの双方からドメイン名文字列を抽出可能とすることにより、例えば、名刺などの印刷用媒体にE−Mailアドレスが記載されていなかった場合でも、URLのみに基づいて組織名カテゴリを判別することが可能になる。
一般的に、URLについては、顧客などに覚えてもらい易く、かつ電気通信回線(インターネット)における検索を行い易くするために、ドメイン名の文字列には、組織名と関連性の強い文字列を採用する傾向がある。従って、URLのドメイン名文字列との比較のほうが、E−Mailのドメイン名文字列との比較よりも、判別精度を向上させることが可能になる。
また、E−Mailアドレス、URLの双方からドメイン名文字列を抽出可能とすることにより、E−Mailアドレス、URLのいずれかの認識が困難であった場合でも、片側の認識によって組織名カテゴリの判別が可能になる。
また、カテゴリ不明文字列から組織名カテゴリを判別可能としたことにより、残りのカテゴリ不明文字列数が1であった場合には、その残りの文字列のカテゴリを、カテゴリ判別のための有力なキーワードを設定しにくい氏名カテゴリと推定することができる。このため、カテゴリ不明数の削減を実現でき、その結果、カテゴリ判別の精度向上を図ることができる。
また、カテゴリ不明文字列が、英語以外の非英語文字列を含み、その文字列が、漢字および/または仮名文字を組合わせた文字列であったとしても、漢字読み方辞典27や、文字列の読み方を示すローマ字表記対応データ28によりローマ字も文字列に変換することにより、変換後文字列と、おおよそローマ字、数字、記号などで構成されるアドレス情報の文字列(例えば、ドメイン名文字列)との比較が容易になり、カテゴリ不明文字列に対するカテゴリ判別を実行することができる。
例えば、カテゴリ不明文字列が「立石」または「タテイシ」であり、E−Mailカテゴリの文字列が「E−Mail:****@tateishi.co.jp」である場合を考える。この場合、不明カテゴリ文字列の文字列からローマ字文字列「tateishi」に変換することにより、文字列「立石」や「タテイシ」が組織名カテゴリであると判別することができる。
また、カテゴリ不明文字列にて非英語文字列が使用される一方で、アドレス情報カテゴリの文字列に英語が使用される場合であっても、英語辞典データ26から検索、抽出したローマ字文字列に変換することにより、カテゴリ不明文字列に対するカテゴリ判別を実行することができる。
例えば、カテゴリ不明文字列が「ABC電気」であり、E−Mailカテゴリの文字列が「E−Mail:****@abc.electronics.co.jp」である場合を考える。この場合、「ABC」を小文字「abc」に変換しつつ、英語辞典データ26により、「電気」をローマ字文字列「electronics」に変換することで、文字列「ABC電気」が組織名カテゴリであると判別することができる。
また、カテゴリ不明文字列が、上述した英語辞典データ26、漢字読み方辞典27、およびローマ字表記対応データ28を用いた方法では変換が困難なものを含んでいる場合でも、ローマ字の読み方の観念や、ローマ字を用いた略語の意味に関する観念などに基づく文字列であれば、観念対応付けデータ29からローマ字文字列を作成することができる。
このため、変換後文字列のバリエーションを増やすことができ、その結果、カテゴリ不明文字列のカテゴリ判別漏れを削減することができる。
例えば、カテゴリ不明文字列が「エーエフタテイシシステム」であり、E−Mailカテゴリの文字列が「E−Mail:****@aftateishisys.co.jp」であった場合を考える。この場合、まず「エー」、「エフ」について、これらは、ローマ字「a」、「f」に割り当てられた読み方を示すものであるため、観念対応付けデータ29からローマ字文字列「af」に変換することができる。
また、「タテイシ」については、ローマ字表記対応データ28から、ローマ字文字列「tateishi」に変換することができる。
そして、システムについては、観念対応付けデータ29から対応する略語「sys」を検索、抽出することで、ローマ字文字列「sys」に変換することができる。
この場合、以上のローマ字文字列を適宜組合わせることにより、「エーエフタテイシシステム」については、変換後文字列として「aftateishisys」を作成することができ、「aftateishisys」から、文字列「エーエフタテイシシステム」が組織名カテゴリであると判別することができる。
ところで、カテゴリ不明文字列と、アドレス情報カテゴリの文字列とを比較するにあたり、本実施では、ステップS16において、双方の連続一致文字数に基づき一致度合いを判定しているが、これ以外にも、例えば、単に一致文字数に基づいて一致度合いを判定することも考えられる。しかしながら、この場合、後述するように、比較対象の文字列内の文字数が多くなると、カテゴリの誤判別を増大させる虞がある。
例えば、大企業などで多数の部署が存在する場合、E−Mailアドレスでは、図8に示した例のように、組織(会社)名の前に、「mx.jp」といった文字列を配置することによって、部署区分を把握できるようにすることがある。ここで、単に一致文字数のみに基づいて一致度合いを判定しようとすると、図8に示した例の場合、組織名とは関係のない「m」、「x」、「j」、「p」のいずれかが一致した時も一致数として計数されてしまうことになる。
従って、一致数の閾値を小さく設定し過ぎてしまうと、「m」、「x」、「j」、「p」のいずれかを含む、組織名カテゴリとは異なる文字列が存在した場合、その文字列が組織名カテゴリであると誤判別する虞がある。
また、特に日本語の場合、その読みをローマ字表記した時には、母音を示すローマ字が他の言語よりも多くなる傾向にある。このため、単に一致文字数のみに基づいて一致度合いの判定を行うと、カテゴリの誤判別を招く虞がある。
例えば、文字列「田辺」と文字列「高部」とを比較した場合、その読みをローマ字表記した時には、それぞれ「tanabe」、「takabe」となるが、母音の数がいずれも6文字中3文字とその割合が多い。このため、一致文字数が5文字と多くなる。
この場合、閾値を、例えば4など小さい値に設定すると、いずれが判別対象カテゴリの文字列なのかを正確に判別できず、その結果、カテゴリの誤判別を招いてしまう虞がある。
特に、本実施例のように、1つの文字列に対して複数のローマ字文字列に変換し、文字列候補を多数抽出することにより、カテゴリ不明数の削減を図ろうとするものである場合、閾値が小さ過ぎると、多数の変換後文字列が閾値以上となってしまい、カテゴリの誤判別が生じ易くなってしまう。
そこで、本実施例では、上述したように、文字列の連続一致文字数に基づいた組織名カテゴリ判別処理を実行している。この場合、文字列「田辺」と文字列「高部」とを比較した時には、その読みを示すローマ字表記の連続一致文字数は「abe」の3文字であり、閾値を例えば4といった小さい値に設定したとしても、「田辺」と「高部」は一致しないものと正確に判定することができる。つまり、この場合、カテゴリの誤判別を削減することができる。
そして、閾値を小さな値に抑えることが可能になったことで、上述した実施例のように多数のローマ字文字列を作成した場合には、判別精度の著しい低下を招くことなく、多数の変換後文字列をドメイン名文字列と比較することができ、その結果、カテゴリの判別漏れを削減することができる。
また、カテゴリに関連する文字列(例えば、「オーエムソフトウェア」など)に、カテゴリとは無関係な文字列(例えば、「ISO9001取得」など)が連結されていた場合でも、連続一致文字数に基づいた一致度合いの判定により、カテゴリ判別を確実に行うことができる。
ところで、上述した実施例では、アドレス情報のドメイン名の文字列に基づいて、組織名カテゴリを判別することとしたが、本発明は必ずしもこれに限定されるものではない。例えば、E−Mailアドレスの「@」の前の文字列に基づいて、氏名カテゴリを判別する構成としてもよい。この場合、第2カテゴリ判別処理部35は、ドメイン名抽出処理部35aの代わりに、「@」の前の文字列を抽出する抽出処理部を備えることになる。
図8に示した例では、(7)から「@」を検索することにより、前記抽出処理部が、「@」の前の文字列「omurotaro」を抽出する。そして、このようにして抽出した文字列と、カテゴリ不明文字列である、「オーエムソフトウェア」および「御室太郎」とを比較することで、結果として、文字列「御室太郎」のが氏名カテゴリであると判別することができる。
また、この場合、カテゴリ不明文字列から氏名カテゴリを判別可能としたことにより、残りのカテゴリ不明文字列数が1であった場合には、その残りの文字列のカテゴリを、組織名カテゴリと推定することができる。このため、カテゴリ不明数の削減を実現でき、その結果、カテゴリ判別の精度向上を図ることができる。
また、上述した実施例では、文字列「E−Mail」、「URL」を認識した時には、カテゴリ判別用辞書データ25を用いることにより、E−Mailカテゴリや、URLカテゴリを判別することとしたが、本発明は、必ずしもこれに限定されない。例えば、「@」の認識に基づいて、E−Mailカテゴリを判別したり、「WWW.」の認識に基づいて、URLカテゴリを判別したりするようにしてもよい。
なお、文字情報取得プログラム23は、インターネットなどの電気通信回線に接続されたサーバの記憶手段に記憶しておき、電気通信回線を通じてダウンロード可能とする、あるいは電気通信回線を通じてASP(Application Service Provider)のサービスとして利用可能にする構成とすることも可能である。この場合、通信負荷がかかるが、サーバの演算処理の負荷を軽減することができる。
この発明の構成と、上述の実施形態との対応において、
この発明の文字情報取得装置およびコンピュータは、実施形態の携帯端末1に対応し、
以下同様に、
文字データ取得手段は、ステップS1〜S7を実行するCPU11に対応し、
カテゴリ判別用文字は、第1認識用カテゴリ文字部24aに対応し、
マッチングデータは、マッチング用辞書データ24に対応し、
記憶手段は、ROM12に対応し、
第1カテゴリ判別処理および第1カテゴリ判別処理ステップは、ステップS9に対応し、
第2カテゴリ判別処理および第2カテゴリ判別処理ステップは、ステップS13〜S17に対応し、
カテゴリ判別処理手段は、ステップS9、S13〜S17を実行するCPU11に対応するが、
この発明は、上述の実施形態の構成のみに限定されるものではなく、多くの実施の形態を得ることができる。
この発明は、文字を認識する装置に利用することができ、特に、名刺の読取り、葉書や封筒の宛名の読取りなど、ある程度記載項目(カテゴリ)が定まっている文字表示媒体から文字を認識し、文字データを取得する装置に利用することができる。
またこの発明は、E−Mail、インターネットなどの使用により、文字データを含んだ電子データを取得する携帯電話機やパーソナルコンピュータなどの情報処理端末装置に利用することができる。この情報処理端末装置では、例えば、E−Mailの文面の冒頭(ヘッダ部)の文字データや、末尾の署名欄(シグネチャ)などの文字データを取得することにより、氏名、組織名、住所、電話番号、E−Mailアドレス、URLなどの各種文字情報を取得することができる。
1…携帯端末、11…CPU、12…ROM、23…文字情報取得プログラム、24…マッチング用辞書データ、24a…第1認識用カテゴリ文字部、26…英語辞書データ、27…漢字読み方辞書データ、28…ローマ字表記対応データ、29…観念対応付けデータ

Claims (7)

  1. 情報取得対象データから文字データを取得する文字データ取得手段と、
    前記文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含んだマッチングデータを記憶する記憶手段とを備え、
    前記カテゴリ判別用文字の文字データ取得により、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第1カテゴリ判別処理と、
    該第1カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、他の文字列に対しカテゴリ判別を実行する第2カテゴリ判別処理とを実行するカテゴリ判別処理手段を備えた
    文字情報取得装置。
  2. 前記第2カテゴリ判別処理は、
    前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、
    非英語文字列を含む場合に、該文字列を、その読み方を示すローマ字表記に変換し、
    該変換により作成した変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成である
    請求項1記載の文字情報取得装置。
  3. 前記記憶手段は、
    英語辞書データを記憶しており、
    前記第2カテゴリ判別処理は、
    前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、
    非英語文字列を含む場合に、該文字列からなる単語に対応する英単語を、前記英語辞書データから検索し、該検索により抽出した前記英単語の文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成である
    請求項1記載の文字情報取得装置。
  4. 前記記憶手段は、
    予め登録した登録文字列とローマ字文字列との観念的な関連を定義して、両者を対応づけた観念対応付けデータを記憶しており、
    前記第2カテゴリ判別処理は、
    前記他の文字列において、前記登録文字列を含むか否かを判定するとともに、
    前記登録文字列を含む場合に、該文字列に対応するローマ字文字列を、前記観念対応付けデータから抽出し、抽出した前記ローマ字文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成である
    請求項1記載の文字情報取得装置。
  5. 前記第2カテゴリ判別処理は、
    カテゴリ判別の際に、連続して一致する文字数を算出し、該算出結果に基づいて、前記他の文字列に対しカテゴリ判別を実行する構成である
    請求項1から4のいずれか1つに記載の文字情報取得装置。
  6. 文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、
    文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、
    前記カテゴリ判別用文字の文字データ取得によって、第1カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第1カテゴリ判別処理ステップと、
    該第1カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第2カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第2カテゴリ判別処理ステップとをコンピュータに実行させる
    文字情報取得プログラム。
  7. 文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、
    文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、
    前記カテゴリ判別用文字の文字データ取得によって、第1カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第1カテゴリ判別処理ステップと、
    該第1カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第2カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第2カテゴリ判別処理ステップとを実行する
    文字情報取得方法。
JP2009061772A 2009-03-13 2009-03-13 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法 Pending JP2010218043A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009061772A JP2010218043A (ja) 2009-03-13 2009-03-13 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009061772A JP2010218043A (ja) 2009-03-13 2009-03-13 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法

Publications (1)

Publication Number Publication Date
JP2010218043A true JP2010218043A (ja) 2010-09-30

Family

ID=42976862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009061772A Pending JP2010218043A (ja) 2009-03-13 2009-03-13 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法

Country Status (1)

Country Link
JP (1) JP2010218043A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128586A (ja) * 2010-12-14 2012-07-05 Nomura Research Institute Ltd アクセス解析システム、アクセス解析方法及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244969A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> パーソナル情報抽出方法及び装置
JP2005346627A (ja) * 2004-06-07 2005-12-15 Omron Corp データ名決定装置
JP2008310772A (ja) * 2007-06-18 2008-12-25 Sharp Corp 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244969A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> パーソナル情報抽出方法及び装置
JP2005346627A (ja) * 2004-06-07 2005-12-15 Omron Corp データ名決定装置
JP2008310772A (ja) * 2007-06-18 2008-12-25 Sharp Corp 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010007151; 浅野 久子 大山 芳史: '電子メールからのパーソナル情報抽出方法の検討' 第52回(平成8年前記)全国大会講演論文集(3) , 19960306, p.3-301〜3-302, 社団法人情報処理学会 *
JPN6013021313; 浅野 久子 大山 芳史: '電子メールからのパーソナル情報抽出方法の検討' 第52回(平成8年前記)全国大会講演論文集(3) , 19960306, p.3-301〜3-302, 社団法人情報処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128586A (ja) * 2010-12-14 2012-07-05 Nomura Research Institute Ltd アクセス解析システム、アクセス解析方法及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
JP4995554B2 (ja) 光学式文字認識補正のための知識ベースを利用した個人情報の検索方法
KR101078086B1 (ko) 문자 인식 장치, 문자 인식 프로그램, 및 문자 인식 방법
TWI231920B (en) Character recognition apparatus and method
CN109961069B (zh) 图像处理装置以及存储介质
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2014013534A (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
JP2014182477A (ja) プログラム及び帳票処理装置
JP2019169025A (ja) 情報処理装置、文字認識エンジン選択方法及びプログラム
JP4991407B2 (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP4597644B2 (ja) 文字認識装置、プログラムおよび記録媒体
US20150261735A1 (en) Document processing system, document processing apparatus, and document processing method
CN113495874A (zh) 信息处理装置和计算机可读取介质
US20210374189A1 (en) Document search device, document search program, and document search method
JP4576211B2 (ja) 文書情報検索システム
JP2010218043A (ja) 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法
US20210182477A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP4116852B2 (ja) 抽出文字列辞書検索装置及び方法並びにプログラム
JP2007323317A (ja) 変換装置、変換方法及びプログラム
JP2008176625A (ja) 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP2001094711A (ja) ドキュメント画像処理装置及びドキュメント画像処理方法
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP7268316B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130703

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131203