JP2010218043A

JP2010218043A - 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法

Info

Publication number: JP2010218043A
Application number: JP2009061772A
Authority: JP
Inventors: Seiichi Manabe; 誠一真鍋
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2009-03-13
Filing date: 2009-03-13
Publication date: 2010-09-30

Abstract

【課題】文字データからより確実に文字列のカテゴリを判別することができる文字情報取得装置、文字情報取得プログラム、および文字情報取得方法を提供する。
【解決手段】第１認識用カテゴリ文字部２４ａに記憶している文字の文字データ取得により（ステップＳ４）、文字データ内の文字列から、電気通信用に予め割り当てられたＥ−Ｍａｉｌカテゴリ、ＵＲＬカテゴリを判別する第１カテゴリ判別処理（ステップＳ９）と、該第１カテゴリ判別処理により判別したＥ−Ｍａｉｌカテゴリ、ＵＲＬカテゴリのドメイン名文字列に基づいて、カテゴリ不明文字列に対し組織名カテゴリ判別を実行する第２カテゴリ判別処理（ステップＳ１３〜Ｓ１７）を実行する。
【選択図】図６

Description

この発明は、文字データから文字情報を取得するような文字情報取得装置、文字情報取得プログラム、および文字情報取得方法に関する。

例えば、名刺、葉書などの文字印刷媒体から文字を読取った文字列より各種文字情報を取得する場合には、各文字列のカテゴリ（住所、氏名、組織名、電話番号など）を判別する必要がある。

また、例えば、電子メール（Ｅ−Ｍａｉｌ）については、その文面の冒頭（ヘッダ部ともいう）にメール送信者の氏名と自身が所属する組織名とを併記するとともに、文面の末尾に、氏名、組織名、住所、電話番号などを列挙した署名欄（シグネチャともいう）を記載する習慣が定着しつつあり、これらの文字データより各種文字情報を取得することも可能である。

但し、このように、Ｅ−Ｍａｉｌの文面に記載された文字データより各種文字情報を取得する場合においても、同様に各文字列のカテゴリ（住所、氏名、組織名、電話番号など）を判別する必要がある。

特許文献１〜３に開示された技術では、例えば名刺など、記載内容がある程度決まっている文字印刷媒体から認識した文字列のうち、「株式会社」、「（株）」、「有限会社」など、組織（会社）名を示す象徴的なキーワードを検索することにより、組織名カテゴリの判別を行う装置が提案されている（特許文献１〜３参照）。

しかしながら、名刺などに組織名を記載していたとしても、「株式会社」のようなキーワードが必ずしも記載されているとは限らない。従って、上述した従来技術のように、キーワードを検索する方式では、組織名カテゴリの判別が行えない場合があった。

また、名刺などにおいて、図９（Ａ）に示すように、「株式会社」の記載部分のフォントサイズが、会社名の記載部分（ここでは「エービーシー」）と異なることによって、「株式会社」の文字認識を正しく行えなかったり、図９（Ｂ）に示すように、「株式会社」の書体が、会社名の記載部分と異なることによって、「株式会社」の文字認識を正しく行えなかったりする場合も、組織名カテゴリの判別を正しく行えない虞がある。

ところで、近年、名刺などの文字印刷媒体には、氏名や組織名、住所、電話番号などの他にも、電気通信用に予め割り当てられたＥ−ＭａｉｌアドレスやＵＲＬといった電気通信用のアドレス情報を併記する習慣が定着しつつある。

特許文献４では、文字印刷媒体の文字列から、氏名カテゴリを判別するとともに、文字認識によって認識された姓および名の複数の読み候補についてローマ字変換し、このローマ字変換を実行した後の文字列と、Ｅ−Ｍａｉｌアドレスを記載した文字列とを比較することによって、氏名の読みを判定する技術が開示されている。

しかしながら、特許文献４に開示された技術は、Ｅ−Ｍａｉｌアドレスの文字列に基づいて、氏名の読みを判定するに過ぎず、文字列のカテゴリ（例えば氏名カテゴリ）を判別するものではない。

特許文献４では、姓および名に良く用いられている文字が連続している文字列を認識することによって、氏名カテゴリを判別するようにしている。

しかしながら、例えば、日本語や中国語の氏名である場合、姓および名に用いられる文字として無数の漢字が存在している。従って、氏名に用いられると考えられるあらゆる文字（漢字）を予め予測して全てを装置内に記憶させることは極めて困難である。

このため、氏名が記載されている文字列の中に、姓および名の文字パターンとして予め記憶されていないものが含まれている可能性もあり、このような場合には、氏名カテゴリの判別漏れが生じる虞がある。つまり、特許文献４に開示されている技術では、氏名カテゴリを確実に判別できないという問題がある。

また、特許文献４では、印刷用媒体の中央付近に位置する文字列を抽出することによって氏名カテゴリを判別することが提案されている。しかしながら、氏名が記載された文字列が必ずしも印刷用媒体の中央付近にあるとは限らないため、この場合もやはり、氏名カテゴリを確実に判別することができないという問題がある。

特開平６−１０３４０２号公報特開２００４−１０２５２３号公報特開平１１−１５４１５７号公報特開２００７−３０５０４６号公報

この発明は、上述した問題に鑑み、文字データからより確実に文字列のカテゴリを判別することができる文字情報取得装置、文字情報取得プログラム、および文字情報取得方法を提供し、利用者の満足度を向上させることを目的としている。

この発明は、情報取得対象データから文字データを取得する文字データ取得手段と、前記文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含んだマッチングデータを記憶する記憶手段とを備え、前記カテゴリ判別用文字の文字データ取得により、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第１カテゴリ判別処理と、該第１カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、他の文字列に対しカテゴリ判別を実行する第２カテゴリ判別処理とを実行するカテゴリ判別処理手段を備えた構成である文字情報取得装置であることを特徴とする。

前記情報取得対象データは、例えば、名刺、葉書などの文字印刷媒体を、ＣＣＤカメラやＣＭＯＳカメラなどの撮像手段で撮像した文字列画像のデータや、Ｅ−Ｍａｉｌなどの文面を構成するテキストデータで構成することができる。

前記文字データ取得手段は、例えば、画像データ中の文字画像から特徴データを抽出し該特徴データをマッチングデータの特徴データとマッチングし、どの文字かを認識する文字認識手段で構成することができる。
また、前記文字データ取得手段は、例えば、Ｅ−Ｍａｉｌなどのテキストデータから文字データを取得する手段で構成することができる。

前記記憶手段は、ハードディスクや不揮発性メモリなど、データを記憶する手段で構成することができる。

前記カテゴリ判別用文字は、例えば「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「部」、「市」、「区」、またはこれらの複数に用いられる文字など、カテゴリ判別に使用する文字で構成することができる。

前記アドレス情報は、電気通信において個々の電子計算機（通信端末）を識別するために予め割り当てられた、少なくともローマ字を含むアドレス情報で構成することができ、例えば、ローマ字、数字、記号などの組合わせで表記されたＥ−ＭａｉｌアドレスやＵＲＬで構成することができる。

前記アドレス構成文字列は、電気通信において個々の電子計算機（通信端末）を識別するために予め割り当てられた識別子であって、Ｅ−Ｍａｉｌアドレスの「＠」の後ろや、ＵＲＬの「ＷＷＷ．」の後ろに配置されるドメイン名により構成することができる。
また、前記アドレス構成文字列は、Ｅ−Ｍａｉｌアドレスの「＠」の前の文字列により構成することができる。

前記文字情報は、住所、氏名、組織名、電話番号、Ｅ−Ｍａｉｌアドレス、ＵＲＬなどで構成することができる。

前記文字情報取得装置は、情報処理を実行するＣＰＵなどの情報処理部と情報記憶を行うメモリなどの情報記憶部と外部装置に接続する接続端子などのインターフェース部とを有する半導体チップなどの装置で構成する、あるいは、撮像手段と制御手段と記憶手段とを備えた携帯電話機やＰＤＡ（Personal Digital Assistants）やパーソナルコンピュータなどの情報処理端末で構成するなど、適宜の装置で構成することができる。

この発明により、文字データからより確実に文字列のカテゴリを判別することができ、利用者の満足度を向上させることができる。

この発明の態様として、前記第２カテゴリ判別処理は、前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、非英語文字列を含む場合に、該文字列を、その読み方を示すローマ字表記に変換し、該変換により作成した変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成とすることができる。

前記非英語文字列は、例えば、日本語、中国語、ドイツ語など、英語圏以外で使用される言語の文字列で構成することができる。

この態様により、ローマ字表記に変換した変換後文字列と、おおよそローマ字、数字、記号などで構成されるアドレス情報の文字列との比較が容易になり、この比較に基づいてカテゴリ判別を実行することができる。

またこの発明の態様として、前記記憶手段は、英語辞書データを記憶しており、前記第２カテゴリ判別処理は、前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、非英語文字列を含む場合に、該文字列からなる単語に対応する英単語を、前記英語辞書データから検索し、該検索により抽出した前記英単語の文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成とすることができる。
これにより、他の文字列にて非英語文字列が使用される一方で、アドレス情報カテゴリの文字列に英語が使用される場合であっても、英語辞典データから検索、抽出した変換後文字列と比較することで、前記他の文字列に対するカテゴリ判別を実行することができる。

またこの発明の態様として、前記記憶手段は、予め登録した登録文字列とローマ字文字列との観念的な関連を定義して、両者を対応づけた観念対応付けデータを記憶しており、前記第２カテゴリ判別処理は、前記他の文字列において、前記登録文字列を含むか否かを判定するとともに、前記登録文字列を含む場合に、該文字列に対応するローマ字文字列を、前記観念対応付けデータから抽出し、抽出した前記ローマ字文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成とすることができる。

前記観念対応付けデータは、ローマ字の読み方の観念や、ローマ字を用いた略語の意味に関する観念などに基づいて関連性を定義し、登録文字列とローマ字文字列とを対応付けたデータで構成することができる。

この態様により、ローマ字の読み方の観念や、ローマ字を用いた略語の意味に関する観念などに基づく文字列であれば、観念対応付けデータからローマ字文字列を作成することができる。
このため、変換後文字列のバリエーションを増やすことができ、その結果、他の文字列のカテゴリ判別漏れを削減することができる。

またこの発明の態様として、前記第２カテゴリ判別処理は、カテゴリ判別の際に、連続して一致する文字数を算出し、該算出結果に基づいて、前記他の文字列に対しカテゴリ判別を実行する構成とすることができる。
これにより、一致度合いを評価するための一致数の閾値を小さな値に設定したとしても、一致度合いの正確な判定を行うことができ、その結果、カテゴリの誤判別を削減することができる。
そして、閾値を小さな値に抑えることが可能になったことで、判別精度の著しい低下を招くことなく、多数の文字列をアドレス構成文字列と比較することができ、その結果、カテゴリの判別漏れを削減することができる。
また、カテゴリに関連する文字列に、カテゴリとは無関係な文字列が連結されていた場合でも、連続一致文字数に基づいた一致度合いの判定により、カテゴリ判別を確実に行うことができる。

またこの発明は、文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、前記カテゴリ判別用文字の文字データ取得によって、第１カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第１カテゴリ判別処理ステップと、該第１カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第２カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第２カテゴリ判別処理ステップとをコンピュータに実行させる文字情報取得プログラムとすることができる。

前記文字情報取得プログラムは、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、フレキシブリディスク、メモリ、チップ、またはハードディスクなど、適宜の記憶媒体に格納することができる。

この発明により、コンピュータに文字情報取得プログラムをインストールすれば、文字データからより確実に文字列のカテゴリを判別することができる。

またこの発明は、文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、前記カテゴリ判別用文字の文字データ取得によって、第１カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第１カテゴリ判別処理ステップと、該第１カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第２カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第２カテゴリ判別処理ステップとを実行する文字情報取得方法とすることができる。

この発明により、文字データからより確実に文字列のカテゴリを判別する処理を実行することができる。

この発明により、文字データからより確実に文字列のカテゴリを判別することができる文字情報取得装置、文字情報取得プログラム、および文字情報取得方法を提供し、利用者の満足度を向上させることができる。

携帯端末の斜視図。携帯端末の構成を示すブロック図。マッチング用辞書データ、カテゴリ判別用辞書データの構成を説明する説明図。英語辞書データ、漢字読み方辞書データ、ローマ字表記対応データ、観念対応付けデータの構成を説明する説明図。文字情報取得プログラムによる文字情報取得処理のフローチャート。文字情報取得プログラムによる文字情報取得処理のフローチャート。ローマ字変換処理サブルーチンのフローチャート。文字認識する撮影画像や認識文字の説明図。「株式会社」の文字認識が困難な例を示す図。

この発明の一実施形態を以下図面と共に説明する。

図１は、携帯端末１の斜視図を示し、図２は、携帯端末１の構成のブロック図を示し、図３はマッチング用辞書データ２４、カテゴリ判別用辞書データ２５辞書データの構成図を示す。

携帯端末１は、図１に示すように、画像入力部３、操作部５、及び画面表示部７が設けられている。画像入力部３は、画像を撮像するデジタルカメラであり、操作部５は、押下操作されるボタンであり、画面表示部７は、画像を表示する液晶ディスプレイあるいは有機ＥＬディスプレイである。

図２に示すように、携帯端末１は、画像入力部３、操作部５、及び画面表示部７に加えて、ＣＰＵ１１、ＲＯＭ１２、およびＲＡＭ１３が、バス１６に接続して設けられている。

画像入力部３は、ＣＣＤカメラまたはＣＭＯＳカメラなどのデジタルカメラであり、バス１６に接続されている。画像入力部３が撮像して得た撮像画像は、デジタル画像データとしてＣＰＵ１１に送信される。このデジタル画像データは、最終的に別途の記憶装置（不揮発性メモリなど）に記憶しても良い。なお、画像入力部３は、ＣＰＵ１１から撮像信号を受けて撮像を開始する。ここで、前記画像データは、カラー画像やグレースケール画像やモノクロ２階調画像など、適宜の画像のデータとすることができる。

操作部５は、バス１６に接続されている。この操作部５は、利用者に押下操作された押下信号を、バス１６を介してＣＰＵ１１に送信する。

画面表示部７は、操作画面を表示する操作画面表示部７ａとしての機能と、文字認識した認識結果を表示する認識結果表示部７ｂとしての機能とを有している。この操作画面表示部７は、バス１６に接続されている。ＣＰＵ１１から画像データが送られてくると、この画像データの画像を操作画面表示部７ａまたは認識結果表示部７ｂに表示する。

ＣＰＵ１１は、ＲＯＭ１２に記憶されたプログラムに従ってＲＡＭ１３を一時記憶領域に使用して各種動作を行うプロセッサであり、各部を制御する制御機能２１と、文字情報取得機能２２を有している。

この文字情報取得機能２２は、文字列抽出処理部３１、文字抽出処理部３２、文字認識処理部３３、第１カテゴリ判別処理部３４、および第２カテゴリ判別処理部３５を有している。また、第２カテゴリ判別処理部３５は、ドメイン名抽出処理部３５ａ、ローマ字判定処理部３５ｂ、ローマ字変換処理部３５ｃ、および連続一致文字数算出処理部３５ｄから構成されている。

文字列抽出処理部３１は、画像データから文字列を抽出する処理を実行する。この文字列の抽出は、例えば画像データを２値化して射影データを取得し、この射影データから文字列と余白を区別する等、適宜の方法により実行する。具体的には、例えば名刺などの横書き文字に対して画素行別の黒画素数から上下方向のヒストグラムを算出し、所定数以上の黒画素の行が連続している範囲を文字列とする、あるいは葉書の宛名などの縦書き文字に対して画素列別の黒画素数から左右方向のヒストグラムを算出し、所定数以上の黒画素の列が連続している範囲を文字列とするなど、適宜の方法により実行する。

文字抽出処理部３２は、前記文字列から文字を抽出する処理を実行する。この文字の抽出は、横書き文字に対して画素列別の黒画素数から左右方向のヒストグラムを算出し、所定数以上の黒画素が連続している範囲を１文字とする、あるいは縦書き文字に対して画素行別の黒画素数から上下方向のヒストグラムを算出し、所定数以上の黒画素が連続している範囲を１文字とするなど、適宜の方法により実行する。

文字認識処理部３３は、マッチング用辞書データ２４のマッチング情報を用いてどの文字のマッチング情報と一致あるいは近似するか判別することで文字を認識する処理がある。

第１カテゴリ判別処理部３４は、カテゴリ判別用辞書データ２５を用いて文字列がどのカテゴリに属するかを判別する処理を実行する。

第２カテゴリ判別処理部３５は、上述した第１カテゴリ判定処理部３４における処理でカテゴリを判別できなかった文字列に対し後述する組織名カテゴリを判別する処理を実行する。

ここで、第２カテゴリ判別処理部３５のうち、ドメイン名抽出処理部３５ａは、後述するＥ−Ｍａｉｌカテゴリや、ＵＲＬカテゴリといった、電気通信用のアドレス情報カテゴリの文字列からドメイン名を抽出する処理を実行する。

ローマ字判定処理部３５ｂは、文字認識処理部３３の処理で認識された文字列がローマ字で構成されているか否かを判定する。
ローマ字変換処理部３５ｃは、文字認識処理部３３により認識された文字列が、ローマ字判定処理部３５ｂによって、ローマ字以外の文字を含んでいると判定された場合、ローマ字以外の文字列から、それに関連するローマ字文字列を作成する。
連続一致文字数算出処理部３５ｄは、異なる文字列同士で文字列の一致度合いを判定するものであり、連続して一致する文字数を算出して前記一致度合いを判定する。

ＲＯＭ１２は、文字情報取得プログラム２３、マッチング用辞書データ２４、カテゴリ判別用辞書データ２５、英語辞書データ２６、漢和読み方辞書データ２７、ローマ字表記対応データ２８、および観念対応付けデータ２９を記憶している。
マッチング用辞書データ２４は、図３（Ａ）に示すように、文字コード、マッチング情報、および対象カテゴリによって構成されている。

文字コードは、例えばＳｈｉｆｔ−ＪＩＳなどの適宜の方式の文字コードである。
マッチング情報は、文字の特徴データを文字別に記憶している。

対象カテゴリは、１つの文字に対して複数種類登録されている。具体的には、対象カテゴリとして、前記アドレス情報カテゴリとしての「Ｅ−Ｍａｉｌ」、「ＵＲＬ」の他、「ＴＥＬ」、「ＦＡＸ」、「部署」、「住所」等が登録されている。

このマッチング用辞書データ２４に記憶されているデータは、第１認識用カテゴリ文字部２４ａ、および第２認識用文字部２４ｂに区別可能に記憶されている。

第１認識用カテゴリ文字部２４ａは、カテゴリの判別に用いられる文字、すなわち、マッチング用辞書データ２４の対象カテゴリとして登録された「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「部署」、「住所」のいずれかで使用される文字で構成されている。

具体的には、対象カテゴリであることを示すキーワードとなる「メ」、「ー」、「ル」、「ホ」、「ム」、「ペ」、「ジ」、「電」、「話」、「フ」、「ァ」、「ッ」、「ク」、「ス」、「部」、「市」、「区」などの文字が含まれている。なお、この文字のうち「話」などの結合文字については、その部品となる偏（へん）や旁（つくり）を一文字とした「言」、「舌」などの部品文字も含むようにしてもよい。

第２認識用文字部２４ｂは、第１認識用カテゴリ文字部２４ａに入らない文字で構成されている。

なお、この第２認識用文字部２４ｂは、第１認識用カテゴリ文字部２４ｂを含まない構成としているが、第２認識用文字部２４ｂの一部を第１認識用カテゴリ文字部２４ａとする構成にしてもよい。

カテゴリ判別用辞書データ２５は、図３（Ｂ）に示すように、カテゴリ別の複数ファイルによって構成されており、各ファイルには、そのカテゴリとして判別する文字列が記憶されている。なお、カテゴリ判別用辞書データ２５に記憶する文字列は、文字コードの羅列としてもよい。

英語辞書データ２６は、図４（Ａ）に示すように、文字列例、および対象英単語によって構成されている。英語辞書データ２６では、英語とは異なる言語の文字列（例えば、日本語、中国語、ドイツ語、…など）に対応付けした形で英単語の文字列が記憶されている。

漢字読み方辞書データ２７は、図４（Ｂ）に示すように、文字列例および読み仮名によって構成されている。漢字読み方辞書データ２６では、漢字からなる文字列（漢字１文字で成立する単語および熟語を含む）と、その読みを示す読み仮名文字列とを対応付けて記憶している。この漢字読み方辞書データ２７では、１つの単語に対し、その音読み、訓読みに対応して、複数の読み仮名文字列を記憶している。

ローマ字表記対応データ２８は、図４（Ｃ）に示すように、マッチング情報、およびローマ字表記によって構成されている。ローマ字表記対応データ２８では、仮名文字と、その読みをローマ字表記で示した時の文字列とを対応付けて記憶している。このローマ字表記対応データ２８では、例えば、「し」を「ｓｈｉ」、「しゃ」を「ｓｈａ」と表記するヘボン式や、「し」を「ｓｉ」、「しゃ」を「ｓｙａ」と表記する日本式など、複数の方式に基づいたデータ構成となっている。

観念対応づけデータ２９は、図４（Ｄ）に示すように、マッチング情報、およびローマ字文字列によって構成されている。観念対応づけデータ２９では、予め該データ２９内に登録した登録文字列とローマ字文字列との観念的な関連を定義し、両者を対応づけて記憶している。例えば、ローマ字「ａ」、「ｂ」、…を見た時、一般的にこれらを「エー」、「ビー」、…と読むという観念がある。そこで、観念対応づけデータ２９では、仮名文字列の「エー」、「ビー」、…を、ローマ字「ａ」、「ｂ」、…と対応付けて記憶している。

また、観念対応づけデータ２９には、慣習的にローマ字文字列で構成された複数の略語が予め登録されており、この略語とそれが示す意味とを対応付けて記憶している。例えば、「システム」は「ｓｙｓ」という略語で示されることがあり、この略語「ｓｙｓ」を見れば、その表記が「システム」を意味していると理解できる。このような略語の意味に関する観念に基づき、観念対応づけデータ２９は、文字列「システム」とローマ字文字列「ｓｙｓ」とを対応付けて記憶している。

ＲＡＭ１３は、ＣＰＵ１１が各種制御や演算に使用するデータを一時記憶すると共に、画像ＲＡＭ１３に文字列画像などの画像を記憶する。

なお、携帯端末１には、無線通信を行う通信アンテナ、音声出力を行うスピーカ、および集音を行うマイク等も設けられている。これにより、携帯電話機として利用できるように構成されている。

また、図２に仮想線で示すように、ＣＰＵ１１とＲＯＭ１２は、１つのチップ１５に搭載して電子部品として構成してもよい。この場合、チップ１５を携帯端末１に備えれば、簡単に文字情報取得機能を追加することができる。

図５〜図７は、携帯端末１のＣＰＵ１１が文字情報取得プログラム２３に従って実行する文字情報取得処理のフローチャートであり、図８は文字認識する撮影画像や認識文字の説明図である。

まず事前準備として、ＣＰＵ１１は、利用者の操作入力に応じて名刺読取りモードなどの文字認識処理が選択されると、画像入力部３によって画像撮影が可能な状態とし、画面表示部７に図８（Ａ）に示す操作画面表示部７ａを表示する。

この操作画面表示部７ａには、文字認識を行う画面であることを示す認識画面表示部７１、画像入力部３（カメラ）によって撮影しているプレビュー画像を動画表示するプレビュー画像表示部７２、前画面に戻るための戻るボタン７３、認識処理を開始するための認識ボタン７４、およびサブメニューを表示するためのサブメニューボタン７５が設けられている。

利用者に認識ボタン７４が選択されると、ＣＰＵ１１は、画像入力部３による画像撮影を実行して文字画像を取得する（ステップＳ１）。
ＣＰＵ１１は、文字列抽出処理部３１による文字列抽出処理を実行し、文字画像から文字列を抽出する（ステップＳ２）。このとき、組織名表示部分の文字列、氏名表示部分の文字列、住所表示部分の文字列など、複数の文字列を取得する。

ＣＰＵ１１は、変数「ｉ」に「０」を代入して初期化し（ステップＳ３）、ｉ番目の抽出文字列について、文字認識処理部３３により第１文字認識処理を実行する（ステップＳ４）。この第１文字認識処理では、文字抽出処理部３２により文字列から抽出した各文字について、マッチング用辞書データ２４のうち第１認識用カテゴリ文字部２４ａのみを用いて文字認識を実行し、文字データを取得する。

なお、文字抽出処理部３２による文字抽出は、文字と文字の境界を抽出する処理に相当する。例えば、文字列画像について、文字部分が黒になるように２値化され、文字列に垂直方向に黒画素が射影され、その射影データの切れ目を文字と文字の境界の候補とする。

ＣＰＵ１１は、文字認識処理部３３により第２文字認識処理を実行する（ステップＳ５）。この第２字認識処理では、マッチング用辞書データ２４の全てのデータを用いて文字認識を実行し、文字データを取得する。

なお、この第２文字認識処理では、文字列から文字を抽出する際に、結合文字を複数の部品文字と誤認識しないように、文字の境界候補を検討し、第１文字認識処理よりも１文字を精度良く切り出す構成にしてもよい。この場合、１文字の文字長を認識し、該文字長単位で境界を認識するとよい。この文字長は、文字列方向の１文字の長さを指し、例えば１文字における文字列方向の画素数とすることができる。これにより、文字の認識精度をさらに向上することができる。

ＣＰＵ１１は、変数「ｉ」に１加算し（ステップＳ６）、「ｉ」が抽出文字列数に達するまで（ステップＳ７：Ｙｅｓ）、ステップＳ４に処理を戻して繰り返す。

「ｉ」が抽出文字列数に達すると（ステップＳ７：Ｎｏ）、ＣＰＵ１１は、変数「ｉ」に「０」を代入して初期化し（ステップＳ８）、ｉ番目の抽出文字列について第１カテゴリ判別処理部３４により第１カテゴリ判別処理を実行する（ステップＳ９）。

この第１カテゴリ判別処理は、ステップＳ４で認識した文字の並びが、カテゴリ判別用辞書データ２５に記憶されている各カテゴリの文字の並びと一致するか判別することにより実行する。一致すれば、そのカテゴリであると判別する。

例えば、ステップＳ９では、ＣＰＵ１１が、例えば、文字列「Ｅ−Ｍａｉｌ」、「ＵＲＬ」を認識することにより、アドレス情報カテゴリを判別する。

なお、ここで言うアドレス情報とは、電気通信において個々の電子計算機（通信端末）を識別するために予め割り当てられたアドレス情報であり、少なくともローマ字を含んでいるものとする。また、アドレス情報カテゴリは、Ｅ−ｍａｉｌカテゴリと、ＵＲＬカテゴリとに分けられ、ステップＳ９の第１カテゴリ判別処理では、文字列「Ｅ−ｍａｉｌ」の認識により、Ｅ−ｍａｉｌカテゴリが判別され、文字列「ＵＲＬ」の認識により、ＵＲＬカテゴリが判別される。

ＣＰＵ１１は、変数「ｉ」に１加算し（ステップＳ１０）、「ｉ」が抽出文字列数に達するまで（ステップＳ１１：Ｙｅｓ）、ステップＳ９に処理を戻して繰り返す。「ｉ」が抽出文字列数に達すれば（ステップＳ１１：Ｎｏ）、ＣＰＵ１１は、図６に示すステップＳ１２に処理を進め、ステップＳ９の第１カテゴリ判別処理において、カテゴリが判別できなかったカテゴリ不明文字列が存在するか否かの判定を行う。

ここで、ＣＰＵ１１は、全ての文字列についてカテゴリ判別が完了し、カテゴリ不明文字列が存在しないと判定すれば（ステップＳ１２：Ｎｏ）、図８（Ｂ）に示す認識結果表示部７ｂを画面表示部７に表示して処理を終了する。
カテゴリ不明文字列が存在していれば（ステップＳ１２：Ｙｅｓ）、ＣＰＵ１１は、カテゴリ不明文字列について、第２カテゴリ判別処理部３５により第２カテゴリ判別処理を実行する。

ＣＰＵ１１は、まず、ステップＳ９にて判別したカテゴリのうち、アドレス情報カテゴリについて、その構成文字からドメイン名文字列を抽出する（ステップＳ１３）。

そして、ＣＰＵ１１は、前記カテゴリ不明文字列の文字識別を判定することで、該文字列がローマ字のみによって構成されているか否かの判定を行う（ステップＳ１４）。ここで、カテゴリ不明文字列がローマ字のみによって構成されていなければ（ステップＳ１４：Ｎｏ）、図７に示すローマ字変換処理サブルーチンを実行する（ステップＳ１５）。

図７に示すローマ字変換処理サブルーチンにおいて、ＣＰＵ１１は、まず英語辞書データ２６から、文字列に対応する英単語を検索し、該検索により抽出した英単語の文字列からローマ字文字列に変換する（ステップＳ１５１）。そして、この時、ＣＰＵ１１は、変換後文字列をＲＡＭ１３に記憶させる。

次に、ＣＰＵ１１は、カテゴリ不明文字列が漢字および／または仮名文字を含むか否かを判定する（ステップＳ１５２）。ここで、カテゴリ不明文字列が、漢字および／または仮名文字を含んでいれば（ステップＳ１５２：Ｙｅｓ）、ＣＰＵ１１は、漢字読み方辞書データ２７およびローマ字表記対応データ２８からローマ字文字列に変換する（ステップＳ１５３）。

ここで、ステップＳ１５３において、カテゴリ不明文字列に漢字を含んでいれば、ＣＰＵ１１は、まず、漢字読み方辞書データ２７から対応する読み仮名文字列を検索、抽出する。そして、抽出した読み仮名文字列を構成する各文字に対応するローマ字文字列を、ローマ字表記対応データ２８から検索、抽出することにより、ローマ字文字列に変換する。

また、文字列に仮名文字を含んでいれば、ＣＰＵ１１は、この仮名文字列を構成する各文字に対応するローマ字文字列を、ローマ字表記対応データ２８から検索、抽出することにより、ローマ文字列に変換する。

ＣＰＵ１１は、ステップＳ１５３にてローマ字文字列に変換すると、変換後文字列をＲＡＭ１３に記憶させ、ステップＳ１５４に処理を進める。

一方、カテゴリ不明文字列の言語が漢字および／または仮名文字を含んでいなければ（ステップＳ１５２：Ｎｏ）、ＣＰＵ１１は、ステップＳ１５３の処理を実行することなく、ステップＳ１５４に処理を進める。

ＣＰＵ１１は、ステップＳ１５４において、カテゴリ不明文字列の中から、観念対応付けデータ２９に記憶された登録文字列を検索し、カテゴリ不明文字列内に、前記登録文字列を含むか否かを判定する。ここで、登録文字列を含んでいれば（ステップＳ１５４：Ｙｅｓ）、ＣＰＵ１１は、観念対応付けデータ２９から、対応するローマ字文字列を抽出することにより、ローマ字文字列に変換する（ステップＳ１５５）。

ＣＰＵ１１は、ステップＳ１５５にてローマ字文字列に変換すると、変換後文字列をＲＡＭ１３に記憶させ、ローマ字変換処理サブルーチンを終了する。

一方、カテゴリ不明文字列に登録文字列を含んでいなければ（ステップＳ１５４：Ｎｏ）、ＣＰＵ１１は、ステップＳ１５５の処理を実行することなく、ローマ字変換処理サブルーチンを終了する。

図６に戻り、ＣＰＵ１１は、ステップＳ１５のローマ字変換処理サブルーチンで変換した変換後文字列と、ステップＳ９において判別したアドレス情報カテゴリの文字列との比較によって、文字構成の一致度合いを判定するための連続一致文字数算出処理を実行する（ステップＳ１６）。

ステップＳ１６では、ＣＰＵ１１が、ステップＳ１３により抽出したドメイン名文字列と、ステップＳ１５にて変換した変換後文字列とを比較し、連続一致文字数を算出する。

また、ステップＳ１４において、カテゴリ不明文字列がローマ字のみによって構成された場合には（ステップＳ１４：Ｙｅｓ）、ＣＰＵ１１は、ステップＳ１５のローマ字変換処理サブルーチンを実行することなく、ステップＳ１６に処理を進める。

そして、ステップＳ１６では、カテゴリ不明文字列と、前記ドメイン名文字列とを直接比較し、連続一致文字数を算出する。

ＣＰＵ１１は、連続一致文字数が、予め設定された閾値以上であり、かつ最大であった文字列（ステップＳ１５の処理により変換されたものについては変換前の文字列）のカテゴリを、会社、学校などの組織の名前が記載されるカテゴリ（組織名カテゴリという）であると判定する（ステップＳ１７）。そして、ＣＰＵ１１は、図８（Ｂ）に示す認識結果表示部７ｂを画面表示部７に表示して処理を終了する。

この文字情報取得処理により、図８に図示した例であれば、次のように処理される。
まず、文字列抽出処理（ステップＳ２）により、図８（Ｂ）に示すように、（１）〜（８）の各文字列が認識される。

この（１）〜（８）の各文字列に対して順番に第１文字認識処理（ステップＳ４）を実行することで、第１認識用カテゴリ文字部２４ａで文字認識できるカテゴリの文字認識ができる。すなわち、（２）の部、（４）の市、区、（５）の電話、（６）のＦＡＸ、および、前記アドレス情報を示す（７）のＥ−ｍａｉｌ、および（８）のＵＲＬを認識できる。そして、このような文字列の認識により、第１カテゴリ判別処理（ステップＳ９）において、（２）（４）（５）（６）（７）（８）のカテゴリを判別することができる。

このうち、（２）の部については、文字列の末尾に文字「部」を認識できた時に、第１カテゴリ判別処理では、（２）についてこれを部署カテゴリと判別することが可能になる。

一方、図８（Ｂ）の（１）（３）は、カテゴリ判別用辞書データ２５に記憶された対象カテゴリの文字列を含んでいないため、（１）（３）はカテゴリ不明とされ、ステップＳ１１〜Ｓ１６の第２カテゴリ判別処理を実行して組織名（ここでは、会社名）カテゴリ判別処理を行う。

ここで、名刺の読取りにおいては、Ｅ−Ｍａｉｌアドレスの文字列やＵＲＬの文字列といった、前記アドレス情報を表す文字列は、おおよそ、ローマ字、数字、記号などの欧米系の文字で構成されている。さらに、前記アドレス情報を表す文字列においては、一般的に、Ｅ−Ｍａｉｌアドレスの「＠」の後ろや、ＵＲＬの「ＷＷＷ．」の後ろに配置されるいわゆるドメイン名の文字列内に、会社名などの組織名に関連する文字列が配置されることが多い。

そこで、図８に示した例であれば、（７）の文字列に対して、ドメイン名文字列抽出処理（ステップＳ１３）を実行する。具体的には、まず、（７）の文字列から「＠」を検索し、その後ろに配置された文字列「ｍｘ．ｊｐ．ｏｍ．ｓｏｆｔ．ｃｏｍ」をドメイン名文字列として抽出する。また、（８）の文字列から「ＷＷＷ．」を検索し、その後ろに配置された文字列「ｏｍ．ｓｏｆｔｗａｒｅ．ｃｏ．ｊｐ」を抽出する。

なお、ステップＳ１３では、同時にドメイン名文字列から「．」などの記号を除去して、ローマ字のみからなる文字列を形成するとともに、ドメイン名末尾の「ｃｏｍ」や「ｃｏ」といった組織コードや、「ｊｐ」といったゾーンコードをさらに除去し、組織名とは直接関連性のない文字列を除去する。その結果、（７）から、ドメイン名文字列として、「ｍｘｊｐｏｍｓｏｆｔ」が抽出され、（８）からは、「ｏｍｓｏｆｔｗａｒｅ」が抽出される。

次に、カテゴリ不明とされている（１）（３）の文字列「オーエムソフトウェア」、「御室太郎」は、ローマ字以外の文字列であると判定し（ステップＳ１４）、ローマ字変換処理サブルーチンを実行する（ステップＳ１５）。

ここで、（１）の文字列については、英語辞書データ２６により、「ソフトウェア」について、ローマ字文字列「ｓｏｆｔｗａｒｅ」に変換する（ステップＳ１５１）。

そして、ローマ字表記対応データ２８により、ローマ文字列「ｏｅｍｕｓｏｆｕｔｏｕｅａ」に変換する（ステップＳ１５３）。

また、「オーエム」については、「オー」と「エム」とに分離し、観念対応付けデータ２９内を検索することにより、それぞれローマ字文字列「ｏｍ」に変換する。そして、「ソフトウェア」についても、観念対応付けデータ２９内を検索することにより、ローマ字文字列「ｓｏｆｔ」に変換する（ステップＳ１５５）。

そして、このようにして様々な方法により作成したローマ字文字列の組み合わせを変えることにより、「オーエムソフトウェア」について、「ｏｅｍｕｓｏｆｕｔｏｕｅａ」、「ｏｍｓｏｆｔｗａｒｅ」、「ｏｍｓｏｆｔ」、…といった複数のローマ字文字列を作成する。

さらに、（３）の文字列についても、（１）の文字列と同様の方法により、「ｏｍｕｒｏｔａｒｏｕ」、「ｏｎｍｕｒｏｔａｒｏｕ」、「ｇｏｍｕｒｏｔａｒｏｕ」、…といった複数のローマ字文字列を作成する。

このようにして作成した各ローマ字文字列を、変換後文字列として、ステップＳ１３にて抽出した文字列「ｍｘｊｐｏｍｓｏｆｔ」、および「ｏｍｓｏｆｔｗａｒｅ」とを比較し、連続一致文字数を算出する（ステップＳ１６）。

例えば、（７）から抽出した「ｍｘｊｐｏｍｓｏｆｔ」と（１）の「オーエムソフトウェア」を変換した「ｏｍｓｏｆｔ」とを比較すると、連続一致文字数は６文字であり、（３）の「御室太郎」を変換した「ｏｍｕｒｏｔａｒｏｕ」などと比較すると、連続一致文字数は２文字である。

また、（８）から抽出した「ｏｍｓｏｆｔｗａｒｅ」と「オーエムソフトウェア」を変換した「ｏｍｓｏｆｔｗａｒｅ」とを比較すると、連続一致文字数は１０文字であり、「御室太郎」を変換した「ｏｍｕｒｏｔａｒｏｕ」などと比較すると、連続一致文字数は２文字である。

ここで、ＲＯＭ１２（図２参照）には、文字数の一致度合いを評価するための閾値が記憶されており、組織名カテゴリ判別処理（ステップＳ１７）では、連続一致文字数と前記閾値とを比較する処理を実行する。

ここで、前記閾値以上であった変換後文字列については、その一致度合いが高いことから、組織（会社）名に関連している可能性が高いものとして、組織名関連候補とする。例えば、前記閾値が３文字であった場合、組織名関連候補としては、「ｏｍｓｏｆｔ」、「ｏｍｓｏｆｔｗａｒｅ」が挙げられることになる。この場合、組織名カテゴリ判別処理では、組織名関連候補となっている文字列の変換前の文字列「オーエムソフトウェア」を組織名であると判定する。これにより、図８（Ｂ）の（１）に対して組織名カテゴリの判別ができる。

すなわち、図８に図示した例のように、組織名の文字列に、「株式会社」など、組織名を示すキーワードが文字列に含まれていない場合や、前記キーワードが含まれているものの、その認識が困難な場合であっても、組織名に関連する文字列が含まれている可能性が高い（７）のＥ−Ｍａｉｌアドレスおよび／または（８）のＵＲＬのドメイン名文字列に基づいて、組織名カテゴリを判別することができる。

そして、ドメイン名文字列に基づいたカテゴリの判別により、組織名の文字列として使用される可能性がある文字列の組合わせを予め記憶させるといった構成が不要になる。このため、組織名カテゴリの判別漏れが発生する可能性を低減でき、換言すれば、画像データからより確実に組織名カテゴリを判別することができる。

以上の構成および動作により、文字データからより確実に文字列のカテゴリを判別することができる。

またカテゴリ不明文字列から組織名カテゴリを判別するにあたり、Ｅ−Ｍａｉｌアドレス、ＵＲＬの双方からドメイン名文字列を抽出可能とすることにより、例えば、名刺などの印刷用媒体にＥ−Ｍａｉｌアドレスが記載されていなかった場合でも、ＵＲＬのみに基づいて組織名カテゴリを判別することが可能になる。

一般的に、ＵＲＬについては、顧客などに覚えてもらい易く、かつ電気通信回線（インターネット）における検索を行い易くするために、ドメイン名の文字列には、組織名と関連性の強い文字列を採用する傾向がある。従って、ＵＲＬのドメイン名文字列との比較のほうが、Ｅ−Ｍａｉｌのドメイン名文字列との比較よりも、判別精度を向上させることが可能になる。

また、Ｅ−Ｍａｉｌアドレス、ＵＲＬの双方からドメイン名文字列を抽出可能とすることにより、Ｅ−Ｍａｉｌアドレス、ＵＲＬのいずれかの認識が困難であった場合でも、片側の認識によって組織名カテゴリの判別が可能になる。

また、カテゴリ不明文字列から組織名カテゴリを判別可能としたことにより、残りのカテゴリ不明文字列数が１であった場合には、その残りの文字列のカテゴリを、カテゴリ判別のための有力なキーワードを設定しにくい氏名カテゴリと推定することができる。このため、カテゴリ不明数の削減を実現でき、その結果、カテゴリ判別の精度向上を図ることができる。

また、カテゴリ不明文字列が、英語以外の非英語文字列を含み、その文字列が、漢字および／または仮名文字を組合わせた文字列であったとしても、漢字読み方辞典２７や、文字列の読み方を示すローマ字表記対応データ２８によりローマ字も文字列に変換することにより、変換後文字列と、おおよそローマ字、数字、記号などで構成されるアドレス情報の文字列（例えば、ドメイン名文字列）との比較が容易になり、カテゴリ不明文字列に対するカテゴリ判別を実行することができる。

例えば、カテゴリ不明文字列が「立石」または「タテイシ」であり、Ｅ−Ｍａｉｌカテゴリの文字列が「Ｅ−Ｍａｉｌ：＊＊＊＊＠ｔａｔｅｉｓｈｉ．ｃｏ．ｊｐ」である場合を考える。この場合、不明カテゴリ文字列の文字列からローマ字文字列「ｔａｔｅｉｓｈｉ」に変換することにより、文字列「立石」や「タテイシ」が組織名カテゴリであると判別することができる。

また、カテゴリ不明文字列にて非英語文字列が使用される一方で、アドレス情報カテゴリの文字列に英語が使用される場合であっても、英語辞典データ２６から検索、抽出したローマ字文字列に変換することにより、カテゴリ不明文字列に対するカテゴリ判別を実行することができる。

例えば、カテゴリ不明文字列が「ＡＢＣ電気」であり、Ｅ−Ｍａｉｌカテゴリの文字列が「Ｅ−Ｍａｉｌ：＊＊＊＊＠ａｂｃ．ｅｌｅｃｔｒｏｎｉｃｓ．ｃｏ．ｊｐ」である場合を考える。この場合、「ＡＢＣ」を小文字「ａｂｃ」に変換しつつ、英語辞典データ２６により、「電気」をローマ字文字列「ｅｌｅｃｔｒｏｎｉｃｓ」に変換することで、文字列「ＡＢＣ電気」が組織名カテゴリであると判別することができる。

また、カテゴリ不明文字列が、上述した英語辞典データ２６、漢字読み方辞典２７、およびローマ字表記対応データ２８を用いた方法では変換が困難なものを含んでいる場合でも、ローマ字の読み方の観念や、ローマ字を用いた略語の意味に関する観念などに基づく文字列であれば、観念対応付けデータ２９からローマ字文字列を作成することができる。

このため、変換後文字列のバリエーションを増やすことができ、その結果、カテゴリ不明文字列のカテゴリ判別漏れを削減することができる。

例えば、カテゴリ不明文字列が「エーエフタテイシシステム」であり、Ｅ−Ｍａｉｌカテゴリの文字列が「Ｅ−Ｍａｉｌ：＊＊＊＊＠ａｆｔａｔｅｉｓｈｉｓｙｓ．ｃｏ．ｊｐ」であった場合を考える。この場合、まず「エー」、「エフ」について、これらは、ローマ字「ａ」、「ｆ」に割り当てられた読み方を示すものであるため、観念対応付けデータ２９からローマ字文字列「ａｆ」に変換することができる。

また、「タテイシ」については、ローマ字表記対応データ２８から、ローマ字文字列「ｔａｔｅｉｓｈｉ」に変換することができる。

そして、システムについては、観念対応付けデータ２９から対応する略語「ｓｙｓ」を検索、抽出することで、ローマ字文字列「ｓｙｓ」に変換することができる。

この場合、以上のローマ字文字列を適宜組合わせることにより、「エーエフタテイシシステム」については、変換後文字列として「ａｆｔａｔｅｉｓｈｉｓｙｓ」を作成することができ、「ａｆｔａｔｅｉｓｈｉｓｙｓ」から、文字列「エーエフタテイシシステム」が組織名カテゴリであると判別することができる。

ところで、カテゴリ不明文字列と、アドレス情報カテゴリの文字列とを比較するにあたり、本実施では、ステップＳ１６において、双方の連続一致文字数に基づき一致度合いを判定しているが、これ以外にも、例えば、単に一致文字数に基づいて一致度合いを判定することも考えられる。しかしながら、この場合、後述するように、比較対象の文字列内の文字数が多くなると、カテゴリの誤判別を増大させる虞がある。

例えば、大企業などで多数の部署が存在する場合、Ｅ−Ｍａｉｌアドレスでは、図８に示した例のように、組織（会社）名の前に、「ｍｘ．ｊｐ」といった文字列を配置することによって、部署区分を把握できるようにすることがある。ここで、単に一致文字数のみに基づいて一致度合いを判定しようとすると、図８に示した例の場合、組織名とは関係のない「ｍ」、「ｘ」、「ｊ」、「ｐ」のいずれかが一致した時も一致数として計数されてしまうことになる。

従って、一致数の閾値を小さく設定し過ぎてしまうと、「ｍ」、「ｘ」、「ｊ」、「ｐ」のいずれかを含む、組織名カテゴリとは異なる文字列が存在した場合、その文字列が組織名カテゴリであると誤判別する虞がある。

また、特に日本語の場合、その読みをローマ字表記した時には、母音を示すローマ字が他の言語よりも多くなる傾向にある。このため、単に一致文字数のみに基づいて一致度合いの判定を行うと、カテゴリの誤判別を招く虞がある。

例えば、文字列「田辺」と文字列「高部」とを比較した場合、その読みをローマ字表記した時には、それぞれ「ｔａｎａｂｅ」、「ｔａｋａｂｅ」となるが、母音の数がいずれも６文字中３文字とその割合が多い。このため、一致文字数が５文字と多くなる。

この場合、閾値を、例えば４など小さい値に設定すると、いずれが判別対象カテゴリの文字列なのかを正確に判別できず、その結果、カテゴリの誤判別を招いてしまう虞がある。

特に、本実施例のように、１つの文字列に対して複数のローマ字文字列に変換し、文字列候補を多数抽出することにより、カテゴリ不明数の削減を図ろうとするものである場合、閾値が小さ過ぎると、多数の変換後文字列が閾値以上となってしまい、カテゴリの誤判別が生じ易くなってしまう。

そこで、本実施例では、上述したように、文字列の連続一致文字数に基づいた組織名カテゴリ判別処理を実行している。この場合、文字列「田辺」と文字列「高部」とを比較した時には、その読みを示すローマ字表記の連続一致文字数は「ａｂｅ」の３文字であり、閾値を例えば４といった小さい値に設定したとしても、「田辺」と「高部」は一致しないものと正確に判定することができる。つまり、この場合、カテゴリの誤判別を削減することができる。

そして、閾値を小さな値に抑えることが可能になったことで、上述した実施例のように多数のローマ字文字列を作成した場合には、判別精度の著しい低下を招くことなく、多数の変換後文字列をドメイン名文字列と比較することができ、その結果、カテゴリの判別漏れを削減することができる。

また、カテゴリに関連する文字列（例えば、「オーエムソフトウェア」など）に、カテゴリとは無関係な文字列（例えば、「ＩＳＯ９００１取得」など）が連結されていた場合でも、連続一致文字数に基づいた一致度合いの判定により、カテゴリ判別を確実に行うことができる。

ところで、上述した実施例では、アドレス情報のドメイン名の文字列に基づいて、組織名カテゴリを判別することとしたが、本発明は必ずしもこれに限定されるものではない。例えば、Ｅ−Ｍａｉｌアドレスの「＠」の前の文字列に基づいて、氏名カテゴリを判別する構成としてもよい。この場合、第２カテゴリ判別処理部３５は、ドメイン名抽出処理部３５ａの代わりに、「＠」の前の文字列を抽出する抽出処理部を備えることになる。

図８に示した例では、（７）から「＠」を検索することにより、前記抽出処理部が、「＠」の前の文字列「ｏｍｕｒｏｔａｒｏ」を抽出する。そして、このようにして抽出した文字列と、カテゴリ不明文字列である、「オーエムソフトウェア」および「御室太郎」とを比較することで、結果として、文字列「御室太郎」のが氏名カテゴリであると判別することができる。

また、この場合、カテゴリ不明文字列から氏名カテゴリを判別可能としたことにより、残りのカテゴリ不明文字列数が１であった場合には、その残りの文字列のカテゴリを、組織名カテゴリと推定することができる。このため、カテゴリ不明数の削減を実現でき、その結果、カテゴリ判別の精度向上を図ることができる。

また、上述した実施例では、文字列「Ｅ−Ｍａｉｌ」、「ＵＲＬ」を認識した時には、カテゴリ判別用辞書データ２５を用いることにより、Ｅ−Ｍａｉｌカテゴリや、ＵＲＬカテゴリを判別することとしたが、本発明は、必ずしもこれに限定されない。例えば、「＠」の認識に基づいて、Ｅ−Ｍａｉｌカテゴリを判別したり、「ＷＷＷ．」の認識に基づいて、ＵＲＬカテゴリを判別したりするようにしてもよい。

なお、文字情報取得プログラム２３は、インターネットなどの電気通信回線に接続されたサーバの記憶手段に記憶しておき、電気通信回線を通じてダウンロード可能とする、あるいは電気通信回線を通じてＡＳＰ（Application Service Provider）のサービスとして利用可能にする構成とすることも可能である。この場合、通信負荷がかかるが、サーバの演算処理の負荷を軽減することができる。

この発明の構成と、上述の実施形態との対応において、
この発明の文字情報取得装置およびコンピュータは、実施形態の携帯端末１に対応し、
以下同様に、
文字データ取得手段は、ステップＳ１〜Ｓ７を実行するＣＰＵ１１に対応し、
カテゴリ判別用文字は、第１認識用カテゴリ文字部２４ａに対応し、
マッチングデータは、マッチング用辞書データ２４に対応し、
記憶手段は、ＲＯＭ１２に対応し、
第１カテゴリ判別処理および第１カテゴリ判別処理ステップは、ステップＳ９に対応し、
第２カテゴリ判別処理および第２カテゴリ判別処理ステップは、ステップＳ１３〜Ｓ１７に対応し、
カテゴリ判別処理手段は、ステップＳ９、Ｓ１３〜Ｓ１７を実行するＣＰＵ１１に対応するが、
この発明は、上述の実施形態の構成のみに限定されるものではなく、多くの実施の形態を得ることができる。

この発明は、文字を認識する装置に利用することができ、特に、名刺の読取り、葉書や封筒の宛名の読取りなど、ある程度記載項目（カテゴリ）が定まっている文字表示媒体から文字を認識し、文字データを取得する装置に利用することができる。

またこの発明は、Ｅ−Ｍａｉｌ、インターネットなどの使用により、文字データを含んだ電子データを取得する携帯電話機やパーソナルコンピュータなどの情報処理端末装置に利用することができる。この情報処理端末装置では、例えば、Ｅ−Ｍａｉｌの文面の冒頭（ヘッダ部）の文字データや、末尾の署名欄（シグネチャ）などの文字データを取得することにより、氏名、組織名、住所、電話番号、Ｅ−Ｍａｉｌアドレス、ＵＲＬなどの各種文字情報を取得することができる。

１…携帯端末、１１…ＣＰＵ、１２…ＲＯＭ、２３…文字情報取得プログラム、２４…マッチング用辞書データ、２４ａ…第１認識用カテゴリ文字部、２６…英語辞書データ、２７…漢字読み方辞書データ、２８…ローマ字表記対応データ、２９…観念対応付けデータ

Claims

情報取得対象データから文字データを取得する文字データ取得手段と、
前記文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含んだマッチングデータを記憶する記憶手段とを備え、
前記カテゴリ判別用文字の文字データ取得により、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第１カテゴリ判別処理と、
該第１カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、他の文字列に対しカテゴリ判別を実行する第２カテゴリ判別処理とを実行するカテゴリ判別処理手段を備えた
文字情報取得装置。
前記第２カテゴリ判別処理は、
前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、
非英語文字列を含む場合に、該文字列を、その読み方を示すローマ字表記に変換し、
該変換により作成した変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成である
請求項１記載の文字情報取得装置。
前記記憶手段は、
英語辞書データを記憶しており、
前記第２カテゴリ判別処理は、
前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、
非英語文字列を含む場合に、該文字列からなる単語に対応する英単語を、前記英語辞書データから検索し、該検索により抽出した前記英単語の文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成である
請求項１記載の文字情報取得装置。
前記記憶手段は、
予め登録した登録文字列とローマ字文字列との観念的な関連を定義して、両者を対応づけた観念対応付けデータを記憶しており、
前記第２カテゴリ判別処理は、
前記他の文字列において、前記登録文字列を含むか否かを判定するとともに、
前記登録文字列を含む場合に、該文字列に対応するローマ字文字列を、前記観念対応付けデータから抽出し、抽出した前記ローマ字文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成である
請求項１記載の文字情報取得装置。
前記第２カテゴリ判別処理は、
カテゴリ判別の際に、連続して一致する文字数を算出し、該算出結果に基づいて、前記他の文字列に対しカテゴリ判別を実行する構成である
請求項１から４のいずれか１つに記載の文字情報取得装置。
文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、
文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、
前記カテゴリ判別用文字の文字データ取得によって、第１カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第１カテゴリ判別処理ステップと、
該第１カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第２カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第２カテゴリ判別処理ステップとをコンピュータに実行させる
文字情報取得プログラム。
文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、
文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、
前記カテゴリ判別用文字の文字データ取得によって、第１カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第１カテゴリ判別処理ステップと、
該第１カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第２カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第２カテゴリ判別処理ステップとを実行する
文字情報取得方法。