JP2010218043A - 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法 - Google Patents
文字情報取得装置、文字情報取得プログラム、および文字情報取得方法 Download PDFInfo
- Publication number
- JP2010218043A JP2010218043A JP2009061772A JP2009061772A JP2010218043A JP 2010218043 A JP2010218043 A JP 2010218043A JP 2009061772 A JP2009061772 A JP 2009061772A JP 2009061772 A JP2009061772 A JP 2009061772A JP 2010218043 A JP2010218043 A JP 2010218043A
- Authority
- JP
- Japan
- Prior art keywords
- character
- category
- character string
- data
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】第1認識用カテゴリ文字部24aに記憶している文字の文字データ取得により(ステップS4)、文字データ内の文字列から、電気通信用に予め割り当てられたE−Mailカテゴリ、URLカテゴリを判別する第1カテゴリ判別処理(ステップS9)と、該第1カテゴリ判別処理により判別したE−Mailカテゴリ、URLカテゴリのドメイン名文字列に基づいて、カテゴリ不明文字列に対し組織名カテゴリ判別を実行する第2カテゴリ判別処理(ステップS13〜S17)を実行する。
【選択図】図6
Description
また、前記文字データ取得手段は、例えば、E−Mailなどのテキストデータから文字データを取得する手段で構成することができる。
また、前記アドレス構成文字列は、E−Mailアドレスの「@」の前の文字列により構成することができる。
これにより、他の文字列にて非英語文字列が使用される一方で、アドレス情報カテゴリの文字列に英語が使用される場合であっても、英語辞典データから検索、抽出した変換後文字列と比較することで、前記他の文字列に対するカテゴリ判別を実行することができる。
このため、変換後文字列のバリエーションを増やすことができ、その結果、他の文字列のカテゴリ判別漏れを削減することができる。
これにより、一致度合いを評価するための一致数の閾値を小さな値に設定したとしても、一致度合いの正確な判定を行うことができ、その結果、カテゴリの誤判別を削減することができる。
そして、閾値を小さな値に抑えることが可能になったことで、判別精度の著しい低下を招くことなく、多数の文字列をアドレス構成文字列と比較することができ、その結果、カテゴリの判別漏れを削減することができる。
また、カテゴリに関連する文字列に、カテゴリとは無関係な文字列が連結されていた場合でも、連続一致文字数に基づいた一致度合いの判定により、カテゴリ判別を確実に行うことができる。
ローマ字変換処理部35cは、文字認識処理部33により認識された文字列が、ローマ字判定処理部35bによって、ローマ字以外の文字を含んでいると判定された場合、ローマ字以外の文字列から、それに関連するローマ字文字列を作成する。
連続一致文字数算出処理部35dは、異なる文字列同士で文字列の一致度合いを判定するものであり、連続して一致する文字数を算出して前記一致度合いを判定する。
マッチング用辞書データ24は、図3(A)に示すように、文字コード、マッチング情報、および対象カテゴリによって構成されている。
マッチング情報は、文字の特徴データを文字別に記憶している。
CPU11は、文字列抽出処理部31による文字列抽出処理を実行し、文字画像から文字列を抽出する(ステップS2)。このとき、組織名表示部分の文字列、氏名表示部分の文字列、住所表示部分の文字列など、複数の文字列を取得する。
カテゴリ不明文字列が存在していれば(ステップS12:Yes)、CPU11は、カテゴリ不明文字列について、第2カテゴリ判別処理部35により第2カテゴリ判別処理を実行する。
まず、文字列抽出処理(ステップS2)により、図8(B)に示すように、(1)〜(8)の各文字列が認識される。
この発明の文字情報取得装置およびコンピュータは、実施形態の携帯端末1に対応し、
以下同様に、
文字データ取得手段は、ステップS1〜S7を実行するCPU11に対応し、
カテゴリ判別用文字は、第1認識用カテゴリ文字部24aに対応し、
マッチングデータは、マッチング用辞書データ24に対応し、
記憶手段は、ROM12に対応し、
第1カテゴリ判別処理および第1カテゴリ判別処理ステップは、ステップS9に対応し、
第2カテゴリ判別処理および第2カテゴリ判別処理ステップは、ステップS13〜S17に対応し、
カテゴリ判別処理手段は、ステップS9、S13〜S17を実行するCPU11に対応するが、
この発明は、上述の実施形態の構成のみに限定されるものではなく、多くの実施の形態を得ることができる。
Claims (7)
- 情報取得対象データから文字データを取得する文字データ取得手段と、
前記文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含んだマッチングデータを記憶する記憶手段とを備え、
前記カテゴリ判別用文字の文字データ取得により、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第1カテゴリ判別処理と、
該第1カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、他の文字列に対しカテゴリ判別を実行する第2カテゴリ判別処理とを実行するカテゴリ判別処理手段を備えた
文字情報取得装置。 - 前記第2カテゴリ判別処理は、
前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、
非英語文字列を含む場合に、該文字列を、その読み方を示すローマ字表記に変換し、
該変換により作成した変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成である
請求項1記載の文字情報取得装置。 - 前記記憶手段は、
英語辞書データを記憶しており、
前記第2カテゴリ判別処理は、
前記他の文字列において、英語以外の非英語文字列を含むか否かを判定するとともに、
非英語文字列を含む場合に、該文字列からなる単語に対応する英単語を、前記英語辞書データから検索し、該検索により抽出した前記英単語の文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成である
請求項1記載の文字情報取得装置。 - 前記記憶手段は、
予め登録した登録文字列とローマ字文字列との観念的な関連を定義して、両者を対応づけた観念対応付けデータを記憶しており、
前記第2カテゴリ判別処理は、
前記他の文字列において、前記登録文字列を含むか否かを判定するとともに、
前記登録文字列を含む場合に、該文字列に対応するローマ字文字列を、前記観念対応付けデータから抽出し、抽出した前記ローマ字文字列を変換後文字列として、該変換後文字列を、前記アドレス構成文字列と比較することにより、変換前の前記他の文字列に対しカテゴリ判別を実行する構成である
請求項1記載の文字情報取得装置。 - 前記第2カテゴリ判別処理は、
カテゴリ判別の際に、連続して一致する文字数を算出し、該算出結果に基づいて、前記他の文字列に対しカテゴリ判別を実行する構成である
請求項1から4のいずれか1つに記載の文字情報取得装置。 - 文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、
文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、
前記カテゴリ判別用文字の文字データ取得によって、第1カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第1カテゴリ判別処理ステップと、
該第1カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第2カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第2カテゴリ判別処理ステップとをコンピュータに実行させる
文字情報取得プログラム。 - 文字データ内の文字列のカテゴリ判別に用いられるカテゴリ判別用文字を含むように構成されたマッチングデータを記憶手段に記憶しておき、
文字データ取得手段により情報取得対象データから文字データを取得する文字データ取得ステップと、
前記カテゴリ判別用文字の文字データ取得によって、第1カテゴリ判別処理手段で、前記文字データ内の文字列から、電気通信用に予め割り当てられたアドレス情報を示すアドレス情報カテゴリを判別する第1カテゴリ判別処理ステップと、
該第1カテゴリ判別処理により判別した前記アドレス情報カテゴリのアドレス構成文字列に基づいて、第2カテゴリ判別処理手段で、他の文字列に対しカテゴリ判別を実行する第2カテゴリ判別処理ステップとを実行する
文字情報取得方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009061772A JP2010218043A (ja) | 2009-03-13 | 2009-03-13 | 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009061772A JP2010218043A (ja) | 2009-03-13 | 2009-03-13 | 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010218043A true JP2010218043A (ja) | 2010-09-30 |
Family
ID=42976862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009061772A Pending JP2010218043A (ja) | 2009-03-13 | 2009-03-13 | 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010218043A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012128586A (ja) * | 2010-12-14 | 2012-07-05 | Nomura Research Institute Ltd | アクセス解析システム、アクセス解析方法及びコンピュータプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244969A (ja) * | 1996-03-05 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | パーソナル情報抽出方法及び装置 |
JP2005346627A (ja) * | 2004-06-07 | 2005-12-15 | Omron Corp | データ名決定装置 |
JP2008310772A (ja) * | 2007-06-18 | 2008-12-25 | Sharp Corp | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 |
-
2009
- 2009-03-13 JP JP2009061772A patent/JP2010218043A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244969A (ja) * | 1996-03-05 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | パーソナル情報抽出方法及び装置 |
JP2005346627A (ja) * | 2004-06-07 | 2005-12-15 | Omron Corp | データ名決定装置 |
JP2008310772A (ja) * | 2007-06-18 | 2008-12-25 | Sharp Corp | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 |
Non-Patent Citations (2)
Title |
---|
CSNJ201010007151; 浅野 久子 大山 芳史: '電子メールからのパーソナル情報抽出方法の検討' 第52回(平成8年前記)全国大会講演論文集(3) , 19960306, p.3-301〜3-302, 社団法人情報処理学会 * |
JPN6013021313; 浅野 久子 大山 芳史: '電子メールからのパーソナル情報抽出方法の検討' 第52回(平成8年前記)全国大会講演論文集(3) , 19960306, p.3-301〜3-302, 社団法人情報処理学会 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012128586A (ja) * | 2010-12-14 | 2012-07-05 | Nomura Research Institute Ltd | アクセス解析システム、アクセス解析方法及びコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4995554B2 (ja) | 光学式文字認識補正のための知識ベースを利用した個人情報の検索方法 | |
KR101078086B1 (ko) | 문자 인식 장치, 문자 인식 프로그램, 및 문자 인식 방법 | |
TWI231920B (en) | Character recognition apparatus and method | |
CN109961069B (zh) | 图像处理装置以及存储介质 | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JP2014013534A (ja) | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム | |
KR102373884B1 (ko) | 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법 | |
JP2014182477A (ja) | プログラム及び帳票処理装置 | |
JP2019169025A (ja) | 情報処理装置、文字認識エンジン選択方法及びプログラム | |
JP4991407B2 (ja) | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 | |
JP7149721B2 (ja) | 情報処理装置、文字認識エンジン最適化方法及びプログラム | |
US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
JP4597644B2 (ja) | 文字認識装置、プログラムおよび記録媒体 | |
US20150261735A1 (en) | Document processing system, document processing apparatus, and document processing method | |
CN113495874A (zh) | 信息处理装置和计算机可读取介质 | |
US20210374189A1 (en) | Document search device, document search program, and document search method | |
JP4576211B2 (ja) | 文書情報検索システム | |
JP2010218043A (ja) | 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法 | |
US20210182477A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
JP4116852B2 (ja) | 抽出文字列辞書検索装置及び方法並びにプログラム | |
JP2007323317A (ja) | 変換装置、変換方法及びプログラム | |
JP2008176625A (ja) | 文字認識結果の管理装置およびその方法並びにコンピュータプログラム | |
JP2001094711A (ja) | ドキュメント画像処理装置及びドキュメント画像処理方法 | |
JP5298830B2 (ja) | 画像処理プログラム、画像処理装置及び画像処理システム | |
JP7268316B2 (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130507 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130703 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131203 |