JP6425989B2 - 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 - Google Patents
文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 Download PDFInfo
- Publication number
- JP6425989B2 JP6425989B2 JP2014254810A JP2014254810A JP6425989B2 JP 6425989 B2 JP6425989 B2 JP 6425989B2 JP 2014254810 A JP2014254810 A JP 2014254810A JP 2014254810 A JP2014254810 A JP 2014254810A JP 6425989 B2 JP6425989 B2 JP 6425989B2
- Authority
- JP
- Japan
- Prior art keywords
- item
- character recognition
- search result
- web page
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
なお、関連する従来技術の一例として、キャプチャした画像データを入力し、画像に含まれる文字列等を認識し、認識した文字列に関連する情報を、インターネット上から検索する技術が開示されている。
そこで、本発明の1つの態様では、文字認識の精度を向上させることを目的とする。
本実施形態では、帳票等の文字を含んだ対象物に含まれる文字情報をOCR等の文字認識技術を用いて読み取り、当該対象物に含まれる情報を抽出する際に、抽出する情報の精度を向上させる技術について説明する。
<システム構成>
図3は、本実施形態におけるシステム構成の一例を示す。本システムは、文字認識支援装置1を備える。文字認識支援装置1は、インターネット2を介して、ウェブサーバ3と接続されている。
図9は、文字認識部11、ウェブ検索部12、検索結果抽出部13及び結果出力部14が実行する文字認識支援処理を示す。
ステップS3で、文字認識部11は、文字認識情報31を参照して、ステップS3の条件を満たす認識項目を処理対象として1つ選択し、当該認識項目(以下、本処理の説明において対象認識項目という)に対応する文字認識データを抽出する。
ステップS5で、ウェブ検索部12は、ステップS4の検索の結果、対象認識項目に対応付けられた関連語が関連語テーブル32に存在したか否かを判定する。関連語が存在した場合には、ステップS6に進み(Yes)、存在しなかった場合には、ステップS2に戻り、次の認識項目についての処理を行う(No)。
具体的には、ウェブ検索部12は、文字認識情報31の認識項目のうち、1つの認識項目をキー項目として選択する。当該キー項目とする認識項目の選択は、例えば、文字認識情報31の最初の認識項目を選択してもよいし、記憶手段においてキー項目を別途定義しておき、当該キー項目を選択するようにしてもよい。ここで、当該キー項目と対象認識項目とは異なる項目とし、両方が関連語テーブル32の認識項目に格納されているものとする。換言すれば、ウェブ検索部12は、関連語テーブル32に設定された認識項目のうちのキー項目以外の他の項目が対象認識項目となるように、キー項目を選択する。
ステップS14で、結果出力部14は、当該対象認識項目について文字認識データ及び検索結果データの両方を出力対象とする。ここで、結果出力部14は、文字認識データ及び検索結果データが不一致のときにどちらを優先して出力するかを示す設定情報である出力優先度情報34を参照し、文字認識データ及び検索結果データの出力順を決定する。そして、当該出力順を反映させた出力対象情報35を、記憶手段に格納する。なお、出力優先度情報34は、例えば、ユーザが予め任意に設定できるようにすればよい。
前述した文字認識支援処理1による文字認識支援処理につき、データの具体例を示して説明する。
例えば、ステップS1において、文字認識部11が図1に示した帳票データ21から文字認識処理をした結果、図4に示した文字認識情報31を格納し、ステップS3で、「住所」の認識項目の文字認識データである「神奈川県111崎市」を抽出した場合について説明する。
そして、ステップS6で、ウェブ検索部12は、例えば「会社名」をキー項目として選択し、「会社名」の文字認識データである「富士通株式会社」でウェブページ検索をする。その結果、図2(A)に示したウェブページがヒットしたとする。このため、ウェブ検索部12は、当該ウェブページのHTMLデータを取得する。ここで、ウェブ検索部12は、当該ウェブページに、「会社概要」のリンクが含まれているため、当該ウェブページのHTMLデータから「会社概要」のリンク先のウェブページを特定し、アドレスを取得する。そして、ウェブ検索部12は、図2(B)に示した「会社概要」のウェブページのHTMLデータを取得する。
そして、結果出力部14が、最終的に生成された図8(A)に示した出力対象情報35を、画面表示等によってユーザに提示する。
本実施形態によれば、認識項目同士が相互に関連することに着目し、認識項目のうちの1つのキー項目に対応する文字認識データを用いてウェブページを検索して、当該キー項目に関連するウェブページから、キー項目に関連する他の認識項目のデータを抽出する。このようにすることで、当該他の認識項目につき、ウェブページから精度の高い情報を取得し、ユーザに提示することができる。
なお、本実施形態では、読み取り対象が「帳票」であるものとして説明したが、相互に関連する複数の認識項目が含まれており、文字認識が可能な対象物であれば、いかなる対象物であっても本技術の対象となり得る。
前述した文字認識支援装置1としてそれぞれ機能するコンピュータのハードウェア構成の一例を図10に示す。本コンピュータは、プロセッサ101、メモリ102、ストレージ103、可搬記憶媒体駆動装置104、入出力装置105、スキャナ106及び通信インタフェース107を備える。
スキャナ106は、画像や文書などをデジタル静止画像情報(画像データ)に変換する機器である。
通信インタフェース107は、例えば、例えばLAN(Local Area Network)カード等の他、無線周波受信機および送信機、ならびに光受信機および送信機を含むことができる。前述の受信機および送信機は、Wi−Fiネットワーク、Bluetooth(登録商標)ネットワーク、ロング・ターム・エボリューションなどの1つまたは複数の通信ネットワークにより動作するように実現することができる。
これらのコンピュータの各構成要素は、バス108で接続されている。
本明細書で説明したコンピュータの機能的構成及び物理的構成は、上述の態様に限るものではなく、例えば、各機能や物理資源を統合して実装したり、逆に、さらに分散して実装したりすることも可能である。
また、本明細書において、閾値等との比較において「〜以上」や「〜以下」とした記載箇所は、特記した場合を除き当該記載に限定されるものではなく、「〜より大きい(〜を上回る)」や「〜より小さい(〜を下回る)」に適宜置き換えることが可能である。
(付記1)
相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出し、
前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定し、
特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出し、
前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する
処理をコンピュータに実行させる文字認識支援プログラム。
前記ウェブページを特定する処理は、前記他の項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語が当該他の項目に対応付けられて設定された情報を参照し、前記検索結果において得られたウェブページから、当該他の項目に対応付けられた関連語が示すリンク先のウェブページを特定し、
前記検索結果データを抽出する処理は、前記関連語が示すリンク先のウェブページから、前記他の項目に対応する検索結果データを抽出する、付記1に記載の文字認識支援プログラム。
前記関連語が、前記他の項目に対して複数個対応付けられており、
前記ウェブページを特定する処理は、前記検索結果において得られたウェブページに、前記他の項目に対応付けられた関連語のうちの1つが示すリンク先が存在しないときに、当該他の項目に対応付けられた他の関連語が示すリンク先のウェブページを特定する、付記2に記載の文字認識支援プログラム。
前記関連語が、前記他の項目に対して、当該他の項目に対応するデータが含まれている可能性が高い順に複数個対応付けられており、
前記ウェブページを特定する処理は、前記他の項目に対応するデータが含まれている可能性が高い関連語から順に、当該関連語が示すリンク先のウェブページを特定する、付記3に記載の文字認識支援プログラム。
前記出力する処理は、前記文字認識データ及び前記検索結果データが異なるときに、当該文字認識データ及び当該検索結果データの両方を出力する、付記1〜4のいずれか1項に記載の文字認識支援プログラム。
前記出力する処理は、前記文字認識データ及び前記検索結果データの出力における優先順位を示す出力優先度情報を参照し、当該出力優先度情報に応じた出力順で、前記文字認識データ及び前記検索結果データを出力する、付記5に記載の文字認識支援プログラム。
相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出し、
前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定し、
特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出し、
前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する
処理をコンピュータが実行する文字認識支援方法。
相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出する文字認識部と、
前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定するウェブ検索部と、
特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出する検索結果抽出部と、
前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する結果出力部と
を備えた文字認識支援装置。
Claims (6)
- 相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出し、
前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定し、
特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出し、
前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する
処理をコンピュータに実行させ、
前記ウェブページを特定する処理は、前記他の項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語が前記他の項目に対応付けられているとともに、前記関連語が前記他の項目に対して、当該他の項目に対応するデータが含まれている可能性が高い順に複数個対応付けられている情報を有するテーブルを参照し、前記検索結果において得られたウェブページから、前記他の項目に対応するデータが含まれている可能性が高い関連語から順に、当該他の項目に対応付けられた関連語が示すリンク先のウェブページを特定し、
前記検索結果データを抽出する処理は、前記関連語が示すリンク先のウェブページから、前記他の項目に対応する検索結果データを抽出する、
文字認識支援プログラム。 - 前記ウェブページを特定する処理は、前記検索結果において得られたウェブページに、前記他の項目に対応付けられた関連語のうちの1つが示すリンク先が存在しないときに、当該他の項目に対応付けられた他の関連語が示すリンク先のウェブページを特定する、請求項1に記載の文字認識支援プログラム。
- 前記出力する処理は、前記文字認識データ及び前記検索結果データが異なるときに、当該文字認識データ及び当該検索結果データの両方を出力する、請求項1又は2に記載の文字認識支援プログラム。
- 前記出力する処理は、前記文字認識データ及び前記検索結果データの出力における優先順位を示す出力優先度情報を参照し、当該出力優先度情報に応じた出力順で、前記文字認識データ及び前記検索結果データを出力する、請求項3に記載の文字認識支援プログラム。
- 相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出し、
前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定し、
特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出し、
前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する
処理をコンピュータが実行し、
前記ウェブページを特定する処理は、前記他の項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語が前記他の項目に対応付けられているとともに、前記関連語が前記他の項目に対して、当該他の項目に対応するデータが含まれている可能性が高い順に複数個対応付けられている情報を有するテーブルを参照し、前記検索結果において得られたウェブページから、前記他の項目に対応するデータが含まれている可能性が高い関連語から順に、当該他の項目に対応付けられた関連語が示すリンク先のウェブページを特定し、
前記検索結果データを抽出する処理は、前記関連語が示すリンク先のウェブページから、前記他の項目に対応する検索結果データを抽出する、
文字認識支援方法。 - 相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出する文字認識部と、
前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定するウェブ検索部と、
特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出する検索結果抽出部と、
前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する結果出力部と
を備え、
前記ウェブ検索部は、前記他の項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語が前記他の項目に対応付けられているとともに、前記関連語が前記他の項目に対して、当該他の項目に対応するデータが含まれている可能性が高い順に複数個対応付けられている情報を有するテーブルを参照し、前記検索結果において得られたウェブページから、前記他の項目に対応するデータが含まれている可能性が高い関連語から順に、当該他の項目に対応付けられた関連語が示すリンク先のウェブページを特定し、
前記検索結果抽出部は、前記関連語が示すリンク先のウェブページから、前記他の項目に対応する検索結果データを抽出する、
文字認識支援装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014254810A JP6425989B2 (ja) | 2014-12-17 | 2014-12-17 | 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014254810A JP6425989B2 (ja) | 2014-12-17 | 2014-12-17 | 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016115229A JP2016115229A (ja) | 2016-06-23 |
JP6425989B2 true JP6425989B2 (ja) | 2018-11-21 |
Family
ID=56141938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014254810A Expired - Fee Related JP6425989B2 (ja) | 2014-12-17 | 2014-12-17 | 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6425989B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7380653B2 (ja) | 2021-05-31 | 2023-11-15 | 株式会社リコー | 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000090111A (ja) * | 1998-09-14 | 2000-03-31 | Matsushita Electric Ind Co Ltd | 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3620996B2 (ja) * | 1999-05-28 | 2005-02-16 | 日本電信電話株式会社 | 座標付きホームページ情報収集提供方法、記録媒体及び装置 |
JP2003016107A (ja) * | 2001-06-27 | 2003-01-17 | Sharp Corp | 情報検索装置、情報検索方法、情報検索プログラム、及び情報検索プログラムを格納した記録媒体 |
JP4102153B2 (ja) * | 2002-10-09 | 2008-06-18 | 富士通株式会社 | インターネットを利用した文字認識の後処理装置 |
JP4047850B2 (ja) * | 2004-09-30 | 2008-02-13 | 株式会社東芝 | 知識情報収集システム、知識情報収集方法及びプログラム |
AU2007215636B2 (en) * | 2006-02-17 | 2012-04-12 | Lumex As | Method and system for verification of uncertainly recognized words in an OCR system |
JP2009163689A (ja) * | 2008-01-10 | 2009-07-23 | Nec Corp | 住所認識方法及び装置、並びに郵便あて名区分機 |
JP2011159256A (ja) * | 2010-02-04 | 2011-08-18 | Masakatsu Morii | 名刺読み取り方法及び名刺読み取りプログラム |
-
2014
- 2014-12-17 JP JP2014254810A patent/JP6425989B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016115229A (ja) | 2016-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8577882B2 (en) | Method and system for searching multilingual documents | |
US10496745B2 (en) | Dictionary updating apparatus, dictionary updating method and computer program product | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
US20190188729A1 (en) | System and method for detecting counterfeit product based on deep learning | |
US20110258202A1 (en) | Concept extraction using title and emphasized text | |
US10152540B2 (en) | Linking thumbnail of image to web page | |
CN110968998B (zh) | 智能预测的输入方法和系统 | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
CN104008093A (zh) | 用于中文姓名音译的方法和系统 | |
US20150205781A1 (en) | Systems and methods for using tone indicator in text recognition | |
JP7182764B2 (ja) | 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム | |
US10133815B2 (en) | Document association device, document association system, and program | |
JP5687312B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
JP5484113B2 (ja) | 文書画像関連情報提供装置、及び文書画像関連情報取得システム | |
JP6425989B2 (ja) | 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 | |
US9336317B2 (en) | System and method for searching aliases associated with an entity | |
CN106709294B (zh) | 一种用户认证方法和装置 | |
JP2014059674A (ja) | 文字列検索システム、文字列検索方法及びプログラム | |
CN116508004A (zh) | 用于兴趣点信息管理的方法、电子设备和存储介质 | |
US20130311489A1 (en) | Systems and Methods for Extracting Names From Documents | |
JP5394512B2 (ja) | 教師データ生成装置、方法及びプログラム | |
JP5952776B2 (ja) | 文字認識装置、文字認識方法、および文字認識プログラム | |
JP4139805B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JP5853090B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
CN113904827A (zh) | 一种仿冒网站的识别方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180612 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6425989 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |