JP6425989B2 - 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 - Google Patents

文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 Download PDF

Info

Publication number
JP6425989B2
JP6425989B2 JP2014254810A JP2014254810A JP6425989B2 JP 6425989 B2 JP6425989 B2 JP 6425989B2 JP 2014254810 A JP2014254810 A JP 2014254810A JP 2014254810 A JP2014254810 A JP 2014254810A JP 6425989 B2 JP6425989 B2 JP 6425989B2
Authority
JP
Japan
Prior art keywords
item
character recognition
search result
web page
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014254810A
Other languages
English (en)
Other versions
JP2016115229A (ja
Inventor
大輝 杉浦
大輝 杉浦
央 佐々木
央 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Computer Technologies Ltd
Original Assignee
Fujitsu Computer Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Computer Technologies Ltd filed Critical Fujitsu Computer Technologies Ltd
Priority to JP2014254810A priority Critical patent/JP6425989B2/ja
Publication of JP2016115229A publication Critical patent/JP2016115229A/ja
Application granted granted Critical
Publication of JP6425989B2 publication Critical patent/JP6425989B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、文字認識処理による情報抽出を支援する技術に関する。
文字を含んだ対象物(例えば、帳票等)に含まれる文字情報を文字認識技術(例えばOCR(optical character recognition))を用いて読み取り、当該対象物に含まれる情報を抽出することが一般に行なわれている。また、抽出した情報を用いて、インターネット等のネットワーク上からさらに関連情報を取得することが行なわれている。
なお、関連する従来技術の一例として、キャプチャした画像データを入力し、画像に含まれる文字列等を認識し、認識した文字列に関連する情報を、インターネット上から検索する技術が開示されている。
特開2006−191413号公報
しかし、一般的に、文字認識処理においては、対象物に含まれる文字についてそもそも誤認識をしてしまうことがある。また、文字認識自体は正確にできても、対象物に含まれている情報自体が誤っている可能性がある。
そこで、本発明の1つの態様では、文字認識の精度を向上させることを目的とする。
本発明の1つの態様では、相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出する。また、前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定する。そして、特定した前記ウェブページから、前記複数の項目のうちの前記キー項目に関連する他の項目に対応する検索結果データを抽出する。さらに、前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する。ここで、前記ウェブページを特定する処理は、前記他の項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語が前記他の項目に対応付けられているとともに、前記関連語が前記他の項目に対して、当該他の項目に対応するデータが含まれている可能性が高い順に複数個対応付けられている情報を有するテーブルを参照し、前記検索結果において得られたウェブページから、前記他の項目に対応するデータが含まれている可能性が高い関連語から順に、当該他の項目に対応付けられた関連語が示すリンク先のウェブページを特定し、前記検索結果データを抽出する処理は、前記関連語が示すリンク先のウェブページから、前記他の項目に対応する検索結果データを抽出する。
本発明の1つの態様によれば、文字認識の精度を向上させることができる。
本実施形態における帳票データの一例を示す図である。 本実施形態におけるホームページの一例を示す図であり、(A)は会社のホームページにおけるトップページの一例を示し、(B)は会社のホームページにおける会社概要のページの一例を示す。 本実施形態におけるシステム構成の一例を示す図である。 本実施形態における文字認識情報の一例を示す図である。 本実施形態における関連語テーブルの一例を示す図である。 本実施形態における検索結果情報の一例を示す図である。 本実施形態における出力優先度情報の一例を示す図である。 本実施形態における出力対象情報の一例を示す図であり、(A)は検索結果データ優先の出力対象情報の一例を示し、(B)は文字認識データ優先の出力対象情報の一例を示す。 本実施形態における文字認識支援処理の一例を示すフローチャートである。 本実施形態におけるコンピュータのハードウェア構成の一例である。
[本実施形態の概要]
本実施形態では、帳票等の文字を含んだ対象物に含まれる文字情報をOCR等の文字認識技術を用いて読み取り、当該対象物に含まれる情報を抽出する際に、抽出する情報の精度を向上させる技術について説明する。
一般に、OCR等で文字認識処理を行う場合、一部の文字について誤認識することがある。例えば、数字の「1(いち)」と英文字の「l(エル)」とを誤認識するような場合などである。また、文字認識自体は正確にできても、帳票等に含まれている情報自体が誤っている可能性がある。例えば、ある会社の住所や電話番号等の情報を帳票から文字認識によって抽出した場合において、当該会社が移転しているにも関わらず、帳票から抽出した住所の情報が移転前の住所のままになっているような場合である。
そこで、本実施形態では、文字認識の対象となる帳票等に含まれている複数の認識項目の情報間における相互の関連性に着目し、認識項目のうちの1つの文字認識データでインターネット検索をして、関連するウェブページから、他の認識項目についての検索結果データを取得するようにする。
具体例を挙げて説明すると、例えば、ある会社の「会社名」、「住所」及び「電話番号」等の情報は、それぞれ個別に独立した情報ではなく、いずれか1つの情報が特定されれば、他の情報も必然的に特定することが可能である。例えば、図1に示すような帳票データ(帳票をスキャンした画像データ)の一部分には、「会社名(富士通株式会社)」、「住所(神奈川県川崎市)」、「電話番号(044-777-1111)」及び「代表者(田中一郎)」の認識項目が含まれている。そして、これらの認識項目のうち、会社名でインターネット検索をすると、例えば、図2(A)に示すような、当該会社のウェブサイトのトップページが検索結果としてヒットする。ここで、本実施形態では、一例として、これらの関連する認識項目同士を対応付けるとともに、それぞれの認識項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語を予め対応付けて記憶手段に格納しておく。例えば、「住所」の認識項目は、「会社概要」や「アクセス」のリンク先のウェブページに含まれている可能性が高いため、これらの関連語を予め対応付けておく。そして、本実施形態では、「会社名」による検索によりヒットした会社のウェブサイトのトップページから、「会社名」に関連する「住所」、「電話番号」及び「代表者」に対応付けられた関連語のリンク先のウェブページを特定し、当該リンク先のウェブページの情報を取得する。図2(B)は、図2(A)に示す会社のトップページからのリンク先である「会社概要」のウェブページの一例を示している。本実施形態では、このようなリンク先のウェブページに含まれる「住所」等の情報を、帳票データの認識項目に対応する検索結果データとして抽出する。
本実施形態では、このように、認識項目のうちの1つの文字認識データでインターネット検索をして、関連するウェブページから他の認識項目のデータを抽出することで、他の認識項目につき、精度の高い情報を取得して提示することができる。ウェブページから抽出する情報は、テキストデータとして抽出できるため、画像データからの文字認識のような誤変換等が発生する可能性がない分、抽出情報の精度が高い。また、ウェブページでは一般的に更新等が頻繁にされるため、内容自体の精度も高いことが期待される。
こうすることで、例えば、上記の具体例において「住所」等の認識項目について帳票データから文字認識処理により抽出した文字認識データが誤っていたり、帳票データの情報自体が誤っていたりしたとしても、ウェブページから抽出した検索結果データを用いることで、精度を向上させることができる。例えば、文字認識データとインターネットの検索結果データとが異なる場合に、文字認識データと検索結果データの両方を提示してユーザに選択させたりすることができる。
以下、本実施形態の具体的内容について詳細に説明する。
<システム構成>
図3は、本実施形態におけるシステム構成の一例を示す。本システムは、文字認識支援装置1を備える。文字認識支援装置1は、インターネット2を介して、ウェブサーバ3と接続されている。
文字認識支援装置1はコンピュータであり、記憶手段に格納されたプログラムが文字認識支援装置1においてインストールされ、プロセッサによって実行されることによってその機能が実現される、文字認識部11、ウェブ検索部12、検索結果抽出部13及び結果出力部14を備える。また、文字認識支援装置1は、当該文字認識支援装置1に接続されたスキャナ(図3では図示省略)を介して帳票を読み込んだ帳票データ21(帳票をスキャンした画像データ)を、入力データとして取得する。さらに、文字認識支援装置1は、記憶手段において、文字認識情報31、関連語テーブル32、検索結果情報33、出力優先度情報34及び出力対象情報35を備える。なお、記憶手段とは、文字認識支援装置1が備えた記憶装置又は文字認識支援装置1に接続された記憶装置のいずれであってもよく、また、文字認識支援装置1による読み取りが可能な記憶媒体であってもよい。また、帳票データ21は、必ずしもスキャナを用いて生成される必要はなく、帳票から画像データを生成できる方法であれば、いかなる方法によって生成されてもよい。
文字認識部11は、処理対象の帳票データ21に対してノイズ除去処理等を施した上で、当該画像データに対する文字認識処理を行う。そして、文字認識部11は、文字認識の結果得られた文字認識データを認識項目ごとに対応付けた文字認識情報31を、記憶手段に格納する。
ウェブ検索部12は、インターネット3を介したウェブページの検索を行い、ウェブページの情報から認識項目についての情報を取得する。具体的には、ウェブ検索部12は、文字認識情報31の認識項目のうち、1つの認識項目をキー項目として選択して、当該キー項目に関連するウェブページを検索する。そして、ウェブ検索部12は、当該キー項目に関連するウェブページの情報を取得し、当該キー項目に関連する他の項目に対応するデータを抽出する。
具体的には、ウェブ検索部12は、キー項目として選択した認識項目の文字認識データで、ウェブページの検索を行う。さらに、ウェブ検索部12は、当該検索の結果ヒットしたウェブページ(典型的な例として、当該文字認識データを含むウェブサイトのうちのトップページ等)の情報(HTML(HyperText Markup Language)等)を取得する。また、ウェブ検索部12は、処理対象の帳票に対応する関連語テーブル32を参照し、キー項目に関連する他の認識項目に対応付けられた関連語を特定する。本明細書における関連語とは、前述したように、認識項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す情報である(例えば、「住所」の情報が含まれている可能性が高いリンク先である「会社概要」や「アクセス」など)。そして、ウェブ検索部12は、検索の結果ヒットしたウェブページの情報に含まれる、前述した他の認識項目の関連語が示すリンク先のアドレスを取得し、リンク先のウェブページを特定する。
検索結果抽出部13は、特定されたリンク先のウェブサイトの情報を取得し、対象認識項目の関連語へのリンク先のウェブページの情報に含まれる、対象認識項目に対応する検索結果データを取得する。
結果出力部14は、文字認識情報31における対象認識項目の文字認識データ、及び、検索結果情報33における対象認識項目の検索結果データを比較する。そして、結果出力部14は、両者が一致している場合には、当該対象認識項目について文字認識データのみを出力対象とした出力対象情報35を、記憶手段に格納する。また、結果出力部14は、両者が一致していない場合には、当該対象認識項目について文字認識データ及び検索結果データの両方を出力対象とした出力対象情報35を、記憶手段に格納する。そして、結果出力部14は、出力対象情報35を出力し、ユーザに対して提示する。結果出力部14は、例えば、出力対象情報35を画面表示させたり、印刷出力したりすることにより、ユーザに提示することができる。
帳票データ21は、帳票の画像データであり、文字認識処理の対象となるデータである。図1は、前述したように帳票データ21の一例を示す。帳票データ21には、相互に関連する複数の項目の文字列が含まれている。図1の例では、相互に関連する複数の認識項目である、会社名、住所、電話番号及び代表者に対応する文字列が含まれている。
文字認識情報31は、帳票データ21に対して文字認識処理を行なった結果取得できた情報である。文字認識情報31は、例えば、図4に示すように、認識項目と、当該認識項目に対応する文字認識データを有する。なお、文字認識処理においては、対象とする帳票における各認識項目の配置等の情報(図示省略)を参照することにより、文字認識したデータと当該データの認識項目とを対応付けることができる。
関連語テーブル32は、帳票の種別ごとに、関連する複数の認識項目が対応付けられ、かつ、それぞれの認識項目に対して、前述した関連語が対応付けられたテーブルである。関連語テーブル32は、例えば、図5に示すように、認識項目と、関連語の項目を有する。1つのテーブルに格納されている複数の認識項目(図5の例では「会社名」、「住所」、「電話番号」及び「代表者」)は、相互に関連しており、1つの認識項目の内容が特定されれば、他の認識項目の内容も特定されるべきものである。また、それぞれの認識項目に対応付けられた関連語の項目に格納されるデータの数は、1つであっても複数であってもよく、また、その数が認識項目によって異なっていてもよい。例えば、ある認識項目に対応付けられる関連語がn個である場合、関連語1から関連語nまでの項目において、当該認識項目に関する情報が含まれている可能性が高い順に関連語が設定される。当該関連語テーブル32は、本実施形態の文字認識支援処理に先立って、予め設定しておくものである。
検索結果情報33は、認識項目について、インターネット3を介したウェブ検索により、ウェブページから得られた情報である。検索結果情報33は、例えば、図6に示すように、認識項目と、当該認識項目に対応する検索結果データを有する。
出力優先度情報34は、文字認識データ及び検索結果データの出力における優先順位を示す設定情報である。出力優先度情報34は、図7に示すように、文字認識データ及び検索結果データの優先度(出力順)を示す情報を有する。当該出力優先度情報34は、例えばユーザによる指定に基づき、本実施形態の文字認識支援装置1の処理に先立って、予め設定しておくものである。
出力対象情報35は、文字認識処理及びウェブ検索処理により得られた、ユーザに提示する各認識項目のデータである。出力対象情報35は、例えば、図8(A)及び図8(B)に示すように、認識項目と、出力優先度情報34に基づいた優先度で配置された各認識項目の文字認識データ及び検索結果データを有する。文字認識データ及び検索結果データが一致している認識項目については、文字認識情報31のみが出力対象情報35に格納される。図8(A)は、検索結果データを優先させた出力対象情報35の一例を示しており、図8(B)は、文字認識データを優先させた出力対象情報35の一例を示している。
文字認識支援装置1がインターネット3を介して接続されているウェブサーバ2には、認識項目のデータを含んだウェブページの情報が保持されている。ウェブサーバ2は、文字認識支援装置1からのリクエストに応じて、当該ウェブページの情報(HTMLデータ等)を文字認識支援装置1に送信する。
<文字認識支援処理>
図9は、文字認識部11、ウェブ検索部12、検索結果抽出部13及び結果出力部14が実行する文字認識支援処理を示す。
ステップS1で、文字認識部11は、処理対象の帳票データ21に対してノイズ除去処理等を施した上で、当該画像データに対する文字認識処理を行う。そして、文字認識部11は、文字認識の結果抽出した文字認識データを認識項目ごとに対応付けた文字認識情報31を、記憶手段に格納する。本処理の前提として、文字認識部11は、前述したように、対象とする帳票における各認識項目の配置等の情報を保持しているため、文字認識したデータと当該データの認識項目とを対応付けることができる。なお、文字認識部11は、文字認識ができなかった項目がある場合には、文字認識情報31において当該項目を空欄とすればよい。
ステップS2で、文字認識部11は、文字認識情報31、及び、処理対象の帳票に対応する関連語テーブル32を参照する。そして、文字認識部11は、文字認識情報31における認識項目に、関連語テーブル32の認識項目と一致する項目であって、後述のステップS3〜ステップS12の処理が未処理の項目があるか否かを判定する。当該条件を満たす項目がある場合には、ステップS3に進み(Yes)、ない場合にはステップS14に進む(No)。
ステップS3で、文字認識部11は、文字認識情報31を参照して、ステップS3の条件を満たす認識項目を処理対象として1つ選択し、当該認識項目(以下、本処理の説明において対象認識項目という)に対応する文字認識データを抽出する。
ステップS4で、ウェブ検索部12は、関連語テーブル32を参照し、対象認識項目に対応付けられた関連語であって、以下のステップS6〜ステップS9の処理が未処理の関連語を検索して取得する。このとき、ウェブ検索部12は、関連語テーブル32に複数の関連語が対応付けられている場合には、関連語1から順に処理を行う。
ステップS5で、ウェブ検索部12は、ステップS4の検索の結果、対象認識項目に対応付けられた関連語が関連語テーブル32に存在したか否かを判定する。関連語が存在した場合には、ステップS6に進み(Yes)、存在しなかった場合には、ステップS2に戻り、次の認識項目についての処理を行う(No)。
ステップS6で、ウェブ検索部12は、インターネット3を介したウェブページの検索を行う。
具体的には、ウェブ検索部12は、文字認識情報31の認識項目のうち、1つの認識項目をキー項目として選択する。当該キー項目とする認識項目の選択は、例えば、文字認識情報31の最初の認識項目を選択してもよいし、記憶手段においてキー項目を別途定義しておき、当該キー項目を選択するようにしてもよい。ここで、当該キー項目と対象認識項目とは異なる項目とし、両方が関連語テーブル32の認識項目に格納されているものとする。換言すれば、ウェブ検索部12は、関連語テーブル32に設定された認識項目のうちのキー項目以外の他の項目が対象認識項目となるように、キー項目を選択する。
そして、ウェブ検索部12は、当該キー項目として選択した認識項目の文字認識データで、インターネット3を介したウェブページの検索を行う。そして、ウェブ検索部12は、当該検索の結果ヒットしたウェブページ(前述したように、典型的な例として、当該文字認識データを含むウェブサイトのうちのトップページ等)の情報(HTMLデータ等)を取得する。なお、当該処理においては、キー項目として選択した認識項目の文字認識データが正確な情報であることが前提となる。
なお、当該キー項目として選択した認識項目の文字認識データの取得及び当該文字認識データによるウェブページの検索処理は、ステップS1の直後などに1度だけ行うようにしてもよい。この場合、キー項目とする認識項目を先に選択し、ステップS3の対象認識項目の選択において、キー項目以外の他の項目を、関連語テーブル32に格納された識別項目から選択することとなる。
そして、ウェブ検索部12は、取得した当該ウェブページの情報において、ステップS4の検索の結果取得できた対象認識項目の関連語が示すリンクが含まれている場合に、当該リンク先のウェブページを特定する。具体的には、例えば、ウェブ検索部12は、当該リンク先のウェブページのアドレスを特定する。
ステップS7で、ウェブ検索部12は、ステップS4の検索の結果、対象認識項目の関連語が示すリンク先のウェブページが存在したか否かを判定する。存在した場合には、ステップS8に進み(Yes)、存在しなかった場合には、ステップS4に戻り、次の関連語についての処理を行う。なお、ステップS6において、そもそもキー項目として選択した認識項目の文字認識データでウェブページがヒットしなかった場合には、文字認識情報31をそのまま出力して処理を終了してもよい。
ステップS8で、検索結果抽出部13は、対象認識項目の関連語が示すリンク先のウェブページに移り、当該リンク先のウェブページの情報を取得する。そして、検索結果抽出部13は、リンク先のウェブページにおいて、対象認識項目に対応するデータを抽出する。具体的には、検索結果抽出部13は、一例として、対象認識項目の項目名で当該リンク先のウェブページ内を検索する。そして、ウェブ検索部12は、対象認識項目の関連語へのリンク先のウェブページの情報に含まれる、対象認識項目に対応するデータを検索結果データとして抽出し、対象認識項目と当該検索結果データとを対応付けた検索結果情報33を記憶手段に格納する。具体的には、ウェブ検索部12は、一例として、当該リンク先のウェブページにおいて、対象認識項目の項目名と一致する文字列の右隣やすぐ下に配置されている情報を、対象認識項目に対応するデータとして抽出する。なお、認識項目と類似の意味を有する文字列(例えば「住所」に対する「所在地」など)を予め設定しておき、対象認識項目の項目名と完全一致する文字列のみならず、類似の意味を有する文字列に対応するデータも抽出対象とするようにしてもよい。
ステップS9で、検索結果抽出部13は、ステップS8の処理の結果、対象認識項目の関連語へのリンク先のウェブページに対象認識項目に対応するデータが存在したか否かを判定する。存在した場合には、ステップS10に進み(Yes)、存在しなかった場合には、ステップS4に戻り、次の関連語についての処理を行う。
ステップS10で、結果出力部14は、文字認識情報31における対象認識項目の文字認識データ、及び、検索結果情報33における対象認識項目の検索結果データを比較する。そして、結果出力部14は、これらの文字認識データ及び検索結果データが一致するか否かを判定する。一致している場合には、ステップS11に進み(Yes)、一致していない場合には、ステップS12に進む(No)。
ステップS13で、結果出力部14は、当該対象認識項目について文字認識データのみを出力対象とした出力対象情報35を、記憶手段に格納する。
ステップS14で、結果出力部14は、当該対象認識項目について文字認識データ及び検索結果データの両方を出力対象とする。ここで、結果出力部14は、文字認識データ及び検索結果データが不一致のときにどちらを優先して出力するかを示す設定情報である出力優先度情報34を参照し、文字認識データ及び検索結果データの出力順を決定する。そして、当該出力順を反映させた出力対象情報35を、記憶手段に格納する。なお、出力優先度情報34は、例えば、ユーザが予め任意に設定できるようにすればよい。
ステップS15で、結果出力部14は、出力対象情報35を出力し、ユーザに対して提示する。前述したように、結果出力部14は、例えば、出力対象情報35を画面表示させたり、印刷出力したりすることにより、ユーザに提示することができる。
<データの具体例を示した処理説明>
前述した文字認識支援処理1による文字認識支援処理につき、データの具体例を示して説明する。
例えば、ステップS1において、文字認識部11が図1に示した帳票データ21から文字認識処理をした結果、図4に示した文字認識情報31を格納し、ステップS3で、「住所」の認識項目の文字認識データである「神奈川県111崎市」を抽出した場合について説明する。
ここで、ステップS4で、ウェブ検索部12は、図5に示した関連語テーブル32の「住所」の認識項目に対応付けられた関連語の1つである「会社概要」を取得する。
そして、ステップS6で、ウェブ検索部12は、例えば「会社名」をキー項目として選択し、「会社名」の文字認識データである「富士通株式会社」でウェブページ検索をする。その結果、図2(A)に示したウェブページがヒットしたとする。このため、ウェブ検索部12は、当該ウェブページのHTMLデータを取得する。ここで、ウェブ検索部12は、当該ウェブページに、「会社概要」のリンクが含まれているため、当該ウェブページのHTMLデータから「会社概要」のリンク先のウェブページを特定し、アドレスを取得する。そして、ウェブ検索部12は、図2(B)に示した「会社概要」のウェブページのHTMLデータを取得する。
さらに、ステップS8で、ウェブ検索部12は、当該「会社概要」のウェブページのHTMLデータ内において、「住所」に対応するデータを検索する。ここで、当該ウェブページのHTMLデータには、「住所」の文字列が含まれているため、当該「住所」の文字列の右隣に位置する情報である「神奈川県川崎市」の検索結果データを取得する。そして、ウェブ検索部12は、当該検索結果データを、「住所」の認識項目と対応付けて、図6に示した検索結果情報33に格納する。
そして、ステップS10で、結果出力部14は、「住所」の認識項目につき、図4に示した文字認識情報31における「神奈川県111崎市」と図6に示した検索結果情報33の「神奈川県川崎市」とを比較する。比較の結果、両者は一致していないため、結果出力部14は、これらの両方を出力対象とする。ここで、結果出力部14は、図7に示した出力優先度情報34を参照し、検索結果情報33の優先度が上に設定されているため、図8(A)に示すような、「神奈川県川崎市」の検索結果データを優先度1とし、「神奈川県111崎市」の文字認識データを優先度2として、出力対象情報35に格納する。
さらに、文字認識支援装置1は、他の認識項目についても同様に処理をする。例えば、結果出力部14は、「代表者」の認識項目につき、図4に示した文字認識情報31における「田中 一郎」と図6に示した検索結果情報33の「富士 太郎」とを比較する。比較の結果、両者は一致していないため、結果出力部14は、これらの両方を出力対象とする。
そして、結果出力部14が、最終的に生成された図8(A)に示した出力対象情報35を、画面表示等によってユーザに提示する。
当該具体例の場合、例えば、「住所」の認識項目では、文字認識処理により得られた「神奈川県111崎市」は誤認識である可能性が高いが、ウェブサイトから得られた「神奈川県川崎市」をユーザに提示できることで、ユーザが正しい情報を用いることができる。また、「代表者」の認識項目では、当該会社の代表者が、帳票が作られた時点における「田中 一郎」から、ウェブサイトから得られた「富士 太郎」へと代わった可能性がある。本実施形態では、これらの両方の情報をユーザに提示できることで、ユーザが正しい情報を選択して用いることができる。
<本実施形態における効果、変形例等>
本実施形態によれば、認識項目同士が相互に関連することに着目し、認識項目のうちの1つのキー項目に対応する文字認識データを用いてウェブページを検索して、当該キー項目に関連するウェブページから、キー項目に関連する他の認識項目のデータを抽出する。このようにすることで、当該他の認識項目につき、ウェブページから精度の高い情報を取得し、ユーザに提示することができる。
具体的には、本実施形態によれば、1つのキー項目の文字認識データでウェブサイトを検索し、関連語テーブル32に設定された関連語を用いて、関連する他の認識項目に対応する情報が含まれるウェブサイトを特定する。そして、当該ウェブサイトから、関連する他の認識項目に対応する情報を取得する。このようにすることで、他の認識項目に対応する情報が含まれるウェブサイトを的確に特定することができ、情報を効率的かつ高確率で取得することができる。
しかし、関連語が示すリンク先のウェブページから他の認識項目に対応するデータを取得する方法は、キー項目に対応する文字認識データを用いて他の認識項目に対応するデータを抽出する方法の一例に過ぎない。例えば、キー項目に対応する文字認識データによる検索結果でヒットしたウェブページ自体に他の項目に対応するデータが含まれていれば、それを取得すればよい。また、上記処理では、相互に関連する認識項目が関連語テーブル32に格納され、当該関連語テーブル32を参照してキー項目及び他の認識項目を選択しているが、帳票データ21に含まれる認識項目の全てが関連していることを前提としている場合には、必ずしも関連語テーブル32の認識項目を参照して選択する必要はない。
また、本実施形態によれば、認識項目についての文字認識データとウェブページの検索結果データとが異なる場合に、文字認識データと検索結果データの両方を出力してユーザに提示する。このため、ユーザは、両者のいずれかを任意に選択することができる。さらに、本実施形態によれば、出力優先度情報34に基づいて文字認識データと検索結果データの表示順を決定するため、例えば、ユーザが出力優先度情報34を任意に設定できるようにすることにより、使い勝手を向上させることができる。
なお、本実施形態では、認識項目についての文字認識データと検索結果データとが異なる場合に、文字認識データと検索結果データの両方をユーザに提示したが、ユーザへの提示態様はこれに限定されるものではない。例えば、結果出力部14は、文字認識データをユーザに提示せず、検索結果データのみをユーザに提示してもよい。
また、さらなる変形例として、検索結果データを取得できた認識項目については、文字認識データの抽出自体を省略し、検索結果データを直接用いることもできる。具体的には、前述のステップS1において、文字認識部11が、キー項目とする認識項目についてのみ文字認識処理を行う。そして、ウェブ検索部12及び検索結果抽出部13によるステップS2〜S8の処理で他の認識項目の検索結果データを取得し、結果出力部14が、得られた検索結果データを、文字認識データの代わりに出力してユーザに提示してもよい。
さらに、他の変形例として、例えば、文字認識データと検索結果データが異なるときに、注意喚起のメッセージのみをユーザに提示してもよい。
また、本実施形態によれば、認識項目のそれぞれに対し、関連語が複数対応付けられ、1つの関連語が示すリンク先に認識項目に対応するデータが存在しなければ、次の関連語が示すリンク先を検索することができる。これにより、あらゆる態様のウェブサイトに対応させて、認識項目に対応するデータを抽出することができる。さらには、関連語テーブル32において、関連語1から順に、認識項目に関する情報が含まれている可能性が高い順に関連語が設定され、前述したウェブ検索部12による処理において関連語1から順に処理がなされることで、少ない処理量で認識項目に対応するデータを抽出できる。
なお、本実施形態では、読み取り対象が「帳票」であるものとして説明したが、相互に関連する複数の認識項目が含まれており、文字認識が可能な対象物であれば、いかなる対象物であっても本技術の対象となり得る。
<ハードウェア構成等>
前述した文字認識支援装置1としてそれぞれ機能するコンピュータのハードウェア構成の一例を図10に示す。本コンピュータは、プロセッサ101、メモリ102、ストレージ103、可搬記憶媒体駆動装置104、入出力装置105、スキャナ106及び通信インタフェース107を備える。
プロセッサ101は、制御ユニット、演算ユニット及び命令デコーダ等を含み、実行ユニットが、命令デコーダで解読されたプログラムの命令に従い、制御ユニットより出力される制御信号に応じ、演算ユニットを用いて算術・論理演算を実行する。かかるプロセッサ101は、制御に用いる各種情報が格納される制御レジスタ、既にアクセスしたメモリ2等の内容を一時的に格納可能なキャッシュ、及び、仮想記憶のページテーブルのキャッシュとしての機能を果たすTLB(Translation Lookaside Buffer)を備える。なお、プロセッサ101は、CPU(Central Processing Unit)コアが複数設けられている構成でもよい。
メモリ102は、例えばRAM(Random Access Memory)等の記憶装置であり、プロセッサ101で実行されるプログラムがロードされるとともに、プロセッサ101の処理に用いるデータが格納されるメインメモリである。また、ストレージ103は、例えばHDD(Hard Disk Drive)やフラッシュメモリ等の記憶装置であり、プログラムや各種データが格納される。可搬記憶媒体駆動装置104は、可搬記憶媒体107に記憶されたデータやプログラムを読み出す装置である。可搬記憶媒体107は、例えば磁気ディスク、光ディスク、光磁気ディスク又はフラッシュメモリ等である。プロセッサ101は、メモリ102やストレージ103と協働しつつ、ストレージ103や可搬記憶媒体107に格納されたプログラムを実行する。なお、プロセッサ101が実行するプログラムや、アクセス対象となるデータは、当該コンピュータと通信可能な他の装置に格納されていてもよい。
入出力装置105は、例えばキーボードやタッチパネル、ディスプレイ等であり、ユーザ操作等による動作命令を受け付ける一方、コンピュータによる処理結果を出力する。
スキャナ106は、画像や文書などをデジタル静止画像情報(画像データ)に変換する機器である。
通信インタフェース107は、例えば、例えばLAN(Local Area Network)カード等の他、無線周波受信機および送信機、ならびに光受信機および送信機を含むことができる。前述の受信機および送信機は、Wi−Fiネットワーク、Bluetooth(登録商標)ネットワーク、ロング・ターム・エボリューションなどの1つまたは複数の通信ネットワークにより動作するように実現することができる。
これらのコンピュータの各構成要素は、バス108で接続されている。
<その他>
本明細書で説明したコンピュータの機能的構成及び物理的構成は、上述の態様に限るものではなく、例えば、各機能や物理資源を統合して実装したり、逆に、さらに分散して実装したりすることも可能である。
また、本明細書において、閾値等との比較において「〜以上」や「〜以下」とした記載箇所は、特記した場合を除き当該記載に限定されるものではなく、「〜より大きい(〜を上回る)」や「〜より小さい(〜を下回る)」に適宜置き換えることが可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出し、
前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定し、
特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出し、
前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する
処理をコンピュータに実行させる文字認識支援プログラム。
(付記2)
前記ウェブページを特定する処理は、前記他の項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語が当該他の項目に対応付けられて設定された情報を参照し、前記検索結果において得られたウェブページから、当該他の項目に対応付けられた関連語が示すリンク先のウェブページを特定し、
前記検索結果データを抽出する処理は、前記関連語が示すリンク先のウェブページから、前記他の項目に対応する検索結果データを抽出する、付記1に記載の文字認識支援プログラム。
(付記3)
前記関連語が、前記他の項目に対して複数個対応付けられており、
前記ウェブページを特定する処理は、前記検索結果において得られたウェブページに、前記他の項目に対応付けられた関連語のうちの1つが示すリンク先が存在しないときに、当該他の項目に対応付けられた他の関連語が示すリンク先のウェブページを特定する、付記2に記載の文字認識支援プログラム。
(付記4)
前記関連語が、前記他の項目に対して、当該他の項目に対応するデータが含まれている可能性が高い順に複数個対応付けられており、
前記ウェブページを特定する処理は、前記他の項目に対応するデータが含まれている可能性が高い関連語から順に、当該関連語が示すリンク先のウェブページを特定する、付記3に記載の文字認識支援プログラム。
(付記5)
前記出力する処理は、前記文字認識データ及び前記検索結果データが異なるときに、当該文字認識データ及び当該検索結果データの両方を出力する、付記1〜4のいずれか1項に記載の文字認識支援プログラム。
(付記6)
前記出力する処理は、前記文字認識データ及び前記検索結果データの出力における優先順位を示す出力優先度情報を参照し、当該出力優先度情報に応じた出力順で、前記文字認識データ及び前記検索結果データを出力する、付記5に記載の文字認識支援プログラム。
(付記7)
相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出し、
前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定し、
特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出し、
前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する
処理をコンピュータが実行する文字認識支援方法。
(付記8)
相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出する文字認識部と、
前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定するウェブ検索部と、
特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出する検索結果抽出部と、
前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する結果出力部と
を備えた文字認識支援装置。
1…文字認識支援装置、2…ウェブサーバ、3…インターネット、11…文字認識部、12…ウェブ検索部、13…検索結果抽出部、14…結果出力部、21…帳票データ、31…文字認識情報、32…関連語テーブル、33…検索結果情報、34…出力優先度情報、35…出力対象情報

Claims (6)

  1. 相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出し、
    前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定し、
    特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出し、
    前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する
    処理をコンピュータに実行させ
    前記ウェブページを特定する処理は、前記他の項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語が前記他の項目に対応付けられているとともに、前記関連語が前記他の項目に対して、当該他の項目に対応するデータが含まれている可能性が高い順に複数個対応付けられている情報を有するテーブルを参照し、前記検索結果において得られたウェブページから、前記他の項目に対応するデータが含まれている可能性が高い関連語から順に、当該他の項目に対応付けられた関連語が示すリンク先のウェブページを特定し、
    前記検索結果データを抽出する処理は、前記関連語が示すリンク先のウェブページから、前記他の項目に対応する検索結果データを抽出する、
    文字認識支援プログラム。
  2. 記ウェブページを特定する処理は、前記検索結果において得られたウェブページに、前記他の項目に対応付けられた関連語のうちの1つが示すリンク先が存在しないときに、当該他の項目に対応付けられた他の関連語が示すリンク先のウェブページを特定する、請求項に記載の文字認識支援プログラム。
  3. 前記出力する処理は、前記文字認識データ及び前記検索結果データが異なるときに、当該文字認識データ及び当該検索結果データの両方を出力する、請求項1又は2に記載の文字認識支援プログラム。
  4. 前記出力する処理は、前記文字認識データ及び前記検索結果データの出力における優先順位を示す出力優先度情報を参照し、当該出力優先度情報に応じた出力順で、前記文字認識データ及び前記検索結果データを出力する、請求項に記載の文字認識支援プログラム。
  5. 相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出し、
    前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定し、
    特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出し、
    前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する
    処理をコンピュータが実行し、
    前記ウェブページを特定する処理は、前記他の項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語が前記他の項目に対応付けられているとともに、前記関連語が前記他の項目に対して、当該他の項目に対応するデータが含まれている可能性が高い順に複数個対応付けられている情報を有するテーブルを参照し、前記検索結果において得られたウェブページから、前記他の項目に対応するデータが含まれている可能性が高い関連語から順に、当該他の項目に対応付けられた関連語が示すリンク先のウェブページを特定し、
    前記検索結果データを抽出する処理は、前記関連語が示すリンク先のウェブページから、前記他の項目に対応する検索結果データを抽出する、
    文字認識支援方法。
  6. 相互に関連する複数の項目の文字列を含んだ対象物に対する文字認識処理を行い、少なくとも、前記複数の項目のうちの1つのキー項目及び前記キー項目に関連する他の項目に対応する文字認識データを抽出する文字認識部と、
    前記キー項目に対応する文字認識データを用いてインターネットを介したウェブページの検索を行い、当該検索結果に基づいて、前記キー項目に対応する文字認識データに関連するウェブページを特定するウェブ検索部と、
    特定した前記ウェブページから、前記複数の項目のうち、前記キー項目に関連する他の項目に対応する検索結果データを抽出する検索結果抽出部と、
    前記他の項目に対応する文字認識データ及び前記他の項目に対応する検索結果データを比較し、当該文字認識データ及び当該検索結果データが異なるときに、少なくとも当該検索結果データを出力する結果出力部と
    を備え
    前記ウェブ検索部は、前記他の項目に対応するデータが含まれている可能性があるウェブページのリンク先を示す関連語が前記他の項目に対応付けられているとともに、前記関連語が前記他の項目に対して、当該他の項目に対応するデータが含まれている可能性が高い順に複数個対応付けられている情報を有するテーブルを参照し、前記検索結果において得られたウェブページから、前記他の項目に対応するデータが含まれている可能性が高い関連語から順に、当該他の項目に対応付けられた関連語が示すリンク先のウェブページを特定し、
    前記検索結果抽出部は、前記関連語が示すリンク先のウェブページから、前記他の項目に対応する検索結果データを抽出する、
    文字認識支援装置。
JP2014254810A 2014-12-17 2014-12-17 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置 Expired - Fee Related JP6425989B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014254810A JP6425989B2 (ja) 2014-12-17 2014-12-17 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014254810A JP6425989B2 (ja) 2014-12-17 2014-12-17 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置

Publications (2)

Publication Number Publication Date
JP2016115229A JP2016115229A (ja) 2016-06-23
JP6425989B2 true JP6425989B2 (ja) 2018-11-21

Family

ID=56141938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014254810A Expired - Fee Related JP6425989B2 (ja) 2014-12-17 2014-12-17 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置

Country Status (1)

Country Link
JP (1) JP6425989B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7380653B2 (ja) 2021-05-31 2023-11-15 株式会社リコー 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090111A (ja) * 1998-09-14 2000-03-31 Matsushita Electric Ind Co Ltd 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3620996B2 (ja) * 1999-05-28 2005-02-16 日本電信電話株式会社 座標付きホームページ情報収集提供方法、記録媒体及び装置
JP2003016107A (ja) * 2001-06-27 2003-01-17 Sharp Corp 情報検索装置、情報検索方法、情報検索プログラム、及び情報検索プログラムを格納した記録媒体
JP4102153B2 (ja) * 2002-10-09 2008-06-18 富士通株式会社 インターネットを利用した文字認識の後処理装置
JP4047850B2 (ja) * 2004-09-30 2008-02-13 株式会社東芝 知識情報収集システム、知識情報収集方法及びプログラム
AU2007215636B2 (en) * 2006-02-17 2012-04-12 Lumex As Method and system for verification of uncertainly recognized words in an OCR system
JP2009163689A (ja) * 2008-01-10 2009-07-23 Nec Corp 住所認識方法及び装置、並びに郵便あて名区分機
JP2011159256A (ja) * 2010-02-04 2011-08-18 Masakatsu Morii 名刺読み取り方法及び名刺読み取りプログラム

Also Published As

Publication number Publication date
JP2016115229A (ja) 2016-06-23

Similar Documents

Publication Publication Date Title
US8577882B2 (en) Method and system for searching multilingual documents
US10496745B2 (en) Dictionary updating apparatus, dictionary updating method and computer program product
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US20190188729A1 (en) System and method for detecting counterfeit product based on deep learning
US20110258202A1 (en) Concept extraction using title and emphasized text
US10152540B2 (en) Linking thumbnail of image to web page
CN110968998B (zh) 智能预测的输入方法和系统
US20220222292A1 (en) Method and system for ideogram character analysis
CN104008093A (zh) 用于中文姓名音译的方法和系统
US20150205781A1 (en) Systems and methods for using tone indicator in text recognition
JP7182764B2 (ja) 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム
US10133815B2 (en) Document association device, document association system, and program
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP5484113B2 (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
JP6425989B2 (ja) 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置
US9336317B2 (en) System and method for searching aliases associated with an entity
CN106709294B (zh) 一种用户认证方法和装置
JP2014059674A (ja) 文字列検索システム、文字列検索方法及びプログラム
CN116508004A (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
US20130311489A1 (en) Systems and Methods for Extracting Names From Documents
JP5394512B2 (ja) 教師データ生成装置、方法及びプログラム
JP5952776B2 (ja) 文字認識装置、文字認識方法、および文字認識プログラム
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP5853090B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
CN113904827A (zh) 一种仿冒网站的识别方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181024

R150 Certificate of patent or registration of utility model

Ref document number: 6425989

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees