JP7271987B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7271987B2
JP7271987B2 JP2019024333A JP2019024333A JP7271987B2 JP 7271987 B2 JP7271987 B2 JP 7271987B2 JP 2019024333 A JP2019024333 A JP 2019024333A JP 2019024333 A JP2019024333 A JP 2019024333A JP 7271987 B2 JP7271987 B2 JP 7271987B2
Authority
JP
Japan
Prior art keywords
character
character string
string
attribute
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019024333A
Other languages
English (en)
Other versions
JP2020135095A (ja
Inventor
公則 吉塚
茂 岡田
周作 久保
真太郎 安達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019024333A priority Critical patent/JP7271987B2/ja
Publication of JP2020135095A publication Critical patent/JP2020135095A/ja
Application granted granted Critical
Publication of JP7271987B2 publication Critical patent/JP7271987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
近年、OCRにより誤認識された文字列を、正しい文字列に補正するための置換辞書を自動的に作成する文書処理装置が提案されている(例えば、特許文献1参照。)。
特許文献1に記載された文書処理装置は、業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してOCRを行った結果得られるOCR後サンプル文書データから切り分けたOCR後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部とを備える。
特開2011-107966号公報
本発明の課題は、抽出の対象となる第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を誤って抽出することを抑制することが可能な情報処理装置及びプログラムを提供することにある。
[1]文字を認識する認識手段と、
認識された前記文字の中に第1の文字又は文字列が含まれない場合に、該第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する抽出手段と、
前記抽出手段による抽出の対象として文字又は文字列を登録する登録手段とを備え
前記登録手段により前記第1の文字又は文字列と共通の属性を有する第5の文字又は文字列が新たに前記抽出の対象として登録された場合に、前記抽出手段は、該第5の文字又は文字列をさらに除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する、情報処理装置。
]複数の前記第1の文字又は文字列を前記抽出の対象としてそれぞれ記録する複数の記録手段と、
前記複数の記録手段のうち、前記第5の文字又は文字列を前記抽出の対象として記録する記録手段以外の記録手段のそれぞれに、前記第5の文字又は文字列を前記抽出手段による抽出から除外する除外条件として追加する追加手段と、
をさらに備える、前記[]に記載の情報処理装置。
]複数の前記第1の文字又は文字列を前記抽出の対象としてそれぞれ記録する複数の記録手段と、
前記第1の文字又は文字列の属性に応じて前記記録手段を群に分類した分類情報の中から、前記複数の記録手段のうち前記第1の文字又は文字列が記録された第1の記録手段と同一の群に属する第2の記録手段に記録された前記第1の文字又は文字列を前記第2の文字又は文字列として前記第1の記録手段に追加する追加手段と、をさらに備える、前記[1]に記載の情報処理装置。
]前記追加手段は、前記第1の記録手段が属する群の名称を示す文字又は文字列を前記第3の文字又は文字列として前記第1の記録手段に追加する、前記[]に記載の情報処理装置。
]前記第1の文字又は文字列を記録する記録手段と、
前記第1の文字又は文字列を属性に応じて前記記録手段を群に分類する分類手段と、
前記群に分類された前記記録手段が予め定められた個数以上となった場合に、新たな群を生成する生成手段と、をさらに備える、前記[1]に記載の情報処理装置。
]前記生成手段は、前記属性を付して前記新たな群を生成する、前記[]に記載の情報処理装置。
]コンピュータを、文字を認識する認識手段と、
認識された前記文字の中に第1の文字又は文字列が含まれない場合に、該第1の文字は文字列と共通の属性を有する第2の文字又は文字列を除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する抽出手段と、
前記抽出手段による抽出の対象として文字又は文字列を登録する登録手段として、機能させるためのプログラムであって、
前記登録手段により前記第1の文字又は文字列と共通の属性を有する第5の文字又は文字列が新たに前記抽出の対象として登録された場合に、前記抽出手段は、該第5の文字又は文字列をさらに除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する、プログラム。
請求項1~に係る発明によれば、抽出の対象となる第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を誤って抽出することを抑制することができる。
図1は、本発明の実施の形態に係る情報処理装置の制御系の一例を示すブロック図である。 図2は、定義ファイルリストの一例を示す図である。 図3は、定義ファイルの一例を示す図であり、(a)は、第1の定義ファイルの一例を示す図、(b)は、第2の定義ファイルの一例を示す図、(c)は、第3の定義ファイルの一例を示す図である。 図4は、画面の一例を示す図であり、(a)は、選択画面の一例を示す図、(b)は、設定画面の一例を示す図、(c)は、確認画面の一例を示す図である。 図5は、見積書の一例を示す図であり、(a)は、第1の見積書の一例を示す図、(b)は、第2の見積書の一例を示す図である。 図6は、定義ファイルの設定の動作の一例を示すフローチャートである。 図7は、キーバリュー処理の動作の一例を模式的に示す図である。 図8は、変形例に係る情報処理装置の動作の一例を模式的に示す図である。 図9(a)は、定義ファイルの一例を示す図、(b)は、請求書の一例を示す図である。 図10(a)及び(b)は、定義ファイルリストの一例を示す図である。
以下、本発明の実施の形態について図面を参照して説明する。なお、各図中、実質的に同一の機能を有する構成要素については、同一の符号を付してその重複した説明を省略する。
[実施の形態]
(情報処理装置の構成)
図1は、本発明の実施の形態に係る情報処理装置の制御系の一例を示すブロック図である。このような情報処理装置1には、例えば、パーソナルコンピュータ、画像形成装置、タブレッド端末、多機能携帯電話機(スマートフォン)等が含まれる。以下、情報処理装置1として、スキャン機能、プリンタ機能、コピー機能、ファクシミリ機能、電子メール機能等の複数の機能を有する複合機を例に説明するが、情報処理装置1は、複合機に限定されるものではない。
この情報処理装置1は、各部を制御する制御部10と、各種のデータを記憶する記憶部11と、情報の入力及び表示を行う操作表示部12と、原稿から原稿画像を読み取る画像読取部14と、画像を印刷出力する画像出力部15と、外部ファクシミリ装置2に対して公衆回線網4を介してファクシミリ送受信を行うファクシミリ通信部16と、外部装置3との間でネットワーク5を介して通信するネットワーク通信部17とを備える。
制御部10は、CPU(Central Processing Unit)、インターフェース等から構成されている。CPUは、記憶部11に記憶されたプログラム110に従って動作することにより、生成手段100、解析手段101、判定手段102、追加手段103、認識手段104、抽出手段105、表示制御手段106等として機能する。生成手段100は、登録手段の一例である。各手段100~106の詳細については後述する。
記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク等から構成され、プログラム110や、形態素情報111、定義ファイルリスト113(図2参照)、定義ファイル114(図3参照)、画面情報115(図4参照)、OCR情報116等の各種データを記憶する。各種データ111~116の詳細については後述する。定義ファイルリスト113は、分類情報の一例である。
操作表示部12は、例えば、タッチパネルディスプレイであり、液晶ディスプレイ等のディスプレイにタッチパネルを重合配置した構成を有する。
画像読取部14は、原稿から原稿画像を読み取るものであり、原稿台(不図示)上に設けられた自動原稿送り装置(不図示)と、スキャナ(不図示)とを備え、原稿台に配置された原稿、又は自動原稿送り装置により送られた原稿から原稿画像を光学的に読み取る。
画像出力部15は、例えば、電子写真方式、インクジェット方式等によりカラー画像又は白黒画像を用紙等の記録媒体に印刷出力する。
ファクシミリ通信部16は、G3、G4等のファクシミリプロトコルに従ってデータの変復調を行い、公衆回線網4を介してファクシミリ通信を行う。
ネットワーク通信部17は、NIC(Network Interface Card)等によって実現され、ネットワーク5を介して外部装置3との間で信号を送受信する。外部装置3には、例えば、パーソナルコンピュータ、サーバ装置等が含まれる。
ネットワーク5は、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、イントラネット等であり、有線でも無線でもよい。
〔各種データの詳細〕
次に、記憶部11に記憶された各種データの詳細について説明する。形態素情報111は、文字又は文字列の形態素の解析に用いる単語の品詞等の情報である。
図2は、定義ファイルリスト113の一例を示す図である。定義ファイルリスト113は、定義ファイル114をグループごとに分類してリスト化した情報である。グループは、定義ファイル114に記録された指定キー(後述する)の属性に応じて構成されている。グループは、群の一例である。
換言すれば、同一のグループには、共通の属性を有する文字又は文字列(以下、単に「キー」又は「key」ともいう。)が抽出の対象として記録された定義ファイル114(以下、「キーの検索に係る定義ファイル114」ともいう。以下、同様。)が属している。ここで、「共通の属性」とは、当該グループに属する複数の定義ファイル114にそれぞれ記録された複数の指定キーに共通する属性をいい、「共通の属性」には、例えば、複数の指定キーを包含する上位の概念が該当する。なお、以下、指定キーに共通する属性を、単に「指定キーの属性」ともいう。
定義ファイルリスト113には、図2に示すように、例えば、請求番号、見積番号、口座番号等、各種の番号の検索に係る定義ファイル114を分類する第1のグループ113aの欄と、請求日、見積日、発行日等、各種の日付の検索に係る定義ファイル114を分類する第2のグループ113bの欄と、請求金額や見積金額等、各種の金額の検索に係る定義ファイル114を分類する第3のグループ113cの欄と、第1から第3のグループ113a~cに属しないその他の定義ファイル114を一括してまとめる第4のグループ113dの欄と、が設けられている。番号、日付及び金額は、各グループ113a~cに属する複数の定義ファイル114にそれぞれ記録された複数の指定キーに共通する属性の一例である。なお、属性は、番号、日付及び金額に限定されるものではない。
各グループ113a~dの欄には、それぞれのグループ113a~dに属する定義ファイル114を識別する情報(以下、一例として、ファイルの名称を例に挙げて説明する。)が記録されている。ファイルの名称(以下、単に「ファイル名」ともいう。)は、操作者(以下、「ユーザ」ともいう。)によって設定及び登録された、抽出の対象となる文字又は文字列(以下、「指定キー」ともいう。)を含めて構成してもよい。指定キーは、第1の文字又は文字列の一例である。
例えば、第1のグループ113aの欄には、「請求番号」の検索に係る第1の定義ファイル114Aのファイル名(例えば、「key定義ファイル(請求番号)」)、「見積番号」の検索に係る第2の定義ファイル114Bのファイル名(例えば、「key定義ファイル(見積番号)」)、及び「口座番号」の検索に係る第3の定義ファイル114Cのファイル名(例えば、「key定義ファイル(口座番号)」)が記録されている。第1の定義ファイル114Aは、第1の記録手段の一例である。第2の定義ファイル114B及び第3の定義ファイル114Cは、第2の記録手段の一例である。
図3は、定義ファイル114の一例を示す図であり、(a)は、第1の定義ファイル114Aの一例を示す図、(b)は、第2の定義ファイル114Bの一例を示す図、(c)は、第3の定義ファイル114Cの一例を示す図である。定義ファイル114には、抽出の対象となる文字又は文字列(以下、「(抽出キー」又は「検索キー」ともいう。)114aと、抽出の対象から除外される文字又は文字列(以下、「除外キー」ともいう。)114bと、がそれぞれリスト化されて記録されている。
除外キー114bは、抽出の対象から除外する除外条件を構成する。換言すれば、定義ファイル114は、抽出の対象となる抽出キー114aとともに、抽出の対象から除外キー114bを除外する、との除外条件を記録したファイルである。定義ファイル114は、記録手段の一例である。
抽出キー114aには、ユーザの操作によって設定及び登録がなされた指定キー、及び当該指定キーの属性を示す属性キーが含まれる。属性キーは、例えば、グループの名称(以下、単に「グループ名」ともいう。)を示す文字列により構成してよい。属性キーは、第3の文字又は文字列の一例である。
除外キー114bには、当該定義ファイル114に抽出キー114aとして記録された指定キーと共通の属性を有する他の指定キーが該当する。「他の指定キー」とは、定義ファイルリスト113において同一のグループに分類された定義ファイル114のうち、当該定義ファイル114以外の定義ファイル114に記録されている指定キーが該当する。
換言すれば、指定キーの検索に係る一の定義ファイル114と、除外キー114bに記録されたキーを指定キーとする他の定義ファイル114とは、同一のグループに属している。除外キー114bとしての他の指定キーは、第2の文字又は文字列の一例である。
具体的には、図3(a)に示すように、第1の定義ファイル114Aには、抽出キー114aとして、指定キーである「請求番号」との文字列と、属性キーである「番号」との文字列と、が記録される。
また、第1の定義ファイル114Aには、除外キー114bとして、指定キーである「請求番号」と共通の属性を有する「見積番号」との文字列と、「口座番号」との文字列と、が記録されている。「見積番号」及び「口座番号」は、いずれも第1のグループ113aに属するその他の定義ファイル114(具体的には、それぞれ第2の定義ファイル114B及び第3の定義ファイル114C)に記録された指定キーである。
第1の定義ファイル114Aと同様に、第2の定義ファイル114Bには、図3(b)に示すように、抽出キー114aとして「見積番号」及び「番号」との文字列が記録され、除外キー114bとして「請求番号」及び「口座番号」との文字列が記録されている。また、第3の定義ファイル114Cには、図3(c)に示すように、抽出キー114aとして「口座番号」及び「番号」との文字列が記録され、除外キー114bとして「請求番号」及び「見積番号」との文字列が記録されている。
画面情報115は、後述する表示制御手段106により操作表示部12の表示面(不図示)に表示される各種画面の情報である。画面情報115について、図4各図を参照して説明する。図4は、画面の一例を示す図であり、(a)は、選択画面の一例を示す図、(b)は、設定画面の一例を示す図、(c)は、確認画面の一例を示す図である。
選択画面61は、ユーザに使用する機能を選択させる画面である。図4(a)に示すように、選択画面61には、請求書の属性を抽出する請求書属性抽出機能を起動する第1の釦611A、見積書の属性を抽出する見積書属性抽出機能を起動する第2の釦611B、請求書内の抽出の対象となるキーの設定を行う請求書key設定機能を起動する第3の釦612A、及び見積書内の抽出の対象となるキーの設定を行う見積書key設定機能を起動する第4の釦612Bが含まれる。以下、第1~第4の釦を総称する場合、単に「操作釦」ともいう。
請求書及び見積書は、読み取りの対象となる文書の一例である。なお、文書は、請求書及び見積書に限定されるものではなく、例えば、申請書、契約書、仕様書、帳票等、文字、図形、画像等、及びこれらのいくつかを組み合わせて構成したものを含む。文書は、原稿の一例である。
設定画面62は、ユーザがキーの設定及び登録を行う画面である。図4(b)に示すように、設定画面62には、キーの設定を行う設定釦621と、設定されたキーを登録する登録釦622とを含んでいる。ここで、「登録」とは、記憶部11の定義ファイル114にキーを記録することをいう。なお、ユーザにより設定及び登録の対象となるキーについて、定義ファイル114に記録される前のキーと、定義ファイル114に記録されたキーとを区別して特定する場合は、前者を単に「キー」ともいい、後者を特に「指定キー」ともいう。
確認画面63は、画像から抽出された文字又は文字列と、この抽出された文字又は文字列に関連付いたバリュー値とを表示する画面である。図4(c)に示すように、確認画面63には、抽出された文字又は文字列が示す内容(すなわち、属性)を示す属性欄631と、各属性に関連付いたバリュー値を示す値欄632とがそれぞれ列ごとに並べて示されている。
OCR情報116は、文字のパターンを辞書化した情報である。OCR情報116は、認識手段104によるOCR処理に用いられる。
〔制御部10の各手段の構成〕
次に、制御部10を構成する各手段の詳細について説明する。生成手段100は、ユーザによるキーを設定及び登録する操作に応じて、抽出キー114aとして指定キーが記録された定義ファイル114を生成する。
解析手段101は、形態素情報111を参照して定義ファイル114に記録された指定キーの形態素の解析(以下、単に「形態素解析」ともいう。)を行い、解析の結果を出力する。一例として、解析手段101は、指定キーとしての「請求番号」との文字列を形態素解析して、「請求」との文字列と「番号」との文字列との2つの形態素に分解する。
判定手段102は、解析手段101により出力された結果に応じて、当該定義ファイル114が、定義ファイルリスト113に記録されたグループ113a~dのうちいずれのグループ113a~dに属するかを判定する。
具体的には、判定手段102は、解析手段101により出力された形態素の中に、定義ファイルリスト113に記録されたいずれかのグループ名と一致するものがあるか否かを判定する。より具体的には、上述の例では、判定手段102は、2つの形態素「請求」及び「番号」の中に、定義ファイルリスト113に記録されたグループ名、すなわち「番号」、「日付」及び「金額」のいずれかと一致するか否かを判定する。
追加手段103は、定義ファイル114に他のキーを追加する。具体的には、追加手段103は、判定手段102による判定の結果に応じて、抽出キー114aとしての属性キーを追加する。より具体的には、上述したように、追加手段103は、指定キーの属性を示す文字列(具体的には、当該定義ファイル114が属するグループ名を示す文字列)を、抽出キー114aとして追加する。なお、属性キーは、定義ファイル114内において指定キーの下の位置に記録される。
また、追加手段103は、抽出の対象から除外する除外条件を構成する情報として除外キー114bを定義ファイル114に追加する。具体的には、追加手段103は、定義ファイルリスト113を参照して、定義ファイル114に記録された指定キーと共通の属性を有する他の指定キーを除外キー114bとして追加する。より具体的には、追加手段103は、定義ファイルリスト113において、当該定義ファイル114と同一のグループに属する他の定義ファイル114に記録された指定キーを除外キー114bとして追加する。
認識手段104は、情報処理装置1に取り込まれた画像に含まれる文字を認識して当該文字を示す文字情報を出力する。画像は、例えば、画像読取部14により原稿を読み取って取り込んだものでもよく、予め外部の機器(例えば、スキャナ)で原稿を読み取って取り込んだものでもよい。
文字の認識は、例えば、OCR(Optical Character Recognition)処理により行われる。文字情報には、認識した文字の内容や意味を示す情報(いわゆる、テキスト情報)や、画像内の当該文字の位置を示す情報(例えば、座標値)等が含まれる。
抽出手段105は、認識手段104により認識された文字の中から、予め指定された特定の文字又は文字列を検索して抽出する。具体的には、抽出手段105は、定義ファイル114を参照し、認識手段104により出力された文字情報から、定義ファイル114に記録された抽出キー114aを検索して抽出する。なお、定義ファイル114に抽出キー114aとして複数のキーが記録されている場合、抽出手段105は、記録された順に、すなわち先頭から後尾に向かって順にキーを検索する。
より具体的には、まず、抽出手段105は、文字情報に、抽出キー114aのうちの指定キーが含まれているか検索する。文字情報に指定キーが含まれている場合、抽出手段105は、当該指定キーを抽出する。これに対して、文字情報に指定キーが含まれていない場合、抽出手段105は、除外キー114bを除外して属性キーが含まれる文字列を検索して抽出する。
また、抽出手段105は、該文字情報から、抽出されたキーに関連付いた値(以下、「バリュー値」ともいう。)を検索して抽出する。
表示制御手段106は、操作表示部12の表示面に、画面情報115等の各種の情報を表示するよう制御する。
(実施の形態の動作)
次に、情報処理装置1の動作の一例について説明する。以下の説明では、(1)画像として取り込まれる文書、(2)定義ファイル114の設定及び登録の動作、及び(3)文書を読み取った読取画像(以下、単に「文書画像」ともいう。)から指定されたキーとバリュー値とを抽出する処理(以下、「キーバリュー処理」ともいう。)に係る動作、に分けて説明する。
(1)画像として取り込まれる文書
図5は、動作の説明に用いる文書としての見積書の一例を示す図であり、(a)は、第1の見積書の一例を示す図、(b)は、第2の見積書の一例を示す図である。図5(a)に示すように、第1の見積書7Aには、例えば、見積りの番号を示す見積番号情報75が含まれている。また、図5(b)に示すように、第2の見積書7Bは、例えば、見積りの番号を示す見積番号情報75Bに加えて、口座番号等の振り込み先を示す振込先情報74が含まれている。
(2)定義ファイル114の設定及び登録の動作
次に、図6を参照して、定義ファイル114の設定及び登録の動作について説明する。図6は、定義ファイル114の設定及び登録の動作の一例を示すフローチャートである。図6に示すように、まず、表示制御手段106は、操作表示部12の表示面に選択画面61(図4(a)参照)を表示するよう制御する(S1)。
次に、ユーザにより選択画面61内の操作釦が操作されると(S2:Yes)、表示制御手段106は、操作表示部12の表示面に設定画面62(図4(b)参照)を表示するよう制御する(S3)。
次に、ユーザの操作によりキーが登録されると(S4:Yes)、生成手段100は、指定キーが記録された定義ファイル114を生成する(S5)。
次に、解析手段101は、定義ファイル114に記録された指定キーの形態素解析を行う(S6)。判定手段102は、当該指定キーの属するグループが定義ファイルリスト113に存在するか否かを判定する(S7)。
該当のグループが定義ファイルリスト113に存在する場合(S7:Yes)、追加手段103は、定義ファイルリスト113を参照して、定義ファイル114に除外条件を追加する(S8)。具体的には、追加手段103は、当該指定キーと共通の属性を有する他の指定キーを除外キー114bとして定義ファイル114に追加する。
(3)キーバリュー処理に係る動作
次に、図7を参照して、キーバリュー処理に係る動作について説明する。図7は、キーバリュー処理の動作の一例を模式的に示す図である。定義ファイル114として、上述した第2の定義ファイル114Bを用いる場合を例に挙げて説明する。
まず、画像読取部14は、第1の見積書7A及び第2の見積書7Bをそれぞれスキャンして文書画像を形成する(S10)。次に、認識手段104は、文書画像に対してOCR処理を実行して、文書画像に含まれる文字を示す文字情報70Bを出力する(S11)。
抽出手段105は、出力された文字情報70Bから、定義ファイル114に記録された指定キーを検索して抽出するとともに、当該指定キーに関連付いたバリュー値を抽出する(S12)。
図7に示すように、第2の見積書7Bにおいて、OCR処理により「見積番号」との文字列が誤って「見晴番号」等のような異なる文字列として認識された場合(文字情報70B内の枠参照)、すなわち、定義ファイル114Bの冒頭に記録された「見積番号」との指定キーが検索されない場合、抽出手段105は、次に記録された属性キーである「番号」との文字列が含まれる文字列を検索する。このとき、除外キー114bは、抽出の対象から除外される。「見晴番号」等のような誤って認識された指定キーと異なる文字列は、第4の文字又は文字列の一例である。
図7に示す例では、第2の定義ファイル114Bには、除外キー114bとして「請求番号」及び「口座番号」との文字列が記録されている。抽出手段105は、「請求番号」及び「口座番号」を抽出の対象から除外して、「番号」が含まれる文字列を検索して抽出する。この場合、図7に示すように、抽出手段105は、文字情報70Bから、「見晴番号」との文字列のみを抽出する(文字情報70B内の枠参照)。また、抽出手段105は、この「見晴番号」に関連付いたバリュー値である「3333」との数字からなる文字列をさらに抽出する。表示制御手段106は、上記の結果を出力する(S13)。
以上のようにして、文字情報70に抽出の対象として指定された「見積番号」と完全に一致する文字列が検索されない場合であっても、当該文字列に一定の類似度を有する「見晴番号」が抽出され、さらに対応するバリュー値が抽出される。
<変形例1>
次に、図8を参照して、変形例1について説明する。追加手段103は、上述の実施の形態で説明した機能に加えて、定義ファイルリスト113に定義ファイル114を追加する機能をさらに有している。具体的には、追加手段103は、定義ファイル114を、定義ファイル114に記録された指定キーの属性に応じて、対応するグループに追加する。
図8は、変形例に係る情報処理装置1の動作の一例を模式的に示す図である。図8に示すように、ユーザによる設定及び登録の操作に応じて、新たに追加された指定キーである「郵便番号」の検索に係る第4の定義ファイル114Dが新たに生成されると(S20)、解析手段101は、「郵便番号」を形態素解析し、「郵便」及び「番号」の2つの形態素に分解する。新たに追加された指定キーは、第5の文字又は文字列の一例である。
判定手段102が、この2つの形態素のうちの「番号」が第1のグループ113aの名称と一致すると判定する(S21)と、すなわち、当該定義ファイル114が第1のグループ113aに属するものと判定すると、追加手段103は、第4の定義ファイル114Dを第1のグループ113aに追加する(S22)。
また、追加手段103は、第1の定義ファイル114A、第2の定義ファイル114B及び第3の定義ファイル114Cにそれぞれ、除外キー114bとして「郵便番号」との文字列を追加する(23)。以上のように、第1のグループ113aに属するその他の定義ファイル114A~Cの全てに、上記の新たに追加された指定キーが除外条件として追加される。
<変形例2>
次に、図9を参照して、変形例2について説明する。図9は、定義ファイル114の一例を示す図、(b)は、第3の見積書の一例を示す図である。図9(a)に示すように、例えば、「参照」との文字列を除外条件である除外キー114bとして記録してもよい。「参照」との文字列が抽出の対象から除外されると、図9(b)に示すように、第3の見積書7C内に備考として記載された参照情報711が含まれている場合であっても、抽出手段105は、かかる参照情報711を抽出の対象から除外して、請求の番号を示す請求番号情報71を抽出してもよい。
<変形例3>
次に、図10を参照して、変形例3について説明する。図10(a)及び(b)は、定義ファイルリスト113の一例を示す図である。生成手段100は、上述の実施の形態で説明した機能に加えて、定義ファイルリスト113に新たなグループを生成する機能をさらに有している。
図10(a)に示すように、第1~第3のグループ113a~cに分類されない定義ファイル114は、「その他」に係る第4のグループ113dに記録される。第4のグループに記録された定義ファイル114の数が予め定められた個数以上となる場合、生成手段100は、図10(b)に示すように、新たな第5のグループ113eを生成して、第4のグループ113dに記録された定義ファイル114を該第5のグループ113eに記録しなおしてもよい。予め定められた個数は、例えば、3~5個としてよい。
また、生成手段100は、第5のグループ113eに記録された定義ファイル114から共通の属性を抽出して、当該属性を、第5のグループ113eを識別する情報(例えば、名称)として付して第5のグループ113eを生成してもよい。第5のグループ113eは、新たな群の一例である。
以上、本発明の実施の形態を説明したが、本発明の実施の形態は上記実施の形態に限定されるものではなく、本発明の要旨を変更しない範囲内で種々の変形、実施が可能である。
制御部10の各手段は、それぞれ一部又は全部を再構成可能回路(FPGA:Field Programmable Gate Array)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)等のハードウエア回路によって構成してもよい。
また、本発明の要旨を変更しない範囲内で、上記実施の形態の構成要素の一部を省くことや変更することが可能である。また、本発明の要旨を変更しない範囲内で、上記実施の形態のフローにおいて、ステップの追加、削除、変更、入替え等が可能である。また、上記実施の形態で用いたプログラムをCD-ROM等のコンピュータで読み取り可能な記録媒体に記録して提供することができ、クラウドサーバ等の外部サーバに格納しておき、ネットワークを介して利用することもできる。
1…情報処理装置
10…制御部
100…生成手段
101…解析手段
102…判定手段
103…追加手段
104…認識手段
105…抽出手段
106…表示制御手段
11…記憶部
110…プログラム
111…形態素情報
113…定義ファイルリスト
113a…第1のグループ
113b…第2のグループ
113c…第3のグループ
113d…第4のグループ
113e…第5のグループ
114…定義ファイル
114A…第1の定義ファイル
114B…第2の定義ファイル
114C…第3の定義ファイル
114D…第4の定義ファイル
114a…抽出キー
114b…除外キー
115…画面情報
116…情報
12…操作表示部
14…画像読取部
15…画像出力部
16…ファクシミリ通信部
17…ネットワーク通信部
2…外部ファクシミリ装置
3…外部装置
4…公衆回線網
5…ネットワーク
61…選択画面
62…設定画面
63…確認画面
611A…第1の釦
611B…第2の釦
612A…第3の釦
612B…第4の釦
621…設定釦
622…登録釦
631…属性欄
632…値欄
7A…第1の見積書
7B…第2の見積書
7C…第3の見積書
70B…文字情報
71…請求番号情報
74…振込先情報
75,75B…見積番号情報
711…参照情報

Claims (7)

  1. 文字を認識する認識手段と、
    認識された前記文字の中に第1の文字又は文字列が含まれない場合に、該第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する抽出手段と、
    前記抽出手段による抽出の対象として文字又は文字列を登録する登録手段とを備え
    前記登録手段により前記第1の文字又は文字列と共通の属性を有する第5の文字又は文字列が新たに前記抽出の対象として登録された場合に、前記抽出手段は、該第5の文字又は文字列をさらに除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する、
    情報処理装置。
  2. 複数の前記第1の文字又は文字列を前記抽出の対象としてそれぞれ記録する複数の記録手段と、
    前記複数の記録手段のうち、前記第5の文字又は文字列を前記抽出の対象として記録する記録手段以外の記録手段のそれぞれに、前記第5の文字又は文字列を前記抽出手段による抽出から除外する除外条件として追加する追加手段と、
    をさらに備える、
    請求項に記載の情報処理装置。
  3. 複数の前記第1の文字又は文字列を前記抽出の対象としてそれぞれ記録する複数の記録手段と、
    前記第1の文字又は文字列の属性に応じて前記記録手段を群に分類した分類情報の中から、前記複数の記録手段のうち前記第1の文字又は文字列が記録された第1の記録手段と同一の群に属する第2の記録手段に記録された前記第1の文字又は文字列を前記第2の文字又は文字列として前記第1の記録手段に追加する追加手段と、
    をさらに備える、
    請求項1に記載の情報処理装置。
  4. 前記追加手段は、前記第1の記録手段が属する群の名称を示す文字又は文字列を前記第3の文字又は文字列として前記第1の記録手段に追加する、
    請求項に記載の情報処理装置。
  5. 前記第1の文字又は文字列を記録する記録手段と、
    前記第1の文字又は文字列を属性に応じて前記記録手段を群に分類する分類手段と、
    前記群に分類された前記記録手段が予め定められた個数以上となった場合に、新たな群を生成する生成手段と、
    をさらに備える、
    請求項1に記載の情報処理装置。
  6. 前記生成手段は、前記属性を付して前記新たな群を生成する、
    請求項に記載の情報処理装置。
  7. コンピュータを、
    文字を認識する認識手段と、
    認識された前記文字の中に第1の文字又は文字列が含まれない場合に、該第1の文字は文字列と共通の属性を有する第2の文字又は文字列を除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する抽出手段と、
    前記抽出手段による抽出の対象として文字又は文字列を登録する登録手段として、機能させるためのプログラムであって、
    前記登録手段により前記第1の文字又は文字列と共通の属性を有する第5の文字又は文字列が新たに前記抽出の対象として登録された場合に、前記抽出手段は、該第5の文字又は文字列をさらに除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する、
    プログラム。
JP2019024333A 2019-02-14 2019-02-14 情報処理装置及びプログラム Active JP7271987B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019024333A JP7271987B2 (ja) 2019-02-14 2019-02-14 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019024333A JP7271987B2 (ja) 2019-02-14 2019-02-14 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020135095A JP2020135095A (ja) 2020-08-31
JP7271987B2 true JP7271987B2 (ja) 2023-05-12

Family

ID=72263046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019024333A Active JP7271987B2 (ja) 2019-02-14 2019-02-14 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7271987B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064209A (ja) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182772A (ja) 2003-11-28 2005-07-07 Sharp Corp 文字認識装置、プログラムおよび記録媒体
JP2008102737A (ja) 2006-10-19 2008-05-01 Nippon Telegr & Teleph Corp <Ntt> 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
JP2009015395A (ja) 2007-06-29 2009-01-22 Toshiba Corp 辞書構築支援装置および辞書構築支援プログラム
JP2009093659A (ja) 2007-10-10 2009-04-30 Nhn Corp 文書探索サービス提供方法及びシステム
JP2011081454A (ja) 2009-10-02 2011-04-21 Sharp Corp 情報処理装置、情報処理方法、プログラムおよび記録媒体
JP2011107966A (ja) 2009-11-17 2011-06-02 Hitachi Solutions Ltd 文書処理装置
JP2011198285A (ja) 2010-03-23 2011-10-06 Hitachi Solutions Ltd 文書処理システム、及びプログラム
WO2012095971A1 (ja) 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
JP2014071697A (ja) 2012-09-28 2014-04-21 Omron Corp 画像処理システムおよび画像処理方法
JP2016018365A (ja) 2014-07-08 2016-02-01 シャープ株式会社 データ処理装置、データ処理システム、データ表示装置、データ処理方法、表示方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203415A (ja) * 1998-01-16 1999-07-30 Fuji Xerox Co Ltd 類似パターンカテゴリ識別辞書作成装置および方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182772A (ja) 2003-11-28 2005-07-07 Sharp Corp 文字認識装置、プログラムおよび記録媒体
JP2008102737A (ja) 2006-10-19 2008-05-01 Nippon Telegr & Teleph Corp <Ntt> 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
JP2009015395A (ja) 2007-06-29 2009-01-22 Toshiba Corp 辞書構築支援装置および辞書構築支援プログラム
JP2009093659A (ja) 2007-10-10 2009-04-30 Nhn Corp 文書探索サービス提供方法及びシステム
JP2011081454A (ja) 2009-10-02 2011-04-21 Sharp Corp 情報処理装置、情報処理方法、プログラムおよび記録媒体
JP2011107966A (ja) 2009-11-17 2011-06-02 Hitachi Solutions Ltd 文書処理装置
JP2011198285A (ja) 2010-03-23 2011-10-06 Hitachi Solutions Ltd 文書処理システム、及びプログラム
WO2012095971A1 (ja) 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
JP2014071697A (ja) 2012-09-28 2014-04-21 Omron Corp 画像処理システムおよび画像処理方法
JP2016018365A (ja) 2014-07-08 2016-02-01 シャープ株式会社 データ処理装置、データ処理システム、データ表示装置、データ処理方法、表示方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
勝山 裕、外4名,"形態素解析とキーワード領域内の候補文字ラティス情報を用いた単語照合による文書画像の高精度検索方式",電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2005年08月01日,Vol.J88-D-II, No.8,pp.1740-1749
山田 敬之、外2名,"各属性のレビュー・評価値の関係を用いた評判情報の検索支援",電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2008年01月31日,Vol.107, No.480,pp.1-6

Also Published As

Publication number Publication date
JP2020135095A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
JP5774597B2 (ja) 動的変動ネットワークを使用するシステムおよび方法
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
JPH08305731A (ja) 文書格納等の方法及び文書サーバ
JP2006350664A (ja) 文書処理装置
JP5730890B2 (ja) 動的変動ネットワークを使用するシステムおよび方法
JP6786658B2 (ja) 書類読取システム
US20090002742A1 (en) Image input/output apparatus and image input/output method
JP2008310772A (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
JP7271987B2 (ja) 情報処理装置及びプログラム
US20210287187A1 (en) Image processing apparatus and non-transitory computer readable medium storing program
US11657367B2 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP4682747B2 (ja) 文書処理装置、ルールデータ生成方法およびプログラム
JP7268389B2 (ja) 情報処理装置及びプログラム
CN108875570B (zh) 信息处理装置、存储介质和信息处理方法
JP2021056722A (ja) 情報処理装置及びプログラム
JP4281719B2 (ja) ファイル処理装置、ファイル処理方法、およびファイル処理プログラム
JP4827519B2 (ja) 画像処理装置、画像処理方法、およびプログラム
US11363162B2 (en) System and method for automated organization of scanned text documents
JP7408340B2 (ja) 画像処理装置の制御方法、プログラム及び画像処理装置
JP2011095889A (ja) 画像読取装置
JP2010072850A (ja) 画像処理装置
JP6281739B2 (ja) 処理装置及びプログラム
JP4645349B2 (ja) 情報処理装置およびプログラム
JP7439553B2 (ja) 制御プログラム、情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230410

R150 Certificate of patent or registration of utility model

Ref document number: 7271987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150