JP6871840B2 - 計算機及び文書識別方法 - Google Patents
計算機及び文書識別方法 Download PDFInfo
- Publication number
- JP6871840B2 JP6871840B2 JP2017214170A JP2017214170A JP6871840B2 JP 6871840 B2 JP6871840 B2 JP 6871840B2 JP 2017214170 A JP2017214170 A JP 2017214170A JP 2017214170 A JP2017214170 A JP 2017214170A JP 6871840 B2 JP6871840 B2 JP 6871840B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- type
- risk
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 94
- 230000008569 process Effects 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 49
- 238000012790 confirmation Methods 0.000 claims description 45
- 238000012937 correction Methods 0.000 claims description 34
- 238000012986 modification Methods 0.000 claims description 25
- 230000004048 modification Effects 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 8
- 238000012553 document review Methods 0.000 description 71
- 238000012015 optical character recognition Methods 0.000 description 61
- 238000007726 management method Methods 0.000 description 56
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002715 modification method Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/96—Management of image or video recognition tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Character Discrimination (AREA)
Description
110 入力端末
120 クライアント端末
130 スキャナ
150 ネットワーク
201 プロセッサ
202 主記憶装置
203 副記憶装置
204 ネットワークインタフェース
205 入力装置
206 出力装置
211 文書審査モジュール
212 学習処理モジュール
213 リスク回避判定モジュール
214 ルール生成モジュール
215 テンプレート設定モジュール
221 テンプレート情報
222 単語辞書
223 表記辞書
224 リスク特定ルール管理情報
225 修正ルール管理情報
901 文書画像データ
902 OCR要素
903 代表OCR要素
904 特徴ベクトル
905 文書サマリ情報
Claims (6)
- 任意の審査の対象の文書に含まれる文字列である属性を抽出する計算機であって、
前記計算機は、プロセッサ及び前記プロセッサに接続される記憶装置を備え、
前記記憶装置は、少なくとも一つ以上の属性の種別が定義された複数のテンプレートを管理するためのテンプレート情報と、前記審査において発生する可能性があるリスクの種別を特定するための文字列又は文字列の条件を定義するリスク特定ルールを管理するための第1管理情報と、前記審査に用いられる出力情報の確認操作の種別の修正方法を定義する修正ルールを管理するための第2管理情報と、を格納し、
前記テンプレート情報は、前記テンプレートの識別情報及び前記属性の種別を示す識別情報から構成されるエントリを複数含み、
前記第1管理情報は、種別が異なる前記リスクに対応する前記リスク特定ルールの情報を格納し、
前記修正ルールは、修正前の確認操作の種別、特定されたリスクの種別の組合せによって定義される条件式、及び修正後の確認操作の種別から構成され、
前記プロセッサは、
前記文書の画像データに対して文字認識処理を実行し、
前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの各々に定義された前記属性の種別に対応する属性を抽出し、
前記抽出された属性に基づいてテンプレートを選択し、
前記選択されたテンプレートを用いて抽出された属性を含む、前記出力情報を生成し、
前記生成された出力情報の信頼性を示す評価値を算出し、
前記評価値及び閾値の比較結果に基づいて、前記審査が行われる前に前記生成された出力情報に対して行われる確認操作の種別を決定し、
前記文書に含まれる文字列に基づいて、前記決定された確認操作の種別の修正が必要であるか否かを判定し、
前記決定された確認操作の種別の修正が必要であると判定された場合、前記決定された確認操作の種別を修正し、
前記決定された確認操作の種別の修正が必要であるか否かを判定する処理では、前記プロセッサが、
前記第1管理情報及び前記生成された出力情報に基づいて、前記文書に存在するリスクの種別を特定し、
前記確認操作の種別及び前記特定されたリスクの種別の組合せに基づいて前記第2管理情報を参照して、該当する修正ルールが存在するか否かを判定し、
前記決定された確認操作の種別を修正する処理では、前記プロセッサが、前記該当する修正ルールが存在すると判定された場合、前記該当する修正ルールに基づいて、前記確認操作の種別を修正することを特徴とする計算機。 - 請求項1に記載の計算機であって、
前記プロセッサは、
前記文書から抽出された属性、及び前記確認操作の種別にしたがって操作された出力情報を用いた審査の結果を対応づけた学習用データを、前記記憶装置に格納し、
前記学習用データを用いて学習処理を実行することによって、任意の種別のリスクが発生する可能性がある文字列又は文字列の条件を表示する表示情報を生成し、
前記生成された表示情報を出力することを特徴とする計算機。 - 請求項1に記載の計算機であって、
前記第1管理情報は、数値に対応する文字列の大小関係の条件を定義するリスク特定ルールを含むことを特徴とする計算機。 - 任意の審査の対象の文書に含まれる文字列である属性を抽出する計算機が実行する文書識別方法であって、
前記計算機は、プロセッサ及び前記プロセッサに接続される記憶装置を備え、
前記記憶装置は、少なくとも一つ以上の属性の種別が定義された複数のテンプレートを管理するためのテンプレート情報と、前記審査において発生する可能性があるリスクの種別を特定するための文字列又は文字列の条件を定義するリスク特定ルールを管理するための第1管理情報と、前記審査に用いられる出力情報の確認操作の種別の修正方法を定義する修正ルールを管理するための第2管理情報と、を格納し、
前記テンプレート情報は、前記テンプレートの識別情報及び前記属性の種別を示す識別情報から構成されるエントリを複数含み、
前記第1管理情報は、種別が異なる前記リスクに対応する前記リスク特定ルールの情報を格納し、
前記修正ルールは、修正前の確認操作の種別、特定されたリスクの種別の組合せによって定義される条件式、及び修正後の確認操作の種別から構成され、
前記文書識別方法は、
前記プロセッサが、前記文書の画像データに対して文字認識処理を実行する第1のステップと、
前記プロセッサが、前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの各々に定義された前記属性の種別に対応する属性を抽出する第2のステップと、
前記プロセッサが、前記抽出された属性に基づいてテンプレートを選択する第3のステップと、
前記プロセッサが、前記選択されたテンプレートを用いて抽出された属性を含む、前記出力情報を生成する第4のステップと、
前記プロセッサが、前記生成された出力情報の信頼性を示す評価値を算出する第5のステップと、
前記プロセッサが、前記評価値及び閾値の比較結果に基づいて、前記審査が行われる前に前記生成された出力情報に対して行われる確認操作の種別を決定する第6のステップと、
前記プロセッサが、前記文書に含まれる文字列に基づいて、前記決定された確認操作の種別の修正が必要であるか否かを判定する第7のステップと、
前記プロセッサが、前記決定された確認操作の種別の修正が必要であると判定された場合、前記決定された確認操作の種別を修正する第8のステップと、を含み、
前記第7のステップは、
前記プロセッサが、前記第1管理情報及び前記生成された出力情報に基づいて、前記文書に存在するリスクの種別を特定するステップと、
前記プロセッサが、前記確認操作の種別及び前記特定されたリスクの種別の組合せに基づいて前記第2管理情報を参照して、該当する修正ルールが存在するか否かを判定するステップと、を含み、
前記第8のステップは、前記プロセッサが、前記該当する修正ルールに基づいて、前記確認操作の種別を修正するステップを含むことを特徴とする文書識別方法。 - 請求項4に記載の文書識別方法であって、
前記プロセッサが、前記文書から抽出された属性、及び前記確認操作の種別にしたがって操作された出力情報を用いた審査の結果を対応づけた学習用データを、前記記憶装置に格納するステップと、
前記プロセッサが、前記学習用データを用いて学習処理を実行することによって、任意の種別のリスクが発生する可能性がある文字列又は文字列の条件を表示する表示情報を生成するステップと、
前記プロセッサが、前記生成された表示情報を出力するステップと、を含むことを特徴とする文書識別方法。 - 請求項4に記載の文書識別方法であって、
前記第1管理情報は、数値に対応する文字列の大小関係の条件を定義するリスク特定ルールを含むことを特徴とする文書識別方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017214170A JP6871840B2 (ja) | 2017-11-06 | 2017-11-06 | 計算機及び文書識別方法 |
CN201810962608.0A CN109753964B (zh) | 2017-11-06 | 2018-08-22 | 计算机以及文件识别方法 |
US16/117,198 US10783366B2 (en) | 2017-11-06 | 2018-08-30 | Computer and document identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017214170A JP6871840B2 (ja) | 2017-11-06 | 2017-11-06 | 計算機及び文書識別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019086984A JP2019086984A (ja) | 2019-06-06 |
JP6871840B2 true JP6871840B2 (ja) | 2021-05-19 |
Family
ID=66327320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017214170A Active JP6871840B2 (ja) | 2017-11-06 | 2017-11-06 | 計算機及び文書識別方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10783366B2 (ja) |
JP (1) | JP6871840B2 (ja) |
CN (1) | CN109753964B (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6938228B2 (ja) * | 2017-05-31 | 2021-09-22 | 株式会社日立製作所 | 計算機、文書識別方法、及びシステム |
CN110321423B (zh) * | 2019-05-31 | 2023-03-31 | 创新先进技术有限公司 | 一种文本数据的风险识别方法及服务器 |
JP7364998B2 (ja) * | 2019-06-26 | 2023-10-19 | 京セラドキュメントソリューションズ株式会社 | 文書分類システムおよび文書分類プログラム |
US11687734B2 (en) | 2019-07-05 | 2023-06-27 | Elsevier, Inc. | Systems and methods to extract the context of scientific measurements using targeted question answering |
JP2021039494A (ja) * | 2019-09-02 | 2021-03-11 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7463675B2 (ja) * | 2019-09-03 | 2024-04-09 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
JP6722929B1 (ja) * | 2019-09-27 | 2020-07-15 | AI inside株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP7443012B2 (ja) * | 2019-10-03 | 2024-03-05 | キヤノン株式会社 | メタデータを設定するための設定方法、プログラム、装置 |
JP6712738B1 (ja) * | 2019-10-31 | 2020-06-24 | 株式会社日本デジタル研究所 | 証憑判定装置、会計処理装置、証憑判定プログラム、証憑判定システム及び証憑判定方法 |
CN111144334B (zh) * | 2019-12-27 | 2023-09-26 | 北京天融信网络安全技术有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
CN111126029B (zh) * | 2019-12-31 | 2020-12-04 | 广州市昊链信息科技股份有限公司 | 一种电子单据的生成方法、装置、计算机设备和存储介质 |
JP6912841B2 (ja) * | 2020-04-30 | 2021-08-04 | 株式会社日本デジタル研究所 | 証憑判定装置、会計処理装置、証憑判定プログラム、証憑判定システム及び証憑判定方法 |
JP6842219B1 (ja) * | 2020-04-30 | 2021-03-17 | 株式会社日本デジタル研究所 | 会計処理装置、会計処理プログラム、会計処理システム及び会計処理方法 |
US11755973B2 (en) * | 2021-02-12 | 2023-09-12 | Accenture Global Solutions Limited | System and method for intelligent contract guidance |
CN113434672B (zh) * | 2021-06-24 | 2023-12-19 | 中核深圳凯利集团有限公司 | 文本类型智能识别方法、装置、设备及介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0601107A4 (en) * | 1991-08-30 | 1995-03-15 | Trw Financial Systems Inc | METHOD AND APPARATUS FOR CONVERTING DOCUMENT BETWEEN PAPER MEDIUM AND ELECTRONIC MEDIA. |
US5251273A (en) * | 1992-04-15 | 1993-10-05 | International Business Machines Corporation | Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms |
JPH07296102A (ja) * | 1994-04-27 | 1995-11-10 | Hitachi Ltd | データ入力方式 |
US5644656A (en) * | 1994-06-07 | 1997-07-01 | Massachusetts Institute Of Technology | Method and apparatus for automated text recognition |
US8165958B1 (en) | 1999-03-26 | 2012-04-24 | Metavante Corporation | Electronic bill presentation and payment method and system |
JP2002230479A (ja) * | 2001-01-30 | 2002-08-16 | Tokio Marine & Fire Insurance Co Ltd | コンピュータ・システム並びに帳票処理方法及びプログラム |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
JP2007109051A (ja) * | 2005-10-14 | 2007-04-26 | Seiko Epson Corp | 帳票識別装置 |
JP2011215728A (ja) * | 2010-03-31 | 2011-10-27 | Toshiba Corp | 書類管理システム、判定装置、データ出力制御装置、書類管理方法、書類管理プログラム |
JP2016048444A (ja) * | 2014-08-27 | 2016-04-07 | 沖電気工業株式会社 | 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法 |
JP6050843B2 (ja) * | 2015-01-30 | 2016-12-21 | 株式会社Pfu | 情報処理装置、方法およびプログラム |
US10534968B1 (en) * | 2015-04-16 | 2020-01-14 | State Farm Mutual Automobile Insurance Company | Verifying odometer mileage using captured images and optical character recognition (OCR) |
JP6938228B2 (ja) * | 2017-05-31 | 2021-09-22 | 株式会社日立製作所 | 計算機、文書識別方法、及びシステム |
-
2017
- 2017-11-06 JP JP2017214170A patent/JP6871840B2/ja active Active
-
2018
- 2018-08-22 CN CN201810962608.0A patent/CN109753964B/zh active Active
- 2018-08-30 US US16/117,198 patent/US10783366B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10783366B2 (en) | 2020-09-22 |
JP2019086984A (ja) | 2019-06-06 |
CN109753964A (zh) | 2019-05-14 |
US20190138804A1 (en) | 2019-05-09 |
CN109753964B (zh) | 2023-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6871840B2 (ja) | 計算機及び文書識別方法 | |
JP6938228B2 (ja) | 計算機、文書識別方法、及びシステム | |
US10366123B1 (en) | Template-free extraction of data from documents | |
JP6938408B2 (ja) | 計算機及びテンプレート管理方法 | |
JP6268352B2 (ja) | 会計データ入力システム、方法、およびプログラム | |
US20130318426A1 (en) | Automated learning of document data fields | |
JP5385349B2 (ja) | レシート定義データ作成装置およびそのプログラム | |
US20130251211A1 (en) | Automated processing of documents | |
JP6001743B1 (ja) | データ管理システム、方法およびプログラム | |
JP2015014854A (ja) | 会計処理システム | |
US20120179702A1 (en) | Method for setting metadata, system for setting metadata, and program | |
JP2019191665A (ja) | 財務諸表読取装置、財務諸表読取方法及びプログラム | |
CN112487859A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
JP5895876B2 (ja) | プログラム及び帳票処理装置 | |
JP5550959B2 (ja) | 文書処理システム、及びプログラム | |
JP6993032B2 (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
JP5304397B2 (ja) | 帳票処理装置及び帳票処理プログラム | |
JP3766854B2 (ja) | データ処理装置 | |
JP2006252575A (ja) | 財務諸表自動入力装置及び財務諸表自動入力方法 | |
JP7312646B2 (ja) | 情報処理装置、文書識別方法、及び情報処理システム | |
JP2022029398A (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
WO2023062798A1 (ja) | 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム | |
JP7273911B2 (ja) | 原稿審査支援方法、装置、プログラム、および辞書システム | |
JP2000194775A (ja) | 顧客デ―タの作成方法及びその方法をコンピュ―タに実行させるためのプログラムを記録したコンピュ―タ読み取り可能な記録媒体 | |
JP2021071988A (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210413 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210416 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6871840 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |