JP2020181523A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2020181523A JP2020181523A JP2019086033A JP2019086033A JP2020181523A JP 2020181523 A JP2020181523 A JP 2020181523A JP 2019086033 A JP2019086033 A JP 2019086033A JP 2019086033 A JP2019086033 A JP 2019086033A JP 2020181523 A JP2020181523 A JP 2020181523A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- information processing
- word
- words
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 71
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 230000004044 response Effects 0.000 claims abstract description 3
- 230000000877 morphologic effect Effects 0.000 claims description 17
- 238000000034 method Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000012790 confirmation Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000021615 conjugation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
まず、本実施の形態で処理対象とする文書について説明する。図1は処理対象とする文書の一例を示す概略図である。処理対象とする文書は、項目と項目に対応する値とを含む文書である。例えば、見積書等の帳票は、項目毎に対応する値が記述されている。以下では、文書が見積書である場合について説明する。
項目を表す文字列と、項目に対応する値を表す文字列とは、各々の頁内での位置により対応づけられている。項目を表す文字列を指定して、文字認識の結果から、対応する値を表す文字列を抽出する。以下では、項目を表す文字列を「キーワード」、値を表す文字列を単に「値」という。また、キーワードを指定して値を抽出することを「値抽出処理」という。
次に、情報処理装置のハードウェア構成について説明する。
図2は本発明の実施の形態に係る情報処理装置の電気的構成の一例を示すブロック図である。図2に示すように、情報処理装置10は、接続された各部を制御すると共に各種演算を行うコンピュータである情報処理部12を備えている。即ち、情報処理部12は、CPU(中央処理装置:Central Processing Unit)12A、ROM(Read Only Memory)12B、RAM(Random Access Memory)12C、不揮発性のメモリ12D、及び入出力部(I/O)12Eを備えている。
次に、キーワードを管理する管理テーブルについて説明する。
図3は管理テーブルの一例を示す図表である。図3に示すように、キーワードは、関連するキーワード群(以下、「関連キーワード群」という。)毎にまとめられ、管理テーブルの形式で記憶されている。関連キーワード群の各々には、関連キーワード群を識別する識別情報として整理番号が付されている。管理テーブルには、関連キーワード群毎に、整理番号、文書種別、及び関連キーワード群の対応関係が記憶されている。
次に、情報処理装置の機能構成について説明する。
図4は本発明の実施の形態に係る情報処理装置の機能構成の一例を示すブロック図である。図2に示すように、情報処理装置10は、文字認識部30、値抽出部32、キーワード追加処理部34、及び出力部36を備えている。
次に、値抽出処理の制御プログラムについて説明する。
図5は「値抽出処理」の流れの一例を示すフローチャートである。値抽出処理の制御プログラムは、情報処理装置10のCPU12Aにより、記憶部20から読み出されて実行される(図2参照)。利用者により値抽出処理の開始が指示されると、値抽出処理の制御プログラムが実行される。
ここで、「キーワード追加処理」について説明する。
図6は「キーワード追加処理」の流れの一例を示すフローチャートである。まず、ステップ200で、キーワード追加画面を操作表示部に表示させる。キーワード追加画面は、キーワードの追加入力を受け付けるための画面である。利用者によりキーワードが追加された場合に、予め定めた条件下で、登録済みキーワードと追加キーワードとから自動生成キーワードを生成する。
ここで、「キーワード生成処理」について説明する。
図7は「キーワード生成処理」の流れの一例を示すフローチャートである。図13〜図15はキーワードを表す有向グラフが統合される様子を表す図である。この例では、「御見積書番号」が登録済みキーワードとして管理テーブルに予め登録されている。追加キーワードとして「見積No」が追加されるが、「見積No」は未登録である。
追加キーワードから取得された第1単語群、及び登録済みキーワードから取得された第2単語群の各々に含まれる「同一の単語及び類似の単語」を、組合せの基準になる一対の基準単語として検出する。
組合せの対象を、第1単語群内の基準単語の前または後ろに繋がり且つ組合せの対象になる第1対象単語、及び第2単語群内の前または後ろに繋がり且つ組合せの対象になる第2対象単語の少なくとも一方とする。
第1対象単語及び第2対象単語の少なくとも一方と基準単語とを、基準単語との前後関係を保持したまま組み合わせる。ここで、品詞が接頭語や接尾語等の一部の単語は、省略または追加してもよい。
なお、上記実施の形態で説明した情報処理装置、情報処理システム、及びプログラムの構成は一例であり、本発明の主旨を逸脱しない範囲内においてその構成を変更してもよいことは言うまでもない。
12 情報処理部
14 操作表示部
16 画像読取部
18 通信部
20 記憶部
30 文字認識部
32 値抽出部
34 キーワード追加処理部
36 出力部
100 受付画面
200 結果確認画面
300 キーワード追加画面
400 生成結果表示画面
500 再抽出画面
Claims (11)
- 複数の単語を組み合わせてなる第1のキーワードを記憶する記憶部と、
文書の画像に対する文字認識の結果から、前記第1のキーワードに対応する値を表す文字列を抽出する抽出部と、
前記第1のキーワードと同一ではないが類似の意味を有する第2のキーワードを新たに登録する指示を受けたことに応じて、前記第1のキーワード及び前記第2のキーワードに含まれる複数の単語の中から、同一又は類似の単語を組合せの基準になる基準単語として検出する検出部と、
前記第1のキーワード内の前記基準単語の前または後ろに繋がり且つ組合せの対象になる第1対象単語、及び前記第2のキーワード内の前または後ろに繋がり且つ組合せの対象になる第2対象単語の少なくとも一方と、前記基準単語とを、前記基準単語との前後関係を保持したまま組み合わせた、新たな第3のキーワードを出力する出力部と、
を含む情報処理装置。 - 前記検出部が、前記第1のキーワードの形態素解析の結果及び前記第2のキーワードの形態素解析の結果の各々に基づいて、同一又は類似の単語を検出し、
前記出力部が、前記第1のキーワードの形態素解析の結果及び前記第2のキーワードの形態素解析の結果の各々に基づいて、前記第3のキーワードを出力する、
請求項1に記載の情報処理装置。 - 同一又は類似の単語が、表記が同一の単語、揺らぎがある以外は表記が同一の単語、及び表記は異なるが意味が同一の単語のいずれかである、
請求項1または請求項2に記載の情報処理装置。 - 接頭語または接尾語である単語が、前記第1対象単語及び前記第2対象単語の少なくとも一方に追加、または、前記第1対象単語及び前記第2対象単語の少なくとも一方から削除される、
請求項1から請求項3までのいずれか1項に記載の情報処理装置。 - 前記出力された前記第3のキーワードを選択可能に表示させて、利用者による選択を受け付ける表示部をさらに備える、
請求項1から請求項4までのいずれか1項に記載の情報処理装置。 - 前記表示部において選択された前記第3のキーワードを前記記憶部に記憶するよう制御する、
請求項5に記載の情報処理装置。 - 前記表示部は、前記第3のキーワードを有向グラフとして表示させる、
請求項6に記載の情報処理装置。 - 前記表示部は、前記抽出部による抽出結果及び前記第2のキーワードを受け付けるための受付画面をさらに表示する、
請求項6または請求項7に記載の情報処理装置。 - 前記表示部は、前記抽出部により前記第1のキーワードに対応する値を表す文字列が抽出されない場合に、前記受付画面を表示する、
請求項8に記載の情報処理装置。 - 前記記憶部は、前記第2のキーワード及び前記第3のキーワードを、前記第1のキーワードが属する関連キーワード群として記憶する、
請求項1から請求項9までのいずれか1項に記載の情報処理装置。 - コンピュータを、請求項1から請求項10までのいずれか1項に記載の情報処理装置の各部として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019086033A JP7275816B2 (ja) | 2019-04-26 | 2019-04-26 | 情報処理装置及びプログラム |
US16/721,951 US20200342169A1 (en) | 2019-04-26 | 2019-12-20 | Information processing apparatus and non-transitory computer readable medium storing program |
CN202010080431.9A CN111859923A (zh) | 2019-04-26 | 2020-02-05 | 信息处理装置、记录媒体及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019086033A JP7275816B2 (ja) | 2019-04-26 | 2019-04-26 | 情報処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020181523A true JP2020181523A (ja) | 2020-11-05 |
JP7275816B2 JP7275816B2 (ja) | 2023-05-18 |
Family
ID=72921506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019086033A Active JP7275816B2 (ja) | 2019-04-26 | 2019-04-26 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200342169A1 (ja) |
JP (1) | JP7275816B2 (ja) |
CN (1) | CN111859923A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021064209A (ja) * | 2019-10-15 | 2021-04-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461492B1 (en) * | 2021-10-15 | 2022-10-04 | Infosum Limited | Database system with data security employing knowledge partitioning |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03105465A (ja) * | 1989-09-19 | 1991-05-02 | Nec Corp | 複合語抽出装置 |
JPH06162098A (ja) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | 類義語生成処理方法 |
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JPH10222514A (ja) * | 1997-02-05 | 1998-08-21 | Sharp Corp | 連語翻訳装置及び連語翻訳装置制御プログラムを記憶した媒体 |
JP2001249935A (ja) * | 2000-03-07 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
JP2007265111A (ja) * | 2006-03-29 | 2007-10-11 | Konica Minolta Medical & Graphic Inc | 情報検索システム、プログラム、及び見返り決定方法 |
JP2008180912A (ja) * | 2007-01-24 | 2008-08-07 | Nuru:Kk | グラフ形式のデータを活用した電子辞書 |
US20090070312A1 (en) * | 2007-09-07 | 2009-03-12 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
WO2017033870A1 (ja) * | 2015-08-21 | 2017-03-02 | 国立大学法人 東京大学 | 情報処理装置及びプログラム |
JP2018128996A (ja) * | 2017-02-10 | 2018-08-16 | キヤノン株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2019049823A (ja) * | 2017-09-08 | 2019-03-28 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
-
2019
- 2019-04-26 JP JP2019086033A patent/JP7275816B2/ja active Active
- 2019-12-20 US US16/721,951 patent/US20200342169A1/en not_active Abandoned
-
2020
- 2020-02-05 CN CN202010080431.9A patent/CN111859923A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03105465A (ja) * | 1989-09-19 | 1991-05-02 | Nec Corp | 複合語抽出装置 |
JPH06162098A (ja) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | 類義語生成処理方法 |
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JPH10222514A (ja) * | 1997-02-05 | 1998-08-21 | Sharp Corp | 連語翻訳装置及び連語翻訳装置制御プログラムを記憶した媒体 |
JP2001249935A (ja) * | 2000-03-07 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
JP2007265111A (ja) * | 2006-03-29 | 2007-10-11 | Konica Minolta Medical & Graphic Inc | 情報検索システム、プログラム、及び見返り決定方法 |
JP2008180912A (ja) * | 2007-01-24 | 2008-08-07 | Nuru:Kk | グラフ形式のデータを活用した電子辞書 |
US20090070312A1 (en) * | 2007-09-07 | 2009-03-12 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
WO2017033870A1 (ja) * | 2015-08-21 | 2017-03-02 | 国立大学法人 東京大学 | 情報処理装置及びプログラム |
JP2018128996A (ja) * | 2017-02-10 | 2018-08-16 | キヤノン株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2019049823A (ja) * | 2017-09-08 | 2019-03-28 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
中渡瀬 秀一: "複合語からの類義語抽出法", 情報処理学会研究報告, vol. 第2002巻 第28号, JPN6023002053, 15 March 2002 (2002-03-15), pages 39 - 46, ISSN: 0004970347 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021064209A (ja) * | 2019-10-15 | 2021-04-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200342169A1 (en) | 2020-10-29 |
CN111859923A (zh) | 2020-10-30 |
JP7275816B2 (ja) | 2023-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20090049375A1 (en) | Selective processing of information from a digital copy of a document for data entry | |
JP4502615B2 (ja) | 類似文検索装置、類似文検索方法、およびプログラム | |
JP6417791B2 (ja) | アプリケーションテスト支援装置、そのデータ処理方法、およびプログラム | |
KR101946235B1 (ko) | 문서 작성 프로그램에서의 템플릿 제공 방법 및 장치 | |
JP2010086151A (ja) | データ生成装置、スキャナ、及びコンピュータプログラム | |
CN111813409A (zh) | 一种交互界面的代码生成方法、装置、设备及存储介质 | |
JP2019021341A (ja) | アプリケーションテスト支援装置、そのデータ処理方法、およびプログラム | |
JP2020181523A (ja) | 情報処理装置及びプログラム | |
JP2005011340A (ja) | オブジェクト上の注釈をグループ化することによりオブジェクトを選択する方法、システム、プログラム、及び、コンピュータ可読記憶媒体 | |
JP2007323474A (ja) | Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体 | |
CN110378566B (zh) | 信息核对方法、设备、存储介质及装置 | |
JP4161768B2 (ja) | 辞書機能を備えた電子装置及びプログラム | |
JP3943582B2 (ja) | 対訳文対応付け装置 | |
US9990420B2 (en) | Method of searching and generating a relevant search string | |
JP7358838B2 (ja) | 情報処理装置、及び情報処理プログラム | |
KR20180137958A (ko) | 전자문서를 편집하는 방법 및 장치 | |
KR102160249B1 (ko) | 휴대용 디바이스에서 복수의 메모 페이지들을 편집하는 방법 및 장치 | |
JP2009003496A (ja) | 帳票データ変換装置 | |
US20230056860A1 (en) | Information processing apparatus, flow generation method, and computer program product | |
JP2010134766A (ja) | 文書データ処理装置およびそのプログラム | |
JP5569178B2 (ja) | 辞書検索装置及びプログラム | |
JP2021081826A (ja) | 文書管理装置、文書管理システム及びプログラム | |
JP6623698B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
JP4992210B2 (ja) | 翻訳装置 | |
JP4850139B2 (ja) | 文書検索支援処理方法、装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230417 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7275816 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |