JP2020181523A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2020181523A
JP2020181523A JP2019086033A JP2019086033A JP2020181523A JP 2020181523 A JP2020181523 A JP 2020181523A JP 2019086033 A JP2019086033 A JP 2019086033A JP 2019086033 A JP2019086033 A JP 2019086033A JP 2020181523 A JP2020181523 A JP 2020181523A
Authority
JP
Japan
Prior art keywords
keyword
information processing
word
words
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019086033A
Other languages
English (en)
Other versions
JP7275816B2 (ja
Inventor
清水 淳一
Junichi Shimizu
淳一 清水
邦彦 小林
Kunihiko Kobayashi
邦彦 小林
大悟 堀江
Daigo Horie
大悟 堀江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019086033A priority Critical patent/JP7275816B2/ja
Priority to US16/721,951 priority patent/US20200342169A1/en
Priority to CN202010080431.9A priority patent/CN111859923A/zh
Publication of JP2020181523A publication Critical patent/JP2020181523A/ja
Application granted granted Critical
Publication of JP7275816B2 publication Critical patent/JP7275816B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】文書の画像に対する文字認識の結果から、登録済みのキーワードに対応する値を抽出するシステムにおいて、登録済みのキーワードが複数の単語の組合せである場合に、利用者が登録済みのキーワードと同じまたは類似の意味の新たなキーワードを複数登録する際の手間を軽減する。【解決手段】第1のキーワードを記憶する記憶部と、文字認識の結果から第1のキーワードに対応する値を表す文字列を抽出する抽出部と、第1のキーワードと類似の意味を有する第2のキーワードを登録する指示を受けたことに応じて、第1及び第2のキーワードに含まれる複数の単語の中から、同一又は類似の単語を組合せの基準になる基準単語として検出する検出部と、第1のキーワード内の第1対象単語及び第2のキーワード内の第2対象単語の少なくとも一方と基準単語とを、前後関係を保持したまま組み合わせた第3のキーワードを出力する出力部と、を含む情報処理装置とする。【選択図】図11

Description

本発明は、情報処理装置及びプログラムに関する。
特許文献1には、画像に対して領域解析処理を実行することにより領域を抽出する抽出手段と、特定のキーワードと当該キーワードに対応するバリューとを抽出するためのルールを取得する取得手段と、前記ルールを用いて前記キーワードを含む領域および当該キーワードに対応するバリューを含む領域を特定する順番を、当該ルールに含まれる前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定する決定手段と、前記決定された順番に従い、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域を前記抽出された領域の中から特定する特定手段と、前記特定された領域に対して文字認識処理を行う文字認識手段と、を備え、前記特定手段は、前記決定された順番に従い、先に特定した領域に基づいて、対応するもう一方の領域を特定する、ことを特徴とする情報処理装置が開示されている。
特開2018−128996号公報
本発明の目的は、文書の画像に対する文字認識の結果から、登録済みのキーワードに対応する値を抽出するシステムにおいて、前記登録済みのキーワードが複数の単語の組合せである場合に、利用者が前記登録済みのキーワードと同じまたは類似の意味の新たなキーワードを複数登録する際の手間を軽減することができる、情報処理装置及びプログラムを提供することにある。
第1態様に係る情報処理装置は、複数の単語を組み合わせてなる第1のキーワードを記憶する記憶部と、文書の画像に対する文字認識の結果から、前記第1のキーワードに対応する値を表す文字列を抽出する抽出部と、前記第1のキーワードと同一ではないが類似の意味を有する第2のキーワードを新たに登録する指示を受けたことに応じて、前記第1のキーワード及び前記第2のキーワードに含まれる複数の単語の中から、同一又は類似の単語を組合せの基準になる基準単語として検出する検出部と、前記第1のキーワード内の前記基準単語の前または後ろに繋がり且つ組合せの対象になる第1対象単語、及び前記第2のキーワード内の前または後ろに繋がり且つ組合せの対象になる第2対象単語の少なくとも一方と、前記基準単語とを、前記基準単語との前後関係を保持したまま組み合わせた、新たな第3のキーワードを出力する出力部と、を含む。
第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記検出部が、前記第1のキーワードの形態素解析の結果及び前記第2のキーワードの形態素解析の結果の各々に基づいて、同一又は類似の単語を検出し、前記出力部が、前記第1のキーワードの形態素解析の結果及び前記第2のキーワードの形態素解析の結果の各々に基づいて、前記第3のキーワードを出力する。
第3態様に係る情報処理装置は、第1態様または第2態様に係る情報処理装置において、同一又は類似の単語が、表記が同一の単語、揺らぎがある以外は表記が同一の単語、及び表記は異なるが意味が同一の単語のいずれかである。
第4態様に係る情報処理装置は、第1態様から第3態様までのいずれか1つに係る情報処理装置において、接頭語または接尾語である単語が、前記第1対象単語及び前記第2対象単語の少なくとも一方に追加、または、前記第1対象単語及び前記第2対象単語の少なくとも一方から削除される。
第5態様に係る情報処理装置は、第1態様から第4態様までのいずれか1つに係る情報処理装置において、前記出力された前記第3のキーワードを選択可能に表示させて、利用者による選択を受け付ける表示部をさらに備える。
第6態様に係る情報処理装置は、第5態様に係る情報処理装置において、前記表示部において選択された前記第3のキーワードを前記記憶部に記憶するよう制御する。
第7態様に係る情報処理装置は、第6態様に係る情報処理装置において、前記表示部は、前記第3のキーワードを有向グラフとして表示させる。
第8態様に係る情報処理装置は、第6態様または第7態様に係る情報処理装置において、前記表示部は、前記抽出部による抽出結果及び前記第2のキーワードを受け付けるための受付画面をさらに表示する。
第9態様に係る情報処理装置は、第8態様に係る情報処理装置において、前記表示部は、前記抽出部により前記第1のキーワードに対応する値を表す文字列が抽出されない場合に、前記受付画面を表示する。
第10態様に係る情報処理装置は、第1態様から第9態様までのいずれか1つに係る情報処理装置において、前記記憶部は、前記第2のキーワード及び前記第3のキーワードを、前記第1のキーワードが属する関連キーワード群として記憶する。
第11態様に係るプログラムは、コンピュータを、第1態様から第10態様までのいずれか1つに係る情報処理装置の各部として機能させるためのプログラムである。
第1態様、第11態様によれば、文書の画像に対する文字認識の結果から、登録済みのキーワードに対応する値を抽出するシステムにおいて、前記登録済みのキーワード(第1のキーワード)が複数の単語の組合せである場合に、利用者が前記登録済みのキーワードと同じまたは類似の意味の新たなキーワードを複数登録する際の手間を軽減することができる。
第2態様によれば、形態素解析で分割された最小単位である単語の組合せを取得することができる。
第3態様によれば、第1のキーワードに含まれる単語と同一又は類似の単語を含む他のキーワードに対する値を、抽出結果に含めることができる。
第4態様によれば、接頭語または接尾語の有無だけが第1のキーワードと異なる他のキーワードに対する値を、抽出結果に含めることができる。
第5態様、第6態様によれば、利用者は、表示された第3のキーワードの中から必要なキーワードだけを保存しておくことができる。
第7態様によれば、有向グラフにより第3のキーワードに含まれる各単語の繋がりが表示される。
第8態様によれば、利用者は、抽出結果を見て第2のキーワードを追加するか否かを決めることができる。
第9態様によれば、第1のキーワードに対応する値が抽出されない場合に、第2のキーワードを追加するか否かを決めることができる。
第10態様によれば、第2のキーワード及び第3のキーワードが、第1のキーワードが属する関連キーワード群に追加される。
処理対象とする文書の一例を示す概略図である。 本発明の実施の形態に係る情報処理装置の電気的構成の一例を示すブロック図である。 管理テーブルの一例を示す図表である。 本発明の実施の形態に係る情報処理装置の機能構成の一例を示すブロック図である。 「値抽出処理」の流れの一例を示すフローチャートである。 「キーワード追加処理」の流れの一例を示すフローチャートである。 「キーワード生成処理」の流れの一例を示すフローチャートである。 受付画面の一例を示す模式図である。 結果確認画面の一例を示す模式図である。 キーワード追加画面の一例を示す模式図である。 生成結果表示画面の一例を示す模式図である。 再抽出画面の他の一例を示す模式図である。 キーワードを表す有向グラフが統合される様子を表す図である。 キーワードを表す有向グラフが統合される様子を表す図である。 キーワードを表す有向グラフが統合される様子を表す図である。
以下、図面を参照して本発明の実施の形態の一例を詳細に説明する。
<値抽出処理>
まず、本実施の形態で処理対象とする文書について説明する。図1は処理対象とする文書の一例を示す概略図である。処理対象とする文書は、項目と項目に対応する値とを含む文書である。例えば、見積書等の帳票は、項目毎に対応する値が記述されている。以下では、文書が見積書である場合について説明する。
図1に示すように、見積書は、項目として、管理番号、発行日、お見積金額、お支払い期限、見積有効期限、品名、単価、数量、金額等を含む。例えば、「発行日」という項目に対しては、「2019年1月7日」という値が記述されている。また、「見積有効期限」という項目に対しては、「お見積日より1ヶ月」という値が記述されている。
見積書を原稿として、見積書の画像を読み取る。読み取り画像の頁内では、項目を表す画像の近傍に、その項目に対応する値を表す画像が配置されている。読み取り画像に対し文字認識を行うと、頁内の画像毎に文字認識が行われる。文字認識の結果には、項目を表す画像の頁内での位置、項目を表す文字列、値を表す画像の頁内での位置、値を表す文字列が含まれる。頁内での位置は、予め定めた点を原点とする位置座標で表してもよい。
(項目と値)
項目を表す文字列と、項目に対応する値を表す文字列とは、各々の頁内での位置により対応づけられている。項目を表す文字列を指定して、文字認識の結果から、対応する値を表す文字列を抽出する。以下では、項目を表す文字列を「キーワード」、値を表す文字列を単に「値」という。また、キーワードを指定して値を抽出することを「値抽出処理」という。
例えば、図示した例では、値抽出処理の結果、「発行日」というキーワードに対して「2019年1月7日」という値が抽出される。また、「見積有効期限」というキーワードに対して「お見積日より1ヶ月」という値が抽出される。
<情報処理装置>
次に、情報処理装置のハードウェア構成について説明する。
図2は本発明の実施の形態に係る情報処理装置の電気的構成の一例を示すブロック図である。図2に示すように、情報処理装置10は、接続された各部を制御すると共に各種演算を行うコンピュータである情報処理部12を備えている。即ち、情報処理部12は、CPU(中央処理装置:Central Processing Unit)12A、ROM(Read Only Memory)12B、RAM(Random Access Memory)12C、不揮発性のメモリ12D、及び入出力部(I/O)12Eを備えている。
CPU12A、ROM12B、RAM12C、メモリ12D、及びI/O12Eの各々は、バス12Fを介して接続されている。CPU12Aは、ROM12B等の記憶装置に記憶されたプログラムを読み出し、RAM12Cをワークエリアとして使用してプログラムを実行する。
情報処理装置10は、例えば、操作表示部14、画像読取部16、通信部18、及び記憶部20を備えている。操作表示部14、画像読取部16、通信部18、及び記憶部20の各々は、情報処理部12のI/O12Eに接続されている。
操作表示部14は、利用者に各種画面を表示すると共に、利用者からの操作を受け付けるユーザ・インターフェースである。操作表示部14は、例えば、タッチパネル等を含んで構成されている。画像読取部16は、セットされた原稿の画像を読み取る装置である。通信部18は、有線又は無線の通信回線を介して外部装置と通信を行うためのインターフェースである。記憶部20は、ハードディスク等の外部記憶装置である。
各種プログラムや各種データが、ROM12B等の記憶装置に記憶されている。プログラムの記憶領域はROM12Bには限定されない。各種プログラムは、メモリ12Dや記憶部20等の他の記憶装置に記憶されていてもよく、通信部18を介して外部装置から取得してもよい。
また、情報処理部12には、各種ドライブが接続されていてもよい。各種ドライブは、CD−ROM、USB(Universal Serial Bus)メモリなどのコンピュータで読み取り可能な可搬性の記録媒体からデータを読み込んだり、記録媒体に対してデータを書き込んだりする装置である。各種ドライブを備える場合には、可搬性の記録媒体にプログラムを記録しておいて、これを対応するドライブで読み込んで実行してもよい。
本実施の形態では、後述する値抽出処理の制御プログラムがROM12Bに記憶され、キーワードを管理する管理テーブル等が、記憶部20に記憶されている。
本実施の形態では、操作表示部14に各種画面が表示され、各種画面は利用者により操作される。例えば、後述する受付画面が操作され、文書の種類とキーワードとが指定されて、値抽出処理の実行が指示される。画像読取部16により、見積書の画像が読み取られて、見積書の画像情報が取得される。
(管理テーブル)
次に、キーワードを管理する管理テーブルについて説明する。
図3は管理テーブルの一例を示す図表である。図3に示すように、キーワードは、関連するキーワード群(以下、「関連キーワード群」という。)毎にまとめられ、管理テーブルの形式で記憶されている。関連キーワード群の各々には、関連キーワード群を識別する識別情報として整理番号が付されている。管理テーブルには、関連キーワード群毎に、整理番号、文書種別、及び関連キーワード群の対応関係が記憶されている。
関連キーワード群は、少なくとも1つのキーワードを有していればよい。ここで、キーワード同士が関連するとは、同一ではないが類似の意味を有することをいう。例えば、1番の関連キーワード群は、御見積書番号、見積No、御見積No、見積書番号というキーワードを含む。これ等のキーワードの各々は、「見積」、「見積り」、「御見積」など、同一または類似の単語を含み、同一ではないが類似の意味を有する。
関連キーワード群には、利用者により登録されたキーワードと、登録されたキーワードから自動生成されたキーワードとが含まれる。後述する通り、御見積書番号、見積Noは、登録されたキーワードであり、御見積No、見積書番号は、自動生成されたキーワードである。
(機能構成)
次に、情報処理装置の機能構成について説明する。
図4は本発明の実施の形態に係る情報処理装置の機能構成の一例を示すブロック図である。図2に示すように、情報処理装置10は、文字認識部30、値抽出部32、キーワード追加処理部34、及び出力部36を備えている。
文字認識部30は、画像読取部から画像情報を取得して、読み取り画像に対し文字認識を実施する。
値抽出部32は、指定されたキーワードを操作表示部から取得する。値抽出部32は、管理テーブルから、指定されたキーワードが属する関連キーワード群のキーワードをすべて取得する。値抽出部32は、文字認識部30による文字認識の結果を用いて、関連キーワード群の各キーワードに対して、キーワードに対応する値を抽出する値抽出処理を実施し、各キーワードに対応する値を取得する。
出力部36は、抽出結果を出力する。出力部36は、値抽出処理の結果、値が抽出されていないキーワードがある場合は、値抽出部32で得られた抽出結果と共にキーワードを追加する指示を行う指示ボタンを操作表示部に表示させる。抽出結果は、指定されたキーワードに対する値抽出処理の結果である。
本実施の形態では、指定されたキーワードは管理テーブルに予め登録されている。指定されたキーワードが属する関連キーワード群の何れかのキーワードに対応する値があれば、その値を、指定されたキーワードに対する抽出結果とする。複数の値が抽出されている場合は、複数の値を抽出結果とする。抽出結果を利用者に確認させて、キーワードを追加する指示を利用者から受け付ける。
キーワード追加処理部34は、キーワードを追加する指示を受け付けた場合に、追加するキーワード(以下、「追加キーワード」という。)を操作表示部から取得する。キーワード追加処理部34は、追加キーワードが、登録済みキーワードと関連し且つ未登録である場合は、登録済みキーワードと追加キーワードとから、新たなキーワードを生成する。新たに生成されたキーワードを「自動生成キーワード」という。
キーワード追加処理部34は、自動生成キーワードの生成結果を操作表示部に表示させる。自動生成キーワードの生成結果を利用者に確認させて、登録する自動生成キーワードの選択と、選択を確定する指示とを利用者から受け付ける。
キーワード追加処理部34は、確定する指示を受け付けた場合に、選択された自動生成キーワードを管理テーブルに登録する。選択された自動生成キーワードは、登録済みキーワードが属する関連キーワード群に追加される。キーワード追加処理部34は、再抽出の指示を受け付ける再抽出画面を操作表示部に表示させる。再抽出画面を表示して、再抽出を実行する指示を利用者から受け付ける。
値抽出部32は、再抽出を実行する指示を受け付けた場合に、自動生成キーワードを含む関連キーワード群の各キーワードに対して、キーワードに対応する値を抽出する値抽出処理を再度実施し、各キーワードに対応する値を取得する。
出力部36は、値が抽出されていないキーワードが無い場合、キーワードを追加しない指示を受け付けた場合、及び再抽出を行わず抽出を終了する指示を受け付けた場合に、最終結果を外部に出力する。最終結果は、指定されたキーワードに対する値抽出処理の最終的な結果である。
最終結果は、例えばCSV(CSV:Comma-Separated Values)ファイル等、予め定めた形式で出力される。CSVファイルは、キーワードを表す各文字列、値を表す各文字列の各々を、カンマで区切ったテキストファイルである。また、キーワードや値を表す文字列の情報を、対応する画像の画像情報に対し「画像の属性」として付与してもよく、対応する画像の画像情報に対し「ファイル名」として付与してもよい。
<値抽出処理>
次に、値抽出処理の制御プログラムについて説明する。
図5は「値抽出処理」の流れの一例を示すフローチャートである。値抽出処理の制御プログラムは、情報処理装置10のCPU12Aにより、記憶部20から読み出されて実行される(図2参照)。利用者により値抽出処理の開始が指示されると、値抽出処理の制御プログラムが実行される。
本実施の形態では、図2に示す操作表示部14に、図8に示す受付画面が表示される。受付画面は、値抽出処理の条件となる、文書の種類及びキーワードの各々の指定を受け付ける画面である。利用者により受付画面が操作され、文書の種類とキーワードとが指定されて、値抽出処理の実行が指示される。受付画面で、複数のキーワードを指定してもよい。また、図2に示す画像読取部16で、見積書の画像が読み取られる。
受付画面100は、文書の種類を選択する選択部102、キーワードを入力する入力部104〜104、実行を指示するボタン106、及び終了を指示するボタン108を備えている。図示した例では、見積書について「御見積番号」「発行先」「作成日」が指定される等、複数のキーワードが指定されている。
まず、ステップ100で、画像読取部から見積書の読み取り画像の画像情報を取得する。次に、ステップ102で、見積書の読み取り画像に対し文字認識処理を実行して、文字認識結果を記憶する。
次に、ステップ104で、指定されたキーワードが属する関連キーワード群から1つのキーワードを選択する。例えば、図3に示す例では、関連キーワード群の各キーワードには、キーワード1、キーワード2等の番号が付与されている。付与された番号は、キーワードの優先順位を表しており、1番から順に選択される。次に、ステップ106で、選択されたキーワードに対応する値を抽出する。抽出された値は、指定されたキーワードに対応付けて記憶される。
次に、ステップ108で、次のキーワードがあるか否かを判断する。次のキーワードがある場合はステップ104に戻る。関連キーワード群のすべてのキーワードについて値が抽出されて、次のキーワードが無くなった場合はステップ109に進む。
次に、ステップ109で、指定されたキーワードの各々に対し、値が抽出されたか否かを判断する。値が抽出されている場合はステップ124に進み、ステップ124で、指定されたキーワードに対応付けて記憶された値を、最終結果として外部に出力して、ルーチンを終了する。一方、値が抽出されていないキーワードがある場合は、ステップ110に進む。
次に、ステップ110で、値が抽出されていないキーワードがある場合は、結果確認画面を操作表示部に表示させる。結果確認画面は、指定されたキーワードに対する抽出結果を利用者に確認させ、キーワードの追加、値の修正等を受け付けるための画面である。
図9は結果確認画面の一例を示す模式図である。結果確認画面200は、キーワードを表示する表示部202〜202、値を表示する表示部204〜204、キーワードの追加を指示するボタン206、及びキーワードを追加しないことを指示するボタン208を備えている。表示部204〜204の各々は、抽出結果として得られた値を修正可能な状態で表示する。
図示した例では、キーワード「御見積番号」に対応する値が抽出されていない。キーワードによる値抽出処理を行う場合、同じ種類の文書であっても、文書のフォーマットが異なれば、文書に含まれるキーワードの文字列も異なる。関連キーワード群に新しいキーワードを追加することで、より多くの値が抽出される。
次に、ステップ112で、抽出結果として得られた値を修正するか否かを判断する。結果確認画面200に表示された値が修正された場合に、ステップ112で値を修正する。値を修正する場合は、ステップ114に進む。ステップ114では、指定されたキーワードに対応付けて記憶された値を修正する。値を修正しない場合は、ステップ114を飛ばしてステップ116に進む。
次に、ステップ116で、キーワードを追加する指示を受け付けたか否かを判断する。図9に示す結果確認画面では、ボタン206によりキーワードを追加することが指示され、ボタン208によりキーワードを追加しないことが指示される。キーワードを追加する指示を受け付けた場合は、ステップ118に進む。キーワードを追加しない指示を受け付けた場合は、ステップ118〜122を飛ばしてステップ124に進む。
次に、ステップ118で、「キーワード追加処理」を実行する。
(キーワード追加処理)
ここで、「キーワード追加処理」について説明する。
図6は「キーワード追加処理」の流れの一例を示すフローチャートである。まず、ステップ200で、キーワード追加画面を操作表示部に表示させる。キーワード追加画面は、キーワードの追加入力を受け付けるための画面である。利用者によりキーワードが追加された場合に、予め定めた条件下で、登録済みキーワードと追加キーワードとから自動生成キーワードを生成する。
図10はキーワード追加画面の一例を示す模式図である。キーワード追加画面300は、「追加するキーワードを入力してください。」等のメッセージ302、追加キーワードを入力する入力部304、キーワードの自動生成を選択する選択部306、実行を指示するボタン306、及び終了を指示するボタン310を備えている。
次に、ステップ202で、追加キーワードの入力を受け付けたか否かを判断する。追加キーワードの入力を受け付けた場合は、ステップ204に進む。キーワードの追加入力の終了が指示されるまで、追加キーワードの入力を受け付けたか否かを判断する。追加キーワードの入力を受け付けた場合は、ステップ204に進む。
次に、ステップ204で、追加キーワードに関連する登録済みキーワードがあるか否かを判断する。関連する登録済みキーワードがある場合は、ステップ206に進む。関連する登録済みキーワードがない場合は、ステップ214に進む。ステップ214では、追加キーワードを管理テーブルに新規登録して、ルーチンを終了する。
次に、ステップ206で、追加キーワードが登録されているか否かを判断する。追加キーワードが登録されていない場合は、ステップ208に進む。追加キーワードが登録されている場合は、登録の必要が無いので、ルーチンを終了する。
次に、ステップ208で、「キーワード生成処理」を実行する。追加キーワードに関連する登録済みキーワードがあり、且つ追加キーワードが登録されていない場合に、「キーワード生成処理」を実行する。キーワード生成処理については後述する。次に、ステップ210で、生成結果表示画面を操作表示部に表示させる。生成結果表示画面は、キーワードの生成結果を表示して、自動生成キーワードのうち登録対象となるキーワードの選択を受け付ける画面である。次に、ステップ212で、追加キーワード及び選択されたキーワードの各々を、管理テーブルに登録して、ルーチンを終了する。
図11は生成結果表示画面の一例を示す模式図である。生成結果表示画面400は、登録済みキーワードを表示する表示部402、追加キーワードを表示する表示部404、自動生成キーワードを表示する表示部406、自動生成キーワードを管理テーブルに追加することを選択するボタン408、登録対象となるキーワードを確定するボタン410、及び有向グラフを表示させるボタン412を備えている。
生成結果表示画面400により、登録済みキーワード、追加キーワード、及び自動生成キーワードが一覧表示される。表示部406は、自動生成キーワードを修正可能な状態で表示する。例えば、単語の組合せ方が間違っているキーワード等、自動生成キーワードの一部のキーワードは削除してもよい。また、複数のキーワードに対し、優先順位をつけてもよい。なお、有向グラフは、キーワードに含まれる複数の単語の繋がりを示すグラフである。有向グラフの詳細については後述する(図13〜図15参照)。
ここで、図5の説明に戻る。次に、ステップ120で、再抽出画面を操作表示部に表示させる。再抽出画面は、利用者から再抽出を実行する指示を受け付けるための画面である。自動生成キーワードが関連キーワード群に追加された場合、自動生成キーワードを含む関連キーワード群の各キーワードに対して、値抽出処理を再度実施してもよい。
図12は再抽出画面の他の一例を示す模式図である。再抽出画面500は、「確定したキーワードで再抽出を行いますか?」等のメッセージ502、実行を指示するボタン504、及び終了を指示するボタン506を備えている。
次に、ステップ122で、再抽出を実行する指示を受け付けたか否かを判断する。再抽出を実行する指示を受け付けた場合は、ステップ104に戻る。ステップ104に戻って、自動生成キーワードを含む関連キーワード群の各キーワードについて、再度、値抽出処理を実行する。抽出を終了する指示を受け付けた場合は、ステップ124に進む。
次に、ステップ124で、指定されたキーワードに対応付けて記憶された値を、最終結果として外部に出力して、ルーチンを終了する。
(キーワード生成処理)
ここで、「キーワード生成処理」について説明する。
図7は「キーワード生成処理」の流れの一例を示すフローチャートである。図13〜図15はキーワードを表す有向グラフが統合される様子を表す図である。この例では、「御見積書番号」が登録済みキーワードとして管理テーブルに予め登録されている。追加キーワードとして「見積No」が追加されるが、「見積No」は未登録である。
まず、ステップ300で、登録済みキーワードに対して形態素解析を実行する。形態素解析とは、辞書データなどを用いて、文字列を、意味を持つ最小単位である形態素の単位に区切り、それぞれの形態素の品詞、活用、読みなどを判別・付与する処理である。
形態素はこれ以上分けられない単位であり、「見積書」を「見積/書」に分けるなど、厳密には単語より細かい。本実施の形態では「単語」を形態素と同義とする。品詞は、単語が分類される種別である。形態素解析により、登録済みキーワードから第1単語群が取得される。
図13に示す例では、登録済みキーワードである「御見積書番号」は、「御/見積/書/番号」と区切られる。各単語は、御(接頭詞、名詞接続、御、ゴ、ゴ)、見積(名詞、一般、見積、ミツモリ、ミツモリ)、書(名詞、接尾語、一般、*、*、*、書、ショ、ショ)、番号(名詞、一般、*、*、*、*、番号、バンゴウ、バンゴー)と判別される。
次に、ステップ302で、形態素解析の結果に基づいて、登録済みキーワードの有向グラフを生成する。有向グラフとは、頂点と、向きを持つ辺(矢印)により構成されたグラフである。頂点は、始点と終点とを含む。始点及び終点以外の各頂点は、形態素解析で取得された単語でラベル付けされる。
キーワードに含まれる各単語を表す頂点は、辺より記載順に連結される。先頭の単語を表す頂点は、始点に連結される。末尾の単語を表す頂点は、終点に連結される。登録済みキーワードの各単語を表す頂点は、「始点→御→見積→書→番号→終点」の順に連結される。
次に、ステップ304で、追加キーワードに対して形態素解析を実行する。形態素解析により、追加キーワードから第2単語群が取得される。図13に示す例では、追加キーワードである「見積No」は、「見積/No」と区切られる。各単語は、見積(名詞、一般、見積、ミツモリ、ミツモリ)、No(名詞、固有名詞、組織、*、*、*、*)と判別される。
次に、ステップ306で、形態素解析の結果に基づいて、追加キーワードの有向グラフを生成する。追加キーワードの各単語を表す頂点は、「始点→見積→No→終点」の順に連結される。
登録済みキーワードの有向グラフと、追加キーワードの有向グラフとを、始点及び終点を共通の頂点として連結する。連結された有向グラフでは、始点から終点まで到達するのに、「始点→御→見積→書→番号→終点」という第1経路と「始点→見積→No→終点」という第2経路とがある。
次に、ステップ308で、登録済みキーワード及び追加キーワードの各々が、同一の単語を含む場合は、同じ単語の頂点を統合する。
追加キーワードから取得された第2単語群に含まれる各単語を、登録済みキーワードから取得された第1単語群に含まれる各単語と比較し、同一の単語を検出する。ここで、単語が同一か否かを判定する基準は予め定める。
本実施の形態では、表記が同一の単語の外に、「見積」と「見積り」のように、表記に揺らぎある以外は表記が同一の単語も、同一の単語と判定する。
図14に示すように、追加キーワード「見積No」は、登録済みキーワードの「見積」と同一の単語「見積」を含む。登録済みキーワードの「見積」の頂点と、追加キーワードの「見積」の頂点とを統合する。第1経路及び第2経路に対し、「始点→御→見積→No→終点」という第3経路と、「始点→見積→書→番号→終点」という第4経路とが追加される。
次に、ステップ310で、登録済みキーワード及び追加キーワードの各々が、類似する単語を含む場合は、類似する単語の前後の単語間の繋がりを統合する。
追加キーワードから取得された第2単語群に含まれる各単語を、登録済みキーワードから取得された第1単語群に含まれる各単語と比較し、類似の単語を検出する。ここで、単語が類似するか否かを判定する基準は予め定める。例えば、単語が類似するか否かは、シソーラスを用いて判定する。シソーラスは、は単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけた類語辞典・辞書である。
本実施の形態では、「番号」と「No」のように、表記は異なるが意味が同一の単語の場合は、類似する単語と判定する。
図15に示すように、追加キーワード「見積No」は、登録済みキーワードの「番号」と類似の単語「No」を含む。登録済みキーワードの「番号」の頂点を、追加キーワードの「No」の頂点の前側に繋がる「見積」の頂点に連結する辺を追加する。また、追加キーワードの「No」の頂点を、登録済みキーワードの「番号」の頂点の前側に繋がる「書」の頂点に連結する辺を追加する。
第1経路から第4経路に対し、「始点→御→見積→書→No→終点」という第5経路、「始点→見積→書→No→終点」という第6経路、「始点→御→見積→番号→終点」という第7経路、及び「始点→見積→番号→終点」という第8経路が追加される。
なお、図示した例では、「番号」の頂点及び「No」の頂点の各々の後側は終点である。「番号」の頂点及び「No」の頂点の各々の後側に頂点がある場合は、登録済みキーワードの「番号」の頂点を、追加キーワードの「No」の頂点の後側に繋がる「第1後側」の頂点に連結する。追加キーワードの「No」の頂点を、登録済みキーワードの「番号」の頂点の後側に繋がる「第2後側」の頂点に連結する。
次に、ステップ312で、有向グラフのすべての経路に対応するキーワードを生成して、ルーチンを終了する。有向グラフの頂点を統合し/辺を追加することで、始点と終点とを結ぶ新たな経路が追加されて、新しいキーワードが生成される。新しいキーワードは有向グラフの経路で表されるので、図15に示す有向グラフを自動生成キーワードの生成結果として表示してもよい。例えば、図11に示す生成結果表示画面400で、ボタン412が押された場合に、図15に示す有向グラフを表示させる。
上記の例では、有向グラフの経路で新しいキーワードを表したが、有向グラフを生成しなくても、以下のルールで新しいキーワードが生成される。
(1)基準単語
追加キーワードから取得された第1単語群、及び登録済みキーワードから取得された第2単語群の各々に含まれる「同一の単語及び類似の単語」を、組合せの基準になる一対の基準単語として検出する。
(2)組合せの対象
組合せの対象を、第1単語群内の基準単語の前または後ろに繋がり且つ組合せの対象になる第1対象単語、及び第2単語群内の前または後ろに繋がり且つ組合せの対象になる第2対象単語の少なくとも一方とする。
(3)前後の単語の組合せ
第1対象単語及び第2対象単語の少なくとも一方と基準単語とを、基準単語との前後関係を保持したまま組み合わせる。ここで、品詞が接頭語や接尾語等の一部の単語は、省略または追加してもよい。
<変形例>
なお、上記実施の形態で説明した情報処理装置、情報処理システム、及びプログラムの構成は一例であり、本発明の主旨を逸脱しない範囲内においてその構成を変更してもよいことは言うまでもない。
上記実施の形態では、値抽出処理をソフトウェアで実現する場合について説明したが、同等の処理をハードウェアで実現してもよい。
上記実施の形態では、自動生成キーワードを操作表示部に表示させて出力する例について説明したが、自動生成キーワードを利用者に表示せずに、管理テーブルに登録してもよい。
上記実施の形態では、指定されたキーワードが登録済みキーワードであり、登録済みキーワードと追加される追加キーワードとから、新たなキーワードを自動生成する例について説明したが、指定された複数のキーワードから、新たなキーワードを自動生成してもよい。例えば、指定された複数のキーワードが未登録である場合は、指定された複数のキーワードから、新たなキーワードを自動生成して、指定されたキーワードと自動生成したキーワードとを登録すればよい。
10 情報処理装置
12 情報処理部
14 操作表示部
16 画像読取部
18 通信部
20 記憶部
30 文字認識部
32 値抽出部
34 キーワード追加処理部
36 出力部
100 受付画面
200 結果確認画面
300 キーワード追加画面
400 生成結果表示画面
500 再抽出画面

Claims (11)

  1. 複数の単語を組み合わせてなる第1のキーワードを記憶する記憶部と、
    文書の画像に対する文字認識の結果から、前記第1のキーワードに対応する値を表す文字列を抽出する抽出部と、
    前記第1のキーワードと同一ではないが類似の意味を有する第2のキーワードを新たに登録する指示を受けたことに応じて、前記第1のキーワード及び前記第2のキーワードに含まれる複数の単語の中から、同一又は類似の単語を組合せの基準になる基準単語として検出する検出部と、
    前記第1のキーワード内の前記基準単語の前または後ろに繋がり且つ組合せの対象になる第1対象単語、及び前記第2のキーワード内の前または後ろに繋がり且つ組合せの対象になる第2対象単語の少なくとも一方と、前記基準単語とを、前記基準単語との前後関係を保持したまま組み合わせた、新たな第3のキーワードを出力する出力部と、
    を含む情報処理装置。
  2. 前記検出部が、前記第1のキーワードの形態素解析の結果及び前記第2のキーワードの形態素解析の結果の各々に基づいて、同一又は類似の単語を検出し、
    前記出力部が、前記第1のキーワードの形態素解析の結果及び前記第2のキーワードの形態素解析の結果の各々に基づいて、前記第3のキーワードを出力する、
    請求項1に記載の情報処理装置。
  3. 同一又は類似の単語が、表記が同一の単語、揺らぎがある以外は表記が同一の単語、及び表記は異なるが意味が同一の単語のいずれかである、
    請求項1または請求項2に記載の情報処理装置。
  4. 接頭語または接尾語である単語が、前記第1対象単語及び前記第2対象単語の少なくとも一方に追加、または、前記第1対象単語及び前記第2対象単語の少なくとも一方から削除される、
    請求項1から請求項3までのいずれか1項に記載の情報処理装置。
  5. 前記出力された前記第3のキーワードを選択可能に表示させて、利用者による選択を受け付ける表示部をさらに備える、
    請求項1から請求項4までのいずれか1項に記載の情報処理装置。
  6. 前記表示部において選択された前記第3のキーワードを前記記憶部に記憶するよう制御する、
    請求項5に記載の情報処理装置。
  7. 前記表示部は、前記第3のキーワードを有向グラフとして表示させる、
    請求項6に記載の情報処理装置。
  8. 前記表示部は、前記抽出部による抽出結果及び前記第2のキーワードを受け付けるための受付画面をさらに表示する、
    請求項6または請求項7に記載の情報処理装置。
  9. 前記表示部は、前記抽出部により前記第1のキーワードに対応する値を表す文字列が抽出されない場合に、前記受付画面を表示する、
    請求項8に記載の情報処理装置。
  10. 前記記憶部は、前記第2のキーワード及び前記第3のキーワードを、前記第1のキーワードが属する関連キーワード群として記憶する、
    請求項1から請求項9までのいずれか1項に記載の情報処理装置。
  11. コンピュータを、請求項1から請求項10までのいずれか1項に記載の情報処理装置の各部として機能させるためのプログラム。
JP2019086033A 2019-04-26 2019-04-26 情報処理装置及びプログラム Active JP7275816B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019086033A JP7275816B2 (ja) 2019-04-26 2019-04-26 情報処理装置及びプログラム
US16/721,951 US20200342169A1 (en) 2019-04-26 2019-12-20 Information processing apparatus and non-transitory computer readable medium storing program
CN202010080431.9A CN111859923A (zh) 2019-04-26 2020-02-05 信息处理装置、记录媒体及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019086033A JP7275816B2 (ja) 2019-04-26 2019-04-26 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020181523A true JP2020181523A (ja) 2020-11-05
JP7275816B2 JP7275816B2 (ja) 2023-05-18

Family

ID=72921506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019086033A Active JP7275816B2 (ja) 2019-04-26 2019-04-26 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US20200342169A1 (ja)
JP (1) JP7275816B2 (ja)
CN (1) CN111859923A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064209A (ja) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11461492B1 (en) * 2021-10-15 2022-10-04 Infosum Limited Database system with data security employing knowledge partitioning

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03105465A (ja) * 1989-09-19 1991-05-02 Nec Corp 複合語抽出装置
JPH06162098A (ja) * 1992-11-24 1994-06-10 Fujitsu Ltd 類義語生成処理方法
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH10222514A (ja) * 1997-02-05 1998-08-21 Sharp Corp 連語翻訳装置及び連語翻訳装置制御プログラムを記憶した媒体
JP2001249935A (ja) * 2000-03-07 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 文書ダイジェスト作成方法、文書検索装置および記録媒体
JP2007265111A (ja) * 2006-03-29 2007-10-11 Konica Minolta Medical & Graphic Inc 情報検索システム、プログラム、及び見返り決定方法
JP2008180912A (ja) * 2007-01-24 2008-08-07 Nuru:Kk グラフ形式のデータを活用した電子辞書
US20090070312A1 (en) * 2007-09-07 2009-03-12 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
WO2017033870A1 (ja) * 2015-08-21 2017-03-02 国立大学法人 東京大学 情報処理装置及びプログラム
JP2018128996A (ja) * 2017-02-10 2018-08-16 キヤノン株式会社 情報処理装置、制御方法、およびプログラム
JP2019049823A (ja) * 2017-09-08 2019-03-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03105465A (ja) * 1989-09-19 1991-05-02 Nec Corp 複合語抽出装置
JPH06162098A (ja) * 1992-11-24 1994-06-10 Fujitsu Ltd 類義語生成処理方法
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH10222514A (ja) * 1997-02-05 1998-08-21 Sharp Corp 連語翻訳装置及び連語翻訳装置制御プログラムを記憶した媒体
JP2001249935A (ja) * 2000-03-07 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 文書ダイジェスト作成方法、文書検索装置および記録媒体
JP2007265111A (ja) * 2006-03-29 2007-10-11 Konica Minolta Medical & Graphic Inc 情報検索システム、プログラム、及び見返り決定方法
JP2008180912A (ja) * 2007-01-24 2008-08-07 Nuru:Kk グラフ形式のデータを活用した電子辞書
US20090070312A1 (en) * 2007-09-07 2009-03-12 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
WO2017033870A1 (ja) * 2015-08-21 2017-03-02 国立大学法人 東京大学 情報処理装置及びプログラム
JP2018128996A (ja) * 2017-02-10 2018-08-16 キヤノン株式会社 情報処理装置、制御方法、およびプログラム
JP2019049823A (ja) * 2017-09-08 2019-03-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中渡瀬 秀一: "複合語からの類義語抽出法", 情報処理学会研究報告, vol. 第2002巻 第28号, JPN6023002053, 15 March 2002 (2002-03-15), pages 39 - 46, ISSN: 0004970347 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064209A (ja) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
US20200342169A1 (en) 2020-10-29
CN111859923A (zh) 2020-10-30
JP7275816B2 (ja) 2023-05-18

Similar Documents

Publication Publication Date Title
US20090049375A1 (en) Selective processing of information from a digital copy of a document for data entry
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
JP6417791B2 (ja) アプリケーションテスト支援装置、そのデータ処理方法、およびプログラム
KR101946235B1 (ko) 문서 작성 프로그램에서의 템플릿 제공 방법 및 장치
JP2010086151A (ja) データ生成装置、スキャナ、及びコンピュータプログラム
CN111813409A (zh) 一种交互界面的代码生成方法、装置、设备及存储介质
JP2019021341A (ja) アプリケーションテスト支援装置、そのデータ処理方法、およびプログラム
JP2020181523A (ja) 情報処理装置及びプログラム
JP2005011340A (ja) オブジェクト上の注釈をグループ化することによりオブジェクトを選択する方法、システム、プログラム、及び、コンピュータ可読記憶媒体
JP2007323474A (ja) Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体
CN110378566B (zh) 信息核对方法、设备、存储介质及装置
JP4161768B2 (ja) 辞書機能を備えた電子装置及びプログラム
JP3943582B2 (ja) 対訳文対応付け装置
US9990420B2 (en) Method of searching and generating a relevant search string
JP7358838B2 (ja) 情報処理装置、及び情報処理プログラム
KR20180137958A (ko) 전자문서를 편집하는 방법 및 장치
KR102160249B1 (ko) 휴대용 디바이스에서 복수의 메모 페이지들을 편집하는 방법 및 장치
JP2009003496A (ja) 帳票データ変換装置
US20230056860A1 (en) Information processing apparatus, flow generation method, and computer program product
JP2010134766A (ja) 文書データ処理装置およびそのプログラム
JP5569178B2 (ja) 辞書検索装置及びプログラム
JP2021081826A (ja) 文書管理装置、文書管理システム及びプログラム
JP6623698B2 (ja) 情報処理装置、情報処理方法、プログラム
JP4992210B2 (ja) 翻訳装置
JP4850139B2 (ja) 文書検索支援処理方法、装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230417

R150 Certificate of patent or registration of utility model

Ref document number: 7275816

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150