JP7221143B2 - キーワード検出装置、及びキーワード検出方法 - Google Patents

キーワード検出装置、及びキーワード検出方法 Download PDF

Info

Publication number
JP7221143B2
JP7221143B2 JP2019111693A JP2019111693A JP7221143B2 JP 7221143 B2 JP7221143 B2 JP 7221143B2 JP 2019111693 A JP2019111693 A JP 2019111693A JP 2019111693 A JP2019111693 A JP 2019111693A JP 7221143 B2 JP7221143 B2 JP 7221143B2
Authority
JP
Japan
Prior art keywords
word
image data
character
keyword
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019111693A
Other languages
English (en)
Other versions
JP2020204855A5 (ja
JP2020204855A (ja
Inventor
常之 今木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019111693A priority Critical patent/JP7221143B2/ja
Publication of JP2020204855A publication Critical patent/JP2020204855A/ja
Publication of JP2020204855A5 publication Critical patent/JP2020204855A5/ja
Application granted granted Critical
Publication of JP7221143B2 publication Critical patent/JP7221143B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、キーワード検出装置、及びキーワード検出方法に関する。
特許文献1には、画像データがユーザに与えられた際に当該画像データにアノテーション情報を付与する手法について記載されている。同文献の段落[0041]、図3には、「ステップ320(本方法による画像の内容の意味記述)の詳細部分では、本発明によるステップ325(v)において、各画像の意味記述が決定される。ステップ326(vi)において、本発明に従って、この意味記述は、1個または数個の画像に「プルーニング」(すなわち、「簡素化」または「削減」)される。任意選択的なステップ327(vii)において、多岐にわたる来歴のアノテーション(マニュアルアノテーションを含む)を追加または利用してもよい。」と記載されている。
非特許文献1には、既存のツールの概要説明として、「画像注釈のための既存のツールは有用であるが、それらは導入のために多くの作業が必要になる。そこで、我々は80の一般的なオブジェクトクラスを提案するためRetinaNetと呼ばれる既存の最先端のオブジ
ェクト検出モデルを組み込んだ新しい画像注釈ツールを提供する。(Existing tools for
image annotation can help, but they require much work to be put in. We therefore present a new image annotation tool that incorporates an existing state-of-the-art object detection model called RetinaNet to show suggestions of 80 common object classes while annotation to reduce the amount of human effort to be put in to annotate images.)」と記載されている。
特表2018-501579号公報
V.Mavani、"Anno-Mage: A semi automatic Image Annotation Tool"、[online]、2018年5月18日、GitHub、[2019年3月28日検索]、インターネット<URL:https://github.com/virajmavani/semi-auto-image-annotation-tool/blob/master/README.md>
例えば、企業等の組織において取り扱われる報告書や帳票、連絡票のように、紙媒体しか残されていない文書を電子化する技術として、文書をスキャン等して生成した画像データから、当該画像データに記載されている文字情報を抽出する、OCR(Optical Character Recognition)等の文字認識技術がある。昨今では、深層学習等の人工知能技術を利
用して、活字のみならず手書きの文字列も読み取ることが可能なAI-OCRと呼ばれる
技術分野の製品も登場している。
文字認識技術により電子化した文書を検索し易い形で管理するためには、各文書に特定のキーワードが記載されているか否かを検出する必要がある。この検出にかかる作業負荷を軽減する技術として、オブジェクト検出(物体検出(object detection))と呼ばれる技術がある。オブジェクト検出では、一枚の画像データの中で特定の物体(オブジェクト)が描画されている箇所(描画範囲)を深層学習を用いて特定する。但しオブジェクト検
出を精度よく行うためには、ニューラルネットワーク等の学習モデルを学習(訓練)する、あるいは学習モデルの検出精度を検証する必要があり、そのためのデータ(以下、「学習データ」と称する。)を用意する必要がある。
上記の学習データの一つは、一枚の画像データと、その画像中において検出対象のオブジェクト(以下、「対象オブジェクト」と称する。)が現れていることを示すアノテーション情報との組で構成される。アノテーション情報は、対象オブジェクトが何であるか(クラス分類)を意味するラベルと、描画範囲を示すバウンディングボックスとの組であり、一枚の画像中に複数のオブジェクトが現れる場合、一つの学習データは、一枚の画像データと複数のアノテーション情報との組となる。
多くのアノテーション定義ツールでは、ユーザは描画ツールの要領で、対象画像データを背景に表示しつつ対象のオブジェクトを囲むように矩形(バウンディングボックス)を描画し、更にその対象オブジェクトのラベルをプルダウンリスト等で選択するという作業を行う。
上記の作業において、ユーザは、対象オブジェクトを丁度囲む大きさの矩形を描画するように気を配る必要がある。また一つ一つの対象オブジェクトについてプルダウンリストでラベルを選択する必要があり、とくに分類するクラスが数百種類にものぼる場合、ユーザの作業負荷は多大となる。またテキストボックスでラベルをインクリメンタルサーチする場合でも、矩形描画のためのマウスの操作とテキスト入力のためのキーボード操作を交互に行う必要があり、またユーザはある程度、ラベルの綴りを記憶している必要もある。このようにユーザはアノテーション定義に際して煩雑な作業を強いられる。
特許文献1及び非特許文献1では、オブジェクト検出技術それ自体を用いて予め幾つかの種類のオブジェクトを検出できるように学習しておき、アノテーションの一部を半自動化する。しかし検出漏れや検出誤りがあった場合はアノテーション定義ツールを用いた場合と同様にユーザは矩形描画とラベル選択の作業を行う必要がある。
本発明はこうした背景に基づきなされたものであり、アノテーション定義のためのユーザの負荷が少なく、文書画像データから精度よくキーワードを検出することが可能なキーワード検出システム、及びキーワード検出方法を提供することを目的とする。
上記目的を達成するための本発明のうちの一つは、文書画像データからキーワードを検出するキーワード検出装置であって、キーワード検出モデルを用いて文書画像データからキーワードを検出するキーワード検出推論器と、前記キーワード検出モデルの学習を行うキーワード検出モデル学習器と、キーワードのリストであるキーワードリストと、一文字毎の手書きの画像データを含む手書き一文字画像辞書と、前記キーワードリストにおけるキーワードの各文字を前記手書きの画像データに変換して得られる画像データであるキーワード埋込画像データを生成し、生成した前記キーワード埋込画像データを学習データとして前記キーワード検出モデル学習器に入力する、キーワード埋込画像合成処理部と、文書画像データに対してユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信する単語ラベル決定処理部と、前記操作情報に基づき、前記文書画像データに対して前記ユーザが描いた描画線が通過する前記文書画像データ上の文字画像を囲む矩形領域である単語描画範囲を検出する単語描画範囲検出処理部と、文書画像データから前記単語描画範囲として抽出された単語画像データについて単語認識モデルを用いて前記単語画像データに対応する単語ラベルを判定する単語認識推論器と、前記単語認識モデルの学習を行う単語認識モデル学習器と、前記キーワードリストにおける前記キーワードの各文字を前記手書きの画像データに変換して得られる画像データである単語画像データを生成
し、生成した前記単語画像データを学習データとして前記単語認識モデル学習器に入力する、単語画像合成処理部と、を備える。
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
本発明によれば、アノテーション定義のためのユーザの負荷が少なく、文書画像データから精度よくキーワードを検出することが可能な、キーワード検出システム、及びキーワード検出方法を提供することができる。
第1実施形態のキーワード検出システムの概略的な構成を示す図である。 キーワード検出装置やユーザ装置を実現する情報処理装置の一例を示すブロック図である。 キーワード検出システムの構成を説明するブロック図である。 アノテーションの定義に際してユーザI/Fが表示する画面の例である。 単語ラベル決定処理を説明するフローチャートである。 単語描画範囲検出処理を説明するフローチャートである。 ユーザが文字画像データに線の描画操作を行っている際に単語認識モデルがパイプライン方式で逐次的に処理を行う様子を説明する図である。 単語認識推論器による入力データの処理と、単語認識モデル学習器による学習データの処理を混合してパイプライン処理により行う様子を説明する図である。 単語認識推論器による入力データの処理と、単語認識モデル学習器による学習データの処理を混合して進める場合の第2実施形態のキーワード検出システムの構成例を示すブロック図である。 単語描画範囲検出処理を説明するフローチャートである。
以下、実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成に同一の符号を付して重複した説明を省略することがある。また以下の説明において、同種の構成を区別する必要がある場合、構成を総称する符号の後に括弧書きで識別子(数字、アルファベット等)を表記することがある。またインタフェースのことを「I/F」と略記することがある。
[第1実施形態]
図1に第1実施形態として示す情報処理システム(以下、「キーワード検出システム1」と称する。)の概略的な構成を示している。キーワード検出システム1は、キーワード検出装置10と一つ以上のユーザ装置2とを含む。キーワード検出装置10及びユーザ装置2は、いずれも情報処理装置(コンピュータ)であり、これらは通信ネットワーク5を介して通信可能に接続されている。通信ネットワーク5は、例えば、LAN(Local Area
Network)、WAN(Wide Area Network)、インターネット、専用線、公衆通信網等で
ある。
キーワード検出装置10は、手書き文字を含む文書(例えば、報告書、帳票、連絡票等の紙でしか残されていない文書等)を電子化した多数の画像データ(以下、「文書画像データ」と称する。)が蓄積管理される文書画像リポジトリの文書画像データからキーワードを抽出する。ユーザ装置2は、キーワード検出装置10の機能を利用するためのユーザI/Fをユーザに提供する。
図2は、キーワード検出装置10やユーザ装置2を実現する情報処理装置の一例を示すブロック図である。同図に示すように、例示する情報処理装置100は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16を備える。情報処理装置100は、例えば、クラウドシステム(Cloud System)により提供されるクラウドサーバ(Cloud Server)のように仮想的な情報処理資源を用いて実現されるものであってもよい。また情報処理装置100は、コンテナ基盤にデプロイされたコンテナとして実現されるものでもよい。
プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable
Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成されている。
主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read
Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
補助記憶装置13は、例えば、ハードディスクドライブ、SSD(Solid State Drive
)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み込まれる。
入力装置14は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、ペン入力方式のタブレット、タッチパネル、カードリーダ、音声入力装置等である。
出力装置15は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。尚、例えば、情報処理装置100が通信装置16を介して他の装置との間で情報の入力や出力を行う構成としてもよい。
通信装置16は、他の装置との間の通信を実現する装置である。通信装置16は、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の通信手
段を介した他の装置との間の通信を実現する有線方式又は無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Bus)モジュール、シリアル通信モジュール等である。
キーワード検出装置10やユーザ装置2の機能は、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより、もしくは、これらの装置を構成するハードウェア(FPGA、ASIC、AIチップ等)によって実現される。
キーワード検出装置10やユーザ装置2には、例えば、オペレーティングシステム、デバイスドライバ、ファイルシステム、DBMS(DataBase Management System)等が導入されていてもよい。
図3は、キーワード検出システム1の構成を説明するブロック図である。同図において
、ユーザI/F302はユーザ装置2の構成であり、他はキーワード検出装置10の構成である。但し、同図に示す構成は一例に過ぎない。例えば、ユーザI/F302は、キーワード検出装置10の構成としてもよい。また例えば、文書画像リポジトリ307は、ユーザI/F302やキーワード検出装置10と通信可能に接続する他の装置の構成であってもよい。
同図において、ユーザI/F302は、文書画像リポジトリ307から受信した文書画像データの表示、キーワード検出装置10から送られてくる各種情報の表示、ユーザからの入力の受け付け、ユーザから受け付けた操作や入力内容を示す情報(以下、「操作情報」と称する。)のキーワード検出装置10への送信等を行う。
同図に示すように、キーワード検出装置10は、一文字認識処理部311、単語認識処理部321、及びキーワード検出処理部331を含む。これらはいずれも機械学習に関する処理を行う処理部(機能部)であり、いずれも推論器、学習モデル、及び学習器の三つの要素を含む。一文字認識処理部311、単語認識処理部321、及びキーワード検出処理部331の機能は、例えば、深層学習の機能を実装するOSS(Open Source Software)等を用いて実現される。
このうち一文字認識処理部311は、一文字認識推論器312、一文字認識モデル313、及び一文字認識モデル学習器314を含む。一文字認識推論器312は、学習モデルである一文字認識モデル313を用いて、一つの文字として切り出された画像データ(以下、「文字画像データ」と称する。)について、当該文字画像データが何の文字であるかを示す情報である「文字ラベル」を特定する。一文字認識モデル学習器314は、文字画像抽出処理部315により生成される文字画像データ316を学習データとして一文字認識モデル313の学習を行う。尚、一文字認識処理部311は、後述する図4の符号(e)、(f)で示す画面に対応する処理を行う。
単語認識処理部321は、単語認識推論器322、単語認識モデル323、及び単語認識モデル学習器324を含む。単語認識推論器322は、学習モデルである単語認識モデル323を用いて、キーワードの描画範囲として抽出された画像データ(以下、「単語画像データ」と称する。)について、当該単語画像データが何のキーワードであるかを示す情報である「単語ラベル」を特定する。単語認識モデル学習器324は、単語画像合成処理部325により生成される単語画像データ326を学習データとして単語認識モデル323の学習を行う。尚、単語認識処理部321は、後述する図4の符号(c)、(d)で示す画面に対応する処理を行う。
キーワード検出処理部331は、キーワード検出推論器332、キーワード検出モデル333、及びキーワード検出モデル学習器334を含む。キーワード検出推論器332は、学習モデルであるキーワード検出モデル333を用いて、文書画像リポジトリ307から読み出した文書画像データからキーワードを検出する。キーワード検出モデル学習器334は、キーワード埋込画像合成処理部335により生成されるキーワード埋込画像データ336を学習データとしてキーワード検出モデル333の学習を行う。
尚、キーワード検出モデル333の学習が進むことで、キーワード検出処理部331は、文書画像データから精度よくキーワードを検出することができるようになり、例えば、文書画像データを分類するための適切なキーワードの抽出を効率よく行うことができるようになる。
文字画像抽出処理部315は、一文字認識モデル学習器314に入力する学習データである文字画像データ316を生成する。文字画像抽出処理部315は、所定の文字につい
て、手書き一文字辞書306から文字画像データ316を一つ以上選択して文字画像データ316を生成する。
同図に示す単語画像合成処理部325は、単語認識モデル学習器324に入力する学習データである単語画像データ326を生成する。単語画像合成処理部325は、キーワードリスト305のキーワードについて、手書き一文字辞書306のデータを組合せることにより単語画像データ326を生成する。
同図に示すキーワード埋込画像合成処理部225は、キーワード検出モデル学習器334に入力する学習データであるキーワード埋込画像データ336を生成する。キーワード埋込画像合成処理部335は、キーワードリスト305のキーワードの各文字について、手書き一文字辞書306から抽出される文字画像データを組合せる(キーワードの各文字を手書きの画像データに変換する)ことにより、例えば、ランダムな文字列の中にキーワードについての単語画像を埋め込んだキーワード埋込画像データ336を生成する。
キーワードリスト305は、キーワードのリストを含む。キーワードリスト305は、例えば、ユーザが予め設定したキーワードを含む。キーワードリスト305には、アノテーション作業の過程で新たなキーワードが追加されることもある(後述する図4の符号(e)、(f)で示す画面のようにユーザが追加する場合等)。
文字分解処理部304は、一文字認識推論器312に入力するデータを生成する。文字分解処理部304は、入力される単語画像データを一文字ごとの文字画像データに分解し、各文字の文字画像データを一文字認識推論器312に入力し、その推論結果として文字ラベルを取得する。
単語描画範囲検出処理部303は、単語認識推論器322に入力するデータを生成する。単語描画範囲検出処理部303は、文書画像データと、ユーザI/F302から送られてくる操作情報とに基づき、キーワードが描画されている範囲である「単語描画範囲」を検出し、検出した単語描画範囲で切り出した画像データを単語認識推論器322に入力し、その推論(判定)結果として、単語描画範囲に対応する単語ラベルを取得する。尚、後述するように、上記単語描画範囲は、ユーザがユーザI/Fを操作して描画した線である「描画線」が通過する、文書画像データ上の文字画像の全てを丁度囲むような矩形領域として検出される。
キーワード検出推論器332には、文書画像リポジトリ307から入力される文書画像データからキーワードを検出する。
単語ラベル決定処理部301は、ユーザI/F302と通信する。単語ラベル決定処理部301は、ユーザI/F302、単語描画範囲検出処理部303、文字分解処理部304、単語画像合成処理部325、文字画像抽出処理部315、及びキーワード埋込画像合成処理部335と連携し、機械学習処理部(一文字認識処理部311、単語認識処理部321、及びキーワード検出処理部331)における推論(判定)や学習(訓練)に関する各種処理の実行制御を行う。
図4は、ユーザがユーザI/F302を操作してアノテーションの定義を行う際にユーザI/F302が表示する画面の例である。アノテーション定義作業は、ユーザが文書画像リポジトリ307に含まれている所定数(例えば100程度)の文書画像データについて、当該文書画像データに画像として含まれている手書き文字の正しい認識結果(正解文字)をユーザが決定(単語ラベルを決定)する作業である。以下、同図とともにアノテーションの定義作業について具体的に説明する。
まず符号(a)で示す画面のように、ユーザはユーザI/F302を操作して、文章画像データに表示されている「メッセージ」という画像の上に線(以下、「描画線401」と称する。)を描画する。
続いて、符号(b)で示す画面に示すように、単語ラベル決定処理部301が、描画線401に基づき、「メッセージ」という画像が描画されている範囲を丁度囲む枠線402を設定してユーザI/F302に表示する。尚、枠線402の設定に関する処理の詳細については後述する。
続いて、符号(c)で示す画面のように、単語ラベル決定処理部301が、単語認識推論器322と連携して枠線402(単語描画範囲)内の画像の内容を判定することにより特定した単語ラベルをユーザI/F302に表示する。本例の場合、ユーザが線を引いた部分は「メッセージ」という手書き文字であるので、これを単語認識推論器322が正しく「メッセージ」という単語ラベルと決定していれば、ユーザは当該手書き文字についての作業を終了し、次の手書き文字を指定する操作を開始する。本例では、単語認識推論器322が誤って「モジュール」と判定しているため、ユーザは当該手書き文字について更に操作を続けて単語ラベル決定処理部301に他の候補を表示させる。
続いて、符号(d)で示す画面のように、単語ラベル決定処理部301が、キーワードリスト305から取得される確信度の高い他のキーワードの候補を、確信度(単語認識推論器322が生成する確信度)と共にリストアップしてユーザI/F302に表示させる。もしこの中に正解があれば、ユーザはそのキーワードを選択し、当該手書き文字についての操作を終了する。本例では、正解のキーワードである「メッセージ」が候補としてリストアップされていないため、ユーザは同画面に表示されている「[誤認識]」の部分を選択して更に操作を続ける。
続いて、符号(e)で示す画面のように、単語ラベル決定処理部301が、ユーザの操作に応じて、文字分解処理部304と連携して枠線内の画像を文字に分解し、一文字認識処理部311と連携して文字単位での認識した結果を表示している。ユーザは、全ての文字の認識結果が正解であれば、当該手書き文字についての操作を終了する。本例では、一文字認識処理部311が文字「セ」を「巳」と誤って判定しているため、ユーザは ユーザI/F302を操作して誤判定された文字の修正作業を開始する。
符号(f)で示す画面は、ユーザが誤判定された文字を修正した後の状態である。ユーザはここで当該手書き文字についてのキーワードに関する操作を終了する。
符号(g)で示す画面は、以上に示した「メッセージ」という画像に関する処理が終了した状態である。
尚、画面(a)~(g)は、ユーザによる操作が最も多くなる場合を例示している。最短のケースでは、画面(g)のように正しく「メッセージ」と判定された状態が、画面(c)の段階で表示され、ユーザは早期に操作を終了することができる。
図5は、アノテーションの定義に関して単語ラベル決定処理部301が行う処理(以下、「単語ラベル決定処理S500」と称する。)の詳細を説明するフローチャートである。以下、同図とともに単語ラベル決定処理S500について説明する。
当該処理は、単語ラベル決定処理部301が、ユーザI/F302から、文字画像データに対する手書き文字列部分についての線引き操作の内容を示す操作情報を受信したこと
を契機として開始される(S501)。
単語ラベル決定処理部301は、受信した操作情報を単語描画範囲検出処理部303に伝達し、その結果として単語描画範囲検出処理部303から送られてくる単語ラベルの候補(確信度が高いものから選択された一つ以上の単語ラベルの候補)を取得する(S502)。
単語ラベル決定処理部301は、単語ラベルの候補をユーザI/F302を介してユーザに提示する。ユーザは、ユーザI/F302の画面に表示された単語ラベルを確認し、図4に示した符号(d)で示す画面まで操作を行い、その結果、ユーザI/F302からユーザが行った操作の内容を示す操作情報が単語ラベル決定処理部301に送られる(S503)。
単語ラベル決定処理部301は、単語ラベルの候補のうちの一つをユーザが選択した否か(単語ラベルの候補(推論候補)の中に正解の単語ラベルがあったか否か)を判定する(S504)。単語ラベルの候補のうちの一つをユーザが選択している場合(候補の中に正解の単語ラベルあり)(S504:YES)、処理はS505に移行する。ユーザが何も選択していない場合(候補の中に正解の単語ラベルなし)(S504:NO)、処理はS506及びS507に移行する。
S505では、単語ラベル決定処理部301は、ユーザが選択した単語ラベルが最も確信度の高いものであるか否かを判定する。ユーザが選択した単語ラベルが最も確信度の高いものである場合(S505:YES)、処理はS513に移行し、最も確信度の高いものでない場合(S505:NO)、処理はS506に移行する。
S506では、単語ラベルの推論に誤りがあった(ユーザが選択した単語ラベルが最も確信度の高いものでなかった)ので、単語ラベル決定処理部301は、確信度が最高である単語ラベルについて単語画像合成処理部325に再学習を指示する。その後、処理はS513に移行する。
S507では、単語ラベル決定処理部301は、単語画像データを文字分解処理部304に伝達し、その結果として文字分解処理部304から送られてくる、単語を構成する各文字の文字画像データの文字ラベルを取得する。その後、処理はS508に移行する。
S508では、単語ラベル決定処理部301は、S507で取得した文字ラベルをユーザI/F302を介してユーザに提示する。ユーザは、ユーザI/F302の画面に表示された文字ラベルを確認し、図4の符号(f)で示す画面まで操作を行う。ユーザI/F302は、ユーザが行った操作の内容(操作情報)を単語ラベル決定処理部301に送信する。単語ラベル決定処理部301は、操作情報を受信する。その後、処理はS509に移行する。
S509では、単語ラベル決定処理部301は、文字画像データの文字ラベルをユーザが修正した否かを判定する。ユーザが文字ラベルを修正していれば(S509:YES)、処理はS510に移行し、ユーザが文字ラベルを修正していなければ(S509:NO)、処理はS511に移行する。
S510では、文字画像データについて推定した文字ラベルに誤りがあった(ユーザが修正した)ので、単語ラベル決定処理部301は、文字画像抽出処理部315に当該誤りを補正するための文字画像データの選択を指示するとともに、一文字認識モデル学習器314に選択した上記文字画像データを学習データとする一文字認識モデル313の学習を
指示する。その後、処理はS511に移行する。
S511では、単語ラベル決定処理部301は、S508におけるユーザ操作によって決定された単語ラベルが、キーワードリスト305にない新規のキーワードであるか否かを判定する。単語ラベル決定処理部301が、ユーザ操作によって決定された単語ラベルが新規のキーワードであると判定した場合(S511:YES)、処理はS512に移行する。ユーザ操作によって決定された単語ラベルが新規のキーワードでないと判定した場合(S511:NO)、処理はS513に移行する。
S512では、単語ラベル決定処理部301は、単語画像合成処理部325とキーワード埋込画像合成処理部335に対し、新規のキーワードを単語画像データの新規の単語ラベルとして判定もしくはキーワードとして検出するよう、単語認識モデル323及びキーワード検出モデル333の再学習を行うように指示する。その後、処理はS513に移行する。
S513では、S501において文字画像データに対してユーザが引いた線に関する処理を終了する。
図6は、図4の符号(b)で示す画面の表示に際し、単語描画範囲検出処理部303が単語描画範囲を検出する処理(以下、「単語描画範囲検出処理S600」と称する。)を説明するフローチャートである。以下、同図とともに単語描画範囲検出処理S600について説明する。
単語描画範囲検出処理部303は、単語ラベル決定処理部301から、ユーザによる線引きの操作情報を受信することにより単語描画範囲検出処理S600を開始する(S601)。
まず単語描画範囲検出処理部303は、ユーザが引いた線(描画線)上に存在する、文書画像データ上の文字描画ドット(ユーザが引いた線と文字との交点)の全ての座標を交点座標リストに格納する(S602)。
続いて、単語描画範囲検出処理部303は、変数である「描画範囲上端」と、変数である「描画範囲下端」の値を、交点座標リストの第1要素のY座標の値に初期化する(S603)。
続いて、単語描画範囲検出処理部303は、S610までのループ処理を、交点座標リストの各要素について繰返し実行する(S604)。
続いて、単語描画範囲検出処理部303は、当該ループにおける処理対象である交点座標を起点として文字描画ドットが連続している領域を辿り、その最小Y座標と最大Y座標を検出する(S605)。
続いて、単語描画範囲検出処理部303は、最小Y座標が、描画範囲上端の値より小さいか否かを判定する(S606)。最小Y座標が、描画範囲上端の値より小さい場合(S606:YES)、S607の処理に移行する。最小Y座標が、描画範囲上端の値より小さくない場合(S606:NO)、処理はS608に移行する(S606)。
S607では、単語描画範囲検出処理部303は、描画範囲上端の値を、最小Y座標の値に更新する。その後、処理はS608に進む。
S608では、単語描画範囲検出処理部303は、最大Y座標が、描画範囲下端の値より大きいか否かを判定する。最大Y座標が、描画範囲下端の値より大きい場合(S608:YES)、処理はS609に移行する。最大Y座標が、描画範囲下端の値より大きくない場合(S608:NO)、処理はS610に移行する。
S609では、単語描画範囲検出処理部303は、描画範囲下端の値を、最大Y座標の値に更新する。その後、処理はS610に移行する。
S610では、単語描画範囲検出処理部303は、交点座標リストに格納された全ての要素の処理が終了しているか否かを判定し、終了していなければ処理はS604に移行し、終了している場合はS611に移行する。
S611では、単語描画範囲検出処理部303は、ユーザが引いた線の最小X座標及び最大X座標を検出し、それぞれを描画範囲左端及び描画範囲右端とする。
単語描画範囲検出処理部303は、以上の処理で検出した、描画範囲上端、下端、左端、右端で定まる矩形領域を、検出した単語描画範囲の結果として出力する。
以上で、単語描画範囲検出処理S600は終了する(S612)。
尚、以上に示した単語描画範囲検出処理S600は、単語描画範囲の検出方法の一例に過ぎず、単語描画範囲は他のアルゴリズムにより検出してもよい。
以上に説明したように、本実施形態のキーワード検出システム1によれば、ユーザがキーワードの記載箇所を線でなぞるだけで描画範囲を特定され、単語ラベルを半自動で決定する。そのため、ユーザは煩雑な作業である矩形描画とラベル選択の作業を強いられることがなく、アノテーションの定義におけるユーザの負荷を大きく軽減することができる。
また単語ラベル決定処理部301は、ユーザとの間の対話処理により得られる情報に基づきモデル(一文字認識モデル313、単語認識モデル323、キーワード検出モデル33)の再学習を行い、推論器(一文字認識推論器312、単語認識推論器322、キーワード検出推論器332)による判定精度(文字ラベル、単語ラベル、キーワードの判定精度)を向上させる。そのため、文書画像リポジトリ307における文書画像データから高い精度でキーワードを検出するキーワード検出装置10を実現することができる。
ところで、例えば、キーワード検出推論器332がユーザに文書画像データから検出したキーワードを提示した際、ユーザからキーワードの修正操作を受け付けて、キーワード検出モデル333の再学習を行うようにしてもよい。具体的には、まずキーワード検出推論器332が、文書画像リポジトリ307から読み出した文書画像データについてキーワードとその単語描画範囲を検出し、これらを文書画像データとともにユーザI/F302に送信し、ユーザI/F302が、当該文書画像データの上に、検出したキーワードの単語ラベルと、描画領域を示す矩形を描画した画像を表示するようにする。そしてユーザI/F302が表示する内容を確認したユーザが、図4に示した同様の手順で修正操作を行った場合に、図5に示したフローチャートのS504~S513に準じた手順でキーワード検出モデル学習器334がキーワード検出モデル333の再学習を行う(即ち、当該誤りを補正するすためのキーワード埋込画像データを生成し、生成したキーワード埋込画像データを学習データとしてキーワード検出モデル333の再学習を行う)ようにする。そのようにすることで、キーワード検出推論器332の文書画像データからのキーワードの検出精度を向上することができる。
また例えば、文字分解処理部304が、単語画像データを分解して得た文字画像データを手書き一文字辞書306に追加するようにしてもよい。そのようにすれば、単語画像合成処理部325やキーワード埋込画像合成処理部335が学習データの材料として用いる文字画像データを拡充することができ、単語ラベルの判定精度を向上することができる。
[第2実施形態]
第2実施形態では、第1実施形態に示したキーワード検出システム1について、ユーザがユーザI/F302が表示する文字画像データに線の描画操作を行ってからキーワード検出装置10が判定した単語ラベルの候補を画面に表示するまでのレスポンスの向上を図る。尚、第2実施形態のキーワード検出システム1の基本的な構成は第1実施形態のキーワード検出システム1の構成と同様である。以下、第1実施形態と相違する部分を中心として説明する。
第1実施形態では、ユーザによる線の描画操作が完了した後に単語認識推論器322による単語ラベルの判定が開始されるが、単語認識推論器322による推論処理にはある程度の時間を要するため、ユーザが線を引き終ってから単語ラベルが表示されるまで人が感知可能な程度の待ち時間が発生し、ユーザにストレスを与えてしまう。そこで第2実施形態では、単語認識推論322による推論処理をパイプライン処理により行うようにし、ユーザの線の描画操作の完了を待たずに、ユーザの描画操作に追随して、候補の単語ラベルを随時表示するようにし、例えば、ユーザが単語ラベルの判定結果を確認してから線引きの操作を終えることができるようにする。
図7は、ユーザが文字画像データに線の描画操作を行っている際に単語認識モデル323がパイプライン方式で逐次処理を行う様子を説明する図である。尚、本実施形態では、一例として、単語認識推論322による単語ラベルの推論手法として深層学習を想定する。尚、深層学習におけるデータフローは、各層(処理レイヤ)を単位とするパイプライン処理による並列性と親和性がよい。
同図において、符号701で示す線は時間遷移を表す。符号711~715で示す各図は、ユーザが線の描画操作を行う文字画像データであり、順に時刻t1~t5における状態を示す。
符号720で示す図(ニューラルネットワークの模式図)は、前述した単語認識モデル323を模式的に示したものである。同図に示すように、単語認識モデル323は、入力層L1、隠れ層L2、出力層L3の3つの層を有する。文字画像データ711~715の夫々の下方に符号731~735で示す各長方形は、単語認識モデル323の各層の処理状態を示す。
前述したように、単語認識推論器322は、入力データを単語認識モデル323に入力し、その処理結果を単語ラベルとして取得する。
時刻t1の状態は、線の引き始めであり、「メッセージ」の2文字目までが単語描画範囲として検出され、その範囲で切出された画像データが、画像データ1として入力層L1で処理されている。時刻t2で切り出される画像データ2までは、先頭の一部の文字しか含まないため、推論に失敗している(「?」が表示される)。また画像データ2は、時刻t4に出力層L3まで処理されているが、やはり推論不能と判定されている(「?」が表示される)。
時刻t3の状態において、ユーザの描画線が最後の文字にかかると、その最後の文字までを含む画像データ3が、入力層L1に入力される。この画像データ3は、時刻t5に出
力層L3まで処理され、正しく推論された単語ラベル(本例では「メッセージ」)が表示される。この時点においてユーザは線の描画を完了していないが、先行して単語ラベルを確認することができる。そのため、ユーザは待ち時間によるストレスを感じることなく作業を行うことができる。
ところで、例えば、時刻t2の時点でユーザの引く線がさらに右に延びることを予測し、その予測線と交差する文字の描画範囲を先行して検出することで、単語ラベルの表示タイミングを更に早めるようにしてもよい。
尚、FPGAは、このようなパイプライン処理の実行に適しており、単語認識モデル323の処理をFPGAで実行すれば、レスポンスの改善についての相乗効果が期待できる。またマルチコアプロセッサやマルチソケット、或いは、複数のGPUによるパイプライン処理で実現することによってもレスポンスの改善効果を期待できる。またパイプライン処理を行わず、個々のデータについて入力層L1から出力層L3まで一つずつ処理を実行する場合でも、先行して単語描画範囲を検出することによるレスポンス改善の効果が期待できる。
ところで、単語認識推論器322と単語認識モデル学習器324は、いずれも処理に際して単語認識モデル323を利用するため、前者が処理する入力データと後者が処理する学習データをシリアライズしてパイプライン処理に入力する必要がある。
図8は、単語認識推論器322による入力データの処理と、単語認識モデル学習器324による学習データの処理を混合(シリアライズ)してパイプライン処理により行う様子を説明する図である。
同図において、符号801で示す線は時間の遷移を示す。符号811~820で示す3つの正方形は、夫々時刻t1~t10における単語認識モデル323の各層の処理状態を示す。正方形内に記載している「学n」は、単語認識モデル学習器324が単語認識モデル323に入力するn番目の学習データを、「入m」は、単語認識モデル学習器324が単語認識モデル323に入力するm番目の入力データを示している。
同図に示すように、時刻t1~t7では、学習データ1、学習データ2、入力データ1、学習データ3、入力データ2、入力データ3、学習データ4が、単語認識モデル323に順次入力され、時刻t3~t9において各データの処理が完了する。ここで学習データよりも入力データを優先して処理するようにすれば、ユーザに与えるストレスを低減することができる。
図9は、以上のように単語認識推論器322による入力データの処理と、単語認識モデル学習器324による学習データの処理を混合して進める場合におけるキーワード検出システム1の構成例を示すブロック図である。
同図に示すように、本例では、図3に示した単語描画範囲検出処理部303の代わりに、キーワード検出装置10に、逐次単語描画範囲検出処理部901と単語認識パイプライン制御処理部902とを設けている。例示するキーワード検出システム1の他の構成については第1実施形態と同様である。
逐次単語描画範囲検出処理部901は、単語ラベル決定処理部301を経由して、ユーザI/F302からユーザが線を描画している途中においても操作情報を逐次受信し、単語描画範囲が変化する都度、単語認識パイプライン制御処理部902に対して、同単語描画範囲で切出した単語画像データについての単語ラベルの判定を指示する。
単語認識パイプライン制御処理902は、上記指示を受けると、単語認識モデル学習器324からの単語認識モデル323への学習データの入力をサスペンドするとともに、単語認識推論器322に対して、入力データ(逐次単語描画範囲検出処理部901から受け取った単語描画範囲に基き文書画像データから切出した単語画像データ)についての単語ラベルの判定を指示する。
図10は、図9に示した逐次単語描画範囲検出処理部901が単語描画範囲の検出に際して行う処理(以下、「単語描画範囲検出処理S1000」と称する。)を説明するフローチャートである。
単語描画範囲検出処理S1000は、逐次単語描画範囲検出処理部901が、単語ラベル決定処理部301から、ユーザによる線引き開始の座標(操作情報)を受け取ることにより開始される(S1001)。
逐次単語描画範囲検出処理部901は、まず描画範囲左端(変数)と描画範囲右端(変数)の値を、ユーザによる線引き開始座標のX座標の値に、描画範囲上端(変数)と描画範囲下端(変数)の値を、Y座標の値に、それぞれ初期化する(S1002)。
S1003~S1016までのループ処理は、逐次単語描画範囲検出処理部901は、ユーザが線を引いている期間、描画中の座標について繰り返し実行される)。
S1004では、逐次単語描画範囲検出処理部901は、ユーザが描画する線が、文字描画ドットを通過したか否かを判定する。通過している場合(S1004:YES)、処理はS1005に移行する。通過していない場合(S1004:NO)、処理はS1006に移行する。
S1005では、逐次単語描画範囲検出処理部901は、S1004にて通過したドットの座標を起点として、文字描画ドットが連続している領域を辿り、その最小X座標、最小Y座標、最大X座標、及び最大Y座標を検出する。また、逐次単語描画範囲検出処理部901は、範囲変化フラグ(真理値変数)を「False」に設定する。
S1006では、逐次単語描画範囲検出処理部901は、最小X座標が、描画範囲左端の値より小さいか否かを判定する。最小X座標が、描画範囲左端の値より小さい場合(S1006:YES)、処理はS1007に移行する。最小X座標が、描画範囲左端の値より小さくない場合(S1006:NO)、処理はS1008に移行する。
S1007では、逐次単語描画範囲検出処理部901は、描画範囲左端の値を、最小X座標の値に更新し、範囲変化フラグを「True」に設定する。
S1008では、逐次単語描画範囲検出処理部901は、最大X座標が、描画範囲右端の値より大きいか否かを判定する。最大X座標が、描画範囲右端の値より大きい場合(S1008:YES)、処理はS1009に移行する。最大X座標が、描画範囲右端の値より大きくない場合(S1008:NO)、S1010に移行する。
S1009では、逐次単語描画範囲検出処理部901は、描画範囲右端の値を、最大X座標の値に更新し、範囲変化フラグを「True」に設定する。
S1010では、逐次単語描画範囲検出処理部901は、最小Y座標が、描画範囲上端の値より小さいか否かを判定する。最小Y座標が、描画範囲上端の値より小さい場合(S
1010:YES)、処理はS1011に移行する。最小Y座標が、描画範囲上端の値より小さくない場合(S1010:NO)、処理はS1012に移行する。
S1011では、逐次単語描画範囲検出処理部901は、描画範囲上端の値を、最小Y座標の値に更新し、範囲変化フラグを「True」に設定する。
S1012では、逐次単語描画範囲検出処理部901は、最大Y座標が、描画範囲下端の値より大きいか否かを判定する。最大Y座標が、描画範囲下端の値より大きい場合(S1012:YES)、処理はS1013に移行する。最大Y座標が、描画範囲下端の値より大きくない場合(S1012:NO)、処理はS1014に移行する。
S1013では、逐次単語描画範囲検出処理部901は、描画範囲下端の値を、最大Y座標の値に更新し、範囲変化フラグを「True」に設定する。
S1014では、逐次単語描画範囲検出処理部901は、範囲変化フラグが「True」か否かを判定する。範囲変化フラグが「True」ならば(S1014:YES)、処理はS1015に移行する。範囲変化フラグが「True」でなければ(S1014:NO)、処理はS1016に移行する。
S1015では、逐次単語描画範囲検出処理部901は、描画範囲上端、下端、左端、右端で定まる矩形領域を、単語描画範囲として、単語認識パイプライン制御処理902に渡す。
S1016では、逐次単語描画範囲検出処理部901は、ユーザが線の描画を継続中か否かを判定し、継続中であれば処理はS1003に移行する。ユーザが線の描画を終了した場合、処理はS1017に移行する。
S1017では、単語認識パイプライン制御処理902が、単語認識推論器322から受け取った最後の単語ラベルを、当該キーワードの単語ラベルとして、処理を終了する。
尚、本発明における単語描画範囲検出の手順は、本フローチャートに限定するものではなく、ユーザ操作で描画された線が通過する、文書画像データ上の文字画像の全てを、丁度囲むような矩形領域を逐次的に検出する、他のアルゴリズムによるものであってもよい。
以上、本発明の一実施形態について詳細に説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、説明した全ての構成を備えるものに必ずしも限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。
また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、IC
カード、SDカード、DVD等の記録媒体に置くことができる。
また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており
、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際には殆ど全ての構成が相互に接続されていると考えてもよい。
また以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。
また前述した各種のデータを格納するデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。
1 キーワード検出システム、2 ユーザ装置、10 キーワード検出装置、301単語ラベル決定処理部、302 ユーザI/F、303 単語描画範囲検出処理部、304 文字分解処理部、305 キーワードリスト、306 手書き一文字辞書、307 文書画像リポジトリ、311 一文字認識処理部、312 一文字認識推論器、313 一文字認識モデル、314 一文字認識モデル学習器、315 文字画像抽出処理部、316
文字画像データ、321 単語認識処理部、322 単語認識推論器、323 単語認識モデル、324 単語認識モデル学習器、325 単語画像合成処理部、331 キーワード検出処理部、332 キーワード検出推論器、333 キーワード検出モデル、334 キーワード検出モデル学習器、335 キーワード埋込画像合成処理部、336 キーワード埋込画像データ、901 逐次単語描画範囲検出処理部、902 単語認識パイプライン制御処理、S500 単語ラベル決定処理、S600 単語描画範囲検出処理

Claims (14)

  1. 文書画像データからキーワードを検出するキーワード検出装置であって、
    キーワード検出モデルを用いて文書画像データからキーワードを検出するキーワード検出推論器と、
    前記キーワード検出モデルの学習を行うキーワード検出モデル学習器と、
    キーワードのリストであるキーワードリストと、
    一文字毎の手書きの画像データを含む手書き一文字画像辞書と、
    前記キーワードリストにおけるキーワードの各文字を前記手書きの画像データに変換して得られる画像データであるキーワード埋込画像データを生成し、生成した前記キーワード埋込画像データを学習データとして前記キーワード検出モデル学習器に入力する、キーワード埋込画像合成処理部と、
    文書画像データに対してユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信する単語ラベル決定処理部と、
    前記操作情報に基づき、前記文書画像データに対して前記ユーザが描いた描画線が通過する前記文書画像データ上の文字画像を囲む矩形領域である単語描画範囲を検出する単語描画範囲検出処理部と、
    文書画像データから前記単語描画範囲として抽出された単語画像データについて単語認識モデルを用いて前記単語画像データに対応する単語ラベルを判定する単語認識推論器と、
    前記単語認識モデルの学習を行う単語認識モデル学習器と、
    前記キーワードリストにおける前記キーワードの各文字を前記手書きの画像データに変換して得られる画像データである単語画像データを生成し、生成した前記単語画像データを学習データとして前記単語認識モデル学習器に入力する、単語画像合成処理部と、
    を備える、キーワード検出装置。
  2. 請求項1に記載のキーワード検出装置であって、
    前記単語ラベル決定処理部は、
    前記単語画像データをユーザインタフェースを介してユーザに提示し、
    前記単語認識推論器が前記単語画像データについて判定した前記単語ラベルについてユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信し、
    前記操作情報に基づき前記単語ラベルの正誤を判定し、前記単語ラベルが誤りであると判定した場合、前記単語画像合成処理部に当該誤りを補正するための前記単語画像データの生成を指示するとともに、前記単語認識モデル学習器に生成した前記単語画像データを学習データとする前記単語認識モデルの学習を指示する、
    キーワード検出装置。
  3. 請求項1に記載のキーワード検出装置であって、
    一つの文字として切り出された画像データについて、一文字認識モデルを用いて前記画像データが表す文字を判定する一文字認識推論器と、
    前記一文字認識モデルの学習を行う一文字認識モデル学習器と、
    前記手書き一文字辞書から、前記一文字認識モデル学習器に入力する学習データである文字画像データを抽出する文字画像抽出処理部と、
    前記単語画像データを、一文字ごとの文字画像データに分解する文字分解処理部と、
    を更に備え、
    前記単語ラベル決定処理部は、
    前記単語ラベルが誤りであると判定した場合、前記文字分解処理部に対して、前記単語画像データの前記文字画像データへの分解を指示するとともに、前記一文字認識推論器に前記分解により得られた前記文字画像データの文字ラベルの判定を指示し、
    前記文字分解処理部により判定された文字ラベルをユーザインタフェースを介してユー
    ザに提示し、
    前記文字ラベルについてユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信し、
    前記操作情報に基づき、前記文字ラベルの正誤を判定し、前記文字ラベルが誤りであると判定した場合、前記文字画像抽出処理部に当該誤りを補正するすための文字画像データの選択を指示するとともに、前記一文字認識モデル学習器に選択した前記文字画像データを学習データとする前記一文字認識モデルの学習を指示する、
    キーワード検出装置。
  4. 請求項3に記載のキーワード検出装置であって、
    前記文字分解処理部は、分解することにより得られた前記文字画像データを前記手書き一文字辞書に追加する、
    キーワード検出装置。
  5. 請求項1に記載のキーワード検出装置であって、
    文書画像データから前記キーワード検出推論器が検出したキーワードをユーザインタフェースを介してユーザに提示し、
    前記ユーザが前記キーワードについてユーザインタフェースに行った操作を示す情報である操作情報を受信し、
    前記操作情報に基づき前記キーワードの正誤を判定し、前記キーワードが誤りであると判定した場合、前記キーワード埋込画像合成処理部に当該誤りを補正するすためのキーワード埋込画像データの生成を指示するとともに、前記キーワード検出モデル学習器に生成した前記キーワード埋込画像データを学習データとする前記キーワード検出モデルの学習を指示する、
    キーワード検出装置。
  6. 請求項1に記載のキーワード検出装置であって、
    複数の文書画像データが管理されるリポジトリである文書画像リポジトリと通信可能に接続し
    前記キーワード検出推論器は、前記文書画像リポジトリから読み出した文書画像データからキーワードを検出する、
    キーワード検出装置。
  7. 請求項1に記載のキーワード検出装置であって、
    前記単語ラベル決定処理部は、前記ユーザインタフェースから送られてくるユーザの操作を示す情報である操作情報を逐次受信し、
    前記単語描画範囲検出処理部は、受信した前記操作情報から把握される前記単語描画範囲の前記単語画像データを前記単語認識推論器に逐次入力する、
    キーワード検出装置。
  8. 請求項7に記載のキーワード検出装置であって、
    前記単語認識モデルは、複数の処理レイヤを含み、
    前記単語認識モデルを、前記処理レイヤを単位とするパイプライン処理により駆動させる、単語認識パイプライン制御処理部を更に備える、
    キーワード検出装置。
  9. 請求項8に記載のキーワード検出装置であって、
    前記単語認識パイプライン制御処理部は、前記単語認識モデル学習器が前記単語認識モデルの使用中の期間に前記単語描画範囲検出処理部から前記単語画像データが入力された場合、前記単語認識モデル学習器に前記単語認識モデルへの学習データの入力をサスペン
    ドさせる、
    キーワード検出装置。
  10. 文書画像データからキーワードを検出するキーワード検出方法であって、
    情報処理装置が、
    キーワード検出モデルを用いて文書画像データからキーワードを検出するステップ、
    前記キーワード検出モデルの学習を行うステップ、
    キーワードのリストであるキーワードリストを記憶するステップ、
    一文字毎の手書きの画像データを含む手書き一文字画像辞書を記憶するステップ、
    前記キーワードリストにおけるキーワードの各文字を前記手書きの画像データに変換して得られる画像データであるキーワード埋込画像データを生成し、生成した前記キーワード埋込画像データを学習データとして前記キーワード検出モデルの学習を行うステップ、
    文書画像データに対してユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信するステップ、
    前記操作情報に基づき、前記文書画像データに対して前記ユーザが描いた描画線が通過する前記文書画像データ上の文字画像を囲む矩形領域である単語描画範囲を検出するステップ、
    文書画像データから前記単語描画範囲として抽出された単語画像データについて単語認識モデルを用いて前記単語画像データに対応する単語ラベルを判定するステップ、
    前記単語認識モデルの学習を行うステップ、及び、
    前記キーワードリストにおける前記キーワードの各文字を前記手書きの画像データに変換して得られる画像データである単語画像データを生成し、生成した前記単語画像データを学習データとして前記単語認識モデルを学習するステップ、
    を実行する、キーワード検出方法。
  11. 請求項10に記載のキーワード検出方法であって、
    前記情報処理装置が、
    前記単語画像データをユーザインタフェースを介してユーザに提示するステップ、
    前記単語画像データについて判定した前記単語ラベルについてユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信するステップ、及び、
    前記操作情報に基づき前記単語ラベルの正誤を判定し、前記単語ラベルが誤りであると判定した場合、当該誤りを補正するための前記単語画像データを生成し、前記単語画像データを学習データとする前記単語認識モデルの学習を行うステップ、
    を更に実行する、
    キーワード検出方法。
  12. 請求項10に記載のキーワード検出方法であって、
    前記情報処理装置が、
    一つの文字として切り出された画像データについて、一文字認識モデルを用いて前記画像データが表す文字を判定するステップ、
    前記一文字認識モデルの学習を行うステップ、
    前記手書き一文字辞書から、前記一文字認識モデルの学習データである文字画像データを抽出するステップ、
    前記単語画像データを、一文字ごとの文字画像データに分解するステップ、
    前記単語ラベルが誤りであると判定した場合に、前記単語画像データの前記文字画像データに分解し、前記分解により得られた前記文字画像データの文字ラベルを判定するステップ、
    判定した文字ラベルをユーザインタフェースを介してユーザに提示するステップ、
    前記文字ラベルについてユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信するステップ、及び、
    前記操作情報に基づき、前記文字ラベルの正誤を判定し、前記文字ラベルが誤りであると判定した場合、当該誤りを補正するすための文字画像データを選択し、選択した前記文字画像データを学習データとして前記一文字認識モデルの学習を行うステップ、
    を更に実行する、
    キーワード検出方法。
  13. 請求項12に記載のキーワード検出方法であって、
    前記情報処理装置が、分解することにより得られた前記文字画像データを前記手書き一文字辞書に追加するステップ、
    を更に実行する、
    キーワード検出方法。
  14. 請求項10に記載のキーワード検出方法であって、
    文書画像データから検出したキーワードをユーザインタフェースを介してユーザに提示するステップ、
    前記ユーザが前記キーワードについてユーザインタフェースに行った操作を示す情報である操作情報を受信するステップ、及び、
    前記操作情報に基づき前記キーワードの正誤を判定し、前記キーワードが誤りであると判定した場合、当該誤りを補正するすためのキーワード埋込画像データを生成し、生成した前記キーワード埋込画像データを学習データとして前記キーワード検出モデルの学習を行うステップ、
    を更に実行する、
    キーワード検出方法。
JP2019111693A 2019-06-17 2019-06-17 キーワード検出装置、及びキーワード検出方法 Active JP7221143B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019111693A JP7221143B2 (ja) 2019-06-17 2019-06-17 キーワード検出装置、及びキーワード検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019111693A JP7221143B2 (ja) 2019-06-17 2019-06-17 キーワード検出装置、及びキーワード検出方法

Publications (3)

Publication Number Publication Date
JP2020204855A JP2020204855A (ja) 2020-12-24
JP2020204855A5 JP2020204855A5 (ja) 2022-02-22
JP7221143B2 true JP7221143B2 (ja) 2023-02-13

Family

ID=73838589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019111693A Active JP7221143B2 (ja) 2019-06-17 2019-06-17 キーワード検出装置、及びキーワード検出方法

Country Status (1)

Country Link
JP (1) JP7221143B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836091A (zh) * 2021-09-01 2021-12-24 北京来也网络科技有限公司 结合rpa和ai的数据识别方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6465427B1 (ja) 2018-08-15 2019-02-06 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3350127B2 (ja) * 1993-03-12 2002-11-25 松下電器産業株式会社 文字認識装置
JP3623998B2 (ja) * 1995-01-27 2005-02-23 キヤノン株式会社 画像処理方法および画像処理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6465427B1 (ja) 2018-08-15 2019-02-06 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム

Also Published As

Publication number Publication date
JP2020204855A (ja) 2020-12-24

Similar Documents

Publication Publication Date Title
US7555713B2 (en) Writing and reading aid system
US7913191B2 (en) Common input/output interface for application programs
JP4308785B2 (ja) デジタルインク質疑検索装置及びその方法
CN105283868A (zh) 概率解析
JP2007109118A (ja) 入力指示処理装置および入力指示処理プログラム
Karasneh et al. Extracting UML models from images
JP5661663B2 (ja) 情報抽出装置
US20230161952A1 (en) Automatic semantic labeling of form fields with limited annotations
US20230055233A1 (en) Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method
CN116595195A (zh) 一种知识图谱构建方法、装置及介质
JP7221143B2 (ja) キーワード検出装置、及びキーワード検出方法
CN117501283A (zh) 文本到问答模型系统
JP2019101149A (ja) 設問自動生成プログラム及び設問自動生成装置
KR101638511B1 (ko) 온라인 학습 콘텐츠 저작을 위한 프로그램이 기록된 컴퓨터 판독 가능한 매체 및 온라인 학습 콘텐츠 저작 방법
US10628632B2 (en) Generating a structured document based on a machine readable document and artificial intelligence-generated annotations
Haider et al. Classification of layout vs. relational tables on the Web: Machine learning with rendered pages
JP2023043910A (ja) 文字列抽出装置、文字列抽出方法、および文字列抽出プログラム
JP6768750B2 (ja) 学習方法、誤り判定方法、学習システム、誤り判定システム、およびプログラム
Azmi et al. Mining and visualizing the narration tree of hadiths (prophetic traditions)
JP7395915B2 (ja) 情報処理装置、コンピュータプログラム及び情報処理方法
US20230305863A1 (en) Self-Supervised System for Learning a User Interface Language
KR102655430B1 (ko) 테이블 생성 방법 및 시스템
US20220092260A1 (en) Information output apparatus, question generation apparatus, and non-transitory computer readable medium
JP7295463B2 (ja) 業務フロー作成支援装置、業務フロー作成支援方法、および、業務フロー作成支援プログラム
KR102601932B1 (ko) 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230201

R150 Certificate of patent or registration of utility model

Ref document number: 7221143

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150