JP7221143B2 - キーワード検出装置、及びキーワード検出方法 - Google Patents
キーワード検出装置、及びキーワード検出方法 Download PDFInfo
- Publication number
- JP7221143B2 JP7221143B2 JP2019111693A JP2019111693A JP7221143B2 JP 7221143 B2 JP7221143 B2 JP 7221143B2 JP 2019111693 A JP2019111693 A JP 2019111693A JP 2019111693 A JP2019111693 A JP 2019111693A JP 7221143 B2 JP7221143 B2 JP 7221143B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- image data
- character
- keyword
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ェクト検出モデルを組み込んだ新しい画像注釈ツールを提供する。(Existing tools for
image annotation can help, but they require much work to be put in. We therefore present a new image annotation tool that incorporates an existing state-of-the-art object detection model called RetinaNet to show suggestions of 80 common object classes while annotation to reduce the amount of human effort to be put in to annotate images.)」と記載されている。
用して、活字のみならず手書きの文字列も読み取ることが可能なAI-OCRと呼ばれる
技術分野の製品も登場している。
出を精度よく行うためには、ニューラルネットワーク等の学習モデルを学習(訓練)する、あるいは学習モデルの検出精度を検証する必要があり、そのためのデータ(以下、「学習データ」と称する。)を用意する必要がある。
し、生成した前記単語画像データを学習データとして前記単語認識モデル学習器に入力する、単語画像合成処理部と、を備える。
図1に第1実施形態として示す情報処理システム(以下、「キーワード検出システム1」と称する。)の概略的な構成を示している。キーワード検出システム1は、キーワード検出装置10と一つ以上のユーザ装置2とを含む。キーワード検出装置10及びユーザ装置2は、いずれも情報処理装置(コンピュータ)であり、これらは通信ネットワーク5を介して通信可能に接続されている。通信ネットワーク5は、例えば、LAN(Local Area
Network)、WAN(Wide Area Network)、インターネット、専用線、公衆通信網等で
ある。
Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成されている。
Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み込まれる。
段を介した他の装置との間の通信を実現する有線方式又は無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Bus)モジュール、シリアル通信モジュール等である。
、ユーザI/F302はユーザ装置2の構成であり、他はキーワード検出装置10の構成である。但し、同図に示す構成は一例に過ぎない。例えば、ユーザI/F302は、キーワード検出装置10の構成としてもよい。また例えば、文書画像リポジトリ307は、ユーザI/F302やキーワード検出装置10と通信可能に接続する他の装置の構成であってもよい。
て、手書き一文字辞書306から文字画像データ316を一つ以上選択して文字画像データ316を生成する。
を契機として開始される(S501)。
指示する。その後、処理はS511に移行する。
第2実施形態では、第1実施形態に示したキーワード検出システム1について、ユーザがユーザI/F302が表示する文字画像データに線の描画操作を行ってからキーワード検出装置10が判定した単語ラベルの候補を画面に表示するまでのレスポンスの向上を図る。尚、第2実施形態のキーワード検出システム1の基本的な構成は第1実施形態のキーワード検出システム1の構成と同様である。以下、第1実施形態と相違する部分を中心として説明する。
力層L3まで処理され、正しく推論された単語ラベル(本例では「メッセージ」)が表示される。この時点においてユーザは線の描画を完了していないが、先行して単語ラベルを確認することができる。そのため、ユーザは待ち時間によるストレスを感じることなく作業を行うことができる。
1010:YES)、処理はS1011に移行する。最小Y座標が、描画範囲上端の値より小さくない場合(S1010:NO)、処理はS1012に移行する。
カード、SDカード、DVD等の記録媒体に置くことができる。
、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際には殆ど全ての構成が相互に接続されていると考えてもよい。
文字画像データ、321 単語認識処理部、322 単語認識推論器、323 単語認識モデル、324 単語認識モデル学習器、325 単語画像合成処理部、331 キーワード検出処理部、332 キーワード検出推論器、333 キーワード検出モデル、334 キーワード検出モデル学習器、335 キーワード埋込画像合成処理部、336 キーワード埋込画像データ、901 逐次単語描画範囲検出処理部、902 単語認識パイプライン制御処理、S500 単語ラベル決定処理、S600 単語描画範囲検出処理
Claims (14)
- 文書画像データからキーワードを検出するキーワード検出装置であって、
キーワード検出モデルを用いて文書画像データからキーワードを検出するキーワード検出推論器と、
前記キーワード検出モデルの学習を行うキーワード検出モデル学習器と、
キーワードのリストであるキーワードリストと、
一文字毎の手書きの画像データを含む手書き一文字画像辞書と、
前記キーワードリストにおけるキーワードの各文字を前記手書きの画像データに変換して得られる画像データであるキーワード埋込画像データを生成し、生成した前記キーワード埋込画像データを学習データとして前記キーワード検出モデル学習器に入力する、キーワード埋込画像合成処理部と、
文書画像データに対してユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信する単語ラベル決定処理部と、
前記操作情報に基づき、前記文書画像データに対して前記ユーザが描いた描画線が通過する前記文書画像データ上の文字画像を囲む矩形領域である単語描画範囲を検出する単語描画範囲検出処理部と、
文書画像データから前記単語描画範囲として抽出された単語画像データについて単語認識モデルを用いて前記単語画像データに対応する単語ラベルを判定する単語認識推論器と、
前記単語認識モデルの学習を行う単語認識モデル学習器と、
前記キーワードリストにおける前記キーワードの各文字を前記手書きの画像データに変換して得られる画像データである単語画像データを生成し、生成した前記単語画像データを学習データとして前記単語認識モデル学習器に入力する、単語画像合成処理部と、
を備える、キーワード検出装置。 - 請求項1に記載のキーワード検出装置であって、
前記単語ラベル決定処理部は、
前記単語画像データをユーザインタフェースを介してユーザに提示し、
前記単語認識推論器が前記単語画像データについて判定した前記単語ラベルについてユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信し、
前記操作情報に基づき前記単語ラベルの正誤を判定し、前記単語ラベルが誤りであると判定した場合、前記単語画像合成処理部に当該誤りを補正するための前記単語画像データの生成を指示するとともに、前記単語認識モデル学習器に生成した前記単語画像データを学習データとする前記単語認識モデルの学習を指示する、
キーワード検出装置。 - 請求項1に記載のキーワード検出装置であって、
一つの文字として切り出された画像データについて、一文字認識モデルを用いて前記画像データが表す文字を判定する一文字認識推論器と、
前記一文字認識モデルの学習を行う一文字認識モデル学習器と、
前記手書き一文字辞書から、前記一文字認識モデル学習器に入力する学習データである文字画像データを抽出する文字画像抽出処理部と、
前記単語画像データを、一文字ごとの文字画像データに分解する文字分解処理部と、
を更に備え、
前記単語ラベル決定処理部は、
前記単語ラベルが誤りであると判定した場合、前記文字分解処理部に対して、前記単語画像データの前記文字画像データへの分解を指示するとともに、前記一文字認識推論器に前記分解により得られた前記文字画像データの文字ラベルの判定を指示し、
前記文字分解処理部により判定された文字ラベルをユーザインタフェースを介してユー
ザに提示し、
前記文字ラベルについてユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信し、
前記操作情報に基づき、前記文字ラベルの正誤を判定し、前記文字ラベルが誤りであると判定した場合、前記文字画像抽出処理部に当該誤りを補正するすための文字画像データの選択を指示するとともに、前記一文字認識モデル学習器に選択した前記文字画像データを学習データとする前記一文字認識モデルの学習を指示する、
キーワード検出装置。 - 請求項3に記載のキーワード検出装置であって、
前記文字分解処理部は、分解することにより得られた前記文字画像データを前記手書き一文字辞書に追加する、
キーワード検出装置。 - 請求項1に記載のキーワード検出装置であって、
文書画像データから前記キーワード検出推論器が検出したキーワードをユーザインタフェースを介してユーザに提示し、
前記ユーザが前記キーワードについてユーザインタフェースに行った操作を示す情報である操作情報を受信し、
前記操作情報に基づき前記キーワードの正誤を判定し、前記キーワードが誤りであると判定した場合、前記キーワード埋込画像合成処理部に当該誤りを補正するすためのキーワード埋込画像データの生成を指示するとともに、前記キーワード検出モデル学習器に生成した前記キーワード埋込画像データを学習データとする前記キーワード検出モデルの学習を指示する、
キーワード検出装置。 - 請求項1に記載のキーワード検出装置であって、
複数の文書画像データが管理されるリポジトリである文書画像リポジトリと通信可能に接続し
前記キーワード検出推論器は、前記文書画像リポジトリから読み出した文書画像データからキーワードを検出する、
キーワード検出装置。 - 請求項1に記載のキーワード検出装置であって、
前記単語ラベル決定処理部は、前記ユーザインタフェースから送られてくるユーザの操作を示す情報である操作情報を逐次受信し、
前記単語描画範囲検出処理部は、受信した前記操作情報から把握される前記単語描画範囲の前記単語画像データを前記単語認識推論器に逐次入力する、
キーワード検出装置。 - 請求項7に記載のキーワード検出装置であって、
前記単語認識モデルは、複数の処理レイヤを含み、
前記単語認識モデルを、前記処理レイヤを単位とするパイプライン処理により駆動させる、単語認識パイプライン制御処理部を更に備える、
キーワード検出装置。 - 請求項8に記載のキーワード検出装置であって、
前記単語認識パイプライン制御処理部は、前記単語認識モデル学習器が前記単語認識モデルの使用中の期間に前記単語描画範囲検出処理部から前記単語画像データが入力された場合、前記単語認識モデル学習器に前記単語認識モデルへの学習データの入力をサスペン
ドさせる、
キーワード検出装置。 - 文書画像データからキーワードを検出するキーワード検出方法であって、
情報処理装置が、
キーワード検出モデルを用いて文書画像データからキーワードを検出するステップ、
前記キーワード検出モデルの学習を行うステップ、
キーワードのリストであるキーワードリストを記憶するステップ、
一文字毎の手書きの画像データを含む手書き一文字画像辞書を記憶するステップ、
前記キーワードリストにおけるキーワードの各文字を前記手書きの画像データに変換して得られる画像データであるキーワード埋込画像データを生成し、生成した前記キーワード埋込画像データを学習データとして前記キーワード検出モデルの学習を行うステップ、
文書画像データに対してユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信するステップ、
前記操作情報に基づき、前記文書画像データに対して前記ユーザが描いた描画線が通過する前記文書画像データ上の文字画像を囲む矩形領域である単語描画範囲を検出するステップ、
文書画像データから前記単語描画範囲として抽出された単語画像データについて単語認識モデルを用いて前記単語画像データに対応する単語ラベルを判定するステップ、
前記単語認識モデルの学習を行うステップ、及び、
前記キーワードリストにおける前記キーワードの各文字を前記手書きの画像データに変換して得られる画像データである単語画像データを生成し、生成した前記単語画像データを学習データとして前記単語認識モデルを学習するステップ、
を実行する、キーワード検出方法。 - 請求項10に記載のキーワード検出方法であって、
前記情報処理装置が、
前記単語画像データをユーザインタフェースを介してユーザに提示するステップ、
前記単語画像データについて判定した前記単語ラベルについてユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信するステップ、及び、
前記操作情報に基づき前記単語ラベルの正誤を判定し、前記単語ラベルが誤りであると判定した場合、当該誤りを補正するための前記単語画像データを生成し、前記単語画像データを学習データとする前記単語認識モデルの学習を行うステップ、
を更に実行する、
キーワード検出方法。 - 請求項10に記載のキーワード検出方法であって、
前記情報処理装置が、
一つの文字として切り出された画像データについて、一文字認識モデルを用いて前記画像データが表す文字を判定するステップ、
前記一文字認識モデルの学習を行うステップ、
前記手書き一文字辞書から、前記一文字認識モデルの学習データである文字画像データを抽出するステップ、
前記単語画像データを、一文字ごとの文字画像データに分解するステップ、
前記単語ラベルが誤りであると判定した場合に、前記単語画像データの前記文字画像データに分解し、前記分解により得られた前記文字画像データの文字ラベルを判定するステップ、
判定した文字ラベルをユーザインタフェースを介してユーザに提示するステップ、
前記文字ラベルについてユーザがユーザインタフェースに行った操作を示す情報である操作情報を受信するステップ、及び、
前記操作情報に基づき、前記文字ラベルの正誤を判定し、前記文字ラベルが誤りであると判定した場合、当該誤りを補正するすための文字画像データを選択し、選択した前記文字画像データを学習データとして前記一文字認識モデルの学習を行うステップ、
を更に実行する、
キーワード検出方法。 - 請求項12に記載のキーワード検出方法であって、
前記情報処理装置が、分解することにより得られた前記文字画像データを前記手書き一文字辞書に追加するステップ、
を更に実行する、
キーワード検出方法。 - 請求項10に記載のキーワード検出方法であって、
文書画像データから検出したキーワードをユーザインタフェースを介してユーザに提示するステップ、
前記ユーザが前記キーワードについてユーザインタフェースに行った操作を示す情報である操作情報を受信するステップ、及び、
前記操作情報に基づき前記キーワードの正誤を判定し、前記キーワードが誤りであると判定した場合、当該誤りを補正するすためのキーワード埋込画像データを生成し、生成した前記キーワード埋込画像データを学習データとして前記キーワード検出モデルの学習を行うステップ、
を更に実行する、
キーワード検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019111693A JP7221143B2 (ja) | 2019-06-17 | 2019-06-17 | キーワード検出装置、及びキーワード検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019111693A JP7221143B2 (ja) | 2019-06-17 | 2019-06-17 | キーワード検出装置、及びキーワード検出方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020204855A JP2020204855A (ja) | 2020-12-24 |
JP2020204855A5 JP2020204855A5 (ja) | 2022-02-22 |
JP7221143B2 true JP7221143B2 (ja) | 2023-02-13 |
Family
ID=73838589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019111693A Active JP7221143B2 (ja) | 2019-06-17 | 2019-06-17 | キーワード検出装置、及びキーワード検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7221143B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836091A (zh) * | 2021-09-01 | 2021-12-24 | 北京来也网络科技有限公司 | 结合rpa和ai的数据识别方法、装置、电子设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6465427B1 (ja) | 2018-08-15 | 2019-02-06 | 株式会社シグマクシス | 文字認識装置、文字認識方法及び文字認識プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3350127B2 (ja) * | 1993-03-12 | 2002-11-25 | 松下電器産業株式会社 | 文字認識装置 |
JP3623998B2 (ja) * | 1995-01-27 | 2005-02-23 | キヤノン株式会社 | 画像処理方法および画像処理装置 |
-
2019
- 2019-06-17 JP JP2019111693A patent/JP7221143B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6465427B1 (ja) | 2018-08-15 | 2019-02-06 | 株式会社シグマクシス | 文字認識装置、文字認識方法及び文字認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020204855A (ja) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7555713B2 (en) | Writing and reading aid system | |
US7913191B2 (en) | Common input/output interface for application programs | |
JP4308785B2 (ja) | デジタルインク質疑検索装置及びその方法 | |
CN105283868A (zh) | 概率解析 | |
JP2007109118A (ja) | 入力指示処理装置および入力指示処理プログラム | |
Karasneh et al. | Extracting UML models from images | |
JP5661663B2 (ja) | 情報抽出装置 | |
US20230161952A1 (en) | Automatic semantic labeling of form fields with limited annotations | |
US20230055233A1 (en) | Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method | |
CN116595195A (zh) | 一种知识图谱构建方法、装置及介质 | |
JP7221143B2 (ja) | キーワード検出装置、及びキーワード検出方法 | |
CN117501283A (zh) | 文本到问答模型系统 | |
JP2019101149A (ja) | 設問自動生成プログラム及び設問自動生成装置 | |
KR101638511B1 (ko) | 온라인 학습 콘텐츠 저작을 위한 프로그램이 기록된 컴퓨터 판독 가능한 매체 및 온라인 학습 콘텐츠 저작 방법 | |
US10628632B2 (en) | Generating a structured document based on a machine readable document and artificial intelligence-generated annotations | |
Haider et al. | Classification of layout vs. relational tables on the Web: Machine learning with rendered pages | |
JP2023043910A (ja) | 文字列抽出装置、文字列抽出方法、および文字列抽出プログラム | |
JP6768750B2 (ja) | 学習方法、誤り判定方法、学習システム、誤り判定システム、およびプログラム | |
Azmi et al. | Mining and visualizing the narration tree of hadiths (prophetic traditions) | |
JP7395915B2 (ja) | 情報処理装置、コンピュータプログラム及び情報処理方法 | |
US20230305863A1 (en) | Self-Supervised System for Learning a User Interface Language | |
KR102655430B1 (ko) | 테이블 생성 방법 및 시스템 | |
US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium | |
JP7295463B2 (ja) | 業務フロー作成支援装置、業務フロー作成支援方法、および、業務フロー作成支援プログラム | |
KR102601932B1 (ko) | 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7221143 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |