JP7254314B1 - 文書データ分類システム、文書データ分類方法及びプログラム - Google Patents
文書データ分類システム、文書データ分類方法及びプログラム Download PDFInfo
- Publication number
- JP7254314B1 JP7254314B1 JP2022037668A JP2022037668A JP7254314B1 JP 7254314 B1 JP7254314 B1 JP 7254314B1 JP 2022037668 A JP2022037668 A JP 2022037668A JP 2022037668 A JP2022037668 A JP 2022037668A JP 7254314 B1 JP7254314 B1 JP 7254314B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- document
- learning model
- computer
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるラベリング手段と、
を備えることを特徴とする文書データ分類システムを提供する。
本発明の第1実施形態について、図1に基づいて説明する。図1は、第1実施形態の文書データ分類システム1の概要を説明するための図である。文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためコンピュータシステムである。
図2に基づいて、本発明の第1実施形態である文書データ分類システム1のシステム構成について説明する。図2は、第1実施形態の実施形態である文書データ分類システム1のシステム構成を示す図である。図2において、文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためのコンピュータシステムである。
図3に基づいて、文書データ分類システム1が実行するデータブロック化分類処理について説明する。図3は、文書データ分類システム1が実行するデータブロック化分類処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。
本発明の第2実施形態について、図4に基づいて説明する。図4は、本発明の第2実施形態の文書データ分類システム1の概要を説明するための図である。なお、第1実施形態と同一の機能および構成については同一の符号を付し、説明を省略する。本実施形態が第1実施形態と異なるのは、さらに第2学習モデルを生成し、第2学習モデルに基づいて、ブロックデータの内容を解析し、解析結果に基づいてラベルを割り当てるという点である。
図5に基づいて、本発明の第1実施形態である文書データ分類システム1のシステム構成について説明する。図5は、第1実施形態の実施形態である文書データ分類システム1のシステム構成を示す図である。図5において、文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためのコンピュータシステムである。
データブロック化分類処理は、第1実施形態と同様の処理であるため、その説明を省略する。
Claims (5)
- ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるラベリング手段と、
を備えることを特徴とする文書データ分類システム。 - 前記ブロック化手段は、前記第1学習モデルに基づいて前記ブロックデータのセグメンテーション情報を予測することを特徴とする請求項1に記載の文書データ分類システム。
- 割り当てられる前記ラベルは、細分化した前記文書要素であることを特徴とする請求項1に記載の文書データ分類システム。
- ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムが実行する文書データ分類方法であって、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成するステップと、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップと、
前記ブロックデータをデータ種別毎に分類するステップと、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成するステップと、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるステップと、
を備えることを特徴とする文書データ分類方法。 - ドキュメントフォーマットからデータを抽出して分類するコンピュータに、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成するステップ、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップ、
前記ブロックデータをデータ種別毎に分類するステップ、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成するステップ、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるステップ、
を実行させるためのコンピュータ読み取り可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022037668A JP7254314B1 (ja) | 2022-03-11 | 2022-03-11 | 文書データ分類システム、文書データ分類方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022037668A JP7254314B1 (ja) | 2022-03-11 | 2022-03-11 | 文書データ分類システム、文書データ分類方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7254314B1 true JP7254314B1 (ja) | 2023-04-10 |
JP2023132394A JP2023132394A (ja) | 2023-09-22 |
Family
ID=85801591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022037668A Active JP7254314B1 (ja) | 2022-03-11 | 2022-03-11 | 文書データ分類システム、文書データ分類方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7254314B1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019049964A (ja) | 2017-06-30 | 2019-03-28 | アクセンチュア グローバル ソリューションズ リミテッド | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 |
US20200111023A1 (en) | 2018-10-04 | 2020-04-09 | Accenture Global Solutions Limited | Artificial intelligence (ai)-based regulatory data processing system |
WO2021084702A1 (ja) | 2019-10-31 | 2021-05-06 | 楽天株式会社 | 文書画像解析装置、文書画像解析方法およびプログラム |
WO2021210073A1 (ja) | 2020-04-14 | 2021-10-21 | 楽天株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2022010579A1 (en) | 2020-07-10 | 2022-01-13 | Microsoft Technology Licensing, Llc | Document conversion engine |
-
2022
- 2022-03-11 JP JP2022037668A patent/JP7254314B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019049964A (ja) | 2017-06-30 | 2019-03-28 | アクセンチュア グローバル ソリューションズ リミテッド | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 |
US20200111023A1 (en) | 2018-10-04 | 2020-04-09 | Accenture Global Solutions Limited | Artificial intelligence (ai)-based regulatory data processing system |
WO2021084702A1 (ja) | 2019-10-31 | 2021-05-06 | 楽天株式会社 | 文書画像解析装置、文書画像解析方法およびプログラム |
WO2021210073A1 (ja) | 2020-04-14 | 2021-10-21 | 楽天株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2022010579A1 (en) | 2020-07-10 | 2022-01-13 | Microsoft Technology Licensing, Llc | Document conversion engine |
Also Published As
Publication number | Publication date |
---|---|
JP2023132394A (ja) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022142014A1 (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN108369578B (zh) | 基于先前文档的自动模板生成方法、系统及计算机可读存储设备 | |
US10141006B1 (en) | Artificial intelligence system for improving accessibility of digitized speech | |
CN111680490B (zh) | 一种跨模态的文档处理方法、装置及电子设备 | |
US10984344B2 (en) | Document classifying device | |
US11610066B2 (en) | Creation of component templates based on semantically similar content | |
CN111465918B (zh) | 在预览界面中显示业务信息的方法及电子设备 | |
CN115238214A (zh) | 展示方法、装置、计算机设备、存储介质及程序产品 | |
KR102373884B1 (ko) | 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법 | |
US10845882B2 (en) | Method, apparatus, and computer-readable medium for providing internet browsing service through tactile interface device | |
US20130268556A1 (en) | System and method for recording and querying original handwriting and electronic device | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN111563382A (zh) | 文本信息的获取方法、装置、存储介质及计算机设备 | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP7254314B1 (ja) | 文書データ分類システム、文書データ分類方法及びプログラム | |
CN104063367A (zh) | 注释检索装置、方法及程序 | |
US20220301285A1 (en) | Processing picture-text data | |
US20220326846A1 (en) | Electronic device and method to provide sticker based on content input | |
CN115294594A (zh) | 文档分析方法、装置、设备及存储介质 | |
JP5384315B2 (ja) | 検索装置及び方法及びプログラム | |
US20210216886A1 (en) | Information providing system and data structure | |
US11165737B2 (en) | Information processing apparatus for conversion between abbreviated name and formal name | |
JP5423282B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20220261856A1 (en) | Method for generating search results in an advertising widget |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220325 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220325 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220506 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220816 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230320 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7254314 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |