JP2023132394A - 文書データ分類システム、文書データ分類方法及びプログラム - Google Patents
文書データ分類システム、文書データ分類方法及びプログラム Download PDFInfo
- Publication number
- JP2023132394A JP2023132394A JP2022037668A JP2022037668A JP2023132394A JP 2023132394 A JP2023132394 A JP 2023132394A JP 2022037668 A JP2022037668 A JP 2022037668A JP 2022037668 A JP2022037668 A JP 2022037668A JP 2023132394 A JP2023132394 A JP 2023132394A
- Authority
- JP
- Japan
- Prior art keywords
- data
- document
- learning model
- computer
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 230000000903 blocking effect Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000013075 data extraction Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010191 image analysis Methods 0.000 description 4
- 239000004984 smart glass Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、を備えることを特徴とする文書データ分類システムを提供する。
前記分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルを割り当てるラベリング手段と、
をさらに備える文書データ分類システムを提供する。
本発明の第1実施形態について、図1に基づいて説明する。図1は、第1実施形態の文書データ分類システム1の概要を説明するための図である。文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためコンピュータシステムである。
図2に基づいて、本発明の第1実施形態である文書データ分類システム1のシステム構成について説明する。図2は、第1実施形態の実施形態である文書データ分類システム1のシステム構成を示す図である。図2において、文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためのコンピュータシステムである。
図3に基づいて、文書データ分類システム1が実行するデータブロック化分類処理について説明する。図3は、文書データ分類システム1が実行するデータブロック化分類処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。
本発明の第2実施形態について、図4に基づいて説明する。図4は、本発明の第2実施形態の文書データ分類システム1の概要を説明するための図である。なお、第1実施形態と同一の機能および構成については同一の符号を付し、説明を省略する。本実施形態が第1実施形態と異なるのは、さらに第2学習モデルを生成し、第2学習モデルに基づいて、ブロックデータの内容を解析し、解析結果に基づいてラベルを割り当てるという点である。
図5に基づいて、本発明の第1実施形態である文書データ分類システム1のシステム構成について説明する。図5は、第1実施形態の実施形態である文書データ分類システム1のシステム構成を示す図である。図5において、文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためのコンピュータシステムである。
データブロック化分類処理は、第1実施形態と同様の処理であるため、その説明を省略する。
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるラベリング手段と、
を備えることを特徴とする文書データ分類システムを提供する。
Claims (5)
- ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、を備えることを特徴とする文書データ分類システム。 - 前記分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルを割り当てるラベリング手段と、
をさらに備えることを特徴とする請求項1に記載の文書データ分類システム。 - 前記ブロック化手段は、前記第1学習モデルに基づいて前記ブロックデータのセグメンテーション情報を予測することを特徴とする請求項1または請求項2に記載の文書データ分類システム。
- ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムが実行する文書データ分類方法であって、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成するステップと、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップと、
前記ブロックデータをデータ種別毎に分類するステップと、
を備えることを特徴とする文書データ分類方法。 - ドキュメントフォーマットからデータを抽出して分類するコンピュータに、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成するステップ、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップ、
前記ブロックデータをデータ種別毎に分類するステップ、
を実行させるためのコンピュータ読み取り可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022037668A JP7254314B1 (ja) | 2022-03-11 | 2022-03-11 | 文書データ分類システム、文書データ分類方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022037668A JP7254314B1 (ja) | 2022-03-11 | 2022-03-11 | 文書データ分類システム、文書データ分類方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7254314B1 JP7254314B1 (ja) | 2023-04-10 |
JP2023132394A true JP2023132394A (ja) | 2023-09-22 |
Family
ID=85801591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022037668A Active JP7254314B1 (ja) | 2022-03-11 | 2022-03-11 | 文書データ分類システム、文書データ分類方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7254314B1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019049964A (ja) * | 2017-06-30 | 2019-03-28 | アクセンチュア グローバル ソリューションズ リミテッド | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 |
US20200111023A1 (en) * | 2018-10-04 | 2020-04-09 | Accenture Global Solutions Limited | Artificial intelligence (ai)-based regulatory data processing system |
WO2021084702A1 (ja) * | 2019-10-31 | 2021-05-06 | 楽天株式会社 | 文書画像解析装置、文書画像解析方法およびプログラム |
WO2021210073A1 (ja) * | 2020-04-14 | 2021-10-21 | 楽天株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2022010579A1 (en) * | 2020-07-10 | 2022-01-13 | Microsoft Technology Licensing, Llc | Document conversion engine |
-
2022
- 2022-03-11 JP JP2022037668A patent/JP7254314B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019049964A (ja) * | 2017-06-30 | 2019-03-28 | アクセンチュア グローバル ソリューションズ リミテッド | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 |
US20200111023A1 (en) * | 2018-10-04 | 2020-04-09 | Accenture Global Solutions Limited | Artificial intelligence (ai)-based regulatory data processing system |
WO2021084702A1 (ja) * | 2019-10-31 | 2021-05-06 | 楽天株式会社 | 文書画像解析装置、文書画像解析方法およびプログラム |
WO2021210073A1 (ja) * | 2020-04-14 | 2021-10-21 | 楽天株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2022010579A1 (en) * | 2020-07-10 | 2022-01-13 | Microsoft Technology Licensing, Llc | Document conversion engine |
Also Published As
Publication number | Publication date |
---|---|
JP7254314B1 (ja) | 2023-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2016203856B2 (en) | System and method for automating information abstraction process for documents | |
CN111680490B (zh) | 一种跨模态的文档处理方法、装置及电子设备 | |
US10984344B2 (en) | Document classifying device | |
US11610066B2 (en) | Creation of component templates based on semantically similar content | |
US10141006B1 (en) | Artificial intelligence system for improving accessibility of digitized speech | |
US10572528B2 (en) | System and method for automatic detection and clustering of articles using multimedia information | |
JP2020149686A (ja) | 画像処理方法、装置、サーバ及び記憶媒体 | |
CN110674297B (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
KR102373884B1 (ko) | 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법 | |
CN111563382A (zh) | 文本信息的获取方法、装置、存储介质及计算机设备 | |
CN115917613A (zh) | 文档中文本的语义表示 | |
US10261987B1 (en) | Pre-processing E-book in scanned format | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN113343936A (zh) | 视频表征模型的训练方法及训练装置 | |
JP7254314B1 (ja) | 文書データ分類システム、文書データ分類方法及びプログラム | |
US20220301285A1 (en) | Processing picture-text data | |
CN107168627B (zh) | 用于触摸屏的文本编辑方法和装置 | |
CN104063367A (zh) | 注释检索装置、方法及程序 | |
US11675856B2 (en) | Product features map | |
CN115294594A (zh) | 文档分析方法、装置、设备及存储介质 | |
WO2018061174A1 (ja) | 電子書籍作成システム、電子書籍作成法及びプログラム | |
US11165737B2 (en) | Information processing apparatus for conversion between abbreviated name and formal name | |
CN113486171A (zh) | 一种图像处理方法及装置、电子设备 | |
CN113111181B (zh) | 文本数据处理方法、装置、电子设备及存储介质 | |
US10831833B2 (en) | Information processing apparatus and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220325 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220325 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220506 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220816 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230320 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7254314 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |