JP2023132394A - 文書データ分類システム、文書データ分類方法及びプログラム - Google Patents

文書データ分類システム、文書データ分類方法及びプログラム Download PDF

Info

Publication number
JP2023132394A
JP2023132394A JP2022037668A JP2022037668A JP2023132394A JP 2023132394 A JP2023132394 A JP 2023132394A JP 2022037668 A JP2022037668 A JP 2022037668A JP 2022037668 A JP2022037668 A JP 2022037668A JP 2023132394 A JP2023132394 A JP 2023132394A
Authority
JP
Japan
Prior art keywords
data
document
learning model
computer
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022037668A
Other languages
English (en)
Other versions
JP7254314B1 (ja
Inventor
祐菜 小牧
Yuna Komaki
チョウデュリモヒウッディン
Chowdhury Mohiuddin
恵梨 上野
Eri Ueno
徹郎 片山
Tetsuro Katayama
恒威 ▲萩▼山
Tsunetake Hagiyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SKY COM KK
University of Miyazaki NUC
Original Assignee
SKY COM KK
University of Miyazaki NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SKY COM KK, University of Miyazaki NUC filed Critical SKY COM KK
Priority to JP2022037668A priority Critical patent/JP7254314B1/ja
Application granted granted Critical
Publication of JP7254314B1 publication Critical patent/JP7254314B1/ja
Publication of JP2023132394A publication Critical patent/JP2023132394A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】多岐のドキュメントフォーマットで作成された電子文書の内容を人手によらずに解析して分類することを可能とする。【解決手段】文書データ分類システム1は、抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成モジュールと、第1学習モデルに基づいて、抽出したデータをブロックデータとしてブロック化するデータブロック化モジュールと、前記ブロックデータをデータ種別毎に分類するデータ分類モジュールとを備える。【選択図】図2

Description

本発明は、文書データ分類システム、文書データ分類方法及びプログラムに関する。
従来、PDFファイルなどの多岐のドキュメントフォーマットで作成された電子文書は、紙文書の代用としての利用に欠かせないものになっている。例えば、文書を電子文書として保管する場合、紙文書として保管した場合に比べて、スペースもコストも抑えることができる。また、電子文書を保管した場所に通信可能に接続された装置であれば、電子文書を遠隔でも利用することができる。
このように電子文書自体は広く利用されているが、さらに電子文書を活用しようと文書内容のデータを解析および分類するために、各種ドキュメントフォーマットから抽出し、抽出したデータを利用することが知られている。(特許文献1)
特許第6982347号公報
しかしながら、特許文献1に示されたような方法では、抽出したデータの解析及び分類手順が確立されておらず、抽出したデータを解析および分類するためには、人手で読み解くことが必要になるため、無駄なコストがかかるなど負担が大きい。
そこで、本発明者らは、電子文書から抽出したデータの解析及び分類手順を確立するべく、文書内容を分類することと、紙文書時代から培われた文書構成を解析することとを組み合わせることで、文書内容を活用し、さらには、章節などの章立てや段組み、ロゴなどの画像の配置様式などの書式や文書内容を再活用することによって、効率的な文書の活用ができることに着目した。
本発明は、これらの課題に鑑み、多岐のドキュメントフォーマットで作成された電子文書の内容を人手によらずに解析して分類することが可能な文書データ分類システム、文書データ分類方法及びプログラムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
第1特徴に係る発明は、ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、を備えることを特徴とする文書データ分類システムを提供する。
第1特徴に係る発明によれば、抽出したデータにアノテーションデータを付与して第1学習モデルを作成し、第1学習モデルに基づいて、抽出したデータをブロック化してからデータ種別毎に分類することから、文書内容を分類することと紙文書時代から培われた文書構成を解析することとを組み合わせることによって、効率的な文書の活用が可能である。また、構成化されていない電子文書を解析結果に基づいて構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。
第2特徴に係る発明は、第1特徴に係る発明であって、
前記分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルを割り当てるラベリング手段と、
をさらに備える文書データ分類システムを提供する。
第2特徴に係る発明によれば、分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第2学習モデルを作成し、第2学習モデルに基づいて、ラベルを割り当てることから、解析内容やラベルが把握することができ、ユーザが指定したキーワードに合致する文書を検索することが可能である。
本発明は、コンピュータシステムのカテゴリであるが、文書データ分類方法及びプログラム等の他のカテゴリにおいても、そのカテゴリに応じた同様の作用・効果を発揮する。
本発明によれば、多岐のドキュメントフォーマットで作成された電子文書の内容を人手によらずに解析して分類することが可能な文書データ分類システム、文書データ分類方法及びプログラムを提供することが可能となる。
図1は、本発明の第1実施形態である文書データ分類システム1の概要を説明するための図である。 図2は、本発明の第1実施形態である文書データ分類システム1の構成図である。 図3は、本発明の第1実施形態におけるコンピュータ2が実行するデータブロック化分類処理のフローチャートである。 図4は、本発明の第2実施形態である文書データ分類システム1の概要を説明するための図である。 図5は、本発明の第2実施形態である文書データ分類システム1の構成図である。 図6は、本発明の第2実施形態におけるコンピュータ2が実行するラベリング処理のフローチャートである。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[第1実施形態の概要]
本発明の第1実施形態について、図1に基づいて説明する。図1は、第1実施形態の文書データ分類システム1の概要を説明するための図である。文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためコンピュータシステムである。
文書データ分類システム1のコンピュータ2は、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。
また、文書データ分類システム1のコンピュータ2は、例えば、1台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。
また、文書データ分類システム1は、コンピュータ2の代わりに、上述した端末装置から構成されてもよい。
コンピュータ2は、上述した端末装置、その他の端末や装置類等と、公衆回線網等を介して、データ通信可能に接続し、必要なデータや情報の送受信を実行してもよい。
コンピュータ2は、ドキュメントフォーマットからデータを抽出する(ステップS11)。例えば、コンピュータ2は、取得しておいたドキュメントフォーマットからデータを抽出する。ドキュメントフォーマットは、コンピュータ2に予め取得されているものとし、取得方法については特に限定することなく、他の端末装置から公衆回線等を介して取得してもよい。また、ドキュメントフォーマットの取得は文書データを抽出する前であれば、タイミングについては限定されない。
なお、ドキュメントフォーマットとは、電子文書ファイルのことであり、例えば、PDF、Word、PEG、PNG、GIFなどのデータから構成されるあらゆる画像などのファイル形式のものを含むが、これに限定されない。
抽出するデータは、ドキュメントフォーマットを構成する文書要素であり、例えば、画像オブジェクト、表オブジェクト、テキストオブジェクトなどの要素を含むが、これに限定されない。
データの抽出方法は、特に限定されず、例えば、機械学習によるルールベースやモデルベースを利用してデータを抽出してもよいし、人手による例えばカットアンドペーストなどの方法や、アノテーションツールといったタグ付け自動化ツールを使用する方法などでデータを抽出してもよい。
コンピュータ2は、抽出したデータにアノテーションデータを付与して第1学習モデル100を作成する(ステップS12)。このとき抽出されるデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、抽出したデータに関連する情報として抽出したデータに付与される。本実施形態では、電子文書を構成化するための文書要素の種類(画像、表、テキストなど)や配置情報(サイズや座標など)がアノテーションデータとして抽出したデータが付与される。
アノテーションデータを付与した抽出したデータは、第1学習モデル100として機械学習される。第1学習モデル100とは、抽出したデータをブロック化して分類する学習モデルであり、後述の処理は、第1学習モデル100に基づいて実行される。
コンピュータ2は、第1学習モデル100に基づいて、抽出したデータを解析し、ブロックデータとしてブロック化する(ステップS13)。このとき抽出されるデータは、分類対象となる文書要素である。本願明細書で言う「ブロック化」とは、電子文書を構成化に必要な文書要素に配置情報を関連付けてブロックデータを生成することである。抽出したデータについては、第1学習モデル100に基づいて、文書要素として電子文書内での配置やサイズを示す配置情報をセグメンテーション情報として予測してもよい。
コンピュータ2は、第1学習モデル100に基づいて、ブロックデータをデータ種別毎に分類する(ステップS14)。具体的には、生成したブロックデータを文書要素の種類毎に分類する。
分類したブロックデータは、コンピュータ2の内部に格納してもよいし、コンピュータ2の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。
このように、ドキュメントフォーマットから抽出したデータを、複数のブロックデータをデータ種類に応じて電子文書に最適に配置して構成化するために、学習済みデータ用いることによって、人手によらずに解析してブロック化して分類することができる。これにより、構成化されていない電子文書を構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。また、紙文書時代で培われた文書構成については、機械学習させることによって、電子文書の構成化に活用することが可能である。
以上が、文書データ分類システム1が実行する処理の概要である。
[文書データ分類システム1のシステム構成]
図2に基づいて、本発明の第1実施形態である文書データ分類システム1のシステム構成について説明する。図2は、第1実施形態の実施形態である文書データ分類システム1のシステム構成を示す図である。図2において、文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためのコンピュータシステムである。
なお、文書データ分類システム1は、その他の端末や装置類等が含まれていてもよい。例えば、ユーザ毎に別のコンピュータ2を利用してもよく、この場合、文書データ分類システム1は、後述する各処理を、コンピュータ2と、その他の含まれる端末や装置類等との何れか又は複数の組合せにより実行することになる。
また、文書データ分類システム1のコンピュータ2は、例えば、1台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。
コンピュータ2は、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。
コンピュータ2は、制御部210として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備える。制御部210は、入力部220、記憶部240と協働してデータ抽出モジュール221を実現する。また、制御部210は、入力部220、記憶部240と協働して第1学習モデル作成モジュール222を実現する。また、制御部210は、記憶部240と協働して、データブロック化モジュール223、データ分類モジュール224を実現する。
コンピュータ2は、入力部220として、コンピュータ2を操作するために必要な機能を備えるものとする。入力を実現するための例として、タッチパネル機能を実現する液晶ディスプレイ、キーボード、マウス、ペンタブレット、装置上のハードウェアボタン、音声認識を行うためのマイク等を備えることが可能である。入力方法により、本発明は特に機能を限定されるものではない。
コンピュータ2は、記憶部240として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージを備える。データの保存先は、クラウドサービスやデータベース等であってもよい。
[データブロック化分類処理]
図3に基づいて、文書データ分類システム1が実行するデータブロック化分類処理について説明する。図3は、文書データ分類システム1が実行するデータブロック化分類処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。
コンピュータ2のデータ抽出モジュール221は、ドキュメントフォーマットからデータを抽出する(ステップS110)。例えば、データ抽出モジュール221は、取得しておいたドキュメントフォーマットからデータを抽出する。ドキュメントフォーマットは、コンピュータ2の記憶部240に予め取得されているものとし、取得方法については特に限定することなく、他の端末装置から公衆回線等を介して取得してもよい。また、ドキュメントフォーマットの取得は文書データを抽出する前であれば、タイミングについては限定されない。
なお、ドキュメントフォーマットとは、電子文書ファイルのことであり、例えば、PDF、Word、PEG、PNG、GIFなどのデータから構成されるあらゆる画像などのファイル形式のものを含むが、これに限定されない。
抽出するデータは、ドキュメントフォーマットを構成する文書要素であり、例えば、画像オブジェクト、表オブジェクト、テキストオブジェクトなどの要素を含むが、これに限定されない。
データの抽出方法は、特に限定されず、例えば、機械学習によるルールベースやモデルベースを利用してデータを抽出してもよいし、人手による例えばカットアンドペーストなどの方法や、アノテーションツールといったタグ付け自動化ツールを使用する方法などでデータを抽出してもよい。
コンピュータ2の第1学習モデル作成モジュール222は、抽出したデータにアノテーションデータを付与して第1学習モデル100を作成する(ステップS120)。このとき抽出されるデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、抽出したデータに関連する情報として抽出したデータに付与される。本実施形態では、電子文書を構成化するための文書要素の種類(画像、表、テキストなど)やサイズ情報(サイズや座標など)がアノテーションデータとして抽出したデータが付与される。
アノテーションデータを付与した抽出したデータは、第1学習モデル100として機械学習される。第1学習モデル100とは、抽出したデータをブロック化して分類する学習モデルであり、後述の処理は、第1学習モデル100に基づいて実行される。
コンピュータ2のデータブロック化モジュール223は、第1学習モデル100に基づいて、抽出したデータを解析し、ブロックデータとしてブロック化する(ステップS130)。このとき抽出されるデータは、分類対象となる文書要素である。本願明細書で言う、ブロック化とは、電子文書を構成化に必要な文書要素に配置情報を関連付けてブロックデータを生成することである。抽出したデータについては、第1学習モデル100に基づいて、文書要素として電子文書内での配置やサイズを示す配置情報をセグメンテーションデータとして予測してもよい。
コンピュータ2のデータ分類モジュール224は、第1学習モデル100に基づいて、ブロックデータをデータ種別毎に分類する(ステップS140)。具体的には、生成したブロックデータを文書要素の種類(画像、表、テキストなど)毎に分類する。
分類したブロックデータは、コンピュータ2の記憶部240に格納してもよいし、コンピュータ2の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。
このように、ドキュメントフォーマットから抽出したデータを、複数のブロックデータをデータ種類に応じて電子文書に最適に配置して構成化するために、学習済みデータ用いることによって、人手によらずに解析してブロック化して分類することができる。これにより、構成化されていない電子文書を構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。また、紙文書時代で培われた文書構成については、機械学習させることによって、電子文書の構成化に活用することが可能である。
以上が、データブロック化分類処理である。
[第2実施形態の概要]
本発明の第2実施形態について、図4に基づいて説明する。図4は、本発明の第2実施形態の文書データ分類システム1の概要を説明するための図である。なお、第1実施形態と同一の機能および構成については同一の符号を付し、説明を省略する。本実施形態が第1実施形態と異なるのは、さらに第2学習モデルを生成し、第2学習モデルに基づいて、ブロックデータの内容を解析し、解析結果に基づいてラベルを割り当てるという点である。
文書データ分類システム1のコンピュータ2は、第1実施形態同様、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。
また、文書データ分類システム1のコンピュータ2は、第1実施形態同様、例えば、1台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。
また、文書データ分類システム1は、第1実施形態同様、コンピュータ2の代わりに、上述した端末装置から構成されてもよい。
コンピュータ2は、第1実施形態同様、上述した端末装置、その他の端末や装置類等と、公衆回線網等を介して、データ通信可能に接続されており、必要なデータや情報の送受信を実行する。
コンピュータ2は、ドキュメントフォーマットからデータを抽出する(ステップS21)。ステップS21は実施形態1のステップS11と同様の処理である。
コンピュータ2は、抽出したデータにアノテーションデータを付与して第1学習モデル100を作成する(ステップS22)。ステップS22は実施形態1のステップS12と同様の処理である。
コンピュータ2は、第1学習モデル100に基づいて、抽出したデータを解析し、ブロックデータとしてブロック化する(ステップS23)。ステップS23は実施形態1のステップS13と同様の処理である。
コンピュータ2は、第1学習モデル100に基づいて、ブロックデータをデータ種別毎に分類する(ステップS24)。ステップS24は実施形態1のステップS14と同様の処理である。
コンピュータ2は、分類したブロックデータにアノテーションデータを付与して第2学習モデル200を作成する(ステップS25)。このとき分類したブロックデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、分類したブロックデータに関連する情報としてブロックデータに付与される。本実施形態では、分類したブロックデータをさらに細分化して解析した結果がアノテーションデータとして抽出したデータが付与される。
このブロックデータは、機械学習用データであり、文書要素がテキストや表で分類されたデータであり、画像の場合は含めない。画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。
分類したブロックデータの文書要素がテキストである場合、内容を解析し、例えば、タイトル、章や節を検出して細分化する。また、分類したブロックデータの文書要素が表である場合も同様に、内容を解析し、表タイトルを検出して細分化する。
コンピュータ2は、第2学習モデル200に基づいて、分類したブロックデータにラベルを割り当てる(ステップS26)。このとき分類したブロックデータは、ラベル割り当ての対象となるテキストや表などの文書要素であり、画像は含めない。上にも述べたが、画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。本願明細書で言う「ラベル」とは、例えば、分類したブロックデータがテキストである場合は、タイトル、章や節などの文書要素を細分化したものであり、分類したブロックデータの文書要素が表である場合は、表タイトルなどの文書要素を細分化したものである。
ラベルを割り付けたブロックデータは、コンピュータ2の内部に格納してもよいし、コンピュータ2の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。
このように、分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第2学習モデルを作成し、第2学習モデルに基づいて、ラベルを割り当てることから、分類したブロックデータの解析内容をラベルによって把握することができ、ラベルに基づいて、ユーザが指定したキーワードに合致する文書を検索することが可能である。
以上が、文書データ分類システム1が実行する処理の概要である。
[文書データ分類システム1のシステム構成]
図5に基づいて、本発明の第1実施形態である文書データ分類システム1のシステム構成について説明する。図5は、第1実施形態の実施形態である文書データ分類システム1のシステム構成を示す図である。図5において、文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためのコンピュータシステムである。
なお、文書データ分類システム1は、第1実施形態同様に、その他の端末や装置類等が含まれていてもよい。例えば、ユーザ毎に別のコンピュータ2を利用してもよく、この場合、文書データ分類システム1は、後述する各処理を、コンピュータ2と、その他の含まれる端末や装置類等との何れか又は複数の組合せにより実行することになる。
また、文書データ分類システム1のコンピュータ2は、第1実施形態同様に、例えば、1台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。
コンピュータ2は、第1実施形態同様に、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。
コンピュータ2は、制御部210として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備える。制御部210は、入力部220、記憶部240と協働してデータ抽出モジュール221を実現する。また、制御部210は、入力部220、記憶部240と協働して第1学習モデル作成モジュール222を実現する。また、制御部210は、記憶部240と協働して、データブロック化モジュール223、データ分類モジュール224、ラベリングモジュール226を実現する。
コンピュータ2は、第1実施形態同様に、入力部220として、コンピュータ2を操作するために必要な機能を備えるものとする。入力を実現するための例として、タッチパネル機能を実現する液晶ディスプレイ、キーボード、マウス、ペンタブレット、装置上のハードウェアボタン、音声認識を行うためのマイク等を備えることが可能である。入力方法により、本発明は特に機能を限定されるものではない。
コンピュータ2は、第1実施形態同様に、記憶部240として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージを備える。データの保存先は、クラウドサービスやデータベース等であってもよい。
[データブロック化分類処理]
データブロック化分類処理は、第1実施形態と同様の処理であるため、その説明を省略する。
[ラベリング処理]
コンピュータ2は、分類したブロックデータにアノテーションデータを付与して第2学習モデル200を作成する(ステップS250)。このとき分類したブロックデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、分類したブロックデータに関連する情報としてブロックデータに付与される。本実施形態では、分類したブロックデータをさらに細分化して解析した結果がアノテーションデータとして抽出したデータが付与される。
このブロックデータは、機械学習用データであり、文書要素がテキストや表で分類されたデータであり、画像の場合は含めない。画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。
分類したブロックデータの文書要素がテキストである場合、内容を解析し、例えば、タイトル、章や節を検出して細分化する。また、分類したブロックデータの文書要素が表である場合も同様に、内容を解析し、表タイトルを検出して細分化する。
コンピュータ2は、第2学習モデル200に基づいて、分類したブロックデータにラベルを割り当てる(ステップS260)。このとき分類したブロックデータは、ラベル割り当ての対象となるテキストや表などの文書要素であり、画像は含めない。上にも述べたが、画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。本願明細書で言う「ラベル」とは、例えば、分類したブロックデータがテキストである場合は、タイトル、章や節などの文書要素を細分化したものであり、分類したブロックデータの文書要素が表である場合は、表タイトルなどの文書要素を細分化したものである。
ラベルを割り付けたブロックデータは、コンピュータ2の内部に格納してもよいし、コンピュータ2の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。
このように、分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第2学習モデルを作成し、第2学習モデルに基づいて、ラベルを割り当てることから、分類したブロックデータの解析内容をラベルによって把握することができ、ラベルに基づいて、ユーザが指定したキーワードに合致する文書を検索することが可能である。
以上が、ラベリング処理である。
上述した手段、機能は、コンピュータ(CPU、情報処理装置、各種端末を含む)が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、単数又は複数のコンピュータからネットワーク経由で提供される(クラウドサービス、SaaS:ソフトウェア・アズ・ア・サービス)形態で提供される。また、プログラムは、例えば、コンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記録装置又は外部記録装置に転送し記録して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記録装置(記録媒体)に予め記録しておき、その記録装置から通信回線を介してコンピュータに提供するようにしてもよい。
以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1 文書データ分類システム、2 コンピュータ
第1特徴に係る発明は、ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるラベリング手段と
を備えることを特徴とする文書データ分類システムを提供する。
第1特徴に係る発明によれば、抽出したデータにアノテーションデータを付与して第1学習モデルを作成し、第1学習モデルに基づいて、抽出したデータをブロック化してからデータ種別毎に分類し、分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成し、第2学習モデルに基づいて、分類したブロックデータにラベルとして割り当てることから、文書内容を分類することと紙文書時代から培われた文書構成を解析することとを組み合わせることによって、効率的な文書の活用が可能である。また、構成化されていない電子文書を解析結果に基づいて構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。また、解析内容やラベルが把握することができ、ユーザが指定したキーワードに合致する文書を検索することが可能である。

Claims (5)

  1. ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
    前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
    前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
    前記ブロックデータをデータ種別毎に分類する分類手段と、を備えることを特徴とする文書データ分類システム。
  2. 前記分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
    前記第2学習モデルに基づいて、前記分類したブロックデータにラベルを割り当てるラベリング手段と、
    をさらに備えることを特徴とする請求項1に記載の文書データ分類システム。
  3. 前記ブロック化手段は、前記第1学習モデルに基づいて前記ブロックデータのセグメンテーション情報を予測することを特徴とする請求項1または請求項2に記載の文書データ分類システム。
  4. ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムが実行する文書データ分類方法であって、
    前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成するステップと、
    前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップと、
    前記ブロックデータをデータ種別毎に分類するステップと、
    を備えることを特徴とする文書データ分類方法。
  5. ドキュメントフォーマットからデータを抽出して分類するコンピュータに、
    前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成するステップ、
    前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップ、
    前記ブロックデータをデータ種別毎に分類するステップ、
    を実行させるためのコンピュータ読み取り可能なプログラム。
JP2022037668A 2022-03-11 2022-03-11 文書データ分類システム、文書データ分類方法及びプログラム Active JP7254314B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022037668A JP7254314B1 (ja) 2022-03-11 2022-03-11 文書データ分類システム、文書データ分類方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022037668A JP7254314B1 (ja) 2022-03-11 2022-03-11 文書データ分類システム、文書データ分類方法及びプログラム

Publications (2)

Publication Number Publication Date
JP7254314B1 JP7254314B1 (ja) 2023-04-10
JP2023132394A true JP2023132394A (ja) 2023-09-22

Family

ID=85801591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022037668A Active JP7254314B1 (ja) 2022-03-11 2022-03-11 文書データ分類システム、文書データ分類方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7254314B1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049964A (ja) * 2017-06-30 2019-03-28 アクセンチュア グローバル ソリューションズ リミテッド 電子診療レコードからの医学的状態および事実の自動的特定および抽出
US20200111023A1 (en) * 2018-10-04 2020-04-09 Accenture Global Solutions Limited Artificial intelligence (ai)-based regulatory data processing system
WO2021084702A1 (ja) * 2019-10-31 2021-05-06 楽天株式会社 文書画像解析装置、文書画像解析方法およびプログラム
WO2021210073A1 (ja) * 2020-04-14 2021-10-21 楽天株式会社 情報処理装置、情報処理方法およびプログラム
WO2022010579A1 (en) * 2020-07-10 2022-01-13 Microsoft Technology Licensing, Llc Document conversion engine

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049964A (ja) * 2017-06-30 2019-03-28 アクセンチュア グローバル ソリューションズ リミテッド 電子診療レコードからの医学的状態および事実の自動的特定および抽出
US20200111023A1 (en) * 2018-10-04 2020-04-09 Accenture Global Solutions Limited Artificial intelligence (ai)-based regulatory data processing system
WO2021084702A1 (ja) * 2019-10-31 2021-05-06 楽天株式会社 文書画像解析装置、文書画像解析方法およびプログラム
WO2021210073A1 (ja) * 2020-04-14 2021-10-21 楽天株式会社 情報処理装置、情報処理方法およびプログラム
WO2022010579A1 (en) * 2020-07-10 2022-01-13 Microsoft Technology Licensing, Llc Document conversion engine

Also Published As

Publication number Publication date
JP7254314B1 (ja) 2023-04-10

Similar Documents

Publication Publication Date Title
AU2016203856B2 (en) System and method for automating information abstraction process for documents
CN111680490B (zh) 一种跨模态的文档处理方法、装置及电子设备
US10984344B2 (en) Document classifying device
US11610066B2 (en) Creation of component templates based on semantically similar content
US10141006B1 (en) Artificial intelligence system for improving accessibility of digitized speech
US10572528B2 (en) System and method for automatic detection and clustering of articles using multimedia information
JP2020149686A (ja) 画像処理方法、装置、サーバ及び記憶媒体
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN115917613A (zh) 文档中文本的语义表示
US10261987B1 (en) Pre-processing E-book in scanned format
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
CN113343936A (zh) 视频表征模型的训练方法及训练装置
JP7254314B1 (ja) 文書データ分類システム、文書データ分類方法及びプログラム
US20220301285A1 (en) Processing picture-text data
CN107168627B (zh) 用于触摸屏的文本编辑方法和装置
CN104063367A (zh) 注释检索装置、方法及程序
US11675856B2 (en) Product features map
CN115294594A (zh) 文档分析方法、装置、设备及存储介质
WO2018061174A1 (ja) 電子書籍作成システム、電子書籍作成法及びプログラム
US11165737B2 (en) Information processing apparatus for conversion between abbreviated name and formal name
CN113486171A (zh) 一种图像处理方法及装置、电子设备
CN113111181B (zh) 文本数据处理方法、装置、电子设备及存储介质
US10831833B2 (en) Information processing apparatus and non-transitory computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220325

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220816

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230320

R150 Certificate of patent or registration of utility model

Ref document number: 7254314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150