JP2023132394A

JP2023132394A - 文書データ分類システム、文書データ分類方法及びプログラム

Info

Publication number: JP2023132394A
Application number: JP2022037668A
Authority: JP
Inventors: 祐菜小牧; Yuna Komaki; チョウデュリモヒウッディン; Chowdhury Mohiuddin; 恵梨上野; Eri Ueno; 徹郎片山; Tetsuro Katayama; 恒威 ▲萩▼山; Tsunetake Hagiyama
Original assignee: SKY COM KK; University of Miyazaki NUC
Current assignee: SKY COM KK; University of Miyazaki NUC
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2023-09-22
Anticipated expiration: 2042-03-11
Also published as: JP7254314B1

Abstract

【課題】多岐のドキュメントフォーマットで作成された電子文書の内容を人手によらずに解析して分類することを可能とする。【解決手段】文書データ分類システム１は、抽出したデータにアノテーションデータを付与して第１学習モデルを作成する第１学習モデル作成モジュールと、第１学習モデルに基づいて、抽出したデータをブロックデータとしてブロック化するデータブロック化モジュールと、前記ブロックデータをデータ種別毎に分類するデータ分類モジュールとを備える。【選択図】図２

Description

本発明は、文書データ分類システム、文書データ分類方法及びプログラムに関する。

従来、ＰＤＦファイルなどの多岐のドキュメントフォーマットで作成された電子文書は、紙文書の代用としての利用に欠かせないものになっている。例えば、文書を電子文書として保管する場合、紙文書として保管した場合に比べて、スペースもコストも抑えることができる。また、電子文書を保管した場所に通信可能に接続された装置であれば、電子文書を遠隔でも利用することができる。

このように電子文書自体は広く利用されているが、さらに電子文書を活用しようと文書内容のデータを解析および分類するために、各種ドキュメントフォーマットから抽出し、抽出したデータを利用することが知られている。（特許文献１）

特許第６９８２３４７号公報

しかしながら、特許文献１に示されたような方法では、抽出したデータの解析及び分類手順が確立されておらず、抽出したデータを解析および分類するためには、人手で読み解くことが必要になるため、無駄なコストがかかるなど負担が大きい。

そこで、本発明者らは、電子文書から抽出したデータの解析及び分類手順を確立するべく、文書内容を分類することと、紙文書時代から培われた文書構成を解析することとを組み合わせることで、文書内容を活用し、さらには、章節などの章立てや段組み、ロゴなどの画像の配置様式などの書式や文書内容を再活用することによって、効率的な文書の活用ができることに着目した。

本発明は、これらの課題に鑑み、多岐のドキュメントフォーマットで作成された電子文書の内容を人手によらずに解析して分類することが可能な文書データ分類システム、文書データ分類方法及びプログラムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

第１特徴に係る発明は、ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
前記抽出したデータにアノテーションデータを付与して第１学習モデルを作成する第１学習モデル作成手段と、
前記第１学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、を備えることを特徴とする文書データ分類システムを提供する。

第１特徴に係る発明によれば、抽出したデータにアノテーションデータを付与して第１学習モデルを作成し、第１学習モデルに基づいて、抽出したデータをブロック化してからデータ種別毎に分類することから、文書内容を分類することと紙文書時代から培われた文書構成を解析することとを組み合わせることによって、効率的な文書の活用が可能である。また、構成化されていない電子文書を解析結果に基づいて構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。

第２特徴に係る発明は、第１特徴に係る発明であって、
前記分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第２学習モデルを作成する第２学習モデル作成手段と、
前記第２学習モデルに基づいて、前記分類したブロックデータにラベルを割り当てるラベリング手段と、
をさらに備える文書データ分類システムを提供する。

第２特徴に係る発明によれば、分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第２学習モデルを作成し、第２学習モデルに基づいて、ラベルを割り当てることから、解析内容やラベルが把握することができ、ユーザが指定したキーワードに合致する文書を検索することが可能である。

本発明は、コンピュータシステムのカテゴリであるが、文書データ分類方法及びプログラム等の他のカテゴリにおいても、そのカテゴリに応じた同様の作用・効果を発揮する。

本発明によれば、多岐のドキュメントフォーマットで作成された電子文書の内容を人手によらずに解析して分類することが可能な文書データ分類システム、文書データ分類方法及びプログラムを提供することが可能となる。

図１は、本発明の第１実施形態である文書データ分類システム１の概要を説明するための図である。図２は、本発明の第１実施形態である文書データ分類システム１の構成図である。図３は、本発明の第１実施形態におけるコンピュータ２が実行するデータブロック化分類処理のフローチャートである。図４は、本発明の第２実施形態である文書データ分類システム１の概要を説明するための図である。図５は、本発明の第２実施形態である文書データ分類システム１の構成図である。図６は、本発明の第２実施形態におけるコンピュータ２が実行するラベリング処理のフローチャートである。

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

［第１実施形態の概要］
本発明の第１実施形態について、図１に基づいて説明する。図１は、第１実施形態の文書データ分類システム１の概要を説明するための図である。文書データ分類システム１は、コンピュータ２から構成され、文書データの分類に利用するためコンピュータシステムである。

文書データ分類システム１のコンピュータ２は、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。

また、文書データ分類システム１のコンピュータ２は、例えば、１台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。

また、文書データ分類システム１は、コンピュータ２の代わりに、上述した端末装置から構成されてもよい。

コンピュータ２は、上述した端末装置、その他の端末や装置類等と、公衆回線網等を介して、データ通信可能に接続し、必要なデータや情報の送受信を実行してもよい。

コンピュータ２は、ドキュメントフォーマットからデータを抽出する（ステップＳ１１）。例えば、コンピュータ２は、取得しておいたドキュメントフォーマットからデータを抽出する。ドキュメントフォーマットは、コンピュータ２に予め取得されているものとし、取得方法については特に限定することなく、他の端末装置から公衆回線等を介して取得してもよい。また、ドキュメントフォーマットの取得は文書データを抽出する前であれば、タイミングについては限定されない。

なお、ドキュメントフォーマットとは、電子文書ファイルのことであり、例えば、ＰＤＦ、Ｗｏｒｄ、ＰＥＧ、ＰＮＧ、ＧＩＦなどのデータから構成されるあらゆる画像などのファイル形式のものを含むが、これに限定されない。

抽出するデータは、ドキュメントフォーマットを構成する文書要素であり、例えば、画像オブジェクト、表オブジェクト、テキストオブジェクトなどの要素を含むが、これに限定されない。

データの抽出方法は、特に限定されず、例えば、機械学習によるルールベースやモデルベースを利用してデータを抽出してもよいし、人手による例えばカットアンドペーストなどの方法や、アノテーションツールといったタグ付け自動化ツールを使用する方法などでデータを抽出してもよい。

コンピュータ２は、抽出したデータにアノテーションデータを付与して第１学習モデル１００を作成する（ステップＳ１２）。このとき抽出されるデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、抽出したデータに関連する情報として抽出したデータに付与される。本実施形態では、電子文書を構成化するための文書要素の種類（画像、表、テキストなど）や配置情報（サイズや座標など）がアノテーションデータとして抽出したデータが付与される。

アノテーションデータを付与した抽出したデータは、第１学習モデル１００として機械学習される。第１学習モデル１００とは、抽出したデータをブロック化して分類する学習モデルであり、後述の処理は、第１学習モデル１００に基づいて実行される。

コンピュータ２は、第１学習モデル１００に基づいて、抽出したデータを解析し、ブロックデータとしてブロック化する（ステップＳ１３）。このとき抽出されるデータは、分類対象となる文書要素である。本願明細書で言う「ブロック化」とは、電子文書を構成化に必要な文書要素に配置情報を関連付けてブロックデータを生成することである。抽出したデータについては、第１学習モデル１００に基づいて、文書要素として電子文書内での配置やサイズを示す配置情報をセグメンテーション情報として予測してもよい。

コンピュータ２は、第１学習モデル１００に基づいて、ブロックデータをデータ種別毎に分類する（ステップＳ１４）。具体的には、生成したブロックデータを文書要素の種類毎に分類する。

分類したブロックデータは、コンピュータ２の内部に格納してもよいし、コンピュータ２の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。

このように、ドキュメントフォーマットから抽出したデータを、複数のブロックデータをデータ種類に応じて電子文書に最適に配置して構成化するために、学習済みデータ用いることによって、人手によらずに解析してブロック化して分類することができる。これにより、構成化されていない電子文書を構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。また、紙文書時代で培われた文書構成については、機械学習させることによって、電子文書の構成化に活用することが可能である。

以上が、文書データ分類システム１が実行する処理の概要である。

［文書データ分類システム１のシステム構成］
図２に基づいて、本発明の第１実施形態である文書データ分類システム１のシステム構成について説明する。図２は、第１実施形態の実施形態である文書データ分類システム１のシステム構成を示す図である。図２において、文書データ分類システム１は、コンピュータ２から構成され、文書データの分類に利用するためのコンピュータシステムである。

なお、文書データ分類システム１は、その他の端末や装置類等が含まれていてもよい。例えば、ユーザ毎に別のコンピュータ２を利用してもよく、この場合、文書データ分類システム１は、後述する各処理を、コンピュータ２と、その他の含まれる端末や装置類等との何れか又は複数の組合せにより実行することになる。

コンピュータ２は、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。

コンピュータ２は、制御部２１０として、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を備える。制御部２１０は、入力部２２０、記憶部２４０と協働してデータ抽出モジュール２２１を実現する。また、制御部２１０は、入力部２２０、記憶部２４０と協働して第１学習モデル作成モジュール２２２を実現する。また、制御部２１０は、記憶部２４０と協働して、データブロック化モジュール２２３、データ分類モジュール２２４を実現する。

コンピュータ２は、入力部２２０として、コンピュータ２を操作するために必要な機能を備えるものとする。入力を実現するための例として、タッチパネル機能を実現する液晶ディスプレイ、キーボード、マウス、ペンタブレット、装置上のハードウェアボタン、音声認識を行うためのマイク等を備えることが可能である。入力方法により、本発明は特に機能を限定されるものではない。

コンピュータ２は、記憶部２４０として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージを備える。データの保存先は、クラウドサービスやデータベース等であってもよい。

［データブロック化分類処理］
図３に基づいて、文書データ分類システム１が実行するデータブロック化分類処理について説明する。図３は、文書データ分類システム１が実行するデータブロック化分類処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。

コンピュータ２のデータ抽出モジュール２２１は、ドキュメントフォーマットからデータを抽出する（ステップＳ１１０）。例えば、データ抽出モジュール２２１は、取得しておいたドキュメントフォーマットからデータを抽出する。ドキュメントフォーマットは、コンピュータ２の記憶部２４０に予め取得されているものとし、取得方法については特に限定することなく、他の端末装置から公衆回線等を介して取得してもよい。また、ドキュメントフォーマットの取得は文書データを抽出する前であれば、タイミングについては限定されない。

コンピュータ２の第１学習モデル作成モジュール２２２は、抽出したデータにアノテーションデータを付与して第１学習モデル１００を作成する（ステップＳ１２０）。このとき抽出されるデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、抽出したデータに関連する情報として抽出したデータに付与される。本実施形態では、電子文書を構成化するための文書要素の種類（画像、表、テキストなど）やサイズ情報（サイズや座標など）がアノテーションデータとして抽出したデータが付与される。

コンピュータ２のデータブロック化モジュール２２３は、第１学習モデル１００に基づいて、抽出したデータを解析し、ブロックデータとしてブロック化する（ステップＳ１３０）。このとき抽出されるデータは、分類対象となる文書要素である。本願明細書で言う、ブロック化とは、電子文書を構成化に必要な文書要素に配置情報を関連付けてブロックデータを生成することである。抽出したデータについては、第１学習モデル１００に基づいて、文書要素として電子文書内での配置やサイズを示す配置情報をセグメンテーションデータとして予測してもよい。

コンピュータ２のデータ分類モジュール２２４は、第１学習モデル１００に基づいて、ブロックデータをデータ種別毎に分類する（ステップＳ１４０）。具体的には、生成したブロックデータを文書要素の種類（画像、表、テキストなど）毎に分類する。

分類したブロックデータは、コンピュータ２の記憶部２４０に格納してもよいし、コンピュータ２の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。

以上が、データブロック化分類処理である。

［第２実施形態の概要］
本発明の第２実施形態について、図４に基づいて説明する。図４は、本発明の第２実施形態の文書データ分類システム１の概要を説明するための図である。なお、第１実施形態と同一の機能および構成については同一の符号を付し、説明を省略する。本実施形態が第１実施形態と異なるのは、さらに第２学習モデルを生成し、第２学習モデルに基づいて、ブロックデータの内容を解析し、解析結果に基づいてラベルを割り当てるという点である。

文書データ分類システム１のコンピュータ２は、第１実施形態同様、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。

また、文書データ分類システム１のコンピュータ２は、第１実施形態同様、例えば、１台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。

また、文書データ分類システム１は、第１実施形態同様、コンピュータ２の代わりに、上述した端末装置から構成されてもよい。

コンピュータ２は、第１実施形態同様、上述した端末装置、その他の端末や装置類等と、公衆回線網等を介して、データ通信可能に接続されており、必要なデータや情報の送受信を実行する。

コンピュータ２は、ドキュメントフォーマットからデータを抽出する（ステップＳ２１）。ステップＳ２１は実施形態１のステップＳ１１と同様の処理である。

コンピュータ２は、抽出したデータにアノテーションデータを付与して第１学習モデル１００を作成する（ステップＳ２２）。ステップＳ２２は実施形態１のステップＳ１２と同様の処理である。

コンピュータ２は、第１学習モデル１００に基づいて、抽出したデータを解析し、ブロックデータとしてブロック化する（ステップＳ２３）。ステップＳ２３は実施形態１のステップＳ１３と同様の処理である。

コンピュータ２は、第１学習モデル１００に基づいて、ブロックデータをデータ種別毎に分類する（ステップＳ２４）。ステップＳ２４は実施形態１のステップＳ１４と同様の処理である。

コンピュータ２は、分類したブロックデータにアノテーションデータを付与して第２学習モデル２００を作成する（ステップＳ２５）。このとき分類したブロックデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、分類したブロックデータに関連する情報としてブロックデータに付与される。本実施形態では、分類したブロックデータをさらに細分化して解析した結果がアノテーションデータとして抽出したデータが付与される。

このブロックデータは、機械学習用データであり、文書要素がテキストや表で分類されたデータであり、画像の場合は含めない。画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。

分類したブロックデータの文書要素がテキストである場合、内容を解析し、例えば、タイトル、章や節を検出して細分化する。また、分類したブロックデータの文書要素が表である場合も同様に、内容を解析し、表タイトルを検出して細分化する。

コンピュータ２は、第２学習モデル２００に基づいて、分類したブロックデータにラベルを割り当てる（ステップＳ２６）。このとき分類したブロックデータは、ラベル割り当ての対象となるテキストや表などの文書要素であり、画像は含めない。上にも述べたが、画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。本願明細書で言う「ラベル」とは、例えば、分類したブロックデータがテキストである場合は、タイトル、章や節などの文書要素を細分化したものであり、分類したブロックデータの文書要素が表である場合は、表タイトルなどの文書要素を細分化したものである。

ラベルを割り付けたブロックデータは、コンピュータ２の内部に格納してもよいし、コンピュータ２の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。

このように、分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第２学習モデルを作成し、第２学習モデルに基づいて、ラベルを割り当てることから、分類したブロックデータの解析内容をラベルによって把握することができ、ラベルに基づいて、ユーザが指定したキーワードに合致する文書を検索することが可能である。

［文書データ分類システム１のシステム構成］
図５に基づいて、本発明の第１実施形態である文書データ分類システム１のシステム構成について説明する。図５は、第１実施形態の実施形態である文書データ分類システム１のシステム構成を示す図である。図５において、文書データ分類システム１は、コンピュータ２から構成され、文書データの分類に利用するためのコンピュータシステムである。

なお、文書データ分類システム１は、第１実施形態同様に、その他の端末や装置類等が含まれていてもよい。例えば、ユーザ毎に別のコンピュータ２を利用してもよく、この場合、文書データ分類システム１は、後述する各処理を、コンピュータ２と、その他の含まれる端末や装置類等との何れか又は複数の組合せにより実行することになる。

また、文書データ分類システム１のコンピュータ２は、第１実施形態同様に、例えば、１台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。

コンピュータ２は、第１実施形態同様に、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。

コンピュータ２は、制御部２１０として、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を備える。制御部２１０は、入力部２２０、記憶部２４０と協働してデータ抽出モジュール２２１を実現する。また、制御部２１０は、入力部２２０、記憶部２４０と協働して第１学習モデル作成モジュール２２２を実現する。また、制御部２１０は、記憶部２４０と協働して、データブロック化モジュール２２３、データ分類モジュール２２４、ラベリングモジュール２２６を実現する。

コンピュータ２は、第１実施形態同様に、入力部２２０として、コンピュータ２を操作するために必要な機能を備えるものとする。入力を実現するための例として、タッチパネル機能を実現する液晶ディスプレイ、キーボード、マウス、ペンタブレット、装置上のハードウェアボタン、音声認識を行うためのマイク等を備えることが可能である。入力方法により、本発明は特に機能を限定されるものではない。

コンピュータ２は、第１実施形態同様に、記憶部２４０として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージを備える。データの保存先は、クラウドサービスやデータベース等であってもよい。

［データブロック化分類処理］
データブロック化分類処理は、第１実施形態と同様の処理であるため、その説明を省略する。

［ラベリング処理］

コンピュータ２は、分類したブロックデータにアノテーションデータを付与して第２学習モデル２００を作成する（ステップＳ２５０）。このとき分類したブロックデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、分類したブロックデータに関連する情報としてブロックデータに付与される。本実施形態では、分類したブロックデータをさらに細分化して解析した結果がアノテーションデータとして抽出したデータが付与される。

コンピュータ２は、第２学習モデル２００に基づいて、分類したブロックデータにラベルを割り当てる（ステップＳ２６０）。このとき分類したブロックデータは、ラベル割り当ての対象となるテキストや表などの文書要素であり、画像は含めない。上にも述べたが、画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。本願明細書で言う「ラベル」とは、例えば、分類したブロックデータがテキストである場合は、タイトル、章や節などの文書要素を細分化したものであり、分類したブロックデータの文書要素が表である場合は、表タイトルなどの文書要素を細分化したものである。

以上が、ラベリング処理である。

上述した手段、機能は、コンピュータ（ＣＰＵ、情報処理装置、各種端末を含む）が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、単数又は複数のコンピュータからネットワーク経由で提供される（クラウドサービス、ＳａａＳ：ソフトウェア・アズ・ア・サービス）形態で提供される。また、プログラムは、例えば、コンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記録装置又は外部記録装置に転送し記録して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記録装置（記録媒体）に予め記録しておき、その記録装置から通信回線を介してコンピュータに提供するようにしてもよい。

以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

１文書データ分類システム、２コンピュータ

第１特徴に係る発明は、ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
前記抽出したデータにアノテーションデータを付与して第１学習モデルを作成する第１学習モデル作成手段と、
前記第１学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第２学習モデルを作成する第２学習モデル作成手段と、
前記第２学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるラベリング手段と、
を備えることを特徴とする文書データ分類システムを提供する。

第１特徴に係る発明によれば、抽出したデータにアノテーションデータを付与して第１学習モデルを作成し、第１学習モデルに基づいて、抽出したデータをブロック化してからデータ種別毎に分類し、分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第２学習モデルを作成し、第２学習モデルに基づいて、分類したブロックデータにラベルとして割り当てることから、文書内容を分類することと紙文書時代から培われた文書構成を解析することとを組み合わせることによって、効率的な文書の活用が可能である。また、構成化されていない電子文書を解析結果に基づいて構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。また、解析内容やラベルが把握することができ、ユーザが指定したキーワードに合致する文書を検索することが可能である。

Claims

ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
前記抽出したデータにアノテーションデータを付与して第１学習モデルを作成する第１学習モデル作成手段と、
前記第１学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、を備えることを特徴とする文書データ分類システム。
前記分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第２学習モデルを作成する第２学習モデル作成手段と、
前記第２学習モデルに基づいて、前記分類したブロックデータにラベルを割り当てるラベリング手段と、
をさらに備えることを特徴とする請求項１に記載の文書データ分類システム。
前記ブロック化手段は、前記第1学習モデルに基づいて前記ブロックデータのセグメンテーション情報を予測することを特徴とする請求項１または請求項２に記載の文書データ分類システム。
ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムが実行する文書データ分類方法であって、
前記抽出したデータにアノテーションデータを付与して第１学習モデルを作成するステップと、
前記第１学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップと、
前記ブロックデータをデータ種別毎に分類するステップと、
を備えることを特徴とする文書データ分類方法。
ドキュメントフォーマットからデータを抽出して分類するコンピュータに、
前記抽出したデータにアノテーションデータを付与して第１学習モデルを作成するステップ、
前記第１学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップ、
前記ブロックデータをデータ種別毎に分類するステップ、
を実行させるためのコンピュータ読み取り可能なプログラム。