JP7169389B2

JP7169389B2 - 文書タイトルツリーの構築方法、装置、電子設備、記憶媒体、及びプログラム

Info

Publication number: JP7169389B2
Application number: JP2021049630A
Authority: JP
Inventors: ジェンジャン; イーポンジャン; ミンハオリウ; ジアンリアングオ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2021-03-24
Publication date: 2022-11-10
Anticipated expiration: 2041-03-24
Also published as: CN111460083B; KR20210040862A; KR102509836B1; US20210303772A1; EP3889823A1; JP2021108153A; CN111460083A

Description

本発明はコンピュータ技術分野、特に人工知能分野に応用することができる。

従来技術における文書タイトルの識別は、通常、レイアウトフォーマットの比較とシンタックスの比較に基づく方法である。レイアウトフォーマットの比較に基づく方法は、主に予め定義されたレイアウトフォーマットのテンプレート規則を通して、処理されるべき文書とテンプレート規則との関係を比較することにより、タイトルの識別を完了する。シンタックスの比較に基づく方法は、まずシンタックスの関係を表すツリーまたは図形を定義し、次に文書タイトルのシンタックス構造を構築し、処理されるべき文書における段落が文書タイトルのシンタックス構造に相応しいか否かを比較することにより、タイトルの識別を完了する。しかし、現在、多くの文書は、作成過程において、例えば、要旨レベルを設定していない、または要旨レベルの設定が間違っている、タイトルフォーマットが間違っているなど、多くの非規範的な現象が存在し、いずれの状況も文書タイトルの識別を困難にする可能性がある。そのため、上記の方法を用いるとフォールトトレランスが低いという問題が存在する可能性がある。

本発明は、文書タイトルツリーの構築方法、装置、電子設備および記憶媒体を提供し、従来技術における上記の技術問題のうちの少なくとも１つを解決する。

本発明の第１態様は、文書タイトルツリーの構築方法を提供し、当該方法は、
予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と前記予め定義された規則における段落特徴とを規則マッチングすることと、
規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することと、
規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定することと、
各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築することと、を含む。

本発明の第２態様は、文書タイトルツリーの構築装置を提供し、当該装置は、
予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と予め定義された規則における段落特徴とを規則マッチングするためのマッチングユニットと、
規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定するための第１決定ユニットと、
規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定するための第２決定ユニットと、
前記各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築するための構築ユニットと、を備える。

本発明の第３態様は、電子設備をさらに提供し、当該電子設備は、
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
メモリには、少なくとも１つのプロセッサにより実行可能な命令が記憶されており、
命令は、少なくとも１つのプロセッサにより実行される場合、本発明の実施形態における任意の文書タイトルツリーの構築方法を実行させることを特徴とする。

本発明の第４態様は、コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体をさらに提供し、当該コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体は、
本発明の実施形態における任意の文書タイトルツリーの構築方法をコンピュータに実行させる。

本発明の実施形態は、以下のメリットまたは有益な効果を有する。

様々な構造化されていない文書のタイトルの識別と文書タイトルツリーの構築とに適応でき、予め定義された規則と機械学習モデルとの組み合わせに基づく方式は、比較的強いフォールトトレランスを有し、識別結果がさらに正確となる。

本発明の選択可能な実施形態が有する他の効果については、下記を通じて具体的な実施形態と関連して説明する。

本発明の実施形態による文書タイトルツリーの構築方法のフローチャート図である。本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリーを示す図である。本発明の実施形態による文書タイトルツリーの構築方法における段落レベル識別フローチャート図である。本発明の実施形態による文書タイトルツリーの構築方法における機械学習モデルを用いて段落レベルを決定するフローチャート図である。本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリー構築フローチャート図である。本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリーを示す図である。本発明の実施形態による文書タイトルツリーの構築方法のフローチャート図である。本発明の実施形態による文書タイトルツリーの構築装置を示す図である。本発明の他の実施形態による文書タイトルツリーの構築装置における構築ユニットを示す図である。本発明の実施形態による文書タイトルツリーの構築方法を実現するための電子設備のブロック図である。

添付図面は、本方案をより良く理解するためのものであり、本発明を限定するものではない。

以下において、本発明の例示的な実施形態を、理解を容易にするために本発明の実施形態の様々な詳細を含む添付の図面に関連して説明するが、これらは単に例示的なものであると考えるべきである。したがって、当業者は、本発明の範囲および精神を逸脱することなく、本発明に記載された実施形態に様々な変更および修正を加えることができることを認識すべきである。同様に、以下の説明では、周知の機能および構成については、明確化および簡明化のために説明を省略する。

図１は、本発明の実施形態による文書タイトルツリーの構築方法のフローチャート図である。図１を参照し、該文書タイトルツリーの構築方法は以下を含む。

ステップＳ１１２において、予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と予め定義された規則における段落特徴とを規則マッチングする。

ステップＳ１１４において、規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定する。

ステップＳ１１６において、規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定する。

ステップＳ１２０において、各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築する。

本発明の実施形態は、様々な構造化されていない文書のタイトルの識別と文書タイトルツリーの構築に適応する。構造化されていない文書は、Ｗｏｒｄ文書、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ、ハイパーテキストマークアップランゲージ）文書、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学文字認識）変換文書などを含むことができる。このような文書は、若干の基本ユニットで構成されており、各ユニットは文章において、例えば、タイトルや本文などの異なる役割を有する。通常、１つの段落は、テキストの１つの基本ユニットである。文書タイトルツリーの構築とは、文書におけるタイトルを識別し、識別結果に基づいてタイトルツリーを樹立することである。文書タイトルツリーを用いることで、文書に含まれる情報を効率的にマイニングすることができ、レイアウトフォーマット検査などの多くの応用の基礎である。また、文書タイトルツリー構築は、文書分類、構造化検索、文書理解などの自然言語処理応用にも重要な役割を果たす。

文書タイトルツリーの構築タスクは、与えられた処理されるべき文書に基づいて、処理されるべき文書における対応するタイトルの構造化情報を与えるよう要求する。処理されるべき文書における各段落の出現順序および入れ子構造を決定することにより、最終的に規則シンタックスツリーを形成する。つまり、該規則シンタックスツリーは、文書タイトルおよび文書本文の階層構造を表す文書タイトルツリーである。図２は、本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリーを示す図である。図２は、入力文書例に基づいて再構成された文書タイトルツリーを示す。図２における「ＲＯＯＴ」は仮想のルートノードであり、ルートノードは文書そのものを表す。図２における「Ｔ」はタイトルノードである。図２における「Ｃ」は文書本文ノードである。本文ノードは通常、子ノードである。

ｗｏｒｄ文書を例とすると、ｗｏｒｄ文書において要旨レベルが正しく設定されている場合、ＡｐａｃｈｅＰＯＩやＬｉｂｒｅｏｆｆｉｃｅなどのｗｏｒｄ文書解析ツールを用いて、文書タイトルツリーをエクスポートすることができる。しかし、文書の作成が規範的ではない場合、文書タイトルツリーを構築することはできない。

以上の問題に対して、本発明では、構造化されていない文書に適応するタイトルツリー構築方法を提案する。本発明の実施形態において、予め定義された規則に基づく規則マッチングと機械学習モデルとを用いて、処理されるべき文書うちの少なくとも１つの段落に対して段落役割識別を行い、即ち処理されるべき文書における各段落がタイトルであるか否かを識別する。さらに、各段落の段落レベルを判定することもできる。例えば、図２において、「Ｔ：２．アルゴリズム設計」が１級タイトルであり、「Ｔ：２．１規則マッチング」が２級タイトルである。ステップＳ１２０において、ステップＳ１１４またはＳ１１６にて得られた各段落の段落レベルに基づいて文書タイトルツリーを構築する。図２の例を参照すると、構築された文書タイトルツリーは、文書段落間の階層入れ子関係を明確に表すことができる。

ステップＳ１１２において、まず、予め定義された規則の規則マッチングの方法に基づき、処理されるべき文書における各段落に対してタイトルの識別を行う。具体的に、処理されるべき文書における各段落のテキスト特徴と、予め定義された規則における段落特徴との規則マッチングを行う。規則マッチングが成功した場合に、ステップＳ１１４を実行し、規則マッチングの結果に基づいて処処理されるべき文書における各段落の段落レベルを決定する。例えば、記予め定義された規則における段落特徴は、段落テキスト中にコンマまたはピリオドなどの予め定められた句読点が含まれることを含む。即ち、処理されるべき文書における現在の段落にコンマまたはピリオドなどの予め定められた句読点が含まれていると識別した場合、現在の段落の段落レベルを文書本文として識別する。規則マッチングが失敗した場合に、ステップ１１６を実行し、機械学習モデルを用いて処理されるべき文書における各段落の段落レベルを決定する。例えば、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ｔｅｒｍＭｅｍｏｒｙ、長・短期記憶ネットワーク）モデルを用いて、処理されるべき文書における各段落の段落レベルに対して識別を行うことができる。

上記実施形態において、予め定義された規則に基づく規則マッチングと機械学習モデルとを組み合わせ、処理されるべき文書における各段落に対してタイトルの識別を行い、各段落の段落レベルを得る。予め定義された規則に基づく規則マッチングと機械学習モデルとを組み合わせる方法は、多方面から段落の段落レベルを判定することができ、テンプレート規則のみを用いる比較に存在するフォールトトレランス不足の問題を解消し、タイトルの認識能力を向上する。

他の実施形態において、予め定義された規則の規則マッチングおよび機械学習モデルのどちらかに基づき、処理されるべき文書における各段落に対してタイトルの識別行い、各段落の段落レベルを得ることもできる。また、各段落の段落レベルを通して文書タイトルツリーを構築することにより、文書全体の段落間の階層入れ子関係を表す。

従来技術におけるレイアウトフォーマットの比較に基づく方法は、タイトルの識別過程においてテンプレートと処理されるべき文書との間の類似度を計算する必要があり、類似度の大小関係を通して処理されるべき文書とテンプレートにおけるタイトルとの関係を判定する。処理されるべき文書のレイアウトフォーマットが規範のものでなければ、類似度の大小を通してタイトルの識別を行うことは困難である。従来技術におけるシンタックスの比較の方法についても同様の問題があり、処理されるべき文書のシンタックスフォーマットが規範のものでなければ、タイトルの識別を行うことはできない。現在、多くの文書は、作成過程において、例えば、要旨レベルを設定していない、または、要旨レベルの設定が間違っている、タイトルフォーマットが間違っているなどのような、多くの非規範的な現象が存在し、いずれの状況も文書タイトルの識別を困難にする可能性がある。

これを考慮して、本発明の実施形態は、文書タイトルツリーの構築方法を提供し、該方法は
様々な構造化されていない文書のタイトルの識別および文書タイトルツリーの構築に適応し、予め定義された規則と機械学習モデルとの組み合わせに基づく方式は、比較的強いフォールトトレランスを有するため、識別結果がさらに正確となる。

本発明の実施形態において、段落レベルは、文書本文および文書タイトルのタイトルレベルを含むことができる。ここで、文書タイトルのタイトルレベルは、１級レベル、２級レベル、３級レベルなどのレベルの高い順の一連のタイトルを含むことができる。図２の例を参照すると、「Ｃ」は文書本文ノードであり、「Ｔ：２．アルゴリズム設計」が１級タイトルであり、「Ｔ：２．１規則マッチング」が２級タイトルである。

１つの実施形態において、各段落レベルの対応する重み値を予め設定してもよい。ここで、重み値の小さいものの対応するタイトルレベルは高く、最大の重み値は文書本文に対応する。例えば、図２の例において、１級タイトルを表すノード「Ｔ：２．アルゴリズム設計」には重み値１を付与し、２級タイトルを表すノード「Ｔ：２．１規則マッチング」には重み値２を付与し、文書本文を表すノード「Ｃ」には重み値１００を付与してもよい。

本発明の実施形態において、予め定義された規則に基づく規則マッチングの方法は、文書本文特徴に基づくタイトルフォーマット制限、タイトル数字マッチング、およびキーワードマッチングのうちの少なくとも１つを含むことができる。上記のいくつかの方法の具体的な実施形態は以下の通りである。

１）文書本文特徴に基づくタイトルフォーマット制限
１つの実施形態において、予め定義された規則における段落特徴は、文書本文特徴を含む。文書本文特徴として、段落テキストにおいて予め定められた句読点、予め定められた段落の長さの閾値が含まれている、段落テキストにおいて予め定められた文字が含まれている、段落テキストにおいて数字以外の文字が含まれていない、などを含むことができる。

１つの実施形態において、図１におけるステップＳ１１４：規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定することは、具体的に、処理されるべき文書内における現在の段落と文書本文特徴とのマッチングが成功した場合、現在の段落の段落レベルを文書本文として決定することを含むことができる。

通常の場合、文書のタイトル段落は、特殊なタイトルフォーマットの制限条件を有する。例えば、タイトルに句読点符号が含まれていない、タイトルの内容に長さ制限がある、「公式」などの特殊文字がタイトルに出現しない、などである。以上の特徴に基づき、上記のタイトルフォーマットの制限条件に基づいて、処理されるべき現在の段落の内容について検査を行うことができる。上記のタイトルフォーマットの制限条件を満たしている場合、該段落を非タイトル段落、即ち文書本文として識別し、重み１００を付与する。１つの例として、タイトルフォーマット制約条件は具体的に表１のように示される。

本発明の実施形態は、明らかな文書本文特徴を有する段落を文書本文として識別することができ、正確な識別の基に、後続に構築される文書タイトルツリーにおいて文書構造を明確に表すことができる。

２）タイトル数字マッチング
１つの実施形態において、予め定義された規則における段落特徴は、文書タイトルのタイトル内容より前の数字符号のフォーマットを含む、
図１におけるステップＳ１１４：規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定することは具体的に以下を含む。

文書タイトルのタイトル内容より前に数字符号が含まれていると識別した場合に、サンプル文書に基づき、各タイトルレベルからなるタイトルレベル集合を取得し、かつ、各タイトルレベルの対応する数字符号のフォーマットの正規表現を取得する。

現在の段落におけるタイトル内容より前の数字符号のフォーマットと、各タイトルレベルの対応する正規表現とをマッチングし、マッチングした結果に基づいて、現在の段落のタイトルレベルを決定する。

このような実施形態において、タイトル内容より前の数字符号のフォーマットを用いてタイトルレベルを決定することができる。例えば、様々なシーンにおいて使用されるサンプル文書を予め収集することができる。また、サンプル文書において、数字から始まる複数のタイトル段落を抽出し、かつ、複数のタイトル段落から各種の異なる数字符号のフォーマットを取得する。詳細は、以下の表２における「第１章」、「（１．１）」などの、数字符号のフォーマットを参照する。

さらに、表２に示すように、サンプル文書から取得される様々な異なる数字符号のフォーマットを正規表現で表すことができる。異なる数字符号のフォーマットは異なるタイトルレベルを表し、さらに、異なるタイトルレベルは異なる重み値に対応するため、各正規表現の対応する重み値を得ることができる。表２の３列目に各数字符号のフォーマットの対応する重み値を示す。例えば、「第１章」は１級タイトルである確率が高く、対応するタイトルの重み値は１である。「（１．１）」は２級タイトルある確率が高く、対応するタイトルの重み値は５である。表２は、あらかじめサンプル文書を用いてまとめた汎用性のある表である。表２には、異なる数字符号のフォーマットに異なる重みが付与されていることが示されている。ここで、重みが小さいほど、その対応するタイトルレベルが高いことを表す。

上記の表のデータを基に、正規マッチングの方法を通して、文書タイトルのタイトル内容より前に数字符号が含まれていると識別した場合、現在の段落におけるタイトル内容より前の数字符号のフォーマットと、各タイトルレベルの対応する正規表現とをマッチングする。現在の段落が上記の正規マッチング条件を満たしている場合、タイトルの重み値を出力し、プログラムは識別を終了する。

本発明の実施形態は、数字符号のフォーマットの正規表現を通して各段落のタイトルレベルを正確に識別することができ、即ち、上記の方法を用いて汎用的なタイトル数字マッチング表をまとめることができ、さらに特定のシーンに対して個性的な応用に適応する表をまとめることができ、該方式は可操作性が高く、精度が高い。

３）キーワードマッチング
１つの実施形態において、予め定義された規則における段落特徴は、キーワード集合を含み、キーワード集合は、ブラックリストとホワイトリストとを含み、ブラックリストは、文書タイトルに含まれるキーワードを含み、ホワイトリストは、文書タイトルに含まれないキーワードを含む。

規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定することは、以下を含む。

現在の段落のテキストとキーワード集合とをマッチングする。

現在の段落のテキストとホワイトリストとのマッチングが成功した場合に、現在の段落の段落レベルを予め設定された、ホワイトリストに対応するタイトルレベルとして決定する。

現在の段落のテキストとブラックリストとのマッチングが成功した場合に、現在の段落の段落レベルを文書本文として決定する。

文書タイトルの内容は章節全体の中心思想を表して、特定のキーワードを通して文書タイトルであるか否かを判断することができる。例えば、「基本情報」、「背景紹介」、「方法説明」などのキーワードを含む段落は、文書タイトルである可能性が高い。本発明の実施形態は、表３に示すように、段落内容に対して判定を行うためにホワイトリストとブラックリストとを予め定義することができる。表３の３列目は、ホワイトリスト及びブラックリストの対応する重み値をさらに示す。ここで、現在の段落のテキストとブラックリストとのマッチングが成功した場合に、現在の段落の段落レベルを文書本文として決定し、現在の段落の対応する重み値を１００と設定する。現在の段落のテキストとホワイトリストとのマッチングが成功した場合に、現在の段落の段落レベルを文書タイトルと決定する。１つの実施形態において、ホワイトリストとのマッチングに成功した文書段落の対応する重み値を、すべて第１の予め定められた数値に設定し、例えば、該数値は２であってもよい。

本発明の実施形態において、リストは実際のニーズに応じて自由に適合することができ、ニーズに基づいて随時拡張および更新することができ、該方式はシーンおよびニーズに応じて柔軟に運用することができ、拡張性に優れている。

前述のように、本発明の実施形態において、予め定義された規則に基づく規則マッチングの方法は、文書本文特徴に基づくタイトルフォーマット制限、タイトル数字マッチング、およびキーワードマッチングのうちの少なくとも１つを含むことができる。１つの例において、上述のいくつかの予め定義された規則に基づく規則マッチングの方法を組み合わせて、タイトルの識別の精度をさらに向上することができる。図３は、本発明の実施形態による文書タイトルツリーの構築方法における段落レベル識別フローチャート図である。図３に示すように、まず、文書本文特徴に基づくタイトルフォーマット制限を用いて文書段落に対して識別を行い、識別に結果を得られた場合、該文書段落を文書本文として決定し、かつ、重みを出力することができる。上記識別に結果を得られなかった場合、タイトル数字マッチングの方式を用いて、文書段落に対して識別を行い、識別に結果を得られた場合、該文書段落を文書本文として決定し、かつ、重みを出力する。上記識別に結果を得られなかった場合、キーワードマッチングの方式を用いて、文書段落に対して識別を行い、識別に結果を得られた場合、該文書段落を文書本文または文書タイトルとして決定し、かつ、重みを出力する。記識別に結果を得られなかった場合、機械学習モデルを用いて文書段落に対して識別を行い、最終的に該文書段落の対応する重みを出力する。本発明の実施形態は、文書段落のタイトルの特徴について、予め定義された規則および機械学習モデルから多方面に段落役割を識別し、識別の精度を保証することができる。

図４は、本発明の実施形態による文書タイトルツリーの構築方法における機械学習モデルを用いて段落レベルを決定するフローチャート図である。図１および図４を参照し、ステップＳ１１６における規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定することは、具体的に以下を含む。

ステップＳ３１０において、現在の段落から単語ベクトルシーケンス特徴と品詞シーケンス特徴とを抽出する。

ステップＳ３２０において、単語ベクトルシーケンス特徴と品詞シーケンス特徴とを機械学習モデルに入力する。

ステップＳ３３０において、機械学習モデルを用いて処理されるべき文書における各段落の段落レベルを出力する。

１つの例において、機械学習モデルを用いて、現在の段落について二項分類判定、即ち、現在の段落が文書タイトルであるか否かを判定することができる。

文書タイトルのテキストは通常、内容においてまとめ的な語句として体現されるため、一方では、単語ベクトルシーケンスを用いて特徴とし、語義情報の抽出に用いることができる。ここで、単語ベクトルは単語をベクトルとして処理する技術であり、ベクトルの間の相対的類似度と語義類似度とが相関することを保証する。単語ベクトルは、単語を１つの語彙空間にマッピングし得られたベクトルである。もう一方で、文書タイトルのテキストは品詞にも対応する特徴があり、通常は名詞と動名詞の組み合わせであり、例えば「経験のまとめ」、「法則の要約」などである。そのため、機械学習モデルの入力特徴として品詞シーケンスを同時に追加することにより、機械学習モデルが単語ベクトルシーケンス特徴と品詞シーケンス特徴とを用いて学習を行うことができるようにすることができる。

ステップＳ３１０において、機械学習モデルに入力されるべき現在の段落に対して単語分割処理を行い、現在の段落の単語ベクトルシーケンス特徴と品詞シーケンス特徴とを得る。ステップＳ３２０において、上記の特徴を機械学習モデルに入力する。１つの例において、ＬＳＴＭモデルを用いて、処理されるべき文書における各段落の段落レベルを判定することができる。ＬＳＴＭモデルの判定式は以下の通りである。

ｙ＝ＬＳＴＭ（ｘ＿ｅｍｂ、ｘ＿ｐｏｓ）
ここで、ｘ＿ｅｍｂは単語分割後の単語ベクトルシーケンス特徴を表し、ｘ＿ｐｏｓは単語分割後の品詞シーケンス特徴を表し、ｙは最終的に得られた出力結果を表す。ここで、ｙが１のとき、予測結果は、現在の段落が文書タイトルであることを表す。１つの実施形態において、ＬＳＴＭモデルによりタイトルとして識別された文書段落の対応する重み値を、すべて第２の予め定められた数値と設定することができ、例えば、該数値は７であってもよい。ｙが０のとき、予測結果は、現在の段落が文書タイトルでないことを表し、重み値１００を付与する。

本発明の実施形態において用いられた機械学習モデルは、シーケンス特徴に関する問題を処理する上で元から有する優性があり、機械学習モデルを用いて単語ベクトルシーケンス特徴と品詞シーケンス特徴とを学習し、収束したモデルを得て予測に用いることにより、理想的な予測効果を得ることがで
１つの実施形態において、図１におけるステップＳ１２０において、各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築することは、以下を含む。

文書タイトルツリーのルートノードを作成し、かつ、ルートノードの対応する段落レベルを最高レベルとして割り当てる。

処理されるべき文書における各段落の段落レベルに基づいて、各段落の対応する段落ノードを文書タイトルツリーに追加する。

前述のように、文書タイトルツリーにおけるルートノードは文書そのものを表す。まずルートノードを作成し、かつ、ルートノードの対応する段落レベルを最高レベルと割り当て、それに応じてルートノードに最小の重み値を付与することができる。例えば、ルートノードに重み値０を付与することができる。次に、処理されるべき文書における各段落の対応する段落ノードを文書タイトルツリーに追加する。前述のステップにおいて、処理されるべき文書における各段落の段落レベルを既に識別し、各段落の対応する重み値を得ることができる。重み値に基づいて、各段落の対応する段落ノードを文書タイトルツリーに追加し、ソートツリーを構築することができる。ソートツリーでは、ルートノードの重み値は最小であり、ルートノードの子ノードは１級タイトルの対応するノードであり、１級タイトルの対応するノードの子ノードは２級タイトルの対応するノードであり、最下層の子ノードが文書本文に対応するまで順次類推する。

本発明の実施形態では、階層構造を有する文書タイトルツリーを取得することができ、例えば、ｗｏｒｄ分書、ｔｘｔ分書、ｈｔｍｌ文書などのような様々な構造化されていない文書に適応することができる。生成したタイトルツリーを用いることで、文書に含まれる情報を効率的にマイニングすることができ、レイアウトフォーマット検査、文書分類、構造化検索、文書理解などの多くの応用の基礎である。

図５は、本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリー構築フローチャート図である。図５に示すように、１つの実施形態において、処理されるべき文書における各段落の段落レベルに基づいて、各段落の対応する段落ノードを文書タイトルツリーに追加することは、以下を含む。

ステップＳ５１０において、処理されるべき文書における１番目の段落を現在の段落とし、ルートノードを前記文書タイトルツリーの最後のノードとする。

ステップＳ５２０において、現在の段落の段落レベルと最後のノードの段落レベルとを比較する。

ステップＳ５３０において、比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加する。

ステップＳ５４０において、現在の段落の次の段落を新たな現在の段落とし、現在の段落の対応する段落ノードを新たな最後のノードとする。

ステップＳ５５０において、新たな現在の段落と新たな最後のノードとについて、現在の段落の段落レベルと最後のノードの段落レベルとを比較し、比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加するステップを繰り返し実行する。

本発明の実施形態は、ループ構造を用いて階層構造を有する文書タイトルツリーを構築し、構築された文書タイトルツリーは、文書段落の間の階層入れ子関係を明確に表すことができ、文書全体を構造化し、構造化されていない文書の処理及び情報マイニングが困難であるという問題を克服することができる。

１つの実施形態において、ステップＳ５３０において、比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加することは、以下を含む。

現在の段落の段落レベルが最後のノードの段落レベルよりも高い場合に、最後のノードの親ノードを新たな最後のノードとし、現在の段落の段落レベルと最後のノードの段落レベルとを比較するステップ繰り返し実行する。

現在の段落の段落レベルが最後のノードの段落レベルよりも低い場合に、現在の段落の対応する段落ノードを最後のノードの子ノードとする。

本発明の実施形態は、１層ずつ逐次的な比較を通して、現在の段落に対応する段落ノードを文書タイトルツリーに挿入し、最終的にソートのある順序付けられた文書タイトルツリーとして構築し、後続の文書検査、文書検索、文書理解、および情報マイニングなどの応用のために頼りのある基礎を提供する。

本発明の実施形態において、文書タイトルツリーの階層関係を取得するために、現在の段落の文書タイトルの対応する重みを比較することにより、文書タイトルツリー内に入れるノードの位置を決定する。例として、構築過程は以下の通りになる。

１）文書ルートノードを新たに作成し、かつ、重み０を付与する。

２）文書段落の集合をトラバーサルし、入力された現在の段落の対応する重みを判定し、該重みに基づいて現在の段落の対応するノードを新たに作成する。

３）文書タイトルツリーの最後のノードと現在の段落のノードとの重みの大小を比較する。ここで、初期状態では、処理されるべき文書における１番目の段落を現在の段落とし、ルートノードを文書タイトルツリーの最後のノードとする。次の各ループでは、現在の段落と最後のノードとを改めて決定することができる。

具体的な比較方法は以下の通りとなる。

現在の段落ノードの重みが文書タイトルツリーの最後のノードの重みよりも小さい場合に、現在の段落の段落レベルは最後のノードの段落レベルよりも高くなる。即ち最後のノードの親ノードを新たな最後のノードとし、続けて最後のノードの親ノードの重みと現在の段落ノードの重みとを比較し、最後のノードの重みが現在の段落のノードの重みよりも小さくなるまで続ける。比較結果に基づいて、現在の段落のノードを文書タイトルツリーに統合する。

図６は、本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリーを示す図である。図６に示すように、現在のタイトルツリーにおいて、「ｒｏｏｔ：０」はルートノードを表し、「ｎｏｄｅ１：１」はｎｏｄｅ１ノードの重みが１であることを表し、「ｎｏｄｅ３：１」はｎｏｄｅ３ノードの重みが１であることを表し、「ｎｏｄｅ２：１００」はｎｏｄｅ２ノードの重みが１００であることを表し、「ｎｏｄｅ４：１００」は、ｎｏｄｅ４ノードの重みが１００であることを表す。現在結合する必要のある段落ノードｎｏｄｅ５の重みが３だとすると、ｎｏｄｅ５より前の、結合される最後の文書タイトルのノードはｎｏｄｅ４である。即ち、まず文書タイトルツリーの最後のノードｎｏｄｅ４とｎｏｄｅ５との重みを比較し、ｎｏｄｅ４の重み１００はｎｏｄｅ５の重み３よりも大きいため、引き続きｎｏｄｅ４の親ノードであるｎｏｄｅ３とｎｏｄｅ５との重みを比較する。ｎｏｄｅ３の重みはｎｏｄｅ５の重みよりも小さいため、比較を終了する。ｎｏｄｅ５をツリーに統合し、即ち、ｎｏｄｅ５の親ノードはｎｏｄｅ３を指し、ｎｏｄｅ３は子ノードｎｏｄｅ５を追加する。

４）文書段落の集合におけるすべての段落が統合されたか否かを判定し、すべての段落の統合が終了している場合、プログラムを終了し、そうでない場合、ステップ２）とステップ３）を繰り返し実行する。

図７は、本発明の実施形態による文書タイトルツリーの構築方法のフローチャート図である。図７に示すように、処理されるべきｗｏｒｄ文書を段落の集合に分割し、まず、予め定義された規則の規則マッチングの方法を用いて段落の識別を行う。ここで、規則マッチングは、タイトルフォーマット制限、タイトルデータマッチング、キーワードマッチングを含む。規則マッチングが失敗した場合に、モデル判定の方法を通して段落の識別を行う。例えば、具体的にはＬＴＳＭモデルを用いて、品詞特徴と単語ベクトル特徴とを学習することを通して段落を識別することができる。規則マッチングが成功した場合に、段落の内容を文書タイトルツリーに統合し、具体的なステップとして、ルートノードの作成、ノードタイトルレベルの比較、および親ノードの関連を含む。段落の集合がすべて統合された場合に、文書タイトルツリーの構築を完了する。以上のプロセスの具体的な方法および実現方式は前述したとおりであり、ここでは再度言及しない。

図８は、本発明の実施形態による文書タイトルツリーの構築装置を示す図である。図８に示すように、本実施形態に係る文書タイトルツリーの構築装置は、以下を含む。

予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と前記予め定義された規則における段落特徴とを規則マッチングするためのマッチングユニット１００。

規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定するための第１決定ユニット２００。

規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定するための第２決定ユニット３００。

各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築するための構築ユニット４００。

１つの実施形態において、前記機械学習モデルは、長・短期記憶ネットワークモデルを含み、
前記第２決定ユニット３００は、
現在の段落から単語ベクトルシーケンス特徴と品詞シーケンス特徴とを抽出することと、
単語ベクトルシーケンス特徴と品詞シーケンス特徴とを機械学習モデルに入力することと、
機械学習モデルを用いて処理されるべき文書における各段落の段落レベルを出力することと、に用いられる。

１つの実施形態において、予め定義された規則における段落特徴は、文書本文特徴を含み、
第１決定ユニット２００は、
処理されるべき文書における現在の段落と文書本文特徴とのマッチングが成功した場合に、現在の段落の段落レベルを文書本文として決定すること、に用いられる。

１つの実施形態において、予め定義された規則における段落特徴は、文書タイトルのタイトル内容より前の数字符号のフォーマットを含み、
第１決定ユニット２００は、
文書タイトルのタイトル内容より前に数字符号が含まれると識別した場合に、サンプル文書に基づき、各タイトルレベルからなるタイトルレベル集合を取得し、かつ、各タイトルレベルの対応する数字符号のフォーマットの正規表現を取得することと、
現在の段落におけるタイトル内容より前の数字符号のフォーマットと各タイトルレベルの対応する正規表現とをマッチングし、マッチングした結果に基づいて、現在の段落のタイトルレベルを決定することと、に用いられる。

１つの実施形態において、予め定義された規則における段落特徴は、キーワード集合を含み、キーワード集合は、ブラックリストとホワイトリストとを含み、ブラックリストは、文書タイトルに含まれるキーワードを含み、ホワイトリストは、文書タイトルに含まれないキーワードを含み、
第１決定ユニット２００は、
現在の段落のテキストとキーワード集合とをマッチングすることと、
現在の段落のテキストとホワイトリストとのマッチングが成功した場合に、現在の段落の段落レベルを予め設定された、ホワイトリストに対応するタイトルレベルとして決定することと、
現在の段落のテキストとブラックリストとのマッチングが成功した場合に、現在の段落の段落レベルを文書本文として決定することと、に用いられる。

図９は、本発明の他の実施形態による文書タイトルツリーの構築装置における構築ユニットを示す図である。図９に示すように、１つの実施形態において、構築ユニット４００は、以下を含む。

文書タイトルツリーのルートノードを作成し、かつ、ルートノードの対応する段落レベルを最高レベルとして割り当てるための作成サブユニット４１０。

処理されるべき文書における各段落の段落レベルに基づいて、各段落の対応する段落ノードを文書タイトルツリーに追加するための追加サブユニット４２０。

１つの実施形態において、追加サブユニット４２０は、
処理されるべき文書における１番目の段落を現在の段落とし、ルートノードを文書タイトルツリーの最後のノードとすることと、
現在の段落の段落レベルと最後のノードの段落レベルとを比較することと、
比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加することと、
現在の段落の次の段落を新たな現在の段落とし、現在の段落の対応する段落ノードを新たな最後のノードとすることと、
新たな現在の段落と新たな最後のノードとについて、現在の段落の段落レベルと最後のノードの段落レベルとを比較し、比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加するステップを繰り返し実行することと、に用いられる。

１つの実施形態において、追加サブユニット４２０は、
現在の段落の段落レベルが最後のノードの段落レベルよりも高い場合に、最後のノードの親ノードを新たな最後のノードとし、現在の段落の段落レベルと最後のノードの段落レベルとを比較するステップ繰り返し実行することと、
現在の段落の段落レベルが最後のノードの段落レベルよりも低い場合に、現在の段落の対応する段落ノードを最後のノードの子ノードとすることと、に用いられる。

本発明の実施形態における各装置の各モジュールの機能は、上述の方法の対応する説明を参照してもよく、ここでは繰り返し説明することを省略する。

本発明の実施形態によれば、本発明は、電子設備および可読記憶媒体をさらに提供する。

図１０に示すよう、本発明の実施形態による文書タイトルツリーの構築方法を実現する電子設備のブロック図である。電子設備は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子設備は携帯情報端末、携帯電話、スマートフォン、装着可能デバイス、およびその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は例示的なものに過ぎず、本発明で説明されたものおよび／または要求される本発明の実施を制限することは意図されない。

図１０に示すよう、当該電子設備は、１つ又は複数のプロセッサ１００１と、メモリ１００２と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子設備内で実行される命令を処理してもよく、また、外部入出力デバイス（例えば、インターフェースに接続された表示デバイス）にグラフィックユーザインターフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ、ＧＵＩ）を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態において、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子設備を接続してもよく、各デバイスは、部分的に必要な動作、例えば、サーバアレイ、ブレードサーバの集合、またはマルチプロセッサシステムとして、提供する。図１０においてプロセッサ１００１を例とする。

メモリ１００２は、本発明にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本発明で提供される文書タイトルツリーの構築方法を少なくとも１つのプロセッサに実行させるように、少なくとも１つのプロセッサによって実行されることができる命令を記憶する。本発明における非一過性のコンピュータ可読記憶媒体は、本発明で提供された文書タイトルツリーの構築方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ１００２は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラムおよびモジュールを記憶するために使用されてもよく、本発明の実施形態における文書タイトルツリーの構築方法に対応するプログラム命令／モジュール、（例えば、図８に示される、マッチングユニット１００、第１決定ユニット２００、第２決定ユニット３００、構築ユニット４００及び図９に示される、作成サブユニット４１０、追加サブユニット４２０）である。プロセッサ１００１は、メモリ１００２に記憶されている非一過性のソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、即ち上述した方法に関する実施形態に係る文書タイトルツリーの構築方法を実行する。

メモリ１００２は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、文書タイトルツリーの構築方法に係る電子設備の使用によって生成されたデータなどを記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ１００２は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態において、メモリ１００２はオプションとして、プロセッサ１００１に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して文書タイトルツリーの構築方法に係る電子設備に接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。

本発明の実施形態の文書タイトルツリーの構築方法に対応する電子設備は、入力装置１００３と出力装置１００４とをさらに含むことができる。プロセッサ１００１、メモリ１００２、入力装置１００３、および出力装置１００４は、バスまたは他の方法で接続されてもよく、図１０ではバスを介して接続されている。

入力装置１００３は、入力された数字または文字を受信し、文書タイトルツリーの構築方法に係る電子設備のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどを含むことができる。出力装置１００４は、表示装置、補助照明装置（例えばＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）などを含むことができる。この表示装置は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、発光ダイオード（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＬＥＤ）ディスプレイおよびプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本発明におけるシステムおよび技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムにおいて実装されてもよく、この１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、および／または解釈されてもよく、このプログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置より、データと命令を受信し、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置に、データと命令を送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう）は、プログラマブルプロセッサのマシン命令を含み、過程指向および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／マシン言語を用いてこれらの計算プログラムを実施することができる。本発明で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＰＬＤ）を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのイントラクションを提供するために、本発明で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ブラウン管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、入力をコンピュータに提供するためのキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、いかなる形式（音響入力、音声入力、または触覚入力を含む）で受信されてもよい。

本発明で説明されているシステムおよび技術は、バックグラウンド構成要素を含む計算システム（例えば、データサーバとして）、または中間部構成要素を含む計算システム（例えば、アプリケーションサーバ）、または、フロントエンド構成要素を含む計算システム（例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェースまたはネットワークブラウザを介して本発明で説明されたシステムおよび技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ）に実行されてもよく、または、このようなバックグラウンド構成要素、中間部構成要素、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮ）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ＷＡＮ）およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。

本発明の実施形態は、様々な構造化されていない文書のタイトルの識別と文書タイトルツリーの構築に適応し、予め定義された規則と機械学習モデルとの組み合わせに基づく方式は、比較的強いフォールトトレランスを有し、識別結果がさらに正確となる。

上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本発明で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本発明で開示された技術案が所望する結果を実現することができる限り、本発明ではこれに限定されない。

上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、および代替が可能であることを理解するべきである。本発明の要旨および原則内における変更、均等な置換および改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims

文書タイトルツリーの構築装置により実行される、文書タイトルツリーの構築方法であって、
予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と前記予め定義された規則における段落特徴とを規則マッチングすることと、
規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することと、
規則マッチングが失敗した場合に、機械学習モデルを用いて、前記処理されるべき文書における各段落の段落レベルを決定することと、
前記各段落の段落レベルに基づき、前記処理されるべき文書の文書タイトルツリーを構築することと、を含み、
前記予め定義された規則における段落特徴は、文書タイトルのタイトル内容より前の数字符号のフォーマットを含み、
前記規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することは、
様々なシーンにおいて使用されるサンプル文書を予め収集し、サンプル文書から、数字から始まる複数のタイトル段落を抽出し、前記複数のタイトル段落から、各種の異なる数字符号のフォーマットを取得し、前記数字符号のフォーマットの各々によって表れた異なるタイトルレベルの各々の取得によって、前記タイトルレベルの各々からなるタイトルレベル集合及び前記タイトルレベルの各々に対応する数字符号のフォーマットの正規表現を取得し、前記文書タイトルのタイトル内容より前に数字符号が含まれると識別した場合に、現在の段落におけるタイトル内容より前の数字符号のフォーマットと前記タイトルレベルの各々の対応する正規表現とをマッチングし、マッチングした結果に基づいて、現在の段落のタイトルレベルを決定すること、を含む、
ことを特徴とする文書タイトルツリーの構築方法。
前記機械学習モデルは、長・短期記憶ネットワークモデルを含み、
前記規則マッチングが失敗した場合に、機械学習モデルを用いて、前記処理されるべき文書における各段落の段落レベルを決定することは、
現在の段落から単語ベクトルシーケンス特徴と品詞シーケンス特徴とを抽出することと、
前記単語ベクトルシーケンス特徴と前記品詞シーケンス特徴とを機械学習モデルに入力することと、
前記機械学習モデルを用いて前記処理されるべき文書における各段落の段落レベルを出力することと、を含む
ことを特徴とする請求項１に記載の文書タイトルツリーの構築方法。
前記予め定義された規則における段落特徴は、文書本文特徴を含み、
前記規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することは、
前記処理されるべき文書における現在の段落と前記文書本文特徴とのマッチングが成功した場合に、前記現在の段落の段落レベルを文書本文として決定すること、を含む
ことを特徴とする請求項１または２に記載の文書タイトルツリーの構築方法。
前記予め定義された規則における段落特徴は、キーワード集合を含み、
前記キーワード集合は、ブラックリストとホワイトリストとを含み、
前記ブラックリストは、文書タイトルに含まれるキーワードを含み、
前記ホワイトリストは、文書タイトルに含まれないキーワードを含み、
前記規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することは、
前記現在の段落のテキストと前記キーワード集合とをマッチングすることと、
前記現在の段落のテキストと前記ホワイトリストとのマッチングが成功した場合に、前記現在の段落の段落レベルを予め設定された、ホワイトリストに対応するタイトルレベルとして決定することと、
前記現在の段落のテキストと前記ブラックリストとのマッチングが成功した場合に、前記現在の段落の段落レベルを文書本文として決定することと、を含む
ことを特徴とする請求項１～３のいずれか一項に記載の文書タイトルツリーの構築方法。
前記各段落の段落レベルに基づき、前記処理されるべき文書の文書タイトルツリーを構築することは、
文書タイトルツリーのルートノードを作成し、かつ、前記ルートノードの対応する段落レベルを最高レベルとして割り当てることと、
前記処理されるべき文書における各段落の段落レベルに基づいて、前記各段落の対応する段落ノードを前記文書タイトルツリーに追加することと、を含む
ことを特徴とする請求項１～４のいずれか一項に記載の文書タイトルツリーの構築方法。
前記処理されるべき文書における各段落の段落レベルに基づいて、前記各段落の対応する段落ノードを前記文書タイトルツリーに追加することは、
処理されるべき文書における１番目の段落を現在の段落とし、前記ルートノードを前記文書タイトルツリーの最後のノードとすることと、
前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較することと、
前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することと、
前記現在の段落の次の段落を新たな現在の段落とし、前記現在の段落の対応する段落ノードを新たな最後のノードとすることと、
前記新たな現在の段落と前記新たな最後のノードとについて、前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較し、前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することを繰り返し実行することと、を含む
ことを特徴とする請求項５に記載の文書タイトルツリーの構築方法。
前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することは、
前記現在の段落の段落レベルが前記最後のノードの段落レベルよりも高い場合に、前記最後のノードの親ノードを新たな最後のノードとし、前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較することを繰り返し実行することと、
前記現在の段落の段落レベルが前記最後のノードの段落レベルよりも低い場合に、前記現在の段落の対応する段落ノードを前記最後のノードの子ノードとすることと、を含む
ことを特徴とする請求項６に記載の文書タイトルツリーの構築方法。
予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と前記予め定義された規則における段落特徴とを規則マッチングするためのマッチングユニットと、
規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定するための第１決定ユニットと、
規則マッチングが失敗した場合に、機械学習モデルを用いて、前記処理されるべき文書における各段落の段落レベルを決定するための第２決定ユニットと、
前記各段落の段落レベルに基づき、前記処理されるべき文書の文書タイトルツリーを構築するための構築ユニットと、を備え、
前記予め定義された規則における段落特徴は、文書タイトルのタイトル内容より前の数字符号のフォーマットを含み、
前記第１決定ユニットは、
様々なシーンにおいて使用されるサンプル文書を予め収集し、サンプル文書から、数字から始まる複数のタイトル段落を抽出し、前記複数のタイトル段落から、各種の異なる数字符号のフォーマットを取得し、前記数字符号のフォーマットの各々によって表れた異なるタイトルレベルの各々の取得によって、前記タイトルレベルの各々からなるタイトルレベル集合及び前記タイトルレベルの各々に対応する数字符号のフォーマットの正規表現を取得し、前記文書タイトルのタイトル内容より前に数字符号が含まれると識別した場合に、現在の段落におけるタイトル内容より前の数字符号のフォーマットと前記タイトルレベルの各々の対応する正規表現とをマッチングし、マッチングした結果に基づいて、現在の段落のタイトルレベルを決定することに用いられる、ことを特徴とする文書タイトルツリーの構築装置。
前記機械学習モデルは、長・短期記憶ネットワークモデルを含み、
前記第２決定ユニットは、
現在の段落から単語ベクトルシーケンス特徴と品詞シーケンス特徴とを抽出することと、
前記単語ベクトルシーケンス特徴と前記品詞シーケンス特徴とを機械学習モデルに入力することと、
前記機械学習モデルを用いて前記処理されるべき文書における各段落の段落レベルを出力することと、に用いられる
ことを特徴とする請求項８に記載の文書タイトルツリーの構築装置。
前記予め定義された規則における段落特徴は、文書本文特徴を含み、
前記第１決定ユニットは、
前記処理されるべき文書における現在の段落と前記文書本文特徴とのマッチングが成功した場合に、前記現在の段落の段落レベルを文書本文として決定すること、に用いられる
ことを特徴とする請求項８又は９に記載の文書タイトルツリーの構築装置。
前記予め定義された規則における段落特徴は、キーワード集合を含み、
前記キーワード集合は、ブラックリストとホワイトリストとを含み、
前記ブラックリストは、文書タイトルに含まれるキーワードを含み、
前記ホワイトリストは、文書タイトルに含まれないキーワードを含み、
前記第１決定ユニットは、
前記現在の段落のテキストと前記キーワード集合とをマッチングすることと、
前記現在の段落のテキストと前記ホワイトリストとのマッチングが成功した場合に、前記現在の段落の段落レベルを予め設定された、ホワイトリストに対応するタイトルレベルとして決定することと、
前記現在の段落のテキストと前記ブラックリストとのマッチングが成功した場合に、前記現在の段落の段落レベルを文書本文として決定することと、に用いられる
ことを特徴とする請求項８～１０のいずれか一項に記載の文書タイトルツリーの構築装置。
前記構築ユニットは、
文書タイトルツリーのルートノードを作成し、かつ、前記ルートノードの対応する段落レベルを最高レベルとして割り当てるための作成サブユニットと、
前記処理されるべき文書における各段落の段落レベルに基づいて、前記各段落の対応する段落ノードを前記文書タイトルツリーに追加するための追加サブユニットと、を備える
ことを特徴とする請求項８～１１のいずれか一項に記載の文書タイトルツリーの構築装
置。
前記追加サブユニットは、
処理されるべき文書における１番目の段落を現在の段落とし、前記ルートノードを前記文書タイトルツリーの最後のノードとすることと、
前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較することと、
前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することと、
前記現在の段落の次の段落を新たな現在の段落とし、前記現在の段落の対応する段落ノードを新たな最後のノードとすることと、
前記新たな現在の段落と前記新たな最後のノードとについて、前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較し、前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することを繰り返し実行することと、に用いられる
ことを特徴とする請求項１２に記載の文書タイトルツリーの構築装置。
前記追加サブユニットは、
前記現在の段落の段落レベルが前記最後のノードの段落レベルよりも高い場合に、前記最後のノードの親ノードを新たな最後のノードとし、前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較することを繰り返し実行することと、
前記現在の段落の段落レベルが前記最後のノードの段落レベルよりも低い場合に、前記現在の段落の対応する段落ノードを前記最後のノードの子ノードとすることと、に用いられる
ことを特徴とする請求項１３に記載の文書タイトルツリーの構築装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、
前記命令は、前記少なくとも１つのプロセッサにより実行されると、請求項１～７のいずれか一項に記載の文書タイトルツリーの構築方法を実行させることを特徴とする電子設備。
請求項１～７のいずれか一項に記載の文書タイトルツリーの構築方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行されると、請求項１～７のいずれか一項に記載の文書タイトルツリーの構築方法を実現することを特徴とするプログラム。