JP7283547B2

JP7283547B2 - 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム

Info

Publication number: JP7283547B2
Application number: JP2021536582A
Authority: JP
Inventors: 済央野本; 久子浅野; 準二富田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2023-05-30
Anticipated expiration: 2039-08-01
Also published as: JPWO2021019773A1; WO2021019773A1; US20220269856A1

Description

本発明は、構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラムに関する。

近年、ニューラルネットワークによる自然言語処理が急速に発展している。例えば、機械読解技術においても進歩が認められる（例えば、非特許文献１）。機械読解技術とは、テキストを知識源とした自然言語理解に基づく質問応答を可能にする技術であり、質問に対する回答をテキスト中から自動で見つけてくる技術である。

K. Nishida, I. Saito, A. Otsuka, H. Asano, and J. Tomita："Retrieve-and-read: Multi-task learning of information retrieval and reading comprehension," Proc. of CIKM 2018, pp.647-656, Torino, Italy, Oct. 2018.

機械読解技術等、ニューラルネットワークによる自然言語処理において用いられる文書集合は、構造を持たないテキストであることが前提である。一方、ニューラルネットワークによる構造化文書の処理には構造情報の理解が必要とされるため、構造化文書は、そのままの状態では、ニューラルネットワークへの適用が困難である。

本発明は、上記の点に鑑みてなされたものであって、構造化文書に対するニューラルネットワークの適用を容易にすることを目的とする。

そこで上記課題を解決するため、構造化文書処理学習装置は、構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出部と、抽出された文字列を結合する結合部と、前記結合部による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換部と、前記変換後文書と、前記変換後文書に対する所定の処理を行う際の正解情報とを入力として、前記所定の処理を実行するニューラルネットワークの学習を行う学習部と、を有する。

構造化文書に対するニューラルネットワークの適用を容易にすることができる。

ＨＴＭＬ文書におけるタグの構造的意味を説明するための図である。第１の実施の形態における構造化文書処理装置１０のハードウェア構成例を示す図である。第１の実施の形態における構造化文書処理装置１０の学習時の機能構成例を示す図である。第１の実施の形態の構造化文書処理装置１０が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。階層構造の解析を説明するめの図である。部分構造の抽出例を示す図である。第１の実施の形態における構造化文書処理装置１０のタスクの実行時の機能構成例を示す図である。質問に対する回答を含むＨＴＭＬ文書の表示例を示す図である。第２の実施の形態における構造化文書処理装置１０の学習時の機能構成例を示す図である。第２の実施の形態の構造化文書処理装置１０が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。抽出部１１３による抽出結果の一例を示す図である。メタ文字列及び内容文字列の結合例を示す図である。メタ文字列の縮退例を示す図である。第３の実施の形態における構造化文書処理装置１０の学習時の機能構成例を示す図である。第３の実施の形態の構造化文書処理装置１０が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。表の変換例を示す図である。実験結果を示す図である。

以下、図面に基づいて本発明の実施の形態を説明する。本実施の形態では、ＨＴＭＬ（HyperText Markup Language）によって記述された文書（ＨＴＭＬ文書）を構造化文書の一例として説明する。また、自然言語処理を実行するニューラルネットワークとして、機械読解技術に関するニューラルネットワーク（以下、「機械読解モデル」という。）を一例として説明する。但し、例えば、ＸＭＬ（eXtensible Markup Language）等、他の形式によって記述される構造化文書に対して本実施の形態が適用されてもよい。また、自動要約や文書分類処理等、機械読解以外の各種の自然言語処理に対して本実施の形態が適用されてもよい。

本実施の形態では、ＨＴＭＬ文書について、機械読解モデルにとって読解可能な形式であって、かつ、構造情報が保持された形式でのテキストへの変換方法が開示される。

ＨＴＭＬ文書のような構造化文書を機械読解モデルに読解させるに際に、当該構造化文書の木構造等、構造を表現する文字列（以下、「メタ文字列」という。）によって区切られた単位（要素）ごとに読解させることが考えられる。なお、ＨＭＴＬ文書では、ＨＭＴＬタグがメタ文字列に該当する。

しかし、この方法は、以下の理由により現実的ではないと考えられる。
・同じ記載内容でも様々なＨＴＭＬ表現方法がある。
・同じメタ文字列（ＨＴＭＬタグ）でも文書毎に使われ方（意味合い）が異なる。
・メタ文字列（ＨＴＭＬタグ）を普通の単語と同様に扱って読解させるのは難しい。

そこで、構造化文書における「構造」とは何かについて検討すると、構造化文書の構造において重要なのは、メタ文字列の種類（タグの種類）ではなく、メタ文字列が表現する、メタ文字列で囲まれた要素間の上下関係（包含関係）及び並列関係であると考えられる。

図１は、ＨＴＭＬ文書におけるタグの構造的意味を説明するための図である。図１に示されるＨＴＭＬ文書の構造情報において、タグｔ１が有する構造的意味は、例えば、以下の３つの意味である。
・「提供条件」の下位
・「ｘｘｘＴＶの・・・」の上位
・「契約可能数」と並列
そこで、第１の実施の形態では、タグの構造的意味が一意に決まるようにＨＴＭＬ文書の構造を分割してタグの揺らぎを解消することで、当該ＨＴＭＬ文書について、機械読解モデルにとって読解可能であって、かつ、当該ＨＴＭＬ文書の構造情報が保持された形式へ変換が行われる。

図２は、第１の実施の形態における構造化文書処理装置１０のハードウェア構成例を示す図である。図２の構造化文書処理装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

構造化文書処理装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って構造化文書処理装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

図３は、第１の実施の形態における構造化文書処理装置１０の学習時の機能構成例を示す図である。図３において、構造化文書処理装置１０は、構造変換部１１及び学習部１２等を有する。また、構造変換部１１は、構造解析部１１１及び構造分割部１１２を含む。これら各部は、構造化文書処理装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。構造化文書処理装置１０は、また、変換後文書記憶部１２１及び学習パラメータ記憶部１２２を利用する。これら各記憶部は、例えば、補助記憶装置１０２、又は構造化文書処理装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。なお、構造変換部１１と学習部１２とは、相互に異なるコンピュータを用いて実現されてもよい。

以下、第１の実施の形態の構造化文書処理装置１０が機械読解モデルの学習時に実行する処理手順について説明する。図４は、第１の実施の形態の構造化文書処理装置１０が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。図４では、学習データを構成する構造化文書集合に含まれる構造化文書ごと（１つのＨＴＭＬ文書ごと）に、ステップＳ１１０及びループ処理Ｌ２を含むループ処理Ｌ１が実行される。以下、ループ処理Ｌ１において処理対象とされている構造化文書を、以下「対象文書」という。

ステップＳ１１０において、構造解析部１１１は、対象文書の階層構造（木構造）を解析（抽出又は特定）し、解析結果（抽出結果又は特定結果）として、当該階層構造を示す情報（タグ間の上下関係（親子関係）や並列関係（兄弟関係）を示す情報、以下、「構造情報」という。）を出力する。

図５は、階層構造の解析を説明するめの図である。図５には、ＨＴＭＬ文書ｄ１が対象文書である場合に、解析結果として得られる構造情報ｓ１の一例が示されている。図５に示されるように、構造情報ｓ１は、メタ文字列（タグ）及びメタ文字列で囲まれた要素の値（以下、「内容文字列」という。）をノードとする木構造を示す情報である。なお、構造情報は、階層構造を示すことが可能であれば、どのような形式の情報であってもよい。

なお、構造の解析には、Bｅｕｔｉｆｕｌ Sｏｕｐ（https://www.crummy.com/software/BeautifulSoup/bs4/doc/）等、既存のツールが利用されてもよい。

続いて、構造分割部１１２は、構造情報ｓ１の葉ノードごと（末端のノードごと）に、ステップＳ１２０を含むループ処理Ｌ２を実行する。以下、ループ処理Ｌ２において処理対象の葉ノードを「対象ノード」という。

ステップＳ１２０において、構造分割部１１２は、構造情報ｓ１において、対象ノードから一つずつ親ノードを再帰的に辿ることで、対象ノードからルートノードまでの経路を特定し、特定した経路を対象ノードに対する部分構造として抽出する。なお、各経路のノードは、当該ノードに対応するメタ文字列及び内容文字列に対応する。

図６は、部分構造の抽出例を示す図である。図６には、構造情報ｓ１の全ての葉ノードについて部分構造が抽出された例が示されている。すなわち、図６には、構造情報ｓ１が示す階層構造が、部分構造ｓ１－１～ｓ１－３の３つの部分構造に分割された例が示されている。抽出された各部分構造は枝を持たない１本の木構造となる。各部分構造が１本の木構造となることで、ＨＴＭＬタグの持つ構造的意味を話題の上位下位関係だけに集約することができる。これにより，様々なスタイルのＨＴＭＬ文書に対して頑健に機械読解することが可能となる。

全ての葉ノードについてステップＳ１２０が実行されると、構造分割部１１２は、葉ノードごとに抽出された各部分構造をまとめて１つの文書にテキスト化することで、対象文書に対する一つの変換後の文書（以下、「変換後文書」という。）を生成し、当該変換後文書を変換後文書記憶部１２１に保存する（Ｓ１３０）。部分構造のテキスト化とは、当該部分構造をＨＴＭＬ文書に復元することをいう。但し、当該テキスト化において、各タグは、そのまま復元されるのではなく、削除されてしまってもよい。この場合、変換後文書は、メタ文字列を含まないテキストデータとなる。又は、各タグが、「＠＠＠＠」のような、構造情報を表す擬似単語に変換されてもよい。この場合、変換後文書は、各タグが共通の擬似単語に変換されたテキストデータとなる。更に、各タグが、タグによる境界が有ったことを示す所定の文字列に縮退されてもよい。斯かる縮退については、第２の実施の形態について詳細に説明する。以下、擬似単語及び縮退後の文字列をもメタ文字列の概念に含む。なお、上記のテキスト化は、階層構造に寄与しないタグ（改行タグやフォントタグ、ｓｐａｎタグ等）が除去された後で行われてもよい。

学習データの構造化文書集合に含まれる全ての構造化文書（ＨＴＭＬ文書）についてループ処理Ｌ１が実行されると、学習部１２は、学習データの質問及び回答のペアの集合と、変換後文書の集合とを機械読解モデルへの入力として、機械読解モデルの学習処理を実行し、学習結果として得られる、読解モデルの学習パラメータの値を学習パラメータ記憶部１２２に記憶する（Ｓ１４０）。機械読解モデルの学習は、公知の方法を用いて行われればよい。例えば、非特許文献１に開示されている、情報検索タスクの損失と機械読解タスクの損失とを結合した結果を最小化するマルチタスク学習が行われてもよい。但し、変換後文書にメタ文字列が含まれる場合には、学習処理において、メタ文字列は、１つの単語として扱われればよい。

但し、変換後文書にメタ文字列が含まれる場合、変換後文書記憶部１２１に保存された各変換後文書に対して、正解情報（機械読解については、学習データに含まれる質問ごとに、該質問に対する回答の箇所（回答の範囲））を示す情報（アノテーション）を付加しておく。その結果、学習部１２には、アノテーションが付加された変換後文書が入力される。すなわち、学習部１２は、アノテーションが付加された変換後文書を入力として、学習処理を実行する。そうすることで、構造化文書において階層構造を意味するメタ文字列（ＨＴＭＬタグ）の読み方について、機械読解モデルによる学習を促進させることができる。なお、アノテーションが示す正解情報の範囲は、例えば、メタ文字列によって区切られる範囲（開始タグと終了タグとの間）であってもよいし、或る内容文字列であってもよいし、或る内容文字列における一部分であってもよい。また、正解情報は、アノテーションの形式で付加されなくてもよい。例えば、変換後文書の内容に対応した正解情報が、変換後文書とは別に学習部１２へ入力されるようにしてもよい。ここで、「変換後文書の内容に対応した正解情報」とは、質問応答の場合、回答を示す文字列であり、文書要約の場合、変換後文書から作成された正解要約文であり、文書分類の場合、変換後文書それぞれの分類結果（木構造に基づき、入力文書が複数の変換後文書に分割される場合、要約文や分類先が、変換後文書ごとに異なる可能性がある。）である。

次に、タスク（機械読解）の実行時について説明する。図７は、第１の実施の形態における構造化文書処理装置１０のタスクの実行時の機能構成例を示す図である。図７中、図３と同一部分には、同一符号を付し、その説明は省略する。

図７において、構造化文書処理装置１０は、学習部１２の代わりに読解部１３を有する。読解部１３は、構造化文書処理装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。

読解部１３は、学習パラメータ記憶部１２２に記憶された学習パラメータを機械読解モデルに設定することで、学習済みの機械読解モデルを生成し、当該学習済みの機械読解モデルに対して、質問と、当該質問に対する回答を含む文書の候補群とを入力する。当該質問に対する回答を含む文書の候補群とは、入力として与えられる構造化文書集合について構造変換部１１によって生成される変換後文書の集合をいう。機械読解モデルは、変換後文書の集合の中から質問に対する回答を抽出し、抽出した回答を出力する。変換後文書が機械読解モデルへの入力とされることで、構造化文書に記述されていることに関する質問に対する回答の精度を、構造化文書がそのまま機械読解モデルに入力される場合に比べて向上させることができる。

例えば、図８に示されるように表示されるＨＴＭＬ文書が入力される場合、「日次で容量追加をした場合いつまで使えますか」という質問に対して、記述ｐ１、ｐ２及びｐ３等に基づいて「当日２３：５９まで使い放題」という回答を読解部１３は出力する。

上述したように、第１の実施の形態によれば、構造化文書を構成するメタ文字列及び内容文字列の上下関係が保持され、かつ、並列関係にあった内容文字列を含まないように、構造化文書が複数の変換後文書に分割される。したがって、構造化文書における構造が反映された状態で変換後文書が生成される。よって、構造化文書に対するニューラルネットワークの適用を容易にすることができる。

また、機械読解技術では、文のつながりや接続詞の使われ方等から、"どういう風に読むべきか"が学習されるところ、変換後文書に含まれるメタ文字列は、文や単語の繋がりを表す、擬似的な単語の役割を果たす。したがって、本実施の形態は、機械読解技術のニューラルネットワークに対して特に効果的である。

なお、本実施の形態では、構造化文書集合に含まれる構造化文書ごとに変換後文書が生成される（すなわち、構造化文書と変換後文書とが１対１に対応する）例について説明したが、部分構造ごとに変換後文書が生成されてもよい。この場合、１つの構造化文書が複数の変換後文書に分割されることになる。

一方、一般的な機械読解技術（非特許文献１に記載のマルチタスク学習を行わない機械読解技術）では、情報検索（文書集合から、回答抽出候補を選定する）と機械読解（文書から回答を見つける）とのモデルを直列に繋いで処理が行われる。したがって、１つの構造化文書が複数の変換後文書に分割される場合（すなわち、構造化文書と変換後文書とが１対多に対応する場合）は、構造化文書と変換後文書とが１対１に対応する場合、又は非構造な文書を入力とする場合に比べて情報検索の時点で正解を含む文書が回答抽出候補から漏れてしまう可能性が高くなると考えられる。

しかし、情報検索と機械読解とを同時に学習する（マルチタスク学習する）機械読解モデルに適用する場合には、情報検索と機械読解のマルチタスク学習により、構造化文書と変換後文書とが１対多に対応する場合であっても、正解を含む変換後文書が回答抽出候補から漏れる可能性を抑えることができる。

次に、第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。第２の実施の形態において特に言及されない点については、第１の実施の形態と同様でもよい。なお、第１の実施の形態においては、構造化文書の構造とは主として階層構造を意味したが、第２の実施の形態において、構造化文書の構造とは、メタ文字列等で示される、内容文字列に対する付加的な情報（例えば、木構造、表構造、強調構造、リンク構造等）を意味する。すなわち、以下においては、便宜上、階層構造を一例として説明するが、階層構造以外の上記構造について、第２の実施の形態が適用されてもよい。

図９は、第２の実施の形態における構造化文書処理装置１０の学習時の機能構成例を示す図である。図９中、図３と同一部分又は対応する部分には同一符号を付し、その説明は適宜省略する。図９に示されるように、第２の実施の形態の構造変換部１１は、構造分割部１１２を含まない一方で、抽出部１１３、結合部１１４及び縮退部１１５を含む。但し、第２の実施の形態において、構造化文書処理装置１０は、縮退部１１５を含まなくてもよい。

図１０は、第２の実施の形態の構造化文書処理装置１０が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。図１０中、図４と同一ステップには同一ステップ番号を付し、その説明は省略する。

ステップＳ１１０に続いて、抽出部１１３は、対象文書について構造解析部１１１によって解析された構造情報（図５の構造情報ｓ１）を参照して、抽出対象とする所定の構造に関する情報、例えば対象文書の階層構造に寄与するメタ文字列及び内容文字列のみを対象文書から抽出する（Ｓ１３５）。換言すれば、抽出部１１３は、抽出対象とする所定の構造を持たない構造情報、例えば、対象文書の階層構造に寄与しないメタ文字列を対象文書から除去（削除）する。対象文書の階層構造に寄与しないメタ文字列とは、構造情報ｓ１においてノードとされていないメタ文字列である。但し、構造解析部１１１による解析結果が、単純に、メタ文字列の上下関係及び並列関係を示すものである場合（すなわち、階層構造に実質的に寄与しないメタ文字列もノードとされる場合）、抽出部１１３は、階層構造に寄与しない特定のメタ文字列（例えば、改行タグ、フォントタグ、ｓｐａｎタグ等）を対象文書から除去（削除）する。

図１１は、抽出部１１３による抽出結果の一例を示す図である。図１１において（１）は、抽出された開始タグ、内容文字列、終了タグがそのままの形式で抽出結果として出力される例である。（２）は、開始タグと内容文字列との組が抽出結果として出力される例である。

続いて、結合部１１４は、抽出部１１３によって抽出されたメタ文字列及び内容文字列を結合する（Ｓ１３６）。

図１２は、メタ文字列及び内容文字列の結合例を示す図である。図１２において［入力例］として示されている要素群（メタ文字列とその内容文字列の集合）は、抽出部１１３から出力された対象文書の一部の一例である。［出力例］は、［入力例］についての結合結果の例である。図１２には、（ａ）～（ｆ）の６つの例が示されている。

（ａ）は、抽出部１１３からの出力される全てのメタ文字列が内容文字列にそのまま結合される例（換言すれば、結合部１１４によって特段の処理が行われない例）である。（ｂ）は、各開始タグのみが各内容文字列に結合される例（各終了タグが省略（除去）される例）である。（ｃ）は、各終了タグのみが各内容文字列に結合される例（各開始タグが省略（除去）される例）である。（ｄ）は、連続する内容文字列の間の終了タグ及び開始タグが当該内容文字列に結合される例である。（ｅ）は、連続する内容文字列の間の開始タグのみが当該内容文字列に結合される例である。（ｆ）は、連続する内容文字列の間の終了タグのみが当該内容文字列に結合される例である。

なお、（ａ）～（ｆ）のいずれの処理が採用されてもよい。また、結合部１１４は、結合に際し、対象文書に含まれる改行コードや連続するスペースを１つのスペースに変換するなどしてもよい。

続いて、縮退部１１５は、抽出部１１３から出力された対象文書の全てのメタ文字列を所定の文字列（例えば、＜ＴＡＧ＞等）に変換することで、各メタ文字列を内容文字列の間にメタ文字列（階層構造の境界）が有ったことを示すだけの情報に縮退させる（Ｓ１３７）。

図１３は、メタ文字列の縮退例を示す図である。図１３には、図１２に示した（ａ）～（ｆ）のそれぞれについて、縮退の結果の一例である（ａ'）～（ｆ'）が示されている。なお、図１３では、各メタ文字列が＜ＴＡＧ＞に変換された例が示されているが、＜ＴＡＧ＞以外の任意の文字列が縮退後の文字列として用いられてもよい。

なお、第２の実施の形態では、縮退部１１５によってメタ文字列が縮退された結果が、対象文書に対する変換後文書とされる。但し、ステップＳ１３７は、構造化文書処理装置１０が縮退部１１５を有する場合に実行される。構造化文書処理装置１０が縮退部１１５を有さない場合には、結合部１１４から出力される文書が対象文書に対する変換後文書とされる。

学習データの構造化文書集合に含まれる全ての構造化文書（ＨＴＭＬ文書）についてループ処理Ｌ１が実行されると、学習部１２は、学習データの質問及び回答のペアの集合と、変換後文書の集合とを機械読解モデルへの入力として、機械読解モデルの学習処理を実行し、学習結果として得られる、読解モデルの学習パラメータの値を学習パラメータ記憶部１２２に記憶する（Ｓ１４０）。

ここで、第２の実施の形態において、構造化文書処理装置１０が縮退部１１５を有する場合には、各メタ文字列は、各メタ文字列が存在したことを表す共通の文字列に縮退されている。したがって、機械読解モデルの学習の効率化を期待することができる。

すなわち、ＨＴＭＬタグの場合、タグの使われ方や記法の自由度が高い。そのため、同じ構造を表現するのに多様なＨＴＭＬタグの使い方が可能となる。ＨＴＭＬタグの汎用的な読み方を機械読解モデルに学習させるためには、様々なスタイルや記法で書かれた大量のＨＴＭＬファイルを準備する必要がありコストが高い。そこで、第２の実施の形態では、ＨＴＭＬタグの境界に着目している。第２の実施の形態では、後段の所定の処理（本実施例では機械読解）に重要な所定の構造（本実施例では階層構造等）のみに着目し、着目した構造情報を、その構造に応じて変換する。また、着目した構造に関する情報以外は、削除するようにしてもよい。すなわち、階層構造の理解にはＨＴＭＬタグの意味が重要なのではなく、異なるタグで囲まれた連続するテキスト間には意味的な繋がりがあることを理解することが重要だからである。したがって、第２の実施の形態では、ＨＴＭＬタグそのものをテキスト化するのではなく、「ＨＴＭＬタグ境界があったか否かだけの情報」等、ＨＴＭＬタグの持つ情報をある程度縮退させたテキストに対して機械読解を適用することで、ＨＴＭＬタグの使われ方の揺らぎを吸収した機械読解モデルを学習することが可能となる。これにより様々なスタイルのＨＴＭＬファイルに対して頑健に機械読解することが可能となる。なお、「異なるタグ」とは、＜ｈ１＞と＜／ｈ１＞とのように、開始タグと終了タグとの違いではなく、＜ｈ２＞と＜ｈ３＞のように、タグの種別の違いを意味する。

なお、一般的にニューラルネットワークを用いた自然言語処理では、入力される文書に含まれる各単語が埋め込みベクトルに変換される。ここで、通常の単語（自然言語において利用される単語）の埋め込みベクトルは、事前に大規模なコーパスなどを用いて作成されたコードブックを利用することが多い。しかし、このようなコードブックは、本実施の形態で利用する、階層構造を意味するメタ文字列（縮退後の文字列も含む）に対応する埋め込みベクトルに対応していない。

そこで、機械読解モデルの学習の前に、各メタ文字列に対応する埋め込みベクトルとして適当な初期値を設定しておき、機械読解モデルの学習時に更新するようにする。又は、変換後の構造化文書の集合を用いて、一般的な単語の埋め込みベクトルを作成するのと同様の手法により、メタ文字列に対応する埋め込みベクトルが取得されてもよい。この点については、第１の実施の形態でも同様である。

また、学習データに含まれる各構造化文書に対して、正解情報（機械読解については、学習データに含まれる質問ごとに、各質問に対する回答の箇所（回答の範囲））を示す情報（アノテーション）を付加しておく。その結果、学習部１２には、アノテーションが付加された変換後文書が入力される。すなわち、学習部１２は、アノテーションが付加された変換後文書を入力として、学習処理を実行する。そうすることで、構造化文書の木構造を表すメタ文字列について、内容文字列の関係性を表す埋め込みベクトル」を学習させることができ、構造化文書（変換後文書）におけるメタ文字列の読み方について、機械読解モデルによる学習を促進させることができる。なお、アノテーションが示す正解情報の範囲は、第１の実施の形態と同様でよい。

なお、構造化文書処理装置１０のタスクの実行時については、第１の実施の形態と同様でよい。但し、構造変換部１１が実行する処理手順は、図１０において説明した通りである。第２の実施の形態において、構造化文書処理装置１０が縮退部１１５を有する場合には、各メタ文字列が縮退された文書が機械読解モデルに入力されるため、構造化文書に未知のメタ文字列が含まれている場合であっても、タスクの精度の低下が抑制されるのを期待することができる。

上述したように、第２の実施の形態においても、構造化文書に対するニューラルネットワークの適用を容易にすることができる。

なお、上記では、抽出対象とする所定の構造として、階層構造を例に説明を行ったが、抽出対象とする所定の構造として、フォントのサイズや、色の指定等によって示される強調構造や、アンカーテキストによって示されるリンク構造等を抽出対象としてもよい。

また、第２の実施の形態では、階層構造に寄与しないメタ文字列が抽出部１１３によって除去される例を示したが、フォントのサイズや、色の指定等によって示される、内容文字列の強調に係るメタ文字列やアンカーテキスト等は、階層構造に寄与しなくても除去されないようにしてもよい。この場合、縮退部１１５は、全てのメタ文字列を共通の文字列に変換するのではなく、構造の種別、つまり階層構造に寄与するメタ文字列と、強調に寄与するメタ文字列と、アンカーテキストとで縮退の方法を区別してもよい。具体的には、縮退部１１５は、階層構造に寄与するメタ文字列と、強調に寄与するメタ文字列と、アンカーテキストとで、縮退後の文字列を変えてもよい。この場合、メタ文字列ごとに、縮退後（変換後）の文字列を示す変換テーブルが予め作成され、縮退部１１５は、当該変換テーブルを参照してメタ文字列の縮退（変換）を行ってもよい。なお、アンカーテキストとは、例えば、「…については＜ａｈｒｅｆ＝"ＵＲＬ"＞こちら＜／ａ＞をご覧ください」の「こちら」部分をいう。

また、上記では、タグ文字列が自然言語としては意味の無い文字列（例えば、＜ＴＡＧ＞）に縮退（変換）される例について説明したが、縮退部１１５は、タグ文字列を自然言語として意味の有る文字列であって、上下関係（対象や関連）を表す文字列（例えば、「について」、「に関して」等）に変換するようにしてもよい。そうすることで、構造化文書の処理を目的とした、特別な学習データの準備やモデル学習を不要にすることができる。したがって、非構造化文書を学習データとして学習を行ったモデルを使って、タスクの実行を行うことが可能となる。

また、斯かる変換（上下関係（対象や関連）を表す文字列（例えば、「について」、「に関して」等）へのタグ文字列の変換）は、第１の実施の形態において構造分割部１１２が実行してもよい。

次に、第３の実施の形態について説明する。第３の実施の形態では第１の実施の形態又は第２の実施の形態と異なる点について説明する。第３の実施の形態において特に言及されない点については、第１の実施の形態又は第２の実施の形態と同様でもよい。

図１４は、第３の実施の形態における構造化文書処理装置１０の学習時の機能構成例を示す図である。図１４中、図３又は図９と同一部分又は対応する部分には同一符号を付し、その説明は適宜省略する。図１４に示されるように、第３の実施の形態の構造変換部１１は、第１の実施の形態と第２の実施の形態とを合わせた構成を有する。

図１５は、第３の実施の形態の構造化文書処理装置１０が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。図１５中、図４又は図１０と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。

図１５では、ループ処理Ｌ２及びステップＳ１３０に続いてステップＳ１３５～Ｓ１３７が実行される。すなわち、構造分割部１１２から出力される文書（第１の実施の形態における変換後文書）が、抽出部１１３への入力となり、ステップＳ１３５以降が実行され、ステップＳ１３７において出力される文書が変換後文書として学習部１２へ入力される。

したがって、第３の実施の形態によれば、第１の実施の形態及び第２の実施の形態のそれぞれで得られる効果を得ることができる。

なお、上記各実施の形態において、構造化文書に含まれる表（行列も含む）を示す要素（例えば、＜ｔａｂｌｅ＞タグで囲まれた要素）について、他の要素と同様に処理が行われた場合、表における行及び列と値との対応関係が失われてしまう可能性が有る。そこで、表については、構造分割部１１２又は縮退部１１５等が表であることを理解し、テキスト化に際し特別な変換処理を実行してもよい。

図１６は、表の変換例を示す図である。図１６において、（１）は、構造化文書に含まれる表の表示例を示す。（２）及び（３）は、当該表の変換例を示す。（２）は、各メタ文字列が縮退される例である。（３）は、各メタ文字列の上下関係やその他関係（「及び」、「又は」、「上下」「並列」等）が区別されて変換される例である。（２）及び（３）のいずれについても、各行は、列（プラン）及び行（サービス）の組み合わせごとの価格が表現されている。その結果、プラン及びサービスの組み合わせごとの価格についての質問に対する回答を機械読解モデルが学習することを期待することができる。

なお、構造化文書処理装置１０のタスクの実行時については、第１の実施の形態と同様でよい。但し、構造変換部１１が実行する処理手順は、図１５において説明した通りである。

上述したように、第３の実施の形態によれば、構造化文書が部分構造に分割されてからメタ文字列の変換が行われる。その結果、メタ文字列の変換時において、構造を表すツリー内に同じ階層構造にあるメタ文字列が存在しなくなり、メタ文字列の持つ意味が明確になるため、上記３つの実施の形態の中で最も効果が高い構成であると考えられる。

次に、第１の実施の形態及び第３の実施の形態について本願発明者が行った実験の結果について説明する。

本実験において対象とされた構造化文書は、或るサービスに関するオペレータ用のマニュアルであり、学習データは以下の通りである。
ｈｔｍｌ数：３８ｈｔｍｌ／ＱＡペア数：２２１２９件
また、評価セット（タスクの実行時における質問群）としては、以下の２種類が用意された。
評価セットＡ：機械読解技術を理解している人が作成した質問群（機械読解技術にフレンドリな質問）
評価セットＢ：機械読解技術を利用したことがない人が作成した質問群（人にとってより自然な聞き方）
機械読解により得られた回答結果の上位５つに正解が含まれていれば正解とし、完全一致でなくても部分一致していれば正解とした。

本実験の実験結果を図１７に示す。図１７では、「分割単位」及び「メタ文字列の縮退」の有無との組合せの３種類の条件における、評価セットＡ及びＢのそれぞれの実験結果（正解率）が示されている。具体的には、１つ目の条件（以下、「条件１」という。）は、「分割単位」が、段落単位（例えば、ＨＴＭＬ文書の見出し単位）、「メタ文字列の縮退」が無しという条件である。２つ目の条件（以下、「条件２」という。）は、「分割単位」が、葉ノード単位、「メタ文字列の縮退」が無しという条件である。３つ目の条件（以下、「条件３」という。）は、「分割単位」が、葉ノード単位、「メタ文字列の縮退」が有りという条件である。

ここで、「分割単位」が葉ノード単位とは、第１の実施の形態において説明した構造分割部１１２による処理が適用されることをいう。また、「メタ文字列の縮退」は、第２の実施の形態において説明した縮退部１１５による処理が適用されるか否かをいう。したがって、条件１は、上記各実施の形態のいずれもが適用されない条件に該当し、条件２は、第１の実施の形態が適用された条件に該当し、条件３は、第３の実施の形態が適用された条件に該当する。

図１７によれば、いずれの評価セットについても、条件１よりも条件２の方が正解率が高く、条件２よりも条件３の方が正解率が高くなくことが分かる。すなわち、本実施の形態の効果が実験によっても確認された。

なお、上記各実施の形態の構造化文書処理装置１０について、学習時とタスクの実行時とにおいて相互に異なるコンピュータが用いられて実現されてもよい。

なお、上記各実施の形態において、構造化文書処理装置１０は、構造化文書処理学習装置の一例でもある。構造解析部１１１は、解析部の一例である。縮退部１１５は、変換部の一例である。読解部１３は、処理部の一例である。

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０構造化文書処理装置
１１構造変換部
１２学習部
１３読解部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１１１構造解析部
１１２構造分割部
１１３抽出部
１１４結合部
１１５縮退部
１２１変換後文書記憶部
１２２学習パラメータ記憶部
Ｂバス

Claims

構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出部と、
抽出された文字列を結合する結合部と、
前記結合部による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換部と、
前記変換後文書と、前記変換後文書に対する所定の処理を行う際の正解情報とを入力として、前記所定の処理を実行するニューラルネットワークの学習を行う学習部と、
を有することを特徴とする構造化文書処理学習装置。
前記学習部は、前記ニューラルネットワークについて、情報検索と機械読解とのマルチタスク学習を行う、
ことを特徴とする請求項１記載の構造化文書処理学習装置。
構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出部と、
抽出された文字列を結合する結合部と、
前記結合部による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換部と、
前記変換後文書について、ニューラルネットワークが学習済みの処理を実行する処理部と、
を有することを特徴とする構造化文書処理装置。
構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出手順と、
抽出された文字列を結合する結合手順と、
前記結合手順による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換手順と、
前記変換後文書と、前記変換後文書に対する所定の処理を行う際の正解情報とを入力として、前記所定の処理を実行するニューラルネットワークの学習を行う学習手順と、
をコンピュータが実行することを特徴とする構造化文書処理学習方法。
構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出手順と、
抽出された文字列を結合する結合手順と、
前記結合手順による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換手順と、
前記変換後文書について、ニューラルネットワークが学習済みの処理を実行する処理手順と、
をコンピュータが実行することを特徴とする構造化文書処理方法。
請求項１又は２記載の構造化文書処理学習装置としてコンピュータを機能させることを特徴とするプログラム。
請求項３に記載の構造化文書処理装置としてコンピュータを機能させることを特徴とするプログラム。