JP7283547B2 - 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム - Google Patents

構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム Download PDF

Info

Publication number
JP7283547B2
JP7283547B2 JP2021536582A JP2021536582A JP7283547B2 JP 7283547 B2 JP7283547 B2 JP 7283547B2 JP 2021536582 A JP2021536582 A JP 2021536582A JP 2021536582 A JP2021536582 A JP 2021536582A JP 7283547 B2 JP7283547 B2 JP 7283547B2
Authority
JP
Japan
Prior art keywords
structured document
document
meta
character strings
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021536582A
Other languages
English (en)
Other versions
JPWO2021019773A1 (ja
Inventor
済央 野本
久子 浅野
準二 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021019773A1 publication Critical patent/JPWO2021019773A1/ja
Application granted granted Critical
Publication of JP7283547B2 publication Critical patent/JP7283547B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明は、構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラムに関する。
近年、ニューラルネットワークによる自然言語処理が急速に発展している。例えば、機械読解技術においても進歩が認められる(例えば、非特許文献1)。機械読解技術とは、テキストを知識源とした自然言語理解に基づく質問応答を可能にする技術であり、質問に対する回答をテキスト中から自動で見つけてくる技術である。
K. Nishida, I. Saito, A. Otsuka, H. Asano, and J. Tomita:"Retrieve-and-read: Multi-task learning of information retrieval and reading comprehension," Proc. of CIKM 2018, pp.647-656, Torino, Italy, Oct. 2018.
機械読解技術等、ニューラルネットワークによる自然言語処理において用いられる文書集合は、構造を持たないテキストであることが前提である。一方、ニューラルネットワークによる構造化文書の処理には構造情報の理解が必要とされるため、構造化文書は、そのままの状態では、ニューラルネットワークへの適用が困難である。
本発明は、上記の点に鑑みてなされたものであって、構造化文書に対するニューラルネットワークの適用を容易にすることを目的とする。
そこで上記課題を解決するため、構造化文書処理学習装置は、構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出部と、抽出された文字列を結合する結合部と、前記結合部による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換部と、前記変換後文書と、前記変換後文書に対する所定の処理を行う際の正解情報とを入力として、前記所定の処理を実行するニューラルネットワークの学習を行う学習部と、を有する。

構造化文書に対するニューラルネットワークの適用を容易にすることができる。
HTML文書におけるタグの構造的意味を説明するための図である。 第1の実施の形態における構造化文書処理装置10のハードウェア構成例を示す図である。 第1の実施の形態における構造化文書処理装置10の学習時の機能構成例を示す図である。 第1の実施の形態の構造化文書処理装置10が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。 階層構造の解析を説明するめの図である。 部分構造の抽出例を示す図である。 第1の実施の形態における構造化文書処理装置10のタスクの実行時の機能構成例を示す図である。 質問に対する回答を含むHTML文書の表示例を示す図である。 第2の実施の形態における構造化文書処理装置10の学習時の機能構成例を示す図である。 第2の実施の形態の構造化文書処理装置10が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。 抽出部113による抽出結果の一例を示す図である。 メタ文字列及び内容文字列の結合例を示す図である。 メタ文字列の縮退例を示す図である。 第3の実施の形態における構造化文書処理装置10の学習時の機能構成例を示す図である。 第3の実施の形態の構造化文書処理装置10が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。 表の変換例を示す図である。 実験結果を示す図である。
以下、図面に基づいて本発明の実施の形態を説明する。本実施の形態では、HTML(HyperText Markup Language)によって記述された文書(HTML文書)を構造化文書の一例として説明する。また、自然言語処理を実行するニューラルネットワークとして、機械読解技術に関するニューラルネットワーク(以下、「機械読解モデル」という。)を一例として説明する。但し、例えば、XML(eXtensible Markup Language)等、他の形式によって記述される構造化文書に対して本実施の形態が適用されてもよい。また、自動要約や文書分類処理等、機械読解以外の各種の自然言語処理に対して本実施の形態が適用されてもよい。
本実施の形態では、HTML文書について、機械読解モデルにとって読解可能な形式であって、かつ、構造情報が保持された形式でのテキストへの変換方法が開示される。
HTML文書のような構造化文書を機械読解モデルに読解させるに際に、当該構造化文書の木構造等、構造を表現する文字列(以下、「メタ文字列」という。)によって区切られた単位(要素)ごとに読解させることが考えられる。なお、HMTL文書では、HMTLタグがメタ文字列に該当する。
しかし、この方法は、以下の理由により現実的ではないと考えられる。
・同じ記載内容でも様々なHTML表現方法がある。
・同じメタ文字列(HTMLタグ)でも文書毎に使われ方(意味合い)が異なる。
・メタ文字列(HTMLタグ)を普通の単語と同様に扱って読解させるのは難しい。
そこで、構造化文書における「構造」とは何かについて検討すると、構造化文書の構造において重要なのは、メタ文字列の種類(タグの種類)ではなく、メタ文字列が表現する、メタ文字列で囲まれた要素間の上下関係(包含関係)及び並列関係であると考えられる。
図1は、HTML文書におけるタグの構造的意味を説明するための図である。図1に示されるHTML文書の構造情報において、タグt1が有する構造的意味は、例えば、以下の3つの意味である。
・「提供条件」の下位
・「xxxTVの・・・」の上位
・「契約可能数」と並列
そこで、第1の実施の形態では、タグの構造的意味が一意に決まるようにHTML文書の構造を分割してタグの揺らぎを解消することで、当該HTML文書について、機械読解モデルにとって読解可能であって、かつ、当該HTML文書の構造情報が保持された形式へ変換が行われる。
図2は、第1の実施の形態における構造化文書処理装置10のハードウェア構成例を示す図である。図2の構造化文書処理装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
構造化文書処理装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って構造化文書処理装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
図3は、第1の実施の形態における構造化文書処理装置10の学習時の機能構成例を示す図である。図3において、構造化文書処理装置10は、構造変換部11及び学習部12等を有する。また、構造変換部11は、構造解析部111及び構造分割部112を含む。これら各部は、構造化文書処理装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。構造化文書処理装置10は、また、変換後文書記憶部121及び学習パラメータ記憶部122を利用する。これら各記憶部は、例えば、補助記憶装置102、又は構造化文書処理装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。なお、構造変換部11と学習部12とは、相互に異なるコンピュータを用いて実現されてもよい。
以下、第1の実施の形態の構造化文書処理装置10が機械読解モデルの学習時に実行する処理手順について説明する。図4は、第1の実施の形態の構造化文書処理装置10が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。図4では、学習データを構成する構造化文書集合に含まれる構造化文書ごと(1つのHTML文書ごと)に、ステップS110及びループ処理L2を含むループ処理L1が実行される。以下、ループ処理L1において処理対象とされている構造化文書を、以下「対象文書」という。
ステップS110において、構造解析部111は、対象文書の階層構造(木構造)を解析(抽出又は特定)し、解析結果(抽出結果又は特定結果)として、当該階層構造を示す情報(タグ間の上下関係(親子関係)や並列関係(兄弟関係)を示す情報、以下、「構造情報」という。)を出力する。
図5は、階層構造の解析を説明するめの図である。図5には、HTML文書d1が対象文書である場合に、解析結果として得られる構造情報s1の一例が示されている。図5に示されるように、構造情報s1は、メタ文字列(タグ)及びメタ文字列で囲まれた要素の値(以下、「内容文字列」という。)をノードとする木構造を示す情報である。なお、構造情報は、階層構造を示すことが可能であれば、どのような形式の情報であってもよい。
なお、構造の解析には、Beutiful Soup(https://www.crummy.com/software/BeautifulSoup/bs4/doc/)等、既存のツールが利用されてもよい。
続いて、構造分割部112は、構造情報s1の葉ノードごと(末端のノードごと)に、ステップS120を含むループ処理L2を実行する。以下、ループ処理L2において処理対象の葉ノードを「対象ノード」という。
ステップS120において、構造分割部112は、構造情報s1において、対象ノードから一つずつ親ノードを再帰的に辿ることで、対象ノードからルートノードまでの経路を特定し、特定した経路を対象ノードに対する部分構造として抽出する。なお、各経路のノードは、当該ノードに対応するメタ文字列及び内容文字列に対応する。
図6は、部分構造の抽出例を示す図である。図6には、構造情報s1の全ての葉ノードについて部分構造が抽出された例が示されている。すなわち、図6には、構造情報s1が示す階層構造が、部分構造s1-1~s1-3の3つの部分構造に分割された例が示されている。抽出された各部分構造は枝を持たない1本の木構造となる。各部分構造が1本の木構造となることで、HTMLタグの持つ構造的意味を話題の上位下位関係だけに集約することができる。これにより,様々なスタイルのHTML文書に対して頑健に機械読解することが可能となる。
全ての葉ノードについてステップS120が実行されると、構造分割部112は、葉ノードごとに抽出された各部分構造をまとめて1つの文書にテキスト化することで、対象文書に対する一つの変換後の文書(以下、「変換後文書」という。)を生成し、当該変換後文書を変換後文書記憶部121に保存する(S130)。部分構造のテキスト化とは、当該部分構造をHTML文書に復元することをいう。但し、当該テキスト化において、各タグは、そのまま復元されるのではなく、削除されてしまってもよい。この場合、変換後文書は、メタ文字列を含まないテキストデータとなる。又は、各タグが、「@@@@」のような、構造情報を表す擬似単語に変換されてもよい。この場合、変換後文書は、各タグが共通の擬似単語に変換されたテキストデータとなる。更に、各タグが、タグによる境界が有ったことを示す所定の文字列に縮退されてもよい。斯かる縮退については、第2の実施の形態について詳細に説明する。以下、擬似単語及び縮退後の文字列をもメタ文字列の概念に含む。なお、上記のテキスト化は、階層構造に寄与しないタグ(改行タグやフォントタグ、spanタグ等)が除去された後で行われてもよい。
学習データの構造化文書集合に含まれる全ての構造化文書(HTML文書)についてループ処理L1が実行されると、学習部12は、学習データの質問及び回答のペアの集合と、変換後文書の集合とを機械読解モデルへの入力として、機械読解モデルの学習処理を実行し、学習結果として得られる、読解モデルの学習パラメータの値を学習パラメータ記憶部122に記憶する(S140)。機械読解モデルの学習は、公知の方法を用いて行われればよい。例えば、非特許文献1に開示されている、情報検索タスクの損失と機械読解タスクの損失とを結合した結果を最小化するマルチタスク学習が行われてもよい。但し、変換後文書にメタ文字列が含まれる場合には、学習処理において、メタ文字列は、1つの単語として扱われればよい。
但し、変換後文書にメタ文字列が含まれる場合、変換後文書記憶部121に保存された各変換後文書に対して、正解情報(機械読解については、学習データに含まれる質問ごとに、該質問に対する回答の箇所(回答の範囲))を示す情報(アノテーション)を付加しておく。その結果、学習部12には、アノテーションが付加された変換後文書が入力される。すなわち、学習部12は、アノテーションが付加された変換後文書を入力として、学習処理を実行する。そうすることで、構造化文書において階層構造を意味するメタ文字列(HTMLタグ)の読み方について、機械読解モデルによる学習を促進させることができる。なお、アノテーションが示す正解情報の範囲は、例えば、メタ文字列によって区切られる範囲(開始タグと終了タグとの間)であってもよいし、或る内容文字列であってもよいし、或る内容文字列における一部分であってもよい。また、正解情報は、アノテーションの形式で付加されなくてもよい。例えば、変換後文書の内容に対応した正解情報が、変換後文書とは別に学習部12へ入力されるようにしてもよい。ここで、「変換後文書の内容に対応した正解情報」とは、質問応答の場合、回答を示す文字列であり、文書要約の場合、変換後文書から作成された正解要約文であり、文書分類の場合、変換後文書それぞれの分類結果(木構造に基づき、入力文書が複数の変換後文書に分割される場合、要約文や分類先が、変換後文書ごとに異なる可能性がある。)である。
次に、タスク(機械読解)の実行時について説明する。図7は、第1の実施の形態における構造化文書処理装置10のタスクの実行時の機能構成例を示す図である。図7中、図3と同一部分には、同一符号を付し、その説明は省略する。
図7において、構造化文書処理装置10は、学習部12の代わりに読解部13を有する。読解部13は、構造化文書処理装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。
読解部13は、学習パラメータ記憶部122に記憶された学習パラメータを機械読解モデルに設定することで、学習済みの機械読解モデルを生成し、当該学習済みの機械読解モデルに対して、質問と、当該質問に対する回答を含む文書の候補群とを入力する。当該質問に対する回答を含む文書の候補群とは、入力として与えられる構造化文書集合について構造変換部11によって生成される変換後文書の集合をいう。機械読解モデルは、変換後文書の集合の中から質問に対する回答を抽出し、抽出した回答を出力する。変換後文書が機械読解モデルへの入力とされることで、構造化文書に記述されていることに関する質問に対する回答の精度を、構造化文書がそのまま機械読解モデルに入力される場合に比べて向上させることができる。
例えば、図8に示されるように表示されるHTML文書が入力される場合、「日次で容量追加をした場合いつまで使えますか」という質問に対して、記述p1、p2及びp3等に基づいて「当日23:59まで使い放題」という回答を読解部13は出力する。
上述したように、第1の実施の形態によれば、構造化文書を構成するメタ文字列及び内容文字列の上下関係が保持され、かつ、並列関係にあった内容文字列を含まないように、構造化文書が複数の変換後文書に分割される。したがって、構造化文書における構造が反映された状態で変換後文書が生成される。よって、構造化文書に対するニューラルネットワークの適用を容易にすることができる。
また、機械読解技術では、文のつながりや接続詞の使われ方等から、"どういう風に読むべきか"が学習されるところ、変換後文書に含まれるメタ文字列は、文や単語の繋がりを表す、擬似的な単語の役割を果たす。したがって、本実施の形態は、機械読解技術のニューラルネットワークに対して特に効果的である。
なお、本実施の形態では、構造化文書集合に含まれる構造化文書ごとに変換後文書が生成される(すなわち、構造化文書と変換後文書とが1対1に対応する)例について説明したが、部分構造ごとに変換後文書が生成されてもよい。この場合、1つの構造化文書が複数の変換後文書に分割されることになる。
一方、一般的な機械読解技術(非特許文献1に記載のマルチタスク学習を行わない機械読解技術)では、情報検索(文書集合から、回答抽出候補を選定する)と機械読解(文書から回答を見つける)とのモデルを直列に繋いで処理が行われる。したがって、1つの構造化文書が複数の変換後文書に分割される場合(すなわち、構造化文書と変換後文書とが1対多に対応する場合)は、構造化文書と変換後文書とが1対1に対応する場合、又は非構造な文書を入力とする場合に比べて情報検索の時点で正解を含む文書が回答抽出候補から漏れてしまう可能性が高くなると考えられる。
しかし、情報検索と機械読解とを同時に学習する(マルチタスク学習する)機械読解モデルに適用する場合には、情報検索と機械読解のマルチタスク学習により、構造化文書と変換後文書とが1対多に対応する場合であっても、正解を含む変換後文書が回答抽出候補から漏れる可能性を抑えることができる。
次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。第2の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。なお、第1の実施の形態においては、構造化文書の構造とは主として階層構造を意味したが、第2の実施の形態において、構造化文書の構造とは、メタ文字列等で示される、内容文字列に対する付加的な情報(例えば、木構造、表構造、強調構造、リンク構造等)を意味する。すなわち、以下においては、便宜上、階層構造を一例として説明するが、階層構造以外の上記構造について、第2の実施の形態が適用されてもよい。
図9は、第2の実施の形態における構造化文書処理装置10の学習時の機能構成例を示す図である。図9中、図3と同一部分又は対応する部分には同一符号を付し、その説明は適宜省略する。図9に示されるように、第2の実施の形態の構造変換部11は、構造分割部112を含まない一方で、抽出部113、結合部114及び縮退部115を含む。但し、第2の実施の形態において、構造化文書処理装置10は、縮退部115を含まなくてもよい。
図10は、第2の実施の形態の構造化文書処理装置10が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。図10中、図4と同一ステップには同一ステップ番号を付し、その説明は省略する。
ステップS110に続いて、抽出部113は、対象文書について構造解析部111によって解析された構造情報(図5の構造情報s1)を参照して、抽出対象とする所定の構造に関する情報、例えば対象文書の階層構造に寄与するメタ文字列及び内容文字列のみを対象文書から抽出する(S135)。換言すれば、抽出部113は、抽出対象とする所定の構造を持たない構造情報、例えば、対象文書の階層構造に寄与しないメタ文字列を対象文書から除去(削除)する。対象文書の階層構造に寄与しないメタ文字列とは、構造情報s1においてノードとされていないメタ文字列である。但し、構造解析部111による解析結果が、単純に、メタ文字列の上下関係及び並列関係を示すものである場合(すなわち、階層構造に実質的に寄与しないメタ文字列もノードとされる場合)、抽出部113は、階層構造に寄与しない特定のメタ文字列(例えば、改行タグ、フォントタグ、spanタグ等)を対象文書から除去(削除)する。
図11は、抽出部113による抽出結果の一例を示す図である。図11において(1)は、抽出された開始タグ、内容文字列、終了タグがそのままの形式で抽出結果として出力される例である。(2)は、開始タグと内容文字列との組が抽出結果として出力される例である。
続いて、結合部114は、抽出部113によって抽出されたメタ文字列及び内容文字列を結合する(S136)。
図12は、メタ文字列及び内容文字列の結合例を示す図である。図12において[入力例]として示されている要素群(メタ文字列とその内容文字列の集合)は、抽出部113から出力された対象文書の一部の一例である。[出力例]は、[入力例]についての結合結果の例である。図12には、(a)~(f)の6つの例が示されている。
(a)は、抽出部113からの出力される全てのメタ文字列が内容文字列にそのまま結合される例(換言すれば、結合部114によって特段の処理が行われない例)である。(b)は、各開始タグのみが各内容文字列に結合される例(各終了タグが省略(除去)される例)である。(c)は、各終了タグのみが各内容文字列に結合される例(各開始タグが省略(除去)される例)である。(d)は、連続する内容文字列の間の終了タグ及び開始タグが当該内容文字列に結合される例である。(e)は、連続する内容文字列の間の開始タグのみが当該内容文字列に結合される例である。(f)は、連続する内容文字列の間の終了タグのみが当該内容文字列に結合される例である。
なお、(a)~(f)のいずれの処理が採用されてもよい。また、結合部114は、結合に際し、対象文書に含まれる改行コードや連続するスペースを1つのスペースに変換するなどしてもよい。
続いて、縮退部115は、抽出部113から出力された対象文書の全てのメタ文字列を所定の文字列(例えば、<TAG>等)に変換することで、各メタ文字列を内容文字列の間にメタ文字列(階層構造の境界)が有ったことを示すだけの情報に縮退させる(S137)。
図13は、メタ文字列の縮退例を示す図である。図13には、図12に示した(a)~(f)のそれぞれについて、縮退の結果の一例である(a')~(f')が示されている。なお、図13では、各メタ文字列が<TAG>に変換された例が示されているが、<TAG>以外の任意の文字列が縮退後の文字列として用いられてもよい。
なお、第2の実施の形態では、縮退部115によってメタ文字列が縮退された結果が、対象文書に対する変換後文書とされる。但し、ステップS137は、構造化文書処理装置10が縮退部115を有する場合に実行される。構造化文書処理装置10が縮退部115を有さない場合には、結合部114から出力される文書が対象文書に対する変換後文書とされる。
学習データの構造化文書集合に含まれる全ての構造化文書(HTML文書)についてループ処理L1が実行されると、学習部12は、学習データの質問及び回答のペアの集合と、変換後文書の集合とを機械読解モデルへの入力として、機械読解モデルの学習処理を実行し、学習結果として得られる、読解モデルの学習パラメータの値を学習パラメータ記憶部122に記憶する(S140)。
ここで、第2の実施の形態において、構造化文書処理装置10が縮退部115を有する場合には、各メタ文字列は、各メタ文字列が存在したことを表す共通の文字列に縮退されている。したがって、機械読解モデルの学習の効率化を期待することができる。
すなわち、HTMLタグの場合、タグの使われ方や記法の自由度が高い。そのため、同じ構造を表現するのに多様なHTMLタグの使い方が可能となる。HTMLタグの汎用的な読み方を機械読解モデルに学習させるためには、様々なスタイルや記法で書かれた大量のHTMLファイルを準備する必要がありコストが高い。そこで、第2の実施の形態では、HTMLタグの境界に着目している。第2の実施の形態では、後段の所定の処理(本実施例では機械読解)に重要な所定の構造(本実施例では階層構造等)のみに着目し、着目した構造情報を、その構造に応じて変換する。また、着目した構造に関する情報以外は、削除するようにしてもよい。すなわち、階層構造の理解にはHTMLタグの意味が重要なのではなく、異なるタグで囲まれた連続するテキスト間には意味的な繋がりがあることを理解することが重要だからである。したがって、第2の実施の形態では、HTMLタグそのものをテキスト化するのではなく、「HTMLタグ境界があったか否かだけの情報」等、HTMLタグの持つ情報をある程度縮退させたテキストに対して機械読解を適用することで、HTMLタグの使われ方の揺らぎを吸収した機械読解モデルを学習することが可能となる。これにより様々なスタイルのHTMLファイルに対して頑健に機械読解することが可能となる。なお、「異なるタグ」とは、<h1>と</h1>とのように、開始タグと終了タグとの違いではなく、<h2>と<h3>のように、タグの種別の違いを意味する。
なお、一般的にニューラルネットワークを用いた自然言語処理では、入力される文書に含まれる各単語が埋め込みベクトルに変換される。ここで、通常の単語(自然言語において利用される単語)の埋め込みベクトルは、事前に大規模なコーパスなどを用いて作成されたコードブックを利用することが多い。しかし、このようなコードブックは、本実施の形態で利用する、階層構造を意味するメタ文字列(縮退後の文字列も含む)に対応する埋め込みベクトルに対応していない。
そこで、機械読解モデルの学習の前に、各メタ文字列に対応する埋め込みベクトルとして適当な初期値を設定しておき、機械読解モデルの学習時に更新するようにする。又は、変換後の構造化文書の集合を用いて、一般的な単語の埋め込みベクトルを作成するのと同様の手法により、メタ文字列に対応する埋め込みベクトルが取得されてもよい。この点については、第1の実施の形態でも同様である。
また、学習データに含まれる各構造化文書に対して、正解情報(機械読解については、学習データに含まれる質問ごとに、各質問に対する回答の箇所(回答の範囲))を示す情報(アノテーション)を付加しておく。その結果、学習部12には、アノテーションが付加された変換後文書が入力される。すなわち、学習部12は、アノテーションが付加された変換後文書を入力として、学習処理を実行する。そうすることで、構造化文書の木構造を表すメタ文字列について、内容文字列の関係性を表す埋め込みベクトル」を学習させることができ、構造化文書(変換後文書)におけるメタ文字列の読み方について、機械読解モデルによる学習を促進させることができる。なお、アノテーションが示す正解情報の範囲は、第1の実施の形態と同様でよい。
なお、構造化文書処理装置10のタスクの実行時については、第1の実施の形態と同様でよい。但し、構造変換部11が実行する処理手順は、図10において説明した通りである。第2の実施の形態において、構造化文書処理装置10が縮退部115を有する場合には、各メタ文字列が縮退された文書が機械読解モデルに入力されるため、構造化文書に未知のメタ文字列が含まれている場合であっても、タスクの精度の低下が抑制されるのを期待することができる。
上述したように、第2の実施の形態においても、構造化文書に対するニューラルネットワークの適用を容易にすることができる。
なお、上記では、抽出対象とする所定の構造として、階層構造を例に説明を行ったが、抽出対象とする所定の構造として、フォントのサイズや、色の指定等によって示される強調構造や、アンカーテキストによって示されるリンク構造等を抽出対象としてもよい。
また、第2の実施の形態では、階層構造に寄与しないメタ文字列が抽出部113によって除去される例を示したが、フォントのサイズや、色の指定等によって示される、内容文字列の強調に係るメタ文字列やアンカーテキスト等は、階層構造に寄与しなくても除去されないようにしてもよい。この場合、縮退部115は、全てのメタ文字列を共通の文字列に変換するのではなく、構造の種別、つまり階層構造に寄与するメタ文字列と、強調に寄与するメタ文字列と、アンカーテキストとで縮退の方法を区別してもよい。具体的には、縮退部115は、階層構造に寄与するメタ文字列と、強調に寄与するメタ文字列と、アンカーテキストとで、縮退後の文字列を変えてもよい。この場合、メタ文字列ごとに、縮退後(変換後)の文字列を示す変換テーブルが予め作成され、縮退部115は、当該変換テーブルを参照してメタ文字列の縮退(変換)を行ってもよい。なお、アンカーテキストとは、例えば、「…については<a href="URL">こちら</a>をご覧ください」の「こちら」部分をいう。
また、上記では、タグ文字列が自然言語としては意味の無い文字列(例えば、<TAG>)に縮退(変換)される例について説明したが、縮退部115は、タグ文字列を自然言語として意味の有る文字列であって、上下関係(対象や関連)を表す文字列(例えば、「について」、「に関して」等)に変換するようにしてもよい。そうすることで、構造化文書の処理を目的とした、特別な学習データの準備やモデル学習を不要にすることができる。したがって、非構造化文書を学習データとして学習を行ったモデルを使って、タスクの実行を行うことが可能となる。
また、斯かる変換(上下関係(対象や関連)を表す文字列(例えば、「について」、「に関して」等)へのタグ文字列の変換)は、第1の実施の形態において構造分割部112が実行してもよい。
次に、第3の実施の形態について説明する。第3の実施の形態では第1の実施の形態又は第2の実施の形態と異なる点について説明する。第3の実施の形態において特に言及されない点については、第1の実施の形態又は第2の実施の形態と同様でもよい。
図14は、第3の実施の形態における構造化文書処理装置10の学習時の機能構成例を示す図である。図14中、図3又は図9と同一部分又は対応する部分には同一符号を付し、その説明は適宜省略する。図14に示されるように、第3の実施の形態の構造変換部11は、第1の実施の形態と第2の実施の形態とを合わせた構成を有する。
図15は、第3の実施の形態の構造化文書処理装置10が機械読解モデルの学習時に実行する処理手順の一例を説明するためのフローチャートである。図15中、図4又は図10と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。
図15では、ループ処理L2及びステップS130に続いてステップS135~S137が実行される。すなわち、構造分割部112から出力される文書(第1の実施の形態における変換後文書)が、抽出部113への入力となり、ステップS135以降が実行され、ステップS137において出力される文書が変換後文書として学習部12へ入力される。
したがって、第3の実施の形態によれば、第1の実施の形態及び第2の実施の形態のそれぞれで得られる効果を得ることができる。
なお、上記各実施の形態において、構造化文書に含まれる表(行列も含む)を示す要素(例えば、<table>タグで囲まれた要素)について、他の要素と同様に処理が行われた場合、表における行及び列と値との対応関係が失われてしまう可能性が有る。そこで、表については、構造分割部112又は縮退部115等が表であることを理解し、テキスト化に際し特別な変換処理を実行してもよい。
図16は、表の変換例を示す図である。図16において、(1)は、構造化文書に含まれる表の表示例を示す。(2)及び(3)は、当該表の変換例を示す。(2)は、各メタ文字列が縮退される例である。(3)は、各メタ文字列の上下関係やその他関係(「及び」、「又は」、「上下」「並列」等)が区別されて変換される例である。(2)及び(3)のいずれについても、各行は、列(プラン)及び行(サービス)の組み合わせごとの価格が表現されている。その結果、プラン及びサービスの組み合わせごとの価格についての質問に対する回答を機械読解モデルが学習することを期待することができる。
なお、構造化文書処理装置10のタスクの実行時については、第1の実施の形態と同様でよい。但し、構造変換部11が実行する処理手順は、図15において説明した通りである。
上述したように、第3の実施の形態によれば、構造化文書が部分構造に分割されてからメタ文字列の変換が行われる。その結果、メタ文字列の変換時において、構造を表すツリー内に同じ階層構造にあるメタ文字列が存在しなくなり、メタ文字列の持つ意味が明確になるため、上記3つの実施の形態の中で最も効果が高い構成であると考えられる。
次に、第1の実施の形態及び第3の実施の形態について本願発明者が行った実験の結果について説明する。
本実験において対象とされた構造化文書は、或るサービスに関するオペレータ用のマニュアルであり、学習データは以下の通りである。
html数:38html/QAペア数:22129件
また、評価セット(タスクの実行時における質問群)としては、以下の2種類が用意された。
評価セットA:機械読解技術を理解している人が作成した質問群(機械読解技術にフレンドリな質問)
評価セットB:機械読解技術を利用したことがない人が作成した質問群(人にとってより自然な聞き方)
機械読解により得られた回答結果の上位5つに正解が含まれていれば正解とし、完全一致でなくても部分一致していれば正解とした。
本実験の実験結果を図17に示す。図17では、「分割単位」及び「メタ文字列の縮退」の有無との組合せの3種類の条件における、評価セットA及びBのそれぞれの実験結果(正解率)が示されている。具体的には、1つ目の条件(以下、「条件1」という。)は、「分割単位」が、段落単位(例えば、HTML文書の見出し単位)、「メタ文字列の縮退」が無しという条件である。2つ目の条件(以下、「条件2」という。)は、「分割単位」が、葉ノード単位、「メタ文字列の縮退」が無しという条件である。3つ目の条件(以下、「条件3」という。)は、「分割単位」が、葉ノード単位、「メタ文字列の縮退」が有りという条件である。
ここで、「分割単位」が葉ノード単位とは、第1の実施の形態において説明した構造分割部112による処理が適用されることをいう。また、「メタ文字列の縮退」は、第2の実施の形態において説明した縮退部115による処理が適用されるか否かをいう。したがって、条件1は、上記各実施の形態のいずれもが適用されない条件に該当し、条件2は、第1の実施の形態が適用された条件に該当し、条件3は、第3の実施の形態が適用された条件に該当する。
図17によれば、いずれの評価セットについても、条件1よりも条件2の方が正解率が高く、条件2よりも条件3の方が正解率が高くなくことが分かる。すなわち、本実施の形態の効果が実験によっても確認された。
なお、上記各実施の形態の構造化文書処理装置10について、学習時とタスクの実行時とにおいて相互に異なるコンピュータが用いられて実現されてもよい。
なお、上記各実施の形態において、構造化文書処理装置10は、構造化文書処理学習装置の一例でもある。構造解析部111は、解析部の一例である。縮退部115は、変換部の一例である。読解部13は、処理部の一例である。
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 構造化文書処理装置
11 構造変換部
12 学習部
13 読解部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
111 構造解析部
112 構造分割部
113 抽出部
114 結合部
115 縮退部
121 変換後文書記憶部
122 学習パラメータ記憶部
B バス

Claims (7)

  1. 構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出部と、
    抽出された文字列を結合する結合部と、
    前記結合部による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換部と、
    記変換後文書と、前記変換後文書に対する所定の処理を行う際の正解情報とを入力として、前記所定の処理を実行するニューラルネットワークの学習を行う学習部と、
    を有することを特徴とする構造化文書処理学習装置。
  2. 前記学習部は、前記ニューラルネットワークについて、情報検索と機械読解とのマルチタスク学習を行う、
    ことを特徴とする請求項記載の構造化文書処理学習装置。
  3. 構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出部と、
    抽出された文字列を結合する結合部と、
    前記結合部による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換部と、
    前記変換後文書について、ニューラルネットワークが学習済みの処理を実行する処理部
    を有することを特徴とする構造化文書処理装置。
  4. 構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出手順と、
    抽出された文字列を結合する結合手順と、
    前記結合手順による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換手順と、
    記変換後文書と、前記変換後文書に対する所定の処理を行う際の正解情報とを入力として、前記所定の処理を実行するニューラルネットワークの学習を行う学習手順と、
    をコンピュータが実行することを特徴とする構造化文書処理学習方法。
  5. 構造化文書の階層構造を表現するメタ文字列と、前記メタ文字列によって区切られた内容文字列とのうち、前記階層構造に寄与する文字列を前記構造化文書から抽出する抽出手順と、
    抽出された文字列を結合する結合手順と、
    前記結合手順による結合結果に含まれる複数の前記メタ文字列を共通の文字列に変換することで、前記結合結果から変換後文書を生成する変換手順と、
    前記変換後文書について、ニューラルネットワークが学習済みの処理を実行する処理手順
    をコンピュータが実行することを特徴とする構造化文書処理方法。
  6. 請求項1又は2記載の構造化文書処理学習装置としてコンピュータを機能させることを特徴とするプログラム。
  7. 請求項に記載の構造化文書処理装置としてコンピュータを機能させることを特徴とするプログラム。
JP2021536582A 2019-08-01 2019-08-01 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム Active JP7283547B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/030277 WO2021019773A1 (ja) 2019-08-01 2019-08-01 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2021019773A1 JPWO2021019773A1 (ja) 2021-02-04
JP7283547B2 true JP7283547B2 (ja) 2023-05-30

Family

ID=74230625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536582A Active JP7283547B2 (ja) 2019-08-01 2019-08-01 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20220269856A1 (ja)
JP (1) JP7283547B2 (ja)
WO (1) WO2021019773A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027852A (ja) 2010-07-27 2012-02-09 Nippon Telegr & Teleph Corp <Ntt> 本文抽出方法、本文抽出装置、本文抽出プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668888B2 (en) * 2003-06-05 2010-02-23 Sap Ag Converting object structures for search engines
WO2011024716A1 (ja) * 2009-08-26 2011-03-03 日本電気株式会社 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム
JP2011100403A (ja) * 2009-11-09 2011-05-19 Sony Corp 情報処理装置、情報抽出方法、プログラム及び情報処理システム
EP3430531A1 (en) * 2016-03-16 2019-01-23 Maluuba Inc. Parallel-hierarchical model for machine comprehension on small data
US20170371956A1 (en) * 2016-06-23 2017-12-28 International Business Machines Corporation System and method for precise domain question and answer generation for use as ground truth
US20180300315A1 (en) * 2017-04-14 2018-10-18 Novabase Business Solutions, S.A. Systems and methods for document processing using machine learning
JP7215098B2 (ja) * 2018-11-12 2023-01-31 富士通株式会社 学習プログラム、学習方法および学習装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027852A (ja) 2010-07-27 2012-02-09 Nippon Telegr & Teleph Corp <Ntt> 本文抽出方法、本文抽出装置、本文抽出プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
米井由美 他2名,XML文書における構造の素性を用いた照応による人物検索,Journal of the DBSJ,日本,日本データベース学会,2008年06月27日,Vol.7,No.1,151-156頁,ISSN 1883-1060

Also Published As

Publication number Publication date
JPWO2021019773A1 (ja) 2021-02-04
WO2021019773A1 (ja) 2021-02-04
US20220269856A1 (en) 2022-08-25

Similar Documents

Publication Publication Date Title
JP6842167B2 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
KR20180048624A (ko) 질의 응답 시스템의 훈련 장치 및 그것을 위한 컴퓨터 프로그램
CN105138575A (zh) 语音文本串的解析方法和装置
CN101872350A (zh) 网页正文抽取方法和装置
WO2004025463A1 (ja) 要件定義方法、ソフトウェアの開発方法、及び、要件単語の変更方法並びに新規規定方法
US20220414463A1 (en) Automated troubleshooter
WO2011008862A2 (en) Markup language-based authoring and runtime environment for interactive content platform
JP2019101149A (ja) 設問自動生成プログラム及び設問自動生成装置
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
JP7283547B2 (ja) 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム
JP6062829B2 (ja) 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム
JP2019133229A (ja) 質問応答システムの訓練データの作成方法及び質問応答システムの訓練方法
JP7474260B2 (ja) 構造化文書処理装置、構造化文書処理方法及びプログラム
CN110110050B (zh) 一种新闻事件生成式问答数据集的生成方法
KR102569381B1 (ko) 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법
Shawar et al. Using the Corpus of Spoken Afrikaans to generate an Afrikaans chatbot
CN114973798A (zh) 一种单词学习卡生成方法及装置
CN110830851B (zh) 一种视频文案的制作方法及装置
WO2021124489A1 (ja) 要約学習方法、要約学習装置及びプログラム
CN113688606A (zh) 一种自动化进行文档报告写作的方法
Daryanto et al. Indonesian AMR-to-Text Generation by Language Model Fine-tuning
JP2007279795A (ja) プログラムによって表示される画面が仕様を満たすか判断するシステム
CN112149399B (zh) 基于rpa及ai的表格信息抽取方法、装置、设备及介质
Kinnaird et al. TED talks as data
CN110728116B (zh) 一种视频文案配音稿的生成方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R150 Certificate of patent or registration of utility model

Ref document number: 7283547

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150