JP6665050B2 - 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム - Google Patents

項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム Download PDF

Info

Publication number
JP6665050B2
JP6665050B2 JP2016143807A JP2016143807A JP6665050B2 JP 6665050 B2 JP6665050 B2 JP 6665050B2 JP 2016143807 A JP2016143807 A JP 2016143807A JP 2016143807 A JP2016143807 A JP 2016143807A JP 6665050 B2 JP6665050 B2 JP 6665050B2
Authority
JP
Japan
Prior art keywords
item
value
text
extracted
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016143807A
Other languages
English (en)
Other versions
JP2018014003A (ja
Inventor
いつみ 斉藤
いつみ 斉藤
九月 貞光
九月 貞光
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016143807A priority Critical patent/JP6665050B2/ja
Publication of JP2018014003A publication Critical patent/JP2018014003A/ja
Application granted granted Critical
Publication of JP6665050B2 publication Critical patent/JP6665050B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラムに係り、特に、抽出対象とする項目の値をテキストから抽出するための項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラムに関する。
従来より、Wikipedia(R)のエントリ-リダイレクト間を対象にした同義関係抽出方法が知られている(非特許文献1)。この方法では、Wikipedia(R)のリダイレクト関係を用いて、同義関係にある単語の抽出を行っている。
また、Wikipedia(R)を用いた人物別名の抽出と人物判別のためのラベル付与方法が知られている(非特許文献2)。この方法では、本文中に、別名として記述されやすい表現のパタンを設定し、そのパタンに合致した対象に対して別名を抽出している。例えば、パタン「Xと呼ばれ」、「Xとも称され」を用いて、別名を抽出している。
大野潤一ら、「Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出」、言語処理学会、第17回年次大会 発表論文集、p.296-299、2011年3月. 齊藤大樹ら、「Wikipediaを用いた人物別名の抽出と人物判別のためのラベル付与」、言語処理学会、第20回年次大会 発表論文集、p.63-66、2014年3月.
しかし、タイトルに関する別称は記事本文中に書かれることが多く、上記非特許文献1に記載のように、リダイレクト関係だけからではカバーできない。
実際の別称の記述パタンは多様であり、人手で設定したパタンでは網羅性は高くない。ただし、人手でパタンを拡充していくのは高コストである。実際に、非特許文献2では人物名の別名のみを対象としているが、Wikipedia(R)中には人物名以外にも別名は多く記載されている。
本発明は、上記事情を鑑みて成されたものであり、高い網羅性で、抽出対象とする項目の値を抽出するための抽出モデルを学習することができる項目値抽出モデル学習装置、方法、及びプログラムを提供することを目的とする。
また、高い網羅性で、抽出対象とする項目の値を抽出することができる項目値抽出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る項目値抽出モデル学習装置は、抽出対象とする項目を定める項目名として指定された項目名、及び値と前記値に関する項目名と項目の値との組を含む構造化データと前記値を含むテキストとの組からなるテキストデータ群を受け付ける入力部と、前記テキストデータ群の構造化データの各々から、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出する指定項目抽出部と、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストを、疑似教師データとして作成する疑似教師データ作成部と、前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する抽出モデル学習部と、を含んで構成されている。
第2の発明に係る項目値抽出モデル学習方法は、入力部が、抽出対象とする項目を定める項目名として指定された項目名、及び値と前記値に関する項目名と項目の値との組を含む構造化データと前記値を含むテキストとの組からなるテキストデータ群を受け付け、指定項目抽出部が、前記テキストデータ群の構造化データの各々から、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出し、疑似教師データ作成部が、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストを、疑似教師データとして作成し、抽出モデル学習部が、前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する。
第3の発明に係る項目値抽出装置は、値と前記値に関する項目名と項目の値との組を含む構造化データと前記値を含むテキストとの組からなるテキストデータ群に含まれる前記構造化データの各々から抽出された抽出対象とする項目を定める項目名として指定された項目名の値に対して、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部と、入力されたテキストから前記素性を抽出する素性抽出部と、前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する項目値抽出部と、を含んで構成されている。
第4の発明に係る項目値抽出方法は、値と前記値に関する項目名と項目の値との組を含む構造化データと前記値を含むテキストとの組からなるテキストデータ群に含まれる前記構造化データの各々から抽出された抽出対象とする項目を定める項目名として指定された項目名の値に対して、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部を含む項目値抽出装置における項目値抽出方法であって、素性抽出部が、入力されたテキストから前記素性を抽出し、項目値抽出部が、前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する。
第5の発明に係る項目値抽出モデル学習装置は、タイトルと、項目名と項目の値の組を含む構造化データと、前記値を含むテキストとからなる記事群、及び前記タイトルに関して抽出対象とする項目を定める項目名として指定された項目名を受け付ける入力部と、前記記事群の構造化データの各々から、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出する指定項目抽出部と、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストを、疑似教師データとして作成する疑似教師データ作成部と、前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する抽出モデル学習部と、を含んで構成されている。
第6の発明に係る項目値抽出装置は、タイトルと、項目名と項目の値の組を含む構造化データと、前記値を含むテキストとからなる記事群に含まれる構造化データの各々から抽出された前記タイトルに関して抽出対象とする項目を定める項目名として指定された項目名の値に対して、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部と、入力されたテキストから前記素性を抽出する素性抽出部と、前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する項目値抽出部と、を含んで構成されている。
第7の発明に係るプログラムは、上記の項目値抽出モデル学習装置又は上記の項目値抽出装置の各部として機能させるためのプログラムである。
本発明の項目値抽出モデル学習装置、方法、及びプログラムによれば、構造化データの各々から、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出し、抽出された前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストを、疑似教師データとして作成し、疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、抽出モデルを学習することにより、高い網羅性で、抽出対象とする項目の値を抽出するための抽出モデルを学習することができる、という効果が得られる。
本発明の項目値抽出装置、方法、及びプログラムによれば、構造化データの各々から抽出された抽出対象とする項目を定める項目名として指定された項目名の値に対して、アノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された抽出モデルと、入力されたテキストから抽出された前記素性とに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出することにより、高い網羅性で、抽出対象とする項目の値を抽出することができる、という効果が得られる。
InfoboxのWeb上の表示を示す図である。 InfoboxのXMLでの表記を示す図である。 記事のInfobox及びテキストの例を示す図である。 本発明の第1の実施の形態に係る項目値抽出モデル学習装置の構成を示すブロック図である。 入力される記事群を示す図である。 構造化データの例を示す図である。 タイトルと抽出される別称とのペアを示す図である。 疑似教師データを作成する方法を説明するための図である。 本発明の第1の実施の形態に係る項目値抽出装置の構成を示すブロック図である。 入力される記事を示す図である。 入力された記事から抽出された別称を示す図である。 本発明の第1の実施の形態に係る項目値抽出モデル学習装置における項目値抽出モデル学習処理ルーチンを示すフローチャートである。 本発明の第1の実施の形態に係る項目値抽出装置における項目値抽出処理ルーチンを示すフローチャートである。 本発明の第2の実施の形態に係る項目値抽出モデル学習装置の構成を示すブロック図である。 入力されるテキストデータ群を示す図である。 本発明の第2の実施の形態に係る項目値抽出装置の構成を示すブロック図である。 入力されるテキストを示す図である。 本発明の第2の実施の形態に係る項目値抽出モデル学習装置における項目値抽出モデル学習処理ルーチンを示すフローチャートである。 本発明の第2の実施の形態に係る項目値抽出装置における項目値抽出処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<概要>
記事に含まれる構造化データ(例えば、Infobox)に記述された別称情報から、記事のテキスト中での別称記述正解データを疑似的に生成し、記事のテキスト中からのタイトルの別称を抽出するための抽出モデルを構築する。これにより、事前に設定するのは、構造化データの項目名の指定だけであり、低コストで大量の別称記述パタンが得られるとともに、別称を抽出する抽出モデルを構築することができる。
ここで、Infoboxとは、図1のWeb上の表示と図2のXMLでの表記に示すように、Wikipedia(R)中の、情報が構造化されている部分であり、項目名とその値が容易に抽出できる構造となっている。
また、Wikipedia(R)の記事の中には、図3(A)、図3(B)に示すように、Infoboxにもテキストにもタイトルの別称が記述されている記事が存在する。両方に別称が書かれている記事に関して、Infoboxの方からは別称を自動獲得可能なので、その情報からテキスト中の記述パタンを特定し、抽出モデルの学習データとして使用する。
[第1の実施の形態]
<本発明の第1の実施の形態に係る項目値抽出モデル学習装置の構成>
次に、本発明の第1の実施の形態に係る項目値抽出モデル学習装置の構成について説明する。図4に示すように、本発明の第1の実施の形態に係る項目値抽出モデル学習装置100は、CPUと、RAMと、後述する項目値抽出モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この項目値抽出モデル学習装置100は、機能的には図4に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、図5に示すような、タイトルとテキストと構造化データからなる記事の群である記事群を受け付ける。構造化データは、項目名と項目の値の組を含んでおり、テキストは、当該項目の値を含んでいる。
また、入力部10は、受け付けた記事群の各記事から、タイトル、構造化データ、テキスト部分を抽出する。例えば、<body>の最初の<h1>の値をタイトルとして抽出する。
また、入力部10は、タイトルの別称を定める項目名として指定された項目名リストを受け付ける。例えば、以下のような項目名リストを受け付ける。
[略称|通称|呼称|愛称|英語名称|英文社名|英名|別称|ニックネーム|別名|Alias|Nickname|略]
演算部20は、記事群記憶部22と、指定項目抽出部24と、疑似教師データ作成部26と、素性抽出部28と、抽出モデル学習部30とを含んで構成されている。
記事群記憶部22は、入力部10によって受け付けた記事群、及び項目名リストを記憶している。
指定項目抽出部24は、記事群の各記事に含まれる構造化データの各々から、指定された項目名リストと一致する項目の値を、タイトルの別称として抽出する。例えば、図6に示すように、構造化データから、指定された項目名リストに含まれる“ニックネーム”と一致する項目名に対応する項目の値“水の怪物”を抽出する(図7参照)。ただし、リンク情報の削除や、複数候補の分割などのクリーニングも行う。
疑似教師データ作成部26は、指定項目抽出部24によって抽出された別称に基づいて、当該記事のテキストにおける当該別称が記述されている箇所を特定し、特定された記述箇所に、別称であることを示すアノテーションを付与し、アノテーションが付与されたテキストを、疑似教師データとして作成する。
このとき、記事において、項目名リストと一致する項目名に対応する項目の値が最初に出現した箇所を特定し、アノテーションを付与する。この際、最初に出現した箇所に限定するのは、Wikipedia(R)記事の特性として別称が初出の際に別称であることの説明がなされることが多いためである。
これにより、図8に示すように、記事のテキスト中での多様な別称記述パタンを自動アノテーションすることができる。
素性抽出部28は、疑似教師データ作成部26によって作成された各疑似教師データのテキストに対して、素性ベクトルを生成する。例えば、テキストの各文字の文字表記や各単語の分散表現などに基づいて、素性ベクトルを生成する。
抽出モデル学習部30は、素性抽出部28によって各疑似教師データのテキストから抽出された素性ベクトルと、各疑似教師データのテキストに付与されたアノテーションとに基づいて、記事のテキストから、タイトルの別称の値を抽出するための抽出モデルを学習し、出力部50により出力する。
具体的には、抽出モデル学習部30は、各疑似教師データのテキストに対して、アノテーションに応じて、文字レベルのタグ(例えば、BIOタグ)を付与する。例えば、アノテーションが付与された箇所以外はOタグ(その他)をつけ、アノテーションが付与された箇所には、抽出したい文字列の始まりを示すBタグ、抽出したい文字列の中を示すIタグを付与する。例えば、アノテーションが付与された箇所が、3文字の表記である場合には、3つの文字に、Bタグ、Iタグ、Iタグを付与する。
そして、抽出モデル学習部30は、各疑似教師データについて生成された素性ベクトルと、付与されたタグと基づいて、文字レベルの系列ラベリングモデルを用いて、抽出モデルを学習する。抽出モデルは、CRFなど一般的な系列ラベリング手法(例えば、非特許文献3に記載の手法)を用いて構築することができる。
[非特許文献3]:J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the 18th International Conference on Machine Learning, 2001.
<本発明の第1の実施の形態に係る項目値抽出装置の構成>
次に、本発明の第1の実施の形態に係る項目値抽出装置の構成について説明する。図9に示すように、本発明の第1の実施の形態に係る項目値抽出装置150は、CPUと、RAMと、後述する項目値抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この項目値抽出装置150は、機能的には図9に示すように入力部60と、演算部70と、出力部90とを備えている。
入力部60は、図10に示すような、タイトルとテキストとからなる記事を受け付ける。受け付ける記事には、構造化データが含まれておらず、テキストは、タイトルの別称を含んでいる。また、入力部60は、受け付けた記事から、入力部10と同様に、タイトル、テキスト部分を抽出する。
演算部70は、素性抽出部72と、抽出モデル記憶部74と、タイトル項目値抽出部76とを含んで構成されている。
素性抽出部72は、入力部60で受け付けた記事のテキストに対して、素性抽出部28と同様の素性ベクトルを生成する。
抽出モデル記憶部74には、項目値抽出モデル学習装置100によって学習された抽出モデルが格納されている。
タイトル項目値抽出部76は、素性抽出部72によって抽出された素性ベクトルと、抽出モデル記憶部74に記憶された抽出モデルとに基づいて、系列ラベリングを行い、記事のテキストの各文字に、タグ(例えば、BIOタグ)を付与し、タイトルの別称を抽出する。例えば、図11の例では、“HHH”の3つの文字に、Bタグ、Iタグ、Iタグが付与されれば、この部分をタイトルの別称として抽出し、タイトルと別称とのペアを出力部90により出力する。
なお、本実施の形態では、別称の抽出対象箇所を、テキストにおけるタイトルの定義文部分とする。疑似正解データを作成した結果を集計した結果、別称が記述されている箇所の約85%が定義文部分であったため、この部分に限定することで効率的な抽出が可能になる。
<本発明の第1の実施の形態に係る項目値抽出モデル学習装置の作用>
次に、本発明の第1の実施の形態に係る項目値抽出モデル学習装置100の作用について説明する。入力部10においてタイトルとテキストと構造化データからなる記事群を受け付けると、受け付けた記事群の各記事から、タイトル、構造化データ、テキスト部分を抽出し、記事群記憶部22に格納する。
また、入力部10において、タイトルの別称を定める項目名として指定された項目名リストを受け付けると、項目名リストを記事群記憶部22に格納する。そして、項目値抽出モデル学習装置100は、図12に示す項目値抽出モデル学習処理ルーチンを実行する。
まず、ステップS100では、記事群記憶部22に格納されている記事群の各記事の構造化データから、指定された項目名リストと一致する項目の値を、タイトルの別称として抽出する。
次に、ステップS102では、記事群記憶部22に格納されている記事群の各記事に対して、当該記事のテキストにおいて、上記ステップS100で当該記事の構造化データから抽出されたタイトルの別称が記述されている箇所を特定し、特定された記述箇所に、タイトルの別称であることを示すアノテーションを付与して、疑似教師データを作成する。
ステップS104では、上記ステップS102で作成された各疑似教師データのテキストに対して、テキストの各文字の文字表記や各単語の分散表現などに基づいて、素性ベクトルを生成する。ステップS106では、各疑似教師データのテキストに対して、アノテーションに応じて、文字レベルのタグを付与する。
そして、ステップS108において、上記ステップS106で各疑似教師データについて生成された素性ベクトルと、上記ステップS104で各疑似教師データのテキストに付与されたタグと基づいて、文字レベルの系列ラベリングモデルを用いて、抽出モデルを学習し、出力部50により出力して、項目値抽出モデル学習処理ルーチンを終了する。
<本発明の第1の実施の形態に係る項目値抽出装置の作用>
次に、本発明の第1の実施の形態に係る項目値抽出装置150の作用について説明する。まず、項目値抽出モデル学習装置100によって学習された抽出モデルが、項目値抽出装置150の抽出モデル記憶部74に格納される。また、入力部60においてタイトルとテキストからなる記事を受け付けると、項目値抽出装置150は、図13に示す項目値抽出処理ルーチンを実行する。
ステップS110において、入力部60で受け付けた記事のテキストに対して、テキストの各文字の文字表記や各単語の分散表現などに基づいて、素性ベクトルを生成する。
そして、ステップS112において、上記ステップS110で生成された素性ベクトルと、抽出モデル記憶部74に格納されている抽出モデルと基づいて、系列ラベリングを行い、記事のテキストの各文字に、タグを付与し、付与されたタグに基づいて、タイトルの別称を抽出し、記事のタイトルと別称とのペアを出力部90により出力して項目値抽出処理ルーチンを終了する。
以上説明したように、本発明の第1の実施の形態に係る項目値抽出モデル学習装置によれば、記事群の構造化データの各々から、指定された項目名リストと一致する項目の値を、タイトルの別称として抽出し、タイトルの別称であることを示すアノテーションが付与されたテキストを、疑似教師データとして作成し、疑似教師データのテキストから抽出される素性と、テキストに付与されたアノテーションとに基づいて、抽出モデルを学習することにより、高い網羅性で、タイトルの別称を抽出するための抽出モデルを学習することができる。
また、本発明の第1の実施の形態に係る項目値抽出装置によれば、項目値抽出モデル学習装置によって予め学習された抽出モデルと、入力されたテキストから抽出された前記素性とに基づいて、記事のテキストから、タイトルの別称を抽出することにより、高い網羅性で、タイトルの別称を抽出することができる。
また、Wikipedia(R)の記事のInfoboxとテキストの記述をリンクさせることで、自動的にテキスト中での別称記述箇所の特定を行い、モデル構築を行う。これにより、あらかじめ自然文のパタンを与えることなく、自然文の記述パタンを獲得・拡張することが可能であり、低コストで再現率の高い別称抽出モデルを構築することができる。また、別称は、値が多様であり、かつ、新規のものがつぎつぎに出てくるものであり、自動的に抽出できることが特に有効である。
なお、上記の実施の形態では、タイトルの別称を抽出対象とする場合を例に説明したが、これに限定されるものではなく、別称以外の、タイトルに関する他の項目を、抽出対象としてもよい。
[第2の実施の形態]
次に、第2の実施の形態について説明する。第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、テキストと構造化データの組であるテキストデータから、抽出対象項目の値を抽出するための抽出モデルを学習している点が、第1の実施の形態と異なっている。
<本発明の第2の実施の形態に係る項目値抽出モデル学習装置の構成>
次に、本発明の第2の実施の形態に係る項目値抽出モデル学習装置の構成について説明する。図14に示すように、本発明の第2の実施の形態に係る項目値抽出モデル学習装置200は、入力部10と、演算部220と、出力部50とを備えている。
入力部10は、図15に示すような、テキストと構造化データとの組からなるテキストデータの群であるテキストデータ群を受け付ける。構造化データは、値(例えば、対象語)と当該値に関する項目名と項目の値との3つ組を含んでおり、テキストは、対象語と、当該項目の値とを含んでいる。
また、入力部10は、受け付けたテキストデータ群の各テキストデータから、構造化データ、テキスト部分を抽出する。
また、入力部10は、対象語に関する抽出対象の項目(例えば、別称)を定める項目名として指定された項目名リストを受け付ける。
演算部220は、テキストデータ群記憶部222と、指定項目抽出部24と、疑似教師データ作成部26と、素性抽出部28と、抽出モデル学習部30とを含んで構成されている。
テキストデータ群記憶部222は、入力部10によって受け付けたテキストデータ群、及び項目名リストを記憶している。
指定項目抽出部24は、テキストデータ群の各テキストデータに含まれる構造化データの各々から、指定された項目名リストと一致する項目の値を、抽出対象の項目の値として抽出する。
疑似教師データ作成部26は、指定項目抽出部24によって抽出された、抽出対象の項目の値に基づいて、当該テキストデータのテキストにおける当該抽出対象の項目の値が記述されている箇所を特定し、特定された記述箇所に、抽出対象の項目の値であることを示すアノテーションが付与し、対象語が記述されている箇所に、対象語であることを示すアノテーションを付与し、アノテーションが付与されたテキストを、疑似教師データとして作成する。
抽出モデル学習部30は、疑似教師データ作成部26によって作成された疑似教師データのテキストから抽出される素性と、当該疑似教師データのテキストに付与されたアノテーションとに基づいて、上記第1の実施の形態と同様に、テキストデータのテキストから、抽出対象の項目の値を抽出するための抽出モデルを学習し、出力部50により出力する。なお、本実施の形態では、素性として、対象語に関する素性も含む。
<本発明の第2の実施の形態に係る項目値抽出装置の構成>
次に、本発明の第2の実施の形態に係る項目値抽出装置の構成について説明する。図16に示すように、本発明の第2の実施の形態に係る項目値抽出装置250は、入力部60と、演算部270と、出力部90とを備えている。
入力部60は、図17に示すような、テキストと対象語とを受け付ける。テキストには、構造化データが付いておらず、テキストは、対象語と抽出対象の項目の値とを含んでいる。
演算部270は、素性抽出部72と、抽出モデル記憶部74と、項目値抽出部276とを含んで構成されている。
素性抽出部72は、入力部60で受け付けたテキストに対して、素性抽出部28と同様の素性ベクトルを生成する。なお、本実施の形態では、素性として、対象語に関する素性も含む。
抽出モデル記憶部74には、項目値抽出モデル学習装置200によって学習された抽出モデルが格納されている。
項目値抽出部276は、素性抽出部72によって抽出された素性ベクトルと、抽出モデル記憶部74に記憶された抽出モデルとに基づいて、系列ラベリングを行い、テキストの各文字に、タグを付与し、抽出対象の項目の値を抽出し、出力部90により出力する。
<本発明の第2の実施の形態に係る項目値抽出モデル学習装置の作用>
次に、本発明の第2の実施の形態に係る項目値抽出モデル学習装置200の作用について説明する。入力部10においてテキストと構造化データの組からなるテキストデータ群を受け付けると、受け付けたテキストデータ群の各テキストデータから、構造化データ及びテキスト部分を抽出し、テキストデータ群記憶部222に格納する。
また、入力部10において、抽出対象の項目を定める項目名として指定された項目名リストを受け付けると、項目名リストをテキストデータ群記憶部222に格納する。そして、項目値抽出モデル学習装置200は、図18に示す項目値抽出モデル学習処理ルーチンを実行する。なお、第1の実施の形態と同様の処理については同一符号を付して詳細な説明を省略する。
まず、ステップS200では、テキストデータ群記憶部222に格納されているテキストデータ群の各テキストデータの構造化データから、指定された項目名リストと一致する項目の値を、抽出対象の項目の値として抽出する。
次に、ステップS202では、テキストデータ群記憶部222に格納されているテキストデータ群の各テキストデータに対して、当該テキストデータのテキストにおいて、上記ステップS200で当該テキストデータの構造化データから抽出された抽出対象の項目の値が記述されている箇所を特定し、特定された記述箇所に、抽出対象の項目の値であることを示すアノテーションを付与し、当該テキストデータの構造化データに含まれる対象語が記述されている箇所に、アノテーションを付与し、疑似教師データを作成する。
ステップS104では、上記ステップS202で作成された各疑似教師データのテキストに対して、素性ベクトルを生成する。ステップS106では、各疑似教師データのテキストに対して、文字レベルのタグを付与する。
そして、ステップS108において、上記ステップS106で各疑似教師データについて生成された素性ベクトルと、上記ステップS104で各疑似教師データのテキストに付与されたタグと基づいて、抽出モデルを学習し、出力部50により出力して、項目値抽出モデル学習処理ルーチンを終了する。
<本発明の第2の実施の形態に係る項目値抽出装置の作用>
次に、本発明の第2の実施の形態に係る項目値抽出装置150の作用について説明する。まず、項目値抽出モデル学習装置200によって学習された抽出モデルが、項目値抽出装置250の抽出モデル記憶部74に格納される。また、入力部60において対象語に関するテキスト及び対象語を受け付けると、項目値抽出装置250は、図19に示す項目値抽出処理ルーチンを実行する。
ステップS210において、入力部60で受け付けたテキストに対して、テキストの各文字の文字表記や各単語の分散表現、対象語などに基づいて、素性ベクトルを生成する。
そして、ステップS212において、上記ステップS210で生成された素性ベクトルと、抽出モデル記憶部74に格納されている抽出モデルと基づいて、系列ラベリングを行い、テキストの各文字に、タグを付与し、付与されたタグに基づいて、抽出対象の項目の値を抽出し、出力部90により出力して項目値抽出処理ルーチンを終了する。
以上説明したように、本発明の第2の実施の形態に係る項目値抽出モデル学習装置によれば、テキストデータ群の構造化データの各々から、指定された項目名リストと一致する項目の値を、抽出対象とする項目の値として抽出し、抽出された抽出対象とする項目の値であることを示すアノテーションが付与されたテキストを、疑似教師データとして作成し、疑似教師データのテキストから抽出される素性と、テキストに付与されたアノテーションとに基づいて、抽出モデルを学習することにより、高い網羅性で、抽出対象とする項目の値を抽出するための抽出モデルを学習することができる。
また、本発明の第2の実施の形態に係る項目値抽出装置によれば、項目値抽出モデル学習装置によって予め学習された抽出モデルと、入力されたテキストから抽出された素性とに基づいて、テキストから、抽出対象とする項目の値を抽出することにより、高い網羅性で、抽出対象とする項目の値を抽出することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記第1の実施の形態及び第2の実施の形態では、BIOタグを、文字レベルで付与する場合を例に説明したが、これに限定されるものではなく、単語レベルでタグ付けを行ってもよい。この場合には、事前に、テキストに対して単語分割を行うようにすればよい。
また、上記第2の実施の形態において、対象語を入力とし、テキストから、抽出対象とする項目の値を抽出する場合を例に説明したが、これに限定されるものではなく、テキストから、抽出対象とする項目の関係となる、対象語と、項目の値とのペアを抽出するようにしてもよい。
10、60 入力部
20、70、220、270 演算部
22 記事群記憶部
24 指定項目抽出部
26 疑似教師データ作成部
28、72 素性抽出部
30 抽出モデル学習部
50、90 出力部
74 抽出モデル記憶部
76 タイトル項目値抽出部
100、200 項目値抽出モデル学習装置
150、250 項目値抽出装置
222 テキストデータ群記憶部
276 項目値抽出部

Claims (8)

  1. 抽出対象とする項目を定める項目名として指定された項目名のリスト並びに対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語と3つを複数組含むテキストデータ群を受け付ける入力部と、
    前記テキストデータ群の構造化データの各々から、前記リストに含まれる、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出する指定項目抽出部と、
    前記テキストから、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値である箇所を特定し、前記特定された箇所に、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションを付与し、前記アノテーションが付与された前記テキストを、疑似教師データとして作成する疑似教師データ作成部と、
    前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する抽出モデル学習部と、
    を含む項目値抽出モデル学習装置。
  2. 対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語と3つを複数組含むテキストデータ群に含まれる前記構造化データの各々から抽出された抽出対象とする項目を定める項目名として指定された項目名のリストに含まれる、前記指定された項目名と一致する項目の値に対して、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部と、
    入力されたテキストから前記素性を抽出する素性抽出部と、
    前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する項目値抽出部と、
    を含む項目値抽出装置。
  3. 前記対象語はタイトルであり、
    前記テキストデータ群は、前記タイトルに関する項目名と項目の値の組を含む構造化データと、前記タイトルに関する前記項目の値を含むテキストと、前記タイトルとの3つ組からなる記事の記事群であり、
    前記入力部は、前記記事群、及び前記項目名のリストを受け付け
    前記疑似教師データ作成部は、前記記事群の構造化データの各々から、前記リストに含まれる、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出
    前記疑似教師データ作成部は、前記テキストから、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値である箇所を特定し、前記特定された箇所に、前記タイトルに関する、前記抽出対象とする項目の値であることを示すアノテーションを付与し、前記アノテーションが付与された前記テキストを、疑似教師データとして作成す
    請求項1記載の項目値抽出モデル学習装置。
  4. 前記抽出対象とする項目を、別称とした請求項1又は3記載の項目値抽出モデル学習装置。
  5. 入力部が、抽出対象とする項目を定める項目名として指定された項目名のリスト並びに対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語と3つを複数組含むテキストデータ群を受け付け、
    指定項目抽出部が、前記テキストデータ群の構造化データの各々から、前記リストに含まれる、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出し、
    疑似教師データ作成部が、前記テキストから、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値である箇所を特定し、前記特定された箇所に、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションを付与し、前記アノテーションが付与された前記テキストを、疑似教師データとして作成し、
    抽出モデル学習部が、前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する
    項目値抽出モデル学習方法。
  6. 対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語と3つを複数組含むテキストデータ群に含まれる前記構造化データの各々から抽出された抽出対象とする項目を定める項目名として指定された項目名のリストに含まれる、前記指定された項目名と一致する項目の値に対して、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部を含む項目値抽出装置における項目値抽出方法であって、
    素性抽出部が、入力されたテキストから前記素性を抽出し、
    項目値抽出部が、前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する
    項目値抽出方法。
  7. コンピュータを、請求項1又は請求項3に記載の項目値抽出モデル学習装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項2に記載の項目値抽出装置の各部として機能させるためのプログラム。
JP2016143807A 2016-07-21 2016-07-21 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム Active JP6665050B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016143807A JP6665050B2 (ja) 2016-07-21 2016-07-21 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016143807A JP6665050B2 (ja) 2016-07-21 2016-07-21 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018014003A JP2018014003A (ja) 2018-01-25
JP6665050B2 true JP6665050B2 (ja) 2020-03-13

Family

ID=61019500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016143807A Active JP6665050B2 (ja) 2016-07-21 2016-07-21 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6665050B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7298286B2 (ja) * 2019-05-10 2023-06-27 富士通株式会社 モデル提供プログラム、モデル提供方法及びモデル提供装置
CN113407610B (zh) * 2021-06-30 2023-10-24 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
JP2018014003A (ja) 2018-01-25

Similar Documents

Publication Publication Date Title
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
US8583420B2 (en) Method for the extraction of relation patterns from articles
JP6238494B2 (ja) 文法コンパイル方法、語義解析方法、及び装置
CN112926327B (zh) 一种实体识别方法、装置、设备及存储介质
KR20150070171A (ko) 스트링 변환의 귀납적 합성을 위한 랭킹 기법
Sidorov et al. Computing text similarity using tree edit distance
CN104699797B (zh) 一种网页数据结构化解析方法和装置
US20080243905A1 (en) Attribute extraction using limited training data
CN107967152B (zh) 基于最小分支路径函数胎记的软件局部抄袭证据生成方法
Nuhn et al. Beam search for solving substitution ciphers
Darwish et al. Using Stem-Templates to Improve Arabic POS and Gender/Number Tagging.
Urmi et al. A corpus based unsupervised Bangla word stemming using N-gram language model
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
Sasidhar et al. A survey on named entity recognition in Indian languages with particular reference to Telugu
JP6665050B2 (ja) 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム
CN107273354A (zh) 一种融合谓词先验信息的语义角色标注方法
JP2007041767A (ja) テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
CN112559691B (zh) 语义相似度的确定方法及确定装置、电子设备
JP6334587B2 (ja) 単語抽出装置、方法、及びプログラム
Kumar et al. Punjabi deconverter for generating Punjabi from universal networking language
JP2008021139A (ja) 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム
Harmeling An extensible probabilistic transformation-based approach to the third recognizing textual entailment challenge
JP2019144844A (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
JP2007164462A (ja) 質問応答システム、質問応答方法及び質問応答プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190521

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190722

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200219

R150 Certificate of patent or registration of utility model

Ref document number: 6665050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150