JP6665050B2

JP6665050B2 - 項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラム

Info

Publication number: JP6665050B2
Application number: JP2016143807A
Authority: JP
Inventors: いつみ斉藤; 九月貞光; 久子浅野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-07-21
Filing date: 2016-07-21
Publication date: 2020-03-13
Anticipated expiration: 2036-07-21
Also published as: JP2018014003A

Description

本発明は、項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラムに係り、特に、抽出対象とする項目の値をテキストから抽出するための項目値抽出モデル学習装置、項目値抽出装置、方法、及びプログラムに関する。

従来より、Wikipedia（Ｒ）のエントリ-リダイレクト間を対象にした同義関係抽出方法が知られている（非特許文献１）。この方法では、Wikipedia（Ｒ）のリダイレクト関係を用いて、同義関係にある単語の抽出を行っている。

また、Wikipedia（Ｒ）を用いた人物別名の抽出と人物判別のためのラベル付与方法が知られている（非特許文献２）。この方法では、本文中に、別名として記述されやすい表現のパタンを設定し、そのパタンに合致した対象に対して別名を抽出している。例えば、パタン「Xと呼ばれ」、「Xとも称され」を用いて、別名を抽出している。

大野潤一ら、「Wikipediaのエントリ-リダイレクト間を対象にした同義関係抽出」、言語処理学会、第17回年次大会発表論文集、p．296-299、2011年3月．齊藤大樹ら、「Wikipediaを用いた人物別名の抽出と人物判別のためのラベル付与」、言語処理学会、第20回年次大会発表論文集、p．63-66、2014年3月．

しかし、タイトルに関する別称は記事本文中に書かれることが多く、上記非特許文献１に記載のように、リダイレクト関係だけからではカバーできない。

実際の別称の記述パタンは多様であり、人手で設定したパタンでは網羅性は高くない。ただし、人手でパタンを拡充していくのは高コストである。実際に、非特許文献2では人物名の別名のみを対象としているが、Wikipedia（Ｒ）中には人物名以外にも別名は多く記載されている。

本発明は、上記事情を鑑みて成されたものであり、高い網羅性で、抽出対象とする項目の値を抽出するための抽出モデルを学習することができる項目値抽出モデル学習装置、方法、及びプログラムを提供することを目的とする。

また、高い網羅性で、抽出対象とする項目の値を抽出することができる項目値抽出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る項目値抽出モデル学習装置は、抽出対象とする項目を定める項目名として指定された項目名、及び値と前記値に関する項目名と項目の値との組を含む構造化データと前記値を含むテキストとの組からなるテキストデータ群を受け付ける入力部と、前記テキストデータ群の構造化データの各々から、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出する指定項目抽出部と、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストを、疑似教師データとして作成する疑似教師データ作成部と、前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する抽出モデル学習部と、を含んで構成されている。

第２の発明に係る項目値抽出モデル学習方法は、入力部が、抽出対象とする項目を定める項目名として指定された項目名、及び値と前記値に関する項目名と項目の値との組を含む構造化データと前記値を含むテキストとの組からなるテキストデータ群を受け付け、指定項目抽出部が、前記テキストデータ群の構造化データの各々から、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出し、疑似教師データ作成部が、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストを、疑似教師データとして作成し、抽出モデル学習部が、前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する。

第３の発明に係る項目値抽出装置は、値と前記値に関する項目名と項目の値との組を含む構造化データと前記値を含むテキストとの組からなるテキストデータ群に含まれる前記構造化データの各々から抽出された抽出対象とする項目を定める項目名として指定された項目名の値に対して、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部と、入力されたテキストから前記素性を抽出する素性抽出部と、前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する項目値抽出部と、を含んで構成されている。

第４の発明に係る項目値抽出方法は、値と前記値に関する項目名と項目の値との組を含む構造化データと前記値を含むテキストとの組からなるテキストデータ群に含まれる前記構造化データの各々から抽出された抽出対象とする項目を定める項目名として指定された項目名の値に対して、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部を含む項目値抽出装置における項目値抽出方法であって、素性抽出部が、入力されたテキストから前記素性を抽出し、項目値抽出部が、前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する。

第５の発明に係る項目値抽出モデル学習装置は、タイトルと、項目名と項目の値の組を含む構造化データと、前記値を含むテキストとからなる記事群、及び前記タイトルに関して抽出対象とする項目を定める項目名として指定された項目名を受け付ける入力部と、前記記事群の構造化データの各々から、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出する指定項目抽出部と、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストを、疑似教師データとして作成する疑似教師データ作成部と、前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する抽出モデル学習部と、を含んで構成されている。

第６の発明に係る項目値抽出装置は、タイトルと、項目名と項目の値の組を含む構造化データと、前記値を含むテキストとからなる記事群に含まれる構造化データの各々から抽出された前記タイトルに関して抽出対象とする項目を定める項目名として指定された項目名の値に対して、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部と、入力されたテキストから前記素性を抽出する素性抽出部と、前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する項目値抽出部と、を含んで構成されている。

第７の発明に係るプログラムは、上記の項目値抽出モデル学習装置又は上記の項目値抽出装置の各部として機能させるためのプログラムである。

本発明の項目値抽出モデル学習装置、方法、及びプログラムによれば、構造化データの各々から、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出し、抽出された前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストを、疑似教師データとして作成し、疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、抽出モデルを学習することにより、高い網羅性で、抽出対象とする項目の値を抽出するための抽出モデルを学習することができる、という効果が得られる。

本発明の項目値抽出装置、方法、及びプログラムによれば、構造化データの各々から抽出された抽出対象とする項目を定める項目名として指定された項目名の値に対して、アノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された抽出モデルと、入力されたテキストから抽出された前記素性とに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出することにより、高い網羅性で、抽出対象とする項目の値を抽出することができる、という効果が得られる。

ＩｎｆｏｂｏｘのＷｅｂ上の表示を示す図である。ＩｎｆｏｂｏｘのＸＭＬでの表記を示す図である。記事のＩｎｆｏｂｏｘ及びテキストの例を示す図である。本発明の第１の実施の形態に係る項目値抽出モデル学習装置の構成を示すブロック図である。入力される記事群を示す図である。構造化データの例を示す図である。タイトルと抽出される別称とのペアを示す図である。疑似教師データを作成する方法を説明するための図である。本発明の第１の実施の形態に係る項目値抽出装置の構成を示すブロック図である。入力される記事を示す図である。入力された記事から抽出された別称を示す図である。本発明の第１の実施の形態に係る項目値抽出モデル学習装置における項目値抽出モデル学習処理ルーチンを示すフローチャートである。本発明の第１の実施の形態に係る項目値抽出装置における項目値抽出処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る項目値抽出モデル学習装置の構成を示すブロック図である。入力されるテキストデータ群を示す図である。本発明の第２の実施の形態に係る項目値抽出装置の構成を示すブロック図である。入力されるテキストを示す図である。本発明の第２の実施の形態に係る項目値抽出モデル学習装置における項目値抽出モデル学習処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る項目値抽出装置における項目値抽出処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜概要＞

記事に含まれる構造化データ（例えば、Infobox）に記述された別称情報から、記事のテキスト中での別称記述正解データを疑似的に生成し、記事のテキスト中からのタイトルの別称を抽出するための抽出モデルを構築する。これにより、事前に設定するのは、構造化データの項目名の指定だけであり、低コストで大量の別称記述パタンが得られるとともに、別称を抽出する抽出モデルを構築することができる。

ここで、Infoboxとは、図１のWeb上の表示と図２のXMLでの表記に示すように、Wikipedia（Ｒ）中の、情報が構造化されている部分であり、項目名とその値が容易に抽出できる構造となっている。

また、Wikipedia（Ｒ）の記事の中には、図３（Ａ）、図３（Ｂ）に示すように、Infoboxにもテキストにもタイトルの別称が記述されている記事が存在する。両方に別称が書かれている記事に関して、Infoboxの方からは別称を自動獲得可能なので、その情報からテキスト中の記述パタンを特定し、抽出モデルの学習データとして使用する。

［第１の実施の形態］
＜本発明の第１の実施の形態に係る項目値抽出モデル学習装置の構成＞
次に、本発明の第１の実施の形態に係る項目値抽出モデル学習装置の構成について説明する。図４に示すように、本発明の第１の実施の形態に係る項目値抽出モデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する項目値抽出モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この項目値抽出モデル学習装置１００は、機能的には図４に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、図５に示すような、タイトルとテキストと構造化データからなる記事の群である記事群を受け付ける。構造化データは、項目名と項目の値の組を含んでおり、テキストは、当該項目の値を含んでいる。

また、入力部１０は、受け付けた記事群の各記事から、タイトル、構造化データ、テキスト部分を抽出する。例えば、<body>の最初の<h1>の値をタイトルとして抽出する。

また、入力部１０は、タイトルの別称を定める項目名として指定された項目名リストを受け付ける。例えば、以下のような項目名リストを受け付ける。

[略称|通称|呼称|愛称|英語名称|英文社名|英名|別称|ニックネーム|別名|Alias|Nickname|略]

演算部２０は、記事群記憶部２２と、指定項目抽出部２４と、疑似教師データ作成部２６と、素性抽出部２８と、抽出モデル学習部３０とを含んで構成されている。

記事群記憶部２２は、入力部１０によって受け付けた記事群、及び項目名リストを記憶している。

指定項目抽出部２４は、記事群の各記事に含まれる構造化データの各々から、指定された項目名リストと一致する項目の値を、タイトルの別称として抽出する。例えば、図６に示すように、構造化データから、指定された項目名リストに含まれる“ニックネーム”と一致する項目名に対応する項目の値“水の怪物”を抽出する（図７参照）。ただし、リンク情報の削除や、複数候補の分割などのクリーニングも行う。

疑似教師データ作成部２６は、指定項目抽出部２４によって抽出された別称に基づいて、当該記事のテキストにおける当該別称が記述されている箇所を特定し、特定された記述箇所に、別称であることを示すアノテーションを付与し、アノテーションが付与されたテキストを、疑似教師データとして作成する。

このとき、記事において、項目名リストと一致する項目名に対応する項目の値が最初に出現した箇所を特定し、アノテーションを付与する。この際、最初に出現した箇所に限定するのは、Wikipedia（Ｒ）記事の特性として別称が初出の際に別称であることの説明がなされることが多いためである。

これにより、図８に示すように、記事のテキスト中での多様な別称記述パタンを自動アノテーションすることができる。

素性抽出部２８は、疑似教師データ作成部２６によって作成された各疑似教師データのテキストに対して、素性ベクトルを生成する。例えば、テキストの各文字の文字表記や各単語の分散表現などに基づいて、素性ベクトルを生成する。

抽出モデル学習部３０は、素性抽出部２８によって各疑似教師データのテキストから抽出された素性ベクトルと、各疑似教師データのテキストに付与されたアノテーションとに基づいて、記事のテキストから、タイトルの別称の値を抽出するための抽出モデルを学習し、出力部５０により出力する。

具体的には、抽出モデル学習部３０は、各疑似教師データのテキストに対して、アノテーションに応じて、文字レベルのタグ（例えば、ＢＩＯタグ）を付与する。例えば、アノテーションが付与された箇所以外はＯタグ（その他）をつけ、アノテーションが付与された箇所には、抽出したい文字列の始まりを示すＢタグ、抽出したい文字列の中を示すＩタグを付与する。例えば、アノテーションが付与された箇所が、３文字の表記である場合には、３つの文字に、Ｂタグ、Ｉタグ、Ｉタグを付与する。

そして、抽出モデル学習部３０は、各疑似教師データについて生成された素性ベクトルと、付与されたタグと基づいて、文字レベルの系列ラベリングモデルを用いて、抽出モデルを学習する。抽出モデルは、CRFなど一般的な系列ラベリング手法（例えば、非特許文献３に記載の手法）を用いて構築することができる。

［非特許文献３］：J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the 18th International Conference on Machine Learning, 2001.

＜本発明の第１の実施の形態に係る項目値抽出装置の構成＞
次に、本発明の第１の実施の形態に係る項目値抽出装置の構成について説明する。図９に示すように、本発明の第１の実施の形態に係る項目値抽出装置１５０は、ＣＰＵと、ＲＡＭと、後述する項目値抽出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この項目値抽出装置１５０は、機能的には図９に示すように入力部６０と、演算部７０と、出力部９０とを備えている。

入力部６０は、図１０に示すような、タイトルとテキストとからなる記事を受け付ける。受け付ける記事には、構造化データが含まれておらず、テキストは、タイトルの別称を含んでいる。また、入力部６０は、受け付けた記事から、入力部１０と同様に、タイトル、テキスト部分を抽出する。

演算部７０は、素性抽出部７２と、抽出モデル記憶部７４と、タイトル項目値抽出部７６とを含んで構成されている。

素性抽出部７２は、入力部６０で受け付けた記事のテキストに対して、素性抽出部２８と同様の素性ベクトルを生成する。

抽出モデル記憶部７４には、項目値抽出モデル学習装置１００によって学習された抽出モデルが格納されている。

タイトル項目値抽出部７６は、素性抽出部７２によって抽出された素性ベクトルと、抽出モデル記憶部７４に記憶された抽出モデルとに基づいて、系列ラベリングを行い、記事のテキストの各文字に、タグ（例えば、ＢＩＯタグ）を付与し、タイトルの別称を抽出する。例えば、図１１の例では、“ＨＨＨ”の３つの文字に、Ｂタグ、Ｉタグ、Ｉタグが付与されれば、この部分をタイトルの別称として抽出し、タイトルと別称とのペアを出力部９０により出力する。

なお、本実施の形態では、別称の抽出対象箇所を、テキストにおけるタイトルの定義文部分とする。疑似正解データを作成した結果を集計した結果、別称が記述されている箇所の約85％が定義文部分であったため、この部分に限定することで効率的な抽出が可能になる。

＜本発明の第１の実施の形態に係る項目値抽出モデル学習装置の作用＞
次に、本発明の第１の実施の形態に係る項目値抽出モデル学習装置１００の作用について説明する。入力部１０においてタイトルとテキストと構造化データからなる記事群を受け付けると、受け付けた記事群の各記事から、タイトル、構造化データ、テキスト部分を抽出し、記事群記憶部２２に格納する。

また、入力部１０において、タイトルの別称を定める項目名として指定された項目名リストを受け付けると、項目名リストを記事群記憶部２２に格納する。そして、項目値抽出モデル学習装置１００は、図１２に示す項目値抽出モデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、記事群記憶部２２に格納されている記事群の各記事の構造化データから、指定された項目名リストと一致する項目の値を、タイトルの別称として抽出する。

次に、ステップＳ１０２では、記事群記憶部２２に格納されている記事群の各記事に対して、当該記事のテキストにおいて、上記ステップＳ１００で当該記事の構造化データから抽出されたタイトルの別称が記述されている箇所を特定し、特定された記述箇所に、タイトルの別称であることを示すアノテーションを付与して、疑似教師データを作成する。

ステップＳ１０４では、上記ステップＳ１０２で作成された各疑似教師データのテキストに対して、テキストの各文字の文字表記や各単語の分散表現などに基づいて、素性ベクトルを生成する。ステップＳ１０６では、各疑似教師データのテキストに対して、アノテーションに応じて、文字レベルのタグを付与する。

そして、ステップＳ１０８において、上記ステップＳ１０６で各疑似教師データについて生成された素性ベクトルと、上記ステップＳ１０４で各疑似教師データのテキストに付与されたタグと基づいて、文字レベルの系列ラベリングモデルを用いて、抽出モデルを学習し、出力部５０により出力して、項目値抽出モデル学習処理ルーチンを終了する。

＜本発明の第１の実施の形態に係る項目値抽出装置の作用＞
次に、本発明の第１の実施の形態に係る項目値抽出装置１５０の作用について説明する。まず、項目値抽出モデル学習装置１００によって学習された抽出モデルが、項目値抽出装置１５０の抽出モデル記憶部７４に格納される。また、入力部６０においてタイトルとテキストからなる記事を受け付けると、項目値抽出装置１５０は、図１３に示す項目値抽出処理ルーチンを実行する。

ステップＳ1１０において、入力部６０で受け付けた記事のテキストに対して、テキストの各文字の文字表記や各単語の分散表現などに基づいて、素性ベクトルを生成する。

そして、ステップＳ１１２において、上記ステップＳ１１０で生成された素性ベクトルと、抽出モデル記憶部７４に格納されている抽出モデルと基づいて、系列ラベリングを行い、記事のテキストの各文字に、タグを付与し、付与されたタグに基づいて、タイトルの別称を抽出し、記事のタイトルと別称とのペアを出力部９０により出力して項目値抽出処理ルーチンを終了する。

以上説明したように、本発明の第１の実施の形態に係る項目値抽出モデル学習装置によれば、記事群の構造化データの各々から、指定された項目名リストと一致する項目の値を、タイトルの別称として抽出し、タイトルの別称であることを示すアノテーションが付与されたテキストを、疑似教師データとして作成し、疑似教師データのテキストから抽出される素性と、テキストに付与されたアノテーションとに基づいて、抽出モデルを学習することにより、高い網羅性で、タイトルの別称を抽出するための抽出モデルを学習することができる。

また、本発明の第１の実施の形態に係る項目値抽出装置によれば、項目値抽出モデル学習装置によって予め学習された抽出モデルと、入力されたテキストから抽出された前記素性とに基づいて、記事のテキストから、タイトルの別称を抽出することにより、高い網羅性で、タイトルの別称を抽出することができる。

また、Wikipedia（R）の記事のＩｎｆｏｂｏｘとテキストの記述をリンクさせることで、自動的にテキスト中での別称記述箇所の特定を行い、モデル構築を行う。これにより、あらかじめ自然文のパタンを与えることなく、自然文の記述パタンを獲得・拡張することが可能であり、低コストで再現率の高い別称抽出モデルを構築することができる。また、別称は、値が多様であり、かつ、新規のものがつぎつぎに出てくるものであり、自動的に抽出できることが特に有効である。

なお、上記の実施の形態では、タイトルの別称を抽出対象とする場合を例に説明したが、これに限定されるものではなく、別称以外の、タイトルに関する他の項目を、抽出対象としてもよい。

［第２の実施の形態］
次に、第２の実施の形態について説明する。第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、テキストと構造化データの組であるテキストデータから、抽出対象項目の値を抽出するための抽出モデルを学習している点が、第１の実施の形態と異なっている。
＜本発明の第２の実施の形態に係る項目値抽出モデル学習装置の構成＞

次に、本発明の第２の実施の形態に係る項目値抽出モデル学習装置の構成について説明する。図１４に示すように、本発明の第２の実施の形態に係る項目値抽出モデル学習装置２００は、入力部１０と、演算部２２０と、出力部５０とを備えている。

入力部１０は、図１５に示すような、テキストと構造化データとの組からなるテキストデータの群であるテキストデータ群を受け付ける。構造化データは、値（例えば、対象語）と当該値に関する項目名と項目の値との３つ組を含んでおり、テキストは、対象語と、当該項目の値とを含んでいる。

また、入力部１０は、受け付けたテキストデータ群の各テキストデータから、構造化データ、テキスト部分を抽出する。

また、入力部１０は、対象語に関する抽出対象の項目（例えば、別称）を定める項目名として指定された項目名リストを受け付ける。

演算部２２０は、テキストデータ群記憶部２２２と、指定項目抽出部２４と、疑似教師データ作成部２６と、素性抽出部２８と、抽出モデル学習部３０とを含んで構成されている。

テキストデータ群記憶部２２２は、入力部１０によって受け付けたテキストデータ群、及び項目名リストを記憶している。

指定項目抽出部２４は、テキストデータ群の各テキストデータに含まれる構造化データの各々から、指定された項目名リストと一致する項目の値を、抽出対象の項目の値として抽出する。

疑似教師データ作成部２６は、指定項目抽出部２４によって抽出された、抽出対象の項目の値に基づいて、当該テキストデータのテキストにおける当該抽出対象の項目の値が記述されている箇所を特定し、特定された記述箇所に、抽出対象の項目の値であることを示すアノテーションが付与し、対象語が記述されている箇所に、対象語であることを示すアノテーションを付与し、アノテーションが付与されたテキストを、疑似教師データとして作成する。

抽出モデル学習部３０は、疑似教師データ作成部２６によって作成された疑似教師データのテキストから抽出される素性と、当該疑似教師データのテキストに付与されたアノテーションとに基づいて、上記第１の実施の形態と同様に、テキストデータのテキストから、抽出対象の項目の値を抽出するための抽出モデルを学習し、出力部５０により出力する。なお、本実施の形態では、素性として、対象語に関する素性も含む。

＜本発明の第２の実施の形態に係る項目値抽出装置の構成＞
次に、本発明の第２の実施の形態に係る項目値抽出装置の構成について説明する。図１６に示すように、本発明の第２の実施の形態に係る項目値抽出装置２５０は、入力部６０と、演算部２７０と、出力部９０とを備えている。

入力部６０は、図１７に示すような、テキストと対象語とを受け付ける。テキストには、構造化データが付いておらず、テキストは、対象語と抽出対象の項目の値とを含んでいる。

演算部２７０は、素性抽出部７２と、抽出モデル記憶部７４と、項目値抽出部２７６とを含んで構成されている。

素性抽出部７２は、入力部６０で受け付けたテキストに対して、素性抽出部２８と同様の素性ベクトルを生成する。なお、本実施の形態では、素性として、対象語に関する素性も含む。

抽出モデル記憶部７４には、項目値抽出モデル学習装置２００によって学習された抽出モデルが格納されている。

項目値抽出部２７６は、素性抽出部７２によって抽出された素性ベクトルと、抽出モデル記憶部７４に記憶された抽出モデルとに基づいて、系列ラベリングを行い、テキストの各文字に、タグを付与し、抽出対象の項目の値を抽出し、出力部９０により出力する。

＜本発明の第２の実施の形態に係る項目値抽出モデル学習装置の作用＞
次に、本発明の第２の実施の形態に係る項目値抽出モデル学習装置２００の作用について説明する。入力部１０においてテキストと構造化データの組からなるテキストデータ群を受け付けると、受け付けたテキストデータ群の各テキストデータから、構造化データ及びテキスト部分を抽出し、テキストデータ群記憶部２２２に格納する。

また、入力部１０において、抽出対象の項目を定める項目名として指定された項目名リストを受け付けると、項目名リストをテキストデータ群記憶部２２２に格納する。そして、項目値抽出モデル学習装置２００は、図１８に示す項目値抽出モデル学習処理ルーチンを実行する。なお、第１の実施の形態と同様の処理については同一符号を付して詳細な説明を省略する。

まず、ステップＳ２００では、テキストデータ群記憶部２２２に格納されているテキストデータ群の各テキストデータの構造化データから、指定された項目名リストと一致する項目の値を、抽出対象の項目の値として抽出する。

次に、ステップＳ２０２では、テキストデータ群記憶部２２２に格納されているテキストデータ群の各テキストデータに対して、当該テキストデータのテキストにおいて、上記ステップＳ２００で当該テキストデータの構造化データから抽出された抽出対象の項目の値が記述されている箇所を特定し、特定された記述箇所に、抽出対象の項目の値であることを示すアノテーションを付与し、当該テキストデータの構造化データに含まれる対象語が記述されている箇所に、アノテーションを付与し、疑似教師データを作成する。

ステップＳ１０４では、上記ステップＳ２０２で作成された各疑似教師データのテキストに対して、素性ベクトルを生成する。ステップＳ１０６では、各疑似教師データのテキストに対して、文字レベルのタグを付与する。

そして、ステップＳ１０８において、上記ステップＳ１０６で各疑似教師データについて生成された素性ベクトルと、上記ステップＳ１０４で各疑似教師データのテキストに付与されたタグと基づいて、抽出モデルを学習し、出力部５０により出力して、項目値抽出モデル学習処理ルーチンを終了する。

＜本発明の第２の実施の形態に係る項目値抽出装置の作用＞
次に、本発明の第２の実施の形態に係る項目値抽出装置１５０の作用について説明する。まず、項目値抽出モデル学習装置２００によって学習された抽出モデルが、項目値抽出装置２５０の抽出モデル記憶部７４に格納される。また、入力部６０において対象語に関するテキスト及び対象語を受け付けると、項目値抽出装置２５０は、図１９に示す項目値抽出処理ルーチンを実行する。

ステップＳ２１０において、入力部６０で受け付けたテキストに対して、テキストの各文字の文字表記や各単語の分散表現、対象語などに基づいて、素性ベクトルを生成する。

そして、ステップＳ２１２において、上記ステップＳ２１０で生成された素性ベクトルと、抽出モデル記憶部７４に格納されている抽出モデルと基づいて、系列ラベリングを行い、テキストの各文字に、タグを付与し、付与されたタグに基づいて、抽出対象の項目の値を抽出し、出力部９０により出力して項目値抽出処理ルーチンを終了する。

以上説明したように、本発明の第２の実施の形態に係る項目値抽出モデル学習装置によれば、テキストデータ群の構造化データの各々から、指定された項目名リストと一致する項目の値を、抽出対象とする項目の値として抽出し、抽出された抽出対象とする項目の値であることを示すアノテーションが付与されたテキストを、疑似教師データとして作成し、疑似教師データのテキストから抽出される素性と、テキストに付与されたアノテーションとに基づいて、抽出モデルを学習することにより、高い網羅性で、抽出対象とする項目の値を抽出するための抽出モデルを学習することができる。

また、本発明の第２の実施の形態に係る項目値抽出装置によれば、項目値抽出モデル学習装置によって予め学習された抽出モデルと、入力されたテキストから抽出された素性とに基づいて、テキストから、抽出対象とする項目の値を抽出することにより、高い網羅性で、抽出対象とする項目の値を抽出することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記第１の実施の形態及び第２の実施の形態では、ＢＩＯタグを、文字レベルで付与する場合を例に説明したが、これに限定されるものではなく、単語レベルでタグ付けを行ってもよい。この場合には、事前に、テキストに対して単語分割を行うようにすればよい。
また、上記第２の実施の形態において、対象語を入力とし、テキストから、抽出対象とする項目の値を抽出する場合を例に説明したが、これに限定されるものではなく、テキストから、抽出対象とする項目の関係となる、対象語と、項目の値とのペアを抽出するようにしてもよい。

１０、６０入力部
２０、７０、２２０、２７０演算部
２２記事群記憶部
２４指定項目抽出部
２６疑似教師データ作成部
２８、７２素性抽出部
３０抽出モデル学習部
５０、９０出力部
７４抽出モデル記憶部
７６タイトル項目値抽出部
１００、２００項目値抽出モデル学習装置
１５０、２５０項目値抽出装置
２２２テキストデータ群記憶部
２７６項目値抽出部

Claims

抽出対象とする項目を定める項目名として指定された項目名のリスト、並びに対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語との３つ組を複数組含むテキストデータ群を受け付ける入力部と、
前記テキストデータ群の構造化データの各々から、前記リストに含まれる、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出する指定項目抽出部と、
前記テキストから、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値である箇所を特定し、前記特定された箇所に、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションを付与し、前記アノテーションが付与された前記テキストを、疑似教師データとして作成する疑似教師データ作成部と、
前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する抽出モデル学習部と、
を含む項目値抽出モデル学習装置。
対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語との３つ組を複数組含むテキストデータ群に含まれる前記構造化データの各々から抽出された、抽出対象とする項目を定める項目名として指定された項目名のリストに含まれる、前記指定された項目名と一致する項目の値に対して、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部と、
入力されたテキストから前記素性を抽出する素性抽出部と、
前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する項目値抽出部と、
を含む項目値抽出装置。
前記対象語はタイトルであり、
前記テキストデータ群は、前記タイトルに関する項目名と項目の値の組を含む構造化データと、前記タイトルに関する前記項目の値を含むテキストと、前記タイトルとの３つ組からなる記事の記事群であり、
前記入力部は、前記記事群、及び前記項目名のリストを受け付け、
前記疑似教師データ作成部は、前記記事群の構造化データの各々から、前記リストに含まれる、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出し、
前記疑似教師データ作成部は、前記テキストから、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値である箇所を特定し、前記特定された箇所に、前記タイトルに関する、前記抽出対象とする項目の値であることを示すアノテーションを付与し、前記アノテーションが付与された前記テキストを、疑似教師データとして作成する
請求項１記載の項目値抽出モデル学習装置。
前記抽出対象とする項目を、別称とした請求項１又は３記載の項目値抽出モデル学習装置。
入力部が、抽出対象とする項目を定める項目名として指定された項目名のリスト、並びに対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語との３つ組を複数組含むテキストデータ群を受け付け、
指定項目抽出部が、前記テキストデータ群の構造化データの各々から、前記リストに含まれる、前記指定された項目名と一致する項目の値を、前記抽出対象とする項目の値として抽出し、
疑似教師データ作成部が、前記テキストから、前記指定項目抽出部によって抽出された前記抽出対象とする項目の値である箇所を特定し、前記特定された箇所に、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションを付与し、前記アノテーションが付与された前記テキストを、疑似教師データとして作成し、
抽出モデル学習部が、前記疑似教師データ作成部によって作成された疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを学習する
項目値抽出モデル学習方法。
対象語に関する項目名及び項目の値の組を含む構造化データと、前記対象語に関する前記項目の値を含むテキストと、前記対象語との３つ組を複数組含むテキストデータ群に含まれる前記構造化データの各々から抽出された、抽出対象とする項目を定める項目名として指定された項目名のリストに含まれる、前記指定された項目名と一致する項目の値に対して、前記対象語に関する、前記抽出対象とする項目の値であることを示すアノテーションが付与された前記テキストである疑似教師データの前記テキストから抽出される素性と、前記テキストに付与されたアノテーションとに基づいて予め学習された、前記テキストから、前記抽出対象とする項目の値を抽出するための抽出モデルを記憶する抽出モデル記憶部を含む項目値抽出装置における項目値抽出方法であって、
素性抽出部が、入力されたテキストから前記素性を抽出し、
項目値抽出部が、前記素性抽出部によって抽出された前記素性と、前記抽出モデルとに基づいて、前記テキストから、前記抽出対象とする項目の値を抽出する
項目値抽出方法。
コンピュータを、請求項１又は請求項３に記載の項目値抽出モデル学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項２に記載の項目値抽出装置の各部として機能させるためのプログラム。