JP2015018372A - 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム - Google Patents

表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム Download PDF

Info

Publication number
JP2015018372A
JP2015018372A JP2013144532A JP2013144532A JP2015018372A JP 2015018372 A JP2015018372 A JP 2015018372A JP 2013144532 A JP2013144532 A JP 2013144532A JP 2013144532 A JP2013144532 A JP 2013144532A JP 2015018372 A JP2015018372 A JP 2015018372A
Authority
JP
Japan
Prior art keywords
data
correct answer
learning
expression
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013144532A
Other languages
English (en)
Inventor
定政 邦彦
Kunihiko Sadamasa
邦彦 定政
聡 中澤
Satoshi Nakazawa
聡 中澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013144532A priority Critical patent/JP2015018372A/ja
Publication of JP2015018372A publication Critical patent/JP2015018372A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】表現抽出の対象が文レベルであっても、抽出モデル生成のために収集される正解データに含まれる偽の正解データの影響を低減する技術を提供すること。【解決手段】特定種類の表現を含むか否かのラベルが付与された正解データに基づいて、第1の表現抽出モデルを学習する第1の学習部11と、第1の表現抽出モデルを用いて、追加の正解データを文書から抽出する追加正解抽出部12と、正解データおよび追加の正解データから素性の候補を抽出する素性候補抽出部13と、素性候補抽出部13によって抽出された候補から、正解データおよび追加の正解データにおける各候補の出現頻度に基づいて、学習用の素性を選択する素性選択部14と、素性選択部14で選択された素性を用いて第2の表現抽出モデルを学習する第2の学習部15と、を備える。【選択図】 図1

Description

本発明は、対象文書から特定のカテゴリに属する表現を抽出する際に用いられる抽出モデルを学習する技術に関する。
対象文書から特定のカテゴリに属する表現(以下、正例という)を、属さない表現(以下、負例という)から区別して機械学習に基づき自動抽出する技術が知られている。このような技術では、抽出モデルを学習するために、文書中での対象表現の出現箇所が予め人手でマークされた正解データが必要となる。一般に、正解データの作成は高コストなため、作成コストを低減する手法が望まれている。
特許文献1には、正解データを拡張することにより拡張データを生成してその妥当性を判定し、妥当であると判定された拡張データを正解データとして採用する技術が記載されている。この関連技術は、正解データに対して語順の入れ替え、構文変換による言い換えなどを行うことにより、拡張データを生成する。そして、この関連技術は、拡張データを追加した正解データを用いて抽出規則を学習する。さらに、その関連技術は、拡張データを追加した後の抽出規則による抽出結果が、拡張データを追加する前の抽出規則による抽出結果より良くなった場合に、拡張データが妥当であると判定する。
また、非特許文献1には、正解データを大規模コーパスから自動収集する関連技術が記載されている。この関連技術は、固有表現など単語程度の長さの表現を抽出対象とする。この関連技術では、確実性の高い固有表現である少数の単語リストがシードとして予め人手により与えられる。そして、その関連技術は、大規模コーパスにおいて、シードに含まれる単語が出現する文脈を追加の正例の正解データとし、それ以外を追加の負例の正解データとして抽出する。ただし、シードに含まれる単語が多義語の場合など、シードと合致する単語を含む文脈は、必ずしも正しい正解データであるとは限らない。つまり、このようにして抽出される追加の正解データには、偽の正例や偽の負例が含まれる可能性がある。正解データに偽の正例・負例を含んだまま抽出モデルの学習を行うと、抽出性能が低下してしまう。
そこで、非特許文献1に記載の関連技術は、偽の正例・負例をできるだけ事前に除外するために、抽出された追加の正解データを対象単語の周辺文脈でクラスタリングし、正例が多く含まれるクラスタのみを正例とし、負例が多く含まれるクラスタのみを負例として用いている。
土田正明他著,「辞書とタグ無しコーパスを用いた固有表現抽出器の学習法」,人工知能学会全国大会(第23回)論文集,2009
特開2006−4399号公報
しかしながら、特許文献1および非特許文献1に記載された関連技術には、以下のような課題がある。
特許文献1に記載された関連技術は、拡張データを追加したことによる評価結果が以前より良くない場合、追加した拡張データのいずれかを、例えばランダムに削除する。このように、この関連技術は、追加した拡張データのうちいずれが妥当でなかったかを判定することについては考慮していないので、妥当でない拡張データを精度よく除外できない。
また、非特許文献1に記載された関連技術は、偽の正例・負例を除外するために、追加された正解データを、対象単語の周辺文脈でクラスタリングする必要がある。ここで、抽出対象が単語であり十分に短い場合、周辺文脈は、当該単語の意味カテゴリに依存して偏ることが期待される。しかしながら、抽出対象が単語より長い文レベルである場合、抽出対象の中にそもそも多数の単語が含まれる。この場合、表現可能な意味が多様となり、周辺文脈の偏りは小さくなる。したがって、この関連技術は、抽出対象が文レベルである場合、周辺文脈によるクラスタリングを殆ど実行することができない。その結果、その関連技術は、偽の正例・負例を充分に除外できず、抽出モデルを精度よく学習することができない。
本発明は、表現抽出の対象が文レベルであっても、抽出モデル生成のために収集される正解データに含まれる偽の正解データの影響を低減する技術を提供することを目的とする。
本発明の表現抽出モデル学習装置は、特定種類の表現を含むか否かのラベルが付与された正解データに基づいて、第1の表現抽出モデルを学習する第1の学習部と、前記第1の表現抽出モデルを用いて、追加の正解データを文書から抽出する追加正解抽出部と、前記正解データおよび前記追加の正解データから素性の候補を抽出する素性候補抽出部と、前記素性候補抽出部によって抽出された候補から、前記正解データおよび前記追加の正解データにおける前記各候補の出現頻度に基づいて、学習用の素性を選択する素性選択部と、前記素性選択部で選択された素性を用いて第2の表現抽出モデルを学習する第2の学習部と、を備える。
また、本発明の表現抽出モデル学習方法は、特定種類の表現を含むか否かのラベルが付与された正解データに基づいて、第1の表現抽出モデルを学習し、前記第1の表現抽出モデルを用いて、追加の正解データを文書から抽出し、前記正解データおよび前記追加の正解データから素性の候補を抽出し、抽出した候補から、前記正解データおよび前記追加の正解データにおける前記各候補の出現頻度に基づいて、学習用の素性を選択し、選択した素性を用いて第2の表現抽出モデルを学習する。
また、本発明のコンピュータ・プログラムは、特定種類の表現を含むか否かのラベルが付与された正解データに基づいて、第1の表現抽出モデルを学習する第1の学習ステップと、前記第1の表現抽出モデルを用いて、追加の正解データを文書から抽出する追加正解抽出ステップと、前記正解データおよび前記追加の正解データから素性の候補を抽出する素性候補抽出ステップと、前記素性候補抽出ステップにおいて抽出された候補から、前記正解データおよび前記追加の正解データにおける前記各候補の出現頻度に基づいて、学習用の素性を選択する素性選択ステップと、前記素性選択ステップにおいて選択された素性を用いて第2の表現抽出モデルを学習する第2の学習ステップと、をコンピュータ装置に実行させる。
本発明は、表現抽出の対象が文レベルであっても、抽出モデル生成のために収集される正解データに含まれる偽の正解データの影響を低減する技術を提供することができる。
本発明の実施の形態としての表現抽出モデル学習装置の機能ブロック図である。 本発明の実施の形態としての表現抽出モデル学習装置のハードウェア構成図である。 本発明の実施の形態としての表現抽出モデル学習装置の動作を説明するフローチャートである。 本発明の実施の形態において用いられる正解データの具体例を説明する図である。 本発明の実施の形態において学習される第1の表現抽出モデルの具体例を説明する図である。 本発明の実施の形態において抽出される追加の正解データの具体例を説明する図である。 本発明の実施の形態において抽出される素性の候補の具体例を説明する図である。 本発明の実施の形態において学習される第2の表現抽出モデルを説明する図である。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
本発明の実施の形態としての表現抽出モデル学習装置1の構成を図1に示す。表現抽出モデル学習装置1は、任意のデータについて特定種類の表現を含むか否かのラベルを付与するために用いられる表現抽出モデルを学習する装置である。
図1において、表現抽出モデル学習装置1は、第1の学習部11と、追加正解抽出部12と、素性候補抽出部13と、素性選択部14と、第2の学習部15とを含む。
ここで、表現抽出モデル学習装置1は、図2に示すように、CPU(Central Processing Unit)1001と、RAM(Random Access Memory)1002と、ROM(Read Only Memory)1003と、ハードディスク等の記憶装置1004と、入力装置1005と、出力装置1006と、ネットワークインタフェース1007とを備えるコンピュータ装置によって構成されていてもよい。この場合、第1の学習部11は、入力装置1005と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001とによって構成される。また、追加正解抽出部12は、ネットワークインタフェース1007と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001とによって構成される。また、素性候補抽出部13および素性選択部14は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001によって構成される。また、第2の学習部15は、出力装置1006と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001とによって構成される。なお、表現抽出モデル学習装置1およびその各機能ブロックを構成するハードウェア構成は、上述の構成に限定されない。
また、図1において、表現抽出モデル学習装置1は、文書記憶装置90に接続されている。例えば、表現抽出モデル学習装置1は、記憶装置1004によって構成される文書記憶装置90に接続されていてもよい。あるいは、例えば、表現抽出モデル学習装置1は、インターネット、LAN(Local Area Network)、公衆回線網、無線通信網またはこれらの組合せ等によって構成されるネットワーク上の文書記憶装置90に、ネットワークインタフェース1007を介して接続されていてもよい。なお、図1には、1つの文書記憶装置90を示しているが、本発明の表現抽出モデル学習装置に接続される文書記憶装置90の数を限定するものではない。
文書記憶装置90は、後述の追加正解抽出部12によって正解データが抽出される元となる文書を記憶している。例えば、文書記憶装置90は、あらかじめ用意された文書を記憶していてもよい。また、文書記憶装置90は、本実施の形態により生成される表現抽出モデルを適用する対象と同じ単位に文書が分割されたデータを記憶していてもよい。表現抽出モデルの適用単位は、任意の長さの単位であってよいが、本実施の形態は、単語1つ分より長い単位のテキストデータに適用する表現抽出モデルを学習する際に、特に効果を奏する。したがって、例えば、そのような単位は、複数の単語からなる単位、一文からなる単位、あるいは、一文以上の長さの単位などであってもよい。
第1の学習部11は、正解データに基づいて第1の表現抽出モデルを学習する。例えば、第1の学習部11は、あらかじめ用意されている正解データの格納場所(たとえば、記憶装置1004の格納場所)を表す情報を、入力装置1005を介して受信した後、表現抽出モデルの学習を行ってもよい。正解データは、特定の種類の表現を含むか否かのラベルが付与されたデータである。正解データは、表現抽出モデルを適用する対象と同じ単位のデータからなる。以降、特定の種類の表現を含む正解データを正例といい、含まない正解データを負例という。第1の学習部11は、与えられた正解データが正例であるか負例であるかを識別できるように第1の表現抽出モデルを学習する。ここで、第1の学習部11は、表現抽出モデルの学習技術として、各種の公知技術を採用すればよい。
追加正解抽出部12は、第1の表現抽出モデルを用いて、文書記憶装置90の文書から追加の正解データを抽出する。例えば、追加正解抽出部12は、文書記憶装置90に記憶されている文書が表現の抽出対象の単位に分割されたデータについて、第1の表現抽出モデルを用いて正例または負例である程度を表す情報(スコア)を算出してもよい。そして、追加正解抽出部12は、正例または負例としてのスコアが所定基準以上である分割されたデータを、追加の正解データとしてもよい。
また、追加正解抽出部12は、第1の表現抽出モデルを用いて抽出される正例および負例のうち、負例よりも多くの正例を追加の正解データとして採用してもよい。さらに好ましくは、追加正解抽出部12は、第1の表現抽出モデルを用いて抽出される正例および負例のうち、負例を採用せずに、正例を追加の正解データとして採用してもよい。負例より多くの正例を追加の正解データとする理由については後述する。
素性候補抽出部13は、正解データおよび追加の正解データから素性の候補を抽出する。素性は、正解データから得られる情報であって、正解データが正例であるか負例であるかを識別するために学習時に用いられる情報である。なお、追加正解抽出部12は、素性の抽出方法として、各種の公知技術を採用可能である。例えば、追加正解抽出部12は、正解データの各文を形態素解析・構文解析し、単語、単語の並び、単語の係り受け関係、単語の品詞、または、単語の意味分類等を、素性の候補として抽出してもよい。
素性選択部14は、素性候補抽出部13によって抽出された候補から、正解データおよび追加の正解データにおける各候補の出現頻度に基づいて、学習用の素性を選択する。例えば、素性選択部14は、出現頻度が閾値以下の候補を除外して、残りの候補を学習用の素性として選択してもよい。また、素性選択部14は、素性の候補のうち出現頻度順に下位から所定割合のものを除外し、残りの候補を学習用の素性として選択してもよい。
ここで、素性選択部14は、各候補の抽出元のラベルと該候補との相関関係を表す情報を用いずに出現頻度に基づいて、素性の選択処理を行うことが望ましい。ただし、素性選択部14は、そのような相関関係を表す情報を用いず出現頻度に基づく素性の選択処理を少なくとも実行すれば、その他の素性の選択手法を併用してもよい。例えば、素性選択部14は、そのような相関関係を表す情報を用いず出現頻度に基づく素性の選択処理を実行した上で、相関関係を表す情報を用いた素性の選択処理を実行してもよい。
第2の学習部15は、素性選択部14によって選択された素性を用いて学習を行い、第2の表現抽出モデルを生成する。第2の学習部15は、表現抽出モデルの学習技術として、各種の公知技術を採用すればよい。なお、第1の学習部11および第2の学習部15が採用する表現抽出モデルの学習技術は、同一の技術であってもよいし、異なる技術であってもよい。
そして、第2の学習部15は、生成した第2の表現抽出モデルを出力する。例えば、第2の学習部15は、出力装置1006に対して第2の表現抽出モデルまたは第2の表現抽出モデルを生成した旨を表す情報を出力してもよい。また、第2の学習部15は、第2の表現抽出モデルを記憶装置1004に対して記憶させることにより出力してもよい。また、第2の学習部15は、第2の表現抽出モデルを、ネットワークを介して接続された他の装置に対して出力してもよい。
以上のように構成された表現抽出モデル学習装置1の動作について、図3を参照して説明する。
まず、第1の学習部11は、入力装置1005からの指示等に基づいて正解データを取得し、当該正解データに対する第1の表現抽出モデルを学習する(ステップS1)。
次に、追加正解抽出部12は、ステップS1で生成された第1の表現抽出モデルを用いて、文書記憶装置90の文書から追加の正解データを抽出する(ステップS2)。
次に、素性候補抽出部13は、ステップS1で用いられた正解データおよびステップS2で得られた追加の正解データから、素性の候補を抽出する(ステップS3)。
次に、素性選択部14は、ステップS3で抽出された候補から、正解データおよび追加の正解データにおける各候補の出現頻度に基づいて、学習用の素性を選択する(ステップS4)。このとき、前述のように、素性選択部14は、各候補の抽出元のラベルと該候補との相関関係を表す情報を用いずに出現頻度に基づいた選択処理を少なくとも行うことが望ましい。
次に、第2の学習部15は、ステップS4で選択された素性を用いて、正解データおよび追加の正解データに対する第2の表現抽出モデルを学習し、出力する(ステップS5)。
以上で、表現抽出モデル学習装置1は動作を終了する。
(動作の具体例)
次に、表現抽出モデル学習装置1の動作を具体例で示す。
この具体例では、ソフトウェアの不具合に関して顧客から問い合わせを受け付け、オペレータが原因を解明し回答するというコンタクトセンタを想定する。表現抽出モデル学習装置1は、そのようなコンタクトセンタに蓄積されている応対事例文書から不具合の原因表現を抽出するための表現抽出モデルを学習するものとする。
また、この具体例において、表現抽出モデルの適用単位、および、正解データの単位は、一文からなるテキストデータであるものとする。
また、この具体例において、文書記憶装置90には、テキストデータを含む大量の文書が格納されている。ここで、文書記憶装置90に格納される文書は、最終的に表現抽出モデルを適用するテキストデータと同様のドメインの文書であることが望ましい。これにより、これらの文書から高い精度で追加の正解データが抽出されることが期待される。例えば、この具体例では、文書記憶装置90には、上述のコンタクトセンタに蓄積された応対事例文書が記憶されていてもよい。なお、文書記憶装置90には、あらかじめ用意された大規模な文書が記憶されていてもよいし、ネットワークを介して外部から収集される文書が蓄積されるよう構成されていてもよい。あるいは、インターネットを介して接続可能な装置を文書記憶装置90とみなし、表現抽出モデル学習装置1は、必要に応じてインターネットを検索することにより必要な文書を取得してもよい。
また、この具体例において、正解データは、事前に準備されているものとする。正解データは、最終的に抽出モデルを適用したい単位(この具体例では、一文)に分割されたテキストデータに対して、特定種類の表現(ここでは不具合の原因表現)が含まれるか否かのラベルが付与されたものである。この具体例において用意されている正解データの一部を図4に示す。図4において、行頭の+1は正例を示し、続く文に原因表現が含まれることを示す。また、行頭の−1は負例を示し、続く文に原因表現が含まれないことを示す。なお、事前に準備される正解データの好ましい量は、表現抽出タスクにも依存するが、この具体例では、1000文程あるとよい。
まず、第1の学習部11は、入力装置1005を介して入力される格納場所などの情報に基づいて、図4に示したような正解データを取得する。そして、第1の学習部11は、これらの正解データを用いて、当該正解データの正例・負例を識別できる第1の表現抽出モデルを学習する(ステップS1)。
ここで、この種の学習処理は、自然言語処理分野では教師あり学習として、広く知られている。教師あり学習におけるモデルの作成方法およびモデルを作成するに当たっての素性の生成方法には、公知の様々なバリエーションがある。典型的には、正解データ中の各文を形態素解析・構文解析し、単語、単語の並び、単語の係り受け関係、単語の品詞、または、意味分類等を素性として用い、SVM(Support Vector Machine)等を用いて学習を行う方法がよく知られている。第1の学習部11は、どのような表現抽出モデルの生成方法を用いてもよい。ただし、この具体例での第1の学習部11は、単語の並びを素性として用い、各素性の重みの線形和でスコアを求める線形分類器で表現抽出モデルを学習するものとする。この場合、得られる表現抽出モデルは、単語の並びに重みが付与された情報となる。この具体例において得られる第1の表現抽出モデルの一部を図5に示す。図5において、ハイフンは、単語の区切れ目を示す。また、判定対象の文に出現する各単語並びに対する重みの線形和が、当該文に対してこの抽出モデルにより算出されるスコアとなる。スコアは、原因表現らしさを表す。
次に、追加正解抽出部12は、ステップS1で得られた第1の表現抽出モデルを用いて、文書記憶装置90の文書から追加の正解データを抽出する(ステップS2)。
具体的には、追加正解抽出部12は、文書記憶装置90から、最終的に抽出モデルを適用したい単位の各データ(この具体例では、一文単位のテキスト)を取得する。なお、文書記憶装置90には、最終的にモデルを適用したい単位、つまり正解データと同様の単位(この具体例では、一文単位)に分割されたテキストデータが記憶されていてもよい。あるいは、表現抽出モデル学習装置1は、文書記憶装置90に記憶された文書に対して、事前に分割処理を行って記憶させておいてもよい。あるいは、追加正解抽出部12は、文書記憶装置90に記憶されている文書に含まれるテキストをそのような単位に分割しながら抽出処理を行ってもよい。
次いで、追加正解抽出部12は、得られた各文に対して、ステップS1で生成された第1の表現抽出モデルを適用することにより、スコアを計算する。ここでは、追加正解抽出部12は、正のスコアが算出された文を追加の正例、負のスコアが算出された文を追加の負例として用いるものとする。また、この際、追加正解抽出部12は、信頼度のより高い正例および負例を用いることが望ましい。この具体例で採用した線形分類器では、スコアの絶対値が閾値より大きいものを信頼度が高いとみなせるものとする。例えば、0周辺のスコアが算出された文は、誤って判定されている可能性が高い。したがって、追加正解抽出部12は、スコアの絶対値が閾値より大きいものを追加の正解データとして採用する。これにより、追加正解抽出部12は、偽の正例・偽の負例を効率的に除外することができる。
このようにして得られた追加の正解データの一部を図6に示す。図6には、正例のみ示している。追加の正解データは、第1の表現抽出モデルに基づいて自動的に選択されたものであるため、正しく正例・負例である文に加えて、実際には正例・負例ではない偽の正例・負例も含む。なお、図6では、説明のため、偽の正例を分類して示しているが、追加正解抽出部12により抽出される追加の正解データは、真の正例と偽の正例、真の負例と偽の負例の区別がつけられたものではない。
また、追加正解抽出部12は、負例より多くの正例を追加の正解データとして用いてもよい。この具体例では、図6に示したように、正例のみを追加の正解データとして用い、負例を追加の正解データとして用いないものとする。正例のみを用いた場合に、更に高い精度が得られる理由については後述する。
続いて、素性候補抽出部13は、ステップS1で用いられた正解データ(図4)と、追加正解抽出部12によって抽出された追加の正解データ(図6)とから、素性の候補を抽出する(ステップS3)。ここでは、素性候補抽出部13は、第1の学習部11と同様の手法により素性の候補を抽出するものとする。つまり、素性候補抽出部13は、追加の正解データに含まれる各文から全ての単語の並びを抽出し、素性の候補とする。なお、素性候補抽出部13は、第1の学習部11によって行われた手法と異なる手法により素性の候補を抽出しても、この具体例の効果の本質には影響しない。また、素性候補抽出部13は、潜在的な真の正例・負例と偽の正例・負例を区別することなく、素性の候補の抽出を行えばよい。なお、単語の並びの長さに制約はない。ただし、この具体例では、計算量の観点から、3〜5程度の長さであるとよい。
また、素性候補抽出部13は、ステップS3において、後述のステップS4で用いることを想定し、正解データおよび追加の正解データにおける各候補の出現頻度を計算しておく。このようにして出現頻度が算出された素性の候補の一例を図7に示す。なお、図7には、説明の都合上、各候補について、その出現頻度に加えて、正例における登場回数および負例における登場回数をそれぞれ示しているが、素性候補抽出部13は、正例および負例における登場回数を合算した出現頻度を少なくとも算出すればよい。
次に、素性選択部14は、ステップS3で抽出された候補から、出現頻度に基づいて学習用の素性を選択する(ステップS4)。通常、素性の選択手法としては、相互情報量や情報利得等といった、素性と、素性を含む文に付与されたラベルとの相関関係に基づく手法がよく知られている。しかし、素性選択部14は、相関関係に基づいた選択処理を行ってもよいが、別途、相関関係を用いずに出現頻度に基づく選択処理を少なくとも行うようにする。この具体例では、素性選択部14は、相関関係を用いずに出現頻度に基づく選択処理として、出現頻度のみに基づく選択処理を行う。
例えば、素性選択部14は、閾値以下の出現頻度の素性を除外してもよい。また、素性選択部14は、出現頻度の下位から順に所定割合の素性を除外してもよい。例えば、出現頻度の閾値を10とすると、図7の例では、「考え-難い」および「考え-難い-状況」の2つの素性が除外される。
次に、第2の学習部15は、ステップS4で選択された素性を用いて、正解データと追加の正解データとの両方を正解データとして用いて、第2の表現抽出モデルを学習する。第2の学習部15は、第1の学習部11と同様に、どのような表現抽出モデルの生成方法を用いてもよいが、この具体例では、第1の学習部11と同様の線形分類器で学習するものとする。このようにして得られた第2の表現抽出モデル中の素性およびその重みの具体例を図8に示す。図8に示すように、第2の表現抽出モデルでは、与えられた正解データ(図4)には登場していなかったために第1の表現抽出モデル(図5)には含まれなかった「が-引き金」といった特徴が採用されている。このように、この具体例において、表現抽出モデル学習装置1は、与えられた正解データに基づく第1の表現抽出モデルよりも精度の高い第2の表現抽出モデルを生成することができた。
以上で、表現抽出モデル学習装置1の具体例の動作の説明を終了する。
(効果)
次に、本実施の形態の効果について説明する。
本実施の形態としての表現抽出モデル学習装置は、表現抽出の対象が文レベルであっても、抽出モデル生成のために収集される正解データに含まれる偽の正解データの影響を低減することができる。
その理由は、第1の学習部が、与えられた正解データに対する第1の表現抽出モデルを学習し、追加正解抽出部が、第1の表現抽出モデルを用いて追加の正解データを文書から抽出し、素性候補抽出部が、正解データおよび追加の正解データから素性の候補を抽出し、素性選択部が、正解データおよび追加の正解データにおける各候補の出現頻度に基づいて、学習用の素性を選択するからである。そして、第2の学習部が、選択された素性を用いて、正解データおよび追加の正解データに対する第2の抽出モデルを学習するからである。
ここで、正例であることを特徴付ける素性の種類は数が限られる一方、負例中の素性はばらつきが多い。そのため、負例中の素性の個々の頻度は、正例を特徴付ける素性より相対的に小さくなる。また、追加の正解データ中の偽の正例は、本来負例であるため、その中の素性はばらつきが大きく頻度が小さくなる。そこで、本実施の形態は、出現頻度の小さい、多数の事例の分類には有用でない素性を除外することで、偽の正例由来の表現を相対的に除外し易くしている。その結果、本実施の形態は、抽出対象が文レベルであっても、追加の正解データに含まれる偽の正例の影響を抑え、正解データおよび追加の正解データに基づいて生成した表現抽出モデルの性能を向上させることができる。
このように、本実施の形態は、抽出対象が意志や判断に関する記述など、文やそれに近い長さの記述を参照して初めて抽出対象か否かを判別可能な場合に特に有効である。
さらに、素性選択部が、各候補の抽出元のラベルと該候補との相関関係を用いずに出現頻度を用いて素性を選択する場合、本実施の形態は、さらに偽の正例の影響を低減することができる。
ここで、通常は、相互情報量や情報利得等といった、素性の候補とその抽出元のラベルとの相関関係を用いて素性の選択処理を行うほうが、相関関係を用いずに選択処理を行うより高精度の学習が行えることが多い。にもかかわらず、相関関係を用いずに出現頻度に基づく選択処理が有効である理由について述べる。ラベルとの相関関係に基づく素性の選択処理は、偽の正例・偽の負例も含むデータから相関関係を求めるため、正しく各素性の有用性を評価できず、偽の正例・負例由来の誤った素性を除外することができないからである。
つまり、素性選択に一般に用いられる相互情報量や情報利得といった、素性と、素性を含む文に付与されたラベルとの相関関係に基づく情報は、正解データ中に偽の正例・負例が含まれることを仮定していない。そのため、特に出現頻度の小さい素性に関して、偽の正例・負例の存在によるノイズが大きい。例えば、上述した具体例では、図6に示したように、追加正解抽出部によって偽の正例「メモリ不足が原因でエラー450が発生したとは考え難い状況です。」が抽出されている。このため、図7に示すように、この偽の正例等から、素性の候補「考え-難い」「考え-難い-状況」が抽出されている。ここで、これらの素性の候補は、各々正例での出現数が負例での出現数より多く、比較的正例と相関があるように見える。そのため、相関関係に基づく情報を用いた通常の素性の選択処理は、これらの素性の候補を誤って採用してしまう。しかしながら、これらの素性の候補は、実際には、たまたま初期の正解データに含まれていなかったため負例としての出現頻度が低く、かつ、偽の正例としての出現頻度が高かったために、正例と相関があるように見えるだけであり、真の正例との相関は低い。したがって、本実施の形態は、相関関係を用いず出現頻度に基づき素性を選択することにより、低頻度領域に多く存在し、相関関係に基づく指標では除外できない偽の正例由来の誤った素性を除外できる可能性を高めることができる。
しかも、本実施の形態は、出現頻度による素性の選択により、真の正例由来の素性を除外してしまう可能性を低くしている。その理由は以下の通りである。
・正例であることを特徴付ける表現の種類は数が限られること。
・一方で、負例中の表現はばらつきが多いため、負例中の個々の表現は、正例を特徴付ける表現より相対的に出現頻度が小さくなること。
・追加学習データ中の偽の正例は、本来負例であるため、その中の表現はばらつきが大きく頻度が小さいこと。
以上により、本実施の形態は、出現頻度の低い、多数の事例の分類に有用でない表現を除外することで、偽の正例由来の表現を相対的に除外され易くし、真の正例由来の素性を除外されにくくしている。
しかも、本実施の形態は、負例より多くの正例を追加の正解データとして用いる場合(さらに好ましくは、追加の正解データに負例を採用せずに正例を採用することにより)、より高い精度で偽の正解データの影響を低減できる。その理由は、次の通りである。
・負例も追加する場合、偽の負例も含まれること。
・偽の負例は本来正例であるため、その中の表現はばらつきが少なく出現頻度が高いものが含まれること。
・本実施の形態は、出現頻度の低い素性を除外するが、出現頻度の高い(誤った)素性を除外しないので、負例由来の誤った素性を除外することが難しいこと。
以上により、本実施の形態は、負例より多くの正例を追加の正解データとすることにより(さらに好ましくは、追加の正解データに負例を採用せずに正例を採用することにより)、より精度の良い追加の正解データを得ることができる。その結果、本実施の形態は、より性能の良い表現抽出モデルを生成することができる。
なお、上述した本発明の実施の形態において、表現抽出モデルを適用する対象となるデータの単位が、一文である例を中心に説明したが、本実施の形態において生成される表現抽出モデルは、任意の単位のデータについて適用可能である。例えば、本実施の形態において、表現抽出モデルの適用単位は、一文より長い一段落などの単位、一文より短いが単語や係り受けよりは長い節などの単位などであってもよい。その場合、あらかじめ用意される正解データの単位、および、追加正解抽出部が取り扱うデータの単位も、表現抽出モデルを適用する対象の単位となる。
また、上述した本発明の実施の形態において、表現抽出モデル学習装置の各機能ブロックが、記憶装置またはROMに記憶されたコンピュータ・プログラムを実行するCPUによって実現される例を中心に説明した。この他、表現抽出モデル学習装置の各機能ブロックの一部、全部、または、それらの組み合わせは、専用のハードウェアにより実現されていてもよい。
また、上述した本発明の実施の形態において、表現抽出モデル学習装置の各機能ブロックは、複数の装置に分散されて実現されてもよい。
また、上述した本発明の実施の形態において、フローチャートを参照して説明した表現抽出モデル学習装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納しておき、係るコンピュータ・プログラムを当該CPUが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。
また、本発明は、上述した本発明の実施の形態に限定されず、様々な態様で実施されることが可能である。
本発明は、表現抽出の対象が文レベルであっても、抽出モデル生成のために収集される正解データに含まれる偽の正解データの影響を低減する技術を提供することができ、例えば、製品またはサービスの不具合に対する質問とその回答の組である過去事例の集合から、頻出する質問およびその回答の組を抽出するための表現抽出モデルを学習する装置として好適である。
1 表現抽出モデル学習装置
11 第1の学習部
12 追加正解抽出部
13 素性候補抽出部
14 素性選択部
15 第2の学習部
90 文書記憶装置
1001 CPU
1002 RAM
1003 ROM
1004 記憶装置
1005 入力装置
1006 出力装置
1007 ネットワークインタフェース

Claims (9)

  1. 特定種類の表現を含むか否かのラベルが付与された正解データに基づいて、第1の表現抽出モデルを学習する第1の学習部と、
    前記第1の表現抽出モデルを用いて、追加の正解データを文書から抽出する追加正解抽出部と、
    前記正解データおよび前記追加の正解データから素性の候補を抽出する素性候補抽出部と、
    前記素性候補抽出部によって抽出された候補から、前記正解データおよび前記追加の正解データにおける前記各候補の出現頻度に基づいて、学習用の素性を選択する素性選択部と、
    前記素性選択部で選択された素性を用いて第2の表現抽出モデルを学習する第2の学習部と、
    を備える表現抽出モデル学習装置。
  2. 前記素性選択部は、前記各候補の抽出元の正解データまたは追加の正解データに付与されているラベルと該候補との相関関係を表す情報を用いずに前記出現頻度に基づいて、前記学習用の素性を選択することを特徴とする請求項1に記載の表現抽出モデル学習装置。
  3. 前記追加正解抽出部は、前記文書から前記第1の表現抽出モデルに基づき前記特定種類の表現を含まないことを表すラベルが付与されて抽出されるデータ(負例)より多く、前記特定種類の表現を含むラベルが付与されて抽出されるデータ(正例)を、前記追加の正解データとすることを特徴とする請求項1または請求項2に記載の表現抽出モデル学習装置。
  4. 前記追加正解抽出部は、前記負例を前記追加の正解データとせず、前記正例を前記追加の正解データとすることを特徴とする請求項3に記載の表現抽出モデル学習装置。
  5. 前記追加正解抽出部は、前記文書に含まれる各データについて、前記第1の表現抽出モデルに基づいて前記特定種類の表現を含むか否かの程度を表す情報を算出し、算出した情報が所定の基準を満たすものを、前記追加の正解データとすることを特徴とする請求項1から請求項4のいずれか1項に記載の表現抽出モデル学習装置。
  6. 特定種類の表現を含むか否かのラベルが付与された正解データに基づいて、第1の表現抽出モデルを学習し、
    前記第1の表現抽出モデルを用いて、追加の正解データを文書から抽出し、
    前記正解データおよび前記追加の正解データから素性の候補を抽出し、
    抽出した候補から、前記正解データおよび前記追加の正解データにおける前記各候補の出現頻度に基づいて、学習用の素性を選択し、
    選択した素性を用いて第2の表現抽出モデルを学習する、表現抽出モデル学習方法。
  7. 前記学習用の素性を選択する際に、前記各候補の抽出元の正解データまたは追加の正解データに付与されているラベルと該候補との相関関係を表す情報を用いずに前記出現頻度に基づいて、選択処理を行うことを特徴とする請求項6に記載の表現抽出モデル学習方法。
  8. 特定種類の表現を含むか否かのラベルが付与された正解データに基づいて、第1の表現抽出モデルを学習する第1の学習ステップと、
    前記第1の表現抽出モデルを用いて、追加の正解データを文書から抽出する追加正解抽出ステップと、
    前記正解データおよび前記追加の正解データから素性の候補を抽出する素性候補抽出ステップと、
    前記素性候補抽出ステップにおいて抽出された候補から、前記正解データおよび前記追加の正解データにおける前記各候補の出現頻度に基づいて、学習用の素性を選択する素性選択ステップと、
    前記素性選択ステップにおいて選択された素性を用いて第2の表現抽出モデルを学習する第2の学習ステップと、
    をコンピュータ装置に実行させるコンピュータ・プログラム。
  9. 前記素性選択ステップにおいて、前記各候補の抽出元の正解データまたは追加の正解データに付与されているラベルと該候補との相関関係を表す情報を用いずに前記出現頻度に基づいて、前記学習用の素性を選択することを特徴とする請求項8に記載のコンピュータ・プログラム。
JP2013144532A 2013-07-10 2013-07-10 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム Pending JP2015018372A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013144532A JP2015018372A (ja) 2013-07-10 2013-07-10 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013144532A JP2015018372A (ja) 2013-07-10 2013-07-10 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2015018372A true JP2015018372A (ja) 2015-01-29

Family

ID=52439314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013144532A Pending JP2015018372A (ja) 2013-07-10 2013-07-10 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2015018372A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017010201A (ja) * 2015-06-19 2017-01-12 日本電信電話株式会社 手続き表現抽出方法、手続き表現抽出装置、及び手続き表現抽出プログラム
JP2017016471A (ja) * 2015-07-02 2017-01-19 Necパーソナルコンピュータ株式会社 情報処理システム、情報処理方法、及び、プログラム
CN109635709A (zh) * 2018-12-06 2019-04-16 中山大学 一种基于显著表情变化区域辅助学习的人脸表情识别方法
JP2020112931A (ja) * 2019-01-09 2020-07-27 日興リサーチセンター株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017010201A (ja) * 2015-06-19 2017-01-12 日本電信電話株式会社 手続き表現抽出方法、手続き表現抽出装置、及び手続き表現抽出プログラム
JP2017016471A (ja) * 2015-07-02 2017-01-19 Necパーソナルコンピュータ株式会社 情報処理システム、情報処理方法、及び、プログラム
CN109635709A (zh) * 2018-12-06 2019-04-16 中山大学 一种基于显著表情变化区域辅助学习的人脸表情识别方法
CN109635709B (zh) * 2018-12-06 2022-09-23 中山大学 一种基于显著表情变化区域辅助学习的人脸表情识别方法
JP2020112931A (ja) * 2019-01-09 2020-07-27 日興リサーチセンター株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
US11531818B2 (en) Device and method for machine reading comprehension question and answer
US20180218241A1 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
KR101813683B1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
KR101561464B1 (ko) 수집 데이터 감성분석 방법 및 장치
CN105378731A (zh) 从被回答问题关联语料库/语料值
US11328006B2 (en) Word semantic relation estimation device and word semantic relation estimation method
US11507746B2 (en) Method and apparatus for generating context information
KR20150037924A (ko) 제품 인식에 근거한 정보 분류 기법
US20150169676A1 (en) Generating a Table of Contents for Unformatted Text
KR20190115319A (ko) 문장을 복수의 클래스들로 분류하는 모바일 장치 및 방법
US20190155904A1 (en) Generating ground truth for questions based on data found in structured resources
CN108681564A (zh) 关键词和答案的确定方法、装置和计算机可读存储介质
WO2021160822A1 (en) A method for linking a cve with at least one synthetic cpe
US11983202B2 (en) Computer-implemented method for improving classification of labels and categories of a database
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
JP5975938B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP2021060800A (ja) データ抽出方法、及びデータ抽出装置
US20230245675A1 (en) Environment estimation apparatus, environment estimation method, and program
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
JP2019148933A (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP2023145767A (ja) 語彙抽出支援システムおよび語彙抽出支援方法
Majumder et al. Event extraction from biomedical text using crf and genetic algorithm