JP2012243125A - 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム - Google Patents

因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム Download PDF

Info

Publication number
JP2012243125A
JP2012243125A JP2011113402A JP2011113402A JP2012243125A JP 2012243125 A JP2012243125 A JP 2012243125A JP 2011113402 A JP2011113402 A JP 2011113402A JP 2011113402 A JP2011113402 A JP 2011113402A JP 2012243125 A JP2012243125 A JP 2012243125A
Authority
JP
Japan
Prior art keywords
expression
cause
word
pair
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011113402A
Other languages
English (en)
Other versions
JP5682448B2 (ja
Inventor
Kunihiko Sadamasa
邦彦 定政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011113402A priority Critical patent/JP5682448B2/ja
Publication of JP2012243125A publication Critical patent/JP2012243125A/ja
Application granted granted Critical
Publication of JP5682448B2 publication Critical patent/JP5682448B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】精度の高いドメイン固有の因果単語対を文書群から容易に抽出できる因果単語対抽出装置を提供する。
【解決手段】問題・原因表現関連度計算手段85は、抽出された問題表現と原因表現との関連度を、その問題表現と原因表現の組に含まれる各因果単語対候補の尤度スコア、その問題表現における因果単語対候補の問題単語の特徴度、および、その原因表現における因果単語対候補の原因単語の特徴度に基づいて計算する。因果単語対学習手段86は、問題・原因表現関連度計算手段85が計算した問題表現・原因表現対の関連度と、その問題表現・原因表現対における問題表現とその問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値以下である場合、その関連度の計算に利用した因果単語対候補の尤度スコアを、問題表現における問題単語の特徴度と、原因表現における原因単語の特徴度との積に比例した値に応じて変化させる。
【選択図】図5

Description

本発明は、文書群から原因と結果を示す単語のペアを抽出する因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラムに関する。
ある現象について書かれた記述である現象表現(例えば、「逮捕された」)が検索クエリとして与えられると、その現象の原因について書かれた記述である原因表現(例えば、「彼は殺人を犯したので、」)を検索対象文書群から検索して返す原因表現抽出装置が提案されている。
また、一般的な原因表現抽出装置の一例が、特許文献1に記載されている。特許文献1に記載された原因表現抽出装置は、次のように動作する。
まず、原因表現パタン辞書と因果単語辞書の2種の辞書を事前に用意する。原因表現パタン辞書とは、原因表現を抽出する規則を格納した辞書である。原因表現を抽出する規則には、例えば、原因表現に含まれる文字列(例えば、「〜したので」や「原因は〜」)が定義される。因果単語辞書とは、原因と結果のペアを格納した辞書である。以下、原因と結果を示す単語のペアのことを、因果単語対と記す。因果単語対の例として、例えば、「殺人」と「逮捕」との単語対が挙げられる。この単語対は、「殺人」を犯したことが原因で、「逮捕」される結果が生じることを表す。以下の説明では、因果関係を示す単語対を原因と結果を矢印(→)で結んで表す。「殺人」と「逮捕」の単語対の場合、「殺人→逮捕」と表す。
次に、現象表現が検索クエリとして与えられると、類似文検索により検索対象コーパスから原因表現候補を抽出し、その各々について前述の辞書(原因表現パタン辞書および因果単語辞書)を用いてスコアを計算する。具体的には、第1に、原因表現パタン辞書中の規則を満たす原因表現候補には、原因を表す確率が高いとして高スコアが付与される。第2に、因果単語辞書中の単語対が、現象表現と原因表現候補との対に出現する場合に、その候補には、現象表現と因果関係にある確率が高いとして高スコアが付与される。
そして、スコア計算後、高いスコアの原因表現候補を、与えられた現象表現の原因表現として抽出する。このように、特許文献1に記載された原因表現抽出装置では、単なる類似文検索以外の類似指標である因果単語辞書を用いて抽出精度を向上させている。
また、非特許文献1には、機械学習方法の一例が記載されている。非特許文献1に記載された方法では、まず、事前に用意した入力表現と出力表現の組を学習データとして重み行列Wを学習する。そして、検索クエリとして入力表現が与えられると、学習した重み行列Wに基づいて、対応する出力表現を上位にランキングする。
なお、因果単語辞書を構築する場合、入力表現として現象表現が用いられ、出力表現として原因表現が用いられる。学習される重み行列Wは、2次元行列である。重み行列Wのi行j列目の要素Wijは、現象表現に表れるi番目の単語wと、原因表現に表れるj番目の単語wの関連度を表す。この値(関連度)が大きい単語の組を含む現象表現と原因表現の組ほど、対応関係にある可能性が高いことを示す。つまり、正しい現象表現と原因表現の組を学習データとして用意して重み行列Wの学習を行うことで、Wijが一定の値以上になる単語の組を因果関係のある単語対として抽出できる。
特開2009−157791号公報
Bing Bai et al,"Supervised Semantic Indexing", Proceedings of the 18th ACM Conference on Information and Knowledge Management, ACM, p.187-196,2009
一方、因果単語対を抽出する対象のドメインが変化すると、原因表現を抽出する際に有効な単語対が大きく変化する。そのため、特許文献1に記載された原因表現抽出装置を用いてドメインに合わせた因果単語辞書の再構築をする場合、高いコストが必要になるという問題がある。
例えば、大規模データベースなどのように専門性が高いドメインの製品を扱う製品コンタクトセンタにおいて、顧客からの問い合わせを現象表現として、その発生原因をから検索することを考える。「殺人→逮捕」など、一般語の因果単語対は、専門性の高いドメインの文書には出現する可能性が低い。そのため、このような因果単語対を用いても原因表現を抽出できる効果は低い。このような場合、そのドメイン固有の専門用語(例えば、エラー番号、エラーを起こす原因になる機能やモジュール名など)を用いた因果単語対が重要になる。
特許文献1に記載された原因表現抽出装置では、新聞などの一般ドメイン文書を元に膨大な人手工数を掛けて整備した辞書が因果単語辞書として利用される。適用するドメインが変化するごとに同様の人手コストをかけ因果単語辞書を再構築する方法は現実的ではない。例えば、特許文献1には、正しい現象表現と原因表現の組を1000組程度人手で作成する例が記載されている。しかし、この規模の学習データ量を人手で作成するのは困難である。一方で、ドメイン固有の因果単語辞書を用いない場合、与えられた現象表現に対応する原因表現を特定するための情報が不足し、十分な精度で抽出が行うことができないという問題がある。
例えば、現象表現「プロセス実行時にエラーコード942が発生した」に対して、「原因は〜、〜ことが原因です」を含む文を検索することを規定した原因表現パタン辞書を用いて、共通の単語「プロセス」を含む類似文検索を行ったとする。そして、この検索の結果、第1の候補である「表へのアクセス権限がプロセスにないことが原因です。」と、第2の候補である「原因は、プロセスがメモリ不足に陥ったためです。」が抽出されたとする。しかし、ドメイン固有の因果単語辞書が存在しない場合、どちらの候補がより適切か判別することは困難である。
また、非特許文献1に記載された機械学習方法を用いる場合、学習させる重み行列Wの大きさは、[現象表現中の単語バリエーション数×原因表現中の単語バリエーション数]と非常に巨大である。そのため、学習処理を収束させるためには、膨大な学習データ(例えば、10万組〜100万組)が必要になってしまうという問題がある。
そこで、本発明は、精度の高いドメイン固有の因果単語対を文書群から容易に抽出できる因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラムを提供することを目的とする。
本発明による因果単語対抽出装置は、ある事象の問題の内容を示す表現である問題表現を抽出する規則を含む問題パタン辞書を記憶する問題パタン辞書記憶手段と、ある事象で問題が発生した原因を示す表現である原因表現を抽出する規則を含む原因パタン辞書を記憶する原因パタン辞書記憶手段と、入力された複数の応答事例を含む文書群の中から問題パタン辞書を用いて問題表現を抽出し、文書群の中から原因パタン辞書を用いて原因表現を抽出し、同一の応答事例から抽出した問題表現と原因表現の対である問題表現・原因表現対を作成する問題・原因表現対抽出手段と、抽出された問題表現・原因表現対の各々について、問題表現中に含まれる単語である問題単語および原因表現中に含まれる単語である原因単語を抽出し、その問題単語とその原因単語のそれぞれを対にした単語対を因果単語対候補として作成する因果単語対候補抽出手段と、問題・原因表現対抽出手段が抽出した問題表現と原因表現との関連度を、その問題表現と原因表現の組に含まれる各因果単語対候補のその因果単語対候補が因果単語対である尤もらしさを示すスコアである尤度スコア、その問題表現における因果単語対候補の問題単語の特徴度、および、その原因表現における因果単語対候補の原因単語の特徴度に基づいて計算する問題・原因表現関連度計算手段と、問題・原因表現関連度計算手段が計算した問題表現・原因表現対の関連度と、その問題表現・原因表現対における問題表現とその問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値以下である場合、その関連度の計算に利用した因果単語対候補の尤度スコアを、問題表現における問題単語の特徴度と、原因表現における原因単語の特徴度との積に比例した値に応じて変化させる因果単語対学習手段と、尤度スコアが閾値以上の因果単語対候補を因果単語対として抽出する因果単語対抽出手段とを備えたことを特徴とする。
本発明による因果単語対抽出方法は、入力された複数の応答事例を含む文書群の中から、ある事象の問題の内容を示す表現である問題表現を抽出する規則を含む問題パタン辞書を用いてその問題表現を抽出し、文書群の中から、ある事象で問題が発生した原因を示す表現である原因表現を抽出する規則を含む原因パタン辞書を用いてその原因表現を抽出し、同一の応答事例から抽出された問題表現と原因表現の対である問題表現・原因表現対を作成し、抽出された問題表現・原因表現対の各々について、問題表現中に含まれる単語である問題単語および原因表現中に含まれる単語である原因単語を抽出し、問題単語と原因単語のそれぞれを対にした単語対を因果単語対候補として作成し、文書群から抽出された問題表現と原因表現との関連度を、その問題表現と原因表現の組に含まれる各因果単語対候補のその因果単語対候補が因果単語対である尤もらしさを示すスコアである尤度スコア、その問題表現における因果単語対候補の問題単語の特徴度、および、その原因表現における因果単語対候補の原因単語の特徴度に基づいて計算し、問題表現・原因表現対の関連度と、その問題表現・原因表現対における問題表現とその問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値以下である場合、その関連度の計算に利用した因果単語対候補の尤度スコアを、問題表現における問題単語の特徴度と、原因表現における原因単語の特徴度との積に比例した値に応じて変化させ、尤度スコアが閾値以上の因果単語対候補を因果単語対として抽出することを特徴とする。
本発明による因果単語対抽出用プログラムは、コンピュータに、入力された複数の応答事例を含む文書群の中から、ある事象の問題の内容を示す表現である問題表現を抽出する規則を含む問題パタン辞書を用いてその問題表現を抽出し、文書群の中から、ある事象で問題が発生した原因を示す表現である原因表現を抽出する規則を含む原因パタン辞書を用いてその原因表現を抽出し、同一の応答事例から抽出した問題表現と原因表現の対である問題表現・原因表現対を作成する問題・原因表現対抽出処理、抽出された問題表現・原因表現対の各々について、問題表現中に含まれる単語である問題単語および原因表現中に含まれる単語である原因単語を抽出し、その問題単語とその原因単語のそれぞれを対にした単語対を因果単語対候補として作成する因果単語対候補抽出処理、問題・原因表現対抽出処理で抽出された問題表現と原因表現との関連度を、その問題表現と原因表現の組に含まれる各因果単語対候補のその因果単語対候補が因果単語対である尤もらしさを示すスコアである尤度スコア、その問題表現における因果単語対候補の問題単語の特徴度、および、その原因表現における因果単語対候補の原因単語の特徴度に基づいて計算する問題・原因表現関連度計算処理、問題・原因表現関連度計算処理で計算された問題表現・原因表現対の関連度と、その問題表現・原因表現対における問題表現とその問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値以下である場合、その関連度の計算に利用した因果単語対候補の尤度スコアを、問題表現における問題単語の特徴度と、原因表現における原因単語の特徴度との積に比例した値に応じて変化させる因果単語対学習処理、および、尤度スコアが閾値以上の因果単語対候補を因果単語対として抽出する因果単語対抽出処理を実行させることを特徴とする。
本発明によれば、精度の高いドメイン固有の因果単語対を文書群から容易に抽出できる。
本発明による因果単語対抽出装置の一実施形態を示すブロック図である。 本実施形態の因果単語対抽出装置の動作例を示すフローチャートである。 問題表現および原因表現の例を示す説明図である。 単語に付与された特徴度の例を示す説明図である。 本発明による因果単語対抽出装置の最小構成の例を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明による因果単語対抽出装置の一実施形態を示すブロック図である。本実施形態における因果単語対抽出装置は、入力手段1と、プログラム制御により動作するデータ処理装置2と、記憶装置3と、出力手段4とを備えている。
入力手段1は、複数の応答事例を含む文書群を入力する。応答事例の例として、例えば、質問者からの質問に対して、回答者から回答が示されるまでの質問者と回答者の対話内容が挙げられる。
記憶装置3は、問題パタン辞書記憶手段31と、原因パタン辞書記憶手段32とを含む。問題パタン辞書記憶手段31および原因パタン辞書記憶手段32は、例えば、磁気ディスク等により実現される。
問題パタン辞書記憶手段31は、問題の内容を記述した問題表現を抽出する規則を格納した問題パタン辞書を記憶する。ここで、問題表現とは、ある事象の問題の内容を示す表現ということができる。
原因パタン辞書記憶手段32は、問題が発生した原因を記述した原因表現を抽出する規則を格納した原因パタン辞書を記憶する。ここで、原因表現とは、ある事象で問題が発生した原因を示す表現と言うことができる。
データ処理装置2は、問題・原因表現対抽出手段21と、因果単語対候補抽出手段22と、問題・原因表現関連度計算手段23と、因果単語対学習手段24と、因果単語対抽出手段25とを含む。
問題・原因表現対抽出手段21は、入力された複数の応答事例を含む文書群の中から、問題パタン辞書を用いて問題表現を抽出する。また、問題・原因表現対抽出手段21は、入力された文書群の中から、原因パタン辞書を用いて原因表現を抽出する。さらに、問題・原因表現対抽出手段21は、同一の応答事例から抽出された問題表現と原因表現の対(以下、問題表現・原因表現対と記す。)を作成する。
問題・原因表現対抽出手段21が抽出する問題表現および原因表現の単位は任意である。問題表現および原因表現を抽出する単位は、予め定められていてもよく、所定の条件に基づいて定められるようにしてもよい。また、問題表現および原因表現として、複数の単位の表現が混在していてもよい。例えば、抽出する単位の基本を文単位としておき、特定の条件の時のみ、抽出する単位を段落単位に変更するとしてもよい。ただし、抽出する単位は、文単位または段落単位に限定されない。
因果単語対候補抽出手段22は、抽出された問題表現・原因表現対の各々について、問題表現中に含まれる単語(以下、問題単語と記す。)と原因表現中に含まれる単語(以下、原因単語と記す。)を抽出し、問題単語と原因単語のそれぞれを対にした単語対を作成する。この単語対が後述する因果単語対候補に対応する。また、因果単語対候補抽出手段22は、応答事例全体での出現頻度が予め定めた基準よりも高い単語対を因果単語対候補として抽出してもよい。因果単語対候補抽出手段22は、例えば、出現頻度が予め定めた閾値以下の単語対を除外することで、因果単語対候補として抽出してもよい。また、因果単語対候補抽出手段22は、単語対を出現頻度の高い順に並べた後、予め定めた下位の一定割合に含まれる単語対を除外することで、因果単語対候補として抽出してもよい。
また、因果単語対候補抽出手段22は、抽出した問題単語および原因単語の特徴度を算出する。ここで、特徴度とは、各問題表現や原因表現に偏って出現する単語ほど高くなる値である。すなわち、因果単語対候補抽出手段22は、問題単語の特徴度として問題表現に偏って出現するほど高くなる特徴度を用い、原因単語の特徴度として原因表現に偏って出現する単語ほど高くなる特徴度を用いる。因果単語対候補抽出手段22は、特徴度として、例えば、検索の分野で広く用いられているtf*idfを用いてもよい。ただし、特徴度は、tf*idfに限定されない。なお、問題単語および原因単語の特徴度の算出処理を、問題・原因表現対抽出手段21が行ってもよい。
問題・原因表現関連度計算手段23は、問題・原因表現対抽出手段21が抽出した問題表現と原因表現との関連度を計算する。具体的には、問題・原因表現関連度計算手段23は、ある問題表現と原因表現の関連度を、当該問題表現と原因表現の組に含まれる各因果単語対候補について、当該因果単語対候補のスコア、当該問題表現における当該因果単語対候補の問題単語の特徴度と、当該原因表現における当該因果単語対候補の原因単語の特徴度、の3値に基づいて計算する。すなわち、問題・原因表現関連度計算手段23は、問題・原因表現対抽出手段21が作成した問題表現・原因表現対以外の問題表現と原因表現の組についても関連度を算出する。ここで、因果単語対候補のスコアとは、その因果単語対候補が因果単語対である尤もらしさの度合いを示す値を意味する。
すなわち、問題・原因表現関連度計算手段23は、問題表現と原因表現との関連度を、その問題表現と原因表現の組に含まれる各因果単語対候補の、その因果単語対候補が因果単語対である尤もらしさを示すスコアと、その問題表現における因果単語対候補の問題単語の特徴度と、その原因表現における因果単語対候補の原因単語の特徴度とに基づいて計算する。なお、関連度の算出方法については後述する。
因果単語対学習手段24は、抽出された問題表現・原因表現対の各々について、問題・原因表現関連度計算手段23が求めた問題表現・原因表現対における問題表現と原因表現との関連度が、問題表現・原因表現対における問題表現とその原因表現以外の原因表現との関連度より十分に大きくない場合、その2つの関連度の計算に使用した因果単語対候補の各々のスコアを、因果単語対候補の問題単語の問題表現における特徴度と、原因単語の原因表現における特徴度の積に比例した値の分だけ変化させる。
すなわち、因果単語対学習手段24は、問題・原因表現対抽出手段21が抽出した問題表現・原因表現対について問題・原因表現関連度計算手段23が計算した関連度と、その問題表現・原因表現対における問題表現とその問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値よりも大きいか否かを判断する。そして、両者の関連度の差が予め定めた閾値以下である場合、因果単語対学習手段24は、関連度の計算に利用した因果単語対候補のスコアを、問題表現に含まれる問題単語の特徴度と、原因表現に含まれる原因単語の特徴度との積に比例した値に応じて変化させる。
具体的には、両者の関連度の差が予め定めた閾値以下である場合、因果単語対学習手段24は、因果単語対候補のスコアを、問題表現・原因表現対に含まれる原因表現の問題単語の特徴度と問題表現・原因表現対における原因表現とは異なる原因表現の特徴度との差分に対して問題表現における問題単語の特徴度を乗じた値に応じて変化させる。
因果単語対抽出手段25は、スコアが閾値以上の因果単語対候補を、因果単語対として抽出する。
出力手段4は、因果単語対抽出手段25が抽出した因果単語対を出力する。
問題・原因表現対抽出手段21と、因果単語対候補抽出手段22と、問題・原因表現関連度計算手段23と、因果単語対学習手段24と、因果単語対抽出手段25とは、プログラム(因果単語対抽出用プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、データ処理装置2の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、問題・原因表現対抽出手段21、因果単語対候補抽出手段22、問題・原因表現関連度計算手段23、因果単語対学習手段24、および因果単語対抽出手段25として動作してもよい。
また、問題・原因表現対抽出手段21と、因果単語対候補抽出手段22と、問題・原因表現関連度計算手段23と、因果単語対学習手段24と、因果単語対抽出手段25とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施形態の因果単語対抽出装置の動作を説明する。図2は、本実施形態の因果単語対抽出装置の動作例を示すフローチャートである。まず、問題・原因表現対抽出手段21は、質問者からの質問に回答者から回答が示されるまでの質問者と回答者の対話内容を記録した応答事例の各々から、問題パタン辞書を用いて問題表現を抽出する。また、問題・原因表現対抽出手段21は、応答事例の各々から、原因パタン辞書を用いて原因表現を抽出する。そして、問題・原因表現対抽出手段21は、同じ応答事例から抽出された問題表現と原因表現の対(問題表現・原因表現対)を作成する(ステップS1)。
続いて、因果単語対候補抽出手段22は、抽出された問題表現・原因表現対の各々について、問題表現中の単語である問題単語と原因表現中の単語である原因単語を単語対として抽出する。そして、因果単語対候補抽出手段22は、応答事例全件での出現頻度が高い単語対を因果単語対候補として抽出する(ステップS2)。
続いて、因果単語対学習手段24は、抽出された問題表現・原因表現対の中から1つの問題表現・原因表現対を1つ取り出す。ここで取り出した1つの問題表現・原因表現対を正例と呼ぶ。さらに、因果単語対学習手段24は、取り出した問題表現・原因表現対における原因表現以外の原因表現を、問題・原因表現対抽出手段21が抽出した原因表現の中から選択する。そして、因果単語対学習手段24は、取り出した問題表現・原因表現対における問題表現と、選択した原因表現とを組み合わせる。これらの表現の組合せを負例と呼ぶ(ステップS3)。
続いて、問題・原因表現関連度計算手段23は、ステップS3で抽出された正例と負例の各々について、問題表現と原因表現の関連度を、その問題表現と原因表現の対に含まれる各因果単語対候補について、その因果単語対候補のスコア、その問題表現における因果単語対候補の問題単語の特徴度、および、その原因表現における因果単語対候補の原因単語の特徴度の3値に基づいて計算する(ステップS4)。
続いて、因果単語対学習手段24は、ステップS4で得られた正例の関連度が負例の関連度より十分大きいか否かを判断する(ステップS5)。正例の関連度が負例の関連度より十分大きい場合(ステップS5におけるyes)、ステップS3以降の処理を繰り返す。一方、正例の関連度が負例の関連度より十分大きくない場合(ステップS5におけるno)、ステップS6以降の処理を行う。
ステップS6において、因果単語対学習手段24は、ステップS4での正例と負例の関連度の計算に使用した因果単語対候補の各々のスコアを、そのスコアと、問題表現における上記因果単語対候補の問題単語の特徴度と、原因表現における上記因果単語対候補の原因単語の特徴度との積に比例した値の分だけ変化させる(ステップS6)。
続いて、因果単語対学習手段24は、学習を終了する条件を満たしているか否かを判断する(ステップS7)。学習を終了する条件を満たしている場合(ステップS7におけるyes)、ステップS8以降の処理を行う。一方、学習を終了する条件を満たしていない場合(ステップS7におけるno)、ステップS3以降の処理を繰り返す。
最後に、ステップS8において、因果単語対抽出手段25は、閾値以上のスコアの因果単語対候補を、因果単語対として出力する。
以上のように、本実施形態によれば、問題・原因表現対抽出手段21が、入力された文書群の中から、問題パタン辞書を用いて問題表現を抽出し、また、原因パタン辞書を用いて当該原因表現を抽出する。また、問題・原因表現対抽出手段21が、同一の応答事例から抽出された問題表現と原因表現の対(問題表現・原因表現対)を作成する。さらに、因果単語対候補抽出手段22が、抽出された問題表現・原因表現対の各々について、問題表現中に含まれる問題単語および原因表現中に含まれる原因単語を抽出する。そして、問題単語と原因単語のそれぞれを対にした単語対を因果単語対候補として作成する。
そして、問題・原因表現関連度計算手段23が、文書群から抽出された問題表現と原因表現との関連度を、その問題表現と原因表現の組に含まれる各因果単語対候補のスコア、その問題表現における因果単語対候補の問題単語の特徴度、および、その原因表現における因果単語対候補の原因単語の特徴度に基づいて計算する。
また、因果単語対学習手段24が、問題表現・原因表現対の関連度と、その問題表現・原因表現対における問題表現とその問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値以下である場合、その関連度の計算に利用した因果単語対候補のスコアを、問題表現における問題単語の特徴度と、原因表現における原因単語の特徴度との積に比例した値に応じて変化させる。そして、因果単語対抽出手段25が、スコアが閾値以上の因果単語対候補を因果単語対として抽出する。
よって、精度の高いドメイン固有の因果単語対を文書群から容易に抽出できる。
また、本実施形態では、ステップS1において、問題・原因表現対抽出手段21が、同じ応答事例から抽出された問題表現と原因表現の対を作成すると、その問題表現・原因表現対が、因果単語対辞書の学習に要する学習データとして利用される。そのため、このような学習データを人手で作成する必要がないため、対象とするドメインが変化しても、ドメイン固有の因果単語対辞書を容易に構築できる。
また、本実施形態では、ステップS2において、因果単語対候補抽出手段22が、応答事例全件での出現頻度が高い単語対を因果単語対候補として抽出する。このように、因果単語対候補を絞り込むことで、学習が必要なパラメータ数を減らすことができ、少ない学習データから学習可能となるため、高精度な因果単語対辞書が構築できる。すなわち、本実施形態では、例えば、非特許文献1に記載されているような重み行列W全体を学習せず、高い頻度で出現する問題表現中の単語表現および原因表現中の単語の組のみを対象に機械学習を行っている。このように、学習が必要なパラメータ数を減らしたことでより少ない学習データからでも学習できるようになる。そのため、高精度な因果単語対辞書を構築できる。
一方、本実施形態では、学習データは自動で機械的に作成される。そのため、作成された学習データに誤った問題表現・原因表現の対が混入し、誤った因果単語対候補が抽出される可能性がある。しかし、誤った因果単語対候補の出現頻度は、正しい問題表現・原因表現対に含まれる因果単語対候補よりも低い。そのため、本実施形態では、因果単語対候補抽出手段22が、抽出された単語対のうち、出現頻度の低い候補を除外するため、誤った因果単語対候補の発生を抑制できる。
また、例えば、本実施形態における因果単語対抽出装置を用いることで、原因表現抽出装置が利用する因果単語対のドメインが変化しても、質問者からの質問に回答者から回答が示されるまでの質問者・回答者のやりとりを記録した応対事例から、適切な因果単語対を抽出できる。
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。本実施例では、大規模データベースの製品サポートを行うバックエンドコールセンタに対して顧客が問い合わせを行うという問題が発生することとなった原因を、原因表現抽出装置が過去事例から抽出することにより因果単語対辞書を作成することを想定する。
最初に、原因表現抽出を行う対象となる文書群、問題パタン辞書、および、原因パタン辞書を用意する。上述の通り、文書群とは、質問者からの1つの質問に対して回答者から回答が示されるまでの質問者と回答者の対話内容を記録した応答事例の集合である。また、本実施例では、応答事例とは、顧客が製品について抱える問題をオペレータが受け付けてからオペレータによる回答が示されるまでの顧客とオペレータの応答である。
問題パタン辞書は、問題の内容を記述した問題表現を抽出する規則を格納した辞書である。本実施例では、問題パタン辞書は、顧客の問題点が含まれる箇所を応答事例から抽出するための規則を格納する。問題表現の抽出単位は、文単位であってもよく、段落単位であってもよい。ただし、問題表現の抽出単位は、文単位または段落単位に限定されない。
問題表現を抽出する規則は、特定の文字列や正規表現が抽出単位に含まれるか否かに基づいて判定する正規表現ベースの規則(以下、第1規則と記す。)であってもよい。また、問題表現を抽出する規則は、抽出単位に形態素解析、係り受け解析、意味分類付与等の言語処理を施して構造化された特定の構造が抽出単位に含まれるか否かに基づいて判定する構造ベースの規則(以下、第2規則と記す。)であってもよい。また、問題表現を抽出する規則は、発言者や発言日時など、応答事例を格納したデータベースのフィールドに基づいて判定するフィールドベースの規則(以下、第3規則と記す。)であってもよい。また、第1規則から第3規則までの規則を人手または機械学習により組み合わせた規則であってもよい。
本実施例では、文単位に分割された応答事例の各文が問題表現を含むか否かを判定する規則として、正規表現ベースの規則を用意するものとする。以下に、正規表現ベースの規則の例を示す。
(出来ません|できません|出来なくなります|出来なくなりました).{0,5}(。|、|$)
(されません|されませんでした).{0,5}(。|、|$)
(てしまいます|てしまいました).{0,5}(。|、|$)
(失敗します|失敗しました).{0,5}(。|、|$)
エラーコード[0−9]+(が|も)(発生|出る|でる).{0,5}(。|、|$)
...
例えば、上記に例示する1番目は、ある一文に“出来ません”、“できません”、“出来なくなります”または“出来なくなりました”のうちのいずれかの文字列が出現し、かつ、文字列の後方に5文字空けずに文末または句読点が存在する場合に、その一文は問題表現を含むと判定することを意味する正規表現である。なお、それ以外の規則も、一般的に知られた正規表現に基づいて作成されているため、詳細な説明を省略する。
原因パタン辞書は、問題が発生した原因を記述した原因表現を抽出する規則を格納した辞書である。本実施例では、原因パタン辞書は、顧客の問題点の発生原因が含まれる箇所を応答事例から抽出するための規則を格納する。原因表現を抽出する規則の規定方法は、問題パタン辞書の場合と同様である。
本実施例では、問題パタン辞書と同様、文単位に分割された応答事例の各文が問題表現を含むか否かを判定する規則として、正規表現ベースの規則を用意するものとする。以下に、正規表現ベースの規則の例を示す。
^{0,5}原因は
ことが原因.{0,5}(思われ|考えられ|。|、|$)
ため.{0,5}(思われ|考えられ|。|、|$)
ことにより
...
なお、上記に例示する規則も、一般的に知られた正規表現に基づいて作成されているため、詳細な説明を省略する。
次に、用意した文書群、問題パタン辞書および原因パタン辞書を用いて因果単語対を抽出する動作を説明する。まず、入力手段1は、応答事例の集合である文書群を受け付け、受け付けた文書群をデータ処理装置2に入力する。
続いて、問題・原因表現対抽出手段21は、受け付けた文書群の各応答事例から、問題パタン辞書を用いて問題表現を抽出する。また、問題・原因表現対抽出手段21は、原因パタン辞書を用いて原因表現を抽出する。本実施例では、問題・原因表現対抽出手段21は、応答事例を予め文の単位に分割する。その後、問題・原因表現対抽出手段21は、問題パタン辞書31中の正規表現を満たす文を問題表現として抽出し、原因パタン辞書中の正規表現を満たす文を原因表現として抽出する。なお、問題パタン辞書および原因パタン辞書には、抽出単位を定める規則を含んでいてもよい。
図3は、文書群中の各応答事例から抽出された問題表現および原因表現の例を示す説明図である。図3に示す例において、「ID」欄は、抽出された表現(問題表現または原因表現)を識別する固有の識別子を表し、「事例番号」欄は、各表現の抽出元の応答事例を識別する番号を表す。また、図3に示す例において、「種別」欄は、問題表現または原因表現の別を表し、「表現」欄は、抽出された問題表現や原因表現の文字列を表す。
図3に示す例では、ID「1」、ID「2」は、1つの応答事例から複数の問題表現が抽出されたことを示す。また、図3に示す例では、ID「4」は、1つの応答事例から問題表現が抽出できた一方で、原因表現が抽出できなかったことを示す。本実施例では、図3に例示する問題表現および原因表現が抽出されたものとする。
次に、問題・原因表現対抽出手段21は、同じ応答事例に出現する全ての問題表現と原因表現との対(問題表現・原因表現対)を作成する。図3に示す例では、事例番号「1」の応答事例には、ID「1」およびID「2」で識別される2つの表現が問題表現として含まれ、ID「3」で識別される1つの表現が原因表現として含まれる。そこで、問題・原因表現対抽出手段21は、「ID1→ID3」と「ID2→ID3」の2つの対を作成する。なお、図3に例示する事例番号「2」の応答事例のように、問題表現と原因表現の何れかが抽出できなかった場合、問題・原因表現対抽出手段21は、問題表現と原因表現との対を作成しない。
さらに、問題・原因表現対抽出手段21は、抽出された問題表現および原因表現を、形態素解析等により単語単位に分割し、分割した各単語に特徴度を付与する。各単語には、各問題表現や原因表現に偏って出現する単語に高い値の特徴度が付与される。なお、本実施例では、tf*idfを特徴度として用いるものとする。
図4は、単語に付与された特徴度の例を示す説明図である。図4に示す例では、図3に例示する表現が単語に分割され、分割された各単語に特徴度が付与されたことを示す。図4に示す例において、単語の右側に記載された数字が、その単語の特徴度を表す。
続いて、因果単語対候補抽出手段22は、作成された問題表現・原因表現対から、因果単語対の候補となる因果単語対候補を抽出する。まず、因果単語対候補抽出手段22は、問題表現・原因表現対ごとに、問題表現を分割して得られた単語の各々と、原因表現を分割して得られた単語の各々の全ての組み合わせを対にした単語対を作成する。
図4に示す例では、ID「1」で識別される問題表現には、「集計処理」、「エラーコード942」および「発生」の3単語が含まれ、ID「3」で識別される原因表現には、「アクセス権限」、「適切」、「設定」、「生じる」および「可能性」の5単語が含まれる。そこで、因果単語対候補抽出手段22は、それらの全ての組み合わせとして、15通りの単語対を作成する。因果単語対候補抽出手段22は、他の問題表現・原因表現対についても同様に単語対を作成する。
次に、因果単語対候補抽出手段22は、作成した全ての単語対を対象として、各単語対の出現頻度を算出(計測)する。そして、因果単語対候補抽出手段22は、算出した出現頻度に応じて一部の単語対を除外し、残り単語対を因果単語対候補とする。因果単語対候補抽出手段22は、単語対を除外する方法として、例えば、閾値以下の出現頻度の単語対を除外する方法を用いてもよい。また、因果単語対候補抽出手段22は、単語対を除外する方法として、単語対を出現頻度の高い順に並べ、下位一定割合の単語対を除外する方法を用いてもよい。
本実施例において、後述する因果単語対の学習に用いられる学習用データは、上記問題パタン辞書および原因パタン辞書を用いて自動抽出された問題表現・原因表現対である。そのため、自動抽出の際、誤った問題表現・原因表現が抽出され得るため、誤った因果単語対候補が生成される可能性がある。しかし、本実施例では、低頻度な(出現頻度の低い)因果単語対候補が除外されるため、誤った因果単語対候補の割合を低減させることができる。
なお、出現頻度の低い単語対を除外する理由は、以下の仮説に基づく。すなわち、誤った因果単語対候補は、正しい候補に比べて単語対のバリエーションが多い。そのため、誤った因果単語対候補の出現頻度は、正しい因果単語対候補の出現頻度に比べて低くなるからである。
例えば、非特許文献1に記載されているように、学習データが全て正しく潤沢な場合には、出現した単語を全て利用する方が入力表現と出力表現の対応関係をより正確に学習できる。一方、本実施例によれば、学習データが必ずしも正しくなく、量も比較的少量の場合であっても、出現頻度の低い単語対を除外することによって学習データの精度を高めることができる。
次に、因果単語対学習手段24は、各因果単語対候補のスコアを学習する。まず、各因果単語対候補のスコアの初期値として、正規分布からランダムにサンプリングした乱数を利用する。なお、本実施例では、因果単語対学習手段24が学習する方法として、オンライン学習を用いる。
ここで、オンライン学習とオフライン学習について説明する。オフライン学習とは、機械学習において、N個のデータが一括して与えられ、そのデータからパラメータを決定するなどの学習をする方法である。一方、オンライン学習とは、データが一つずつ逐次的に与えられ、データが与えられるたびにパラメータを更新する学習方法である。例えば、データをN個観測した後で推定されたパラメータがθ(N)であるとする。このとき、N+1個目のデータと、θ(N)とから、パラメータθ(N+1)を順次求めるようにする学習方法がオンライン学習の一例である。
上述の通り、本実施例では、因果単語対学習手段24がオンライン学習により学習データを作成するため、一つの学習データを処理するごとに学習結果が更新される。オンライン学習は、オフライン学習に比べて消費するメモリ量が非常に少ない。そのため、本タスクのように、学習するパラメータ数が多い学習を行う場合(例えば、単語数×単語数に比例したパラメータを学習する場合)には、オフライン学習により現実的な時間で学習が可能である。
また、本実施例では、評価関数として、margin ranking loss関数を学習に用いる。これは、学習データにおいて正しい検索結果の検索スコアが誤った検索結果の検索スコアより、一定のマージン以上大きくなるように学習させる評価関数である。なお、この正しい検索結果が、上記実施形態における正例に対応し、誤った検索結果が上記実施形態における負例に対応する。
まず、因果単語対学習手段24は、問題・原因表現対抽出手段21が抽出した複数の問題表現・原因表現対の中から1つをランダムに選択し、これを正例とする。次に、因果単語対学習手段24は、選択した問題表現・原因表現対の問題表現と、選択した問題表現・原因表現対とは異なる原因表現をランダムに選択して組み合わせ、これを負例とする。そして、問題・原因表現関連度計算手段23は、この正例、負例のそれぞれについて、問題表現と原因表現とがどの程度の因果関係(すなわち、問題と原因の関係)にあるかを示す度合い(以下、関連度と記す。)を計算する。
具体的には、問題・原因表現関連度計算手段23は、その問題表現と原因表現の組に含まれる各因果単語対候補の各々のスコア、その問題表現に含まれる因果単語対候補の問題単語の特徴度、その原因表現に含まれる因果単語対候補の原因単語の特徴度、の3値に基づいて関連度を計算する。3値に基づいた計算方法として、例えば、3値の積を計算し、更にその問題表現と原因表現の組に含まれる全ての因果単語対候補についてのその積の和を求める方法が挙げられる。すなわち、問題・原因表現関連度計算手段23は、問題表現と原因表現の組に含まれる因果単語対候補ごとに、上述する3値の積を計算し、計算した全ての積の和を求めることで、特徴度を算出してもよい。
例えば、図4に示す例において、「ID1→ID3」をランダムに選択された正例、ID3の原因表現をID4の原因表現で置き換えた「ID1→ID4」を負例とする。また、この正例に含まれる因果単語対候補が17対存在し、各因果単語対候補の現時点でのスコアが、「集計処理→適切:−0.5」,「集計処理→設定:0.4」,「集計処理→生じる:−0.3」,「集計処理→可能性:0.5」,「エラーコード942→アクセス権限: 0.6」,「エラーコード942→適切:−0.3」,「エラーコード942→設定:0.2」,「エラーコード942→生じる:0.5」,「エラーコード942→可能性:−0.2」,「発生→アクセス権限:−0.3」,「発生→適切:0.3」,「発生→設定:0.2」,「発生→生じる:−0.1」,「発生→可能性:0.3」であったとする。ここで、「:」の後ろに記載された値が因果単語対候補のスコアを示す。また、単語対「集計処理→アクセス権限」は、出現頻度が低いため、因果単語対候補抽出手段22が除外したものとする。
また、図4に例示するように、ID「1」で識別される問題表現の各単語の特徴度は、それぞれ、「集計処理:0.53」,「エラーコード942:0.80」,「発生:0.27」である。また、ID「3」で識別される原因表現の各単語の特徴度は、それぞれ「アクセス権限:0.68」,「適切:0.34」,「設定:0.31」,「生じる:0.37」,「可能性:0.44」である。ここで、「:」の後ろに記載された値が単語の特徴度を示す。
そこで、問題・原因表現関連度計算手段23は、正例(すなわち、ID「1」とID「3」)の関連度を、以下に示す式1で算出する。
Figure 2012243125
同様に、図4に示す例において、負例に含まれる因果単語対候補が7対存在し、各因果単語対候補の現時点でのスコアが、「集計処理→原因:−0.2」,「集計処理→思う:−0.1」,「エラーコード942→原因:0.2」,「エラーコード942→思う:0.1」,「発生→メモリ不足:0.9」,「発生→原因:0.1」,「発生→思う:0.1」であったとする。また、単語対「集計処理→メモリ不足」,「エラーコード942→メモリ不足」は、出現頻度が低いため、因果単語対候補抽出手段22が除外したものとする。問題・原因表現関連度計算手段23は、式1と同様の方法で、負例(すなわち、ID「1」とID「4」)の関連度を算出する。この場合、関連度=0.2616と計算される。
次に、因果単語対学習手段24は、両者の関連度の差が予め定めた閾値よりも大きいか否かを判断する。ここでは、評価関数であるmargin ranking loss関数のマージンを1に設定する。本実施例では、正例の関連度0.42と負例の関連度0.2616の差がマージンの値1より小さい。そこで、因果単語対学習手段24は、因果単語対候補のスコアを修正する。なお、関連度の差がマージンより大きい場合、因果単語対学習手段24は、因果単語対候補のスコアを修正しない。
因果単語対学習手段24は、正例および負例の関連度を計算する際に使用した因果単語対候補の各々のスコアを、そのスコアと、問題表現に含まれるその因果単語対候補の問題単語の特徴度と、原因表現に含まれる原因単語の特徴度の積に比例した値の分だけ変化させる。このようにして、因果単語対学習手段24は、因果単語対候補のスコアを修正する。
「ID1→ID3」を正例、「ID1→ID4」を負例とした上記の例では、用いられた因果単語対候補は、正例17対+負例7対の計24対存在する。そこで、因果単語対学習手段24は、これら全てについて個別に因果単語対候補のスコアを修正する。例えば、因果単語対候補である「エラーコード942→アクセス権限」の場合、単語「エラーコード942」のID「1」における特徴度は0.80であり、単語「アクセス権限」の正例(=ID3)における特徴度が0.68である。また、単語「アクセス権限」の負例(=ID4)における特徴度は、単語「アクセス権限」が出現していないため、0である。ここで、比例定数λ=0.1とすると、修正後のスコアは、以下に示す式2で算出される。
Figure 2012243125
このようにスコアを更新することで、正例に偏って出現する因果単語対候補(例えば、「エラーコード942→アクセス権限」)のスコアがより高くなる。また、正例と負例の区別無く出現する因果単語対候補のスコアは0に近づく。さらに、負例に偏って出現する因果単語対候補のスコアは負の値になる。
ここで、学習終了のための条件を満たしていない場合、因果単語対学習手段24は、再度、問題表現と原因表現の組をランダムに選択し、その組を用いた学習を繰り返す。例えば、通常の機械学習と同様、学習に用いない問題表現と原因表現の組をテストセットとして別途用意しておき、テストセットを用いた場合の損失関数の変化が一定値以下に収束することを学習終了のための条件としてもよい。
本実施例ではmargin ranking loss関数を用いている。そこで、因果単語対学習手段24は、テストセットの全ての問題表現と原因表現の組に対して、0と(1−正例の関連度+負例の関連度)のうちの大きい方の値を選択し、それらの和の値を評価する。なお、1つの学習データを処理するごとに終了判定を行うと計算量が多くなる。そこで、一定数以上の学習データを処理した後に終了判定を行う方法を用いることで、効率良く判定することが可能になる。
最後に、因果単語対抽出手段25は、学習したスコアが高い因果単語対候補を、因果単語対として抽出する。本実施例では、例えば、負例に出現せず、正例にのみ偏って出現する単語の組である「エラーコード942→アクセス権限」が得られる。
以上のように、本実施例では、応対事例からの原因表現を抽出する場合に、対象とする応答事例のドメインが変化しても、人手をかけずに因果単語対の抽出を行うことができる。また、本実施例に示すように、大規模データベースドメインの文書群から、「エラーコード942→アクセス権限」といったドメイン固有の因果単語対を抽出できる。
例えば、特許文献1に記載された原因表現抽出装置では、ドメイン固有の因果単語辞書が存在しないことが原因で、現象表現「プロセス実行時にエラーコード942が発生した」に対する2つの原因表現候補「表へのアクセス権限がプロセスにないことが原因です。」,「原因は、プロセスがメモリ不足に陥ったためです。」のうち、どちらの候補がより適切か判別することは困難であった。しかし、本実施例によれば、上記2つの原因表現候補の中から、正しく前者を選択することが可能になる。
言い換えると、本実施例によれば、ある現象(問題)についての記述が与えられた際、その現象が発生する原因についての記述を大規模コーパスから抽出している。そのため、例えば、顧客の複雑な問題解決を目的としたバックエンドコールセンタにおいて、顧客が問い合わせを行うという問題が発生した原因を過去事例から抽出することができる。
次に、本発明の最小構成の例を説明する。図5は、本発明による因果単語対抽出装置の最小構成の例を示すブロック図である。本発明による因果単語対抽出装置は、ある事象の問題の内容を示す表現である問題表現を抽出する規則を含む問題パタン辞書を記憶する問題パタン辞書記憶手段81(例えば、問題パタン辞書記憶手段31)と、ある事象で問題が発生した原因を示す表現である問題表現を抽出する規則を含む原因パタン辞書を記憶する原因パタン辞書記憶手段82(例えば、原因パタン辞書記憶手段32)と、入力された複数の応答事例を含む文書群の中から問題パタン辞書を用いて問題表現を抽出し、文書群の中から原因パタン辞書を用いて原因表現を抽出し、同一の応答事例から抽出した問題表現と原因表現の対である問題表現・原因表現対を作成する問題・原因表現対抽出手段83(例えば、問題・原因表現対抽出手段21)と、抽出された問題表現・原因表現対の各々について、問題表現中に含まれる単語である問題単語および原因表現中に含まれる単語である原因単語を抽出し、その問題単語と原因単語のそれぞれを対にした単語対を因果単語対候補として作成する因果単語対候補抽出手段84(例えば、因果単語対候補抽出手段22)と、問題・原因表現対抽出手段21が抽出した問題表現と原因表現との関連度を、その問題表現と原因表現の組に含まれる各因果単語対候補のその因果単語対候補が因果単語対である尤もらしさを示すスコアである尤度スコア(例えば、因果単語対候補のスコア)、その問題表現における因果単語対候補の問題単語の特徴度、および、その原因表現における因果単語対候補の原因単語の特徴度に基づいて計算する問題・原因表現関連度計算手段85(例えば、問題・原因表現関連度計算手段23)と、問題・原因表現関連度計算手段85が計算した問題表現・原因表現対の関連度と、その問題表現・原因表現対における問題表現とその問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値(例えば、マージン)以下である場合、その関連度の計算に利用した因果単語対候補の尤度スコアを、問題表現における問題単語の特徴度と、原因表現における原因単語の特徴度との積に比例した値に応じて変化させる因果単語対学習手段86(例えば、因果単語対学習手段24)と、尤度スコアが閾値以上の因果単語対候補を、因果単語対として抽出する因果単語対抽出手段87(例えば、因果単語対抽出手段25)とを備えている。
そのような構成により、精度の高いドメイン固有の因果単語対を文書群から容易に抽出できる。すなわち、対象とするドメインの変化に合わせてドメイン固有の因果単語対辞書を容易に構築できる。その結果、対象とするドメインが変化しても、応答事例から容易に高精度の原因表現を抽出できる。具体的には、応答事例から原因表現を抽出する原因表現抽出器を容易かつ高精度に作成できる。
また、因果単語対候補抽出手段84は、抽出した単語対のうち、入力された複数の応答事例全件に対する出現頻度が、予め定めた基準よりも高い単語対を因果単語対候補として抽出してもよい。
また、因果単語対学習手段86は、両者の関連度の差が予め定めた閾値以下である場合、因果単語対候補の尤度スコアを、問題表現・原因表現対に含まれる原因表現の問題単語の特徴度とその問題表現・原因表現対における原因表現とは異なる原因表現の特徴度との差分値に対して問題表現における問題単語の特徴度を乗じた値に応じて(例えば、式2に基づいて)変化させてもよい。
また、因果単語対候補抽出手段84は、問題単語の特徴度として問題表現に偏って出現するほど高くなる特徴度を用い、原因単語の特徴度として原因表現に偏って出現する単語ほど高くなる特徴度を用いてもよい。
また、因果単語対学習手段86は、オンライン学習により学習データを作成してもよい。
本発明は、文書群から原因と結果を示す単語のペアを抽出する因果単語対抽出装置に好適に適用される。例えば、本発明を、質問者からの問い合わせに関連する過去の回答を検索する情報検索装置や、情報検索装置をコンピュータに実現させるプログラムに適用できる。
1 入力手段
2 データ処理装置
21 問題・原因表現対抽出手段
22 因果単語対候補抽出手段
23 問題・原因表現関連度計算手段
24 因果単語対学習手段
25 因果単語対抽出手段
3 記憶装置
31 問題パタン辞書記憶手段
32 原因パタン辞書記憶手段
4 出力手段

Claims (9)

  1. ある事象の問題の内容を示す表現である問題表現を抽出する規則を含む問題パタン辞書を記憶する問題パタン辞書記憶手段と、
    ある事象で問題が発生した原因を示す表現である原因表現を抽出する規則を含む原因パタン辞書を記憶する原因パタン辞書記憶手段と、
    入力された複数の応答事例を含む文書群の中から前記問題パタン辞書を用いて前記問題表現を抽出し、前記文書群の中から前記原因パタン辞書を用いて前記原因表現を抽出し、同一の応答事例から抽出した前記問題表現と前記原因表現の対である問題表現・原因表現対を作成する問題・原因表現対抽出手段と、
    抽出された問題表現・原因表現対の各々について、問題表現中に含まれる単語である問題単語および原因表現中に含まれる単語である原因単語を抽出し、当該問題単語と当該原因単語のそれぞれを対にした単語対を因果単語対候補として作成する因果単語対候補抽出手段と、
    前記問題・原因表現対抽出手段が抽出した問題表現と原因表現との関連度を、当該問題表現と原因表現の組に含まれる各因果単語対候補の当該因果単語対候補が因果単語対である尤もらしさを示すスコアである尤度スコア、当該問題表現における因果単語対候補の問題単語の特徴度、および、当該原因表現における因果単語対候補の原因単語の特徴度に基づいて計算する問題・原因表現関連度計算手段と、
    前記問題・原因表現関連度計算手段が計算した問題表現・原因表現対の関連度と、当該問題表現・原因表現対における問題表現と当該問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値以下である場合、当該関連度の計算に利用した因果単語対候補の前記尤度スコアを、前記問題表現における問題単語の特徴度と、前記原因表現における原因単語の特徴度との積に比例した値に応じて変化させる因果単語対学習手段と、
    前記尤度スコアが閾値以上の因果単語対候補を因果単語対として抽出する因果単語対抽出手段とを備えた
    ことを特徴とする因果単語対抽出装置。
  2. 因果単語対候補抽出手段は、抽出した単語対のうち、入力された複数の応答事例全件に対する出現頻度が、予め定めた基準よりも高い単語対を因果単語対候補として抽出する
    請求項1記載の因果単語対抽出装置。
  3. 因果単語対学習手段は、両者の関連度の差が予め定めた閾値以下である場合、因果単語対候補の尤度スコアを、問題表現・原因表現対に含まれる原因表現の問題単語の特徴度と当該問題表現・原因表現対における原因表現とは異なる原因表現の特徴度との差分値に対して問題表現における問題単語の特徴度を乗じた値に応じて変化させる
    請求項1または請求項2記載の因果単語対抽出装置。
  4. 因果単語対候補抽出手段は、問題単語の特徴度として問題表現に偏って出現するほど高くなる特徴度を用い、原因単語の特徴度として原因表現に偏って出現する単語ほど高くなる特徴度を用いる
    請求項1から請求項3のうちのいずれか1項に記載の因果単語対抽出装置。
  5. 因果単語対学習手段は、オンライン学習により学習データを作成する
    請求項1から請求項4のうちのいずれか1項に記載の因果単語対抽出装置。
  6. 入力された複数の応答事例を含む文書群の中から、ある事象の問題の内容を示す表現である問題表現を抽出する規則を含む問題パタン辞書を用いて当該問題表現を抽出し、
    前記文書群の中から、ある事象で問題が発生した原因を示す表現である原因表現を抽出する規則を含む原因パタン辞書を用いて当該原因表現を抽出し、
    同一の応答事例から抽出された前記問題表現と前記原因表現の対である問題表現・原因表現対を作成し、
    抽出された問題表現・原因表現対の各々について、問題表現中に含まれる単語である問題単語および原因表現中に含まれる単語である原因単語を抽出し、
    前記問題単語と前記原因単語のそれぞれを対にした単語対を因果単語対候補として作成し、
    前記文書群から抽出された問題表現と原因表現との関連度を、当該問題表現と原因表現の組に含まれる各因果単語対候補の当該因果単語対候補が因果単語対である尤もらしさを示すスコアである尤度スコア、当該問題表現における因果単語対候補の問題単語の特徴度、および、当該原因表現における因果単語対候補の原因単語の特徴度に基づいて計算し、
    問題表現・原因表現対の関連度と、当該問題表現・原因表現対における問題表現と当該問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値以下である場合、当該関連度の計算に利用した因果単語対候補の前記尤度スコアを、前記問題表現における問題単語の特徴度と、前記原因表現における原因単語の特徴度との積に比例した値に応じて変化させ、
    前記尤度スコアが閾値以上の因果単語対候補を因果単語対として抽出する
    ことを特徴とする因果単語対抽出方法。
  7. 抽出された単語対のうち、入力された複数の応答事例全件に対する出現頻度が、予め定めた基準よりも高い単語対を因果単語対候補として抽出する
    請求項6記載の因果単語対抽出方法。
  8. コンピュータに、
    入力された複数の応答事例を含む文書群の中から、ある事象の問題の内容を示す表現である問題表現を抽出する規則を含む問題パタン辞書を用いて当該問題表現を抽出し、前記文書群の中から、ある事象で問題が発生した原因を示す表現である原因表現を抽出する規則を含む原因パタン辞書を用いて当該原因表現を抽出し、同一の応答事例から抽出した前記問題表現と前記原因表現の対である問題表現・原因表現対を作成する問題・原因表現対抽出処理、
    抽出された問題表現・原因表現対の各々について、問題表現中に含まれる単語である問題単語および原因表現中に含まれる単語である原因単語を抽出し、当該問題単語と当該原因単語のそれぞれを対にした単語対を因果単語対候補として作成する因果単語対候補抽出処理、
    前記問題・原因表現対抽出処理で抽出された問題表現と原因表現との関連度を、当該問題表現と原因表現の組に含まれる各因果単語対候補の当該因果単語対候補が因果単語対である尤もらしさを示すスコアである尤度スコア、当該問題表現における因果単語対候補の問題単語の特徴度、および、当該原因表現における因果単語対候補の原因単語の特徴度に基づいて計算する問題・原因表現関連度計算処理、
    前記問題・原因表現関連度計算処理で計算された問題表現・原因表現対の関連度と、当該問題表現・原因表現対における問題表現と当該問題表現・原因表現対における原因表現とは異なる原因表現との関連度の差が予め定めた閾値以下である場合、当該関連度の計算に利用した因果単語対候補の前記尤度スコアを、前記問題表現における問題単語の特徴度と、前記原因表現における原因単語の特徴度との積に比例した値に応じて変化させる因果単語対学習処理、および、
    前記尤度スコアが閾値以上の因果単語対候補を因果単語対として抽出する因果単語対抽出処理
    を実行させるための因果単語対抽出用プログラム。
  9. コンピュータに、
    因果単語対候補抽出処理で、抽出した単語対のうち、入力された複数の応答事例全件に対する出現頻度が、予め定めた基準よりも高い単語対を因果単語対候補として抽出させる
    請求項8記載の因果単語対抽出用プログラム。
JP2011113402A 2011-05-20 2011-05-20 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム Active JP5682448B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011113402A JP5682448B2 (ja) 2011-05-20 2011-05-20 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011113402A JP5682448B2 (ja) 2011-05-20 2011-05-20 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム

Publications (2)

Publication Number Publication Date
JP2012243125A true JP2012243125A (ja) 2012-12-10
JP5682448B2 JP5682448B2 (ja) 2015-03-11

Family

ID=47464759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011113402A Active JP5682448B2 (ja) 2011-05-20 2011-05-20 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム

Country Status (1)

Country Link
JP (1) JP5682448B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017037544A (ja) * 2015-08-12 2017-02-16 国立研究開発法人情報通信研究機構 未来シナリオ生成装置及び方法、並びにコンピュータプログラム
JP2018129022A (ja) * 2017-02-09 2018-08-16 キーランド テクノロジー シーオー., エルティーディー. インダストリアル・インターネットオペレーティングシステムに基づく異種フィールドデバイス制御管理システム
WO2020144736A1 (ja) * 2019-01-08 2020-07-16 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
JP2021108212A (ja) * 2019-06-18 2021-07-29 ヤフー株式会社 取得装置、取得方法、および取得プログラム
WO2021220478A1 (ja) * 2020-04-30 2021-11-04 三菱電機株式会社 学習データ作成装置、方法、及びプログラム
WO2022144968A1 (ja) * 2020-12-28 2022-07-07 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101741248B1 (ko) 2016-09-29 2017-05-31 중앙대학교 산학협력단 복수의 변수를 이용한 인과관계 추정 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008226168A (ja) * 2007-03-15 2008-09-25 Omron Corp 因果推論装置、その制御プログラムおよび制御方法
JP2009059323A (ja) * 2007-09-04 2009-03-19 Omron Corp 知識生成システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008226168A (ja) * 2007-03-15 2008-09-25 Omron Corp 因果推論装置、その制御プログラムおよび制御方法
JP2009059323A (ja) * 2007-09-04 2009-03-19 Omron Corp 知識生成システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山田 一郎: "クローズドキャプションを対象とした因果関係知識抽出の検討", FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第2分冊, JPN6014040892, 22 August 2005 (2005-08-22), ISSN: 0002965406 *
村田 真樹: "機械学習法を用いた日本語格解析−教師信号借用型と非借用型,さらには併用型−", 情報処理学会研究報告, vol. 第2001巻第69号, JPN6014040894, 17 July 2001 (2001-07-17), pages 113 - 120, ISSN: 0002965407 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017037544A (ja) * 2015-08-12 2017-02-16 国立研究開発法人情報通信研究機構 未来シナリオ生成装置及び方法、並びにコンピュータプログラム
JP2018129022A (ja) * 2017-02-09 2018-08-16 キーランド テクノロジー シーオー., エルティーディー. インダストリアル・インターネットオペレーティングシステムに基づく異種フィールドデバイス制御管理システム
WO2020144736A1 (ja) * 2019-01-08 2020-07-16 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
JPWO2020144736A1 (ja) * 2019-01-08 2021-02-18 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
JP2021108212A (ja) * 2019-06-18 2021-07-29 ヤフー株式会社 取得装置、取得方法、および取得プログラム
JP7292324B2 (ja) 2019-06-18 2023-06-16 ヤフー株式会社 取得装置、取得方法、および取得プログラム
JPWO2021220478A1 (ja) * 2020-04-30 2021-11-04
JP7106036B2 (ja) 2020-04-30 2022-07-25 三菱電機株式会社 学習データ作成装置、方法、及びプログラム
KR20220145422A (ko) * 2020-04-30 2022-10-28 미쓰비시덴키 가부시키가이샤 학습 데이터 작성 장치, 방법, 및 프로그램
EP4131056A4 (en) * 2020-04-30 2023-04-26 Mitsubishi Electric Corporation DEVICE, METHOD AND PROGRAM FOR GENERATION OF TRAINING DATA
WO2021220478A1 (ja) * 2020-04-30 2021-11-04 三菱電機株式会社 学習データ作成装置、方法、及びプログラム
KR102635118B1 (ko) * 2020-04-30 2024-02-07 미쓰비시덴키 가부시키가이샤 학습 데이터 작성 장치, 방법, 및 프로그램
WO2022144968A1 (ja) * 2020-12-28 2022-07-07 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
JP7529048B2 (ja) 2020-12-28 2024-08-06 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP5682448B2 (ja) 2015-03-11

Similar Documents

Publication Publication Date Title
Rousselet et al. An introduction to the bootstrap: a versatile method to make inferences by using data-driven simulations.
KR102408083B1 (ko) 논팩토이드형 질의응답 시스템 및 방법 그리고 그것을 위한 컴퓨터 프로그램
JP5682448B2 (ja) 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
Mena‐Chalco et al. Brazilian bibliometric coauthorship networks
US9946763B2 (en) Evaluating passages in a question answering computer system
US11436416B2 (en) Automated conversation review to surface virtual assistant misunderstandings
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
US20190286693A1 (en) Structured term recognition
Zhang et al. Big data versus the crowd: Looking for relationships in all the right places
US9270749B2 (en) Leveraging social media to assist in troubleshooting
US20120310930A1 (en) Keyword Suggestion for Efficient Legal E-Discovery
US11875240B1 (en) Tuning a generative artificial intelligence model
Kejriwal et al. A two-step blocking scheme learner for scalable link discovery.
CN114090784A (zh) 一种材料领域知识图谱的实体标签聚类方法及装置
Sarkar et al. NLP algorithm based question and answering system
Avogadro et al. Estimating Link Confidence for Human-in-the-loop Table Annotation
Weis A case based reasoning approach for answer reranking in question answering
Braylan et al. A General Model for Aggregating Annotations Across Simple, Complex, and Multi-Object Annotation Tasks
Dumitrache et al. False positive and cross-relation signals in distant supervision data
CN113297419B (zh) 视频知识点确定方法、装置、电子设备和存储介质
CN112507082B (zh) 一种智能识别不当文本交互的方法、装置和电子设备
Lu et al. Semantic link analysis for finding answer experts
Bansal et al. Literature review of finding duplicate bugs in open source systems
Cai et al. TKG: Telecom Knowledge Governance Framework for LLM Application
Wunderle et al. Pointer Networks: A Unified Approach to Extracting German Opinions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141229

R150 Certificate of patent or registration of utility model

Ref document number: 5682448

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150