JP2006072787A - 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム - Google Patents

自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2006072787A
JP2006072787A JP2004256505A JP2004256505A JP2006072787A JP 2006072787 A JP2006072787 A JP 2006072787A JP 2004256505 A JP2004256505 A JP 2004256505A JP 2004256505 A JP2004256505 A JP 2004256505A JP 2006072787 A JP2006072787 A JP 2006072787A
Authority
JP
Japan
Prior art keywords
question
word
class label
answer
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004256505A
Other languages
English (en)
Other versions
JP2006072787A5 (ja
Inventor
Yutaka Sasaki
裕 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004256505A priority Critical patent/JP2006072787A/ja
Publication of JP2006072787A publication Critical patent/JP2006072787A/ja
Publication of JP2006072787A5 publication Critical patent/JP2006072787A5/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】質問タイプを用いることなく、質問に対する解答を文書群の中から自動的に抽出できるようにする。
【解決手段】モデル作成方法は、学習用QA集60内の質問に対する解答を含む文書50内の各単語に対し、当該解答との関連を示すクラスラベルを所定のクラスラベル集合から選択し付与するステップ63と、学習用の質問の各々に対し、当該質問に対する解答を含む文書に含まれる各単語について、当該質問と当該文書とから算出される所定の特徴量と、クラスラベルを付与するステップにおいて当該各単語に付与されたクラスラベルとからなる学習用データ66を準備するステップ64と、学習用データ66に基づき、所定の特徴量が与えられると、クラスラベル集合の要素の各々に対する評価値として確率を与えるような確率モデル34を機械学習により構築するステップ68とを含む。
【選択図】 図1

Description

この発明は質問応答の自動化技術に関し、特に、質問タイプを用いず、質問と文書との特徴とに基づいて、予め準備した文書群から質問に対する解答を直接抽出する質問応答システムに関する。
従来、大量の文書を用いて自然文によるユーザからの質問に答える質問応答(QA:Question Answering)システムは、以下に示す4つのコンポーネントからなっている。
質問解析 質問文を解析し、質問文の質問タイプ(または解答タイプ)を同定する。
文書検索 質問文に関連する文書を大量の文書データから取出す。
解答候補抽出 文書から質問タイプに合った表現を解答候補として取出す。
解答選択 質問タイプ、検索語などの特徴を利用して、解答候補から解答を優先度付きで選択する。
質問タイプとしては、主としてPERSON、ORGANIZATIONのような固有表現、および質問の対象になりやすいFISH、BIRDなどというクラス名が用いられている。しかし、このような構成をとることにより、QAシステムが解答できる答の対象が、質問タイプという中間表現によって限定されてしまうという欠点がある。
また、多くのシステムでは、質問タイプの体系は、固有表現抽出を中心とした解答候補の抽出の体系としても利用される。一方、今後は多言語でのQAシステムに対する必要性が増してくると思われる。そうしたシステムでは、各言語について、QAシステム独自の質問タイプの体系にあった表現を抽出する必要がある。しかしそうしたツールの構築には、労力と時間とを大量に必要とする。
これに対し近年、非特許文献1に記載のSAIQA−IIなど、機械学習技術によりQAシステムの各コンポーネントを構築する研究も行なわれている(例えば非特許文献2)。しかし、このようなアプローチをとったとしても、各システムの質問タイプの体系に合わせた大量の学習データを作成する必要があり、多大な労力が必要であることには変わりがない。さらに、質問タイプを追加したり変更したりすることも考えられるが、それは大量の学習データ全体の修正変更を意味する。
例えば、中国語の質問文とそれに対する正解とのペアが10,000組あるものとする。この場合、中国語の質問文に対して、各システム独自の質問タイプの体系に合わせて、人手により質問文の分類を行なう必要がある。加えて、その質問タイプの体系に合わせて、解答候補抽出のために、中国語の文書にタグを付した学習データも必要となる。
もし質問タイプの変更を行なう必要が生じた場合には、大量のデータ全体を見直すことが必要になる。例えば、質問タイプORGANIZATIONを、COMPANY、SCHOOL、およびその他組織の三種の分類に詳細化するという修正を行なう場合を考えてみる。この場合、以下の作業が必要になる。すなわち、ORGANIZATIONに関する質問文を人手により再分類する。次に解答候補抽出のための学習データの中からORGANIZATIONタグを全て抽出し、この三種のいずれかに人手で修正する。
佐々木裕、磯崎秀樹、鈴木潤、国領弘治、平尾努、賀沢秀人、前田英作、「SVMを用いた学習型質問応答システムSAIQA−II」、情報処理学会論文会誌、第45巻第2号、pp.635−646、2004年 鈴木潤、佐々木裕、前田英作、「単語属性N−gramと統計的機械学習による質問タイプ同定」、情報処理学会論文会誌、第44巻第11号、pp.2839−2853、2003年
このように質問タイプという中間表現を用いることにより、QAシステムが解答できる答の対象が限定されてしまうという問題がある。さらに、多言語のQAシステムを構築しようとする場合、各言語について質問タイプの体系にあった表現を抽出することが必要になるという問題がある。さらに、質問タイプの体系に変化または追加があると、各言語の学習データに対して、質問タイプの変更に応じた修正を行なう必要がある。そのため、質問タイプを用いないQAシステムを構築し、それを利用して質問に対する自動応答が可能なシステムが望まれている。
それゆえに本発明の目的は、質問タイプを用いることなく、質問に対する解答を文書群の中から抽出できる、コンピュータを用いた自動質問解答方法、およびそのためのモデル作成方法を提供することである。
本発明の第1の局面にかかる方法は、学習用の質問・解答集および文書データセットを用いて質問に対する自動応答システムのためのモデルを作成するようコンピュータを制御するモデル作成方法である。質問・解答集はコンピュータ読取可能な複数の学習用質問データを含み、学習用質問データの各々は、質問と、当該質問に対する解答と、文書データセット中の当該解答を含む文書を特定する情報とを含む。この方法は、学習用質問データの解答を含む文書内の各単語に対し、当該解答との関連を示すクラスラベルを所定のクラスラベル集合から選択し付与するステップと、学習用質問データの各々に対し、当該質問に対する解答を含む文書に含まれる各単語について、当該質問と当該文書とから算出される所定の特徴量と、クラスラベルを付与するステップにおいて当該各単語に付与されたクラスラベルとからなる学習用データを準備するステップと、学習用データに基づき、所定の特徴量が与えられると、クラスラベル集合の要素の各々に対する評価値を与えるようなモデルを機械学習により構築するステップとを含む。
学習用の質問には、質問タイプは不要である。質問タイプの体系にあわせて学習用データを準備したり、質問タイプの体系の変化にあわせて学習用データを再準備したり学習を再度行なったりする必要はない。その結果、自動質問応答システムのためのモデルを容易に準備できる。
所定の特徴量としての入力記号の集合をX、クラスラベル集合をYとすると、学習用データを準備するステップは、学習用質問データの各々に対し、当該学習用質問データの解答を含む文書から、集合Xに属する記号からなる入力xを特徴量として作成し、当該入力xに対応する単語に対して割当てられた、クラスラベル集合Yに属するクラスラベルyとの組(x,y)を作成するステップを含み、構築するステップは、入力xが与えられたときの出力yに関する条件付確率をp(y|x)とすると、所定の制約を満たす確率分布の集合Cから、p(y|x)に関するエントロピーH(p)が最大になる確率モデル
Figure 2006072787
を求めるステップを含む。
最大エントロピー法を用いることにより、学習用の質問・解答集以外の質問に対しても確率値が一様に配分され、未知の質問についてもある程度の信頼性で自動的に解答を出すことが可能な確率モデルを準備できる。
本発明の第2の局面にかかる方法は、単語に関する所定の特徴量が与えられると、当該単語に対し所定のクラスラベル集合の要素であるクラスラベルの各々に対する評価値を与える所定のモデルと、所定の文書データセットとを用い、与えられる質問に対する解答を出力するようにコンピュータを制御する自動質問解答方法である。この方法は、与えられた質問に対して最も高い関連を有する所定個数の文書を文書データセットから検索するステップと、検索するステップで検索された文書の各単語について、質問と、当該文書とに基づいて所定の特徴量を算出するステップと、検索するステップで検索された文書の各単語について、所定のモデルを用いて所定の特徴量に対するクラスラベルの評価値を算出するステップと、検索するステップで検索された文書内の単語に対し評価値を算出するステップで算出されたクラスラベルの評価値に基づいて、検索するステップで検索された文書内から質問に対する解答となる単語列を選択する第1の選択ステップとを含む。
本局面で使用するモデルには質問タイプに関する情報が不要である。そのため、与えられる質問についてそのタイプを推定する必要がない。
好ましくは、第1の選択ステップは、検索するステップで検索された文書内の単語に対し、評価値を算出するステップで算出されたクラスラベルの評価値に基づいて、当該単語に対するクラスラベルを推定するステップと、検索するステップで検索された文書内の単語に対し、推定するステップで推定されたクラスラベルからなるクラスラベル列のうち、所定の条件を充足するクラスラベル列に対応する単語列を質問に対する解答として選択する第2の選択ステップとを含む。
さらに好ましくは、クラスラベル集合は、単語が解答に含まれることを示す第1の種類のクラスラベルと、解答以外の単語であることを示す第2の種類のクラスラベルとを含み、第2の選択ステップは、検索するステップで検索された文書内の単語に対し、推定するステップで推定されたクラスラベルからなるクラスラベル列のうち、第1の種類のクラスラベルのみからなる連続するクラスラベル列を特定し、当該連続するクラスラベル列内のクラスラベルに対し評価値を算出するステップで算出された評価値の関数であるスコアを割当てて、当該連続するクラスラベル列に対応する単語列を抽出するステップと、単語列を抽出するステップで抽出された単語列のうち、上位のスコアを持つ所定個数の単語列を質問に対する解答として出力するステップとを含む。
本発明の第3の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータが上記したいずれかのモデル作成方法を実行するように当該コンピュータを制御するものである。
また本発明の第4の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータが上記したいずれかの自動質問解答方法を実行するように当該コンピュータを制御するものである。
[概略]
以下に説明する本発明の一実施の形態に係るQAシステムは、学習データの質問と正解との特徴に基づいて、質問に対する正解を所定の文書群から直接に抽出する機能を持つ。そのためにこのQAシステムでは、新たなアプローチとして質問応答を「質問文によりバイアスされた用語抽出(QBTE:Question-Biased Term Extraction)問題」として捉え、質問タイプという中間表現を用いることなく、質問文と文書との特徴に基づいて、質問に対する解答を文書から直接に抽出する。
本実施の形態では、最大エントロピー法という機械学習の手法を用いることにより、質問文の特徴、文書の特徴、および両者の特徴の組合せを素性(特徴)としたデータから、解答を直接抽出するための学習を行なう方法を用いてモデルの学習を行なう。さらに、質問が与えられると、このモデルを用いて文書群中から解答として評価値(本実施の形態では確率)の高い単語または単語群を抽出する。
[最大エントロピー法]
本実施の形態に係る学習型QAシステムの説明のための準備として、機械学習アルゴリズム「最大エントロピー法」の概要、および最大エントロピー法のためにどのような学習データを準備するかについて述べる。
全ての入力記号の集合をX、全てのクラスレベルの集合をYとする。入力x={x1,…,xm}(xi∈Χ)と出力y∈Yの対(x,y)により事例を表現する。
入力xが与えられた時の出力yに関する条件付き確率をp(y|x)とすると、最大エントロピー原理は、p(y|x)に関するエントロピーH(p)が最大になる確率モデル
Figure 2006072787
を、制約を満たす確率モデルの集合Cから求める最適化問題である。本実施の形態では、エントロピーとして言語モデルのエントロピーH(p)=−Σx,yP(x,y)logP(x,y)を用いる。
データ(x(1),y(1)),…,(x(n),y(n))が与えられたとき、本報告では素性関数fiを以下のように定義する。
Figure 2006072787
とする。すなわち、xに含まれる各入力記号とそのクラスラベルの組合せをそのまま最大エントロピー法の素性(関数)とする。
ラグランジュ乗数λ=λ1,…,λmを用いて、Hの双対関数Ψを考える。
Figure 2006072787
双対な最適化問題
Figure 2006072787
は制約のない最適化問題として効率的に解くことができ、目的の確率モデルp*=pλ*を以下の式で求めることができる。本実施の形態では、この式を用いてモデル構築を行なう。
Figure 2006072787
なお、この確率モデル自体は、最大エントロピー法に限らず、HMM(隠れマルコフモデル)、SVM(Support Vector Machine)などを用いて構築することもできる。
[構成]
図1に、本発明の一実施の形態に係るQAシステム20の概略ブロック図を示す。図1を参照して、QAシステム20は、毎日新聞1995年の記事からなる文書集合30を用いて質問文36に対する解答40を文書集合30から抽出するためのものである。文書集合30は、学習用データセット50と、実行時用データセット52とを含む。学習時には学習用データセット50を用いる。実行時には、実行時用データセット52とともに学習用データセット50も用いる。
QAシステム20は、与えられた単語(または単語群)の各々に対し、質問文30に対する解答である可能性を示す値を出力するように訓練される確率モデル34と、確率モデル34を学習用データセット50を用いて訓練するためのモデル構築部32と、モデル構築部32により訓練された確率モデル34を用いて、質問文36に対する解答としての可能性の高い単語または単語群を文書集合30から抽出し、解答40として出力するための自動解答装置38とを含む。
モデル構築部32は、質問および解答と、学習用データセット50内でその解答が現れる記事へのリンクとからなる組を所定個数(本実施の形態の場合には2000個)含む学習用QA集60と、学習用QA集60内のQAとリンクされた学習用データセット50内の記事を抽出するための記事抽出部62と、記事抽出部62により抽出された記事に含まれる各単語に対し、後述するようなクラスラベルを自動的に割当てる処理を行なうためのラベル付け部63とを含む。
本実施の形態では、学習用QA集60として、CRL(Communication Research Laboratory)QAデータセットを用いる。このデータセットは、質問文2000問からなる。各質問文には、質問タイプと正解、および正解の出現する新聞記事へのリンク(実際は記事のID)が与えられている。CRL QAデータセットの各質問タイプに属する文の数について表1に示す。
Figure 2006072787
学習用QA集60は、図2に示すように、質問および解答、ならびに学習用データセット50内でその解答を含む記事へのリンクを含む2000個の学習用QA110,112,114,…,120,122,124を含む学習用QA群100と、学習用QA110,112,114,…,120,122,124とリンクにより関連付けられている記事に含まれる各単語に対し、それぞれ割当てられたクラスラベルを含む2000個のラベルデータ130,132,134,…,140,142,144を含むラベルデータ群102とを含む。
図3を参照して、クラスラベルについて説明する。第1の質問Q1に対する解答を含む記事が記事50Aであるものとする。記事50Aが単語列W1112…W1k1(k+1)1(k+2)…W1(k+i)1(k+i+1)…W1n1からなるものとし、これらの単語のうち、単語列W1(k+1)1(k+2)…W1(k+i)が質問Q1に対する解答であるものとする。この場合、本実施の形態では、ラベル付け部63は、この単語列W1(k+1)1(k+2)…W1(k+i)を記事抽出部62が抽出した記事50Aの中で検索し、その先頭の単語W1(k+1)に対してはクラスラベル「B」(以下「Bラベル」と呼ぶ。)を、他の単語列W1(k+2)…W1(k+i)に対してはクラスラベル「I」(以下「Iラベル」と呼ぶ。)を、それぞれ割当てる。また、記事50Aのうち、質問Q1に対する解答以外の単語列にはクラスラベル「O」(以下「Oラベル」と呼ぶ。)を割当てる。こうして、質問Q1に対するラベルデータ130が作成される。他の質問に対するラベルデータも同様にして作成される。
再び図1を参照して、モデル構築部32は、学習用QA集60内の学習用QA群100とラベルデータ群102とを用いて確率モデル34の学習のための学習用データを作成するための学習用データ作成部64と、学習用データ作成部64により作成された学習用データを格納するための学習用データ記憶部66と、学習用データ記憶部66に記憶された学習用データを用いて確率モデル34の学習を行なうためのモデル学習部68とを含む。
図4に、学習用データ作成部64が作成する学習用データの概略を示す。図4を参照して、学習用データは、各質問(Q,…,Qとする。)と、当該質問に対する解答を含む記事内の各単語(W1−1,…,W1−q1,W2−1,…,W2−q2,…,W,…,WK−qKとする。)との組合せの各々(Q1−1,Q1−2,…,QK−1,…,QK−qK)に対し、その単語に対しラベル付け部63が割当てたクラスラベルと、以下のような特徴とを抽出し、並べたものである。
学習データとして、大きく分けて質問文の特徴(質問特徴集合)、文書の特徴(文書特徴集合)、および特徴の組合せ(組合せ特徴集合)という3グループの特徴を学習データに採用した。
従来のQAシステムで行なわれてきた、質問文の分類または解答の選択に相当する機能を機械学習により実現するためには、質問文集合に含まれる質問文とその質問タイプ、文書中での正解の現れ方に関する特徴をベクトルまたは集合で表現する必要がある。一般的には、素性の値をベクトル化した素性ベクトルとクラスラベルとを学習データとするが、最大エントロピー法においては、素性関数が素性に相当し、素性関数の値が素性の値に相当する。
本実施の形態では、入力に含まれる入力記号とクラスラベルの組合せがそのまま素性関数を決定する。したがって、まず入力記号集合の作成法を説明する。例えば、ある子供の特徴を表す場合について考える。この子供が、特徴として「身長125cm、体重35kg、兄弟姉妹なし、好きな色は黄色」という特徴をもっているものとする。数値はいくつかの区間に分けて表現する。例えば、身長は、150cm未満をS、150cm以上170cm未満をM、170cm以上をLで表す。体重なども同様に表すことができる。それ以外の特徴については、所定の表現を用いる。するとこの子供に関する入力データxは、例えばx={身長:S,体重:S,兄弟姉妹:無,色:黄色}と表すことができる。なお、ここで記載した入力記号の表現法は単なる一例であり、入力記号集合において一意であればよい。
本実施の形態で用いる3グループの特徴は、以下のようなものである。
[質問特徴集合]
質問特徴集合(qestion feature set)は、質問文のみから得られる特徴である。1つの質問文に対して、1種類の質問特徴集合が定まるので、ある質問文に対する解答単語列を抽出する場合、各単語に与えられる質問特徴集合は同一である。
作成される質問特徴集合の各特徴は以下の通りである。なお、品詞体系は形態素解析ツールChaSenが出力するIPA(International Phonetic Association)の最大4階層の品詞体系を用いている。例えば、「多岐川」の品詞は「名詞―固有名詞―人名―姓」であり、助詞「が」の品詞は「助詞―格助詞―一般」である。以下、最左の品詞から順に、品詞1、品詞2、品詞3、品詞4と呼ぶ。
−(qw)質問中の単語のn−gram(1≦n≦N、nは整数)の列挙(例:「首相は誰」に対し、N=2の場合、「qw:首相、qw:は、qw:誰、qw:首相は、qw:は誰」を特徴とする。)
−(qq)質問中の疑問詞(「誰」「どこ」「何」「いつ」等)
−(qm1)質問中の単語の品詞1の異なりの列挙(例:「首相は誰」に対し、「qm1:名詞、qw1:助詞」を特徴とする)
−(qm2)質問中の単語の品詞2の異なりの列挙
−(qm3)質問中の単語の品詞3の異なりの列挙
−(qm4)質問中の単語の品詞4の異なりの列挙
本実施の形態では、qwについては、4−gramまで作成している。
[文書特徴集合]
文書特徴集合(document feature set)は、文書のみから得られる特徴である。
−(dw-K,…,dw+0,…,dw+K)単語wとその前後K単語の出現形
−(dm1-K,…,dm1+0,…,dm1+K)単語wとその前後K単語の品詞1
−(dm2-K,…,dm2+0,…,dm2+K)単語wとその前後K単語の品詞2
−(dm3-K,…,dm3+0,…,dm3+K)単語wとその前後K単語の品詞3
−(dm4-K,…,dm4+0,…,dm4+K)単語wとその前後K単語の品詞4
各単語wについて、以上の各特徴を抽出する。
[組合せ特徴集合]
組合せ特徴集合(combinded feature set)は、文書のみから得られる特徴である。各単語wについて、作成される特徴集合の各特徴は以下の通りである。
−(cw-K,…,cw+0,…,cw+K)質問文のいずれかの単語と単語wおよびその前後K単語の出現形一致の有無
−(cm1-K,…,cm1+0,…,cm1+K)質問文のいずれかの単語と単語wおよびその前後K単語の品詞1の一致の有無
−(cm2-K,…,cm2+0,…,cm2+K)質問文のいずれかの単語と単語wおよびその前後K単語の品詞2の一致の有無
−(cm3-K,…,cm3+0,…,cm3+K)質問文のいずれかの単語と単語wおよびその前後K単語の品詞3の一致の有無
−(cm4-K,…,cm4+0,…,cm4+K)質問文のいずれかの単語と単語wおよびその前後K単語の品詞4の一致の有無
−(cq-K,…,cq+0,…,cq+K)質問文の疑問詞と単語wおよびその前後K単語の組合せ(例:cq+1:誰&さん)
学習用データ作成部64が作成し、学習用データ記憶部66が格納する学習用データは、このように、各質問と、各質問に対する解答を含む記事内の単語との組合せに対し、それぞれ上記した単語N−グラムまたは単語属性のN−グラムからなる特徴を求め、クラスラベルと、求められた特徴とを並べたもの(特徴ベクトル)である。
モデル学習部68は、学習用データ記憶部66に記憶されたデータを学習用データとし、最大エントロピー法によって、質問文の特徴ベクトルが与えられると、文書集合30内の各記事の単語の各々に対し、前述したクラスラベル(B,I,O)がそれぞれ割当てられる確率を出力するような確率モデル34の学習を行なう。
再び図1を参照して、自動解答装置38は、質問文36が与えられると、情報検索技術を用いて質問文36に最も高い関連を有するN個(本実施の形態ではN=1)の文書を文書集合30中から検索するための関連記事抽出部80と、関連記事抽出部80が抽出した各記事について、形態素解析を行ない単語に分解するための形態素解析部82と、形態素解析部82が形態素解析に使用する辞書84と、質問文36と形態素解析部82が出力する各単語との組合せの各々に対し、学習用データ作成部64と同様にして単語特徴量を算出するための単語特徴量算出部86と、単語特徴量算出部86が算出した単語特徴量を特徴ベクトルとして確率モデル34に基づいて各単語に対するクラスラベル(B,I,O)の確率を単語ごとに算出するためのモデル参照部88と、モデル参照部88が算出した各単語のクラスラベルの確率にしたがって、関連記事抽出部80により抽出された記事の中で質問文36に対する解答候補となる単語または単語列を抽出するための候補抽出部90と、候補抽出部90が抽出した候補の中から所定の基準にしたがって質問文36に対する解答を所定個数(本実施の形態では5個)選択し、解答40として出力するための選択部92とを含む。
本実施の形態では、関連記事抽出部80は、idf値を用いた文書検索により、質問文36の関連記事を抽出する。idf値は文書頻度の逆数とも呼ばれ、単語をwとして次の式のgで定義される。
Figure 2006072787
ただしnは文書集合30に含まれる文書(記事)の総数を表し、nは文書集合30中の文書のうち、単語wを含む文書の数(文書頻度)を表す。予め索引語を定め、それら索引語の各々に対し上記したidf値を算出しておく。さらに、各文書がどのような索引語を含むかを調べ、文書ベクトルを作成しておく。文書ベクトルとは、各文書がある索引語を含む場合にはその索引語のidf値を、含まない場合には0を、それぞれ要素として所定の順番で配列したベクトルである。
質問文に含まれる単語のうち、索引語を抽出して検索質問ベクトル(文書ベクトルと同様のベクトル)を作成する。検索質問ベクトルと各文書ベクトルとの間でコサイン尺度を算出し、コサイン尺度の上位の文書を抽出すればよい。もちろん、関連記事抽出部80が用いる情報検索技術はidf値を用いるものに限らず、情報検索技術において有効とされているものであれば、どのようなものを用いてもよい。
形態素解析部82としては、本実施の形態では既に述べたChaSenを利用する。単語特徴量算出部86による単語の特徴量の算出方法は、学習用データ作成部64による学習用データ作成処理で行なわれるのと同様である。
モデル参照部88および候補抽出部90による解答候補の抽出処理の概略を図5に示す。なお、以下の説明では、関連記事抽出部80が抽出する関連記事の個数をN(本実施の形態ではN=1)、関連記事をA〜A、記事Aに含まれる単語の数をni、記事A中のj番目の単語をWi−jのように表すものとする。
図5を参照して、例えば記事A中の最初の単語W1−1に対し、単語特徴量算出部86によって素性が算出され、モデル参照部88がその値に基づいて記事Aと単語W1−1との組合せA1−1の特徴ベクトルを作成する。モデル参照部88はこの特徴ベクトルを確率モデル34に与えることにより、この組合せA1−1に対するクラスラベル(B,I,O)の確率を算出し、その確率の値に基づいてこの組合せA1−1に対するラベル推定値を決定する。本実施の形態では、関連記事から質問に対する正解解答部分のみを切出すような学習をしている。そのため、解答を上位5つ出力する場合には、解答候補の抽出範囲を広げておく必要がある。そこで、候補抽出部90では、Oラベルの確率が99%以上の場合にOラベルをラベル推定値とし、それ以外の場合にはBまたはIラベルのいずれかを確率値にしたがって与えている。
図5に示す例では、組合せA1−1に対しては「O」がラベル推定値として割当てられている。モデル参照部88はこのとき、ラベル推定値に対し確率モデル34を用いて算出された確率をPROBとして割当てる。
同様にして、各記事と、その記事内の各単語との組合せの各々に対し、単語特徴量算出部86が特徴量を算出し、確率モデル34がラベル推定値とその確率とを割当てていく。こうして、モデル参照部88の出力として、ラベル推定値とその確率との組合せの集合152が得られ、候補抽出部90に与えられる。
候補抽出部90は、ラベル推定値とその確率との組合せの集合152のラベル推定値を先頭から順に調べ、「B」で始まり「B」または「I」が連続するクラスラベル列を特定する。候補抽出部90はさらに、そのクラスラベル列に対応する単語列を抽出し、選択部92に解答候補群180として与える。このとき、各単語列には先頭の単語(Bラベルを持つもの)の確率がその単語列のスコアとして割当てられる。図5に示す例では、クラスラベル列160および162が候補抽出部90により特定される。さらに、これらクラスラベル列に対応する単語列170および172が抽出され解答候補群180として選択部92に与えられる。単語列170のスコアはPROB、単語列172のスコアはPROBである。
選択部92は、候補抽出部90から与えられた解答候補群180のうち、スコアが上位の5つを選択し解答40として出力する機能を持つ。
[動作]
上記したQAシステム20は以下のように動作する。QAシステム20の動作には2つのフェーズがある。第1のフェーズは文書集合30からモデル構築部32が確率モデル34を構築するモデル構築フェーズである。第2のフェーズは質問文36が与えられると確率モデル34を用いて文書集合30中から質問文36に対する解答40を抽出する実行フェーズである。以下、順に説明する。
−モデル構築フェーズ−
モデル構築フェーズに先立ち、予め文書集合30と学習用QA群100とが準備されているものとする。また図2に示すように、学習用QA群100中の各学習用QA110,112,114,…,120,122,124には、学習用データセット50中の記事のうち、その質問に対する解答を含む記事がリンクされているものとする。
記事抽出部62は、学習用QA集60から学習用QA110,112,114,…,120,122,124を順に読出すと、当該学習用QAにリンクされている記事を学習用データセット50から読出し、ラベル付け部63に与える。ラベル付け部63は、記事抽出部62から与えられた記事内の各単語に対し、対応する学習用QAの解答を参照しながらB,I,Oのラベル付けを行ない、学習用データ作成部64に与える。
学習用データ作成部64は、各単語にクラスラベルが付された記事と、学習用QAとを用いて、各質問と当該質問に関連する記事中の各単語との組合せの各々に対し、特徴量を算出し、クラスラベルと組合せて特徴ベクトルを作成して学習用データ記憶部66に学習用データとして蓄積する。
学習用データ記憶部66への学習用データの蓄積が終了すると、モデル学習部68が前述した最大エントロピー法にしたがい確率モデル34の構築を行なう。以上でモデル構築フェーズは終了し、QAシステム20による自動解答処理が可能になる。
−実行フェーズ−
実行フェーズでは、質問文36が自動解答装置38に与えられると、関連記事抽出部80が質問文36に含まれる単語について検索質問ベクトルを作成する。関連記事抽出部80はさらに、この検索質問ベクトルと文書集合30に含まれる各文書の文書ベクトルとの間でコサイン尺度を算出し、さらにその値の最も大きなN個(本実施の形態ではN=1)の文書を抽出して形態素解析部82に与える。形態素解析部82は、辞書84を参照してこの文書の形態素解析を行ない、その結果を単語特徴量算出部86に与える。
単語特徴量算出部86は、質問文36と、形態素解析部82から与えられた関連記事の単語とに基づいて、単語特徴量を各文書の各単語に対し算出し、モデル参照部88に与える。モデル参照部88は、これら単語特徴量に基づいて各文書の各単語に対し特徴ベクトルを作成する。モデル参照部88はさらに、この特徴ベクトルを用い、確率モデル34を参照して当該特徴ベクトルに対する各クラスラベル(B,I,O)の確率を算出し、Oラベルの確率が99%以上であればOラベルとその確率を、それ以外の場合にはBラベルとIラベルとのうち確率の高い方とその確率を、それぞれ当該特徴ベクトルに対応する単語のラベル推定値および確率として割当てる。モデル参照部88は、関連記事抽出部80が読出した全ての文書の全ての単語に対しこの処理を行なう。その結果、図5の右に示すとおり、関連記事抽出部80が抽出した全ての文書の全ての単語に対し、ラベル推定値とその確率との組合せの集合152が得られる。モデル参照部88はラベル推定値とその確率との組合せの集合152を候補抽出部90に与える。
候補抽出部90は、ラベル推定値とその確率との組合せの集合152のラベル推定値を先頭から調べ、先頭のラベル推定値がBでBまたはIが続くクラスラベル列を探す。ラベル推定値とその確率との組合せの集合152は、そのようにして得られたクラスラベル列に対応する単語列を抽出して解答候補群180とし、それらにスコア(先頭の単語のラベル推定値の確率)を割当てて選択部92に与える。
選択部92は、候補抽出部90から与えられた解答候補群180のうち、スコアが上位のもの5つを質問文36に対する解答として選択し、解答40として出力する。
[実施の形態の評価]
本実施の形態に係るQAシステム20の性能評価を行なうために、CRL QAデータセット2000問の質問文・正解を10のセットに分割し、10分割交差検定を行なった。QAシステム20の最終的な出力として得られた解答を、標準的に用いられる次の2つの評価値により評価した。
−TOP5スコア 5位以内に正解が含まれた質問の割合
−MRR(Mean Reciprocal Rank) 各質問について、ランクの1位から5位まで順に正解かどうかチェックしてきき、最初に正解と判定されたランクnのポイント1/nを与え、質問数で平均したもの。
正解の判定については、「完全文字列一致」と「文字列の包含」の2つの基準による自動評価と人手による評価とを行なった。
全体の評価結果を表2に示す。表2を参照して、本実施の形態によれば、人手による評価で、全体でMRR=0.35,TOP5=50%の質問応答が実現できることが確認された。
Figure 2006072787
この実施の形態に係るQAシステム20によれば、質問タイプの体系を必要としない。そのため、質問タイプの体系にあわせた学習データの準備や、質問タイプの体系の変化に対応するための学習データの作り直しなどが必要となることはなく、システムの構築はシンプルなものになる。それにもかかわらず、MRR=0.35、TOP5=50%という性能が得られた。この性能は、評価用のデータセットは異なるが、人名、地名などの8種類の固有表現のみを対象にしたSAIQA−II(非特許文献1)によるMRR=0.4、TOP5=55%という性能に近い。
なお、上記した実施の形態では、候補抽出部90による解答候補の抽出では、Bラベルから始まりIラベルが続く単語列だけでなく、Bラベルから始まり途中Bラベルが続く単語列も解答候補としている。その理由は、一般の用語抽出とは異なり、質問の解答となる文字列を取出す学習が行なわれた場合、ある質問の解答の候補が2つ連続して現れることは少なく、一連の単語列として扱う方が良いことが予備実験の結果判明したためである。
もちろん、解答として抽出される単語列を決定する方法は本実施の形態における方法と異なっていてもよい。
また、ラベル推定値の割当方法も上記した実施の形態に限定されるわけではない。例えば、上記した実施の形態のBラベルとIラベルとを区別することなく、同じクラスラベルを用いるようにしてもよい。この場合、単語が連続している場合のみ、後続の単語の先頭を別のクラスラベルとするようにしてもよい。また、単語列の最後の単語に、Bラベル、Iラベルのいずれとも異なるクラスラベルを付与するようにしてもよい。この場合、単語列に含まれる単語数が1のときとそれ以外とで、最後のクラスラベルを別々のものにしてもよい。
また、上記した実施の形態では、質問文36が与えられたときに1個の関連記事を抽出している。実験では、抽出する関連記事の数を多くすると、正解率が低下する傾向が見られた。これは、正解を含む文から解答の切出しを学習しているため、正解を含まない文に対する学習が十分ではないためと考えられる。したがって上記したような学習を行なう場合であれば、抽出する関連記事の数は1個が最善である。しかし、正解を含まない文に対する学習を十分に行なえるようであれば、抽出する関連記事の数を多くすることも可能である。
[コンピュータによる実現]
上記した実施の形態に係るQAシステム20は、コンピュータハードウェアおよび当該コンピュータにより実行されるソフトウェアにより実現可能である。モデル構築部32、および自動解答装置38をコンピュータにより実現するためのコンピュータプログラムの概略フローチャートを図6および図7にそれぞれ示す。
図6を参照して、図1に示すモデル構築部32を実現するためのコンピュータプログラムは、以下のような制御構造を有する。まずステップ200において、学習用QA集から質問q、それに対する正解a、および正解aを含む記事dを読出す。記事dを単語列W,…,W,…,W,…,Wとし、このうち単語列W,…,Wが正解aと一致するものとする。
ステップ202では、ステップ200で学習用QAの読出しを試みた結果、学習用QA集の全てのQAについて処理が完了したことが判明したか否かを判定する。もし完了していればステップ212に進み、それ以外の場合にはステップ204に進む。
ステップ204では、記事d中の正解aと一致する単語列の前後にタグ<a></a>を挿入する。記事dの単語列はW,…,<a>,W,…,W,</a>,…,Wとなる。
ステップ206では、記事dを形態素解析する。形態素解析には前述したとおりChaSenなど、既存のツールを利用できる。ステップ208では、記事dの単語列W,…,Wに対しそれぞれ特徴x(1),…,x(m)を抽出する。
さらにステップ210において、単語列のうち、タグ<a>および</a>に挟まれている単語列W,…,Wの先頭単語WにBラベルを、後続にIラベルを、それぞれ付与し、それ以外の単語にOラベルを付与する。この後、制御はステップ200に戻り、次の学習用QAの読出しを試みる。以下同様である。
全ての学習用QAに対しステップ200〜210の処理が完了すると、ステップ212で上記した各質問qと対応する記事dの各単語W〜Wの各々との組合せに対し、そのクラスラベルと、特徴量とから特徴ベクトルを作成する。これらを入力データとして、最大エントロピー法により確率モデルpλ*を求め、処理を終了する。
一方、図1に示す自動解答装置38をコンピュータにより実現するためのコンピュータプログラムは、図7に示すような制御構造を有する。図7を参照して、自動解答の実行フェーズでは、まずステップ230で質問qを受ける。ステップ232でこの質問qに対し、情報検索技術を用いて文書集合30から最も関連するN個(本実施の形態ではN=1)の記事を検索し読出す。読出された記事d=単語列W,…,W,…,W,…,Wであるとする。
ステップ234で、記事dを形態素解析する。この形態素解析にも、前述したとおりChaSenなど、容易に入手可能なツールを利用できる。ステップ236で、形態素解析により得られた単語W,…,Wに対し、それぞれ特徴x(1),…,x(m)を算出する。続いてステップ238では、各クラスラベルy(j)∈Y={B,I,O}について、確率モデル34にしたがってpλ(y(j)|x(i))を算出する。
そしてステップ240において、確率モデル34を用いて算出された確率に基づいてクラスラベルをクラスラベル集合{B,I,O}から選択し、対応の単語Wのラベル推定値とする。なお本実施の形態では、前述したとおり、Oラベルの確率が99%以上のときに単語Wのラベル推定値をOラベルとし、それ以外のときにはBラベルまたはIラベルのうち確率の大きい方をラベル推定値とする。この処理を、記事dの全ての単語について実行する。
ステップ242において、ステップ240の処理で形成されるクラスラベル列のうち、Bラベルで始まりIラベルまたはBラベルが連続するクラスラベル列を探す。ステップ244でそのようなクラスラベル列が存在するか否かを判定する。存在すればステップ244に進み、それ以外の場合にはステップ246に進む。
ステップ244では、見出されたクラスラベル列に対応する単語列に、その先頭単語の確率をスコアとして付与し、記憶する。その後ステップ242に戻り、条件を満たす次のクラスラベル列を検索する。
条件を満たすクラスラベル列が全て見出されると、それらに対応する単語列のうち、スコアの上位5位までをステップ246において質問qに対する解答として選択し出力する。
以上のような制御構造を有するコンピュータプログラムをコンピュータにおいて実行することにより、図1に示すQAシステム20を実現することができる。
上記したとおり、この実施の形態のシステムは、図6および図7に制御構造を示すコンピュータプログラムを、コンピュータハードウェアにより実行することにより実現可能である。図8はそのためのコンピュータシステム330の外観を示し、図9はコンピュータシステム330の内部構成を示す。
図8を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図9を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に図1に示すQAシステム20として動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態のQAシステム20としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のQAシステム20を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記したQAシステム20として動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰り返さない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の一実施の形態に係るQAシステム20のブロック図である。 学習用QA集60の構成を模式的に示す図である。 ラベルデータ群102の構成およびクラスラベル付与の方法を模式的に示す図である。 学習用データの構成を示す図である。 質問に対する解答候補抽出処理の概略を模式的に示す図である。 図1に示すモデル構築部32を実現するためのコンピュータプログラムの概略フローチャートである。 図1に示す自動解答装置38を実現するためのコンピュータプログラムの概略フローチャートである。 図1に示すQAシステム20を実現可能なコンピュータシステムの外観図である。 図8に示すコンピュータのブロック図である。
符号の説明
20 QAシステム、 30 文書集合、32 モデル構築部、34 確率モデル、36 質問文、38 自動解答装置、40 解答、60 学習用QA集、62 記事抽出部、64 学習用データ作成部、66 学習用データ記憶部、68 モデル学習部、80 関連記事抽出部、82 形態素解析部、84 辞書、86 単語特徴量算出部、88 モデル参照部、90 候補抽出部、92 選択部

Claims (6)

  1. 学習用の質問・解答集および文書データセットを用いて質問に対する自動応答システムのためのモデルを作成するようコンピュータを制御するモデル作成方法であって、前記質問・解答集はコンピュータ読取可能な複数の学習用質問データを含み、前記学習用質問データの各々は、質問と、当該質問に対する解答と、前記文書データセット中の当該解答を含む文書を特定する情報とを含み、
    前記方法は、
    前記学習用質問データの解答を含む文書内の各単語に対し、当該解答との関連を示すクラスラベルを所定のクラスラベル集合から選択し付与するステップと、
    前記学習用質問データの各々に対し、当該質問に対する解答を含む文書に含まれる各単語について、当該質問と当該文書とから算出される所定の特徴量と、前記クラスラベルを付与するステップにおいて当該各単語に付与されたクラスラベルとからなる学習用データを準備するステップと、
    前記学習用データに基づき、前記所定の特徴量が与えられると、前記クラスラベル集合の要素の各々に対する評価値を与えるようなモデルを機械学習により構築するステップとを含む、モデル作成方法。
  2. 単語に関する所定の特徴量が与えられると、当該単語に対し所定のクラスラベル集合の要素であるクラスラベルの各々に対する評価値を与える所定のモデルと、所定の文書データセットとを用い、与えられる質問に対する解答を出力するようにコンピュータを制御する自動質問解答方法であって、
    与えられた質問に対して最も高い関連を有する所定個数の文書を前記文書データセットから検索するステップと、
    前記検索するステップで検索された文書の各単語について、前記質問と、当該文書とに基づいて所定の特徴量を算出するステップと、
    前記検索するステップで検索された文書の各単語について、前記所定のモデルを用いて前記所定の特徴量に対する前記クラスラベルの評価値を算出するステップと、
    前記検索するステップで検索された文書内の単語に対し前記評価値を算出するステップで算出されたクラスラベルの評価値に基づいて、前記検索するステップで検索された文書内から前記質問に対する解答となる単語列を選択する第1の選択ステップとを含む、自動質問解答方法。
  3. 前記第1の選択ステップは、
    前記検索するステップで検索された文書内の単語に対し前記評価値を算出するステップで算出されたクラスラベルの評価値に基づいて、当該単語に対するクラスラベルを推定するステップと、
    前記検索するステップで検索された文書内の単語に対し、前記推定するステップで推定されたクラスラベルからなるクラスラベル列のうち、所定の条件を充足するクラスラベル列に対応する単語列を前記質問に対する解答として選択する第2の選択ステップとを含む、請求項2に記載の自動質問解答方法。
  4. 前記クラスラベル集合は、単語が解答に含まれることを示す第1の種類のクラスラベルと、解答以外の単語であることを示す第2の種類のクラスラベルとを含み、
    前記第2の選択ステップは、
    前記検索するステップで検索された文書内の単語に対し、前記推定するステップで推定されたクラスラベルからなるクラスラベル列のうち、前記第1の種類のクラスラベルのみからなる連続するクラスラベル列を特定し、当該連続するクラスラベル列内のクラスラベルに対し前記評価値を算出するステップで算出された評価値の関数であるスコアを割当てて、当該連続するクラスラベル列に対応する単語列を抽出するステップと、
    前記単語列を抽出するステップで抽出された単語列のうち、上位のスコアを持つ所定個数の単語列を前記質問に対する解答として出力するステップとを含む、請求項3に記載の自動質問解答方法。
  5. コンピュータにより実行されると、当該コンピュータが請求項1に記載のモデル作成方法を実行するように当該コンピュータを制御する、コンピュータプログラム。
  6. コンピュータにより実行されると、当該コンピュータが請求項2〜請求項4のいずれかに記載の自動質問解答方法を実行するように当該コンピュータを制御する、コンピュータプログラム。
JP2004256505A 2004-09-03 2004-09-03 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム Withdrawn JP2006072787A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004256505A JP2006072787A (ja) 2004-09-03 2004-09-03 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004256505A JP2006072787A (ja) 2004-09-03 2004-09-03 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2006072787A true JP2006072787A (ja) 2006-03-16
JP2006072787A5 JP2006072787A5 (ja) 2007-09-27

Family

ID=36153335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004256505A Withdrawn JP2006072787A (ja) 2004-09-03 2004-09-03 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006072787A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052732A (ja) * 2006-08-22 2008-03-06 Fuji Xerox Co Ltd 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム
CN105893465A (zh) * 2016-03-28 2016-08-24 北京京东尚科信息技术有限公司 自动问答方法和装置
JP2019046019A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN111309875A (zh) * 2018-12-10 2020-06-19 百度在线网络技术(北京)有限公司 问题应答的方法、装置、设备和存储介质
US20210256018A1 (en) * 2018-04-23 2021-08-19 Nippon Telegraph And Telephone Corporation Question responding apparatus, question responding method and program
JP2021157282A (ja) * 2020-03-25 2021-10-07 株式会社日立製作所 ラベル付与モデル生成装置、及びラベル付与モデル生成方法
WO2021250954A1 (ja) * 2020-06-11 2021-12-16 株式会社島津製作所 分析装置に関する質問への応答を生成する方法、システム、および装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052732A (ja) * 2006-08-22 2008-03-06 Fuji Xerox Co Ltd 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム
CN105893465A (zh) * 2016-03-28 2016-08-24 北京京东尚科信息技术有限公司 自动问答方法和装置
CN105893465B (zh) * 2016-03-28 2019-12-27 北京京东尚科信息技术有限公司 自动问答方法和装置
JP2019046019A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7080609B2 (ja) 2017-08-31 2022-06-06 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US20210256018A1 (en) * 2018-04-23 2021-08-19 Nippon Telegraph And Telephone Corporation Question responding apparatus, question responding method and program
US11693854B2 (en) * 2018-04-23 2023-07-04 Nippon Telegraph And Telephone Corporation Question responding apparatus, question responding method and program
CN111309875A (zh) * 2018-12-10 2020-06-19 百度在线网络技术(北京)有限公司 问题应答的方法、装置、设备和存储介质
CN111309875B (zh) * 2018-12-10 2023-08-04 百度在线网络技术(北京)有限公司 问题应答的方法、装置、设备和存储介质
JP2021157282A (ja) * 2020-03-25 2021-10-07 株式会社日立製作所 ラベル付与モデル生成装置、及びラベル付与モデル生成方法
JP7364512B2 (ja) 2020-03-25 2023-10-18 株式会社日立製作所 ラベル付与モデル生成装置、及びラベル付与モデル生成方法
WO2021250954A1 (ja) * 2020-06-11 2021-12-16 株式会社島津製作所 分析装置に関する質問への応答を生成する方法、システム、および装置

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
US9594747B2 (en) Generation of a semantic model from textual listings
US20200104359A1 (en) System and method for comparing plurality of documents
CN109657054A (zh) 摘要生成方法、装置、服务器及存储介质
KR20170106308A (ko) 어노테이션 보조 장치 및 그것을 위한 컴퓨터 프로그램
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
JP2015506515A (ja) タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
CN106708929B (zh) 视频节目的搜索方法和装置
CN103189860A (zh) 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN110276080B (zh) 一种语义处理方法和系统
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN110532328A (zh) 一种文本概念图构造方法
US11170169B2 (en) System and method for language-independent contextual embedding
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
JP2003196280A (ja) テキスト生成方法及びテキスト生成装置
CN113743097A (zh) 基于跨度共享和语法依存关系增强的情感三元组抽取方法
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
JP3831357B2 (ja) 対訳情報作成装置及び対訳情報検索装置
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20091221