JP6232358B2

JP6232358B2 - 次発話候補ランキング装置、方法、及びプログラム

Info

Publication number: JP6232358B2
Application number: JP2014173122A
Authority: JP
Inventors: 克人別所; 東中　竜一郎; 竜一郎東中; 牧野　俊朗; 俊朗牧野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2017-11-15
Anticipated expiration: 2034-08-27
Also published as: JP2016048463A

Description

本発明は、ユーザとの間で対話を行う対話システムにおいて、ユーザとの間で、ある発話列がやり取りされた後、システムが生成した次発話候補集合の中で、システム側が発する次発話として相応しい次発話候補を決定するための次発話候補ランキング装置、方法、及びプログラムに関する。

非タスク指向型対話システムでは、対話の内容は雑談であり、非特許文献１では、ウェブやツイッター（登録商標）などの文章をデータベース化しておき、ユーザ発話に類似するものを選択することでシステム発話を生成する。

これまでやり取りされてきた発話列における焦点（トピック）を求め、当該焦点について言及した文をデータベースから次発話候補として複数取り、この次発話候補をランキングする手法がある。ランキングをした後、ランキング結果における上位１位の次発話候補、あるいは、上位何位かまでからランダムに選択した次発話候補をシステムがユーザに返す。

このような手法として、直前のＮ(≧１)個の発話の列を文脈とし、文脈発話列及び次発話候補における単語や品詞、単語の意味カテゴリ等の特徴量と、事前に教師あり学習で得たモデルとから、該次発話候補が次発話として相応しい度合いを表すスコアを算出し、該スコアに基づき次発話候補集合をランキングする、結束性に基づく手法がある。

Bessho, F., Harada, T., and Kuniyoshi, Y."Dialog System Using Real-Time Crowdsourcing and Twitter Large-Scale Corpus."InProc. SIGDIAL, pp. 227-231, 2012.

上述した結束性に基づく手法では、単語の意味カテゴリ等の特徴量を用いて、シソーラス上の同一ノードに属する単語の間の意味的類似性を考慮できるが、ノードを超えた単語間の意味的類似性を考慮できないという課題がある。このため、文脈発話列と次発話候補との間で、文字列は異なるが、意味的には類似している単語が存在する場合、該文脈発話列と該次発話候補の類似性が不当に低くなり、該次発話候補が次発話として相応しいにも関わらず、そのスコアが不当に低くなるという課題がある。

本発明の第１の目的は、この課題を解決するため、任意の単語間の意味的類似性を考慮できる次発話候補ランキング装置、方法、及びプログラムを提供することにある。具体的には、単語と該単語の意味を表す概念ベクトルとの対の集合である概念ベースを利用することにより、この課題を解決する。

上記概念ベースに基づく手法により、任意の単語間の意味的類似性を考慮した次発話候補ランキングができるようになるが、一般に概念ベースでは、名詞・動詞・形容詞等の内容語にのみ概念ベクトルが振られている。次発話として相応しいかは、文脈発話列と次発話候補に含まれる文末表現等の付属語も手掛かりとなり、概念ベースを利用した手法ではそれが考慮されない。また、文脈発話列または次発話候補に内容語が無い等の理由で概念ベクトルが生成されない場合、該次発話候補のスコアを算出できない。

本発明の第２の目的は、この課題を解決するため、結束性に基づく手法と概念ベースに基づく手法それぞれの長所を活かし、短所を他方で補うことにより高精度な次発話候補ランキング装置、方法、及びプログラムを提供することにある。

上記第１の目的を達成するため、本発明に係る次発話候補ランキング装置は、単語と該単語の意味を表す概念ベクトルとの対の集合である概念ベースと、文脈となる発話列Ａと次発話候補集合とを入力とし、前記概念ベースを参照し、前記発話列Ａの概念ベクトルを生成し、前記次発話候補集合における各次発話候補Ｂの概念ベクトルを生成し、各次発話候補Ｂに対し、前記発話列Ａの概念ベクトルと前記次発話候補Ｂの概念ベクトルとの近さを表すスコアを算出し、該スコアに基づき前記次発話候補集合をランキングする概念スコア算出手段と、を含んで構成されている。

また、本発明に係る次発話候補ランキング方法は、単語と該単語の意味を表す概念ベクトルとの対の集合である概念ベースと、概念スコア算出手段とを含む次発話候補ランキング装置における次発話候補ランキング方法であって、前記概念スコア算出手段が、文脈となる発話列Ａと次発話候補集合とを入力とし、前記概念ベースを参照し、前記発話列Ａの概念ベクトルを生成し、前記次発話候補集合における各次発話候補Ｂの概念ベクトルを生成し、各次発話候補Ｂに対し、前記発話列Ａの概念ベクトルと前記次発話候補Ｂの概念ベクトルとの近さを表すスコアを算出し、該スコアに基づき前記次発話候補集合をランキングする。

また、本発明のプログラムは、コンピュータを、上記の次発話候補ランキング装置を構成する各手段として機能させるためのプログラムである。

また、上記第２の目的を達成するため、上記の次発話候補ランキング装置は、教師あり学習で得たモデルと、前記発話列Ａ及び前記次発話候補集合における各次発話候補Ｂに関する特徴量とから、各次発話候補Ｂに対し、前記次発話候補Ｂが前記発話列Ａの次発話として相応しい度合いを表すスコアを算出し、該スコアに基づき前記次発話候補集合をランキングする結束スコア算出手段と、前記次発話候補集合における各次発話候補Ｂに対し、前記概念スコア算出手段によるランキング結果における順位をＣとし、前記結束スコア算出手段によるランキング結果における順位をＤとしたとき、前記概念スコア算出手段で前記発話列Ａ及び前記次発話候補Ｂの概念ベクトルが生成される場合は、順位Ｃと順位Ｄとを重みづけして足し合わせた値を、前記次発話候補Ｂの結合順位とし、前記概念スコア算出手段で前記発話列Ａまたは前記次発話候補Ｂの概念ベクトルが生成されない場合は、順位Ｄを前記次発話候補Ｂの結合順位とし、前記結合順位の昇順に前記次発話候補集合をランキングする統合手段と、を更に含むようにすることができる。

本発明に係る次発話候補ランキング装置、方法、及びプログラムによれば、概念ベースを参照し、発話列Ａの概念ベクトルを生成し、次発話候補集合における各次発話候補Ｂの概念ベクトルを生成し、各次発話候補Ｂに対し、発話列Ａの概念ベクトルと次発話候補Ｂの概念ベクトルとの近さを表すスコアを算出し、該スコアに基づき次発話候補集合をランキングして、次発話として相応しい発話をシステムが返すことにより、システムとユーザとのインタラクションが円滑になる、という効果を有する。

本発明の実施の形態に係る次発話候補ランキング装置の機能的構成を示すブロック図である。概念ベースの例を示す図である。本発明の実施の形態に係る次発話候補ランキング装置における処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る次発話候補ランキング装置の機能的構成を示すブロック図である。本発明の実施の形態に係る次発話候補ランキング装置における処理ルーチンを示すフローチャート図である。評価の結果を示した図である。重みα毎の評価の結果を示した図である。

以下、図面とともに本発明の実施の形態を説明する。

＜次発話候補ランキング装置の構成＞
次に、本発明の実施の形態に係る次発話候補ランキング装置の構成について説明する。図１は、本発明の請求項１の次発話候補ランキング装置の構成例である。図１に示すように、本発明の実施の形態に係る次発話候補ランキング装置１００は、ＣＰＵと、ＲＡＭと、後述する処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この次発話候補ランキング装置１００は、機能的には図１に示すように入力手段１０と、演算手段２０と、出力手段３０とを備えている。

入力手段１０は、入力された文脈となる発話列Ａと、次発話候補集合とを受け付ける。

システムとユーザとの間でこれまでやり取りされてきた発話を時系列順に並べて、x1,x2,・・・,xmとする。Ｎ(≧１)を定め、当該発話列において、直前のＮ個の発話の列（x(m-N+1),x(m-N+2),・・・,xm）を、文脈となる発話列Ａとして入力する。発話列Ａとして、直前までの全発話（x1,x2,・・・,xm）を入力してもよい。

別途、これまでの発話列から抽出した焦点（トピック）について言及した文を、データベースから次発話候補として複数取るものとし、次発話候補集合として入力する。

演算手段２０は、概念スコア算出手段２１と、概念ベース２２とを含んで構成されている。

概念ベース２２は、単語（名詞、動詞、形容詞等の内容語）と該単語の意味を表す概念ベクトルとの対の集合を記憶している。図２は、概念ベース２２の例である。概念ベース２２は、例えば、非特許文献２の手法によって生成する（非特許文献２：別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,“単語・意味属性間共起に基づくコーパス概念ベースの生成方式,”情報処理学会論文誌, Dec. 2008, Vol.49, No.12, pp.3997-4006.）。

内容語は、該内容語の終止形で登録されており、概念ベース２２を検索する際は、内容語の終止形で検索する。各内容語の概念ベクトルは長さ１に正規化されたｋ次元ベクトルであり、意味的に近い内容語の概念ベクトルは、近くに配置されている。内容語同士の類似度は、例えば、対応する概念ベクトル間の内積によって算出する。

もっとも、概念ベース２２に内容語以外の単語を登録してもよく、また、与えられたテキストの概念ベクトルを生成する際に、該テキスト中の内容語以外の単語で概念ベース２２を検索して取得した単語概念ベクトルも使用してもよい。以下では、概念ベース２２には内容語のみが登録されており、与えられたテキストの概念ベクトルを生成する際は、該テキスト中の内容語で概念ベース２２を検索して取得した単語概念ベクトルのみを使用するものとして記述する。

図３は、概念スコア算出手段２１の処理フローの一例である。図３に沿って、概念スコア算出手段２１の処理内容を説明する。

まず、ステップＳ１において、発話列Ａの全発話を単語分割して得られた各内容語で概念ベース２２を検索し、取得した概念ベクトルを加算し、その結果得られた概念ベクトルを長さ１に正規化したものを、発話列Ａの概念ベクトルＶＡとして生成する。

そして、ステップＳ２において、次発話候補集合における各次発話候補Ｂに対し、次発話候補Ｂを単語分割して得られた各内容語で概念ベース２２を検索し、取得した概念ベクトルを加算し、その結果得られた概念ベクトルを長さ１に正規化したものを、次発話候補Ｂの概念ベクトルＶＢとして生成する。

次のステップＳ３において、次発話候補集合における各次発話候補Ｂに対し、上記ステップＳ１で生成された発話列Ａの概念ベクトルＶＡ、及び上記ステップＳ２で生成された次発話候補Ｂの概念ベクトルＶＢに基づいて、次発話候補Ｂのスコアを、以下の式１に従って算出する。

(ＶＡ・ＶＢ＋１)/２（式１）

ここで、ＶＡ・ＶＢは、ＶＡとＶＢの内積である。スコア値は０以上１以下となり、値が大きい程、発話列Ａと次発話候補Ｂとの意味的な類似度が高い。

ステップＳ４において、スコアの降順に次発話候補集合をランキングし、処理ルーチンを終了する。これにより、発話列Ａとの意味的な類似度の高い順に次発話候補集合がランキングされる。

ランキング結果における上位１位の次発話候補、あるいは、上位何位かまでからランダムに選択した次発話候補を、出力手段３０によりシステムがユーザに返す。

発話列Ａと次発話候補Ｂとの間で、文字列は異なるが、意味的には類似している単語が存在する場合でも、算出するスコアが高くなるので、本発明により、次発話として相応しい次発話候補が選択されやすくなる。

上記処理では、発話列Ａの概念ベクトルを求めた。発話列Ａ中の各発話ごとに概念ベクトルを求めると、ある発話で十分な内容語が無い等の場合に、該発話の概念ベクトルの品質が低いものとなる可能性がある。各発話に十分な内容語が無い場合でも、発話列Ａ全体では、内容語が十分揃うことがあり、そのような場合、発話列Ａの概念ベクトルは品質が高いものとなる。上記処理により、より高品質な概念ベクトルを生成できる。

もっともあえて、発話列Ａの各発話ごとに概念ベクトルを求め、取得した概念ベクトルの和を長さ１に正規化したものを、発話列Ａの概念ベクトルとするというようにしてもよい。

スコア算出の別の手法として、以下の手法もある。例えば、発話列Ａの各発話ごとに概念ベクトルを求め、次発話候補Ｂの概念ベクトルを求める。発話列Ａの少なくとも一つの発話の概念ベクトル、及び、次発話候補Ｂの概念ベクトルが取得できた場合に、取得した全概念ベクトルの重心と、取得した各概念ベクトルとの距離の自乗の平均の平方根を、次発話候補Ｂのスコアとする。スコア値は０以上となり、値が小さい程、発話列Ａと次発話候補Ｂとの意味的な類似度が高い。スコアの昇順に次発話候補集合をランキングする。

これまで述べたスコア算出の各手法では、発話列Ａまたは次発話候補Ｂから概念ベクトルが生成されない場合は、次発話候補Ｂのスコアは算出されない。この場合には、スコアが算出されない次発話候補は、スコアが算出された次発話候補よりも順位は低いものとし、スコアが算出されない次発話候補同士はランダムに順序付けすればよい。

図４は、本発明の請求項２の次発話候補ランキング装置の構成例である。なお、上記の構成例と同様の構成については、同一符号を付して説明を省略する。

図４に示すように、本発明の実施の形態に係る次発話候補ランキング装置２００は、機能的には図４に示すように入力手段１０と、演算手段２２０と、出力手段３０とを備えている。

演算手段２２０は、概念スコア算出手段２１と、概念ベース２２と、結束スコア算出手段２２３と、統合手段２２４とを含んで構成されている。

概念スコア算出手段２１では、請求項１の次発話候補ランキング装置の構成例と同様の処理を行い、次発話候補集合のランキング結果を出力する。

結束スコア算出手段２２３では、教師あり学習で得た、次発話候補が次発話として相応しい度合いを判定するためのモデルと、発話列Ａ及び次発話候補集合における各次発話候補Ｂに含まれる単語や品詞等に関する特徴量とから、各次発話候補Ｂに対し、次発話候補Ｂが発話列Ａの次発話として相応しい度合いを表すスコアを算出し、該スコアに基づき次発話候補集合をランキングし、次発話候補集合のランキング結果を出力する。本処理は、例えば、以下の第１の手法、又は第２の手法により行われる。

第１の手法では、教師あり学習として、結束性のラベルが付与された発話列について、さまざまな特徴量を抽出し、これらの特徴量が、どのような条件で発話列に含まれているときに結束性が高くなるか、低くなるかを、パターンマイニングの手法で発見する。特徴量としては、対話行為、質問タイプ、述語項構造、固有表現に関する情報、依存構造に関する情報を用いる。発話列におけるこれらの特徴量を、木構造として表す。パターンマイニングによって発見されたパターン（部分木）は、次発話候補Ｂが発話列Ａの次発話として相応しい度合いを表すスコアを算出する処理に用いられる。具体的には、結束性の高さに寄与する部分木を多く含むものを結束性が高いとして、スコアが算出される。

第２の手法では、教師あり学習として、例えば、結束性が高い発話列と結束性が低い発話列をそれぞれ準備し、これらから結束性が高いか低いかを二値分類する分類器を学習する。また、第２の手法においては、雑多な話題を持った対話のような学習事例を、疑似負例を用いて作成する。

具体的には、まず大量の対話データを用意する。人間同士が話した自然な対話であれば何でもよい。そして、これらの対話データから一定の長さの発話列をサンプリングする。この発話列をＥとする。同時に、発話列Ｅの最後の発話を他の発話とランダムに入れ替えた発話列（発話列Ｆ）も作成する。発話列Ｅを正例とし、発話列Ｆを負例（疑似負例）とすることで、教師あり学習の手法を適用する。

なお、学習手法としてはランキング学習を用いる。具体的には、発話列Ｆよりも発話列Ｅが上位にランキングされるようにランキング規則を学習する。

また、第２の手法においては、発話列を表す特徴量として、最後の発話に含まれる単語、品詞、及び意味属性と、それ以前の発話のそれぞれに含まれる単語、品詞、及び意味属性とのすべての組み合わせを特徴量として用いる。

第２の手法では、上述したように教師あり学習で得られたモデルと、発話列Ａ及び次発話候補集合における各次発話候補Ｂの特徴量とから、次発話候補Ｂが発話列Ａの次発話として相応しい度合いを表すスコアを算出する。

統合手段２２４は、概念スコア算出手段２１が出力した次発話候補集合のランキング結果と、結束スコア算出手段２２３が出力した次発話候補集合のランキング結果とを入力とする。

次発話候補集合における各次発話候補Ｂの、概念スコア算出手段２１によるランキング結果における順位をＣとし、結束スコア算出手段２２３によるランキング結果における順位をＤとする。

次発話候補Ｂの結合順位Ｕを以下のようにして算出する。重みαを０以上１以下の定数とする。

概念スコア算出手段２１で、発話列Ａ及び次発話候補Ｂの概念ベクトルが生成される場合、すなわち、次発話候補Ｂのスコアが算出される場合は、以下の式に従って、結合順位Ｕを算出する。

Ｕ:=α・Ｃ＋(１-α)・Ｄ

概念スコア算出手段２１で、発話列Ａまたは次発話候補Ｂの概念ベクトルが生成されない場合、すなわち、次発話候補Ｂのスコアが算出されない場合は、以下の式に従って、結合順位Ｕを算出する。

Ｕ:=Ｄ

統合手段２２４は、結合順位Ｕの昇順に次発話候補集合をランキングする。

概念スコア算出手段２１でスコアが算出された次発話候補に対しては、概念スコア算出手段２１による文脈発話列と次発話候補との意味的類似性を考慮した順位と、結束スコア算出手段２２３による文脈発話列と次発話候補における内容語以外の言語表現を考慮した順位とを重みづけで足し合わせることにより、両方の長所を加味した結合順位が得られる。

概念スコア算出手段２１でスコアが算出されなかった次発話候補に対しては、結束スコア算出手段２２３による順位を結合順位とすることにより、文脈発話列と次発話候補における内容語以外の言語表現を考慮した順位を反映できる。

図５は、概念スコア算出手段２１、結束スコア算出手段２２３、及び統合手段２２４による処理フローの一例である。なお、図３の処理フローと同様の処理については、同一符号を付して、詳細な説明を省略する。

まず、ステップＳ１において、発話列Ａの概念ベクトルＶＡを生成する。ステップＳ２において、次発話候補集合における各次発話候補Ｂに対し、次発話候補Ｂの概念ベクトルＶＢを生成する。

次のステップＳ３において、次発話候補集合における各次発話候補Ｂに対し、上記ステップＳ１で生成された発話列Ａの概念ベクトルＶＡ、及び上記ステップＳ２で生成された次発話候補Ｂの概念ベクトルＶＢに基づいて、次発話候補Ｂのスコアを、上記の式１に従って算出する。

ステップＳ４において、スコアの降順に次発話候補集合をランキングする。

次のステップＳ２１において、発話列Ａ及び各次発話候補Ｂに対し、特徴量を抽出する。ステップＳ２２において、各次発話候補Ｂに対し、教師あり学習で得られたモデルと、上記ステップＳ２１で抽出された発話列Ａ及び次発話候補Ｂの特徴量とに基づいて、次発話候補Ｂが発話列Ａの次発話として相応しい度合いを表すスコアを算出する。

そして、ステップＳ２３において、上記ステップＳ２２で算出されたスコアの降順に次発話候補集合をランキングする。

ステップＳ２４において、上記ステップＳ１、Ｓ２で概念ベクトルが生成されたか否かと、上記ステップＳ４で得られたランキング結果と、上記ステップＳ２３で得られたランキング結果とに基づいて、各次発話候補Ｂに対し、結合順位Ｕを算出し、結合順位Ｕの昇順に次発話候補集合をランキングし、処理ルーチンを終了する。

本発明の手法の評価を以下のようにして行った。

本発明において次発話は、システムがこれまでの文脈に沿って発話するものである。そこで、二人の人間同士の対話ログ（各発話には、話者と話題のタグがつけられている）において、次の条件（１）、（２）を満たす発話境界Ｅを対象とし、Ｅの直前発話までの文脈から、Ｅの直後発話を導出する問題ととらえた。

条件（１） [Ｅの直前発話の話者]≠[Ｅの直後発話の話者]
条件（２） [Ｅの直前発話の話題]＝[Ｅの直後発話の話題]

Ｅの直前２発話を文脈発話列とし、Ｅの直後発話を正解とする。対話ログ中で、Ｅの直後発話からの全発話を次発話候補とし、正解発話を次発話候補ランキング結果において上位にもってこられるかを評価することとした。

評価指標は、ＭＲＲ（ＭｅａｎＲｅｃｉｐｒｏｃａｌＲａｎｋ：正解発話の順位の逆数の平均）を用いることとした。この値が高い程、精度が高い。

対話ログは１７４６個あり、１対話ログ中の発話の数の平均が約３９であったため、各対話ログにおいて、発話候補数が約半分の約２０となる上記条件を満たす発話境界Ｅを一つ定めた。これにより対象発話境界は１７４６個となり、概念スコア算出手段による手法（次発話候補のスコアは、上記式１で算出）と、結束スコア算出手段による手法（次発話候補のスコアは、上記第２の手法で算出）のＭＲＲは図６のようになった。

統合手段において、重みαを０から１まで０．１刻みに変化させた場合のＭＲＲは、図７のようになった。

αを増加させていくにしたがい、ＭＲＲは大きくなっていき、最大値に達すると小さくなっていく。上記では、αが０．７のときＭＲＲは最大値０．４２４をとった。統合手段により、概念スコア算出手段単独のときと比べ、ＭＲＲが０．３６２→０．４２４のように向上した。

１７４６個の対象発話境界の中で、概念スコア算出手段で、文脈発話列または正解発話の概念ベクトルが生成されず、正解発話のスコアが算出されなかった境界は、４３３個（全体の２４．８％）であった。このような、概念スコア算出手段でスコアが算出されなかった正解発話に対しては、統合手段で、結束スコア算出手段による順位が採用されており、上位の順位が付与されていると考えられる。

本発明の統合手段における重みαは、事前に、ある評価データにおいて、αを変化させて精度を算出し、最高精度を出したαを採用するというようにしてもよい。

これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、ＣＰＵ等の手段で実施することが可能である。

なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

本発明は、システムとユーザとの円滑なインタラクションを実現する対話処理技術に適用可能である。

１０入力手段
２０、２２０演算手段
２１概念スコア算出手段
２２概念ベース
３０出力手段
１００、２００次発話候補ランキング装置
２２３結束スコア算出手段
２２４統合手段

Claims

単語と該単語の意味を表す概念ベクトルとの対の集合である概念ベースと、
文脈となる発話列Ａと次発話候補集合とを入力とし、前記概念ベースを参照し、前記発話列Ａの概念ベクトルを生成し、前記次発話候補集合における各次発話候補Ｂの概念ベクトルを生成し、各次発話候補Ｂに対し、前記発話列Ａの概念ベクトルと前記次発話候補Ｂの概念ベクトルとの近さを表すスコアを算出し、該スコアに基づき前記次発話候補集合をランキングする概念スコア算出手段と、
教師あり学習で得たモデルと、前記発話列Ａ及び前記次発話候補集合における各次発話候補Ｂに関する特徴量とから、各次発話候補Ｂに対し、前記次発話候補Ｂが前記発話列Ａの次発話として相応しい度合いを表すスコアを算出し、該スコアに基づき前記次発話候補集合をランキングする結束スコア算出手段と、
前記次発話候補集合における各次発話候補Ｂに対し、前記概念スコア算出手段によるランキング結果における順位をＣとし、前記結束スコア算出手段によるランキング結果における順位をＤとしたとき、前記概念スコア算出手段で前記発話列Ａ及び前記次発話候補Ｂの概念ベクトルが生成される場合は、順位Ｃと順位Ｄとを重みづけして足し合わせた値を、前記次発話候補Ｂの結合順位とし、前記概念スコア算出手段で前記発話列Ａまたは前記次発話候補Ｂの概念ベクトルが生成されない場合は、順位Ｄを前記次発話候補Ｂの結合順位とし、前記結合順位の昇順に前記次発話候補集合をランキングする統合手段と、
を含むことを特徴とする次発話候補ランキング装置。
単語と該単語の意味を表す概念ベクトルとの対の集合である概念ベースと、概念スコア算出手段と、結束スコア算出手段と、統合手段とを含む次発話候補ランキング装置における次発話候補ランキング方法であって、
前記概念スコア算出手段が、文脈となる発話列Ａと次発話候補集合とを入力とし、前記概念ベースを参照し、前記発話列Ａの概念ベクトルを生成し、前記次発話候補集合における各次発話候補Ｂの概念ベクトルを生成し、各次発話候補Ｂに対し、前記発話列Ａの概念ベクトルと前記次発話候補Ｂの概念ベクトルとの近さを表すスコアを算出し、該スコアに基づき前記次発話候補集合をランキングし、
前記結束スコア算出手段が、教師あり学習で得たモデルと、前記発話列Ａ及び前記次発話候補集合における各次発話候補Ｂに関する特徴量とから、各次発話候補Ｂに対し、前記次発話候補Ｂが前記発話列Ａの次発話として相応しい度合いを表すスコアを算出し、該スコアに基づき前記次発話候補集合をランキングし、
前記統合手段が、前記次発話候補集合における各次発話候補Ｂに対し、前記概念スコア算出手段によるランキング結果における順位をＣとし、前記結束スコア算出手段によるランキング結果における順位をＤとしたとき、前記概念スコア算出手段で前記発話列Ａ及び前記次発話候補Ｂの概念ベクトルが生成される場合は、順位Ｃと順位Ｄとを重みづけして足し合わせた値を、前記次発話候補Ｂの結合順位とし、前記概念スコア算出手段で前記発話列Ａまたは前記次発話候補Ｂの概念ベクトルが生成されない場合は、順位Ｄを前記次発話候補Ｂの結合順位とし、前記結合順位の昇順に前記次発話候補集合をランキングする
次発話候補ランキング方法。
コンピュータを、請求項１記載の次発話候補ランキング装置を構成する各手段として機能させるためのプログラム。