JP2015225415A - 結束性判定装置、モデル学習装置、方法、及びプログラム - Google Patents

結束性判定装置、モデル学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP2015225415A
JP2015225415A JP2014108547A JP2014108547A JP2015225415A JP 2015225415 A JP2015225415 A JP 2015225415A JP 2014108547 A JP2014108547 A JP 2014108547A JP 2014108547 A JP2014108547 A JP 2014108547A JP 2015225415 A JP2015225415 A JP 2015225415A
Authority
JP
Japan
Prior art keywords
utterance
node
tree structure
unit
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014108547A
Other languages
English (en)
Other versions
JP5911911B2 (ja
Inventor
東中 竜一郎
Ryuichiro Higashinaka
竜一郎 東中
豊美 目黒
Toyomi Meguro
豊美 目黒
今村 賢治
Kenji Imamura
賢治 今村
弘晃 杉山
Hiroaki Sugiyama
弘晃 杉山
牧野 俊朗
Toshiaki Makino
俊朗 牧野
松尾 義博
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014108547A priority Critical patent/JP5911911B2/ja
Publication of JP2015225415A publication Critical patent/JP2015225415A/ja
Application granted granted Critical
Publication of JP5911911B2 publication Critical patent/JP5911911B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】発話列の結束性を精度よく判定することができる。【解決手段】特徴量抽出部225により、入力された、複数の発話からなる発話列に含まれる、形態素解析済みの発話の各々について、少なくとも1つ以上の特徴量を抽出し、木構造作成部236により、発話列について、発話列に含まれる各発話に対応する各発話ノードを含み、発話ノードの各々について、発話ノードに対応する発話について特徴量抽出部において抽出した特徴量の各々を表すノードの各々を、発話ノードの子ノードとして追加した木構造を作成し、モデル適用部238により、作成された木構造から得られる複数の部分木と、木構造に対応する発話列の結束性を判定するための予め学習されたモデルと、に基づいて、発話列の結束性を表すスコアを算出する。【選択図】図7

Description

本発明は、結束性判定装置、モデル学習装置、方法、及びプログラムに係り、特に、入力された発話列の結束性を判定するための結束性判定装置、モデル学習装置、方法、及びプログラムに関する。
対話システムは大きく分けて二種類あり、タスク指向型対話システムと非タスク指向型対話システムに分けられる。前者は特定のタスクをシステムとの対話により達成するものであり、例えば、フライトの予約システムや天気情報検索システムに用いられている。これらのシステムでは、予め話される内容が想定できるため、手作業で作り込んだ発話のデータベースを保持したり、データベースから抽出される天気情報などを手作業によるテンプレートに当てはめてシステムは発話を生成する(非特許文献1)。
非タスク指向型対話システムでは、目的のない対話を扱い、対話の内容はいわゆる雑談である。雑談はさまざまな話題が話される。雑談を行う対話システムの構築の仕方は主に二つあり、一つはルールベースの手法で、大量の応答ルールを手作業で記述する手法である(非特許文献2)。もう一つは、抽出ベースの手法で、ウェブやツイッター(登録商標)などの文章をデータベース化しておき、ユーザ発話に類似するものを選択することでシステム発話を生成する(非特許文献3)。
Ryuichiro Higashinaka, Katsuhito Sudoh, Mikio Nakano, "Incorporating Discourse Features into Confidence Scoring of Intention Recognition Results in Spoken Dialogue Systems", Speech Communication, Volume 48, Issues 3-4, pp.417-436,2006. R. S. Wallace, The Anatomy of A.L.I.C.E. A.L.I.C.E. Artificial Intelligence Foundation, Inc., 2004. Bessho, F., Harada, T., and Kuniyoshi, Y. (2012). "Dialog System Using Real-Time Crowdsourcing and Twitter Large-Scale Corpus." In Proc. SIGDIAL,pp. 227-231.
しかし、非特許文献1〜非特許文献3に示す、ルールベースの手法でも、抽出ベースの手法であっても、雑談ではユーザが様々な発話をするために完璧に応答することは難しいという問題がある。例えば、ルールベースの手法では何万というルールを記述することが多いが、準備していたルールとユーザ入力が完全に一致することは稀であり、部分的なルールとのマッチにより、不適切な発話をしてしまうことが多い。また、抽出ベースの手法では、雑多な内容を持つウェブやツイッター(登録商標)の文章を発話に用いるために、抽出されたものの質が悪ければ、不適切な発話をしてしまう場合がある。
本発明では、上記問題を解決するために成されたものであり、入力された発話列の結束性を高精度に判定することができる結束性判定装置、方法、及びプログラムを提供することを目的とする。
また、発話列の結束性を高精度に判定するモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る結束性判定装置は、入力された、複数の発話からなる発話列に含まれる、形態素解析済みの発話の各々について、少なくとも1つ以上の特徴量を抽出する特徴量抽出部と、前記発話列について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について前記特徴量抽出部において抽出した特徴量の各々を表すノードの各々を、前記発話ノードの子ノードとして追加した木構造を作成する木構造作成部と、前記木構造作成部において作成された木構造から得られる複数の部分木と、前記木構造に対応する発話列の結束性を判定するための予め学習されたモデルとに基づいて、前記発話列の結束性を表すスコアを算出するモデル適用部と、を含んで構成されている。
第2の発明に係る結束性判定方法は、特徴量抽出部と、木構造作成部と、モデル適用部と、を含む結束性判定装置における、結束性判定方法であって、前記特徴量抽出部は、入力された、複数の発話からなる発話列に含まれる、形態素解析済みの発話の各々について、少なくとも1つ以上の特徴量を抽出し、前記木構造作成部は、前記発話列について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について前記特徴量抽出部において抽出した特徴量の各々を表すノードの各々を、前記発話ノードの子ノードとして追加した木構造を作成し、前記モデル適用部は、前記木構造作成部において作成された木構造から得られる複数の部分木と、前記木構造に対応する発話列の結束性を判定するための予め学習されたモデルとに基づいて、前記発話列の結束性を表すスコアを算出する。
第1及び第2の発明によれば、特徴量抽出部により、入力された、複数の発話からなる発話列に含まれる、形態素解析済みの発話の各々について、少なくとも1つ以上の特徴量を抽出し、木構造作成部により、発話列について、発話列に含まれる各発話に対応する各発話ノードを含み、発話ノードの各々について、発話ノードに対応する発話について抽出した特徴量の各々を表すノードの各々を、発話ノードの子ノードとして追加した木構造を作成し、モデル適用部により、作成された木構造から得られる複数の部分木と、木構造に対応する発話列の結束性を判定するための予め学習されたモデルとに基づいて、発話列の結束性を表すスコアを算出する。
このように、発話列に含まれる発話の各々について、少なくとも1つ以上の特徴量を抽出し、発話列について、発話列に含まれる各発話に対応する各発話ノードを含み、発話ノードの各々について、発話ノードに対応する発話について抽出した特徴量の各々を表すノードの各々を、発話ノードの子ノードとして追加した木構造を作成し、作成された木構造から得られる複数の部分木と、木構造に対応する発話列の結束性を判定するための予め学習されたモデルとに基づいて、発話列の結束性を表すスコアを算出することによって、発話列の結束性を精度よく判定することができる。
また、第1の発明において、前記特徴量は、対話行為と、質問タイプと、述語項構造と、固有表現とのうちの少なくとも1つを含む。
また、第1の発明において、前記発話列に含まれる発話の各々について、係り受け解析を行う係り受け解析部を更に含み、前記特徴量は、依存構造を含む。
また、第1の発明において、前記特徴量抽出部は、前記発話の各々について、前記発話に含まれる各単語に対応して前記単語の品詞を表す各単語ノードを含み、単語の係り受け関係に応じたエッジで前記単語ノード間を結んだ木構造であって、前記単語ノードの各々について、前記単語ノードに対応する単語の表記を表すノード、前記単語ノードに対応する単語の標準表記を表すノード、前記単語ノードに対応する単語の終止形を表すノード、及び前記単語ノードに対応する単語の意味属性を表すノードの少なくとも1つを前記単語ノードの子ノードとして追加した前記発話の依存構造を表す木構造を、前記特徴量として作成する依存構造解析部を含み、前記木構造作成部は、前記発話列について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について前記依存構造解析部において作成した前記発話の依存構造を表す木構造を、前記発話ノードの子ノードに連結するように追加した前記木構造を作成してもよい。
第3の発明に係るモデル学習装置は、入力された、発話列の結束性を示すラベルが各々付加されている、複数の発話からなる発話列の各々について、前記発話列に含まれる形態素解析済みの発話毎に、少なくとも1つ以上の特徴量を抽出する特徴量抽出部と、前記発話列の各々について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について、前記特徴量抽出部において抽出した特徴量の各々を表すノードの各々を、前記発話ノードの子ノードとして追加した木構造を作成する木構造作成部と、前記発話列の各々についての、前記木構造作成部において作成された木構造と、前記発話列に付加されている前記ラベルと、に基づいて、前記木構造に対応する発話列の結束性を判定するためのモデルを学習するモデル学習部と、を含んで構成されている。
第4の発明に係るモデル学習方法は、特徴量抽出部と、木構造作成部と、モデル学習部と、を含むモデル学習装置における、モデル学習方法であって、前記特徴量抽出部は、入力された、発話列の結束性を示すラベルが各々付加されている、複数の発話からなる発話列の各々について、前記発話列に含まれる形態素解析済みの発話毎に、少なくとも1つ以上の特徴量を抽出し、前記木構造作成部は、前記発話列の各々について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について、前記特徴量抽出部において抽出した特徴量の各々を表すノードの各々を、前記発話ノードの子ノードとして追加した木構造を作成し、前記モデル学習部は、前記発話列の各々についての、前記木構造作成部において作成された木構造と、前記発話列に付加されている前記ラベルと、に基づいて、前記木構造に対応する発話列の結束性を判定するためのモデルを学習する。
第3及び第4の発明によれば、特徴量抽出部により、入力された、発話列の結束性を示すラベルが各々付加されている、複数の発話からなる発話列の各々について、発話列に含まれる形態素解析済みの発話毎に、少なくとも1つ以上の特徴量を抽出し、木構造作成部により、発話列の各々について、発話列に含まれる各発話に対応する各発話ノードを含み、発話ノードの各々について、発話ノードに対応する発話について、抽出した特徴量の各々を表すノードの各々を、発話ノードの子ノードとして追加した木構造を作成し、モデル学習部により、発話列の各々についての、作成された木構造と、発話列に付加されているラベルと、に基づいて、木構造に対応する発話列の結束性を判定するためのモデルを学習する。
このように、発話列の結束性を示すラベルが各々付加されている、複数の発話からなる発話列の各々について、発話列に含まれる発話毎に、少なくとも1つ以上の特徴量を抽出し、発話列の各々について、発話列に含まれる各発話に対応する各発話ノードを含み、発話ノードの各々について、発話ノードに対応する発話について、抽出した特徴量の各々を表すノードの各々を、発話ノードの子ノードとして追加した木構造を作成し、発話列の各々についての、作成された木構造と、発話列に付加されているラベルと、に基づいて、木構造に対応する発話列の結束性を判定するためのモデルを学習することによって、発話列の結束性を精度よく判定することができるモデルを学習することができる。
また、本発明のプログラムは、コンピュータを、上記の結束性判定装置、及びモデル学習装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の結束性判定装置、方法、及びプログラムによれば、発話列に含まれる発話の各々について、少なくとも1つ以上の特徴量を抽出し、発話列について、発話列に含まれる各発話に対応する各発話ノードを含み、発話ノードの各々について、発話ノードに対応する発話について抽出した特徴量の各々を表すノードの各々を、発話ノードの子ノードとして追加した木構造を作成し、作成された木構造から得られる複数の部分木と、木構造に対応する発話列の結束性を判定するための予め学習されたモデルとに基づいて、発話列の結束性を表すスコアを算出することによって、発話列の結束性を精度よく判定することができる。
また、本発明のモデル学習装置、方法、及びプログラムによれば、発話列の結束性を示すラベルが各々付加されている、複数の発話からなる発話列の各々について、発話列に含まれる発話毎に、少なくとも1つ以上の特徴量を抽出し、発話列の各々について、発話列に含まれる各発話に対応する各発話ノードを含み、発話ノードの各々について、発話ノードに対応する発話について、抽出した特徴量の各々を表すノードの各々を、発話ノードの子ノードとして追加した木構造を作成し、発話列の各々についての、作成された木構造と、発話列に付加されているラベルと、に基づいて、木構造に対応する発話列の結束性を判定するためのモデルを学習することによって、発話列の結束性を精度よく判定することができるモデルを学習することができる。
本発明の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。 依存構造を表す木構造の例を示す図である。 発話列の木構造の例を示す図である。 S式で表された発話列の木構造の例を示す図である。 学習データの例を示す図である。 学習されたモデルの例を示す図である。 本発明の実施の形態に係る結束性判定装置の機能的構成を示すブロック図である。 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンのフローチャート図である。 本発明の実施の形態に係る結束性判定装置における結束性判定処理ルーチンのフローチャート図である。 実験例の結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の原理>
雑談対話の特徴的なところは、発話の自由度であり、必ずしもある発話について何を言わなくてはならないと決まっているわけではないところである。例えば、ある質問があったとして、その対話相手は必ずしもその質問に答える必要はなく、話題を変えたり、相槌を打ったり、聞き返したりしても対話として問題はない。よって、結束性を計る際に、質問に対して答えていないから結束性が低いといったルールを用いることは早計である。直前の発話について続きうる発話の可能性は非常に多く、後の発話がどのような条件のときに、結束性が高くなるのか、低くなるのかは様々な要素が関係する。ここで、結束性とは発話間のつながりのよさを表し、つながりのよい発話ペアは結束性が高いといい、そうでないものは、結束性が低いという。
本実施の形態では、結束性のラベルが付与された発話列について、さまざまな特徴量を抽出し、これらの情報が、どのような条件で発話列に含まれているときに結束性が高くなるか、低くなるかを、パターンマイニングの手法で発見する。特徴量としては、対話行為、質問タイプ、述語項構造、固有表現に関する情報、依存構造に関する情報を用いる。これらは、発話のやり取り、内容、語彙、及び文法などの多角的な観点を含む情報である。発話列におけるこれらの特徴量を、木構造として表す。パターンマイニングによって発見されたパターン(部分木)は、未知の発話列について、結束性を判定する装置に用いられる。具体的には、結束性の高さに寄与する部分木を多く含むものを結束性が高いとして判定する。なお、本実施の形態では、発話列に含まれる発話数を限定せず、発話の組み合わせとして説明するが、本実施の形態の木構造の作成の仕方から分かるように、発話列に含まれる発話数は2つ(すなわち発話ペア)以上であれば、同様に処理が可能である。また、本実施の形態は、学習フェーズと判定フェーズとに分かれる。
<本発明の実施の形態に係るモデル学習装置の構成>
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを備えている。
入力部10は、発話列の結束性を示すラベルが各々付加されている発話列の集合を受け付ける。ここで、発話列の結束性を示すラベルとして、結束(高い結束性)と非結束(低い結束性)とを用いる。
演算部20は、形態素解析部22と、係り受け解析部24と、特徴量抽出部25と、木構造作成部36と、モデル学習部38と、モデル記憶部40と、を備えている。
形態素解析部22は、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎に、形態素解析を行う。本実施の形態においては、形態素解析を行うプログラムとして、JTAGを用いる。なお、形態素解析を行うプログラムとして、ChasenやMecab等を用いてもよい。
係り受け解析部24は、形態素解析部22において形態素解析された発話の各々について、係り受け解析を行う。具体的には、形態素解析済みの発話の各々について、当該発話を文節(文節は内容語とそれに伴う機能語からなる日本語の基本的な単位)毎にまとめ、まとめられた文節同士の依存関係を決定する。例えば、「私は彼と映画に行く」という発話については、形態素解析処理の結果から、「私は」「彼と」「映画に」「行く」という4つの文節を取得する。そして、取得された文節同士の依存構造を求めることで、「私は」、「彼と」、「映画に」は、すべて「行く」に係る構造であると解析できる。本実施の形態においては、係り受け解析を行うプログラムとしてJDEPを用いる。ここで、JDEPは、JTAGの出力を基にして、係り受け解析を行うソフトウェアである。なお、係り受け解析を行うプログラムとしてCabochaやKNPを用いてもよい。
特徴量抽出部25は、対話行為推定部26と、質問タイプ判定部28と、述語項構造解析部30と、固有表現抽出部32と、依存構造解析部34と、木構造作成部36と、モデル学習部38と、モデル記憶部40と、を備えている。また、特徴量抽出部25は、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎に、対話行為、質問タイプ、述語項構造、固有表現に関する情報、及び依存構造に関する情報の各々を、特徴量として抽出する。
対話行為推定部26は、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎に、当該発話の対話行為を推定し、推定された対話行為を当該発話の特徴量として抽出する。例えば、発話「こんにちは」に対して、対話行為「挨拶」を推定し、発話「私はラーメンが好きです」に対して、対話行為「自己開示_評価+」を推定する。具体的には、発話列の各々について、当該発話列に含まれる発話毎に、当該発話内の単語に基づいて、単語特徴量を抽出し、その単語特徴量から、対話行為を推定する推定器を用いて、対話行為を推定する。ここで、推定器は、機械学習の手法で予め構築しておけばよい。例えば、文書分類で一般的に用いられる手法である、サポートベクトルマシンなどを用いて構築できる。単語特徴量としては、たとえば発話内の単語の頻度ベクトルなどを用いればよい。本実施の形態においては、別途用意した約数万の発話について人手で対話行為を付与し、このデータを学習データとして、サポートベクトルマシンによって、発話からその対話行為を推定する多クラス分類器を学習した。なお、本実施の形態で扱う対話行為は全部で33種類である(非特許文献4:T. Meguro, Y. Minami, R. Higashinaka, and K. Dohsaka, “Learning to control listening-oriented dialogue using partially observable markov decision processes," ACM Transactions on Speech and Language Processing (TSLP), vol.10, no.4,p.15, 2013.)。
質問タイプ判定部28は、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎に、質問タイプを判定し、判定された質問タイプを当該発話の特徴量として抽出する。ここで、質問の分類を示したタイプとして、本実施の形態においては、大まかに質問が何を尋ねているかを表す基本質問タイプと、質問がどのような固有表現(固有名詞や数量表現)を回答として求めているかを表す拡張固有表現質問タイプの2種類を用いる。例えば、発話「エベレストの高さは?」を対象とすると、基本質問タイプ「数量:その他」、拡張固有表現質問タイプ「Height」が当該発話の特徴量として抽出される。なお、基本質問タイプとしては、「名称:その他、名称:人名、数量:その他、数量:日付、数量:期間、数量:金額、真偽、説明:原因、説明:意味、説明:方法、説明:評判、説明:連想、その他.」の13種類を用いる。また、固有表現としては、種類が200種類ある、拡張固有表現の体系を用いる(非特許文献5:Satoshi Sekine, Chikashi Nobata, Definition, dictionaries and tagger for Extended Named Entity Hierarchy LREC2004 pp.1977-1980)。
具体的には、発話列の各々について、当該発話列に含まれる発話毎に、当該発話内の単語に基づいて、単語特徴量を抽出し、その単語特徴量から、基本質問タイプを判定する判定器を用いて、基本質問タイプを判定し、当該発話の特徴量として抽出する。また、当該発話内の単語に基づいて、単語特徴量を抽出し、その単語特徴量から、拡張固有表現質問タイプを判定する判定器を用いて、拡張固有表現質問タイプを判定し、当該発話の特徴量として抽出する。ここで、基本質問タイプを判定する判定器及び拡張固有表現質問タイプを判定する判定器は、機械学習の手法で予め構築しておけばよい。例えば、文書分類で一般的に用いられる手法である、サポートベクトルマシンなどを用いて構築できる。単語特徴量としては発話内の単語の頻度ベクトルなどを用いればよい。本実施の形態においては、別途用意した大量の質問文について人手で基本質問タイプを付与し、このデータを学習データとして、サポートベクトルマシンによって、発話から基本質問タイプを判定する多クラス分類器を学習した。また、別途用意した大量の質問文について人手で拡張固有表現質問タイプを付与し、このデータを学習データとして、サポートベクトルマシンによって、発話から拡張固有表現質問タイプを判定する多クラス分類器を学習した。
述語項構造解析部30は、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎に、当該発話を先頭から順番に処理し、当該発話の述語項構造を特徴量として抽出する。ここで、述語項構造とは、述語と項からなるデータ構造のことである。例えば、発話「コンビニはいいですね」に対応する述語項構造は、述語が「いい」であり、項が「コンビニ」であり、ガ格(主格)である。なお、述語項構造は、発話において述語がない場合は取得できない場合もあり、また、1つの発話において複数の述語項構造が取得できる場合もある。
具体的には、形態素解析部22及び係り受け解析部24における形態素解析及び係り受け解析済みの発話について、当該発話に含まれる文節の各々について、当該文節の主辞(最も重要な要素)が述語(動詞、形容詞、動作性名詞、判定詞を伴う名詞)である文節を選択し、当該文節の述語を抽出する。そして、その述語の格要素となる名詞句(全体として名詞となる句)を当該発話中から抽出する。例えば、発話「コンビニでおにぎりを買う」の場合は、まず、「買う」が述語として抽出され、「コンビニ」がデ格の格要素として、「おにぎり」がヲ格の格要素として抽出され、最終的な述語項構造は「述語:買う デ格:コンビニ ヲ格:おにぎり」となる。
また、対話においては、項が省略されることが多いため、本実施の形態においては、項が省略されている場合には、項を補完する処理を行う。具体的には、まず、述語について格要素が抽出できなかった場合で、かつ、その格要素が必須とされる場合、文脈(処理中の文より前の文)からその格要素となり得る名詞句を検索し、見つかればその要素によって格要素を埋める。この処理を、ゼロ代名詞解消という。もし、格要素が文脈にも見つからない場合にはexog(外界照応)というシンボルによってこの格要素を埋める。ここで、格要素が必須であるか否かの判定は、メモリ(図示省略)に記憶されている必須格辞書に基づいて行えばよい。なお、必須格辞書は、大規模なテキストデータを解析して構築できる、述語の、その述語が伴う格のリストを保持したデータである。本実施の形態において用いる必須格辞書では、「行く」の必須格として「ニ格」が、「買う」の必須格として「ヲ格」と「デ格」が、「思う」の必須格として「ト格」が定義されている。
例えば「美味しいよね」という発話について考えると、述語は「美味しい」であり、格要素として「ガ格」が必要である。ガ格を埋めるものが文脈に存在しない場合、得られる述語項構造は「述語:美味しい ガ格:exog」となる。なお、本実施の形態においては、述語項構造解析器として、非特許文献6(今村賢治, 東中竜一郎, 泉朋子,ゼロ代名詞照応付き述語項構造解析の対話への適応,言語処理学会年次大会,pp.709-712, 2014.)記載の、述語と格に対して得られる格要素の候補を統計的に並び替え、最も統計的に尤度が高いものを採用する方法を用いる述語項構造解析器を用いる。
固有表現抽出部32は、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎に、固有表現に関する情報を、当該発話の特徴量として抽出する。本実施の形態においては、固有表現として、200種類ある拡張固有表現を用いる(非特許文献5)。固有表現抽出の手法としては、CRF(conditional random fields)といった一般的な系列ラベリングの手法を用い、固有表現の箇所がラベル付けされた学習データから固有表現抽出器を学習し、用いる。特徴量としては、単語表記の並びや、品詞の並び、及び、これらの組み合わせなどを用いればよい。例えば、発話「太郎がエベレストに昇った」については、「太郎」がPersonであり、「エベレスト」がMountainであるという固有表現が抽出されるので、これらの情報が固有表現抽出部32の出力となる。固有表現抽出は、フリーソフトであるCaboChaを用いて行う事も可能である。
依存構造解析部34は、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎に、係り受け解析部24の処理における係り受け解析結果に基づいて、当該発話に含まれる単語同士の依存構造に関する情報である、依存構造を表す木構造を作成し、当該発話の特徴量として抽出する。
具体的には、係り受け解析された発話に含まれる文節の各々に対し、当該文節に含まれる各単語について、当該単語から、当該単語から一番近く、かつ当該文節内で右側に位置する単語に係るようにする。また、文節の各々について、当該文節の最右の単語は、係先の文節内の主辞となる単語に係るようにする。係先が存在しない単語(文内最後の単語)については、木のルートノード(root)に係るようにする。そして、当該発話に含まれる単語の各々について、当該単語の品詞を表すノードを、当該単語を代表するノード(以後、単語ノードとする)として作成し、単語の係り受け関係に応じたエッジで単語ノード間を結ぶ。また、当該発話に含まれる単語の各々について、当該単語の単語ノードの子ノードとして、当該単語の表記、標準表記、終止形の各々を表すノードを追加する。
また、当該発話に含まれる単語の各々について、当該単語に対応する意味属性が存在する場合は、当該単語の単語ノードの子ノードとして、その意味属性の情報を持つノードを追加する。なお、意味属性が複数存在する場合には、全ての意味属性についてのノードを各々追加する。ここで、意味属性とは、単語の持つ意味内容を指す番号のことである。日本語語彙大系という辞書には、単語とその意味属性の対応が記憶されている。意味属性情報は三種類あり、一般名詞に付与される一般名詞意味属性、固有名詞に付与される固有名詞意味属性、用言(主に動詞)に付与される用言意味属性がある。本実施の形態においては、発話毎に当該発話に含まれる単語の各々について、これらに対応する意味属性を日本語語彙大系から取得する。例えば、発話「私は彼と映画に行った」という文について、依存構造解析部34において木構造を作成すると、図2のような木構造が作成できる。なお、一般名詞意味属性、固有名詞意味属性、用言意味属性をそれぞれ区別するため、接頭辞として、それぞれN,P、Yを付与している。
木構造作成部36は、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎の、対話行為と、基本質問タイプと、拡張固有表現質問タイプと、述語項構造と、固有表現に関する情報と、依存構造を表す木構造とに基づいて、図3に示すような、当該発話列の木構造を作成する。図3は、発話列に発話が2つ含まれる場合の例である。まず、ルートノードの子ノードに発話の各々に対応する、発話ノードを2つ追加する。次に、発話ノードの各々に、子ノードとして、特徴量の各々を表す、DA、Q−Type、PAS、ENE、DEPの各々のラベルが付与された子ノードの各々を追加する。そして、DAノードの子ノードとして、当該DAノードの親ノードの発話ノードに対応する発話において抽出した対話行為を追加し、Q−Typeノードの子ノードとして、当該Q−Typeノードの親ノードの発話ノードに対応する発話において抽出した基本質問タイプ及び拡張固有表現質問タイプの各々を追加し、PASノードの子ノードとして、当該PASノードの親ノードの発話ノードに対応する発話において抽出した述語項構造を追加し、ENEノードの子ノードとして、当該ENEノードの親ノードの発話ノードに対応する発話において抽出した固有表現を追加し、DEPノードの子ノードに、当該DEPノードの親ノードの発話ノードに対応する発話において抽出した依存構造を表す木構造を連結するように追加する。
図4に木構造の例を示す。図4の木構造は、発話「そうですね、外国に行ったことはありますか」と、発話「ええ」とが含まれている発話列について、木構造作成部36において作成された木構造の例である。図4に示す木構造はS式で表されている。最初の発話は「14:質問経験」という対話行為であり、質問タイプは「真偽」、「Country」である。また、述語項構造として、「述語:行く ガ格:あなた(YOU) ニ格:外国)」と、「述語:ある ガ格:こと ニ格:exog」とがある。図4の木構造では、番号で述語と格要素とを表している。0番は述語であり、1番はガ格、3番はニ格を表す。dep以下は依存構造を表す木構造である。なお、ここで、uttは発話ノードであり、da、qtype、pa、depはそれぞれ対話行為、質問タイプ、述語項構造、依存構造のノードである。この発話には拡張固有表現が存在しないため、ENEのノードが存在しない。次の発話「ええ」については、「30:感嘆」という対話行為であり、質問タイプには「説明:意味」と「Person」とがある。また、dep以下に独立詞のみからなる依存構造がある。
モデル学習部38は、入力部10において受け付けた発話列の各々について、木構造作成部36において作成された当該発話列の木構造と、当該発話列に付加されているラベルとに基づいて、発話列の結束性を判定するためのモデルを学習し、モデル記憶部40に記憶すると共に、出力部90に出力する。本実施の形態においては、モデルの学習に用いるアルゴリズムとしてBACTを用いる。当該アルゴリズムは、与えられたデータ中の木構造に含まれる部分木を列挙し、当該部分木が結束、非結束の判定にどの程度寄与しているかの重みを統計的な処理によって計算するものである。最終的に得られるモデルの学習結果は、部分木とその重みのペアの集合となる。BACTは木構造一般の判定に用いられるアルゴリズムである(非特許文献7:Taku Kudo, Yuji Matsumoto (2004) A Boosting Algorithm for Classification of Semi-Structured Text, EMNLP 2004.)。なお、学習アルゴリズムは、木構造中の部分木の存在を特徴量にでき、その特徴量に重みを付与できるものであれば、他のアルゴリズムを用いてもよい。
学習データの一例を図5に示す。結束のラベルが付加されたデータの先頭には結束を表す+1が、非結束のラベルが付加されたデータの先頭には−1が付加されている。木構造はBACTの入力形態であるS式となっている。また、対話システムと人間の対話データから2000の発話列(当該発話列に含まれる発話は2つとする)を準備し、これらについてラベルを人手で付与したデータを元にモデル学習部38に適用し、学習されたモデルの例を図6に示す。図6に示す例については、最初の行は切片であり、どのような部分木を持つかによらず分類対象に与えられる重みである。以降、最初の数字が重みであり、その後はその重みを持つ部分木の文字列表現である。文字列表現において、')'は、兄弟関係を表しており、それ以外は親子関係である。正の重みは、その部分木が含まれると結束になりやすいことを示し、負の重みは、その部分木が含まれると非結束になりやすいことを示す。
モデル記憶部40には、モデル学習部38において学習された発話列の結束性を判定するためのモデルが記憶されている。
<本発明の実施の形態に係る結束性判定装置の構成>
次に、本発明の実施の形態に係る結束性判定装置の構成について説明する。図7に示すように、本発明の実施の形態に係る結束性判定装置200は、CPUと、RAMと、後述する結束性判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この結束性判定装置200は、機能的には図7に示すように入力部210と、演算部220と、出力部290とを備えている。
入力部210は、複数の発話からなる発話列を受け付ける。
演算部220は、形態素解析部222と、係り受け解析部224と、特徴量抽出部225と、木構造作成部236と、モデル適用部238と、モデル記憶部240と、判定部242と、を備えている。
形態素解析部222は、入力部210において受け付けた発話列に含まれる発話の各々について、モデル学習装置100の形態素解析部22と同様に、JTAGを用いて形態素解析を行う。
係り受け解析部224は、形態素解析部222において形態素解析された発話の各々について、モデル学習装置100の係り受け解析部24と同様に、JDEPを用いて係り受け解析を行う。
特徴量抽出部225は、対話行為推定部226と、質問タイプ判定部228と、述語項構造解析部230と、固有表現抽出部232と、依存構造解析部234と、を備えている。また、特徴量抽出部225は、入力部210において受け付けた発話列に含まれる発話の各々について、モデル学習装置100の特徴量抽出部25と同様に、対話行為、質問タイプ、述語項構造、固有表現に関する、及び依存構造を表す木構造の各々を、特徴量として抽出する。
対話行為推定部226は、入力部210において受け付けた発話列に含まれる発話の各々について、モデル学習装置100の対話行為推定部26と同様の推定器を用いて、対話行為を推定し、当該発話の特徴量として抽出する。
質問タイプ判定部228は、入力部210において受け付けた発話列に含まれる発話の各々について、モデル学習装置100の質問タイプ判定部28と同様に、基本質問タイプ及び拡張固有表現質問タイプの各々についての判定器を用いて、質問タイプを判定し、当該発話の特徴量として抽出する。
述語項構造解析部230は、入力部210において受け付けた発話列に含まれる発話の各々について、モデル学習装置100の述語項構造解析部30と同様に、係り受け解析部224において取得した、係り受け解析結果に基づいて、述語項構造を、当該発話の特徴量として抽出する。
固有表現抽出部232は、入力部210において受け付けた発話列に含まれる発話の各々について、モデル学習装置100の固有表現抽出部32と同様に、拡張固有表現を用いて、固有表現を、当該発話の特徴量として抽出する。
依存構造解析部234は、入力部210において受け付けた発話列に含まれる発話の各々について、モデル学習装置100の依存構造解析部34と同様に、係り受け解析部224において取得した、係り受け解析結果に基づいて、当該発話の依存構造を表す木構造を作成し、当該発話の特徴量として抽出する。
木構造作成部236は、入力部210において受け付けた発話列について、モデル学習装置100の木構造作成部36と同様に、当該発話列に含まれる発話の各々について、対話行為推定部226において推定された対話行為と、質問タイプ判定部228において判定された質問タイプと、述語項構造解析部230において取得した述語項構造と、固有表現抽出部232において抽出した固有表現に関する情報と、依存構造解析部234において作成した依存構造を表す木構造と、に基づいて、当該発話列の木構造を作成する。
モデル適用部238は、木構造作成部236において作成した、入力部10において受け付けた発話列についての木構造と、モデル記憶部240に記憶されている発話列の結束性を判定するためのモデルとに基づいて、当該作成した木構造に対応する発話列の結束性を示すスコアを算出する。具体的には、当該木構造に含まれる部分木を列挙し、下記(1)式に従って、当該モデルを参照して、それぞれの部分木の重みを足し合わせることにより、発話列の結束性を示すスコアを算出する。

ここで、tは当該発話列の木構造であり、scoreは木構造についての発話列の結束性を示すスコアを返す。weightは切片を指し、subtreesは木構造から部分木を列挙する関数である。weightは部分木について、当該モデルを参照し、その重みを返す関数である。
モデル記憶部240には、モデル学習装置100のモデル記憶部40に記憶されている発話列の結束性を判定するためのモデルと同一のモデルが記憶されている。
判定部242は、入力部210にいて受け付けた発話列について、モデル適用部238において算出された発話列の結束性を示すスコアが、予め定められた閾値を超えているかを判定し、閾値を超えている場合には、当該発話列が結束していると判定し、出力部290に判定結果を出力する。また、発話列の結束性を示すスコアが閾値以下の場合には、当該発話列を非結束と判定し、出力部290に判定結果を出力する。閾値には、例えば0.0を用いる。
<本発明の実施の形態に係るモデル学習装置の作用>
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。発話列の結束性を示すラベルが各々付加されている発話列の集合を受け付けると、モデル学習装置100は、図8に示すモデル学習処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎に、JTAGを用いて形態素解析を行う。
次に、ステップS102では、入力部10において受け付けた発話列の各々について、当該発話列に含まれる発話毎に、ステップS100において取得した当該発話の形態素解析結果に基づいて、JDEPを用いて係り受け解析を行う。
次に、ステップS104では、処理対象となる発話列に含まれる発話の各々について、予め構築された対話行為を推定する推定器を用いて、対話行為を推定する。
次に、ステップS106では、処理対象となる発話列に含まれる発話の各々について、予め構築された基本質問タイプ及び拡張固有表現質問タイプの各々の判定器を用いて、質問タイプを判定する。
次に、ステップS108では、処理対象となる発話列に含まれる発話の各々について、ステップS102において取得した当該発話の係り受け解析結果に基づいて、述語項構造を取得する。
次に、ステップS110では、処理対象となる発話列に含まれる発話の各々について、拡張固有表現を用いて、固有表現を抽出する。
次に、ステップS112では、処理対象となる発話列に含まれる発話の各々について、ステップS102において取得した当該発話の係り受け解析結果に基づいて、当該発話の依存構造を表す木構造を作成する。
次に、ステップS114では、処理対象となる発話列について、当該発話列に含まれる発話の各々について、ステップS104において取得した対話行為と、ステップS106において取得した質問タイプと、ステップS108において取得した述語項構造と、ステップS110において取得した固有表現と、ステップS112において取得した依存構造を表す木構造と、に基づいて、当該発話列の木構造を作成する。
次に、ステップS116では、受け付けた全ての発話列についてステップS104〜ステップS114の処理を終了したか否かを判定する。受け付けた全ての発話列についてステップS104〜ステップS114の処理を終了している場合には、ステップS118へ移行し、受け付けた全ての発話列についてステップS104〜ステップS114の処理を終了していない場合には、処理対象となる発話列を変更し、ステップS104〜ステップS114の処理を行う。
次に、ステップS118では、ステップS114において取得した入力部10において受け付けた発話列の各々の木構造と、入力部10において受け付けた発話列の各々に付加されているラベルとに基づいて、発話列の結束性を判定するためのモデルを学習し、モデル記憶部40に記憶する。
次に、ステップS120では、ステップS118において取得した発話列の結束性を判定するためのモデルを出力部90に出力してモデル学習処理ルーチンを終了する。
<本発明の実施の形態に係る結束性判定装置の作用>
次に、本発明の実施の形態に係る結束性判定装置200の作用について説明する。まず、入力部210から、モデル学習装置100において学習された発話列の結束性を判定するためのモデルが入力され、モデル記憶部240に記憶される。そして、処理対象となる発話列を受け付けると、結束性判定装置200は、図9に示す結束性判定処理ルーチンを実行する。
まず、ステップS200では、モデル記憶部240に記憶されている発話列の結束性を判定するためのモデルを読み込む。
次に、ステップS202では、ステップS100と同様に、入力部210において受け付けた発話列に含まれる発話の各々について、JTAGを用いて形態素解析を行う。
次に、ステップS204では、ステップS102と同様に、入力部210において受け付けた発話列に含まれる発話の各々について、ステップS100において取得した形態素解析結果に基づいて、JDEPを用いて係り受け解析を行う。
次に、ステップS206では、ステップS104と同様に、入力部210において受け付けた発話列に含まれる発話の各々について、予め構築された対話行為を推定する推定器を用いて、対話行為を推定する。
次に、ステップS208では、ステップS106と同様に、入力部210において受け付けた発話列に含まれる発話の各々について、予め構築された基本質問タイプ及び拡張固有表現質問タイプの各々の判定器を用いて、質問タイプを判定する。
次に、ステップS210では、ステップS108と同様に、入力部210において受け付けた発話列に含まれる発話の各々について、ステップS204において取得した当該発話の係り受け解析結果に基づいて、述語項構造を取得する。
次に、ステップS212では、ステップS110と同様に、入力部210において受け付けた発話列に含まれる発話の各々について、拡張固有表現を用いて、固有表現を抽出する。
次に、ステップS214では、ステップS112と同様に、入力部210において受け付けた発話列に含まれる発話の各々について、ステップS204において取得した当該発話の係り受け解析結果に基づいて、当該発話の依存構造を表す木構造を作成する。
次に、ステップS216では、ステップS114と同様に、ステップS206において取得した対話行為と、ステップS208にいて取得した質問タイプと、ステップS210において取得した述語項構造と、ステップS212において取得した固有表現と、ステップS214において取得した依存構造を表す木構造と、に基づいて、入力部210において受け付けた発話列について、木構造を作成する。
次に、ステップS218では、入力部210において受け付けた発話列について、ステップS200において取得した発話列の結束性を判定するためのモデルと、ステップS216において取得した当該発話列の木構造とに基づいて、上記(1)式に従って、発話列の結束性を示すスコアを算出する。
次に、ステップS220では、ステップS218において算出した発話列の結束性を示すスコアが、予め定められた閾値を超えている否かを判定する。算出した発話列の結束性を示すスコアが閾値を超えている場合には、ステップS222へ移行し、算出した発話列の結束性を示すスコアが閾値以下である場合には、ステップS224へ移行する。
ステップS222では、入力部210において受け付けた発話列を結束であると判定する。
ステップS224では、入力部210において受け付けた発話列を非結束であると判定する。
次に、ステップS226では、ステップS222又はステップS224において判定された結果を、出力部290に出力して、結束性判定処理ルーチンを終了する。
<実験例>
図10に、発話ノードの子ノードとしてDA、Q−Type、PAS、ENE、DEPの各々のノードのみを追加した場合の精度と、ENEを除くすべての子ノードを追加した場合の精度を示す(10分割交差検定による)。ここで精度というのは、結束、非結束をどれだけ正しく当てられたかを表す。ENEを除いているのは、本データについてはもっともよい組み合わせを自動的に求めたところ、ENEを除く場合が、一番精度がよかったからであるが、データによっては性能改善も見られた。このデータから分かるとおり、個々の情報を用いて性能が上がることが確認できた他、複数のノードを組み合わせて使うことでさらに精度が改善することが示された。なお、ベースラインはすべてを「非結束」とするマジョリティベースラインである。
以上説明したように、本発明の実施の形態に係る結束性判定装置によれば、発話列に含まれる発話の各々について、特徴量を抽出し、発話列について、発話列に含まれる各発話に対応する各発話ノードを含み、発話ノードの各々について、発話ノードに対応する発話について抽出した特徴量の各々を表すノードの各々を、発話ノードの子ノードとして追加した木構造を作成し、作成された木構造から得られる複数の部分木と、木構造に対応する発話列の結束性を判定するための予め学習されたモデルとに基づいて、発話列の結束性を表すスコアを算出することによって、発話列の結束性を精度よく判定することができる。
また、本発明の実施の形態に係るモデル学習装置によれば、発話列の結束性を示すラベルが各々付加されている発話列の各々について、発話列に含まれる発話毎に、特徴量を抽出し、発話列の各々について、発話列に含まれる各発話に対応する各発話ノードを含み、発話ノードの各々について、発話ノードに対応する発話について、抽出した特徴量の各々を表すノードの各々を、発話ノードの子ノードとして追加した木構造を作成し、発話列の各々についての、作成された木構造と、発話列に付加されているラベルと、に基づいて、木構造に対応する発話列の結束性を判定するためのモデルを学習することによって、発話列の結束性を精度よく判定することができるモデルを学習することができる。
また、対話システムが発話を行う際に、直前のユーザ発話と、対話システムが今発話しようとしている発話をペアにして、それらの結束性を判定し、もし、結束性が低い場合にはその発話を行わない判断をすることができる。そのような際には、対話システムは別の発話を試すことが可能となる。抽出ベースのシステムでは発話候補がインターネット上から大量に得られることが多い。これらの発話候補を直前のユーザ発話とペアにして、それぞれの結束性を判定し、結束性の高いものを発話に用いることで結束性の高い、不適切でない発話を行う事が可能となる。
また、対話システムの発話の結束性が高まり、ユーザにとって理解しやすいシステム発話を行うことができる。それにより、システムとユーザの意思疎通がしやすくなり、システムとユーザのインタラクションが円滑になる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態において、拡張固有表現質問タイプに用いる固有表現として拡張固有表現を用いる場合について説明したが、これに限定されるものではなく、固有表現として、一般的なIREXの固有表現の分類を用いてもよい。
また、本実施の形態においては、述語項構造解析器として、非特許文献6に記載の述語項構造解析器を用いる場合について説明したが、これに限定されるものではない。例えば、述語項解析器として、SynChaやChaPASを用いてもよく、述語項構造解析結果を取得するためにKNPを用いてもよい。
また、本実施の形態においては、200種類ある拡張固有表現を用いて、特徴量としての固有表現を抽出する場合について説明したが、これに限定されるものではない。例えば、IREXによる分類を用いて、特徴量としての固有表現を抽出するようにしてもよい。
また、本実施の形態においては、単語の意味を表す情報として、意味属性を用いる場合について説明したが、これに限定されるものではない。例えば、意味属性の代わりに、WordNetにおける、Synset IDを用いてもよい。また、複数の単語をクラスタリングすることによって、各単語に割り当てられるクラスタの番号を意味情報として用いてもよい。
また、本実施の形態においては、特徴量として、対話行為と、質問タイプと、述語項構造と、固有表現と、依存構造を表す木構造とを全て抽出する場合について説明したが、これに限定されるものではない。例えば、対話行為と、質問タイプと、述語項構造と、固有表現と、依存構造を表す木構造とのうち、少なくとも1つを特徴量として抽出するようにしてもよい。この場合には、特徴量として抽出された、対話行為と、質問タイプと、述語項構造と、固有表現と、依存構造を表す木構造とのうち、少なくとも1つを用いて発話列の木構造を作成するようにすればよい。
また、本実施の形態においては、質問タイプとして、基本質問タイプと拡張固有表現質問タイプとを特徴量として抽出する場合について説明したが、これに限定されるものではなく、例えば、基本質問タイプ及び拡張固有表現質問タイプのうち少なくとも1つを特徴量として抽出してもよいし、他の分類の質問タイプを特徴量として抽出してもよい。
また、本実施の形態においては、単語ノードの子ノードとして、当該単語の表記を表すノード、標準表記を表すノード、終止形を表すノード、及び意味属性の情報を持つノード、を追加する場合を例に説明したが、これに限定されるものではない。例えば、単語ノードの子ノードとして、当該単語の表記を表すノード、標準表記を表すノード、終止形を表すノード、及び意味属性の情報を持つノードの少なくとも一つを追加するようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
22 形態素解析部
24 係り受け解析部
25 特徴量抽出部
26 対話行為推定部
28 質問タイプ判定部
30 述語項構造解析部
32 固有表現抽出部
34 依存構造解析部
36 木構造作成部
38 モデル学習部
40 モデル記憶部
90 出力部
100 モデル学習装置
200 結束性判定装置
210 入力部
220 演算部
222 形態素解析部
224 係り受け解析部
225 特徴量抽出部
226 対話行為推定部
228 質問タイプ判定部
230 述語項構造解析部
232 固有表現抽出部
234 依存構造解析部
236 木構造作成部
238 モデル適用部
240 モデル記憶部
242 判定部
290 出力部

Claims (8)

  1. 入力された、複数の発話からなる発話列に含まれる、形態素解析済みの発話の各々について、少なくとも1つ以上の特徴量を抽出する特徴量抽出部と、
    前記発話列について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について前記特徴量抽出部において抽出した特徴量の各々を表すノードの各々を、前記発話ノードの子ノードとして追加した木構造を作成する木構造作成部と、
    前記木構造作成部において作成された木構造から得られる複数の部分木と、前記木構造に対応する発話列の結束性を判定するための予め学習されたモデルとに基づいて、前記発話列の結束性を表すスコアを算出するモデル適用部と、
    を含む、結束性判定装置。
  2. 前記特徴量は、対話行為と、質問タイプと、述語項構造と、固有表現とのうちの少なくとも1つを含む請求項1記載の結束性判定装置。
  3. 前記発話列に含まれる発話の各々について、係り受け解析を行う係り受け解析部を更に含み、
    前記特徴量は、依存構造を含む請求項1又は2記載の結束性判定装置。
  4. 前記特徴量抽出部は、
    前記発話の各々について、前記発話に含まれる各単語に対応して前記単語の品詞を表す各単語ノードを含み、単語の係り受け関係に応じたエッジで前記単語ノード間を結んだ木構造であって、前記単語ノードの各々について、前記単語ノードに対応する単語の表記を表すノード、前記単語ノードに対応する単語の標準表記を表すノード、前記単語ノードに対応する単語の終止形を表すノード、及び前記単語ノードに対応する単語の意味属性を表すノードの少なくとも1つを前記単語ノードの子ノードとして追加した前記発話の依存構造を表す木構造を、前記特徴量として作成する依存構造解析部を含み、
    前記木構造作成部は、前記発話列について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について前記依存構造解析部において作成した前記発話の依存構造を表す木構造を、前記発話ノードの子ノードに連結するように追加した前記木構造を作成する請求項3記載の結束性判定装置。
  5. 入力された、発話列の結束性を示すラベルが各々付加されている、複数の発話からなる発話列の各々について、前記発話列に含まれる形態素解析済みの発話毎に、少なくとも1つ以上の特徴量を抽出する特徴量抽出部と、
    前記発話列の各々について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について、前記特徴量抽出部において抽出した特徴量の各々を表すノードの各々を、前記発話ノードの子ノードとして追加した木構造を作成する木構造作成部と、
    前記発話列の各々についての、前記木構造作成部において作成された木構造と、前記発話列に付加されている前記ラベルと、に基づいて、前記木構造に対応する発話列の結束性を判定するためのモデルを学習するモデル学習部と、
    を含む、モデル学習装置。
  6. 特徴量抽出部と、木構造作成部と、モデル適用部と、を含む結束性判定装置における、結束性判定方法であって、
    前記特徴量抽出部は、入力された、複数の発話からなる発話列に含まれる、形態素解析済みの発話の各々について、少なくとも1つ以上の特徴量を抽出し、
    前記木構造作成部は、前記発話列について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について前記特徴量抽出部において抽出した特徴量の各々を表すノードの各々を、前記発話ノードの子ノードとして追加した木構造を作成し、
    前記モデル適用部は、前記木構造作成部において作成された木構造から得られる複数の部分木と、前記木構造に対応する発話列の結束性を判定するための予め学習されたモデルとに基づいて、前記発話列の結束性を表すスコアを算出する
    結束性判定方法。
  7. 特徴量抽出部と、木構造作成部と、モデル学習部と、を含むモデル学習装置における、モデル学習方法であって、
    前記特徴量抽出部は、入力された、発話列の結束性を示すラベルが各々付加されている、複数の発話からなる発話列の各々について、前記発話列に含まれる形態素解析済みの発話毎に、少なくとも1つ以上の特徴量を抽出し、
    前記木構造作成部は、前記発話列の各々について、前記発話列に含まれる各発話に対応する各発話ノードを含み、前記発話ノードの各々について、前記発話ノードに対応する前記発話について、前記特徴量抽出部において抽出した特徴量の各々を表すノードの各々を、前記発話ノードの子ノードとして追加した木構造を作成し、
    前記モデル学習部は、前記発話列の各々についての、前記木構造作成部において作成された木構造と、前記発話列に付加されている前記ラベルと、に基づいて、前記木構造に対応する発話列の結束性を判定するためのモデルを学習する
    モデル学習方法。
  8. コンピュータを、請求項1〜4の何れか1項記載の結束性判定装置又は請求項5記載のモデル学習装置を構成する各部として機能させるためのプログラム。
JP2014108547A 2014-05-26 2014-05-26 結束性判定装置、モデル学習装置、方法、及びプログラム Active JP5911911B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014108547A JP5911911B2 (ja) 2014-05-26 2014-05-26 結束性判定装置、モデル学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014108547A JP5911911B2 (ja) 2014-05-26 2014-05-26 結束性判定装置、モデル学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015225415A true JP2015225415A (ja) 2015-12-14
JP5911911B2 JP5911911B2 (ja) 2016-04-27

Family

ID=54842126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014108547A Active JP5911911B2 (ja) 2014-05-26 2014-05-26 結束性判定装置、モデル学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5911911B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017228160A (ja) * 2016-06-23 2017-12-28 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
JP2020095732A (ja) * 2016-06-23 2020-06-18 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
JP2020537223A (ja) * 2017-09-28 2020-12-17 オラクル・インターナショナル・コーポレイション 質問と要求とを自律エージェントが区別できるようにすること
JP7531649B2 (ja) 2018-05-09 2024-08-09 オラクル・インターナショナル・コーポレイション 収束質問に対する回答を改善するための仮想談話ツリーの構築

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282366A (ja) * 2007-05-14 2008-11-20 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
JP2011065380A (ja) * 2009-09-16 2011-03-31 Nippon Hoso Kyokai <Nhk> 意見分類装置およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282366A (ja) * 2007-05-14 2008-11-20 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
JP2011065380A (ja) * 2009-09-16 2011-03-31 Nippon Hoso Kyokai <Nhk> 意見分類装置およびプログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JPN6015030982; 山本 悠二 外2名: '小説自動要約のための隣接文間の結束性判定手法' 言語処理学会第12回年次大会発表論文集 , 20060313, p.1083-1086, 言語処理学会 *
JPN6015030984; 工藤 拓 外1名: '半構造化テキストの分類のためのブースティングアルゴリズム' 情報処理学会論文誌 第45巻 第9号 IPSJ Journal 第45巻第9号, 20040915, p.2146-2156, 社団法人情報処理学会 *
JPN6015030987; 加藤 直人 外1名: '統計的手法による局所的対話モデルと談話セグメンテーションへの応用' 情報処理学会論文誌 第39巻第9号, 19980915, p.2593-2602, 社団法人情報処理学会 *
JPN6015030989; 平野 徹 外2名: '文脈的素性を用いた固有表現間の関係性判定' 自然言語処理 第15巻第4号, 20080910, p.43-58, 言語処理学会 *
JPN6015030991; 東中 竜一郎: '雑談対話システムに向けた取り組み' 第70回 言語・音声理解と対話処理研究会資料 (SIG-SLUD-B303) , 20140226, p.65-70, 一般社団法人人工知能学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017228160A (ja) * 2016-06-23 2017-12-28 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
JP2020095732A (ja) * 2016-06-23 2020-06-18 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
JP2020537223A (ja) * 2017-09-28 2020-12-17 オラクル・インターナショナル・コーポレイション 質問と要求とを自律エージェントが区別できるようにすること
JP7214719B2 (ja) 2017-09-28 2023-01-30 オラクル・インターナショナル・コーポレイション 質問と要求とを自律エージェントが区別できるようにすること
JP7531649B2 (ja) 2018-05-09 2024-08-09 オラクル・インターナショナル・コーポレイション 収束質問に対する回答を改善するための仮想談話ツリーの構築

Also Published As

Publication number Publication date
JP5911911B2 (ja) 2016-04-27

Similar Documents

Publication Publication Date Title
CN105095204B (zh) 同义词的获取方法及装置
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
Rasooli et al. Joint parsing and disfluency detection in linear time
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
US20130103390A1 (en) Method and apparatus for paraphrase acquisition
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
Bertaglia et al. Exploring word embeddings for unsupervised textual user-generated content normalization
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
JP5911911B2 (ja) 結束性判定装置、モデル学習装置、方法、及びプログラム
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
JP2013190985A (ja) 知識応答システム、方法およびコンピュータプログラム
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN113792542A (zh) 一种融合句法分析和语义角色剪枝的意图理解方法
JP2017027234A (ja) フレーム作成装置、方法、及びプログラム
Aliero et al. Systematic review on text normalization techniques and its approach to non-standard words
Kubis et al. Open challenge for correcting errors of speech recognition systems
JP2016099675A (ja) 翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラム
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
Palmer et al. Robust information extraction from automatically generated speech transcriptions
JP5954836B2 (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
JP6058563B2 (ja) モデル学習装置、フィルタ装置、方法、及びプログラム
Le et al. Automatic quality estimation for speech translation using joint ASR and MT features

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160330

R150 Certificate of patent or registration of utility model

Ref document number: 5911911

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150