JP2020173608A

JP2020173608A - 対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム

Info

Publication number: JP2020173608A
Application number: JP2019075055A
Authority: JP
Inventors: のぞみ小林; Nozomi Kobayashi; 齋藤　邦子; Kuniko Saito; 邦子齋藤; 準二富田; Junji Tomita
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2020-10-22
Anticipated expiration: 2039-04-10
Also published as: JP7180513B2; US20220164545A1; WO2020209072A1

Abstract

【課題】発話対象を考慮した対話行為タイプを精度よく推定することができるようにする。【解決手段】特徴量抽出部１３０が、第１発話文と当該第１発話文の少なくとも直前の発話文を含む当該第１発話文より前の発話文である第２発話文との各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、対話行為推定部２６０が、抽出した第１発話文及び第２発話文の各々についての特徴量を集約した集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、第１発話文の対話行為タイプを推定する。【選択図】図５

Description

本発明は、対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラムに関する。

従来から、対話システムがユーザの意図を理解して応答を生成するために重要な技術の一つである、対話行為推定が研究されている。対話行為推定とは、対話におけるその発話文の意図を示す対話行為のタイプを推定することである。例えば、「ごめんなさい」という発話文に対して「謝罪」という対話行為のタイプを正しく推定することで、ユーザの「ごめんなさい」という発話文に対して「謝罪受理」という対話行為の応答をすべき、という制御が可能となる。対話行為タイプのセット（対話行為体系）は、各々の研究で研究者が独自に開発したものが用いられることが多いが、最近ではＩＳＯ２４６１７−２という対話行為体系が提案されている。

また、従来の対話行為推定技術では、教師有り学習に基づいてあらかじめ学習した対話行為を推定するためのモデル（対話行為推定モデル）を使用しており、その際の特徴量として、ユーザの発話文を形態素解析し、発話文に含まれる形態素や発話文の直前の対話行為、文字数、単語ｎ−ｇｒａｍ等を用いている（例えば非特許文献１）。学習に用いる手法は、例えばサポートベクトルマシン（ＳＶＭ）、条件付き確率場（ＣＲＦ）、ロジスティック回帰等が報告されている。

福岡知隆，白井清昭，対話行為に固有の特徴を考慮した自由対話システムにおける対話行為推定，自然言語処理 Vol.24, No.4，2017.

対話システムにおける応答発話文の生成は、推定された対話行為タイプごとに応答発話文生成ロジックを適用する方法が一般的である。この観点から、応答すべき発話文生成ロジックに対応した粒度での対話行為体系が推定できることが望ましい。

しかしながら、従来の対話行為推定ではその粒度が対応していないという課題がある。例えば、ＩＳＯ２４６１７−２では「Ｑｕｅｓｔｉｏｎ」という対話行為タイプが存在するが、当該対話行為タイプには「あなたの名前は？」のようにシステム（第２者）に関する発話文と、「首相の名前は？」のように第３者に関する発話文との両方が含まれる。前者は予め用意したシステムのパーソナルデータベースを検索して回答を生成し、後者は一般のインターネットにある情報を検索して回答を生成するという異なる生成ロジックが想定されるため、これら二つを区別することが必要であるが、従来の対話行為推定は「何について・誰について（以下、発話対象）」は考慮されていない、という問題があった。

本発明は上記の点に鑑みてなされたものであり、発話対象を考慮した対話行為タイプを精度よく推定することができる対話行為推定装置、対話行為推定方法、及びプログラムを提供することを目的とする。また、本発明は、発話対象を考慮した対話行為タイプを精度よく推定するための対話行為推定モデル学習装置を提供することを目的とする。

本発明に係る対話行為推定装置は、第１発話文と前記第１発話文の少なくとも直前の発話文を含む前記第１発話文より前の発話文である第２発話文との入力を受け付ける入力部と、前記第１発話文及び前記第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第１発話文及び前記第２発話文の各々についての前記特徴量を集約して集約特徴量とする特徴量抽出部と、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第１発話文の前記対話行為タイプを推定する対話行為推定部と、を備えて構成される。

また、本発明に係る対話行為推定方法は、入力部が、第１発話文と前記第１発話文の少なくとも直前の発話文を含む前記第１発話文より前の発話文である第２発話文との入力を受け付け、特徴量抽出部が、前記第１発話文及び前記第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第１発話文及び前記第２発話文の各々についての前記特徴量を集約して集約特徴量とし、対話行為推定部が、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第１発話文の前記対話行為タイプを推定する。

また、本発明に係るプログラムは、入力部が、第１発話文と前記第１発話文の少なくとも直前の発話文を含む前記第１発話文より前の発話文である第２発話文との入力を受け付け、特徴量抽出部が、前記第１発話文及び前記第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第１発話文及び前記第２発話文の各々についての前記特徴量を集約して集約特徴量とし、対話行為推定部が、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第１発話文の前記対話行為タイプを推定することを含む処理をコンピュータに実行させるためのプログラムである。

本発明に係る対話行為推定装置、対話行為推定方法及びプログラムによれば、入力部が、第１発話文と当該第１発話文の直前の発話文である第２発話文との入力を受け付け、特徴量抽出部が、第１発話文及び前記第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を抽出し、抽出した第１発話文及び第２発話文の各々についての発話対象特徴量を集約して集約特徴量とする。

そして、対話行為推定部が、集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、第１発話文の対話行為タイプを推定する。

このように、第１発話文と当該第１発話文の少なくとも直前の発話文を含む当該第１発話文より前の発話文である第２発話文との各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した第１発話文及び第２発話文の各々についての特徴量を集約した集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、第１発話文の対話行為タイプを推定することにより、発話対象を考慮した対話行為タイプを精度よく推定することができる。

また、本発明に係る対話行為推定装置の前記特徴量抽出部は、前記第１発話文と前記第２発話文との各々について、発話文の内容を最も表す文節である発話主要文節を特定する発話主要文節特定部と、前記発話主要文節特定部により特定された前記第１発話文及び前記第２発話文の各々についての発話主要文節に含まれる、発話文の機能的な特徴量である機能的特徴量を抽出する機能的特徴量抽出部と、前記発話主要文節特定部により特定された前記第１発話文及び前記第２発話文の各々についての発話主要文節に基づいて、前記第１発話文及び前記第２発話文の各々の前記発話対象特徴量を抽出する発話対象特徴量抽出部と、前記機能的特徴量抽出部により抽出された前記第１発話文及び前記第２発話文の各々についての前記機能的特徴量と、前記発話対象特徴量抽出部により抽出された前記第１発話文及び前記第２発話文の各々についての前記発話対象特徴量とを集約して前記集約特徴量とする特徴量集約部を含むことができる。

また、本発明に係る対話行為推定モデル学習装置は、第１発話文と前記第１発話文の少なくとも直前の発話文を含む前記第１発話文より前の発話文である第２発話文と、前記第１発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとを含む学習データの入力を受け付ける入力部と、前記第１発話文及び前記第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第１発話文及び前記第２発話文の各々についての前記特徴量を集約して集約特徴量とする特徴量抽出部と、前記特徴量抽出部により抽出された前記第１発話文及び前記第２発話文についての集約特徴量と、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとに基づいて推定される前記第１発話文の前記対話行為タイプが、前記学習データに含まれる前記第１発話文の前記対話行為タイプと一致するように、前記対話行為推定モデルのパラメータを学習するモデル学習部と、を備えて構成される。

このように、本発明に係る対話行為推定モデル学習装置によれば、第１発話文と当該第１発話文の少なくとも直前の発話文を含む当該第１発話文より前の発話文である第２発話文との各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した第１発話文及び第２発話文の各々についての特徴量を集約した集約特徴量と、対話行為推定モデルとに基づいて推定される第１発話文の対話行為タイプが、学習データに含まれる第１発話文の対話行為タイプと一致するように対話行為推定モデルのパラメータを学習することにより、発話対象を考慮した対話行為タイプを精度よく推定するための対話行為推定モデルを学習することができる。

本発明の対話行為推定装置、対話行為推定方法、及びプログラムによれば、発話対象を考慮した対話行為タイプを精度よく推定することができる。また、本発明の対話行為推定モデル学習装置によれば、発話対象を考慮した対話行為タイプを精度よく推定するための対話行為推定モデルを学習することができる。

本発明の実施の形態に係る対話行為推定モデル学習装置及び対話行為推定装置として機能するコンピュータの概略構成を示すブロック図である。本発明の実施の形態に係る対話行為推定モデル学習装置の構成を示すブロック図である。本発明の実施の形態に係る特徴量抽出部の詳細構成を示す概略図である。本発明の実施の形態に係る対話行為推定モデル学習装置の対話行為推定モデル学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る対話行為推定装置の構成を示すブロック図である。本発明の実施の形態に係る対話行為推定装置の対話行為推定処理ルーチンを示すフローチャートである。

＜本発明の実施の形態に係る対話行為推定モデル学習装置の構成＞
図１及び図２を参照して、本発明の実施の形態に係る対話行為推定モデル学習装置１００の構成について説明する。図１は、本発明の実施の形態に係る対話行為推定モデル学習装置１００として機能するコンピュータの概略構成を示すブロック図である。図２は、本発明の実施の形態に係る対話行為推定モデル学習装置１００の構成を示すブロック図である。

図１に示すように、本発明の実施の形態に係る対話行為推定モデル学習装置１００は、ＣＰＵ１１と、ＲＡＭ等のメモリ１２と、通信インターフェース（ＩＦ）部１３と、キーボード等の入力部１４と、ディスプレイ等の表示部１５と、後述する対話行為推定モデル学習処理ルーチンを実行するためのプログラム１７を記憶したＲＯＭ等の記憶部１６とを備えたコンピュータで構成されている。また、ＣＰＵ１１、メモリ１２、通信ＩＦ部１３、入力部１４、表示部１５、及び記憶部１６は、バス１０を介して接続されている。また、通信ＩＦ部１３は、ＬＡＮケーブル等の通信回線により外部端末と接続することができる。

図２に示すように、本発明の実施の形態に係る対話行為推定モデル学習装置１００は、入力部１１０と、テキスト解析部１２０と、特徴量抽出部１３０と、モデル学習部１４０と、対話行為推定モデル記憶部１５０とを備えて構成される。

入力部１１０は、第１発話文と当該第１発話文の少なくとも直前の発話文を含む当該第１発話文より前の発話文である第２発話文と、当該第１発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとを含む学習データの入力を受け付ける。具体的には、学習データには、発話文の履歴と、各発話文の対話行為タイプとが含まれており、入力部１１０は複数の学習データの入力を受け付ける。発話文の履歴には、最後の発話文である第１発話文と、その一つ前の発話文である第２発話文とからなる対を少なくとも含み、対話行為の開始から現時点までの発話文とする。ただし、第１発話文が発話開始の１発話目であった場合、その１つ前の発話文である第２発話文は空となる。当該対を含むものであれば、発話文の集合として、所定期間または所定数、例えば直近の発話文からＮ個の発話文を発話文の履歴として用いるようにしてもよい。また、第１発話文と第２発話文とは、対話システムにおける発話文であり、第２発話文がシステムの発話、第１発話文がユーザの発話による発話文である。

発話対象を考慮した対話行為推定を実現するためには、第１発話文と第２発話文とは、その対話行為の体系自体が、発話対象を考慮した体系となっている必要がある。発話対象を考慮した体系とは、従来の対話行為が、発話対象毎に詳細化されている体系である。例えば、発話対象を考慮した体系は、対話行為のＱｕｅｓｔｉｏｎについて、Ｑｕｅｓｔｉｏｎ：Ｉは第１者への質問、Ｑｕｅｓｔｉｏｎ：ＩＩは第２者への質問、Ｑｕｅｓｔｉｏｎ：ＩＩＩは第３者への質問、というように詳細化されている体系である。すなわち、発話文の発話対象を、話者（ユーザ）である第１者Ｉ、話相手（システム）である第２者ＩＩ、それ以外の人や物である第３者ＩＩＩに分類すると定義する。ここで、Ｑｕｅｓｔｉｏｎ：Ｉ〜ＩＩＩは、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとする。以下、本実施の形態では、上記対話行為のＱｕｅｓｔｉｏｎについて発話対象を考慮した体系を例に説明する。

学習データの具体例として、
（例１）第２発話文：「こんにちは、何か聞きたいことはありますか？」、第１発話文：「今契約しているサービスについて聞きたいのですが。」、及び第１発話文の対話行為タイプ：「Ｑｕｅｓｔｉｏｎ：ＩＩＩ」、
（例２）第２発話文：「こんにちは、何か聞きたいことはありますか？」、第１発話文：「あなたの名前はなあに？」、第１発話文の対話行為タイプ：「Ｑｕｅｓｔｉｏｎ：ＩＩ」
が挙げられる。

(例１）では、第１発話文の発話対象は、第３者である「サービス」についてのＱｕｅｓｔｉｏｎであるから、第３者への質問を示す対話行為タイプ「Ｑｕｅｓｔｉｏｎ：ＩＩＩ」が正解として学習データに与えられている。また、（例２）では、第１発話文の発話対象は、第２者である「あなた」についてのＱｕｅｓｔｉｏｎであるから、第２者への質問を示す対話行為タイプ「Ｑｕｅｓｔｉｏｎ：ＩＩ」が正解として学習データに与えられている。

そして、入力部１１０は、受け付けた学習データに含まれる第１発話文及び第２発話文をテキスト解析部１２０に、当該学習データに含まれる第１発話文の対話行為タイプをモデル学習部１４０にそれぞれ渡す。

テキスト解析部１２０は、第１発話文及び第２発話文の各々について、発話文の形態素情報及び係り受け情報を求める。

具体的には、テキスト解析部１２０は、第１発話文及び第２発話文の各々について、既知の技術である形態素解析、係り受け解析により、形態素情報及び係り受け情報を求める。形態素情報は、品詞、終止形等の形態素に関する情報であり、文節情報は「文節ＩＤ、係り先文節ＩＤ／係りタイプ、主辞形態素番号／機能語形態素番号」の情報を含む。上記（例１）の第１発話文「今契約しているサービスについて聞きたいのですが」の解析例を下記表に示す。

そして、テキスト解析部１２０は、第１発話文及び第２発話文の各々について求めた形態素情報及び係り受け情報を、特徴量抽出部１３０に渡す。

特徴量抽出部１３０は、第１発話文及び第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を抽出し、抽出した第１発話文及び第２発話文の各々についての発話対象特徴量を集約して集約特徴量とする。

具体的には、図３に示すように、特徴量抽出部１３０は、単語ｎ−ｇｒａｍ抽出部１３１と、発話主要文節特定部１３２と、機能的特徴量抽出部１３３と、発話対象特徴量抽出部１３４と、特徴量集約部１３５とを備えて構成される。

単語ｎ−ｇｒａｍ抽出部１３１は、第１発話文と第２発話文との各々についてのｎ−ｇｒａｍを抽出する。

具体的には、単語ｎ−ｇｒａｍ抽出部１３１は、テキスト解析部１２０により求められた第１発話文及び第２発話文の各々についての形態素情報及び係り受け情報から、形態素表記のｎ−ｇｒａｍを抽出する。例えば上記（例１）の第１発話文「今契約しているサービスについて聞きたいのですが」の５−ｇｒａｍは、以下のようになる。なお、文頭と文末にはそれぞれ「ＢＯＳ」、「ＥＯＳ」を付与する。
＜＜５−ｇｒａｍ＞＞
ＢＯＳ−今
ＢＯＳ−今−契約
ＢＯＳ−今−契約−し
ＢＯＳ−今−契約−し−て
今−契約−し−て−い
…（中略）…
た−い−の−です−が
い−の−です−が−ＥＯＳ
の−です−が−ＥＯＳ
です−が−ＥＯＳ

そして、単語ｎ−ｇｒａｍ抽出部１３１は、抽出したｎ−ｇｒａｍを特徴量集約部１３５に渡す。なお、単語ｎ−ｇｒａｍ抽出部１３１は、形態素表記の代わりに標準表記や終止形を使用してｎ−ｇｒａｍを抽出してもよい。

発話主要文節特定部１３２は、第１発話文と第２発話文との各々について、発話文の内容を最も表す文節である発話主要文節を特定する。

具体的には、発話主要文節特定部１３２は、第１発話文及び第２発話文の各々について、主節の述語が含まれる最終文節が発話主要文節とする。発話主要文節特定部１３２は、主節の述語が存在しない場合（例えば独立詞等）、発話文の最後の独立詞等が含まれる文節を発話主要文節とする。例えば、発話主要文節特定部１３２は、「どうもこんにちは」という発話文については、「こんにちは」を発話主要文節として特定する。

そして、発話主要文節特定部１３２は、特定した第１発話文及び第２発話文の各々についての発話主要文節を、機能的特徴量抽出部１３３及び発話対象特徴量抽出部１３４に渡す。

機能的特徴量抽出部１３３は、発話主要文節特定部１３２により特定された第１発話文及び第２発話文の各々についての発話主要文節に含まれる、発話文の機能的な特徴量である機能的特徴量を抽出する。

具体的には、機能的特徴量抽出部１３３は、第１発話文及び第２発話文の各々について、各発話文の発話主要文節に含まれる語の品詞、テンス、モダリティ等、機能に関する特徴量を抽出する。より具体的には、機能的特徴量抽出部１３３は、下記（１）から（３）の規則を発話主要文節に適用して抽出された特徴量をまとめて、機能的特徴量とする。
（１）発話主要文節の主辞の品詞が「形容詞語幹」、「動詞語幹」、「名詞：動作」、「名詞：形容」の場合、該当する品詞を「ＭＰＯＳ＿」と結合して特徴量とする。
（２）発話文がただ一つの文節しかもたない場合、「ＯＮＬＹ」を特徴量とする。
（３）発話主要文節の主辞より後に出現する機能語を抽出し、下記（３−Ａ）、（３−Ｂ）に該当する情報があればテンス情報（過去）、モダリティ情報（願望・意志・命令・禁止・疑問等）の特徴量として抽出する。
（３−Ａ）テンス情報の抽出
述語の後ろに品詞に「接尾辞：終止」を含む形態素表記「た」が存在する場合、「ＰＡＳＴ＿Ｔ」を出力する。
（３−Ｂ）モダリティ情報の抽出
・『願望』：述語の後ろに、終止形が「たい」となる形態素が存在すれば「ＭＯＤ＿ＷＮＴ」を出力する。
・『命令』：動詞が「しろ」、「帰れ」のような命令形であれば「ＭＯＤ＿ＩＭＰ」を出力する。
・『禁止』：述語が動詞の基本形で、その直後に「な」が存在すれば「ＭＯＤ＿ＦＢＤ」を出力する。
・『疑問』：文節の末尾形態素が「？」もしくは疑問を表す終助詞「か」、疑問詞「何」「どこ」「誰」等の場合、「ＭＯＤ＿Ｑ」を出力する。
・『依頼』：述語が動詞で、直後の形態素表記が「て」の場合、下記リストに含まれるいずれかの表記が後続するか、又は後続する表記が何も存在しない場合は「ＭＯＤ＿ＲＥＱ」を出力する。
［リスト］：「くれ」、「ください」、「いただく」、「ちょうだい」、「もらう」、「ほしい」、「もらいたい」

例えば、上記（例１）の第１発話文「今契約しているサービスについて聞きたいのですが」の場合、機能的特徴量抽出部１３３は、発話主要文節の主辞である「聞く」から「ＭＰＯＳ＿動詞語幹」、「たい」から「ＭＯＤ＿ＷＮＴ」を特徴量として抽出し、これらの特徴量をまとめて機能的特徴量とする。機能的特徴量抽出部１３３は、第２発話文についても同様に機能的特徴量を抽出する。そして、機能的特徴量抽出部１３３は、抽出した第１発話文及び第２発話文の各々についての機能的特徴量を、特徴量集約部１３５に渡す。

発話対象特徴量抽出部１３４は、発話主要文節特定部１３２により特定された第１発話文及び第２発話文の各々についての発話主要文節に基づいて、第１発話文及び第２発話文の各々の発話対象特徴量を抽出する。

具体的には、発話対象特徴量抽出部１３４は、発話主要文節に係る「が」、「は」、「も」、「を」、「について」、「という」等の格助詞や、連用助詞（以下、まとめて格表記という）を伴う項を抽出し、以下の手順で特徴量を生成する。なお、ここでの項は、格助詞や連用助詞を伴って発話主要文節に係る内容語を指す。

＜＜手順＞＞
格表記の前に出現する名詞相当（品詞が名詞、もしくは未知語）の連続を項の表記として抽出し、以下の（Ａ）〜（Ｅ）の処理を実施する。
（Ａ）項の表記が「あなた」「お前」「てめえ」「あんた」等の第２者を表す場合、「ＩＩ＿格表記」を発話対象特徴量とする。なお、「格表記」は、該当する表記に置き換えられる。
（Ｂ）項の表記が「わたし」「私」「俺」「オレ」等の第１者を表す場合、「Ｉ＿格表記」を発話対象特徴量とする。
（Ｃ）項の表記が上記以外の場合、対象の項に「の」を伴って係る項がある場合、その項について上記（Ａ）（Ｂ）を適用する。適用されない場合は「ＩＩＩ＿格表記」を発話対象特徴量として抽出する。例えば、例１：「サービスについて」→「ＩＩＩ＿について」、例２：「あなたの名前」→「ＩＩ＿の」とする。
（Ｄ）項の表記が存在せず、かつ、発話が対話の先頭（直前に発話が存在しない）の場合、「ＩＩ＿ＥＬＭ」を発話対象特徴量として抽出する。
（Ｅ）項の表記が存在せず、かつ、上記（Ｄ）以外の場合、「ＳＢＪ＿ＵＮＫ」を発話対象特徴量とする。

そして、発話対象特徴量抽出部１３４は、抽出した第１発話文及び第２発話文の各々についての発話対象特徴量を、特徴量集約部１３５に渡す。

特徴量集約部１３５は、単語ｎ−ｇｒａｍ抽出部１３１により抽出された第１発話文と第２発話文との各々についてのｎ−ｇｒａｍと、機能的特徴量抽出部１３３により抽出された第１発話文及び第２発話文の各々についての機能的特徴量と、発話対象特徴量抽出部１３４により抽出された第１発話文及び第２発話文の各々についての発話対象特徴量とを集約して集約特徴量とする。

具体的には、特徴量集約部１３５は、単語ｎ−ｇｒａｍ特徴量、機能的特徴量、発話対象特徴量を集約して一つの特徴量とする。その際、特徴量集約部１３５は、第１発話文についての各特徴量と第２発話文についての各特徴量とは、「ＴＡＲＧＥＴ」、「ＰＲＥ」等のラベルを付与することで区別する。なお、発話文の履歴に、二つ以上前の発話文がある場合には、「ＰＲＥ２」、「ＰＲＥ３」等の別ラベルを付与することで区別する。これは、第１発話文と当該第１発話文の少なくとも直前（１つ前）の発話文を含む発話文である第２発話文が本発明の実施の形態において重要であるため、それらを区別可能にするために別ラベルを付与するものである。

例えば、上記（例１）の第１発話文「今契約しているサービスについて聞きたいのですが」の場合、特徴量集約部１３５は、「ＴＡＲＧＥＴ＿ＢＯＳ−今ＴＡＲＧＥＴ＿ＢＯＳ−今−契約…ＰＲＥ＿ＢＯＳ−こんにちは…ＰＲＥ＿ＴＡＲＧＥＴ＿動詞語幹…ＴＡＲＧＥＴ＿ＭＰＯＳ＿動詞語幹ＴＡＲＧＥＴ＿ＭＯＤ＿ＷＮＴＴＡＲＧＥＴ＿ＩＩＩ＿についてＰＲＥ＿ＭＯＤ＿ＱＰＲＥ＿ＩＩＩ＿は」を集約特徴量とする。同様に、上記（例２）の第１発話文「あなたの名前はなあに？」の場合、特徴量集約部１３５は「ＴＡＲＧＥＴ＿ＢＯＳ−あなたＴＡＲＧＥＴ＿ＢＯＳ−あなた−の…ＰＲＥ＿ます−か−？−ＥＯＳＴＡＲＧＥＴ＿ＭＯＤ＿ＱＴＡＲＧＥＴ＿ＩＩ＿のＰＲＥ＿ＭＯＤ＿ＱＰＲＥ＿ＩＩＩ＿は」を集約特徴量とする。そして、特徴量集約部１３５は、集約特徴量をモデル学習部１４０に渡す。

モデル学習部１４０は、特徴量抽出部１３０により抽出された学習データに含まれる第１発話文及び第２発話文についての集約特徴量と、対話行為推定モデルとに基づいて推定される第１発話文の対話行為タイプが、学習データに含まれる第１発話文の対話行為タイプと一致するように対話行為推定モデルのパラメータを学習する。

具体的には、モデル学習部１４０は、既存の機械学習モデルを用いて対話行為推定モデルを学習する。本実施の形態では、ロジスティック回帰を用いて学習する場合を例に説明するが、サポートベクトルマシン（ＳＶＭ）、条件付き確率場（ＣＲＦ）等を用いてもよい。モデル学習部１４０は、発話対象を考慮した対話行為を正しく推定するように、すなわち、特徴量抽出部１３０により抽出された集約特徴量を対話行為推定モデルに入力した場合に推定される対話行為タイプと、学習データに含まれる第１発話文の対話行為タイプとが一致するように、対話行為推定モデルのパラメータを学習する。モデル学習部１４０は、所定の終了条件、例えば所定数の学習データについて学習処理を繰り返した場合等の条件を満たすまで、学習処理を繰り返す。そして、モデル学習部１４０は、学習した対話行為推定モデルのパラメータを、対話行為推定モデル記憶部１５０に格納する。

対話行為推定モデル記憶部１５０には、対話行為推定モデルとモデル学習部１４０により学習された対話行為推定モデルのパラメータとが格納されている。

＜本発明の実施の形態に係る対話行為推定モデル学習装置の作用＞
図４は、本発明の実施の形態に係る対話行為推定モデル学習ルーチンを示すフローチャートである。入力部１１０に学習データが入力されると、対話行為推定モデル学習装置１００おいて、図４に示す対話行為推定モデル学習処理ルーチンが実行される。

まず、ステップＳ１００において、入力部１１０は、第１発話文と、当該第１発話文の直前の発話文である第２発話文と、当該第１発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとを含む学習データの入力を受け付ける。

ステップＳ１１０において、テキスト解析部１２０は、第１発話文及び第２発話文の各々について、発話文の形態素情報及び係り受け情報を求める。

ステップＳ１２０において、単語ｎ−ｇｒａｍ抽出部１３１は、上記ステップＳ１１０により入力された第１発話文と第２発話文との各々についてのｎ−ｇｒａｍを抽出する。

ステップＳ１３０において、発話主要文節特定部１３２は、上記ステップＳ１１０により入力された第１発話文と第２発話文との各々について、発話文の内容を最も表す文節である発話主要文節を特定する。

ステップＳ１４０において、機能的特徴量抽出部１３３は、上記ステップＳ１３０により特定された第１発話文及び第２発話文の各々についての発話主要文節に含まれる、発話文の機能的な特徴量である機能的特徴量を抽出する。

ステップＳ１５０において、発話対象特徴量抽出部１３４は、上記ステップＳ１３０により特定された第１発話文及び第２発話文の各々についての発話主要文節に基づいて、第１発話文及び第２発話文の各々の発話対象特徴量を抽出する。

ステップＳ１６０において、特徴量集約部１３５は、上記ステップＳ１２０により抽出された第１発話文及び第２発話文の各々についてのｎ−ｇｒａｍと、上記ステップＳ１４０により抽出された第１発話文及び第２発話文の各々についての機能的特徴量と、上記ステップＳ１５０により抽出された第１発話文及び第２発話文の各々についての発話対象特徴量とを集約して集約特徴量とする。

ステップＳ１７０において、モデル学習部１４０は、上記ステップＳ１６０により抽出された学習データに含まれる第１発話文及び第２発話文についての集約特徴量と、対話行為推定モデルとに基づいて推定される第１発話文の対話行為タイプが、上記ステップＳ１１０により入力された学習データに含まれる第１発話文の対話行為タイプと一致するように対話行為推定モデルのパラメータを学習する。

ステップＳ１８０において、モデル学習部１４０は、終了条件を満たすか否かを判定する。終了条件を満たしていない場合（上記ステップＳ１８０のＮＯ）、上記ステップＳ１００に戻り、ステップＳ１００〜Ｓ１８０の処理を繰り返す。一方、終了条件を満たしている場合（上記ステップＳ１８０のＹＥＳ）、ステップＳ１９０において、モデル学習部１４０は、学習した対話行為推定モデルのパラメータを、対話行為推定モデル記憶部１５０に格納する。

以上説明したように、本発明の実施の形態に係る対話行為推定モデル学習装置によれば、第１発話文と当該第１発話文の少なくとも直前の発話文を含む当該第１発話文より前の発話文である第２発話文との各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した第１発話文及び第２発話文の各々についての特徴量を集約した集約特徴量と、対話行為推定モデルとに基づいて推定される第１発話文の対話行為タイプが、学習データに含まれる第１発話文の対話行為タイプと一致するように対話行為推定モデルのパラメータを学習することにより、発話対象を考慮した対話行為タイプを精度よく推定するための対話行為推定モデルを学習することができる。

＜本発明の実施の形態に係る対話行為推定装置の構成＞
次に、図１及び図５を参照して、本発明の実施の形態に係る対話行為推定装置２００の構成について説明する。なお、本発明の実施の形態に係る対話行為推定モデル学習装置１００と同様の構成については、同一の符号を付して詳細な説明は省略する。

図１に示すように、本発明の実施の形態に係る対話行為推定装置２００は、ＣＰＵ１１と、ＲＡＭ等のメモリ１２と、通信インターフェース（ＩＦ）部１３と、キーボード等の入力部１４と、ディスプレイ等の表示部１５と、後述する対話行為推定処理ルーチンを実行するためのプログラム２７を記憶したＲＯＭ等の記憶部１６とを備えたコンピュータで構成されている。また、ＣＰＵ１１、メモリ１２、通信ＩＦ部１３、入力部１４、表示部１５、及び記憶部１６は、バス１０を介して接続されている。また、通信ＩＦ部１３は、ＬＡＮケーブル等の通信回線により外部端末と接続することができる。

図５に示すように、本発明の実施の形態に係る対話行為推定装置２００は、入力部２１０と、テキスト解析部１２０と、特徴量抽出部１３０と、対話行為推定モデル記憶部１５０と、対話行為推定部２６０と、出力部２７０とを備えて構成される。

対話行為推定モデル記憶部１５０には、対話行為推定モデルと対話行為推定モデル学習装置１００により予め学習された対話行為推定モデルのパラメータとが格納されている。

入力部２１０は、第１発話文と当該第１発話文の少なくとも直前の発話文を含む当該第１発話文より前の発話文である第２発話文との入力を受け付ける。そして、入力部２１０は、受け付けた第１発話文及び第２発話文を、テキスト解析部１２０に渡す。

対話行為推定部２６０は、集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、第１発話文の対話行為タイプを推定する。

具体的には、対話行為推定部２６０は、まず、対話行為推定モデル記憶部１５０から、対話行為推定モデルと対話行為推定モデルのパラメータとを取得する。次に、対話行為推定部２６０は、特徴量抽出部１３０により抽出された集約特徴量と、取得した対話行為推定モデルに基づいて、第１発話文の対話行為タイプを推定する。そして、対話行為推定部２６０は、推定した対話行為タイプを出力部２７０に渡す。

出力部２７０は、対話行為推定部２６０により推定された対話行為タイプを出力する。

＜本発明の実施の形態に係る対話行為推定装置の作用＞
図６は、本発明の実施の形態に係る対話行為推定処理ルーチンを示すフローチャートである。なお、本発明の実施の形態に係る対話行為推定モデル学習処理ルーチンと同様の処理については、同一の符号を付して詳細な説明は省略する。

ステップＳ２００において、入力部２１０は、第１発話文と当該第１発話文の少なくとも直前の発話文を含む当該第１発話文より前の発話文である第２発話文との入力を受け付ける。

ステップＳ２７０において、対話行為推定部２６０は、対話行為推定モデル記憶部１５０から、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルと対話行為推定モデルのパラメータとを取得する。

ステップＳ２８０において、対話行為推定部２６０は、集約特徴量と、上記ステップＳ２７０により取得した対話行為推定モデルとを用いて、第１発話文の対話行為タイプを推定する。

ステップＳ２９０において、上記ステップＳ２８０により推定された第１発話文の対話行為タイプを出力する。

以上説明したように、本実施の形態に係る対話行為推定装置によれば、第１発話文と当該第１発話文の少なくとも直前の発話文を含む当該第１発話文より前の発話文である第２発話文との各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した第１発話文及び第２発話文の各々についての特徴量を集約した集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、第１発話文の対話行為タイプを推定することにより、発話対象を考慮した対話行為タイプを精度よく推定することができる。そして、このように推定した対話行為タイプに基づいて対話システムが応答生成ロジックを適切に選択できるようになることにより、対話システム全体の対話精度を向上できる。

また、本実施の形態に係る対話行為推定装置では、集約特徴量にｎ−ｇｒａｍも含まれるため、従来の対話行為タイプには「挨拶」や「Ｆｅｅｄｂａｃｋ」のように、発話対象が自明のものについては、従来の体系をそのまま用いることができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０バス
１１ＣＰＵ
１２メモリ
１３通信ＩＦ部
１４入力部
１５表示部
１６記憶部
１７プログラム
２７プログラム
１００対話行為推定モデル学習装置
１１０入力部
１２０テキスト解析部
１３０特徴量抽出部
１３１単語ｎ−ｇｒａｍ抽出部
１３２発話主要文節特定部
１３３機能的特徴量抽出部
１３４発話対象特徴量抽出部
１３５特徴量集約部
１４０モデル学習部
１５０対話行為推定モデル記憶部
２００対話行為推定装置
２１０入力部
２６０対話行為推定部
２７０出力部

Claims

第１発話文と前記第１発話文の少なくとも直前の発話文を含む前記第１発話文より前の発話文である第２発話文との入力を受け付ける入力部と、
前記第１発話文及び前記第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第１発話文及び前記第２発話文の各々についての前記特徴量を集約して集約特徴量とする特徴量抽出部と、
前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第１発話文の前記対話行為タイプを推定する対話行為推定部と、
を含む対話行為推定装置。
前記特徴量抽出部は、
前記第１発話文と前記第２発話文との各々について、発話文の内容を最も表す文節である発話主要文節を特定する発話主要文節特定部と、
前記発話主要文節特定部により特定された前記第１発話文及び前記第２発話文の各々についての発話主要文節に含まれる、発話文の機能的な特徴量である機能的特徴量を抽出する機能的特徴量抽出部と、
前記発話主要文節特定部により特定された前記第１発話文及び前記第２発話文の各々についての発話主要文節に基づいて、前記第１発話文及び前記第２発話文の各々の前記発話対象特徴量を抽出する発話対象特徴量抽出部と、
前記機能的特徴量抽出部により抽出された前記第１発話文及び前記第２発話文の各々についての前記機能的特徴量と、前記発話対象特徴量抽出部により抽出された前記第１発話文及び前記第２発話文の各々についての前記発話対象特徴量とを集約して前記集約特徴量とする特徴量集約部
を含む請求項１記載の対話行為推定装置。
第１発話文と前記第１発話文の少なくとも直前の発話文を含む前記第１発話文より前の発話文である第２発話文と、前記第１発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとを含む学習データの入力を受け付ける入力部と、
前記第１発話文及び前記第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第１発話文及び前記第２発話文の各々についての前記特徴量を集約して集約特徴量とする特徴量抽出部と、
前記特徴量抽出部により抽出された前記第１発話文及び前記第２発話文についての集約特徴量と、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとに基づいて推定される前記第１発話文の前記対話行為タイプが、前記学習データに含まれる前記第１発話文の前記対話行為タイプと一致するように、前記対話行為推定モデルのパラメータを学習するモデル学習部と、
を含む対話行為推定モデル学習装置。
入力部が、第１発話文と前記第１発話文の少なくとも直前の発話文を含む前記第１発話文より前の発話文である第２発話文との入力を受け付け、
特徴量抽出部が、前記第１発話文及び前記第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第１発話文及び前記第２発話文の各々についての前記特徴量を集約して集約特徴量とし、
対話行為推定部が、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第１発話文の前記対話行為タイプを推定する
対話行為推定方法。
入力部が、第１発話文と前記第１発話文の少なくとも直前の発話文を含む前記第１発話文より前の発話文である第２発話文との入力を受け付け、
特徴量抽出部が、前記第１発話文及び前記第２発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第１発話文及び前記第２発話文の各々についての前記特徴量を集約して集約特徴量とし、
対話行為推定部が、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第１発話文の前記対話行為タイプを推定する
ことを含む処理をコンピュータに実行させるためのプログラム。