JP2012037797A

JP2012037797A - 対話学習装置、要約装置、対話学習方法、要約方法、プログラム

Info

Publication number: JP2012037797A
Application number: JP2010179330A
Authority: JP
Inventors: Ryuichiro Higashinaka; 竜一郎東中; Yasuhiro Minami; 泰浩南; Hitoshi Nishikawa; 仁西川; Koji Dosaka; 浩二堂坂; Toyomi Meguro; 豊美目黒; Satoshi Takahashi; 敏高橋; Genichiro Kikui; 玄一郎菊井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-08-10
Filing date: 2010-08-10
Publication date: 2012-02-23
Anticipated expiration: 2030-08-10
Also published as: JP5346327B2

Abstract

【課題】要約装置構築のコストを低減し、要約の精度を向上する。
【解決手段】本発明の対話学習装置は、各対話に含まれる発話にトピックラベルが付与されたＮ個の対話と各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルを用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルを学習し、隠れマルコフモデルのすべての状態をエルゴディックに接続して、隠れマルコフモデルを作成する。本発明の要約装置は、特徴量抽出部、トピックラベル付与部、ドメイン推定部、選択部を備える。トピックラベル付与部は、発話ごとに、当該発話に含まれる単語から尤もらしいトピックを推定して、トピックラベルとして当該発話に付与する。ドメイン推定部は、各発話のドメインを推定する。選択部は、対話とドメインが一致する発話を、当該対話の中から選択する。
【選択図】図２

Description

本発明は、複数の発話で構成された対話の、発話ごとのドメインを推定するための隠れマルコフモデル（Hidden Markov model，ＨＭＭ）を作成する対話学習装置と対話学習方法、および、作成された隠れマルコフモデルを用いて要約を作成する要約装置と要約方法、さらには対話学習装置または要約装置としてコンピュータを機能させるプログラムに関する。

テキストデータの要約研究は多く、マルチメディアデータの要約として動画のシーン抽出やハイライト生成なども行われている。ハイライト生成の機能は一般のビデオデッキに搭載されるような一般的なものになっている。テキストの要約手法としては、文書の最初のＮ文を抽出する方法（ＬＥＡＤ法）や機械学習の手法によって重要な文を特定し、それらを抽出する方法（例えば，非特許文献１，非特許文献２）などがある。また、近年では、要約を整数計画問題（ＩＬＰ）と置いて、重要と考えられる単語を最も多く被覆するような文を選択する手法も考案されている（例えば，非特許文献３）。

非特許文献１〜３は、１つのドメインを対象とした要約技術であり、複数ドメインを含むテキストの要約を行う技術ではない。ドメインごとの要約装置を構築する技術として、非特許文献４が知られている。

Kupiec, Julian, Jan Pedersen, and Francine Chen, "A trainable document summarizer", In Proceedings of the 18th annual international ACM SIGIR conference on Research and Development in information retrieval (SIGIR), pp.68-73, 1995. Osborne, Miles, "Using maximum entropy for sentence extraction", In Proceedings of the ACL-02 Workshop on Automatic Summarization, pp.1-8, 2002. Gillick, Dan and Benoit Favre, "A scalable global model for summarization", In proceedings of the Workshop on Integer Linear Programming for Natural Language Processing, pp.10-18, 2009. Barzilay, Regina and Lillian Lee, "Catching the draft: Probabilistic content models, with applications to generation and summarization", In proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL), pp.113-120, 2004.

しかしながら、非特許文献４の技術の場合、学習データがドメインごとに必要で、要約装置作成のコストが高いという問題があった。また、あるドメインの要約装置の構築に他のドメインのデータを用いていないため、有用な情報が他のドメインのデータにある可能性があるにも関わらず用いていないという問題があった。例えば、あるドメインに顕著に現れる系列はそれだけを見ると重要だと考えられるが、他のドメインにも現れるのであれば重要でない可能性もある、従来は、このような場合を考慮していない。

本発明は、要約装置構築のコストを低減すること、要約の精度を向上することを目的とする。

まず、Ｋ、Ｎは２以上の整数、ｋは１以上Ｋ以下の整数、ｎは１以上Ｎ以下の整数、Ｔ、Ｖは２以上の整数、ｔは１以上Ｔ以下の整数、ｖは１以上Ｖ以下の整数、Ｕは２以上の整数、ｕは１以上Ｕ以下の整数とする。本発明の対話学習装置は、複数の発話で構成された対話の、発話ごとのドメインを推定するための隠れマルコフモデルＭ_Ｃを作成する。

本発明の第１の対話学習装置は、第１モデル学習部を備える。第１モデル学習部は、各対話に含まれる発話にトピックラベルが付与されたＮ個の対話の時系列データｄ_１，…，ｄ_Ｎと各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルＭ_１，…，Ｍ_Ｋを学習し、隠れマルコフモデルＭ_１，…，Ｍ_Ｋのすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｅ０を作成する。そして、隠れマルコフモデルＭ_Ｅ０を、発話ごとのドメインを推定するための隠れマルコフモデルＭ_Ｃとする。なお、トピックラベルは、例えば次のように付与されたものを用いればよい。対話ｄ_ｎごとに、内容語である単語ｗ_１，…，ｗ_Ｖとその単語の出現回数ｃ_１，…，ｃ_Ｖの組＜ｗ_１，ｃ_１＞，…，＜ｗ_Ｖ，ｃ_Ｖ＞を生成して特徴量とする。そして、あらかじめトピックの数Ｔを定めておき、前記特徴量＜ｗ_ｖ，ｃ_ｖ＞から、単語ｗ_ｖごとにトピックｚ_ｔを生成する確率Ｐ（ｚ_ｔ｜ｗ_ｖ）を示すトピックモデルを作成する。そして、発話ごとに、当該発話に含まれる単語と前記トピックモデルから尤もらしいトピックを推定して、トピックラベルとして当該発話に付与する。ただし、トピックラベルを付与する方法はこの方法に限定する必要はなく、トピックモデルの代わりに、単語や発話とトピックとを対応つけた表などを作成しておき、その表を利用してもよい。

本発明の第２の対話学習装置は、第１モデル学習部、第２モデル学習部、モデル連結部を備える。第２モデル学習部は、すべての対話から話者の発話を出力する状態を持つ１つの隠れマルコフモデルＭ_０を学習する。モデル連結部は、マルコフモデルＭ_０と隠れマルコフモデルＭ_Ｅ０のすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｃを作成する。

本発明の第３の対話学習装置は、第１モデル学習部、第２モデル学習部、第１モデル連結部、再学習部、第２モデル連結部、繰返し判定部を備える。第１モデル連結部は、隠れマルコフモデルＭ_ｋのそれぞれとマルコフモデルＭ_０のコピーとをペアにし、ペア内のすべての状態を接続して、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を作成する。再学習部は、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を初期モデル、時系列データｄ_１，…，ｄ_ＮとドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を学習データとして与えて隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を再学習する。第２モデル連結部は、再学習された隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を連結し、１つの隠れマルコフモデルＭ_Ｃとする。繰返し判定部は、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０について、学習データに対して所定以上の尤度の改善があるかによって再学習部と第２モデル連結部の処理を繰り返すかを判定する。

本発明の要約装置は、対話学習装置によって作成された隠れマルコフモデルＭ_Ｃを用いて、対話のドメインが既知の対話の要約を作成する。本発明の要約装置は、特徴量抽出部、トピックラベル付与部、ドメイン推定部、選択部を備える。特徴量抽出部は、要約作成の対象である対話の時系列データｄ_ｘに含まれる単語ｗ_１，…，ｗ_Ｕとその単語の出現回数ｃ_１，…，ｃ_Ｕの組＜ｗ_１，ｃ_１＞，…，＜ｗ_Ｕ，ｃ_Ｕ＞を生成して特徴量とする。トピックラベル付与部は、対話の時系列データｄ_ｘに含まれる発話ごとに、当該発話に含まれる単語から尤もらしいトピックを推定して、トピックラベルとして当該発話に付与する。ドメイン推定部は、隠れマルコフモデルＭ_Ｃを用いて、対話の時系列データｄ_ｘの各発話が隠れマルコフモデルＭ_Ｃのどのドメインの状態から出力されたかを推定することで各発話のドメインを推定する。選択部は、対話のドメインと一致するドメインの発話を、当該対話の中から選択する。

本発明の対話学習装置によれば、複数ドメインのデータのすべてを入力とし，各ドメインに特徴的な系列を同時にモデル化する。また、本発明の要約装置によれば、あるドメインのデータの要約を行うとき、このドメインに特徴的な系列に該当する箇所のみを抽出することにより要約を行う。したがって、ドメインごとに要約装置を構築する必要がないので要約装置構築のコストが低くなる。また、ドメイン全体の情報を利用して各ドメインに特徴的な系列をモデル化できるため、単一のドメインから系列をモデル化する手法（例えば、非特許文献４）と比較して、要約の精度向上が期待できる。

ＳＨＭＭのトポロジを示す図。実施例１の要約装置の機能構成例を示す図。実施例１の要約装置の処理フローを示す図。エルゴティック０の場合の話者が２人、ドメインが２つの場合の隠れマルコフモデルＭ_ｋのイメージを示す図。エルゴティック１の場合の話者が２人、ドメインが２つの場合の隠れマルコフモデルＭ_ｋのイメージを示す図。実施例２の要約装置の機能構成例を示す図。実施例２の要約装置の処理フローを示す図。実施例３の要約装置の機能構成例を示す図。実施例３の要約装置の処理フローを示す図。実施例３の学習機能の各ステップで作成される隠れマルコフモデルのイメージを示す図。実験での各シナリオの統計情報を示す図。初回のデータ（学習データ）の統計情報を示す図。第二回のデータ（テストデータ）の統計情報を示す図。実験の評価結果を示す図。学習された連結３の隠れマルコフモデルをグラフとして可視化したものを示す図。

本明細書では、「対話」は複数の話者の「発話」のまとまり、「単語」は内容語（名詞、動詞、形容詞、未知語、感動詞）を指し、「発話」は１つ以上の「単語」で構成されているとする。例えば、話者Ａ「こんにちは。私はライオンが好きです。」、話者Ｂ「私もです。」という対話を例に説明する。全体が「対話」であり、この対話は話者Ａの「発話」と話者Ｂの「発話」（２つの「発話」）で構成されている。なお、「話者」は、自然人の場合もあるし、発話システムなどの装置の場合もある。

＜前提＞
コンタクトセンタ（お客様センタ）に寄せられる対話データを要約する要約装置を例にとって説明する。コンタクトセンタは顧客のさまざまな要求に答える必要があるため、コンタクトセンタが扱う対話データの種類はさまざまである。ここで、種類とは、例えば、故障受付や集金処理などを指す。つまり、コンタクトセンタは複数の種類（ドメイン）に分かれた大量の対話データを扱っている。

ここでは、このようなデータを要約することを考える。コンタクトセンタのオペレータは自分の対話を見返して自分の応対が適切だったかどうかを振り返ることが多いとされる。要約技術は対話の重要な箇所のみを提示できるため、このような振り返りに有用である。本発明では，最初にClass Speaker HMM(ＣＳＨＭＭ)という隠れマルコフモデル（Hidden Markov model，ＨＭＭ）を複数ドメインのデータから学習する。このＨＭＭは複数ドメインのデータを入力して、各ドメインに特徴的に現れる系列を同時に学習することができる。そして、このＨＭＭを用いて各ドメインの対話データからそのドメインに特徴的な箇所のみを抽出することで要約する。以降、まず、ＣＳＨＭＭについて詳述し、次いで、対話学習装置と要約装置の実施例について説明する。

＜ＣＳＨＭＭ＞
ＣＳＨＭＭは、Speaker HMM(ＳＨＭＭ)を拡張し、系列の分類問題に適用できるようにしたものである（参考文献１：Toyomi Meguro, Ryuichiro Higashinaka, Kohji Dohsaka, Yasuhiro Minami, and Hideki Isozaki, “Analysis of listening-oriented dialogue for building listening agents”, In Proc. SIGDial, pp.124-127, 2009.）。ＳＨＭＭは２つの状態を持ち、各状態はそれぞれ話者１、話者２の発話（発話内容を表すシンボル）を出力する。各状態はどの状態にも遷移可能である。このようなＨＭＭは、対話行為列を話者のターン切り替えを考慮してＨＭＭでモデル化する際に用いられる。例えば、参考文献１では、聞き役対話のモデル化にＳＨＭＭが使用されている。

図１にＳＨＭＭのトポロジを示す。図１のＨＭＭは２つの状態を持ち、各状態はそれぞれ話者１、話者２の対話行為を出力する。各状態はどの状態にも遷移可能である。図１のように１つの状態からは１人の話者の対話行為を出力させれば、話者ごとの対話行為を把握しやすい。しかし、１つの状態から２人の話者の対話行為を出力するようなＨＭＭでモデル化することも可能である。また、状態数を変動させることは容易である。学習では、学習データによって各状態における出力確率や状態間の遷移確率が決定される。学習方法としてはＥＭアルゴリズムが有名であり、本発明においてもＨＭＭの学習ではＥＭアルゴリズムを用いればよい。

以下、本発明の実施例について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。また、以下の説明では、ＣＳＨＭＭやＳＨＭＭも区別せず、隠れマルコフモデル（ＨＭＭ）と表現する。また、Ｋ、Ｎは２以上の整数、ｋは１以上Ｋ以下の整数、ｎは１以上Ｎ以下の整数、Ｔ、Ｖは２以上の整数、ｔは１以上Ｔ以下の整数、ｖは１以上Ｖ以下の整数、Ｕは２以上の整数、ｕは１以上Ｕ以下の整数とする。

図２に実施例１の要約装置の機能構成例、図３に実施例１の要約装置の処理フローを示す。要約装置５０は、複数の発話で構成された対話の、発話ごとのドメインを推定するための隠れマルコフモデル（Hidden Markov model，ＨＭＭ）Ｍ_Ｃを作成する。そして、隠れマルコフモデルＭ_Ｃを用いて、対話のドメインが既知で発話のドメインは未知の対話の要約を作成する。要約装置５０は、入出力部１１０、第１モデル学習部１２０、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５、ドメイン推定部１７０、選択部１７５、記録部９０を備える。

＜対話学習＞
対話学習では、以下のような処理を行う。入出力部１１０は、Ｎ個の対話の時系列データ（ｄ_１，…，ｄ_Ｎ）、各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）、各発話がどのドメインに該当するのかを示す情報を、学習データとして受け取る（Ｓ１１１）。学習データの各発話にトピックラベルが付与されていない場合には、次のステップＳ１５１、Ｓ１６０、Ｓ１６６を行う。特徴量抽出部１５０は、対話ｄ_ｎごとに、内容語である単語ｗ_１，…，ｗ_Ｖとその単語の出現回数ｃ_１，…，ｃ_Ｖの組＜ｗ_１，ｃ_１＞，…，＜ｗ_Ｖ，ｃ_Ｖ＞を生成して特徴量とする（Ｓ１５１）。なお、この特徴量は、いわゆるbag-of-wordsである。トピックモデル学習部１６０は、あらかじめトピックの数Ｔを定めておき、特徴量＜ｗ_ｖ，ｃ_ｖ＞から、単語ｗ_ｖごとにトピックｚ_ｔを生成する確率Ｐ（ｚ_ｔ｜ｗ_ｖ）を示すトピックモデルを作成する（Ｓ１６０）。トピックラベル付与部１６５は、発話ごとに、当該発話に含まれる単語とトピックモデルから尤もらしいトピックを推定して、トピックラベルとして当該発話に付与する（Ｓ１６６）。具体的には、発話に含まれる単語についてのＰ（ｚ_ｔ｜ｗ_ｖ）の合計が最大となるトピックｚ_ｔを当該発話のトピックとして推定すればよい。なお。学習データの各発話にトピックラベルが付与されている場合には、ステップＳ１５１、Ｓ１６０、Ｓ１６６は行う必要はない。ただし、この場合には、要約作成時のために構築済みのトピックモデルを用意しておくか、特徴量からトピックを推定する方法をあらかじめ定めておけばよい。

トピックモデルは対話データ中の各発話を一つのトピックラベルに落とし込む処理に必要である。この処理は、ＨＭＭへの入力があまりに高次元になると学習が困難になるため、これを回避するために行う。同様の処理は非特許文献４でも使用されている。トピックモデルを作る方法としては、ＰＬＳＡ（probabilistic latent semantic analysis）やＬＤＡ（latent Dirichlet allocation）が有名である。どちらを使用してもよい。

第１モデル学習部１２０への入力は、各対話に含まれる発話にトピックラベルが付与されたＮ個の対話の時系列データ（ｄ_１，…，ｄ_Ｎ）、各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）、各発話がどのドメインに該当するのかを示す情報である。そして、第１モデル学習部１２０は、これらの情報を用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルＭ_１，…，Ｍ_Ｋを学習し、隠れマルコフモデルＭ_１，…，Ｍ_Ｋのすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｅ０を作成し、記録部９０に記録する（Ｓ１２０）。本実施例の場合、記録部９０に記録された隠れマルコフモデルＭ_Ｅ０が、ドメインの推定を行うときに用いる隠れマルコフモデルＭ_Ｃとなる。また、以降、隠れマルコフモデルＭ_Ｅ０を「エルゴディック０」と呼ぶ。

本実施例では、図１に示したＨＭＭをドメインごとに用いる。図４は、エルゴティック０の場合の話者が２人、ドメインが２つの場合の隠れマルコフモデルＭ_ｋのイメージを示している。図４のＨＭＭは２つの状態を持ち、各状態はそれぞれ話者１、話者２の対話行為を出力する。各状態はどの状態にも遷移可能である。この例では隠れマルコフモデルＭ_ｋは２つであるが、ドメインがＫ種類の場合には、隠れマルコフモデルＭ_ｋはＫ個作成される。そして、すべての状態が、他のすべての状態につながっている状態にする（エルゴディックに接続する）。このとき、状態間の遷移確率はすべて等しくなるようにする。

＜要約作成＞
次に、要約作成の処理について説明する。入出力部１１０は、対話のドメインが既知で発話のドメインは未知の対話の時系列データｄ_ｘを受け取る（Ｓ１１２）。特徴量抽出部１５０は、要約作成の対象である対話の時系列データｄ_ｘに含まれる単語ｗ_１，…，ｗ_Ｕとその単語の出現回数ｃ_１，…，ｃ_Ｕの組＜ｗ_１，ｃ_１＞，…，＜ｗ_Ｕ，ｃ_Ｕ＞を生成して特徴量とする（Ｓ１５２）。トピックラベル付与部１６５は、対話の時系列データｄ_ｘに含まれる発話ごとに、当該発話に含まれる単語から尤もらしいトピックを推定して、トピックラベルとして当該発話に付与する（Ｓ１６７）。尤もらしいトピックの推定では、トピックモデル学習部１６０が対話学習の処理（ステップＳ１６０）で学習したトピックモデルを用いてもよいし、あらかじめ作成した特徴量の条件とトピックとを対応つけた表などを用いて特徴量からトピックを求めてもよい。

ドメイン推定部１７０は、隠れマルコフモデルＭ_Ｃを用いて、対話の時系列データｄ_ｘの各発話が隠れマルコフモデルＭ_Ｃのどのドメインの状態から出力されたかを推定することで各発話のドメインを推定する（Ｓ１７０）。例えば、ビタビデコーディング（Viterbi decoding）により、各発話が隠れマルコフモデルＭ_Ｃのどのドメインの状態から出力されたかを推定すればよい。例えば、図４に示す隠れマルコフモデルＭ_Ｃが作成されているときに、ある系列の入力があり、最尤の状態系列（ビタビデコーディングによって求められる）が＜１，３，４，２＞だったとする。それぞれの状態がどのドメインに属しているかを見ることで、＜１，２，２，１＞というドメイン系列を得ることができる。つまり、最初の発話の状態１はドメイン１に分類され、以降、状態３はドメイン２、状態４はドメイン２、状態２はドメイン１に分類される。このようにして、隠れマルコフモデルＭ_Ｃは入力系列をドメイン系列に分類する。なお、エルゴティック０の場合は、すべての状態の遷移確率が等しいので、ドメインの分類は、各ＨＭＭにおける発話の頻度分布に左右される。例えば、ある発話がドメイン２に比べドメイン１に高頻度で出現するのであれば、その発話はクラス１のＨＭＭから出力され、結果としてドメイン１と分類される。

選択部１７５は、対話のドメインとドメインが一致する発話を、当該対話の中から選択する（Ｓ１７５）。要約装置５０は、選択部１７５が選択した発話を要約として出力すればよい。

なお、ステップＳ１７０，Ｓ１７５の処理の場合、要約率の調整ができない。そこで、要約率の調整を行うために要約装置５０が、ドメイン推定部１７０’と選択部１７５’を備える場合について説明する。ドメイン推定部１７０’は、ビタビデコーディングの代わりに、forward-backwardアルゴリズムを利用することで、各発話が当該ドメインに対応するかしないかの二値ではなく、当該ドメインにどのくらい対応するか（ドメインらしさ）という確率値を算出する（Ｓ１７０’）。選択部１７５’は、目標要約率を取得し、ドメイン推定部１７０’が出力した確率値を各発話の重要度とみなし、重要なものから選択することで要約率が、目標要約率となるように調整する（Ｓ１７５’）。また、発話全体の重要度に加えて、発話に含まれる個々の単語が重要な意味を持つ場合があるため、重要な発話と重要な単語を、ある文字制限内で最大に被覆するように選択することもできる。その場合は下記の式により要約処理を行う。

ここで、ｍ_ｉｊはｉ番目の発話が単語ｊを含むかどうかを表す二値（０か１）であり、ｗ_ｉｊはｉ番目の発話中の単語ｊの重み（重要度）であり、ｚ_ｉｊはｉ番目の発話中の単語ｊが要約に含まれるかどうかを表す二値（０か１）である。ここで、ｗ_ｉｊは下記の式で表される。

ここで、weightは引数の重要度を返す関数であり、Ｕ_ｉは対象とする対話のｉ番目の発話、ｗ_ｊはシステムの語彙の中のｊ番目の単語を指す。weight(Ｕ_ｉ)にはforward-backwardアルゴリズムを用いて得られる発話のドメインらしさを用い、weight(ｗ_ｊ)には、対象とする対話におけるｗ_ｊの頻度（Term Frequency,ＴＦ）を用いればよい。なお、頻度でなくても、ｗ_ｊの重要度に対応するものならよく、例えば、ある単語のドメインらしさを用いてもよい。その場合は、次のように単語の重要度を求めることができる。

ここで、Ｐ（ｗ_ｊ｜ＤＭ^ｋ）はドメインＤＭ^ｋのデータでｗ_ｊが出現する確率であり、Ｐ（ｗ_ｊ｜ＤＭ＼ＤＭ^ｋ）は、ＤＭ^ｋ以外のドメインにおいてｗ_ｊが出現する確率である。この２つの確率の対数尤度比を取ることによって、各単語の各ドメインにおける重要度を算定できる。つまり、単語ｗ_ｊがドメインＤＭ^ｋにおいて際立って出現しているのであれば、ドメインＤＭ^ｋにおける単語ｗ_ｊの重要度が大きくなる。
式（１）を最大化する際には下記の４つの制約を使えばよい。

この制約は、ｘ_ｉとｚ_ｉｊが二値（０か１）の値を取ることを示す。なお、ｘ_ｉはｉ番目の発話が要約に含まれるかどうかを表す変数であり、次の制約で使われる。

これは、要約長についての制約を与えている。ｌ_ｉはｉ番目の発話の長さ（文字列長）であり、Lは作成したい要約の最大文字列長である。

この制約は、単語と発話の関係を表すものであり、ｉ番目の発話が要約に含まれないのであれば、ｉ番目の発話に含まれるすべての単語も要約に含まれないということを表す。

この最後の制約は、要約の冗長性に関するもので、もし複数の同じ単語が要約に含まれることになる場合、その中で最大の重みを持つもののみを要約に含めればよいことを示す。このように、本発明の手法に要約率を調整する機構を組み込むことは可能である。なお、式（１）の最大化は線形計画問題であるので、分枝限定法などのよく知られた手法で解けばよい。

上述の説明では、学習機能と要約作成機能の両方を１つの装置（要約装置）に具備させたが、学習機能と要約作成機能とを分離してもよい。分離する場合は、少なくとも図２の点線の部分は、対話学習装置５１に備えればよい。また、対話学習装置５１がステップＳ１５１，Ｓ１６０，Ｓ１６６も実行するのであれば、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５も備えればよい。そして、対話学習装置５１の処理フローは、図３の点線で示したステップＳ５１の部分のようにすればよい。

本発明の対話学習装置によれば、複数ドメインのデータのすべてを入力とし，各ドメインに特徴的な系列を同時にモデル化する。また、本発明の要約装置によれば、あるドメインのデータの要約を行うとき、このドメインに特徴的な系列に該当する箇所のみを抽出することにより要約を行う。したがって、ドメインごとに要約装置を構築する必要がないので要約装置構築のコストが低くなる。例えば、従来はドメインごとのテキストそれぞれについて要約の正解した学習データを準備しなくてはいけなかったのに対し、本発明では、このような正解を付与する必要がなく、各テキストにドメインのラベルのみが付与されたデータを準備することで自動的に要約装置を構築できる。また、ドメイン全体の情報を利用して各ドメインに特徴的な系列をモデル化できるため、単一のドメインから系列をモデル化する手法（例えば、非特許文献４）と比較して、要約の精度向上が期待できる。

実施例１では、エルゴディック０により推定する例を説明した。しかし、どのドメインにも共通に現れる発話系列というものが存在する。例えば、コンタクトセンタの対話であれば、すべてのドメインの対話に共通して、挨拶のやり取りや個人情報の確認などが現れる。エルゴディック０では、こういった共通した発話系列を既存のドメインのどれかに割り振ってしまう。つまり、たまたま、挨拶がドメイン１に多少多く出現したからという理由で、挨拶はドメイン１に分類されてしまう。このような複数のドメインにまたがって出現するものは、どのドメインにも分類されないようにモデル化するのが適切である。そこで、本実施例では、挨拶のような発話はドメイン１でもドメイン２でもなく、共通ドメインというものを仮定して、そのドメインに割り振る。その結果、図５に示すトポロジを持つＨＭＭで実現できる。以降、このＨＭＭをエルゴティック１と呼ぶ。図５は、エルゴティック１の場合の話者が２人、ドメインが２つの場合の隠れマルコフモデルＭ_ｋのイメージを示している。このＨＭＭではエルゴディック０に加えて、すべてのデータから学習されたＨＭＭを持ち、すべての状態がエルゴディックに接続されている。すべてのデータから学習されたＨＭＭは全ドメインの系列をモデル化しているため、すべてのドメインに共通した系列を表すと考えられる。なお、すべてのデータから学習されたＨＭＭに含まれる状態を共通状態と呼ぶ。

図６に実施例２の要約装置の機能構成例、図７に実施例２の要約装置の処理フローを示す。要約装置１００は、入出力部１１０、第１モデル学習部１２０、第２モデル学習部１３０、モデル連結部１４０、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５、ドメイン推定部１７０、選択部１７５、記録部１９０を備える。

＜対話学習＞
まず、対話学習について説明する。ステップＳ１１１、Ｓ１５１、Ｓ１６０、Ｓ１６６、Ｓ１２０は、実施例１と同じである。第２モデル学習部１３０は、すべての対話から話者の発話を出力する状態を持つ１つの隠れマルコフモデルＭ_０を学習し、記録部１９０に記録する（Ｓ１３０）。モデル連結部１４０は、隠れマルコフモデルＭ_０と隠れマルコフモデルＭ_Ｅ０のすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｅ１を作成し、記録部１９０に記録する。本実施例の場合、記録部１９０に記録された隠れマルコフモデルＭ_Ｅ１が、評価のときに用いる隠れマルコフモデルＭ_Ｃとなる。

＜要約作成＞
次に、要約作成の処理について説明する。ステップＳ１１２、Ｓ１５２、Ｓ１６７は実施例１と同じである。ドメイン推定部１７０の処理（ステップＳ１７０）自体は実施例１と同じであるが、利用する隠れマルコフモデルＭ_Ｃが異なる。例えば、エルゴディック１を使うことで、ある入力系列に対して最尤の状態系列が＜１，４，５，６，３，２＞である場合、それぞれのドメインから，＜１，２，０，０，２，１＞のように入力系列を分類することができる。ここで、状態５と状態６は共通状態であり、これらに対応する入力系列はドメイン１、ドメイン２のどちらにも属さず、共通の系列であるというように分類される。なお、ここでは共通状態を表すドメインをドメイン０としている。こうすることで、無理やりどちらかのドメインに入力系列を分類しなくても良いため、ドメイン分類の精度向上が期待できる。

ステップＳ１７５も実施例１と同じである。また、実施例１と同じように目標とする要約率を定めたい場合には、ドメイン推定部１７０と選択部１７５の代わりにドメイン推定部１７０’と選択部１７５’を備え、ステップＳ１７０’とＳ１７５’を実行すればよい。

本実施例の場合も、学習機能と要約作成機能とを分離してもよい。分離する場合は、少なくとも図６の点線の部分を、対話学習装置１０１に備えればよい。また、対話学習装置１０１がステップＳ１５１、Ｓ１６０、Ｓ１６６も実行するのであれば、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５も備えればよい。そして、対話学習装置１０１の処理フローは、図７の点線で示したステップＳ１０１の部分のようにすればよい。

本実施例の場合も実施例１と同様の効果が得られる。さらに、共通状態を表わすドメインを隠れマルコフモデルＭ_Ｃに加えたことで、ドメイン分類の精度向上が期待できる。

［変形例］
実施例２の隠れマルコフモデルＭ_０の場合、分布がブロード（なだらか，一様）になり、Ｍ_０の状態におけるすべての対話行為の出力確率が平均化され、一様に低くなってしまう可能性がある。それゆえに、未知の対話の時系列データｄ_ｘが与えられた時、推定される状態の系列が隠れマルコフモデルＭ_０を全く通過しない可能性が出てくる。このような問題を解決するために、本変形例ではＭ_０における状態数を増やす。そうすることで、シャープ（ブロードではない，尖った）な分布を持つ状態をＭ_０が保持することができる。その結果、ビタビデコーディングによって得られる最尤の状態系列がＭ_０を通過する可能性が出てくる。共通状態の状態数を２倍に増やした（話者ごとに２つの状態を持った）隠れマルコフモデルを「エルゴディック２」と呼ぶ。また、共通状態の状態数を３倍に増やした（話者ごとに３つの状態を割り当てた）隠れマルコフモデルを「エルゴディック３」と呼ぶ。

図６に実施例２変形例の要約装置の機能構成例、図７に実施例２変形例の要約装置の処理フローを示す。要約装置２００は、入出力部１１０、第１モデル学習部１２０、第２モデル学習部２３０、モデル連結部２４０、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５、ドメイン推定部１７０、選択部１７５、記録部１９０を備える。なお、目標とする要約率を定めたい場合には、実施例１と同じようにドメイン推定部１７０と選択部１７５の代わりにドメイン推定部１７０’と選択部１７５’を備える。実施例２と異なる点は、第２モデル学習部２３０とモデル連結部２４０である。以下の説明では、エルゴティック２の場合について説明する。

第２モデル学習部２３０は、各話者に対して２状態ずつを持つ隠れマルコフモデルＭ_０を学習し、記録部１９０に記録する（Ｓ２３０）。そして、モデル連結部２４０は、その隠れマルコフモデルＭ_０と隠れマルコフモデルＭ_Ｅ０のすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｅ２を作成し、記録部１９０に記録する（Ｓ２４０）。

本変形例の場合も、学習機能と要約作成機能とを分離してもよい。分離する場合は、少なくとも図６の点線の部分を、対話学習装置２０１に備えればよい。また、対話学習装置２０１がステップＳ１５１、Ｓ１６０、Ｓ１６６も実行するのであれば、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５も備えればよい。そして、対話学習装置２０１の処理フローは、図７の点線で示したステップＳ１０１の部分のようにすればよい。

本変形例の対話学習装置と要約装置によれば、実施例２と同じ効果が得られる。さらに、エルゴディック１の分布がブロード（なだらか，一様）になる場合でも、エルゴディック２の分布はシャープ（ブロードではない，尖った）にできるので、ビタビデコーディングによって得られる最尤の状態系列がＭ_０を通過する可能性が出てくる。したがって、より正確にドメインの推定を行うことができる。

本実施例は、前述したエルゴディック１における問題（出力分布がなだらかになってしまう問題）を、連結学習を用いて解決する手法である。連結学習とはＨＭＭにより音声を教師なしでモデル化する際に用いられる手法で、この手法により、各ドメインにおける対話と対話全体に共通して現れるような発話の出力分布を、特定の状態に集中させることができる。

図８に実施例３の要約装置の機能構成例、図９に実施例３の要約装置の処理フロー、図１０に実施例３の学習機能の各ステップで作成される隠れマルコフモデルのイメージを示す。要約装置３００は、入出力部１１０、第１モデル学習部３２０、第２モデル学習部１３０、第１モデル連結部３４０、再学習部３５０、第２モデル連結部３６０、繰返し判定部３７０、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５、ドメイン推定部１７０、選択部１７５、記録部３９０備える。

＜対話学習＞
まず、対話学習について説明する。ステップＳ１１１、Ｓ１５１、Ｓ１６０、Ｓ１６６は、実施例１と同じである。第１モデル学習部３２０への入力は、実施例１と同じように各対話に含まれる発話にトピックラベルが付与されたＮ個の対話の時系列データ（ｄ_１，…，ｄ_Ｎ）、各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）、各発話がどのドメインに該当するのかを示す情報である。そして、第１モデル学習部３２０は、これらの情報を用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルＭ_１，…，Ｍ_Ｋを学習し、記録部３９０に記録する（Ｓ３２０）。

第２モデル学習部１３０は、実施例２と同じように、すべての対話から話者の対話行為を出力する状態を持つ１つの隠れマルコフモデルＭ_０を学習し、記録部３９０に記録する（Ｓ１３０）。第１モデル連結部３４０は、隠れマルコフモデルＭ_ｋのそれぞれとマルコフモデルＭ_０のコピーとをペアにし、ペア内のすべての状態を接続して、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を作成する（Ｓ３４０）。

再学習部３５０は、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を初期モデル、発話ごとにトピックラベルが付与された時系列データ（ｄ_１，…，ｄ_Ｎ）、ドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）、各発話がどのドメインに該当するのかを示す情報を学習データとして与える。そして、時系列データｄ_ｎがｋ番目のドメインに該当する場合には、時系列データｄ_ｎで隠れマルコフモデルＭ_ｋ＋０を再学習する。このような再学習を時系列データｄ_１，…，ｄ_Ｎを用いて行うことで、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を再学習し、再学習された隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を記録部３９０に記録する（Ｓ３５０）。このような再学習によって、ｋ番目のドメインとドメイン全体の間でデータの再割り当てが起こり、共通して出現する系列は隠れマルコフモデルＭ_０から生成されやすくなり、ｋ番目のドメインに特徴的な系列は隠れマルコフモデルＭ_ｋから生成されやすくなる。

第２モデル連結部３６０は、再学習された隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を連結し、１つの隠れマルコフモデルＭ_Ｃとする（Ｓ３６０）。連結の際、すべてのＨＭＭの確率テーブルの足し合わせを行うが、コピーされたＭ_０を結合して新たなＭ_０とする際には、この出力確率をＫで割り、足して１になるよう調整する。この処理が、図１０のステップＳ３６０の「ＡＶＧ」の処理である。なお、このとき、隠れマルコフモデルＭ_０の各状態は、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０のすべての状態と接続されている。一方、隠れマルコフモデルＭ_ｋ＋０の各状態は、隠れマルコフモデルＭ_０の状態とのみ接続されている。

繰返し判定部３７０は、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０について、学習データに対して所定以上の尤度の改善があるかによって再学習部３５０と第２モデル連結部３６０の処理（ステップＳ３５０，Ｓ３６０）を繰り返すかを判定する（Ｓ３７０）。例えば、いずれかのすべての隠れマルコフモデルＭ_ｋ＋０で尤度の改善がある場合には繰り返し処理を続ける（ステップＳ３７０の判断をＹｅｓとする）。そして、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０について尤度の改善がない時に繰返し処理を終了し、そのときに記録部３９０に記録されている隠れマルコフモデルＭ_Ｃを学習結果とする（ステップＳ３７０の判断をＮｏとする）。本実施例で求めた最終的な隠れマルコフモデルＭ_Ｃを、以降「連結１」と呼ぶ。なお、ステップＳ３７０の判断がＹｅｓの場合、処理はステップＳ３５０に戻るが、この時には、隠れマルコフモデルＭ_Ｃは再度、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０に分割される。Ｍ_０の遷移確率はＭ_０とＭ_ｋの間に均等に分配される。

＜要約作成＞
次に、要約作成の処理について説明する。ステップＳ１１２、Ｓ１５２、Ｓ１６７は実施例１と同じである。ドメイン推定部１７０の処理（ステップＳ１７０）自体は実施例１と同じであるが、利用する隠れマルコフモデルＭ_Ｃが異なる。ステップＳ１７５も実施例１と同じである。また、実施例１と同じように目標とする要約率を定めたい場合には、ドメイン推定部１７０と選択部１７５の代わりにドメイン推定部１７０’と選択部１７５’を備え、ステップＳ１７０’とＳ１７５’を実行すればよい。

本実施例の場合も、学習機能と要約作成機能とを分離してもよい。分離する場合は、少なくとも図８の点線の部分を、対話学習装置３０１に備えればよい。また、対話学習装置３０１がステップＳ１５１、Ｓ１６０、Ｓ１６６も実行するのであれば、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５も備えればよい。そして、対話学習装置３０１の処理フローは、図９の点線で示したステップＳ３０１の部分のようにすればよい。

本実施例の場合も実施例１と同様の効果が得られる。さらに、共通状態を表わすドメインを隠れマルコフモデルＭ_Ｃに加えたこと、および連結学習を用いることで、各クラスにおける系列と全クラス全体に共通して現れるような系列の出力分布を、特定の状態に集中させることができる。その結果、各ドメインに対応するＨＭＭは、特定のドメインの系列のみをモデル化したものになる。したがって、ドメイン分類の精度向上が期待できる。

［変形例］
なお、実施例３の場合も、共通状態（Ｍ_０に含まれる状態）を増やすことによって、最尤状態系列がより共通状態を通過しやすくなると考えられる。共通状態の状態数を２倍に増やした（話者ごとに２つの状態を持った）隠れマルコフモデルを「連結２」と呼ぶ。また、共通状態の状態数を３倍に増やした（話者ごとに３つの状態を割り当てた）隠れマルコフモデルを「連結３」と呼ぶ。

図８に実施例３変形例の要約装置の機能構成例、図９に実施例３変形例の要約装置の処理フローを示す。要約装置４００は、入出力部１１０、第１モデル学習部３２０、第２モデル学習部２３０、第１モデル連結部４４０、再学習部３５０、第２モデル連結部３６０、繰返し判定部３７０、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５、ドメイン推定部１７０、選択部１７５、記録部３９０備える。なお、目標とする要約率を定めたい場合には、実施例１と同じようにドメイン推定部１７０と選択部１７５の代わりにドメイン推定部１７０’と選択部１７５’を備える。実施例３と異なる点は、第２モデル学習部２３０とモデル連結部４４０である。以下の説明では、連結２の場合について説明する。

第２モデル学習部２３０は、各話者に対して２状態ずつを持つ隠れマルコフモデルＭ_０を学習し、記録部１９０に記録する（Ｓ２３０）。そして、第１モデル連結部４４０は、隠れマルコフモデルＭ_ｋのそれぞれとマルコフモデルＭ_０のコピーとをペアにし、ペア内のすべての状態を接続して、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を作成する（Ｓ４４０）。このような構成なので、本変形例の場合も実施例３と同様の効果が得られる。

また、本変形例の場合も、学習機能と要約作成機能とを分離してもよい。分離する場合は、少なくとも図８の点線の部分を、対話学習装置４０１に備えればよい。また、対話学習装置４０１がステップＳ１５１、Ｓ１６０、Ｓ１６６も実行するのであれば、特徴量抽出部１５０、トピックモデル学習部１６０、トピックラベル付与部１６５も備えればよい。そして、対話学習装置４０１の処理フローは、図９の点線で示したステップＳ４０１の部分のようにすればよい。

＜実験＞
本発明に対する実験の前に、コンタクトセンタ対話のデータを収集した。実験に使用可能な実際のコンタクトセンタ対話のデータを持っていなかったため、コンタクトセンタ対話と同様の対話を独自に収集した。このデータ収集のため、９０人の被験者（４９人の男性と４１人の女性）を用いた。彼らはオペレータやユーザ（電話をかける人、コーラーとも呼ぶ）に分かれて準備したシナリオにしたがって対話を行った。オペレータは実際にコンタクトセンタで応対経験をした人を用いた。

対話のドメインは、金融（ＦＩＮ），インターネットサービスプロバイダ（ＩＳＰ），自治体（ＬＧＵ），通信販売（ＭＯ），ＰＣサポート（ＰＣ），電話（ＴＥＬ）の６種類とした。例えば、ＦＩＮであれば、クレジットカードの紛失についての問い合わせや金融商品の問い合わせなどの対話である。ＩＳＰであれば、インターネット接続についての問い合わせの対話である。ＬＧＵであれば、証明書の発行や近所の騒音についてのクレームなどの対話である。ＭＯであれば、商品の注文や注文内容の確認についての対話である。ＰＣであれば、パソコン購入者へのサポートの対話であり，ＴＥＬであれば、電話料金の支払いや国際電話のかけ方などについての問い合わせである。それぞれのドメインについて、１５〜２０のシナリオを用意し、これらに基づいてオペレータとユーザに対話を行ってもらった。なお，彼らは別室に分かれ電話を介して音声で会話した。この実験ではこの会話を書き起こしたものをデータとして用いるが、音声認識結果を用いても良い。

下記はユーザが用いたシナリオの例である。シナリオにはコンタクトセンタに電話することになった背景、通話においてすべき内容が書かれている。ＬＧＵ，ＭＯ，ＰＣのあとの番号はシナリオの番号である。図１１に各シナリオの統計情報を示す。シナリオの具体例を次に示す。

ＬＧＵ−１５：あなたは、子育てのためにしばらく仕事をしていませんでした。子供も手がかからなくなってきたので何か仕事をはじめようと思います。雑誌やインターネットで探す方法もあるのですが、友人が職安（ハローワーク）でいい仕事をみつけたといっていたので、あなたもとりあえず職安（ハローワーク）にどんな求人があるか調べてみたいと思っています。自治体が提供する求人情報について問い合わせる。仕事を探したいので求人情報について聞きたいと伝える。求人情報はどうやったら知ることができるのか聞く。ハローワークはあなたの家の近くだとどこにあるか聞く。営業時間、利用料金を確認する。

ＭＯ−３：鍋がおいしい季節になってきました。あなたは、自分がプロデュースしているちゃんこ鍋屋があり、中々売れ行きも好調です。そこで、新メニューの題材を考えながらインターネットを回っていたところ、下関直送のふぐが売られているのが目に止まりました。ふぐ鍋はこれからの時期流行りそうだと思ったあなたは、試しに注文してみようと思いました。最近親戚とうまくいっていないあなたは、新メニューの意見交換という名目で集まり、また仲良くなりたいというもくろみもあります。とりあえず自分の家族と親戚の分をネットで注文しました。しかし、ネットで注文した時は確認メールが届くはずだったのに、一向に確認メールが来ません。これでは、仲良くなるはずの親戚との集まりも台無しです。そこで、ホームページに乗っていた電話番号に電話し、問い合わせてみることにしました。商品を注文した時に届く確認メールが届かないので、その問い合わせをする。注文がちゃんと出来たか確認して、確認メールを送ってくれるようにお願いする。

ＰＣ−１０：あなたは職をさがしています。今回の活動先は、電子ファイルで履歴書送付（写真付）との条件がついています。カメラといえば携帯電話しかなかったあなたは、昨日、ＰＣダイレクト社の新発売のデジカメとパソコンを買いました。そして今日、自分を撮影したあなたは早速、パソコンに写真を取り込もうとしてみたのですが、なにをどうすればよいのかわかりません。応募締切まで時間がなく、すぐに写真を取り込みたいと思ったあなたは、ＰＣダイレクト社のコールセンタに電話をしてみるのでした。デジカメの写真をパソコンに取り込むための方法を聞く。写真を自動的に取り込むための方法を聞く。オペレータから写真取り込みの設定方法について指示を受けたら、パソコン操作画面に従って設定を行う。

対話データの収集は二回にわたって行われ、それぞれ３９１対話と３０７対話を収録した。以降、初回の３９１対話を学習データ、第二回の３０７対話をテストデータとする。図１２は初回のデータ（学習データ）の統計情報、図１３は第二回のデータ（テストデータ）の統計情報を示している。

初回の３９１対話を用いてまずトピックモデルを学習した。これにはＬＤＡ（latent semantic analysis）を用いた。形態素解析器で各対話から内容語を抽出した。そして、このbag-of-wordsをもって各対話の特徴とした。トピックの数は１００とした。このＬＤＡのモデルを用いて３９１対話に含まれるすべての発話にトピックラベルを付与した。すなわち、発話に含まれる単語が発生した場合にそのトピックである確率Ｐ（ｚ_ｔ｜ｗ_ｖ）の合計が最大となるトピックｚ_ｔを、当該発話のトピックラベルとして付与した。

隠れマルコフモデルＭ_ｃは７種類準備した。（１）エルゴティック０、（２）エルゴティック１、（３）エルゴティック２、（４）エルゴティック３、（５）連結１、（６）連結２、（７）連結３である。また、これらの隠れマルコフモデルＭ_ｃを用いた要約の精度を確認するため、基準（ベースライン）とする従来技術も２つ用意した。１つ目は、単語の重要度を対話中の単語の出現頻度（Term Frequency,ＴＦ）として重要度の合計が最大となるよう要約する方法であり、基準（ベースライン）となるので「ＢＬ−ＴＦ」と表すことにする。２つ目は、ドメインごとに重要な単語の辞書（ドメイン辞書：Domain Dictionary,ＤＤ）をあらかじめ用意しておき、重要度の最大化を行う際にＴＦの代わりにこの重要度を使用する方法であり、基準（ベースライン）となるので「ＢＬ−ＤＤ」と表すことにする。

具体的には、「ＢＬ−ＴＦ」は次式が最大となるように要約する方法である。

ただし、weightは単語ｗ_ｉの重要度を返す関数で、ここでは対話中の当該単語の出現頻度、ｙ_ｉはｗ_ｉを要約に含むかどうかを表す０か１の値である。また、最大化は、整数計画問題として解けばよく、次の３つの制約を与えればよい。

ここで、ｘ_ｉはｉ番目の発話を要約に含むかを表す０か１の値、ｌ_ｉはｉ番目の発話の文字数、Ｌは要約に含みうる文字数の最大値、ｍ_ｉｊは単語ｗ_ｉがｊ番目の発話に含まれるかどうかを表す０か１の値である。最後の式は、ある単語を要約に含む場合、その単語を含む文に含まれる全ての単語も要約に含む必要があるという制約を表す。

また、「ＢＬ−ＤＤ」では、各ドメインにおける単語の重要度を次のように算出する。

ここで、Ｐ（ｗ_ｉ｜ＤＭ^ｋ）はドメインＤＭ^ｋのデータでｗ_ｉが出現する確率であり、Ｐ（ｗ_ｉ｜ＤＭ＼ＤＭ^ｋ）は、ＤＭ^ｋ以外のドメインにおいてｗ_ｉが出現する確率である。この２つの確率の対数尤度比を取ることによって、各単語の各ドメインにおける重要度を算定できる。つまり、単語ｗ_ｉがドメインＤＭ^ｋにおいて際立って出現しているのであれば、ドメインＤＭ^ｋにおける単語ｗ_ｉの重要度が大きくなる。

以下はＦＩＮドメインの単語辞書である。左側が単語であり、右側が重要度である。生命、通帳、オンライントレードなどＦＩＮに特徴的な単語の重要度が高いことがわかる。「若葉」や「富田」などはこのドメインに頻出する名前（銀行名やオペレータの名前）であるため重要度が高くなっている。

若葉 6.10703207798341
証券 5.60247606723102
生命 5.31479399477924
富田 4.96995350848751
通帳 4.94010054533783
事故 4.90932888667107
オンライントレード 4.90932888667107
志村 4.81088881385782
死亡 4.81088881385782
自賠責 4.77579749404655

評価手順
実験では、隠れマルコフモデルＭ_ｃによる要約の精度の向上を確認するためなので、７種類の評価対象の手法では、再選択部での要約率の調整は行わなかった。しかしながら、基準（ベースライン）となる従来技術はどちらも要約率を設定した上で動作する手法である。これらを同じ条件で比較するため、まず７つの隠れマルコフモデルＭ_ｃを用いた要約装置それぞれに要約を出力させ、そこで出来た要約の要約率を用いて、従来技術の手法にも要約を出力させた。ただ、先にも触れたように、隠れマルコフモデルＭ_ｃを用いる場合でも要約率を変更することは可能である。ここでは簡単のため、ビタビデコーディングの結果を用いて要約を得る方式を取っている。

評価指標
要約の正解データを、それぞれの対話を収録する際に用いられたシナリオとした。シナリオは対話でユーザが話す内容を網羅していると考えられるため、シナリオに含まれるような内容を持つ要約を出力できれば、それは内容を網羅した要約といえるからである。評価指標としては内容語のＦ値を用いた。Ｆ値の算出には、まず内容語の適合率と再現率を算出し、これらの調和平均を取った。なおシナリオや要約には同じ単語が複数回出現することがあるが、それぞれ別の単語として適合率と再現率を計算した。

評価結果
評価結果を図１４に示す。テストデータは、上述のとおり第二回の３０７対話である。図中のアスタリスク、プラス、ｅ０−ｅ３、ｃ１−ｃ３はそれぞれ、本発明の方法がＢＬ−ＴＦ、ＢＬ−ＤＤ、エルゴティック０〜３、連結１〜３に対して、ウィルコクシン順位符号検定で有意（ｐ＜０．０１）に性能が高かったことを示す。適合率と再現率でも検定を行っているが、この検定は要約率が同じもの（すなわち，縦のカラム同士）についてのみ行った。

図１４によるとエルゴディック０〜３よりも連結１〜３の方が結果がよい。なお、エルゴディック０〜３はすべて同じ要約を出力し、評価結果も同じであった。これは、最尤の状態系列が共通状態を一切通らなかったことを示す。また、共通状態の数を増やしても共通状態を通るようにもできなかったことを示す。ここではこのような結果になったが、実験データの数を多少変動させるとエルゴディック１〜３がエルゴディック０と異なる評価結果となる場合もあった。しかしながら、共通状態数を増やすことが常に精度改善に繋がるわけではないようなので、共通状態数は適宜選択すべきである。さて、連結１〜３は、エルゴディック０〜３よりもＦ値が高い。このことから、連結学習が有効に機能していることが分かる。また、結果的に連結３のＦ値が一番高かった。連結３はＢＬ−ＴＦやＢＬ−ＤＤに比較してもＦ値が高いことも分かった。

さて、この比較ではまず提案手法の要約を作成してからベースラインの出力を作成しているが、提案手法を基準にした比較である感は否めない。そこで、０．１から１．０まで要約率を０．１刻みで変更して最もベースラインの精度が高くなる場合のＦ値を求め、そのＦ値と連結３のＦ値を比較した。Ｆ値は適合率と再現率の両方を加味して算出されるため、長さが異なる要約も比較することができる。その結果、ＢＬ−ＤＤの要約率０．４のときにＦ値が０．１９１であり最も精度が高かった。これを連結３とウィルコクソンの順位符号検定で比較したところ、有意（ｐ＜０．０１）に連結３の精度が高かった。このため、ベースラインと比較しても隠れマルコフモデルによる手法である連結３の有効性を示すことができた。

連結３の出力を以下に示す。これは先に示したＭＯドメインの３番目のシナリオ（ＭＯ−３）の要約である。ここで発話前の１はオペレータ、２はユーザを表す。この対話の要約率は０．２４である。

２：そちらで商品を注文した場合って、確認メールっていうのが届くんです
２：ふぐの
２：セットのほう注文したんですけど、確認メールっていうのが届いてないんですけども。
１：注文
１：注文がされたかの確認を行いますので、
１：下関直送ふぐセット十人前、
１：寄り合い、
１：とらふぐの切り身のアラが、二キログラム。
１：ヒレ酒用焼きヒレ
１：ふぐしょうゆ六百ミリリットル。
１：あと、もみじおろし。
１：配送希望日のほうは、二月十三日ということ
２：はい、全部小文字で、
２：これはアルファベットのほうのｑですね。
２：ハイフン、ｇ。
２：注文のほうは、ちゃんとできてるということなんですか。
１：はい、ＪＤＳコールセンタの、野村でした。
一方、この対話についてＢＬ−ＤＤが出力した要約は下記のとおりである。
１：ＪＤＳ神奈川コールセンターの、野村です。
２：セットのほう注文したんですけど、確認メールっていうのが届いてないんですけども。
２：五八二七、
１：商品番号、
１：一五四八
１：下関直送ふぐセット十人前、
１：寄り合い、
１：ヒレ酒用焼きヒレ
１：配送希望日のほうは、二月十三日ということ
２：六月十四日です。
１：では、自宅のご自宅の電話番号、お願い
１：ご住所のほうを、郵便番号からお願い
２：六八二、
１：最後にですね、メールアドレスのほう、よろしく
２：はい、全部小文字で、
２：数字で〇三二九、
１：これはアルファベットのほうのｑですね。
２：ハイフン、ｇ。
１：では、ほんと、今回。
１：はい、ＪＤＳコールセンタの、野村でした。
２：はーい。

この比較からも分かるとおり、ＢＬ−ＤＤの方は商品番号や「では、自宅のご自宅の電話番号、お願い」と言ったコンタクトセンタ一般における定型発話を抽出してしまっていることが分かる。これらは本来であればドメインすべてに現れるため、要約として抽出してはいけないと思われるものであるが、たまたまこれらが他のドメインに比べてＭＯドメインに多く現れたため、抽出されてしまっている。連結３の出力結果を見ると、ＭＯドメインに特徴的な部分をほぼ網羅しているように抽出できており、要約として、より通信販売の内容を表すものになっていることが分かる。

最後に、学習された連結３の隠れマルコフモデルをグラフとして可視化したものを図１５に示す。連結３であるので、０（共通状態）の部分には１人の話者に対して３つの状態がある。すなわち、共通状態が６つある。グラフにおいて、楕円の状態はオペレータの状態であり、長方形の状態はユーザの状態である。各状態の中にはテーブルがあり、トピックラベルとその出力確率が書かれてある。また状態間の矢印に付与されている値は、状態間の遷移確率である。なお、ｐｉというのは初期確率の意味である。グラフでは簡略化のため出力確率、または、遷移確率が０．１以上のもののみ表示している。また、トピックラベルがドメインごとに異なっていることも分かる。これは、つまり隠れマルコフモデルによって、ドメインごとに特に出力されるトピックのみが出力されるようになった結果と考えることができる。共通状態から出力されるトピックは、例えば７２や９１などである。これらはトピックに寄与する単語をトピックモデルのＰ（ｗ｜ｚ）を観察することで調べると、「はい」や「ええ」などの感動詞や数字が多かった。このことにより、すべてのドメインに共通して現れるような表現が正しく共通状態から出力されるようになっていることが分かる。

［プログラム、記録媒体］
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明は、コンタクトセンタ（お客様センタ）などでの対話の要約を作成する要約装置に利用することができる。

５０、１００、２００、３００、４００要約装置
５１、１０１、２０１、３０１、４０１対話学習装置
９０、１９０、３９０記録部１１０入出力部
１２０、３２０第１モデル学習部１３０、２３０第２モデル学習部
１４０、２４０モデル連結部１５０特徴量抽出部
１６０トピックモデル学習部１６５トピックラベル付与部
１７０、１７０’ ドメイン推定部１７５、１７５’ 選択部
３４０、４４０第１モデル連結部３５０再学習部
３６０第２モデル連結部３７０繰返し判定部

Claims

複数の発話で構成された対話の、発話ごとのドメインを推定するための隠れマルコフモデルＭ_Ｃを作成する対話学習装置であって、
Ｋ、Ｎは２以上の整数、ｋは１以上Ｋ以下の整数、ｎは１以上Ｎ以下の整数とし、
各対話に含まれる発話にトピックラベルが付与されたＮ個の対話の時系列データｄ_１，…，ｄ_Ｎと前記の各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルＭ_１，…，Ｍ_Ｋを学習し、前記隠れマルコフモデルＭ_１，…，Ｍ_Ｋのすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｃを作成する第１モデル学習部
を備える対話学習装置。
複数の発話で構成された対話の、発話ごとのドメインを推定するための隠れマルコフモデルＭ_Ｃを作成する対話学習装置であって、
Ｋ、Ｎは２以上の整数、ｋは１以上Ｋ以下の整数、ｎは１以上Ｎ以下の整数とし、
各対話に含まれる発話にトピックラベルが付与されたＮ個の対話の時系列データｄ_１，…，ｄ_Ｎと前記の各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルＭ_１，…，Ｍ_Ｋを学習し、前記隠れマルコフモデルＭ_１，…，Ｍ_Ｋのすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｅ０を作成する第１モデル学習部と、
すべての対話から話者の発話を出力する状態を持つ１つの隠れマルコフモデルＭ_０を学習する第２モデル学習部と、
前記マルコフモデルＭ_０と前記隠れマルコフモデルＭ_Ｅ０のすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｃを作成するモデル連結部と
を備える対話学習装置。
複数の発話で構成された対話の、発話ごとのドメインを推定するための隠れマルコフモデルＭ_Ｃを作成する対話学習装置であって、
Ｋ、Ｎは２以上の整数、ｋは１以上Ｋ以下の整数、ｎは１以上Ｎ以下の整数とし、
各対話に含まれる発話にトピックラベルが付与されたＮ個の対話の時系列データｄ_１，…，ｄ_Ｎと前記の各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルＭ_１，…，Ｍ_Ｋを学習し、前記隠れマルコフモデルＭ_１，…，Ｍ_Ｋのすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｅ０を作成する第１モデル学習部と、
すべての対話から話者の発話を出力する状態を持つ１つの隠れマルコフモデルＭ_０を学習する第２モデル学習部と、
前記隠れマルコフモデルＭ_ｋのそれぞれと前記マルコフモデルＭ_０のコピーとをペアにし、前記ペア内のすべての状態を接続して、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を作成する第１モデル連結部と、
前記隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を初期モデル、前記時系列データｄ_１，…，ｄ_Ｎと前記ドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を学習データとして与えて隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を再学習する再学習部と、
再学習された隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を連結し、１つの隠れマルコフモデルＭ_Ｃとする第２モデル連結部と、
隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０について、学習データに対して所定以上の尤度の改善があるかによって前記再学習部と前記第２モデル連結部の処理を繰り返すかを判定する繰返し判定部と
を備える対話学習装置。
請求項２または３記載の対話学習装置であって、
前記隠れマルコフモデルＭ_０は、話者ごとに２つ以上の状態が対応している
ことを特徴とする対話学習装置。
請求項１から４のいずれかに記載の対話学習装置であって、
Ｔ、Ｖは２以上の整数、ｔは１以上Ｔ以下の整数、ｖは１以上Ｖ以下の整数とし、
前記の対話ｄ_ｎごとに、内容語である単語ｗ_１，…，ｗ_Ｖとその単語の出現回数ｃ_１，…，ｃ_Ｖの組＜ｗ_１，ｃ_１＞，…，＜ｗ_Ｖ，ｃ_Ｖ＞を生成して特徴量とする特徴量抽出部と、
あらかじめトピックの数Ｔを定めておき、前記特徴量＜ｗ_ｖ，ｃ_ｖ＞から、単語ｗ_ｖごとにトピックｚ_ｔの発生する確率Ｐ（ｚ_ｔ｜ｗ_ｖ）を示すトピックモデルを作成するトピックモデル学習部と、
発話ごとに、当該発話に含まれる単語と前記トピックモデルから尤もらしいトピックを推定して、トピックラベルとして当該発話に付与するトピックラベル付与部も
備え、
前記の対話の時系列データｄ_１，…，ｄ_Ｎは、前記トピックラベル付与部によって各発話にトピックラベルが付与されたものである
ことを特徴とする対話学習装置。
請求項１から４のいずれかに記載の対話学習装置によって作成された隠れマルコフモデルＭ_Ｃを用いて、対話のドメインが既知で発話のドメインは未知の対話の要約を作成する要約装置であって、
要約作成の対象である前記対話の時系列データｄ_ｘに含まれる発話ごとに、当該発話に含まれる単語から尤もらしいトピックを推定して、トピックラベルとして当該発話に付与するトピックラベル付与部と、
前記隠れマルコフモデルＭ_Ｃを用いて、前記対話の時系列データｄ_ｘの各発話が隠れマルコフモデルＭ_Ｃのどのドメインの状態から出力されたかを推定することで各発話のドメインを推定するドメイン推定部と、
前記対話とドメインが一致する発話を、当該対話の中から選択する選択部と
を備える要約装置。
請求項５記載の対話学習装置によって作成された隠れマルコフモデルＭ_Ｃとトピックモデルとを用いて、対話のドメインが既知で発話のドメインは未知の対話の要約を作成する要約装置であって、
要約作成の対象である前記対話の時系列データｄ_ｘに含まれる発話ごとに、当該発話に含まれる単語と前記トピックモデルから尤もらしいトピックを推定して、トピックラベルとして当該発話に付与するトピックラベル付与部と、
前記隠れマルコフモデルＭ_Ｃを用いて、前記対話の時系列データｄ_ｘの各発話が隠れマルコフモデルＭ_Ｃのどのドメインの状態から出力されたかを推定することで各発話のドメインを推定するドメイン推定部と、
前記対話とドメインが一致する発話を、当該対話の中から選択する選択部と
を備える要約装置。
請求項６または７のいずれかに記載の要約装置であって、
前記ドメイン推定部は、各発話が各ドメインにどのくらい対応するかという確率値を算出し、
前記選択部は、目標要約率を取得し、前記確率値を各発話の重要度とみなし、重要なものから選択することで要約率が、当該目標要約率となるように調整する
ことを特徴とする要約装置。
複数の発話で構成された対話の、発話ごとのドメインを推定するための隠れマルコフモデルＭ_Ｃを作成する対話学習方法であって、
Ｋ、Ｎは２以上の整数、ｋは１以上Ｋ以下の整数、ｎは１以上Ｎ以下の整数とし、
第１モデル学習部が、各対話に含まれる発話にトピックラベルが付与されたＮ個の対話の時系列データｄ_１，…，ｄ_Ｎと前記の各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルＭ_１，…，Ｍ_Ｋを学習し、前記隠れマルコフモデルＭ_１，…，Ｍ_Ｋのすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｅ０を作成する第１モデル学習ステップを有し、
前記隠れマルコフモデルＭ_Ｅ０を隠れマルコフモデルＭ_Ｃとする対話学習方法。
複数の発話で構成された対話の、発話ごとのドメインを推定するための隠れマルコフモデルＭ_Ｃを作成する対話学習方法であって、
Ｋ、Ｎは２以上の整数、ｋは１以上Ｋ以下の整数、ｎは１以上Ｎ以下の整数とし、
第１モデル学習部が、各対話に含まれる発話にトピックラベルが付与されたＮ個の対話の時系列データｄ_１，…，ｄ_Ｎと前記の各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルＭ_１，…，Ｍ_Ｋを学習し、前記隠れマルコフモデルＭ_１，…，Ｍ_Ｋのすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｅ０を作成する第１モデル学習ステップと、
第２モデル学習部が、すべての対話から話者の発話を出力する状態を持つ１つの隠れマルコフモデルＭ_０を学習する第２モデル学習ステップと、
モデル連結部が、前記マルコフモデルＭ_０と前記隠れマルコフモデルＭ_Ｅ０のすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｃを作成するモデル連結ステップと
を有する対話学習方法。
複数の発話で構成された対話の、発話ごとのドメインを推定するための隠れマルコフモデルＭ_Ｃを作成する対話学習方法であって、
Ｋ、Ｎは２以上の整数、ｋは１以上Ｋ以下の整数、ｎは１以上Ｎ以下の整数とし、
第１モデル学習部が、各対話に含まれる発話にトピックラベルが付与されたＮ個の対話の時系列データｄ_１，…，ｄ_Ｎと前記の各対話がＫ種類のドメインのいずれに該当するのかを示したドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルＭ_１，…，Ｍ_Ｋを学習し、前記隠れマルコフモデルＭ_１，…，Ｍ_Ｋのすべての状態をエルゴディックに接続して、隠れマルコフモデルＭ_Ｅ０を作成する第１モデル学習ステップと、
第２モデル学習が、すべての対話から話者の発話を出力する状態を持つ１つの隠れマルコフモデルＭ_０を学習する第２モデル学習ステップと、
第１モデル連結部が、前記隠れマルコフモデルＭ_ｋのそれぞれと前記マルコフモデルＭ_０のコピーとをペアにし、前記ペア内のすべての状態を接続して、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を作成する第１モデル連結ステップと、
再学習部が、前記隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を初期モデル、前記時系列データｄ_１，…，ｄ_Ｎと前記ドメインラベルＤＭ（ｄ_１），…，ＤＭ（ｄ_Ｎ）を学習データとして与えて隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を再学習する再学習ステップと、
第２モデル連結部が、再学習された隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０を連結し、１つの隠れマルコフモデルＭ_Ｃとする第２モデル連結ステップと、
繰返し判定部が、隠れマルコフモデルＭ_１＋０，…，Ｍ_Ｋ＋０について、学習データに対して所定以上の尤度の改善があるかによって前記再学習部と前記第２モデル連結部の処理を繰り返すかを判定する繰返し判定ステップと
を有する対話学習方法。
請求項９から１１のいずれかに記載の対話学習方法によって作成された隠れマルコフモデルＭ_Ｃを用いて、対話のドメインが既知で発話のドメインは未知の対話の要約を作成する要約方法であって、
トピックラベル付与部が、要約作成の対象である前記対話の時系列データｄ_ｘに含まれる発話ごとに、当該発話に含まれる単語から尤もらしいトピックを推定して、トピックラベルとして当該発話に付与するトピックラベル付与ステップと、
ドメイン推定部が、前記隠れマルコフモデルＭ_Ｃを用いて、前記対話の時系列データｄ_ｘの各発話が隠れマルコフモデルＭ_Ｃのどのドメインの状態から出力されたかを推定することで各発話のドメインを推定するドメイン推定ステップと、
選択部が、前記対話とドメインが一致する発話を、当該対話の中から選択する選択ステップと
を有する要約方法。
請求項１から５のいずれかに記載の対話学習装置、もしくは、請求項６から８のいずれかに記載の要約装置としてコンピュータを機能させるプログラム。