JP6084654B2

JP6084654B2 - 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法

Info

Publication number: JP6084654B2
Application number: JP2015113949A
Authority: JP
Inventors: 泰貴畠山
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-06-04
Filing date: 2015-06-04
Publication date: 2017-02-22
Anticipated expiration: 2035-06-04
Also published as: WO2016194740A1; JP2017003611A

Description

本開示は音声認識に関し、より特定的には、話者を識別する技術に関する。

音声認識において話者を識別する技術が知られている。たとえば、特開２０１０−２１７３１９号公報（特許文献１）は、「音声信号から話者の特定を行う話者特定装置において、話者特定のための精度向上を図る」ための技術を開示している（［要約］参照）。特開平７−２６１７８１号公報（特許文献２）は、「話者認識精度が高い話者認識のための音素モデルを作成する学習方法」を開示している（［要約］参照）。

特開２０１０−２１７３１９号公報特開平７−２６１７８１号公報

従来の音声に基づく話者識別では、話者を識別するためのモデルは予め与えられているものとし、より短いユーザ発話で効率よいモデルを構築することが目標とされている。そのため、短いながらも１分〜２分程度の発話を予めユーザに要求し、得られた音声データから話者識別のモデルの確立を行っている。

従来の技術は、ユーザに前処理としての発話を要求するものである。しかしながら、音声コミュニケーションにおける話者識別では、より自然な対話を行うために、ユーザの発話が学習のために用いられていることをユーザに感じさせることなく学習データを取得する必要がある。そのため、話者識別のモデルが構築されていない状態でユーザに負荷を強いることなく話者識別のモデルを構築するために必要な音声データを取得する必要がある。

本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、話者識別のモデルを構築するために必要な音声データを取得できる音声認識装置を提供することである。

他の局面における目的は、話者識別のモデルを構築するために必要な音声データを取得できる音声認識システムを提供することである。

他の局面における目的は、当該音声認識システムで使用される端末を提供することである。

さらに他の局面における目的は、話者識別のモデルを構築するために必要な話者識別モデルを生成するための方法を提供することである。

一実施の形態に従う音声認識装置は、話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とをそれぞれ受け付けるための音声入力部と、音声認識処理を行うための音声認識部と、音声を出力するための音声出力部と、音声認識処理の結果に基づいて音声認識装置を制御するための制御部とを備える。制御部は、話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることにより、話者を識別するための話者識別モデルを生成する。

ある局面において、ユーザは、学習のための前処理を意識せずに、通常の音声対話を行うことのみで、学習に必要な音声データが収集され得る。

この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。

しりとりゲームが行われる場合におけるユーザ１と端末２とのやり取りを表わす図である。本開示に係る第１の実施例に従う音声認識システムの構成の概要を表す図である。本開示に係る第２の実施例に従う音声認識システムの構成の概要を表す図である。本開示に係る第３の実施例に従う音声認識システムの構成の概要を表す図である。本開示に係る第４の実施例に従う音声認識システムの構成の概要を表す図である。本開示に係る音声認識システムを実現する機能の構成を表すブロック図である。音声認識システムにおいて保持されるデータの格納の一態様を概念的に表す図である。ユーザ１と端末２との間の対話により話者モデル８０が生成される状態を表す図である。ユーザが発話の起点となる場合におけるシーケンスを表すフローチャート（その１）である。ユーザが発話の起点となる場合におけるシーケンスを表すフローチャート（その２）である。ユーザが発話の起点となる場合におけるシーケンスを表すフローチャート（その３）である。ユーザが音声認識システムに既知である場合におけるユーザ１と端末２とのやり取りのシーケンスを表す図である。ユーザが既知である場合に行なわれる処理の流れを表すシーケンスチャート（その１）である。ユーザが既知である場合に行なわれる処理の流れを表すシーケンスチャート（その２）である。端末２からユーザ１に話しかけることが対話のトリガとなる場合を表す図である。音声認識システムで行われる処理の一部を表すシーケンスチャート（その１）である。音声認識システムで行われる処理の一部を表すシーケンスチャート（その２）である。

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

＜技術思想＞
本開示によれば、ユーザが不定の場合に音声対話内容でユーザ名を問いかけてユーザを分類することにより話者識別のためのモデル構築に必要な音声データ（たとえば声紋情報）が収集される。例えば、「しりとり」や早口言葉等のゲームのような対話では、ゲーム相手（たとえば、端末、家電機器等）に対する複数回のユーザ発話が期待される。このような場合に、ゲーム相手となる装置は、予めユーザ名を問いかけてゲームをすることにより一連のユーザ発話を学習データとすることができる。または、ある未知のユーザが発話した後にユーザ名を問いかけることで一時刻前の未知のユーザ名を確定することができる。

本実施の形態では、音声認識の一例として、たとえば形態素解析が用いられる。この解析手法によれば、固有名詞とそうでないものが切り分けられる。たとえば、音声認識システムは、名前の辞書をデータベースとして有し得る。音声認識は、形態素解析において辞書と抽出された固有名詞とをマッチングすることにより行なわれる。

＜構成の概要＞
（構成１）ある局面に従う音声認識装置は、話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とをそれぞれ受け付けるためのマイクと、音声認識処理を行うためのプロセッサと、音声を出力するためのスピーカと、音声認識処理の結果に基づいて音声認識装置を制御するためのプロセッサとを備える。プロセッサは、話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることにより、話者を識別するための話者識別モデルを生成する。話者識別モデルは、たとえば、話者の識別ＩＤ（Identification）と、話者（音声認識装置のユーザ）の名前と、当該話者の発話から抽出された声紋情報等を含み得る。

本実施の形態において、話者を識別する情報としては、たとえば、名前、あだ名、住民番号、政府機関から与えられた識別番号その他の情報であって、発話に含めることが可能な語句をいう。

（構成２）好ましくは、スピーカは、話者を識別する情報を尋ねる問い合せを出力する。話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることは、話者を識別する情報と、問い合わせの後に発せられた話者を識別する情報を含まない発話とを関連付けることを含む。

（構成３）好ましくは、スピーカは、話者を識別する情報を含まない発話の後に、話者を識別する情報を尋ねる問い合せを出力する。話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることは、問い合わせの前に発せられた発話と、問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることを含む。

（構成４）プロセッサは、スピーカから出力される発話に対する応答の内容に基づいて、スピーカから次に出力する発話の内容を決定するように構成されている。たとえば、音声認識装置は、複数の問い合わせを予め保持している。各問い合せの難易度は、階層的に異なる。ある局面において、難易度が中位である問い合わせの発話に対して、予め定められた一定時間内に応答が返ってこない場合、あるいは、応答が正しくない場合、プロセッサは、難易度が低い問い合わせ（しりとりの問題）を発話する。別の局面において、予め定められた一定時間内に早期に応答が返ってきた場合、プロセッサは、難易度が高い問い合わせ（しりとりの問題）を次の問い合わせとして発話する。

（構成５）当該音声認識装置は、生成された話者識別モデルを格納するためのメモリをさらに備える。プロセッサは、問い合わせに対する応答に基づいて、生成された話者識別モデルを更新するように構成されている。

（構成６）別の局面に従うと、音声認識システムが提供される。音声認識システムは、端末と、当該端末と通信可能な装置とを備える。端末は、話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とを受け付けるためのマイクと、音声を出力するためのスピーカと、マイクおよびスピーカに電気的に接続されて、当該装置と通信するための通信インターフェイスとを備える。装置は、端末と通信するための通信インターフェイスと、音声認識処理を行うためのプロセッサと、音声認識処理の結果に基づいて装置を制御するためのプロセッサとを備える。プロセッサは、話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることにより、話者を識別するための話者識別モデルを生成する。

＜技術思想の背景＞
図１を参照して、本実施の形態に係る技術思想の背景について説明する。図１は、しりとりゲームが行われる場合におけるユーザ１と端末２とのやり取りを表わす図である。ユーザ１は、端末２に対して、メッセージ１０を発する。端末２は、メッセージ１０を認識すると、応答として、メッセージ１１を発する。

ユーザ１は、端末２に対して、メッセージ１２を発する。端末２は、メッセージ１２を認識すると、メッセージ１２に含まれる名前と予め規定されたメッセージとを用いて合成されたメッセージ１３を発する。

予め定められた時間が経過すると、端末２は、メッセージ１４を発する。ユーザ１は、メッセージ１４を認識すると、予め規定された時間内に、応答として、メッセージ１４に続く言葉を考える。ユーザ１が、端末２に対して、メッセージ１５を発する。端末２は、メッセージ１５を認識すると、予め準備された国語辞書を参照して、メッセージ１５に続く言葉を考える。端末２は、予め規定された時間内に、メッセージ１５に対する言葉としてメッセージ１６を発する。このようにして、ユーザ１と端末２とは、しりとりゲームを続ける。

端末２の発話に対して、ユーザ１が予め規定された時間内に次の言葉を返せる場合は、同様にしりとりが続く。たとえば、ユーザ１が端末２に対してメッセージ１７を発する。端末２は、メッセージ１７を認識すると、メッセージ１８を発する。

一方、ユーザ１が次の言葉を返せない場合がある。この場合、ユーザ１は沈黙を続けるか、分からない旨のメッセージ１９を発することになる。端末２は、予め定められた一定の待ち時間内にユーザ１からの応答がないと判断した場合、あるいは、メッセージ１９を認識した場合には、その内容について予め規定されていたメッセージ２０を発する。

このような場合、端末２は、ユーザ１との間のメッセージのやり取りを通じて、ユーザ１が「たろう」であることを認識し、ユーザ情報として「たろう」を各データに関連付ける。

図２〜図５を参照して本開示に係る音声認識システムの構成について説明する。
［端末］
図２は、本開示に係る第１の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムでは、ひとつの端末２００が音声認識システムとして機能する。

端末２００は、制御部３０と、音声入力部３１と、音声出力部３２と、話者識別部３３と、話者識別学習部３４と、ユーザ管理部３５と、音声認識部３６と、対話分析・生成部３７とを備える。端末２００は、たとえば、音声入出力機能と音声認識機能とを備える端末であればよい。当該端末は、たとえば、スマートフォン、テレビ、スタンドアロンで作動し得るお掃除ロボットその他の機器を含み得る。

制御部３０は、端末２００の動作を制御する。音声入力部３１は、音声の入力を受け付けて信号を制御部３０に出力する。音声出力部３２は、制御部３０から出力された信号を音声に変換して、端末２００の外部に音声を出力する。音声出力部３２は、たとえばスピーカ、端子等を含む。話者識別部３３は、制御部３０から送られる信号に基づいて、端末２００に対する発話を行なった話者を識別する。別の局面において、話者識別部３３は、当該信号と端末２００に保存されているデータとに基づいて話者を識別する。当該データは、たとえば、端末２００のユーザとして予め登録された声紋情報等を含み得る。

話者識別学習部３４は、話者識別部３３により識別された話者の情報（ユーザＩＤ等）を用いて、話者毎のデータ（ユーザプロファイル）を作成する。ユーザ管理部３５は、端末２００のユーザ情報を保存する。ユーザ情報は、ユーザプロファイル等を含み得る。音声認識部３６は、制御部３０から送られる音声信号を用いて音声認識処理を実行する。たとえば、音声認識部３６は、発話に含まれている文字を抽出する。

対話分析・生成部３７は、音声認識部３６による認識の結果に基づいて端末２００に対するメッセージを分析する。さらに、対話分析・生成部３７は、分析の結果に応じて、当該発話に応じた応答を生成する。別の局面において、対話分析・生成部３７は、端末２００における設定に基づいて、端末２００のユーザに対する働きかけのための発話を生成する。当該設定は、たとえば、端末２００が、自己の近傍にユーザの存在を検知したこと、予め設定された時刻が到来したこと等を含み得る。

［端末＋サーバ］
図３は、本開示に係る第２の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムは、端末３００と、サーバ３５０とを備える。端末３００は、音声入力部３１と、音声出力部３２とを備える。端末３００は、プロセッサ（図示しない）によって制御される。サーバ３５０は、制御部３０と、話者識別部３３と、話者識別学習部３４と、ユーザ管理部３５と、音声認識部３６と、対話分析・生成部３７とを備える。端末３００は、たとえば、音声入出力機能と通信機能とを備える端末として実現される。そのような端末は、たとえば、携帯電話その他の情報通信端末、音声認識機能と通信機能とを備えるお掃除ロボットその他の機器等を含み得る。

端末３００は、ユーザの発話を受け付けると、その発話に応じた音声信号を、通信インターフェイス（図示しない）を介してサーバ３５０に送信する。サーバ３５０は、その音声信号を受信すると、話者識別処理、音声認識処理、対話分析、応答生成等の処理を実行する。各処理は、図２に示される構成によって実現される処理と同様なので、詳細な説明は繰り返さない。

サーバ３５０は、生成された応答を通信インターフェイス（図示しない）を介して端末３００に送信する。端末３００がその応答を受信すると、音声出力部３２は、その応答に応じた音声を出力する。

［端末＋サーバ＋話者識別サーバ］
図４は、本開示に係る第３の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムは、端末３００と、サーバ４００と、話者識別サーバ４１０とを備える。サーバ４００は、制御部３０と、ユーザ管理部３５と、音声認識部３６と、対話分析・生成部３７とを備える。話者識別サーバ４１０は、話者識別部３３と、話者識別学習部３４とを備える。

サーバ４００と話者識別サーバ４１０とは、公知の構成を有するコンピュータ装置によって実現される。当該コンピュータは、主たる構成要素として、プログラムを実行するＣＰＵ（Central Processing Unit）と、キーボードその他の入力装置と、ＲＡＭ（Random Access Memory）と、ハードディスクと、光ディスク駆動装置と、モニタと、通信ＩＦ（Interface）とを備える。

コンピュータにおける処理は、各ハードウェアおよびＣＰＵにより実行されるソフトウェアによって実現される。ある局面において、当該ソフトウェアは、ハードディスクに予め格納されている。別の局面において、当該ソフトウェアは、ＣＤ−ＲＯＭその他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されてプログラム製品として流通している。さらに別の局面において、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。

コンピュータのハードウェア構成は、一般的なものである。したがって、サーバ４００と話者識別サーバ４１０のハードウェア構成の説明は繰り返さない。本実施の形態に係る技術思想を実現する本質的な部分は、当該コンピュータに格納されたプログラムであるともいえる。

サーバ４００は、端末３００から送られた音声信号を受信すると、通信インターフェイスを介して、その音声信号を話者識別サーバ４１０に送信する。

話者識別サーバ４１０は、話者を認識し、また、話者を登録するためのデータを生成する。話者識別サーバ４１０は、生成したデータをサーバ４００に送信する。

［端末＋サーバ＋話者識別サーバ＋音声認識サーバ］
図５は、本開示に係る第４の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムは、端末３００と、サーバ５００と、話者識別サーバ４１０と、音声認識サーバ５２０とを備える。サーバ５００は、制御部３０と、ユーザ管理部３５と、対話分析・生成部３７とを備える。音声認識サーバ５２０は、音声認識部３６を備える。

サーバ５００は、端末３００から音声信号を受信すると、その音声信号を話者識別サーバ４１０および音声認識サーバ５２０に送信する。音声認識サーバ５２０は、当該音声信号を用いて音声認識処理を実行し、認識の結果をサーバ５００に送信する。

その他の動作は、前述の他の実施例に従う音声認識システムの構成における動作と同様である。したがって、他の動作の説明は繰り返さない。

［機能構成］
図６は、本開示に係る音声認識システムを実現する機能の構成を表すブロック図である。音声認識システムは、端末モジュール６００と、メインモジュール６１０と、話者識別モジュール６２０と、音声認識モジュール６３０とを備える。

端末モジュール６００は、音声入力部３１と音声出力部３２とを備える。端末モジュール６００は、ユーザの近傍にあって発話を受け付けて、音声データと端末ＩＤとをメインモジュール６１０に送信する。別の局面において、端末モジュール６００は、メインモジュール６１０から送られた合成音声データを受信し、合成音声データに基づく音声を音声出力部３２から出力する。

メインモジュール６１０において、制御部３０は、音声データと話者モデルリストとを話者識別モジュール６２０に送信する。話者識別モジュール６２０は、話者を識別すると、話者識別結果（たとえば、メッセージのＩＤ、話者が識別できたことを表すフラグ等）をメインモジュール６１０に送信する。

制御部３０は、端末ＩＤまたは音声データをユーザ管理部３５に送信する。ユーザ管理部３５は、端末ＩＤまたは音声データを保存する。

制御部３０は、ユーザ管理部３５から話者モデルリストを読み出す。
制御部３０は、対話分析・生成部３７との間で、たとえば、テキストデータのやり取りを行なう。

制御部３０は、音声データを音声認識モジュール６３０に送信する。音声認識モジュール６３０は、音声データを用いて音声認識処理を実行すると、その結果をテキストとして制御部３０に送る。

図６に示される機能は、図２〜図５に示される構成のいずれかによって実現される。
［データ構造］
図７を参照して、本実施の形態に係る音声認識システムのデータ構造について説明する。図７は、音声認識システムにおいて保持されるデータの格納の一態様を概念的に表す図である。ある局面において、音声認識システムは、端末管理テーブルと、家庭管理テーブルと、ユーザ管理テーブルとを含む。

（端末管理テーブル）
端末管理テーブルは、端末ＩＤと、所属ユーザＩＤとを含む。端末ＩＤは、音声認識システムにおいて登録された端末を識別する。ある局面において、端末ＩＤは、音声認識システムの管理者（たとえば、制御部３０を含むコンピュータの管理者）によって一意に付与される。別の局面において、端末ＩＤは、当該端末のユーザが希望する任意の文字列（たとえば、英数字、記号など）によって構成される。この場合、端末ＩＤの重複が生じないように、たとえば、制御部３０は、ユーザによって入力されたＩＤが既に使用されているか否かをチェックし、使用済みの端末ＩＤが入力された場合は、その旨を端末に通知する。所属ユーザＩＤは、当該端末の使用者として登録されたユーザを識別する。端末の使用者の数は特に限られない。

（家庭管理テーブル）
家庭管理テーブルは、家庭ＩＤと、当該家庭に所属する端末の端末ＩＤとを含む。家庭ＩＤは、音声認識システムのサービスを利用するユーザのグループとして家庭を識別する。ユーザのグループの単位は家庭に限られない。複数のユーザが一つのグループに関連付けられるものであればよい。家庭ＩＤには、１つ以上の端末の各端末ＩＤが関連付けられている。家庭に関連付けられる端末の数は特に限られない。

（ユーザ管理テーブル）
ユーザ管理テーブルは、ユーザＩＤと、ユーザ名と、話者モデルデータと、音声データリストとを含む。

ユーザＩＤは、端末を使用するユーザを識別する。ユーザ名は、当該ユーザＩＤが割り当てられたユーザを識別する。話者モデルデータは、当該ユーザを識別するためのデータである。話者モデルデータは、たとえば、声紋情報を含み得る。

音声データリストは、当該ユーザを識別するための音声データを含む。当該音声データは、ユーザから端末に対する発話、端末の発話に対するユーザの応答、端末に表示された文字列のユーザによる発話等を含み得る。

［話者モデルの生成］
図８を参照して、話者モデルの生成について説明する。図８は、ユーザ１と端末２との間の対話により話者モデル８０が生成される状態を表す図である。なお、図１における状態と同様の状態の説明は繰り返さない。

ユーザ１と端末２との対話において、ユーザ１が未登録の場合には、端末２は、まず最初にユーザ名を聞いて、以降の一定区間（たとえば、ゲーム終了等）までをそのユーザの発話として音声データをデータベースに登録する。音声データは声紋情報を含み得る。

ユーザ発話毎に、話者識別学習部は、対象の音声ＤＢ（Database）からこれまでの音声データ全てを学習データとして話者識別の学習を行う。

ＩＤが端末ごとに割り当てられる。端末とユーザ名とによってユーザを管理することにより他端末で同名のユーザがいるばあいでも対応可能となる。

ユーザ１が自身の名前を発すると（メッセージ１２）、端末２はメッセージ１２を認識する。端末２は、メッセージ１２からユーザ名（＝たろう）を抽出すると、当該ユーザ名と端末２の端末ＩＤとをユーザ管理部３５に送信する。その後も、ユーザ１が発話すると、各メッセージ１５，メッセージ１７は、端末２を通してユーザ管理部３５に蓄積される。

話者識別学習部３４は、ユーザ管理部３５に保存されている端末ＩＤとユーザ名とを読み出して、話者モデル８０を生成する。話者モデル８０は、当該ユーザ名と端末ＩＤとを含む。したがって、以降は、端末２がユーザ１と対話することによりユーザ名が特定されると、当該ユーザに関連付けられた話者モデル８０が利用可能となる。

［制御構造］
図９〜図１１を参照して、本実施の形態に係る音声認識システムの制御構造について説明する。図９から図１１は、それぞれ、ユーザが発話の起点となる場合におけるシーケンスを表すフローチャートである。

ステップ９１０にて、ユーザによる話者識別学習用のシーケンスを開始するための発話が行なわれる。たとえば、ユーザは「しりとりしようよ」というメッセージ９１１を発する。音声入力部３１は、メッセージ９１１を受け付けると、メッセージ９１１に応じた音声信号を制御部３０に送信する。

ステップ９１５にて、制御部３０は、当該音声信号を受信したことを検知すると、音声認識リクエストを音声認識部３６に送信する。

ステップ９２０にて、制御部３０は、当該音声信号を受信したことを検知すると、話者モデルリスト取得リクエストをユーザ管理部３５に送信する。話者モデルリスト取得リクエストは、当該発話を与えたユーザに関連付けられている話者モデルリストにアクセスすることを要求する。

ステップ９２５にて、制御部３０は、当該話者モデルリスト取得リクエストに応答して、話者モデルリストレスポンスを制御部３０に送信する。話者モデルリストレスポンスは、当該ユーザに関連付けられている話者モデルリストの取得結果を含む。

ステップ９３０にて、制御部３０は、話者識別部３３に対して、話者識別リクエストを送信する。話者識別部３３は、話者識別リクエストの受信を検知すると、ユーザ管理部３５に保存されているデータを参照して、ステップ９１０にて発話を行なったユーザ（話者）の識別を試みる。

ステップ９３５にて、音声認識部３６は、ステップ９１５における音声認識リクエストに応答して、音声認識レスポンスを制御部３０に送信する。音声認識レスポンスは、音声認識が成功したか否かを含む。

ステップ９４０にて、話者識別部３３は、話者識別失敗レスポンスを話者識別部３３に送信する。すなわち、ユーザが音声認識システムに登録されていないため、話者識別部３３は、当該発話を与えたユーザ（話者）を識別することができない。そこで、話者の識別が失敗したことを通知する話者識別失敗レスポンスが、話者識別部３３から制御部３０に送られる。

ステップ９４５にて、制御部３０は、話者識別失敗レスポンスの受信に応答して、対話分析・生成リクエストを対話分析・生成部３７に送信する。対話分析・生成リクエストは、音声識別結果および話者識別結果を含み得る。対話分析・生成部３７は、対話分析・生成リクエストを受信すると、当該発話を与えたユーザの名前を取得するためのメッセージを生成する。たとえば、対話分析・生成部３７は、音声認識システムにおいて予め準備されているテンプレートと、メッセージ９１１に含まれる用語「しりとり」とを用いて、メッセージ９４６（しりとりをはじめるよ。それじゃ、名前を教えてね。）を作成する。

ステップ９５０にて、対話分析・生成部３７は、生成したメッセージ９４６を制御部３０に送信する。制御部３０は、当該メッセージの受信を検知すると、当該発話を与えた端末の端末ＩＤと当該メッセージとを含む音声レスポンスを生成する。

ステップ９５５にて、制御部３０は、音声出力部３２に対して、当該音声レスポンスを送信する。音声出力部３２は、当該音声レスポンスの信号を受信すると、当該信号に基づく音声を出力する。ユーザが当該音声を認識すると、その音声に対する発話を行なう。その発話は、音声入力部３１によって受け付けられる。

ステップ９６０にて、音声入力部３１は、受け付けたメッセージ９６１（名前登録発話）の内容を制御部３０に送信する。メッセージ９６１は、たとえば「たろうだよ」のように、メッセージ９４６に対する回答（名前）を含む。制御部３０は、メッセージ９６１の受信を検知すると、音声認識リクエストを生成する。

ステップ９６５にて、制御部３０は、音声認識部３６に対して音声認識リクエストを送信する。音声認識部３６は、音声認識リクエストの受信を検知すると、メッセージ９６１の音声認識処理を実行する。

ステップ９７０にて、制御部３０は、ユーザ管理部３５に対して、話者モデルリスト取得リクエストを送信する。ユーザ管理部３５は、話者モデルリクエストの受信を検知すると、話者モデルリストの取得を試みる。ユーザ管理部３５は、取得を試みた結果を話者モデルリストレスポンスとして生成する。

ステップ９７５にて、ユーザ管理部３５は、制御部３０に対して、話者モデルリストレスポンスを送信する。

ステップ９８０にて、制御部３０は、話者モデルリストレスポンスの受信に応答して、話者識別リクエストを話者識別部３３に送信する。話者識別部３３は、話者識別リクエストの受信を検知すると、話者の識別を開始し、識別結果を生成する。

図１０を参照して、ステップ１０１０にて、音声認識部３６は、話者識別リクエストに対する応答として、音声認識レスポンスを制御部３０に送信する。当該音声認識レスポンスは、メッセージ９６１の内容を認識できた旨を含み得る。

ステップ１０１５にて、話者識別部３３は、話者識別失敗レスポンスを制御部３０に送信する。すなわち、話者（たろう）は、音声認識システムにおいて登録されていない。そこで、話者識別部３３は、話者を識別する試みが失敗したことを表すレスポンスを生成する。

ステップ１０２０にて、制御部３０は、対話分析・生成リクエストを対話分析・生成部３７に送信する。対話分析・生成部３７は、対話分析・生成リクエストの受信に応答して、対話のためのメッセージ１０３１を生成する。メッセージ１０３１は、たとえば「たろうさんだね。それじゃはじめるよ。最初はりんご。」のように、発話の内容および話者を識別する情報を含むメッセージとして生成される。

ステップ１０３０にて、対話分析・生成部３７は、メッセージ１０３１を制御部３０に送信する。制御部３０は、メッセージ１０３１の受信を検知すると、端末への発話に対して応答するため、メッセージ１０３１と端末ＩＤとを含む音声レスポンスを生成する。

ステップ１０３５にて、制御部３０は、当該音声レスポンスを端末に送信する。端末の音声出力部３２は、音声レスポンスの信号を受信すると、当該信号に基づく音声を出力する。ユーザは、その音声を認識すると、次の応答を考えて、端末に発話する。音声入力部３１は、その発話、たとえば「ゴリラ」を受け付ける。

その後、しりとりのための数回のやり取りが行なわれる（ステップ１０４０以降）。
ステップ１０４０にて、音声入力部３１は、受け付けたメッセージ１０４１を制御部３０に送信する。制御部３０は、メッセージ１０４１の受信を検知すると、音声認識リクエストを生成する。

ステップ１０４５にて、制御部３０は、音声認識リクエストを音声認識部３６に送信する。音声認識部３６は、当該リクエストを受信すると、音声認識処理を開始する。

ステップ１０５０にて、制御部３０は、話者音声保存・リスト取得リクエストをユーザ管理部３５に送信する。ユーザ管理部３５は、当該リクエストの受信を検知すると、話者（たろう）の識別ＩＤと、話者（たろう）の名前とを、互いに関連付けることにより保存する。さらに、ユーザ管理部３５は、話者音声の保存が成功したことを表す応答を生成する。

ステップ１０５５にて、ユーザ管理部３５は、当該応答として、話者音声保存・リスト取得レスポンスを制御部３０に送信する。

ステップ１０６０にて、制御部３０は、話者識別モデル学習リクエストを話者識別学習部３４に送信する。話者識別学習部３４は、当該リクエストの受信を検知すると、話者識別モデルとして、当該発話を与えたユーザに音声を関連付けてモデルを生成し、適宜、更新する。

ステップ１０６５にて、音声認識部３６は、音声認識リクエストに基づく処理の結果を音声認識レスポンスとして制御部３０に送信する。

ステップ１０７０にて、話者識別学習部３４は、話者識別モデル学習リクエストに対する応答して、話者識別学習レスポンスを制御部３０に送信する。

ステップ１０７５にて、制御部３０は、対話分析・生成リクエストを生成して、生成したリクエストを対話分析・生成部３７に送信する。たとえば、制御部３０は、話者の学習のために十分なデータがなく学習失敗であると判断した場合には、当該リクエストを生成する。対話分析・生成部３７は、当該リクエストの受信を検知すると、さらに学習するためのメッセージ１０８１（たとえば、「ゴリラ・・・。それじゃぁ「ラクダ」）を生成する。

ステップ１０８０にて、対話分析・生成部３７は、生成したメッセージ１０８１を制御部３０に送信する。制御部３０は、メッセージ１０８１を受信すると、端末ＩＤとメッセージ１０８１とを含む音声レスポンスを生成する。

ステップ１０８５にて、制御部３０は、生成した音声レスポンスを端末に送信する。端末は、音声レスポンスを受信すると、音声出力部３２は、音声レスポンスに基づく音声を出力する。ユーザは、端末の音声出力部３２から発せられた音声を認識すると、その次の応答を考える。予め定められた時間内にユーザが、当該次の応答を発すると、音声入力部３１は、ユーザの発話を受け付けて、当該発話に応じた音声応答を生成する。

図１１を参照して、ステップ１１１０にて、音声入力部３１は、メッセージ１１１１（たとえば、「ダイヤモンド」）を制御部３０に送信する。制御部３０は、メッセージ１１１１の受信を検知すると、音声認識リクエストと、話者音声保存・リスト取得リクエストとを生成する。

ステップ１１１５にて、制御部３０は、音声認識リクエストを音声認識部３６に送信する。音声認識部３６は、当該リクエストの受信を検知すると、メッセージ１１１１の音声認識処理を開始する。

ステップ１１２０にて、制御部３０は、メッセージ１１１１と話者音声保存・リスト取得リクエストとをユーザ管理部３５に送信する。ユーザ管理部３５は、当該リクエストの受信を検知すると、メッセージ１１１１の内容（音声データ）を、ユーザ（話者）の識別ＩＤに関連付けて格納する。

ステップ１１３０にて、制御部３０は、話者識別モデル学習リクエストを話者識別学習部３４に送信する。話者識別学習部３４は、当該リクエストの受信を検知すると、話者識別モデルを学習する。より具体的には、話者識別学習部３４は、ユーザの識別ＩＤと、メッセージ１１１１に含まれる音声情報（たとえば、声紋情報）とを関連付けて保存する。学習が完了すると、話者識別学習部３４は、話者識別モデルの学習が完了したことを表すレスポンスを生成する。

ステップ１１３５にて、音声認識部３６は、音声認識処理が終わったことに応答して、音声認識処理の結果を通知する音声認識レスポンスを生成し、当該レスポンスを制御部３０に送信する。

ステップ１１４０にて、話者識別学習部３４は、生成したレスポンスと制御部３０に送信する。制御部３０は、音声認識部３６からのレスポンスと話者識別学習部３４からのレスポンスとを受信すると、学習に十分なデータが揃い、学習が完了したか否かを判断する。たとえば、予め定められた数以上の音声データがユーザの識別ＩＤに関連付けられた場合には、制御部３０は、学習に十分なデータが揃い学習が完了したと判断する。

制御部３０は、音声認識部３６からのレスポンスと話者識別学習部３４からのレスポンスの受信の内容に基づいて、対話分析・生成リクエストを生成する。たとえば、制御部３０は、各レスポンスの結果に基づいて、音声認識が成功し、かつ、学習に十分なデータが揃い学習が完了したと判断すると、当該リクエストを生成する。学習に十分なデータとは、たとえば、予め定められた一定時間内に音声データから抽出された情報量（一定のデータサイズを有する声紋情報の個数など）が学習に必要であると規定された情報量を超えているものをいう。

ステップ１１４５にて、制御部３０は、生成したリクエストを対話分析・生成部３７に送信する。対話分析・生成部３７は、当該リクエストの受信を検知すると、メッセージ１１１１に対するメッセージ１１５１を生成する。

ステップ１１５０にて、対話分析・生成部３７は、生成したメッセージ１１５１を制御部３０に送信する。制御部３０は、メッセージ１１５１の受信を検知すると、端末ＩＤとメッセージ１１５１とを含む音声レスポンスを生成する。

ステップ１１５５にて、制御部３０は、端末に音声レスポンスを生成する。端末は、音声レスポンスを受信すると、音声出力部３２から音声を出力する。

＜ユーザからの発話起点のシーケンス＞
図１２を参照して、他の局面について説明する。図１２は、ユーザが音声認識システムに既知である場合におけるユーザ１と端末２とのやり取りのシーケンスを表す図である。なお、前述の動作と同じ動作には同じ番号を付してある。したがって、同じ動作の説明は、繰り返さない。

ユーザが既に登録されている場合には、話者モデルが適宜更新される。したがって、常に直近のユーザの音声データに基づいた話者識別が可能となる。

ユーザ１が端末２に対して、メッセージ１０を発する。端末２は、メッセージ１０を受け付けると、音声認識処理と話者識別処理とを実行する。端末２は、話者識別処理の結果に基づいて、メッセージ１０の話者を識別できたと判断すると、その判断の結果に応じて、メッセージ１２１０を発する。メッセージ１２１０は、メッセージ１０に対する応答と、メッセージ１０の話者を確認するための問いかけとを含む。ユーザ１が、メッセージ１２１０に対するメッセージ１２２０を発すると、端末２は、メッセージ１２２０について音声認識処理と話者識別処理とを行なう。

端末２は、メッセージ１２２０の内容から、当該問いかけに対する回答が得られたと判断すると、端末２の端末ＩＤとユーザ名（たろう）とを含むデータをユーザ管理部３５に送信する。ユーザ管理部３５は、当該データを蓄積する。さらに、端末２は、メッセージ１２２０に対するメッセージ１２３０を発する。

その後、端末２は、ユーザ１からの発話を認識するたびに、端末ＩＤとユーザ名とを含むデータをユーザ管理部３５に送信する。ユーザ管理部３５は、各データを保存する。

話者識別学習部３４は、ユーザ管理部３５から、端末ＩＤとユーザ名とを参照して、蓄積されたデータから、当該ユーザに関連付けられたデータを読み出し、話者モデル８０を作成する。

図１３および図１４を参照して、ある局面に従う音声認識システムにおけるシーケンスについて説明する。図１３および図１４は、ユーザが既知である場合に行なわれる処理の流れを表すシーケンスチャートである。なお、前述の処理と同一の処理には同一のステップ番号を付してある。したがって、同一の処理の説明は繰り返さない。

ステップ１３４０にて、話者識別部３３は、話者識別が成功したことを通知するために、話者識別レスポンスを制御部３０に送信する。制御部３０は、当該レスポンスと、音声認識部３６からのレスポンスとの受信を検知すると、対話分析・生成リクエストを生成する。当該リクエストは、音声識別結果と話者識別結果とを含む。

ステップ１３４５にて、制御部３０は、対話分析・生成部３７に対して、対話分析・生成リクエストを送信する。対話分析・生成部３７は、当該リクエストの受信を検知すると、メッセージ９１１に応答するためのメッセージ１３５１を生成する。このとき、メッセージ１３５１は、メッセージ９１１に対する応答と、メッセージ９１１の発話者を確認するための問いかけとを含む。

ステップ１３５０にて、対話分析・生成部３７は、生成したメッセージ１３５１を制御部３０に送信する。制御部３０がメッセージ１３５１と端末ＩＤとを含む音声レスポンスを端末に送信すると、端末の音声出力部３２は、音声を発話する。ユーザは、当該音声を認識して当該音声が正しいと判断すると、たとえば「そうだよ」とのメッセージ１３６１を発する（名前登録発話）。

ステップ１３６０にて、音声入力部３１は、メッセージ１３６１の入力を受け付けると、その入力に応じた音声信号を制御部３０に送信する。その後、制御部３０は、音声認識リクエストを音声認識部３６に送信する（ステップ９６５）。

図１４を参照して、ステップ１４１０にて、話者識別部３３は、話者識別リクエスト（ステップ９８０）に対する応答を話者認識レスポンスとして話者識別部３３に送信する。ユーザが音声認識システムにとって既知である場合、話者認識レスポンスは、話者が識別されたことを表す。制御部３０は、当該レスポンスの受信を検知すると、対話分析・生成リクエストを生成する。

ステップ１４２０にて、制御部３０は、生成した対話分析・生成リクエストを対話分析・生成部３７に送信する。対話分析・生成部３７は、当該リクエストの受信を検知すると、メッセージ１４３１を生成する。メッセージ１４３１は、これまでのやり取りの結果に基づいて、メッセージ１３５１に含まれる問いかけ｛たろうさんかな？）が正しかったことを踏まえた内容（やっぱり！）を含む。

ステップ１４３０にて、対話分析・生成部３７は、メッセージ１４３１を制御部３０に送信する。制御部３０は、メッセージ１４３１の受信を検知すると、端末ＩＤとメッセージ１４３１とを含む音声レスポンスを生成する。

ステップ１４４０にて、制御部３０は、端末に音声レスポンスを送信する。音声出力部３２は、当該音声レスポンスに基づいて、メッセージ１４３１を音声で出力する。

その後、ステップ１０４０以降の処理が、前述の場合と同様に行なわれる。音声データが保存され、学習データ（たとえば、声紋情報等）は、対象ユーザの常に新しい音声データで更新される。なお、ユーザが既知の場合には、学習が完了しても、端末は、ユーザの名前を確認するための発話を行なわない。

＜端末が発話の起点となる場合＞
図１５〜図１７を参照して、さらに別の局面について説明する。図１５は、端末２からユーザ１に話しかけることが対話のトリガとなる場合を表す図である。

端末２からユーザに話しかけ、ユーザ発話及びユーザ名を聞き出すことによって得られた音声データをユーザ名と端末ＩＤとに紐付けることにより、音声データを学習する。

端末２は、ユーザ１の存在を検知すると、ユーザ１に対して話しかける。ユーザ１の存在の検知は、たとえば、赤外線センサ、人感センサ等からの出力に基づいて行なわれる。端末２は、たとえば、メッセージ１５１０を発する。ユーザ１は、メッセージ１５１０を認識する。

ユーザ１は、メッセージ１５１０に応答して、メッセージ１５２０を発する。端末２は、メッセージ１５１０を認識すると、音声認識処理と話者識別処理とを実行する。端末２は、各処理の結果に基づいて、ユーザ１に対する発話を切り換える。たとえば、話者が既知でないと判断すると、端末２は、メッセージ１５３０を生成し、音声でメッセージ１５３０を出力する。

ユーザ１は、メッセージ１５３０に応答してメッセージ１５４０を端末２に向けて発する。端末２は、メッセージ１５４０について音声認識処理および話者識別処理を実行する。さらに、端末２は、端末２のユーザ名として認識された話者「たろう」と端末ＩＤとを関連付け、これまで受け付けたユーザ１のメッセージ１５２０，１５４０を話者の音声データとしてユーザ管理部３５に蓄積する。

さらに、端末２は、メッセージ１５４０に対する応答としてメッセージ１５５０を生成し、音声でメッセージ１５５０を出力する。

ユーザ管理部３５には、ユーザ「たろう」に関連付けられた音声データと、音声データから取得された識別情報（たとえば声紋情報）とが蓄積される。

図１６および図１７を参照して、ある局面における音声認識システムの動作について説明する。図１６および図１７は、音声認識システムで行われる処理の一部を表すシーケンスチャートである。

ステップ１６１０にて、制御部３０は、予め定められた条件が成立したことを検知すると、対話生成リクエストを対話分析・生成部３７に送信する。当該条件は、たとえば、音声認識システムの範囲内でユーザの存在が検知されたこと、予め指定された時刻が到来したこと等である。対話生成リクエストは、たとえば、検出されたユーザに対して話しかけるためのメッセージ１５１０の生成要求を含む。対話分析・生成部３７は、当該リクエストの受信を検知すると、予め準備されたテンプレートに基づいて、メッセージ１５１０を生成する。

ステップ１６１５にて、対話分析・生成部３７は、当該リクエストに応答して生成したメッセージ１５１０を制御部３０に送信する。制御部３０は、メッセージ１５１０の受信を検知すると、メッセージ１５１０と端末ＩＤとを含む音声発話リクエストを端末に送信する。端末の音声入力部３１は、当該リクエストを受信すると、メッセージ１５１０を音声で出力する。ユーザは、メッセージ１５１０を認識すると、メッセージ１５１０に対する応答として、メッセージ１５２０を発する。

ステップ１６２５にて、音声入力部３１は、メッセージ１５２０を音声信号として制御部３０に送信する。その後、ステップ９１５からステップ１３４５まで、前述の処理と同様の処理が実行される。

ステップ１３５０にて、対話分析・生成部３７は、メッセージ１５３０を制御部３０に送信する。メッセージ１５３０に基づく音声が出力されると、ユーザは、メッセージ１５４０を発する。メッセージ１５４０は、制御部３０から音声認識部３６に送られ、音声認識処理が実行される（ステップ１０４５）。

図１７を参照して、ステップ１０５０からステップ１０７０までの処理が、同様に実行される。その後、制御部３０は、学習に十分なデータがなく、学習が失敗したと判断すると、ステップ１７４０の処理が実行される。より具体的には、ステップ１７４１にて、制御部３０は、対話分析・生成リクエストを対話分析・生成部３７に送信する。対話分析・生成部３７は、当該リクエストの受信を検知すると、当該リクエストに応じたメッセージ１５５０を生成する。

ステップ１７４２にて、対話分析・生成部３７は、メッセージ１５５０を制御部３０に送信する。制御部３０は、メッセージ１５５０の受信を検知すると、端末ＩＤとメッセージ１５５０とを含む音声レスポンスを生成する。

一方、制御部３０は、学習に十分なデータが揃い楽手が完了したと判断すると、ステップ１７５０の処理を実行する。より詳しくは、ステップ１７５１にて、制御部３０は、対話分析・生成リクエストを対話分析・生成部３７に送信する。対話分析・生成部３７は、当該リクエストの受信を検知すると、当該リクエストに応答するためのメッセージ１５６０を生成する。

ステップ１７５２にて、対話分析・生成部３７は、メッセージ１５６０を制御部３０に送信する。制御部３０は、メッセージ１５６０の受信を検知すると、端末ＩＤとメッセージ１５６０とを含む音声レスポンスを生成する。

ステップ１７６０にて、制御部３０は、当該音声レスポンスを端末に送信する。音声出力部３２は、音声レスポンスを受信すると、メッセージ１５６０を音声で出力する。

＜他の局面＞
さらに他の局面について説明する。他の局面において、以下の構成が用いられてもよい。

（１）音声認識と音声認証とが並列に行なわれる。したがって、ユーザの発話内容の認識と当該ユーザの認証とが同時に行なわれる。

（２）ユーザ毎に、対話内容のログに基づいて各ユーザの興味ある話題が推定され、推定された話題に基づく対話が生成される。

（３）対話数やその頻度に基づいて、ロボット（音声対話装置、あるいは音声対話システム）の発話内容が変化する。

これらの要素の結果、ユーザは、ロボット（音声対話システム）に親しみを持つことができる。

たとえば、構成（１）により、当該技術思想が適用される音声対話システムは、カメラや無線タグ等の機器からの情報を使用することなく、ユーザを特定し（音声認証）、また、当該ユーザの発言内容の取得（音声認識）が可能になる。

次に、構成（２）により、ユーザの日々の会話が音声対話システムに記憶され、必要に応じて分析される。音声対話システムは、分析結果に基づいて、各ユーザが興味ある話題（スポーツ、芸能ニュースなど）を他の情報提供装置から取得し、対話しているユーザに応じた話題を当該ユーザに提供することができる。

さらに、構成（３）により、音声対話システムとユーザとの対話が長期にかつ定期的に行われることにより、対話内容に応じて、音声対話システムからの発話の表現（言葉づかい、語調等）が変化し得る。その結果、ユーザが音声対話システム（あるいは、音声対話システムに含まれるロボットのような音声入出力端末）に対して親近感を持ち得る。これらの各構成は、適宜組み合され得る。

＜まとめ＞
以上のようにして、本実施の形態に係る音声認識システムによれば、ユーザは学習のための前処理を意識せずに、通常の音声対話を行うことにより、学習に必要な音声データをシステムに与えることができる。したがって、当該システムにより提供される機能を容易に利用することができる。

さらに他の局面において、ユーザが意識することなくユーザ認証され、当該ユーザに応じた話題が出力されるので、ユーザは音声認識システムにより提供されるサービスや機能に親近感を持ち得る。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

３０制御部、３１音声入力部、３２音声出力部、３３話者識別部、３４話者識別学習部、３５ユーザ管理部、３６音声認識部、３７生成部、８０話者モデル、３５０，４００，５００サーバ、４１０話者識別サーバ、５２０音声認識サーバ、６００端末モジュール、６１０メインモジュール、６２０話者識別モジュール、６３０音声認識モジュール。

Claims

音声認識装置であって、
話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とをそれぞれ受け付けるための音声入力部と、
音声認識処理を行うための音声認識部と、
音声を出力するための音声出力部と、
前記音声認識処理の結果に基づいて前記音声認識装置を制御するための制御部とを備え、
前記音声出力部は、話者とゲームを行うことにより得られる話者を識別する情報を含まない発話の後に、話者を識別する情報を尋ねる問い合わせを出力し、
前記制御部は、前記問い合わせの前に発せられた前記話者を識別する情報を含まない発話と、前記問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることにより、話者を識別するための話者識別モデルを生成する、音声認識装置。
前記ゲームは、しりとりゲーム、および早口言葉ゲームのうち少なくとも一方のゲームを含む、請求項１に記載の音声認識装置。
前記制御部は、前記音声出力部から出力される発話に対する応答の内容に基づいて、前記音声出力部から次に出力する発話の内容を決定するように構成されている、請求項１または２に記載の音声認識装置。
難易度の異なる複数の問い合わせを記憶するための記憶装置をさらに備え、
前記制御部は、前記音声入力部が受け付ける前記ゲームのための発話の内容に基づいて、前記音声出力部から次に出力される前記ゲームのための発話の内容を、前記記憶装置に記憶される複数の問い合わせの中から決定するように構成されている、請求項１〜３のいずれかに記載の音声認識装置。
生成された前記話者識別モデルを格納するための記憶部をさらに備え、
前記制御部は、
前記問い合わせに対する応答に基づいて、前記生成された話者識別モデルを更新するように構成されている、請求項１〜４のいずれかに記載の音声認識装置。
音声認識システムであって、
端末と、
前記端末と通信可能な装置とを備え、
前記端末は、
話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とを受け付けるための音声入力部と、
音声を出力するための音声出力部と、
前記音声入力部および前記音声出力部に電気的に接続されて、前記装置と通信するための通信部とを備え、
前記音声出力部は、話者とゲームを行うことにより得られる話者を識別する情報を含まない発話の後に、話者を識別する情報を尋ねる問い合わせを出力するように構成され、
前記装置は、
前記端末と通信するための通信部と、
音声認識処理を行うための音声認識処理部と、
前記音声認識処理の結果に基づいて前記装置を制御するための制御部とを備え、
前記制御部は、前記問い合わせの前に発せられた前記話者を識別する情報を含まない発話と、前記問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることにより、話者を識別するための話者識別モデルを生成する、音声認識システム。
請求項６に記載の音声認識システムで使用される端末。
話者識別モデルを生成するための方法であって、
ゲームを行うことにより話者を識別する情報を含まない発話を受け付けるステップと、
話者を識別する情報を尋ねる問い合わせを出力するステップと、
前記問い合わせに応答する発話を受け付けるステップと、
音声認識処理を行うステップと、
前記音声認識処理の結果に基づいて、前記問い合わせの前に発せられた前記話者を識別する情報を含まない発話と、前記問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることにより、話者を識別するための話者識別モデルを生成するステップとを含む、方法。