JP6084654B2 - 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 - Google Patents

音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 Download PDF

Info

Publication number
JP6084654B2
JP6084654B2 JP2015113949A JP2015113949A JP6084654B2 JP 6084654 B2 JP6084654 B2 JP 6084654B2 JP 2015113949 A JP2015113949 A JP 2015113949A JP 2015113949 A JP2015113949 A JP 2015113949A JP 6084654 B2 JP6084654 B2 JP 6084654B2
Authority
JP
Japan
Prior art keywords
speaker
terminal
unit
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015113949A
Other languages
English (en)
Other versions
JP2017003611A (ja
Inventor
泰貴 畠山
泰貴 畠山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2015113949A priority Critical patent/JP6084654B2/ja
Priority to PCT/JP2016/065500 priority patent/WO2016194740A1/ja
Publication of JP2017003611A publication Critical patent/JP2017003611A/ja
Application granted granted Critical
Publication of JP6084654B2 publication Critical patent/JP6084654B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Description

本開示は音声認識に関し、より特定的には、話者を識別する技術に関する。
音声認識において話者を識別する技術が知られている。たとえば、特開2010−217319号公報(特許文献1)は、「音声信号から話者の特定を行う話者特定装置において、話者特定のための精度向上を図る」ための技術を開示している([要約]参照)。特開平7−261781号公報(特許文献2)は、「話者認識精度が高い話者認識のための音素モデルを作成する学習方法」を開示している([要約]参照)。
特開2010−217319号公報 特開平7−261781号公報
従来の音声に基づく話者識別では、話者を識別するためのモデルは予め与えられているものとし、より短いユーザ発話で効率よいモデルを構築することが目標とされている。そのため、短いながらも1分〜2分程度の発話を予めユーザに要求し、得られた音声データから話者識別のモデルの確立を行っている。
従来の技術は、ユーザに前処理としての発話を要求するものである。しかしながら、音声コミュニケーションにおける話者識別では、より自然な対話を行うために、ユーザの発話が学習のために用いられていることをユーザに感じさせることなく学習データを取得する必要がある。そのため、話者識別のモデルが構築されていない状態でユーザに負荷を強いることなく話者識別のモデルを構築するために必要な音声データを取得する必要がある。
本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、話者識別のモデルを構築するために必要な音声データを取得できる音声認識装置を提供することである。
他の局面における目的は、話者識別のモデルを構築するために必要な音声データを取得できる音声認識システムを提供することである。
他の局面における目的は、当該音声認識システムで使用される端末を提供することである。
さらに他の局面における目的は、話者識別のモデルを構築するために必要な話者識別モデルを生成するための方法を提供することである。
一実施の形態に従う音声認識装置は、話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とをそれぞれ受け付けるための音声入力部と、音声認識処理を行うための音声認識部と、音声を出力するための音声出力部と、音声認識処理の結果に基づいて音声認識装置を制御するための制御部とを備える。制御部は、話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることにより、話者を識別するための話者識別モデルを生成する。
ある局面において、ユーザは、学習のための前処理を意識せずに、通常の音声対話を行うことのみで、学習に必要な音声データが収集され得る。
この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。
しりとりゲームが行われる場合におけるユーザ1と端末2とのやり取りを表わす図である。 本開示に係る第1の実施例に従う音声認識システムの構成の概要を表す図である。 本開示に係る第2の実施例に従う音声認識システムの構成の概要を表す図である。 本開示に係る第3の実施例に従う音声認識システムの構成の概要を表す図である。 本開示に係る第4の実施例に従う音声認識システムの構成の概要を表す図である。 本開示に係る音声認識システムを実現する機能の構成を表すブロック図である。 音声認識システムにおいて保持されるデータの格納の一態様を概念的に表す図である。 ユーザ1と端末2との間の対話により話者モデル80が生成される状態を表す図である。 ユーザが発話の起点となる場合におけるシーケンスを表すフローチャート(その1)である。 ユーザが発話の起点となる場合におけるシーケンスを表すフローチャート(その2)である。 ユーザが発話の起点となる場合におけるシーケンスを表すフローチャート(その3)である。 ユーザが音声認識システムに既知である場合におけるユーザ1と端末2とのやり取りのシーケンスを表す図である。 ユーザが既知である場合に行なわれる処理の流れを表すシーケンスチャート(その1)である。 ユーザが既知である場合に行なわれる処理の流れを表すシーケンスチャート(その2)である。 端末2からユーザ1に話しかけることが対話のトリガとなる場合を表す図である。 音声認識システムで行われる処理の一部を表すシーケンスチャート(その1)である。 音声認識システムで行われる処理の一部を表すシーケンスチャート(その2)である。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
<技術思想>
本開示によれば、ユーザが不定の場合に音声対話内容でユーザ名を問いかけてユーザを分類することにより話者識別のためのモデル構築に必要な音声データ(たとえば声紋情報)が収集される。例えば、「しりとり」や早口言葉等のゲームのような対話では、ゲーム相手(たとえば、端末、家電機器等)に対する複数回のユーザ発話が期待される。このような場合に、ゲーム相手となる装置は、予めユーザ名を問いかけてゲームをすることにより一連のユーザ発話を学習データとすることができる。または、ある未知のユーザが発話した後にユーザ名を問いかけることで一時刻前の未知のユーザ名を確定することができる。
本実施の形態では、音声認識の一例として、たとえば形態素解析が用いられる。この解析手法によれば、固有名詞とそうでないものが切り分けられる。たとえば、音声認識システムは、名前の辞書をデータベースとして有し得る。音声認識は、形態素解析において辞書と抽出された固有名詞とをマッチングすることにより行なわれる。
<構成の概要>
(構成1)ある局面に従う音声認識装置は、話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とをそれぞれ受け付けるためのマイクと、音声認識処理を行うためのプロセッサと、音声を出力するためのスピーカと、音声認識処理の結果に基づいて音声認識装置を制御するためのプロセッサとを備える。プロセッサは、話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることにより、話者を識別するための話者識別モデルを生成する。話者識別モデルは、たとえば、話者の識別ID(Identification)と、話者(音声認識装置のユーザ)の名前と、当該話者の発話から抽出された声紋情報等を含み得る。
本実施の形態において、話者を識別する情報としては、たとえば、名前、あだ名、住民番号、政府機関から与えられた識別番号その他の情報であって、発話に含めることが可能な語句をいう。
(構成2)好ましくは、スピーカは、話者を識別する情報を尋ねる問い合せを出力する。話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることは、話者を識別する情報と、問い合わせの後に発せられた話者を識別する情報を含まない発話とを関連付けることを含む。
(構成3)好ましくは、スピーカは、話者を識別する情報を含まない発話の後に、話者を識別する情報を尋ねる問い合せを出力する。話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることは、問い合わせの前に発せられた発話と、問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることを含む。
(構成4)プロセッサは、スピーカから出力される発話に対する応答の内容に基づいて、スピーカから次に出力する発話の内容を決定するように構成されている。たとえば、音声認識装置は、複数の問い合わせを予め保持している。各問い合せの難易度は、階層的に異なる。ある局面において、難易度が中位である問い合わせの発話に対して、予め定められた一定時間内に応答が返ってこない場合、あるいは、応答が正しくない場合、プロセッサは、難易度が低い問い合わせ(しりとりの問題)を発話する。別の局面において、予め定められた一定時間内に早期に応答が返ってきた場合、プロセッサは、難易度が高い問い合わせ(しりとりの問題)を次の問い合わせとして発話する。
(構成5)当該音声認識装置は、生成された話者識別モデルを格納するためのメモリをさらに備える。プロセッサは、問い合わせに対する応答に基づいて、生成された話者識別モデルを更新するように構成されている。
(構成6)別の局面に従うと、音声認識システムが提供される。音声認識システムは、端末と、当該端末と通信可能な装置とを備える。端末は、話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とを受け付けるためのマイクと、音声を出力するためのスピーカと、マイクおよびスピーカに電気的に接続されて、当該装置と通信するための通信インターフェイスとを備える。装置は、端末と通信するための通信インターフェイスと、音声認識処理を行うためのプロセッサと、音声認識処理の結果に基づいて装置を制御するためのプロセッサとを備える。プロセッサは、話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることにより、話者を識別するための話者識別モデルを生成する。
<技術思想の背景>
図1を参照して、本実施の形態に係る技術思想の背景について説明する。図1は、しりとりゲームが行われる場合におけるユーザ1と端末2とのやり取りを表わす図である。ユーザ1は、端末2に対して、メッセージ10を発する。端末2は、メッセージ10を認識すると、応答として、メッセージ11を発する。
ユーザ1は、端末2に対して、メッセージ12を発する。端末2は、メッセージ12を認識すると、メッセージ12に含まれる名前と予め規定されたメッセージとを用いて合成されたメッセージ13を発する。
予め定められた時間が経過すると、端末2は、メッセージ14を発する。ユーザ1は、メッセージ14を認識すると、予め規定された時間内に、応答として、メッセージ14に続く言葉を考える。ユーザ1が、端末2に対して、メッセージ15を発する。端末2は、メッセージ15を認識すると、予め準備された国語辞書を参照して、メッセージ15に続く言葉を考える。端末2は、予め規定された時間内に、メッセージ15に対する言葉としてメッセージ16を発する。このようにして、ユーザ1と端末2とは、しりとりゲームを続ける。
端末2の発話に対して、ユーザ1が予め規定された時間内に次の言葉を返せる場合は、同様にしりとりが続く。たとえば、ユーザ1が端末2に対してメッセージ17を発する。端末2は、メッセージ17を認識すると、メッセージ18を発する。
一方、ユーザ1が次の言葉を返せない場合がある。この場合、ユーザ1は沈黙を続けるか、分からない旨のメッセージ19を発することになる。端末2は、予め定められた一定の待ち時間内にユーザ1からの応答がないと判断した場合、あるいは、メッセージ19を認識した場合には、その内容について予め規定されていたメッセージ20を発する。
このような場合、端末2は、ユーザ1との間のメッセージのやり取りを通じて、ユーザ1が「たろう」であることを認識し、ユーザ情報として「たろう」を各データに関連付ける。
図2〜図5を参照して本開示に係る音声認識システムの構成について説明する。
[端末]
図2は、本開示に係る第1の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムでは、ひとつの端末200が音声認識システムとして機能する。
端末200は、制御部30と、音声入力部31と、音声出力部32と、話者識別部33と、話者識別学習部34と、ユーザ管理部35と、音声認識部36と、対話分析・生成部37とを備える。端末200は、たとえば、音声入出力機能と音声認識機能とを備える端末であればよい。当該端末は、たとえば、スマートフォン、テレビ、スタンドアロンで作動し得るお掃除ロボットその他の機器を含み得る。
制御部30は、端末200の動作を制御する。音声入力部31は、音声の入力を受け付けて信号を制御部30に出力する。音声出力部32は、制御部30から出力された信号を音声に変換して、端末200の外部に音声を出力する。音声出力部32は、たとえばスピーカ、端子等を含む。話者識別部33は、制御部30から送られる信号に基づいて、端末200に対する発話を行なった話者を識別する。別の局面において、話者識別部33は、当該信号と端末200に保存されているデータとに基づいて話者を識別する。当該データは、たとえば、端末200のユーザとして予め登録された声紋情報等を含み得る。
話者識別学習部34は、話者識別部33により識別された話者の情報(ユーザID等)を用いて、話者毎のデータ(ユーザプロファイル)を作成する。ユーザ管理部35は、端末200のユーザ情報を保存する。ユーザ情報は、ユーザプロファイル等を含み得る。音声認識部36は、制御部30から送られる音声信号を用いて音声認識処理を実行する。たとえば、音声認識部36は、発話に含まれている文字を抽出する。
対話分析・生成部37は、音声認識部36による認識の結果に基づいて端末200に対するメッセージを分析する。さらに、対話分析・生成部37は、分析の結果に応じて、当該発話に応じた応答を生成する。別の局面において、対話分析・生成部37は、端末200における設定に基づいて、端末200のユーザに対する働きかけのための発話を生成する。当該設定は、たとえば、端末200が、自己の近傍にユーザの存在を検知したこと、予め設定された時刻が到来したこと等を含み得る。
[端末+サーバ]
図3は、本開示に係る第2の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムは、端末300と、サーバ350とを備える。端末300は、音声入力部31と、音声出力部32とを備える。端末300は、プロセッサ(図示しない)によって制御される。サーバ350は、制御部30と、話者識別部33と、話者識別学習部34と、ユーザ管理部35と、音声認識部36と、対話分析・生成部37とを備える。端末300は、たとえば、音声入出力機能と通信機能とを備える端末として実現される。そのような端末は、たとえば、携帯電話その他の情報通信端末、音声認識機能と通信機能とを備えるお掃除ロボットその他の機器等を含み得る。
端末300は、ユーザの発話を受け付けると、その発話に応じた音声信号を、通信インターフェイス(図示しない)を介してサーバ350に送信する。サーバ350は、その音声信号を受信すると、話者識別処理、音声認識処理、対話分析、応答生成等の処理を実行する。各処理は、図2に示される構成によって実現される処理と同様なので、詳細な説明は繰り返さない。
サーバ350は、生成された応答を通信インターフェイス(図示しない)を介して端末300に送信する。端末300がその応答を受信すると、音声出力部32は、その応答に応じた音声を出力する。
[端末+サーバ+話者識別サーバ]
図4は、本開示に係る第3の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムは、端末300と、サーバ400と、話者識別サーバ410とを備える。サーバ400は、制御部30と、ユーザ管理部35と、音声認識部36と、対話分析・生成部37とを備える。話者識別サーバ410は、話者識別部33と、話者識別学習部34とを備える。
サーバ400と話者識別サーバ410とは、公知の構成を有するコンピュータ装置によって実現される。当該コンピュータは、主たる構成要素として、プログラムを実行するCPU(Central Processing Unit)と、キーボードその他の入力装置と、RAM(Random Access Memory)と、ハードディスクと、光ディスク駆動装置と、モニタと、通信IF(Interface)とを備える。
コンピュータにおける処理は、各ハードウェアおよびCPUにより実行されるソフトウェアによって実現される。ある局面において、当該ソフトウェアは、ハードディスクに予め格納されている。別の局面において、当該ソフトウェアは、CD−ROMその他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されてプログラム製品として流通している。さらに別の局面において、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。
コンピュータのハードウェア構成は、一般的なものである。したがって、サーバ400と話者識別サーバ410のハードウェア構成の説明は繰り返さない。本実施の形態に係る技術思想を実現する本質的な部分は、当該コンピュータに格納されたプログラムであるともいえる。
サーバ400は、端末300から送られた音声信号を受信すると、通信インターフェイスを介して、その音声信号を話者識別サーバ410に送信する。
話者識別サーバ410は、話者を認識し、また、話者を登録するためのデータを生成する。話者識別サーバ410は、生成したデータをサーバ400に送信する。
[端末+サーバ+話者識別サーバ+音声認識サーバ]
図5は、本開示に係る第4の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムは、端末300と、サーバ500と、話者識別サーバ410と、音声認識サーバ520とを備える。サーバ500は、制御部30と、ユーザ管理部35と、対話分析・生成部37とを備える。音声認識サーバ520は、音声認識部36を備える。
サーバ500は、端末300から音声信号を受信すると、その音声信号を話者識別サーバ410および音声認識サーバ520に送信する。音声認識サーバ520は、当該音声信号を用いて音声認識処理を実行し、認識の結果をサーバ500に送信する。
その他の動作は、前述の他の実施例に従う音声認識システムの構成における動作と同様である。したがって、他の動作の説明は繰り返さない。
[機能構成]
図6は、本開示に係る音声認識システムを実現する機能の構成を表すブロック図である。音声認識システムは、端末モジュール600と、メインモジュール610と、話者識別モジュール620と、音声認識モジュール630とを備える。
端末モジュール600は、音声入力部31と音声出力部32とを備える。端末モジュール600は、ユーザの近傍にあって発話を受け付けて、音声データと端末IDとをメインモジュール610に送信する。別の局面において、端末モジュール600は、メインモジュール610から送られた合成音声データを受信し、合成音声データに基づく音声を音声出力部32から出力する。
メインモジュール610において、制御部30は、音声データと話者モデルリストとを話者識別モジュール620に送信する。話者識別モジュール620は、話者を識別すると、話者識別結果(たとえば、メッセージのID、話者が識別できたことを表すフラグ等)をメインモジュール610に送信する。
制御部30は、端末IDまたは音声データをユーザ管理部35に送信する。ユーザ管理部35は、端末IDまたは音声データを保存する。
制御部30は、ユーザ管理部35から話者モデルリストを読み出す。
制御部30は、対話分析・生成部37との間で、たとえば、テキストデータのやり取りを行なう。
制御部30は、音声データを音声認識モジュール630に送信する。音声認識モジュール630は、音声データを用いて音声認識処理を実行すると、その結果をテキストとして制御部30に送る。
図6に示される機能は、図2〜図5に示される構成のいずれかによって実現される。
[データ構造]
図7を参照して、本実施の形態に係る音声認識システムのデータ構造について説明する。図7は、音声認識システムにおいて保持されるデータの格納の一態様を概念的に表す図である。ある局面において、音声認識システムは、端末管理テーブルと、家庭管理テーブルと、ユーザ管理テーブルとを含む。
(端末管理テーブル)
端末管理テーブルは、端末IDと、所属ユーザIDとを含む。端末IDは、音声認識システムにおいて登録された端末を識別する。ある局面において、端末IDは、音声認識システムの管理者(たとえば、制御部30を含むコンピュータの管理者)によって一意に付与される。別の局面において、端末IDは、当該端末のユーザが希望する任意の文字列(たとえば、英数字、記号など)によって構成される。この場合、端末IDの重複が生じないように、たとえば、制御部30は、ユーザによって入力されたIDが既に使用されているか否かをチェックし、使用済みの端末IDが入力された場合は、その旨を端末に通知する。所属ユーザIDは、当該端末の使用者として登録されたユーザを識別する。端末の使用者の数は特に限られない。
(家庭管理テーブル)
家庭管理テーブルは、家庭IDと、当該家庭に所属する端末の端末IDとを含む。家庭IDは、音声認識システムのサービスを利用するユーザのグループとして家庭を識別する。ユーザのグループの単位は家庭に限られない。複数のユーザが一つのグループに関連付けられるものであればよい。家庭IDには、1つ以上の端末の各端末IDが関連付けられている。家庭に関連付けられる端末の数は特に限られない。
(ユーザ管理テーブル)
ユーザ管理テーブルは、ユーザIDと、ユーザ名と、話者モデルデータと、音声データリストとを含む。
ユーザIDは、端末を使用するユーザを識別する。ユーザ名は、当該ユーザIDが割り当てられたユーザを識別する。話者モデルデータは、当該ユーザを識別するためのデータである。話者モデルデータは、たとえば、声紋情報を含み得る。
音声データリストは、当該ユーザを識別するための音声データを含む。当該音声データは、ユーザから端末に対する発話、端末の発話に対するユーザの応答、端末に表示された文字列のユーザによる発話等を含み得る。
[話者モデルの生成]
図8を参照して、話者モデルの生成について説明する。図8は、ユーザ1と端末2との間の対話により話者モデル80が生成される状態を表す図である。なお、図1における状態と同様の状態の説明は繰り返さない。
ユーザ1と端末2との対話において、ユーザ1が未登録の場合には、端末2は、まず最初にユーザ名を聞いて、以降の一定区間(たとえば、ゲーム終了等)までをそのユーザの発話として音声データをデータベースに登録する。音声データは声紋情報を含み得る。
ユーザ発話毎に、話者識別学習部は、対象の音声DB(Database)からこれまでの音声データ全てを学習データとして話者識別の学習を行う。
IDが端末ごとに割り当てられる。端末とユーザ名とによってユーザを管理することにより他端末で同名のユーザがいるばあいでも対応可能となる。
ユーザ1が自身の名前を発すると(メッセージ12)、端末2はメッセージ12を認識する。端末2は、メッセージ12からユーザ名(=たろう)を抽出すると、当該ユーザ名と端末2の端末IDとをユーザ管理部35に送信する。その後も、ユーザ1が発話すると、各メッセージ15,メッセージ17は、端末2を通してユーザ管理部35に蓄積される。
話者識別学習部34は、ユーザ管理部35に保存されている端末IDとユーザ名とを読み出して、話者モデル80を生成する。話者モデル80は、当該ユーザ名と端末IDとを含む。したがって、以降は、端末2がユーザ1と対話することによりユーザ名が特定されると、当該ユーザに関連付けられた話者モデル80が利用可能となる。
[制御構造]
図9〜図11を参照して、本実施の形態に係る音声認識システムの制御構造について説明する。図9から図11は、それぞれ、ユーザが発話の起点となる場合におけるシーケンスを表すフローチャートである。
ステップ910にて、ユーザによる話者識別学習用のシーケンスを開始するための発話が行なわれる。たとえば、ユーザは「しりとりしようよ」というメッセージ911を発する。音声入力部31は、メッセージ911を受け付けると、メッセージ911に応じた音声信号を制御部30に送信する。
ステップ915にて、制御部30は、当該音声信号を受信したことを検知すると、音声認識リクエストを音声認識部36に送信する。
ステップ920にて、制御部30は、当該音声信号を受信したことを検知すると、話者モデルリスト取得リクエストをユーザ管理部35に送信する。話者モデルリスト取得リクエストは、当該発話を与えたユーザに関連付けられている話者モデルリストにアクセスすることを要求する。
ステップ925にて、制御部30は、当該話者モデルリスト取得リクエストに応答して、話者モデルリストレスポンスを制御部30に送信する。話者モデルリストレスポンスは、当該ユーザに関連付けられている話者モデルリストの取得結果を含む。
ステップ930にて、制御部30は、話者識別部33に対して、話者識別リクエストを送信する。話者識別部33は、話者識別リクエストの受信を検知すると、ユーザ管理部35に保存されているデータを参照して、ステップ910にて発話を行なったユーザ(話者)の識別を試みる。
ステップ935にて、音声認識部36は、ステップ915における音声認識リクエストに応答して、音声認識レスポンスを制御部30に送信する。音声認識レスポンスは、音声認識が成功したか否かを含む。
ステップ940にて、話者識別部33は、話者識別失敗レスポンスを話者識別部33に送信する。すなわち、ユーザが音声認識システムに登録されていないため、話者識別部33は、当該発話を与えたユーザ(話者)を識別することができない。そこで、話者の識別が失敗したことを通知する話者識別失敗レスポンスが、話者識別部33から制御部30に送られる。
ステップ945にて、制御部30は、話者識別失敗レスポンスの受信に応答して、対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成リクエストは、音声識別結果および話者識別結果を含み得る。対話分析・生成部37は、対話分析・生成リクエストを受信すると、当該発話を与えたユーザの名前を取得するためのメッセージを生成する。たとえば、対話分析・生成部37は、音声認識システムにおいて予め準備されているテンプレートと、メッセージ911に含まれる用語「しりとり」とを用いて、メッセージ946(しりとりをはじめるよ。それじゃ、名前を教えてね。)を作成する。
ステップ950にて、対話分析・生成部37は、生成したメッセージ946を制御部30に送信する。制御部30は、当該メッセージの受信を検知すると、当該発話を与えた端末の端末IDと当該メッセージとを含む音声レスポンスを生成する。
ステップ955にて、制御部30は、音声出力部32に対して、当該音声レスポンスを送信する。音声出力部32は、当該音声レスポンスの信号を受信すると、当該信号に基づく音声を出力する。ユーザが当該音声を認識すると、その音声に対する発話を行なう。その発話は、音声入力部31によって受け付けられる。
ステップ960にて、音声入力部31は、受け付けたメッセージ961(名前登録発話)の内容を制御部30に送信する。メッセージ961は、たとえば「たろうだよ」のように、メッセージ946に対する回答(名前)を含む。制御部30は、メッセージ961の受信を検知すると、音声認識リクエストを生成する。
ステップ965にて、制御部30は、音声認識部36に対して音声認識リクエストを送信する。音声認識部36は、音声認識リクエストの受信を検知すると、メッセージ961の音声認識処理を実行する。
ステップ970にて、制御部30は、ユーザ管理部35に対して、話者モデルリスト取得リクエストを送信する。ユーザ管理部35は、話者モデルリクエストの受信を検知すると、話者モデルリストの取得を試みる。ユーザ管理部35は、取得を試みた結果を話者モデルリストレスポンスとして生成する。
ステップ975にて、ユーザ管理部35は、制御部30に対して、話者モデルリストレスポンスを送信する。
ステップ980にて、制御部30は、話者モデルリストレスポンスの受信に応答して、話者識別リクエストを話者識別部33に送信する。話者識別部33は、話者識別リクエストの受信を検知すると、話者の識別を開始し、識別結果を生成する。
図10を参照して、ステップ1010にて、音声認識部36は、話者識別リクエストに対する応答として、音声認識レスポンスを制御部30に送信する。当該音声認識レスポンスは、メッセージ961の内容を認識できた旨を含み得る。
ステップ1015にて、話者識別部33は、話者識別失敗レスポンスを制御部30に送信する。すなわち、話者(たろう)は、音声認識システムにおいて登録されていない。そこで、話者識別部33は、話者を識別する試みが失敗したことを表すレスポンスを生成する。
ステップ1020にて、制御部30は、対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成部37は、対話分析・生成リクエストの受信に応答して、対話のためのメッセージ1031を生成する。メッセージ1031は、たとえば「たろうさんだね。それじゃはじめるよ。最初はりんご。」のように、発話の内容および話者を識別する情報を含むメッセージとして生成される。
ステップ1030にて、対話分析・生成部37は、メッセージ1031を制御部30に送信する。制御部30は、メッセージ1031の受信を検知すると、端末への発話に対して応答するため、メッセージ1031と端末IDとを含む音声レスポンスを生成する。
ステップ1035にて、制御部30は、当該音声レスポンスを端末に送信する。端末の音声出力部32は、音声レスポンスの信号を受信すると、当該信号に基づく音声を出力する。ユーザは、その音声を認識すると、次の応答を考えて、端末に発話する。音声入力部31は、その発話、たとえば「ゴリラ」を受け付ける。
その後、しりとりのための数回のやり取りが行なわれる(ステップ1040以降)。
ステップ1040にて、音声入力部31は、受け付けたメッセージ1041を制御部30に送信する。制御部30は、メッセージ1041の受信を検知すると、音声認識リクエストを生成する。
ステップ1045にて、制御部30は、音声認識リクエストを音声認識部36に送信する。音声認識部36は、当該リクエストを受信すると、音声認識処理を開始する。
ステップ1050にて、制御部30は、話者音声保存・リスト取得リクエストをユーザ管理部35に送信する。ユーザ管理部35は、当該リクエストの受信を検知すると、話者(たろう)の識別IDと、話者(たろう)の名前とを、互いに関連付けることにより保存する。さらに、ユーザ管理部35は、話者音声の保存が成功したことを表す応答を生成する。
ステップ1055にて、ユーザ管理部35は、当該応答として、話者音声保存・リスト取得レスポンスを制御部30に送信する。
ステップ1060にて、制御部30は、話者識別モデル学習リクエストを話者識別学習部34に送信する。話者識別学習部34は、当該リクエストの受信を検知すると、話者識別モデルとして、当該発話を与えたユーザに音声を関連付けてモデルを生成し、適宜、更新する。
ステップ1065にて、音声認識部36は、音声認識リクエストに基づく処理の結果を音声認識レスポンスとして制御部30に送信する。
ステップ1070にて、話者識別学習部34は、話者識別モデル学習リクエストに対する応答して、話者識別学習レスポンスを制御部30に送信する。
ステップ1075にて、制御部30は、対話分析・生成リクエストを生成して、生成したリクエストを対話分析・生成部37に送信する。たとえば、制御部30は、話者の学習のために十分なデータがなく学習失敗であると判断した場合には、当該リクエストを生成する。対話分析・生成部37は、当該リクエストの受信を検知すると、さらに学習するためのメッセージ1081(たとえば、「ゴリラ・・・。それじゃぁ「ラクダ」)を生成する。
ステップ1080にて、対話分析・生成部37は、生成したメッセージ1081を制御部30に送信する。制御部30は、メッセージ1081を受信すると、端末IDとメッセージ1081とを含む音声レスポンスを生成する。
ステップ1085にて、制御部30は、生成した音声レスポンスを端末に送信する。端末は、音声レスポンスを受信すると、音声出力部32は、音声レスポンスに基づく音声を出力する。ユーザは、端末の音声出力部32から発せられた音声を認識すると、その次の応答を考える。予め定められた時間内にユーザが、当該次の応答を発すると、音声入力部31は、ユーザの発話を受け付けて、当該発話に応じた音声応答を生成する。
図11を参照して、ステップ1110にて、音声入力部31は、メッセージ1111(たとえば、「ダイヤモンド」)を制御部30に送信する。制御部30は、メッセージ1111の受信を検知すると、音声認識リクエストと、話者音声保存・リスト取得リクエストとを生成する。
ステップ1115にて、制御部30は、音声認識リクエストを音声認識部36に送信する。音声認識部36は、当該リクエストの受信を検知すると、メッセージ1111の音声認識処理を開始する。
ステップ1120にて、制御部30は、メッセージ1111と話者音声保存・リスト取得リクエストとをユーザ管理部35に送信する。ユーザ管理部35は、当該リクエストの受信を検知すると、メッセージ1111の内容(音声データ)を、ユーザ(話者)の識別IDに関連付けて格納する。
ステップ1130にて、制御部30は、話者識別モデル学習リクエストを話者識別学習部34に送信する。話者識別学習部34は、当該リクエストの受信を検知すると、話者識別モデルを学習する。より具体的には、話者識別学習部34は、ユーザの識別IDと、メッセージ1111に含まれる音声情報(たとえば、声紋情報)とを関連付けて保存する。学習が完了すると、話者識別学習部34は、話者識別モデルの学習が完了したことを表すレスポンスを生成する。
ステップ1135にて、音声認識部36は、音声認識処理が終わったことに応答して、音声認識処理の結果を通知する音声認識レスポンスを生成し、当該レスポンスを制御部30に送信する。
ステップ1140にて、話者識別学習部34は、生成したレスポンスと制御部30に送信する。制御部30は、音声認識部36からのレスポンスと話者識別学習部34からのレスポンスとを受信すると、学習に十分なデータが揃い、学習が完了したか否かを判断する。たとえば、予め定められた数以上の音声データがユーザの識別IDに関連付けられた場合には、制御部30は、学習に十分なデータが揃い学習が完了したと判断する。
制御部30は、音声認識部36からのレスポンスと話者識別学習部34からのレスポンスの受信の内容に基づいて、対話分析・生成リクエストを生成する。たとえば、制御部30は、各レスポンスの結果に基づいて、音声認識が成功し、かつ、学習に十分なデータが揃い学習が完了したと判断すると、当該リクエストを生成する。学習に十分なデータとは、たとえば、予め定められた一定時間内に音声データから抽出された情報量(一定のデータサイズを有する声紋情報の個数など)が学習に必要であると規定された情報量を超えているものをいう。
ステップ1145にて、制御部30は、生成したリクエストを対話分析・生成部37に送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、メッセージ1111に対するメッセージ1151を生成する。
ステップ1150にて、対話分析・生成部37は、生成したメッセージ1151を制御部30に送信する。制御部30は、メッセージ1151の受信を検知すると、端末IDとメッセージ1151とを含む音声レスポンスを生成する。
ステップ1155にて、制御部30は、端末に音声レスポンスを生成する。端末は、音声レスポンスを受信すると、音声出力部32から音声を出力する。
<ユーザからの発話起点のシーケンス>
図12を参照して、他の局面について説明する。図12は、ユーザが音声認識システムに既知である場合におけるユーザ1と端末2とのやり取りのシーケンスを表す図である。なお、前述の動作と同じ動作には同じ番号を付してある。したがって、同じ動作の説明は、繰り返さない。
ユーザが既に登録されている場合には、話者モデルが適宜更新される。したがって、常に直近のユーザの音声データに基づいた話者識別が可能となる。
ユーザ1が端末2に対して、メッセージ10を発する。端末2は、メッセージ10を受け付けると、音声認識処理と話者識別処理とを実行する。端末2は、話者識別処理の結果に基づいて、メッセージ10の話者を識別できたと判断すると、その判断の結果に応じて、メッセージ1210を発する。メッセージ1210は、メッセージ10に対する応答と、メッセージ10の話者を確認するための問いかけとを含む。ユーザ1が、メッセージ1210に対するメッセージ1220を発すると、端末2は、メッセージ1220について音声認識処理と話者識別処理とを行なう。
端末2は、メッセージ1220の内容から、当該問いかけに対する回答が得られたと判断すると、端末2の端末IDとユーザ名(たろう)とを含むデータをユーザ管理部35に送信する。ユーザ管理部35は、当該データを蓄積する。さらに、端末2は、メッセージ1220に対するメッセージ1230を発する。
その後、端末2は、ユーザ1からの発話を認識するたびに、端末IDとユーザ名とを含むデータをユーザ管理部35に送信する。ユーザ管理部35は、各データを保存する。
話者識別学習部34は、ユーザ管理部35から、端末IDとユーザ名とを参照して、蓄積されたデータから、当該ユーザに関連付けられたデータを読み出し、話者モデル80を作成する。
図13および図14を参照して、ある局面に従う音声認識システムにおけるシーケンスについて説明する。図13および図14は、ユーザが既知である場合に行なわれる処理の流れを表すシーケンスチャートである。なお、前述の処理と同一の処理には同一のステップ番号を付してある。したがって、同一の処理の説明は繰り返さない。
ステップ1340にて、話者識別部33は、話者識別が成功したことを通知するために、話者識別レスポンスを制御部30に送信する。制御部30は、当該レスポンスと、音声認識部36からのレスポンスとの受信を検知すると、対話分析・生成リクエストを生成する。当該リクエストは、音声識別結果と話者識別結果とを含む。
ステップ1345にて、制御部30は、対話分析・生成部37に対して、対話分析・生成リクエストを送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、メッセージ911に応答するためのメッセージ1351を生成する。このとき、メッセージ1351は、メッセージ911に対する応答と、メッセージ911の発話者を確認するための問いかけとを含む。
ステップ1350にて、対話分析・生成部37は、生成したメッセージ1351を制御部30に送信する。制御部30がメッセージ1351と端末IDとを含む音声レスポンスを端末に送信すると、端末の音声出力部32は、音声を発話する。ユーザは、当該音声を認識して当該音声が正しいと判断すると、たとえば「そうだよ」とのメッセージ1361を発する(名前登録発話)。
ステップ1360にて、音声入力部31は、メッセージ1361の入力を受け付けると、その入力に応じた音声信号を制御部30に送信する。その後、制御部30は、音声認識リクエストを音声認識部36に送信する(ステップ965)。
図14を参照して、ステップ1410にて、話者識別部33は、話者識別リクエスト(ステップ980)に対する応答を話者認識レスポンスとして話者識別部33に送信する。ユーザが音声認識システムにとって既知である場合、話者認識レスポンスは、話者が識別されたことを表す。制御部30は、当該レスポンスの受信を検知すると、対話分析・生成リクエストを生成する。
ステップ1420にて、制御部30は、生成した対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、メッセージ1431を生成する。メッセージ1431は、これまでのやり取りの結果に基づいて、メッセージ1351に含まれる問いかけ{たろうさんかな?)が正しかったことを踏まえた内容(やっぱり!)を含む。
ステップ1430にて、対話分析・生成部37は、メッセージ1431を制御部30に送信する。制御部30は、メッセージ1431の受信を検知すると、端末IDとメッセージ1431とを含む音声レスポンスを生成する。
ステップ1440にて、制御部30は、端末に音声レスポンスを送信する。音声出力部32は、当該音声レスポンスに基づいて、メッセージ1431を音声で出力する。
その後、ステップ1040以降の処理が、前述の場合と同様に行なわれる。音声データが保存され、学習データ(たとえば、声紋情報等)は、対象ユーザの常に新しい音声データで更新される。なお、ユーザが既知の場合には、学習が完了しても、端末は、ユーザの名前を確認するための発話を行なわない。
<端末が発話の起点となる場合>
図15〜図17を参照して、さらに別の局面について説明する。図15は、端末2からユーザ1に話しかけることが対話のトリガとなる場合を表す図である。
端末2からユーザに話しかけ、ユーザ発話及びユーザ名を聞き出すことによって得られた音声データをユーザ名と端末IDとに紐付けることにより、音声データを学習する。
端末2は、ユーザ1の存在を検知すると、ユーザ1に対して話しかける。ユーザ1の存在の検知は、たとえば、赤外線センサ、人感センサ等からの出力に基づいて行なわれる。端末2は、たとえば、メッセージ1510を発する。ユーザ1は、メッセージ1510を認識する。
ユーザ1は、メッセージ1510に応答して、メッセージ1520を発する。端末2は、メッセージ1510を認識すると、音声認識処理と話者識別処理とを実行する。端末2は、各処理の結果に基づいて、ユーザ1に対する発話を切り換える。たとえば、話者が既知でないと判断すると、端末2は、メッセージ1530を生成し、音声でメッセージ1530を出力する。
ユーザ1は、メッセージ1530に応答してメッセージ1540を端末2に向けて発する。端末2は、メッセージ1540について音声認識処理および話者識別処理を実行する。さらに、端末2は、端末2のユーザ名として認識された話者「たろう」と端末IDとを関連付け、これまで受け付けたユーザ1のメッセージ1520,1540を話者の音声データとしてユーザ管理部35に蓄積する。
さらに、端末2は、メッセージ1540に対する応答としてメッセージ1550を生成し、音声でメッセージ1550を出力する。
ユーザ管理部35には、ユーザ「たろう」に関連付けられた音声データと、音声データから取得された識別情報(たとえば声紋情報)とが蓄積される。
図16および図17を参照して、ある局面における音声認識システムの動作について説明する。図16および図17は、音声認識システムで行われる処理の一部を表すシーケンスチャートである。
ステップ1610にて、制御部30は、予め定められた条件が成立したことを検知すると、対話生成リクエストを対話分析・生成部37に送信する。当該条件は、たとえば、音声認識システムの範囲内でユーザの存在が検知されたこと、予め指定された時刻が到来したこと等である。対話生成リクエストは、たとえば、検出されたユーザに対して話しかけるためのメッセージ1510の生成要求を含む。対話分析・生成部37は、当該リクエストの受信を検知すると、予め準備されたテンプレートに基づいて、メッセージ1510を生成する。
ステップ1615にて、対話分析・生成部37は、当該リクエストに応答して生成したメッセージ1510を制御部30に送信する。制御部30は、メッセージ1510の受信を検知すると、メッセージ1510と端末IDとを含む音声発話リクエストを端末に送信する。端末の音声入力部31は、当該リクエストを受信すると、メッセージ1510を音声で出力する。ユーザは、メッセージ1510を認識すると、メッセージ1510に対する応答として、メッセージ1520を発する。
ステップ1625にて、音声入力部31は、メッセージ1520を音声信号として制御部30に送信する。その後、ステップ915からステップ1345まで、前述の処理と同様の処理が実行される。
ステップ1350にて、対話分析・生成部37は、メッセージ1530を制御部30に送信する。メッセージ1530に基づく音声が出力されると、ユーザは、メッセージ1540を発する。メッセージ1540は、制御部30から音声認識部36に送られ、音声認識処理が実行される(ステップ1045)。
図17を参照して、ステップ1050からステップ1070までの処理が、同様に実行される。その後、制御部30は、学習に十分なデータがなく、学習が失敗したと判断すると、ステップ1740の処理が実行される。より具体的には、ステップ1741にて、制御部30は、対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、当該リクエストに応じたメッセージ1550を生成する。
ステップ1742にて、対話分析・生成部37は、メッセージ1550を制御部30に送信する。制御部30は、メッセージ1550の受信を検知すると、端末IDとメッセージ1550とを含む音声レスポンスを生成する。
一方、制御部30は、学習に十分なデータが揃い楽手が完了したと判断すると、ステップ1750の処理を実行する。より詳しくは、ステップ1751にて、制御部30は、対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、当該リクエストに応答するためのメッセージ1560を生成する。
ステップ1752にて、対話分析・生成部37は、メッセージ1560を制御部30に送信する。制御部30は、メッセージ1560の受信を検知すると、端末IDとメッセージ1560とを含む音声レスポンスを生成する。
ステップ1760にて、制御部30は、当該音声レスポンスを端末に送信する。音声出力部32は、音声レスポンスを受信すると、メッセージ1560を音声で出力する。
<他の局面>
さらに他の局面について説明する。他の局面において、以下の構成が用いられてもよい。
(1)音声認識と音声認証とが並列に行なわれる。したがって、ユーザの発話内容の認識と当該ユーザの認証とが同時に行なわれる。
(2)ユーザ毎に、対話内容のログに基づいて各ユーザの興味ある話題が推定され、推定された話題に基づく対話が生成される。
(3)対話数やその頻度に基づいて、ロボット(音声対話装置、あるいは音声対話システム)の発話内容が変化する。
これらの要素の結果、ユーザは、ロボット(音声対話システム)に親しみを持つことができる。
たとえば、構成(1)により、当該技術思想が適用される音声対話システムは、カメラや無線タグ等の機器からの情報を使用することなく、ユーザを特定し(音声認証)、また、当該ユーザの発言内容の取得(音声認識)が可能になる。
次に、構成(2)により、ユーザの日々の会話が音声対話システムに記憶され、必要に応じて分析される。音声対話システムは、分析結果に基づいて、各ユーザが興味ある話題(スポーツ、芸能ニュースなど)を他の情報提供装置から取得し、対話しているユーザに応じた話題を当該ユーザに提供することができる。
さらに、構成(3)により、音声対話システムとユーザとの対話が長期にかつ定期的に行われることにより、対話内容に応じて、音声対話システムからの発話の表現(言葉づかい、語調等)が変化し得る。その結果、ユーザが音声対話システム(あるいは、音声対話システムに含まれるロボットのような音声入出力端末)に対して親近感を持ち得る。これらの各構成は、適宜組み合され得る。
<まとめ>
以上のようにして、本実施の形態に係る音声認識システムによれば、ユーザは学習のための前処理を意識せずに、通常の音声対話を行うことにより、学習に必要な音声データをシステムに与えることができる。したがって、当該システムにより提供される機能を容易に利用することができる。
さらに他の局面において、ユーザが意識することなくユーザ認証され、当該ユーザに応じた話題が出力されるので、ユーザは音声認識システムにより提供されるサービスや機能に親近感を持ち得る。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
30 制御部、31 音声入力部、32 音声出力部、33 話者識別部、34 話者識別学習部、35 ユーザ管理部、36 音声認識部、37 生成部、80 話者モデル、350,400,500 サーバ、410 話者識別サーバ、520 音声認識サーバ、600 端末モジュール、610 メインモジュール、620 話者識別モジュール、630 音声認識モジュール。

Claims (8)

  1. 音声認識装置であって、
    話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とをそれぞれ受け付けるための音声入力部と、
    音声認識処理を行うための音声認識部と、
    音声を出力するための音声出力部と、
    前記音声認識処理の結果に基づいて前記音声認識装置を制御するための制御部とを備え、
    前記音声出力部は、話者とゲームを行うことにより得られる話者を識別する情報を含まない発話の後に、話者を識別する情報を尋ねる問い合わせを出力し、
    前記制御部は、前記問い合わせの前に発せられた前記話者を識別する情報を含まない発話と、前記問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることにより、話者を識別するための話者識別モデルを生成する、音声認識装置。
  2. 前記ゲームは、しりとりゲーム、および早口言葉ゲームのうち少なくとも一方のゲームを含む、請求項1に記載の音声認識装置。
  3. 前記制御部は、前記音声出力部から出力される発話に対する応答の内容に基づいて、前記音声出力部から次に出力する発話の内容を決定するように構成されている、請求項1または2に記載の音声認識装置。
  4. 難易度の異なる複数の問い合わせを記憶するための記憶装置をさらに備え、
    前記制御部は、前記音声入力部が受け付ける前記ゲームのための発話の内容に基づいて、前記音声出力部から次に出力される前記ゲームのための発話の内容を、前記記憶装置に記憶される複数の問い合わせの中から決定するように構成されている、請求項1〜3のいずれかに記載の音声認識装置。
  5. 生成された前記話者識別モデルを格納するための記憶部をさらに備え、
    前記制御部は、
    前記問い合わせに対する応答に基づいて、前記生成された話者識別モデルを更新するように構成されている、請求項1〜4のいずれかに記載の音声認識装置。
  6. 音声認識システムであって、
    端末と、
    前記端末と通信可能な装置とを備え、
    前記端末は、
    話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とを受け付けるための音声入力部と、
    音声を出力するための音声出力部と、
    前記音声入力部および前記音声出力部に電気的に接続されて、前記装置と通信するための通信部とを備え、
    前記音声出力部は、話者とゲームを行うことにより得られる話者を識別する情報を含まない発話の後に、話者を識別する情報を尋ねる問い合わせを出力するように構成され、
    前記装置は、
    前記端末と通信するための通信部と、
    音声認識処理を行うための音声認識処理部と、
    前記音声認識処理の結果に基づいて前記装置を制御するための制御部とを備え、
    前記制御部は、前記問い合わせの前に発せられた前記話者を識別する情報を含まない発話と、前記問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることにより、話者を識別するための話者識別モデルを生成する、音声認識システム。
  7. 請求項6に記載の音声認識システムで使用される端末。
  8. 話者識別モデルを生成するための方法であって、
    ゲームを行うことにより話者を識別する情報を含まない発話を受け付けるステップと、
    話者を識別する情報を尋ねる問い合わせを出力するステップと、
    前記問い合わせに応答する発話を受け付けるステップと、
    音声認識処理を行うステップと、
    前記音声認識処理の結果に基づいて、前記問い合わせの前に発せられた前記話者を識別する情報を含まない発話と、前記問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることにより、話者を識別するための話者識別モデルを生成するステップとを含む、方法。
JP2015113949A 2015-06-04 2015-06-04 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 Expired - Fee Related JP6084654B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015113949A JP6084654B2 (ja) 2015-06-04 2015-06-04 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
PCT/JP2016/065500 WO2016194740A1 (ja) 2015-06-04 2016-05-25 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015113949A JP6084654B2 (ja) 2015-06-04 2015-06-04 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法

Publications (2)

Publication Number Publication Date
JP2017003611A JP2017003611A (ja) 2017-01-05
JP6084654B2 true JP6084654B2 (ja) 2017-02-22

Family

ID=57440499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015113949A Expired - Fee Related JP6084654B2 (ja) 2015-06-04 2015-06-04 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法

Country Status (2)

Country Link
JP (1) JP6084654B2 (ja)
WO (1) WO2016194740A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101883301B1 (ko) * 2017-01-11 2018-07-30 (주)파워보이스 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
JP7026105B2 (ja) * 2017-03-24 2022-02-25 株式会社日立国際電気 サービス提供システム
JP6633250B2 (ja) * 2017-06-15 2020-01-22 株式会社Caiメディア 対話ロボットおよび対話システム、並びに対話プログラム
JP6791825B2 (ja) * 2017-09-26 2020-11-25 株式会社日立製作所 情報処理装置、対話処理方法及び対話システム
JP7143591B2 (ja) * 2018-01-17 2022-09-29 トヨタ自動車株式会社 発話者推定装置
US20200406469A1 (en) 2018-03-20 2020-12-31 Sony Corporation Information processing apparatus and information processing method, and robot apparatus
KR20200000604A (ko) 2018-06-25 2020-01-03 현대자동차주식회사 대화 시스템 및 대화 처리 방법
JP7187212B2 (ja) * 2018-08-20 2022-12-12 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP7280999B2 (ja) * 2018-09-12 2023-05-24 マクセル株式会社 情報処理装置
US20210256104A1 (en) * 2018-09-12 2021-08-19 Maxell, Ltd. Information processing apparatus, user authentication network system, and user authentication method
JP7110057B2 (ja) * 2018-10-12 2022-08-01 浩之 三浦 音声認識システム
CN109243468B (zh) * 2018-11-14 2022-07-12 出门问问创新科技有限公司 语音识别方法、装置、电子设备及存储介质
JP7252883B2 (ja) * 2019-11-21 2023-04-05 Kddi株式会社 ゲーム管理装置、ゲーム管理方法及びプログラム
KR20220095973A (ko) * 2020-12-30 2022-07-07 삼성전자주식회사 음성 입력에 응답하는 방법 및 이를 지원하는 전자 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3529049B2 (ja) * 2002-03-06 2004-05-24 ソニー株式会社 学習装置及び学習方法並びにロボット装置
JP2004101901A (ja) * 2002-09-10 2004-04-02 Matsushita Electric Works Ltd 音声対話装置及び音声対話プログラム
JP2004184788A (ja) * 2002-12-05 2004-07-02 Casio Comput Co Ltd 音声対話システムおよびプログラム

Also Published As

Publication number Publication date
WO2016194740A1 (ja) 2016-12-08
JP2017003611A (ja) 2017-01-05

Similar Documents

Publication Publication Date Title
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
JP6949149B2 (ja) 音声アシスタントシステムのための発話による特権の管理
US11875820B1 (en) Context driven device arbitration
US10832686B2 (en) Method and apparatus for pushing information
US10891952B2 (en) Speech recognition
US9633657B2 (en) Systems and methods for supporting hearing impaired users
EP2717258B1 (en) Phrase spotting systems and methods
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US10192550B2 (en) Conversational software agent
US10140988B2 (en) Speech recognition
WO2011048826A1 (ja) 音声翻訳システム、制御装置、および制御方法
US20170256259A1 (en) Speech Recognition
KR20110066357A (ko) 대화 시스템 및 그의 대화 방법
JP2018054866A (ja) 音声対話装置および音声対話方法
WO2018230345A1 (ja) 対話ロボットおよび対話システム、並びに対話プログラム
WO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP6696803B2 (ja) 音声処理装置および音声処理方法
JP2018021953A (ja) 音声対話装置および音声対話方法
US11161038B2 (en) Systems and devices for controlling network applications
WO2019138477A1 (ja) スマートスピーカー、スマートスピーカーの制御方法、及びプログラム
JP2020077272A (ja) 会話システムおよび会話プログラム
JP2019074865A (ja) 会話収集装置、会話収集システム及び会話収集方法
US11914923B1 (en) Computer system-based pausing and resuming of natural language conversations
CN112435669B (zh) 一种机器人多轮对话语音交互方法、系统和终端设备
CN114299919A (zh) 文字转语音方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170125

R150 Certificate of patent or registration of utility model

Ref document number: 6084654

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees