JP2020095121A

JP2020095121A - 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Info

Publication number: JP2020095121A
Application number: JP2018231835A
Authority: JP
Inventors: 芳澤　伸一; Shinichi Yoshizawa; 伸一芳澤; 豊吉濱; Yutaka Yoshihama
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2020-06-18

Abstract

【課題】使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供する。【解決手段】音声認識システム１は、音声を認識する音声認識処理部１３を備えたエージェントＡ１と、判定部１１とを備える。判定部１１は、エージェントＡ１と人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェントＡ１と人とのいずれであるかを判定する。【選択図】図１

Description

本開示は、音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体に関する。より詳細には、本開示は、入力された音声を認識する音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体に関する。

特許文献１は、話者がウェイクアップワードに続けて音声命令情報を発話すると、音声命令情報に従った処理を行う音声認識装置を開示する。

特表２０１８−５１７９１９号公報

特許文献１の音声認識装置では、話者がウェイクアップワードを発話せずに音声命令情報を発話すると、音声認識装置では、話者が音声認識装置に対して発話したと認識できず、音声命令情報に従った処理が行われない可能性がある。そのため、話者が複数の音声命令情報を続けて発話する場合、話者は音声命令情報を発話する前にその都度ウェイクアップワードを発話しなければならないため、話者はウェイクアップワードを発話するのを煩わしく感じる可能性があり、使用性が悪かった。

本開示の目的は、使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供することにある。

本開示の一態様の音声認識システムは、エージェントと、判定部とを備える。前記エージェントは、音声を認識する音声認識処理部を備える。前記判定部は、前記エージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する。

本開示の一態様の学習済みモデルの生成方法では、所定の状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定するための学習済みモデルを生成する。前記所定の状況は、音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況である。

本開示の一態様の音声認識システムの制御方法は、判定処理を含む。前記判定処理は、音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する。

本開示の一態様のプログラムは、コンピュータシステムに、判定処理を実行させるためのプログラムである。前記判定処理は、音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する処理である。

本開示の一態様の移動体は、前記音声認識システムと、前記音声認識システムを搭載する本体と、を備える。

本開示によれば、使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供することができる。

図１は、本開示の一実施形態に係る音声認識システムのブロック図である。図２は、同上の音声認識システムを備えた移動体を説明する模式図である。図３は、同上の音声認識システムの動作を説明するフローチャートである。図４は、同上の音声認識システムの動作を説明するシーケンス図である。図５は、本開示の一実施形態の変形例３に係る音声認識システムの動作を説明するフローチャートである。

以下に説明する実施形態は、本開示の種々の実施形態の一つに過ぎない。本開示の実施形態は、下記実施形態に限定されることはなく、この実施形態以外も含み得る。また、下記の実施形態は、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。

（実施形態）
（１）概要
本実施形態の音声認識システム１は、図１に示すように、音声を認識する音声認識処理部１３を備えたエージェントＡ１と、判定部１１とを備える。判定部１１は、エージェントＡ１と人Ｂ１（図２参照）とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェントＡ１と人Ｂ１とのいずれであるかを判定する。

ここにおいて、エージェントＡ１は、コンピュータシステムによって実現される。エージェントＡ１は、音声認識処理部１３を備え、話者が話した音声の内容を音声認識処理部１３によって認識する。また、エージェントＡ１と人Ｂ１とを含む複数の聞き手が存在する状況とは、話者が話す言葉を、エージェントＡ１と人Ｂ１とが聞きうる状況であることをいう。なお、話者が話す言葉を、コンピュータシステムによって実現されるエージェントＡ１が「聞く」とは、話者が話す言葉がエージェントＡ１に入力されることをいう。

本実施形態では、判定部１１が、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手（エージェントＡ１及び人Ｂ１）が聞きうる状況で、話者が話しかけた発話相手がエージェントＡ１であるか人Ｂ１であるかを判定している。これにより、例えば、エージェントＡ１では、話者の発話相手がエージェントＡ１であると判定部１１が判定した場合に、音声認識処理部１３の認識結果に基づいて話者の質問に応答する等の処理を行うことができる。したがって、話者がエージェントＡ１に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、使い勝手の向上を図ることが可能な音声認識システム１を実現することができる。

（２）詳細
（２．１）構成
以下、本実施形態に係る音声認識システム１について図面を参照して詳しく説明する。

本実施形態に係る音声認識システム１は、例えば自動車のような移動体１００（図２参照）の本体１０１に搭載される。換言すると、移動体１００は、音声認識システム１と、音声認識システム１を搭載する本体１０１とを備える。

音声認識システム１は、例えば、移動体１００に乗っている人Ｂ１が音声で指示した命令に従って動作するナビゲーションシステムのＨＭＩ（Human Machine Interface）として用いられる。音声認識システム１がナビゲーションシステムに用いられる場合、移動体１００に乗っている人Ｂ１が、移動体１００の目的地を示す言葉又は目的地を検索するための言葉（検索語）を音声で発すると、音声認識システム１によって音声の内容が認識される。ナビゲーションシステムは、音声認識システム１の認識結果に基づいて、例えば目的地までの経路を検索したり、目的地を検索するための検索語から目的地の候補を検索したりする。そして、ナビゲーションシステムは、検索結果を話者（移動体１００に乗っている人Ｂ１）に提示する。その後、話者が目的地を決定すると、ナビゲーションシステムは、決定された目的地までの経路を案内する動作を行う。また、本実施形態の音声認識システム１は、移動体１００に搭載された空調装置等の機器８を操作するためのＨＭＩとしても用いられる。

本実施形態の音声認識システム１は、制御部１０と、音声処理部２０と、記憶部３０とを備える。音声認識システム１には、カメラ２から画像データが入力される。音声認識システム１には、表示部５及び操作入力部６が電気的に接続されている。また、本実施形態の音声認識システム１が備えるエージェントＡ１は、マイク３を介して入力された音声の内容を認識する機能に加え、音声を合成してスピーカ４から出力させる機能も備えている。

以下、音声認識システム１を含む全体システムの各部の構成について説明する。

カメラ２は、例えばＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサのようなイメージセンサを有する。カメラ２は、移動体１００において人Ｂ１が乗る車内空間１０２の前側部分に配置されている。カメラ２は、車内空間１０２の前側部分に、車内空間１０２のほぼ全体を撮影できるように配置されている。したがって、カメラ２は、車内空間１０２の前席及び後席に座っている人Ｂ１の顔を前側から撮影することができる。なお、カメラ２はＣＭＯＳイメージセンサに限らず、ＣＣＤ（Charge Coupled Device）イメージセンサ等のイメージセンサでもよい。

マイク３は、移動体１００の車内空間１０２内に配置されている。マイク３には、車内空間１０２の前席及び後席に座っている人Ｂ１が発した音声が入力される。マイク３は、入力された音声を電気信号である第１音声信号に変換して音声認識システム１に出力する。なお、マイク３は、音声を変換して得た第１音声信号を増幅するアンプを内蔵してもよい。

スピーカ４は、音声認識システム１から入力された第２音声信号を音に変換して出力する。第２音声信号は、音声メッセージ又は報知音等の音をスピーカ４から出力させるための信号である。スピーカ４は、音声認識システム１から入力された第２電気信号を、音声メッセージ又は報知音等の音に変換して出力する。

表示部５は、例えば、液晶パネルとバックライトとを組み合わせた液晶ディスプレイ装置を有する。表示部５は、音声認識システム１から入力される表示データに基づいて表示を行う。ここにおいて、表示部５は、液晶ディスプレイ装置を有するものに限定されず、例えば、有機ＥＬ（Electro Luminescence）ディスプレイ等の自発光型のディスプレイ装置を有するものでもよい。

操作入力部６は、例えば、表示部５の液晶ディスプレイ装置に組み合わされるタッチスイッチを備える。タッチスイッチは、例えば静電容量方式、電磁誘導方式のタッチスイッチである。タッチスイッチは、例えば、車内空間１０２に乗っている人Ｂ１のタッチ操作を受け付けると、操作に応じた信号を音声認識システム１に出力する。

次に、音声認識システム１について説明する。

音声認識システム１は、制御部１０と、音声処理部２０と、記憶部３０とを備える。

音声処理部２０は、マイク３から入力された第１音声信号を信号処理して、話者が話した音声の特徴量のデータを求め、この特徴量のデータを制御部１０に出力する。ここにおいて、音声の特徴量のデータとは、判定部１１での判定処理及び音声認識処理部１３での認識処理に用いられるデータであり、例えば話者の話し声の大きさ及び周波数、話者が話す速度等に関するデータである。

制御部１０は、例えば、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、音声認識システム１の機能（例えば、判定部１１、認識処理制御部１２、音声認識処理部１３、音声出力部１４、及び処理部１５等の機能）が実現される。プログラムは、コンピュータシステムのメモリに予め記録されている。なお、プログラムは、電気通信回線を通じて提供されてもよいし、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。本実施形態では、１台の移動体１００に、音声認識処理部１３を備えた１つのエージェントＡ１が設けられている。したがって、移動体１００に２人以上の人Ｂ１が載っている場合、話者以外の１人以上の人Ｂ１と、エージェントＡ１とを含む複数の聞き手が存在する状況となる。

判定部１１は、エージェントＡ１と人Ｂ１とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェントＡ１と人Ｂ１とのいずれであるかを判定する。例えば、判定部１１には、音声処理部２０から音声処理部２０が求めた音声の特徴量のデータが入力されており、判定部１１は、音声の特徴量のデータに基づいて、話者の発話相手がエージェントＡ１であるか人Ｂ１であるかを判定する。一般的に、話者は、人Ｂ１に話しかける場合と、エージェントＡ１に話しかける場合とで互いに異なる話し方で話す傾向がある。話者は、話者がエージェントＡ１に話しかける場合、発話した音声がエージェントＡ１によって正しく認識されるように留意して発話する。例えば、話者がエージェントＡ１に話しかける場合、話者が人Ｂ１に話しかける場合に比べて大きい声でゆっくりと、言葉を区切って話すようになる。したがって、音声処理部２０が求めた特徴量のデータには、話者がエージェントＡ１である場合と、話者が人Ｂ１である場合とで有意差があり、この有意差に基づいた閾値が判定部１１に設定されている。よって、判定部１１は、音声処理部２０が求めた特徴量のデータと閾値とを比較することで、話者の発話相手がエージェントＡ１であるか、人Ｂ１であるかを判定することができる。なお、判定部１１は、音声処理部２０が求めた特徴量のデータに基づいて、発話相手が人Ｂ１である場合のスコアと、発話相手がエージェントＡ１である場合のスコアとをそれぞれ求めてもよい。そして、判定部１１は、発話相手が人Ｂ１である場合のスコアと、発話相手がエージェントＡ１である場合のスコアとの高低を比較することで、発話相手が人Ｂ１かエージェントＡ１かを判定してもよい。

認識処理制御部１２は、判定部１１の判定結果に基づいて、音声認識処理部１３による認識処理を変化させるか、又は、音声認識処理部１３の認識結果に基づいて処理部１５が行う処理の内容を変化させる。

音声認識処理部１３は、音声処理部２０から入力された話者の音声を、記憶部３０に記憶された認識モデルと比較することによって、話者が話した音声の内容を認識する。ここにおいて、認識モデルは、音響モデルと、単語辞書と、言語モデルと、発話ドメインとを含む。音響モデルは、複数の話者が話す音声の特徴量（例えば周波数成分等）を統計的に分析して得られたモデルである。単語辞書は、話者が発話相手と話しをする場合に使用する単語の意味を示す辞書である。言語モデルは、例えば話者が話す言語の文法等を示すモデルであり、丁寧な口調での話し方又はくだけた口調での話し方がそれぞれ発生する生起確率に関する情報を含んでいてもよい。発話ドメインは、話者が発話相手と話をする話題の分野に関する情報であり、話題の分野としては、例えば天気予報に関する分野、機器８の操作に関する分野等がある。なお、認識モデルは、音響モデル、単語辞書、言語モデル、及び発話ドメインの全てを含むものに限定されず、音響モデル、単語辞書、言語モデル、及び発話ドメインの一部を含むものでもよい。

音声出力部１４は、例えば、波形接続型音声合成手法又は統計的音声合成手法を用いて音声合成を行い、音声合成により得られた第２音声信号をスピーカ４に出力し、スピーカ４から音声メッセージを出力させる。なお、音声出力部１４は、報知音を出力させるための第２音声信号を作成して、スピーカ４に出力させてもよく、スピーカ４から報知音を出力させることができる。

処理部１５は、音声認識処理部１３の認識結果に基づいた処理を行う。例えば、処理部１５は、音声認識処理部１３の認識結果に基づいて話者が発話した内容（例えば質問等）に応答するための音声メッセージを作成し、音声出力部１４に出力することによって、音声で応答する処理を行わせる。また、処理部１５は、音声認識処理部１３の認識結果に基づいて話者が発話した内容に応答する内容を表示部５に表示させる表示データを作成し、この表示データを表示部５に出力することによって、表示部５の表示で応答する処理を行わせてもよい。また、処理部１５は、音声認識処理部１３の認識結果に基づいて、移動体１００に設けられた機器８を制御する制御データを作成し、作成した制御データをＥＣＵ（Electronic Control Unit）７に送信してもよい。ここで、音声認識システム１は、移動体１００に設けられたＣＡＮ（Controller Area Network）を介してＥＣＵ７と通信すればよい。ＥＣＵ７は音声認識システム１から受信した制御データに基づいて制御対象の機器８を制御する。なお、制御対象の機器８としては、移動体１００に設けられた空調装置、映像音響機器（テレビ及び音楽プレイヤー）等がある。

記憶部３０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、又はＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等から選択されるデバイスで構成される。記憶部３０は、音声認識システム１が音声認識に用いる認識モデル等を記憶する。一般的に、話者は、発話相手がエージェントＡ１である場合、発話相手が人Ｂ１である場合に比べて、大きな声で、ゆっくりと、言葉を区切って話す傾向がある。そこで、本実施形態では、記憶部３０に、発話相手が人Ｂ１である場合の音声の特徴量に基づいて作成された第１認識モデルと、発話相手がエージェントＡ１である場合の音声の特徴量に基づいて作成された第２認識モデルと、が記憶されている。ここで、第１認識モデルと第２認識モデルとでは、音響モデル、単語辞書、言語モデル、及び発話ドメインの一部又は全てが、発話相手（人Ｂ１又はエージェントＡ１）に応じて変更されていればよい。例えば、第１認識モデルと第２認識モデルとでは、少なくとも音響モデルが発話相手に応じて変更されていればよい。なお、第１認識モデルと第２認識モデルとで音響モデルは共通で、単語辞書、言語モデル、及び発話ドメインのうちの一部又は全部が発話相手（人Ｂ１又はエージェントＡ１）に応じて変更されていてもよい。また、記憶部３０には、ナビゲーションシステムが使用する各種の情報（例えば、地図情報、及び、店舗・駅等の案内対象の施設に関する情報等）が記憶されている。

（２．２）動作
本実施形態の音声認識システム１の動作について図３に基づいて説明する。

以下では、図２に示すように、移動体１００の車内空間１０２に３人の人Ｂ１が乗っている状況での音声認識システム１の動作を説明する。図２の例では、３人の人Ｂ１のうち、人Ｂ１１が運転席に座り、人Ｂ１２が助手席に座り、人Ｂ１３が後部座席に座っている。

ここで、車内空間１０２にいる人Ｂ１が話すと、人Ｂ１が話した音声はマイク３によって第１音声信号に変換されて音声認識システム１に入力される（Ｓ１）。

マイク３から音声認識システム１に第１音声信号が入力されると、音声処理部２０は、入力された第１音声信号から発話者の判定処理及び音声の認識処理に用いる特徴量のデータを求める。ここにおいて、音声処理部２０によって求められる特徴量のデータとは、話者がエージェントＡ１に話しかける場合と、話者が人Ｂ１に話しかける場合とで有意差が生じうるような項目の特徴量について求められた値を含む。例えば、音声処理部２０は、話者の話し声の大きさと、周波数と、話者が話す速度とのうち少なくとも１つの項目について特徴量のデータを求める。

そして、音声認識システム１の判定部１１は、音声処理部２０によって求められた特徴量のデータと、所定の閾値とを比較することによって、話者の発話相手がエージェントＡ１であるか人Ｂ１であるかを判定する（Ｓ２）。例えば、話者がエージェントＡ１に話しかける場合、話者は、エージェントＡ１によって音声が正しく認識されるよう、人Ｂ１に話しかける場合に比べて、大きな声で、ゆっくりと、言葉を句切って話す傾向がある。

ここで、判定部１１には、話者の話し声の大きさに関する閾値（以下、第１閾値という）と、話し声の速度に関する閾値（以下、第２閾値という）とが設定されている。判定部１１は、音声処理部２０から入力された話し声の大きさに関する特徴量のデータと第１閾値とを比較し、音声処理部２０から入力された話し声の速度に関する特徴量のデータと第２閾値とを比較する。判定部１１は、話し声の大きさに関する特徴量のデータが第１閾値を超えるか、又は、話し声の速度に関する特徴量のデータが第２閾値を超えると、発話相手がエージェントＡ１であると判定する。一方、判定部１１は、話し声の大きさに関する特徴量のデータが第１閾値以下であり、かつ、話し声の速度に関する特徴量のデータが第２閾値以下であると、発話相手が人Ｂ１であると判定する。このように、判定部１１は、話者の話し方の特徴量に基づいて、話者の発話相手を判定しており、話者がエージェントＡ１に話しかける場合と、話者が人Ｂ１に話しかける場合とで話し方が変化することを利用して発話相手を判定することができる。

ステップＳ２の判定処理の結果、判定部１１が発話相手を人Ｂ１と判定すると（Ｓ３：Ｙｅｓ）、認識処理制御部１２は、判定部１１の判定結果に応じて、音声認識処理部１３及び処理部１５がそれぞれ行う処理の内容を制御する。

すなわち、認識処理制御部１２は、音声認識に用いる認識モデルとして第１認識モデルを選択して（Ｓ４）、音声認識処理部１３により音声の認識処理を実行させる（Ｓ５）。ここで、話者の発話相手が人Ｂ１であると判定部１１が判定した場合、音声認識処理部１３は、発話相手が人Ｂ１である場合の第１認識モデルを用いて音声の認識処理を行うので、音声の認識精度が向上するという利点がある。

また、認識処理制御部１２は、話者の発話相手が人Ｂ１であると判定部１１が判定した場合、処理部１５に第１処理を実行させる（Ｓ６）。ここで、処理部１５が行う第１処理は、例えば、音声認識処理部１３の認識結果に基づいて、話者が話した内容に関連する情報を検索し、検索結果を話者又は話者の発話相手に提示する処理を含む。例えば、「何が食べたい」と質問された話者が「イタリア料理かな」と話した場合、処理部１５は、音声認識処理部１３の認識結果に基づいて、現在地の周辺にあるイタリア料理店を検索し、検索結果を表示部５に表示させる処理を行う。なお、話者が発話相手に話した内容が、例えば「何が食べたい」のようにエージェントＡ１では回答できないような内容であれば、処理部１５は、音声認識処理部１３の認識結果に基づく処理を行わなくてもよい。この場合、音声認識処理部１３の認識結果に基づいて、話者又は発話相手に対して情報等を提示する処理及び機器８を制御する処理を行わないことが第１処理となる。

ステップＳ６の処理が終了すると、音声認識システム１は、マイク３に新たな音声が入力されるのを待機し、マイク３に新たな音声が入力されると、音声認識システム１は、ステップＳ１以降の処理を実行する。

一方、ステップＳ２で判定部１１が発話相手をエージェントＡ１と判定すると（Ｓ３：Ｎｏ）、認識処理制御部１２は、判定部１１の判定結果に応じて、音声認識処理部１３及び処理部１５がそれぞれ行う処理の内容を制御する。

すなわち、認識処理制御部１２は、音声認識に用いる認識モデルとして第２認識モデルを選択して（Ｓ７）、音声認識処理部１３により音声の認識処理を実行させる（Ｓ８）。ここで、話者の発話相手がエージェントＡ１であると判定部１１が判定した場合、音声認識処理部１３は、発話相手がエージェントＡ１である場合の第２認識モデルを用いて音声の認識処理を行うので、音声の認識精度が向上するという利点がある。

また、認識処理制御部１２は、話者の発話相手がエージェントＡ１であると判定部１１が判定した場合、処理部１５に第２処理を実行させる（Ｓ９）。ここで、処理部１５が行う第２処理は、音声認識処理部１３の認識結果に基づいて、話者が話した内容に対応する処理を行う。例えば、話者が話した内容が何らかの質問であれば、処理部１５は、質問に対する応答となる情報を検索して、検索結果を話者に対して提示する。また、話者が話した内容が移動体１００に設けられた機器８を制御するための制御命令であれば、処理部１５は、音声認識処理部１３の認識結果に基づいて、制御対象の機器８を制御する処理を第２処理として行う。なお、処理部１５は、制御対象の機器８に対する制御を開始する前に、制御内容を表示部５に表示させ、操作入力部６から制御内容を承認する操作内容が入力されると、制御対象の機器８に対する制御内容を実行してもよい。

ステップＳ９の処理が終了すると、音声認識システム１は、マイク３に新たな音声が入力されるのを待機し、マイク３に新たな音声が入力されると、音声認識システム１は、ステップＳ１以降の処理を実行する。

次に、本実施形態の音声認識システム１の動作を図４のシーケンス図に基づいて説明する。図４のシーケンス図は、移動体１００を運転している人Ｂ１１が、食事をする店を探すために、エージェントＡ１と、助手席に座っている人Ｂ１２とに話しかける場合の音声認識システム１の動作を示している。

例えば移動体１００を運転している人Ｂ１１が、エージェントＡ１による音声案内を開始させるために、「Ｈｉくるま」のようなウェイクワードを発話すると（Ｓ１１）、マイク３に人Ｂ１１が話した音声が入力される。

このとき、音声処理部２０が第１音声信号から音声の特徴量のデータを求め、判定部１１が、音声処理部２０が求めた特徴量のデータと閾値とを比較することで、話者の発話相手がエージェントＡ１であると判定する。この場合、音声認識処理部１３は、第２認識モデルを用いて音声認識を行い、入力された音声がウェイクワードであると認識すると、音声認識システム１はエージェントＡ１による音声案内を開始させる。ここで、音声認識システム１は、エージェントＡ１による音声案内を開始したことを示す音声をスピーカ４から出力させてもよく、エージェントＡ１による音声案内が開始したことを話者に伝えることができる。なお、本実施形態において、マイク３にウェイクワードが入力された場合には、判定部１１が、発話相手を判定する処理を省略してもよい。

その後、人Ｂ１１がエージェントＡ１に「レストランを探して」と話しかけると（Ｓ１２）、音声処理部２０がマイク３から入力された第１音声信号から音声の特徴量のデータを求め、判定部１１が、音声の特徴量のデータと閾値とを比較する。ここで、判定部１１が話者の発話相手がエージェントＡ１であると判定すると、音声認識処理部１３が、第２認識モデルを用いて音声認識を行い、処理部１５が音声の認識結果に基づいて第２処理を行う。なお、ウェイクワードが入力された直後にマイク３に音声が入力された場合は、判定部１１が、発話相手を判定する処理を省略し、音声認識システム１が、発話相手がエージェントＡ１である場合の処理を行ってもよい。

ステップＳ１２では、話者が「レストランを探して」と発話しているので、音声認識システム１の処理部１５は、現在地の周辺にあるレストランスを検索する（Ｓ１３）。例えば、処理部１５は、ＥＣＵ７から現在地の位置情報（経度及び緯度などの情報）を取得し、現在地の位置情報と記憶部３０に記憶されている店舗の情報とに基づいて、現在地の周辺にあるレストランスを検索する。そして、処理部１５は、検索結果を所定の判定条件（例えば、店名の五十音順等）に従ってソートし、先頭から１又は複数のレストランについての情報を表示部５に表示させる（Ｓ１４）。

ここで、人Ｂ１１が、表示部５に表示された検索結果を見て、エージェントＡ１に「近くのレストランを教えて」と話しかけると（Ｓ１５）、判定部１１が、音声処理部２０から入力される特徴量のデータに基づいて発話相手を判定する。判定部１１が話者の発話相手がエージェントＡ１であると判定すると、音声認識処理部１３が、第２認識モデルを用いて音声認識を行い、処理部１５が音声の認識結果に基づいて第２処理を行う。ステップＳ１５では、人Ｂ１１が「近くのレストランを教えて」と発話しているので、音声認識システム１の処理部１５は、ステップＳ１３で検索されたレストランを、現在地からの距離でソーティングする（Ｓ１６）。そして、処理部１５は、ステップＳ１６でソーティングされた結果を表示部５に表示させる（Ｓ１７）。これにより、人Ｂ１１は、表示部５に表示された検索結果を見て、近くにあるレストランを確認することができる。

その後、人Ｂ１１が、移動体１００に同乗している人Ｂ１２に「何食べたい」と話しかけると（Ｓ１８）、判定部１１が、音声処理部２０から入力される特徴量のデータに基づいて発話相手を判定する。判定部１１が話者の発話相手が人Ｂ１であると判定すると、音声認識処理部１３が、第１認識モデルを用いて音声認識を行い、処理部１５が音声の認識結果に基づいて第１処理を行う。ステップＳ１８では人Ｂ１１が「何食べたい」と発話しており、処理部１５は、「何食べたい」との質問に対する回答がないので、人Ｂ１１の質問に応答する処理は行わず、次の音声の入力待ちを行う。

次に、人Ｂ１１からの問いかけに人Ｂ１２が「イタリア料理かな」と答えると（Ｓ１９）、判定部１１が、音声処理部２０から入力される特徴量のデータに基づいて発話相手を判定する。ここで、判定部１１が話者の発話相手が人Ｂ１であると判定すると、音声認識処理部１３が、第１認識モデルを用いて音声認識を行い、処理部１５が音声の認識結果に基づいて第１処理を行う。ステップＳ１９では人Ｂ１２が「イタリア料理かな」と発話しているので、音声認識システム１の処理部１５は、ステップＳ１６でソーティングした後の検索結果からイタリア料理店の情報を抽出し、表示部５に表示させる処理を行う（Ｓ２０）。エージェントＡ１は、人Ｂ１２が人Ｂ１１に対して話した内容に基づいて作成した情報を表示部５に表示させることで、人Ｂ１１，Ｂ１２に提示している。したがって、人Ｂ１１，Ｂ１２はエージェントＡ１が提示した情報をもとに、行先を検討することができる。エージェントＡ１は、人Ｂ１１又は人Ｂ１２からの要求が無くても、人Ｂ１１，Ｂ１２が話した内容に基づく情報を人Ｂ１１，Ｂ１２に提示できるので、エージェントＡ１の使用性を向上させることができる。

上述のように、本実施形態の音声認識システム１では、エージェントＡ１が、音声認識処理部１３の認識結果に基づく処理を行う処理部１５を更に備えている。そして、処理部１５は、判定部１１の判定結果に基づいて、処理の内容を変更する。したがって、処理部１５は、判定部１１の判定結果に基づいて、処理部１５が行う処理の内容を変更できる。

さらに言えば、エージェントＡ１の処理部１５は、判定部１１の判定結果に基づいて、発話相手がエージェントＡ１である場合と、発話相手がエージェントＡ１以外の聞き手（例えば人Ｂ１）である場合とで処理の内容を変更する。これにより、処理部１５は、発話相手がエージェントＡ１である場合と、発話相手がエージェントＡ１以外の聞き手である場合とで、それぞれの場合に適した処理を行うことができる。

また、本実施形態の音声認識システム１では、音声認識処理部１３は、第１認識モデルと第２認識モデルとのうち、判定部１１の判定結果に基づいて選択した認識モデルを用いて話者の音声を認識する。ここで、第１認識モデルは、話者が人Ｂ１に話しかける場合の音声の認識モデルであり、第２認識モデルは、話者がエージェントＡ１に話しかける場合の音声の認識モデルである。例えば、認識モデルは音響モデルと単語辞書と言語モデルと発話ドメインとを含み、第１認識モデルと第２認識モデルとでは、音響モデル、単語辞書、言語モデル、及び発話ドメインの少なくとも一部が発話相手に応じて変更されている。このように、音声認識処理部１３は、話者が人Ｂ１に話しかける場合とエージェントＡ１に話しかける場合とで認識モデルを変更しており、発話相手に応じて用意された認識モデルを用いて音声を認識しているので、音声の認識精度の向上を図ることができる。

また、音声認識システム１は、移動体１００に乗っている複数の人Ｂ１が互いに話している場合でも、複数の人Ｂ１が互いに話している内容を認識し、認識結果に基づいた処理（第１処理）を行っている。したがって、音声認識システム１は、複数の人Ｂ１が互いに話している内容に関連した情報を表示部５に表示させることができ、音声認識システム１の使用性が向上する。また、音声認識システム１は、判定部１１が話者の発話相手を人Ｂ１と判定した場合、話者の問いかけに対してエージェントＡ１が直接返答したり、機器８を制御したりすることがない。よって、音声認識システム１では、ウェイクワードを発話しなくて、誤動作が発生しにくいので使用性が向上する、という利点がある。

（３）変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、音声認識システム１と同様の機能は、音声認識システムの制御方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る音声認識システムの制御方法は、判定処理を含む。判定処理では、エージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェントと人とのいずれであるかを判定する。エージェントは、音声を認識する音声認識処理部を備える。一態様に係る（コンピュータ）プログラムは、コンピュータシステムに、判定処理を実行させるためのプログラムである。

以下、上記の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。なお、以下では、上記実施形態を「基本例」と呼ぶこともある。

本開示における音声認識システム１は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における音声認識システム１としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路（ＩＣ）又は大規模集積回路（ＬＳＩ）を含む１ないし複数の電子回路で構成される。ここでいうＩＣ又はＬＳＩ等の集積回路は、集積の度合いによって呼び方が異なっており、システムＬＳＩ、ＶＬＳＩ（Very Large Scale Integration）、又はＵＬＳＩ（Ultra Large Scale Integration）と呼ばれる集積回路を含む。さらに、ＬＳＩの製造後にプログラムされる、ＦＰＧＡ（Field-Programmable Gate Array）、又はＬＳＩ内部の接合関係の再構成若しくはＬＳＩ内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、１つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、１つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、１以上のプロセッサ及び１以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む１ないし複数の電子回路で構成される。

また、音声認識システム１における複数の機能が、１つの筐体内に集約されていることは音声認識システム１に必須の構成ではなく、音声認識システム１の構成要素は、複数の筐体に分散して設けられていてもよい。例えば、エージェントＡ１と判定部１１とが複数の筐体に分散して設けられていてもよい。さらに、音声認識システム１の少なくとも一部の機能、例えば、音声認識システム１の一部の機能がクラウド（クラウドコンピューティング）等によって実現されてもよい。

上記の基本例では、音声認識システム１が、移動体１００に乗っている人Ｂ１と音声で対話する機能を有しているが、人Ｂ１と音声で対話する機能は必須ではない。音声認識システム１は、人Ｂ１が発した音声を認識する機能を少なくとも備えていればよく、音声の認識結果に対応した処理を行えばよい。ここにおいて、音声の認識結果に対応した処理とは、例えば、認識結果に基づいた応答内容を表示部５に出力する処理、又は認識結果に基づいて移動体１００の機器８を制御する処理等である。

また、上記の基本例において、音声の特徴量等の２値の比較において、「超える」としているところは「以上」であってもよい。つまり、２値の比較において、２値が等しい場合を含むか否かは、基準値等の設定次第で任意に変更できるので、「超える」か「以上」かに技術上の差異はない。同様に、「以下」としているところは「未満」であってもよい。

（３．１）変形例１
変形例１の音声認識システム１は、判定部１１が、話者の発話内容に基づいて、話者の発話相手がエージェントＡ１であるか人Ｂ１であるかを判定する点で基本例と相違する。なお、判定部１１以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。

変形例１では、判定部１１は、話者が話した内容、例えば話者が発した呼びかけの言葉（例えば「ねえ」、「ちょっと」等の言葉、又は発話相手の名前等）に基づいて、話者の発話相手がエージェントＡ１であるか人Ｂ１であるかを判定する。

話者が、発話相手の人Ｂ１に呼びかける場合は、例えば「ねえ」、「ちょっと」等の呼びかけの言葉、又は発話相手の人Ｂ１の名前等で呼びかける傾向がある。したがって、判定部１１は、話者が発した呼びかけの言葉に基づいて発話相手が人Ｂ１であるか否か、つまり人Ｂ１であるかエージェントＡ１であるかを判定することができる。

なお、判定部１１は、移動体１００に乗っている複数の人Ｂ１の間で行われる会話の内容、話の流れ等に基づいて、話者の発話相手がエージェントＡ１であるか人Ｂ１であるかを判定してもよい。例えば、話者が話した音声が「ちょっと待って」のように、話者が切り替わったことを示す音声である場合、判定部１１は、話者の発話相手が人Ｂ１であると判定してもよい。

また、変形例１の音声認識システム１において、判定部１１は、例えば話者が発した呼びかけの言葉（例えば発話相手の名前、愛称等）に基づいて、複数の人Ｂ１を含む聞き手の中から発話相手を判定してもよい。複数の人Ｂ１が互いに会話をする場合は、特定の呼びかけの言葉や名前等を発し、発話相手を特定して会話するのが一般的である。したがって、判定部１１は、話者が発した呼びかけの言葉等に基づいて、発話相手を判定することができ、音声認識システム１の処理部１５では、発話相手に応じて処理の内容を変更することもできる。

また、変形例１において、判定部１１は、話者の語調又は話し声の抑揚等に応じて発話相手が人Ｂ１であるかエージェントＡ１であるかを判定してもよい。一般的に、話者がエージェントＡ１に話しかける場合は、話者が人Ｂ１に話しかける場合に比べて、話者の話し方が丁寧な口調になったり、抑揚がない単調な話し方になったりする。そこで、判定部１１は、音声認識処理部１３に音声の内容を認識させ、音声の認識結果に基づいて、話者の語調が丁寧であったり、抑揚が少なかったりする場合には、発話相手がエージェントＡ１であると判定してもよい。

また、変形例１において、判定部１１は、話し方（話し声の大きさ、速度、又は口調等）の変化点に基づいて、発話相手が人Ｂ１からエージェントＡ１に、又は、エージェントＡ１から人Ｂ１に切り替わったと判定してもよい。

（３．２）変形例２
変形例２の音声認識システム１は、判定部１１が、発話中の話者の体の動きに基づいて、話者の発話相手がエージェントＡ１であるか人Ｂ１であるかを判定する点で基本例と相違する。なお、判定部１１以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。

変形例２の音声認識システム１では、例えば、判定部１１は、カメラ２の映像から人Ｂ１の体を検出することによって、人Ｂ１の体の動きを検出する。また、判定部１１は、カメラ２の映像に基づいて車内空間１０２にいる人Ｂ１の人数を検出できる。

判定部１１は、カメラ２の映像をもとに車内空間１０２に人Ｂ１が１人しか乗っていない場合、人Ｂ１の発話相手がエージェントＡ１であると判定する。

一方、車内空間１０２に複数の人Ｂ１が乗っている場合、判定部１１は、カメラ２の映像から検出した話者の体の動きに基づいて、複数の人Ｂ１の中から話者及び話者が話しかけた発話相手を判定する。例えば、判定部１１は、人Ｂ１の口の部分の動きを検出することで、発話中の話者を特定し、発話中の話者の体の動きを検出する。

ここで、運転席に座っている人Ｂ１１（話者）が、助手席に座っている人Ｂ１２に話しかける場合、人Ｂ１１は、図２に示すように、前方を見ながら発話相手の人Ｂ１２の方に頭を少し向けながら話す傾向がある。また、運転席又は助手席に座っている人Ｂ１１，Ｂ１２が後部座席に座っている人Ｂ１３に話しかける場合、話者である人Ｂ１１，Ｂ１２は、ルームミラー１０３をチラチラと見ながら発話する傾向がある。したがって、判定部１１は、マイク３から入力される第１音声信号と、カメラ２の映像とをもとに、第１音声信号の入力中に口の部分が動いている人Ｂ１を話者と判断する。そして、判定部１１は、カメラ２の映像から話者の頭の向きや視線の向きを判定することで、話者の発話相手を判定することができる。

このように、音声認識システム１では、複数の人Ｂ１を含む聞き手の中から、発話相手を判定することができる。すなわち、聞き手が複数の人Ｂ１を含む状況で、判定部１１は、複数の人の中から話者が話しかけた発話相手を判定することができる。よって、音声認識システム１の処理部１５では、発話相手に応じて処理の内容を変更することもできる。なお、判定部１１は、話者の体の動きに基づいて複数の人の中から発話相手を判定するが、例えば、話者が話した音声の内容又は口調等に基づいて発話相手を判定してもよい。すなわち、判定部１１は、話者が話した音声に含まれる、発話相手を特定可能な言葉（例えば発話相手の名前及び愛称等）に基づいて発話相手を特定してもよいし、話者が話した音声の話し方及び口調等に基づいて発話相手を判定してもよい。

（３．３）変形例３
変形例３の音声認識システム１は、話し手になり得る複数の人Ｂ１が存在する状況で、判定部１１が、複数の人から話者を判定する点で基本例と相違する。なお、判定部１１以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。

変形例３の音声認識システム１では、記憶部３０に、移動体１００を利用する複数の人Ｂ１にそれぞれ１対１に対応する複数の認識モデルが記憶されている。ここで、複数の人Ｂ１の各々に対応する認識モデルは、人Ｂ１に話しかける場合の第１認識モデルと、エージェントＡ１に話しかける場合の第２認識モデルとを含んでいてもよい。ここで、認識モデルは、音響モデルと、単語辞書と、言語モデルと、発話ドメインとを含んでいる。複数の人Ｂ１にそれぞれ対応する複数の認識モデルでは、音響モデル、単語辞書、言語モデル、及び発話ドメインのうちの一部又は全部が、複数の人Ｂ１のうち対応する人Ｂ１の話し方等に応じて変更されている。例えば、複数の人Ｂ１のそれぞれに対応した複数の認識モデルでは、少なくとも音響モデルが話者である人Ｂ１に応じて変更されていればよい。なお、複数の人Ｂ１のそれぞれに対応した複数の認識モデルで、音響モデルが共通で、単語辞書、言語モデル、及び発話ドメインのうちの少なくとも一部が話者である人Ｂ１に応じて変更されていてもよい。また、認識モデルが、音響モデルと、単語辞書と、言語モデルと、発話ドメインとを含むことは必須ではなく、音響モデル、単語辞書、言語モデル、及び発話ドメインの一部は適宜省略が可能である。

変形例３の音声認識システム１では、判定部１１は、例えば音声処理部２０が求めた音声の特徴量のデータに基づいて、話し手になり得る複数の人Ｂ１の中から話者を判定する。

そして、音声認識処理部１３は、判定部１１が判定した人Ｂ１に対応する認識モデル（第１認識モデル及び第２認識モデル）を用いて、話者の音声を認識する。音声認識処理部１３は、話者ごとに用意された認識モデル（第１認識モデル及び第２認識モデル）を用いて音声を認識するので、音声の認識精度が向上するという利点がある。

ここで、変形例３の音声認識システム１の動作を図５に基づいて説明する。なお、変形例３の音声認識システム１の動作はステップＳ２１，Ｓ２２の処理が、基本例で図３を用いて説明した動作と相違する。ここでは、図２に示すように、移動体１００の車内空間１０２に３人の人Ｂ１が乗っている状況での音声認識システム１の動作を説明する。

車内空間１０２にいる人Ｂ１が話すと、人Ｂ１が話した音声はマイク３によって第１音声信号に変換されて音声認識システム１に入力される（Ｓ１）。

マイク３から音声認識システム１に第１音声信号が入力されると、音声処理部２０は、入力された第１音声信号から話者及び発話相手の判定処理と音声の認識処理とに用いる特徴量のデータを求める。

そして、音声認識システム１の判定部１１は、音声処理部２０が求めた特徴量のデータに基づいて、複数の人Ｂ１の中から話者を判定する判定処理を行う（Ｓ２１）。また、音声認識システム１の判定部１１は、音声処理部２０が求めた特徴量のデータと、所定の閾値とを比較することによって、話者の発話相手がエージェントＡ１であるか人Ｂ１であるかを判定する判定処理を行う（Ｓ２２）。

ステップＳ２２で判定部１１が発話相手を人Ｂ１と判定すると（Ｓ３：Ｙｅｓ）、認識処理制御部１２は、判定部１１の判定結果に応じて、音声認識処理部１３及び処理部１５がそれぞれ行う処理の内容を制御する。

すなわち、認識処理制御部１２は、音声認識に用いる認識モデルとしてステップＳ２１で判定した人Ｂ１の第１認識モデルを選択して（Ｓ４）、音声認識処理部１３により音声の認識処理を実行させる（Ｓ５）。また、認識処理制御部１２は、話者の発話相手が人Ｂ１であると判定部１１が判定した場合、処理部１５に第１処理を実行させる（Ｓ６）。

一方、ステップＳ２２で判定部１１が発話相手をエージェントＡ１と判定すると（Ｓ３：Ｎｏ）、認識処理制御部１２は、判定部１１の判定結果に応じて、音声認識処理部１３及び処理部１５がそれぞれ行う処理の内容を制御する。

すなわち、認識処理制御部１２は、音声認識に用いる認識モデルとしてステップＳ２１で判定した人Ｂ１の第２認識モデルを選択して（Ｓ７）、音声認識処理部１３により音声の認識処理を実行させる（Ｓ８）。また、認識処理制御部１２は、話者の発話相手がエージェントＡ１であると判定部１１が判定した場合、処理部１５に第２処理を実行させる（Ｓ９）。

このように、変形例３の音声認識システム１では、音声認識処理部１３は、複数の人に１対１に対応した複数の認識モデルから、判定部１１が判定した話者に対応する認識モデルを用いて、話者の音声を認識する。音声認識処理部１３は、判定部１１が判定した話者に対応する認識モデル（第１認識モデル及び第２認識モデル）を用いて話者の音声を認識するので、音声の認識精度が向上するという利点がある。

（３．４）その他の変形例
上記の基本例において、判定部１１は、学習済みモデルを用いて、話者が話しかけた発話相手がエージェントＡ１であるか、人Ｂ１であるかを判定してもよい。判定部１１が用いる学習済みモデルの生成方法では、所定の状況で、話者が話しかけた発話相手が、エージェントＡ１と人Ｂ１とのいずれであるかを判定するための学習済みモデルを生成する。所定の状況とは、音声を認識する音声認識処理部１３を備えたエージェントＡ１と人Ｂ１とを含む複数の聞き手が存在する状況である。ここで、判定部１１が用いる学習済みモデルは、話者が人に話す場合の音声を電気信号に変換した第１音声信号と、話者がエージェントに話す場合の音声を電気信号に変換した第１音声信号とを入力データとした教師あり学習を行うことによって生成される。なお、判定部１１が用いる学習済みモデルは、教師無し学習を行うことによって生成されてもよいし、ディープラーニングを用いた機械学習で生成されてもよい。また、判定部１１が用いる学習済みモデルは、音声認識システム１以外のシステムで生成された学習済みモデルでもよいし、音声認識システム１自体で、判定部１１が用いる学習済みモデルを生成してもよい。

上記の基本例では、エージェントＡ１に、人Ｂ１の音声の認識結果に基づいた処理を開始させるために、話者が「Ｈｉくるま」のようなウェイクワードを発話しているが、ウェイクワードの発話は必須ではない。判定部１１によって話者の発話相手がエージェントＡ１であると判定されると、エージェントＡ１が、人Ｂ１の音声の認識結果に基づいた処理を開始するように構成されてもよい。

また、上記の基本例において、移動体１００に複数のエージェントＡ１が設けられていてもよい。すなわち、聞き手が複数のエージェントＡ１を含む状況で、判定部１１は、複数のエージェントＡ１の中から話者が話しかけた発話相手を判定してもよい。

例えば、聞き手として、カーナビゲーションのＨＭＩとして用いられる第１のエージェントＡ１と、機器８を操作するためのＨＭＩとして用いられる第２のエージェントＡ１とが移動体１００に設けられている場合について説明する。第１及び第２のエージェントＡ１の判定部１１は、話者がエージェントＡ１に対して話しかけた場合に、話者が話す内容に基づいて、第１及び第２のエージェントＡ１のどちらに話しかけたのかを判定する。すなわち、第１のエージェントＡ１の判定部１１は、話者が話した内容がカーナビゲーションに関する内容であれば、第１のエージェントＡ１に話しかけたと判定し、話者が話した内容に基づいて処理を行う。一方、第２のエージェントＡ１の判定部１１は、話者が話した内容が機器８の操作に関する内容であれば、第２のエージェントＡ１に話しかけたと判定し、話者が話した内容に基づいて処理を行う。なお、聞き手が複数のエージェントＡ１を含む場合において、判定部１１が複数のエージェントＡ１の各々に設けられることは必須ではなく、複数のエージェントＡ１に対して１つの判定部１１が設けられていてもよい。

また、上記の基本例において、判定部１１は、話者が携帯電話で通話している場合を判定してもよい。話者が携帯電話で通話している場合、マイク３には話者の音声しか入力されず、通話相手の音声はマイク３には入力されない。したがって、判定部１１は、話者の発話相手が人Ｂ１であると判定した場合で、話者以外の音声がマイク３に入力されない場合は、話者が携帯電話で通話していると判定することができる。なお、話者が携帯電話で通話する場合、話者の話し声は、話者が車内空間１０２にいる人Ｂ１と話す場合に比べて高い声になるのが一般的であるので、判定部１１は、話者の話し声の周波数等に基づいて携帯電話で通話していると判定してもよい。

また、上記の基本例では、音声認識処理部１３が音声認識に用いる認識モデルが、移動体１の音声認識システム１に記憶されているが、認識モデルは音声認識システム１が移動体１の通信機能を介して通信可能なサーバに記憶されていてもよい。

ところで、上記の基本例において、音声認識システム１の音声認識処理部１３は、判定部１１によって発話相手がエージェントＡ１であると判定された場合のみ、音声の認識処理を行ってもよい。これにより、音声認識システム１は、話者が人Ｂ１に話しかけた音声に基づいて誤動作する可能性を低減できる。

また、基本例では、移動体１００が自動車であったが、移動体１００は、例えば、鉄道車両、船舶、航空機等の自動車以外の移動体でもよい。

（まとめ）
以上説明したように、第１の態様に係る音声認識システム（１）は、エージェント（Ａ１）と、判定部（１１）とを有する。エージェント（Ａ１）は、音声を認識する音声認識処理部（１３）を備える。判定部（１１）は、エージェント（Ａ１）と人（Ｂ１）とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント（Ａ１）と人（Ｂ１）とのいずれであるかを判定する。

この態様によれば、判定部（１１）は、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手が聞きうる状況で、話者が話しかけた発話相手がエージェント（Ａ１）であるか人（Ｂ１）であるかを判定している。これにより、エージェント（Ａ１）では、話者が話しかけた発話相手がエージェント（Ａ１）であると判定部（１１）が判定した場合に、音声認識処理部（１３）により話者が話した音声の認識処理を行うことができる。したがって、話者がエージェント（Ａ１）に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、誤動作を抑制しながらも使い勝手が向上するという利点がある。

第２の態様に係る音声認識システム（１）では、第１の態様において、聞き手が複数の人（Ｂ１）を含む状況で、判定部（１１）は、複数の人（Ｂ１）の中から話者が話しかけた発話相手を判定する。

この態様によれば、判定部（１１）は、複数の人（Ｂ１）の中から発話相手を判定しているので、発話相手の人（Ｂ１）に応じた処理を行うことができる。

第３の態様に係る音声認識システム（１）では、第１又は２の態様において、聞き手が複数のエージェント（Ａ１）を含む状況で、判定部（１１）は、複数のエージェント（Ａ１）の中から話者が話しかけた発話相手を判定する。

この態様によれば、判定部（１１）は、複数のエージェント（Ａ１）の中から発話相手を判定しているので、発話相手のエージェント（Ａ１）に応じた処理を行うことができる。

第４の態様に係る音声認識システム（１）では、第１〜３のいずれかの態様において、エージェント（Ａ１）は、音声認識処理部（１３）の認識結果に基づく処理を行う処理部（１５）を更に備える。処理部（１５）は、判定部（１１）の判定結果に基づいて、処理の内容を変更する。

この態様によれば、処理部（１５）は、判定部（１１）の判定結果に基づいて、処理の内容を変更することができる。

第５の態様に係る音声認識システム（１）では、第４の態様において、エージェント（Ａ１）の処理部（１５）は、判定部（１１）の判定結果に基づいて、発話相手がエージェント（Ａ１）である場合と、発話相手がエージェント（Ａ１）以外の聞き手である場合とで処理の内容を変更する。

この態様によれば、処理部（１５）は、発話相手がエージェント（Ａ１）である場合と、発話相手がエージェント（Ａ１）以外の聞き手である場合とで、処理の内容を変更することができる。

第６の態様に係る音声認識システム（１）では、第１〜５のいずれかの態様において、判定部（１１）は、話者の話し方の特徴量に基づいて、話者の発話相手を判定する。

この態様によれば、判定部（１１）は、話者がエージェント（Ａ１）に話しかける場合と、話者が人（Ｂ１）に話しかける場合とで話し方が変化することを利用して発話相手を判定することができる。

第７の態様に係る音声認識システム（１）では、第１〜６のいずれかの態様において、判定部（１１）は、話者の発話内容に基づいて、話者の発話相手を判定する。

この態様によれば、判定部（１１）は、話者が話した発話内容に基づいて、発話相手を判定することができる。

第８の態様に係る音声認識システム（１）では、第１〜７のいずれかの態様において、判定部（１１）は、発話中の話者の体の動きに基づいて、話者の発話相手を判定する。

この態様によれば、判定部（１１）は、話者がエージェント（Ａ１）に話しかける場合と、話者が人（Ｂ１）に話しかける場合とで話者の体の動きが変化することを利用して発話相手を判定することができる。

第９の態様に係る音声認識システム（１）では、第１〜８のいずれかの態様において、音声認識処理部（１３）は、第１認識モデルと第２認識モデルとのうち、判定部（１１）の判定結果に基づいて選択した認識モデルを用いて話者の音声を認識する。第１認識モデルは、話者が人（Ｂ１）に話しかける場合の音声の認識モデルである。第２認識モデルは、話者がエージェント（Ａ１）に話しかける場合の音声の認識モデルである。

この態様によれば、音声認識処理部（１３）は、判定部（１１）の判定結果に基づいて選択した認識モデルを用いて音声を認識するので、音声の認識精度が向上するという利点がある。

第１０の態様に係る音声認識システム（１）では、第１〜８のいずれかの態様において、複数の人（Ｂ１）が存在する状況で、判定部（１１）は、複数の人（Ｂ１）から話者を判定する。

この態様によれば、判定部（１１）は、複数の人（Ｂ１）から話者を判定しているので、話者に応じて処理を変更することができる。

第１１の態様に係る音声認識システム（１）では、第１〜１０のいずれかの態様において、音声認識処理部（１３）は、複数の人（Ｂ１）に１対１に対応した複数の認識モデルから、判定部（１１）が判定した話者に対応する認識モデルを用いて話者の音声を認識する。

この態様によれば、音声認識処理部（１３）は、判定部（１１）が判定した話者に対応する認識モデルを用いて話者の音声を認識するので、音声の認識精度が向上するという利点がある。

第１２の態様に係る学習済みモデルの生成方法では、エージェント（Ａ１）と人（Ｂ１）とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント（Ａ１）と人（Ｂ１）とのいずれであるかを判定するための学習済みモデルを生成する。エージェント（Ａ１）は、音声を認識する音声認識処理部（１３）を備える。

この態様によれば、生成された学習済みモデルを用いることによって、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手が聞きうる状況で、話者が話しかけた発話相手がエージェント（Ａ１）であるか人（Ｂ１）であるかを判定できる。これにより、エージェント（Ａ１）では、話者が話しかけた発話相手がエージェント（Ａ１）であると判定された場合に、音声認識処理部（１３）により話者が話した音声の認識処理を行うことができる。したがって、話者がエージェント（Ａ１）に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、誤動作を抑制しながらも使い勝手が向上するという利点がある。

第１３の態様に係る音声認識システム（１）の制御方法は、判定処理を含む。判定処理では、音声を認識する音声認識処理部（１３）を備えたエージェント（Ａ１）と人（Ｂ１）とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント（Ａ１）と人（Ｂ１）とのいずれであるかを判定する。

この態様によれば、判定処理を行うことで、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手が聞きうる状況で、話者が話しかけた発話相手がエージェント（Ａ１）であるか人（Ｂ１）であるかを判定できる。これにより、エージェント（Ａ１）では、話者が話しかけた発話相手がエージェント（Ａ１）であると判定された場合に、音声認識処理部（１３）により話者が話した音声の認識処理を行うことができる。したがって、話者がエージェント（Ａ１）に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、誤動作を抑制しながらも使い勝手が向上するという利点がある。

第１４の態様に係るプログラムは、コンピュータシステムに、判定処理を実行させるためのプログラムである。判定処理では、音声を認識する音声認識処理部（１３）を備えたエージェント（Ａ１）と人（Ｂ１）とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント（Ａ１）と人（Ｂ１）とのいずれであるかを判定する判定処理を実行させる。

この態様によれば、判定処理を実行することで、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手が聞きうる状況で、話者が話しかけた発話相手がエージェント（Ａ１）であるか人（Ｂ１）であるかを判定できる。これにより、エージェント（Ａ１）では、話者が話しかけた発話相手がエージェント（Ａ１）であると判定された場合に、音声認識処理部（１３）により話者が話した音声の認識処理を行うことができる。したがって、話者がエージェント（Ａ１）に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、誤動作を抑制しながらも使い勝手が向上するという利点がある。

第１５の態様に係る移動体（１００）は、第１〜１１のいずれかの態様の音声認識システム（１）と、音声認識システム（１）を搭載する本体（１０１）と、を備える。

第１６の態様に係る音声認識システム（１）では、第１〜第１１において、エージェント（Ａ１）の処理部（１５）は、発話相手がエージェント（Ａ１）以外の聞き手であると判定部（１１）が判定した場合に、情報提示処理を行う。情報提示処理とは、話者が発話した内容に関連する情報を表示部（５）に表示させる処理である。

この態様によれば、エージェント（Ａ１）に対して質問しなくても、エージェント（Ａ１）が、話者が発話した内容に関連する情報を表示部（５）に表示させるので、使用性が向上するという利点がある。

第１７の態様に係る音声認識システム（１）では、第１〜第１１及び第１６の態様において、音声認識処理部（１３）は、判定部（１１）が発話相手をエージェント（Ａ１）と判定した場合に音声の認識処理を行う。

第１７の態様については、それ単独でも実施し得る態様であって、第１〜第１１及び第１６のいずれかの態様を前提とすることは必須ではない。すなわち、第１７の態様に係る音声認識システム（１）は、エージェント（Ａ１）と、判定部（１１）とを備える。エージェント（Ａ１）は、音声を認識する音声認識処理部（１３）を備える。判定部（１１）は、エージェント（Ａ１）と人（Ｂ１）とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント（Ａ１）と人（Ｂ１）とのいずれであるかを判定する。音声認識処理部（１３）は、判定部（１１）が発話相手をエージェント（Ａ１）と判定した場合に音声の認識処理を行う。この場合、音声認識システム（１）において、エージェント（Ａ１）の処理部（１５）が発話相手に応じて処理を変更することは必須の構成ではない。

上記態様に限らず、上記の実施形態に係る音声認識システム（１）の種々の構成（変形例を含む）は、音声認識システム（１）の制御方法、（コンピュータ）プログラム、又はプログラムを記録した非一時的記録媒体等で具現化可能である。

第２〜第１１、第１６及び第１７の態様に係る構成については、音声認識システム（１）に必須の構成ではなく、適宜省略可能である。

１音声認識システム
１１判定部
１３音声認識処理部
１５処理部
１００移動体
１０１本体
Ａ１エージェント
Ｂ１（Ｂ１１〜Ｂ１３）人

Claims

音声を認識する音声認識処理部を備えたエージェントと、
前記エージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する判定部とを有する、
音声認識システム。
前記聞き手が複数の前記人を含む状況で、前記判定部は、前記複数の人の中から前記話者が話しかけた発話相手を判定する、
請求項１に記載の音声認識システム。
前記聞き手が複数の前記エージェントを含む状況で、前記判定部は、前記複数のエージェントの中から前記話者が話しかけた発話相手を判定する、
請求項１又は２に記載の音声認識システム。
前記エージェントは、前記音声認識処理部の認識結果に基づく処理を行う処理部を更に備え、
前記処理部は、前記判定部の判定結果に基づいて、前記処理の内容を変更する、
請求項１〜３のいずれか１項に記載の音声認識システム。
前記エージェントの前記処理部は、前記判定部の判定結果に基づいて、前記発話相手が前記エージェントである場合と、前記発話相手が前記エージェント以外の前記聞き手である場合とで前記処理の内容を変更する、
請求項４に記載の音声認識システム。
前記判定部は、前記話者の話し方の特徴量に基づいて、前記話者の前記発話相手を判定する、
請求項１〜５のいずれか１項に記載の音声認識システム。
前記判定部は、前記話者の発話内容に基づいて、前記話者の前記発話相手を判定する、
請求項１〜６のいずれか１項に記載の音声認識システム。
前記判定部は、発話中の前記話者の体の動きに基づいて、前記話者の前記発話相手を判定する、
請求項１〜７のいずれか１項に記載の音声認識システム。
前記音声認識処理部は、前記話者が前記人に話しかける場合の音声の第１認識モデルと、前記話者が前記エージェントに話しかける場合の音声の第２認識モデルとのうち、前記判定部の判定結果に基づいて選択した認識モデルを用いて前記話者の音声を認識する、
請求項１〜８のいずれか１項に記載の音声認識システム。
複数の人が存在する状況で、
前記判定部は、前記複数の人から前記話者を判定する、
請求項１〜８のいずれか１項に記載の音声認識システム。
前記音声認識処理部は、前記複数の人に１対１に対応した複数の認識モデルから、前記判定部が判定した前記話者に対応する前記認識モデルを用いて、前記話者の音声を認識する、
請求項１〜１０のいずれか１項に記載の音声認識システム。
音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定するための学習済みモデルを生成する学習済みモデルの生成方法。
音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する判定処理を含む、
音声認識システムの制御方法。
コンピュータシステムに、
音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する判定処理を実行させるための、
プログラム。
請求項１〜１１のいずれか１項に記載の音声認識システムと、
前記音声認識システムを搭載する本体と、を備える、
移動体。