JP2020095121A - 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 - Google Patents

音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 Download PDF

Info

Publication number
JP2020095121A
JP2020095121A JP2018231835A JP2018231835A JP2020095121A JP 2020095121 A JP2020095121 A JP 2020095121A JP 2018231835 A JP2018231835 A JP 2018231835A JP 2018231835 A JP2018231835 A JP 2018231835A JP 2020095121 A JP2020095121 A JP 2020095121A
Authority
JP
Japan
Prior art keywords
speaker
voice
agent
voice recognition
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018231835A
Other languages
English (en)
Inventor
芳澤 伸一
Shinichi Yoshizawa
伸一 芳澤
豊 吉濱
Yutaka Yoshihama
豊 吉濱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2018231835A priority Critical patent/JP2020095121A/ja
Publication of JP2020095121A publication Critical patent/JP2020095121A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供する。【解決手段】音声認識システム1は、音声を認識する音声認識処理部13を備えたエージェントA1と、判定部11とを備える。判定部11は、エージェントA1と人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェントA1と人とのいずれであるかを判定する。【選択図】図1

Description

本開示は、音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体に関する。より詳細には、本開示は、入力された音声を認識する音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体に関する。
特許文献1は、話者がウェイクアップワードに続けて音声命令情報を発話すると、音声命令情報に従った処理を行う音声認識装置を開示する。
特表2018−517919号公報
特許文献1の音声認識装置では、話者がウェイクアップワードを発話せずに音声命令情報を発話すると、音声認識装置では、話者が音声認識装置に対して発話したと認識できず、音声命令情報に従った処理が行われない可能性がある。そのため、話者が複数の音声命令情報を続けて発話する場合、話者は音声命令情報を発話する前にその都度ウェイクアップワードを発話しなければならないため、話者はウェイクアップワードを発話するのを煩わしく感じる可能性があり、使用性が悪かった。
本開示の目的は、使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供することにある。
本開示の一態様の音声認識システムは、エージェントと、判定部とを備える。前記エージェントは、音声を認識する音声認識処理部を備える。前記判定部は、前記エージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する。
本開示の一態様の学習済みモデルの生成方法では、所定の状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定するための学習済みモデルを生成する。前記所定の状況は、音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況である。
本開示の一態様の音声認識システムの制御方法は、判定処理を含む。前記判定処理は、音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する。
本開示の一態様のプログラムは、コンピュータシステムに、判定処理を実行させるためのプログラムである。前記判定処理は、音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する処理である。
本開示の一態様の移動体は、前記音声認識システムと、前記音声認識システムを搭載する本体と、を備える。
本開示によれば、使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供することができる。
図1は、本開示の一実施形態に係る音声認識システムのブロック図である。 図2は、同上の音声認識システムを備えた移動体を説明する模式図である。 図3は、同上の音声認識システムの動作を説明するフローチャートである。 図4は、同上の音声認識システムの動作を説明するシーケンス図である。 図5は、本開示の一実施形態の変形例3に係る音声認識システムの動作を説明するフローチャートである。
以下に説明する実施形態は、本開示の種々の実施形態の一つに過ぎない。本開示の実施形態は、下記実施形態に限定されることはなく、この実施形態以外も含み得る。また、下記の実施形態は、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。
(実施形態)
(1)概要
本実施形態の音声認識システム1は、図1に示すように、音声を認識する音声認識処理部13を備えたエージェントA1と、判定部11とを備える。判定部11は、エージェントA1と人B1(図2参照)とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェントA1と人B1とのいずれであるかを判定する。
ここにおいて、エージェントA1は、コンピュータシステムによって実現される。エージェントA1は、音声認識処理部13を備え、話者が話した音声の内容を音声認識処理部13によって認識する。また、エージェントA1と人B1とを含む複数の聞き手が存在する状況とは、話者が話す言葉を、エージェントA1と人B1とが聞きうる状況であることをいう。なお、話者が話す言葉を、コンピュータシステムによって実現されるエージェントA1が「聞く」とは、話者が話す言葉がエージェントA1に入力されることをいう。
本実施形態では、判定部11が、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手(エージェントA1及び人B1)が聞きうる状況で、話者が話しかけた発話相手がエージェントA1であるか人B1であるかを判定している。これにより、例えば、エージェントA1では、話者の発話相手がエージェントA1であると判定部11が判定した場合に、音声認識処理部13の認識結果に基づいて話者の質問に応答する等の処理を行うことができる。したがって、話者がエージェントA1に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、使い勝手の向上を図ることが可能な音声認識システム1を実現することができる。
(2)詳細
(2.1)構成
以下、本実施形態に係る音声認識システム1について図面を参照して詳しく説明する。
本実施形態に係る音声認識システム1は、例えば自動車のような移動体100(図2参照)の本体101に搭載される。換言すると、移動体100は、音声認識システム1と、音声認識システム1を搭載する本体101とを備える。
音声認識システム1は、例えば、移動体100に乗っている人B1が音声で指示した命令に従って動作するナビゲーションシステムのHMI(Human Machine Interface)として用いられる。音声認識システム1がナビゲーションシステムに用いられる場合、移動体100に乗っている人B1が、移動体100の目的地を示す言葉又は目的地を検索するための言葉(検索語)を音声で発すると、音声認識システム1によって音声の内容が認識される。ナビゲーションシステムは、音声認識システム1の認識結果に基づいて、例えば目的地までの経路を検索したり、目的地を検索するための検索語から目的地の候補を検索したりする。そして、ナビゲーションシステムは、検索結果を話者(移動体100に乗っている人B1)に提示する。その後、話者が目的地を決定すると、ナビゲーションシステムは、決定された目的地までの経路を案内する動作を行う。また、本実施形態の音声認識システム1は、移動体100に搭載された空調装置等の機器8を操作するためのHMIとしても用いられる。
本実施形態の音声認識システム1は、制御部10と、音声処理部20と、記憶部30とを備える。音声認識システム1には、カメラ2から画像データが入力される。音声認識システム1には、表示部5及び操作入力部6が電気的に接続されている。また、本実施形態の音声認識システム1が備えるエージェントA1は、マイク3を介して入力された音声の内容を認識する機能に加え、音声を合成してスピーカ4から出力させる機能も備えている。
以下、音声認識システム1を含む全体システムの各部の構成について説明する。
カメラ2は、例えばCMOS(Complementary Metal Oxide Semiconductor)イメージセンサのようなイメージセンサを有する。カメラ2は、移動体100において人B1が乗る車内空間102の前側部分に配置されている。カメラ2は、車内空間102の前側部分に、車内空間102のほぼ全体を撮影できるように配置されている。したがって、カメラ2は、車内空間102の前席及び後席に座っている人B1の顔を前側から撮影することができる。なお、カメラ2はCMOSイメージセンサに限らず、CCD(Charge Coupled Device)イメージセンサ等のイメージセンサでもよい。
マイク3は、移動体100の車内空間102内に配置されている。マイク3には、車内空間102の前席及び後席に座っている人B1が発した音声が入力される。マイク3は、入力された音声を電気信号である第1音声信号に変換して音声認識システム1に出力する。なお、マイク3は、音声を変換して得た第1音声信号を増幅するアンプを内蔵してもよい。
スピーカ4は、音声認識システム1から入力された第2音声信号を音に変換して出力する。第2音声信号は、音声メッセージ又は報知音等の音をスピーカ4から出力させるための信号である。スピーカ4は、音声認識システム1から入力された第2電気信号を、音声メッセージ又は報知音等の音に変換して出力する。
表示部5は、例えば、液晶パネルとバックライトとを組み合わせた液晶ディスプレイ装置を有する。表示部5は、音声認識システム1から入力される表示データに基づいて表示を行う。ここにおいて、表示部5は、液晶ディスプレイ装置を有するものに限定されず、例えば、有機EL(Electro Luminescence)ディスプレイ等の自発光型のディスプレイ装置を有するものでもよい。
操作入力部6は、例えば、表示部5の液晶ディスプレイ装置に組み合わされるタッチスイッチを備える。タッチスイッチは、例えば静電容量方式、電磁誘導方式のタッチスイッチである。タッチスイッチは、例えば、車内空間102に乗っている人B1のタッチ操作を受け付けると、操作に応じた信号を音声認識システム1に出力する。
次に、音声認識システム1について説明する。
音声認識システム1は、制御部10と、音声処理部20と、記憶部30とを備える。
音声処理部20は、マイク3から入力された第1音声信号を信号処理して、話者が話した音声の特徴量のデータを求め、この特徴量のデータを制御部10に出力する。ここにおいて、音声の特徴量のデータとは、判定部11での判定処理及び音声認識処理部13での認識処理に用いられるデータであり、例えば話者の話し声の大きさ及び周波数、話者が話す速度等に関するデータである。
制御部10は、例えば、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、音声認識システム1の機能(例えば、判定部11、認識処理制御部12、音声認識処理部13、音声出力部14、及び処理部15等の機能)が実現される。プログラムは、コンピュータシステムのメモリに予め記録されている。なお、プログラムは、電気通信回線を通じて提供されてもよいし、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。本実施形態では、1台の移動体100に、音声認識処理部13を備えた1つのエージェントA1が設けられている。したがって、移動体100に2人以上の人B1が載っている場合、話者以外の1人以上の人B1と、エージェントA1とを含む複数の聞き手が存在する状況となる。
判定部11は、エージェントA1と人B1とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェントA1と人B1とのいずれであるかを判定する。例えば、判定部11には、音声処理部20から音声処理部20が求めた音声の特徴量のデータが入力されており、判定部11は、音声の特徴量のデータに基づいて、話者の発話相手がエージェントA1であるか人B1であるかを判定する。一般的に、話者は、人B1に話しかける場合と、エージェントA1に話しかける場合とで互いに異なる話し方で話す傾向がある。話者は、話者がエージェントA1に話しかける場合、発話した音声がエージェントA1によって正しく認識されるように留意して発話する。例えば、話者がエージェントA1に話しかける場合、話者が人B1に話しかける場合に比べて大きい声でゆっくりと、言葉を区切って話すようになる。したがって、音声処理部20が求めた特徴量のデータには、話者がエージェントA1である場合と、話者が人B1である場合とで有意差があり、この有意差に基づいた閾値が判定部11に設定されている。よって、判定部11は、音声処理部20が求めた特徴量のデータと閾値とを比較することで、話者の発話相手がエージェントA1であるか、人B1であるかを判定することができる。なお、判定部11は、音声処理部20が求めた特徴量のデータに基づいて、発話相手が人B1である場合のスコアと、発話相手がエージェントA1である場合のスコアとをそれぞれ求めてもよい。そして、判定部11は、発話相手が人B1である場合のスコアと、発話相手がエージェントA1である場合のスコアとの高低を比較することで、発話相手が人B1かエージェントA1かを判定してもよい。
認識処理制御部12は、判定部11の判定結果に基づいて、音声認識処理部13による認識処理を変化させるか、又は、音声認識処理部13の認識結果に基づいて処理部15が行う処理の内容を変化させる。
音声認識処理部13は、音声処理部20から入力された話者の音声を、記憶部30に記憶された認識モデルと比較することによって、話者が話した音声の内容を認識する。ここにおいて、認識モデルは、音響モデルと、単語辞書と、言語モデルと、発話ドメインとを含む。音響モデルは、複数の話者が話す音声の特徴量(例えば周波数成分等)を統計的に分析して得られたモデルである。単語辞書は、話者が発話相手と話しをする場合に使用する単語の意味を示す辞書である。言語モデルは、例えば話者が話す言語の文法等を示すモデルであり、丁寧な口調での話し方又はくだけた口調での話し方がそれぞれ発生する生起確率に関する情報を含んでいてもよい。発話ドメインは、話者が発話相手と話をする話題の分野に関する情報であり、話題の分野としては、例えば天気予報に関する分野、機器8の操作に関する分野等がある。なお、認識モデルは、音響モデル、単語辞書、言語モデル、及び発話ドメインの全てを含むものに限定されず、音響モデル、単語辞書、言語モデル、及び発話ドメインの一部を含むものでもよい。
音声出力部14は、例えば、波形接続型音声合成手法又は統計的音声合成手法を用いて音声合成を行い、音声合成により得られた第2音声信号をスピーカ4に出力し、スピーカ4から音声メッセージを出力させる。なお、音声出力部14は、報知音を出力させるための第2音声信号を作成して、スピーカ4に出力させてもよく、スピーカ4から報知音を出力させることができる。
処理部15は、音声認識処理部13の認識結果に基づいた処理を行う。例えば、処理部15は、音声認識処理部13の認識結果に基づいて話者が発話した内容(例えば質問等)に応答するための音声メッセージを作成し、音声出力部14に出力することによって、音声で応答する処理を行わせる。また、処理部15は、音声認識処理部13の認識結果に基づいて話者が発話した内容に応答する内容を表示部5に表示させる表示データを作成し、この表示データを表示部5に出力することによって、表示部5の表示で応答する処理を行わせてもよい。また、処理部15は、音声認識処理部13の認識結果に基づいて、移動体100に設けられた機器8を制御する制御データを作成し、作成した制御データをECU(Electronic Control Unit)7に送信してもよい。ここで、音声認識システム1は、移動体100に設けられたCAN(Controller Area Network)を介してECU7と通信すればよい。ECU7は音声認識システム1から受信した制御データに基づいて制御対象の機器8を制御する。なお、制御対象の機器8としては、移動体100に設けられた空調装置、映像音響機器(テレビ及び音楽プレイヤー)等がある。
記憶部30は、ROM(Read Only Memory)、RAM(Random Access Memory)、又はEEPROM(Electrically Erasable Programmable Read Only Memory)等から選択されるデバイスで構成される。記憶部30は、音声認識システム1が音声認識に用いる認識モデル等を記憶する。一般的に、話者は、発話相手がエージェントA1である場合、発話相手が人B1である場合に比べて、大きな声で、ゆっくりと、言葉を区切って話す傾向がある。そこで、本実施形態では、記憶部30に、発話相手が人B1である場合の音声の特徴量に基づいて作成された第1認識モデルと、発話相手がエージェントA1である場合の音声の特徴量に基づいて作成された第2認識モデルと、が記憶されている。ここで、第1認識モデルと第2認識モデルとでは、音響モデル、単語辞書、言語モデル、及び発話ドメインの一部又は全てが、発話相手(人B1又はエージェントA1)に応じて変更されていればよい。例えば、第1認識モデルと第2認識モデルとでは、少なくとも音響モデルが発話相手に応じて変更されていればよい。なお、第1認識モデルと第2認識モデルとで音響モデルは共通で、単語辞書、言語モデル、及び発話ドメインのうちの一部又は全部が発話相手(人B1又はエージェントA1)に応じて変更されていてもよい。また、記憶部30には、ナビゲーションシステムが使用する各種の情報(例えば、地図情報、及び、店舗・駅等の案内対象の施設に関する情報等)が記憶されている。
(2.2)動作
本実施形態の音声認識システム1の動作について図3に基づいて説明する。
以下では、図2に示すように、移動体100の車内空間102に3人の人B1が乗っている状況での音声認識システム1の動作を説明する。図2の例では、3人の人B1のうち、人B11が運転席に座り、人B12が助手席に座り、人B13が後部座席に座っている。
ここで、車内空間102にいる人B1が話すと、人B1が話した音声はマイク3によって第1音声信号に変換されて音声認識システム1に入力される(S1)。
マイク3から音声認識システム1に第1音声信号が入力されると、音声処理部20は、入力された第1音声信号から発話者の判定処理及び音声の認識処理に用いる特徴量のデータを求める。ここにおいて、音声処理部20によって求められる特徴量のデータとは、話者がエージェントA1に話しかける場合と、話者が人B1に話しかける場合とで有意差が生じうるような項目の特徴量について求められた値を含む。例えば、音声処理部20は、話者の話し声の大きさと、周波数と、話者が話す速度とのうち少なくとも1つの項目について特徴量のデータを求める。
そして、音声認識システム1の判定部11は、音声処理部20によって求められた特徴量のデータと、所定の閾値とを比較することによって、話者の発話相手がエージェントA1であるか人B1であるかを判定する(S2)。例えば、話者がエージェントA1に話しかける場合、話者は、エージェントA1によって音声が正しく認識されるよう、人B1に話しかける場合に比べて、大きな声で、ゆっくりと、言葉を句切って話す傾向がある。
ここで、判定部11には、話者の話し声の大きさに関する閾値(以下、第1閾値という)と、話し声の速度に関する閾値(以下、第2閾値という)とが設定されている。判定部11は、音声処理部20から入力された話し声の大きさに関する特徴量のデータと第1閾値とを比較し、音声処理部20から入力された話し声の速度に関する特徴量のデータと第2閾値とを比較する。判定部11は、話し声の大きさに関する特徴量のデータが第1閾値を超えるか、又は、話し声の速度に関する特徴量のデータが第2閾値を超えると、発話相手がエージェントA1であると判定する。一方、判定部11は、話し声の大きさに関する特徴量のデータが第1閾値以下であり、かつ、話し声の速度に関する特徴量のデータが第2閾値以下であると、発話相手が人B1であると判定する。このように、判定部11は、話者の話し方の特徴量に基づいて、話者の発話相手を判定しており、話者がエージェントA1に話しかける場合と、話者が人B1に話しかける場合とで話し方が変化することを利用して発話相手を判定することができる。
ステップS2の判定処理の結果、判定部11が発話相手を人B1と判定すると(S3:Yes)、認識処理制御部12は、判定部11の判定結果に応じて、音声認識処理部13及び処理部15がそれぞれ行う処理の内容を制御する。
すなわち、認識処理制御部12は、音声認識に用いる認識モデルとして第1認識モデルを選択して(S4)、音声認識処理部13により音声の認識処理を実行させる(S5)。ここで、話者の発話相手が人B1であると判定部11が判定した場合、音声認識処理部13は、発話相手が人B1である場合の第1認識モデルを用いて音声の認識処理を行うので、音声の認識精度が向上するという利点がある。
また、認識処理制御部12は、話者の発話相手が人B1であると判定部11が判定した場合、処理部15に第1処理を実行させる(S6)。ここで、処理部15が行う第1処理は、例えば、音声認識処理部13の認識結果に基づいて、話者が話した内容に関連する情報を検索し、検索結果を話者又は話者の発話相手に提示する処理を含む。例えば、「何が食べたい」と質問された話者が「イタリア料理かな」と話した場合、処理部15は、音声認識処理部13の認識結果に基づいて、現在地の周辺にあるイタリア料理店を検索し、検索結果を表示部5に表示させる処理を行う。なお、話者が発話相手に話した内容が、例えば「何が食べたい」のようにエージェントA1では回答できないような内容であれば、処理部15は、音声認識処理部13の認識結果に基づく処理を行わなくてもよい。この場合、音声認識処理部13の認識結果に基づいて、話者又は発話相手に対して情報等を提示する処理及び機器8を制御する処理を行わないことが第1処理となる。
ステップS6の処理が終了すると、音声認識システム1は、マイク3に新たな音声が入力されるのを待機し、マイク3に新たな音声が入力されると、音声認識システム1は、ステップS1以降の処理を実行する。
一方、ステップS2で判定部11が発話相手をエージェントA1と判定すると(S3:No)、認識処理制御部12は、判定部11の判定結果に応じて、音声認識処理部13及び処理部15がそれぞれ行う処理の内容を制御する。
すなわち、認識処理制御部12は、音声認識に用いる認識モデルとして第2認識モデルを選択して(S7)、音声認識処理部13により音声の認識処理を実行させる(S8)。ここで、話者の発話相手がエージェントA1であると判定部11が判定した場合、音声認識処理部13は、発話相手がエージェントA1である場合の第2認識モデルを用いて音声の認識処理を行うので、音声の認識精度が向上するという利点がある。
また、認識処理制御部12は、話者の発話相手がエージェントA1であると判定部11が判定した場合、処理部15に第2処理を実行させる(S9)。ここで、処理部15が行う第2処理は、音声認識処理部13の認識結果に基づいて、話者が話した内容に対応する処理を行う。例えば、話者が話した内容が何らかの質問であれば、処理部15は、質問に対する応答となる情報を検索して、検索結果を話者に対して提示する。また、話者が話した内容が移動体100に設けられた機器8を制御するための制御命令であれば、処理部15は、音声認識処理部13の認識結果に基づいて、制御対象の機器8を制御する処理を第2処理として行う。なお、処理部15は、制御対象の機器8に対する制御を開始する前に、制御内容を表示部5に表示させ、操作入力部6から制御内容を承認する操作内容が入力されると、制御対象の機器8に対する制御内容を実行してもよい。
ステップS9の処理が終了すると、音声認識システム1は、マイク3に新たな音声が入力されるのを待機し、マイク3に新たな音声が入力されると、音声認識システム1は、ステップS1以降の処理を実行する。
次に、本実施形態の音声認識システム1の動作を図4のシーケンス図に基づいて説明する。図4のシーケンス図は、移動体100を運転している人B11が、食事をする店を探すために、エージェントA1と、助手席に座っている人B12とに話しかける場合の音声認識システム1の動作を示している。
例えば移動体100を運転している人B11が、エージェントA1による音声案内を開始させるために、「Hiくるま」のようなウェイクワードを発話すると(S11)、マイク3に人B11が話した音声が入力される。
このとき、音声処理部20が第1音声信号から音声の特徴量のデータを求め、判定部11が、音声処理部20が求めた特徴量のデータと閾値とを比較することで、話者の発話相手がエージェントA1であると判定する。この場合、音声認識処理部13は、第2認識モデルを用いて音声認識を行い、入力された音声がウェイクワードであると認識すると、音声認識システム1はエージェントA1による音声案内を開始させる。ここで、音声認識システム1は、エージェントA1による音声案内を開始したことを示す音声をスピーカ4から出力させてもよく、エージェントA1による音声案内が開始したことを話者に伝えることができる。なお、本実施形態において、マイク3にウェイクワードが入力された場合には、判定部11が、発話相手を判定する処理を省略してもよい。
その後、人B11がエージェントA1に「レストランを探して」と話しかけると(S12)、音声処理部20がマイク3から入力された第1音声信号から音声の特徴量のデータを求め、判定部11が、音声の特徴量のデータと閾値とを比較する。ここで、判定部11が話者の発話相手がエージェントA1であると判定すると、音声認識処理部13が、第2認識モデルを用いて音声認識を行い、処理部15が音声の認識結果に基づいて第2処理を行う。なお、ウェイクワードが入力された直後にマイク3に音声が入力された場合は、判定部11が、発話相手を判定する処理を省略し、音声認識システム1が、発話相手がエージェントA1である場合の処理を行ってもよい。
ステップS12では、話者が「レストランを探して」と発話しているので、音声認識システム1の処理部15は、現在地の周辺にあるレストランスを検索する(S13)。例えば、処理部15は、ECU7から現在地の位置情報(経度及び緯度などの情報)を取得し、現在地の位置情報と記憶部30に記憶されている店舗の情報とに基づいて、現在地の周辺にあるレストランスを検索する。そして、処理部15は、検索結果を所定の判定条件(例えば、店名の五十音順等)に従ってソートし、先頭から1又は複数のレストランについての情報を表示部5に表示させる(S14)。
ここで、人B11が、表示部5に表示された検索結果を見て、エージェントA1に「近くのレストランを教えて」と話しかけると(S15)、判定部11が、音声処理部20から入力される特徴量のデータに基づいて発話相手を判定する。判定部11が話者の発話相手がエージェントA1であると判定すると、音声認識処理部13が、第2認識モデルを用いて音声認識を行い、処理部15が音声の認識結果に基づいて第2処理を行う。ステップS15では、人B11が「近くのレストランを教えて」と発話しているので、音声認識システム1の処理部15は、ステップS13で検索されたレストランを、現在地からの距離でソーティングする(S16)。そして、処理部15は、ステップS16でソーティングされた結果を表示部5に表示させる(S17)。これにより、人B11は、表示部5に表示された検索結果を見て、近くにあるレストランを確認することができる。
その後、人B11が、移動体100に同乗している人B12に「何食べたい」と話しかけると(S18)、判定部11が、音声処理部20から入力される特徴量のデータに基づいて発話相手を判定する。判定部11が話者の発話相手が人B1であると判定すると、音声認識処理部13が、第1認識モデルを用いて音声認識を行い、処理部15が音声の認識結果に基づいて第1処理を行う。ステップS18では人B11が「何食べたい」と発話しており、処理部15は、「何食べたい」との質問に対する回答がないので、人B11の質問に応答する処理は行わず、次の音声の入力待ちを行う。
次に、人B11からの問いかけに人B12が「イタリア料理かな」と答えると(S19)、判定部11が、音声処理部20から入力される特徴量のデータに基づいて発話相手を判定する。ここで、判定部11が話者の発話相手が人B1であると判定すると、音声認識処理部13が、第1認識モデルを用いて音声認識を行い、処理部15が音声の認識結果に基づいて第1処理を行う。ステップS19では人B12が「イタリア料理かな」と発話しているので、音声認識システム1の処理部15は、ステップS16でソーティングした後の検索結果からイタリア料理店の情報を抽出し、表示部5に表示させる処理を行う(S20)。エージェントA1は、人B12が人B11に対して話した内容に基づいて作成した情報を表示部5に表示させることで、人B11,B12に提示している。したがって、人B11,B12はエージェントA1が提示した情報をもとに、行先を検討することができる。エージェントA1は、人B11又は人B12からの要求が無くても、人B11,B12が話した内容に基づく情報を人B11,B12に提示できるので、エージェントA1の使用性を向上させることができる。
上述のように、本実施形態の音声認識システム1では、エージェントA1が、音声認識処理部13の認識結果に基づく処理を行う処理部15を更に備えている。そして、処理部15は、判定部11の判定結果に基づいて、処理の内容を変更する。したがって、処理部15は、判定部11の判定結果に基づいて、処理部15が行う処理の内容を変更できる。
さらに言えば、エージェントA1の処理部15は、判定部11の判定結果に基づいて、発話相手がエージェントA1である場合と、発話相手がエージェントA1以外の聞き手(例えば人B1)である場合とで処理の内容を変更する。これにより、処理部15は、発話相手がエージェントA1である場合と、発話相手がエージェントA1以外の聞き手である場合とで、それぞれの場合に適した処理を行うことができる。
また、本実施形態の音声認識システム1では、音声認識処理部13は、第1認識モデルと第2認識モデルとのうち、判定部11の判定結果に基づいて選択した認識モデルを用いて話者の音声を認識する。ここで、第1認識モデルは、話者が人B1に話しかける場合の音声の認識モデルであり、第2認識モデルは、話者がエージェントA1に話しかける場合の音声の認識モデルである。例えば、認識モデルは音響モデルと単語辞書と言語モデルと発話ドメインとを含み、第1認識モデルと第2認識モデルとでは、音響モデル、単語辞書、言語モデル、及び発話ドメインの少なくとも一部が発話相手に応じて変更されている。このように、音声認識処理部13は、話者が人B1に話しかける場合とエージェントA1に話しかける場合とで認識モデルを変更しており、発話相手に応じて用意された認識モデルを用いて音声を認識しているので、音声の認識精度の向上を図ることができる。
また、音声認識システム1は、移動体100に乗っている複数の人B1が互いに話している場合でも、複数の人B1が互いに話している内容を認識し、認識結果に基づいた処理(第1処理)を行っている。したがって、音声認識システム1は、複数の人B1が互いに話している内容に関連した情報を表示部5に表示させることができ、音声認識システム1の使用性が向上する。また、音声認識システム1は、判定部11が話者の発話相手を人B1と判定した場合、話者の問いかけに対してエージェントA1が直接返答したり、機器8を制御したりすることがない。よって、音声認識システム1では、ウェイクワードを発話しなくて、誤動作が発生しにくいので使用性が向上する、という利点がある。
(3)変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、音声認識システム1と同様の機能は、音声認識システムの制御方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る音声認識システムの制御方法は、判定処理を含む。判定処理では、エージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェントと人とのいずれであるかを判定する。エージェントは、音声を認識する音声認識処理部を備える。一態様に係る(コンピュータ)プログラムは、コンピュータシステムに、判定処理を実行させるためのプログラムである。
以下、上記の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。なお、以下では、上記実施形態を「基本例」と呼ぶこともある。
本開示における音声認識システム1は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における音声認識システム1としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1ないし複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、1以上のプロセッサ及び1以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む1ないし複数の電子回路で構成される。
また、音声認識システム1における複数の機能が、1つの筐体内に集約されていることは音声認識システム1に必須の構成ではなく、音声認識システム1の構成要素は、複数の筐体に分散して設けられていてもよい。例えば、エージェントA1と判定部11とが複数の筐体に分散して設けられていてもよい。さらに、音声認識システム1の少なくとも一部の機能、例えば、音声認識システム1の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。
上記の基本例では、音声認識システム1が、移動体100に乗っている人B1と音声で対話する機能を有しているが、人B1と音声で対話する機能は必須ではない。音声認識システム1は、人B1が発した音声を認識する機能を少なくとも備えていればよく、音声の認識結果に対応した処理を行えばよい。ここにおいて、音声の認識結果に対応した処理とは、例えば、認識結果に基づいた応答内容を表示部5に出力する処理、又は認識結果に基づいて移動体100の機器8を制御する処理等である。
また、上記の基本例において、音声の特徴量等の2値の比較において、「超える」としているところは「以上」であってもよい。つまり、2値の比較において、2値が等しい場合を含むか否かは、基準値等の設定次第で任意に変更できるので、「超える」か「以上」かに技術上の差異はない。同様に、「以下」としているところは「未満」であってもよい。
(3.1)変形例1
変形例1の音声認識システム1は、判定部11が、話者の発話内容に基づいて、話者の発話相手がエージェントA1であるか人B1であるかを判定する点で基本例と相違する。なお、判定部11以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
変形例1では、判定部11は、話者が話した内容、例えば話者が発した呼びかけの言葉(例えば「ねえ」、「ちょっと」等の言葉、又は発話相手の名前等)に基づいて、話者の発話相手がエージェントA1であるか人B1であるかを判定する。
話者が、発話相手の人B1に呼びかける場合は、例えば「ねえ」、「ちょっと」等の呼びかけの言葉、又は発話相手の人B1の名前等で呼びかける傾向がある。したがって、判定部11は、話者が発した呼びかけの言葉に基づいて発話相手が人B1であるか否か、つまり人B1であるかエージェントA1であるかを判定することができる。
なお、判定部11は、移動体100に乗っている複数の人B1の間で行われる会話の内容、話の流れ等に基づいて、話者の発話相手がエージェントA1であるか人B1であるかを判定してもよい。例えば、話者が話した音声が「ちょっと待って」のように、話者が切り替わったことを示す音声である場合、判定部11は、話者の発話相手が人B1であると判定してもよい。
また、変形例1の音声認識システム1において、判定部11は、例えば話者が発した呼びかけの言葉(例えば発話相手の名前、愛称等)に基づいて、複数の人B1を含む聞き手の中から発話相手を判定してもよい。複数の人B1が互いに会話をする場合は、特定の呼びかけの言葉や名前等を発し、発話相手を特定して会話するのが一般的である。したがって、判定部11は、話者が発した呼びかけの言葉等に基づいて、発話相手を判定することができ、音声認識システム1の処理部15では、発話相手に応じて処理の内容を変更することもできる。
また、変形例1において、判定部11は、話者の語調又は話し声の抑揚等に応じて発話相手が人B1であるかエージェントA1であるかを判定してもよい。一般的に、話者がエージェントA1に話しかける場合は、話者が人B1に話しかける場合に比べて、話者の話し方が丁寧な口調になったり、抑揚がない単調な話し方になったりする。そこで、判定部11は、音声認識処理部13に音声の内容を認識させ、音声の認識結果に基づいて、話者の語調が丁寧であったり、抑揚が少なかったりする場合には、発話相手がエージェントA1であると判定してもよい。
また、変形例1において、判定部11は、話し方(話し声の大きさ、速度、又は口調等)の変化点に基づいて、発話相手が人B1からエージェントA1に、又は、エー ジェントA1から人B1に切り替わったと判定してもよい。
(3.2)変形例2
変形例2の音声認識システム1は、判定部11が、発話中の話者の体の動きに基づいて、話者の発話相手がエージェントA1であるか人B1であるかを判定する点で基本例と相違する。なお、判定部11以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
変形例2の音声認識システム1では、例えば、判定部11は、カメラ2の映像から人B1の体を検出することによって、人B1の体の動きを検出する。また、判定部11は、カメラ2の映像に基づいて車内空間102にいる人B1の人数を検出できる。
判定部11は、カメラ2の映像をもとに車内空間102に人B1が1人しか乗っていない場合、人B1の発話相手がエージェントA1であると判定する。
一方、車内空間102に複数の人B1が乗っている場合、判定部11は、カメラ2の映像から検出した話者の体の動きに基づいて、複数の人B1の中から話者及び話者が話しかけた発話相手を判定する。例えば、判定部11は、人B1の口の部分の動きを検出することで、発話中の話者を特定し、発話中の話者の体の動きを検出する。
ここで、運転席に座っている人B11(話者)が、助手席に座っている人B12に話しかける場合、人B11は、図2に示すように、前方を見ながら発話相手の人B12の方に頭を少し向けながら話す傾向がある。また、運転席又は助手席に座っている人B11,B12が後部座席に座っている人B13に話しかける場合、話者である人B11,B12は、ルームミラー103をチラチラと見ながら発話する傾向がある。したがって、判定部11は、マイク3から入力される第1音声信号と、カメラ2の映像とをもとに、第1音声信号の入力中に口の部分が動いている人B1を話者と判断する。そして、判定部11は、カメラ2の映像から話者の頭の向きや視線の向きを判定することで、話者の発話相手を判定することができる。
このように、音声認識システム1では、複数の人B1を含む聞き手の中から、発話相手を判定することができる。すなわち、聞き手が複数の人B1を含む状況で、判定部11は、複数の人の中から話者が話しかけた発話相手を判定することができる。よって、音声認識システム1の処理部15では、発話相手に応じて処理の内容を変更することもできる。なお、判定部11は、話者の体の動きに基づいて複数の人の中から発話相手を判定するが、例えば、話者が話した音声の内容又は口調等に基づいて発話相手を判定してもよい。すなわち、判定部11は、話者が話した音声に含まれる、発話相手を特定可能な言葉(例えば発話相手の名前及び愛称等)に基づいて発話相手を特定してもよいし、話者が話した音声の話し方及び口調等に基づいて発話相手を判定してもよい。
(3.3)変形例3
変形例3の音声認識システム1は、話し手になり得る複数の人B1が存在する状況で、判定部11が、複数の人から話者を判定する点で基本例と相違する。なお、判定部11以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
変形例3の音声認識システム1では、記憶部30に、移動体100を利用する複数の人B1にそれぞれ1対1に対応する複数の認識モデルが記憶されている。ここで、複数の人B1の各々に対応する認識モデルは、人B1に話しかける場合の第1認識モデルと、エージェントA1に話しかける場合の第2認識モデルとを含んでいてもよい。ここで、認識モデルは、音響モデルと、単語辞書と、言語モデルと、発話ドメインとを含んでいる。複数の人B1にそれぞれ対応する複数の認識モデルでは、音響モデル、単語辞書、言語モデル、及び発話ドメインのうちの一部又は全部が、複数の人B1のうち対応する人B1の話し方等に応じて変更されている。例えば、複数の人B1のそれぞれに対応した複数の認識モデルでは、少なくとも音響モデルが話者である人B1に応じて変更されていればよい。なお、複数の人B1のそれぞれに対応した複数の認識モデルで、音響モデルが共通で、単語辞書、言語モデル、及び発話ドメインのうちの少なくとも一部が話者である人B1に応じて変更されていてもよい。また、認識モデルが、音響モデルと、単語辞書と、言語モデルと、発話ドメインとを含むことは必須ではなく、音響モデル、単語辞書、言語モデル、及び発話ドメインの一部は適宜省略が可能である。
変形例3の音声認識システム1では、判定部11は、例えば音声処理部20が求めた音声の特徴量のデータに基づいて、話し手になり得る複数の人B1の中から話者を判定する。
そして、音声認識処理部13は、判定部11が判定した人B1に対応する認識モデル(第1認識モデル及び第2認識モデル)を用いて、話者の音声を認識する。音声認識処理部13は、話者ごとに用意された認識モデル(第1認識モデル及び第2認識モデル)を用いて音声を認識するので、音声の認識精度が向上するという利点がある。
ここで、変形例3の音声認識システム1の動作を図5に基づいて説明する。なお、変形例3の音声認識システム1の動作はステップS21,S22の処理が、基本例で図3を用いて説明した動作と相違する。ここでは、図2に示すように、移動体100の車内空間102に3人の人B1が乗っている状況での音声認識システム1の動作を説明する。
車内空間102にいる人B1が話すと、人B1が話した音声はマイク3によって第1音声信号に変換されて音声認識システム1に入力される(S1)。
マイク3から音声認識システム1に第1音声信号が入力されると、音声処理部20は、入力された第1音声信号から話者及び発話相手の判定処理と音声の認識処理とに用いる特徴量のデータを求める。
そして、音声認識システム1の判定部11は、音声処理部20が求めた特徴量のデータに基づいて、複数の人B1の中から話者を判定する判定処理を行う(S21)。また、音声認識システム1の判定部11は、音声処理部20が求めた特徴量のデータと、所定の閾値とを比較することによって、話者の発話相手がエージェントA1であるか人B1であるかを判定する判定処理を行う(S22)。
ステップS22で判定部11が発話相手を人B1と判定すると(S3:Yes)、認識処理制御部12は、判定部11の判定結果に応じて、音声認識処理部13及び処理部15がそれぞれ行う処理の内容を制御する。
すなわち、認識処理制御部12は、音声認識に用いる認識モデルとしてステップS21で判定した人B1の第1認識モデルを選択して(S4)、音声認識処理部13により音声の認識処理を実行させる(S5)。また、認識処理制御部12は、話者の発話相手が人B1であると判定部11が判定した場合、処理部15に第1処理を実行させる(S6)。
ステップS6の処理が終了すると、音声認識システム1は、マイク3に新たな音声が入力されるのを待機し、マイク3に新たな音声が入力されると、音声認識システム1は、ステップS1以降の処理を実行する。
一方、ステップS22で判定部11が発話相手をエージェントA1と判定すると(S3:No)、認識処理制御部12は、判定部11の判定結果に応じて、音声認識処理部13及び処理部15がそれぞれ行う処理の内容を制御する。
すなわち、認識処理制御部12は、音声認識に用いる認識モデルとしてステップS21で判定した人B1の第2認識モデルを選択して(S7)、音声認識処理部13により音声の認識処理を実行させる(S8)。また、認識処理制御部12は、話者の発話相手がエージェントA1であると判定部11が判定した場合、処理部15に第2処理を実行させる(S9)。
ステップS9の処理が終了すると、音声認識システム1は、マイク3に新たな音声が入力されるのを待機し、マイク3に新たな音声が入力されると、音声認識システム1は、ステップS1以降の処理を実行する。
このように、変形例3の音声認識システム1では、音声認識処理部13は、複数の人に1対1に対応した複数の認識モデルから、判定部11が判定した話者に対応する認識モデルを用いて、話者の音声を認識する。音声認識処理部13は、判定部11が判定した話者に対応する認識モデル(第1認識モデル及び第2認識モデル)を用いて話者の音声を認識するので、音声の認識精度が向上するという利点がある。
(3.4)その他の変形例
上記の基本例において、判定部11は、学習済みモデルを用いて、話者が話しかけた発話相手がエージェントA1であるか、人B1であるかを判定してもよい。判定部11が用いる学習済みモデルの生成方法では、所定の状況で、話者が話しかけた発話相手が、エージェントA1と人B1とのいずれであるかを判定するための学習済みモデルを生成する。所定の状況とは、音声を認識する音声認識処理部13を備えたエージェントA1と人B1とを含む複数の聞き手が存在する状況である。ここで、判定部11が用いる学習済みモデルは、話者が人に話す場合の音声を電気信号に変換した第1音声信号と、話者がエージェントに話す場合の音声を電気信号に変換した第1音声信号とを入力データとした教師あり学習を行うことによって生成される。なお、判定部11が用いる学習済みモデルは、教師無し学習を行うことによって生成されてもよいし、ディープラーニングを用いた機械学習で生成されてもよい。また、判定部11が用いる学習済みモデルは、音声認識システム1以外のシステムで生成された学習済みモデルでもよいし、音声認識システム1自体で、判定部11が用いる学習済みモデルを生成してもよい。
上記の基本例では、エージェントA1に、人B1の音声の認識結果に基づいた処理を開始させるために、話者が「Hiくるま」のようなウェイクワードを発話しているが、ウェイクワードの発話は必須ではない。判定部11によって話者の発話相手がエージェントA1であると判定されると、エージェントA1が、人B1の音声の認識結果に基づいた処理を開始するように構成されてもよい。
また、上記の基本例において、移動体100に複数のエージェントA1が設けられていてもよい。すなわち、聞き手が複数のエージェントA1を含む状況で、判定部11は、複数のエージェントA1の中から話者が話しかけた発話相手を判定してもよい。
例えば、聞き手として、カーナビゲーションのHMIとして用いられる第1のエージェントA1と、機器8を操作するためのHMIとして用いられる第2のエージェントA1とが移動体100に設けられている場合について説明する。第1及び第2のエージェントA1の判定部11は、話者がエージェントA1に対して話しかけた場合に、話者が話す内容に基づいて、第1及び第2のエージェントA1のどちらに話しかけたのかを判定する。すなわち、第1のエージェントA1の判定部11は、話者が話した内容がカーナビゲーションに関する内容であれば、第1のエージェントA1に話しかけたと判定し、話者が話した内容に基づいて処理を行う。一方、第2のエージェントA1の判定部11は、話者が話した内容が機器8の操作に関する内容であれば、第2のエージェントA1に話しかけたと判定し、話者が話した内容に基づいて処理を行う。なお、聞き手が複数のエージェントA1を含む場合において、判定部11が複数のエージェントA1の各々に設けられることは必須ではなく、複数のエージェントA1に対して1つの判定部11が設けられていてもよい。
また、上記の基本例において、判定部11は、話者が携帯電話で通話している場合を判定してもよい。話者が携帯電話で通話している場合、マイク3には話者の音声しか入力されず、通話相手の音声はマイク3には入力されない。したがって、判定部11は、話者の発話相手が人B1であると判定した場合で、話者以外の音声がマイク3に入力されない場合は、話者が携帯電話で通話していると判定することができる。なお、話者が携帯電話で通話する場合、話者の話し声は、話者が車内空間102にいる人B1と話す場合に比べて高い声になるのが一般的であるので、判定部11は、話者の話し声の周波数等に基づいて携帯電話で通話していると判定してもよい。
また、上記の基本例では、音声認識処理部13が音声認識に用いる認識モデルが、移動体1の音声認識システム1に記憶されているが、認識モデルは音声認識システム1が移動体1の通信機能を介して通信可能なサーバに記憶されていてもよい。
ところで、上記の基本例において、音声認識システム1の音声認識処理部13は、判定部11によって発話相手がエージェントA1であると判定された場合のみ、音声の認識処理を行ってもよい。これにより、音声認識システム1は、話者が人B1に話しかけた音声に基づいて誤動作する可能性を低減できる。
また、基本例では、移動体100が自動車であったが、移動体100は、例えば、鉄道車両、船舶、航空機等の自動車以外の移動体でもよい。
(まとめ)
以上説明したように、第1の態様に係る音声認識システム(1)は、エージェント(A1)と、判定部(11)とを有する。エージェント(A1)は、音声を認識する音声認識処理部(13)を備える。判定部(11)は、エージェント(A1)と人(B1)とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント(A1)と人(B1)とのいずれであるかを判定する。
この態様によれば、判定部(11)は、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手が聞きうる状況で、話者が話しかけた発話相手がエージェント(A1)であるか人(B1)であるかを判定している。これにより、エージェント(A1)では、話者が話しかけた発話相手がエージェント(A1)であると判定部(11)が判定した場合に、音声認識処理部(13)により話者が話した音声の認識処理を行うことができる。したがって、話者がエージェント(A1)に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、誤動作を抑制しながらも使い勝手が向上するという利点がある。
第2の態様に係る音声認識システム(1)では、第1の態様において、聞き手が複数の人(B1)を含む状況で、判定部(11)は、複数の人(B1)の中から話者が話しかけた発話相手を判定する。
この態様によれば、判定部(11)は、複数の人(B1)の中から発話相手を判定しているので、発話相手の人(B1)に応じた処理を行うことができる。
第3の態様に係る音声認識システム(1)では、第1又は2の態様において、聞き手が複数のエージェント(A1)を含む状況で、判定部(11)は、複数のエージェント(A1)の中から話者が話しかけた発話相手を判定する。
この態様によれば、判定部(11)は、複数のエージェント(A1)の中から発話相手を判定しているので、発話相手のエージェント(A1)に応じた処理を行うことができる。
第4の態様に係る音声認識システム(1)では、第1〜3のいずれかの態様において、エージェント(A1)は、音声認識処理部(13)の認識結果に基づく処理を行う処理部(15)を更に備える。処理部(15)は、判定部(11)の判定結果に基づいて、処理の内容を変更する。
この態様によれば、処理部(15)は、判定部(11)の判定結果に基づいて、処理の内容を変更することができる。
第5の態様に係る音声認識システム(1)では、第4の態様において、エージェント(A1)の処理部(15)は、判定部(11)の判定結果に基づいて、発話相手がエージェント(A1)である場合と、発話相手がエージェント(A1)以外の聞き手である場合とで処理の内容を変更する。
この態様によれば、処理部(15)は、発話相手がエージェント(A1)である場合と、発話相手がエージェント(A1)以外の聞き手である場合とで、処理の内容を変更することができる。
第6の態様に係る音声認識システム(1)では、第1〜5のいずれかの態様において、判定部(11)は、話者の話し方の特徴量に基づいて、話者の発話相手を判定する。
この態様によれば、判定部(11)は、話者がエージェント(A1)に話しかける場合と、話者が人(B1)に話しかける場合とで話し方が変化することを利用して発話相手を判定することができる。
第7の態様に係る音声認識システム(1)では、第1〜6のいずれかの態様において、判定部(11)は、話者の発話内容に基づいて、話者の発話相手を判定する。
この態様によれば、判定部(11)は、話者が話した発話内容に基づいて、発話相手を判定することができる。
第8の態様に係る音声認識システム(1)では、第1〜7のいずれかの態様において、判定部(11)は、発話中の話者の体の動きに基づいて、話者の発話相手を判定する。
この態様によれば、判定部(11)は、話者がエージェント(A1)に話しかける場合と、話者が人(B1)に話しかける場合とで話者の体の動きが変化することを利用して発話相手を判定することができる。
第9の態様に係る音声認識システム(1)では、第1〜8のいずれかの態様において、音声認識処理部(13)は、第1認識モデルと第2認識モデルとのうち、判定部(11)の判定結果に基づいて選択した認識モデルを用いて話者の音声を認識する。第1認識モデルは、話者が人(B1)に話しかける場合の音声の認識モデルである。第2認識モデルは、話者がエージェント(A1)に話しかける場合の音声の認識モデルである。
この態様によれば、音声認識処理部(13)は、判定部(11)の判定結果に基づいて選択した認識モデルを用いて音声を認識するので、音声の認識精度が向上するという利点がある。
第10の態様に係る音声認識システム(1)では、第1〜8のいずれかの態様において、複数の人(B1)が存在する状況で、判定部(11)は、複数の人(B1)から話者を判定する。
この態様によれば、判定部(11)は、複数の人(B1)から話者を判定しているので、話者に応じて処理を変更することができる。
第11の態様に係る音声認識システム(1)では、第1〜10のいずれかの態様において、音声認識処理部(13)は、複数の人(B1)に1対1に対応した複数の認識モデルから、判定部(11)が判定した話者に対応する認識モデルを用いて話者の音声を認識する。
この態様によれば、音声認識処理部(13)は、判定部(11)が判定した話者に対応する認識モデルを用いて話者の音声を認識するので、音声の認識精度が向上するという利点がある。
第12の態様に係る学習済みモデルの生成方法では、エージェント(A1)と人(B1)とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント(A1)と人(B1)とのいずれであるかを判定するための学習済みモデルを生成する。エージェント(A1)は、音声を認識する音声認識処理部(13)を備える。
この態様によれば、生成された学習済みモデルを用いることによって、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手が聞きうる状況で、話者が話しかけた発話相手がエージェント(A1)であるか人(B1)であるかを判定できる。これにより、エージェント(A1)では、話者が話しかけた発話相手がエージェント(A1)であると判定された場合に、音声認識処理部(13)により話者が話した音声の認識処理を行うことができる。したがって、話者がエージェント(A1)に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、誤動作を抑制しながらも使い勝手が向上するという利点がある。
第13の態様に係る音声認識システム(1)の制御方法は、判定処理を含む。判定処理では、音声を認識する音声認識処理部(13)を備えたエージェント(A1)と人(B1)とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント(A1)と人(B1)とのいずれであるかを判定する。
この態様によれば、判定処理を行うことで、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手が聞きうる状況で、話者が話しかけた発話相手がエージェント(A1)であるか人(B1)であるかを判定できる。これにより、エージェント(A1)では、話者が話しかけた発話相手がエージェント(A1)であると判定された場合に、音声認識処理部(13)により話者が話した音声の認識処理を行うことができる。したがって、話者がエージェント(A1)に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、誤動作を抑制しながらも使い勝手が向上するという利点がある。
第14の態様に係るプログラムは、コンピュータシステムに、判定処理を実行させるためのプログラムである。判定処理では、音声を認識する音声認識処理部(13)を備えたエージェント(A1)と人(B1)とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント(A1)と人(B1)とのいずれであるかを判定する判定処理を実行させる。
この態様によれば、判定処理を実行することで、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手が聞きうる状況で、話者が話しかけた発話相手がエージェント(A1)であるか人(B1)であるかを判定できる。これにより、エージェント(A1)では、話者が話しかけた発話相手がエージェント(A1)であると判定された場合に、音声認識処理部(13)により話者が話した音声の認識処理を行うことができる。したがって、話者がエージェント(A1)に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、誤動作を抑制しながらも使い勝手が向上するという利点がある。
第15の態様に係る移動体(100)は、第1〜11のいずれかの態様の音声認識システム(1)と、音声認識システム(1)を搭載する本体(101)と、を備える。
この態様によれば、判定部(11)は、複数の聞き手が存在する状況、つまり話者が話した言葉を複数の聞き手が聞きうる状況で、話者が話しかけた発話相手がエージェント(A1)であるか人(B1)であるかを判定している。これにより、エージェント(A1)では、話者が話しかけた発話相手がエージェント(A1)であると判定部(11)が判定した場合に、音声認識処理部(13)により話者が話した音声の認識処理を行うことができる。したがって、話者がエージェント(A1)に対して話しかける場合に、その都度、ウェイクワードを発話する必要がなく、誤動作を抑制しながらも使い勝手が向上するという利点がある。
第16の態様に係る音声認識システム(1)では、第1〜第11において、エージェント(A1)の処理部(15)は、発話相手がエージェント(A1)以外の聞き手であると判定部(11)が判定した場合に、情報提示処理を行う。情報提示処理とは、話者が発話した内容に関連する情報を表示部(5)に表示させる処理である。
この態様によれば、エージェント(A1)に対して質問しなくても、エージェント(A1)が、話者が発話した内容に関連する情報を表示部(5)に表示させるので、使用性が向上するという利点がある。
第17の態様に係る音声認識システム(1)では、第1〜第11及び第16の態様において、音声認識処理部(13)は、判定部(11)が発話相手をエージェント(A1)と判定した場合に音声の認識処理を行う。
第17の態様については、それ単独でも実施し得る態様であって、第1〜第11及び第16のいずれかの態様を前提とすることは必須ではない。すなわち、第17の態様に係る音声認識システム(1)は、エージェント(A1)と、判定部(11)とを備える。エージェント(A1)は、音声を認識する音声認識処理部(13)を備える。判定部(11)は、エージェント(A1)と人(B1)とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、エージェント(A1)と人(B1)とのいずれであるかを判定する。音声認識処理部(13)は、判定部(11)が発話相手をエージェント(A1)と判定した場合に音声の認識処理を行う。この場合、音声認識システム(1)において、エージェント(A1)の処理部(15)が発話相手に応じて処理を変更することは必須の構成ではない。
上記態様に限らず、上記の実施形態に係る音声認識システム(1)の種々の構成(変形例を含む)は、音声認識システム(1)の制御方法、(コンピュータ)プログラム、又はプログラムを記録した非一時的記録媒体等で具現化可能である。
第2〜第11、第16及び第17の態様に係る構成については、音声認識システム(1)に必須の構成ではなく、適宜省略可能である。
1 音声認識システム
11 判定部
13 音声認識処理部
15 処理部
100 移動体
101 本体
A1 エージェント
B1(B11〜B13) 人

Claims (15)

  1. 音声を認識する音声認識処理部を備えたエージェントと、
    前記エージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する判定部とを有する、
    音声認識システム。
  2. 前記聞き手が複数の前記人を含む状況で、前記判定部は、前記複数の人の中から前記話者が話しかけた発話相手を判定する、
    請求項1に記載の音声認識システム。
  3. 前記聞き手が複数の前記エージェントを含む状況で、前記判定部は、前記複数のエージェントの中から前記話者が話しかけた発話相手を判定する、
    請求項1又は2に記載の音声認識システム。
  4. 前記エージェントは、前記音声認識処理部の認識結果に基づく処理を行う処理部を更に備え、
    前記処理部は、前記判定部の判定結果に基づいて、前記処理の内容を変更する、
    請求項1〜3のいずれか1項に記載の音声認識システム。
  5. 前記エージェントの前記処理部は、前記判定部の判定結果に基づいて、前記発話相手が前記エージェントである場合と、前記発話相手が前記エージェント以外の前記聞き手である場合とで前記処理の内容を変更する、
    請求項4に記載の音声認識システム。
  6. 前記判定部は、前記話者の話し方の特徴量に基づいて、前記話者の前記発話相手を判定する、
    請求項1〜5のいずれか1項に記載の音声認識システム。
  7. 前記判定部は、前記話者の発話内容に基づいて、前記話者の前記発話相手を判定する、
    請求項1〜6のいずれか1項に記載の音声認識システム。
  8. 前記判定部は、発話中の前記話者の体の動きに基づいて、前記話者の前記発話相手を判定する、
    請求項1〜7のいずれか1項に記載の音声認識システム。
  9. 前記音声認識処理部は、前記話者が前記人に話しかける場合の音声の第1認識モデルと、前記話者が前記エージェントに話しかける場合の音声の第2認識モデルとのうち、前記判定部の判定結果に基づいて選択した認識モデルを用いて前記話者の音声を認識する、
    請求項1〜8のいずれか1項に記載の音声認識システム。
  10. 複数の人が存在する状況で、
    前記判定部は、前記複数の人から前記話者を判定する、
    請求項1〜8のいずれか1項に記載の音声認識システム。
  11. 前記音声認識処理部は、前記複数の人に1対1に対応した複数の認識モデルから、前記判定部が判定した前記話者に対応する前記認識モデルを用いて、前記話者の音声を認識する、
    請求項1〜10のいずれか1項に記載の音声認識システム。
  12. 音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定するための学習済みモデルを生成する学習済みモデルの生成方法。
  13. 音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する判定処理を含む、
    音声認識システムの制御方法。
  14. コンピュータシステムに、
    音声を認識する音声認識処理部を備えたエージェントと人とを含む複数の聞き手が存在する状況で、話者が話しかけた発話相手が、前記エージェントと前記人とのいずれであるかを判定する判定処理を実行させるための、
    プログラム。
  15. 請求項1〜11のいずれか1項に記載の音声認識システムと、
    前記音声認識システムを搭載する本体と、を備える、
    移動体。
JP2018231835A 2018-12-11 2018-12-11 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 Pending JP2020095121A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018231835A JP2020095121A (ja) 2018-12-11 2018-12-11 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018231835A JP2020095121A (ja) 2018-12-11 2018-12-11 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Publications (1)

Publication Number Publication Date
JP2020095121A true JP2020095121A (ja) 2020-06-18

Family

ID=71084106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018231835A Pending JP2020095121A (ja) 2018-12-11 2018-12-11 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Country Status (1)

Country Link
JP (1) JP2020095121A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020240730A1 (ja) * 2019-05-29 2021-09-30 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム
WO2022137534A1 (ja) * 2020-12-25 2022-06-30 三菱電機株式会社 車載用音声認識装置及び車載用音声認識方法
JPWO2022244178A1 (ja) * 2021-05-20 2022-11-24
KR20230143808A (ko) * 2022-04-06 2023-10-13 네이버 주식회사 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020240730A1 (ja) * 2019-05-29 2021-09-30 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム
WO2022137534A1 (ja) * 2020-12-25 2022-06-30 三菱電機株式会社 車載用音声認識装置及び車載用音声認識方法
JPWO2022244178A1 (ja) * 2021-05-20 2022-11-24
WO2022244178A1 (ja) * 2021-05-20 2022-11-24 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム
KR20230143808A (ko) * 2022-04-06 2023-10-13 네이버 주식회사 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
KR102616058B1 (ko) * 2022-04-06 2023-12-21 네이버 주식회사 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
US10679005B2 (en) Speech recognition and summarization
US20230178077A1 (en) Techniques for wake-up work recognition and related systems and methods
KR102509464B1 (ko) 발언 분류기
JP2020095121A (ja) 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体
KR102118209B1 (ko) 디지털 어시스턴트를 위한 음성 트리거
US20170186430A1 (en) Promoting voice actions to hotwords
KR102249392B1 (ko) 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법
KR102449875B1 (ko) 음성 신호 번역 방법 및 그에 따른 전자 장치
US20110276327A1 (en) Voice-to-expressive text
CN108242236A (zh) 对话处理装置及其车辆和对话处理方法
US20230046658A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
JP6797338B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR102551276B1 (ko) 핫워드 인식 및 수동 어시스턴스
JP2023553867A (ja) ユーザ発話プロファイル管理
JP2010034695A (ja) 音声応答装置及び方法
US11996099B2 (en) Dialogue system, vehicle, and method of controlling dialogue system
JP2020091435A (ja) 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2020101778A (ja) 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体
JP2019212168A (ja) 音声認識システムおよび情報処理装置
JP2021131472A (ja) 情報処理装置、および情報処理方法、並びにプログラム
Linhard et al. Acoustics aspects of in-vehicle spoken dialogue