JP2020101778A - 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 - Google Patents
音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 Download PDFInfo
- Publication number
- JP2020101778A JP2020101778A JP2018241824A JP2018241824A JP2020101778A JP 2020101778 A JP2020101778 A JP 2020101778A JP 2018241824 A JP2018241824 A JP 2018241824A JP 2018241824 A JP2018241824 A JP 2018241824A JP 2020101778 A JP2020101778 A JP 2020101778A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- dictionary
- voice data
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供する。【解決手段】音声認識部3は、音声辞書4に基づいて、入力部2に入力された音声データの意味を認識する。判断部6は、音声認識部3が、入力部2に入力された第1音声データの意味を認識できなかった状態で、入力部2に入力された第2音声データの意味を認識できた場合に、第1音声データが第2音声データの言い換え語であるか否かを判断する。辞書更新部7は、判断部6が第1音声データが第2音声データの言い換え語であると判断すると、第1音声データと第2音声デ−タとが同じ意味に対応するように音声辞書を更新する。【選択図】図1
Description
本開示は、音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体に関する。より詳細には、本開示は、入力された音声を認識する音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体に関する。
特許文献1は、ユーザの音声データを音声認識する端末装置と、端末装置と通信しユーザの音声データを音声認識する音声認識サーバとを備える音声認識システムを開示する。
端末装置は、端末装置に設けられた音声認識辞書を参照して、その中に登録されている語句の中から、入力された音声に最も類似する語句あるいは複数の語句により表現される語句を推定する音声認識部を備える。音声認識サーバは、音声認識サーバに設けられた音声認識辞書を参照して、その中に登録されている語句の中から、入力された音声に最も類似する語句あるいは複数の語句により表現される語句を推定する音声認識部を備えている。特許文献1の音声認識システムでは、端末装置は、当該端末装置の音声認識部又は音声認識サーバの音声認識部で認識された結果を出力する。
端末装置が備える音声認識部は、当該端末装置の計算リソースの制約のため、音声認識サーバの音声認識部に比べて、認識できる語句が少ないが、端末装置は、音声認識サーバの音声認識部による認識結果を利用することで、音声の認識精度を向上させている。そのため、端末装置と音声認識サーバとの通信が不可能な状況になると、端末装置は、音声認識サーバの音声認識部による認識結果を利用できなくなり、音声の認識精度が低下する。したがって、特許文献1の音声認識システムでは、ユーザが使用する端末装置の音声認識辞書に、ユーザが使用する可能性のある語句を登録することで、音声認識サーバの音声認識部の認識結果を利用できない場合でも、音声の認識精度の向上を図っていた。
しかしながら、特許文献1の音声認識システムでは、音声認識サーバの音声認識辞書に登録されている語句を、ユーザが使用する端末装置の音声認識辞書に登録するため、音声認識サーバの音声認識辞書にはない言葉は端末装置の音声認識辞書に登録できなかった。そのため、ユーザしか使用しないような語句を端末装置に入力した場合、端末装置の音声認識部でも音声認識サーバの音声認識部でも正しく認識されない可能性があった。
本開示の目的は、使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供することにある。
本開示の一態様の音声認識システムは移動体に用いられる。前記音声認識システムは、入力部と、音声認識部と、判断部と、辞書更新部と、を備える。前記入力部には、前記移動体に乗っているユーザの音声データが入力される。前記音声認識部は、音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、前記入力部に入力された音声データの意味を認識する。前記判断部は、前記音声認識部が、前記入力部に入力された第1音声データの意味を認識できなかった状態で、前記入力部に入力された第2音声データの意味を認識できた場合に、前記第1音声データが前記第2音声データの言い換え語であるか否かを判断する。前記辞書更新部は、前記判断部が前記第1音声データが前記第2音声データの言い換え語であると判断すると、前記第1音声データと前記第2音声デ−タとが同じ意味に対応するように前記音声辞書を更新する。
本開示の一態様の学習済みモデルの生成方法は、前記音声認識システムが備える前記判断部を実現するための学習済みモデルの生成方法である。
本開示の一態様の音声認識システムの制御方法は、音声認識処理と、判断処理と、辞書更新処理と、を含む。前記音声認識処理では、音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、移動体に乗っているユーザから入力された音声データの意味を認識する。前記判断処理では、前記ユーザから入力された第1音声データの意味を認識できなかった状態で、前記ユーザから入力された第2音声データの意味を認識できた場合に、前記第1音声データが前記第2音声データの言い換え語であるか否かを判断する。前記辞書更新処理では、前記判断処理で前記第1音声データが前記第2音声データの言い換え語であると判断すると、前記第1音声データと前記第2音声デ−タとが同じ意味に対応するように前記音声辞書を更新する。
本開示の一態様のプログラムは、コンピュータシステムに、音声認識処理と、判断処理と、辞書更新処理と、を実行させるためのプログラムである。前記音声認識処理では、音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、移動体に乗っているユーザから入力された音声データの意味を認識する。前記判断処理では、前記ユーザから入力された第1音声データの意味を認識できなかった状態で、前記ユーザから入力された第2音声データの意味を認識できた場合に、前記第1音声データが前記第2音声データの言い換え語であるか否かを判断する。前記辞書更新処理では、前記判断処理で前記第1音声データが前記第2音声データの言い換え語であると判断すると、前記第1音声データと前記第2音声デ−タとが同じ意味に対応するように前記音声辞書を更新する。
本開示の一態様の移動体は、移動する本体を備える。前記本体は、前記音声認識システムが備える前記入力部と前記音声認識部と前記判断部と前記辞書更新部とを搭載する。
本開示によれば、使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供することができる。
以下に説明する実施形態は、本開示の種々の実施形態の一つに過ぎない。本開示の実施形態は、下記実施形態に限定されることはなく、この実施形態以外も含み得る。また、下記の実施形態は、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。
(実施形態)
(1)概要
図1は、本実施形態の音声認識システム100のブロック図である。
(1)概要
図1は、本実施形態の音声認識システム100のブロック図である。
本実施形態の音声認識システム100は移動体20(図2参照)に用いられる。音声認識システム100は、入力部2と、音声認識部3と、判断部6と、辞書更新部7と、を備える。入力部2には、移動体20に乗っているユーザの音声データが入力される。音声辞書4は、音声データと音声データの意味とを対応付けて記憶する。音声認識部3は、音声辞書4に基づいて入力部2に入力された音声データの意味を認識する。判断部6は、音声認識部3が、入力部2に入力された第1音声データの意味を認識できなかった状態で、入力部2に入力された第2音声データの意味を認識できた場合に、第1音声データが第2音声データの言い換え語であるか否かを判断する。辞書更新部7は、判断部6が第1音声データが第2音声データの言い換え語であると判断すると、第1音声データと第2音声デ−タとが同じ意味に対応するように音声辞書4を更新する。
本実施形態の音声認識システム100は、移動体20に設けられた移動体搭載機器14のHMI(Human Machine Interface)として用いられる。移動体搭載機器14は、例えば、移動体電話網を利用して通話を行うための携帯電話機能、ナビゲーションシステム、空調システム、オーディオシステム等である。
例えば、第2音声データと同じ意味の語句であり、かつ、音声辞書4に登録されていない第1音声データが入力部2に入力された場合、第1音声データは音声辞書4に登録されていないので、音声認識部3は第1音声データの意味を認識できない。この状態で、ユーザが、第1音声データと同じ意味の語句である第2音声データを発話し、音声認識部3が第2音声データの意味を認識できた場合、判断部6は、第1音声データが第2音声データの言い換え語であるか否かを判断する。そして、判断部6が、第1音声データが第2音声データの言い換え語であると判断すると、辞書更新部7が、第1音声データと第2音声デ−タとが同じ意味に対応するように音声辞書4を更新する。音声辞書4の更新後に、第2音声データの言い換え語である第1音声データが入力部2に再び入力された場合、音声辞書4には第1音声データとその意味とが対応付けて記憶されているので、音声認識部3は、第1音声データの意味を認識することができる。したがって、ユーザが第2音声データの言い換え語である第1音声データの語句を発話する場合でも、音声認識システム100の音声認識部3が第1音声データの意味を認識できるようになり、使用性の向上を図ることが可能な音声認識システム100を提供できる。
(2)詳細
(2.1)構成
本実施形態に係る音声認識システム100は、例えば自動車のような移動体20の本体21に搭載される端末装置1と、サーバ50とを含む。以下、端末装置1及びサーバ50のそれぞれの構成を説明する。
(2.1)構成
本実施形態に係る音声認識システム100は、例えば自動車のような移動体20の本体21に搭載される端末装置1と、サーバ50とを含む。以下、端末装置1及びサーバ50のそれぞれの構成を説明する。
(2.1.1)端末装置
端末装置1は、入力部2と、音声認識部3と、音声辞書4と、決定部5と、判断部6と、辞書更新部7と、出力処理部8と、機能部9と、音声出力部10と、を備える。
端末装置1は、入力部2と、音声認識部3と、音声辞書4と、決定部5と、判断部6と、辞書更新部7と、出力処理部8と、機能部9と、音声出力部10と、を備える。
端末装置1は、例えば、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、端末装置1の機能(例えば、音声認識部3、決定部5、判断部6、辞書更新部7、及び出力処理部8等の機能)が実現される。プログラムは、コンピュータシステムのメモリに予め記録されている。なお、プログラムは、電気通信回線を通じて提供されてもよいし、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。
入力部2には、移動体20に乗っているユーザの音声データが入力される。移動体20には、移動体20に乗っているユーザの音声を電気信号である音声データに変換するマイク11が配置されている。移動体20に乗っているユーザが音声を発すると、マイク11から入力部2に音声データが入力される。マイク11から入力部2に入力された音声データは音声認識部3に入力される。また、マイク11から入力部2に入力された音声データは、端末装置1の通信機能を介して、サーバ50の音声認識部60にも入力される。
音声辞書4は、端末装置1に備えられており、音素辞書41と、意図理解辞書42とを含む。音声辞書4は、例えば端末装置1のメモリに記憶されている。
音素辞書41は、人が発する複数種類の語句のそれぞれについて、語句の単位での音の集まりである音響モデルと、音響モデルのテキストデータとを対応付けて記録する。ここで、音素辞書41は、複数のユーザが共通して使用する語句の音響モデル(第2音声データ)とテキストデータとを記録した第1辞書411と、端末装置1のユーザが独自に使用する語句の音響モデル(第1音声データ)とテキストデータとを記録した第2辞書412とを含む。
意図理解辞書42は、複数種類の語句のそれぞれについて、語句とその語句が示す意味とを対応付けて記憶する。ここで、意図理解辞書42は、複数のユーザが共通して使用する語句の意味を記録した第1辞書421と、端末装置1のユーザが独自に使用する語句の意味を記録した第2辞書422とを含む。
換言すると、音声辞書4は共通辞書とユーザ辞書とを含む。共通辞書は、複数のユーザに共通する音声データと、複数のユーザに共通する音声データの意味とを対応付けて記憶する。ユーザ辞書は、第2音声データの言い換え語である第1音声データと、第1音声データの意味とを対応付けて記憶する。本実施形態では、共通辞書が、音素辞書41に含まれる第1辞書411と、意図理解辞書42に含まれる第1辞書421とを含み、ユーザ辞書が、音素辞書41に含まれる第2辞書412と、意図理解辞書42に含まれる第2辞書422とを含む。ここで、端末装置1のユーザが独自に使用する語句の音声データ(第1音声データ)はユーザ辞書に記憶される。
音声認識部3は、第1認識部31と、第2認識部32とを備える。
第1認識部31は、入力部2から入力される音声データに対して音素解析等の処理を行う。第1認識部31は、音素辞書41に基づいて、入力部2から入力される音声データの特徴量と、音素辞書41に登録された音響モデルとを比較することにより、音声データが対応する語句を認識する処理、すなわち音声データをテキストデータに変換する処理を行う。
第2認識部32は、第1認識部31の認識結果に対して自然言語理解(NLU:Natural Language Understanding)処理を実行する。第2認識部32は、第1認識部31の認識結果と、意図理解辞書42とに基づいて、第1認識部31によって認識された語句の意味を認識する処理を行う。なお、本実施形態では音声認識部3が第1認識部31と第2認識部32とで構成されているが、音声認識部3の構成は一例であり、適宜変更が可能である。
決定部5には、端末装置1の音声認識部3による認識結果(第1認識部31によって認識されたテキストデータ、及び、第2認識部32によって認識されたユーザの意図)が入力される。また、決定部5には、サーバ50の音声認識部60による音声認識結果(第1認識部61によって認識されたテキストデータ、及び、第2認識部62によって認識されたユーザの意図)が、端末装置1の通信機能を介して入力される。決定部5は、端末装置1の音声認識部3による認識結果と、サーバ50の音声認識部60による認識結果とに基づいて、入力部2に入力された音声データの意味(つまり、ユーザが意図する内容)を決定する。なお、決定部5には、音声認識部3の第2認識部32を介して第1認識部31の認識結果が入力されているが、第1認識部31の認識結果が直接入力されてもよい。また、決定部5には、サーバ50が備える音声認識部60の第2認識部62を介して第1認識部61の認識結果が入力されているが、第1認識部61の認識結果が直接入力されてもよい。
ここで、端末装置1のメモリは、サーバ50の記憶装置に比べて記憶容量が小さいため、端末装置1に設けられた音声辞書4は、サーバ50に設けられたサーバ側音声辞書70に比べて記憶している語句の数が少なくなる。そのため、端末装置1の音声認識部3は、サーバ50の音声認識部60に比べて認識可能な語句の数が少なくなる。本実施形態では、決定部5が、音声認識部3の認識結果と、サーバ50の音声認識部60の認識結果とに基づいて、入力部2に入力された音声データの意味を決定しており、サーバ50の音声認識部60の認識結果を利用することで認識率を向上させることができる。なお、端末装置1とサーバ50との間の通信が不能になる等の理由で、決定部5にサーバ50の音声認識部60による認識結果が入力されなかった場合、決定部5は、音声認識部3の認識結果に基づいて、入力部2に入力された音声データの意味を決定する。
判断部6は、音声認識部3が入力部2に入力された音声データの意味を認識できなかった場合、入力部2に入力された音声データが、音声辞書4に登録されている別の音声データの言い換え語であるか否かを判断する。すなわち、音声認識部3が、入力部2に1回目に入力された第1音声データの意味を認識できなかった状態で、入力部2に2回目に入力された第2音声データの意味を認識できた場合に、第1音声データが第2音声データの言い換え語であるか否かを判断する。
例えば、判断部6は、第1音声データ及び第2音声データがそれぞれ入力されるタイミングに基づいて、第1音声データが第2音声データの言い換え語であるか否かを判断する。判断部6は、音声認識部3が意味を認識できなかった第1音声データが入力部2に入力された第1時点から、音声認識部3が意味を認識できた第2音声データが入力部2に入力される第2時点までの経過時間が所定の基準時間以下であれば、第1音声データが第2音声データの言い換え語であると判断する。判断部6は、第1時点から第2時点までの経過時間が基準時間を超えると、第1音声データが第2音声データの言い換え語ではない、つまり別の内容についてユーザが話した音声データが入力されたと判断する。ここで、上記の基準時間は、言い換え語(第1音声データ)を、一般的な語句(第2音声データ)に言い換えて話していると推定できる時間、つまりユーザが同じ内容について話していると推定できる時間の最大値であり、例えば10秒程度の時間である。
辞書更新部7は、第1音声データが第2音声データの言い換え語であると判断部6が判断すると、第1音声データと第2音声データとが同じ意味に対応するように音声辞書4の内容を更新する。すなわち、辞書更新部7は、第1音声データのテキストデータを音素辞書41の第2辞書412に記憶させ、第1音声データの意味を意図理解辞書42の第2辞書422に記憶させる。なお、本実施形態では第1辞書411,421(共通辞書)の更新処理と、辞書更新部7による第2辞書412,422(ユーザ辞書)の更新処理とが別々に行われる。共通辞書である第1辞書411,421は例えばサーバ50から端末装置1に送信される更新情報にしたがって更新される。一方、ユーザ辞書である第2辞書412,422は、例えば判断部6が第1音声データを第2音声データの言い換え語と判断したタイミングで辞書更新部7によって更新される。したがって、本実施形態の音声認識システム100は、共通辞書とユーザ辞書とをそれぞれ適切なタイミングで更新することができる。
出力処理部8は、決定部5によって決定されたユーザの意図の内容、又は、タッチパネル13から入力される操作情報に従って、出力処理を行う。出力処理部8による制御処理としては、移動体搭載機器14を制御する制御命令を機能部9に出力する処理、スピーカ12から音声メッセージを出力させるための出力命令を音声出力部10に出力する処理を含む。ここで、タッチパネル13は、移動体20に乗っているユーザが操作可能な位置(例えば移動体20が自動車である場合はダッシュボード等)に取り付けられている。タッチパネル13は、ユーザによるタッチ操作を検出し、タッチ操作に応じた操作情報を出力処理部8に出力する。
機能部9は、出力処理部8から入力される制御命令に従って、移動体20に設けられた移動体搭載機器14を制御する。
音声出力部10は、出力処理部8から入力される出力命令に従って音声合成を行い、スピーカ12から音声メッセージを出力させる。
なお、本実施形態の音声認識システム100(端末装置1)は、音声認識システム100とユーザとの間で情報を入出力するためのインターフェース部15を更に備えている。ここにおいて、インターフェース部15は、ユーザと音声対話を行う音声対話部を含み、ユーザとの間で音声で情報を入出力する。音声対話部は、マイク11から入力される音声データを認識する音声認識部3、スピーカ12から音声を出力させる音声出力部10、出力処理部8、及び音声出力部10等から構成される。したがって、端末装置1は、インターフェース部15を用い、ユーザとの間で音声で情報をやりとりできる。なお、インターフェース部15は、音声で情報をやりとりするものに限定されず、情報の表示機能と情報の入力機能を備えたタッチパネル13等で構成されてもよい。
本実施形態の端末装置1は移動体20に搭載されている。すなわち、移動体20は、移動する本体21を備え、本体21は、音声認識システム100が備える入力部2と音声認識部3と判断部6と辞書更新部7とを搭載する。
(2.1.2)サーバ
サーバ50は、音声認識部60と、サーバ側音声辞書70(以下では、単に音声辞書70という場合もある)とを含む。
サーバ50は、音声認識部60と、サーバ側音声辞書70(以下では、単に音声辞書70という場合もある)とを含む。
サーバ50は、例えば、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、サーバ50の機能(例えば、音声認識部60等の機能)が実現される。プログラムは、コンピュータシステムのメモリに予め記録されている。なお、プログラムは、電気通信回線を通じて提供されてもよいし、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。
また、サーバ50は移動体20に搭載された端末装置1と通信する通信機能を有している。サーバ50の通信機能は、例えば移動体通信網を介して端末装置1と通信する。
サーバ側音声辞書70は、音素辞書71と、意図理解辞書72とを含む。サーバ側音声辞書70は、例えばサーバ50が備える記憶装置に記憶されている。
音素辞書71は、人が発する複数種類の語句のそれぞれについて、語句の単位での音の集まりである音響モデルと、音響モデルのテキストデータとを対応付けて記録する。
意図理解辞書72は、複数種類の語句のそれぞれについて、語句とその語句が示す意味とを対応付けて記憶する。
サーバ側音声辞書70は、音素辞書71と意図理解辞書72とを備えており、語句の単位での音声デ−タと、音声データの意味とを対応付けて記憶する。
音声認識部60は、第1認識部61と、第2認識部62とを含む。
第1認識部61は、音素辞書71に基づいて、端末装置1から入力された音声データの特徴量と、音素辞書71に記録された音響モデルとを比較することで、音声データが対応する語句を認識する処理、すなわち、音声データからテキストデータへの変換処理を行う。
第2認識部62は、第1認識部61の認識結果と、意図理解辞書72とに基づいて、第1認識部61によって認識された語句の意味を認識する処理を行う。
すなわち、サーバ50の音声認識部60は、サーバ側音声辞書70に基づいて、端末装置1の入力部2に入力された音声データの意味、つまり音声を発したユーザが意図する内容を認識する。なお、音声認識部60の構成は一例であり、適宜変更が可能である。
(2.2)動作
本実施形態の端末装置1及びサーバ50の動作を図3のシーケンス図に基づいて説明する。
本実施形態の端末装置1及びサーバ50の動作を図3のシーケンス図に基づいて説明する。
移動体20に乗っているユーザが音声を発すると、マイク11から入力部2を介して音声認識部3の第1認識部31に音声データが入力される(S1)。このとき、入力部2から端末装置1の通信機能を介してサーバ50の音声認識部60(第1認識部61)に音声データが入力される(S2)。
入力部2から音声認識部3の第1認識部31に音声データが入力されると、第1認識部31は、音素辞書41に基づいて音声データをテキストデータに変換する処理を行い、認識結果のテキストデータを第2認識部32に出力する(S3)。第1認識部31から第2認識部32に認識結果が入力されると、第2認識部32は、意図理解辞書42に基づいて第1認識部31が認識した語句の意味(ユーザの意図)を認識する処理を行い、認識結果を決定部5に出力する(S4)。
また、端末装置1からサーバ50の音声認識部60(第1認識部61)に音声データが入力されると、第1認識部61が、音素辞書71に基づいて音声データをテキストデータに変換する処理を行い、認識結果のテキストデータを第2認識部62に出力する(S5)。第1認識部61から第2認識部62に認識結果が入力されると、第2認識部62は、意図理解辞書72に基づいて第1認識部61が認識した語句の意味を認識する処理を行い、認識結果を端末装置1の決定部5に出力する(S6)。
決定部5は、音声認識部3及びサーバ50の音声認識部60から音声データの認識結果が入力されると、音声認識部3の認識結果と、サーバ50の音声認識部60での認識結果とに基づいて、音声データの意味を決定する。
ここで、ユーザが話した語句が端末装置1の音声辞書4及びサーバ50の意図理解辞書72のいずれかに既に登録されていれば、端末装置1の音声認識部3及びサーバ50の音声認識部60のいずれかで音声データの意味が正しく認識される。したがって、決定部5は、音声認識部3の認識結果と、サーバ50の音声認識部60での認識結果とに基づいて、音声データの意味を決定し、音声データの意味(つまり、ユーザの意図)に応じた出力処理(例えば移動体搭載機器14を制御する処理)を行う。
一方、ユーザが、音声辞書4及び意図理解辞書72に未登録の語句であって、音声辞書4又は意図理解辞書72に登録済みの語句の言い換え語を話した場合、音声認識部3及び第2認識部62は、入力された音声データの意味を認識できない。例えば、音声辞書4及び意図理解辞書72に、「山田」という人名は登録されているが、ユーザが「山田」さんの愛称として使用する「ヤマピー」は未登録の場合、音声認識部3及び第2認識部62はユーザが発話した「ヤマピー」という語句の意味を認識できない。この場合、決定部5には、音声認識部3及びサーバ50の音声認識部60から音声データの認識に失敗したことを示す認識結果が入力される。決定部5は、音声データの認識に失敗したことを示す情報を出力処理部8、辞書更新部7及び判断部6に出力する(S7〜S9)。このとき、決定部5は、音声認識部3が備える第1認識部31及び第2認識部32の認識結果と、サーバ50の音声認識部60が備える第1認識部61及び第2認識部62の認識結果とを、辞書更新部7及び判断部6に出力する(S8〜S9)。なお、ステップS8〜S9において、サーバ50の第2認識部62が、第1認識部61及び第2認識部62の認識結果を、辞書更新部7と判断部6とにそれぞれ出力してもよい。また、音声認識部3の第2認識部32が、第1認識部31及び第2認識部32の認識結果を、辞書更新部7と判断部6とにそれぞれ出力してもよい。
この場合、出力処理部8は、音声データの再入力をユーザに促す音声メッセージ(例えば「もう一度お願いします」等)をスピーカ12から出力させる出力命令を音声出力部10に出力し、スピーカ12から音声メッセージを出力させる処理を行う(S10)。
音声データの再入力を促す音声メッセージを聞いたユーザは、言い換え語では認識されなかったと判断し、言い換え語ではない一般的な語句(例えば「山田」という人名)で話す。ユーザが言い換え語ではない一般的な語句で話すと、マイク11から入力部2を介して音声認識部3に第2音声データが入力される(S11)。また、入力部2から端末装置1の通信機能を介してサーバ50の音声認識部60(第1認識部61)に第2音声データが入力される(S12)。
入力部2から音声認識部3の第1認識部31に第2音声データが入力されると、第1認識部31は、音素辞書41に基づいて第2音声データをテキストデータに変換する処理を行い、認識結果を第2認識部32に出力する(S13)。第1認識部31から第2認識部32に認識結果が入力されると、第2認識部32は、意図理解辞書42に基づいて第1認識部31が認識した語句の意味を認識する処理を行う。第2認識部32は、第1認識部31及び第2認識部32の認識結果を決定部5に出力する(S14)。
また、端末装置1からサーバ50の音声認識部60に第2音声データが入力されると、音声認識部60の第1認識部61が、音素辞書71に基づいて第2音声データをテキストデータに変換する処理を行い、認識結果を第2認識部62に出力する(S15)。第1認識部61から第2認識部62に認識結果が入力されると、第2認識部62は、意図理解辞書72に基づいて第1認識部61が認識した語句の意味を認識する処理を行う。第2認識部62は、第1認識部61及び第2認識部62の認識結果を端末装置1の決定部5に出力する(S16)。
決定部5は、音声認識部3及びサーバ50の音声認識部60から音声データの認識結果が入力されると、音声認識部3の認識結果と、サーバ50の音声認識部60での認識結果とに基づいて、音声データの意味(つまり、ユーザの意図)を決定する。ここでは、ユーザが一般的な語句で話しているので、音声認識部3又は音声認識部60は、入力部2から入力される第2音声データを正しく認識できる。決定部5は、音声認識部3の認識結果と、サーバ50の音声認識部60での認識結果とに基づいて、ユーザが発した第2音声データの意味を決定し、第2音声データの意味を示す情報を判断部6、辞書更新部7及び出力処理部8に出力する(S17〜S19)。このとき、決定部5は、音声認識部3が備える第1認識部31及び第2認識部32の認識結果と、サーバ50の音声認識部60が備える第1認識部61及び第2認識部62の認識結果とを、辞書更新部7及び判断部6に出力する(S18〜S19)。
ここで、判断部6は、第1音声データの意味を認識できなかった状態で、第2音声データの意味を認識できた場合、第1音声データが第2音声データの言い換え語であるか否かを判断する。本実施形態では、判断部6は、第1音声データが入力された第1時点から第2音声データが入力された第2時点までの経過時間に基づいて、第1音声データが第2音声データの言い換え語であるか否かを判断する。ここでは、経過時間が基準時間以下となるので、判断部6は、第1音声データが第2音声データの言い換え語であると判断し、辞書更新部7に更新命令を出力する(S20)。辞書更新部7は、判断部6から更新命令が入力されると、端末装置1の音声辞書4に言い換え語である第1音声データのテキストデータと、当該テキストデータの意味を登録する。すなわち、辞書更新部7は、音素辞書41の第2辞書412(ユーザ辞書)に第1音声デ−タのテキストデータ(例えばサーバ50の第1認識部61による認識結果)を登録する。また、辞書更新部7は、意図理解辞書42の第2辞書422(ユーザ辞書)を、第1音声データのテキストデータの意味が第2音声データと同じ意味になるように、第1音声データのテキストデータの意味として端末装置1の第2認識部32の認識結果を登録する。したがって、その後、ユーザが第1音声データを発話した場合、サーバ50の音声認識部60では第1音声データの意味を認識できないが、端末装置1の音声認識部3では第1音声データの意味を認識できるようになる。よって、ユーザが一般的な語句ではない第1音声データを使った場合でも、端末装置1は、第1音声データの意味を認識できるので、音声認識システム100の使用性が向上する。端末装置1を使用するユーザの独特の言い回しである言い換え語は、端末装置1の音声辞書4に登録され、サーバ50の音声辞書70には登録されない。したがって、サーバ50の音声認識部60の認識結果として、一般的に使用されないような独特の言い換え語が出力される可能性を低減できる。
また、出力処理部8は、決定部5から第2音声データの認識結果が入力されると、第2音声データの認識結果に応じた出力処理を行う(S21)。例えば、第2音声データを含む発話文が「山田さんに電話して」であれば、出力処理部8は、「山田さんに電話をかけます」等の音声メッセージをスピーカ12から出力させる出力命令を音声出力部10に出力し、スピーカ12から音声メッセージを出力させる。また、出力処理部8は、機能部9に、山田さんに電話をかけるための制御命令を出力する。機能部9は、出力処理部8から制御命令が入力されると、移動体搭載機器14である携帯電話機能を制御して、山田さんに電話をかける処理を行わせる。
なお、図3で説明した端末装置1及びサーバ50の動作において一部の処理の順番が適宜変更されてもよい。
本実施形態の端末装置1及びサーバ50は以上のような動作を行うのであるが、以下では、ユーザと端末装置1との間での音声対話に着目して音声認識システム100の動作を説明する。
ここでは、ユーザが「山田」さんの愛称である「ヤマピー」との語句を使って山田さんに電話をかけるように端末装置1に指示する場合に、ユーザと端末装置1との間で行われる音声対話について図4を参照して説明する。なお、「山田」との語句は音声辞書4,70に登録済みであるが、「ヤマピー」(第1音声データ)との語句は音声辞書4,70に未登録であるものとする。
ユーザが「ヤマピーに電話して」と発話した場合(S31)、「ヤマピー」の語句は音声辞書4,70に未登録であるので、音声認識部3,60は「ヤマピーに電話して」の意味を認識できない。そのため、端末装置1は、音声データの再入力を促すために「もう一度お願いします」との音声メッセージをスピーカ12から出力させる(S32)。
ユーザは、発話後に「もう一度お願いします」との音声メッセージを聞くと、「ヤマピーに電話して」との言い方では認識されなかったと判断し、愛称を使わず、「山田さんに電話して」と発話する(S33)。ユーザが一般的な語句で発話したので、端末装置1の音声認識部3又はサーバ50の音声認識部60はステップS33でのユーザの発話文の意味を認識でき、決定部5は、ステップS33でのユーザの発話文の正しい認識結果を得ることができる。このとき、端末装置1の出力処理部8は、「山田さんに電話をかけます」との音声メッセージをスピーカ12から出力させた後(S34)、機能部9を制御して移動体搭載機器14の携帯電話機能により山田さんに電話をかけさせる。また、判断部6は、第1音声データが入力される第1時点から第2音声データが入力される第2時点までの経過時間が基準時間以下であることから、第1音声データが第2音声データの言い換え語であると判断する。判断部6が第1音声データが第2音声データの言い換え語であると判断すると、辞書更新部7は、第1音声データのテキストデータの意味が第2音声データの意味と同じになるように、端末装置1の音声辞書4を更新する(S35)。すなわち、辞書更新部7は、図3のステップS8で決定部5を介して入力された、第1認識部61による第1音声データの認識結果(テキストデータ)と、第2認識部32による第2音声データの認識結果(第2音声データの意味)とに基づいて音声辞書4を更新する。
これにより、その後、ユーザが「ヤマピーに電話して」と発話した場合(S36)、ステップS35で「ヤマピー」というテキストデータとその意味が音声辞書4に登録されたので、端末装置1の音声認識部3は「ヤマピーに電話して」の意味を認識することができる。したがって、端末装置1の出力処理部8は、「山田さんに電話をかけます」との音声メッセージをスピーカ12から出力させた後(S37)、機能部9を制御して移動体搭載機器14の携帯電話機能により山田さんに電話をかけさせる。
なお、図4を参照して説明した音声認識システム100の動作は一例であり、処理の順番は適宜変更が可能である。
また、辞書更新部7が、第2音声データの言い換え語である第1音声データを音声辞書4に登録する場合、第1音声データに、言い換え語であることを示すフラグを対応付けて記憶させてもよい。この場合、音声認識部3は、入力部2に言い換え語である第1音声データが入力された場合、第1音声データの認識結果に言い換え語であることを示すフラグを付けて決定部5に出力することができる。決定部5は、通常は、音声認識部3の認識結果よりも、認識精度が高いサーバ50の音声認識部60による認識結果を優先するが、音声認識部3から入力された認識結果に、言い換え語であることを示すフラグが付けられている場合、音声認識部3の認識結果を優先する。すなわち、決定部5は、辞書更新部7が音声辞書4を更新した後に入力部2に第1音声データが入力された場合、サーバ50の音声認識部60による認識結果よりも、音声認識部3の認識結果を優先して、第1音声データの意味を決定する。端末装置1のユーザが独自に使用する第1音声データはサーバ50の音声認識部60では正しく認識されない可能性が高く、決定部5が、音声認識部3の認識結果を優先して採用することで、言い換え語である第1音声データの認識率を向上させることができる。
また、本実施形態の音声認識システム100では、音声認識部3が入力部2に入力された第1音声データの意味を認識できなかった場合に、出力処理部8が、音声データの再入力をユーザに促す情報を出力している。
ここで、上記の実施形態では、「もう一度お願いします」との音声メッセージを出力することで、ユーザに音声データの再入力を促しているが、再入力を促すための情報は適宜変更が可能である。端末装置1は、認識できなかった単語(言い換え語)をユーザに直接質問するような音声メッセージ(例えば、「ヤマピーは誰ですか」等)を出力してもよい。また、音声辞書4に、ユーザが電話をかけたことがある人名として、「ヤマピー」に類似した「山田」と「山根」とが登録されている場合、端末装置1は、「山田さんですか、山根さんですか」という音声メッセージを出力してもよい。これにより、ユーザは、第2音声データの言い換え語である第1音声データでは認識されなかったと判断でき、一般的な語句である第2音声データをユーザに発話させることができる。
なお、上記の説明では言い換え語が人の愛称である場合を例に説明したが、第2音声データの言い換え語である第1音声データは人の愛称に限定されない。例えば、第1音声データは、端末装置1のユーザやその家族のみで通じる地名、場所等に関する語句(例えば、子供の学校、親が働いている場所、又は祖父母の家、等)でもよい。
また、第1音声データは、移動体20を操作する操作方法の言い換え語でもよい。例えば、タッチパネル13に表示された地図等を拡大する操作に関する言い換え語(「地図を大きく」)でもよいし、ICC(In Car Communication)、ACC(Adaptive Cruise Control)等の機能を有効にするために使用する音声命令の言い換え語でもよい。なお、辞書更新部7が移動体20を操作する操作方法の言い換え語を音声辞書4に登録する場合の条件は、操作方法以外の言い換え語を音声辞書4に登録する場合の条件に比べてより厳しい条件とするのが好ましい。これにより、移動体20の操作方法の言い換え語が音声辞書4に安易に登録されにくくなるので、意図しない発話で移動体20が操作される可能性を低減できる。
また、第1音声データは、端末装置1のユーザが、移動体20の操作方法を知りたい場合に使用する言葉等でもよい。
(3)変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、音声認識システム100と同様の機能は、音声認識システム100の制御方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る音声認識システム100の制御方法は、音声認識処理と、判断処理と、辞書更新処理と、を含む。音声辞書4は、音声データと音声データの意味とを対応付けて記憶する。音声認識処理では、音声辞書4に基づいて、移動体20に乗っているユーザから入力された音声データの意味を認識する。判断処理では、ユーザから入力された第1音声データの意味を認識できなかった状態で、ユーザから入力された第2音声データの意味を認識できた場合に、第1音声データが第2音声データの言い換え語であるか否かを判断する。辞書更新処理では、判断処理で第1音声データが第2音声データの言い換え語であると判断すると、第1音声データと第2音声デ−タとが同じ意味に対応するように音声辞書4を更新する。
一態様に係る(コンピュータ)プログラムは、コンピュータシステムに、音声認識処理と、判断処理と、辞書更新処理とを実行させるためのプログラムである。
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、音声認識システム100と同様の機能は、音声認識システム100の制御方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る音声認識システム100の制御方法は、音声認識処理と、判断処理と、辞書更新処理と、を含む。音声辞書4は、音声データと音声データの意味とを対応付けて記憶する。音声認識処理では、音声辞書4に基づいて、移動体20に乗っているユーザから入力された音声データの意味を認識する。判断処理では、ユーザから入力された第1音声データの意味を認識できなかった状態で、ユーザから入力された第2音声データの意味を認識できた場合に、第1音声データが第2音声データの言い換え語であるか否かを判断する。辞書更新処理では、判断処理で第1音声データが第2音声データの言い換え語であると判断すると、第1音声データと第2音声デ−タとが同じ意味に対応するように音声辞書4を更新する。
一態様に係る(コンピュータ)プログラムは、コンピュータシステムに、音声認識処理と、判断処理と、辞書更新処理とを実行させるためのプログラムである。
以下、上記の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。なお、以下では、上記実施形態を「基本例」と呼ぶこともある。
本開示における音声認識システム100は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における音声認識システム100としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1ないし複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、1以上のプロセッサ及び1以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む1ないし複数の電子回路で構成される。
また、音声認識システム100において端末装置1が備える複数の構成要素が、1つの筐体内に集約されていることは音声認識システム100に必須の構成ではなく、端末装置1が備える複数の構成要素は、複数の筐体に分散して設けられていてもよい。また、サーバ50が備える複数の構成要素が、1つの筐体内に集約されていることは音声認識システム100に必須の構成ではなく、サーバ50が備える複数の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、端末装置1又はサーバ50の少なくとも一部の機能、例えば、音声認識部3,60の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。
上記の基本例では、音声認識システム100が、移動体20に乗っているユーザと音声で対話する機能を有しているが、ユーザと音声で対話する機能は必須ではない。音声認識システム100は、ユーザが発した音声を認識する機能を少なくとも備えていればよく、音声の認識結果に対応した処理を行えばよい。ここにおいて、音声の認識結果に対応した処理とは、例えば、認識結果に基づいた応答内容をタッチパネル13に出力する処理、又は認識結果に基づいて移動体搭載機器14を制御する処理等である。
また、上記の基本例において、音声の特徴量等の2値の比較において、「超える」としているところは「以上」であってもよい。つまり、2値の比較において、2値が等しい場合を含むか否かは、基準値等の設定次第で任意に変更できるので、「超える」か「以上」かに技術上の差異はない。同様に、「以下」としているところは「未満」であってもよい。
(3.1)変形例1
変形例1の音声認識システム100は、判断部6による判定方法で上記の基本例と相違する。なお、判断部6以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
変形例1の音声認識システム100は、判断部6による判定方法で上記の基本例と相違する。なお、判断部6以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
上記の基本例では、判断部6は、第1音声データ及び第2音声データがそれぞれ入力されるタイミングに基づいて、第1音声データが第2音声データの言い換え語であるか否かを判断する。ここで、第1音声データ及び第2音声データがそれぞれ入力されるタイミングに基づく判定方法を第1判定方法という。
一方、変形例1の判断部6では、第1音声データを含む第1文と、第2音声データを含む第2文との内容の類似度に基づいて、第1音声データが第2音声データの言い換え語であるか否かを判断する。すなわち、判断部6は、第1音声データを含む第1文及び第2音声データを含む第2文にそれぞれ形態素解析処理を施し、第1文及び第2文をそれぞれベクトル化した後、両者のコサイン類似度を求める。そして、判断部6は、コサイン類似度の演算結果が所定の第1閾値以上であれば、第1音声データが第2音声データの言い換え語であると判断し、コサイン類似度の演算結果が第1閾値未満であれば、第1音声データが第2音声データの言い換え語ではないと判断する。ここで、第1音声データを含む第1文と、第2音声データを含む第2文との内容の類似度に基づく判定方法を第2判定方法ともいう。
なお、判断部6は、意味を認識できた第2音声データを構成する複数の単語の順番を入れ替えたり一部の単語を省略したりして作った語句と、第1音声データとの類似度に基づいて第1音声データが第2音声データの言い換え語であるか否かを判断してもよい。判断部6は、一致度が所定の第2閾値以上であれば、第1音声データが第2音声データの言い換え語であると判断し、一致度が第2閾値未満であれば、第1音声データが第2音声データの言い換え語ではないと判断する。ここで、意味を認識できた第2音声データを構成する複数の単語の順番を入れ替えたり一部の単語を省略したりして作った語句と、第1音声データとの類似度に基づく判定方法を第3判定方法ともいう。
また、判断部6は、上記の第1判定方法と、第2判定方法と、第3判定方法のうち2つ以上の判定方法を組み合わせて、第1音声データが第2音声データの言い換え語であるか否かを判断してもよい。
(3.2)変形例2
変形例2の音声認識システム100は、判断部6が第1音声データを第2音声データの言い換え語であると判断した場合に、辞書更新部7が音声辞書4を更新する更新処理の内容で上記の基本例と相違する。なお、辞書更新部7による音声辞書4の更新処理以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
変形例2の音声認識システム100は、判断部6が第1音声データを第2音声データの言い換え語であると判断した場合に、辞書更新部7が音声辞書4を更新する更新処理の内容で上記の基本例と相違する。なお、辞書更新部7による音声辞書4の更新処理以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
変形例2の音声認識システム100では、辞書更新部7が音声辞書4を更新する前に、出力処理部8が、音声辞書4の更新の可否をユーザに確認するための音声メッセージを出力させる出力命令を音声出力部10に出力する。音声出力部10は、出力処理部8から出力命令が入力されると、音声合成を行い、スピーカ12から音声メッセージを出力させる。音声メッセージは、音声辞書4の更新の可否を直接問うような音声メッセージでもよいし、第1音声データが第2音声データであると確認するような音声メッセージでもよい。そして、出力処理部8がスピーカ12から音声メッセージを出力させた後に、ユーザが、了解の意味の言葉を発すると、端末装置1の辞書更新部7が音声辞書4を更新するので、ユーザの意図を確認した上で辞書更新部7を更新できる。
ここで、ユーザと端末装置1との間での音声対話に着目して音声認識システム100の動作を説明する。ここでは、ユーザが「山田」さんの愛称である「ヤマピー」との語句を使って山田さんに電話をかけるように端末装置1に指示する場合に、ユーザと端末装置1との間で行われる音声対話について図5を参照して説明する。なお、「山田」との語句は音声辞書4,70に登録済みであるが、「ヤマピー」(第1音声データ)との語句は音声辞書4,70に未登録であるものとする。
ユーザが「ヤマピーに電話して」と発話した場合(S41)、「ヤマピー」の語句は音声辞書4,70に未登録であるので、音声認識部3,60は「ヤマピーに電話して」の意味を認識できない。そのため、端末装置1は、音声データの再入力を促すために「もう一度お願いします」との音声メッセージをスピーカ12から出力させる(S42)。
ユーザは、発話後に「もう一度お願いします」との音声メッセージを聞くと、「ヤマピーに電話して」との言い方では認識されなかったと判断し、愛称を使わず、「山田さんに電話して」と発話する(S43)。ユーザが一般的な語句で発話したので、端末装置1の音声認識部3又はサーバ50の音声認識部60はステップS43でのユーザの発話文の意味を認識でき、決定部5は、ステップS43でのユーザの発話文の正しい認識結果を得ることができる。このとき、判断部6は、第1音声データが入力される第1時点から第2音声データが入力される第2時点までの経過時間が基準時間以下であることから、第1音声データが第2音声データの言い換え語であると判断する。判断部6の判断結果が出力処理部8に入力されると、出力処理部8は、音声辞書4の更新の可否をユーザに確認するために、例えば「ヤマピーは山田さんのことですか」との音声メッセージ(確認情報)を出力させる出力命令を音声出力部10に出力する。音声出力部10は、出力処理部8から出力命令が入力されると、音声合成を行って、「ヤマピーは山田さんのことですか」との音声メッセージをスピーカ12から出力させる(S44)。
ユーザは、「ヤマピーは山田さんのことですか」との音声メッセージを聞くと、「ヤマピー」は「山田」さんの意味であるので、了承の言葉(例えば「Yes」)と発話する(S45)。ステップS45での了承の言葉が端末装置1の音声認識部3又はサーバ50の音声認識部60で認識されると、端末装置1の判断部6は、音声辞書4の更新を許可する許可情報を受け付けたと判断し、辞書更新部7に更新命令を出力する(S46)。辞書更新部7は、判断部6から更新命令が入力されると、端末装置1の音声辞書4に言い換え語である第1音声データのテキストデータとその意味を登録する。辞書更新部7による音声辞書4の更新処理は上記の基本例と同様であるので、その説明は省略する。
また、端末装置1の出力処理部8は、ユーザからの許可情報を受け付けると、例えば「登録を行いました」、「山田さんに電話をかけます」との音声メッセージをスピーカ12から出力させる(S47,S48)。そして、出力処理部8は、機能部9を制御して移動体搭載機器14の携帯電話機能により山田さんに電話をかけさせる。
その後、ユーザが「ヤマピーに電話して」と発話した場合(S49)、ステップS46で「ヤマピー」というテキストデータとその意味が音声辞書4に登録されたので、端末装置1の音声認識部3は「ヤマピーに電話して」の意味を認識することができる。したがって、端末装置1の出力処理部8は、「山田さんに電話をかけます」との音声メッセージをスピーカ12から出力させた後(S50)、機能部9を制御して移動体搭載機器14の携帯電話機能により山田さんに電話をかけさせる。
以上のように、変形例2ではインターフェース部15は、辞書更新部7が音声辞書4を更新する前に、音声辞書4の更新の可否をユーザに確認するための確認情報を出力する。辞書更新部7は、インターフェース部15が確認情報を出力した後に音声辞書4の更新を許可する許可情報を受け付けた場合、音声辞書4を更新する。
なお、図5を参照して説明した音声認識システム100の動作は一例であり、処理の順番は適宜変更が可能である。
また、図5に示した音声対話の例では、インターフェース部15は、第1音声データが第2音声データの言い換え語であると判断部6が判断したタイミングで、確認情報を出力しているが、確認情報を出力するタイミングは上記の例に限定されない。
例えば、インターフェース部15は、入力部2に第1音声データが再び入力されたタイミングで、確認情報を出力してもよい。
ここで、ユーザと端末装置1との間での音声対話に着目して音声認識システム100の動作を説明する。ここでは、ユーザが「山田」さんの愛称である「ヤマピー」との語句を使って山田さんに電話をかけるように端末装置1に指示する場合に、ユーザと端末装置1との間で行われる音声対話について図6を参照して説明する。なお、「山田」との語句は音声辞書4,70に登録済みであるが、「ヤマピー」(第1音声データ)との語句は音声辞書4,70に未登録であるものとする。
ユーザが「ヤマピーに電話して」と発話した場合(S51)、「ヤマピー」の語句は音声辞書4,70に未登録であるので、音声認識部3,60は「ヤマピーに電話して」の意味を認識できない。そのため、端末装置1は、音声データの再入力を促すために「もう一度お願いします」との音声メッセージをスピーカ12から出力させる(S52)。
ユーザは、発話後に「もう一度お願いします」との音声メッセージを聞くと、「ヤマピーに電話して」との言い方では認識されなかったと判断し、愛称を使わず、「山田さんに電話して」と発話する(S53)。ユーザが一般的な語句で発話したので、端末装置1の音声認識部3又はサーバ50の音声認識部60はステップS43でのユーザの発話文の意味を認識でき、決定部5は、ステップS43でのユーザの発話文の正しい認識結果を得ることができる。このとき、判断部6は、第1音声データが入力される第1時点から第2音声データが入力される第2時点までの経過時間が基準時間以下であることから、第1音声データが第2音声データの言い換え語であると判断する。また、判断部6の判断結果が出力処理部8に入力されると、出力処理部8は、例えば「山田さんに電話をかけます」との音声メッセージをスピーカ12から出力させる(S54)。そして、出力処理部8は、機能部9を制御して移動体搭載機器14の携帯電話機能により山田さんに電話をかけさせる。また、辞書更新部7は、判断部6の判断結果に基づいて、端末装置1の音声辞書4に言い換え語である第1音声データのテキストデータとその意味を仮登録する。
その後、ユーザが「ヤマピーに電話して」と再び発話した場合(S55)、「ヤマピー」という語句の意味が音声辞書4に仮登録されているので、端末装置1の音声認識部3は「ヤマピーに電話して」の意味を認識することができる。このとき、出力処理部8は、音声辞書4の更新の可否をユーザに確認するために、例えば「ヤマピーは山田さんのことですか」との音声メッセージ(確認情報)を出力させる出力命令を音声出力部10に出力する。音声出力部10は、出力処理部8から出力命令が入力されると、音声合成を行って、「ヤマピーは山田さんのことですか」との音声メッセージをスピーカ12から出力させる(S56)。
ユーザは、「ヤマピーは山田さんのことですか」との音声メッセージを聞くと、「ヤマピー」は「山田」さんの意味であるので、了承の言葉(例えば「Yes」)と発話する(S57)。ステップS57での了承の言葉が端末装置1の音声認識部3又はサーバ50の音声認識部60で認識されると、端末装置1の出力処理部8は、例えば「山田さんに電話をかけます」との音声メッセージをスピーカ12から出力させる(S58)。そして、出力処理部8は、機能部9を制御して移動体搭載機器14の携帯電話機能により山田さんに電話をかけさせる。
また、端末装置1の判断部6は、音声辞書4の更新を許可する許可情報を受け付けたと判断し、辞書更新部7に更新命令を出力する(S59)。辞書更新部7は、判断部6から更新命令が入力されると、端末装置1の音声辞書4に言い換え語である第1音声データのテキストデータとその意味を登録する。辞書更新部7による音声辞書4の更新処理は上記の基本例と同様であるので、その説明は省略する。
なお、図6を参照して説明した音声認識システム100の動作は一例であり、処理の順番は適宜変更が可能である。
上述のように、図6に示した音声対話の例では、辞書更新部7は、第1音声データが1回目に入力された時点では音声辞書4の更新処理は行わず、第1音声データが再び入力された時点で音声辞書4の更新を行っている。したがって、第1音声データが1回目に入力された時点では、音声辞書4の更新の可否を確認する処理を省くことができ、通話相手に電話をかける処理が実行されるまでの時間を短縮できる。
(3.3)変形例3
変形例3の音声認識システム100は、判断部6が、第1音声データが第2音声データの言い換え語であるか否かを判断する判断方法で、上記の基本例と相違する。なお、判断部6による判断方法以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
変形例3の音声認識システム100は、判断部6が、第1音声データが第2音声データの言い換え語であるか否かを判断する判断方法で、上記の基本例と相違する。なお、判断部6による判断方法以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
変形例3の端末装置1及びサーバ50の動作を図7のシーケンス図に基づいて説明する。
移動体20に乗っているユーザが音声を発すると、マイク11から入力部2を介して音声認識部3の第1認識部31に音声データが入力される(S1)。このとき、入力部2から端末装置1の通信機能を介してサーバ50の音声認識部60(第1認識部61)に音声データが入力される(S2)。
入力部2から音声認識部3の第1認識部31に音声データが入力されると、第1認識部31は、音素辞書41に基づいて音声データをテキストデータに変換する処理を行い、認識結果のテキストデータを第2認識部32に出力する(S3)。第1認識部31から第2認識部32に認識結果が入力されると、第2認識部32は、意図理解辞書42に基づいて第1認識部31が認識した語句の意味(ユーザの意図)を認識する処理を行い、認識結果を決定部5に出力する(S4)。
また、端末装置1からサーバ50の音声認識部60(第1認識部61)に音声データが入力されると、第1認識部61が、音素辞書71に基づいて音声データをテキストデータに変換する処理を行い、認識結果のテキストデータを第2認識部62に出力する(S5)。第1認識部61から第2認識部62に認識結果が入力されると、第2認識部62は、意図理解辞書72に基づいて第1認識部61が認識した語句の意味を認識する処理を行い、認識結果を端末装置1の決定部5に出力する(S6)。
決定部5は、音声認識部3及びサーバ50の音声認識部60から音声データの認識結果が入力されると、音声認識部3の認識結果と、サーバ50の音声認識部60での認識結果とに基づいて、音声データの意味を決定する。
ここで、ユーザが話した語句が端末装置1の音声辞書4及びサーバ50の意図理解辞書72のいずれかに既に登録されていれば、端末装置1の音声認識部3及びサーバ50の音声認識部60のいずれかで音声データの意味が正しく認識される。したがって、決定部5は、音声認識部3の認識結果と、サーバ50の音声認識部60での認識結果とに基づいて、音声データの意味を決定し、音声データの意味(つまり、ユーザの意図)に応じた出力処理(例えば移動体搭載機器14を制御する処理)を行う。
一方、ユーザが、音声辞書4及び意図理解辞書72に未登録の語句であって、音声辞書4又は意図理解辞書72に登録済みの語句の言い換え語を話した場合、音声認識部3及び第2認識部62は、入力された音声データの意味を認識できない。例えば、音声辞書4及び音声辞書70に、「山田」という人名は登録されているが、ユーザが「山田」さんの愛称として使用する「ヤマピー」は未登録の場合、音声認識部3及び第2認識部62はユーザが発話した「ヤマピー」という語句の意味を認識できない。したがって、決定部5は、音声データの認識に失敗したことを示す情報を出力処理部8、辞書更新部7及び判断部6に出力する(S7〜S9)。このとき、決定部5は、音声認識部3が備える第1認識部31及び第2認識部32の認識結果と、サーバ50の音声認識部60が備える第1認識部61及び第2認識部62の認識結果とを、辞書更新部7及び判断部6に出力する(S8〜S9)。なお、ステップS8〜S9において、サーバ50の第2認識部62が、第1認識部61及び第2認識部62の認識結果を、辞書更新部7と判断部6とにそれぞれ出力してもよい。また、音声認識部3の第2認識部32が、第1認識部31及び第2認識部32の認識結果を、辞書更新部7と判断部6とにそれぞれ出力してもよい。
この場合、出力処理部8は、音声データの再入力をユーザに促す音声メッセージ(例えば「もう一度お願いします」等)をスピーカ12から出力させる出力命令を音声出力部10に出力し、スピーカ12から音声メッセージを出力させる処理を行う(S10)。
音声データの再入力を促す音声メッセージを聞いたユーザが、音声ではなく、タッチパネル13を操作して、山田さんに電話をかける操作を行うと、タッチパネル13から操作に応じた操作情報が出力処理部8に入力される(S22)。
出力処理部8は、タッチパネル13から操作情報が入力されると、この操作情報を判断部6に出力する(S24)。このとき、判断部6は、出力処理部8から入力された操作情報の内容(「山田さんに電話をかける」)に基づいて、ステップS9で入力された第1音声データの「ヤマピー」が「山田さん」であると判断する。すなわち、「ヤマピー」は「山田」という語句の言い換え語であると判断し、辞書更新部7に更新命令を出力する(S25)。辞書更新部7は、判断部6から更新命令が入力されると、端末装置1の音声辞書4に言い換え語である第1音声データのテキストデータとその意味を登録する。辞書更新部7による音声辞書4の更新処理は上記の基本例と同様であるので、その説明は省略する。
また、出力処理部8は、タッチパネル13からの操作情報に基づいて機能部9に、山田さんに電話をかけるための制御命令を出力する。機能部9は、出力処理部8から制御命令が入力されると、移動体搭載機器14である携帯電話機能を制御して、山田さんに電話をかける処理を行わせる(S23)。なお、図7で説明した端末装置1及びサーバ50の動作において一部の処理の順番が適宜変更されてもよい。
本実施形態の端末装置1及びサーバ50は以上のような動作を行うのであるが、以下では、ユーザと端末装置1との間での音声対話に着目して音声認識システム100の動作を説明する。
ここでは、ユーザが「山田」さんの愛称である「ヤマピー」との語句を使って山田さんに電話をかけるように端末装置1に指示する場合に、ユーザと端末装置1との間で行われる音声対話について図8を参照して説明する。なお、「山田」との語句は音声辞書4,70に登録済みであるが、「ヤマピー」(第1音声データ)との語句は音声辞書4,70に未登録であるものとする。
ユーザが「ヤマピーに電話して」と発話した場合(S61)、「ヤマピー」の語句は音声辞書4,70に未登録であるので、音声認識部3,60は「ヤマピーに電話して」の意味を認識できない。そのため、端末装置1は、音声データの再入力を促すために「もう一度お願いします」との音声メッセージをスピーカ12から出力させる(S62)。
ユーザは、発話後に「もう一度お願いします」との音声メッセージを聞くと、「ヤマピーに電話して」との言い方では認識されなかったと判断し、タッチパネル13を用いて山田さんに電話をかける操作を行う(S63)。
出力処理部8は、タッチパネル13からの操作情報に基づいて、「山田さんに電話をかけます」との音声メッセージをスピーカ12から出力させた後(S64)、機能部9を制御して移動体搭載機器14の携帯電話機能により山田さんに電話をかけさせる。
このとき、判断部6は、機能部9から入力された制御命令の内容に基づいて、ステップS61で入力された第1音声データの「ヤマピー」が「山田さん」であると判断する。すなわち、「ヤマピー」は「山田」という語句の言い換え語であると判断し、辞書更新部7に更新命令を出力する。辞書更新部7は、判断部6から更新命令が入力されると、端末装置1の音声辞書4に言い換え語である第1音声データのテキストデータとその意味を登録することにより音声辞書4を更新する(S65)。
その後、ユーザが「ヤマピーに電話して」と発話した場合(S66)、ステップS65で「ヤマピー」という語句の意味が音声辞書4に登録されたので、端末装置1の音声認識部3は「ヤマピーに電話して」の意味を認識することができる。したがって、端末装置1の出力処理部8は、「山田さんに電話をかけます」との音声メッセージをスピーカ12から出力させた後(S67)、機能部9を制御して移動体搭載機器14の携帯電話機能により山田さんに電話をかけさせる。
なお、図8を参照して説明した音声認識システム100の動作は一例であり、処理の順番は適宜変更が可能である。
(3.4)変形例4
変形例4の音声認識システム100は、図9に示すように、複数のユーザのうち入力部2に入力された音声データのユーザを識別する話者識別部16を更に備える点で、上記の基本例と相違する。なお、話者識別部16以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
変形例4の音声認識システム100は、図9に示すように、複数のユーザのうち入力部2に入力された音声データのユーザを識別する話者識別部16を更に備える点で、上記の基本例と相違する。なお、話者識別部16以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。
話者識別部16は、例えば、入力部2に入力された音声データの特徴量(声紋等)に基づいて話者を特定する。
また、変形例4の音声認識システム100では、音声辞書4が、話者ごとにユーザ辞書(第2辞書412,422)を備えている。そして、音声認識部3は、複数の音声辞書のうち話者識別部16が識別したユーザに対応する音声辞書に基づいて、入力部2に入力された音声データの意味を認識する。話者ごとに使用する語句が異なる場合でも、話者ごとに用意されたユーザ辞書(第2辞書412,422)を使用することで、音声認識部3による認識率を向上させることができる。
なお、話者を識別する話者識別部16は、音声データに基づいて話者を識別するものに限定されない。話者識別部16は、生体情報(例えば顔画像、指紋、虹彩等)を利用して話者を識別するものでもよいし、話者がタッチパネル13を用いて入力したID情報等に基づいて話者を識別するものでもよい。
(3.5)その他の変形例
上記の基本例において、音声認識システム100がサーバ50を含むことは必須ではない。音声認識システム100は、移動体20に搭載される端末装置1を少なくとも備えていればよい。音声認識システム100が端末装置1のみで構成される場合、上記の決定部5は省略が可能である。
上記の基本例において、音声認識システム100がサーバ50を含むことは必須ではない。音声認識システム100は、移動体20に搭載される端末装置1を少なくとも備えていればよい。音声認識システム100が端末装置1のみで構成される場合、上記の決定部5は省略が可能である。
上記の基本例において、判断部6は、学習済みモデルを用いて、第1音声データが第2音声データの言い換え語であるか否かを判断してもよい。判断部6が用いる学習済みモデルの生成方法では、複数のユーザに共通して使用される語句の第2音声データと、第2音声データと同じ意味であって端末装置1のユーザで独自に使用される第1音声データとを入力データとした教師あり学習を行うことによって生成される。なお、判断部6が用いる学習済みモデルは、教師無し学習を行うことによって生成されてもよいし、ディープラーニングを用いた機械学習で生成されてもよい。また、判断部6が用いる学習済みモデルは、音声認識システム100以外のシステムで生成された学習済みモデルでもよいし、音声認識システム100自体で、判断部6が用いる学習済みモデルを生成してもよい。
また、上記の基本例において、辞書更新部7は、移動体20の状況に応じて音声辞書4を更新する場合の処理内容を変更してもよい。ここで、移動体20の状況とは、移動体20の移動状態に関する状況であり、例えば移動体20が自動車である場合は、移動体20の走行状態に関する状況(停止中、走行中)と、移動体20が走行している道路(カーブ、高速道路等)、時間帯、天候等に関する状況とを含む。辞書更新部7は、移動体20の状況に応じて音声辞書4を更新する場合の処理内容を変更しており、例えば、音声辞書4を更新するタイミングを変更したり、音声辞書4を更新する前にユーザの確認をとる処理を行うか否かを変更したりする。例えば、移動体20がカーブや高速道路等、運転により注意力を必要とする場所を走行している場合、辞書更新部7は、音声辞書4の更新を後回しにしてもよく、ユーザの運転操作等の妨げとなる可能性を低減できる。また、辞書更新部7は、移動体20の状況に応じて、変更内容をスピーカ12から音声で出力させるか、タッチパネル13に表示させるかを変更してもよい。例えば、辞書更新部7は、移動体20がカーブや高速道路等、運転により注意力を必要とする場所を走行している場合は変更内容をスピーカ12から音声で出力させ、移動体20が停止している場合はタッチパネル13に変更内容を表示させるように、処理内容を変更してもよい。
また、基本例では、移動体20が自動車であったが、移動体20は、例えば、鉄道車両、船舶、航空機等の自動車以外の移動体でもよい。
(まとめ)
以上説明したように、第1の態様に係る音声認識システム(100)は、移動体(20)に用いられる。音声認識システム(100)は、入力部(2)と、音声認識部(3)と、判断部(6)と、辞書更新部(7)と、を備える。入力部(2)には、移動体(20)に乗っているユーザの音声データが入力される。音声認識部(3)は、音声データと音声データの意味とを対応付けて記憶する音声辞書(4)に基づいて、入力部(2)に入力された音声データの意味を認識する。音声認識部(3)が、入力部(2)に入力された第1音声データの意味を認識できなかった状態で、入力部(2)に入力された第2音声データの意味を認識できた場合に、判断部(6)は、第1音声データが第2音声データの言い換え語であるか否かを判断する。辞書更新部(7)は、判断部(6)が第1音声データが第2音声データの言い換え語であると判断すると、第1音声データと第2音声デ−タとが同じ意味に対応するように音声辞書(4)を更新する。
以上説明したように、第1の態様に係る音声認識システム(100)は、移動体(20)に用いられる。音声認識システム(100)は、入力部(2)と、音声認識部(3)と、判断部(6)と、辞書更新部(7)と、を備える。入力部(2)には、移動体(20)に乗っているユーザの音声データが入力される。音声認識部(3)は、音声データと音声データの意味とを対応付けて記憶する音声辞書(4)に基づいて、入力部(2)に入力された音声データの意味を認識する。音声認識部(3)が、入力部(2)に入力された第1音声データの意味を認識できなかった状態で、入力部(2)に入力された第2音声データの意味を認識できた場合に、判断部(6)は、第1音声データが第2音声データの言い換え語であるか否かを判断する。辞書更新部(7)は、判断部(6)が第1音声データが第2音声データの言い換え語であると判断すると、第1音声データと第2音声デ−タとが同じ意味に対応するように音声辞書(4)を更新する。
この態様によれば、ユーザが第2音声データの言い換え語である第1音声データの語句を発話する場合でも、音声認識部(3)が第1音声データの意味を認識できるようになり、使用性の向上を図ることが可能な音声認識システム(100)を提供できる。
第2の態様に係る音声認識システム(100)は、第1の態様において、音声認識システム(100)とユーザとの間で情報を入出力するためのインターフェース部(15)を更に備える。インターフェース部(15)は、辞書更新部(7)が音声辞書(4)を更新する前に、音声辞書(4)の更新の可否をユーザに確認するための確認情報を出力する。辞書更新部(7)は、インターフェース部(15)が確認情報を出力した後に音声辞書(4)の更新を許可する許可情報を受け付けた場合、音声辞書(4)を更新する。
この態様によれば、インターフェース部(15)がユーザからの許可情報を受け付けると、辞書更新部(7)が音声辞書(4)を更新できるようにできる。
第3の態様に係る音声認識システム(100)では、第2の態様において、インターフェース部(15)は、第1音声データが第2音声データの言い換え語であると判断部(6)が判断したタイミングで、確認情報を出力する。
この態様によれば、ユーザの第1音声データが第2音声データの言い換え語であると判断されたタイミングで、音声辞書(4)の更新の可否をユーザに確認することができる。
第4の態様に係る音声認識システム(100)では、第2の態様において、インターフェース部(15)は、入力部(2)に第1音声データが再び入力されたタイミングで、確認情報を出力する。
この態様によれば、ユーザが、第2音声データの言い換え語である第1音声データを再び発話したタイミングで、音声辞書(4)の更新の可否をユーザに確認することができる。
第5の態様に係る音声認識システム(100)では、第2〜4のいずれかの態様において、インターフェース部(15)は、ユーザとの間で音声で情報を入出力する。
この態様によれば、ユーザは、音声認識システム(100)と音声で情報のやりとりを行うことができる。
第6の態様に係る音声認識システム(100)は、第1〜5のいずれかの態様において、複数のユーザのうち入力部(2)に入力された音声データのユーザを識別する話者識別部(16)を更に備える。音声認識部(3)は、複数の音声辞書(412,422)のうち話者識別部(16)が識別したユーザに対応する音声辞書(412,422)に基づいて、入力部(2)に入力された音声データの意味を認識する。
この態様によれば、話者識別部(16)が識別したユーザに対応する音声辞書(412,422)を用いることで、音声の認識率が向上するという利点がある。
第7の態様に係る音声認識システム(100)では、第1〜6のいずれかの態様において、辞書更新部(7)は、移動体(20)の状況に応じて音声辞書(4)を更新する場合の処理内容を変更する。
この態様によれば、移動体(20)の状況に応じて、音声辞書(4)を更新する場合の処理内容を変更できるので、例えば、移動体(20)の移動状態に関する状況に応じて音声辞書(4)を更新するタイミング等を変更できる。
第8の態様に係る音声認識システム(100)は、第1〜7のいずれかの態様において、決定部(5)を更に備える。決定部(5)は、サーバ側音声辞書(70)に基づいて、入力部(2)に入力された音声データの意味を認識するサーバ(50)の認識結果と、音声認識部(3)の認識結果とに基づいて、音声データの意味を決定する。サーバ側音声辞書(70)は、語句の単位での音声データと音声データの意味とを対応付けて記憶する。
この態様によれば、決定部(5)は、サーバ(50)の認識結果も考慮して入力部(2)に入力された音声データの意味を決定するので、音声データの認識率が向上するという利点がある。
第9の態様に係る音声認識システム(100)では、第8の態様において、決定部(5)は、所定の場合、サーバ(50)の認識結果よりも、音声認識部(3)の認識結果を優先して、第1音声データの意味を決定する。所定の場合とは、辞書更新部(7)が音声辞書(4)を更新した後に入力部(2)に第1音声データが入力された場合である。
この態様によれば、サーバ(50)の認識結果よりも、音声認識部(3)の認識結果を優先することで、第1音声データの認識率が向上するという利点がある。
第10の態様に係る音声認識システム(100)では、第1〜9のいずれかの態様において、音声辞書(4)は共通辞書(411,421)とユーザ辞書(412,422)とを含む。共通辞書(411,421)は、複数のユーザに共通する音声データと、複数のユーザに共通する音声データの意味とを対応付けて記憶する。ユーザ辞書(412,422)は、第2音声データの言い換え語である第1音声データと、第1音声データの意味とを対応付けて記憶する、共通辞書(411,421)の更新処理と、辞書更新部(7)によるユーザ辞書(412,422)の更新処理とが別々に行われる。
この態様によれば、辞書更新部(7)は、共通辞書(411,421)の更新処理とは異なるタイミングでユーザ辞書(412,422)の更新処理を行うことができる。
第11の態様に係る音声認識システム(100)は、第1〜10のいずれかの態様において、音声認識システム(100)とユーザとの間で情報を入出力するためのインターフェース部(15)を更に備える。音声認識部(3)が入力部(2)に入力された第1音声データの意味を認識できなかった場合に、インターフェース部(15)は、音声データの再入力をユーザに促す情報を出力する。
この態様によれば、インターフェース部(15)が出力した情報によって、ユーザに音声データの再入力を促すことができる。
第12の態様に係る学習済みモデルの生成方法は、第1〜11のいずれかの態様の音声認識システム(100)が備える判断部(6)を実現するための学習済みモデルの生成方法である。
この態様によれば、使用性の向上を図ることができる。
第13の態様に係る音声認識システム(100)の制御方法は、音声認識処理と、判断処理と、辞書更新処理と、を含む。音声認識処理では、音声データと音声データの意味とを対応付けて記憶する音声辞書(4)に基づいて、移動体(20)に乗っているユーザから入力された音声データの意味を認識する。判断処理では、ユーザから入力された第1音声データの意味を認識できなかった状態で、ユーザから入力された第2音声データの意味を認識できた場合に、第1音声データが第2音声データの言い換え語であるか否かを判断する。辞書更新処理では、判断処理で第1音声データが第2音声データの言い換え語であると判断すると、第1音声データと第2音声デ−タとが同じ意味に対応するように音声辞書(4)を更新する。
この態様によれば、使用性の向上を図ることができる。
第14の態様に係るプログラムは、コンピュータシステムに、音声認識処理と、判断処理と、辞書更新処理と、を実行させるためのプログラムである。音声認識処理では、音声データと音声データの意味とを対応付けて記憶する音声辞書(4)に基づいて、移動体(20)に乗っているユーザから入力された音声データの意味を認識する。判断処理では、ユーザから入力された第1音声データの意味を認識できなかった状態で、ユーザから入力された第2音声データの意味を認識できた場合に、第1音声データが第2音声データの言い換え語であるか否かを判断する。辞書更新処理では、判断処理で第1音声データが第2音声データの言い換え語であると判断すると、第1音声データと第2音声デ−タとが同じ意味に対応するように音声辞書(4)を更新する。
この態様によれば、使用性の向上を図ることができる。
第15の態様に係る移動体(20)は、移動する本体(21)を備える。本体(21)は、第1〜11のいずれかの態様の音声認識システム(100)が備える入力部(2)と音声認識部(3)と判断部(6)と辞書更新部(7)とを搭載する。
この態様によれば、使用性の向上を図ることができる。
第16の態様に係る音声認識システム(100)では、第1〜11のいずれかの態様において、音声認識部(3)が、第1認識部(31)と、第2認識部(32)とを備える。第1認識部(31)は、入力部(2)から入力された音声データの語句を認識する。第2認識部(32)は、第1認識部(31)によって認識された語句の意味を認識する。
第17の態様に係る音声認識システム(100)は、第1〜11及び16のいずれかの態様において、音声認識部(3)の認識結果に基づいて、移動体(20)に搭載された移動体搭載機器(14)を制御する機能部(9)を更に備える。
上記態様に限らず、上記の実施形態に係る音声認識システム(100)の種々の構成(変形例を含む)は、音声認識システム(100)の制御方法、(コンピュータ)プログラム、又はプログラムを記録した非一時的記録媒体等で具現化可能である。
第2〜第11、第16及び第17の態様に係る構成については、音声認識システム(100)に必須の構成ではなく、適宜省略可能である。
2 入力部
3 音声認識部
4 音声辞書
5 決定部
6 判断部
7 辞書更新部
15 インターフェース部
16 話者識別部
20 移動体
21 本体
50 サーバ
70 サーバ側音声辞書
100 音声認識システム
411,421 第1辞書(共通辞書)
412,422 第2辞書(音声辞書、ユーザ辞書)
3 音声認識部
4 音声辞書
5 決定部
6 判断部
7 辞書更新部
15 インターフェース部
16 話者識別部
20 移動体
21 本体
50 サーバ
70 サーバ側音声辞書
100 音声認識システム
411,421 第1辞書(共通辞書)
412,422 第2辞書(音声辞書、ユーザ辞書)
Claims (15)
- 移動体に用いられる音声認識システムであって、
前記移動体に乗っているユーザの音声データが入力される入力部と、
音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、前記入力部に入力された音声データの意味を認識する音声認識部と、
前記音声認識部が、前記入力部に入力された第1音声データの意味を認識できなかった状態で、前記入力部に入力された第2音声データの意味を認識できた場合に、前記第1音声データが前記第2音声データの言い換え語であるか否かを判断する判断部と、
前記判断部が前記第1音声データが前記第2音声データの言い換え語であると判断すると、前記第1音声データと前記第2音声デ−タとが同じ意味に対応するように前記音声辞書を更新する辞書更新部と、を備える、
音声認識システム。 - 前記音声認識システムと前記ユーザとの間で情報を入出力するためのインターフェース部を更に備え、
前記インターフェース部は、前記辞書更新部が前記音声辞書を更新する前に、前記音声辞書の更新の可否を前記ユーザに確認するための確認情報を出力し、
前記辞書更新部は、前記インターフェース部が前記確認情報を出力した後に前記音声辞書の更新を許可する許可情報を受け付けた場合、前記音声辞書を更新する、
請求項1に記載の音声認識システム。 - 前記インターフェース部は、前記第1音声データが前記第2音声データの言い換え語であると前記判断部が判断したタイミングで、前記確認情報を出力する、
請求項2に記載の音声認識システム。 - 前記インターフェース部は、前記入力部に前記第1音声データが再び入力されたタイミングで、前記確認情報を出力する、
請求項2に記載の音声認識システム。 - 前記インターフェース部は、前記ユーザとの間で音声で前記情報を入出力する、
請求項2〜4のいずれか1項に記載の音声認識システム。 - 複数の前記ユーザのうち前記入力部に入力された前記音声データのユーザを識別する話者識別部を更に備え、
前記音声認識部は、複数の前記音声辞書のうち前記話者識別部が識別したユーザに対応する音声辞書に基づいて、前記入力部に入力された前記音声データの意味を認識する、
請求項1〜5のいずれか1項に記載の音声認識システム。 - 前記辞書更新部は、前記移動体の状況に応じて前記音声辞書を更新する場合の処理内容を変更する、
請求項1〜6のいずれか1項に記載の音声認識システム。 - 音声データと前記音声データの意味とを対応付けて記憶するサーバ側音声辞書に基づいて、前記入力部に入力された前記音声データの意味を認識するサーバの認識結果と、前記音声認識部の認識結果とに基づいて、前記音声データの意味を決定する決定部を更に備える、
請求項1〜7のいずれか1項に記載の音声認識システム。 - 前記決定部は、前記辞書更新部が前記音声辞書を更新した後に前記入力部に前記第1音声データが入力されて前記音声辞書と前記サーバでそれぞれで認識が行われた場合、前記サーバの認識結果よりも、前記音声認識部の認識結果を優先して、前記第1音声データの意味を決定する、
請求項8に記載の音声認識システム。 - 前記音声辞書は、複数の前記ユーザに共通する音声データと前記複数のユーザに共通する音声データの意味とを対応付けて記憶する共通辞書と、前記第2音声データの言い換え語である前記第1音声データと前記第1音声データの意味とを対応付けて記憶するユーザ辞書とを含み、
前記共通辞書の更新処理と、前記辞書更新部による前記ユーザ辞書の更新処理とが別々に行われる、
請求項1〜9のいずれか1項に記載の音声認識システム。 - 前記音声認識システムと前記ユーザとの間で情報を入出力するためのインターフェース部を更に備え、
前記音声認識部が前記入力部に入力された前記第1音声データの意味を認識できなかった場合に、前記インターフェース部は、前記音声データの再入力を前記ユーザに促す情報を出力する、
請求項1〜10のいずれか1項に記載の音声認識システム。 - 請求項1〜11のいずれか1項に記載の音声認識システムが備える前記判断部を実現するための学習済みモデルの生成方法。
- 音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、移動体に乗っているユーザから入力された音声データの意味を認識する音声認識処理と、
前記ユーザから入力された第1音声データの意味を認識できなかった状態で、前記ユーザから入力された第2音声データの意味を認識できた場合に、前記第1音声データが前記第2音声データの言い換え語であるか否かを判断する判断処理と、
前記判断処理で前記第1音声データが前記第2音声データの言い換え語であると判断すると、前記第1音声データと前記第2音声デ−タとが同じ意味に対応するように前記音声辞書を更新する辞書更新処理と、を含む、
音声認識システムの制御方法。 - コンピュータシステムに、
音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、移動体に乗っているユーザから入力された音声データの意味を認識する音声認識処理と、
前記ユーザから入力された第1音声データの意味を認識できなかった状態で、前記ユーザから入力された第2音声データの意味を認識できた場合に、前記第1音声データが前記第2音声データの言い換え語であるか否かを判断する判断処理と、
前記判断処理で前記第1音声データが前記第2音声データの言い換え語であると判断すると、前記第1音声データと前記第2音声デ−タとが同じ意味に対応するように前記音声辞書を更新する辞書更新処理と、を実行させるための、
プログラム。 - 移動する本体を備え、
前記本体は、請求項1〜11のいずれか1項に記載の音声認識システムが備える前記入力部と前記音声認識部と前記判断部と前記辞書更新部とを搭載する、
移動体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018241824A JP2020101778A (ja) | 2018-12-25 | 2018-12-25 | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018241824A JP2020101778A (ja) | 2018-12-25 | 2018-12-25 | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020101778A true JP2020101778A (ja) | 2020-07-02 |
Family
ID=71141243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018241824A Pending JP2020101778A (ja) | 2018-12-25 | 2018-12-25 | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020101778A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7489928B2 (ja) | 2021-02-04 | 2024-05-24 | Toa株式会社 | 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム |
-
2018
- 2018-12-25 JP JP2018241824A patent/JP2020101778A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7489928B2 (ja) | 2021-02-04 | 2024-05-24 | Toa株式会社 | 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7826945B2 (en) | Automobile speech-recognition interface | |
US11763808B2 (en) | Temporary account association with voice-enabled devices | |
US10714085B2 (en) | Temporary account association with voice-enabled devices | |
US9224394B2 (en) | Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same | |
CN114830228A (zh) | 与设备关联的账户 | |
CN112037774B (zh) | 用于关键短语识别的系统和方法 | |
CN108242236A (zh) | 对话处理装置及其车辆和对话处理方法 | |
US20120253823A1 (en) | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing | |
US20070112568A1 (en) | Method for speech recognition and communication device | |
CN111258529B (zh) | 电子设备及其控制方法 | |
JP6797338B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
JP2020095121A (ja) | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 | |
US20200286479A1 (en) | Agent device, method for controlling agent device, and storage medium | |
JP2020101778A (ja) | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 | |
KR20220129366A (ko) | 음성 인식 시스템 및 그 제어 방법 | |
US20200168221A1 (en) | Voice recognition apparatus and method of voice recognition | |
JP2020152298A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP2020091435A (ja) | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 | |
WO2019236745A1 (en) | Temporary account association with voice-enabled devices | |
US20230267923A1 (en) | Natural language processing apparatus and natural language processing method | |
US20230282212A1 (en) | User terminal, dialogue management system, control method of user terminal, and dialogue management method | |
CN115116442B (zh) | 语音交互方法和电子设备 | |
JP7274901B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP2006023444A (ja) | 音声対話装置 |