JP2020101778A

JP2020101778A - 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Info

Publication number: JP2020101778A
Application number: JP2018241824A
Authority: JP
Inventors: 豊吉濱; Yutaka Yoshihama; 芳澤　伸一; Shinichi Yoshizawa; 伸一芳澤
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2020-07-02

Abstract

【課題】使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供する。【解決手段】音声認識部３は、音声辞書４に基づいて、入力部２に入力された音声データの意味を認識する。判断部６は、音声認識部３が、入力部２に入力された第１音声データの意味を認識できなかった状態で、入力部２に入力された第２音声データの意味を認識できた場合に、第１音声データが第２音声データの言い換え語であるか否かを判断する。辞書更新部７は、判断部６が第１音声データが第２音声データの言い換え語であると判断すると、第１音声データと第２音声デ−タとが同じ意味に対応するように音声辞書を更新する。【選択図】図１

Description

本開示は、音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体に関する。より詳細には、本開示は、入力された音声を認識する音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体に関する。

特許文献１は、ユーザの音声データを音声認識する端末装置と、端末装置と通信しユーザの音声データを音声認識する音声認識サーバとを備える音声認識システムを開示する。

端末装置は、端末装置に設けられた音声認識辞書を参照して、その中に登録されている語句の中から、入力された音声に最も類似する語句あるいは複数の語句により表現される語句を推定する音声認識部を備える。音声認識サーバは、音声認識サーバに設けられた音声認識辞書を参照して、その中に登録されている語句の中から、入力された音声に最も類似する語句あるいは複数の語句により表現される語句を推定する音声認識部を備えている。特許文献１の音声認識システムでは、端末装置は、当該端末装置の音声認識部又は音声認識サーバの音声認識部で認識された結果を出力する。

端末装置が備える音声認識部は、当該端末装置の計算リソースの制約のため、音声認識サーバの音声認識部に比べて、認識できる語句が少ないが、端末装置は、音声認識サーバの音声認識部による認識結果を利用することで、音声の認識精度を向上させている。そのため、端末装置と音声認識サーバとの通信が不可能な状況になると、端末装置は、音声認識サーバの音声認識部による認識結果を利用できなくなり、音声の認識精度が低下する。したがって、特許文献１の音声認識システムでは、ユーザが使用する端末装置の音声認識辞書に、ユーザが使用する可能性のある語句を登録することで、音声認識サーバの音声認識部の認識結果を利用できない場合でも、音声の認識精度の向上を図っていた。

特開２０１８−１３２６２６号公報

しかしながら、特許文献１の音声認識システムでは、音声認識サーバの音声認識辞書に登録されている語句を、ユーザが使用する端末装置の音声認識辞書に登録するため、音声認識サーバの音声認識辞書にはない言葉は端末装置の音声認識辞書に登録できなかった。そのため、ユーザしか使用しないような語句を端末装置に入力した場合、端末装置の音声認識部でも音声認識サーバの音声認識部でも正しく認識されない可能性があった。

本開示の目的は、使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供することにある。

本開示の一態様の音声認識システムは移動体に用いられる。前記音声認識システムは、入力部と、音声認識部と、判断部と、辞書更新部と、を備える。前記入力部には、前記移動体に乗っているユーザの音声データが入力される。前記音声認識部は、音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、前記入力部に入力された音声データの意味を認識する。前記判断部は、前記音声認識部が、前記入力部に入力された第１音声データの意味を認識できなかった状態で、前記入力部に入力された第２音声データの意味を認識できた場合に、前記第１音声データが前記第２音声データの言い換え語であるか否かを判断する。前記辞書更新部は、前記判断部が前記第１音声データが前記第２音声データの言い換え語であると判断すると、前記第１音声データと前記第２音声デ−タとが同じ意味に対応するように前記音声辞書を更新する。

本開示の一態様の学習済みモデルの生成方法は、前記音声認識システムが備える前記判断部を実現するための学習済みモデルの生成方法である。

本開示の一態様の音声認識システムの制御方法は、音声認識処理と、判断処理と、辞書更新処理と、を含む。前記音声認識処理では、音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、移動体に乗っているユーザから入力された音声データの意味を認識する。前記判断処理では、前記ユーザから入力された第１音声データの意味を認識できなかった状態で、前記ユーザから入力された第２音声データの意味を認識できた場合に、前記第１音声データが前記第２音声データの言い換え語であるか否かを判断する。前記辞書更新処理では、前記判断処理で前記第１音声データが前記第２音声データの言い換え語であると判断すると、前記第１音声データと前記第２音声デ−タとが同じ意味に対応するように前記音声辞書を更新する。

本開示の一態様のプログラムは、コンピュータシステムに、音声認識処理と、判断処理と、辞書更新処理と、を実行させるためのプログラムである。前記音声認識処理では、音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、移動体に乗っているユーザから入力された音声データの意味を認識する。前記判断処理では、前記ユーザから入力された第１音声データの意味を認識できなかった状態で、前記ユーザから入力された第２音声データの意味を認識できた場合に、前記第１音声データが前記第２音声データの言い換え語であるか否かを判断する。前記辞書更新処理では、前記判断処理で前記第１音声データが前記第２音声データの言い換え語であると判断すると、前記第１音声データと前記第２音声デ−タとが同じ意味に対応するように前記音声辞書を更新する。

本開示の一態様の移動体は、移動する本体を備える。前記本体は、前記音声認識システムが備える前記入力部と前記音声認識部と前記判断部と前記辞書更新部とを搭載する。

本開示によれば、使用性の向上を図ることが可能な音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体を提供することができる。

図１は、本開示の一実施形態に係る音声認識システムのブロック図である。図２は、同上の音声認識システムが用いられる移動体の斜視図である。図３は、同上の音声認識システムの動作を説明するシーケンス図である。図４は、同上の音声認識システムの動作を説明するシーケンス図である。図５は、本開示の一実施形態の変形例２に係る音声認識システムの動作を説明するシーケンス図である。図６は、同上の音声認識システムの動作を説明するシーケンス図である。図７は、本開示の一実施形態の変形例３に係る音声認識システムの動作を説明するシーケンス図である。図８は、同上の音声認識システムの動作を説明するシーケンス図である。図９は、本開示の一実施形態の変形例４に係る音声認識システムのブロック図である。

以下に説明する実施形態は、本開示の種々の実施形態の一つに過ぎない。本開示の実施形態は、下記実施形態に限定されることはなく、この実施形態以外も含み得る。また、下記の実施形態は、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。

（実施形態）
（１）概要
図１は、本実施形態の音声認識システム１００のブロック図である。

本実施形態の音声認識システム１００は移動体２０（図２参照）に用いられる。音声認識システム１００は、入力部２と、音声認識部３と、判断部６と、辞書更新部７と、を備える。入力部２には、移動体２０に乗っているユーザの音声データが入力される。音声辞書４は、音声データと音声データの意味とを対応付けて記憶する。音声認識部３は、音声辞書４に基づいて入力部２に入力された音声データの意味を認識する。判断部６は、音声認識部３が、入力部２に入力された第１音声データの意味を認識できなかった状態で、入力部２に入力された第２音声データの意味を認識できた場合に、第１音声データが第２音声データの言い換え語であるか否かを判断する。辞書更新部７は、判断部６が第１音声データが第２音声データの言い換え語であると判断すると、第１音声データと第２音声デ−タとが同じ意味に対応するように音声辞書４を更新する。

本実施形態の音声認識システム１００は、移動体２０に設けられた移動体搭載機器１４のＨＭＩ（Human Machine Interface）として用いられる。移動体搭載機器１４は、例えば、移動体電話網を利用して通話を行うための携帯電話機能、ナビゲーションシステム、空調システム、オーディオシステム等である。

例えば、第２音声データと同じ意味の語句であり、かつ、音声辞書４に登録されていない第１音声データが入力部２に入力された場合、第１音声データは音声辞書４に登録されていないので、音声認識部３は第１音声データの意味を認識できない。この状態で、ユーザが、第１音声データと同じ意味の語句である第２音声データを発話し、音声認識部３が第２音声データの意味を認識できた場合、判断部６は、第１音声データが第２音声データの言い換え語であるか否かを判断する。そして、判断部６が、第１音声データが第２音声データの言い換え語であると判断すると、辞書更新部７が、第１音声データと第２音声デ−タとが同じ意味に対応するように音声辞書４を更新する。音声辞書４の更新後に、第２音声データの言い換え語である第１音声データが入力部２に再び入力された場合、音声辞書４には第１音声データとその意味とが対応付けて記憶されているので、音声認識部３は、第１音声データの意味を認識することができる。したがって、ユーザが第２音声データの言い換え語である第１音声データの語句を発話する場合でも、音声認識システム１００の音声認識部３が第１音声データの意味を認識できるようになり、使用性の向上を図ることが可能な音声認識システム１００を提供できる。

（２）詳細
（２．１）構成
本実施形態に係る音声認識システム１００は、例えば自動車のような移動体２０の本体２１に搭載される端末装置１と、サーバ５０とを含む。以下、端末装置１及びサーバ５０のそれぞれの構成を説明する。

（２．１．１）端末装置
端末装置１は、入力部２と、音声認識部３と、音声辞書４と、決定部５と、判断部６と、辞書更新部７と、出力処理部８と、機能部９と、音声出力部１０と、を備える。

端末装置１は、例えば、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、端末装置１の機能（例えば、音声認識部３、決定部５、判断部６、辞書更新部７、及び出力処理部８等の機能）が実現される。プログラムは、コンピュータシステムのメモリに予め記録されている。なお、プログラムは、電気通信回線を通じて提供されてもよいし、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。

入力部２には、移動体２０に乗っているユーザの音声データが入力される。移動体２０には、移動体２０に乗っているユーザの音声を電気信号である音声データに変換するマイク１１が配置されている。移動体２０に乗っているユーザが音声を発すると、マイク１１から入力部２に音声データが入力される。マイク１１から入力部２に入力された音声データは音声認識部３に入力される。また、マイク１１から入力部２に入力された音声データは、端末装置１の通信機能を介して、サーバ５０の音声認識部６０にも入力される。

音声辞書４は、端末装置１に備えられており、音素辞書４１と、意図理解辞書４２とを含む。音声辞書４は、例えば端末装置１のメモリに記憶されている。

音素辞書４１は、人が発する複数種類の語句のそれぞれについて、語句の単位での音の集まりである音響モデルと、音響モデルのテキストデータとを対応付けて記録する。ここで、音素辞書４１は、複数のユーザが共通して使用する語句の音響モデル（第２音声データ）とテキストデータとを記録した第１辞書４１１と、端末装置１のユーザが独自に使用する語句の音響モデル（第１音声データ）とテキストデータとを記録した第２辞書４１２とを含む。

意図理解辞書４２は、複数種類の語句のそれぞれについて、語句とその語句が示す意味とを対応付けて記憶する。ここで、意図理解辞書４２は、複数のユーザが共通して使用する語句の意味を記録した第１辞書４２１と、端末装置１のユーザが独自に使用する語句の意味を記録した第２辞書４２２とを含む。

換言すると、音声辞書４は共通辞書とユーザ辞書とを含む。共通辞書は、複数のユーザに共通する音声データと、複数のユーザに共通する音声データの意味とを対応付けて記憶する。ユーザ辞書は、第２音声データの言い換え語である第１音声データと、第１音声データの意味とを対応付けて記憶する。本実施形態では、共通辞書が、音素辞書４１に含まれる第１辞書４１１と、意図理解辞書４２に含まれる第１辞書４２１とを含み、ユーザ辞書が、音素辞書４１に含まれる第２辞書４１２と、意図理解辞書４２に含まれる第２辞書４２２とを含む。ここで、端末装置１のユーザが独自に使用する語句の音声データ（第１音声データ）はユーザ辞書に記憶される。

音声認識部３は、第１認識部３１と、第２認識部３２とを備える。

第１認識部３１は、入力部２から入力される音声データに対して音素解析等の処理を行う。第１認識部３１は、音素辞書４１に基づいて、入力部２から入力される音声データの特徴量と、音素辞書４１に登録された音響モデルとを比較することにより、音声データが対応する語句を認識する処理、すなわち音声データをテキストデータに変換する処理を行う。

第２認識部３２は、第１認識部３１の認識結果に対して自然言語理解（ＮＬＵ：Natural Language Understanding）処理を実行する。第２認識部３２は、第１認識部３１の認識結果と、意図理解辞書４２とに基づいて、第１認識部３１によって認識された語句の意味を認識する処理を行う。なお、本実施形態では音声認識部３が第１認識部３１と第２認識部３２とで構成されているが、音声認識部３の構成は一例であり、適宜変更が可能である。

決定部５には、端末装置１の音声認識部３による認識結果（第１認識部３１によって認識されたテキストデータ、及び、第２認識部３２によって認識されたユーザの意図）が入力される。また、決定部５には、サーバ５０の音声認識部６０による音声認識結果（第１認識部６１によって認識されたテキストデータ、及び、第２認識部６２によって認識されたユーザの意図）が、端末装置１の通信機能を介して入力される。決定部５は、端末装置１の音声認識部３による認識結果と、サーバ５０の音声認識部６０による認識結果とに基づいて、入力部２に入力された音声データの意味（つまり、ユーザが意図する内容）を決定する。なお、決定部５には、音声認識部３の第２認識部３２を介して第１認識部３１の認識結果が入力されているが、第１認識部３１の認識結果が直接入力されてもよい。また、決定部５には、サーバ５０が備える音声認識部６０の第２認識部６２を介して第１認識部６１の認識結果が入力されているが、第１認識部６１の認識結果が直接入力されてもよい。

ここで、端末装置１のメモリは、サーバ５０の記憶装置に比べて記憶容量が小さいため、端末装置１に設けられた音声辞書４は、サーバ５０に設けられたサーバ側音声辞書７０に比べて記憶している語句の数が少なくなる。そのため、端末装置１の音声認識部３は、サーバ５０の音声認識部６０に比べて認識可能な語句の数が少なくなる。本実施形態では、決定部５が、音声認識部３の認識結果と、サーバ５０の音声認識部６０の認識結果とに基づいて、入力部２に入力された音声データの意味を決定しており、サーバ５０の音声認識部６０の認識結果を利用することで認識率を向上させることができる。なお、端末装置１とサーバ５０との間の通信が不能になる等の理由で、決定部５にサーバ５０の音声認識部６０による認識結果が入力されなかった場合、決定部５は、音声認識部３の認識結果に基づいて、入力部２に入力された音声データの意味を決定する。

判断部６は、音声認識部３が入力部２に入力された音声データの意味を認識できなかった場合、入力部２に入力された音声データが、音声辞書４に登録されている別の音声データの言い換え語であるか否かを判断する。すなわち、音声認識部３が、入力部２に１回目に入力された第１音声データの意味を認識できなかった状態で、入力部２に２回目に入力された第２音声データの意味を認識できた場合に、第１音声データが第２音声データの言い換え語であるか否かを判断する。

例えば、判断部６は、第１音声データ及び第２音声データがそれぞれ入力されるタイミングに基づいて、第１音声データが第２音声データの言い換え語であるか否かを判断する。判断部６は、音声認識部３が意味を認識できなかった第１音声データが入力部２に入力された第１時点から、音声認識部３が意味を認識できた第２音声データが入力部２に入力される第２時点までの経過時間が所定の基準時間以下であれば、第１音声データが第２音声データの言い換え語であると判断する。判断部６は、第１時点から第２時点までの経過時間が基準時間を超えると、第１音声データが第２音声データの言い換え語ではない、つまり別の内容についてユーザが話した音声データが入力されたと判断する。ここで、上記の基準時間は、言い換え語（第１音声データ）を、一般的な語句（第２音声データ）に言い換えて話していると推定できる時間、つまりユーザが同じ内容について話していると推定できる時間の最大値であり、例えば１０秒程度の時間である。

辞書更新部７は、第１音声データが第２音声データの言い換え語であると判断部６が判断すると、第１音声データと第２音声データとが同じ意味に対応するように音声辞書４の内容を更新する。すなわち、辞書更新部７は、第１音声データのテキストデータを音素辞書４１の第２辞書４１２に記憶させ、第１音声データの意味を意図理解辞書４２の第２辞書４２２に記憶させる。なお、本実施形態では第１辞書４１１，４２１（共通辞書）の更新処理と、辞書更新部７による第２辞書４１２，４２２（ユーザ辞書）の更新処理とが別々に行われる。共通辞書である第１辞書４１１，４２１は例えばサーバ５０から端末装置１に送信される更新情報にしたがって更新される。一方、ユーザ辞書である第２辞書４１２，４２２は、例えば判断部６が第１音声データを第２音声データの言い換え語と判断したタイミングで辞書更新部７によって更新される。したがって、本実施形態の音声認識システム１００は、共通辞書とユーザ辞書とをそれぞれ適切なタイミングで更新することができる。

出力処理部８は、決定部５によって決定されたユーザの意図の内容、又は、タッチパネル１３から入力される操作情報に従って、出力処理を行う。出力処理部８による制御処理としては、移動体搭載機器１４を制御する制御命令を機能部９に出力する処理、スピーカ１２から音声メッセージを出力させるための出力命令を音声出力部１０に出力する処理を含む。ここで、タッチパネル１３は、移動体２０に乗っているユーザが操作可能な位置（例えば移動体２０が自動車である場合はダッシュボード等）に取り付けられている。タッチパネル１３は、ユーザによるタッチ操作を検出し、タッチ操作に応じた操作情報を出力処理部８に出力する。

機能部９は、出力処理部８から入力される制御命令に従って、移動体２０に設けられた移動体搭載機器１４を制御する。

音声出力部１０は、出力処理部８から入力される出力命令に従って音声合成を行い、スピーカ１２から音声メッセージを出力させる。

なお、本実施形態の音声認識システム１００（端末装置１）は、音声認識システム１００とユーザとの間で情報を入出力するためのインターフェース部１５を更に備えている。ここにおいて、インターフェース部１５は、ユーザと音声対話を行う音声対話部を含み、ユーザとの間で音声で情報を入出力する。音声対話部は、マイク１１から入力される音声データを認識する音声認識部３、スピーカ１２から音声を出力させる音声出力部１０、出力処理部８、及び音声出力部１０等から構成される。したがって、端末装置１は、インターフェース部１５を用い、ユーザとの間で音声で情報をやりとりできる。なお、インターフェース部１５は、音声で情報をやりとりするものに限定されず、情報の表示機能と情報の入力機能を備えたタッチパネル１３等で構成されてもよい。

本実施形態の端末装置１は移動体２０に搭載されている。すなわち、移動体２０は、移動する本体２１を備え、本体２１は、音声認識システム１００が備える入力部２と音声認識部３と判断部６と辞書更新部７とを搭載する。

（２．１．２）サーバ
サーバ５０は、音声認識部６０と、サーバ側音声辞書７０（以下では、単に音声辞書７０という場合もある）とを含む。

サーバ５０は、例えば、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、サーバ５０の機能（例えば、音声認識部６０等の機能）が実現される。プログラムは、コンピュータシステムのメモリに予め記録されている。なお、プログラムは、電気通信回線を通じて提供されてもよいし、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。

また、サーバ５０は移動体２０に搭載された端末装置１と通信する通信機能を有している。サーバ５０の通信機能は、例えば移動体通信網を介して端末装置１と通信する。

サーバ側音声辞書７０は、音素辞書７１と、意図理解辞書７２とを含む。サーバ側音声辞書７０は、例えばサーバ５０が備える記憶装置に記憶されている。

音素辞書７１は、人が発する複数種類の語句のそれぞれについて、語句の単位での音の集まりである音響モデルと、音響モデルのテキストデータとを対応付けて記録する。

意図理解辞書７２は、複数種類の語句のそれぞれについて、語句とその語句が示す意味とを対応付けて記憶する。

サーバ側音声辞書７０は、音素辞書７１と意図理解辞書７２とを備えており、語句の単位での音声デ−タと、音声データの意味とを対応付けて記憶する。

音声認識部６０は、第１認識部６１と、第２認識部６２とを含む。

第１認識部６１は、音素辞書７１に基づいて、端末装置１から入力された音声データの特徴量と、音素辞書７１に記録された音響モデルとを比較することで、音声データが対応する語句を認識する処理、すなわち、音声データからテキストデータへの変換処理を行う。

第２認識部６２は、第１認識部６１の認識結果と、意図理解辞書７２とに基づいて、第１認識部６１によって認識された語句の意味を認識する処理を行う。

すなわち、サーバ５０の音声認識部６０は、サーバ側音声辞書７０に基づいて、端末装置１の入力部２に入力された音声データの意味、つまり音声を発したユーザが意図する内容を認識する。なお、音声認識部６０の構成は一例であり、適宜変更が可能である。

（２．２）動作
本実施形態の端末装置１及びサーバ５０の動作を図３のシーケンス図に基づいて説明する。

移動体２０に乗っているユーザが音声を発すると、マイク１１から入力部２を介して音声認識部３の第１認識部３１に音声データが入力される（Ｓ１）。このとき、入力部２から端末装置１の通信機能を介してサーバ５０の音声認識部６０（第１認識部６１）に音声データが入力される（Ｓ２）。

入力部２から音声認識部３の第１認識部３１に音声データが入力されると、第１認識部３１は、音素辞書４１に基づいて音声データをテキストデータに変換する処理を行い、認識結果のテキストデータを第２認識部３２に出力する（Ｓ３）。第１認識部３１から第２認識部３２に認識結果が入力されると、第２認識部３２は、意図理解辞書４２に基づいて第１認識部３１が認識した語句の意味（ユーザの意図）を認識する処理を行い、認識結果を決定部５に出力する（Ｓ４）。

また、端末装置１からサーバ５０の音声認識部６０（第１認識部６１）に音声データが入力されると、第１認識部６１が、音素辞書７１に基づいて音声データをテキストデータに変換する処理を行い、認識結果のテキストデータを第２認識部６２に出力する（Ｓ５）。第１認識部６１から第２認識部６２に認識結果が入力されると、第２認識部６２は、意図理解辞書７２に基づいて第１認識部６１が認識した語句の意味を認識する処理を行い、認識結果を端末装置１の決定部５に出力する（Ｓ６）。

決定部５は、音声認識部３及びサーバ５０の音声認識部６０から音声データの認識結果が入力されると、音声認識部３の認識結果と、サーバ５０の音声認識部６０での認識結果とに基づいて、音声データの意味を決定する。

ここで、ユーザが話した語句が端末装置１の音声辞書４及びサーバ５０の意図理解辞書７２のいずれかに既に登録されていれば、端末装置１の音声認識部３及びサーバ５０の音声認識部６０のいずれかで音声データの意味が正しく認識される。したがって、決定部５は、音声認識部３の認識結果と、サーバ５０の音声認識部６０での認識結果とに基づいて、音声データの意味を決定し、音声データの意味（つまり、ユーザの意図）に応じた出力処理（例えば移動体搭載機器１４を制御する処理）を行う。

一方、ユーザが、音声辞書４及び意図理解辞書７２に未登録の語句であって、音声辞書４又は意図理解辞書７２に登録済みの語句の言い換え語を話した場合、音声認識部３及び第２認識部６２は、入力された音声データの意味を認識できない。例えば、音声辞書４及び意図理解辞書７２に、「山田」という人名は登録されているが、ユーザが「山田」さんの愛称として使用する「ヤマピー」は未登録の場合、音声認識部３及び第２認識部６２はユーザが発話した「ヤマピー」という語句の意味を認識できない。この場合、決定部５には、音声認識部３及びサーバ５０の音声認識部６０から音声データの認識に失敗したことを示す認識結果が入力される。決定部５は、音声データの認識に失敗したことを示す情報を出力処理部８、辞書更新部７及び判断部６に出力する（Ｓ７〜Ｓ９）。このとき、決定部５は、音声認識部３が備える第１認識部３１及び第２認識部３２の認識結果と、サーバ５０の音声認識部６０が備える第１認識部６１及び第２認識部６２の認識結果とを、辞書更新部７及び判断部６に出力する（Ｓ８〜Ｓ９）。なお、ステップＳ８〜Ｓ９において、サーバ５０の第２認識部６２が、第１認識部６１及び第２認識部６２の認識結果を、辞書更新部７と判断部６とにそれぞれ出力してもよい。また、音声認識部３の第２認識部３２が、第１認識部３１及び第２認識部３２の認識結果を、辞書更新部７と判断部６とにそれぞれ出力してもよい。

この場合、出力処理部８は、音声データの再入力をユーザに促す音声メッセージ（例えば「もう一度お願いします」等）をスピーカ１２から出力させる出力命令を音声出力部１０に出力し、スピーカ１２から音声メッセージを出力させる処理を行う（Ｓ１０）。

音声データの再入力を促す音声メッセージを聞いたユーザは、言い換え語では認識されなかったと判断し、言い換え語ではない一般的な語句（例えば「山田」という人名）で話す。ユーザが言い換え語ではない一般的な語句で話すと、マイク１１から入力部２を介して音声認識部３に第２音声データが入力される（Ｓ１１）。また、入力部２から端末装置１の通信機能を介してサーバ５０の音声認識部６０（第１認識部６１）に第２音声データが入力される（Ｓ１２）。

入力部２から音声認識部３の第１認識部３１に第２音声データが入力されると、第１認識部３１は、音素辞書４１に基づいて第２音声データをテキストデータに変換する処理を行い、認識結果を第２認識部３２に出力する（Ｓ１３）。第１認識部３１から第２認識部３２に認識結果が入力されると、第２認識部３２は、意図理解辞書４２に基づいて第１認識部３１が認識した語句の意味を認識する処理を行う。第２認識部３２は、第１認識部３１及び第２認識部３２の認識結果を決定部５に出力する（Ｓ１４）。

また、端末装置１からサーバ５０の音声認識部６０に第２音声データが入力されると、音声認識部６０の第１認識部６１が、音素辞書７１に基づいて第２音声データをテキストデータに変換する処理を行い、認識結果を第２認識部６２に出力する（Ｓ１５）。第１認識部６１から第２認識部６２に認識結果が入力されると、第２認識部６２は、意図理解辞書７２に基づいて第１認識部６１が認識した語句の意味を認識する処理を行う。第２認識部６２は、第１認識部６１及び第２認識部６２の認識結果を端末装置１の決定部５に出力する（Ｓ１６）。

決定部５は、音声認識部３及びサーバ５０の音声認識部６０から音声データの認識結果が入力されると、音声認識部３の認識結果と、サーバ５０の音声認識部６０での認識結果とに基づいて、音声データの意味（つまり、ユーザの意図）を決定する。ここでは、ユーザが一般的な語句で話しているので、音声認識部３又は音声認識部６０は、入力部２から入力される第２音声データを正しく認識できる。決定部５は、音声認識部３の認識結果と、サーバ５０の音声認識部６０での認識結果とに基づいて、ユーザが発した第２音声データの意味を決定し、第２音声データの意味を示す情報を判断部６、辞書更新部７及び出力処理部８に出力する（Ｓ１７〜Ｓ１９）。このとき、決定部５は、音声認識部３が備える第１認識部３１及び第２認識部３２の認識結果と、サーバ５０の音声認識部６０が備える第１認識部６１及び第２認識部６２の認識結果とを、辞書更新部７及び判断部６に出力する（Ｓ１８〜Ｓ１９）。

ここで、判断部６は、第１音声データの意味を認識できなかった状態で、第２音声データの意味を認識できた場合、第１音声データが第２音声データの言い換え語であるか否かを判断する。本実施形態では、判断部６は、第１音声データが入力された第１時点から第２音声データが入力された第２時点までの経過時間に基づいて、第１音声データが第２音声データの言い換え語であるか否かを判断する。ここでは、経過時間が基準時間以下となるので、判断部６は、第１音声データが第２音声データの言い換え語であると判断し、辞書更新部７に更新命令を出力する（Ｓ２０）。辞書更新部７は、判断部６から更新命令が入力されると、端末装置１の音声辞書４に言い換え語である第１音声データのテキストデータと、当該テキストデータの意味を登録する。すなわち、辞書更新部７は、音素辞書４１の第２辞書４１２（ユーザ辞書）に第１音声デ−タのテキストデータ（例えばサーバ５０の第１認識部６１による認識結果）を登録する。また、辞書更新部７は、意図理解辞書４２の第２辞書４２２（ユーザ辞書）を、第１音声データのテキストデータの意味が第２音声データと同じ意味になるように、第１音声データのテキストデータの意味として端末装置１の第２認識部３２の認識結果を登録する。したがって、その後、ユーザが第１音声データを発話した場合、サーバ５０の音声認識部６０では第１音声データの意味を認識できないが、端末装置１の音声認識部３では第１音声データの意味を認識できるようになる。よって、ユーザが一般的な語句ではない第１音声データを使った場合でも、端末装置１は、第１音声データの意味を認識できるので、音声認識システム１００の使用性が向上する。端末装置１を使用するユーザの独特の言い回しである言い換え語は、端末装置１の音声辞書４に登録され、サーバ５０の音声辞書７０には登録されない。したがって、サーバ５０の音声認識部６０の認識結果として、一般的に使用されないような独特の言い換え語が出力される可能性を低減できる。

また、出力処理部８は、決定部５から第２音声データの認識結果が入力されると、第２音声データの認識結果に応じた出力処理を行う（Ｓ２１）。例えば、第２音声データを含む発話文が「山田さんに電話して」であれば、出力処理部８は、「山田さんに電話をかけます」等の音声メッセージをスピーカ１２から出力させる出力命令を音声出力部１０に出力し、スピーカ１２から音声メッセージを出力させる。また、出力処理部８は、機能部９に、山田さんに電話をかけるための制御命令を出力する。機能部９は、出力処理部８から制御命令が入力されると、移動体搭載機器１４である携帯電話機能を制御して、山田さんに電話をかける処理を行わせる。

なお、図３で説明した端末装置１及びサーバ５０の動作において一部の処理の順番が適宜変更されてもよい。

本実施形態の端末装置１及びサーバ５０は以上のような動作を行うのであるが、以下では、ユーザと端末装置１との間での音声対話に着目して音声認識システム１００の動作を説明する。

ここでは、ユーザが「山田」さんの愛称である「ヤマピー」との語句を使って山田さんに電話をかけるように端末装置１に指示する場合に、ユーザと端末装置１との間で行われる音声対話について図４を参照して説明する。なお、「山田」との語句は音声辞書４，７０に登録済みであるが、「ヤマピー」（第１音声データ）との語句は音声辞書４，７０に未登録であるものとする。

ユーザが「ヤマピーに電話して」と発話した場合（Ｓ３１）、「ヤマピー」の語句は音声辞書４，７０に未登録であるので、音声認識部３，６０は「ヤマピーに電話して」の意味を認識できない。そのため、端末装置１は、音声データの再入力を促すために「もう一度お願いします」との音声メッセージをスピーカ１２から出力させる（Ｓ３２）。

ユーザは、発話後に「もう一度お願いします」との音声メッセージを聞くと、「ヤマピーに電話して」との言い方では認識されなかったと判断し、愛称を使わず、「山田さんに電話して」と発話する（Ｓ３３）。ユーザが一般的な語句で発話したので、端末装置１の音声認識部３又はサーバ５０の音声認識部６０はステップＳ３３でのユーザの発話文の意味を認識でき、決定部５は、ステップＳ３３でのユーザの発話文の正しい認識結果を得ることができる。このとき、端末装置１の出力処理部８は、「山田さんに電話をかけます」との音声メッセージをスピーカ１２から出力させた後（Ｓ３４）、機能部９を制御して移動体搭載機器１４の携帯電話機能により山田さんに電話をかけさせる。また、判断部６は、第１音声データが入力される第１時点から第２音声データが入力される第２時点までの経過時間が基準時間以下であることから、第１音声データが第２音声データの言い換え語であると判断する。判断部６が第１音声データが第２音声データの言い換え語であると判断すると、辞書更新部７は、第１音声データのテキストデータの意味が第２音声データの意味と同じになるように、端末装置１の音声辞書４を更新する（Ｓ３５）。すなわち、辞書更新部７は、図３のステップＳ８で決定部５を介して入力された、第１認識部６１による第１音声データの認識結果（テキストデータ）と、第２認識部３２による第２音声データの認識結果（第２音声データの意味）とに基づいて音声辞書４を更新する。

これにより、その後、ユーザが「ヤマピーに電話して」と発話した場合（Ｓ３６）、ステップＳ３５で「ヤマピー」というテキストデータとその意味が音声辞書４に登録されたので、端末装置１の音声認識部３は「ヤマピーに電話して」の意味を認識することができる。したがって、端末装置１の出力処理部８は、「山田さんに電話をかけます」との音声メッセージをスピーカ１２から出力させた後（Ｓ３７）、機能部９を制御して移動体搭載機器１４の携帯電話機能により山田さんに電話をかけさせる。

なお、図４を参照して説明した音声認識システム１００の動作は一例であり、処理の順番は適宜変更が可能である。

また、辞書更新部７が、第２音声データの言い換え語である第１音声データを音声辞書４に登録する場合、第１音声データに、言い換え語であることを示すフラグを対応付けて記憶させてもよい。この場合、音声認識部３は、入力部２に言い換え語である第１音声データが入力された場合、第１音声データの認識結果に言い換え語であることを示すフラグを付けて決定部５に出力することができる。決定部５は、通常は、音声認識部３の認識結果よりも、認識精度が高いサーバ５０の音声認識部６０による認識結果を優先するが、音声認識部３から入力された認識結果に、言い換え語であることを示すフラグが付けられている場合、音声認識部３の認識結果を優先する。すなわち、決定部５は、辞書更新部７が音声辞書４を更新した後に入力部２に第１音声データが入力された場合、サーバ５０の音声認識部６０による認識結果よりも、音声認識部３の認識結果を優先して、第１音声データの意味を決定する。端末装置１のユーザが独自に使用する第１音声データはサーバ５０の音声認識部６０では正しく認識されない可能性が高く、決定部５が、音声認識部３の認識結果を優先して採用することで、言い換え語である第１音声データの認識率を向上させることができる。

また、本実施形態の音声認識システム１００では、音声認識部３が入力部２に入力された第１音声データの意味を認識できなかった場合に、出力処理部８が、音声データの再入力をユーザに促す情報を出力している。

ここで、上記の実施形態では、「もう一度お願いします」との音声メッセージを出力することで、ユーザに音声データの再入力を促しているが、再入力を促すための情報は適宜変更が可能である。端末装置１は、認識できなかった単語（言い換え語）をユーザに直接質問するような音声メッセージ（例えば、「ヤマピーは誰ですか」等）を出力してもよい。また、音声辞書４に、ユーザが電話をかけたことがある人名として、「ヤマピー」に類似した「山田」と「山根」とが登録されている場合、端末装置１は、「山田さんですか、山根さんですか」という音声メッセージを出力してもよい。これにより、ユーザは、第２音声データの言い換え語である第１音声データでは認識されなかったと判断でき、一般的な語句である第２音声データをユーザに発話させることができる。

なお、上記の説明では言い換え語が人の愛称である場合を例に説明したが、第２音声データの言い換え語である第１音声データは人の愛称に限定されない。例えば、第１音声データは、端末装置１のユーザやその家族のみで通じる地名、場所等に関する語句（例えば、子供の学校、親が働いている場所、又は祖父母の家、等）でもよい。

また、第１音声データは、移動体２０を操作する操作方法の言い換え語でもよい。例えば、タッチパネル１３に表示された地図等を拡大する操作に関する言い換え語（「地図を大きく」）でもよいし、ＩＣＣ（In Car Communication）、ＡＣＣ（Adaptive Cruise Control）等の機能を有効にするために使用する音声命令の言い換え語でもよい。なお、辞書更新部７が移動体２０を操作する操作方法の言い換え語を音声辞書４に登録する場合の条件は、操作方法以外の言い換え語を音声辞書４に登録する場合の条件に比べてより厳しい条件とするのが好ましい。これにより、移動体２０の操作方法の言い換え語が音声辞書４に安易に登録されにくくなるので、意図しない発話で移動体２０が操作される可能性を低減できる。

また、第１音声データは、端末装置１のユーザが、移動体２０の操作方法を知りたい場合に使用する言葉等でもよい。

（３）変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、音声認識システム１００と同様の機能は、音声認識システム１００の制御方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る音声認識システム１００の制御方法は、音声認識処理と、判断処理と、辞書更新処理と、を含む。音声辞書４は、音声データと音声データの意味とを対応付けて記憶する。音声認識処理では、音声辞書４に基づいて、移動体２０に乗っているユーザから入力された音声データの意味を認識する。判断処理では、ユーザから入力された第１音声データの意味を認識できなかった状態で、ユーザから入力された第２音声データの意味を認識できた場合に、第１音声データが第２音声データの言い換え語であるか否かを判断する。辞書更新処理では、判断処理で第１音声データが第２音声データの言い換え語であると判断すると、第１音声データと第２音声デ−タとが同じ意味に対応するように音声辞書４を更新する。
一態様に係る（コンピュータ）プログラムは、コンピュータシステムに、音声認識処理と、判断処理と、辞書更新処理とを実行させるためのプログラムである。

以下、上記の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。なお、以下では、上記実施形態を「基本例」と呼ぶこともある。

本開示における音声認識システム１００は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における音声認識システム１００としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路（ＩＣ）又は大規模集積回路（ＬＳＩ）を含む１ないし複数の電子回路で構成される。ここでいうＩＣ又はＬＳＩ等の集積回路は、集積の度合いによって呼び方が異なっており、システムＬＳＩ、ＶＬＳＩ（Very Large Scale Integration）、又はＵＬＳＩ（Ultra Large Scale Integration）と呼ばれる集積回路を含む。さらに、ＬＳＩの製造後にプログラムされる、ＦＰＧＡ（Field-Programmable Gate Array）、又はＬＳＩ内部の接合関係の再構成若しくはＬＳＩ内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、１つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、１つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、１以上のプロセッサ及び１以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む１ないし複数の電子回路で構成される。

また、音声認識システム１００において端末装置１が備える複数の構成要素が、１つの筐体内に集約されていることは音声認識システム１００に必須の構成ではなく、端末装置１が備える複数の構成要素は、複数の筐体に分散して設けられていてもよい。また、サーバ５０が備える複数の構成要素が、１つの筐体内に集約されていることは音声認識システム１００に必須の構成ではなく、サーバ５０が備える複数の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、端末装置１又はサーバ５０の少なくとも一部の機能、例えば、音声認識部３，６０の機能がクラウド（クラウドコンピューティング）等によって実現されてもよい。

上記の基本例では、音声認識システム１００が、移動体２０に乗っているユーザと音声で対話する機能を有しているが、ユーザと音声で対話する機能は必須ではない。音声認識システム１００は、ユーザが発した音声を認識する機能を少なくとも備えていればよく、音声の認識結果に対応した処理を行えばよい。ここにおいて、音声の認識結果に対応した処理とは、例えば、認識結果に基づいた応答内容をタッチパネル１３に出力する処理、又は認識結果に基づいて移動体搭載機器１４を制御する処理等である。

また、上記の基本例において、音声の特徴量等の２値の比較において、「超える」としているところは「以上」であってもよい。つまり、２値の比較において、２値が等しい場合を含むか否かは、基準値等の設定次第で任意に変更できるので、「超える」か「以上」かに技術上の差異はない。同様に、「以下」としているところは「未満」であってもよい。

（３．１）変形例１
変形例１の音声認識システム１００は、判断部６による判定方法で上記の基本例と相違する。なお、判断部６以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。

上記の基本例では、判断部６は、第１音声データ及び第２音声データがそれぞれ入力されるタイミングに基づいて、第１音声データが第２音声データの言い換え語であるか否かを判断する。ここで、第１音声データ及び第２音声データがそれぞれ入力されるタイミングに基づく判定方法を第１判定方法という。

一方、変形例１の判断部６では、第１音声データを含む第１文と、第２音声データを含む第２文との内容の類似度に基づいて、第１音声データが第２音声データの言い換え語であるか否かを判断する。すなわち、判断部６は、第１音声データを含む第１文及び第２音声データを含む第２文にそれぞれ形態素解析処理を施し、第１文及び第２文をそれぞれベクトル化した後、両者のコサイン類似度を求める。そして、判断部６は、コサイン類似度の演算結果が所定の第１閾値以上であれば、第１音声データが第２音声データの言い換え語であると判断し、コサイン類似度の演算結果が第１閾値未満であれば、第１音声データが第２音声データの言い換え語ではないと判断する。ここで、第１音声データを含む第１文と、第２音声データを含む第２文との内容の類似度に基づく判定方法を第２判定方法ともいう。

なお、判断部６は、意味を認識できた第２音声データを構成する複数の単語の順番を入れ替えたり一部の単語を省略したりして作った語句と、第１音声データとの類似度に基づいて第１音声データが第２音声データの言い換え語であるか否かを判断してもよい。判断部６は、一致度が所定の第２閾値以上であれば、第１音声データが第２音声データの言い換え語であると判断し、一致度が第２閾値未満であれば、第１音声データが第２音声データの言い換え語ではないと判断する。ここで、意味を認識できた第２音声データを構成する複数の単語の順番を入れ替えたり一部の単語を省略したりして作った語句と、第１音声データとの類似度に基づく判定方法を第３判定方法ともいう。

また、判断部６は、上記の第１判定方法と、第２判定方法と、第３判定方法のうち２つ以上の判定方法を組み合わせて、第１音声データが第２音声データの言い換え語であるか否かを判断してもよい。

（３．２）変形例２
変形例２の音声認識システム１００は、判断部６が第１音声データを第２音声データの言い換え語であると判断した場合に、辞書更新部７が音声辞書４を更新する更新処理の内容で上記の基本例と相違する。なお、辞書更新部７による音声辞書４の更新処理以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。

変形例２の音声認識システム１００では、辞書更新部７が音声辞書４を更新する前に、出力処理部８が、音声辞書４の更新の可否をユーザに確認するための音声メッセージを出力させる出力命令を音声出力部１０に出力する。音声出力部１０は、出力処理部８から出力命令が入力されると、音声合成を行い、スピーカ１２から音声メッセージを出力させる。音声メッセージは、音声辞書４の更新の可否を直接問うような音声メッセージでもよいし、第１音声データが第２音声データであると確認するような音声メッセージでもよい。そして、出力処理部８がスピーカ１２から音声メッセージを出力させた後に、ユーザが、了解の意味の言葉を発すると、端末装置１の辞書更新部７が音声辞書４を更新するので、ユーザの意図を確認した上で辞書更新部７を更新できる。

ここで、ユーザと端末装置１との間での音声対話に着目して音声認識システム１００の動作を説明する。ここでは、ユーザが「山田」さんの愛称である「ヤマピー」との語句を使って山田さんに電話をかけるように端末装置１に指示する場合に、ユーザと端末装置１との間で行われる音声対話について図５を参照して説明する。なお、「山田」との語句は音声辞書４，７０に登録済みであるが、「ヤマピー」（第１音声データ）との語句は音声辞書４，７０に未登録であるものとする。

ユーザが「ヤマピーに電話して」と発話した場合（Ｓ４１）、「ヤマピー」の語句は音声辞書４，７０に未登録であるので、音声認識部３，６０は「ヤマピーに電話して」の意味を認識できない。そのため、端末装置１は、音声データの再入力を促すために「もう一度お願いします」との音声メッセージをスピーカ１２から出力させる（Ｓ４２）。

ユーザは、発話後に「もう一度お願いします」との音声メッセージを聞くと、「ヤマピーに電話して」との言い方では認識されなかったと判断し、愛称を使わず、「山田さんに電話して」と発話する（Ｓ４３）。ユーザが一般的な語句で発話したので、端末装置１の音声認識部３又はサーバ５０の音声認識部６０はステップＳ４３でのユーザの発話文の意味を認識でき、決定部５は、ステップＳ４３でのユーザの発話文の正しい認識結果を得ることができる。このとき、判断部６は、第１音声データが入力される第１時点から第２音声データが入力される第２時点までの経過時間が基準時間以下であることから、第１音声データが第２音声データの言い換え語であると判断する。判断部６の判断結果が出力処理部８に入力されると、出力処理部８は、音声辞書４の更新の可否をユーザに確認するために、例えば「ヤマピーは山田さんのことですか」との音声メッセージ（確認情報）を出力させる出力命令を音声出力部１０に出力する。音声出力部１０は、出力処理部８から出力命令が入力されると、音声合成を行って、「ヤマピーは山田さんのことですか」との音声メッセージをスピーカ１２から出力させる（Ｓ４４）。

ユーザは、「ヤマピーは山田さんのことですか」との音声メッセージを聞くと、「ヤマピー」は「山田」さんの意味であるので、了承の言葉（例えば「Ｙｅｓ」）と発話する（Ｓ４５）。ステップＳ４５での了承の言葉が端末装置１の音声認識部３又はサーバ５０の音声認識部６０で認識されると、端末装置１の判断部６は、音声辞書４の更新を許可する許可情報を受け付けたと判断し、辞書更新部７に更新命令を出力する（Ｓ４６）。辞書更新部７は、判断部６から更新命令が入力されると、端末装置１の音声辞書４に言い換え語である第１音声データのテキストデータとその意味を登録する。辞書更新部７による音声辞書４の更新処理は上記の基本例と同様であるので、その説明は省略する。

また、端末装置１の出力処理部８は、ユーザからの許可情報を受け付けると、例えば「登録を行いました」、「山田さんに電話をかけます」との音声メッセージをスピーカ１２から出力させる（Ｓ４７，Ｓ４８）。そして、出力処理部８は、機能部９を制御して移動体搭載機器１４の携帯電話機能により山田さんに電話をかけさせる。

その後、ユーザが「ヤマピーに電話して」と発話した場合（Ｓ４９）、ステップＳ４６で「ヤマピー」というテキストデータとその意味が音声辞書４に登録されたので、端末装置１の音声認識部３は「ヤマピーに電話して」の意味を認識することができる。したがって、端末装置１の出力処理部８は、「山田さんに電話をかけます」との音声メッセージをスピーカ１２から出力させた後（Ｓ５０）、機能部９を制御して移動体搭載機器１４の携帯電話機能により山田さんに電話をかけさせる。

以上のように、変形例２ではインターフェース部１５は、辞書更新部７が音声辞書４を更新する前に、音声辞書４の更新の可否をユーザに確認するための確認情報を出力する。辞書更新部７は、インターフェース部１５が確認情報を出力した後に音声辞書４の更新を許可する許可情報を受け付けた場合、音声辞書４を更新する。

なお、図５を参照して説明した音声認識システム１００の動作は一例であり、処理の順番は適宜変更が可能である。

また、図５に示した音声対話の例では、インターフェース部１５は、第１音声データが第２音声データの言い換え語であると判断部６が判断したタイミングで、確認情報を出力しているが、確認情報を出力するタイミングは上記の例に限定されない。

例えば、インターフェース部１５は、入力部２に第１音声データが再び入力されたタイミングで、確認情報を出力してもよい。

ここで、ユーザと端末装置１との間での音声対話に着目して音声認識システム１００の動作を説明する。ここでは、ユーザが「山田」さんの愛称である「ヤマピー」との語句を使って山田さんに電話をかけるように端末装置１に指示する場合に、ユーザと端末装置１との間で行われる音声対話について図６を参照して説明する。なお、「山田」との語句は音声辞書４，７０に登録済みであるが、「ヤマピー」（第１音声データ）との語句は音声辞書４，７０に未登録であるものとする。

ユーザが「ヤマピーに電話して」と発話した場合（Ｓ５１）、「ヤマピー」の語句は音声辞書４，７０に未登録であるので、音声認識部３，６０は「ヤマピーに電話して」の意味を認識できない。そのため、端末装置１は、音声データの再入力を促すために「もう一度お願いします」との音声メッセージをスピーカ１２から出力させる（Ｓ５２）。

ユーザは、発話後に「もう一度お願いします」との音声メッセージを聞くと、「ヤマピーに電話して」との言い方では認識されなかったと判断し、愛称を使わず、「山田さんに電話して」と発話する（Ｓ５３）。ユーザが一般的な語句で発話したので、端末装置１の音声認識部３又はサーバ５０の音声認識部６０はステップＳ４３でのユーザの発話文の意味を認識でき、決定部５は、ステップＳ４３でのユーザの発話文の正しい認識結果を得ることができる。このとき、判断部６は、第１音声データが入力される第１時点から第２音声データが入力される第２時点までの経過時間が基準時間以下であることから、第１音声データが第２音声データの言い換え語であると判断する。また、判断部６の判断結果が出力処理部８に入力されると、出力処理部８は、例えば「山田さんに電話をかけます」との音声メッセージをスピーカ１２から出力させる（Ｓ５４）。そして、出力処理部８は、機能部９を制御して移動体搭載機器１４の携帯電話機能により山田さんに電話をかけさせる。また、辞書更新部７は、判断部６の判断結果に基づいて、端末装置１の音声辞書４に言い換え語である第１音声データのテキストデータとその意味を仮登録する。

その後、ユーザが「ヤマピーに電話して」と再び発話した場合（Ｓ５５）、「ヤマピー」という語句の意味が音声辞書４に仮登録されているので、端末装置１の音声認識部３は「ヤマピーに電話して」の意味を認識することができる。このとき、出力処理部８は、音声辞書４の更新の可否をユーザに確認するために、例えば「ヤマピーは山田さんのことですか」との音声メッセージ（確認情報）を出力させる出力命令を音声出力部１０に出力する。音声出力部１０は、出力処理部８から出力命令が入力されると、音声合成を行って、「ヤマピーは山田さんのことですか」との音声メッセージをスピーカ１２から出力させる（Ｓ５６）。

ユーザは、「ヤマピーは山田さんのことですか」との音声メッセージを聞くと、「ヤマピー」は「山田」さんの意味であるので、了承の言葉（例えば「Ｙｅｓ」）と発話する（Ｓ５７）。ステップＳ５７での了承の言葉が端末装置１の音声認識部３又はサーバ５０の音声認識部６０で認識されると、端末装置１の出力処理部８は、例えば「山田さんに電話をかけます」との音声メッセージをスピーカ１２から出力させる（Ｓ５８）。そして、出力処理部８は、機能部９を制御して移動体搭載機器１４の携帯電話機能により山田さんに電話をかけさせる。

また、端末装置１の判断部６は、音声辞書４の更新を許可する許可情報を受け付けたと判断し、辞書更新部７に更新命令を出力する（Ｓ５９）。辞書更新部７は、判断部６から更新命令が入力されると、端末装置１の音声辞書４に言い換え語である第１音声データのテキストデータとその意味を登録する。辞書更新部７による音声辞書４の更新処理は上記の基本例と同様であるので、その説明は省略する。

なお、図６を参照して説明した音声認識システム１００の動作は一例であり、処理の順番は適宜変更が可能である。

上述のように、図６に示した音声対話の例では、辞書更新部７は、第１音声データが１回目に入力された時点では音声辞書４の更新処理は行わず、第１音声データが再び入力された時点で音声辞書４の更新を行っている。したがって、第１音声データが１回目に入力された時点では、音声辞書４の更新の可否を確認する処理を省くことができ、通話相手に電話をかける処理が実行されるまでの時間を短縮できる。

（３．３）変形例３
変形例３の音声認識システム１００は、判断部６が、第１音声データが第２音声データの言い換え語であるか否かを判断する判断方法で、上記の基本例と相違する。なお、判断部６による判断方法以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。

変形例３の端末装置１及びサーバ５０の動作を図７のシーケンス図に基づいて説明する。

一方、ユーザが、音声辞書４及び意図理解辞書７２に未登録の語句であって、音声辞書４又は意図理解辞書７２に登録済みの語句の言い換え語を話した場合、音声認識部３及び第２認識部６２は、入力された音声データの意味を認識できない。例えば、音声辞書４及び音声辞書７０に、「山田」という人名は登録されているが、ユーザが「山田」さんの愛称として使用する「ヤマピー」は未登録の場合、音声認識部３及び第２認識部６２はユーザが発話した「ヤマピー」という語句の意味を認識できない。したがって、決定部５は、音声データの認識に失敗したことを示す情報を出力処理部８、辞書更新部７及び判断部６に出力する（Ｓ７〜Ｓ９）。このとき、決定部５は、音声認識部３が備える第１認識部３１及び第２認識部３２の認識結果と、サーバ５０の音声認識部６０が備える第１認識部６１及び第２認識部６２の認識結果とを、辞書更新部７及び判断部６に出力する（Ｓ８〜Ｓ９）。なお、ステップＳ８〜Ｓ９において、サーバ５０の第２認識部６２が、第１認識部６１及び第２認識部６２の認識結果を、辞書更新部７と判断部６とにそれぞれ出力してもよい。また、音声認識部３の第２認識部３２が、第１認識部３１及び第２認識部３２の認識結果を、辞書更新部７と判断部６とにそれぞれ出力してもよい。

音声データの再入力を促す音声メッセージを聞いたユーザが、音声ではなく、タッチパネル１３を操作して、山田さんに電話をかける操作を行うと、タッチパネル１３から操作に応じた操作情報が出力処理部８に入力される（Ｓ２２）。

出力処理部８は、タッチパネル１３から操作情報が入力されると、この操作情報を判断部６に出力する（Ｓ２４）。このとき、判断部６は、出力処理部８から入力された操作情報の内容（「山田さんに電話をかける」）に基づいて、ステップＳ９で入力された第１音声データの「ヤマピー」が「山田さん」であると判断する。すなわち、「ヤマピー」は「山田」という語句の言い換え語であると判断し、辞書更新部７に更新命令を出力する（Ｓ２５）。辞書更新部７は、判断部６から更新命令が入力されると、端末装置１の音声辞書４に言い換え語である第１音声データのテキストデータとその意味を登録する。辞書更新部７による音声辞書４の更新処理は上記の基本例と同様であるので、その説明は省略する。

また、出力処理部８は、タッチパネル１３からの操作情報に基づいて機能部９に、山田さんに電話をかけるための制御命令を出力する。機能部９は、出力処理部８から制御命令が入力されると、移動体搭載機器１４である携帯電話機能を制御して、山田さんに電話をかける処理を行わせる（Ｓ２３）。なお、図７で説明した端末装置１及びサーバ５０の動作において一部の処理の順番が適宜変更されてもよい。

ここでは、ユーザが「山田」さんの愛称である「ヤマピー」との語句を使って山田さんに電話をかけるように端末装置１に指示する場合に、ユーザと端末装置１との間で行われる音声対話について図８を参照して説明する。なお、「山田」との語句は音声辞書４，７０に登録済みであるが、「ヤマピー」（第１音声データ）との語句は音声辞書４，７０に未登録であるものとする。

ユーザが「ヤマピーに電話して」と発話した場合（Ｓ６１）、「ヤマピー」の語句は音声辞書４，７０に未登録であるので、音声認識部３，６０は「ヤマピーに電話して」の意味を認識できない。そのため、端末装置１は、音声データの再入力を促すために「もう一度お願いします」との音声メッセージをスピーカ１２から出力させる（Ｓ６２）。

ユーザは、発話後に「もう一度お願いします」との音声メッセージを聞くと、「ヤマピーに電話して」との言い方では認識されなかったと判断し、タッチパネル１３を用いて山田さんに電話をかける操作を行う（Ｓ６３）。

出力処理部８は、タッチパネル１３からの操作情報に基づいて、「山田さんに電話をかけます」との音声メッセージをスピーカ１２から出力させた後（Ｓ６４）、機能部９を制御して移動体搭載機器１４の携帯電話機能により山田さんに電話をかけさせる。

このとき、判断部６は、機能部９から入力された制御命令の内容に基づいて、ステップＳ６１で入力された第１音声データの「ヤマピー」が「山田さん」であると判断する。すなわち、「ヤマピー」は「山田」という語句の言い換え語であると判断し、辞書更新部７に更新命令を出力する。辞書更新部７は、判断部６から更新命令が入力されると、端末装置１の音声辞書４に言い換え語である第１音声データのテキストデータとその意味を登録することにより音声辞書４を更新する（Ｓ６５）。

その後、ユーザが「ヤマピーに電話して」と発話した場合（Ｓ６６）、ステップＳ６５で「ヤマピー」という語句の意味が音声辞書４に登録されたので、端末装置１の音声認識部３は「ヤマピーに電話して」の意味を認識することができる。したがって、端末装置１の出力処理部８は、「山田さんに電話をかけます」との音声メッセージをスピーカ１２から出力させた後（Ｓ６７）、機能部９を制御して移動体搭載機器１４の携帯電話機能により山田さんに電話をかけさせる。

なお、図８を参照して説明した音声認識システム１００の動作は一例であり、処理の順番は適宜変更が可能である。

（３．４）変形例４
変形例４の音声認識システム１００は、図９に示すように、複数のユーザのうち入力部２に入力された音声データのユーザを識別する話者識別部１６を更に備える点で、上記の基本例と相違する。なお、話者識別部１６以外は基本例と同様であるので、共通の構成要素には同一の符号を付して、その説明は省略する。

話者識別部１６は、例えば、入力部２に入力された音声データの特徴量（声紋等）に基づいて話者を特定する。

また、変形例４の音声認識システム１００では、音声辞書４が、話者ごとにユーザ辞書（第２辞書４１２，４２２）を備えている。そして、音声認識部３は、複数の音声辞書のうち話者識別部１６が識別したユーザに対応する音声辞書に基づいて、入力部２に入力された音声データの意味を認識する。話者ごとに使用する語句が異なる場合でも、話者ごとに用意されたユーザ辞書（第２辞書４１２，４２２）を使用することで、音声認識部３による認識率を向上させることができる。

なお、話者を識別する話者識別部１６は、音声データに基づいて話者を識別するものに限定されない。話者識別部１６は、生体情報（例えば顔画像、指紋、虹彩等）を利用して話者を識別するものでもよいし、話者がタッチパネル１３を用いて入力したＩＤ情報等に基づいて話者を識別するものでもよい。

（３．５）その他の変形例
上記の基本例において、音声認識システム１００がサーバ５０を含むことは必須ではない。音声認識システム１００は、移動体２０に搭載される端末装置１を少なくとも備えていればよい。音声認識システム１００が端末装置１のみで構成される場合、上記の決定部５は省略が可能である。

上記の基本例において、判断部６は、学習済みモデルを用いて、第１音声データが第２音声データの言い換え語であるか否かを判断してもよい。判断部６が用いる学習済みモデルの生成方法では、複数のユーザに共通して使用される語句の第２音声データと、第２音声データと同じ意味であって端末装置１のユーザで独自に使用される第１音声データとを入力データとした教師あり学習を行うことによって生成される。なお、判断部６が用いる学習済みモデルは、教師無し学習を行うことによって生成されてもよいし、ディープラーニングを用いた機械学習で生成されてもよい。また、判断部６が用いる学習済みモデルは、音声認識システム１００以外のシステムで生成された学習済みモデルでもよいし、音声認識システム１００自体で、判断部６が用いる学習済みモデルを生成してもよい。

また、上記の基本例において、辞書更新部７は、移動体２０の状況に応じて音声辞書４を更新する場合の処理内容を変更してもよい。ここで、移動体２０の状況とは、移動体２０の移動状態に関する状況であり、例えば移動体２０が自動車である場合は、移動体２０の走行状態に関する状況（停止中、走行中）と、移動体２０が走行している道路（カーブ、高速道路等）、時間帯、天候等に関する状況とを含む。辞書更新部７は、移動体２０の状況に応じて音声辞書４を更新する場合の処理内容を変更しており、例えば、音声辞書４を更新するタイミングを変更したり、音声辞書４を更新する前にユーザの確認をとる処理を行うか否かを変更したりする。例えば、移動体２０がカーブや高速道路等、運転により注意力を必要とする場所を走行している場合、辞書更新部７は、音声辞書４の更新を後回しにしてもよく、ユーザの運転操作等の妨げとなる可能性を低減できる。また、辞書更新部７は、移動体２０の状況に応じて、変更内容をスピーカ１２から音声で出力させるか、タッチパネル１３に表示させるかを変更してもよい。例えば、辞書更新部７は、移動体２０がカーブや高速道路等、運転により注意力を必要とする場所を走行している場合は変更内容をスピーカ１２から音声で出力させ、移動体２０が停止している場合はタッチパネル１３に変更内容を表示させるように、処理内容を変更してもよい。

また、基本例では、移動体２０が自動車であったが、移動体２０は、例えば、鉄道車両、船舶、航空機等の自動車以外の移動体でもよい。

（まとめ）
以上説明したように、第１の態様に係る音声認識システム（１００）は、移動体（２０）に用いられる。音声認識システム（１００）は、入力部（２）と、音声認識部（３）と、判断部（６）と、辞書更新部（７）と、を備える。入力部（２）には、移動体（２０）に乗っているユーザの音声データが入力される。音声認識部（３）は、音声データと音声データの意味とを対応付けて記憶する音声辞書（４）に基づいて、入力部（２）に入力された音声データの意味を認識する。音声認識部（３）が、入力部（２）に入力された第１音声データの意味を認識できなかった状態で、入力部（２）に入力された第２音声データの意味を認識できた場合に、判断部（６）は、第１音声データが第２音声データの言い換え語であるか否かを判断する。辞書更新部（７）は、判断部（６）が第１音声データが第２音声データの言い換え語であると判断すると、第１音声データと第２音声デ−タとが同じ意味に対応するように音声辞書（４）を更新する。

この態様によれば、ユーザが第２音声データの言い換え語である第１音声データの語句を発話する場合でも、音声認識部（３）が第１音声データの意味を認識できるようになり、使用性の向上を図ることが可能な音声認識システム（１００）を提供できる。

第２の態様に係る音声認識システム（１００）は、第１の態様において、音声認識システム（１００）とユーザとの間で情報を入出力するためのインターフェース部（１５）を更に備える。インターフェース部（１５）は、辞書更新部（７）が音声辞書（４）を更新する前に、音声辞書（４）の更新の可否をユーザに確認するための確認情報を出力する。辞書更新部（７）は、インターフェース部（１５）が確認情報を出力した後に音声辞書（４）の更新を許可する許可情報を受け付けた場合、音声辞書（４）を更新する。

この態様によれば、インターフェース部（１５）がユーザからの許可情報を受け付けると、辞書更新部（７）が音声辞書（４）を更新できるようにできる。

第３の態様に係る音声認識システム（１００）では、第２の態様において、インターフェース部（１５）は、第１音声データが第２音声データの言い換え語であると判断部（６）が判断したタイミングで、確認情報を出力する。

この態様によれば、ユーザの第１音声データが第２音声データの言い換え語であると判断されたタイミングで、音声辞書（４）の更新の可否をユーザに確認することができる。

第４の態様に係る音声認識システム（１００）では、第２の態様において、インターフェース部（１５）は、入力部（２）に第１音声データが再び入力されたタイミングで、確認情報を出力する。

この態様によれば、ユーザが、第２音声データの言い換え語である第１音声データを再び発話したタイミングで、音声辞書（４）の更新の可否をユーザに確認することができる。

第５の態様に係る音声認識システム（１００）では、第２〜４のいずれかの態様において、インターフェース部（１５）は、ユーザとの間で音声で情報を入出力する。

この態様によれば、ユーザは、音声認識システム（１００）と音声で情報のやりとりを行うことができる。

第６の態様に係る音声認識システム（１００）は、第１〜５のいずれかの態様において、複数のユーザのうち入力部（２）に入力された音声データのユーザを識別する話者識別部（１６）を更に備える。音声認識部（３）は、複数の音声辞書（４１２，４２２）のうち話者識別部（１６）が識別したユーザに対応する音声辞書（４１２，４２２）に基づいて、入力部（２）に入力された音声データの意味を認識する。

この態様によれば、話者識別部（１６）が識別したユーザに対応する音声辞書（４１２，４２２）を用いることで、音声の認識率が向上するという利点がある。

第７の態様に係る音声認識システム（１００）では、第１〜６のいずれかの態様において、辞書更新部（７）は、移動体（２０）の状況に応じて音声辞書（４）を更新する場合の処理内容を変更する。

この態様によれば、移動体（２０）の状況に応じて、音声辞書（４）を更新する場合の処理内容を変更できるので、例えば、移動体（２０）の移動状態に関する状況に応じて音声辞書（４）を更新するタイミング等を変更できる。

第８の態様に係る音声認識システム（１００）は、第１〜７のいずれかの態様において、決定部（５）を更に備える。決定部（５）は、サーバ側音声辞書（７０）に基づいて、入力部（２）に入力された音声データの意味を認識するサーバ（５０）の認識結果と、音声認識部（３）の認識結果とに基づいて、音声データの意味を決定する。サーバ側音声辞書（７０）は、語句の単位での音声データと音声データの意味とを対応付けて記憶する。

この態様によれば、決定部（５）は、サーバ（５０）の認識結果も考慮して入力部（２）に入力された音声データの意味を決定するので、音声データの認識率が向上するという利点がある。

第９の態様に係る音声認識システム（１００）では、第８の態様において、決定部（５）は、所定の場合、サーバ（５０）の認識結果よりも、音声認識部（３）の認識結果を優先して、第１音声データの意味を決定する。所定の場合とは、辞書更新部（７）が音声辞書（４）を更新した後に入力部（２）に第１音声データが入力された場合である。

この態様によれば、サーバ（５０）の認識結果よりも、音声認識部（３）の認識結果を優先することで、第１音声データの認識率が向上するという利点がある。

第１０の態様に係る音声認識システム（１００）では、第１〜９のいずれかの態様において、音声辞書（４）は共通辞書（４１１，４２１）とユーザ辞書（４１２，４２２）とを含む。共通辞書（４１１，４２１）は、複数のユーザに共通する音声データと、複数のユーザに共通する音声データの意味とを対応付けて記憶する。ユーザ辞書（４１２，４２２）は、第２音声データの言い換え語である第１音声データと、第１音声データの意味とを対応付けて記憶する、共通辞書（４１１，４２１）の更新処理と、辞書更新部（７）によるユーザ辞書（４１２，４２２）の更新処理とが別々に行われる。

この態様によれば、辞書更新部（７）は、共通辞書（４１１，４２１）の更新処理とは異なるタイミングでユーザ辞書（４１２，４２２）の更新処理を行うことができる。

第１１の態様に係る音声認識システム（１００）は、第１〜１０のいずれかの態様において、音声認識システム（１００）とユーザとの間で情報を入出力するためのインターフェース部（１５）を更に備える。音声認識部（３）が入力部（２）に入力された第１音声データの意味を認識できなかった場合に、インターフェース部（１５）は、音声データの再入力をユーザに促す情報を出力する。

この態様によれば、インターフェース部（１５）が出力した情報によって、ユーザに音声データの再入力を促すことができる。

第１２の態様に係る学習済みモデルの生成方法は、第１〜１１のいずれかの態様の音声認識システム（１００）が備える判断部（６）を実現するための学習済みモデルの生成方法である。

この態様によれば、使用性の向上を図ることができる。

第１３の態様に係る音声認識システム（１００）の制御方法は、音声認識処理と、判断処理と、辞書更新処理と、を含む。音声認識処理では、音声データと音声データの意味とを対応付けて記憶する音声辞書（４）に基づいて、移動体（２０）に乗っているユーザから入力された音声データの意味を認識する。判断処理では、ユーザから入力された第１音声データの意味を認識できなかった状態で、ユーザから入力された第２音声データの意味を認識できた場合に、第１音声データが第２音声データの言い換え語であるか否かを判断する。辞書更新処理では、判断処理で第１音声データが第２音声データの言い換え語であると判断すると、第１音声データと第２音声デ−タとが同じ意味に対応するように音声辞書（４）を更新する。

この態様によれば、使用性の向上を図ることができる。

第１４の態様に係るプログラムは、コンピュータシステムに、音声認識処理と、判断処理と、辞書更新処理と、を実行させるためのプログラムである。音声認識処理では、音声データと音声データの意味とを対応付けて記憶する音声辞書（４）に基づいて、移動体（２０）に乗っているユーザから入力された音声データの意味を認識する。判断処理では、ユーザから入力された第１音声データの意味を認識できなかった状態で、ユーザから入力された第２音声データの意味を認識できた場合に、第１音声データが第２音声データの言い換え語であるか否かを判断する。辞書更新処理では、判断処理で第１音声データが第２音声データの言い換え語であると判断すると、第１音声データと第２音声デ−タとが同じ意味に対応するように音声辞書（４）を更新する。

この態様によれば、使用性の向上を図ることができる。

第１５の態様に係る移動体（２０）は、移動する本体（２１）を備える。本体（２１）は、第１〜１１のいずれかの態様の音声認識システム（１００）が備える入力部（２）と音声認識部（３）と判断部（６）と辞書更新部（７）とを搭載する。

この態様によれば、使用性の向上を図ることができる。

第１６の態様に係る音声認識システム（１００）では、第１〜１１のいずれかの態様において、音声認識部（３）が、第１認識部（３１）と、第２認識部（３２）とを備える。第１認識部（３１）は、入力部（２）から入力された音声データの語句を認識する。第２認識部（３２）は、第１認識部（３１）によって認識された語句の意味を認識する。

第１７の態様に係る音声認識システム（１００）は、第１〜１１及び１６のいずれかの態様において、音声認識部（３）の認識結果に基づいて、移動体（２０）に搭載された移動体搭載機器（１４）を制御する機能部（９）を更に備える。

上記態様に限らず、上記の実施形態に係る音声認識システム（１００）の種々の構成（変形例を含む）は、音声認識システム（１００）の制御方法、（コンピュータ）プログラム、又はプログラムを記録した非一時的記録媒体等で具現化可能である。

第２〜第１１、第１６及び第１７の態様に係る構成については、音声認識システム（１００）に必須の構成ではなく、適宜省略可能である。

２入力部
３音声認識部
４音声辞書
５決定部
６判断部
７辞書更新部
１５インターフェース部
１６話者識別部
２０移動体
２１本体
５０サーバ
７０サーバ側音声辞書
１００音声認識システム
４１１，４２１第１辞書（共通辞書）
４１２，４２２第２辞書（音声辞書、ユーザ辞書）

Claims

移動体に用いられる音声認識システムであって、
前記移動体に乗っているユーザの音声データが入力される入力部と、
音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、前記入力部に入力された音声データの意味を認識する音声認識部と、
前記音声認識部が、前記入力部に入力された第１音声データの意味を認識できなかった状態で、前記入力部に入力された第２音声データの意味を認識できた場合に、前記第１音声データが前記第２音声データの言い換え語であるか否かを判断する判断部と、
前記判断部が前記第１音声データが前記第２音声データの言い換え語であると判断すると、前記第１音声データと前記第２音声デ−タとが同じ意味に対応するように前記音声辞書を更新する辞書更新部と、を備える、
音声認識システム。
前記音声認識システムと前記ユーザとの間で情報を入出力するためのインターフェース部を更に備え、
前記インターフェース部は、前記辞書更新部が前記音声辞書を更新する前に、前記音声辞書の更新の可否を前記ユーザに確認するための確認情報を出力し、
前記辞書更新部は、前記インターフェース部が前記確認情報を出力した後に前記音声辞書の更新を許可する許可情報を受け付けた場合、前記音声辞書を更新する、
請求項１に記載の音声認識システム。
前記インターフェース部は、前記第１音声データが前記第２音声データの言い換え語であると前記判断部が判断したタイミングで、前記確認情報を出力する、
請求項２に記載の音声認識システム。
前記インターフェース部は、前記入力部に前記第１音声データが再び入力されたタイミングで、前記確認情報を出力する、
請求項２に記載の音声認識システム。
前記インターフェース部は、前記ユーザとの間で音声で前記情報を入出力する、
請求項２〜４のいずれか１項に記載の音声認識システム。
複数の前記ユーザのうち前記入力部に入力された前記音声データのユーザを識別する話者識別部を更に備え、
前記音声認識部は、複数の前記音声辞書のうち前記話者識別部が識別したユーザに対応する音声辞書に基づいて、前記入力部に入力された前記音声データの意味を認識する、
請求項１〜５のいずれか１項に記載の音声認識システム。
前記辞書更新部は、前記移動体の状況に応じて前記音声辞書を更新する場合の処理内容を変更する、
請求項１〜６のいずれか１項に記載の音声認識システム。
音声データと前記音声データの意味とを対応付けて記憶するサーバ側音声辞書に基づいて、前記入力部に入力された前記音声データの意味を認識するサーバの認識結果と、前記音声認識部の認識結果とに基づいて、前記音声データの意味を決定する決定部を更に備える、
請求項１〜７のいずれか１項に記載の音声認識システム。
前記決定部は、前記辞書更新部が前記音声辞書を更新した後に前記入力部に前記第１音声データが入力されて前記音声辞書と前記サーバでそれぞれで認識が行われた場合、前記サーバの認識結果よりも、前記音声認識部の認識結果を優先して、前記第１音声データの意味を決定する、
請求項８に記載の音声認識システム。
前記音声辞書は、複数の前記ユーザに共通する音声データと前記複数のユーザに共通する音声データの意味とを対応付けて記憶する共通辞書と、前記第２音声データの言い換え語である前記第１音声データと前記第１音声データの意味とを対応付けて記憶するユーザ辞書とを含み、
前記共通辞書の更新処理と、前記辞書更新部による前記ユーザ辞書の更新処理とが別々に行われる、
請求項１〜９のいずれか１項に記載の音声認識システム。
前記音声認識システムと前記ユーザとの間で情報を入出力するためのインターフェース部を更に備え、
前記音声認識部が前記入力部に入力された前記第１音声データの意味を認識できなかった場合に、前記インターフェース部は、前記音声データの再入力を前記ユーザに促す情報を出力する、
請求項１〜１０のいずれか１項に記載の音声認識システム。
請求項１〜１１のいずれか１項に記載の音声認識システムが備える前記判断部を実現するための学習済みモデルの生成方法。
音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、移動体に乗っているユーザから入力された音声データの意味を認識する音声認識処理と、
前記ユーザから入力された第１音声データの意味を認識できなかった状態で、前記ユーザから入力された第２音声データの意味を認識できた場合に、前記第１音声データが前記第２音声データの言い換え語であるか否かを判断する判断処理と、
前記判断処理で前記第１音声データが前記第２音声データの言い換え語であると判断すると、前記第１音声データと前記第２音声デ−タとが同じ意味に対応するように前記音声辞書を更新する辞書更新処理と、を含む、
音声認識システムの制御方法。
コンピュータシステムに、
音声データと前記音声データの意味とを対応付けて記憶する音声辞書に基づいて、移動体に乗っているユーザから入力された音声データの意味を認識する音声認識処理と、
前記ユーザから入力された第１音声データの意味を認識できなかった状態で、前記ユーザから入力された第２音声データの意味を認識できた場合に、前記第１音声データが前記第２音声データの言い換え語であるか否かを判断する判断処理と、
前記判断処理で前記第１音声データが前記第２音声データの言い換え語であると判断すると、前記第１音声データと前記第２音声デ−タとが同じ意味に対応するように前記音声辞書を更新する辞書更新処理と、を実行させるための、
プログラム。
移動する本体を備え、
前記本体は、請求項１〜１１のいずれか１項に記載の音声認識システムが備える前記入力部と前記音声認識部と前記判断部と前記辞書更新部とを搭載する、
移動体。