JP6754184B2

JP6754184B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP6754184B2
Application number: JP2015239951A
Authority: JP
Inventors: 剛樹西川
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2014-12-26
Filing date: 2015-12-09
Publication date: 2020-09-09
Anticipated expiration: 2035-12-09
Also published as: CN105741836A; US20160189715A1; US9966077B2; JP2016126330A; CN105741836B

Description

本開示は、音声情報に含まれるノイズを除去し、ノイズを除去した音声情報に対して音声認識を行う音声認識装置及び音声認識方法に関するものである。

従来、音声によって端末を制御する機能、又は音声によってキーワードを検索する機能が検討されている。これらの機能を実現するために、従来は端末を操作するためのリモコンにマイクロホンが搭載され、マイクロホンにより収音されている。近年では、さらなる利便性向上を目的に、端末がマイクロホンを内蔵し、端末から離れたところからユーザが発話しても端末を動作させることができるようにする技術が検討されている。しかしながら、端末から離れたところからユーザが発話することで、ユーザが発話した音声と不要な音（雑音）との音量差がなくなり、端末において正しく発話内容を認識することが困難になる。従来、端末の音声認識処理機能は、端末操作に関する発話に対してレスポンスを速くするために利用され、サーバの音声認識処理機能は、膨大な語彙数の辞書を必要とする情報検索に関する発話にレスポンスするために利用されてきた。

例えば、特許文献１では、サーバが辞書規模優先の音声認識手段を備え、クライアントが速度優先の音声認識手段を備えている。

特開２０１３−６４７７７号公報

しかしながら、特許文献１では、ユーザがマイクロホンから離れた位置から発話した場合、音声にノイズが含まれ、音声認識が正確に実行されないという課題がある。さらに、特許文献１では、ノイズ除去処理を端末とサーバとに分散させておらず、ノイズ除去処理と音声認識処理との両方を実行する構成又は条件について検討されていない。

本開示は、上記の問題を解決するためになされたもので、高騒音環境では音声認識の正確性を向上させることができ、低騒音環境では音声認識の高速化を実現することができる音声認識装置及び音声認識方法を提供することを目的とするものである。

本開示の一局面に係る音声認識装置は、第１の音声情報を取得する音声取得部と、前記音声取得部によって取得された前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力するノイズ除去処理部と、前記ノイズ除去処理部によって出力された前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力する音声認識部と、前記音声取得部によって取得された前記第１の音声情報をサーバへ送信し、前記サーバにおいて、前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去され、前記ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果を第２の音声認識結果情報として前記サーバから受信する通信部と、前記音声認識部によって出力された前記第１の音声認識結果情報と、前記通信部によって受信された前記第２の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、を備える。

本開示によれば、高騒音環境では、音声認識装置よりも多くの量のノイズを第１の音声情報から除去することが可能なサーバにおいてノイズを第１の音声情報から除去することで、音声認識の正確性を向上させることができ、静音環境では音声認識装置において第１の音声情報からノイズを除去することで、音声認識の高速化を実現することができる。

図１は、本開示の実施の形態１に係る音声認識システムの全体構成を示す図である。図２は、本開示の実施の形態１における音声認識システムの機能構成を示す図である。図３は、本開示の実施の形態１における音声認識システムの動作の一例を示すフローチャートである。図４は、音声認識不可情報を表示する表示画面の一例を示す図である。図５は、サーバ送信情報を表示する表示画面の一例を示す図である。図６は、送信確認情報を表示する表示画面の一例を示す図である。図７は、本開示の実施の形態１の変形例における音声認識システムの機能構成を示す図である。図８は、本開示の実施の形態２における音声認識システムの機能構成を示す図である。図９は、本開示の実施の形態２における音声認識システムの動作の一例を示す第１のフローチャートである。図１０は、本開示の実施の形態２における音声認識システムの動作の一例を示す第２のフローチャートである。図１１は、本開示の実施の形態２における音声認識システムの動作の一例を示す第３のフローチャートである。図１２は、本開示の実施の形態２の変形例における音声認識システムの動作の一例を示す第１のフローチャートである。図１３は、本開示の実施の形態２の変形例における音声認識システムの動作の一例を示す第２のフローチャートである。図１４は、本開示の実施の形態３における音声認識システムの機能構成を示す図である。図１５は、本開示の実施の形態４における音声認識システムの機能構成を示す図である。図１６は、本開示の実施の形態５における音声認識システムの機能構成を示す図である。図１７は、本開示の実施の形態５の変形例における音声認識システムの機能構成を示す図である。

（本発明の基礎となった知見）
特許文献１では、ユーザがマイクロホンから離れた位置から発話した場合、音声にノイズが含まれ、音声認識が正しく動作しないという課題がある。さらに、特許文献１では、ノイズ除去処理を端末とサーバとに分散させておらず、ノイズ除去処理と音声認識処理とを併用した構成又は条件について検討されていない。

本開示は、上記の問題を解決するためになされたもので、高騒音環境では音声認識の正確性を向上させることができ、低騒音環境では音声認識の高速化を実現することができる音声認識装置及び音声認識方法を提供する。

この構成によれば、第１の音声情報が取得される。取得された第１の音声情報に含まれるノイズが第１の除去方式を用いて除去され、ノイズが除去された音声情報が第２の音声情報として出力される。出力された第２の音声情報に対して音声認識が行われ、音声認識結果が第１の音声認識結果情報として出力される。また、取得された第１の音声情報がサーバへ送信され、サーバにおいて、第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて第１の音声情報に含まれるノイズが除去され、ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果が第２の音声認識結果情報としてサーバから受信される。出力された第１の音声認識結果情報と、受信された第２の音声認識結果情報とのうちのいずれを出力するかが選択される。

したがって、高騒音環境では、音声認識装置よりもより多くの量のノイズを第１の音声情報から除去することが可能なサーバにおいてノイズを除去することで、音声認識の正確性を向上させることができ、低騒音環境では音声認識装置において第１の音声情報からノイズを除去することで、音声認識の高速化を実現することができる。

また、上記の音声認識装置において、前記音声認識部は、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した前記第１の尤度を前記調停部に出力し、前記通信部は、前記サーバによって算出された前記第２の音声認識結果情報の尤もらしさを示す第２の尤度を受信し、受信した前記第２の尤度を前記調停部に出力し、前記調停部は、前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを、前記第１の尤度及び前記第２の尤度の少なくとも１つに基づいて選択してもよい。

この構成によれば、第１の音声認識結果情報の尤もらしさを示す第１の尤度が算出され、算出された第１の尤度が出力される。また、サーバによって算出された第２の音声認識結果情報の尤もらしさを示す第２の尤度が受信され、受信された第２の尤度が出力される。そして、第１の音声認識結果情報と第２の音声認識結果情報とのうちのいずれを出力するかが、第１の尤度及び第２の尤度の少なくとも１つに基づいて選択される。

したがって、出力される音声認識結果が尤度に基づいて選択されるので、より正確な音声認識結果を出力することができる。

また、上記の音声認識装置において、前記調停部は、前記第１の尤度が所定の第１の閾値より大きい場合には前記第１の音声認識結果情報を出力し、前記第１の尤度が前記第１の閾値以下であり、前記第２の尤度が所定の第２の閾値より大きい場合には前記第２の音声認識結果情報を出力し、前記第１の尤度が前記第１の閾値以下であり、前記第２の尤度が前記第２の閾値以下である場合には前記第１の音声認識結果情報及び前記第２の音声認識結果情報のいずれも出力しなくてもよい。

この構成によれば、第１の尤度が所定の第１の閾値より大きい場合には第１の音声認識結果情報が出力され、第１の尤度が第１の閾値以下であり、第２の尤度が所定の第２の閾値より大きい場合には第２の音声認識結果情報が出力され、第１の尤度が第１の閾値以下であり、第２の尤度が第２の閾値以下である場合には第１の音声認識結果情報及び第２の音声認識結果情報のいずれも出力されない。

したがって、尤度と閾値とを比較することにより音声認識結果が選択されるので、出力する音声認識結果をより簡単な構成で選択することができる。

また、上記の音声認識装置において、前記音声取得部によって取得された前記第１の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部をさらに備え、前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去しないとともに、前記第２の音声情報を出力せず、前記通信部は、前記第１の音声情報をサーバへ送信しなくてもよい。

この構成によれば、取得された第１の音声情報におけるユーザが発話した発話区間が検出される。そして、発話区間が検出されない場合には、第１の音声情報に含まれるノイズが除去されないとともに、第２の音声情報が出力されず、第１の音声情報がサーバへ送信されない。

したがって、ユーザが発話した発話区間でなければ、第１の音声情報に含まれるノイズが除去されないとともに、第２の音声情報が出力されず、第１の音声情報がサーバへ送信されないので、不要な演算処理が行われるのを防止することができるとともに、不要な情報が送信されるのを防止することができる。

また、上記の音声認識装置において、前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部をさらに備え、前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去し、前記通信部は、前記発話区間内における前記第１の音声情報を前記サーバへ送信し、前記調停部は、前記音声認識部によって出力された前記第１の音声認識結果情報と、前記通信部によって受信された前記第２の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択してもよい。

この構成によれば、発話区間が検出された場合に、検出された発話区間の継続時間である発話継続時間が測定される。発話区間が検出された場合には、第１の音声情報に含まれるノイズが除去されるとともに、発話区間内における第１の音声情報がサーバへ送信される。そして、出力された第１の音声認識結果情報と、受信された第２の音声認識結果情報とのうちのいずれを出力するかが、少なくとも発話継続時間の長さに関する情報を用いて選択される。

したがって、少なくとも発話継続時間の長さに関する情報が用いられることにより音声認識結果が選択されるので、出力する音声認識結果をより簡単な構成で選択することができる。

また、上記の音声認識装置において、前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第２の音声認識結果情報の尤もらしさを示す第２の尤度に乗算する重み付けを、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度に乗算する重み付けよりも上げてもよい。

この構成によれば、発話継続時間が所定の長さより長い場合に、第２の音声認識結果情報の尤もらしさを示す第２の尤度に乗算する重み付けが、第１の音声認識結果情報の尤もらしさを示す第１の尤度に乗算する重み付けよりも上げられる。発話継続時間が長い場合、単語数が多い高度な音声指示を行っている可能性が高い。そのため、発話継続時間が長い場合、サーバから出力される音声認識結果を採用することにより、誤認識を防止することができる。

また、上記の音声認識装置において、前記通信部は、前記第３の音声情報を前記サーバから受信し、受信した前記第３の音声情報を前記音声認識部へ出力し、前記音声認識部は、前記通信部によって受信された前記第３の音声情報に対して音声認識を行い、音声認識結果を第４の音声認識結果情報として出力し、前記ノイズ除去処理部によって出力された前記第２の音声情報をサーバへ送信し、前記第２の音声情報に対して音声認識が行われた音声認識結果を第３の音声認識結果情報として前記サーバから受信し、受信した前記第３の音声認識結果情報を前記調停部へ出力し、前記調停部は、前記音声認識部によって出力された前記第１の音声認識結果情報と、前記通信部によって受信された前記第２の音声認識結果情報と、前記通信部によって受信された前記第３の音声認識結果情報と、前記音声認識部によって出力された前記第４の音声認識結果情報とのうちのいずれを出力するかを選択してもよい。

この構成によれば、第３の音声情報がサーバから受信され、受信された第３の音声情報が音声認識部へ出力される。受信された第３の音声情報に対して音声認識が行われ、音声認識結果が第４の音声認識結果情報として出力される。また、出力された第２の音声情報がサーバへ送信され、第２の音声情報に対して音声認識が行われた音声認識結果が第３の音声認識結果情報としてサーバから受信され、受信された第３の音声認識結果情報が調停部へ出力される。そして、出力された第１の音声認識結果情報と、受信された第２の音声認識結果情報と、受信された第３の音声認識結果情報と、出力された第４の音声認識結果情報とのうちのいずれを出力するかが選択される。

したがって、音声認識装置によりノイズ除去処理及び音声認識処理が行われた第１の音声認識結果と、サーバによりノイズ除去処理及び音声認識処理が行われた第２の音声認識結果と、音声認識装置によりノイズ除去処理が行われてサーバにより音声認識処理が行われた第３の音声認識結果と、サーバによりノイズ除去処理が行われて音声認識装置により音声認識処理が行われた第４の音声認識結果とのいずれかが出力されるので、環境音の状態と音声認識の性能とに応じて最適な音声認識結果を得ることができる。

また、上記の音声認識装置において、前記音声認識部は、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した前記第１の尤度を前記調停部に出力し、前記通信部は、前記サーバによって算出された前記第２の音声認識結果情報の尤もらしさを示す第２の尤度を受信し、受信した前記第２の尤度を前記調停部に出力し、前記通信部は、前記サーバによって算出された前記第３の音声認識結果情報の尤もらしさを示す第３の尤度を受信し、受信した前記第３の尤度を前記調停部に出力し、前記音声認識部は、前記第４の音声認識結果情報の尤もらしさを示す第４の尤度を算出し、算出した前記第４の尤度を前記調停部に出力し、前記調停部は、前記第１の音声認識結果情報と、前記第２の音声認識結果情報と、前記第３の音声認識結果情報と、前記第４の音声認識結果情報とのうちのいずれを出力するかを、前記第１の尤度、前記第２の尤度、前記第３の尤度及び前記第４の尤度のうちの少なくとも１つに基づいて選択してもよい。

この構成によれば、第１の音声認識結果情報の尤もらしさを示す第１の尤度が算出され、算出された第１の尤度が出力される。また、サーバによって算出された第２の音声認識結果情報の尤もらしさを示す第２の尤度が受信され、受信された第２の尤度が出力される。さらに、サーバによって算出された第３の音声認識結果情報の尤もらしさを示す第３の尤度が受信され、受信された第３の尤度が出力される。さらにまた、第４の音声認識結果情報の尤もらしさを示す第４の尤度が算出され、算出された第４の尤度が出力される。そして、第１の音声認識結果情報と、第２の音声認識結果情報と、第３の音声認識結果情報と、第４の音声認識結果情報とのうちのいずれを出力するかが、第１の尤度、第２の尤度、第３の尤度及び第４の尤度のうちの少なくとも１つに基づいて選択される。

この構成によれば、取得された音声情報におけるユーザが発話した発話区間が検出される。そして、発話区間が検出されない場合には、第１の音声情報に含まれるノイズが除去されないとともに、第１の音声情報がサーバへ送信されない。

また、上記の音声認識装置において、前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部をさらに備え、前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去し、前記通信部は、前記発話区間内における前記第１の音声情報を前記サーバへ送信し、前記調停部は、前記第１の音声認識結果情報と、前記第２の音声認識結果情報と、前記第３の音声認識結果情報と、前記第４の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択してもよい。

この構成によれば、発話区間が検出された場合に、検出された発話区間の継続時間である発話継続時間が測定される。発話区間が検出された場合には、第１の音声情報に含まれるノイズが除去されるとともに、発話区間内における第１の音声情報がサーバへ送信される。そして、第１の音声認識結果情報と、第２の音声認識結果情報と、第３の音声認識結果情報と、第４の音声認識結果情報とのうちのいずれを出力するかが、少なくとも発話継続時間の長さに関する情報を用いて選択される。

また、上記の音声認識装置において、前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第２の音声認識結果情報の尤もらしさを示す第２の尤度及び前記第３の音声認識結果情報の尤もらしさを示す第３の尤度に乗算する重み付けを、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度及び前記第４の音声認識結果情報の尤もらしさを示す第４の尤度に乗算する重み付けよりも上げてもよい。

この構成によれば、発話継続時間が所定の長さより長い場合に、第２の音声認識結果情報の尤もらしさを示す第２の尤度及び第３の音声認識結果情報の尤もらしさを示す第３の尤度に乗算する重み付けが、第１の音声認識結果情報の尤もらしさを示す第１の尤度及び第４の音声認識結果情報の尤もらしさを示す第４の尤度に乗算する重み付けよりも上げられる。発話継続時間が長い場合、単語数が多い高度な音声指示を行っている可能性が高い。そのため、発話継続時間が長い場合、サーバによって算出される音声認識結果を採用することにより、誤認識を防止することができる。

また、上記の音声認識装置において、前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第２の尤度に乗算する重み付けを、前記第３の尤度に乗算する重み付けよりも上げてもよい。

この構成によれば、発話継続時間が所定の長さより長い場合に、第２の尤度に乗算する重み付けが、第３の尤度に乗算する重み付けよりも上げられる。

したがって、サーバによりノイズ除去処理及び音声認識処理が行われた第２の音声認識結果情報が、音声認識装置によりノイズ除去処理が行われてサーバにより音声認識処理が行われた第３の音声認識結果情報よりもより高い優先順位が与えられるので、より誤認識を防止することができる。

本開示の他の局面に係る音声認識装置は、第１の音声情報を取得する音声取得部と、前記音声取得部によって取得された前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力するノイズ除去処理部と、前記音声取得部によって取得された前記第１の音声情報をサーバへ送信し、前記サーバにおいて前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去された第３の音声情報を前記サーバから受信する通信部と、前記ノイズ除去処理部によって出力された前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として出力する音声認識部と、前記音声認識部によって出力された前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、を備える。

この構成によれば、第１の音声情報が取得される。取得された第１の音声情報に含まれるノイズが第１の除去方式を用いて除去され、ノイズが除去された音声情報が第２の音声情報として出力される。取得された第１の音声情報がサーバへ送信され、サーバにおいて第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて第１の音声情報に含まれるノイズが除去された第３の音声情報がサーバから受信される。出力された第２の音声情報に対して音声認識が行われ、音声認識結果が第１の音声認識結果情報として出力されるとともに、受信された第３の音声情報に対して音声認識が行われ、音声認識結果が第２の音声認識結果情報として出力される。出力された第１の音声認識結果情報と第２の音声認識結果情報とのうちのいずれを出力するかが選択される。

したがって、高騒音環境では、音声認識装置よりも多くの量のノイズを除去することが可能なサーバにおいてノイズを除去することで、音声認識の正確性を向上させることができ、静音環境では音声認識装置においてノイズを除去することで、音声認識の高速化を実現することができる。

本開示の他の局面に係る音声認識方法は、通信部、ノイズ除去処理部、音声認識部及び調停部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、前記通信部が、前記端末によって取得された第１の音声情報を受信し、前記ノイズ除去処理部が、受信した前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力し、前記音声認識部が、前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力し、前記通信部が、前記端末において、前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去され、前記ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果を第２の音声認識結果情報として前記端末から受信し、前記調停部が、前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを選択する。

この構成によれば、第１の音声情報が受信される。受信された第１の音声情報に含まれるノイズが第１の除去方式を用いて除去され、ノイズが除去された音声情報が第２の音声情報として出力される。出力された第２の音声情報に対して音声認識が行われ、音声認識結果が第１の音声認識結果情報として出力される。また、端末において第１の除去方式により前記第１の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第２の除去方式を用いて第１の音声情報に含まれるノイズが除去され、ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果が第２の音声認識結果情報として端末から受信される。出力された第１の音声認識結果情報と、受信された第２の音声認識結果情報とのうちのいずれを出力するかが選択される。

したがって、高騒音環境では、音声認識装置よりも多くの量のノイズを第１の音声情報から除去することが可能なサーバにおいてノイズを除去することで、音声認識の正確性を向上させることができ、静音環境では音声認識装置においてノイズを第１の音声情報から除去することで、音声認識の高速化を実現することができる。

以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

（実施の形態１）
図１は、本開示の実施の形態１に係る音声認識システムの全体構成を示す図である。

図１に示す音声認識システムは、端末１００及びサーバ２００を備える。端末１００は、ネットワーク（例えば、インターネット）３００を介してサーバ２００と互いに通信可能に接続されている。

端末１００は、例えば、家庭内に配置されたテレビ又はエアコンなどを制御する機器である。端末１００は、所定の言語で発話された音声の認識を行う。また、端末１００は、音声を認識し、音声認識の結果に基づいて家庭内に配置されたテレビ又はエアコンを制御する。

端末１００は、例えば、制御対象の機器（例えば、家庭内に配置されたテレビ又はエアコン）と別体であってもよいし、制御対象の機器に含まれていてもよい。

端末１００は、通信部１０１、マイク１０２、スピーカ１０３、制御部１０４、メモリ１０５及び表示部１０６を備える。なお、マイク１０２、スピーカ１０３及び表示部１０６は、端末１００に内蔵されていなくてもよい。

通信部１０１は、ネットワーク３００を介してサーバ２００に情報を送信するとともに、ネットワーク３００を介してサーバ２００から情報を受信する。通信部１０１のネットワーク３００への接続方法に関しては問わない。マイク１０２は、周囲の音を収集し、音声情報を取得する。スピーカ１０３は、音声を出力する。

制御部１０４は、例えば、ＣＰＵ（中央演算処理装置）を有し、後述するメモリ１０５に格納された制御用のプログラムをＣＰＵが実行することにより、制御部１０４として機能する。制御部１０４は、例えば、通信部１０１によって受信された様々なデータ（情報）を処理し、端末１００内の各構成の動作を制御する。

メモリ１０５は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）又はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などであり、通信部１０１によって受信されたデータ（情報）、制御部１０４によって演算されたデータ（情報）、又は制御用のプログラム等を格納する。表示部１０６は、例えば液晶表示装置であり、種々の情報を表示する。

また、端末１００は、音声認識の結果である言葉又は文章を別の言語の言葉又は文章に翻訳する翻訳部（図示せず）を有してもよい。翻訳部が翻訳した結果は、例えば表示部１０６に表示してもよい。また、翻訳部が翻訳した結果は、例えば、端末１００の制御対象である家庭内に配置されたテレビなどの機器の表示画面に表示をしてもよい。

サーバ２００は、通信部２０１、制御部２０２及びメモリ２０３を備える。

通信部２０１は、ネットワーク３００を介して端末１００に情報を送信するとともに、ネットワーク３００を介して端末１００から情報を受信する。

制御部２０２は、例えば、ＣＰＵを有し、後述するメモリ２０３に格納された制御用のプログラムをＣＰＵが実行することにより、制御部２０２として機能する。制御部２０２は、例えば、通信部２０１によって受信された様々なデータ（情報）を処理し、サーバ２００内の各構成の動作を制御する。

メモリ２０３は、例えば、ＲＯＭ、ＲＡＭ又はＨＤＤなどであり、通信部２０１によって受信されたデータ（情報）、制御部２０２によって処理されたデータ（情報）、又は制御用のプログラム等を格納する。

図２は、本開示の実施の形態１における音声認識システムの機能構成を示す図である。図２に示すように、音声認識システムは、端末１００及びサーバ２００を備える。端末１００は、音声取得部１１、第１の収音処理部１２、第１の音声認識部１３及び調停部１４を備える。サーバ２００は、第２の収音処理部２１及び第２の音声認識部２２を備える。

なお、音声取得部１１は、マイク１０２によって実現され、第１の収音処理部１２、第１の音声認識部１３及び調停部１４は、制御部１０４によって実現される。また、第２の収音処理部２１及び第２の音声認識部２２は、制御部２０２によって実現される。

音声取得部１１は、第１の音声情報を取得する。ここで、音声情報とは、例えば音声の信号波形であるが、信号波形を周波数分析した音声の特徴量であっても構わない。不図示の通信部１０１は、音声取得部１１によって取得された第１の音声情報をサーバ２００へ送信する。サーバ２００の通信部２０１は、端末１００によって送信された第１の音声情報を受信する。

第１の収音処理部１２は、音声取得部１１によって取得された第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、ノイズを除去した音声情報を第２の音声情報として出力する。

第１の音声認識部１３は、第１の収音処理部１２によって出力された第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力する。第１の音声認識部１３は、音声認識を行った際の第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した第１の尤度を第１の音声認識結果情報とともに調停部１４に出力する。

第１の音声認識部１３は、第１の収音処理部１２によってノイズが除去された第２の音声情報に対する音声認識を行う。第１の音声認識部１３は、予め記憶された音響モデル及び言語モデルと、端末用辞書とを参照して、第２の音声情報に対する音声認識を行う。音声認識結果は、第２の音声情報を音声認識した結果の文字列である、複数の単語から構成される文字列データを含む。第１の尤度は、第２の音声情報の音声認識結果（つまり、第１の音声認識結果情報）の尤もらしさを示す。具体的には第１の尤度は、例えば、文字列データ全体の尤もらしさ、または文字列データを構成する各単語の尤もらしさを示す。

第１の音声認識部１３は、第２の音声情報から得られる発話内容と、端末用辞書に含まれる複数の語彙のそれぞれとの一致する度合い（尤度）を計算する。第１の音声認識部１３は、発話した内容と、最も一致する度合いの高い語彙を端末用辞書に含まれる語彙の中から選択し、選択した語彙を音声認識結果に含める。

第１の音声認識部１３は、発話内容に複数の単語が含まれる場合、各単語に対して一致する度合いの最も高い語彙を選択し、選択した語彙を音声認識結果に含める。

第１の音声認識部１３は、選択した語彙に対応する尤度を第１の尤度とする。

または、第１の音声認識部１３は、音声認識結果に複数の語彙が含まれる場合、各語彙に対応する尤度に基づいて、複数の語彙全体に対する尤度を算出し、算出した尤度を第１の尤度としてもよい。

第１の尤度の値は、第１の音声認識部１３が選択する語彙と、発話内容との一致する度合いが高い程、高くなる。

そして、第１の音声認識部１３は、音声認識結果を第１の音声認識結果情報として調停部１４へ出力する。また、第１の音声認識部１３は、第１の尤度を調停部１４へ出力する。

端末用辞書は、認識対象の単語が登録されてリスト化されたものであり、端末１００に記憶されている。端末用辞書には、例えば、端末１００の動作を制御するための単語が主に含まれる。端末用辞書には、例えば、端末１００が家庭内に配置された機器を制御するための単語が含まれていてもよい。

第２の収音処理部２１は、通信部２０１によって受信された第１の音声情報に含まれるノイズを、第１の除去方式よりも高いレベル（または、より多い量）のノイズを除去する第２の除去方式を用いて除去する。

逆に言えば、第１の収音処理部１２は、第１の音声情報に含まれるノイズを、第２の除去方式よりも低いレベル（または、より少ない量）のノイズを除去する第１の除去方式を用いて除去する。

第２の収音処理部２１は、第２の除去方式を用いて第１の音声情報からノイズを除去した音声情報を第３の音声情報として出力する。第２の収音処理部２１は、第１の収音処理部１２によるノイズ除去量よりも多い量のノイズを第１の音声情報から除去する。

第２の音声認識部２２は、第２の収音処理部２１によって出力された第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として出力する。第２の音声認識部２２は、音声認識を行った際の第２の音声認識結果情報の尤もらしさを示す第２の尤度を算出し、算出した第２の尤度を第２の音声認識結果情報とともに通信部２０１に出力する。通信部２０１は、第２の音声認識部２２によって出力された第２の音声認識結果情報および第２の尤度を端末１００へ送信する。端末１００の通信部１０１は、サーバ２００によって送信された第２の音声認識結果情報を受信する。通信部１０１は、サーバ２００によって音声認識を行った際に算出された第２の音声認識結果情報の尤もらしさを示す第２の尤度を受信し、受信した第２の尤度を調停部１４に出力する。

第２の音声認識部２２は、第２の収音処理部２１によってノイズが除去された第３の音声情報に対する音声認識を行う。第２の音声認識部２２は、予め記憶された音響モデル及び言語モデルと、サーバ用辞書とを参照して、第３の音声情報に対する音声認識を行う。音声認識結果は、第３の音声情報を音声認識した結果の文字列である、複数の単語から構成される文字列データを含む。第２の尤度は、第３の音声情報の音声認識結果（つまり第２の音声認識結果情報）の尤もらしさを示す。具体的には第２の尤度は、例えば、文字列データ全体の尤もらしさ、または文字列データを構成する各単語の尤もらしさを示す。

第２の音声認識部２２は、第３の音声情報から得られる発話内容と、サーバ用辞書に含まれる複数の語彙のそれぞれとの一致する度合い（尤度）を計算する。第２の音声認識部２２は、発話した内容と、最も一致する度合いの高い語彙をサーバ用辞書に含まれる語彙の中から選択し、選択した語彙を音声認識結果に含める。

第２の音声認識部２２は、発話内容に複数の単語が含まれる場合、各単語に対して一致する度合いの最も高い語彙を選択し、選択した語彙を音声認識結果に含める。

第２の音声認識部２２は、選択した語彙に対応する尤度を第２の尤度とする。

または、第２の音声認識部２２は、音声認識結果に複数の語彙が含まれる場合、各語彙に対応する尤度に基づいて、複数の語彙全体に対する尤度を算出し、算出した尤度を第２の尤度としてもよい。

第２の尤度の値は、第２の音声認識部２２が選択する語彙と、発話内容との一致する度合いが高い程、高くなる。

そして、第２の音声認識部２２は、音声認識結果を第２の音声認識結果情報として端末１００へ通信部２０１を介して送信する。第２の音声認識部２２は、第２の尤度を端末１００へ通信部２０１を介して送信する。

また、通信部１０１は、受信した第２の音声認識結果情報および第２の尤度を調停部１４に出力する。

サーバ用辞書は、認識対象の単語が登録されてリスト化されたものであり、サーバ２００に記憶されている。サーバ用辞書には、端末１００の動作を制御するための単語だけでなく、種々の検索キーワードなどが含まれる。サーバ用辞書には、端末１００が機器を制御するための情報が含まれていてもよい。サーバ用辞書の語彙数は、端末用辞書の語彙数よりも多い。サーバ用辞書の語彙数が例えば十万〜数十万語であるのに対し、端末用辞書の語彙数は例えば数十〜数百語である。

ここで、第１の収音処理部１２と第２の収音処理部２１との差異について説明する。第１の収音処理部１２は、複数の音声信号のパワー又は相関を用いた信号処理によりノイズを除去する。一方、第２の収音処理部２１は、上記の信号処理に加えて、音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを除去する。

モデル化においては、第２の収音処理部２１が受信する第１の音声情報（音声信号）を発話者の音声に対応する音声信号、ノイズに対応する信号に分離するためにパラメータを事前に決定する必要がある。

例えば、以下の処理を事前に行う。まず、予めモデル化に必要なパラメータを決めておく。そして、騒音が大きい環境下において、発話者が発話することにより得られる第１の音声情報に上述のモデルを適用し、ノイズに対応する信号を除去する処理を行い、この処理により得られる音声信号の評価を行う。

または、騒音が大きい環境下において、発話者が発話することにより得られる第１の音声情報に対し、第１の収音処理部１２と同じ処理を行い、第１の音声情報からノイズを除去した音声信号に対し、上述のモデルを適用し、ノイズに対応する信号を除去する処理を行い、この処理により得られる音声信号の評価を行うのでもよい。

この処理により得られる音声信号に対する評価値が、予め定めた評価値よりも低ければ、上述のパラメータを修正し、再度、騒音が大きい環境下において、発話者が発話することにより得られる第１の音声情報からノイズに対応する信号を除去する処理、音声信号の評価を行う。

この処理により得られる音声信号に対する評価値が、予め定めた評価値よりも高ければ、上述の音声信号を得るために用いたパラメータを第２の収音処理部２１の処理に用いるパラメータ（事前学習されたパラメータ）として保持する。

そして、事前学習されたパラメータを用いて、音声を示す信号又はノイズを示す信号を統計的にモデル化する。第２の収音処理部２１は、事前学習されたパラメータを保持している。

事前学習されたパラメータは、騒音が大きい環境下において、発話者が発話したとき、端末１００により取得される第１の音声情報に含まれる音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを除去するのに適したパラメータとなっている。

実際に音声認識が必要となった場合、第２の収音処理部２１は、事前学習されたパラメータを用いて、音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを第１の音声情報から除去する。

このとき、第２の収音処理部２１は、端末１００から取得される第１の音声情報を用いて、事前学習されたパラメータを必要に応じて更新してもよい。

このようにすることで、事前学習されたパラメータが発話者が発話している環境により適合したパラメータに更新される。

一般的な知見として、音声信号のパワー又は相関を用いた信号処理により第１の音声情報からノイズを除去する方式よりも、音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いて第１の音声情報からノイズを除去する方式の方が除去できるノイズの量は多い。

当然のことながら、音声信号のパワー又は相関を用いた信号処理により第１の音声情報からノイズを除去した後、この方式によりノイズが除去された第１の音声情報に含まれる音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを除去することにより、音声信号のパワー又は相関を用いた信号処理により第１の音声情報からノイズを除去する方式のみを行う場合に比べ第１の音声情報からより多くのノイズを除去できる。

つまり、第２の収音処理部２１が除去するノイズ量は、第１の収音処理部１２が除去するノイズ量よりも大きい。そのため、第２の収音処理部２１は、騒音が大きい環境においても、十分にノイズ（騒音）を除去し、ユーザの発話のみを抽出することができる。第２の収音処理部２１は、例えば、第１の収音処理部１２よりもより多くの事前学習されたパラメータを保持して、より多くの演算処理を行う。そのため、第２の収音処理部２１がノイズ除去に要する時間は、第１の収音処理部１２がノイズ除去に要する時間よりも長くなり、例えば数十ｍｓから数百ｍｓ程度長くなる。また、第２の収音処理部２１では、ノイズ除去処理のアルゴリズムをリアルタイムに更新することが可能であるのに対し、第１の収音処理部１２では、ノイズ除去処理のアルゴリズムを更新するためにプログラムのアップデートが必要となる。

上記のように第１の収音処理部１２は音声信号のパワー又は相関を用いてノイズを除去し、第２の収音処理部２１は音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを除去する。しかしながら、これらの収音処理部は、別の方法でノイズを除去してもよい。

すなわち、第２の収音処理部２１が第１の収音処理部１２よりも多くの量のノイズを第１の音声情報から除去するのであれば、第１の収音処理部１２、および第２の収音処理部２１のノイズを除去する具体的な処理はどのようなものであってもよい。

続いて、第１の音声認識部１３と第２の音声認識部２２との差異について説明する。上記のように、第１の音声認識部１３と第２の音声認識部２２とでは、音声認識に使用される辞書の語彙数が異なっており、サーバ用辞書の語彙数は、端末用辞書の語彙数よりも多い。そのため、第２の音声認識部２２の認識可能な単語数は、第１の音声認識部１３の認識可能な単語数よりも多い。なお、第１の音声認識部１３は、辞書を用いずに音声を単に文字化してもよい。第２の音声認識部２２が音声認識に要する時間は、第１の音声認識部１３が音声認識に要する時間よりも長くなり、例えば数十ｍｓから数百ｍｓ程度長くなる。また、第２の音声認識部２２では、音声認識処理のアルゴリズムをリアルタイムに更新することが可能であるのに対し、第１の音声認識部１３では、音声認識処理のアルゴリズムを更新するためにプログラムのアップデートが必要となる。

調停部１４は、第１の音声認識部１３によって出力された第１の音声認識結果情報と、通信部１０１によって受信された第２の音声認識結果情報とのうちのいずれを出力するかを選択する。調停部１４は、この選択を、第１の尤度及び第２の尤度の少なくとも１つに基づいて行う。すなわち、調停部１４は、第１の尤度が所定の第１の閾値より大きい場合には第１の音声認識結果情報を出力する。また、調停部１４は、第１の尤度が第１の閾値以下であり、第２の尤度が所定の第２の閾値より大きい場合には第２の音声認識結果情報を出力する。さらに、調停部１４は、第１の尤度が第１の閾値以下であり、第２の尤度が第２の閾値以下である場合には第１の音声認識結果情報及び第２の音声認識結果情報のいずれも出力しない。第１の閾値および第２の閾値は、例えば、端末１００のメモリ１０５に記憶されている。

なお、調停部１４は、第１の音声認識結果情報及び第２の音声認識結果情報のうち、先に入力された情報の尤度と閾値とを比較する。例えば、第１の音声認識結果情報が第２の音声認識結果情報よりも先に調停部１４に入力された場合、調停部１４は、第１の音声認識結果情報に対応する第１の尤度と第１の閾値とを比較し、第１の尤度が第１の閾値より大きい場合には第１の音声認識結果情報を出力する。一方、第１の尤度が第１の閾値以下である場合、調停部１４は、第２の音声認識結果情報が入力されるのを待ち、その後、第２の音声認識結果情報が入力された場合、第２の音声認識結果情報に対応する第２の尤度と第２の閾値とを比較し、第２の尤度が第２の閾値より大きい場合には第２の音声認識結果情報を出力する。このとき、第２の尤度が第２の閾値以下である場合、調停部１４は、満足のいく音声認識結果が得られなかったと判断し、第１の音声認識結果情報及び第２の音声認識結果情報のいずれも出力しない。以上の処理は、第２の音声認識結果情報が第１の音声認識結果情報よりも先に入力された場合にも、同様に行われる。

図３は、本開示の実施の形態１における音声認識システムの動作の一例を示すフローチャートである。

まず、ステップＳ１において、端末１００の音声取得部１１は、第１の音声情報を取得する。

次に、ステップＳ２において、通信部１０１は、音声取得部１１によって取得された第１の音声情報をサーバ２００へ送信する。

次に、ステップＳ３において、第１の収音処理部１２は、音声取得部１１によって取得された第１の音声情報に含まれるノイズを除去し、ノイズを除去した第２の音声情報を出力する。

次に、ステップＳ４において、第１の音声認識部１３は、第１の収音処理部１２によって出力された第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として調停部１４に出力する。また、第１の音声認識部１３は、第１の音声認識結果情報の尤もらしさを示す第１の尤度を調停部１４に出力する。

次に、ステップＳ５において、調停部１４は、第１の音声認識結果情報の尤もらしさを示す第１の尤度が第１の閾値より大きいか否かを判断する。なお、第１の閾値は、第１の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第１の尤度が第１の閾値より大きいと判断された場合（ステップＳ５でＹＥＳ）、ステップＳ６において、調停部１４は、第１の音声認識結果情報を出力する。

一方、第１の尤度が第１の閾値以下であると判断された場合（ステップＳ５でＮＯ）、ステップＳ７の処理へ移行する。

ここで、端末１００のステップＳ３〜ステップＳ５の処理に並行して、サーバ２００のステップＳ３１〜ステップＳ３４の処理が行われる。

ステップＳ３１において、サーバ２００の通信部２０１は、端末１００によって送信された第１の音声情報を受信する。

次に、ステップＳ３２において、第２の収音処理部２１は、通信部２０１によって受信された第１の音声情報に含まれるノイズを除去し、ノイズを除去した第３の音声情報を出力する。

次に、ステップＳ３３において、第２の音声認識部２２は、第２の収音処理部２１によって出力された第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として通信部２０１に出力する。また、第２の音声認識部２２は、第２の音声認識結果情報の尤もらしさを示す第２の尤度を通信部２０１に出力する。

次に、ステップＳ３４において、通信部２０１は、第２の音声認識部２２から出力された第２の音声認識結果情報及び第２の尤度を端末１００へ送信する。

次に、ステップＳ７において、端末１００の通信部１０１は、サーバ２００によって送信された第２の音声認識結果情報及び第２の尤度を受信する。また、通信部１０１は、第２の音声認識結果情報および第２の尤度を調停部１４に出力する。

次に、ステップＳ８において、調停部１４は、第２の音声認識結果情報の尤もらしさを示す第２の尤度が第２の閾値より大きいか否かを判断する。なお、第２の閾値は、第２の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第２の尤度が第２の閾値より大きいと判断された場合（ステップＳ８でＹＥＳ）、ステップＳ９において、調停部１４は、第２の音声認識結果情報を出力する。

一方、第２の尤度が第２の閾値以下であると判断された場合（ステップＳ８でＮＯ）、ステップＳ１０において、表示部１０６は、音声認識ができなかったことを示す音声認識不可情報をユーザに通知する。

図４は、音声認識不可情報を表示する表示画面の一例を示す図である。

図４に示すように、表示部１０６は、調停部１４によって第１の尤度が第１の閾値以下であり、且つ第２の尤度が第２の閾値以下であると判断された場合、表示画面上に音声認識不可情報１０６１を表示する。図４では、音声認識不可情報１０６１は、“音声認識できませんでした”という文字情報で構成される。

なお、本実施の形態では、端末１００は、音声認識不可情報を、表示部１０６に表示することによりユーザに通知するが、他の方法でユーザに通知してもよい。本開示は特にこれに限定されず、スピーカ１０３から音声出力することによりユーザに通知してもよい。

また、本実施の形態において、端末１００は、第１の音声情報がサーバ２００に送信されていることを示すサーバ送信情報をユーザに通知してもよい。

図５は、サーバ送信情報を表示する表示画面の一例を示す図である。

図５に示すように、表示部１０６は、第１の音声情報がサーバ２００に送信された場合、表示画面上にサーバ送信情報１０６２を表示する。図５では、サーバ送信情報１０６２は、音声情報がネットワークを介して送信されていることを示すアイコンで構成される。サーバ送信情報１０６２の表示は、第１の音声情報の送信開始タイミングで開始され、送信終了タイミングで終了してもよい。また、サーバ送信情報１０６２の表示は、第１の音声情報の送信開始タイミングで開始され、第２の音声認識結果情報の受信タイミングで終了してもよい。

なお、ユーザによっては、サーバ２００に音声情報を送信することを望まない可能性がある。そのため、事前に、ユーザに対して、サーバ２００に音声情報を送信するか否かを確認する送信確認情報を提示することが好ましい。

図６は、送信確認情報を表示する表示画面の一例を示す図である。

図６に示すように、表示部１０６は、初期設定時において、表示画面上に送信確認情報１０６３を表示する。図６では、送信確認情報１０６３は、“音声をクラウドにアップしてもよいですか？”という文字情報で構成される。送信確認情報１０６３は、端末１００の初期設定時に表示されてもよいし、第１の音声情報を最初に送信する際に表示されてもよい。

本実施の形態では、第１の音声認識部１３は、第１の音声認識結果情報および第１の尤度をそれぞれ調停部１４に出力するものを例に説明をしたが、これに限定をされない。

第１の音声認識部１３は、第１の尤度を、第２の音声情報に対する音声認識を行うときに算出する。例えば、第１の音声認識部１３は、第２の音声情報の音声認識結果および第１の尤度を含む第１の音声認識結果情報を調停部１４に出力してもよい。

この場合、調停部１４は、第１の音声認識結果情報の中から必要に応じて、第２の音声情報の音声認識結果および第１の尤度を取り出して処理を行えばよい。

本実施の形態では、第２の音声認識部２２は、第２の音声認識結果情報および第２の尤度をそれぞれ通信部２０１に出力するものを例に説明をしたが、これに限定をされない。

第２の音声認識部２２は、第２の尤度を、第３の音声情報に対する音声認識を行うときに算出する。例えば、第２の音声認識部２２は、第３の音声情報の音声認識結果および第２の尤度を含む第２の音声認識結果情報を通信部２０１に出力してもよい。

この場合、通信部２０１、通信部１０１および調停部１４のいずれかは、第２の音声認識結果情報の中から必要に応じて、第３の音声情報の音声認識結果または第２の尤度を取り出して処理を行ってもよい。

また、本実施の形態では、第１の音声認識部１３が、第１の音声認識結果情報および第１の尤度を調停部１４へ出力し、通信部１０１がサーバ２００により送信された第２の音声認識結果情報、および第２の尤度を調停部１４へ出力するものを例に説明をしたが、これに限定されない。

調停部１４は、第１の尤度が入力されれば、予め保持する第１の閾値との比較結果に応じて、第１の音声認識結果情報を出力すべきかどうかを判断できる。

また、調停部１４は、第２の尤度が入力されれば、予め保持する第２の閾値との比較結果に応じて、第２の音声認識結果情報を出力すべきかどうかを判断できる。

例えば、第１の音声認識部１３は、第１の音声認識結果情報を調停部１４に出力するのではなく、端末１００のメモリ１０５に記憶してもよい。この場合、第１の音声認識部１３は、第１の尤度を調停部１４に出力する。

また、例えば、通信部１０１は、第２の音声認識結果情報を調停部１４に出力するのではなく、端末１００のメモリ１０５に記憶してもよい。この場合、通信部１０１は、第２の尤度を調停部１４に出力する。

また、調停部１４は、出力すべきと判断した第１の音声認識結果情報または第２の音声認識結果情報をメモリ１０５から取り出して出力してもよい。また、調停部１４は、第１の音声認識結果情報および第２の音声認識結果情報を出力しないと判断した場合、メモリ１０５から、第１の音声認識結果情報および第２の音声認識結果情報を削除してもよい。

また、本実施の形態では、端末１００が調停部１４を備えているが、本開示は特にこれに限定されず、サーバ２００が調停部を備えてもよい。

図７は、本開示の実施の形態１の変形例における音声認識システムの機能構成を示す図である。図７に示すように、端末１００は、音声取得部１１、第１の収音処理部１２及び第１の音声認識部１３を備える。サーバ２００は、第２の収音処理部２１、第２の音声認識部２２及び調停部２３を備える。

端末１００の通信部１０１は、第１の音声認識部１３から出力された第１の音声認識結果情報および第１の尤度をサーバ２００へ送信する。サーバ２００の通信部２０１は、端末１００によって送信された第１の音声認識結果情報および第１の尤度を受信し、調停部２３へ出力する。

第２の音声認識部２２は、第２の収音処理部２１によって出力された第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として調停部２３へ出力する。また、第２の音声認識部２２は、第２の尤度を調停部２３へ出力する。

調停部２３は、通信部２０１によって受信された第１の音声認識結果情報と、第２の音声認識部２２によって出力された第２の音声認識結果情報とのうちのいずれを出力するかを選択する。なお、調停部２３の処理は、調停部１４の処理と同じであるので、説明を省略する。

サーバ２００の通信部２０１は、調停部２３から出力された選択結果を端末１００へ送信する。なお、選択結果は、第１の音声認識結果情報及び第２の音声認識結果情報のいずれか一方、又は、音声認識ができなかったことを示す情報を含む。端末１００の通信部１０１は、サーバ２００によって送信された選択結果を受信する。

このように、調停部は、端末１００とサーバ２００とのいずれが備えてもよい。調停部がサーバ２００にある場合、端末１００の演算量を削減することができる。また、調停部が端末１００にある場合、ネットワークを介して選択結果を受信する必要がないので、処理時間を短縮することができる。

なお、第１の収音処理部１２において第１の音声情報に含まれるノイズを除去する方式を第１の除去方式、第２の収音処理部２１において第１の音声情報に含まれるノイズを除去する方式を第２の除去方式として説明をした。しかしながら第１の除去方式、第２の除去方式というのは、第１の収音処理部１２、第２の収音処理部２１において行う第１の音声情報に含まれるノイズを除去する方式の名称である。

したがって、第１の収音処理部１２において第１の音声情報に含まれるノイズを除去する方式を第２の除去方式、第２の収音処理部２１において第１の音声情報に含まれるノイズを除去する方式を第１の除去方式と呼んでもよい。

（実施の形態２）
続いて、実施の形態２に係る音声認識システムについて説明する。実施の形態２における音声認識システムの全体構成は、図１と同じであるので説明を省略する。

図８は、本開示の実施の形態２における音声認識システムの機能構成を示す図である。図８に示すように、音声認識システムは、端末１００及びサーバ２００を備える。端末１００は、音声取得部１１、第１の収音処理部１２、第１の音声認識部１３及び調停部１４を備える。サーバ２００は、第２の収音処理部２１及び第２の音声認識部２２を備える。

サーバ２００の通信部２０１は、第２の収音処理部２１から出力された第３の音声情報を端末１００へ送信する。端末１００の通信部１０１は、第３の音声情報をサーバ２００から受信し、受信した第３の音声情報を第１の音声認識部１３へ出力する。第１の音声認識部１３は、通信部１０１によって受信された第３の音声情報に対して音声認識を行い、音声認識結果を第４の音声認識結果情報として調停部１４に出力する。

この場合、音声認識結果は、第３の音声情報の音声認識結果を含む。また、第１の音声認識部１３は、この認識結果の尤もらしさを示す第４の尤度を算出し、算出した第４の尤度を調停部１４に出力する。

実施の形態１において、説明をした第１の音声認識部１３における音声認識、尤度の算出において、第２の音声情報の代わりに第３の音声情報を用いて処理をすればよいので、第１の音声認識部１３における第３の音声情報に対する音声認識、第４の尤度の算出に関する詳細な説明は省略する。

また、通信部１０１は、第１の収音処理部１２によって出力された第２の音声情報をサーバ２００へ送信する。サーバ２００の通信部２０１は、端末１００によって送信された第２の音声情報を受信し、第２の音声認識部２２へ出力する。第２の音声認識部２２は、通信部２０１によって受信された第２の音声情報に対して音声認識を行い、音声認識結果を第３の音声認識結果情報として通信部２０１に出力する。

この場合、音声認識結果は、第２の音声情報の音声認識結果を含む。また、第２の音声認識部２２は、この音声認識結果の尤もらしさを示す第３の尤度を算出し、算出した第３の尤度を通信部２０１に出力する。

実施の形態１において、説明をした第２の音声認識部２２における音声認識、尤度の算出において、第３の音声情報の代わりに第２の音声情報を用いて処理をすればよいので、第２の音声認識部２２における第２の音声情報に対する音声認識、第３の尤度の算出に関する詳細な説明は省略する。

通信部２０１は、第２の音声認識部２２から出力された第３の音声認識結果情報および第３の尤度を端末１００へ送信する。通信部１０１は、第２の音声情報の音声認識結果である第３の音声認識結果情報をサーバ２００から受信し、受信した第３の音声認識結果情報を調停部１４へ出力する。

調停部１４は、第１の音声認識部１３によって出力された第１の音声認識結果情報と、通信部１０１によって受信された第２の音声認識結果情報と、通信部１０１によって受信された第３の音声認識結果情報と、第１の音声認識部１３によって出力された第４の音声認識結果情報とのうちのいずれを出力するかを選択する。

第１の音声認識部１３は、第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した第１の尤度を調停部１４に出力する。

通信部１０１は、サーバ２００から送信された第２の音声認識結果情報の尤もらしさを示す第２の尤度を受信し、受信した第２の尤度を調停部１４に出力する。また、通信部１０１は、サーバ２００から送信された第３の音声認識結果情報の尤もらしさを示す第３の尤度を受信し、受信した第３の尤度を調停部１４に出力する。

さらに、第１の音声認識部１３は、第４の音声認識結果情報の尤もらしさを示す第４の尤度を算出し、算出した第４の尤度を調停部１４に出力する。

調停部１４は、第１の音声認識結果情報と、第２の音声認識結果情報と、第３の音声認識結果情報と、第４の音声認識結果情報とのうちのいずれを出力するかを、第１の尤度、第２の尤度、第３の尤度及び第４の尤度のうちの少なくとも１つに基づいて選択する。

図９は、本開示の実施の形態２における音声認識システムの動作の一例を示す第１のフローチャートであり、図１０は、本開示の実施の形態２における音声認識システムの動作の一例を示す第２のフローチャートであり、図１１は、本開示の実施の形態２における音声認識システムの動作の一例を示す第３のフローチャートである。

まず、ステップＳ４１において、端末１００の音声取得部１１は、第１の音声情報を取得する。

次に、ステップＳ４２において、通信部１０１は、音声取得部１１によって取得された第１の音声情報をサーバ２００へ送信する。

次に、ステップＳ４３において、第１の収音処理部１２は、音声取得部１１によって取得された第１の音声情報に含まれるノイズを除去し、ノイズを除去した第２の音声情報を出力する。

次に、ステップＳ４４において、通信部１０１は、第１の収音処理部１２によってノイズが除去された第２の音声情報をサーバ２００へ送信する。

次に、ステップＳ４５において、第１の音声認識部１３は、第１の収音処理部１２によって出力された第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として調停部１４に出力する。また、第１の音声認識部１３は、第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した第１の尤度を調停部１４へ出力する。

次に、ステップＳ４６において、調停部１４は、第１の音声認識結果情報の尤もらしさを示す第１の尤度が第１の閾値より大きいか否かを判断する。なお、第１の閾値は、第１の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第１の尤度が第１の閾値より大きいと判断された場合（ステップＳ４６でＹＥＳ）、ステップＳ４７において、調停部１４は、第１の音声認識結果情報を出力する。

一方、第１の尤度が第１の閾値以下であると判断された場合（ステップＳ４６でＮＯ）、ステップＳ４８の処理へ移行する。

ここで、端末１００のステップＳ４４〜ステップＳ４６の処理に並行して、サーバ２００のステップＳ６１〜ステップＳ６３の処理が行われる。

ステップＳ６１において、サーバ２００の通信部２０１は、端末１００によって送信された第２の音声情報を受信する。

次に、ステップＳ６２において、第２の音声認識部２２は、通信部２０１によって受信された第２の音声情報に対して音声認識を行い、音声認識結果を第３の音声認識結果情報として通信部２０１に出力する。また、第２の音声認識部２２は、第３の音声認識結果情報の尤もらしさを示す第３の尤度を算出し、算出した第３の尤度を通信部２０１に出力する。

次に、ステップＳ６３において、通信部２０１は、第２の音声認識部２２から出力された第３の音声認識結果情報および第３の尤度を端末１００へ送信する。

次に、ステップＳ４８において、端末１００の通信部１０１は、サーバ２００によって送信された第３の音声認識結果情報および第３の尤度を受信する。また、通信部１０１は、第３の音声認識結果情報および第３の尤度を調停部１４に出力する。

次に、ステップＳ４９において、調停部１４は、第３の音声認識結果情報の尤もらしさを示す第３の尤度が第３の閾値より大きいか否かを判断する。なお、第３の閾値は、第３の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第３の尤度が第３の閾値より大きいと判断された場合（ステップＳ４９でＹＥＳ）、ステップＳ５０において、調停部１４は、第３の音声認識結果情報を出力する。

一方、第３の尤度が第３の閾値以下であると判断された場合（ステップＳ４９でＮＯ）、ステップＳ５１の処理へ移行する。

ここで、端末１００のステップＳ４２〜ステップＳ４９の処理に並行して、サーバ２００のステップＳ７１〜ステップＳ７３の処理が行われる。

ステップＳ７１において、サーバ２００の通信部２０１は、端末１００によって送信された第１の音声情報を受信する。

次に、ステップＳ７２において、第２の収音処理部２１は、通信部２０１によって受信された第１の音声情報に含まれるノイズを除去し、ノイズを除去した第３の音声情報を出力する。

次に、ステップＳ７３において、通信部２０１は、第２の収音処理部２１から出力された第３の音声情報を端末１００へ送信する。

次に、ステップＳ５１において、端末１００の通信部１０１は、サーバ２００によって送信された第３の音声情報を受信する。

次に、ステップＳ５２において、第１の音声認識部１３は、通信部１０１によって受信された第３の音声情報に対して音声認識を行い、音声認識結果を第４の音声認識結果情報として調停部１４に出力する。また、第１の音声認識部１３は、第４の音声認識結果情報の尤もらしさを示す第４の尤度を算出し、算出した第４の尤度を調停部１４に出力する。

次に、ステップＳ５３において、調停部１４は、第４の音声認識結果情報の尤もらしさを示す第４の尤度が第４の閾値より大きいか否かを判断する。なお、第４の閾値は、第４の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第４の尤度が第４の閾値より大きいと判断された場合（ステップＳ５３でＹＥＳ）、ステップＳ５４において、調停部１４は、第４の音声認識結果情報を出力する。

一方、第４の尤度が第４の閾値以下であると判断された場合（ステップＳ５３でＮＯ）、ステップＳ５５の処理へ移行する。

ここで、端末１００のステップＳ５２〜ステップＳ５３の処理に並行して、サーバ２００のステップＳ７４〜ステップＳ７５の処理が行われる。

ステップＳ７４において、第２の音声認識部２２は、第２の収音処理部２１から出力された第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として通信部２０１に出力する。また、第２の音声認識部２２は、第２の音声認識結果情報の尤もらしさを示す第２の尤度を算出し、算出した第２の尤度を通信部２０１に出力する。

次に、ステップＳ７５において、通信部２０１は、第２の音声認識部２２から出力された第２の音声認識結果情報および第２の尤度を端末１００へ送信する。

次に、ステップＳ５５において、端末１００の通信部１０１は、サーバ２００によって送信された第２の音声認識結果情報および第２の尤度を受信する。また、通信部１０１は、第２の音声認識結果情報および第２の尤度を調停部１４へ出力する。

次に、ステップＳ５６において、調停部１４は、第２の音声認識結果情報の尤もらしさを示す第２の尤度が第２の閾値より大きいか否かを判断する。なお、第２の閾値は、第２の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第２の尤度が第２の閾値より大きいと判断された場合（ステップＳ５６でＹＥＳ）、ステップＳ５７において、調停部１４は、第２の音声認識結果情報を出力する。

一方、第２の尤度が第２の閾値以下であると判断された場合（ステップＳ５６でＮＯ）、ステップＳ５８において、表示部１０６は、音声認識ができなかったことを示す音声認識不可情報をユーザに通知する。

なお、第１の閾値、第２の閾値、第３の閾値および第４の閾値は、例えば、端末１００のメモリ１０５に予め記憶されている。

本実施の形態では、第１の音声認識部１３は、第１の音声認識結果情報、第１の尤度、第４の音声認識結果情報および第４の尤度をそれぞれ調停部１４に出力するものを例に説明をしたが、これに限定をされない。

第１の音声認識部１３は、第４の尤度を、第３の音声情報に対する音声認識を行うときに算出する。例えば、第１の音声認識部１３は、第３の音声情報の音声認識結果および第４の尤度を含む第４の音声認識結果情報を調停部１４に出力してもよい。

この場合、調停部１４は、第４の音声認識結果情報の中から必要に応じて、第３の音声情報の音声認識結果および第４の尤度を取り出して処理を行えばよい。

本実施の形態では、第２の音声認識部２２は、第２の音声認識結果情報、第２の尤度、第３の音声認識結果情報および第３の尤度をそれぞれ通信部２０１に出力するものを例に説明をしたが、これに限定をされない。

第２の音声認識部２２は、第３の尤度を、第２の音声情報に対する音声認識を行うときに算出する。例えば、第２の音声認識部２２は、第２の音声情報の音声認識結果および第３の尤度を含む第３の音声認識結果情報を通信部２０１に出力してもよい。

この場合、通信部２０１、通信部１０１および調停部１４のいずれかは、第３の音声認識結果情報の中から必要に応じて、第２の音声情報の音声認識結果または第３の尤度を取り出して処理を行ってもよい。

また、本実施の形態では、第１の音声認識部１３が、第１の音声認識結果情報、第１の尤度、第４の音声認識結果情報、および第４の尤度を調停部１４へ出力し、通信部１０１がサーバ２００により送信された第２の音声認識結果情報、第２の尤度、第３の音声認識結果情報、第３の尤度を調停部１４へ出力するものを例に説明をした。しかしながら、これに限定をされるものではない。

調停部１４は、第１の尤度を受け取れば、予め保持する第１の閾値との比較結果に応じて、第１の音声認識結果情報を出力すべきかどうかを判断できる。

調停部１４は、第２の尤度を受け取れば、予め保持する第２の閾値との比較結果に応じて、第２の音声認識結果情報を出力すべきかどうかを判断できる。

調停部１４は、第３の尤度を受け取れば、予め保持する第３の閾値との比較結果に応じて、第３の音声認識結果情報を出力すべきかどうかを判断できる。

また、調停部１４は、第４の尤度を受け取れば、予め保持する第４の閾値との比較結果に応じて、第４の音声認識結果情報を出力すべきかどうかを判断できる。

例えば、第１の音声認識部１３は、第１の音声認識結果情報および第４の音声認識結果情報を調停部１４に出力するのではなく、端末１００のメモリ１０５に記憶してもよい。この場合、通信部１０１は、第１の尤度および第４の尤度を調停部１４に出力する。

また、例えば、通信部１０１は、第２の音声認識結果情報および第３の音声認識結果情報を調停部１４に出力するのではなく、端末１００のメモリ１０５に記憶してもよい。この場合、通信部１０１は、第２の尤度および第３の尤度を調停部１４に出力する。

また、例えば、調停部１４は、出力すべきと判断した第１の音声認識結果情報〜第４の音声認識結果情報のいずれかをメモリ１０５から取り出して出力してもよい。

また、調停部１４は、第１の音声認識結果情報〜第４の音声認識結果情報のいずれも出力すべきではないと判断した場合、メモリ１０５から、第１の音声認識結果情報〜第４の音声認識結果情報を削除してもよい。

なお、本実施の形態２では、ステップＳ６３の第３の音声認識結果情報を送信する処理は、ステップＳ７３の第３の音声情報を送信する処理よりも先に行われている。しかしながら、第３の音声情報を送信する処理が、第３の音声認識結果情報を送信する処理よりも先に行われる場合もある。

そこで、第３の音声情報を送信する処理が、第３の音声認識結果情報を送信する処理よりも先に行われる実施の形態２の変形例について説明する。

図１２は、本開示の実施の形態２の変形例における音声認識システムの動作の一例を示す第１のフローチャートであり、図１３は、本開示の実施の形態２の変形例における音声認識システムの動作の一例を示す第２のフローチャートである。なお、図１２のステップＳ４６以前の処理は、図９のステップＳ４１〜Ｓ４５の処理と同じであり、図１２のステップＳ１０１以前の処理は、図９のステップＳ７１〜Ｓ７２の処理と同じであり、図１３のステップＳ１１１以前の処理は、図９のステップＳ６１〜Ｓ６２の処理と同じである。

ステップＳ１０１において、通信部２０１は、第２の収音処理部２１から出力された第３の音声情報を端末１００へ送信する。

次に、ステップＳ８１において、端末１００の通信部１０１は、サーバ２００によって送信された第３の音声情報を受信する。

次に、ステップＳ８２において、第１の音声認識部１３は、通信部１０１によって受信された第３の音声情報に対して音声認識を行い、音声認識結果を第４の音声認識結果情報として調停部１４に出力する。また、第１の音声認識部１３は、第４の音声認識結果情報の尤もらしさを示す第４の尤度を算出し、算出した第４の尤度を調停部１４に出力する。

次に、ステップＳ８３において、調停部１４は、第４の音声認識結果情報の尤もらしさを示す第４の尤度が第４の閾値より大きいか否かを判断する。なお、第４の閾値は、第４の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第４の尤度が第４の閾値より大きいと判断された場合（ステップＳ８３でＹＥＳ）、ステップＳ８４において、調停部１４は、第４の音声認識結果情報を出力する。

一方、第４の尤度が第４の閾値以下であると判断された場合（ステップＳ８３でＮＯ）、ステップＳ８５の処理へ移行する。

ここで、端末１００のステップＳ４４〜ステップＳ８３の処理に並行して、サーバ２００のステップＳ６１〜ステップＳ１１１の処理が行われる。

次に、ステップＳ１１１において、通信部２０１は、第２の音声認識部２２から出力された第３の音声認識結果情報および第３の尤度を端末１００へ送信する。

次に、ステップＳ８５において、端末１００の通信部１０１は、サーバ２００によって送信された第３の音声認識結果情報および第３の尤度を受信する。通信部１０１は、第３の音声認識結果情報および第３の尤度を調停部１４へ出力する。

次に、ステップＳ８６において、調停部１４は、第３の音声認識結果情報の尤もらしさを示す第３の尤度が第３の閾値より大きいか否かを判断する。なお、第３の閾値は、第３の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第３の尤度が第３の閾値より大きいと判断された場合（ステップＳ８６でＹＥＳ）、ステップＳ８７において、調停部１４は、第３の音声認識結果情報を出力する。

一方、第３の尤度が第３の閾値以下であると判断された場合（ステップＳ８６でＮＯ）、ステップＳ８８の処理へ移行する。

ここで、端末１００のステップＳ８２〜ステップＳ８６の処理に並行して、サーバ２００のステップＳ１０２〜ステップＳ１０３の処理が行われる。

ステップＳ１０２において、第２の音声認識部２２は、第２の収音処理部２１から出力された第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として通信部２０１に出力する。また、第２の音声認識部２２は、第２の音声認識結果情報の尤もらしさを示す第２の尤度を算出し、算出した第２の尤度を通信部２０１に出力する。

次に、ステップＳ１０３において、通信部２０１は、第２の音声認識部２２から出力された第２の音声認識結果情報および第２の尤度を端末１００へ送信する。

次に、ステップＳ８８において、端末１００の通信部１０１は、サーバ２００によって送信された第２の音声認識結果情報および第２の尤度を受信する。通信部１０１は、第２の音声認識結果情報および第２の尤度を調停部１４に出力する。

次に、ステップＳ８９において、調停部１４は、第２の音声認識結果情報の尤もらしさを示す第２の尤度が第２の閾値より大きいか否かを判断する。なお、第２の閾値は、第２の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第２の尤度が第２の閾値より大きいと判断された場合（ステップＳ８９でＹＥＳ）、ステップＳ９０において、調停部１４は、第２の音声認識結果情報を出力する。

一方、第２の尤度が第２の閾値以下であると判断された場合（ステップＳ８９でＮＯ）、ステップＳ９１において、表示部１０６は、音声認識ができなかったことを示す音声認識不可情報をユーザに通知する。

（実施の形態３）
続いて、実施の形態３に係る音声認識システムについて説明する。実施の形態３における音声認識システムの全体構成は、図１と同じであるので説明を省略する。

図１４は、本開示の実施の形態３における音声認識システムの機能構成を示す図である。図１４に示すように、音声認識システムは、端末１００及びサーバ２００を備える。端末１００は、音声取得部１１、第１の収音処理部１２、第１の音声認識部１３及び調停部１４を備える。サーバ２００は、第２の収音処理部２１を備える。

実施の形態１における音声認識システムと、実施の形態３における音声認識システムとの差異は、サーバ２００が第２の音声認識部２２を備えているか否かである。

第２の収音処理部２１は、通信部２０１によって受信された第１の音声情報に含まれるノイズを除去し、ノイズを除去した第３の音声情報を出力する。

サーバ２００の通信部２０１は、第２の収音処理部２１から出力された第３の音声情報を端末１００へ送信する。

第１の音声認識部１３は、第１の収音処理部１２によって出力された第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として調停部１４に出力する。また、第１の音声認識部１３は、第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した第１の尤度を調停部１４に出力する。

また、第１の音声認識部１３は、通信部１０１によって受信された第３の音声情報に対して音声認識を行い、音声認識結果を第４の音声認識結果情報として調停部１４に出力する。また、第１の音声認識部１３は、第４の音声認識結果情報の尤もらしさを示す第４の尤度を算出し、算出した第４の尤度を調停部１４に出力する。

調停部１４は、第１の音声認識部１３によって出力された第１の音声認識結果情報と、第１の音声認識部１３によって出力された第４の音声認識結果情報とのうちのいずれを出力するかを選択する。なお、調停部１４の処理については、他の実施の形態と同じであるので、説明を省略する。

（実施の形態４）
続いて、実施の形態４に係る音声認識システムについて説明する。実施の形態４における音声認識システムの全体構成は、図１と同じであるので説明を省略する。

図１５は、本開示の実施の形態４における音声認識システムの機能構成を示す図である。図１５に示すように、音声認識システムは、端末１００及びサーバ２００を備える。端末１００は、音声取得部１１及び第１の収音処理部１２を備える。サーバ２００は、第２の収音処理部２１、第２の音声認識部２２及び調停部２３を備える。

実施の形態１の変形例における音声認識システム（図７）と、実施の形態４における音声認識システムとの差異は、端末１００が第１の音声認識部１３を備えているか否かである。

通信部１０１は、第１の収音処理部１２によって出力された第２の音声情報をサーバ２００へ送信する。サーバ２００の通信部２０１は、端末１００によって送信された第２の音声情報を受信し、第２の音声認識部２２へ出力する。第２の音声認識部２２は、通信部２０１によって受信された第２の音声情報に対して音声認識を行い、音声認識結果を第３の音声認識結果情報として調停部２３へ出力する。

第２の音声認識部２２は、第２の収音処理部２１によって出力された第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として調停部２３へ出力する。

調停部２３は、第２の音声認識部２２から出力された第３の音声認識結果情報と、第２の音声認識部２２から出力された第２の音声認識結果情報とのうちのいずれを出力するかを選択する。なお、調停部２３の処理については、他の実施の形態と同じであるので、説明を省略する。

（実施の形態５）
続いて、実施の形態５に係る音声認識システムについて説明する。実施の形態５における音声認識システムの全体構成は、図１と同じであるので説明を省略する。

図１６は、本開示の実施の形態５における音声認識システムの機能構成を示す図である。図１６に示すように、音声認識システムは、端末１００及びサーバ２００を備える。端末１００は、音声取得部１１、第１の収音処理部１２、第１の音声認識部１３、調停部１４、発話区間検出部１５及び発話継続時間測定部１７を備える。サーバ２００は、第２の収音処理部２１及び第２の音声認識部２２を備える。

実施の形態１における音声認識システムと、実施の形態５における音声認識システムとの差異は、端末１００が発話区間検出部１５および発話継続時間測定部１７を備えているか否かである。

発話区間検出部１５は、音声取得部１１によって取得された第１の音声情報におけるユーザが発話した発話区間を検出する。発話区間検出部１５は、一般的な発話区間検出（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）技術を用いて発話区間を検出する。例えば、発話区間検出部１５は、入力された音声信号の時系列で構成されたフレームにおいて、振幅と零交差数とに基づいて、そのフレームが音声区間か否かを検出する。また、例えば、発話区間検出部１５は、入力される音声情報の特徴量に基づき、ユーザが発話中である確率を音声モデルにより算出するとともに、ユーザの発話がない状態である確率を雑音モデルにより算出し、雑音モデルから得られた確率よりも音声モデルから得られた確率の方が高い区間を発話区間であると判定してもよい。

発話継続時間測定部１７は、発話区間検出部１５によって発話区間が検出された場合に、音声があると判断された区間（フレーム）の開始から終了までの時間を測定する。

第１の収音処理部１２は、発話区間検出部１５によって発話区間が検出されない場合には、第１の音声情報に含まれるノイズを除去せず、第２の音声情報を出力しない。また、通信部１０１は、発話区間検出部１５によって発話区間が検出されない場合には、第１の音声情報をサーバ２００へ送信しない。

第１の収音処理部１２は、発話区間検出部１５によって発話区間が検出された場合には、第１の音声情報に含まれるノイズを除去する。また、通信部１０１は、発話区間検出部１５によって発話区間が検出された場合には、発話区間内における第１の音声情報をサーバ２００へ送信する。

調停部１４は、音声認識部によって出力された第１の音声認識結果情報と、通信部１０１によって受信された第２の音声認識結果情報とのうちのいずれを出力するかを、少なくとも発話継続時間の長さに関する情報を用いて選択する。すなわち、調停部１４は、発話継続時間測定部１７によって検出された発話継続時間が所定の長さより長い場合に、第２の音声認識結果情報の尤もらしさを示す第２の尤度に乗算する重み付けを、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度に乗算する重み付けよりも上げる。発話継続時間が所定の時間の長さよりも長い場合、単語数が多い高度な音声指示を行っている可能性が高い。この場合、サーバ２００から出力される音声認識結果に乗算される重み付けを上げることにより、誤認識を防止することができる。

なお、図８に示す実施の形態２における音声認識システムにおいて、端末１００が発話区間検出部１５を備えてもよい。また、図８に示す実施の形態２における音声認識システムにおいて、端末１００が発話区間検出部１５及び発話継続時間測定部１７を備えてもよい。

この場合、調停部１４は、第１の音声認識結果情報と、第２の音声認識結果情報と、第３の音声認識結果情報と、第４の音声認識結果情報とのうちのいずれを出力するかを、少なくとも発話継続時間の長さに関する情報を用いて選択する。

また、調停部１４は、発話継続時間が所定の長さより長い場合に、第２の音声認識結果情報の尤もらしさを示す第２の尤度及び第３の音声認識結果情報の尤もらしさを示す第３の尤度に乗算する重み付けを、第１の音声認識結果情報の尤もらしさを示す第１の尤度及び第４の音声認識結果情報の尤もらしさを示す第４の尤度に乗算する重み付けよりも上げる。

さらに、調停部１４は、発話継続時間が所定の長さより長い場合に、第２の尤度に乗算する重み付けを、第３の尤度に乗算する重み付けよりも上げる。

また、本実施の形態５では、取得された音声情報に対して発話区間検出が行われるが、ノイズが除去された音声情報に対して発話区間検出を行ってもよい。そこで、ノイズが除去された音声情報に対して発話区間検出を行う実施の形態５の変形例について説明する。

図１７は、本開示の実施の形態５の変形例における音声認識システムの機能構成を示す図である。図１７に示すように、端末１００は、音声取得部１１、第１の収音処理部１２、第１の音声認識部１３、調停部１４、発話区間検出部１５及び音声送信判断部１６を備える。

発話区間検出部１５は、第１の収音処理部１２によってノイズが除去された第２の音声情報におけるユーザが発話した発話区間を検出する。発話区間検出部１５は、一般的な発話区間検出技術を用いて発話区間を検出する。

音声送信判断部１６は、発話区間検出部１５による発話区間の検出結果に基づいて、音声取得部１１によって取得された第１の音声情報を送信するか否かを判断する。音声送信判断部１６は、発話区間検出部１５によって発話区間が検出された場合、音声取得部１１によって取得された第１の音声情報を送信すると判断し、発話区間検出部１５によって発話区間が検出されない場合、音声取得部１１によって取得された第１の音声情報を送信しないと判断する。通信部１０１は、音声送信判断部１６による判断結果に基づいて、音声取得部１１によって取得された第１の音声情報を送信する。

このように、ノイズが除去された音声情報である第２の音声情報に対して発話区間の検出を行うことにより、より高い精度で発話区間を検出することができる。

本開示に係る音声認識装置及び音声認識方法は、騒音環境では音声認識の正確性を向上させることができ、静音環境では音声認識の高速化を実現することができ、音声情報に含まれるノイズを除去し、ノイズを除去した音声情報に対して音声認識を行う音声認識装置及び音声認識方法として有用である。

１１音声取得部
１２第１の収音処理部
１３第１の音声認識部
１４調停部
１５発話区間検出部
１６音声送信判断部
２１第２の収音処理部
２２第２の音声認識部
２３調停部
１００端末
１０１通信部
１０２マイク
１０３スピーカ
１０４制御部
１０５メモリ
１０６表示部
２００サーバ
２０１通信部
２０２制御部
２０３メモリ
３００ネットワーク

Claims

第１の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力するノイズ除去処理部と、
前記ノイズ除去処理部によって出力された前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力する音声認識部と、
前記音声取得部によって取得された前記第１の音声情報をサーバへ送信し、前記サーバにおいて、前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去され、前記ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果を第２の音声認識結果情報として前記サーバから受信する通信部と、
前記音声認識部によって出力された前記第１の音声認識結果情報と、前記通信部によって受信された前記第２の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
前記音声取得部によって取得された前記第１の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
を備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去しないとともに、前記第２の音声情報を出力せず、
前記通信部は、前記第１の音声情報を前記サーバへ送信せず、
前記音声認識部は、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した前記第１の尤度を前記調停部に出力し、
前記通信部は、前記サーバによって算出された前記第２の音声認識結果情報の尤もらしさを示す第２の尤度を受信し、受信した前記第２の尤度を前記調停部に出力し、
前記調停部は、前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを、前記第１の尤度及び前記第２の尤度の少なくとも１つに基づいて選択する、
音声認識装置。
前記調停部は、
前記第１の尤度が所定の第１の閾値より大きい場合には前記第１の音声認識結果情報を出力し、
前記第１の尤度が前記第１の閾値以下であり、前記第２の尤度が所定の第２の閾値より大きい場合には前記第２の音声認識結果情報を出力し、
前記第１の尤度が前記第１の閾値以下であり、前記第２の尤度が前記第２の閾値以下である場合には前記第１の音声認識結果情報及び前記第２の音声認識結果情報のいずれも出力しない、
請求項１記載の音声認識装置。
第１の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力するノイズ除去処理部と、
前記ノイズ除去処理部によって出力された前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力する音声認識部と、
前記音声取得部によって取得された前記第１の音声情報をサーバへ送信し、前記サーバにおいて、前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去され、前記ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果を第２の音声認識結果情報として前記サーバから受信する通信部と、
前記音声認識部によって出力された前記第１の音声認識結果情報と、前記通信部によって受信された前記第２の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
前記音声取得部によって取得された前記第１の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部と、
を備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去しないとともに、前記第２の音声情報を出力せず、
前記通信部は、前記第１の音声情報をサーバへ送信せず、
前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去し、
前記通信部は、前記発話区間内における前記第１の音声情報を前記サーバへ送信し、
前記調停部は、前記音声認識部によって出力された前記第１の音声認識結果情報と、前記通信部によって受信された前記第２の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
音声認識装置。
前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第２の音声認識結果情報の尤もらしさを示す第２の尤度に乗算する重み付けを、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度に乗算する重み付けよりも上げる、
請求項３記載の音声認識装置。
第１の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力するノイズ除去処理部と、
前記ノイズ除去処理部によって出力された前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力する音声認識部と、
前記音声取得部によって取得された前記第１の音声情報をサーバへ送信し、前記サーバにおいて、前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去され、前記ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果を第２の音声認識結果情報として前記サーバから受信する通信部と、
前記音声認識部によって出力された前記第１の音声認識結果情報と、前記通信部によって受信された前記第２の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
を備え、
前記通信部は、前記第３の音声情報を前記サーバから受信し、受信した前記第３の音声情報を前記音声認識部へ出力し、
前記音声認識部は、前記通信部によって受信された前記第３の音声情報に対して音声認識を行い、音声認識結果を第４の音声認識結果情報として出力し、
前記通信部は、前記ノイズ除去処理部によって出力された前記第２の音声情報をサーバへ送信し、前記第２の音声情報に対して音声認識が行われた音声認識結果を第３の音声認識結果情報として前記サーバから受信し、受信した前記第３の音声認識結果情報を前記調停部へ出力し、
前記調停部は、前記音声認識部によって出力された前記第１の音声認識結果情報と、前記通信部によって受信された前記第２の音声認識結果情報と、前記通信部によって受信された前記第３の音声認識結果情報と、前記音声認識部によって出力された前記第４の音声認識結果情報とのうちのいずれを出力するかを選択する、
音声認識装置。
前記音声認識部は、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した前記第１の尤度を前記調停部に出力し、
前記通信部は、前記サーバによって算出された前記第２の音声認識結果情報の尤もらしさを示す第２の尤度を受信し、受信した前記第２の尤度を前記調停部に出力し、
前記通信部は、前記サーバによって算出された前記第３の音声認識結果情報の尤もらしさを示す第３の尤度を受信し、受信した前記第３の尤度を前記調停部に出力し、
前記音声認識部は、前記第４の音声認識結果情報の尤もらしさを示す第４の尤度を算出し、算出した前記第４の尤度を前記調停部に出力し、
前記調停部は、前記第１の音声認識結果情報と、前記第２の音声認識結果情報と、前記第３の音声認識結果情報と、前記第４の音声認識結果情報とのうちのいずれを出力するかを、前記第１の尤度、前記第２の尤度、前記第３の尤度及び前記第４の尤度のうちの少なくとも１つに基づいて選択する、
請求項５記載の音声認識装置。
前記音声取得部によって取得された前記第１の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部をさらに備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去しないとともに、前記第２の音声情報を出力せず、
前記通信部は、前記第１の音声情報をサーバへ送信しない、
請求項５又は６記載の音声認識装置。
前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部をさらに備え、
前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去し、
前記通信部は、前記発話区間内における前記第１の音声情報を前記サーバへ送信し、
前記調停部は、前記第１の音声認識結果情報と、前記第２の音声認識結果情報と、前記第３の音声認識結果情報と、前記第４の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
請求項７記載の音声認識装置。
前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第２の音声認識結果情報の尤もらしさを示す第２の尤度及び前記第３の音声認識結果情報の尤もらしさを示す第３の尤度に乗算する重み付けを、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度及び前記第４の音声認識結果情報の尤もらしさを示す第４の尤度に乗算する重み付けよりも上げる、
請求項８記載の音声認識装置。
前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第２の尤度に乗算する重み付けを、前記第３の尤度に乗算する重み付けよりも上げる、
請求項９記載の音声認識装置。
第１の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力するノイズ除去処理部と、
前記音声取得部によって取得された前記第１の音声情報をサーバへ送信し、前記サーバにおいて前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去された第３の音声情報を前記サーバから受信する通信部と、
前記ノイズ除去処理部によって出力された前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として出力する音声認識部と、
前記音声認識部によって出力された前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
前記音声取得部によって取得された前記第１の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
を備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去しないとともに、前記第２の音声情報を出力せず、
前記通信部は、前記第１の音声情報をサーバへ送信せず、
前記音声認識部は、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した前記第１の尤度を前記調停部に出力し、
前記音声認識部は、前記第２の音声認識結果情報の尤もらしさを示す第２の尤度を算出し、算出した前記第２の尤度を前記調停部に出力し、
前記調停部は、前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを、前記第１の尤度及び前記第２の尤度の少なくとも１つに基づいて選択する、
音声認識装置。
通信部、ノイズ除去処理部、音声認識部、調停部及び発話区間検出部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、
前記通信部が、前記端末によって取得された第１の音声情報を受信し、
前記ノイズ除去処理部が、受信した前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力し、
前記音声認識部が、前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力し、
前記通信部が、前記端末において、前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去され、前記ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果を第２の音声認識結果情報として前記端末から受信し、
前記調停部が、前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを選択し、
前記発話区間検出部が、前記通信部によって受信された前記第１の音声情報におけるユーザが発話した発話区間を検出し、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部が、前記第１の音声情報に含まれるノイズを除去しないとともに、前記第２の音声情報を出力せず、
前記音声認識部が、前記第１の音声認識結果情報の尤もらしさを示す第１の尤度を算出し、算出した前記第１の尤度を前記調停部に出力し、
前記通信部が、前記端末によって算出された前記第２の音声認識結果情報の尤もらしさを示す第２の尤度を受信し、受信した前記第２の尤度を前記調停部に出力し、
前記調停部が、前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを、前記第１の尤度及び前記第２の尤度の少なくとも１つに基づいて選択する、
音声認識方法。
第１の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力するノイズ除去処理部と、
前記音声取得部によって取得された前記第１の音声情報をサーバへ送信し、前記サーバにおいて前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去された第３の音声情報を前記サーバから受信する通信部と、
前記ノイズ除去処理部によって出力された前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として出力する音声認識部と、
前記音声認識部によって出力された前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
前記音声取得部によって取得された前記第１の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部と、
を備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去しないとともに、前記第２の音声情報を出力せず、
前記通信部は、前記第１の音声情報をサーバへ送信せず、
前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第１の音声情報に含まれるノイズを除去し、
前記通信部は、前記発話区間内における前記第１の音声情報を前記サーバへ送信し、
前記調停部は、前記音声認識部によって出力された前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
音声認識装置。
通信部、ノイズ除去処理部、音声認識部、調停部、発話区間検出部及び発話継続時間測定部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、
前記通信部が、前記端末によって取得された第１の音声情報を受信し、
前記ノイズ除去処理部が、受信した前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力し、
前記音声認識部が、前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力し、
前記通信部が、前記端末において、前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去され、前記ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果を第２の音声認識結果情報として前記端末から受信し、
前記調停部が、前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを選択し、
前記発話区間検出部が、前記通信部によって受信された前記第１の音声情報におけるユーザが発話した発話区間を検出し、
前記発話継続時間測定部が、前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定し、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部が、前記第１の音声情報に含まれるノイズを除去しないとともに、前記第２の音声情報を出力せず、
前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部が、前記第１の音声情報に含まれるノイズを除去し、
前記調停部が、前記音声認識部によって出力された前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
音声認識方法。
第１の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力するノイズ除去処理部と、
前記音声取得部によって取得された前記第１の音声情報をサーバへ送信し、前記サーバにおいて前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第１の音声情報から除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去された第３の音声情報を前記サーバから受信する通信部と、
前記ノイズ除去処理部によって出力された前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第３の音声情報に対して音声認識を行い、音声認識結果を第２の音声認識結果情報として出力する音声認識部と、
前記音声認識部によって出力された前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
を備え、
前記通信部は、前記サーバにおいて、前記第３の音声情報に対して音声認識が行われた結果である、音声認識結果を第３の音声認識結果情報として前記サーバから受信し、受信した前記第３の音声認識結果情報を前記調停部へ出力し、
前記通信部は、前記ノイズ除去処理部によって出力された前記第２の音声情報を前記サーバへ送信し、前記第２の音声情報に対して音声認識が行われた音声認識結果を第４の音声認識結果情報として前記サーバから受信し、受信した前記第４の音声認識結果情報を前記調停部へ出力し、
前記調停部は、前記音声認識部によって出力された前記第１の音声認識結果情報と、前記音声認識部によって出力された前記第２の音声認識結果情報と、前記通信部によって受信された前記第３の音声認識結果情報と、前記通信部によって受信された前記第４の音声認識結果情報とのうちのいずれを出力するかを選択する、
音声認識装置。
通信部、ノイズ除去処理部、音声認識部及び調停部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、
前記通信部が、前記端末によって取得された第１の音声情報を受信し、
前記ノイズ除去処理部が、受信した前記第１の音声情報に含まれるノイズを第１の除去方式を用いて除去し、前記ノイズを除去した音声情報を第２の音声情報として出力し、
前記音声認識部が、前記第２の音声情報に対して音声認識を行い、音声認識結果を第１の音声認識結果情報として出力し、
前記通信部が、前記端末において、前記第１の除去方式により前記第１の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第２の除去方式を用いて前記第１の音声情報に含まれるノイズが除去され、前記ノイズが除去された第３の音声情報に対して音声認識が行われた結果である、音声認識結果を第２の音声認識結果情報として前記端末から受信し、
前記調停部が、前記第１の音声認識結果情報と前記第２の音声認識結果情報とのうちのいずれを出力するかを選択し、
前記通信部が、前記第２の音声情報を前記端末へ送信し、
前記通信部が、前記端末において、前記第２の除去方式を用いて前記第２の音声情報に含まれるノイズが除去され、前記ノイズが除去された第４の音声情報に対して音声認識が行われた結果である、音声認識結果を第３の音声認識結果情報として前記端末から受信し、
前記通信部が、前記第３の音声情報を前記端末から受信し、受信した前記第３の音声情報を前記音声認識部へ出力し、
前記音声認識部が、前記通信部によって受信された前記第３の音声情報に対して音声認識を行い、音声認識結果を第４の音声認識結果情報として出力し、
前記調停部が、前記音声認識部によって出力された前記第１の音声認識結果情報と、前記通信部によって受信された前記第２の音声認識結果情報と、前記通信部によって受信された前記第３の音声認識結果情報と、前記音声認識部によって出力された前記第４の音声認識結果情報とのうちのいずれを出力するかを選択する、
音声認識方法。