JP6754184B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP6754184B2
JP6754184B2 JP2015239951A JP2015239951A JP6754184B2 JP 6754184 B2 JP6754184 B2 JP 6754184B2 JP 2015239951 A JP2015239951 A JP 2015239951A JP 2015239951 A JP2015239951 A JP 2015239951A JP 6754184 B2 JP6754184 B2 JP 6754184B2
Authority
JP
Japan
Prior art keywords
voice
voice recognition
information
unit
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015239951A
Other languages
English (en)
Other versions
JP2016126330A (ja
Inventor
剛樹 西川
剛樹 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JP2016126330A publication Critical patent/JP2016126330A/ja
Application granted granted Critical
Publication of JP6754184B2 publication Critical patent/JP6754184B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Description

本開示は、音声情報に含まれるノイズを除去し、ノイズを除去した音声情報に対して音声認識を行う音声認識装置及び音声認識方法に関するものである。
従来、音声によって端末を制御する機能、又は音声によってキーワードを検索する機能が検討されている。これらの機能を実現するために、従来は端末を操作するためのリモコンにマイクロホンが搭載され、マイクロホンにより収音されている。近年では、さらなる利便性向上を目的に、端末がマイクロホンを内蔵し、端末から離れたところからユーザが発話しても端末を動作させることができるようにする技術が検討されている。しかしながら、端末から離れたところからユーザが発話することで、ユーザが発話した音声と不要な音(雑音)との音量差がなくなり、端末において正しく発話内容を認識することが困難になる。従来、端末の音声認識処理機能は、端末操作に関する発話に対してレスポンスを速くするために利用され、サーバの音声認識処理機能は、膨大な語彙数の辞書を必要とする情報検索に関する発話にレスポンスするために利用されてきた。
例えば、特許文献1では、サーバが辞書規模優先の音声認識手段を備え、クライアントが速度優先の音声認識手段を備えている。
特開2013−64777号公報
しかしながら、特許文献1では、ユーザがマイクロホンから離れた位置から発話した場合、音声にノイズが含まれ、音声認識が正確に実行されないという課題がある。さらに、特許文献1では、ノイズ除去処理を端末とサーバとに分散させておらず、ノイズ除去処理と音声認識処理との両方を実行する構成又は条件について検討されていない。
本開示は、上記の問題を解決するためになされたもので、高騒音環境では音声認識の正確性を向上させることができ、低騒音環境では音声認識の高速化を実現することができる音声認識装置及び音声認識方法を提供することを目的とするものである。
本開示の一局面に係る音声認識装置は、第1の音声情報を取得する音声取得部と、前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力する音声認識部と、前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記サーバから受信する通信部と、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、を備える。
本開示によれば、高騒音環境では、音声認識装置よりも多くの量のノイズを第1の音声情報から除去することが可能なサーバにおいてノイズを第1の音声情報から除去することで、音声認識の正確性を向上させることができ、静音環境では音声認識装置において第1の音声情報からノイズを除去することで、音声認識の高速化を実現することができる。
図1は、本開示の実施の形態1に係る音声認識システムの全体構成を示す図である。 図2は、本開示の実施の形態1における音声認識システムの機能構成を示す図である。 図3は、本開示の実施の形態1における音声認識システムの動作の一例を示すフローチャートである。 図4は、音声認識不可情報を表示する表示画面の一例を示す図である。 図5は、サーバ送信情報を表示する表示画面の一例を示す図である。 図6は、送信確認情報を表示する表示画面の一例を示す図である。 図7は、本開示の実施の形態1の変形例における音声認識システムの機能構成を示す図である。 図8は、本開示の実施の形態2における音声認識システムの機能構成を示す図である。 図9は、本開示の実施の形態2における音声認識システムの動作の一例を示す第1のフローチャートである。 図10は、本開示の実施の形態2における音声認識システムの動作の一例を示す第2のフローチャートである。 図11は、本開示の実施の形態2における音声認識システムの動作の一例を示す第3のフローチャートである。 図12は、本開示の実施の形態2の変形例における音声認識システムの動作の一例を示す第1のフローチャートである。 図13は、本開示の実施の形態2の変形例における音声認識システムの動作の一例を示す第2のフローチャートである。 図14は、本開示の実施の形態3における音声認識システムの機能構成を示す図である。 図15は、本開示の実施の形態4における音声認識システムの機能構成を示す図である。 図16は、本開示の実施の形態5における音声認識システムの機能構成を示す図である。 図17は、本開示の実施の形態5の変形例における音声認識システムの機能構成を示す図である。
(本発明の基礎となった知見)
特許文献1では、ユーザがマイクロホンから離れた位置から発話した場合、音声にノイズが含まれ、音声認識が正しく動作しないという課題がある。さらに、特許文献1では、ノイズ除去処理を端末とサーバとに分散させておらず、ノイズ除去処理と音声認識処理とを併用した構成又は条件について検討されていない。
本開示は、上記の問題を解決するためになされたもので、高騒音環境では音声認識の正確性を向上させることができ、低騒音環境では音声認識の高速化を実現することができる音声認識装置及び音声認識方法を提供する。
本開示の一局面に係る音声認識装置は、第1の音声情報を取得する音声取得部と、前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力する音声認識部と、前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記サーバから受信する通信部と、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、を備える。
この構成によれば、第1の音声情報が取得される。取得された第1の音声情報に含まれるノイズが第1の除去方式を用いて除去され、ノイズが除去された音声情報が第2の音声情報として出力される。出力された第2の音声情報に対して音声認識が行われ、音声認識結果が第1の音声認識結果情報として出力される。また、取得された第1の音声情報がサーバへ送信され、サーバにおいて、第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて第1の音声情報に含まれるノイズが除去され、ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果が第2の音声認識結果情報としてサーバから受信される。出力された第1の音声認識結果情報と、受信された第2の音声認識結果情報とのうちのいずれを出力するかが選択される。
したがって、高騒音環境では、音声認識装置よりもより多くの量のノイズを第1の音声情報から除去することが可能なサーバにおいてノイズを除去することで、音声認識の正確性を向上させることができ、低騒音環境では音声認識装置において第1の音声情報からノイズを除去することで、音声認識の高速化を実現することができる。
また、上記の音声認識装置において、前記音声認識部は、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、前記通信部は、前記サーバによって算出された前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した前記第2の尤度を前記調停部に出力し、前記調停部は、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度及び前記第2の尤度の少なくとも1つに基づいて選択してもよい。
この構成によれば、第1の音声認識結果情報の尤もらしさを示す第1の尤度が算出され、算出された第1の尤度が出力される。また、サーバによって算出された第2の音声認識結果情報の尤もらしさを示す第2の尤度が受信され、受信された第2の尤度が出力される。そして、第1の音声認識結果情報と第2の音声認識結果情報とのうちのいずれを出力するかが、第1の尤度及び第2の尤度の少なくとも1つに基づいて選択される。
したがって、出力される音声認識結果が尤度に基づいて選択されるので、より正確な音声認識結果を出力することができる。
また、上記の音声認識装置において、前記調停部は、前記第1の尤度が所定の第1の閾値より大きい場合には前記第1の音声認識結果情報を出力し、前記第1の尤度が前記第1の閾値以下であり、前記第2の尤度が所定の第2の閾値より大きい場合には前記第2の音声認識結果情報を出力し、前記第1の尤度が前記第1の閾値以下であり、前記第2の尤度が前記第2の閾値以下である場合には前記第1の音声認識結果情報及び前記第2の音声認識結果情報のいずれも出力しなくてもよい。
この構成によれば、第1の尤度が所定の第1の閾値より大きい場合には第1の音声認識結果情報が出力され、第1の尤度が第1の閾値以下であり、第2の尤度が所定の第2の閾値より大きい場合には第2の音声認識結果情報が出力され、第1の尤度が第1の閾値以下であり、第2の尤度が第2の閾値以下である場合には第1の音声認識結果情報及び第2の音声認識結果情報のいずれも出力されない。
したがって、尤度と閾値とを比較することにより音声認識結果が選択されるので、出力する音声認識結果をより簡単な構成で選択することができる。
また、上記の音声認識装置において、前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部をさらに備え、前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、前記通信部は、前記第1の音声情報をサーバへ送信しなくてもよい。
この構成によれば、取得された第1の音声情報におけるユーザが発話した発話区間が検出される。そして、発話区間が検出されない場合には、第1の音声情報に含まれるノイズが除去されないとともに、第2の音声情報が出力されず、第1の音声情報がサーバへ送信されない。
したがって、ユーザが発話した発話区間でなければ、第1の音声情報に含まれるノイズが除去されないとともに、第2の音声情報が出力されず、第1の音声情報がサーバへ送信されないので、不要な演算処理が行われるのを防止することができるとともに、不要な情報が送信されるのを防止することができる。
また、上記の音声認識装置において、前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部をさらに備え、前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去し、前記通信部は、前記発話区間内における前記第1の音声情報を前記サーバへ送信し、前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択してもよい。
この構成によれば、発話区間が検出された場合に、検出された発話区間の継続時間である発話継続時間が測定される。発話区間が検出された場合には、第1の音声情報に含まれるノイズが除去されるとともに、発話区間内における第1の音声情報がサーバへ送信される。そして、出力された第1の音声認識結果情報と、受信された第2の音声認識結果情報とのうちのいずれを出力するかが、少なくとも発話継続時間の長さに関する情報を用いて選択される。
したがって、少なくとも発話継続時間の長さに関する情報が用いられることにより音声認識結果が選択されるので、出力する音声認識結果をより簡単な構成で選択することができる。
また、上記の音声認識装置において、前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第2の音声認識結果情報の尤もらしさを示す第2の尤度に乗算する重み付けを、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度に乗算する重み付けよりも上げてもよい。
この構成によれば、発話継続時間が所定の長さより長い場合に、第2の音声認識結果情報の尤もらしさを示す第2の尤度に乗算する重み付けが、第1の音声認識結果情報の尤もらしさを示す第1の尤度に乗算する重み付けよりも上げられる。発話継続時間が長い場合、単語数が多い高度な音声指示を行っている可能性が高い。そのため、発話継続時間が長い場合、サーバから出力される音声認識結果を採用することにより、誤認識を防止することができる。
また、上記の音声認識装置において、前記通信部は、前記第3の音声情報を前記サーバから受信し、受信した前記第3の音声情報を前記音声認識部へ出力し、前記音声認識部は、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第4の音声認識結果情報として出力し、前記ノイズ除去処理部によって出力された前記第2の音声情報をサーバへ送信し、前記第2の音声情報に対して音声認識が行われた音声認識結果を第3の音声認識結果情報として前記サーバから受信し、受信した前記第3の音声認識結果情報を前記調停部へ出力し、前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報と、前記通信部によって受信された前記第3の音声認識結果情報と、前記音声認識部によって出力された前記第4の音声認識結果情報とのうちのいずれを出力するかを選択してもよい。
この構成によれば、第3の音声情報がサーバから受信され、受信された第3の音声情報が音声認識部へ出力される。受信された第3の音声情報に対して音声認識が行われ、音声認識結果が第4の音声認識結果情報として出力される。また、出力された第2の音声情報がサーバへ送信され、第2の音声情報に対して音声認識が行われた音声認識結果が第3の音声認識結果情報としてサーバから受信され、受信された第3の音声認識結果情報が調停部へ出力される。そして、出力された第1の音声認識結果情報と、受信された第2の音声認識結果情報と、受信された第3の音声認識結果情報と、出力された第4の音声認識結果情報とのうちのいずれを出力するかが選択される。
したがって、音声認識装置によりノイズ除去処理及び音声認識処理が行われた第1の音声認識結果と、サーバによりノイズ除去処理及び音声認識処理が行われた第2の音声認識結果と、音声認識装置によりノイズ除去処理が行われてサーバにより音声認識処理が行われた第3の音声認識結果と、サーバによりノイズ除去処理が行われて音声認識装置により音声認識処理が行われた第4の音声認識結果とのいずれかが出力されるので、環境音の状態と音声認識の性能とに応じて最適な音声認識結果を得ることができる。
また、上記の音声認識装置において、前記音声認識部は、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、前記通信部は、前記サーバによって算出された前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した前記第2の尤度を前記調停部に出力し、前記通信部は、前記サーバによって算出された前記第3の音声認識結果情報の尤もらしさを示す第3の尤度を受信し、受信した前記第3の尤度を前記調停部に出力し、前記音声認識部は、前記第4の音声認識結果情報の尤もらしさを示す第4の尤度を算出し、算出した前記第4の尤度を前記調停部に出力し、前記調停部は、前記第1の音声認識結果情報と、前記第2の音声認識結果情報と、前記第3の音声認識結果情報と、前記第4の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度、前記第2の尤度、前記第3の尤度及び前記第4の尤度のうちの少なくとも1つに基づいて選択してもよい。
この構成によれば、第1の音声認識結果情報の尤もらしさを示す第1の尤度が算出され、算出された第1の尤度が出力される。また、サーバによって算出された第2の音声認識結果情報の尤もらしさを示す第2の尤度が受信され、受信された第2の尤度が出力される。さらに、サーバによって算出された第3の音声認識結果情報の尤もらしさを示す第3の尤度が受信され、受信された第3の尤度が出力される。さらにまた、第4の音声認識結果情報の尤もらしさを示す第4の尤度が算出され、算出された第4の尤度が出力される。そして、第1の音声認識結果情報と、第2の音声認識結果情報と、第3の音声認識結果情報と、第4の音声認識結果情報とのうちのいずれを出力するかが、第1の尤度、第2の尤度、第3の尤度及び第4の尤度のうちの少なくとも1つに基づいて選択される。
したがって、出力される音声認識結果が尤度に基づいて選択されるので、より正確な音声認識結果を出力することができる。
また、上記の音声認識装置において、前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部をさらに備え、前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、前記通信部は、前記第1の音声情報をサーバへ送信しなくてもよい。
この構成によれば、取得された音声情報におけるユーザが発話した発話区間が検出される。そして、発話区間が検出されない場合には、第1の音声情報に含まれるノイズが除去されないとともに、第1の音声情報がサーバへ送信されない。
したがって、ユーザが発話した発話区間でなければ、第1の音声情報に含まれるノイズが除去されないとともに、第2の音声情報が出力されず、第1の音声情報がサーバへ送信されないので、不要な演算処理が行われるのを防止することができるとともに、不要な情報が送信されるのを防止することができる。
また、上記の音声認識装置において、前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部をさらに備え、前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去し、前記通信部は、前記発話区間内における前記第1の音声情報を前記サーバへ送信し、前記調停部は、前記第1の音声認識結果情報と、前記第2の音声認識結果情報と、前記第3の音声認識結果情報と、前記第4の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択してもよい。
この構成によれば、発話区間が検出された場合に、検出された発話区間の継続時間である発話継続時間が測定される。発話区間が検出された場合には、第1の音声情報に含まれるノイズが除去されるとともに、発話区間内における第1の音声情報がサーバへ送信される。そして、第1の音声認識結果情報と、第2の音声認識結果情報と、第3の音声認識結果情報と、第4の音声認識結果情報とのうちのいずれを出力するかが、少なくとも発話継続時間の長さに関する情報を用いて選択される。
したがって、少なくとも発話継続時間の長さに関する情報が用いられることにより音声認識結果が選択されるので、出力する音声認識結果をより簡単な構成で選択することができる。
また、上記の音声認識装置において、前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第2の音声認識結果情報の尤もらしさを示す第2の尤度及び前記第3の音声認識結果情報の尤もらしさを示す第3の尤度に乗算する重み付けを、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度及び前記第4の音声認識結果情報の尤もらしさを示す第4の尤度に乗算する重み付けよりも上げてもよい。
この構成によれば、発話継続時間が所定の長さより長い場合に、第2の音声認識結果情報の尤もらしさを示す第2の尤度及び第3の音声認識結果情報の尤もらしさを示す第3の尤度に乗算する重み付けが、第1の音声認識結果情報の尤もらしさを示す第1の尤度及び第4の音声認識結果情報の尤もらしさを示す第4の尤度に乗算する重み付けよりも上げられる。発話継続時間が長い場合、単語数が多い高度な音声指示を行っている可能性が高い。そのため、発話継続時間が長い場合、サーバによって算出される音声認識結果を採用することにより、誤認識を防止することができる。
また、上記の音声認識装置において、前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第2の尤度に乗算する重み付けを、前記第3の尤度に乗算する重み付けよりも上げてもよい。
この構成によれば、発話継続時間が所定の長さより長い場合に、第2の尤度に乗算する重み付けが、第3の尤度に乗算する重み付けよりも上げられる。
したがって、サーバによりノイズ除去処理及び音声認識処理が行われた第2の音声認識結果情報が、音声認識装置によりノイズ除去処理が行われてサーバにより音声認識処理が行われた第3の音声認識結果情報よりもより高い優先順位が与えられるので、より誤認識を防止することができる。
本開示の他の局面に係る音声認識装置は、第1の音声情報を取得する音声取得部と、前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去された第3の音声情報を前記サーバから受信する通信部と、前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として出力する音声認識部と、前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、を備える。
この構成によれば、第1の音声情報が取得される。取得された第1の音声情報に含まれるノイズが第1の除去方式を用いて除去され、ノイズが除去された音声情報が第2の音声情報として出力される。取得された第1の音声情報がサーバへ送信され、サーバにおいて第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて第1の音声情報に含まれるノイズが除去された第3の音声情報がサーバから受信される。出力された第2の音声情報に対して音声認識が行われ、音声認識結果が第1の音声認識結果情報として出力されるとともに、受信された第3の音声情報に対して音声認識が行われ、音声認識結果が第2の音声認識結果情報として出力される。出力された第1の音声認識結果情報と第2の音声認識結果情報とのうちのいずれを出力するかが選択される。
したがって、高騒音環境では、音声認識装置よりも多くの量のノイズを除去することが可能なサーバにおいてノイズを除去することで、音声認識の正確性を向上させることができ、静音環境では音声認識装置においてノイズを除去することで、音声認識の高速化を実現することができる。
本開示の他の局面に係る音声認識方法は、通信部、ノイズ除去処理部、音声認識部及び調停部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、前記通信部が、前記端末によって取得された第1の音声情報を受信し、前記ノイズ除去処理部が、受信した前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力し、前記音声認識部が、前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力し、前記通信部が、前記端末において、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記端末から受信し、前記調停部が、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する。
この構成によれば、第1の音声情報が受信される。受信された第1の音声情報に含まれるノイズが第1の除去方式を用いて除去され、ノイズが除去された音声情報が第2の音声情報として出力される。出力された第2の音声情報に対して音声認識が行われ、音声認識結果が第1の音声認識結果情報として出力される。また、端末において第1の除去方式により前記第1の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第2の除去方式を用いて第1の音声情報に含まれるノイズが除去され、ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果が第2の音声認識結果情報として端末から受信される。出力された第1の音声認識結果情報と、受信された第2の音声認識結果情報とのうちのいずれを出力するかが選択される。
したがって、高騒音環境では、音声認識装置よりも多くの量のノイズを第1の音声情報から除去することが可能なサーバにおいてノイズを除去することで、音声認識の正確性を向上させることができ、静音環境では音声認識装置においてノイズを第1の音声情報から除去することで、音声認識の高速化を実現することができる。
以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。
(実施の形態1)
図1は、本開示の実施の形態1に係る音声認識システムの全体構成を示す図である。
図1に示す音声認識システムは、端末100及びサーバ200を備える。端末100は、ネットワーク(例えば、インターネット)300を介してサーバ200と互いに通信可能に接続されている。
端末100は、例えば、家庭内に配置されたテレビ又はエアコンなどを制御する機器である。端末100は、所定の言語で発話された音声の認識を行う。また、端末100は、音声を認識し、音声認識の結果に基づいて家庭内に配置されたテレビ又はエアコンを制御する。
端末100は、例えば、制御対象の機器(例えば、家庭内に配置されたテレビ又はエアコン)と別体であってもよいし、制御対象の機器に含まれていてもよい。
端末100は、通信部101、マイク102、スピーカ103、制御部104、メモリ105及び表示部106を備える。なお、マイク102、スピーカ103及び表示部106は、端末100に内蔵されていなくてもよい。
通信部101は、ネットワーク300を介してサーバ200に情報を送信するとともに、ネットワーク300を介してサーバ200から情報を受信する。通信部101のネットワーク300への接続方法に関しては問わない。マイク102は、周囲の音を収集し、音声情報を取得する。スピーカ103は、音声を出力する。
制御部104は、例えば、CPU(中央演算処理装置)を有し、後述するメモリ105に格納された制御用のプログラムをCPUが実行することにより、制御部104として機能する。制御部104は、例えば、通信部101によって受信された様々なデータ(情報)を処理し、端末100内の各構成の動作を制御する。
メモリ105は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)又はHDD(Hard Disk Drive)などであり、通信部101によって受信されたデータ(情報)、制御部104によって演算されたデータ(情報)、又は制御用のプログラム等を格納する。表示部106は、例えば液晶表示装置であり、種々の情報を表示する。
また、端末100は、音声認識の結果である言葉又は文章を別の言語の言葉又は文章に翻訳する翻訳部(図示せず)を有してもよい。翻訳部が翻訳した結果は、例えば表示部106に表示してもよい。また、翻訳部が翻訳した結果は、例えば、端末100の制御対象である家庭内に配置されたテレビなどの機器の表示画面に表示をしてもよい。
サーバ200は、通信部201、制御部202及びメモリ203を備える。
通信部201は、ネットワーク300を介して端末100に情報を送信するとともに、ネットワーク300を介して端末100から情報を受信する。
制御部202は、例えば、CPUを有し、後述するメモリ203に格納された制御用のプログラムをCPUが実行することにより、制御部202として機能する。制御部202は、例えば、通信部201によって受信された様々なデータ(情報)を処理し、サーバ200内の各構成の動作を制御する。
メモリ203は、例えば、ROM、RAM又はHDDなどであり、通信部201によって受信されたデータ(情報)、制御部202によって処理されたデータ(情報)、又は制御用のプログラム等を格納する。
図2は、本開示の実施の形態1における音声認識システムの機能構成を示す図である。図2に示すように、音声認識システムは、端末100及びサーバ200を備える。端末100は、音声取得部11、第1の収音処理部12、第1の音声認識部13及び調停部14を備える。サーバ200は、第2の収音処理部21及び第2の音声認識部22を備える。
なお、音声取得部11は、マイク102によって実現され、第1の収音処理部12、第1の音声認識部13及び調停部14は、制御部104によって実現される。また、第2の収音処理部21及び第2の音声認識部22は、制御部202によって実現される。
音声取得部11は、第1の音声情報を取得する。ここで、音声情報とは、例えば音声の信号波形であるが、信号波形を周波数分析した音声の特徴量であっても構わない。不図示の通信部101は、音声取得部11によって取得された第1の音声情報をサーバ200へ送信する。サーバ200の通信部201は、端末100によって送信された第1の音声情報を受信する。
第1の収音処理部12は、音声取得部11によって取得された第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、ノイズを除去した音声情報を第2の音声情報として出力する。
第1の音声認識部13は、第1の収音処理部12によって出力された第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力する。第1の音声認識部13は、音声認識を行った際の第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した第1の尤度を第1の音声認識結果情報とともに調停部14に出力する。
第1の音声認識部13は、第1の収音処理部12によってノイズが除去された第2の音声情報に対する音声認識を行う。第1の音声認識部13は、予め記憶された音響モデル及び言語モデルと、端末用辞書とを参照して、第2の音声情報に対する音声認識を行う。音声認識結果は、第2の音声情報を音声認識した結果の文字列である、複数の単語から構成される文字列データを含む。第1の尤度は、第2の音声情報の音声認識結果(つまり、第1の音声認識結果情報)の尤もらしさを示す。具体的には第1の尤度は、例えば、文字列データ全体の尤もらしさ、または文字列データを構成する各単語の尤もらしさを示す。
第1の音声認識部13は、第2の音声情報から得られる発話内容と、端末用辞書に含まれる複数の語彙のそれぞれとの一致する度合い(尤度)を計算する。第1の音声認識部13は、発話した内容と、最も一致する度合いの高い語彙を端末用辞書に含まれる語彙の中から選択し、選択した語彙を音声認識結果に含める。
第1の音声認識部13は、発話内容に複数の単語が含まれる場合、各単語に対して一致する度合いの最も高い語彙を選択し、選択した語彙を音声認識結果に含める。
第1の音声認識部13は、選択した語彙に対応する尤度を第1の尤度とする。
または、第1の音声認識部13は、音声認識結果に複数の語彙が含まれる場合、各語彙に対応する尤度に基づいて、複数の語彙全体に対する尤度を算出し、算出した尤度を第1の尤度としてもよい。
第1の尤度の値は、第1の音声認識部13が選択する語彙と、発話内容との一致する度合いが高い程、高くなる。
そして、第1の音声認識部13は、音声認識結果を第1の音声認識結果情報として調停部14へ出力する。また、第1の音声認識部13は、第1の尤度を調停部14へ出力する。
端末用辞書は、認識対象の単語が登録されてリスト化されたものであり、端末100に記憶されている。端末用辞書には、例えば、端末100の動作を制御するための単語が主に含まれる。端末用辞書には、例えば、端末100が家庭内に配置された機器を制御するための単語が含まれていてもよい。
第2の収音処理部21は、通信部201によって受信された第1の音声情報に含まれるノイズを、第1の除去方式よりも高いレベル(または、より多い量)のノイズを除去する第2の除去方式を用いて除去する。
逆に言えば、第1の収音処理部12は、第1の音声情報に含まれるノイズを、第2の除去方式よりも低いレベル(または、より少ない量)のノイズを除去する第1の除去方式を用いて除去する。
第2の収音処理部21は、第2の除去方式を用いて第1の音声情報からノイズを除去した音声情報を第3の音声情報として出力する。第2の収音処理部21は、第1の収音処理部12によるノイズ除去量よりも多い量のノイズを第1の音声情報から除去する。
第2の音声認識部22は、第2の収音処理部21によって出力された第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として出力する。第2の音声認識部22は、音声認識を行った際の第2の音声認識結果情報の尤もらしさを示す第2の尤度を算出し、算出した第2の尤度を第2の音声認識結果情報とともに通信部201に出力する。通信部201は、第2の音声認識部22によって出力された第2の音声認識結果情報および第2の尤度を端末100へ送信する。端末100の通信部101は、サーバ200によって送信された第2の音声認識結果情報を受信する。通信部101は、サーバ200によって音声認識を行った際に算出された第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した第2の尤度を調停部14に出力する。
第2の音声認識部22は、第2の収音処理部21によってノイズが除去された第3の音声情報に対する音声認識を行う。第2の音声認識部22は、予め記憶された音響モデル及び言語モデルと、サーバ用辞書とを参照して、第3の音声情報に対する音声認識を行う。音声認識結果は、第3の音声情報を音声認識した結果の文字列である、複数の単語から構成される文字列データを含む。第2の尤度は、第3の音声情報の音声認識結果(つまり第2の音声認識結果情報)の尤もらしさを示す。具体的には第2の尤度は、例えば、文字列データ全体の尤もらしさ、または文字列データを構成する各単語の尤もらしさを示す。
第2の音声認識部22は、第3の音声情報から得られる発話内容と、サーバ用辞書に含まれる複数の語彙のそれぞれとの一致する度合い(尤度)を計算する。第2の音声認識部22は、発話した内容と、最も一致する度合いの高い語彙をサーバ用辞書に含まれる語彙の中から選択し、選択した語彙を音声認識結果に含める。
第2の音声認識部22は、発話内容に複数の単語が含まれる場合、各単語に対して一致する度合いの最も高い語彙を選択し、選択した語彙を音声認識結果に含める。
第2の音声認識部22は、選択した語彙に対応する尤度を第2の尤度とする。
または、第2の音声認識部22は、音声認識結果に複数の語彙が含まれる場合、各語彙に対応する尤度に基づいて、複数の語彙全体に対する尤度を算出し、算出した尤度を第2の尤度としてもよい。
第2の尤度の値は、第2の音声認識部22が選択する語彙と、発話内容との一致する度合いが高い程、高くなる。
そして、第2の音声認識部22は、音声認識結果を第2の音声認識結果情報として端末100へ通信部201を介して送信する。第2の音声認識部22は、第2の尤度を端末100へ通信部201を介して送信する。
また、通信部101は、受信した第2の音声認識結果情報および第2の尤度を調停部14に出力する。
サーバ用辞書は、認識対象の単語が登録されてリスト化されたものであり、サーバ200に記憶されている。サーバ用辞書には、端末100の動作を制御するための単語だけでなく、種々の検索キーワードなどが含まれる。サーバ用辞書には、端末100が機器を制御するための情報が含まれていてもよい。サーバ用辞書の語彙数は、端末用辞書の語彙数よりも多い。サーバ用辞書の語彙数が例えば十万〜数十万語であるのに対し、端末用辞書の語彙数は例えば数十〜数百語である。
ここで、第1の収音処理部12と第2の収音処理部21との差異について説明する。第1の収音処理部12は、複数の音声信号のパワー又は相関を用いた信号処理によりノイズを除去する。一方、第2の収音処理部21は、上記の信号処理に加えて、音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを除去する。
モデル化においては、第2の収音処理部21が受信する第1の音声情報(音声信号)を発話者の音声に対応する音声信号、ノイズに対応する信号に分離するためにパラメータを事前に決定する必要がある。
例えば、以下の処理を事前に行う。まず、予めモデル化に必要なパラメータを決めておく。そして、騒音が大きい環境下において、発話者が発話することにより得られる第1の音声情報に上述のモデルを適用し、ノイズに対応する信号を除去する処理を行い、この処理により得られる音声信号の評価を行う。
または、騒音が大きい環境下において、発話者が発話することにより得られる第1の音声情報に対し、第1の収音処理部12と同じ処理を行い、第1の音声情報からノイズを除去した音声信号に対し、上述のモデルを適用し、ノイズに対応する信号を除去する処理を行い、この処理により得られる音声信号の評価を行うのでもよい。
この処理により得られる音声信号に対する評価値が、予め定めた評価値よりも低ければ、上述のパラメータを修正し、再度、騒音が大きい環境下において、発話者が発話することにより得られる第1の音声情報からノイズに対応する信号を除去する処理、音声信号の評価を行う。
この処理により得られる音声信号に対する評価値が、予め定めた評価値よりも高ければ、上述の音声信号を得るために用いたパラメータを第2の収音処理部21の処理に用いるパラメータ(事前学習されたパラメータ)として保持する。
そして、事前学習されたパラメータを用いて、音声を示す信号又はノイズを示す信号を統計的にモデル化する。第2の収音処理部21は、事前学習されたパラメータを保持している。
事前学習されたパラメータは、騒音が大きい環境下において、発話者が発話したとき、端末100により取得される第1の音声情報に含まれる音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを除去するのに適したパラメータとなっている。
実際に音声認識が必要となった場合、第2の収音処理部21は、事前学習されたパラメータを用いて、音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを第1の音声情報から除去する。
このとき、第2の収音処理部21は、端末100から取得される第1の音声情報を用いて、事前学習されたパラメータを必要に応じて更新してもよい。
このようにすることで、事前学習されたパラメータが発話者が発話している環境により適合したパラメータに更新される。
一般的な知見として、音声信号のパワー又は相関を用いた信号処理により第1の音声情報からノイズを除去する方式よりも、音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いて第1の音声情報からノイズを除去する方式の方が除去できるノイズの量は多い。
当然のことながら、音声信号のパワー又は相関を用いた信号処理により第1の音声情報からノイズを除去した後、この方式によりノイズが除去された第1の音声情報に含まれる音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを除去することにより、音声信号のパワー又は相関を用いた信号処理により第1の音声情報からノイズを除去する方式のみを行う場合に比べ第1の音声情報からより多くのノイズを除去できる。
つまり、第2の収音処理部21が除去するノイズ量は、第1の収音処理部12が除去するノイズ量よりも大きい。そのため、第2の収音処理部21は、騒音が大きい環境においても、十分にノイズ(騒音)を除去し、ユーザの発話のみを抽出することができる。第2の収音処理部21は、例えば、第1の収音処理部12よりもより多くの事前学習されたパラメータを保持して、より多くの演算処理を行う。そのため、第2の収音処理部21がノイズ除去に要する時間は、第1の収音処理部12がノイズ除去に要する時間よりも長くなり、例えば数十msから数百ms程度長くなる。また、第2の収音処理部21では、ノイズ除去処理のアルゴリズムをリアルタイムに更新することが可能であるのに対し、第1の収音処理部12では、ノイズ除去処理のアルゴリズムを更新するためにプログラムのアップデートが必要となる。
上記のように第1の収音処理部12は音声信号のパワー又は相関を用いてノイズを除去し、第2の収音処理部21は音声を示す信号又はノイズを示す信号を統計的にモデル化し、分離する信号の確率的な尤もらしさを用いてノイズを除去する。しかしながら、これらの収音処理部は、別の方法でノイズを除去してもよい。
すなわち、第2の収音処理部21が第1の収音処理部12よりも多くの量のノイズを第1の音声情報から除去するのであれば、第1の収音処理部12、および第2の収音処理部21のノイズを除去する具体的な処理はどのようなものであってもよい。
続いて、第1の音声認識部13と第2の音声認識部22との差異について説明する。上記のように、第1の音声認識部13と第2の音声認識部22とでは、音声認識に使用される辞書の語彙数が異なっており、サーバ用辞書の語彙数は、端末用辞書の語彙数よりも多い。そのため、第2の音声認識部22の認識可能な単語数は、第1の音声認識部13の認識可能な単語数よりも多い。なお、第1の音声認識部13は、辞書を用いずに音声を単に文字化してもよい。第2の音声認識部22が音声認識に要する時間は、第1の音声認識部13が音声認識に要する時間よりも長くなり、例えば数十msから数百ms程度長くなる。また、第2の音声認識部22では、音声認識処理のアルゴリズムをリアルタイムに更新することが可能であるのに対し、第1の音声認識部13では、音声認識処理のアルゴリズムを更新するためにプログラムのアップデートが必要となる。
調停部14は、第1の音声認識部13によって出力された第1の音声認識結果情報と、通信部101によって受信された第2の音声認識結果情報とのうちのいずれを出力するかを選択する。調停部14は、この選択を、第1の尤度及び第2の尤度の少なくとも1つに基づいて行う。すなわち、調停部14は、第1の尤度が所定の第1の閾値より大きい場合には第1の音声認識結果情報を出力する。また、調停部14は、第1の尤度が第1の閾値以下であり、第2の尤度が所定の第2の閾値より大きい場合には第2の音声認識結果情報を出力する。さらに、調停部14は、第1の尤度が第1の閾値以下であり、第2の尤度が第2の閾値以下である場合には第1の音声認識結果情報及び第2の音声認識結果情報のいずれも出力しない。第1の閾値および第2の閾値は、例えば、端末100のメモリ105に記憶されている。
なお、調停部14は、第1の音声認識結果情報及び第2の音声認識結果情報のうち、先に入力された情報の尤度と閾値とを比較する。例えば、第1の音声認識結果情報が第2の音声認識結果情報よりも先に調停部14に入力された場合、調停部14は、第1の音声認識結果情報に対応する第1の尤度と第1の閾値とを比較し、第1の尤度が第1の閾値より大きい場合には第1の音声認識結果情報を出力する。一方、第1の尤度が第1の閾値以下である場合、調停部14は、第2の音声認識結果情報が入力されるのを待ち、その後、第2の音声認識結果情報が入力された場合、第2の音声認識結果情報に対応する第2の尤度と第2の閾値とを比較し、第2の尤度が第2の閾値より大きい場合には第2の音声認識結果情報を出力する。このとき、第2の尤度が第2の閾値以下である場合、調停部14は、満足のいく音声認識結果が得られなかったと判断し、第1の音声認識結果情報及び第2の音声認識結果情報のいずれも出力しない。以上の処理は、第2の音声認識結果情報が第1の音声認識結果情報よりも先に入力された場合にも、同様に行われる。
図3は、本開示の実施の形態1における音声認識システムの動作の一例を示すフローチャートである。
まず、ステップS1において、端末100の音声取得部11は、第1の音声情報を取得する。
次に、ステップS2において、通信部101は、音声取得部11によって取得された第1の音声情報をサーバ200へ送信する。
次に、ステップS3において、第1の収音処理部12は、音声取得部11によって取得された第1の音声情報に含まれるノイズを除去し、ノイズを除去した第2の音声情報を出力する。
次に、ステップS4において、第1の音声認識部13は、第1の収音処理部12によって出力された第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として調停部14に出力する。また、第1の音声認識部13は、第1の音声認識結果情報の尤もらしさを示す第1の尤度を調停部14に出力する。
次に、ステップS5において、調停部14は、第1の音声認識結果情報の尤もらしさを示す第1の尤度が第1の閾値より大きいか否かを判断する。なお、第1の閾値は、第1の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第1の尤度が第1の閾値より大きいと判断された場合(ステップS5でYES)、ステップS6において、調停部14は、第1の音声認識結果情報を出力する。
一方、第1の尤度が第1の閾値以下であると判断された場合(ステップS5でNO)、ステップS7の処理へ移行する。
ここで、端末100のステップS3〜ステップS5の処理に並行して、サーバ200のステップS31〜ステップS34の処理が行われる。
ステップS31において、サーバ200の通信部201は、端末100によって送信された第1の音声情報を受信する。
次に、ステップS32において、第2の収音処理部21は、通信部201によって受信された第1の音声情報に含まれるノイズを除去し、ノイズを除去した第3の音声情報を出力する。
次に、ステップS33において、第2の音声認識部22は、第2の収音処理部21によって出力された第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として通信部201に出力する。また、第2の音声認識部22は、第2の音声認識結果情報の尤もらしさを示す第2の尤度を通信部201に出力する。
次に、ステップS34において、通信部201は、第2の音声認識部22から出力された第2の音声認識結果情報及び第2の尤度を端末100へ送信する。
次に、ステップS7において、端末100の通信部101は、サーバ200によって送信された第2の音声認識結果情報及び第2の尤度を受信する。また、通信部101は、第2の音声認識結果情報および第2の尤度を調停部14に出力する。
次に、ステップS8において、調停部14は、第2の音声認識結果情報の尤もらしさを示す第2の尤度が第2の閾値より大きいか否かを判断する。なお、第2の閾値は、第2の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第2の尤度が第2の閾値より大きいと判断された場合(ステップS8でYES)、ステップS9において、調停部14は、第2の音声認識結果情報を出力する。
一方、第2の尤度が第2の閾値以下であると判断された場合(ステップS8でNO)、ステップS10において、表示部106は、音声認識ができなかったことを示す音声認識不可情報をユーザに通知する。
図4は、音声認識不可情報を表示する表示画面の一例を示す図である。
図4に示すように、表示部106は、調停部14によって第1の尤度が第1の閾値以下であり、且つ第2の尤度が第2の閾値以下であると判断された場合、表示画面上に音声認識不可情報1061を表示する。図4では、音声認識不可情報1061は、“音声認識できませんでした”という文字情報で構成される。
なお、本実施の形態では、端末100は、音声認識不可情報を、表示部106に表示することによりユーザに通知するが、他の方法でユーザに通知してもよい。本開示は特にこれに限定されず、スピーカ103から音声出力することによりユーザに通知してもよい。
また、本実施の形態において、端末100は、第1の音声情報がサーバ200に送信されていることを示すサーバ送信情報をユーザに通知してもよい。
図5は、サーバ送信情報を表示する表示画面の一例を示す図である。
図5に示すように、表示部106は、第1の音声情報がサーバ200に送信された場合、表示画面上にサーバ送信情報1062を表示する。図5では、サーバ送信情報1062は、音声情報がネットワークを介して送信されていることを示すアイコンで構成される。サーバ送信情報1062の表示は、第1の音声情報の送信開始タイミングで開始され、送信終了タイミングで終了してもよい。また、サーバ送信情報1062の表示は、第1の音声情報の送信開始タイミングで開始され、第2の音声認識結果情報の受信タイミングで終了してもよい。
なお、ユーザによっては、サーバ200に音声情報を送信することを望まない可能性がある。そのため、事前に、ユーザに対して、サーバ200に音声情報を送信するか否かを確認する送信確認情報を提示することが好ましい。
図6は、送信確認情報を表示する表示画面の一例を示す図である。
図6に示すように、表示部106は、初期設定時において、表示画面上に送信確認情報1063を表示する。図6では、送信確認情報1063は、“音声をクラウドにアップしてもよいですか?”という文字情報で構成される。送信確認情報1063は、端末100の初期設定時に表示されてもよいし、第1の音声情報を最初に送信する際に表示されてもよい。
本実施の形態では、第1の音声認識部13は、第1の音声認識結果情報および第1の尤度をそれぞれ調停部14に出力するものを例に説明をしたが、これに限定をされない。
第1の音声認識部13は、第1の尤度を、第2の音声情報に対する音声認識を行うときに算出する。例えば、第1の音声認識部13は、第2の音声情報の音声認識結果および第1の尤度を含む第1の音声認識結果情報を調停部14に出力してもよい。
この場合、調停部14は、第1の音声認識結果情報の中から必要に応じて、第2の音声情報の音声認識結果および第1の尤度を取り出して処理を行えばよい。
本実施の形態では、第2の音声認識部22は、第2の音声認識結果情報および第2の尤度をそれぞれ通信部201に出力するものを例に説明をしたが、これに限定をされない。
第2の音声認識部22は、第2の尤度を、第3の音声情報に対する音声認識を行うときに算出する。例えば、第2の音声認識部22は、第3の音声情報の音声認識結果および第2の尤度を含む第2の音声認識結果情報を通信部201に出力してもよい。
この場合、通信部201、通信部101および調停部14のいずれかは、第2の音声認識結果情報の中から必要に応じて、第3の音声情報の音声認識結果または第2の尤度を取り出して処理を行ってもよい。
また、本実施の形態では、第1の音声認識部13が、第1の音声認識結果情報および第1の尤度を調停部14へ出力し、通信部101がサーバ200により送信された第2の音声認識結果情報、および第2の尤度を調停部14へ出力するものを例に説明をしたが、これに限定されない。
調停部14は、第1の尤度が入力されれば、予め保持する第1の閾値との比較結果に応じて、第1の音声認識結果情報を出力すべきかどうかを判断できる。
また、調停部14は、第2の尤度が入力されれば、予め保持する第2の閾値との比較結果に応じて、第2の音声認識結果情報を出力すべきかどうかを判断できる。
例えば、第1の音声認識部13は、第1の音声認識結果情報を調停部14に出力するのではなく、端末100のメモリ105に記憶してもよい。この場合、第1の音声認識部13は、第1の尤度を調停部14に出力する。
また、例えば、通信部101は、第2の音声認識結果情報を調停部14に出力するのではなく、端末100のメモリ105に記憶してもよい。この場合、通信部101は、第2の尤度を調停部14に出力する。
また、調停部14は、出力すべきと判断した第1の音声認識結果情報または第2の音声認識結果情報をメモリ105から取り出して出力してもよい。また、調停部14は、第1の音声認識結果情報および第2の音声認識結果情報を出力しないと判断した場合、メモリ105から、第1の音声認識結果情報および第2の音声認識結果情報を削除してもよい。
また、本実施の形態では、端末100が調停部14を備えているが、本開示は特にこれに限定されず、サーバ200が調停部を備えてもよい。
図7は、本開示の実施の形態1の変形例における音声認識システムの機能構成を示す図である。図7に示すように、端末100は、音声取得部11、第1の収音処理部12及び第1の音声認識部13を備える。サーバ200は、第2の収音処理部21、第2の音声認識部22及び調停部23を備える。
端末100の通信部101は、第1の音声認識部13から出力された第1の音声認識結果情報および第1の尤度をサーバ200へ送信する。サーバ200の通信部201は、端末100によって送信された第1の音声認識結果情報および第1の尤度を受信し、調停部23へ出力する。
第2の音声認識部22は、第2の収音処理部21によって出力された第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として調停部23へ出力する。また、第2の音声認識部22は、第2の尤度を調停部23へ出力する。
調停部23は、通信部201によって受信された第1の音声認識結果情報と、第2の音声認識部22によって出力された第2の音声認識結果情報とのうちのいずれを出力するかを選択する。なお、調停部23の処理は、調停部14の処理と同じであるので、説明を省略する。
サーバ200の通信部201は、調停部23から出力された選択結果を端末100へ送信する。なお、選択結果は、第1の音声認識結果情報及び第2の音声認識結果情報のいずれか一方、又は、音声認識ができなかったことを示す情報を含む。端末100の通信部101は、サーバ200によって送信された選択結果を受信する。
このように、調停部は、端末100とサーバ200とのいずれが備えてもよい。調停部がサーバ200にある場合、端末100の演算量を削減することができる。また、調停部が端末100にある場合、ネットワークを介して選択結果を受信する必要がないので、処理時間を短縮することができる。
なお、第1の収音処理部12において第1の音声情報に含まれるノイズを除去する方式を第1の除去方式、第2の収音処理部21において第1の音声情報に含まれるノイズを除去する方式を第2の除去方式として説明をした。しかしながら第1の除去方式、第2の除去方式というのは、第1の収音処理部12、第2の収音処理部21において行う第1の音声情報に含まれるノイズを除去する方式の名称である。
したがって、第1の収音処理部12において第1の音声情報に含まれるノイズを除去する方式を第2の除去方式、第2の収音処理部21において第1の音声情報に含まれるノイズを除去する方式を第1の除去方式と呼んでもよい。
(実施の形態2)
続いて、実施の形態2に係る音声認識システムについて説明する。実施の形態2における音声認識システムの全体構成は、図1と同じであるので説明を省略する。
図8は、本開示の実施の形態2における音声認識システムの機能構成を示す図である。図8に示すように、音声認識システムは、端末100及びサーバ200を備える。端末100は、音声取得部11、第1の収音処理部12、第1の音声認識部13及び調停部14を備える。サーバ200は、第2の収音処理部21及び第2の音声認識部22を備える。
サーバ200の通信部201は、第2の収音処理部21から出力された第3の音声情報を端末100へ送信する。端末100の通信部101は、第3の音声情報をサーバ200から受信し、受信した第3の音声情報を第1の音声認識部13へ出力する。第1の音声認識部13は、通信部101によって受信された第3の音声情報に対して音声認識を行い、音声認識結果を第4の音声認識結果情報として調停部14に出力する。
この場合、音声認識結果は、第3の音声情報の音声認識結果を含む。また、第1の音声認識部13は、この認識結果の尤もらしさを示す第4の尤度を算出し、算出した第4の尤度を調停部14に出力する。
実施の形態1において、説明をした第1の音声認識部13における音声認識、尤度の算出において、第2の音声情報の代わりに第3の音声情報を用いて処理をすればよいので、第1の音声認識部13における第3の音声情報に対する音声認識、第4の尤度の算出に関する詳細な説明は省略する。
また、通信部101は、第1の収音処理部12によって出力された第2の音声情報をサーバ200へ送信する。サーバ200の通信部201は、端末100によって送信された第2の音声情報を受信し、第2の音声認識部22へ出力する。第2の音声認識部22は、通信部201によって受信された第2の音声情報に対して音声認識を行い、音声認識結果を第3の音声認識結果情報として通信部201に出力する。
この場合、音声認識結果は、第2の音声情報の音声認識結果を含む。また、第2の音声認識部22は、この音声認識結果の尤もらしさを示す第3の尤度を算出し、算出した第3の尤度を通信部201に出力する。
実施の形態1において、説明をした第2の音声認識部22における音声認識、尤度の算出において、第3の音声情報の代わりに第2の音声情報を用いて処理をすればよいので、第2の音声認識部22における第2の音声情報に対する音声認識、第3の尤度の算出に関する詳細な説明は省略する。
通信部201は、第2の音声認識部22から出力された第3の音声認識結果情報および第3の尤度を端末100へ送信する。通信部101は、第2の音声情報の音声認識結果である第3の音声認識結果情報をサーバ200から受信し、受信した第3の音声認識結果情報を調停部14へ出力する。
調停部14は、第1の音声認識部13によって出力された第1の音声認識結果情報と、通信部101によって受信された第2の音声認識結果情報と、通信部101によって受信された第3の音声認識結果情報と、第1の音声認識部13によって出力された第4の音声認識結果情報とのうちのいずれを出力するかを選択する。
第1の音声認識部13は、第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した第1の尤度を調停部14に出力する。
通信部101は、サーバ200から送信された第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した第2の尤度を調停部14に出力する。また、通信部101は、サーバ200から送信された第3の音声認識結果情報の尤もらしさを示す第3の尤度を受信し、受信した第3の尤度を調停部14に出力する。
さらに、第1の音声認識部13は、第4の音声認識結果情報の尤もらしさを示す第4の尤度を算出し、算出した第4の尤度を調停部14に出力する。
調停部14は、第1の音声認識結果情報と、第2の音声認識結果情報と、第3の音声認識結果情報と、第4の音声認識結果情報とのうちのいずれを出力するかを、第1の尤度、第2の尤度、第3の尤度及び第4の尤度のうちの少なくとも1つに基づいて選択する。
図9は、本開示の実施の形態2における音声認識システムの動作の一例を示す第1のフローチャートであり、図10は、本開示の実施の形態2における音声認識システムの動作の一例を示す第2のフローチャートであり、図11は、本開示の実施の形態2における音声認識システムの動作の一例を示す第3のフローチャートである。
まず、ステップS41において、端末100の音声取得部11は、第1の音声情報を取得する。
次に、ステップS42において、通信部101は、音声取得部11によって取得された第1の音声情報をサーバ200へ送信する。
次に、ステップS43において、第1の収音処理部12は、音声取得部11によって取得された第1の音声情報に含まれるノイズを除去し、ノイズを除去した第2の音声情報を出力する。
次に、ステップS44において、通信部101は、第1の収音処理部12によってノイズが除去された第2の音声情報をサーバ200へ送信する。
次に、ステップS45において、第1の音声認識部13は、第1の収音処理部12によって出力された第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として調停部14に出力する。また、第1の音声認識部13は、第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した第1の尤度を調停部14へ出力する。
次に、ステップS46において、調停部14は、第1の音声認識結果情報の尤もらしさを示す第1の尤度が第1の閾値より大きいか否かを判断する。なお、第1の閾値は、第1の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第1の尤度が第1の閾値より大きいと判断された場合(ステップS46でYES)、ステップS47において、調停部14は、第1の音声認識結果情報を出力する。
一方、第1の尤度が第1の閾値以下であると判断された場合(ステップS46でNO)、ステップS48の処理へ移行する。
ここで、端末100のステップS44〜ステップS46の処理に並行して、サーバ200のステップS61〜ステップS63の処理が行われる。
ステップS61において、サーバ200の通信部201は、端末100によって送信された第2の音声情報を受信する。
次に、ステップS62において、第2の音声認識部22は、通信部201によって受信された第2の音声情報に対して音声認識を行い、音声認識結果を第3の音声認識結果情報として通信部201に出力する。また、第2の音声認識部22は、第3の音声認識結果情報の尤もらしさを示す第3の尤度を算出し、算出した第3の尤度を通信部201に出力する。
次に、ステップS63において、通信部201は、第2の音声認識部22から出力された第3の音声認識結果情報および第3の尤度を端末100へ送信する。
次に、ステップS48において、端末100の通信部101は、サーバ200によって送信された第3の音声認識結果情報および第3の尤度を受信する。また、通信部101は、第3の音声認識結果情報および第3の尤度を調停部14に出力する。
次に、ステップS49において、調停部14は、第3の音声認識結果情報の尤もらしさを示す第3の尤度が第3の閾値より大きいか否かを判断する。なお、第3の閾値は、第3の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第3の尤度が第3の閾値より大きいと判断された場合(ステップS49でYES)、ステップS50において、調停部14は、第3の音声認識結果情報を出力する。
一方、第3の尤度が第3の閾値以下であると判断された場合(ステップS49でNO)、ステップS51の処理へ移行する。
ここで、端末100のステップS42〜ステップS49の処理に並行して、サーバ200のステップS71〜ステップS73の処理が行われる。
ステップS71において、サーバ200の通信部201は、端末100によって送信された第1の音声情報を受信する。
次に、ステップS72において、第2の収音処理部21は、通信部201によって受信された第1の音声情報に含まれるノイズを除去し、ノイズを除去した第3の音声情報を出力する。
次に、ステップS73において、通信部201は、第2の収音処理部21から出力された第3の音声情報を端末100へ送信する。
次に、ステップS51において、端末100の通信部101は、サーバ200によって送信された第3の音声情報を受信する。
次に、ステップS52において、第1の音声認識部13は、通信部101によって受信された第3の音声情報に対して音声認識を行い、音声認識結果を第4の音声認識結果情報として調停部14に出力する。また、第1の音声認識部13は、第4の音声認識結果情報の尤もらしさを示す第4の尤度を算出し、算出した第4の尤度を調停部14に出力する。
次に、ステップS53において、調停部14は、第4の音声認識結果情報の尤もらしさを示す第4の尤度が第4の閾値より大きいか否かを判断する。なお、第4の閾値は、第4の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第4の尤度が第4の閾値より大きいと判断された場合(ステップS53でYES)、ステップS54において、調停部14は、第4の音声認識結果情報を出力する。
一方、第4の尤度が第4の閾値以下であると判断された場合(ステップS53でNO)、ステップS55の処理へ移行する。
ここで、端末100のステップS52〜ステップS53の処理に並行して、サーバ200のステップS74〜ステップS75の処理が行われる。
ステップS74において、第2の音声認識部22は、第2の収音処理部21から出力された第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として通信部201に出力する。また、第2の音声認識部22は、第2の音声認識結果情報の尤もらしさを示す第2の尤度を算出し、算出した第2の尤度を通信部201に出力する。
次に、ステップS75において、通信部201は、第2の音声認識部22から出力された第2の音声認識結果情報および第2の尤度を端末100へ送信する。
次に、ステップS55において、端末100の通信部101は、サーバ200によって送信された第2の音声認識結果情報および第2の尤度を受信する。また、通信部101は、第2の音声認識結果情報および第2の尤度を調停部14へ出力する。
次に、ステップS56において、調停部14は、第2の音声認識結果情報の尤もらしさを示す第2の尤度が第2の閾値より大きいか否かを判断する。なお、第2の閾値は、第2の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第2の尤度が第2の閾値より大きいと判断された場合(ステップS56でYES)、ステップS57において、調停部14は、第2の音声認識結果情報を出力する。
一方、第2の尤度が第2の閾値以下であると判断された場合(ステップS56でNO)、ステップS58において、表示部106は、音声認識ができなかったことを示す音声認識不可情報をユーザに通知する。
なお、第1の閾値、第2の閾値、第3の閾値および第4の閾値は、例えば、端末100のメモリ105に予め記憶されている。
本実施の形態では、第1の音声認識部13は、第1の音声認識結果情報、第1の尤度、第4の音声認識結果情報および第4の尤度をそれぞれ調停部14に出力するものを例に説明をしたが、これに限定をされない。
第1の音声認識部13は、第1の尤度を、第2の音声情報に対する音声認識を行うときに算出する。例えば、第1の音声認識部13は、第2の音声情報の音声認識結果および第1の尤度を含む第1の音声認識結果情報を調停部14に出力してもよい。
この場合、調停部14は、第1の音声認識結果情報の中から必要に応じて、第2の音声情報の音声認識結果および第1の尤度を取り出して処理を行えばよい。
第1の音声認識部13は、第4の尤度を、第3の音声情報に対する音声認識を行うときに算出する。例えば、第1の音声認識部13は、第3の音声情報の音声認識結果および第4の尤度を含む第4の音声認識結果情報を調停部14に出力してもよい。
この場合、調停部14は、第4の音声認識結果情報の中から必要に応じて、第3の音声情報の音声認識結果および第4の尤度を取り出して処理を行えばよい。
本実施の形態では、第2の音声認識部22は、第2の音声認識結果情報、第2の尤度、第3の音声認識結果情報および第3の尤度をそれぞれ通信部201に出力するものを例に説明をしたが、これに限定をされない。
第2の音声認識部22は、第2の尤度を、第3の音声情報に対する音声認識を行うときに算出する。例えば、第2の音声認識部22は、第3の音声情報の音声認識結果および第2の尤度を含む第2の音声認識結果情報を通信部201に出力してもよい。
この場合、通信部201、通信部101および調停部14のいずれかは、第2の音声認識結果情報の中から必要に応じて、第3の音声情報の音声認識結果または第2の尤度を取り出して処理を行ってもよい。
第2の音声認識部22は、第3の尤度を、第2の音声情報に対する音声認識を行うときに算出する。例えば、第2の音声認識部22は、第2の音声情報の音声認識結果および第3の尤度を含む第3の音声認識結果情報を通信部201に出力してもよい。
この場合、通信部201、通信部101および調停部14のいずれかは、第3の音声認識結果情報の中から必要に応じて、第2の音声情報の音声認識結果または第3の尤度を取り出して処理を行ってもよい。
また、本実施の形態では、第1の音声認識部13が、第1の音声認識結果情報、第1の尤度、第4の音声認識結果情報、および第4の尤度を調停部14へ出力し、通信部101がサーバ200により送信された第2の音声認識結果情報、第2の尤度、第3の音声認識結果情報、第3の尤度を調停部14へ出力するものを例に説明をした。しかしながら、これに限定をされるものではない。
調停部14は、第1の尤度を受け取れば、予め保持する第1の閾値との比較結果に応じて、第1の音声認識結果情報を出力すべきかどうかを判断できる。
調停部14は、第2の尤度を受け取れば、予め保持する第2の閾値との比較結果に応じて、第2の音声認識結果情報を出力すべきかどうかを判断できる。
調停部14は、第3の尤度を受け取れば、予め保持する第3の閾値との比較結果に応じて、第3の音声認識結果情報を出力すべきかどうかを判断できる。
また、調停部14は、第4の尤度を受け取れば、予め保持する第4の閾値との比較結果に応じて、第4の音声認識結果情報を出力すべきかどうかを判断できる。
例えば、第1の音声認識部13は、第1の音声認識結果情報および第4の音声認識結果情報を調停部14に出力するのではなく、端末100のメモリ105に記憶してもよい。この場合、通信部101は、第1の尤度および第4の尤度を調停部14に出力する。
また、例えば、通信部101は、第2の音声認識結果情報および第3の音声認識結果情報を調停部14に出力するのではなく、端末100のメモリ105に記憶してもよい。この場合、通信部101は、第2の尤度および第3の尤度を調停部14に出力する。
また、例えば、調停部14は、出力すべきと判断した第1の音声認識結果情報〜第4の音声認識結果情報のいずれかをメモリ105から取り出して出力してもよい。
また、調停部14は、第1の音声認識結果情報〜第4の音声認識結果情報のいずれも出力すべきではないと判断した場合、メモリ105から、第1の音声認識結果情報〜第4の音声認識結果情報を削除してもよい。
なお、本実施の形態2では、ステップS63の第3の音声認識結果情報を送信する処理は、ステップS73の第3の音声情報を送信する処理よりも先に行われている。しかしながら、第3の音声情報を送信する処理が、第3の音声認識結果情報を送信する処理よりも先に行われる場合もある。
そこで、第3の音声情報を送信する処理が、第3の音声認識結果情報を送信する処理よりも先に行われる実施の形態2の変形例について説明する。
図12は、本開示の実施の形態2の変形例における音声認識システムの動作の一例を示す第1のフローチャートであり、図13は、本開示の実施の形態2の変形例における音声認識システムの動作の一例を示す第2のフローチャートである。なお、図12のステップS46以前の処理は、図9のステップS41〜S45の処理と同じであり、図12のステップS101以前の処理は、図9のステップS71〜S72の処理と同じであり、図13のステップS111以前の処理は、図9のステップS61〜S62の処理と同じである。
ステップS101において、通信部201は、第2の収音処理部21から出力された第3の音声情報を端末100へ送信する。
次に、ステップS81において、端末100の通信部101は、サーバ200によって送信された第3の音声情報を受信する。
次に、ステップS82において、第1の音声認識部13は、通信部101によって受信された第3の音声情報に対して音声認識を行い、音声認識結果を第4の音声認識結果情報として調停部14に出力する。また、第1の音声認識部13は、第4の音声認識結果情報の尤もらしさを示す第4の尤度を算出し、算出した第4の尤度を調停部14に出力する。
次に、ステップS83において、調停部14は、第4の音声認識結果情報の尤もらしさを示す第4の尤度が第4の閾値より大きいか否かを判断する。なお、第4の閾値は、第4の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第4の尤度が第4の閾値より大きいと判断された場合(ステップS83でYES)、ステップS84において、調停部14は、第4の音声認識結果情報を出力する。
一方、第4の尤度が第4の閾値以下であると判断された場合(ステップS83でNO)、ステップS85の処理へ移行する。
ここで、端末100のステップS44〜ステップS83の処理に並行して、サーバ200のステップS61〜ステップS111の処理が行われる。
次に、ステップS111において、通信部201は、第2の音声認識部22から出力された第3の音声認識結果情報および第3の尤度を端末100へ送信する。
次に、ステップS85において、端末100の通信部101は、サーバ200によって送信された第3の音声認識結果情報および第3の尤度を受信する。通信部101は、第3の音声認識結果情報および第3の尤度を調停部14へ出力する。
次に、ステップS86において、調停部14は、第3の音声認識結果情報の尤もらしさを示す第3の尤度が第3の閾値より大きいか否かを判断する。なお、第3の閾値は、第3の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第3の尤度が第3の閾値より大きいと判断された場合(ステップS86でYES)、ステップS87において、調停部14は、第3の音声認識結果情報を出力する。
一方、第3の尤度が第3の閾値以下であると判断された場合(ステップS86でNO)、ステップS88の処理へ移行する。
ここで、端末100のステップS82〜ステップS86の処理に並行して、サーバ200のステップS102〜ステップS103の処理が行われる。
ステップS102において、第2の音声認識部22は、第2の収音処理部21から出力された第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として通信部201に出力する。また、第2の音声認識部22は、第2の音声認識結果情報の尤もらしさを示す第2の尤度を算出し、算出した第2の尤度を通信部201に出力する。
次に、ステップS103において、通信部201は、第2の音声認識部22から出力された第2の音声認識結果情報および第2の尤度を端末100へ送信する。
次に、ステップS88において、端末100の通信部101は、サーバ200によって送信された第2の音声認識結果情報および第2の尤度を受信する。通信部101は、第2の音声認識結果情報および第2の尤度を調停部14に出力する。
次に、ステップS89において、調停部14は、第2の音声認識結果情報の尤もらしさを示す第2の尤度が第2の閾値より大きいか否かを判断する。なお、第2の閾値は、第2の音声認識結果情報が正しい認識結果であると判断可能な閾値である。ここで、第2の尤度が第2の閾値より大きいと判断された場合(ステップS89でYES)、ステップS90において、調停部14は、第2の音声認識結果情報を出力する。
一方、第2の尤度が第2の閾値以下であると判断された場合(ステップS89でNO)、ステップS91において、表示部106は、音声認識ができなかったことを示す音声認識不可情報をユーザに通知する。
(実施の形態3)
続いて、実施の形態3に係る音声認識システムについて説明する。実施の形態3における音声認識システムの全体構成は、図1と同じであるので説明を省略する。
図14は、本開示の実施の形態3における音声認識システムの機能構成を示す図である。図14に示すように、音声認識システムは、端末100及びサーバ200を備える。端末100は、音声取得部11、第1の収音処理部12、第1の音声認識部13及び調停部14を備える。サーバ200は、第2の収音処理部21を備える。
実施の形態1における音声認識システムと、実施の形態3における音声認識システムとの差異は、サーバ200が第2の音声認識部22を備えているか否かである。
第2の収音処理部21は、通信部201によって受信された第1の音声情報に含まれるノイズを除去し、ノイズを除去した第3の音声情報を出力する。
サーバ200の通信部201は、第2の収音処理部21から出力された第3の音声情報を端末100へ送信する。
第1の音声認識部13は、第1の収音処理部12によって出力された第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として調停部14に出力する。また、第1の音声認識部13は、第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した第1の尤度を調停部14に出力する。
また、第1の音声認識部13は、通信部101によって受信された第3の音声情報に対して音声認識を行い、音声認識結果を第4の音声認識結果情報として調停部14に出力する。また、第1の音声認識部13は、第4の音声認識結果情報の尤もらしさを示す第4の尤度を算出し、算出した第4の尤度を調停部14に出力する。
調停部14は、第1の音声認識部13によって出力された第1の音声認識結果情報と、第1の音声認識部13によって出力された第4の音声認識結果情報とのうちのいずれを出力するかを選択する。なお、調停部14の処理については、他の実施の形態と同じであるので、説明を省略する。
(実施の形態4)
続いて、実施の形態4に係る音声認識システムについて説明する。実施の形態4における音声認識システムの全体構成は、図1と同じであるので説明を省略する。
図15は、本開示の実施の形態4における音声認識システムの機能構成を示す図である。図15に示すように、音声認識システムは、端末100及びサーバ200を備える。端末100は、音声取得部11及び第1の収音処理部12を備える。サーバ200は、第2の収音処理部21、第2の音声認識部22及び調停部23を備える。
実施の形態1の変形例における音声認識システム(図7)と、実施の形態4における音声認識システムとの差異は、端末100が第1の音声認識部13を備えているか否かである。
通信部101は、第1の収音処理部12によって出力された第2の音声情報をサーバ200へ送信する。サーバ200の通信部201は、端末100によって送信された第2の音声情報を受信し、第2の音声認識部22へ出力する。第2の音声認識部22は、通信部201によって受信された第2の音声情報に対して音声認識を行い、音声認識結果を第3の音声認識結果情報として調停部23へ出力する。
第2の音声認識部22は、第2の収音処理部21によって出力された第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として調停部23へ出力する。
調停部23は、第2の音声認識部22から出力された第3の音声認識結果情報と、第2の音声認識部22から出力された第2の音声認識結果情報とのうちのいずれを出力するかを選択する。なお、調停部23の処理については、他の実施の形態と同じであるので、説明を省略する。
(実施の形態5)
続いて、実施の形態5に係る音声認識システムについて説明する。実施の形態5における音声認識システムの全体構成は、図1と同じであるので説明を省略する。
図16は、本開示の実施の形態5における音声認識システムの機能構成を示す図である。図16に示すように、音声認識システムは、端末100及びサーバ200を備える。端末100は、音声取得部11、第1の収音処理部12、第1の音声認識部13、調停部14、発話区間検出部15及び発話継続時間測定部17を備える。サーバ200は、第2の収音処理部21及び第2の音声認識部22を備える。
実施の形態1における音声認識システムと、実施の形態5における音声認識システムとの差異は、端末100が発話区間検出部15および発話継続時間測定部17を備えているか否かである。
発話区間検出部15は、音声取得部11によって取得された第1の音声情報におけるユーザが発話した発話区間を検出する。発話区間検出部15は、一般的な発話区間検出(VAD:Voice Activity Detection)技術を用いて発話区間を検出する。例えば、発話区間検出部15は、入力された音声信号の時系列で構成されたフレームにおいて、振幅と零交差数とに基づいて、そのフレームが音声区間か否かを検出する。また、例えば、発話区間検出部15は、入力される音声情報の特徴量に基づき、ユーザが発話中である確率を音声モデルにより算出するとともに、ユーザの発話がない状態である確率を雑音モデルにより算出し、雑音モデルから得られた確率よりも音声モデルから得られた確率の方が高い区間を発話区間であると判定してもよい。
発話継続時間測定部17は、発話区間検出部15によって発話区間が検出された場合に、音声があると判断された区間(フレーム)の開始から終了までの時間を測定する。
第1の収音処理部12は、発話区間検出部15によって発話区間が検出されない場合には、第1の音声情報に含まれるノイズを除去せず、第2の音声情報を出力しない。また、通信部101は、発話区間検出部15によって発話区間が検出されない場合には、第1の音声情報をサーバ200へ送信しない。
第1の収音処理部12は、発話区間検出部15によって発話区間が検出された場合には、第1の音声情報に含まれるノイズを除去する。また、通信部101は、発話区間検出部15によって発話区間が検出された場合には、発話区間内における第1の音声情報をサーバ200へ送信する。
調停部14は、音声認識部によって出力された第1の音声認識結果情報と、通信部101によって受信された第2の音声認識結果情報とのうちのいずれを出力するかを、少なくとも発話継続時間の長さに関する情報を用いて選択する。すなわち、調停部14は、発話継続時間測定部17によって検出された発話継続時間が所定の長さより長い場合に、第2の音声認識結果情報の尤もらしさを示す第2の尤度に乗算する重み付けを、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度に乗算する重み付けよりも上げる。発話継続時間が所定の時間の長さよりも長い場合、単語数が多い高度な音声指示を行っている可能性が高い。この場合、サーバ200から出力される音声認識結果に乗算される重み付けを上げることにより、誤認識を防止することができる。
なお、図8に示す実施の形態2における音声認識システムにおいて、端末100が発話区間検出部15を備えてもよい。また、図8に示す実施の形態2における音声認識システムにおいて、端末100が発話区間検出部15及び発話継続時間測定部17を備えてもよい。
この場合、調停部14は、第1の音声認識結果情報と、第2の音声認識結果情報と、第3の音声認識結果情報と、第4の音声認識結果情報とのうちのいずれを出力するかを、少なくとも発話継続時間の長さに関する情報を用いて選択する。
また、調停部14は、発話継続時間が所定の長さより長い場合に、第2の音声認識結果情報の尤もらしさを示す第2の尤度及び第3の音声認識結果情報の尤もらしさを示す第3の尤度に乗算する重み付けを、第1の音声認識結果情報の尤もらしさを示す第1の尤度及び第4の音声認識結果情報の尤もらしさを示す第4の尤度に乗算する重み付けよりも上げる。
さらに、調停部14は、発話継続時間が所定の長さより長い場合に、第2の尤度に乗算する重み付けを、第3の尤度に乗算する重み付けよりも上げる。
また、本実施の形態5では、取得された音声情報に対して発話区間検出が行われるが、ノイズが除去された音声情報に対して発話区間検出を行ってもよい。そこで、ノイズが除去された音声情報に対して発話区間検出を行う実施の形態5の変形例について説明する。
図17は、本開示の実施の形態5の変形例における音声認識システムの機能構成を示す図である。図17に示すように、端末100は、音声取得部11、第1の収音処理部12、第1の音声認識部13、調停部14、発話区間検出部15及び音声送信判断部16を備える。
発話区間検出部15は、第1の収音処理部12によってノイズが除去された第2の音声情報におけるユーザが発話した発話区間を検出する。発話区間検出部15は、一般的な発話区間検出技術を用いて発話区間を検出する。
音声送信判断部16は、発話区間検出部15による発話区間の検出結果に基づいて、音声取得部11によって取得された第1の音声情報を送信するか否かを判断する。音声送信判断部16は、発話区間検出部15によって発話区間が検出された場合、音声取得部11によって取得された第1の音声情報を送信すると判断し、発話区間検出部15によって発話区間が検出されない場合、音声取得部11によって取得された第1の音声情報を送信しないと判断する。通信部101は、音声送信判断部16による判断結果に基づいて、音声取得部11によって取得された第1の音声情報を送信する。
このように、ノイズが除去された音声情報である第2の音声情報に対して発話区間の検出を行うことにより、より高い精度で発話区間を検出することができる。
本開示に係る音声認識装置及び音声認識方法は、騒音環境では音声認識の正確性を向上させることができ、静音環境では音声認識の高速化を実現することができ、音声情報に含まれるノイズを除去し、ノイズを除去した音声情報に対して音声認識を行う音声認識装置及び音声認識方法として有用である。
11 音声取得部
12 第1の収音処理部
13 第1の音声認識部
14 調停部
15 発話区間検出部
16 音声送信判断部
21 第2の収音処理部
22 第2の音声認識部
23 調停部
100 端末
101 通信部
102 マイク
103 スピーカ
104 制御部
105 メモリ
106 表示部
200 サーバ
201 通信部
202 制御部
203 メモリ
300 ネットワーク

Claims (16)

  1. 第1の音声情報を取得する音声取得部と、
    前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
    前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力する音声認識部と、
    前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記サーバから受信する通信部と、
    前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
    前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
    を備え、
    前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
    前記通信部は、前記第1の音声情報を前記サーバへ送信せず、
    前記音声認識部は、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、
    前記通信部は、前記サーバによって算出された前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した前記第2の尤度を前記調停部に出力し、
    前記調停部は、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度及び前記第2の尤度の少なくとも1つに基づいて選択する、
    音声認識装置。
  2. 前記調停部は、
    前記第1の尤度が所定の第1の閾値より大きい場合には前記第1の音声認識結果情報を出力し、
    前記第1の尤度が前記第1の閾値以下であり、前記第2の尤度が所定の第2の閾値より大きい場合には前記第2の音声認識結果情報を出力し、
    前記第1の尤度が前記第1の閾値以下であり、前記第2の尤度が前記第2の閾値以下である場合には前記第1の音声認識結果情報及び前記第2の音声認識結果情報のいずれも出力しない、
    請求項1記載の音声認識装置。
  3. 第1の音声情報を取得する音声取得部と、
    前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
    前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力する音声認識部と、
    前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記サーバから受信する通信部と、
    前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
    前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
    前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部と、
    を備え、
    前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
    前記通信部は、前記第1の音声情報をサーバへ送信せず、
    前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去し、
    前記通信部は、前記発話区間内における前記第1の音声情報を前記サーバへ送信し、
    前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
    音声認識装置。
  4. 前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第2の音声認識結果情報の尤もらしさを示す第2の尤度に乗算する重み付けを、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度に乗算する重み付けよりも上げる、
    請求項記載の音声認識装置。
  5. 第1の音声情報を取得する音声取得部と、
    前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
    前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力する音声認識部と、
    前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記サーバから受信する通信部と、
    前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
    を備え、
    前記通信部は、前記第3の音声情報を前記サーバから受信し、受信した前記第3の音声情報を前記音声認識部へ出力し、
    前記音声認識部は、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第4の音声認識結果情報として出力し、
    前記通信部は、前記ノイズ除去処理部によって出力された前記第2の音声情報をサーバへ送信し、前記第2の音声情報に対して音声認識が行われた音声認識結果を第3の音声認識結果情報として前記サーバから受信し、受信した前記第3の音声認識結果情報を前記調停部へ出力し、
    前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報と、前記通信部によって受信された前記第3の音声認識結果情報と、前記音声認識部によって出力された前記第4の音声認識結果情報とのうちのいずれを出力するかを選択する、
    音声認識装置。
  6. 前記音声認識部は、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、
    前記通信部は、前記サーバによって算出された前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した前記第2の尤度を前記調停部に出力し、
    前記通信部は、前記サーバによって算出された前記第3の音声認識結果情報の尤もらしさを示す第3の尤度を受信し、受信した前記第3の尤度を前記調停部に出力し、
    前記音声認識部は、前記第4の音声認識結果情報の尤もらしさを示す第4の尤度を算出し、算出した前記第4の尤度を前記調停部に出力し、
    前記調停部は、前記第1の音声認識結果情報と、前記第2の音声認識結果情報と、前記第3の音声認識結果情報と、前記第4の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度、前記第2の尤度、前記第3の尤度及び前記第4の尤度のうちの少なくとも1つに基づいて選択する、
    請求項記載の音声認識装置。
  7. 前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部をさらに備え、
    前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
    前記通信部は、前記第1の音声情報をサーバへ送信しない、
    請求項又は記載の音声認識装置。
  8. 前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部をさらに備え、
    前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去し、
    前記通信部は、前記発話区間内における前記第1の音声情報を前記サーバへ送信し、
    前記調停部は、前記第1の音声認識結果情報と、前記第2の音声認識結果情報と、前記第3の音声認識結果情報と、前記第4の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
    請求項記載の音声認識装置。
  9. 前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第2の音声認識結果情報の尤もらしさを示す第2の尤度及び前記第3の音声認識結果情報の尤もらしさを示す第3の尤度に乗算する重み付けを、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度及び前記第4の音声認識結果情報の尤もらしさを示す第4の尤度に乗算する重み付けよりも上げる、
    請求項記載の音声認識装置。
  10. 前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第2の尤度に乗算する重み付けを、前記第3の尤度に乗算する重み付けよりも上げる、
    請求項記載の音声認識装置。
  11. 第1の音声情報を取得する音声取得部と、
    前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
    前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去された第3の音声情報を前記サーバから受信する通信部と、
    前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として出力する音声認識部と、
    前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
    前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
    を備え、
    前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
    前記通信部は、前記第1の音声情報をサーバへ送信せず、
    前記音声認識部は、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、
    前記音声認識部は、前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を算出し、算出した前記第2の尤度を前記調停部に出力し、
    前記調停部は、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度及び前記第2の尤度の少なくとも1つに基づいて選択する、
    音声認識装置。
  12. 通信部、ノイズ除去処理部、音声認識部調停部及び発話区間検出部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、
    前記通信部が、前記端末によって取得された第1の音声情報を受信し、
    前記ノイズ除去処理部が、受信した前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力し、
    前記音声認識部が、前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力し、
    前記通信部が、前記端末において、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記端末から受信し、
    前記調停部が、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択し、
    前記発話区間検出部が、前記通信部によって受信された前記第1の音声情報におけるユーザが発話した発話区間を検出し、
    前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部が、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
    前記音声認識部が、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、
    前記通信部が、前記端末によって算出された前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した前記第2の尤度を前記調停部に出力し、
    前記調停部が、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度及び前記第2の尤度の少なくとも1つに基づいて選択する、
    音声認識方法。
  13. 第1の音声情報を取得する音声取得部と、
    前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
    前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去された第3の音声情報を前記サーバから受信する通信部と、
    前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として出力する音声認識部と、
    前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
    前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
    前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部と、
    を備え、
    前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
    前記通信部は、前記第1の音声情報をサーバへ送信せず、
    前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去し、
    前記通信部は、前記発話区間内における前記第1の音声情報を前記サーバへ送信し、
    前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
    音声認識装置。
  14. 通信部、ノイズ除去処理部、音声認識部、調停部、発話区間検出部及び発話継続時間測定部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、
    前記通信部が、前記端末によって取得された第1の音声情報を受信し、
    前記ノイズ除去処理部が、受信した前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力し、
    前記音声認識部が、前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力し、
    前記通信部が、前記端末において、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記端末から受信し、
    前記調停部が、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択し、
    前記発話区間検出部が、前記通信部によって受信された前記第1の音声情報におけるユーザが発話した発話区間を検出し、
    前記発話継続時間測定部が、前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定し、
    前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部が、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
    前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部が、前記第1の音声情報に含まれるノイズを除去し、
    前記調停部が、前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
    音声認識方法。
  15. 第1の音声情報を取得する音声取得部と、
    前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
    前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去された第3の音声情報を前記サーバから受信する通信部と、
    前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として出力する音声認識部と、
    前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
    を備え、
    前記通信部は、前記サーバにおいて、前記第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第3の音声認識結果情報として前記サーバから受信し、受信した前記第3の音声認識結果情報を前記調停部へ出力し、
    前記通信部は、前記ノイズ除去処理部によって出力された前記第2の音声情報を前記サーバへ送信し、前記第2の音声情報に対して音声認識が行われた音声認識結果を第4の音声認識結果情報として前記サーバから受信し、受信した前記第4の音声認識結果情報を前記調停部へ出力し、
    前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記音声認識部によって出力された前記第2の音声認識結果情報と、前記通信部によって受信された前記第3の音声認識結果情報と、前記通信部によって受信された前記第4の音声認識結果情報とのうちのいずれを出力するかを選択する、
    音声認識装置。
  16. 通信部、ノイズ除去処理部、音声認識部及び調停部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、
    前記通信部が、前記端末によって取得された第1の音声情報を受信し、
    前記ノイズ除去処理部が、受信した前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力し、
    前記音声認識部が、前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力し、
    前記通信部が、前記端末において、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記端末から受信し、
    前記調停部が、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択し、
    前記通信部が、前記第2の音声情報を前記端末へ送信し、
    前記通信部が、前記端末において、前記第2の除去方式を用いて前記第2の音声情報に含まれるノイズが除去され、前記ノイズが除去された第4の音声情報に対して音声認識が行われた結果である、音声認識結果を第3の音声認識結果情報として前記端末から受信し、
    前記通信部が、前記第3の音声情報を前記端末から受信し、受信した前記第3の音声情報を前記音声認識部へ出力し、
    前記音声認識部が、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第4の音声認識結果情報として出力し、
    前記調停部が、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報と、前記通信部によって受信された前記第3の音声認識結果情報と、前記音声認識部によって出力された前記第4の音声認識結果情報とのうちのいずれを出力するかを選択する、
    音声認識方法。
JP2015239951A 2014-12-26 2015-12-09 音声認識装置及び音声認識方法 Active JP6754184B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014266033 2014-12-26
JP2014266033 2014-12-26

Publications (2)

Publication Number Publication Date
JP2016126330A JP2016126330A (ja) 2016-07-11
JP6754184B2 true JP6754184B2 (ja) 2020-09-09

Family

ID=56164968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015239951A Active JP6754184B2 (ja) 2014-12-26 2015-12-09 音声認識装置及び音声認識方法

Country Status (3)

Country Link
US (1) US9966077B2 (ja)
JP (1) JP6754184B2 (ja)
CN (1) CN105741836B (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US20170032783A1 (en) * 2015-04-01 2017-02-02 Elwha Llc Hierarchical Networked Command Recognition
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
KR20180022021A (ko) * 2016-08-23 2018-03-06 삼성전자주식회사 음성 인식 방법 및 이를 수행하는 전자 장치
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
WO2018085192A1 (en) 2016-11-07 2018-05-11 Google Llc Recorded media hotword trigger suppression
JP6751658B2 (ja) * 2016-11-15 2020-09-09 クラリオン株式会社 音声認識装置、音声認識システム
EP3883265A1 (en) * 2016-12-27 2021-09-22 GN Hearing A/S Sound signal modelling based on recorded object sound
WO2018195185A1 (en) 2017-04-20 2018-10-25 Google Llc Multi-user authentication on a device
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10706842B2 (en) 2018-01-23 2020-07-07 Google Llc Selective adaptation and utilization of noise reduction technique in invocation phrase detection
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
WO2020096218A1 (en) * 2018-11-05 2020-05-14 Samsung Electronics Co., Ltd. Electronic device and operation method thereof
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7278830B2 (ja) * 2019-03-27 2023-05-22 本田技研工業株式会社 端末装置、端末装置の制御方法、およびプログラム
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
JP6735392B1 (ja) * 2019-05-23 2020-08-05 西日本電信電話株式会社 音声テキスト化装置、音声テキスト化方法及び音声テキスト化プログラム
JP7404657B2 (ja) * 2019-05-28 2023-12-26 沖電気工業株式会社 音声認識装置、音声認識プログラム、及び音声認識方法
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW347503B (en) * 1995-11-15 1998-12-11 Hitachi Ltd Character recognition translation system and voice recognition translation system
JPWO2009150894A1 (ja) * 2008-06-10 2011-11-10 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
JP5658641B2 (ja) * 2011-09-15 2015-01-28 株式会社Nttドコモ 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP5810903B2 (ja) * 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP5821639B2 (ja) * 2012-01-05 2015-11-24 株式会社デンソー 音声認識装置
JP5887162B2 (ja) * 2012-02-23 2016-03-16 株式会社Nttドコモ 通信端末、制御方法及びプログラム
CN103928026B (zh) * 2014-05-12 2017-04-12 安徽江淮汽车集团股份有限公司 一种汽车语音指令采集处理系统及方法
US9830925B2 (en) * 2014-10-22 2017-11-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition

Also Published As

Publication number Publication date
CN105741836A (zh) 2016-07-06
US20160189715A1 (en) 2016-06-30
US9966077B2 (en) 2018-05-08
JP2016126330A (ja) 2016-07-11
CN105741836B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
JP6754184B2 (ja) 音声認識装置及び音声認識方法
US11250843B2 (en) Speech recognition method and speech recognition device
US8762144B2 (en) Method and apparatus for voice activity detection
EP3210205B1 (en) Sound sample verification for generating sound detection model
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
KR101616054B1 (ko) 음성 검출 장치 및 방법
JP7288143B2 (ja) キーワード適合を伴うカスタマイズ可能なキーワードスポッティングシステム
JP6654611B2 (ja) 成長型対話装置
JP7143916B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
US11393459B2 (en) Method and apparatus for recognizing a voice
KR20110066357A (ko) 대화 시스템 및 그의 대화 방법
JP6585112B2 (ja) 音声キーワード検出装置および音声キーワード検出方法
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
US20200219487A1 (en) Information processing apparatus and information processing method
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
CN112002349B (zh) 一种语音端点检测方法及装置
CN110728993A (zh) 一种变声识别方法及电子设备
KR20200082137A (ko) 전자 장치 및 그의 제어 방법
JP6427807B2 (ja) 物体認証装置および物体認証方法
KR101840363B1 (ko) 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质
US20210065684A1 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
CN115691478A (zh) 语音唤醒方法、装置、人机交互设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190924

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191121

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200618

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200821

R150 Certificate of patent or registration of utility model

Ref document number: 6754184

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150