JP2014048514A - 音声認識装置、音声認識方法及びプログラム - Google Patents
音声認識装置、音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP2014048514A JP2014048514A JP2012192158A JP2012192158A JP2014048514A JP 2014048514 A JP2014048514 A JP 2014048514A JP 2012192158 A JP2012192158 A JP 2012192158A JP 2012192158 A JP2012192158 A JP 2012192158A JP 2014048514 A JP2014048514 A JP 2014048514A
- Authority
- JP
- Japan
- Prior art keywords
- input
- recognition
- speech
- likelihood
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】音声の入力を受付ける入力受付部10と、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識部20と、入力音声の到来方向を推定する方向推定部30と、入力音声の到来方向別に各方向から到来した入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、方向推定部30が推定した入力音声の到来方向を用いて、入力音声の入力条件の尤度を特定する方向由来尤度特定部40と、方向由来尤度特定部40が特定した入力条件の尤度を利用して、音声認識部20が算出した複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い認識結果を入力音声の認識結果とする認識結果特定部60と、を有する音声認識装置1。
【選択図】図3
Description
音声の入力を受付ける入力受付手段と、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段と、
前記入力音声の到来方向を推定する方向推定手段と、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段と、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段と、
を有する音声認識装置が提供される。
コンピュータを、
音声の入力を受付ける入力受付手段、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段、
前記入力音声の到来方向を推定する方向推定手段、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段、
として機能させるためのプログラムが提供される。
コンピュータが、
音声の入力を受付ける入力受付ステップと、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識ステップと、
前記入力音声の到来方向を推定する方向推定ステップと、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定ステップで推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定ステップと、
前記方向由来尤度特定ステップで特定した前記入力条件の尤度を利用して、前記音声認識ステップで算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定ステップと、
を実行する音声認識方法が提供される。
まず、本実施形態の概要について説明する。
本実施形態の音声認識装置1は、対話を分析した分析データを用いて方向別確率情報を生成する点で、第1の実施形態と異なる。その他の構成は第1の実施形態と同様であるので詳細な説明は省略する。
上記説明によれば、以下の発明の説明がなされている。
<発明1>
音声の入力を受付ける入力受付手段と、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段と、
前記入力音声の到来方向を推定する方向推定手段と、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段と、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段と、
を有する音声認識装置。
<発明2>
発明1に記載の音声認識装置において、
前記方向別確率情報を記憶する方向別確率情報記憶手段をさらに有する音声認識装置。
<発明3>
発明1又は2に記載の音声認識装置において、
第1の前記認識条件は第1の言語用の認識条件であり、第2の前記認識条件は前記第1の言語と異なる第2の言語用の認識条件である音声認識装置。
<発明4>
発明1から3のいずれかに記載の音声認識装置において、
第1の前記認識条件で行う前記音声認識処理における音響モデルと、第2の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なる音声認識装置。
<発明5>
発明1から4のいずれかに記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成手段をさらに有する音声認識装置。
<発明6>
発明5に記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積手段をさらに有する音声認識装置。
<発明7>
発明1から6のいずれかに記載の音声認識装置において、
入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導手段をさらに有する音声認識装置。
<発明8>
コンピュータを、
音声の入力を受付ける入力受付手段、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段、
前記入力音声の到来方向を推定する方向推定手段、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段、
として機能させるためのプログラム。
<発明8−2>
発明8に記載のプログラムにおいて、
前記コンピュータを、前記方向別確率情報を記憶する方向別確率情報記憶手段としてさらに機能させるためのプログラム。
<発明8−3>
発明8又は8−2に記載のプログラムにおいて、
第1の前記認識条件は第1の言語用の認識条件であり、第2の前記認識条件は前記第1の言語と異なる第2の言語用の認識条件であるプログラム。
<発明8−4>
発明8から8−3のいずれかに記載のプログラムにおいて、
第1の前記認識条件で行う前記音声認識処理における音響モデルと、第2の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なるプログラム。
<発明8−5>
発明8から8−4のいずれかに記載のプログラムにおいて、
前記コンピュータを、前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成手段としてさらに機能させるためのプログラム。
<発明8−6>
発明8−5に記載のプログラムにおいて、
前記コンピュータを、前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積手段としてさらに機能させるためのプログラム。
<発明8−7>
発明8から8−6のいずれかに記載のプログラムにおいて、
前記コンピュータを、入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導手段としてさらに機能させるためのプログラム。
<発明9>
コンピュータが、
音声の入力を受付ける入力受付ステップと、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識ステップと、
前記入力音声の到来方向を推定する方向推定ステップと、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定ステップで推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定ステップと、
前記方向由来尤度特定ステップで特定した前記入力条件の尤度を利用して、前記音声認識ステップで算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定ステップと、
を実行する音声認識方法。
<発明9−2>
発明9に記載の音声認識方法において、
第1の前記認識条件は第1の言語用の認識条件であり、第2の前記認識条件は前記第1の言語と異なる第2の言語用の認識条件である音声認識方法。
<発明9−3>
発明9または9−2に記載の音声認識方法において、
第1の前記認識条件で行う前記音声認識処理における音響モデルと、第2の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なる音声認識方法。
<発明9−4>
発明9から9−3のいずれかに記載の音声認識方法において、
前記コンピュータが、前記方向推定ステップで推定した前記入力音声の到来方向、及び、前記認識結果特定ステップで特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成ステップをさらに実行する音声認識方法。
<発明9−5>
発明9−4に記載の音声認識方法において、
前記コンピュータが、前記方向推定ステップで推定した前記入力音声の到来方向、及び、前記認識結果特定ステップで特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積ステップをさらに実行する音声認識方法。
<発明9−6>
発明9から9−5のいずれかに記載の音声認識方法において、
前記コンピュータが、入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導ステップをさらに実行する音声認識方法。
10 入力受付部
20 音声認識部
21 第1音声認識部
22 第2音声認識部
30 方向推定部
40 方向由来尤度特定部
50 方向別確率情報記憶部
60 認識結果特定部
70 結果蓄積部
80 確率情報生成部
90 ユーザ位置誘導部
100 ディスプレイ
101 マイク
102 第1の話者
103 第2の話者
601 マイク
602 第1の話者
603 第2の話者
Claims (9)
- 音声の入力を受付ける入力受付手段と、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段と、
前記入力音声の到来方向を推定する方向推定手段と、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段と、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段と、
を有する音声認識装置。 - 請求項1に記載の音声認識装置において、
前記方向別確率情報を記憶する方向別確率情報記憶手段をさらに有する音声認識装置。 - 請求項1又は2に記載の音声認識装置において、
第1の前記認識条件は第1の言語用の認識条件であり、第2の前記認識条件は前記第1の言語と異なる第2の言語用の認識条件である音声認識装置。 - 請求項1から3のいずれか1項に記載の音声認識装置において、
第1の前記認識条件で行う前記音声認識処理における音響モデルと、第2の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なる音声認識装置。 - 請求項1から4のいずれか1項に記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成手段をさらに有する音声認識装置。 - 請求項5に記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積手段をさらに有する音声認識装置。 - 請求項1から6のいずれか1項に記載の音声認識装置において、
入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導手段をさらに有する音声認識装置。 - コンピュータを、
音声の入力を受付ける入力受付手段、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段、
前記入力音声の到来方向を推定する方向推定手段、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段、
として機能させるためのプログラム。 - コンピュータが、
音声の入力を受付ける入力受付ステップと、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識ステップと、
前記入力音声の到来方向を推定する方向推定ステップと、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定ステップで推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定ステップと、
前記方向由来尤度特定ステップで特定した前記入力条件の尤度を利用して、前記音声認識ステップで算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定ステップと、
を実行する音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012192158A JP6098072B2 (ja) | 2012-08-31 | 2012-08-31 | 音声認識装置、音声認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012192158A JP6098072B2 (ja) | 2012-08-31 | 2012-08-31 | 音声認識装置、音声認識方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014048514A true JP2014048514A (ja) | 2014-03-17 |
JP6098072B2 JP6098072B2 (ja) | 2017-03-22 |
Family
ID=50608241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012192158A Active JP6098072B2 (ja) | 2012-08-31 | 2012-08-31 | 音声認識装置、音声認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6098072B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017040794A (ja) * | 2015-08-20 | 2017-02-23 | 本田技研工業株式会社 | 音響処理装置及び音響処理方法 |
CN109426669A (zh) * | 2017-08-25 | 2019-03-05 | 松下电器(美国)知识产权公司 | 信息处理方法、信息处理装置以及记录有程序的记录介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007322523A (ja) * | 2006-05-30 | 2007-12-13 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP2009020423A (ja) * | 2007-07-13 | 2009-01-29 | Fujitsu Ten Ltd | 音声認識装置および音声認識方法 |
JP2009300573A (ja) * | 2008-06-11 | 2009-12-24 | Nippon Syst Wear Kk | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
JP2012093641A (ja) * | 2010-10-28 | 2012-05-17 | Toshiba Corp | 携帯型電子機器 |
-
2012
- 2012-08-31 JP JP2012192158A patent/JP6098072B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007322523A (ja) * | 2006-05-30 | 2007-12-13 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP2009020423A (ja) * | 2007-07-13 | 2009-01-29 | Fujitsu Ten Ltd | 音声認識装置および音声認識方法 |
JP2009300573A (ja) * | 2008-06-11 | 2009-12-24 | Nippon Syst Wear Kk | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
JP2012093641A (ja) * | 2010-10-28 | 2012-05-17 | Toshiba Corp | 携帯型電子機器 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017040794A (ja) * | 2015-08-20 | 2017-02-23 | 本田技研工業株式会社 | 音響処理装置及び音響処理方法 |
CN109426669A (zh) * | 2017-08-25 | 2019-03-05 | 松下电器(美国)知识产权公司 | 信息处理方法、信息处理装置以及记录有程序的记录介质 |
US10664667B2 (en) | 2017-08-25 | 2020-05-26 | Panasonic Intellectual Property Corporation Of America | Information processing method, information processing device, and recording medium having program recorded thereon |
CN109426669B (zh) * | 2017-08-25 | 2023-03-24 | 松下电器(美国)知识产权公司 | 信息处理方法、信息处理装置以及记录有程序的记录介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6098072B2 (ja) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11942083B2 (en) | Recognizing speech in the presence of additional audio | |
CN102708855B (zh) | 利用话音识别器反馈来进行语音活动检测 | |
US8762144B2 (en) | Method and apparatus for voice activity detection | |
US7801726B2 (en) | Apparatus, method and computer program product for speech processing | |
US7684984B2 (en) | Method for recognizing speech/speaker using emotional change to govern unsupervised adaptation | |
US9240183B2 (en) | Reference signal suppression in speech recognition | |
KR102191306B1 (ko) | 음성 감정 인식 시스템 및 방법 | |
EP2017828A1 (en) | Techniques for disambiguating speech input using multimodal interfaces | |
EP3588267B1 (en) | Method of controlling dialogue system, dialogue system, and data storage medium | |
KR20100073161A (ko) | 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 | |
US9460714B2 (en) | Speech processing apparatus and method | |
CN110998719A (zh) | 信息处理设备和信息处理方法 | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6098072B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2013257418A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
US20200279570A1 (en) | Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus | |
JP6365304B2 (ja) | 会話分析装置及び会話分析方法 | |
JP4191021B2 (ja) | ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム | |
JP2008145989A (ja) | 音声識別装置および音声識別方法 | |
JP2008216618A (ja) | 音声判別装置 | |
JP2003263190A (ja) | 音声自動質問応答装置 | |
JP5762359B2 (ja) | 用件区間抽出用特徴的単語学習装置と用件区間抽出装置とそれらの方法とプログラム | |
CN112262430B (zh) | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 | |
KR20120067384A (ko) | 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템 | |
JP2012247668A (ja) | 言語モデル生成装置、言語モデル生成方法および言語モデル生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6098072 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |