JP2019045532A - 音声認識装置、車載システム及びコンピュータプログラム - Google Patents
音声認識装置、車載システム及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2019045532A JP2019045532A JP2017164874A JP2017164874A JP2019045532A JP 2019045532 A JP2019045532 A JP 2019045532A JP 2017164874 A JP2017164874 A JP 2017164874A JP 2017164874 A JP2017164874 A JP 2017164874A JP 2019045532 A JP2019045532 A JP 2019045532A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- speech
- voice
- phrase
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Navigation (AREA)
Abstract
Description
すなわち、この場合において、オーディオソース機器が、いずれかの認識候補と同じ語句の音声を出力した場合、当該音声は、ノイズ等の他の音声成分と共にマイクロフォンでピックアップされるため、第1の音声認識部で算出される当該認識候補とのスコアは、オーディオソース機器が出力する同じ音声に対して第2の音声認識部で算出される当該認識候補とのスコアより大きくなることが一般的である。
また、本発明は、前記課題達成のために、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置に、前記空間中に配置されたマイクロフォンと、前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第1しきい値以上となった認識候補の語句を認識する音声認識を行う第1音声認識手段と、前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第2しきい値以上となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が増加から減少に転じるピークの発生を検出する第2音声認識手段と、前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段とを備えたものである。ここで、前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第2音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止する
ここで、このような音声認識装置においては、前記第2しきい値として前記第1しきい値より小さい値を設定することも好ましい。
図1に本実施形態に係る情報処理システムの構成を示す
図示するように、情報処理システムは、マイクロフォン1、第1音声認識エンジン2、第2音声認識エンジン3、音声認識辞書4、認識調整部5、音声入力制御部6、ナビゲーションアプリケーション等の1または複数のアプリケーション7、オーディオソース8、スピーカ9を備えている。
また、音声認識辞書4は、音声認識用の辞書であり、各々異なる語句である複数の認識候補と、その発音を表す発音データが登録されている。なお、発音データは、語句の発音の音素列を表すものであってもよいし、語句の発音の音声データ等であってもよい。
第1音声認識エンジン2と第2音声認識エンジン3は、認識対象音声(第1音声認識エンジン2あればマイクロフォン1が出力する音声、第2音声認識エンジン3であればオーディオソース8が出力する音声)の入力と並行して、認識対象音声に対する音声認識辞書4に格納された各認識候補のスコアを算定する。
図示するように、オーディオソース8が「なにぬねのは」の出力音声を出力すると、この出力音声はスピーカ9から出力され、マイクロフォン1でピックアップされ、この出力音声に対して第1音声認識エンジン2において音声認識が行われる。
したがって、図2b1、b2に示すように、第2音声認識エンジン3において認識候補「なにぬねの」に対して算出されるスコアは、第1音声認識エンジン2において認識候補「なにぬねの」に対して算出されるスコアよりも早い時点でしきい値Th以下となる。よって、第2音声認識エンジン3において認識候補「なにぬねの」が認識されて認識語句として認識調整部5に出力された後に、遅延して、第1音声認識エンジン2において認識候補「なにぬねの」が認識されて認識語句として認識調整部5に出力されることとなる。
以下、上述のように認識調整部5が行う、第1音声認識エンジン2から入力した認識語句や第2音声認識エンジン3から入力した認識語句を用いて、認識結果とする語句を算定し、算定した認識結果を音声入力制御部6に出力する動作について説明する。
図示するように、この処理において、認識調整部5は、第1音声認識エンジン2からの認識語句の入力の発生(ステップ302)と、第2音声認識エンジン3からの認識語句の入力の発生(ステップ304)と、第2音声認識エンジン3からのピーク検出の通知の入力の発生(ステップ306)とを監視する。
次に、このような認識調整処理の処理例を図4に示す。
図4は、オーディオソース8の出力音声「じたくにかえるひと...」に対して行われる、第1音声認識エンジン2と第2音声認識エンジン3の認識候補「じたくにかえる」の認識動作を示したものである。
したがって、第2音声認識エンジン3において認識候補「じたくにかえる」に対して算出されるスコアは、第1音声認識エンジン2において認識候補「じたくにかえる」に対して算出されるスコアよりも早い時点でしきい値Th以下となり、時刻t21で第2音声認識エンジン3において認識候補「じたくにかえる」が認識されて認識語句として認識調整部5に出力される。
一方、時刻t21で第2音声認識エンジン3において認識候補「じたくにかえる」が認識されて認識語句として認識調整部5に出力された後、第1音声認識エンジン2においても、認識候補「じたくにかえる」に対して算出されるスコアがしきい値Th以下となり、時刻t11において、第1音声認識エンジン2において認識候補「じたくにかえる」が認識され認識語句として認識調整部5に出力される。
なお、以上の実施形態では、認識調整部5の認識調整処理において、第2音声認識エンジン3からピークの検出が通知されたときにマスク期間中の設定を解除するようにしたが、これは、図4bに示すように第2音声認識エンジン3からピークの検出が通知された時点t22から、所定のマージン時間mgn経過した時点t23でマスク期間中の設定を解除するようにしてもよい。
すなわち、認識対象音声に対する認識候補のスコアは、より大きい相違を予測しているときほど、より小さくなるようにスコアを算出してもよい。
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、各認識候補の発音データの当該音声区間に対応する部分との整合の有無を算定し、整合していればスコアを所定値増加し、整合していなければスコアを所定値減少するようにしてもよい。
Claims (7)
- スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置であって、
前記空間中に配置されたマイクロフォンと、
前記マイクロフォンがピックアップした音声を入力し、当該音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行う第1音声認識手段と、
前記オーディオソース機器がスピーカに出力する音声を入力し、当該音声の入力と並行して、当該スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う第2音声認識手段と、
前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段とを有し、
前記第2音声認識手段は、前記語句を認識したならば、当該認識した語句の音声の前記オーディオソースからの出力の完了を検出し、
前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記出力の完了を検出するまで、もしくは、前記第2音声認識手段が前記出力の完了を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止することを特徴とする音声認識装置。 - スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置であって、
前記空間中に配置されたマイクロフォンと、
前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第1しきい値以下となった認識候補の語句を認識する音声認識を行う第1音声認識手段と、
前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第2しきい値以下となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が減少から増加に転じるピークの発生を検出する第2音声認識手段と、
前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段とを有し、
前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第2音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止することを特徴とする音声認識装置。 - 請求項2記載の音声認識装置であって、
前記第2しきい値として前記第1しきい値より大きい値が設定されていることを特徴とする音声認識装置。 - スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置であって、
前記空間中に配置されたマイクロフォンと、
前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第1しきい値以上となった認識候補の語句を認識する音声認識を行う第1音声認識手段と、
前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第2しきい値以上となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が増加から減少に転じるピークの発生を検出する第2音声認識手段と、
前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段とを有し、
前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第2音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止することを特徴とする音声認識装置。 - 請求項4記載の音声認識装置であって、
前記第2しきい値として前記第1しきい値より小さい値が設定されていることを特徴とする音声認識装置。 - 自動車に搭載された請求項1、2、3、4または5記載の音声認識装置と、
自動車に搭載された前記スピーカと前記オーディオソース機器とを有し、
前記空間は前記自動車の車内空間であることを特徴とする車載システム。 - スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中に配置されたマイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは前記コンピュータを、
前記マイクロフォンがピックアップした音声を入力し、当該音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行う第1音声認識手段と、
前記オーディオソース機器がスピーカに出力する音声を入力し、当該音声の入力と並行して、当該スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う第2音声認識手段と、
前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段として機能させ、
前記第2音声認識手段は、前記語句を認識したならば、当該認識した語句の音声の前記オーディオソースからの出力の完了を検出し、
前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記出力の完了を検出するまで、もしくは、前記第2音声認識手段が前記出力の完了を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、調整語句と同じ語句の認識結果としての出力を抑止することを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017164874A JP6817915B2 (ja) | 2017-08-29 | 2017-08-29 | 音声認識装置、車載システム及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017164874A JP6817915B2 (ja) | 2017-08-29 | 2017-08-29 | 音声認識装置、車載システム及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019045532A true JP2019045532A (ja) | 2019-03-22 |
JP6817915B2 JP6817915B2 (ja) | 2021-01-20 |
Family
ID=65812782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017164874A Active JP6817915B2 (ja) | 2017-08-29 | 2017-08-29 | 音声認識装置、車載システム及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6817915B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11688396B2 (en) | 2019-12-12 | 2023-06-27 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling electronic device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0723400U (ja) * | 1993-09-30 | 1995-04-25 | 日本コロムビア株式会社 | オーディオ装置 |
JPH0969038A (ja) * | 1995-08-31 | 1997-03-11 | Canon Inc | 音声出力装置 |
JP2000075896A (ja) * | 1999-09-13 | 2000-03-14 | Fujitsu Ltd | 音声認識制御装置 |
JP2006171077A (ja) * | 2004-12-13 | 2006-06-29 | Nissan Motor Co Ltd | 音声認識装置および音声認識方法 |
WO2014103099A1 (ja) * | 2012-12-28 | 2014-07-03 | パナソニック株式会社 | 音声認識付き機器及び音声認識方法 |
-
2017
- 2017-08-29 JP JP2017164874A patent/JP6817915B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0723400U (ja) * | 1993-09-30 | 1995-04-25 | 日本コロムビア株式会社 | オーディオ装置 |
JPH0969038A (ja) * | 1995-08-31 | 1997-03-11 | Canon Inc | 音声出力装置 |
JP2000075896A (ja) * | 1999-09-13 | 2000-03-14 | Fujitsu Ltd | 音声認識制御装置 |
JP2006171077A (ja) * | 2004-12-13 | 2006-06-29 | Nissan Motor Co Ltd | 音声認識装置および音声認識方法 |
WO2014103099A1 (ja) * | 2012-12-28 | 2014-07-03 | パナソニック株式会社 | 音声認識付き機器及び音声認識方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11688396B2 (en) | 2019-12-12 | 2023-06-27 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling electronic device |
Also Published As
Publication number | Publication date |
---|---|
JP6817915B2 (ja) | 2021-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11646027B2 (en) | Multi-layer keyword detection | |
US20230409102A1 (en) | Low-power keyword spotting system | |
US10643606B2 (en) | Pre-wakeword speech processing | |
US10186265B1 (en) | Multi-layer keyword detection to avoid detection of keywords in output audio | |
TWI620170B (zh) | 應用於電子裝置的有向性關鍵字驗證方法及其電子裝置 | |
US10923111B1 (en) | Speech detection and speech recognition | |
US9373321B2 (en) | Generation of wake-up words | |
US9159319B1 (en) | Keyword spotting with competitor models | |
US9437186B1 (en) | Enhanced endpoint detection for speech recognition | |
GB2563952A (en) | Speaker identification | |
KR101151571B1 (ko) | 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 | |
JP6030135B2 (ja) | 音声認識システムにおいて、誤った肯定を低減すること | |
WO2018173270A1 (ja) | 音声認識装置および音声認識方法 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
US20230223014A1 (en) | Adapting Automated Speech Recognition Parameters Based on Hotword Properties | |
JP2019045532A (ja) | 音声認識装置、車載システム及びコンピュータプログラム | |
KR102418256B1 (ko) | 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법 | |
JP6966374B2 (ja) | 音声認識システム及びコンピュータプログラム | |
KR20210054001A (ko) | 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
KR20140051519A (ko) | 연속어 음성인식 방법 및 연속어 음성인식 장치 | |
JP2019002997A (ja) | 音声認識装置および音声認識方法 | |
JP6999236B2 (ja) | 音声認識システム | |
JP6451171B2 (ja) | 音声認識装置、音声認識方法、及び、プログラム | |
US11600273B2 (en) | Speech processing apparatus, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6817915 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |