JP2019053165A

JP2019053165A - 音声認識装置

Info

Publication number: JP2019053165A
Application number: JP2017176742A
Authority: JP
Inventors: 裕作菊川; Yusaku Kikukawa; 康之正井; Yasuyuki Masai; 恵三山下; Keizo Yamashita; 康弘福壽; Yasuhiro Fukuju
Original assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Current assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2019-04-04
Also published as: US20190080690A1

Abstract

【課題】一つの実施形態は、簡易な構成でボイストリガの誤検出が低減できる音声認識装置を提供することを目的とする。【解決手段】一つの実施形態によれば、音声認識装置は、音声を音声信号に変換する音声入力部を有する。前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部を有する。音声出力機器の音声出力部から出力される前の参照信号と前記キーワードを含む音声信号の類似度を判定する類似度判定部を有する。【選択図】図１

Description

本実施形態は、音声認識装置に関する。

従来、音声命令として登録するキーワードの数を限定することで、検出速度あるいは検出感度を上げるボイストリガと呼ばれる処理を行う音声認識装置の技術が開示されている。ボイストリガは音声認識の技術を用いる為、予め登録しておいたキーワードがテレビやラジオ等から発声された場合でも反応してしまう誤検出が生じる場合が有る。

誤検出を低減する為、音声出力装置（例えば、スピーカ）から出力する音を入力とし、エコーキャンセラを用いて周囲の回り込み音を抑制する方法や、スピーカ及び音声入力装置（例えば、マイクロフォン）に入出力される音に対して、ボイストリガを並列処理することで、誤検出を判定することが試みられている。しかし、エコーキャンセラを用いる構成では、マイクロフォンの音声入力も歪ませてしまい、ボイストリガの検出精度を劣化させてしまう可能性がある。また、ボイストリガを並列処理する構成では、ボイストリガ処理の負荷が２倍になってしまう。簡易な構成でボイストリガの誤検出が低減できる音声認識装置が望まれる。

特開２０１６−１２６３３０号公報

一つの実施形態は、簡易な構成でボイストリガの誤検出が低減できる音声認識装置を提供することを目的とする。

一つの実施形態によれば、音声認識装置は、音声を音声信号に変換する音声入力部を有する。前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部を有する。音声出力機器の音声出力部から出力される前の参照信号と前記キーワードを含む音声信号の類似度を判定する類似度判定部を有する。

図１は、第１の実施形態の音声認識装置の構成を示す図である。図２は、誤検出を低減するフローの例を示す図である。図３は、第２の実施形態の音声認識装置の構成を示す図である。図４は、誤検出を低減するフローの例を示す図である。図５は、音声信号とキーワードの持続時間の比較を説明する為の図である。図６は、第３の実施形態の音声認識装置の構成を示す図である。図７は、第４の実施形態の音声認識装置の構成を示す図である。図８は、第５の実施形態の音声認識装置の構成を示す図である。

以下に添付図面を参照して、実施形態にかかる音声認識装置を詳細に説明する。なお、これらの実施形態により本発明が限定されるものではない。

（第１の実施形態）
図１は、第１の実施形態の音声認識装置の構成を示す図である。本実施形態の音声認識装置は、音声入力部１を有する。音声入力部１は、例えば、音声を電気信号に変換して音声信号を出力するマイクロフォンを有する。尚、音声入力部１には、音声に限らず、楽器の音等も入力され、夫々、電気信号に変換されて出力される。従って、ここで言う音声信号は、これらの音が電気信号に変換された広い概念である。

音声入力部１からの音声信号は、ボイストリガ処理部３及び類似度判定部６に供給される。ボイストリガ処理部３は、キーワード辞書４と、ボイストリガ検出部５とを有する。

ボイストリガ検出部５には、キーワード辞書４に登録されたキーワード情報が供給される。ボイストリガ検出部５において、音声信号とキーワード情報が常時比較される。キーワードに一致する音声信号が検知された場合には、ボイストリガ検出部５は、検出したキーワードを類似度判定部６に出力する。尚、ボイストリガ検出部５の出力は、検出したキーワードに対応して設けた所定のＩＤ（ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）であっても良い。キーワード辞書４は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）によって構成される。

キーワード辞書４に登録するキーワード情報は、所謂、「自宅」、「右」、「左」等の単語に対応した音声に限らず、「右に行く」等のフレーズであっても良い。また、拍手した時の音や特定の楽器の音の情報等であっても良い。

類似度判定部６には、音声出力部２２を備える音声出力機器２からの音声信号が参照信号として供給される。音声出力機器２は、例えば、カーナビゲーション、パソコン、オーディオ機器など、音声を出力する音声出力部２２を備える機器である。音声出力機器２の機器２１で生成された音声信号が、音声出力部２２に供給され、音声として出力される。音声出力機器２は、ボイストリガ処理部３からの出力によってボイストリガ処理の対象になる場合がある。

参照信号は、音声に変換される前の音声信号である。類似度判定部６は、音声入力部１からの音声信号と参照信号との類似度を判定する。音声出力部２２によって出力される音声は音声入力部１に入力された場合に回り込み音となる為、参照信号を音声入力部１の音声信号と比較することにより、類似度判定部６は音声信号が音声出力機器２からの回り込み音であるか否かを精度よく判定することが出来る。

音声信号は時間系列の信号波形である。従って、類似度判定部６に入力される両方の信号波形の相間の有無により、両信号の類似度を判定することが出来る。例えば、音声信号の振幅の変動、あるいは、音声信号のフォルマント（ｆｏｒｍａｎｔ）を比較することにより両信号の類似度を判定することが出来る。

両信号の類似度が大きい場合には、音声出力部１の音声信号は音声出力部２２から音声入力部１に入力された音声、すなわち、回り込みの音声であると判定して、類似度判定部６はその判定結果を出力する。この出力により、ボイストリガ処理を破棄することが出来る。これにより、ボイストリガの誤検出を低減することが出来る。

参照信号は音声出力部２２によって後に出力される為、音声入力部１からの音声信号との類似度が高くなる。従って、両信号の類似度を類似度判定部６で行うことによりボイストリガの誤検出の精度を高めることが出来る。

図２は、誤検出を判定するフローの例を示す図である。このフローは、例えば、図１の音声認識装置において実施される。

音声入力部１からの音声信号と音声出力機器２から参照信号の類似度が判定される（Ｓ２０１）。例えば、両信号波形の相間の有無が比較される。両信号の類似性が大きい場合（Ｓ２０１：Ｙｅｓ）には、音声出力部２２を構成するスピーカ（図示せず）からの音声、すなわち、回り込み音である可能性が高いと判断して、ボイストリガ処理を棄却する（Ｓ２０２）。

両信号の類似性が大きくない場合（Ｓ２０１：Ｎｏ）には、検出したキーワードを出力して、ボイストリガ処理を行う（Ｓ２０３）。尚、出力は、検出したキーワードに対応して設けた所定のＩＤ（ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）であっても良い。

音声入力部１からの音声信号と、音声出力機器２からの参照信号の類似度を判定するステップを行うことで、ボイストリガの誤検出を低減することが出来る。

（第２の実施形態）
図３は、第２の実施形態の音声認識装置の構成を示す図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、音声入力部１と、キーワード時間判定部８と、音声特徴変動分析部９と、ボイストリガ処理部３とを有する。

キーワード時間判定部８には、キーワード辞書４から予め登録されたキーワードの情報が供給される。キーワード時間判定部８は、音声入力部１から供給される音声信号がキーワードを含むか否か検出し、キーワードを含むとされた場合に、例えば、その音声信号の持続時間とキーワードの持続時間（しきい値時間）とを比較する。

キーワードのしきい値時間よりも音声信号の持続時間が長い場合には、音声命令の音声信号ではないと判定する。すなわち、音声入力部１への回り込みによる音声信号であると判定する。

キーワードが検出された音声信号の持続時間が、キーワードのしきい値時間よりも長い場合には、回り込み音に、偶然、キーワードが含まれていた可能性が高い。従って、キーワードが検出された音声信号の持続時間とキーワードのしきい値時間とを比較することで、検出されたキーワードが音声命令であるか回り込み音に偶然含まれていたかの判定を行うことが出来る。

例えば、音声入力部１から出力される音声信号を記憶装置（図示せず）に記憶し、キーワードを含む音声信号が検知された時に、記憶したそのキーワードを含む音声信号の持続時間とキーワードのしきい値時間を比較し、持続時間の判定を行う。

キーワード時間判定部８からの出力信号が音声特徴変動分析部９に供給される。出力信号には、キーワード時間判定部８による判定結果を示す信号と、音声入力部１からの音声信号を含む。

音声入力部１に入力される音声命令とキーワードを含む回り込み音が偶然に同じタイミングで重畳された状況においては、そのキーワードに対応する音声信号は、例えば振幅が増大する。従って、その音声信号のキーワードに対応する部分の変動を分析し、その変動が大きい場合には、音声命令が入力されたと判断する。

キーワードに対応する音声信号の変動が大きくない場合には、回り込み音にキーワードが含まれていただけと判断して、ボイストリガ処理を棄却する信号をボイストリガ検出部５に供給する。

本実施形態においては、キーワードを含む音声信号の持続時間を登録したキーワードのしきい値時間と比較することで、容易にボイストリガの誤検出を低減することが出来る。また、音声特徴変動分析部９により、キーワードによる音声命令が重畳されたか否かを判断することにより、更に、ボイストリガの誤検出を低減することが出来る。

キーワード時間判定部８における判定は時間の長短の判定であり、長い「１」か、短い「０」かの判定が可能である。従って、音声信号の変動の大小を分析する音声特徴変動分析部９を省き、キーワード時間判定部８の判定のみでボイストリガ処理を棄却する簡易な構成としても良い。

図４は、誤検出を低減するフローの例を示す図である。このフローは、例えば、図３の音声認識装置において実施される。

音声入力部１から出力される音声信号に登録したキーワードが含まれていた場合に、その音声信号の持続時間とキーワードのしきい値時間を比較する（Ｓ４０１）。音声信号の持続時間がしきい値時間よりも長い場合（Ｓ４０１：Ｙｅｓ）には、検出されたキーワードは、音声入力部１への回り込み音に含まれていたと判定して、ボイストリガ処理を棄却する（Ｓ４０４）。音声信号の持続時間とキーワードのしきい値時間の比較は、キーワード時間判定部８により行う。

音声信号の持続時間がしきい値時間よりも長くない場合（Ｓ４０１：Ｎｏ）には、音声信号の変動の大きさを判断する（Ｓ４０２）。

例えば、回り込み音のキーワードに音声命令のキーワードが重畳された場合には、音声入力部１が出力する音声信号の振幅が増大する等の変動が見られる。この変動が大きい場合（Ｓ４０２：Ｙｅｓ）には、音声命令が入力されたと判定してボイストリガ処理を行う（Ｓ４０３）。

音声信号の変動が大きくない場合（Ｓ４０２：Ｎｏ）には、回り込み音に偶然にキーワードが含まれていたと判定してボイストリガ処理を棄却する（Ｓ４０４）。

音声入力部１からの音声信号を記憶し、キーワードが検出された時の音声信号の波形の変化を観測する。これにより、キーワードに対応する音声信号の変動の程度を分析することが出来る。例えば、音声信号の振幅の最大値、あるいは、フォルマント（ｆｏｒｍａｎｔ）の変化を分析する。

キーワードが検出された音声信号の持続時間と登録したキーワードのしきい値時間とを比較することで、容易にボイストリガの誤検出を低減することが出来る。

また、キーワードが検出された音声信号の信号波形の変動の程度を分析することにより、回り込み音に含まれていたキーワードに反応したものか、あるいは、音声命令のキーワードが重畳されたことによるものかを判定することが出来る。これにより、ボイストリガの誤検出を更に低減することが出来る。

図５は、音声信号とキーワードの持続時間の比較を説明する為の図である。図３のキーワード時間判定部８において実施される。

図５においてしきい値時間（Ｔｈ）は、登録したキーワードの持続時間である。検知時間（Ｔｄ）は、キーワードが検出された音声信号の持続時間である。しきい値時間（Ｔｈ）に対して、検知時間（Ｔｄ）が長い場合、検出されたキーワードは回り込み音に偶然に含まれていたと判定することが出来る。

しきい値時間（Ｔｈ）は、登録したキーワードの持続時間ではなく、キーワードの持続時間として許容される時間を適宜設定しても良い。また、回り込み音の中に偶然、キーワードが含まれていたか否かを判断する為に、例えば、キーワードが検出された時点から所定の時間遡った、所定の設定時間における音声信号の持続時間と登録したキーワードのしきい値時間を比較して判定しても良い。

第１の実施形態の類似度判定部６と第２の実施形態のキーワード時間判定部８及び音声特徴変動分析部９を適宜組み合わせて音声認識装置を構成しても良い。

（第３の実施形態）
図６は、第３の実施形態の音声認識装置の構成を示す図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、類似度判定部６に加え、キーワード時間判定部８と音声特徴変動分析部９を備える。

すなわち、本実施形態の音声認識装置は、図１の音声認識装置の構成に、図３のキーワード時間判定部８と音声特徴変動分析部９の構成を直列的に追加した構成である。

類似度判定部６で、音声入力部１からの音声信号と音声出力機器２からの参照信号の類似度が大きくない場合に、キーワード時間判定部８により、キーワードを含むとして検出された音声信号の持続時間とキーワードのしきい値時間を比較する。

キーワードを含む音声信号の持続時間がしきい値時間よりも長い場合には、音声信号は音声入力部１への回り込み音によるものであると判定して、ボイストリガ処理を棄却することが出来る。

すなわち、音声信号と参照信号の類似度が大きくない場合であっても、音声信号の持続時間とキーワードのしきい値時間を比較することで、ボイストリガの誤検出を更に低減することが出来る。

また、音声特徴変動分析部９により、キーワードを含む音声信号の変動が大きくない場合には、検出したキーワードは回り込み音に含まれていたと判定してボイストリガ処理を棄却することが出来る。更に、ボイストリガの誤検出を低減することが出来る。

（第４の実施形態）
図７は、第４の実施形態の音声認識装置の構成を示す図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、キーワード時間判定部８と音声特徴変動分析部９に加え、類似度判定部６を備える。

すなわち、本実施形態の音声認識装置は、図３の音声認識装置の構成に、図１の類似度判定部６を直列的に追加した構成である。

キーワード時間判定部８により、キーワードを含むとして検出した音声信号の持続時間とキーワードのしきい値時間を比較し、音声特徴変動分析部９により音声信号の変動の大きさを分析した後、更に、類似度判定部６で音声信号と参照信号の類似度を判定する。

キーワードを含む音声信号の持続時間がキーワードのしきい値時間内の場合であり、また、キーワードを検出した時の音声信号の変動が大きい場合でも、音声信号と参照信号の類似度が大きい場合には、音声信号に含まれたキーワードは、回り込み音に含まれていたものと判定して、ボイストリガ処理を棄却することが出来る。これにより、ボイストリガの誤検出を更に低減することが出来る。

（第５の実施形態）
図８は、第５の実施形態の音声認識装置の構成を示す説明図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、図１の構成と、図３の構成を備え、更に、その検出結果を総合的に判断する判定部１０を備える。

類似度判定部６において、類似度が全くない「０」判定と完全に類似する「１」判定の結果は少なく、例えば、音声信号と参照信号の類似度が、「類似度大」「類似度中」「類似度小」で示される。また、音声特徴変動分析部９においても相対的な判断となる場合が有る。

キーワード時間判定部８におけるしきい値時間との比較は、しきい値時間内で有る「０」か、しきい値時間よりも長い「１」かの判断を容易に得ることが出来る。一方で、音声特徴変動分析部９における特徴変動の分析は、相対的な判断となる場合が有る。

この為、例えば、判定部１０において、類似度判定部６からの判定結果と、キーワード時間判定部８と音声特徴変動分析部９を経て得られる判定結果を総合的に判断する。例えば、共にボイストリガ処理を棄却する判定結果の場合には、ボイストリガ処理を破棄する判定を行う。これにより、ボイストリガの誤検出の精度を向上させることが出来る。

一方、判定結果が相違する場合に、どちらかの判定結果に優先度を持たせて判定することが出来る。例えば、参照信号を用いる判定結果を優先する構成とすることが出来る。

あるいは、所定の判定基準を設け、両方の判定結果がその判定基準を満たす場合にボイストリガ処理を棄却する構成としても良い。これにより、ボイストリガの誤検出の精度を向上させることが出来る。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

なお、以下の付記に記載されているような構成が考えられる。
（付記１）
前記予め登録されたキーワードの情報を保存する記憶装置を備えることを特徴とする請求項１に記載の音声認識装置。
（付記２）
前記類似度判定部は、前記音声入力部からの音声信号の振幅と、前記音声出力機器からの参照信号の振幅の相間を判定することを特徴とする請求項１に記載の音声認識装置。
（付記３）
前記類似度判定部は、前記音声入力部からの音声信号のフォルマントと、前記音声出力機器からの参照信号のフォルマントの相間を判定することを特徴とする請求項１に記載の音声認識装置。
（付記４）
前記キーワード時間判定部は、前記キーワードを含む音声信号の持続時間が前記しきい値時間よりも長い場合には前記ボイストリガ検出部の出力信号による前記音声出力機器の制御を棄却する信号を出力することを特徴とする請求項３に記載の音声認識装置。
（付記５）
前記音声出力機器からの参照信号と前記音声入力部から出力される前記キーワードを含む音声信号の類似度を判定する類似度判定部を更に備えることを特徴とする請求項３または４に記載の音声認識装置。

１音声入力部、２音声出力機器、３ボイストリガ処理部、６類似度判定部、８キーワード時間判定部、９音声特徴変動分析部、１０判定部。

Claims

音声を音声信号に変換する音声入力部と、
前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部と、
音声出力機器の音声出力部から出力される前の参照信号と前記キーワードを含む音声信号の類似度を判定する類似度判定部と、
を備えることを特徴とする音声認識装置。
前記キーワードを含む音声信号の持続時間と前記キーワードのしきい値時間を比較するキーワード時間判定部を更に備えることを特徴とする請求項１に記載の音声認識装置。
音声を音声信号に変換する音声入力部と、
前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部と、
前記キーワードを含む音声信号の持続時間と前記キーワードのしきい値時間を比較するキーワード時間判定部と、
を備えることを特徴とする音声認識装置。
前記キーワードを含む音声信号の変動の程度を分析する音声特徴変動分析部を更に備えることを特徴とする請求項２または３に記載の音声認識装置。
音声を音声信号に変換する音声入力部と、
前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部と、
音声出力機器の音声出力部から出力する前の参照信号と前記キーワードを含む音声信号の類似度を判定する類似度判定部と、
前記キーワードを含む音声信号の持続時間と前記キーワードのしきい値時間を比較するキーワード時間判定部と、
前記類似度判定部と前記キーワード時間判定部の両方の判定結果に応じてボイストリガ処理を行うか否かを判定する判定部と、
を備えることを特徴とする音声認識装置。