JP2019053165A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2019053165A JP2019053165A JP2017176742A JP2017176742A JP2019053165A JP 2019053165 A JP2019053165 A JP 2019053165A JP 2017176742 A JP2017176742 A JP 2017176742A JP 2017176742 A JP2017176742 A JP 2017176742A JP 2019053165 A JP2019053165 A JP 2019053165A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- voice
- audio
- signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims description 40
- 238000010586 diagram Methods 0.000 description 16
- 238000000034 method Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Lock And Its Accessories (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】一つの実施形態は、簡易な構成でボイストリガの誤検出が低減できる音声認識装置を提供することを目的とする。【解決手段】一つの実施形態によれば、音声認識装置は、音声を音声信号に変換する音声入力部を有する。前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部を有する。音声出力機器の音声出力部から出力される前の参照信号と前記キーワードを含む音声信号の類似度を判定する類似度判定部を有する。【選択図】図1
Description
本実施形態は、音声認識装置に関する。
従来、音声命令として登録するキーワードの数を限定することで、検出速度あるいは検出感度を上げるボイストリガと呼ばれる処理を行う音声認識装置の技術が開示されている。ボイストリガは音声認識の技術を用いる為、予め登録しておいたキーワードがテレビやラジオ等から発声された場合でも反応してしまう誤検出が生じる場合が有る。
誤検出を低減する為、音声出力装置(例えば、スピーカ)から出力する音を入力とし、エコーキャンセラを用いて周囲の回り込み音を抑制する方法や、スピーカ及び音声入力装置(例えば、マイクロフォン)に入出力される音に対して、ボイストリガを並列処理することで、誤検出を判定することが試みられている。しかし、エコーキャンセラを用いる構成では、マイクロフォンの音声入力も歪ませてしまい、ボイストリガの検出精度を劣化させてしまう可能性がある。また、ボイストリガを並列処理する構成では、ボイストリガ処理の負荷が2倍になってしまう。簡易な構成でボイストリガの誤検出が低減できる音声認識装置が望まれる。
一つの実施形態は、簡易な構成でボイストリガの誤検出が低減できる音声認識装置を提供することを目的とする。
一つの実施形態によれば、音声認識装置は、音声を音声信号に変換する音声入力部を有する。前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部を有する。音声出力機器の音声出力部から出力される前の参照信号と前記キーワードを含む音声信号の類似度を判定する類似度判定部を有する。
以下に添付図面を参照して、実施形態にかかる音声認識装置を詳細に説明する。なお、これらの実施形態により本発明が限定されるものではない。
(第1の実施形態)
図1は、第1の実施形態の音声認識装置の構成を示す図である。本実施形態の音声認識装置は、音声入力部1を有する。音声入力部1は、例えば、音声を電気信号に変換して音声信号を出力するマイクロフォンを有する。尚、音声入力部1には、音声に限らず、楽器の音等も入力され、夫々、電気信号に変換されて出力される。従って、ここで言う音声信号は、これらの音が電気信号に変換された広い概念である。
図1は、第1の実施形態の音声認識装置の構成を示す図である。本実施形態の音声認識装置は、音声入力部1を有する。音声入力部1は、例えば、音声を電気信号に変換して音声信号を出力するマイクロフォンを有する。尚、音声入力部1には、音声に限らず、楽器の音等も入力され、夫々、電気信号に変換されて出力される。従って、ここで言う音声信号は、これらの音が電気信号に変換された広い概念である。
音声入力部1からの音声信号は、ボイストリガ処理部3及び類似度判定部6に供給される。ボイストリガ処理部3は、キーワード辞書4と、ボイストリガ検出部5とを有する。
ボイストリガ検出部5には、キーワード辞書4に登録されたキーワード情報が供給される。ボイストリガ検出部5において、音声信号とキーワード情報が常時比較される。キーワードに一致する音声信号が検知された場合には、ボイストリガ検出部5は、検出したキーワードを類似度判定部6に出力する。尚、ボイストリガ検出部5の出力は、検出したキーワードに対応して設けた所定のID(identification)であっても良い。キーワード辞書4は、例えば、RAM(Random Access Memory)によって構成される。
キーワード辞書4に登録するキーワード情報は、所謂、「自宅」、「右」、「左」等の単語に対応した音声に限らず、「右に行く」等のフレーズであっても良い。また、拍手した時の音や特定の楽器の音の情報等であっても良い。
類似度判定部6には、音声出力部22を備える音声出力機器2からの音声信号が参照信号として供給される。音声出力機器2は、例えば、カーナビゲーション、パソコン、オーディオ機器など、音声を出力する音声出力部22を備える機器である。音声出力機器2の機器21で生成された音声信号が、音声出力部22に供給され、音声として出力される。音声出力機器2は、ボイストリガ処理部3からの出力によってボイストリガ処理の対象になる場合がある。
参照信号は、音声に変換される前の音声信号である。類似度判定部6は、音声入力部1からの音声信号と参照信号との類似度を判定する。音声出力部22によって出力される音声は音声入力部1に入力された場合に回り込み音となる為、参照信号を音声入力部1の音声信号と比較することにより、類似度判定部6は音声信号が音声出力機器2からの回り込み音であるか否かを精度よく判定することが出来る。
音声信号は時間系列の信号波形である。従って、類似度判定部6に入力される両方の信号波形の相間の有無により、両信号の類似度を判定することが出来る。例えば、音声信号の振幅の変動、あるいは、音声信号のフォルマント(formant)を比較することにより両信号の類似度を判定することが出来る。
両信号の類似度が大きい場合には、音声出力部1の音声信号は音声出力部22から音声入力部1に入力された音声、すなわち、回り込みの音声であると判定して、類似度判定部6はその判定結果を出力する。この出力により、ボイストリガ処理を破棄することが出来る。これにより、ボイストリガの誤検出を低減することが出来る。
参照信号は音声出力部22によって後に出力される為、音声入力部1からの音声信号との類似度が高くなる。従って、両信号の類似度を類似度判定部6で行うことによりボイストリガの誤検出の精度を高めることが出来る。
図2は、誤検出を判定するフローの例を示す図である。このフローは、例えば、図1の音声認識装置において実施される。
音声入力部1からの音声信号と音声出力機器2から参照信号の類似度が判定される(S201)。例えば、両信号波形の相間の有無が比較される。両信号の類似性が大きい場合(S201:Yes)には、音声出力部22を構成するスピーカ(図示せず)からの音声、すなわち、回り込み音である可能性が高いと判断して、ボイストリガ処理を棄却する(S202)。
両信号の類似性が大きくない場合(S201:No)には、検出したキーワードを出力して、ボイストリガ処理を行う(S203)。尚、出力は、検出したキーワードに対応して設けた所定のID(identification)であっても良い。
音声入力部1からの音声信号と、音声出力機器2からの参照信号の類似度を判定するステップを行うことで、ボイストリガの誤検出を低減することが出来る。
(第2の実施形態)
図3は、第2の実施形態の音声認識装置の構成を示す図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、音声入力部1と、キーワード時間判定部8と、音声特徴変動分析部9と、ボイストリガ処理部3とを有する。
図3は、第2の実施形態の音声認識装置の構成を示す図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、音声入力部1と、キーワード時間判定部8と、音声特徴変動分析部9と、ボイストリガ処理部3とを有する。
キーワード時間判定部8には、キーワード辞書4から予め登録されたキーワードの情報が供給される。キーワード時間判定部8は、音声入力部1から供給される音声信号がキーワードを含むか否か検出し、キーワードを含むとされた場合に、例えば、その音声信号の持続時間とキーワードの持続時間(しきい値時間)とを比較する。
キーワードのしきい値時間よりも音声信号の持続時間が長い場合には、音声命令の音声信号ではないと判定する。すなわち、音声入力部1への回り込みによる音声信号であると判定する。
キーワードが検出された音声信号の持続時間が、キーワードのしきい値時間よりも長い場合には、回り込み音に、偶然、キーワードが含まれていた可能性が高い。従って、キーワードが検出された音声信号の持続時間とキーワードのしきい値時間とを比較することで、検出されたキーワードが音声命令であるか回り込み音に偶然含まれていたかの判定を行うことが出来る。
例えば、音声入力部1から出力される音声信号を記憶装置(図示せず)に記憶し、キーワードを含む音声信号が検知された時に、記憶したそのキーワードを含む音声信号の持続時間とキーワードのしきい値時間を比較し、持続時間の判定を行う。
キーワード時間判定部8からの出力信号が音声特徴変動分析部9に供給される。出力信号には、キーワード時間判定部8による判定結果を示す信号と、音声入力部1からの音声信号を含む。
音声入力部1に入力される音声命令とキーワードを含む回り込み音が偶然に同じタイミングで重畳された状況においては、そのキーワードに対応する音声信号は、例えば振幅が増大する。従って、その音声信号のキーワードに対応する部分の変動を分析し、その変動が大きい場合には、音声命令が入力されたと判断する。
キーワードに対応する音声信号の変動が大きくない場合には、回り込み音にキーワードが含まれていただけと判断して、ボイストリガ処理を棄却する信号をボイストリガ検出部5に供給する。
本実施形態においては、キーワードを含む音声信号の持続時間を登録したキーワードのしきい値時間と比較することで、容易にボイストリガの誤検出を低減することが出来る。また、音声特徴変動分析部9により、キーワードによる音声命令が重畳されたか否かを判断することにより、更に、ボイストリガの誤検出を低減することが出来る。
キーワード時間判定部8における判定は時間の長短の判定であり、長い「1」か、短い「0」かの判定が可能である。従って、音声信号の変動の大小を分析する音声特徴変動分析部9を省き、キーワード時間判定部8の判定のみでボイストリガ処理を棄却する簡易な構成としても良い。
図4は、誤検出を低減するフローの例を示す図である。このフローは、例えば、図3の音声認識装置において実施される。
音声入力部1から出力される音声信号に登録したキーワードが含まれていた場合に、その音声信号の持続時間とキーワードのしきい値時間を比較する(S401)。音声信号の持続時間がしきい値時間よりも長い場合(S401:Yes)には、検出されたキーワードは、音声入力部1への回り込み音に含まれていたと判定して、ボイストリガ処理を棄却する(S404)。音声信号の持続時間とキーワードのしきい値時間の比較は、キーワード時間判定部8により行う。
音声信号の持続時間がしきい値時間よりも長くない場合(S401:No)には、音声信号の変動の大きさを判断する(S402)。
例えば、回り込み音のキーワードに音声命令のキーワードが重畳された場合には、音声入力部1が出力する音声信号の振幅が増大する等の変動が見られる。この変動が大きい場合(S402:Yes)には、音声命令が入力されたと判定してボイストリガ処理を行う(S403)。
音声信号の変動が大きくない場合(S402:No)には、回り込み音に偶然にキーワードが含まれていたと判定してボイストリガ処理を棄却する(S404)。
音声入力部1からの音声信号を記憶し、キーワードが検出された時の音声信号の波形の変化を観測する。これにより、キーワードに対応する音声信号の変動の程度を分析することが出来る。例えば、音声信号の振幅の最大値、あるいは、フォルマント(formant)の変化を分析する。
キーワードが検出された音声信号の持続時間と登録したキーワードのしきい値時間とを比較することで、容易にボイストリガの誤検出を低減することが出来る。
また、キーワードが検出された音声信号の信号波形の変動の程度を分析することにより、回り込み音に含まれていたキーワードに反応したものか、あるいは、音声命令のキーワードが重畳されたことによるものかを判定することが出来る。これにより、ボイストリガの誤検出を更に低減することが出来る。
図5は、音声信号とキーワードの持続時間の比較を説明する為の図である。図3のキーワード時間判定部8において実施される。
図5においてしきい値時間(Th)は、登録したキーワードの持続時間である。検知時間(Td)は、キーワードが検出された音声信号の持続時間である。しきい値時間(Th)に対して、検知時間(Td)が長い場合、検出されたキーワードは回り込み音に偶然に含まれていたと判定することが出来る。
しきい値時間(Th)は、登録したキーワードの持続時間ではなく、キーワードの持続時間として許容される時間を適宜設定しても良い。また、回り込み音の中に偶然、キーワードが含まれていたか否かを判断する為に、例えば、キーワードが検出された時点から所定の時間遡った、所定の設定時間における音声信号の持続時間と登録したキーワードのしきい値時間を比較して判定しても良い。
第1の実施形態の類似度判定部6と第2の実施形態のキーワード時間判定部8及び音声特徴変動分析部9を適宜組み合わせて音声認識装置を構成しても良い。
(第3の実施形態)
図6は、第3の実施形態の音声認識装置の構成を示す図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、類似度判定部6に加え、キーワード時間判定部8と音声特徴変動分析部9を備える。
図6は、第3の実施形態の音声認識装置の構成を示す図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、類似度判定部6に加え、キーワード時間判定部8と音声特徴変動分析部9を備える。
すなわち、本実施形態の音声認識装置は、図1の音声認識装置の構成に、図3のキーワード時間判定部8と音声特徴変動分析部9の構成を直列的に追加した構成である。
類似度判定部6で、音声入力部1からの音声信号と音声出力機器2からの参照信号の類似度が大きくない場合に、キーワード時間判定部8により、キーワードを含むとして検出された音声信号の持続時間とキーワードのしきい値時間を比較する。
キーワードを含む音声信号の持続時間がしきい値時間よりも長い場合には、音声信号は音声入力部1への回り込み音によるものであると判定して、ボイストリガ処理を棄却することが出来る。
すなわち、音声信号と参照信号の類似度が大きくない場合であっても、音声信号の持続時間とキーワードのしきい値時間を比較することで、ボイストリガの誤検出を更に低減することが出来る。
また、音声特徴変動分析部9により、キーワードを含む音声信号の変動が大きくない場合には、検出したキーワードは回り込み音に含まれていたと判定してボイストリガ処理を棄却することが出来る。更に、ボイストリガの誤検出を低減することが出来る。
(第4の実施形態)
図7は、第4の実施形態の音声認識装置の構成を示す図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、キーワード時間判定部8と音声特徴変動分析部9に加え、類似度判定部6を備える。
図7は、第4の実施形態の音声認識装置の構成を示す図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、キーワード時間判定部8と音声特徴変動分析部9に加え、類似度判定部6を備える。
すなわち、本実施形態の音声認識装置は、図3の音声認識装置の構成に、図1の類似度判定部6を直列的に追加した構成である。
キーワード時間判定部8により、キーワードを含むとして検出した音声信号の持続時間とキーワードのしきい値時間を比較し、音声特徴変動分析部9により音声信号の変動の大きさを分析した後、更に、類似度判定部6で音声信号と参照信号の類似度を判定する。
キーワードを含む音声信号の持続時間がキーワードのしきい値時間内の場合であり、また、キーワードを検出した時の音声信号の変動が大きい場合でも、音声信号と参照信号の類似度が大きい場合には、音声信号に含まれたキーワードは、回り込み音に含まれていたものと判定して、ボイストリガ処理を棄却することが出来る。これにより、ボイストリガの誤検出を更に低減することが出来る。
(第5の実施形態)
図8は、第5の実施形態の音声認識装置の構成を示す説明図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、図1の構成と、図3の構成を備え、更に、その検出結果を総合的に判断する判定部10を備える。
図8は、第5の実施形態の音声認識装置の構成を示す説明図である。既述した実施形態に対応する構成には同一の符号を付している。本実施形態の音声認識装置は、図1の構成と、図3の構成を備え、更に、その検出結果を総合的に判断する判定部10を備える。
類似度判定部6において、類似度が全くない「0」判定と完全に類似する「1」判定の結果は少なく、例えば、音声信号と参照信号の類似度が、「類似度大」「類似度中」「類似度小」で示される。また、音声特徴変動分析部9においても相対的な判断となる場合が有る。
キーワード時間判定部8におけるしきい値時間との比較は、しきい値時間内で有る「0」か、しきい値時間よりも長い「1」かの判断を容易に得ることが出来る。一方で、音声特徴変動分析部9における特徴変動の分析は、相対的な判断となる場合が有る。
この為、例えば、判定部10において、類似度判定部6からの判定結果と、キーワード時間判定部8と音声特徴変動分析部9を経て得られる判定結果を総合的に判断する。例えば、共にボイストリガ処理を棄却する判定結果の場合には、ボイストリガ処理を破棄する判定を行う。これにより、ボイストリガの誤検出の精度を向上させることが出来る。
一方、判定結果が相違する場合に、どちらかの判定結果に優先度を持たせて判定することが出来る。例えば、参照信号を用いる判定結果を優先する構成とすることが出来る。
あるいは、所定の判定基準を設け、両方の判定結果がその判定基準を満たす場合にボイストリガ処理を棄却する構成としても良い。これにより、ボイストリガの誤検出の精度を向上させることが出来る。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
なお、以下の付記に記載されているような構成が考えられる。
(付記1)
前記予め登録されたキーワードの情報を保存する記憶装置を備えることを特徴とする請求項1に記載の音声認識装置。
(付記2)
前記類似度判定部は、前記音声入力部からの音声信号の振幅と、前記音声出力機器からの参照信号の振幅の相間を判定することを特徴とする請求項1に記載の音声認識装置。
(付記3)
前記類似度判定部は、前記音声入力部からの音声信号のフォルマントと、前記音声出力機器からの参照信号のフォルマントの相間を判定することを特徴とする請求項1に記載の音声認識装置。
(付記4)
前記キーワード時間判定部は、前記キーワードを含む音声信号の持続時間が前記しきい値時間よりも長い場合には前記ボイストリガ検出部の出力信号による前記音声出力機器の制御を棄却する信号を出力することを特徴とする請求項3に記載の音声認識装置。
(付記5)
前記音声出力機器からの参照信号と前記音声入力部から出力される前記キーワードを含む音声信号の類似度を判定する類似度判定部を更に備えることを特徴とする請求項3または4に記載の音声認識装置。
(付記1)
前記予め登録されたキーワードの情報を保存する記憶装置を備えることを特徴とする請求項1に記載の音声認識装置。
(付記2)
前記類似度判定部は、前記音声入力部からの音声信号の振幅と、前記音声出力機器からの参照信号の振幅の相間を判定することを特徴とする請求項1に記載の音声認識装置。
(付記3)
前記類似度判定部は、前記音声入力部からの音声信号のフォルマントと、前記音声出力機器からの参照信号のフォルマントの相間を判定することを特徴とする請求項1に記載の音声認識装置。
(付記4)
前記キーワード時間判定部は、前記キーワードを含む音声信号の持続時間が前記しきい値時間よりも長い場合には前記ボイストリガ検出部の出力信号による前記音声出力機器の制御を棄却する信号を出力することを特徴とする請求項3に記載の音声認識装置。
(付記5)
前記音声出力機器からの参照信号と前記音声入力部から出力される前記キーワードを含む音声信号の類似度を判定する類似度判定部を更に備えることを特徴とする請求項3または4に記載の音声認識装置。
1 音声入力部、2 音声出力機器、3 ボイストリガ処理部、6 類似度判定部、8 キーワード時間判定部、9 音声特徴変動分析部、10 判定部。
Claims (5)
- 音声を音声信号に変換する音声入力部と、
前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部と、
音声出力機器の音声出力部から出力される前の参照信号と前記キーワードを含む音声信号の類似度を判定する類似度判定部と、
を備えることを特徴とする音声認識装置。 - 前記キーワードを含む音声信号の持続時間と前記キーワードのしきい値時間を比較するキーワード時間判定部を更に備えることを特徴とする請求項1に記載の音声認識装置。
- 音声を音声信号に変換する音声入力部と、
前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部と、
前記キーワードを含む音声信号の持続時間と前記キーワードのしきい値時間を比較するキーワード時間判定部と、
を備えることを特徴とする音声認識装置。 - 前記キーワードを含む音声信号の変動の程度を分析する音声特徴変動分析部を更に備えることを特徴とする請求項2または3に記載の音声認識装置。
- 音声を音声信号に変換する音声入力部と、
前記音声信号から予め登録されたキーワードを含む音声信号を検出するボイストリガ検出部と、
音声出力機器の音声出力部から出力する前の参照信号と前記キーワードを含む音声信号の類似度を判定する類似度判定部と、
前記キーワードを含む音声信号の持続時間と前記キーワードのしきい値時間を比較するキーワード時間判定部と、
前記類似度判定部と前記キーワード時間判定部の両方の判定結果に応じてボイストリガ処理を行うか否かを判定する判定部と、
を備えることを特徴とする音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017176742A JP2019053165A (ja) | 2017-09-14 | 2017-09-14 | 音声認識装置 |
US15/909,427 US20190080690A1 (en) | 2017-09-14 | 2018-03-01 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017176742A JP2019053165A (ja) | 2017-09-14 | 2017-09-14 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019053165A true JP2019053165A (ja) | 2019-04-04 |
Family
ID=65632387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017176742A Abandoned JP2019053165A (ja) | 2017-09-14 | 2017-09-14 | 音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190080690A1 (ja) |
JP (1) | JP2019053165A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102629385B1 (ko) * | 2018-01-25 | 2024-01-25 | 삼성전자주식회사 | 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
US11893999B1 (en) * | 2018-05-13 | 2024-02-06 | Amazon Technologies, Inc. | Speech based user recognition |
CN110246490B (zh) * | 2019-06-26 | 2022-04-19 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN111048073B (zh) * | 2019-12-16 | 2022-08-12 | 北京明略软件系统有限公司 | 一种音频处理方法、装置、电子设备及可读存储介质 |
CN114255749A (zh) * | 2021-04-06 | 2022-03-29 | 北京安声科技有限公司 | 扫地机器人 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006087799A1 (ja) * | 2005-02-18 | 2006-08-24 | Fujitsu Limited | 音声認証システム |
US9177547B2 (en) * | 2013-06-25 | 2015-11-03 | The Johns Hopkins University | System and method for processing speech to identify keywords or other information |
JP6233650B2 (ja) * | 2014-05-20 | 2017-11-22 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
US10181323B2 (en) * | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
-
2017
- 2017-09-14 JP JP2017176742A patent/JP2019053165A/ja not_active Abandoned
-
2018
- 2018-03-01 US US15/909,427 patent/US20190080690A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20190080690A1 (en) | 2019-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019053165A (ja) | 音声認識装置 | |
US8700397B2 (en) | Speech recognition of character sequences | |
JP4237713B2 (ja) | 音声処理装置 | |
KR102348124B1 (ko) | 차량의 기능 추천 장치 및 방법 | |
KR102441063B1 (ko) | 끝점 검출 장치, 그를 포함한 시스템 및 그 방법 | |
KR20140135349A (ko) | 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 | |
JPH04255900A (ja) | 音声認識装置 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
KR101242182B1 (ko) | 음성인식장치 및 음성인식방법 | |
JP2015087544A (ja) | 音声認識装置及び音声認識プログラム | |
JP6755633B2 (ja) | 用件判定装置、用件判定方法およびプログラム | |
US10964307B2 (en) | Method for adjusting voice frequency and sound playing device thereof | |
JP6616182B2 (ja) | 話者認識装置、判別値生成方法及びプログラム | |
JP2017211610A (ja) | 出力制御装置、電子機器、出力制御装置の制御方法、および出力制御装置の制御プログラム | |
JPH05119792A (ja) | 音声認識装置 | |
JP5173895B2 (ja) | 音声認識装置 | |
Ike et al. | Inequity in Popular Speech Recognition Systems for Accented English Speech | |
JP6615803B2 (ja) | 用件判定装置、用件判定方法およびプログラム | |
JP2005115386A (ja) | 誤認識予測方法 | |
KR100211067B1 (ko) | 핵심어간의 유사도를 이용한 핵심어 검출 방법 | |
JP2005115386A5 (ja) | ||
JP2020118906A (ja) | 音声認識装置および音声認識方法 | |
JP2019045532A (ja) | 音声認識装置、車載システム及びコンピュータプログラム | |
US11600273B2 (en) | Speech processing apparatus, method, and program | |
de Campos Niero et al. | A comparison of distance measures for clustering in speaker diarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190723 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20200203 |