JP2012198289A - 音声誤検出判別装置、音声誤検出判別方法、およびプログラム - Google Patents
音声誤検出判別装置、音声誤検出判別方法、およびプログラム Download PDFInfo
- Publication number
- JP2012198289A JP2012198289A JP2011060796A JP2011060796A JP2012198289A JP 2012198289 A JP2012198289 A JP 2012198289A JP 2011060796 A JP2011060796 A JP 2011060796A JP 2011060796 A JP2011060796 A JP 2011060796A JP 2012198289 A JP2012198289 A JP 2012198289A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- sound
- arrival rate
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 261
- 238000012850 discrimination method Methods 0.000 title abstract 2
- 230000005236 sound signal Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 106
- 230000008569 process Effects 0.000 claims description 70
- 238000004364 calculation method Methods 0.000 claims description 66
- 238000005314 correlation function Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 description 43
- 230000004048 modification Effects 0.000 description 43
- 238000001228 spectrum Methods 0.000 description 39
- 238000012545 processing Methods 0.000 description 37
- 230000000694 effects Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 101100311460 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sum2 gene Proteins 0.000 description 9
- 230000001629 suppression Effects 0.000 description 9
- 101100116390 Schizosaccharomyces pombe (strain 972 / ATCC 24843) ded1 gene Proteins 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 108010076504 Protein Sorting Signals Proteins 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- OHVLMTFVQDZYHP-UHFFFAOYSA-N 1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)-2-[4-[2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidin-5-yl]piperazin-1-yl]ethanone Chemical class N1N=NC=2CN(CCC=21)C(CN1CCN(CC1)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)=O OHVLMTFVQDZYHP-UHFFFAOYSA-N 0.000 description 1
- WZFUQSJFWNHZHM-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]piperazin-1-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical class C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)N1CCN(CC1)CC(=O)N1CC2=C(CC1)NN=N2 WZFUQSJFWNHZHM-UHFFFAOYSA-N 0.000 description 1
- 241000269400 Sirenidae Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】入力信号取得部は、所定方向の音源からの音声を含む周囲音を複数のマイクによりそれぞれ収音した複数の音声信号を取得する。認識結果取得部は、音声信号に基づく音声認識を行った結果検出された、音声信号の音声区間を示す音声区間情報を含む認識結果を取得する。到来率算出部は、それぞれの複数の音声信号の単位時間毎の信号と所定方向とに基づき、単位時間における所定方向からの音声が周囲音に占める割合を示す音声到来率を算出する。誤り検出部は、認識結果と音声到来率とに基づき、音声区間情報が誤検出でないか否かを検出する。これにより、音声認識による音声区間の誤検出を判別できる。
【選択図】図1
Description
以下、図面を参照しながら第1の実施の形態による音声誤検出判別システムについて説明する。まず、図1および図2を参照しながら、音声誤検出判別システム1の構成および機能について説明する。図1は、第1の実施の形態による音声誤検出判別システム1の構成を示すブロック図、図2は、第1の実施の形態による音声誤検出判別システム1の機能を示すブロック図である。
DIFF(fi)=INAθ(fi)−INBθ(fi) ・・・(式1)
次に、第2の実施の形態による音声誤検出判別システムについて説明する。第2の実施の形態による音声誤検出判別システムにおける動作は、第1の実施の形態による音声誤検出判別システム1における音声到来率算出処理の変形例である。よって、第2の実施の形態による音声誤検出判別システムにおいて、第1の実施の形態による音声誤検出判別システム1と同様の構成および動作については重複説明を省略する。
|N(FN、fi)|
=α(fi)|N(FN−1、fi)|+(1−α(fi))|IN(FN、fi)|
・・・(式2)
ここでα(fi)は、0〜1の値である。
以下、図12、図13を参照しながら、第3の実施の形態による音声誤検出判別システムについて説明する。第3の実施の形態による音声誤検出判別システムにおける動作は、第1または第2の実施の形態による音声誤検出判別システムにおける誤検出判別処理の変形例である。よって、第3の実施の形態による音声誤検出判別システムにおいて、第1または第2の実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
以下、図14を参照しながら、第4の実施の形態による音声誤検出判別システムについて説明する。第4の実施の形態による音声誤検出判別システムにおける動作は、第1から第3の実施の形態による音声誤検出判別システムにおける誤検出判別処理の変形例である。よって、第4の実施の形態による音声誤検出判別システムにおいて、第1〜第3のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
以下、図15を参照しながら、第5の実施の形態による音声誤検出判別システムについて説明する。第5の実施の形態による音声誤検出判別システムにおける動作は、第1から第4の実施の形態による音声誤検出判別システムにおける音声到来率算出処理の変形例である。よって、第5の実施の形態による音声誤検出判別システムにおいて、第1〜第4のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
以下、図16を参照しながら、第6の実施の形態による音声誤検出判別システムについて説明する。第6の実施の形態による音声誤検出判別システムにおける動作は、第1から第5の実施の形態による音声誤検出判別システムにおける音声到来率算出処理の変形例である。よって、第6の実施の形態による音声誤検出判別システムにおいて、第1〜第5のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
以下、変形例1による音声誤検出判別システムについて説明する。変形例1よる音声誤検出判別システムにおける動作は、第1から第6の実施の形態による音声誤検出判別システムの認識結果取得処理(図3のS102)、および誤検出判別処理における音声非音声の判定処理(例えば、図9のS167)の変形例である。よって、変形例1では、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
以下、変形例2による音声誤検出判別システムについて説明する。変形例2による音声誤検出判別システムにおける動作は、第1から第6の実施の形態による音声誤検出判別システムの誤検出判別処理における音声非音声の判定処理(例えば、図9のS167)の変形例である。よって、変形例2では、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
以下、変形例3による音声誤検出判別システムについて説明する。変形例3による音声誤検出判別システムにおける動作は、第1から第6の実施の形態による音声誤検出判別システムの認識結果取得処理(図3のS102)、および誤検出判別処理における音声非音声の判定処理(例えば、図9のS167)の変形例である。よって、変形例3では、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
以下、変形例4による音声誤検出判別システムについて説明する。変形例4は、第1から第6の実施の形態による音声誤検出判別システムの誤検出判別処理における、音声非音声の判定処理(例えば、図9のS167)の、音声率に関する閾値Th2の設定方法に関する変形例である。よって、変形例4では、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略し、閾値Th2の設定方法についてのみ述べる。
閾値Th2は、音声区間長Δjnが広くなる程、小さくなるように設定されることが好ましい。
(4−1−1)音声区間長Δjn≧200(フレーム) :閾値Th2=0.15
(4−1−2)音声区間長Δjn≦40(フレーム) :閾値Th2=0.80
(4−1−3)40<音声区間長Δjn<200(フレーム):閾値Th2=0.30
本変形例によれば、音声誤検出判別システムは、音声認識により検出された音声区間で、音声の前後に雑音のみの区間が付加されてしまった場合でも、音声区間の誤検出判定の精度を維持することができる。
閾値Th2は、雑音レベルが大きくなるほど小さくなるように設定される。
(4−2−1)雑音レベル≧70(dBA) :閾値Th2=0.20
(4−2−2)雑音レベル≦40(dBA) :閾値Th2=0.70
(4−2−3)40<雑音レベル<70(dBA) :閾値Th2=0.30
本変形例によれば、周囲の雑音環境の変動に対して、誤検出判定の精度を向上させることができる。
閾値Th2は、認識結果の音素数が大きくなるほど小さくなるように設定される。
(4−3−1)音素数≧24 :閾値Th2=0.25
(4−3−2)音素数≦8 :閾値Th2=0.60
(4−3−3)8<音素数<24 :閾値Th2=0.40
本変形例によれば、音素数に依存せずに誤検出判定の精度を維持することができる。
以上、変形例4−1)〜4−3)を組み合わせて用いる方法もある。
以下、図17を参照しながら、変形例5による音声誤検出判別システムについて説明する。変形例5による音声誤検出判別システムにおける動作は、第1から第6の実施の形態および各変形例による音声誤検出判別システムにおける音声認識処理の変形例である。よって、変形例5による音声誤検出判別システムにおいて、第1〜第6のいずれかの実施の形態による音声誤検出判別システムと同様の構成および動作については重複説明を省略する。
(付記1)
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得部と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得部と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出部と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤り検出部と、
を有することを特徴とする音声誤検出判別装置。
(付記2)
前記誤り検出部は、
前記音声区間における第1の閾値以上の音声到来率を有する前記単位時間の占める割合を示す音声率を算出し、前記音声率が第2の閾値以下の場合に、前記音声区間情報は誤検出であると検出することを特徴とする付記1に記載の音声誤判定判別装置。
(付記3)
前記到来率算出部は、
前記複数の音声信号の内の2つの音声信号からそれぞれ抽出した前記単位時間毎の信号をそれぞれ変換して2つの周波数軸上の音声信号を生成し、前記2つの周波数軸上の音声信号の前記周波数毎の位相差を算出し、
前記所定方向に基づき前記周波数毎の前記位相差の許容範囲を設定し、
前記位相差と前記許容範囲とに基づき前記音声到来率を算出することを特徴とする付記1または付記2に記載の音声誤検出判別装置。
(付記4)
前記到来率算出部は、
前記音声信号の定常雑音モデルを推定し、
前記2つの周波数軸上の音声信号に前記定常雑音モデルを適用した場合の信号対雑音比が第3の閾値以上である場合に、前記音声到来率を算出することを特徴とする付記3に記載の音声誤検出判別装置。
(付記5)
前記誤り検出部は、
複数の前記単位時間毎の前記音声到来率を平均した平滑化音声到来率を算出し、
前記認識結果と前記平滑化音声到来率とに基づき、前記音声区間が誤検出でないか否かを検出することを特徴とする付記1から付記4のいずれかに記載の音声誤検出判別装置。
(付記6)
前記誤り検出部は、
前記音声区間における第1の閾値以上の音声到来率を有する前記単位時間が所定時間以上続く場合に、前記音声区間情報は誤検出ではないと判定することを特徴とする付記1から付記4のいずれかに記載の音声誤検出判別装置。
(付記7)
前記認識結果取得部は、さらに、前記認識結果の確からしさを示す認識スコアを取得し、
前記誤り検出部は、
前記音声率に前記認識スコアを乗じた値を音声率として算出し、前記音声率が第2の閾値以下の場合に、前記音声区間は誤検出であると検出することを特徴とする付記2から6に記載の音声誤検出判別装置。
(付記8)
前記誤り検出部は、
前記音声率に前記音声区間の平均信号対雑音比を乗じた値を音声率として算出し、前記音声率が第2の閾値以下の場合に、前記音声区間情報は誤検出であると検出することを特徴とする付記2から付記7に記載の音声誤検出判別装置。
(付記9)
前記第2の閾値は、前記音声区間が長くなる程小さくなるように設定することを特徴とする付記2から付記8のいずれかに記載の音声誤検出判別装置。
(付記10)
前記第2の閾値は、前記音声区間の雑音レベルが大きくなる程小さくなるように設定することを特徴とする付記2から付記8のいずれかに記載の音声誤検出判別装置。
(付記11)
前記認識結果取得部は、前記認識結果として前記音声認識の結果の文字列をさらに取得し、
前記第2の閾値は、前記文字列における音素数が多くなる程小さくなるように設定することを特徴とする付記2から付記8のいずれかに記載の音声誤検出判別装置。
(付記12)
前記到来率算出部は、
前記複数の音声信号の内の2つの前記音声信号の相関関数と、前記所定方向に基づく位相差を算出し、前記相関関数と前記位相差とに基づき前記音声到来率を算出することを特徴とする付記1または付記2に記載の音声誤検出判別装置。
(付記13)
付記1から付記15のいずれかに記載の音声誤検出判別装置と、
音声認識装置であって、
前記複数の音声信号の内の1つの音声信号に基づき音声区間を検出する区間検出部と、
前記音声区間と検出された区間の音声信号により音声認識を行い、文字列を出力する認識部と、
を有する音声認識装置と、
を備えたことを特徴とする音声誤検出判別システム。
(付記14)
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得工程と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得工程と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出工程と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤検出判別工程と、
を有することを特徴とする音声誤検出判別方法。
(付記15)
所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得し、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得し、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出し、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出、
する処理をコンピュータに実行させるためのプログラム。
3 誤検出判別装置
5 音声認識装置
7 記録部
9 制御部
11 入力信号取得部
13 認識結果取得部
15 誤検出判定部
17 システムバス
19 マイクアレイ
21 認識結果表示装置
31 到来率算出部
33 誤り検出部
51 区間検出部
52 認識部
53 音響モデル
55 言語辞書
Claims (12)
- 所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得部と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得部と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出部と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤り検出部と、
を有することを特徴とする音声誤検出判別装置。 - 前記誤り検出部は、
前記音声区間における第1の閾値以上の音声到来率を有する前記単位時間の占める割合を示す音声率を算出し、前記音声率が第2の閾値以下の場合に、前記音声区間情報は誤検出であると検出することを特徴とする請求項1に記載の音声誤判定判別装置。 - 前記到来率算出部は、
前記複数の音声信号の内の2つの音声信号からそれぞれ抽出した前記単位時間毎の信号をそれぞれ変換して2つの周波数軸上の音声信号を生成し、前記2つの周波数軸上の音声信号の前記周波数毎の位相差を算出し、
前記所定方向に基づき前記周波数毎の前記位相差の許容範囲を設定し、
前記位相差と前記許容範囲とに基づき前記音声到来率を算出することを特徴とする請求項1または請求項2に記載の音声誤検出判別装置。 - 前記到来率算出部は、
前記音声信号の定常雑音モデルを推定し、
前記2つの周波数軸上の音声信号に前記定常雑音モデルを適用した場合の信号対雑音比が第3の閾値以上である場合に、前記音声到来率を算出することを特徴とする請求項3に記載の音声誤検出判別装置。 - 前記誤り検出部は、
複数の前記単位時間毎の前記音声到来率を平均した平滑化音声到来率を算出し、
前記認識結果と前記平滑化音声到来率とに基づき、前記音声区間が誤検出でないか否かを検出することを特徴とする請求項1から請求項4のいずれか一項に記載の音声誤検出判別装置。 - 前記誤り検出部は、
前記音声区間における第1の閾値以上の音声到来率を有する前記単位時間が所定時間以上続く場合に、前記音声区間情報は誤検出ではないと判定することを特徴とする請求項1から請求項4のいずれか一項に記載の音声誤検出判別装置。 - 前記認識結果取得部は、さらに、前記認識結果の確からしさを示す認識スコアを取得し、
前記誤り検出部は、
前記音声率に前記認識スコアを乗じた値を音声率として算出し、前記音声率が第2の閾値以下の場合に、前記音声区間は誤検出であると検出することを特徴とする請求項2から6に記載の音声誤検出判別装置。 - 前記第2の閾値は、前記音声区間が長くなる程小さくなるように設定することを特徴とする請求項2から請求項7のいずれか一項に記載の音声誤検出判別装置。
- 前記到来率算出部は、
前記複数の音声信号の内の2つの前記音声信号の相関関数と、前記所定方向に基づく位相差を算出し、前記相関関数と前記位相差とに基づき前記音声到来率を算出することを特徴とする請求項1または請求項2に記載の音声誤検出判別装置。 - 請求項1から請求項12のいずれか一項に記載の音声誤検出判別装置と、
音声認識装置であって、
前記複数の音声信号の内の1つの音声信号に基づき音声区間を検出する区間検出部と、
前記音声区間と検出された区間の音声信号により音声認識を行い、文字列を出力する認識部と、
を有する音声認識装置と、
を備えたことを特徴とする音声誤検出判別システム。 - 所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得する入力信号取得工程と、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得する認識結果取得工程と、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出する到来率算出工程と、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する誤検出判別工程と、
を有することを特徴とする音声誤検出判別方法。 - 所定方向の音源からの音声を含む周囲音を複数のマイクロフォンによりそれぞれ収音した複数の音声信号を取得し、
前記複数の音声信号のうち少なくとも一方の音声信号に基づく音声認識を行った結果検出された、前記音声信号の音声区間を示す音声区間情報を含む認識結果を取得し、
それぞれの前記複数の音声信号の単位時間毎の信号と前記所定方向とに基づき、前記単位時間における前記所定方向からの音声が前記周囲音に占める割合を示す音声到来率を算出し、
前記認識結果と前記音声到来率とに基づき、前記音声区間情報が誤検出でないか否かを検出する処理をコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011060796A JP5668553B2 (ja) | 2011-03-18 | 2011-03-18 | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
US13/406,935 US8775173B2 (en) | 2011-03-18 | 2012-02-28 | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011060796A JP5668553B2 (ja) | 2011-03-18 | 2011-03-18 | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012198289A true JP2012198289A (ja) | 2012-10-18 |
JP5668553B2 JP5668553B2 (ja) | 2015-02-12 |
Family
ID=46829177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011060796A Active JP5668553B2 (ja) | 2011-03-18 | 2011-03-18 | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8775173B2 (ja) |
JP (1) | JP5668553B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014204429A (ja) * | 2013-04-09 | 2014-10-27 | ヤリー株式会社Yally Inc. | 有無線通信ネットワークを用いた音声対話方法および装置 |
EP3226244A1 (en) | 2016-03-31 | 2017-10-04 | Fujitsu Limited | Noise suppressing apparatus, speech recognition apparatus, and noise suppressing method |
WO2018070639A1 (ko) * | 2016-10-14 | 2018-04-19 | 삼성전자 주식회사 | 전자 장치 및 전자 장치의 오디오 신호 처리 방법 |
US10540995B2 (en) | 2015-11-02 | 2020-01-21 | Samsung Electronics Co., Ltd. | Electronic device and method for recognizing speech |
CN113454623A (zh) * | 2019-02-21 | 2021-09-28 | 三菱电机株式会社 | 检测规则组调整装置和检测规则组调整程序 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013125257A1 (ja) * | 2012-02-20 | 2013-08-29 | 株式会社Jvcケンウッド | 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法 |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
US10306389B2 (en) | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
US9312826B2 (en) | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
US9595271B2 (en) * | 2013-06-27 | 2017-03-14 | Getgo, Inc. | Computer system employing speech recognition for detection of non-speech audio |
JP6176055B2 (ja) * | 2013-10-21 | 2017-08-09 | 富士通株式会社 | 音声検索装置及び音声検索方法 |
CN104823235B (zh) * | 2013-11-29 | 2017-07-14 | 三菱电机株式会社 | 声音识别装置 |
KR101614756B1 (ko) * | 2014-08-22 | 2016-04-27 | 현대자동차주식회사 | 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법 |
JP6603919B2 (ja) * | 2015-06-18 | 2019-11-13 | 本田技研工業株式会社 | 音声認識装置、および音声認識方法 |
US11631421B2 (en) * | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
CN105976808B (zh) * | 2016-04-18 | 2023-07-25 | 成都启英泰伦科技有限公司 | 一种智能语音识别系统及方法 |
FR3054362B1 (fr) * | 2016-07-22 | 2022-02-04 | Dolphin Integration Sa | Circuit et procede de reconnaissance de parole |
CN107993666B (zh) * | 2017-12-19 | 2021-01-29 | 北京华夏电通科技股份有限公司 | 语音识别方法、装置、计算机设备及可读存储介质 |
US10524051B2 (en) * | 2018-03-29 | 2019-12-31 | Panasonic Corporation | Sound source direction estimation device, sound source direction estimation method, and recording medium therefor |
US11676598B2 (en) | 2020-05-08 | 2023-06-13 | Nuance Communications, Inc. | System and method for data augmentation for multi-microphone signal processing |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0327698A (ja) * | 1989-03-10 | 1991-02-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号検出方法 |
JPH06110488A (ja) * | 1992-09-30 | 1994-04-22 | Matsushita Electric Ind Co Ltd | 音声検出方法および音声検出装置 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JP2004024863A (ja) * | 1994-05-13 | 2004-01-29 | Matsushita Electric Ind Co Ltd | 口唇認識装置および発生区間認識装置 |
JP2007094388A (ja) * | 2005-09-26 | 2007-04-12 | Samsung Electronics Co Ltd | 音声区間検出装置及び音声区間検出方法 |
JP2009271183A (ja) * | 2008-05-01 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置とその方法と、プログラムとその記録媒体 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3004883B2 (ja) * | 1994-10-18 | 2000-01-31 | ケイディディ株式会社 | 終話検出方法及び装置並びに連続音声認識方法及び装置 |
JPH1097269A (ja) | 1996-09-20 | 1998-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出装置及び方法 |
FI114422B (fi) * | 1997-09-04 | 2004-10-15 | Nokia Corp | Lähteen puheaktiviteetin tunnistus |
JP4863713B2 (ja) | 2005-12-29 | 2012-01-25 | 富士通株式会社 | 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム |
JP4757158B2 (ja) | 2006-09-20 | 2011-08-24 | 富士通株式会社 | 音信号処理方法、音信号処理装置及びコンピュータプログラム |
KR20080036897A (ko) * | 2006-10-24 | 2008-04-29 | 삼성전자주식회사 | 음성 끝점을 검출하기 위한 장치 및 방법 |
JP4854533B2 (ja) * | 2007-01-30 | 2012-01-18 | 富士通株式会社 | 音響判定方法、音響判定装置及びコンピュータプログラム |
US8005238B2 (en) * | 2007-03-22 | 2011-08-23 | Microsoft Corporation | Robust adaptive beamforming with enhanced noise suppression |
US8321213B2 (en) * | 2007-05-25 | 2012-11-27 | Aliphcom, Inc. | Acoustic voice activity detection (AVAD) for electronic systems |
US8244528B2 (en) * | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
JP2010124370A (ja) | 2008-11-21 | 2010-06-03 | Fujitsu Ltd | 信号処理装置、信号処理方法、および信号処理プログラム |
US8620672B2 (en) * | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
JP4906908B2 (ja) * | 2009-11-30 | 2012-03-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム |
-
2011
- 2011-03-18 JP JP2011060796A patent/JP5668553B2/ja active Active
-
2012
- 2012-02-28 US US13/406,935 patent/US8775173B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0327698A (ja) * | 1989-03-10 | 1991-02-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号検出方法 |
JPH06110488A (ja) * | 1992-09-30 | 1994-04-22 | Matsushita Electric Ind Co Ltd | 音声検出方法および音声検出装置 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JP2004024863A (ja) * | 1994-05-13 | 2004-01-29 | Matsushita Electric Ind Co Ltd | 口唇認識装置および発生区間認識装置 |
JP2007094388A (ja) * | 2005-09-26 | 2007-04-12 | Samsung Electronics Co Ltd | 音声区間検出装置及び音声区間検出方法 |
JP2009271183A (ja) * | 2008-05-01 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置とその方法と、プログラムとその記録媒体 |
Non-Patent Citations (2)
Title |
---|
CSNG200801121011; 傳田遊亀他: '"話者方位推定を利用した動的時間領域処理に基づく遠隔発話区間検出"' 電子情報通信学会論文誌 Vol.J92-D,No.1, 200901, pp.112-122 * |
JPN6011046251; 傳田遊亀他: '"話者方位推定を利用した動的時間領域処理に基づく遠隔発話区間検出"' 電子情報通信学会論文誌 Vol.J92-D,No.1, 200901, pp.112-122 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014204429A (ja) * | 2013-04-09 | 2014-10-27 | ヤリー株式会社Yally Inc. | 有無線通信ネットワークを用いた音声対話方法および装置 |
US10540995B2 (en) | 2015-11-02 | 2020-01-21 | Samsung Electronics Co., Ltd. | Electronic device and method for recognizing speech |
EP3226244A1 (en) | 2016-03-31 | 2017-10-04 | Fujitsu Limited | Noise suppressing apparatus, speech recognition apparatus, and noise suppressing method |
US9911428B2 (en) | 2016-03-31 | 2018-03-06 | Fujitsu Limited | Noise suppressing apparatus, speech recognition apparatus, and noise suppressing method |
WO2018070639A1 (ko) * | 2016-10-14 | 2018-04-19 | 삼성전자 주식회사 | 전자 장치 및 전자 장치의 오디오 신호 처리 방법 |
US11094323B2 (en) | 2016-10-14 | 2021-08-17 | Samsung Electronics Co., Ltd. | Electronic device and method for processing audio signal by electronic device |
CN113454623A (zh) * | 2019-02-21 | 2021-09-28 | 三菱电机株式会社 | 检测规则组调整装置和检测规则组调整程序 |
Also Published As
Publication number | Publication date |
---|---|
US8775173B2 (en) | 2014-07-08 |
US20120239394A1 (en) | 2012-09-20 |
JP5668553B2 (ja) | 2015-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5668553B2 (ja) | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム | |
JP5998603B2 (ja) | 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム | |
US10242677B2 (en) | Speaker dependent voiced sound pattern detection thresholds | |
KR101437830B1 (ko) | 음성 구간 검출 방법 및 장치 | |
KR102288928B1 (ko) | 성도 면적 정보를 이용한 음성 활동 감지 | |
CN109616098B (zh) | 基于频域能量的语音端点检测方法和装置 | |
Lokhande et al. | Voice activity detection algorithm for speech recognition applications | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
WO2001016937A9 (en) | System and method for classification of sound sources | |
JPH0990974A (ja) | 信号処理方法 | |
JP2001236085A (ja) | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 | |
CN112951259A (zh) | 音频降噪方法、装置、电子设备及计算机可读存储介质 | |
JP4607908B2 (ja) | 音声区間検出装置および音声区間検出方法 | |
JP5081730B2 (ja) | 音声区間検出装置および音声区間検出方法 | |
CN105706167A (zh) | 有语音的话音检测方法和装置 | |
KR102136700B1 (ko) | 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법 | |
JP6758890B2 (ja) | 音声判別装置、音声判別方法、コンピュータプログラム | |
JP2021536596A (ja) | 正規化を介して音響信号をフィンガープリンティングするための方法及び装置 | |
WO2016028254A1 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
CN111755025B (zh) | 一种基于音频特征的状态检测方法、装置及设备 | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JP5109050B2 (ja) | 音声処理装置およびプログラム | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP2019029861A (ja) | 音響信号処理装置、方法及びプログラム | |
US9911414B1 (en) | Transient sound event detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140916 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5668553 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |