JP2005031632A - 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ - Google Patents
発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ Download PDFInfo
- Publication number
- JP2005031632A JP2005031632A JP2004101094A JP2004101094A JP2005031632A JP 2005031632 A JP2005031632 A JP 2005031632A JP 2004101094 A JP2004101094 A JP 2004101094A JP 2004101094 A JP2004101094 A JP 2004101094A JP 2005031632 A JP2005031632 A JP 2005031632A
- Authority
- JP
- Japan
- Prior art keywords
- value
- energy
- frame
- utterance
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title claims description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 118
- 230000007613 environmental effect Effects 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 56
- 238000001514 detection method Methods 0.000 claims description 53
- 238000010606 normalization Methods 0.000 claims description 46
- 230000008859 change Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 17
- 238000007619 statistical method Methods 0.000 abstract description 5
- 238000004146 energy storage Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 5
- 230000001174 ascending effect Effects 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 101100513046 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) eth-1 gene Proteins 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Abstract
【解決手段】発話区間検出装置は、音声データをフレーム化する音声入力部104と、フレーム化された音声のエネルギ値をFIFO形式で記憶するフレームバッファ110と、フレームバッファ110内のフレームのエネルギ値を所定の統計的手法に従って処理し、環境雑音の推定値の初期値を算出する初期環境雑音算出部112と、環境雑音の推定値の初期値と、フレームバッファ110に記憶されるエネルギ値とに基づいて、音声データに含まれる環境雑音の変化に追従して変化するように、発話区間を検出するためのエネルギ値のしきい値をフレームごとに算出する動的しきい値算出部116と、このしきい値に基づいて、フレームの状態を判定する状態判定部118とを含む。
【選択図】 図4
Description
b(t)=b(t−1)×α+E(t)×(1−α) (状態が非発話状態の場合)
b(t)=b(t−1) (状態が非発話状態以外の場合)
ただしαは所定の忘却係数、E(t)は時刻tにおけるフレームのエネルギ値、に従って時刻tにおける背景雑音b(t)を算出するための手段とを含み、記憶するための手段は、算出された背景雑音b(t)を記憶する。
Eth1(t)= b(t)+max(β,Emax(t)−b(t))×第1の定数
に従って算出するための手段を含む。
Eth2(t)=b(t)+max(β,Emax(t)−b(t))×第2の定数
ただし第2の定数<第1の定数、に従って算出するための手段を含む。
図1に、音声信号と、本実施の形態において発話区間の検出に使用される手法で使用される様々なパラメータとを示す。図1を参照して、音声信号20に対し、発話開始しきい値22と発話終了しきい値24という二つのしきい値を用いて発話の開始位置26及び終了位置28を判定する。これら発話開始しきい値22及び発話終了しきい値24は、入力波形データからフレーム単位で算出されるエネルギから統計的手法により定められる。これらを定める手法については後述する。
後述する様に、本実施の形態に係る装置は、音声入力信号をフレーム単位で処理する。図3にフレーム及びフレームシフトの概念を説明するための模式図を示す。
図4は、本実施の形態に係る発話区間検出装置の構成を示す機能的ブロック図である。図4を参照して、この発話区間検出装置100は、マイク102から与えられる音声信号の中で発話区間を検出するためのものである。発話区間検出装置100は、マイク102から与えられる音声信号を標本化し、量子化することによりデジタル化し、さらに上記した形式のフレームデータとして10ミリ秒ごとに出力するとともに、フレームデータを出力したことを示すフレーム出力信号124を出力するための音声入力部104と、音声入力部104から与えられる複数個のフレームデータを記憶するための入力バッファ106とを含む。
[式1]
b’(t)=b(t−1)×α+E(t)×(1−α)
ここで、αは予め定められた忘却係数、E(t)はt番目のフレームのエネルギを表す。忘却係数は0以上1以下の値であるが、本実施の形態では0.8を用いる。
[式2]
b(t)=b(t−1)×α+E(t)×(1−α) (状態が非発話状態の場合)
b(t)=b(t−1) (状態が非発話状態以外の場合)
しきい値算出部178は以下の式に従って発話開始しきい値Eth1及び発話終了しきい値cを動的に算出する。
[式3]
0≦t<400ミリ秒では
Eth1(t)=b(t)+β×γ1
Eth2(t)=b(t)+β×γ2、
400ミリ秒≦tでは
Eth1(t)=b(t)+max(β,Emax(t)−b(t))×γ1
Eth2(t)=b(t)+max(β,Emax(t)−b(t))×γ2
ただし、βは発話の最低ダイナミックレンジで、本実施の形態では20dBである。またγ1及びγ2はそれぞれ発話開始しきい値比率及び発話終了しきい値比率であり、それぞれ実験的に定められる、0以上で1以下の定数である。本実施の形態ではγ1=0.25、γ2=0.20を用いる。
以上構成を述べた装置は以下のように動作する。
起動時には、処理に必要となるバッファ及びオプションの値を格納するためのエリアを記憶装置に確保する。起動時に与えられるオプションの値を調べ、オプションの値に誤りがなければ当該オプションに、与えられた値を設定する。オプションの値が与えられなかったものにはデフォルト値を設定する。与えられたオプションの値に誤りがあれば、その旨のメッセージを表示して処理を終了する。図5に示すフレーム音声エネルギ正規化処理部126のデフォルト最大値記憶部132については、起動時にオプションの値が与えられれば、その値をデフォルトの値として記憶し、さらに最大値記憶部134に記憶する。オプションの値が与えられなければ、プログラム上のデフォルト値をデフォルト最大値記憶部132に記憶し、さらに最大値記憶部134に記憶する。
入出力・アドレス管理部114からの初回フラグ196はHレベルである。音声入力部104は、発話判定に必要なデータ数が集まると、1回の処理で引き渡す数として予め定められた数のデータを入力バッファ106の、バッファ書込みポインタにより指定されるアドレスに書込む。
起動後400ミリ秒が経過すると、フレームバッファ110には40個のフレームデータ(E(0)〜E(39))のエネルギ値が格納されている。この状態が図7に対応する。ソート後フレームエネルギ記憶部142には、これら40個のフレームのエネルギ値を昇順にソートしたものが格納されている。この状態が図8に対応する。
入出力・アドレス管理部114からの初回フラグ196はオフとなる。40番目のフレームの後、100番目までのフレームについては、40番目のフレームに対する処理とほぼ同様である。この間の処理では、フレームバッファ110には10ミリ秒ごとに1フレーム分のデータが追加されていく。そして、その結果フレームバッファ110に格納されている全てのフレーム情報を用いて状態判定が実行される。
101番目のフレーム以降の処理も、400ミリ秒から1秒までの処理とほぼ同様である。ただしこの処理では、フレームバッファ110に記憶されているフレーム情報に新たなフレーム情報を追加する際には、最も古いフレーム情報が削除される。すなわちフレームバッファ110はFIFO形式でデータを格納する。その結果、フレームバッファ110には常に100フレーム分のフレーム情報が維持される。ソート処理部140によるソート処理も同様である。ソート後フレームエネルギ記憶部142のうち、最も古いフレームのエネルギ値が削除され、新たなフレームのエネルギ値が、その大きさに従って決まる位置に書込まれる。
以上説明した本実施の形態の装置によれば、発話の開始及び終了のための発話開始しきい値及び発話終了しきい値が、実際の音声データを統計的に処理する事により、実際の音声データに従って動的に変化される。環境雑音の変化に追従して変化するしきい値を用いて発話区間の検出ができる。その結果、環境雑音の影響を最小限に抑えて、正しく発話区間を検出する事ができる。
上記した実施の形態では、フレームのエネルギ算出の際の窓関数としてハミング窓を用いた。しかし使用可能な窓関数はこれに限らない。ハニング窓、ブラックマン、カイザー、ブラックマン-ハリスなど種々の窓関数のうち、適切と思われるものを用いればよい。
Claims (19)
- 音声データを逐次フレーム化するためのフレーム化手段と、
前記フレーム化手段によりフレーム化された音声のエネルギ値をフレームごとに算出し、FIFO(First−In First−Out)形式で第1の個数のフレームのエネルギ値を記憶するためのフレームエネルギ算出及び記憶手段と、
前記フレームエネルギ算出及び記憶手段に、第2の個数のフレームのエネルギ値が格納されたことに応答して、前記第2の個数のフレームのエネルギ値を所定の統計的手法に従って処理することにより、前記音声データに含まれる環境雑音の推定値の初期値を算出するための初期値算出手段と、
前記推定値の初期値と、フレームエネルギ算出及び記憶手段に逐次記憶される音声のエネルギ値とに基づいて、前記音声データに含まれる環境雑音の変化に追従して変化する様に、前記発話区間を検出するためのエネルギ値のしきい値をフレームごとに逐次算出するための手段と、
前記しきい値に基づいて、前記第2の個数のフレーム以降のフレームの中で、前記音声データの発話区間の開始位置又は終了位置に対応するフレームを推定するための発話区間推定手段とを含む、発話区間検出装置。 - 前記初期値算出手段は、
前記第2の個数のフレームを、各フレームのエネルギ値の大きさによって、第1のエネルギ値を中心とする第1のクラスタと、前記第1のエネルギよりも大きな第2のエネルギ値を中心とする第2のクラスタとにクラスタ化するための手段と、
前記第1のエネルギ値を前記環境雑音の推定値の初期値として出力するための手段とを含む、請求項1に記載の発話区間検出装置。 - 前記クラスタ化するための手段は、
前記第2の個数のフレームを前記第1及び第2のクラスタにクラスタ化するための境界値を決定するための手段と、
前記境界値よりも小さなエネルギ値を持つフレームを前記第1のクラスタに、それ以外のフレームを前記第2のクラスタに、それぞれ分類するための手段とを含む、請求項2に記載の発話区間検出装置。 - 前記境界値を決定するための手段は、
前記第2の個数のフレームのうち、エネルギ値をキーとしてソートしたときに予め定める第1のソート順位及び第2のソート順位となる二つのフレームを選択するための手段と、
前記選択された二つのフレームのエネルギ値の平均値を算出するための第1の平均値算出手段と、
前記第1の平均値算出手段により算出された平均値より小さいエネルギ値を持つか否かを基準として、前記第2の個数のフレームを第1及び第2のグループに分類するための手段と、
前記第1及び第2のグループに属するフレームのエネルギ値の平均値をそれぞれ算出するための第2の平均値算出手段と、
前記第2の平均値算出手段により算出された二つの平均値の平均値をさらに算出し、前記境界値として出力するための第3の平均値算出手段とを含む、請求項3に記載の発話区間検出装置。 - 前記しきい値をフレームごとに逐次算出するための手段は、
前記フレームエネルギ算出及び記憶手段に格納されているフレームのエネルギ値と、前記環境雑音の推定値の初期値とに基づいて、前記フレームエネルギ算出及び記憶手段に格納されているフレームの環境雑音のエネルギ値をフレームごとに推定するための手段と、
前記フレームエネルギ算出及び記憶手段に格納されているフレームのエネルギ値のうち、定常的な背景雑音及び発話音声の合計のエネルギ値の最大値をフレームごとに逐次推定するための手段と、
前記推定された環境雑音のエネルギ値と、前記推定された背景雑音及び発話音声の合計のエネルギ値とに基づいて、前記発話区間を検出するためのエネルギのしきい値をフレームごとに算出するための手段とを含む、請求項1に記載の発話区間検出装置。 - 前記発話区間推定手段は、前記しきい値に基づいて、前記第2の個数のフレーム以降のフレームの状態を判定するための手段を含み、
前記状態は、非発話状態を含み、
前記環境雑音のエネルギ値をフレームごとに逐次推定するための手段は、
1フレーム前の時点において推定された前記環境雑音のエネルギ値を記憶するための手段と、
前記環境雑音の推定値の初期値が算出された時点で前記記憶するための手段に前記環境雑音の推定値の初期値を記憶させるための手段と、
前記記憶するための手段に記憶された値、前記フレームエネルギ算出及び記憶手段に含まれるフレームのエネルギ値、及び前記フレームの状態を判定する手段による判定結果に基づいて、以下の式
b(t)=b(t−1)×α+E(t)×(1−α) (状態が非発話状態の場合)
b(t)=b(t−1) (状態が非発話状態以外の場合)
ただしαは所定の忘却係数、E(t)は時刻tにおけるフレームのエネルギ値、
に従って時刻tにおける背景雑音b(t)を算出するための手段とを含み、
前記記憶するための手段は、算出された前記背景雑音b(t)を記憶する、請求項5に記載の発話区間検出装置。 - 前記合計のエネルギ値の最大値をフレームごとに推定するための手段は、
前記フレームエネルギ算出及び記憶手段に格納されているフレームを、エネルギ値をキーとしてソートするための手段と、
前記ソートするための手段によりソートされた結果所定の順位となるフレームのエネルギ値を前記合計のエネルギ値の最大値Emax(t)として選択するための手段を含む、請求項6に記載の発話区間検出装置。 - 前記しきい値をフレームごとに逐次算出するための手段は、
時刻tにおける発話開始位置検出のためのしきい値Eth1(t)を、
Eth1(t)=b(t)+max(β,Emax(t)−b(t))×第1の定数
に従って算出するための手段を含む、請求項7に記載の発話区間検出装置。 - 前記しきい値をフレームごとに逐次算出するための手段は、
さらに、
時刻tにおける発話終了位置検出のためのしきい値Eth2(t)を、
Eth2(t)=b(t)+max(β,Emax(t)−b(t))×第2の定数
ただし第2の定数<第1の定数、
に従って算出するための手段を含む、請求項8に記載の発話区間検出装置。 - さらに、発話の先頭からの各フレームの音声データの最大エネルギ値又は所定のデフォルト基準値のいずれか大きい方を用いて各フレームの音声データを正規化し、各フレームの音声特徴パラメータとして出力するための音声エネルギ正規化手段を含む、請求項1〜請求項9のいずれかに記載の発話区間検出装置。
- 前記音声エネルギ正規化手段は、
正規化の基準値を記憶するための基準値記憶手段と、
前記フレームエネルギ算出及び記憶手段により算出された音声エネルギが、前記基準値記憶手段に記憶された基準値を超えていることを検出し、検出信号を出力するための検出手段と、
前記検出手段により出力される前記検出信号に応答して、前記基準値記憶手段に記憶された基準値を、前記フレームエネルギ算出及び記憶手段により算出された値で置換するための手段と、
前記フレームエネルギ算出及び記憶手段により算出された音声エネルギ値を、前記基準値記憶手段に記憶された基準値で除算することにより、当該フレームの音声エネルギを正規化するための除算手段とを含む、発話区間検出装置。 - 前記発話区間推定手段により、発話区間の終了位置に対応するフレームが推定されたことに応答して、前記基準値記憶手段の記憶内容を、所定のデフォルト値で置換するための手段をさらに含む、請求項11に記載の発話区間検出装置。
- 前記所定のデフォルト値を、前記発話区間検出装置の起動時に与えられたオプション値に基づいて設定するための手段をさらに含む、請求項11又は請求項12に記載の発話区間検出装置。
- コンピュータにより実行されると、当該コンピュータを請求項1から請求項13のいずれかに記載の発話区間検出装置として動作させる、発話区間検出のためのコンピュータプログラム。
- フレーム化された音声データの正規化音声エネルギを実時間で算出するための音声エネルギ正規化装置であって、
正規化の基準値を記憶するための基準値記憶手段と、
フレームごとの音声データの音声エネルギを算出するための手段と、
前記音声エネルギ算出手段により算出された音声エネルギが、前記基準値記憶手段に記憶された基準値を超えていることを検出し、検出信号を出力するための手段と、
前記検出手段により出力される前記検出信号に応答して、前記基準値記憶手段に記憶された基準値を、前記音声エネルギ算出手段により算出された値で置換するための手段と、
前記音声エネルギ算出手段により算出された音声エネルギを、前記基準値記憶手段に記憶された基準値で除算することにより、当該フレームの音声エネルギを正規化するための除算手段とを含む、音声エネルギ正規化装置。 - 発話区間の終了を検出して発話終了検出信号を出力するための手段と、
前記発話終了検出信号に応答して、前記基準値記憶手段の記憶内容を、所定のデフォルト値で置換するための手段とをさらに含む、請求項15に記載の音声エネルギ正規化装置。 - 前記所定のデフォルト値を、前記音声エネルギ正規化装置の起動時に与えられたオプション値に基づいて設定するための手段をさらに含む、請求項16に記載の音声エネルギ正規化装置。
- コンピュータにより実行されると、当該コンピュータを請求項15から請求項17のいずれかに記載の音声エネルギ正規化装置として動作させる、音声エネルギ正規化のためのコンピュータプログラム。
- 請求項14又は請求項18に記載のコンピュータプログラムによりプログラムされた、コンピュータ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004101094A JP4521673B2 (ja) | 2003-06-19 | 2004-03-30 | 発話区間検出装置、コンピュータプログラム及びコンピュータ |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003174416 | 2003-06-19 | ||
JP2004101094A JP4521673B2 (ja) | 2003-06-19 | 2004-03-30 | 発話区間検出装置、コンピュータプログラム及びコンピュータ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005031632A true JP2005031632A (ja) | 2005-02-03 |
JP4521673B2 JP4521673B2 (ja) | 2010-08-11 |
Family
ID=34220012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004101094A Expired - Fee Related JP4521673B2 (ja) | 2003-06-19 | 2004-03-30 | 発話区間検出装置、コンピュータプログラム及びコンピュータ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4521673B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008114448A1 (ja) * | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 音声認識システム、音声認識プログラムおよび音声認識方法 |
JP2009020457A (ja) * | 2007-07-13 | 2009-01-29 | Univ Waseda | 音声処理装置およびプログラム |
US8099277B2 (en) | 2006-09-27 | 2012-01-17 | Kabushiki Kaisha Toshiba | Speech-duration detector and computer program product therefor |
US8380500B2 (en) | 2008-04-03 | 2013-02-19 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
KR101437830B1 (ko) * | 2007-11-13 | 2014-11-03 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
WO2015105199A1 (en) | 2014-01-10 | 2015-07-16 | Ricoh Company, Ltd. | Imaging module and imaging device |
JP2016145944A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP2016145940A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP2016191788A (ja) * | 2015-03-31 | 2016-11-10 | ソニー株式会社 | 音響処理装置、音響処理方法、及び、プログラム |
US9570094B2 (en) | 2008-11-10 | 2017-02-14 | Google Inc. | Multisensory speech detection |
WO2021091504A1 (en) * | 2019-11-04 | 2021-05-14 | Cankaya Universitesi | Signal energy calculation with a new method and a speech signal encoder obtained by means of this method |
JP6996185B2 (ja) | 2017-09-15 | 2022-01-17 | 富士通株式会社 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5876899A (ja) * | 1981-10-31 | 1983-05-10 | 株式会社東芝 | 音声区間検出装置 |
JPS61273596A (ja) * | 1985-05-30 | 1986-12-03 | 沖電気工業株式会社 | 音声区間検出方式 |
JPH0832526A (ja) * | 1994-07-18 | 1996-02-02 | Kokusai Electric Co Ltd | 音声検出器 |
JPH0823756B2 (ja) * | 1988-08-09 | 1996-03-06 | 沖電気工業株式会社 | 音声区間検出方式 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JPH08314500A (ja) * | 1995-05-22 | 1996-11-29 | Sanyo Electric Co Ltd | 音声認識方法及び音声認識装置 |
JPH10301593A (ja) * | 1997-04-30 | 1998-11-13 | Nippon Hoso Kyokai <Nhk> | 音声区間検出方法およびその装置 |
JP2002258882A (ja) * | 2001-03-05 | 2002-09-11 | Hitachi Ltd | 音声認識システム及び情報記録媒体 |
-
2004
- 2004-03-30 JP JP2004101094A patent/JP4521673B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5876899A (ja) * | 1981-10-31 | 1983-05-10 | 株式会社東芝 | 音声区間検出装置 |
JPS61273596A (ja) * | 1985-05-30 | 1986-12-03 | 沖電気工業株式会社 | 音声区間検出方式 |
JPH0823756B2 (ja) * | 1988-08-09 | 1996-03-06 | 沖電気工業株式会社 | 音声区間検出方式 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JPH0832526A (ja) * | 1994-07-18 | 1996-02-02 | Kokusai Electric Co Ltd | 音声検出器 |
JPH08314500A (ja) * | 1995-05-22 | 1996-11-29 | Sanyo Electric Co Ltd | 音声認識方法及び音声認識装置 |
JPH10301593A (ja) * | 1997-04-30 | 1998-11-13 | Nippon Hoso Kyokai <Nhk> | 音声区間検出方法およびその装置 |
JP2002258882A (ja) * | 2001-03-05 | 2002-09-11 | Hitachi Ltd | 音声認識システム及び情報記録媒体 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099277B2 (en) | 2006-09-27 | 2012-01-17 | Kabushiki Kaisha Toshiba | Speech-duration detector and computer program product therefor |
WO2008114448A1 (ja) * | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 音声認識システム、音声認識プログラムおよび音声認識方法 |
JPWO2008114448A1 (ja) * | 2007-03-20 | 2010-07-01 | 富士通株式会社 | 音声認識システム、音声認識プログラムおよび音声認識方法 |
US7991614B2 (en) | 2007-03-20 | 2011-08-02 | Fujitsu Limited | Correction of matching results for speech recognition |
JP4836290B2 (ja) * | 2007-03-20 | 2011-12-14 | 富士通株式会社 | 音声認識システム、音声認識プログラムおよび音声認識方法 |
JP2009020457A (ja) * | 2007-07-13 | 2009-01-29 | Univ Waseda | 音声処理装置およびプログラム |
KR101437830B1 (ko) * | 2007-11-13 | 2014-11-03 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
US8380500B2 (en) | 2008-04-03 | 2013-02-19 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
US10026419B2 (en) | 2008-11-10 | 2018-07-17 | Google Llc | Multisensory speech detection |
US9570094B2 (en) | 2008-11-10 | 2017-02-14 | Google Inc. | Multisensory speech detection |
KR101829865B1 (ko) * | 2008-11-10 | 2018-02-20 | 구글 엘엘씨 | 멀티센서 음성 검출 |
US10020009B1 (en) | 2008-11-10 | 2018-07-10 | Google Llc | Multisensory speech detection |
US10714120B2 (en) | 2008-11-10 | 2020-07-14 | Google Llc | Multisensory speech detection |
US10720176B2 (en) | 2008-11-10 | 2020-07-21 | Google Llc | Multisensory speech detection |
WO2015105199A1 (en) | 2014-01-10 | 2015-07-16 | Ricoh Company, Ltd. | Imaging module and imaging device |
JP2016145944A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP2016145940A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP2016191788A (ja) * | 2015-03-31 | 2016-11-10 | ソニー株式会社 | 音響処理装置、音響処理方法、及び、プログラム |
JP6996185B2 (ja) | 2017-09-15 | 2022-01-17 | 富士通株式会社 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
WO2021091504A1 (en) * | 2019-11-04 | 2021-05-14 | Cankaya Universitesi | Signal energy calculation with a new method and a speech signal encoder obtained by means of this method |
Also Published As
Publication number | Publication date |
---|---|
JP4521673B2 (ja) | 2010-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101942521B1 (ko) | 음성 엔드포인팅 | |
CN109473123B (zh) | 语音活动检测方法及装置 | |
US11062705B2 (en) | Information processing apparatus, information processing method, and computer program product | |
JP4521673B2 (ja) | 発話区間検出装置、コンピュータプログラム及びコンピュータ | |
CN109767792B (zh) | 语音端点检测方法、装置、终端和存储介质 | |
US6873953B1 (en) | Prosody based endpoint detection | |
US7610199B2 (en) | Method and apparatus for obtaining complete speech signals for speech recognition applications | |
US9418662B2 (en) | Method, apparatus and computer program product for providing compound models for speech recognition adaptation | |
CN108563655B (zh) | 基于文本的事件识别方法和装置 | |
JP2004264816A (ja) | 再帰的構成における反復ノイズ推定法 | |
US6651040B1 (en) | Method for dynamic adjustment of audio input gain in a speech system | |
JP2007133411A (ja) | ガウス確率データビットの低減と計算のためのメモリ使用削減方法および装置 | |
US8121299B2 (en) | Method and system for music detection | |
US20200365146A1 (en) | Dialog device, dialog method, and dialog computer program | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
US8725508B2 (en) | Method and apparatus for element identification in a signal | |
CN106504756A (zh) | 嵌入式语音识别系统及方法 | |
CN102246226B (zh) | 声音识别装置 | |
CN113378541A (zh) | 文本标点预测方法、装置、系统及存储介质 | |
JPWO2015093025A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
US20220189499A1 (en) | Volume control apparatus, methods and programs for the same | |
Chelloug et al. | Real Time Implementation of Voice Activity Detection based on False Acceptance Regulation. | |
US20220007124A1 (en) | Audio signal processing method, apparatus, and program | |
CN109378019B (zh) | 音频数据读取方法及处理系统 | |
JP6969597B2 (ja) | 音響信号処理装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100330 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100420 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100514 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4521673 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |