JP2001343983A - 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 - Google Patents
音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置Info
- Publication number
- JP2001343983A JP2001343983A JP2000160237A JP2000160237A JP2001343983A JP 2001343983 A JP2001343983 A JP 2001343983A JP 2000160237 A JP2000160237 A JP 2000160237A JP 2000160237 A JP2000160237 A JP 2000160237A JP 2001343983 A JP2001343983 A JP 2001343983A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- hmm
- section
- speech
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
検出方法に比べて、計算能力の低減化が図れる音声始端
検出方法を提供することを目的とする。 【解決手段】 環境非依存の有声音のHMMであって、
HMMの時間方向の接続を無視し、時間方向の全状態に
含まれるガウス分布からなる混合ガウス分布で近似した
HMMと、環境非依存の無音のHMMとを用いて、入力
音声波形の一定区間内に所定フレーム数以上の有声音区
間が存在するか否かを判定し、一定区間内に所定フレー
ム数以上の有声音区間が存在するときに当該一定区間の
先頭フレームを音声始端として検出する。
Description
法、音声認識装置における音声区間検出方法および音声
認識装置に関する。
常に重要な問題である。音声区間の検出には音声始端と
音声終端の検出が必要である。音声始端の検出における
要求は音声始端を確実に検出することであり、音声終端
の検出では実際の音声終端に遅れることない検出が要求
される。
は、検出点が実際の発声の始端より遅れないことであ
る。これは、検出点が実際の発声の始端より遅い場合は
即座に認識誤りの原因となるためである。
区間検出法(文献1参照)では、検出点は実際の発声よ
り大きく遅れることはないが、たとえば、「一回」の/
ikk/の音声区間のように、発声の始端において十分
にパワーが上がらないような場合には、この部分を取り
こぼす場合がありえる。これは音声区間をモデル化する
にはパワーおよびその変動だけでは単純すぎることを意
味している。
s for Noise Robust Speech Detection. In 日本音響学
会平成5年春秋研究発表会講演論文集、I,2-Q-25, pp.1
97-198.
れたのに対し、音声終端の検出においては実際の発声の
終端に対して遅れが少ないことも重要視される。これは
音声終端の検出の遅れがそのまま認識結果の出力の遅れ
につながるためである。従来のパワーおよびその変動を
用いた音声区間検出法(文献1参照)では、上述したよ
うに、音声区間のモデルとしては単純すぎるため、どう
しても音声終端の検出が実際の発声の終端よりもかなり
遅れる傾向にある。
端検出方法に比べて、計算能力の低減化が図れる音声始
端検出方法および音声認識装置における区間判定方法を
提供することを目的とする。
音声認識装置を提供することを目的とする。
いた音声始端検出方法であって、環境非依存の有声音の
HMMであって、HMMの時間方向の接続を無視し、時
間方向の全状態に含まれるガウス分布からなる混合ガウ
ス分布で近似したHMMと、環境非依存の無音のHMM
とを用いて、入力音声波形の一定区間内に所定フレーム
数以上の有声音区間が存在するか否かを判定し、一定区
間内に所定フレーム数以上の有声音区間が存在するとき
に当該一定区間の先頭フレームを音声始端として検出す
ることを特徴とする。
間検出方法であって、環境非依存の有声音のHMMであ
って、HMMの時間方向の接続を無視し、時間方向の全
状態に含まれるガウス分布からなる混合ガウス分布で近
似したHMMと、環境非依存の無音のHMMとを用い
て、入力音声波形の一定区間内に所定フレーム数以上の
有声音区間が存在するか否かを判定し、一定区間内に所
定フレーム数以上の有声音区間が存在するときに当該一
定区間の先頭フレームを音声始端として検出し、音声認
識に用いられているHMMを用いて無音区間が所定期間
以上継続したか否かを判定し、無音区間が所定期間以上
継続したときに音声終端と判定することを特徴とする。
力音声波形から特徴量を抽出する特徴量抽出手段、特徴
量抽出手段によって抽出された特徴量に基づいて音声始
端を検出する音声始端検出手段、特徴量抽出手段によっ
て抽出された特徴量に基づいて音声認識処理を行なうと
ともに音声終端検出処理を行なうデコード手段、音声始
端検出部によって音声始端が検出されたときに、特徴量
抽出手段によって抽出された特徴量をデコード手段に送
り、かつデコート手段によって音声終端が検出されたと
きに、特徴量抽出手段によって抽出された特徴量を音声
始端検出部に送るように、特徴量抽出手段によって抽出
された特徴量の送り先を制御する手段を備えており、音
声始端検出手段は、環境非依存の有声音のHMMであっ
て、HMMの時間方向の接続を無視し、時間方向の全状
態に含まれるガウス分布からなる混合ガウス分布で近似
したHMMと、環境非依存の無音のHMMとを用いて、
入力音声波形の一定区間内に所定フレーム数以上の有声
音区間が存在するか否かを判定する手段、および一定区
間内に所定フレーム数以上の有声音区間が存在するとき
に当該一定区間の先頭フレームを音声始端として検出す
る手段を備えており、デコート手段は、音声認識処理に
用いられているHMMを用いて無音区間が所定期間以上
継続したか否かを判定する手段、および無音区間が所定
期間以上継続したときに音声終端と判定する手段を備え
ていることを特徴とする。
ライアント装置とサーバ装置とを備えており、クライア
ント装置は、入力音声波形からケプストラムを抽出する
ケプストラム抽出手段、ケプストラム抽出手段によって
抽出されたケプストラムから特徴量を抽出する第1の特
徴量抽出手段、第1の特徴量抽出手段によって抽出され
た抽出された特徴量に基づいて音声始端を検出する音声
始端検出手段、およびケプストラム抽出手段によって抽
出されたケプストラムをサーバ装置に送るか否かを選択
するスイッチ手段を備えており、サーバ装置は、クライ
アント装置から送られてくるケプストラムから特徴量を
抽出する第2の特徴量抽出手段、および第2の特徴量抽
出手段によって抽出された特徴量に基づいて音声認識処
理を行なうとともに音声終端検出処理を行なうデコード
手段を備えており、音声始端検出手段は、環境非依存の
有声音のHMMであって、HMMの時間方向の接続を無
視し、時間方向の全状態に含まれるガウス分布からなる
混合ガウス分布で近似したHMMと、環境非依存の無音
のHMMとを用いて、入力音声波形の一定区間内に所定
フレーム数以上の有声音区間が存在するか否かを判定す
る手段、一定区間内に所定フレーム数以上の有声音区間
が存在するときに当該一定区間の先頭フレームを音声始
端として検出する手段、および音声始端を検出したとき
にスイッチ手段をオンさせる手段を備えており、デコー
ド手段は、音声認識処理に用いられているHMMを用い
て無音区間が所定期間以上継続したか否かを判定する手
段、無音区間が所定期間以上継続したときに音声終端と
判定する手段および音声終端が検出されると、サーバ装
置内の音声始端検出部に音声終端の時間を送信するとと
もに音声終端に続いて音声始端が検出されたと仮定して
デコーディングを継続する手段を備えており、音声始端
検出手段は、さらに、デコード手段から音声終端の時間
を受信したときに、その音声終端の時間から現在までに
音声始端を検出したかどうかを判定する手段、および音
声終端の時間から現在までに音声始端を検出していると
きには、スイッチ手段をオンのままとし、音声終端の時
間から現在までに音声始端を検出していないときには、
スイッチ手段をオフとさせる手段を備えていることを特
徴とする。
いて説明する。
してはHMMを用いる方法が知られている(文献2参
照)。
環境下単語音声区間検出のための雑音EHMM再学習の
効果 電子情報通信学会技術報告、SP97-47, 1997.
算量はかなりのものとなり、特に計算能力の落ちる計算
機を用いるクライアント・サーバ型の音声認識では実用
面で大きな問題となる。そこで、本発明の実施の形態で
は、HMMを次に示す方法で簡素化することによって計
算能力の削減を図ることにする。
状態数を削減する。 有声音および無音のHMMのみを用いる。 有声音モデルの作成にあたっては、HMMの時間方向
の接続を無視し、時間方向の全状態に含まれるガウス分
布からなる混合ガウス分布で近似する。
の、および(2)母音と子音の一部とからなるものをい
う。上記(2)の子音の一部とは、音を伴う子音をい
い、濁音、ナ行、マ行、ヤ行およびワ行の子音をいう。
カ行、サ行、タ行、ハ行、パ行の子音は無音である。
合、子音区間は有声音と判断されるか無音と判断される
か不定である。しかし子音のみが長時間(100mse
c以上)継続することは考えがたいため、一定区間内に
一定フレーム以上有声音区間が存在すれば音声区間と判
断する。
HMMが認識のために用いられている。従ってこのHM
Mの尤度を用いて音声終端の検出を行えば正確な終端検
出が可能と考えられ、言語モデルとして有限状態オート
マトンを用いた場合の例が報告されている(文献3参
照)。
武田一哉 部分文仮説のゆう度を用いた連続音声認識の
ための音声区間検出法. In 電子情報通信学会論文誌、
J80-DII, pp.2895-2903, 1997.
てN−gramを用いた場合を前提とし、音響状態が無
音である仮説が一定時間以上最尤であれば音声区間の終
端と判断する。
という)と、パワーおよびその変動を用いた従来法との
比較実験を行った。実験は41会話536発話を対象と
して行った。これらの発声はあらかじめ人手で前後に十
分な無音を付加して切り出してある。
および男女別の有声音、計11のモデルを用いた。つま
り、1つの無音のモデルと、5つの男性の有声音のモデ
ルと、5つの女性の有声音のモデルとを用いた。
ス分布の混合数はそれぞれ5である。音声始端検出の条
件としては12フレーム(120msec)中、4つ以
上有声音が最尤であった場合、12フレームの先頭フレ
ームを音声始端とした。
この時の計算コストはケプストラム抽出を含む特徴量抽
出の計算のコストとほぼ同等であった。従来法との比較
結果を表1に示す。
先んじた発話を検出成功発話としてある。提案法におい
て始端検出に失敗した発話が14あるものの、これらは
すべて「あ、すみません」の「あ」の部分のように後ろ
に無音を伴う短い間投詞であり、認識結果にはほとんど
影響を及ぼさないものであった。
400状態5混合の性別依存モデルである。終端検出の
ための無音最尤の継続長は700msecとした。従来
法との比較結果を表2に示す。検出した終端の時間が実
際の発声の終端より後ろである発話を検出成功発話とし
てある。
端検出には無音および有声音のHMMを用い、終端検出
には認識に用いるHMMを用いてデコーダで検出する方
法を提案した。本手法は始端検出においては精度で、終
端検出においては遅延時間において従来法にまさり、音
声区間検出における有効性が実験により認識された。ま
た従来法では対応の難しい非定常雑音下においてもHM
Mで雑音モデルとして表現することにより対応できる可
能性があり、適応範囲においても優れていると考えられ
る。
認識システムの説明 図1は、スタンドアロン型の音声認識システムの構成を
示している。
特徴量抽出部1に送られ、特徴量抽出部1によって特徴
量が抽出される。特徴量抽出部1によって抽出された特
徴量は、スイッチ2を介して音声始端検出部3へと送ら
れる。音声始端検出部3は、特徴量抽出部1によって抽
出された特徴量に基づいて、上記〔1〕で説明した音声
始端検出方法によって音声始端を検出する。
されると、スイッチ2がデコーダ側に切り替わり、音声
始端検出部3で検出された音声始端以降の特徴量がデコ
ーダ4に送られる。デコーダ4は、送られてきた特徴量
に基づいて音声認識処理を行なうとともに音声終端検出
処理を行なう。
した方法によって音声終端を検出すると、再びスイッチ
2が音声始端検出部側に切り替えられ、特徴量抽出部1
によって抽出された特徴量が音声始端検出装置3に送ら
れ、次の音声に対応する状態に戻され、同様な動作が繰
り返される。
る音声認識システム構成
システムの構成を示している。
0と、サーバ装置20とから構成されている。
プストラムを抽出するケプストラム抽出部11、ケプス
トラム抽出部11によって抽出されたケプストラムから
特徴量を抽出する特徴量抽出部12、特徴量抽出部12
によって抽出された抽出された特徴量に基づいて上記
〔1〕で説明した音声始端検出方法によって音声始端を
検出する音声始端検出部13およびケプストラム抽出部
11によって抽出されたケプストラムをサーバ装置20
に送るか否かを制御するスイッチ14を備えている。
から送られてきたケプストラムから特徴量を抽出する特
徴量抽出部21および特徴量抽出部21によって抽出さ
れた特徴量に基づいて音声認識処理を行なうとともに上
記〔2〕で説明した音声終端検出方法によって音声終端
検出処理を行なうデコーダ22を備えている。
13は、音声始端の検出処理を常時行なっている。クラ
イアント装置10内の音声始端検出部13で音声始端が
検出されると、スイッチ14がオンされ、音声始端検出
部13で検出された音声始端以降のケプストラムがサー
バ装置20に送られる。サーバ装置20内の特徴量抽出
部21では、クライアント装置10から送信されてきた
ケプストラムに基づいて特徴量を抽出する。特徴量抽出
部21によって抽出された特徴量はデコーダ22に送ら
れる。デコーダ22は、特徴量抽出部21から送られて
きた特徴量に基づいて音声認識処理を行なうとともに音
声終端検出処理を行なう。
ると、サーバ装置10内の声始端検出部13に音声終端
の時間が送信される。この際、デコーダ22は音声終端
に続いて音声始端が検出されたと仮定してデコーディン
グを継続する。
音声終端の時間を受信すると、その音声終端の時間から
現在までに音声始端を検出したかどうかを調べる。音声
始端検出部13は、音声終端の時間から現在までに音声
始端を検出している場合には、スイッチ14をオンのま
まとする。この場合には、デコーダ22は、デコーダ2
2が仮定した音声始端を有効とみなしてデコーディング
を継続することになる。
ら現在までに音声始端を検出している場合には、スイッ
チ14をオフとするとともに、キャンセル信号をデコー
ダ22に送る。デコーダ22は、キャンセル信号を受信
すると、デコーディングを中止する。
ステムとして、図3に示すようなものを用いてもよい。
10は、音声波形から特徴量を抽出する特徴量抽出部1
11、特徴量抽出部111によって抽出された抽出され
た特徴量に基づいて上記〔1〕で説明した音声始端検出
方法によって音声始端を検出する音声始端検出部112
および特徴量抽出部111によって抽出された特徴量を
サーバ装置120に送るか否かを制御するスイッチ11
3を備えている。
10から送られてきた特徴量に基づいて音声認識処理を
行なうとともに上記〔2〕で説明した音声終端検出方法
によって音声終端検出処理を行なうデコーダ121を備
えている。
12の動作およびデコーダ121の動作は、それぞれ図
2の音声始端検出部13の動作およびデコーダ22の動
作と同じである。
た音声始端検出方法に比べて、計算能力の低減化が図れ
るようになる。また、この発明によれば、音声区間の検
出が容易となる音声認識装置が得られる。
示すブロック図である。
成を示すブロック図である。
の構成を示すブロック図である。
Claims (4)
- 【請求項1】 HMMを用いた音声始端検出方法におい
て、 環境非依存の有声音のHMMであって、HMMの時間方
向の接続を無視し、時間方向の全状態に含まれるガウス
分布からなる混合ガウス分布で近似したHMMと、環境
非依存の無音のHMMとを用いて、入力音声波形の一定
区間内に所定フレーム数以上の有声音区間が存在するか
否かを判定し、一定区間内に所定フレーム数以上の有声
音区間が存在するときに当該一定区間の先頭フレームを
音声始端として検出することを特徴とする音声始端検出
方法。 - 【請求項2】 音声認識装置における音声区間検出方法
において、 環境非依存の有声音のHMMであって、HMMの時間方
向の接続を無視し、時間方向の全状態に含まれるガウス
分布からなる混合ガウス分布で近似したHMMと、環境
非依存の無音のHMMとを用いて、入力音声波形の一定
区間内に所定フレーム数以上の有声音区間が存在するか
否かを判定し、一定区間内に所定フレーム数以上の有声
音区間が存在するときに当該一定区間の先頭フレームを
音声始端として検出し、音声認識に用いられているHM
Mを用いて無音区間が所定期間以上継続したか否かを判
定し、無音区間が所定期間以上継続したときに音声終端
と判定することを特徴とする音声認識装置における音声
区間検出方法。 - 【請求項3】 入力音声波形から特徴量を抽出する特徴
量抽出手段、 特徴量抽出手段によって抽出された特徴量に基づいて音
声始端を検出する音声始端検出手段、 特徴量抽出手段によって抽出された特徴量に基づいて音
声認識処理を行なうとともに音声終端検出処理を行なう
デコード手段、 音声始端検出部によって音声始端が検出されたときに、
特徴量抽出手段によって抽出された特徴量をデコード手
段に送り、かつデコート手段によって音声終端が検出さ
れたときに、特徴量抽出手段によって抽出された特徴量
を音声始端検出部に送るように、特徴量抽出手段によっ
て抽出された特徴量の送り先を制御する手段を備えてお
り、 音声始端検出手段は、環境非依存の有声音のHMMであ
って、HMMの時間方向の接続を無視し、時間方向の全
状態に含まれるガウス分布からなる混合ガウス分布で近
似したHMMと、環境非依存の無音のHMMとを用い
て、入力音声波形の一定区間内に所定フレーム数以上の
有声音区間が存在するか否かを判定する手段、および一
定区間内に所定フレーム数以上の有声音区間が存在する
ときに当該一定区間の先頭フレームを音声始端として検
出する手段を備えており、 デコート手段は、音声認識処理に用いられているHMM
を用いて無音区間が所定期間以上継続したか否かを判定
する手段、および無音区間が所定期間以上継続したとき
に音声終端と判定する手段を備えていることを特徴とす
る音声認識装置。 - 【請求項4】 クライアント装置とサーバ装置とを備え
ており、 クライアント装置は、 入力音声波形からケプストラムを抽出するケプストラム
抽出手段、 ケプストラム抽出手段によって抽出されたケプストラム
から特徴量を抽出する第1の特徴量抽出手段、 第1の特徴量抽出手段によって抽出された抽出された特
徴量に基づいて音声始端を検出する音声始端検出手段、
およびケプストラム抽出手段によって抽出されたケプス
トラムをサーバ装置に送るか否かを選択するスイッチ手
段を備えており、 サーバ装置は、 クライアント装置から送られてくるケプストラムから特
徴量を抽出する第2の特徴量抽出手段、および第2の特
徴量抽出手段によって抽出された特徴量に基づいて音声
認識処理を行なうとともに音声終端検出処理を行なうデ
コード手段を備えており、 音声始端検出手段は、環境非依存の有声音のHMMであ
って、HMMの時間方向の接続を無視し、時間方向の全
状態に含まれるガウス分布からなる混合ガウス分布で近
似したHMMと、環境非依存の無音のHMMとを用い
て、入力音声波形の一定区間内に所定フレーム数以上の
有声音区間が存在するか否かを判定する手段、一定区間
内に所定フレーム数以上の有声音区間が存在するときに
当該一定区間の先頭フレームを音声始端として検出する
手段、および音声始端を検出したときにスイッチ手段を
オンさせる手段を備えており、 デコード手段は、音声認識処理に用いられているHMM
を用いて無音区間が所定期間以上継続したか否かを判定
する手段、無音区間が所定期間以上継続したときに音声
終端と判定する手段および音声終端が検出されると、サ
ーバ装置内の音声始端検出部に音声終端の時間を送信す
るとともに音声終端に続いて音声始端が検出されたと仮
定してデコーディングを継続する手段を備えており、 音声始端検出手段は、さらに、デコード手段から音声終
端の時間を受信したときに、その音声終端の時間から現
在までに音声始端を検出したかどうかを判定する手段、
および音声終端の時間から現在までに音声始端を検出し
ているときには、スイッチ手段をオンのままとし、音声
終端の時間から現在までに音声始端を検出していないと
きには、スイッチ手段をオフとさせる手段を備えている
ことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000160237A JP3721948B2 (ja) | 2000-05-30 | 2000-05-30 | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000160237A JP3721948B2 (ja) | 2000-05-30 | 2000-05-30 | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001343983A true JP2001343983A (ja) | 2001-12-14 |
JP3721948B2 JP3721948B2 (ja) | 2005-11-30 |
Family
ID=18664457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000160237A Expired - Fee Related JP3721948B2 (ja) | 2000-05-30 | 2000-05-30 | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3721948B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004094077A (ja) * | 2002-09-03 | 2004-03-25 | Nec Corp | 音声認識装置及び制御方法並びにプログラム |
JP2007233148A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 発話区間検出装置及び発話区間検出プログラム |
JP2010510534A (ja) * | 2006-11-16 | 2010-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声アクティビティ検出システム及び方法 |
JP2012048119A (ja) * | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
JP2012252060A (ja) * | 2011-05-31 | 2012-12-20 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
JP2013011680A (ja) * | 2011-06-28 | 2013-01-17 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
WO2016043182A1 (ja) * | 2014-09-17 | 2016-03-24 | 株式会社東芝 | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム |
JP2019040148A (ja) * | 2017-08-29 | 2019-03-14 | 日本電信電話株式会社 | 音声区間検出装置、その方法、及びプログラム |
DE112018006885B4 (de) | 2018-02-20 | 2021-11-04 | Mitsubishi Electric Corporation | Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität |
-
2000
- 2000-05-30 JP JP2000160237A patent/JP3721948B2/ja not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004094077A (ja) * | 2002-09-03 | 2004-03-25 | Nec Corp | 音声認識装置及び制御方法並びにプログラム |
JP2007233148A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 発話区間検出装置及び発話区間検出プログラム |
US8554560B2 (en) | 2006-11-16 | 2013-10-08 | International Business Machines Corporation | Voice activity detection |
JP2010510534A (ja) * | 2006-11-16 | 2010-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声アクティビティ検出システム及び方法 |
US8311813B2 (en) | 2006-11-16 | 2012-11-13 | International Business Machines Corporation | Voice activity detection system and method |
JP2012048119A (ja) * | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
JP2012252060A (ja) * | 2011-05-31 | 2012-12-20 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
JP2013011680A (ja) * | 2011-06-28 | 2013-01-17 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
WO2016043182A1 (ja) * | 2014-09-17 | 2016-03-24 | 株式会社東芝 | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム |
JP2016061890A (ja) * | 2014-09-17 | 2016-04-25 | 株式会社東芝 | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム |
US10210886B2 (en) | 2014-09-17 | 2019-02-19 | Kabushiki Kaisha Toshiba | Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus |
JP2019040148A (ja) * | 2017-08-29 | 2019-03-14 | 日本電信電話株式会社 | 音声区間検出装置、その方法、及びプログラム |
DE112018006885B4 (de) | 2018-02-20 | 2021-11-04 | Mitsubishi Electric Corporation | Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität |
US11527259B2 (en) | 2018-02-20 | 2022-12-13 | Mitsubishi Electric Corporation | Learning device, voice activity detector, and method for detecting voice activity |
Also Published As
Publication number | Publication date |
---|---|
JP3721948B2 (ja) | 2005-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12100396B2 (en) | Indicator for voice-based communications | |
US11710477B2 (en) | Speech endpointing | |
US10600414B1 (en) | Voice control of remote device | |
US10643609B1 (en) | Selecting speech inputs | |
JP3004883B2 (ja) | 終話検出方法及び装置並びに連続音声認識方法及び装置 | |
US10678504B1 (en) | Maintaining context for voice processes | |
US9972318B1 (en) | Interpreting voice commands | |
US7801726B2 (en) | Apparatus, method and computer program product for speech processing | |
KR101417975B1 (ko) | 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템 | |
US20180061402A1 (en) | Voice-based communications | |
US9911411B2 (en) | Rapid speech recognition adaptation using acoustic input | |
EP3726524A1 (en) | Speech endpointing | |
US20240029743A1 (en) | Intermediate data for inter-device speech processing | |
CN114385800A (zh) | 语音对话方法和装置 | |
KR20230116908A (ko) | 프리즈 워드 | |
JP3721948B2 (ja) | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 | |
CN112185392A (zh) | 一种用于供电智能客户的语音识别处理系统 | |
US20170110118A1 (en) | Speech endpointing | |
JPH10254475A (ja) | 音声認識方法 | |
KR20050049207A (ko) | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 | |
JPH08263092A (ja) | 応答音声生成方法および音声対話システム | |
KR100622019B1 (ko) | 음성 인터페이스 시스템 및 방법 | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP7361988B2 (ja) | 音声対話システム、音声対話方法及び音声対話管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050824 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050905 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090922 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090922 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100922 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110922 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |