JP2001343983A - 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 - Google Patents

音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置

Info

Publication number
JP2001343983A
JP2001343983A JP2000160237A JP2000160237A JP2001343983A JP 2001343983 A JP2001343983 A JP 2001343983A JP 2000160237 A JP2000160237 A JP 2000160237A JP 2000160237 A JP2000160237 A JP 2000160237A JP 2001343983 A JP2001343983 A JP 2001343983A
Authority
JP
Japan
Prior art keywords
voice
hmm
section
speech
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000160237A
Other languages
English (en)
Other versions
JP3721948B2 (ja
Inventor
Hiroshi Yamamoto
博史 山本
Singer Harald
ハラルド・シンガー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2000160237A priority Critical patent/JP3721948B2/ja
Publication of JP2001343983A publication Critical patent/JP2001343983A/ja
Application granted granted Critical
Publication of JP3721948B2 publication Critical patent/JP3721948B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 この発明は、従来のHMMを用いた音声始端
検出方法に比べて、計算能力の低減化が図れる音声始端
検出方法を提供することを目的とする。 【解決手段】 環境非依存の有声音のHMMであって、
HMMの時間方向の接続を無視し、時間方向の全状態に
含まれるガウス分布からなる混合ガウス分布で近似した
HMMと、環境非依存の無音のHMMとを用いて、入力
音声波形の一定区間内に所定フレーム数以上の有声音区
間が存在するか否かを判定し、一定区間内に所定フレー
ム数以上の有声音区間が存在するときに当該一定区間の
先頭フレームを音声始端として検出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声始端検出方
法、音声認識装置における音声区間検出方法および音声
認識装置に関する。
【0002】
【従来の技術】音声認識において、音声区間の検出は非
常に重要な問題である。音声区間の検出には音声始端と
音声終端の検出が必要である。音声始端の検出における
要求は音声始端を確実に検出することであり、音声終端
の検出では実際の音声終端に遅れることない検出が要求
される。
【0003】音声始端の検出において最も重要な要求
は、検出点が実際の発声の始端より遅れないことであ
る。これは、検出点が実際の発声の始端より遅い場合は
即座に認識誤りの原因となるためである。
【0004】従来のパワーおよびその変動を用いた音声
区間検出法(文献1参照)では、検出点は実際の発声よ
り大きく遅れることはないが、たとえば、「一回」の/
ikk/の音声区間のように、発声の始端において十分
にパワーが上がらないような場合には、この部分を取り
こぼす場合がありえる。これは音声区間をモデル化する
にはパワーおよびその変動だけでは単純すぎることを意
味している。
【0005】文献1: Ben Reaves Bigram Parameter
s for Noise Robust Speech Detection. In 日本音響学
会平成5年春秋研究発表会講演論文集、I,2-Q-25, pp.1
97-198.
【0006】音声始端の検出において精度が最重要視さ
れたのに対し、音声終端の検出においては実際の発声の
終端に対して遅れが少ないことも重要視される。これは
音声終端の検出の遅れがそのまま認識結果の出力の遅れ
につながるためである。従来のパワーおよびその変動を
用いた音声区間検出法(文献1参照)では、上述したよ
うに、音声区間のモデルとしては単純すぎるため、どう
しても音声終端の検出が実際の発声の終端よりもかなり
遅れる傾向にある。
【0007】
【発明が解決しようとする課題】
【0008】この発明は、従来のHMMを用いた音声始
端検出方法に比べて、計算能力の低減化が図れる音声始
端検出方法および音声認識装置における区間判定方法を
提供することを目的とする。
【0009】この発明は、音声区間の検出が容易となる
音声認識装置を提供することを目的とする。
【0010】
【課題を解決するための手段】この発明は、HMMを用
いた音声始端検出方法であって、環境非依存の有声音の
HMMであって、HMMの時間方向の接続を無視し、時
間方向の全状態に含まれるガウス分布からなる混合ガウ
ス分布で近似したHMMと、環境非依存の無音のHMM
とを用いて、入力音声波形の一定区間内に所定フレーム
数以上の有声音区間が存在するか否かを判定し、一定区
間内に所定フレーム数以上の有声音区間が存在するとき
に当該一定区間の先頭フレームを音声始端として検出す
ることを特徴とする。
【0011】この発明は、音声認識装置における音声区
間検出方法であって、環境非依存の有声音のHMMであ
って、HMMの時間方向の接続を無視し、時間方向の全
状態に含まれるガウス分布からなる混合ガウス分布で近
似したHMMと、環境非依存の無音のHMMとを用い
て、入力音声波形の一定区間内に所定フレーム数以上の
有声音区間が存在するか否かを判定し、一定区間内に所
定フレーム数以上の有声音区間が存在するときに当該一
定区間の先頭フレームを音声始端として検出し、音声認
識に用いられているHMMを用いて無音区間が所定期間
以上継続したか否かを判定し、無音区間が所定期間以上
継続したときに音声終端と判定することを特徴とする。
【0012】この発明による第1の音声認識装置は、入
力音声波形から特徴量を抽出する特徴量抽出手段、特徴
量抽出手段によって抽出された特徴量に基づいて音声始
端を検出する音声始端検出手段、特徴量抽出手段によっ
て抽出された特徴量に基づいて音声認識処理を行なうと
ともに音声終端検出処理を行なうデコード手段、音声始
端検出部によって音声始端が検出されたときに、特徴量
抽出手段によって抽出された特徴量をデコード手段に送
り、かつデコート手段によって音声終端が検出されたと
きに、特徴量抽出手段によって抽出された特徴量を音声
始端検出部に送るように、特徴量抽出手段によって抽出
された特徴量の送り先を制御する手段を備えており、音
声始端検出手段は、環境非依存の有声音のHMMであっ
て、HMMの時間方向の接続を無視し、時間方向の全状
態に含まれるガウス分布からなる混合ガウス分布で近似
したHMMと、環境非依存の無音のHMMとを用いて、
入力音声波形の一定区間内に所定フレーム数以上の有声
音区間が存在するか否かを判定する手段、および一定区
間内に所定フレーム数以上の有声音区間が存在するとき
に当該一定区間の先頭フレームを音声始端として検出す
る手段を備えており、デコート手段は、音声認識処理に
用いられているHMMを用いて無音区間が所定期間以上
継続したか否かを判定する手段、および無音区間が所定
期間以上継続したときに音声終端と判定する手段を備え
ていることを特徴とする。
【0013】この発明による第2の音声認識装置は、ク
ライアント装置とサーバ装置とを備えており、クライア
ント装置は、入力音声波形からケプストラムを抽出する
ケプストラム抽出手段、ケプストラム抽出手段によって
抽出されたケプストラムから特徴量を抽出する第1の特
徴量抽出手段、第1の特徴量抽出手段によって抽出され
た抽出された特徴量に基づいて音声始端を検出する音声
始端検出手段、およびケプストラム抽出手段によって抽
出されたケプストラムをサーバ装置に送るか否かを選択
するスイッチ手段を備えており、サーバ装置は、クライ
アント装置から送られてくるケプストラムから特徴量を
抽出する第2の特徴量抽出手段、および第2の特徴量抽
出手段によって抽出された特徴量に基づいて音声認識処
理を行なうとともに音声終端検出処理を行なうデコード
手段を備えており、音声始端検出手段は、環境非依存の
有声音のHMMであって、HMMの時間方向の接続を無
視し、時間方向の全状態に含まれるガウス分布からなる
混合ガウス分布で近似したHMMと、環境非依存の無音
のHMMとを用いて、入力音声波形の一定区間内に所定
フレーム数以上の有声音区間が存在するか否かを判定す
る手段、一定区間内に所定フレーム数以上の有声音区間
が存在するときに当該一定区間の先頭フレームを音声始
端として検出する手段、および音声始端を検出したとき
にスイッチ手段をオンさせる手段を備えており、デコー
ド手段は、音声認識処理に用いられているHMMを用い
て無音区間が所定期間以上継続したか否かを判定する手
段、無音区間が所定期間以上継続したときに音声終端と
判定する手段および音声終端が検出されると、サーバ装
置内の音声始端検出部に音声終端の時間を送信するとと
もに音声終端に続いて音声始端が検出されたと仮定して
デコーディングを継続する手段を備えており、音声始端
検出手段は、さらに、デコード手段から音声終端の時間
を受信したときに、その音声終端の時間から現在までに
音声始端を検出したかどうかを判定する手段、および音
声終端の時間から現在までに音声始端を検出していると
きには、スイッチ手段をオンのままとし、音声終端の時
間から現在までに音声始端を検出していないときには、
スイッチ手段をオフとさせる手段を備えていることを特
徴とする。
【0014】
【発明の実施の形態】以下、この発明の実施の形態につ
いて説明する。
【0015】〔1〕音声始端の検出方法の説明
【0016】音声区間をより詳細にモデル化する方法と
してはHMMを用いる方法が知られている(文献2参
照)。
【0017】文献2: 堀泰宣、船田哲男、金寺登 実
環境下単語音声区間検出のための雑音EHMM再学習の
効果 電子情報通信学会技術報告、SP97-47, 1997.
【0018】しかしながらHMMを用いた場合、その計
算量はかなりのものとなり、特に計算能力の落ちる計算
機を用いるクライアント・サーバ型の音声認識では実用
面で大きな問題となる。そこで、本発明の実施の形態で
は、HMMを次に示す方法で簡素化することによって計
算能力の削減を図ることにする。
【0019】環境非依存のHMMを用いることにより
状態数を削減する。 有声音および無音のHMMのみを用いる。 有声音モデルの作成にあたっては、HMMの時間方向
の接続を無視し、時間方向の全状態に含まれるガウス分
布からなる混合ガウス分布で近似する。
【0020】ここで、有声音とは、(1)母音そのも
の、および(2)母音と子音の一部とからなるものをい
う。上記(2)の子音の一部とは、音を伴う子音をい
い、濁音、ナ行、マ行、ヤ行およびワ行の子音をいう。
カ行、サ行、タ行、ハ行、パ行の子音は無音である。
【0021】有声音および無音のHMMのみを用いた場
合、子音区間は有声音と判断されるか無音と判断される
か不定である。しかし子音のみが長時間(100mse
c以上)継続することは考えがたいため、一定区間内に
一定フレーム以上有声音区間が存在すれば音声区間と判
断する。
【0022】〔2〕音声終端の検出方法の説明
【0023】デコーディング時には詳細なモデルである
HMMが認識のために用いられている。従ってこのHM
Mの尤度を用いて音声終端の検出を行えば正確な終端検
出が可能と考えられ、言語モデルとして有限状態オート
マトンを用いた場合の例が報告されている(文献3参
照)。
【0024】文献3:内藤正樹、黒岩眞吾、山本誠一、
武田一哉 部分文仮説のゆう度を用いた連続音声認識の
ための音声区間検出法. In 電子情報通信学会論文誌、
J80-DII, pp.2895-2903, 1997.
【0025】本発明の実施の形態では、言語モデルとし
てN−gramを用いた場合を前提とし、音響状態が無
音である仮説が一定時間以上最尤であれば音声区間の終
端と判断する。
【0026】〔3〕評価実験
【0027】上記実施の形態による手法(以下、本手法
という)と、パワーおよびその変動を用いた従来法との
比較実験を行った。実験は41会話536発話を対象と
して行った。これらの発声はあらかじめ人手で前後に十
分な無音を付加して切り出してある。
【0028】〔3−1〕始端検出の評価
【0029】音声始端検出のためのHMMとしては無音
および男女別の有声音、計11のモデルを用いた。つま
り、1つの無音のモデルと、5つの男性の有声音のモデ
ルと、5つの女性の有声音のモデルとを用いた。
【0030】各モデルは環境非依存3状態であり、ガウ
ス分布の混合数はそれぞれ5である。音声始端検出の条
件としては12フレーム(120msec)中、4つ以
上有声音が最尤であった場合、12フレームの先頭フレ
ームを音声始端とした。
【0031】評価は実際の発声の始端とのずれとした。
この時の計算コストはケプストラム抽出を含む特徴量抽
出の計算のコストとほぼ同等であった。従来法との比較
結果を表1に示す。
【0032】
【表1】
【0033】検出した始端の時間が実際の発声の始端に
先んじた発話を検出成功発話としてある。提案法におい
て始端検出に失敗した発話が14あるものの、これらは
すべて「あ、すみません」の「あ」の部分のように後ろ
に無音を伴う短い間投詞であり、認識結果にはほとんど
影響を及ぼさないものであった。
【0034】〔3−2〕終端検出の評価
【0035】終端検出すなわち認識に用いたHMMは1
400状態5混合の性別依存モデルである。終端検出の
ための無音最尤の継続長は700msecとした。従来
法との比較結果を表2に示す。検出した終端の時間が実
際の発声の終端より後ろである発話を検出成功発話とし
てある。
【0036】
【表2】
【0037】ここでは、音声区間検出の手法として、始
端検出には無音および有声音のHMMを用い、終端検出
には認識に用いるHMMを用いてデコーダで検出する方
法を提案した。本手法は始端検出においては精度で、終
端検出においては遅延時間において従来法にまさり、音
声区間検出における有効性が実験により認識された。ま
た従来法では対応の難しい非定常雑音下においてもHM
Mで雑音モデルとして表現することにより対応できる可
能性があり、適応範囲においても優れていると考えられ
る。
【0038】〔4〕応用例の説明
【0039】〔4−1〕スタンドアロン型における音声
認識システムの説明 図1は、スタンドアロン型の音声認識システムの構成を
示している。
【0040】音声認識システムに入力された音声波形は
特徴量抽出部1に送られ、特徴量抽出部1によって特徴
量が抽出される。特徴量抽出部1によって抽出された特
徴量は、スイッチ2を介して音声始端検出部3へと送ら
れる。音声始端検出部3は、特徴量抽出部1によって抽
出された特徴量に基づいて、上記〔1〕で説明した音声
始端検出方法によって音声始端を検出する。
【0041】音声始端検出部3によって音声始端が検出
されると、スイッチ2がデコーダ側に切り替わり、音声
始端検出部3で検出された音声始端以降の特徴量がデコ
ーダ4に送られる。デコーダ4は、送られてきた特徴量
に基づいて音声認識処理を行なうとともに音声終端検出
処理を行なう。
【0042】この後、デコーダ4が、上記〔2〕で説明
した方法によって音声終端を検出すると、再びスイッチ
2が音声始端検出部側に切り替えられ、特徴量抽出部1
によって抽出された特徴量が音声始端検出装置3に送ら
れ、次の音声に対応する状態に戻され、同様な動作が繰
り返される。
【0043】〔4−2〕クライアント・サーバ型におけ
る音声認識システム構成
【0044】図2は、クライント・サーバ型の音声認識
システムの構成を示している。
【0045】この音声認識装置は、クライアント装置1
0と、サーバ装置20とから構成されている。
【0046】クライアント装置10は、音声波形からケ
プストラムを抽出するケプストラム抽出部11、ケプス
トラム抽出部11によって抽出されたケプストラムから
特徴量を抽出する特徴量抽出部12、特徴量抽出部12
によって抽出された抽出された特徴量に基づいて上記
〔1〕で説明した音声始端検出方法によって音声始端を
検出する音声始端検出部13およびケプストラム抽出部
11によって抽出されたケプストラムをサーバ装置20
に送るか否かを制御するスイッチ14を備えている。
【0047】サーバ装置20は、クライアント装置10
から送られてきたケプストラムから特徴量を抽出する特
徴量抽出部21および特徴量抽出部21によって抽出さ
れた特徴量に基づいて音声認識処理を行なうとともに上
記〔2〕で説明した音声終端検出方法によって音声終端
検出処理を行なうデコーダ22を備えている。
【0048】クライアント装置10内の音声始端検出部
13は、音声始端の検出処理を常時行なっている。クラ
イアント装置10内の音声始端検出部13で音声始端が
検出されると、スイッチ14がオンされ、音声始端検出
部13で検出された音声始端以降のケプストラムがサー
バ装置20に送られる。サーバ装置20内の特徴量抽出
部21では、クライアント装置10から送信されてきた
ケプストラムに基づいて特徴量を抽出する。特徴量抽出
部21によって抽出された特徴量はデコーダ22に送ら
れる。デコーダ22は、特徴量抽出部21から送られて
きた特徴量に基づいて音声認識処理を行なうとともに音
声終端検出処理を行なう。
【0049】デコーダ22によって音声終端が検出され
ると、サーバ装置10内の声始端検出部13に音声終端
の時間が送信される。この際、デコーダ22は音声終端
に続いて音声始端が検出されたと仮定してデコーディン
グを継続する。
【0050】音声始端検出部13は、デコーダ22から
音声終端の時間を受信すると、その音声終端の時間から
現在までに音声始端を検出したかどうかを調べる。音声
始端検出部13は、音声終端の時間から現在までに音声
始端を検出している場合には、スイッチ14をオンのま
まとする。この場合には、デコーダ22は、デコーダ2
2が仮定した音声始端を有効とみなしてデコーディング
を継続することになる。
【0051】音声始端検出部13は、音声終端の時間か
ら現在までに音声始端を検出している場合には、スイッ
チ14をオフとするとともに、キャンセル信号をデコー
ダ22に送る。デコーダ22は、キャンセル信号を受信
すると、デコーディングを中止する。
【0052】なお、クライント・サーバ型の音声認識シ
ステムとして、図3に示すようなものを用いてもよい。
【0053】図3のシステムでは、クライアント装置1
10は、音声波形から特徴量を抽出する特徴量抽出部1
11、特徴量抽出部111によって抽出された抽出され
た特徴量に基づいて上記〔1〕で説明した音声始端検出
方法によって音声始端を検出する音声始端検出部112
および特徴量抽出部111によって抽出された特徴量を
サーバ装置120に送るか否かを制御するスイッチ11
3を備えている。
【0054】サーバ装置120は、クライアント装置1
10から送られてきた特徴量に基づいて音声認識処理を
行なうとともに上記〔2〕で説明した音声終端検出方法
によって音声終端検出処理を行なうデコーダ121を備
えている。
【0055】図3の装置においても、音声始端検出部1
12の動作およびデコーダ121の動作は、それぞれ図
2の音声始端検出部13の動作およびデコーダ22の動
作と同じである。
【0056】
【発明の効果】この発明によれば、従来のHMMを用い
た音声始端検出方法に比べて、計算能力の低減化が図れ
るようになる。また、この発明によれば、音声区間の検
出が容易となる音声認識装置が得られる。
【図面の簡単な説明】
【図1】スタンドアロン型の音声認識システムの構成を
示すブロック図である。
【図2】クライント・サーバ型の音声認識システムの構
成を示すブロック図である。
【図3】クライント・サーバ型の他の音声認識システム
の構成を示すブロック図である。
【符号の説明】
1、12、21、111 特徴量抽出部 2、14、113 スイッチ 3、13、112 音声始端検出部 4、22、121 デコーダ 10、110 クライアント装置 20、120 サーバ装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ハラルド・シンガー 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5D015 DD04 HH05 HH22

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 HMMを用いた音声始端検出方法におい
    て、 環境非依存の有声音のHMMであって、HMMの時間方
    向の接続を無視し、時間方向の全状態に含まれるガウス
    分布からなる混合ガウス分布で近似したHMMと、環境
    非依存の無音のHMMとを用いて、入力音声波形の一定
    区間内に所定フレーム数以上の有声音区間が存在するか
    否かを判定し、一定区間内に所定フレーム数以上の有声
    音区間が存在するときに当該一定区間の先頭フレームを
    音声始端として検出することを特徴とする音声始端検出
    方法。
  2. 【請求項2】 音声認識装置における音声区間検出方法
    において、 環境非依存の有声音のHMMであって、HMMの時間方
    向の接続を無視し、時間方向の全状態に含まれるガウス
    分布からなる混合ガウス分布で近似したHMMと、環境
    非依存の無音のHMMとを用いて、入力音声波形の一定
    区間内に所定フレーム数以上の有声音区間が存在するか
    否かを判定し、一定区間内に所定フレーム数以上の有声
    音区間が存在するときに当該一定区間の先頭フレームを
    音声始端として検出し、音声認識に用いられているHM
    Mを用いて無音区間が所定期間以上継続したか否かを判
    定し、無音区間が所定期間以上継続したときに音声終端
    と判定することを特徴とする音声認識装置における音声
    区間検出方法。
  3. 【請求項3】 入力音声波形から特徴量を抽出する特徴
    量抽出手段、 特徴量抽出手段によって抽出された特徴量に基づいて音
    声始端を検出する音声始端検出手段、 特徴量抽出手段によって抽出された特徴量に基づいて音
    声認識処理を行なうとともに音声終端検出処理を行なう
    デコード手段、 音声始端検出部によって音声始端が検出されたときに、
    特徴量抽出手段によって抽出された特徴量をデコード手
    段に送り、かつデコート手段によって音声終端が検出さ
    れたときに、特徴量抽出手段によって抽出された特徴量
    を音声始端検出部に送るように、特徴量抽出手段によっ
    て抽出された特徴量の送り先を制御する手段を備えてお
    り、 音声始端検出手段は、環境非依存の有声音のHMMであ
    って、HMMの時間方向の接続を無視し、時間方向の全
    状態に含まれるガウス分布からなる混合ガウス分布で近
    似したHMMと、環境非依存の無音のHMMとを用い
    て、入力音声波形の一定区間内に所定フレーム数以上の
    有声音区間が存在するか否かを判定する手段、および一
    定区間内に所定フレーム数以上の有声音区間が存在する
    ときに当該一定区間の先頭フレームを音声始端として検
    出する手段を備えており、 デコート手段は、音声認識処理に用いられているHMM
    を用いて無音区間が所定期間以上継続したか否かを判定
    する手段、および無音区間が所定期間以上継続したとき
    に音声終端と判定する手段を備えていることを特徴とす
    る音声認識装置。
  4. 【請求項4】 クライアント装置とサーバ装置とを備え
    ており、 クライアント装置は、 入力音声波形からケプストラムを抽出するケプストラム
    抽出手段、 ケプストラム抽出手段によって抽出されたケプストラム
    から特徴量を抽出する第1の特徴量抽出手段、 第1の特徴量抽出手段によって抽出された抽出された特
    徴量に基づいて音声始端を検出する音声始端検出手段、
    およびケプストラム抽出手段によって抽出されたケプス
    トラムをサーバ装置に送るか否かを選択するスイッチ手
    段を備えており、 サーバ装置は、 クライアント装置から送られてくるケプストラムから特
    徴量を抽出する第2の特徴量抽出手段、および第2の特
    徴量抽出手段によって抽出された特徴量に基づいて音声
    認識処理を行なうとともに音声終端検出処理を行なうデ
    コード手段を備えており、 音声始端検出手段は、環境非依存の有声音のHMMであ
    って、HMMの時間方向の接続を無視し、時間方向の全
    状態に含まれるガウス分布からなる混合ガウス分布で近
    似したHMMと、環境非依存の無音のHMMとを用い
    て、入力音声波形の一定区間内に所定フレーム数以上の
    有声音区間が存在するか否かを判定する手段、一定区間
    内に所定フレーム数以上の有声音区間が存在するときに
    当該一定区間の先頭フレームを音声始端として検出する
    手段、および音声始端を検出したときにスイッチ手段を
    オンさせる手段を備えており、 デコード手段は、音声認識処理に用いられているHMM
    を用いて無音区間が所定期間以上継続したか否かを判定
    する手段、無音区間が所定期間以上継続したときに音声
    終端と判定する手段および音声終端が検出されると、サ
    ーバ装置内の音声始端検出部に音声終端の時間を送信す
    るとともに音声終端に続いて音声始端が検出されたと仮
    定してデコーディングを継続する手段を備えており、 音声始端検出手段は、さらに、デコード手段から音声終
    端の時間を受信したときに、その音声終端の時間から現
    在までに音声始端を検出したかどうかを判定する手段、
    および音声終端の時間から現在までに音声始端を検出し
    ているときには、スイッチ手段をオンのままとし、音声
    終端の時間から現在までに音声始端を検出していないと
    きには、スイッチ手段をオフとさせる手段を備えている
    ことを特徴とする音声認識装置。
JP2000160237A 2000-05-30 2000-05-30 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 Expired - Fee Related JP3721948B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000160237A JP3721948B2 (ja) 2000-05-30 2000-05-30 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000160237A JP3721948B2 (ja) 2000-05-30 2000-05-30 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置

Publications (2)

Publication Number Publication Date
JP2001343983A true JP2001343983A (ja) 2001-12-14
JP3721948B2 JP3721948B2 (ja) 2005-11-30

Family

ID=18664457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000160237A Expired - Fee Related JP3721948B2 (ja) 2000-05-30 2000-05-30 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置

Country Status (1)

Country Link
JP (1) JP3721948B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094077A (ja) * 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
JP2010510534A (ja) * 2006-11-16 2010-04-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声アクティビティ検出システム及び方法
JP2012048119A (ja) * 2010-08-30 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP2012252060A (ja) * 2011-05-31 2012-12-20 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法
JP2013011680A (ja) * 2011-06-28 2013-01-17 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法
WO2016043182A1 (ja) * 2014-09-17 2016-03-24 株式会社東芝 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
JP2019040148A (ja) * 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム
DE112018006885B4 (de) 2018-02-20 2021-11-04 Mitsubishi Electric Corporation Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094077A (ja) * 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
US8554560B2 (en) 2006-11-16 2013-10-08 International Business Machines Corporation Voice activity detection
JP2010510534A (ja) * 2006-11-16 2010-04-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声アクティビティ検出システム及び方法
US8311813B2 (en) 2006-11-16 2012-11-13 International Business Machines Corporation Voice activity detection system and method
JP2012048119A (ja) * 2010-08-30 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP2012252060A (ja) * 2011-05-31 2012-12-20 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法
JP2013011680A (ja) * 2011-06-28 2013-01-17 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法
WO2016043182A1 (ja) * 2014-09-17 2016-03-24 株式会社東芝 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
JP2016061890A (ja) * 2014-09-17 2016-04-25 株式会社東芝 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
US10210886B2 (en) 2014-09-17 2019-02-19 Kabushiki Kaisha Toshiba Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus
JP2019040148A (ja) * 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム
DE112018006885B4 (de) 2018-02-20 2021-11-04 Mitsubishi Electric Corporation Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität
US11527259B2 (en) 2018-02-20 2022-12-13 Mitsubishi Electric Corporation Learning device, voice activity detector, and method for detecting voice activity

Also Published As

Publication number Publication date
JP3721948B2 (ja) 2005-11-30

Similar Documents

Publication Publication Date Title
US12100396B2 (en) Indicator for voice-based communications
US11710477B2 (en) Speech endpointing
US10600414B1 (en) Voice control of remote device
US10643609B1 (en) Selecting speech inputs
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
US10678504B1 (en) Maintaining context for voice processes
US9972318B1 (en) Interpreting voice commands
US7801726B2 (en) Apparatus, method and computer program product for speech processing
KR101417975B1 (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
US20180061402A1 (en) Voice-based communications
US9911411B2 (en) Rapid speech recognition adaptation using acoustic input
EP3726524A1 (en) Speech endpointing
US20240029743A1 (en) Intermediate data for inter-device speech processing
CN114385800A (zh) 语音对话方法和装置
KR20230116908A (ko) 프리즈 워드
JP3721948B2 (ja) 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
CN112185392A (zh) 一种用于供电智能客户的语音识别处理系统
US20170110118A1 (en) Speech endpointing
JPH10254475A (ja) 音声認識方法
KR20050049207A (ko) 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
JPH08263092A (ja) 応答音声生成方法および音声対話システム
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
JP3277579B2 (ja) 音声認識方法および装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP7361988B2 (ja) 音声対話システム、音声対話方法及び音声対話管理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050905

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110922

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees