JP3721948B2 - 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 - Google Patents
音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 Download PDFInfo
- Publication number
- JP3721948B2 JP3721948B2 JP2000160237A JP2000160237A JP3721948B2 JP 3721948 B2 JP3721948 B2 JP 3721948B2 JP 2000160237 A JP2000160237 A JP 2000160237A JP 2000160237 A JP2000160237 A JP 2000160237A JP 3721948 B2 JP3721948 B2 JP 3721948B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- hmm
- voice start
- feature quantity
- start edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置に関する。
【0002】
【従来の技術】
音声認識において、音声区間の検出は非常に重要な問題である。音声区間の検出には音声始端と音声終端の検出が必要である。音声始端の検出における要求は音声始端を確実に検出することであり、音声終端の検出では実際の音声終端に遅れることない検出が要求される。
【0003】
音声始端の検出において最も重要な要求は、検出点が実際の発声の始端より遅れないことである。これは、検出点が実際の発声の始端より遅い場合は即座に認識誤りの原因となるためである。
【0004】
従来のパワーおよびその変動を用いた音声区間検出法(文献1参照)では、検出点は実際の発声より大きく遅れることはないが、たとえば、「一回」の/ikk/の音声区間のように、発声の始端において十分にパワーが上がらないような場合には、この部分を取りこぼす場合がありえる。これは音声区間をモデル化するにはパワーおよびその変動だけでは単純すぎることを意味している。
【0005】
文献1: Ben Reaves Bigram Parameters for Noise Robust Speech Detection. In 日本音響学会平成5年春秋研究発表会講演論文集、I,2-Q-25, pp.197-198.
【0006】
音声始端の検出において精度が最重要視されたのに対し、音声終端の検出においては実際の発声の終端に対して遅れが少ないことも重要視される。これは音声終端の検出の遅れがそのまま認識結果の出力の遅れにつながるためである。従来のパワーおよびその変動を用いた音声区間検出法(文献1参照)では、上述したように、音声区間のモデルとしては単純すぎるため、どうしても音声終端の検出が実際の発声の終端よりもかなり遅れる傾向にある。
【0007】
【発明が解決しようとする課題】
【0008】
この発明は、従来のHMMを用いた音声始端検出方法に比べて、計算能力の低減化が図れる音声始端検出方法および音声認識装置における区間判定方法を提供することを目的とする。
【0009】
この発明は、音声区間の検出が容易となる音声認識装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
この発明は、HMMを用いた音声始端検出方法であって、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のHMMであって、HMMの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したHMMと、環境非依存の無音のHMMとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定し、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出することを特徴とする。
【0011】
この発明は、音声認識装置における音声区間検出方法であって、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のHMMであって、HMMの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したHMMと、環境非依存の無音のHMMとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定し、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出し、音声認識に用いられているHMMを用いて無音区間が所定期間以上継続したか否かを判定し、無音区間が所定期間以上継続したときに音声終端と判定することを特徴とする。
【0012】
この発明による第1の音声認識装置は、入力音声波形から特徴量を抽出する特徴量抽出手段、特徴量抽出手段によって抽出された特徴量に基づいて音声始端を検出する音声始端検出手段、特徴量抽出手段によって抽出された特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なうデコード手段、音声始端検出部によって音声始端が検出されたときに、特徴量抽出手段によって抽出された特徴量をデコード手段に送り、かつデコート手段によって音声終端が検出されたときに、特徴量抽出手段によって抽出された特徴量を音声始端検出部に送るように、特徴量抽出手段によって抽出された特徴量の送り先を制御する手段を備えており、音声始端検出手段は、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のHMMであって、HMMの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したHMMと、環境非依存の無音のHMMとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定する手段、および一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出する手段を備えており、デコート手段は、音声認識処理に用いられているHMMを用いて無音区間が所定期間以上継続したか否かを判定する手段、および無音区間が所定期間以上継続したときに音声終端と判定する手段を備えていることを特徴とする。
【0013】
この発明による第2の音声認識装置は、クライアント装置とサーバ装置とを備えており、クライアント装置は、入力音声波形からケプストラムを抽出するケプストラム抽出手段、ケプストラム抽出手段によって抽出されたケプストラムから特徴量を抽出する第1の特徴量抽出手段、第1の特徴量抽出手段によって抽出された抽出された特徴量に基づいて音声始端を検出する音声始端検出手段、およびケプストラム抽出手段によって抽出されたケプストラムをサーバ装置に送るか否かを選択するスイッチ手段を備えており、サーバ装置は、クライアント装置から送られてくるケプストラムから特徴量を抽出する第2の特徴量抽出手段、および第2の特徴量抽出手段によって抽出された特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なうデコード手段を備えており、音声始端検出手段は、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のHMMであって、HMMの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したHMMと、環境非依存の無音のHMMとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定する手段、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出する手段、および音声始端を検出したときにスイッチ手段をオンさせる手段を備えており、デコード手段は、音声認識処理に用いられているHMMを用いて無音区間が所定期間以上継続したか否かを判定する手段、無音区間が所定期間以上継続したときに音声終端と判定する手段および音声終端が検出されると、サーバ装置内の音声始端検出部に音声終端の時間を送信するとともに音声終端に続いて音声始端が検出されたと仮定してデコーディングを継続する手段を備えており、音声始端検出手段は、さらに、デコード手段から音声終端の時間を受信したときに、その音声終端の時間から現在までに音声始端を検出したかどうかを判定する手段、および音声終端の時間から現在までに音声始端を検出しているときには、スイッチ手段をオンのままとし、音声終端の時間から現在までに音声始端を検出していないときには、スイッチ手段をオフとさせる手段を備えていることを特徴とする。
【0014】
【発明の実施の形態】
以下、この発明の実施の形態について説明する。
【0015】
〔1〕音声始端の検出方法の説明
【0016】
音声区間をより詳細にモデル化する方法としてはHMMを用いる方法が知られている(文献2参照)。
【0017】
文献2: 堀泰宣、船田哲男、金寺登 実環境下単語音声区間検出のための雑音EHMM再学習の効果 電子情報通信学会技術報告、SP97-47, 1997.
【0018】
しかしながらHMMを用いた場合、その計算量はかなりのものとなり、特に計算能力の落ちる計算機を用いるクライアント・サーバ型の音声認識では実用面で大きな問題となる。そこで、本発明の実施の形態では、HMMを次に示す方法で簡素化することによって計算能力の削減を図ることにする。
【0019】
▲1▼環境非依存のHMMを用いることにより状態数を削減する。
▲2▼有声音および無音のHMMのみを用いる。
▲3▼有声音モデルの作成にあたっては、HMMの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似する。
【0020】
ここで、有声音とは、(1)母音そのもの、および(2)母音と子音の一部とからなるものをいう。上記(2)の子音の一部とは、音を伴う子音をいい、濁音、ナ行、マ行、ヤ行およびワ行の子音をいう。カ行、サ行、タ行、ハ行、パ行の子音は無音である。
【0021】
有声音および無音のHMMのみを用いた場合、子音区間は有声音と判断されるか無音と判断されるか不定である。しかし子音のみが長時間(100msec以上)継続することは考えがたいため、一定区間内に一定フレーム以上有声音区間が存在すれば音声区間と判断する。
【0022】
〔2〕音声終端の検出方法の説明
【0023】
デコーディング時には詳細なモデルであるHMMが認識のために用いられている。従ってこのHMMの尤度を用いて音声終端の検出を行えば正確な終端検出が可能と考えられ、言語モデルとして有限状態オートマトンを用いた場合の例が報告されている(文献3参照)。
【0024】
文献3:内藤正樹、黒岩眞吾、山本誠一、武田一哉 部分文仮説のゆう度を用いた連続音声認識のための音声区間検出法. In 電子情報通信学会論文誌、J80-DII, pp.2895-2903, 1997.
【0025】
本発明の実施の形態では、言語モデルとしてN−gramを用いた場合を前提とし、音響状態が無音である仮説が一定時間以上最尤であれば音声区間の終端と判断する。
【0026】
〔3〕評価実験
【0027】
上記実施の形態による手法(以下、本手法という)と、パワーおよびその変動を用いた従来法との比較実験を行った。実験は41会話536発話を対象として行った。これらの発声はあらかじめ人手で前後に十分な無音を付加して切り出してある。
【0028】
〔3−1〕始端検出の評価
【0029】
音声始端検出のためのHMMとしては無音および男女別の有声音、計11のモデルを用いた。つまり、1つの無音のモデルと、5つの男性の有声音のモデルと、5つの女性の有声音のモデルとを用いた。
【0030】
各モデルは環境非依存3状態であり、ガウス分布の混合数はそれぞれ5である。音声始端検出の条件としては12フレーム(120msec)中、4つ以上有声音が最尤であった場合、12フレームの先頭フレームを音声始端とした。
【0031】
評価は実際の発声の始端とのずれとした。この時の計算コストはケプストラム抽出を含む特徴量抽出の計算のコストとほぼ同等であった。従来法との比較結果を表1に示す。
【0032】
【表1】
【0033】
検出した始端の時間が実際の発声の始端に先んじた発話を検出成功発話としてある。提案法において始端検出に失敗した発話が14あるものの、これらはすべて「あ、すみません」の「あ」の部分のように後ろに無音を伴う短い間投詞であり、認識結果にはほとんど影響を及ぼさないものであった。
【0034】
〔3−2〕終端検出の評価
【0035】
終端検出すなわち認識に用いたHMMは1400状態5混合の性別依存モデルである。終端検出のための無音最尤の継続長は700msecとした。従来法との比較結果を表2に示す。検出した終端の時間が実際の発声の終端より後ろである発話を検出成功発話としてある。
【0036】
【表2】
【0037】
ここでは、音声区間検出の手法として、始端検出には無音および有声音のHMMを用い、終端検出には認識に用いるHMMを用いてデコーダで検出する方法を提案した。本手法は始端検出においては精度で、終端検出においては遅延時間において従来法にまさり、音声区間検出における有効性が実験により認識された。また従来法では対応の難しい非定常雑音下においてもHMMで雑音モデルとして表現することにより対応できる可能性があり、適応範囲においても優れていると考えられる。
【0038】
〔4〕応用例の説明
【0039】
〔4−1〕スタンドアロン型における音声認識システムの説明
図1は、スタンドアロン型の音声認識システムの構成を示している。
【0040】
音声認識システムに入力された音声波形は特徴量抽出部1に送られ、特徴量抽出部1によって特徴量が抽出される。特徴量抽出部1によって抽出された特徴量は、スイッチ2を介して音声始端検出部3へと送られる。音声始端検出部3は、特徴量抽出部1によって抽出された特徴量に基づいて、上記〔1〕で説明した音声始端検出方法によって音声始端を検出する。
【0041】
音声始端検出部3によって音声始端が検出されると、スイッチ2がデコーダ側に切り替わり、音声始端検出部3で検出された音声始端以降の特徴量がデコーダ4に送られる。デコーダ4は、送られてきた特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なう。
【0042】
この後、デコーダ4が、上記〔2〕で説明した方法によって音声終端を検出すると、再びスイッチ2が音声始端検出部側に切り替えられ、特徴量抽出部1によって抽出された特徴量が音声始端検出装置3に送られ、次の音声に対応する状態に戻され、同様な動作が繰り返される。
【0043】
〔4−2〕クライアント・サーバ型における音声認識システム構成
【0044】
図2は、クライント・サーバ型の音声認識システムの構成を示している。
【0045】
この音声認識装置は、クライアント装置10と、サーバ装置20とから構成されている。
【0046】
クライアント装置10は、音声波形からケプストラムを抽出するケプストラム抽出部11、ケプストラム抽出部11によって抽出されたケプストラムから特徴量を抽出する特徴量抽出部12、特徴量抽出部12によって抽出された抽出された特徴量に基づいて上記〔1〕で説明した音声始端検出方法によって音声始端を検出する音声始端検出部13およびケプストラム抽出部11によって抽出されたケプストラムをサーバ装置20に送るか否かを制御するスイッチ14を備えている。
【0047】
サーバ装置20は、クライアント装置10から送られてきたケプストラムから特徴量を抽出する特徴量抽出部21および特徴量抽出部21によって抽出された特徴量に基づいて音声認識処理を行なうとともに上記〔2〕で説明した音声終端検出方法によって音声終端検出処理を行なうデコーダ22を備えている。
【0048】
クライアント装置10内の音声始端検出部13は、音声始端の検出処理を常時行なっている。クライアント装置10内の音声始端検出部13で音声始端が検出されると、スイッチ14がオンされ、音声始端検出部13で検出された音声始端以降のケプストラムがサーバ装置20に送られる。サーバ装置20内の特徴量抽出部21では、クライアント装置10から送信されてきたケプストラムに基づいて特徴量を抽出する。特徴量抽出部21によって抽出された特徴量はデコーダ22に送られる。デコーダ22は、特徴量抽出部21から送られてきた特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なう。
【0049】
デコーダ22によって音声終端が検出されると、サーバ装置10内の声始端検出部13に音声終端の時間が送信される。この際、デコーダ22は音声終端に続いて音声始端が検出されたと仮定してデコーディングを継続する。
【0050】
音声始端検出部13は、デコーダ22から音声終端の時間を受信すると、その音声終端の時間から現在までに音声始端を検出したかどうかを調べる。音声始端検出部13は、音声終端の時間から現在までに音声始端を検出している場合には、スイッチ14をオンのままとする。この場合には、デコーダ22は、デコーダ22が仮定した音声始端を有効とみなしてデコーディングを継続することになる。
【0051】
音声始端検出部13は、音声終端の時間から現在までに音声始端を検出している場合には、スイッチ14をオフとするとともに、キャンセル信号をデコーダ22に送る。デコーダ22は、キャンセル信号を受信すると、デコーディングを中止する。
【0052】
なお、クライント・サーバ型の音声認識システムとして、図3に示すようなものを用いてもよい。
【0053】
図3のシステムでは、クライアント装置110は、音声波形から特徴量を抽出する特徴量抽出部111、特徴量抽出部111によって抽出された抽出された特徴量に基づいて上記〔1〕で説明した音声始端検出方法によって音声始端を検出する音声始端検出部112および特徴量抽出部111によって抽出された特徴量をサーバ装置120に送るか否かを制御するスイッチ113を備えている。
【0054】
サーバ装置120は、クライアント装置110から送られてきた特徴量に基づいて音声認識処理を行なうとともに上記〔2〕で説明した音声終端検出方法によって音声終端検出処理を行なうデコーダ121を備えている。
【0055】
図3の装置においても、音声始端検出部112の動作およびデコーダ121の動作は、それぞれ図2の音声始端検出部13の動作およびデコーダ22の動作と同じである。
【0056】
【発明の効果】
この発明によれば、従来のHMMを用いた音声始端検出方法に比べて、計算能力の低減化が図れるようになる。また、この発明によれば、音声区間の検出が容易となる音声認識装置が得られる。
【図面の簡単な説明】
【図1】スタンドアロン型の音声認識システムの構成を示すブロック図である。
【図2】クライント・サーバ型の音声認識システムの構成を示すブロック図である。
【図3】クライント・サーバ型の他の音声認識システムの構成を示すブロック図である。
【符号の説明】
1、12、21、111 特徴量抽出部
2、14、113 スイッチ
3、13、112 音声始端検出部
4、22、121 デコーダ
10、110 クライアント装置
20、120 サーバ装置
Claims (4)
- HMMを用いた音声始端検出方法において、
母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のHMMであって、HMMの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したHMMと、環境非依存の無音のHMMとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定し、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出することを特徴とする音声始端検出方法。 - 音声認識装置における音声区間検出方法において、
母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のHMMであって、HMMの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したHMMと、環境非依存の無音のHMMとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定し、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出し、音声認識に用いられているHMMを用いて無音区間が所定期間以上継続したか否かを判定し、無音区間が所定期間以上継続したときに音声終端と判定することを特徴とする音声認識装置における音声区間検出方法。 - 入力音声波形から特徴量を抽出する特徴量抽出手段、
特徴量抽出手段によって抽出された特徴量に基づいて音声始端を検出する音声始端検出手段、
特徴量抽出手段によって抽出された特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なうデコード手段、
音声始端検出部によって音声始端が検出されたときに、特徴量抽出手段によって抽出された特徴量をデコード手段に送り、かつデコート手段によって音声終端が検出されたときに、特徴量抽出手段によって抽出された特徴量を音声始端検出部に送るように、特徴量抽出手段によって抽出された特徴量の送り先を制御する手段を備えており、
音声始端検出手段は、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のHMMであって、HMMの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したHMMと、環境非依存の無音のHMMとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定する手段、および一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出する手段を備えており、
デコート手段は、音声認識処理に用いられているHMMを用いて無音区間が所定期間以上継続したか否かを判定する手段、および無音区間が所定期間以上継続したときに音声終端と判定する手段を備えていることを特徴とする音声認識装置。 - クライアント装置とサーバ装置とを備えており、
クライアント装置は、
入力音声波形からケプストラムを抽出するケプストラム抽出手段、
ケプストラム抽出手段によって抽出されたケプストラムから特徴量を抽出する第1の特徴量抽出手段、
第1の特徴量抽出手段によって抽出された抽出された特徴量に基づいて音声始端を検出する音声始端検出手段、および
ケプストラム抽出手段によって抽出されたケプストラムをサーバ装置に送るか否かを選択するスイッチ手段を備えており、
サーバ装置は、
クライアント装置から送られてくるケプストラムから特徴量を抽出する第2の特徴量抽出手段、および
第2の特徴量抽出手段によって抽出された特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なうデコード手段を備えており、
音声始端検出手段は、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のHMMであって、HMMの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したHMMと、環境非依存の無音のHMMとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定する手段、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出する手段、および音声始端を検出したときにスイッチ手段をオンさせる手段を備えており、
デコード手段は、音声認識処理に用いられているHMMを用いて無音区間が所定期間以上継続したか否かを判定する手段、無音区間が所定期間以上継続したときに音声終端と判定する手段および音声終端が検出されると、サーバ装置内の音声始端検出部に音声終端の時間を送信するとともに音声終端に続いて音声始端が検出されたと仮定してデコーディングを継続する手段を備えており、
音声始端検出手段は、さらに、デコード手段から音声終端の時間を受信したときに、その音声終端の時間から現在までに音声始端を検出したかどうかを判定する手段、および音声終端の時間から現在までに音声始端を検出しているときには、スイッチ手段をオンのままとし、音声終端の時間から現在までに音声始端を検出していないときには、スイッチ手段をオフとさせる手段を備えていることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000160237A JP3721948B2 (ja) | 2000-05-30 | 2000-05-30 | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000160237A JP3721948B2 (ja) | 2000-05-30 | 2000-05-30 | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001343983A JP2001343983A (ja) | 2001-12-14 |
JP3721948B2 true JP3721948B2 (ja) | 2005-11-30 |
Family
ID=18664457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000160237A Expired - Fee Related JP3721948B2 (ja) | 2000-05-30 | 2000-05-30 | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3721948B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004094077A (ja) * | 2002-09-03 | 2004-03-25 | Nec Corp | 音声認識装置及び制御方法並びにプログラム |
JP4791857B2 (ja) * | 2006-03-02 | 2011-10-12 | 日本放送協会 | 発話区間検出装置及び発話区間検出プログラム |
CA2663568C (en) * | 2006-11-16 | 2016-01-05 | International Business Machines Corporation | Voice activity detection system and method |
JP5385876B2 (ja) * | 2010-08-30 | 2014-01-08 | 日本電信電話株式会社 | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
JP5672155B2 (ja) * | 2011-05-31 | 2015-02-18 | 富士通株式会社 | 話者判別装置、話者判別プログラム及び話者判別方法 |
JP5672175B2 (ja) * | 2011-06-28 | 2015-02-18 | 富士通株式会社 | 話者判別装置、話者判別プログラム及び話者判別方法 |
JP6275606B2 (ja) | 2014-09-17 | 2018-02-07 | 株式会社東芝 | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム |
JP6716513B2 (ja) * | 2017-08-29 | 2020-07-01 | 日本電信電話株式会社 | 音声区間検出装置、その方法、及びプログラム |
US11527259B2 (en) | 2018-02-20 | 2022-12-13 | Mitsubishi Electric Corporation | Learning device, voice activity detector, and method for detecting voice activity |
-
2000
- 2000-05-30 JP JP2000160237A patent/JP3721948B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001343983A (ja) | 2001-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11710477B2 (en) | Speech endpointing | |
JP3004883B2 (ja) | 終話検出方法及び装置並びに連続音声認識方法及び装置 | |
EP3577645B1 (en) | End of query detection | |
EP3159893B1 (en) | Speech endpointing | |
US11062703B2 (en) | Automatic speech recognition with filler model processing | |
KR101417975B1 (ko) | 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템 | |
US6505155B1 (en) | Method and system for automatically adjusting prompt feedback based on predicted recognition accuracy | |
US7069221B2 (en) | Non-target barge-in detection | |
US20070233471A1 (en) | Apparatus, method and computer program product for speech processing | |
US20060080096A1 (en) | Signal end-pointing method and system | |
US9911411B2 (en) | Rapid speech recognition adaptation using acoustic input | |
Chu et al. | Speaking rate adaptation using continuous frame rate normalization | |
JP3721948B2 (ja) | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 | |
CN114385800A (zh) | 语音对话方法和装置 | |
Selfridge et al. | Continuously predicting and processing barge-in during a live spoken dialogue task | |
US20170110118A1 (en) | Speech endpointing | |
KR20230116908A (ko) | 프리즈 워드 | |
JP2004109563A (ja) | 音声対話システム、音声対話のためのプログラムおよび音声対話方法 | |
KR20050049207A (ko) | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 | |
CN112185392A (zh) | 一种用于供电智能客户的语音识别处理系统 | |
JP2007072331A (ja) | 音声対話方法および音声対話システム | |
JPH08263092A (ja) | 応答音声生成方法および音声対話システム | |
Breslin et al. | Continuous asr for flexible incremental dialogue | |
JP7361988B2 (ja) | 音声対話システム、音声対話方法及び音声対話管理装置 | |
JPH1185184A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050824 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050905 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090922 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090922 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100922 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110922 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |