JP2015102702A

JP2015102702A - 発話区間抽出装置とその方法とプログラム

Info

Publication number: JP2015102702A
Application number: JP2013243503A
Authority: JP
Inventors: 記良鎌土; Noriyoshi Kamado; 裕司青野; Yuji Aono; 阪内　澄宇; Sumitaka Sakauchi; 澄宇阪内
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-11-26
Filing date: 2013-11-26
Publication date: 2015-06-04

Abstract

【課題】発話区間内における長時間特徴量の変動を考慮した発話区間を抽出する発話区間抽出装置を提供する。
【解決手段】音声区間検出部が、音声信号を入力としてフレーム単位の短時間間隔で音声／非音声区間を表す音声区間情報を出力し、音声区間密度計算部が、音声区間情報を所定の時間保存し、保存した音声区間情報の総和と所定の時間との比に基づく長時間特徴量である音声区間密度を計算して当該音声区間密度と音声区間情報とを出力する。そして、発話始終端判定部が、音声区間情報と、長時間特徴量である音声区間密度とに基づいて人の発話モデルにリンクさせた発話区間情報を検出して、その間の音声信号を発話区間音声信号として外部に出力する。
【選択図】図１

Description

この発明は、例えば音声認識の性能を向上させる目的で、その前処理に用いる発話区間抽出装置とその方法とプログラムに関する。

音声認識の性能を向上させるためには、認識対象の音声系列から音声区間を精度よく検出する必要がある。認識対象の音声系列は、一般的に、意味のある発話と雑音とで構成される。意味のある発話を構成する音声系列は、周波数特性のような短時間的な特徴だけでなく、ある程度の時間的継続長を持つため、長期間特徴も持ち合わせるのが一般的である。

従来から、その短時間特徴又は長期間特徴を用いて、音声区間を検出する方法が考えられている。短時間特徴を用いた方法は例えば特許文献１に、長時間特徴を用いた方法は例えば特許文献２に開示されている。

特許文献１に開示された短時間特徴を用いる方法を簡単に説明する。その方法は、入力信号の音響特徴量をフレームごとに抽出し、クリーン音声信号と無音信号の確率モデルを利用して、雑音モデルパラメータを、並列処理により時間軸に対し順方向だけでなく逆方向にも推定する。そして、フレーム毎に非音声状態／音声確率と非音声状態確率に対する音声確率の比を算出し、当該音声確率の比と閾値を比較して音声区間推定を行う。

図７に、特許文献２に開示された長期間特徴を用いた音声／非音声判定補正装置９００の機能構成を示して、その動作を簡単に説明する。音声／非音声判定補正装置９００は、補正判定制御部１１０、ＶＡＤフラグ補正判定部１２０、音声情報取得部１４０、閾値更新部１５０、音声／非音声区間割合算出部１６０、を具備する。

補正判定制御部１１０は、現フレームに対応付けられた音声／非音声判定結果（以下、ＶＡＤフラグ）と過去一定時間分の各フレームに対応付けられたＶＡＤフラグを用いて音声区間の割合／非音声区間の割合を計算し、補正のための判定処理を行うか否かを決定する。ＶＡＤフラグ補正判定部１２０は、音声情報取得部１４０が出力する音声情報と、閾値更新部１５０の出力する閾値とを比較した結果に基づいて、現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば、非音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には補正した補正ＶＡＤフラグを出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力する。

特開２００９−２１０６４７号公報特開２００８−１３４５６５号公報

従来の短時間特徴を用いた方法は、音声の短時間特徴しか見ていないために、音声に似た短時間特徴を持つ雑音も音声と判定してしまう問題がある。また、長時間特徴（過去一定時間分のＶＡＤフラグ）を用いた方法では、発話の長さなどを考慮した音声の長時間特徴を利用して音声判定を行うため、音声に類似した雑音に対して一応の耐性がある。しかし、雑音環境下での特徴量は、推定困難な現フレームの音声信号のパワーやピッチの相関値であるため、雑音の存在する環境下では音声区間検出精度が大きく劣化する問題がある。

例えばモバイル分野における音声区間検出においては、単に音声の発声区間を検出だけではなく、モバイル端末がその利用者の意図したところを理解し、適切な反応を返す必要がある。適切な反応を返すためには、利用者が話しかけた音声において意味のある発話単位を含む区間、この区間をここでは「音声区間」と区別するため「発話区間」と称するが、この発話区間を精度よく検出しなければならない。発話区間では、例えば息継ぎや記憶の関係で音声の長時間特徴が変化する。特に人の声には、息継ぎの関係で発話の終端に向かって音声のパワーが弱くなる特徴がある。

しかし、従来の短時間特徴を用いた方法及び長時間特徴を用いた方法は、発話区間内における長時間特徴の変動を考慮していないため、適切な発話区間を検出することができない課題がある。

この発明は、このような課題に鑑みてなされたものであり、発話区間内における長時間特徴の変動を考慮して発話区間を抽出する発話区間抽出装置とその方法とプログラムを提供することを目的とする。

この発明の発話区間抽出装置は、音声区間検出部と、音声区間密度計算部と、発話始終端判定部と、を具備する。音声区間検出部は、音声信号から音声区間を検出して音声区間情報を出力する。音声区間密度計算部は、音声区間情報を所定の時間保存し、保存した音声区間情報の総和と所定の時間との比に基づく音声区間密度を計算して当該音声区間密度と音声区間情報とを出力する。発話始終端判定部は、音声区間密度と音声区間情報とに基づいて発話区間情報を検出し、当該発話区間情報内の音声信号を発話区間音声信号として出力する。

本発明の発話区間抽出装置は、音声区間情報と音声区間密度とに基づいて発話区間音声情報を出力する。所定の時間の幅で計算される音声区間密度は、短時間（フレーム長）に対する長時間（所定の時間）の特徴量の指標である。この長時間特徴量を用いた本発明の発話区間抽出装置は、発話区間内における長時間特徴の変動を考慮した精度の良い発話区間の抽出を可能にする。

この発明の発話区間抽出装置１００の機能構成例を示す図。発話区間抽出装置１００の動作フローを示す図。音声信号Ｏ_ｔと音声区間情報Ｏｓ_ｔと音声区間密度Ｏｓｄ_ｔの一例を示す図。発話始終端判定部３０の機能構成例を示す図。発話始終端判定部３０の動作フローを示す図。この発明の発話区間抽出装置２００の機能構成例を示す図。特許文献２に開示された音声／非音声判定補正装置９００の機能構成を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の発話区間抽出装置１００の機能構成例を示す。その動作フローを図２に示す。発話区間抽出装置１００は、音声区間検出部１０と、音声区間密度計算部２０と、発話始終端判定部３０と、を具備する。発話区間抽出装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現される。

音声区間検出部１０は、音声信号から音声区間を検出して音声区間情報を出力する（ステップＳ１０）。音声信号は、連続的な信号であるアナログ信号、または離散的な信号であるディジタル信号のどちらであっても良い。以降の説明では、音声信号がディジタル信号の場合を例に説明するが、本発明の技術思想は、アナログ信号及びディジタル信号のどちらの音声信号に対しても適用することが可能である。

音声信号Ｏ_ｖは、所定のサンプリング周波数（例えば、８０００Ｈｚ）で離散値化された信号であり、目的信号である音声信号に雑音信号が重畳した信号である。添え字のｖはサンプリング時刻を表す離散値である。

音声区間検出部１０は、音声信号Ｏ_ｖを時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音声信号Ｏ_ｔ,０,…,Ｏ_ｔ,ｍ,…,Ｏ_{ｔ,Ｍ−１}をフレームとして切り出す。例えば、サンプリング周波数８０００Ｈｚで時間長１０ｍｓに相当する８０サンプル点長の音声信号を４０サンプル点ずつ始点を移動させながら切り出す。なお、ｔはフレーム番号を表す。フレーム番号の初期値は０であり、新たなフレームが切り出される度に直前のフレーム番号に１を加算した値が新たなフレーム番号として付与される。また、Ｍはフレーム毎に切り出されたサンプル数を表し、Ｏ_ｔ,ｍはフレーム番号ｔのフレームが含むｍ＋１番目の音声信号を表す。

そして、音声区間検出部１０は、フレーム毎に音声信号Ｏ_ｔ（Ｏ_ｔ,０,…,Ｏ_ｔ,ｍ,…,Ｏ_{ｔ,Ｍ−１}）を高速フーリエ変換して周波数領域の信号に変換し、更にメルフィルタバンク分析を適用してフレーム毎に音声特徴量を求めて音声区間検出を行い、音声区間情報Ｏｓ_ｔを出力する。音声区間情報Ｏｓ_ｔは０（非音声）か１（音声）の２値信号である。この音声区間検出部１０の処理は、例えば特許文献１に開示された周知の方法を用いる。

音声区間密度計算部２０は、音声区間検出部１０が出力する音声区間情報Ｏｓ_ｔを所定の時間保存し、保存した音声区間情報の総和と上記所定の時間との比に基づく音声区間密度を計算して当該音声区間密度Ｏｓｄ_ｔと音声区間情報Ｏｓ_ｔとを出力する（ステップＳ２０）。先ず、音声区間検出部１０から出力された音声区間情報を保存（buffering）する。この保存手段（バッファ）は、キュー構造になっており、新たな音声区間情報が入力されると、最も古い音声区間情報Ｏｓ_ｔは入力された音声区間情報Ｏｓ_ｔの数だけ捨てられる構造になっている。保存中の各要素値は、その定義上、音声区間情報である０か１の２値信号である。そのため、音声区間情報Ｏｓ_ｔが得られたたら即座に保存した各要素の総和を取り、所定の時間長で正規化することで、フレーム毎に、音声区間がどれだけ存在するかを意味する音声区間密度Ｏｓｄ_ｔを計算することができる（式（１））。

図３に、音声信号Ｏ_ｔと音声区間情報Ｏｓ_ｔと音声区間密度Ｏｓｄ_ｔの一例を示す。図３に示す例は、フレーム長を１０ｍｓ、所定の時間を１００ｍｓとした場合である。１行目は音声信号である。２行目は音声区間情報Ｏｓ_ｔであり、フレーム毎に非音声を０、音声を１として音声区間検出部１０から出力される。３行目は音声区間密度Ｏｓｄ_ｔであり、０〜１の数値で表される。４行目は音声区間密度Ｏｓｄ_ｔを振幅で表す。このように音声区間密度Ｏｓｄ_ｔは、フレーム毎に徐々に変化する情報であり、複数のフレーム数に相当する長時間の所定の時間で評価した長時間特徴量である。所定の時間（バッファ長）は、例えばモバイル音声認識の用途を想定した場合、例えば５００〜２０００ｍｓ程度の時間が好ましい。

発話始終端判定部３０は、音声区間密度計算部２０が出力する音声区間密度Ｏｓｄ_ｔと音声区間情報Ｏｓ_ｔとに基づいて発話区間情報を検出し、当該発話区間情報内の音声信号Ｏ_ｔを発話区間音声信号として出力する（ステップＳ３０）。図３に示した音声区間情報Ｏｓ_ｔと音声区間密度Ｏｓｄ_ｔの場合は、音声信号Ｏ_４〜Ｏ_１３の範囲の何れかのフレームから発話区間が開始したと判定され、Ｏ_１６以降の図示しない何れかのフレームで非音声区間と判定されるまで発話区間が継続する。発話始終端判定部３０は、その発話区間内の音声信号を発話区間音声信号として外部に出力する。

以上説明した音声区間検出部１０と音声区間密度計算部２０と発話始終端判定部３０の処理は、全てのフレームについての処理が終了するまで、又は、図示しない動作停止の指示が外部から入力されるまで繰り返される（ステップＳ４０のＮｏ）。このステップＳ１０とステップＳ２０とステップＳ３０の時系列動作の制御と動作終了の制御は、制御部４０が行う。この制御部４０の機能は、この実施例の特別な技術的特徴では無く一般的なものである。

発話区間抽出装置１００は、始めに音声の短時間特徴である音声区間情報Ｏｓ_ｔで音声区間の判定を行い、その後に、発話区間内の長時間特徴量である音声区間密度Ｏｓｄ_ｔの高い区間を音声区間として判定し直す。したがって、雑音の混入に対して頑健で、且つ高い精度で発話区間抽出を行うことができる。また、長時間特徴量を用いて音声区間を判定するので、人の発話モデルにリンクさせた発話区間の抽出を可能にする。

このように音声区間情報Ｏｓ_ｔと音声区間密度Ｏｓｄ_ｔとに基づいて発話区間抽出を行うこの発明の考えは、上記したようにアナログ信号の音声信号に対しても適用することが可能である。その場合、音声区間情報Ｏｓ_ｔは音声信号のパワーに基づいて判定すれば良い。

この発明のより具体的な機能構成例を参照して更に詳しく説明する。図４に、より具体的な発話始終端判定部３０の機能構成例を示す。その動作フローを図５に示す。発話始終端判定部３０は、始端判定手段３１と、終端判定手段３２と、発話区間情報生成手段３３と、発話区間音声信号生成手段３４と、を備える。

始端判定手段３１は、音声区間情報Ｏｓ_ｔが音声の場合に音声区間密度Ｏｓｄ_ｔと閾値１を比較して当該音声区間密度Ｏｓｄ_ｔが閾値１以上の時に発話区間の始端を検出する（ステップＳ３１）。始端判定手段３１は、非音声から音声状態への状態遷移を検出するものであるので、先ず、前のフレームが非音声状態で有ったか否かを発話区間フラグを参照して確認する（ステップＳ３１０）。前のフレームとは１フレーム過去のことである。この１フレーム過去の情報は、例えば始端判定手段３１の内部に設けられるレジスタに記録しておく。その初期値は、非発話区間を表す０に設定される。レジスタは、発話区間抽出装置１００を構成するコンピュータのＲＡＭであっても良い。

前のフレームの発話区間フラグが０（ステップＳ３１０のＹｅｓ）の時、始端判定手段３１は、当該フレームの音声区間情報Ｏｓ_ｔを確認する（ステップＳ３１１）。当該フレームの音声区間情報Ｏｓ_ｔが非音声の場合（ステップＳ３１１の非音声）、発話区間フラグは０（ステップＳ３４０のＮｏ）であるのでフレーム番号が更新されて次のフレームの処理を行う（ステップＳ４０のＮｏ）。当該フレームの音声区間情報Ｏｓ_ｔが音声の場合（ステップＳ３１１の音声）、始端判定手段３１は当該フレームの音声区間密度Ｏｓｄ_ｔと閾値１を比較する（ステップＳ３１２）。当該フレームの音声区間密度Ｏｓｄ_ｔが閾値１以上の時、始端判定手段３１は、発話区間情報生成手段３３の発話区間フラグを１にセットする（ステップＳ３１２のＹｅｓ）。当該フレームの音声区間密度Ｏｓｄ_ｔが閾値１未満の時（ステップＳ３１２のＮｏ）、この経路では発話区間フラグが０であるのでフレーム番号が更新されて次のフレームの処理を行う（ステップＳ４０のＮｏ）。

このように発話の始端判定は、音声区間密度を閾値処理することにより行う。例えばモバイル音声認識においては、０.７〜０.８程度の音声区間密度が有る場合に発話の始端と判定する。例えば所定の時間を１０００ｍｓとした場合に、音声継続長が７００〜８００ｍｓである時を発話の始端として判定する。

発話区間フラグが１にセットされると、終端判定手段３２が動作を開始する（ステップＳ３１０のＮｏ）。終端判定手段３２は、音声区間情報Ｏｓ_ｔが音声の場合に音声区間密度Ｏｓｄ_ｔと閾値２を比較して当該音声区間密度Ｏｓｄ_ｔが閾値２未満で、且つ、閾値２未満の状態が所定時間経過した時に発話区間の終端を検出する（ステップＳ３２）。

先ず、終端判定手段３２は、当該フレームの音声区間情報Ｏｓ_ｔを確認する（ステップＳ３２０）。当該フレームの音声区間情報Ｏｓ_ｔが非音声の場合（ステップＳ３２０の非音声）、終端判定手段３２は当該フレームの音声区間密度Ｏｓｄ_ｔと閾値２を比較する（ステップＳ３２１）。

音声区間密度Ｏｓｄ_ｔが閾値２未満の場合（ステップＳ３２１のＮｏ）、終端判定手段３２は許容ポーズ長計数を行う（ステップＳ３２２）。許容ポーズ長計数とは、音声区間密度Ｏｓｄ_ｔが閾値２未満のフレーム数を数える処理のことである。この例では、フレーム長が１０ｍｓであるので、音声区間密度Ｏｓｄ_ｔが閾値２未満と判定される回数を、所定の回数数える。例えば、所定の回数を３０と設定しておくと、許容ポーズ長計数が３０回となると許容ポーズ長が所定長以上と判定され、発話区間情報生成手段３３の発話区間フラグが０にリセットされる（ステップＳ３２３の所定長以上）。

発話区間の終端判定は、人の発話時の音声区間密度が息継ぎの間で段階的（シグモイド的）に減少することから、発話の始端判定に用いた閾値１より小さな閾値２で閾値処理することで行う。具体的には、０.１〜０.７未満の音声区間密度の場合に発話の終端と判定する。例えば所定の時間を１０００ｍｓとした場合に、音声継続長が１００〜７００ｍｓ未満である時を発話の終端として判定する。

所定の回数は、音声区間密度Ｏｓｄ_ｔが閾値２未満となる時間が、３００ｍｓ〜１５００ｍｓに相当する回数に設定される。所定の回数は、例えばフレーム長を１０ｍｓとすると３０〜１５０回となる。

なお、時間経過に伴う音声区間密度Ｏｓｄ_ｔの変化が一方向で安定している状況は少ないと考えられる。実際のところ音声区間密度Ｏｓｄ_ｔの値は揺らぎを持って変化するので、フレームが更新される毎にステップＳ３２１のＮｏとＹｅｓを繰り返すことがある。その場合の許容ポーズ長計数は、所定の回数に達するまでに音声区間密度Ｏｓｄ_ｔが閾値２以上となった時に、許容ポーズ長の計数値をリセットするようにしても良い。または、許容ポーズ長の計数値をリセットしない場合は、許容ポーズ長の計数に対応させて閾値２の値を順次小さな値に変化させるようにしても良い。

終端判定手段３２は、音声区間密度Ｏｓｄ_ｔが閾値２未満で、且つ、閾値２未満の状態が所定時間経過した時に発話区間の終端を検出して発話区間フラグを０にリセットする。それ以外の場合は、発話区間フラグは１にセットされた状態で維持される。

発話区間情報生成手段３３は、始端判定手段３１が発話区間の始端を検出した時から、終端検出手段３２が発話区間の終端を検出するまでの間の区間を発話区間情報として出力する（ステップＳ３３）。始端判定手段３１が発話区間の始端を検出した時とは、当該フレームの音声区間密度Ｏｓｄ_ｔが閾値１以上と判定された時である（ステップＳ３１２のＹｅｓ）。終端検出手段３２が発話区間の終端を検出する時とは、当該フレームの音声区間密度Ｏｓｄ_ｔが閾値２未満で、且つ、閾値２未満の状態が所定時間経過した時である（ステップＳ３２３の所定長以上）。ステップＳ３１２で音声区間密度Ｏｓｄ_ｔが閾値１以上と判定された後、ステップＳ３２３で閾値２未満の状態が所定時間経過した時と判定されるまでの間、発話区間情報生成手段３３は発話区間を表す発話区間情報を出力する。

発話区間情報とは、発話区間フラグが１にセットされた区間のことである。上記した閾値１と閾値２の関係を、閾値１＞閾値２とすることで発話の終端に向かって音声区間密度が減って行く人の声の特徴に合わせて発話区間情報を検出することができる。

発話区間音声信号生成手段３４は、発話区間情報のある間に音声信号を出力する（ステップＳ３４）。発話区間音声信号生成手段３４は、発話区間フラグが０にリセットされている状態では音声信号を出力しない（ステップＳ３４０のＮｏ）。発話区間フラグが１にセットされている状態において音声信号が出力される（ステップＳ３４１）。

発話始終端判定部３０を構成する始端判定手段３１と終端判定手段３２と発話区間情報生成手段３３と発話区間音声信号生成手段３４とは、フレーム毎に上記した処理を繰り返す。その結果、発話始終端判定部３０は、発話区間フラグが１にセットされているフレームにおいて音声信号を外部に出力する。

図６に、この発明の発話区間抽出装置２００の機能構成例を示す。発話区間抽出装置２００は、発話区間抽出装置１００の音声区間検出部１０に代えて、音声区間検出雑音抑圧部２１０を備える点で異なる。音声区間密度計算部２０と発話始終端判定部３０は、その参照符号から明らかなように発話区間抽出装置１００と同じものである。

音声区間検出雑音抑圧部２１０は、音声区間検出部１０が出力する音声区間情報と、雑音信号を除去する周波数応答フィルタを音声信号に畳み込んだ雑音除去音声信号とを出力するものである。音声区間検出雑音抑圧部２１０は、雑音抑圧と音声区間検出を同時に行う。音声区間検出雑音抑圧部２１０は、特許文献１に記載された雑音除去装置１と同じ周知な処理を行うものである。

発話始終端判定部３０は、発話区間情報内の雑音除去音声信号を発話区間音声信号として出力する。その結果、発話区間抽出装置２００は、高騒音環境下においても雑音を抑圧した発話区間の抽出ができ、雑音を抑圧した発話区間音声信号を出力することができる。

以上説明した発話区間抽出装置１００,２００は、短時間（フレーム長）の発話区間情報と、長時間特徴量（所定の時間）である音声区間密度と、を用いて発話区間を抽出するものであり、発話の終端判定に用いる閾値２を発話の始端を判定する閾値１よりも小さな値にすることを特徴にしている。この特別な技術的特徴により発話区間抽出装置１００,２００は、人の発話区間を高い精度で抽出することを可能にする。

また、発話区間抽出装置１００,２００の出力する発話区間音声信号を、音声認識処理することで音声認識性能を向上させることができる。また、音声を録音する際のメモリの効率的な利用を可能にする効果を奏する。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声信号から音声区間を検出して音声区間情報を出力する音声区間検出部と、
上記音声区間情報を所定の時間保存し、保存した上記音声区間情報の総和と上記所定の時間との比に基づく音声区間密度を計算して当該音声区間密度と上記音声区間情報とを出力する音声区間密度計算部と、
上記音声区間密度と上記音声区間情報とに基づいて発話区間情報を検出し、当該発話区間情報内の上記音声信号を発話区間音声信号として出力する発話始終端判定部と、
を具備する発話区間抽出装置。
請求項１に記載した発話区間抽出装置において、
上記発話始終端判定部は、
上記音声区間情報が音声の場合に上記音声区間密度と閾値１を比較して当該音声区間密度が上記閾値１以上の時に発話区間の始端を検出する始端判定手段と、
上記音声区間情報が非音声の場合に上記音声区間密度と上記閾値１より小さな閾値２（閾値２＜閾値１）とを比較して当該音声区間密度が上記閾値２未満で、且つ、上記閾値２未満の状態が所定時間経過した時に発話区間の終端を検出する終端判定手段と、
上記始端判定手段が発話区間の始端を検出した時から、上記終端判定手段が発話区間の終端を検出するまでの間の区間を発話区間情報として出力する発話区間情報生成手段と、
上記発話区間情報のある間に上記音声信号を出力する発話区間音声信号生成手段と、
を備えることを特徴とする発話区間抽出装置。
請求項１又は２に記載した発話区間抽出装置において、
上記発話始終端判定部は、
上記発話区間情報を、発話の終端に向かって上記音声区間密度が減って行く特徴に基づいて検出するものであることを特徴とする発話区間抽出装置。
請求項１乃至３の何れかに記載した発話区間抽出装置において、
上記音声区間検出部に代えて音声区間検出雑音抑圧部を備え、
上記音声区間検出雑音抑圧部は、上記音声区間情報と、雑音信号を除去する周波数応答フィルタを上記音声信号に畳み込んだ雑音除去音声信号と、を出力するものであることを特徴とする発話区間抽出装置。
音声区間検出部が、音声信号から音声区間を検出して音声区間情報を出力する音声区間検出過程と、
音声区間密度計算部が、上記音声区間情報を所定の時間保存し、保存した上記音声区間情報の総和と上記所定の時間との比に基づく音声区間密度を計算して当該音声区間密度と上記音声区間情報とを出力する音声区間密度計算過程と、
発話始終端判定部が、上記音声区間密度と上記音声区間情報とに基づいて発話区間情報を検出し、当該発話区間情報内の上記音声信号を発話区間音声信号として出力する発話始終端判定過程と、
を備える発話区間抽出方法。
請求項１乃至４の何れかに記載した発話区間抽出装置の各部の機能を、コンピュータに実行させるためのプログラム。