JP4714129B2 - 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 - Google Patents
音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 Download PDFInfo
- Publication number
- JP4714129B2 JP4714129B2 JP2006322321A JP2006322321A JP4714129B2 JP 4714129 B2 JP4714129 B2 JP 4714129B2 JP 2006322321 A JP2006322321 A JP 2006322321A JP 2006322321 A JP2006322321 A JP 2006322321A JP 4714129 B2 JP4714129 B2 JP 4714129B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- ratio
- vad flag
- speech
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
ディジタル通信網であるパケット通信網を介して多地点(3地点以上を多地点と云い、以下同様とする。)を結び、音声パケット通信で多地点音声通信(例えば多地点音声会議である。)を行うことが増えている。
なお、図1では、説明を簡単にするため入力が3地点、出力が1地点の例を示しているが、入力は何地点でもよい。また、通常の多地点音声通信利用においては、入力地点と出力地点は同一であり、入力がA、B、C地点であれば、出力もA、B、Cの3地点分必要であり、地点DはA、B、Cのいずれかの例であると読み替えるとよい(以下、同様である。)。
その理由は、ミキシングサーバにおいて、各地点から送られてくる音声パケットに含まれる音声符号をいったんデコードし、PCM(Pulse Code Modulation)信号レベルでミキシング処理を行った後、再度エンコード処理を行って各地点向けの音声パケットを生成する必要があり、G.711以外の符号化方式では、ミキシングサーバに多大な負荷がかかるためである。
図2に特許文献1に開示される多地点ミキシング方法の一例を示す。ただし図2では、送信側として地点A、受信側として地点Dのみを記載し、地点B、Cは省略した。地点B、Cでの処理は地点Aでの処理と同様である。
そのような場合には、ミキシングサーバにおいて、主たる発言者の自動判定の誤り、あるいは、誤って発話中に音声符号の切り替えが発生して、ミキシング後の通話品質・音質が劣化する虞が全く無いとはいえない。
この構成は、非音声区間の割合を指標として、現VADフラグを、当該現VADフラグが音声区間を示すものであれば、非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合に前記補正されたVADフラグを出力する。このことにより、音声区間の割合/非音声区間の割合が所定条件を満たすかあるいは所定条件を満たすように修正されるものとなる。
この構成は、非音声区間の割合を指標とするものであって、現フレームに対応する補正VADフラグおよび過去に入力された各フレームに対応する各過去補正VADフラグによって得られる非音声区間の割合を基に閾値を更新することで、現在および過去の補正VADフラグによって示される非音声区間の割合が、第一の割合〜第二の割合の範囲に収まるようにフィードバックをかけるものである。
この構成は、非音声区間の割合を指標とするものであって、現フレームに対応する補正VADフラグおよび過去に入力された各フレームに対応する各過去補正VADフラグによって得られる非音声区間の割合を基に、音声情報と比較される閾値を音声情報の統計量に関連付けて更新することで、現在および過去の補正VADフラグによって示される非音声区間の割合が、第一の割合〜第二の割合の範囲に収まるようにフィードバックをかけるものである。
この場合には、上記音声/非音声判定補正手段を、上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、入力された上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段とを含むものとして構成することができる。
ここで音声/非音声判定補正手段は、すでに述べた音声/非音声判定補正手段として構成できる。なお、既述の音声/非音声判定補正手段ではフレームの音響信号が入力となっていたが、それを音声符号に読み替えて理解すればよい。
また、本発明の音声ミキシング装置としてコンピュータを機能させる音声ミキシングプログラムによって、コンピュータを音声ミキシング装置として作動処理させることができる。そして、この音声ミキシングプログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音声ミキシング装置として機能させることや、音声ミキシングプログラムを流通させることなどが可能になる。
本発明である音声/非音声判定補正装置・方法の第1実施形態を説明する。
本発明の第1実施形態である音声/非音声判定補正装置(1)は、それ単体で独立に存在するよりは、音声/非音声の判定結果を用いて音声信号処理を行う装置(音声信号処理装置)を構成するエンティティとして存在するのが一般的である。さらに云えば、音声/非音声判定補正装置(1)は、音声信号処理装置とは容易に分離可能に音声信号処理装置を構成するエンティティではなく、音声信号処理装置自体を或る機能に着眼して片面的に評価したものと云うこともできる。要するに、音声/非音声判定補正装置(1)は、音声信号処理装置そのものであることが一般的である。具体的には、音声/非音声判定補正装置(1)の機能をデジタルシグナルプロセッサや専用LSIに実装して、音声/非音声判定補正装置(1)を実現することができる。
ただし、単体独立のエンティティとして存在すること、音声信号処理装置とは容易に分離可能に音声信号処理装置を構成するエンティティであることを排除する趣旨ではない。例えば音声/非音声の判定結果の補正自体を目的とするならば、音声/非音声判定補正装置(1)を単体独立のエンティティとして実現することに何らの妨げは無い。
ここで音声信号処理装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、単体独立のエンティティとして音声/非音声判定補正装置(1)を実現する場合も同様である。
図3に例示するように、音声/非音声判定補正装置(1)は、キーボード、ポインティングデバイスなどが接続可能な入力部(11)、液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどが接続可能な出力部(12)、音声/非音声判定補正装置(1)外部に通信可能な通信装置(例えば通信ケーブル、LANカード、ルータ、モデムなど)が接続可能な通信部(13)、DSP(Digital Signal Processor)(14)〔CPU(Central Processing Unit)でも良い。またキャッシュメモリやレジスタ(19)などを備えていてもよい。〕、メモリであるRAM(15)、ROM(16)やハードディスク、光ディスク、半導体メモリなどである外部記憶装置(17)並びにこれらの入力部(11)、出力部(12)、通信部(13)、DSP(14)、RAM(15)、ROM(16)、外部記憶装置(17)間のデータのやり取りが可能なように接続するバス(18)を有している。また必要に応じて、音声/非音声判定補正装置(1)に、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)などの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
なお、第1実施形態では、フレームを用いる形態として説明するが、フレームの音声信号に限定する趣旨ではない。例えばフレームの音声信号に対して符号化が施された音声符号を用いることもできる。この音声符号には、フレームの音声信号の音響特徴量(例えばパワーなどである。)が符号化されたものが付加されていてもよい。この場合の実施形態は、第5実施形態および第6実施形態として説明を加える。
第1実施形態は、前述のように、入力音声信号に背景雑音が含まれている場合やマイクロホンへの過大入力、あるいは部屋の残響などが在りえる自然な環境下では、非音声区間を音声区間に誤ることが多い。本実施形態は、非音声区間を音声区間に誤ったVADフラグを補正するため場合の形態である。
音声情報取得部(140)は、現フレームの音声信号から音声信号の音響特徴量である音声情報を取得する。音声情報としては、例えば現フレームの音声信号のパワーやピッチの相関値とすることができる。音声情報の取得方法として、フレーム内の音声波形の二乗和を計算することによってパワーを求めてもよいし、フレーム内の音声波形のピッチの相関値を求めてもよい。音声情報取得部(140)が出力した音声情報は、VADフラグ補正判定部(120)の入力となる。
補正判定制御部(110)は、現フレーム(例えば20msとする。)に対応付けられたVADフラグ(現VADフラグ)および過去一定時間(例えば1980msとする。)分の各フレームに対応付けられた各VADフラグを用いて、現在および現在までの過去一定時間における各VADフラグが示す音声区間の割合および/または非音声区間の割合を計算し、補正のための判定処理を行うか否かを決定する。
なお、VADフラグが音声区間と非音声区間の2種類しか示さない場合には、音声区間の割合と非音声区間の割合の合計は100%であり、音声区間の割合が決まれば非音声区間の割合が一意に決まるため、以下、非音声区間の割合を判断基準として説明するが、音声区間の割合を判断基準としても同義である。
具体的には、非音声区間の割合が第一の割合以上である場合は、補正判定制御部(110)は補正のための判定処理を行わないと決定し(図4のB側)、入力された現フレームに対応付けられたVADフラグは、補正されずにそのまま音声/非音声判定補正装置(1)の出力となる。なお、ここでは、補正されずに出力されたVADフラグも、補正のための判定処理を行うか否かの判定を受けたという点で、補正VADフラグと呼ぶことにする。補正VADフラグは、音声/非音声区間割合算出部(160)の入力になる。
非音声区間の割合が第一の割合に達していない場合には、補正判定制御部(110)は、入力された現フレームに対応付けられたVADフラグをVADフラグ補正判定部(120)に送る(図4のA側)。
VADフラグ補正判定部(120)は、音声情報取得部(140)から送られた音声情報と、後述する閾値更新部(150)から送られた閾値とを比較し、音声情報が閾値よりも低い場合(あるいは音声情報が閾値以下の場合)には、現VADフラグが音声区間を示すものであればこれを非音声区間を示す補正VADフラグに変更して出力し、音声情報が閾値よりも低くない場合(あるいは音声情報が閾値より大の場合)には、現VADフラグをそのまま補正VADフラグとして出力する。VADフラグの値として、非音声区間は0、音声区間は1が割り当てられている場合、例えば現VADフラグの値が1で音声区間を表していたとき、音声情報が閾値よりも低い場合には、現VADフラグの値を0に補正してこれを補正VADフラグとする。同様に、現VADフラグの値が1で音声区間を表していたとき、音声情報が閾値よりも低くない場合には、値1の現VADフラグをそのまま補正VADフラグとして出力する。
この補正VADフラグは、音声/非音声判定補正装置(1)の出力となるとともに、音声/非音声区間割合算出部(160)の入力になる。
音声/非音声区間割合算出部(160)は、補正判定制御部(110)と同様の方法で、補正VADフラグが示す音声区間の割合および/または非音声区間の割合を計算する。
音声/非音声区間割合算出部(160)から出力される非音声区間の割合は、閾値更新部(150)の入力となる。
閾値更新部(150)は、VADフラグ補正判定部(120)で用いられる閾値を動的に変更する。閾値の初期値は予め決められた値(例えば十分に小さい値とする。)がセットされ、以後は、音声/非音声区間割合算出部(160)から出力される非音声区間の割合が、第一の割合未満であれば閾値を上げ、予め決められた第一の割合以上であって、第一の割合よりも高い予め決められた第二の割合(例えば20%とする。)未満であれば閾値は変更せず、第二の割合以上であれば閾値を下げるように更新する。
このため、従来の音声/非音声区間判定方法、特に簡易な音声/非音声区間判定方法で得られたVADフラグが、入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響で、音声区間と非音声区間との判別に失敗して、音声区間を示すものに偏っていて不自然な場合に、より自然な音声区間と非音声区間の存在比率に補正することができる。
なお、第一の割合および第二の割合は、各補正VADフラグが示す音声区間と非音声区間の存在比率が、自然な会話における音声区間と非音声区間の存在比率に収まるように適宜に設定される設計事項である。例えば、一般的な人間の会話では、3割〜5割程度は非音声区間が含まれていることに留意して、第一の割合および第二の割合を設定する。
次に、図6および図7を参照して、本発明の第2実施形態を説明する。第2実施形態は、第1実施形態の変形例であるので、第1実施形態と異なる部分について説明を加える。
第2実施形態では、音声情報蓄積部(180)が追加される。ステップS1の処理で音声情報取得部(140)から出力された音声情報は、VADフラグ補正判定部(120)に送られるとともに、音声情報蓄積部(180)に送られる(ステップS1a)。音声情報蓄積部(180)は、音声情報を予め決められた一定時間(フレーム)分蓄える機能であり、RAM(15)やレジスタ(19)などで実現可能だが、例えばシフトバッファとしてもよい。閾値更新部(150)は、上記ステップS5の処理に替え、音声情報蓄積部(180)に蓄えられた一定時間分の音声情報の統計量と、音声/非音声区間割合算出部(160)から出力された音声/非音声区間の割合のうち非音声区間の割合とに基づいて、閾値を更新する(ステップS5a)。
閾値更新部(150)の具体的な処理は、まず音声情報蓄積部(180)に蓄積された一定時間(フレーム)分の音声情報の時系列から、音声情報の統計量を求める。音声情報の統計量は、音声情報(ピッチの相関値やパワーなどの値)の時系列のうち最小値とするのが簡易であるが、音声情報の小さい方から複数個または一定割合の値を選択してそれらの値の平均としてもよい。または、音声情報が一定の値より小さいフレームは除外し、音声情報が前記一定の値以上のフレームの中で、上記のように、最小値を統計量としあるいは音声情報の小さい方から複数個または一定割合の値を選択してそれらの平均を統計量としてもよい。
次に、図8を参照して、本発明の第3実施形態を説明する。第3実施形態は、第1実施形態の変形例であるので、第1実施形態と異なる部分について説明を加える。第3実施形態における音声/非音声判定補正装置の機能構成は、第1の実施形態に拠るものとして、説明を略する(図4参照)。
前述のように、入力音声信号に背景雑音が含まれている場合やマイクロホンへの過大入力、あるいは部屋の残響などが在りえる自然な環境下では、非音声区間を音声区間に誤ることが多いが、マイクロホンへの過小入力などの場合には、逆に音声区間を非音声区間に誤ることも多い。第3実施形態は、音声区間を非音声区間に誤ったVADフラグを補正するためのもので、第1実施形態を一部変更した形態になっている。
補正判定制御部(110)は、上記ステップS2の処理に替え、現フレーム(例えば20msとする。)に対応付けられたVADフラグ(現VADフラグ)および過去一定時間(例えば1980msとする。)分の各フレームに対応付けられた各VADフラグを用いて、現在および現在までの過去一定時間における各VADフラグが示す音声区間の割合および/または非音声区間の割合を計算し、補正のための判定処理を行うか否かを決定する。
なお、VADフラグが音声区間と非音声区間の2種類しか示さない場合には、音声区間の割合と非音声区間の割合の合計は100%であり、音声区間の割合が決まれば非音声区間の割合が一意に決まるため、以下、音声区間の割合を判断基準として説明するが、非音声区間の割合を判断基準としても同義である
具体的には、音声区間の割合が第三の割合以上である場合は、補正判定制御部(110)は補正のための判定処理を行わないと決定し(図4のB側)、入力された現フレームに対応付けられたVADフラグは、補正されずにそのまま音声/非音声判定補正装置(1)の出力となる。この補正VADフラグは、音声/非音声区間割合算出部(160)の入力になる。
音声区間の割合が第三の割合に達していない場合には、補正判定制御部(110)は、入力された現フレームに対応付けられたVADフラグをVADフラグ補正判定部(120)に送る(図4のA側)。
VADフラグ補正判定部(120)は、上記ステップS3の処理に替え、音声情報取得部(140)から送られた音声情報と、後述する閾値更新部(150)から送られた閾値とを比較し、音声情報が閾値よりも大きい場合(あるいは音声情報が閾値以上の場合)には、現VADフラグが非音声区間を示すものであればこれを音声区間を示す補正VADフラグに変更して出力し、音声情報が閾値よりも大きくない場合(あるいは音声情報が閾値未満の場合)には、現VADフラグをそのまま補正VADフラグとして出力する。この補正VADフラグは、音声/非音声判定補正装置(1)の出力となるとともに、音声/非音声区間割合算出部(160)の入力になる。
音声/非音声区間割合算出部(160)は、上記ステップS4の処理に替え、補正判定制御部(110)と同様の方法で、補正VADフラグが示す音声区間の割合および/または非音声区間の割合を計算する。
音声/非音声区間割合算出部(160)から出力される音声区間の割合は、閾値更新部(150)の入力となる。
閾値更新部(150)は、上記ステップS5の処理に替え、VADフラグ補正判定部(120)で用いられる閾値を動的に変更する。閾値の初期値は予め決められた値(例えば十分に大きい値とする。)がセットされ、以後は、音声/非音声区間割合算出部(160)から出力される音声区間の割合が、第三の割合未満であれば閾値を下げ、予め決められた第三の割合以上であって、第三の割合よりも高い予め決められた第四の割合(例えば90%とする。)未満であれば閾値は変更せず、第四の割合以上であれば閾値を上げるように更新する。
このため、従来の音声/非音声区間判定方法、特に簡易な音声/非音声区間判定方法で得られたVADフラグが、入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響で、音声区間と非音声区間との判別に失敗して、非音声区間を示すものに偏っていて不自然な場合に、より自然な音声区間と非音声区間の存在比率に補正することができる。
なお、第三の割合および第四の割合は、各補正VADフラグが示す音声区間と非音声区間の存在比率が、自然な会話における音声区間と非音声区間の存在比率に収まるように適宜に設定される設計事項である。例えば、一般的な人間の会話では、5割〜7割程度は音声区間が含まれていることに留意して、第三の割合および第四の割合を設定する。
次に、図9を参照して、本発明の第4実施形態を説明する。第4実施形態は、第3実施形態の変形例であるから、第3実施形態と異なる部分について説明を加える。第4実施形態における音声/非音声判定補正装置の機能構成は、第2の実施形態に拠るものとして、説明を略する(図6参照)。
第4実施形態では、第2実施形態と同様、第3実施形態の構成に音声情報蓄積部(180)が追加される。閾値更新部(150)は、上記ステップS1aの処理で音声情報蓄積部(180)に蓄えられた一定時間分の音声情報の時系列と、音声/非音声区間割合算出部(160)から出力された音声/非音声区間の割合のうち音声区間の割合とに基づいて、閾値を更新する(ステップS5c)。
音声情報の統計量については、既述の統計量と同様であるから説明を略する。
VADフラグ補正判定部(120)に送る閾値は、音声情報の統計量のN倍という形式とする。Nの初期値は8または10の如く大きい値とし、音声/非音声区間割合算出部(160)から出力された音声区間の割合が、第三の割合未満であればNの値を減少し、第三の割合以上第四の割合未満であればNの値は変更せず、第四の割合以上であればNの値を増加するように更新する。Nの値を増加するときは、それまでのNの値を2倍し、Nの値を減少する場合には、それまでのNの値を1/2倍する方法が簡便である。勿論、3倍(増加)ないし1/3倍(減少)でもよいし、整数倍とするのではなく、例えば3/2倍(増加)ないし2/3倍(減少)とすることでも構わないし、更に云えば、減少のときの倍数値を増加のときの倍数値の逆数とするのではなく、例えば、2倍(増加)ないし1/3倍(減少)とすることでもよい。なお、Nの値には上限値および下限値を設け、その範囲を超えて増加または減少しないようにする。
次に、図10〜図12を参照して、本発明の第5実施形態を説明する。第5実施形態は、第1実施形態を音声パケット通信に適用した実施形態である。詳しくは、上記特許文献1に開示される多地点ミキシング方法において音声ミキシング装置に第1実施形態を適用した実施形態である。音声ミキシング装置のハードウェア構成例は音声/非音声判定補正装置のハードウェア構成例と同様であり、重複説明をしない(図3参照。)。また、音声ミキシング装置のパケット分解部およびミキシング部について、いずれもDSP(14)がその機能を実現するとする。なお、本形態では、音声ミキシング装置としてミキシングサーバを例にとる。
なお、図10に示すように、各地点から送られた音声パケットに含まれるVADフラグの補正は、各地点における音声パケットごとに行われる。図11は、或る1地点の音声パケットに対するVADフラグの補正を行うミキシングサーバ内の機能構成を示したものである。
ここでは、音声符号にパワーを示す符号が含まれているとして、それを話者選択部(574)が取得する構成としたが、例えば、パケット分解部(571)が音声情報を音声符号から取り出して、この音声情報が話者選択部(574)の入力となる構成としてもよいし、音声/非音声判定補正部(100)の音声情報取得部(140)が取り出した音声情報を話者選択部(574)の入力となる構成としてもよい。
しかし、上記第5実施形態の如く、音声ミキシング装置で音声/非音声の判定結果の補正処理を行う構成に拠れば、単にVADフラグが補正されるという効果のみならず、音声パケットの送信側における音声区間検出部を変更する手間をかけることなく、ミキシング後の通話品質・音質を劣化させないという効果を有することになる。
次に、図17および図18を参照して、本発明の第6実施形態を説明する。第6実施形態は、第1実施形態を音声パケット通信に適用した実施形態である。詳しくは、上記特許文献1に開示される多地点ミキシング方法において音声パケット生成装置に第1実施形態を適用した実施形態である。音声パケット生成装置のハードウェア構成例は音声/非音声判定補正装置のハードウェア構成例と同様であり、重複説明をしない(図3参照。)。また、音声パケット生成装置のパケット構成部、音声波形符号化部および音声区間検出部については、いずれもDSP(14)がその機能を実現するとする。なお、本形態では、音声パケット生成装置を音声パケット送信部として説明する。
なお、第6実施形態は各地点の音声パケット送信部に適用可能であり、図17は、入力音声信号に対するVADフラグの補正を行う、或る1地点の音声パケット送信部の機能構成例を示したものである。
100 音声/非音声判定補正部
110 補正判定制御部
120 VADフラグ補正判定部
140 音声情報取得部
150 閾値更新部
160 音声/非音声区間割合算出部
180 音声情報蓄積部
200 音声/非音声判定補正部
Claims (38)
- フレーム単位の音響信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、VADフラグという。)と、上記フレーム(以下、現フレームという。)の音響信号とを入力とし、
現フレームに対するVADフラグ(以下、現VADフラグという。)および過去に入力された各フレームに対する各VADフラグ(以下、過去VADフラグという。)によって得られる音声区間の割合/非音声区間の割合の少なくとも一方が、予め設定された条件(以下、所定条件という。)を満たしていない場合に、現フレームの音響信号の音響特徴量(以下、音声情報という。)と閾値との比較した結果に基づいて、現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合に前記補正されたVADフラグを出力する音声/非音声判定補正手段
を備えた音声/非音声判定補正装置。 - 上記音声/非音声判定補正手段は、
上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、
上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、
入力された上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段と
を含むことを特徴とする請求項1に記載の音声/非音声判定補正装置。 - 上記音声/非音声判定補正手段は、
上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、
上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
を含み、
上記所定条件を、予め定められた第一の割合以上/より大として、
上記閾値更新手段は、
上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満/以下であれば上記閾値を大きくするように更新し、
上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記閾値を更新せず、
上記第二の割合以上/より大であれば上記閾値を小さくするように更新する
ことを特徴とする請求項2に記載の音声/非音声判定補正装置。 - 上記音声/非音声判定補正手段は、
上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、
上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
を含み、
上記所定条件を、予め定められた第一の割合以上/より大として、
上記閾値更新手段は、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満/以下であれば上記Nを増大して上記閾値を更新し、
上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記Nを更新せず、
上記第二の割合以上/より大であれば上記Nを減少して上記閾値を更新する
ことを特徴とする請求項2に記載の音声/非音声判定補正装置。 - 上記VADフラグ補正判定手段は、
上記音声情報が上記閾値以下/より小の場合に、上記現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値より大/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
ことを特徴とする請求項2から請求項4のいずれかに記載の音声/非音声判定補正装置。 - 上記音声/非音声判定補正手段は、
上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、
上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、
入力された上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段と
を含むことを特徴とする請求項1に記載の音声/非音声判定補正装置。 - 上記音声/非音声判定補正手段は、
上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、
上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
を含み、
上記所定条件を、予め定められた第三の割合以上/より大として、
上記閾値更新手段は、
上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、
上記第三の割合未満/以下であれば上記閾値を小さくするように更新し、
上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記閾値を更新せず、
上記第四の割合以上/より大であれば上記閾値を大きくするように更新する
ことを特徴とする請求項6に記載の音声/非音声判定補正装置。 - 上記音声/非音声判定補正手段は、
上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、
上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
を含み、
上記所定条件を、予め定められた第三の割合以上/より大として、
上記閾値更新手段は、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、
上記第三の割合未満/以下であれば上記Nを減少して上記閾値を更新し、
上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記Nを更新せず、
上記第四の割合以上/より大であれば上記Nを増大して上記閾値を更新する
ことを特徴とする請求項6に記載の音声/非音声判定補正装置。 - 上記VADフラグ補正判定手段は、
上記音声情報が上記閾値以上/より大の場合に、上記現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値未満/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
ことを特徴とする請求項6から請求項8のいずれかに記載の音声/非音声判定補正装置。 - 音声/非音声判定補正手段が、フレーム単位の音響信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、VADフラグという。)と、上記フレーム(以下、現フレームという。)の音響信号とを入力として、現フレームに対するVADフラグ(以下、現VADフラグという。)および過去に入力された各フレームに対する各VADフラグ(以下、過去VADフラグという。)によって得られる音声区間の割合/非音声区間の割合の少なくとも一方が、予め設定された条件(以下、所定条件という。)を満たしていない場合に、現フレームの音響信号の音響特徴量(以下、音声情報という。)と閾値との比較した結果に基づいて、現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合に補正されたVADフラグを出力する音声/非音声判定補正ステップ
を有する音声/非音声判定補正方法。 - 上記音声/非音声判定補正ステップは、
音声情報取得手段が、上記現フレームの音響信号から上記音声情報を取得する音声情報取得ステップと、
VADフラグ補正判定手段が、上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定ステップと、
補正判定制御手段が、入力された上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御ステップと
を含むことを特徴とする請求項10に記載の音声/非音声判定補正方法。 - 上記音声/非音声判定補正ステップは、
音声/非音声区間割合算出手段が、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出ステップと、
閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
を含み、
上記所定条件を、予め定められた第一の割合以上/より大として、
上記閾値更新ステップは、
上記音声/非音声区間割合算出ステップにおいて得られた非音声区間の割合が、
上記第一の割合未満/以下であれば上記閾値を大きくするように更新し、
上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記閾値を更新せず、
上記第二の割合以上/より大であれば上記閾値を小さくするように更新する
ことを特徴とする請求項11に記載の音声/非音声判定補正方法。 - 上記音声/非音声判定補正ステップは、
音声/非音声区間割合算出手段が、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出ステップと、
閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
音声情報蓄積手段が、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積する音声情報蓄積ステップと
を含み、
上記所定条件を、予め定められた第一の割合以上/より大として、
上記閾値更新ステップは、
上記音声情報蓄積ステップにおいて蓄積された上記音声情報の統計量を算出し、
Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
上記音声/非音声区間割合算出ステップにおいて得られた非音声区間の割合が、
上記第一の割合未満/以下であれば上記Nを増大して上記閾値を更新し、
上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記Nを更新せず、
上記第二の割合以上/より大であれば上記Nを減少して上記閾値を更新する
ことを特徴とする請求項11に記載の音声/非音声判定補正方法。 - 上記VADフラグ補正判定ステップは、
上記音声情報が上記閾値以下/より小の場合に、上記現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値より大/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
ことを特徴とする請求項11から請求項13のいずれかに記載の音声/非音声判定補正方法。 - 上記音声/非音声判定補正ステップは、
音声情報取得手段が、上記現フレームの音響信号から上記音声情報を取得する音声情報取得ステップと、
VADフラグ補正判定手段が、上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定ステップと、
補正判定制御手段が、入力された上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御ステップと
を含むことを特徴とする請求項10に記載の音声/非音声判定補正方法。 - 上記音声/非音声判定補正ステップは、
音声/非音声区間割合算出手段が、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出ステップと、
閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
を含み、
上記所定条件を、予め定められた第三の割合以上/より大として、
上記閾値更新ステップは、
上記音声/非音声区間割合算出ステップにおいて得られた音声区間の割合が、
上記第三の割合未満/以下であれば上記閾値を小さくするように更新し、
上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記閾値を更新せず、
上記第四の割合以上/より大であれば上記閾値を大きくするように更新する
ことを特徴とする請求項15に記載の音声/非音声判定補正方法。 - 上記音声/非音声判定補正ステップは、
音声/非音声区間割合算出手段が、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出ステップと、
閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
音声情報蓄積手段が、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積する音声情報蓄積ステップと
を含み、
上記所定条件を、予め定められた第三の割合以上/より大として、
上記閾値更新ステップは、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
上記音声/非音声区間割合算出ステップにおいて得られた音声区間の割合が、
上記第三の割合未満/以下であれば上記Nを減少して上記閾値を更新し、
上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記Nを更新せず、
上記第四の割合以上/より大であれば上記Nを増大して上記閾値を更新する
ことを特徴とする請求項15に記載の音声/非音声判定補正方法。 - 上記VADフラグ補正判定ステップは、
上記音声情報が上記閾値以上/より大の場合に、上記現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値未満/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
ことを特徴とする請求項15から請求項17のいずれかに記載の音声/非音声判定補正方法。 - 入力された音声パケットから少なくとも音声符号および当該音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、現VADフラグという。)を取り出すパケット分解手段と、
上記音声符号および上記現VADフラグを入力として補正VADフラグを出力する音声/非音声判定補正手段と、
複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正VADフラグを用いてミキシングし、音声パケットを出力するミキシング手段と
を備え、
上記音声/非音声判定補正手段は、
上記音声符号から当該音声符号の音響特徴量(以下、音声情報という。)を取得する音声情報取得手段と、
上記音声情報と閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグを補正VADフラグとして出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、
入力された上記現VADフラグおよび過去に入力された各音声パケットに対応する各VADフラグ(以下、過去VADフラグという。)によって得られる非音声区間の割合が予め設定された条件(以下、所定条件という。)を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段と
を含む音声ミキシング装置。 - 上記音声/非音声判定補正手段は、
入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、
上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
を含み、
上記所定条件を、予め定められた第一の割合以上/より大として、
上記閾値更新手段は、
上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満/以下であれば上記閾値を大きくするように更新し、
上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記閾値を更新せず、
上記第二の割合以上/より大であれば上記閾値を小さくするように更新する
ことを特徴とする請求項19に記載の音声ミキシング装置。 - 上記音声/非音声判定補正手段は、
入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、
上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
を含み、
上記所定条件を、予め定められた第一の割合以上/より大として、
上記閾値更新手段は、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満/以下であれば上記Nを増大して上記閾値を更新し、
上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記Nを更新せず、
上記第二の割合以上/より大であれば上記Nを減少して上記閾値を更新する
ことを特徴とする請求項19に記載の音声ミキシング装置。 - 上記VADフラグ補正判定手段は、
上記音声情報が上記閾値以下/より小の場合に、上記現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値より大/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
ことを特徴とする請求項19から請求項21のいずれかに記載の音声ミキシング装置。 - 入力された音声パケットから少なくとも音声符号および当該音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、現VADフラグという。)を取り出すパケット分解手段と、
上記音声符号および上記現VADフラグを入力として補正VADフラグを出力する音声/非音声判定補正手段と、
複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正VADフラグを用いてミキシングし、音声パケットを出力するミキシング手段と
を備え、
上記音声/非音声判定補正手段は、
上記音声符号から当該音声符号の音響特徴量(以下、音声情報という。)を取得する音声情報取得手段と、
上記音声情報と閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグを補正VADフラグとして出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、
入力された上記現VADフラグおよび過去に入力された各音声パケットに対応する各VADフラグ(以下、過去VADフラグという。)によって得られる音声区間の割合が予め設定された条件(以下、所定条件という。)を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段と
を含む音声ミキシング装置。 - 上記音声/非音声判定補正手段は、
入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、
上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
を含み、
上記所定条件を、予め定められた第三の割合以上/より大として、
上記閾値更新手段は、
上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、
上記第三の割合未満/以下であれば上記閾値を小さくするように更新し、
上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記閾値を更新せず、
上記第四の割合以上/より大であれば上記閾値を大きくするように更新する
ことを特徴とする請求項23に記載の音声ミキシング装置。 - 上記音声/非音声判定補正手段は、
入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、
上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
を含み、
上記所定条件を、予め定められた第三の割合以上/より大として、
上記閾値更新手段は、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、
上記第三の割合未満/以下であれば上記Nを減少して上記閾値を更新し、
上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記Nを更新せず、
上記第四の割合以上/より大であれば上記Nを増大して上記閾値を更新する
ことを特徴とする請求項23に記載の音声ミキシング装置。 - 上記VADフラグ補正判定手段は、
上記音声情報が上記閾値以上/より大の場合に、上記現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値未満/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
ことを特徴とする請求項23から請求項25のいずれかに記載の音声ミキシング装置。 - パケット分解手段が、入力された音声パケットから少なくとも音声符号および当該音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、現VADフラグという。)を取り出すパケット分解ステップと、
音声/非音声判定補正手段が、上記音声符号および上記現VADフラグを入力として補正VADフラグを出力する音声/非音声判定補正ステップと、
ミキシング手段が、複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正VADフラグを用いてミキシングし、音声パケットを出力するミキシングステップと
を有し、
上記音声/非音声判定補正ステップは、
音声情報取得手段が、上記音声符号から当該音声符号の音響特徴量(以下、音声情報という。)を取得する音声情報取得ステップと、
VADフラグ補正判定手段が、上記音声情報と閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグを補正VADフラグとして出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定ステップと、
補正判定制御手段が、入力された上記現VADフラグおよび過去に入力された各音声パケットに対応する各VADフラグ(以下、過去VADフラグという。)によって得られる非音声区間の割合が予め設定された条件(以下、所定条件という。)を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御ステップと
を含む音声ミキシング方法。 - 上記音声/非音声判定補正ステップは、
音声/非音声区間割合算出手段が、入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出ステップと、
閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
を含み、
上記所定条件を、予め定められた第一の割合以上/より大として、
上記閾値更新ステップは、
上記音声/非音声区間割合算出ステップにおいて得られた非音声区間の割合が、
上記第一の割合未満/以下であれば上記閾値を大きくするように更新し、
上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記閾値を更新せず、
上記第二の割合以上/より大であれば上記閾値を小さくするように更新する
ことを特徴とする請求項27に記載の音声ミキシング方法。 - 上記音声/非音声判定補正ステップは、
音声/非音声区間割合算出手段が、入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出ステップと、
閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
音声情報蓄積手段が、入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積する音声情報蓄積ステップと
を含み、
上記所定条件を、予め定められた第一の割合以上/より大として、
上記閾値更新ステップは、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満/以下であれば上記Nを増大して上記閾値を更新し、
上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記Nを更新せず、
上記第二の割合以上/より大であれば上記Nを減少して上記閾値を更新する
ことを特徴とする請求項27に記載の音声ミキシング方法。 - 上記VADフラグ補正判定ステップは、
上記音声情報が上記閾値以下/より小の場合に、上記現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値より大/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
ことを特徴とする請求項27から請求項29のいずれかに記載の音声ミキシング方法。 - パケット分解手段が、入力された音声パケットから少なくとも音声符号および上記音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、現VADフラグという。)を取り出すパケット分解ステップと、
音声/非音声判定補正手段が、上記音声符号および上記現VADフラグを入力として補正VADフラグを出力する音声/非音声判定補正ステップと、
ミキシング手段が、複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正VADフラグを用いてミキシングし、音声パケットを出力するミキシングステップと
を有し、
上記音声/非音声判定補正ステップは、
音声情報取得手段が、上記現音声符号から当該音声符号の音響特徴量(以下、音声情報という。)を取得する音声情報取得ステップと、
VADフラグ補正判定手段が、上記音声情報と閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグを補正VADフラグとして出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定ステップと、
補正判定制御手段が、入力された上記現VADフラグおよび過去に入力された各音声パケットに対応する各VADフラグ(以下、過去VADフラグという。)によって得られる音声区間の割合が予め設定された条件(以下、所定条件という。)を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御ステップと
を含む音声ミキシング方法。 - 上記音声/非音声判定補正ステップは、
音声/非音声区間割合算出手段が、入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出ステップと、
閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
を含み、
上記所定条件を、予め定められた第三の割合以上/より大として、
上記閾値更新ステップは、
上記音声/非音声区間割合算出ステップにおいて得られた音声区間の割合が、
上記第三の割合未満/以下であれば上記閾値を小さくするように更新し、
上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記閾値を更新せず、
上記第四の割合以上/より大であれば上記閾値を大きくするように更新する
ことを特徴とする請求項31に記載の音声ミキシング方法。 - 上記音声/非音声判定補正ステップは、
音声/非音声区間割合算出手段が、入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出ステップと、
閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
音声情報蓄積手段が、入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積する音声情報蓄積ステップと
を含み、
上記所定条件を、予め定められた第三の割合以上/より大として、
上記閾値更新ステップは、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
上記音声/非音声区間割合算出ステップにおいて得られた音声区間の割合が、
上記第三の割合未満/以下であれば上記Nを減少して上記閾値を更新し、
上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記Nを更新せず、
上記第四の割合以上/より大であれば上記Nを増大して上記閾値を更新する
ことを特徴とする請求項31に記載の音声ミキシング方法。 - 上記VADフラグ補正判定ステップは、
上記音声情報が上記閾値以上/より大の場合に、上記現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値未満/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
ことを特徴とする請求項31から請求項33のいずれかに記載の音声ミキシング方法。 - 請求項1から請求項9のいずれかに記載された音声/非音声判定補正装置としてコンピュータを機能させるための音声/非音声判定補正プログラム。
- 請求項35に記載の音声/非音声判定補正プログラムを記録した、コンピュータに読み取り可能な記録媒体。
- 請求項19から請求項26のいずれかに記載された音声ミキシング装置としてコンピュータを機能させるための音声ミキシングプログラム。
- 請求項37に記載の音声ミキシングプログラムを記録した、コンピュータに読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006322321A JP4714129B2 (ja) | 2006-11-29 | 2006-11-29 | 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006322321A JP4714129B2 (ja) | 2006-11-29 | 2006-11-29 | 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008134565A JP2008134565A (ja) | 2008-06-12 |
JP4714129B2 true JP4714129B2 (ja) | 2011-06-29 |
Family
ID=39559432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006322321A Expired - Fee Related JP4714129B2 (ja) | 2006-11-29 | 2006-11-29 | 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4714129B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5446874B2 (ja) * | 2007-11-27 | 2014-03-19 | 日本電気株式会社 | 音声検出システム、音声検出方法および音声検出プログラム |
JP2015102702A (ja) * | 2013-11-26 | 2015-06-04 | 日本電信電話株式会社 | 発話区間抽出装置とその方法とプログラム |
JP6276132B2 (ja) | 2014-07-30 | 2018-02-07 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
CN114242116A (zh) * | 2022-01-05 | 2022-03-25 | 成都锦江电子系统工程有限公司 | 一种语音的话音与非话音的综合判决方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2835483B2 (ja) * | 1993-06-23 | 1998-12-14 | 松下電器産業株式会社 | 音声判別装置と音響再生装置 |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
JP4033840B2 (ja) * | 2004-02-12 | 2008-01-16 | 日本電信電話株式会社 | 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体 |
-
2006
- 2006-11-29 JP JP2006322321A patent/JP4714129B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008134565A (ja) | 2008-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6790048B2 (ja) | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 | |
US9990938B2 (en) | Detector and method for voice activity detection | |
US20220277756A1 (en) | Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control | |
US7617109B2 (en) | Method for correcting metadata affecting the playback loudness and dynamic range of audio information | |
US9401160B2 (en) | Methods and voice activity detectors for speech encoders | |
US6389391B1 (en) | Voice coding and decoding in mobile communication equipment | |
KR20030048067A (ko) | 음성 복호기에서 프레임 오류 은폐를 위한 개선된스펙트럼 매개변수 대체 | |
JPWO2007063910A1 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
JP4714129B2 (ja) | 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 | |
JP2018084834A (ja) | 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加 | |
JP5411807B2 (ja) | チャネル統合方法、チャネル統合装置、プログラム | |
US8265941B2 (en) | Method and an apparatus for decoding an audio signal | |
WO2011044153A1 (en) | Automatic generation of metadata for audio dominance effects | |
US20200227061A1 (en) | Signal codec device and method in communication system | |
JPH10207491A (ja) | 背景音/音声分類方法、有声/無声分類方法および背景音復号方法 | |
JP5604572B2 (ja) | 複雑さ分散によるデジタル信号の転送誤り偽装 | |
JPH1022937A (ja) | 誤り補償装置および記録媒体 | |
JP4709734B2 (ja) | 話者選択装置、話者選択方法、話者選択プログラムおよびこれを記録した記録媒体 | |
JPH086596A (ja) | 音声強調装置 | |
EP2238589B1 (en) | A method and an apparatus for processing a signal | |
US20060104460A1 (en) | Adaptive time-based noise suppression | |
Rämö et al. | EVS Channel Aware Mode Robustness to Frame Erasures. | |
JPH03241400A (ja) | 音声検出器 | |
JPH0483300A (ja) | 雑音抑圧型音声検出器 | |
JPH11355145A (ja) | 音響符号器および音響復号器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110325 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |