JP4714129B2 - 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 - Google Patents

音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 Download PDF

Info

Publication number
JP4714129B2
JP4714129B2 JP2006322321A JP2006322321A JP4714129B2 JP 4714129 B2 JP4714129 B2 JP 4714129B2 JP 2006322321 A JP2006322321 A JP 2006322321A JP 2006322321 A JP2006322321 A JP 2006322321A JP 4714129 B2 JP4714129 B2 JP 4714129B2
Authority
JP
Japan
Prior art keywords
voice
ratio
vad flag
speech
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006322321A
Other languages
English (en)
Other versions
JP2008134565A (ja
Inventor
仲 大室
岳至 森
祐介 日和▲崎▼
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006322321A priority Critical patent/JP4714129B2/ja
Publication of JP2008134565A publication Critical patent/JP2008134565A/ja
Application granted granted Critical
Publication of JP4714129B2 publication Critical patent/JP4714129B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声/非音声の判定技術に関する。より詳しくは、音声/非音声の判定結果を必要に応じて補正する技術に関する。
離散化された音声信号や音楽信号などの音響信号(以下、総称して音声信号と云う。)の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音声信号処理技術の多くにおいては、種々の信号が含まれる入力信号の或る区間が、信号処理対象とする音声信号を含む信号区間(音声区間)のものであるか音声信号を含まない信号区間(非音声区間)のものであるかを判定する必要があり、この判定精度がその後の音声信号処理の効果に大きな影響を与えることがある。
この音声/非音声区間判定〔本明細書では、特に断りの無い限り、/をもって「又は」を意味する。〕では、音声特徴(信号特徴)として、従来、例えば、音声信号の周波数スペクトル、音声信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、音声信号波形の零交差数、およびそれらの時間微分などが利用されている。これらの音声特徴を用いた音声/非音声判定方法では、音声信号を例えば20ms程度のある一定時間長(フレーム)に分割(細分化)し、細分化された各フレームで上述の音声特徴を算出し、その値が予め別途定めた閾値を超える場合にはそのフレームの音声信号は音声区間のもの、そうでない場合にはそのフレームの音声信号は非音声区間のものとして判定している。
このような音声/非音声区間判定の利用例を、音声パケット通信を例にとって説明する。
ディジタル通信網であるパケット通信網を介して多地点(3地点以上を多地点と云い、以下同様とする。)を結び、音声パケット通信で多地点音声通信(例えば多地点音声会議である。)を行うことが増えている。
図1に、3つの地点A、B、Cから送られた音声パケットをミキシングサーバでミキシングして、ミキシング後の音声パケットを地点Dに送る構成例の概要を示す。地点Aの音声パケット送信部(900A)は、地点Aでの入力音声信号を音声パケットAに変換して、パケット通信網(950)経由でミキシングサーバ(970)に送り出す。同様に、地点Bの音声パケット送信部(900B)は、地点Bでの入力音声信号を音声パケットBに変換して、パケット通信網(950)経由でミキシングサーバ(970)に送り出し、地点Cの音声パケット送信部(900C)は、地点Cでの入力音声信号を音声パケットCに変換して、パケット通信網(950)経由でミキシングサーバ(970)に送り出す。ミキシングサーバ(970)は、音声パケットA、音声パケットB、音声パケットCから1地点分の音声パケットを作成の上、これをパケット通信網(950)経由で地点Dに送り出す。地点Dの音声パケット受信部(900D)は、受信した音声パケットを出力音声信号に変換する。
なお、図1では、説明を簡単にするため入力が3地点、出力が1地点の例を示しているが、入力は何地点でもよい。また、通常の多地点音声通信利用においては、入力地点と出力地点は同一であり、入力がA、B、C地点であれば、出力もA、B、Cの3地点分必要であり、地点DはA、B、Cのいずれかの例であると読み替えるとよい(以下、同様である。)。
従来、このような多地点音声通信の用途においては、音声符号化方法としてITU−T G.711が利用されることがほとんどであった。
その理由は、ミキシングサーバにおいて、各地点から送られてくる音声パケットに含まれる音声符号をいったんデコードし、PCM(Pulse Code Modulation)信号レベルでミキシング処理を行った後、再度エンコード処理を行って各地点向けの音声パケットを生成する必要があり、G.711以外の符号化方式では、ミキシングサーバに多大な負荷がかかるためである。
このような状況において本発明者らは、本発明に先立ち、音声符号化方式としてG.711よりも音質の良い広帯域音声符号化方式を用いながら、ミキシングサーバに多大な負荷のかからない多地点ミキシング方法を実現した(特許文献1参照。)。
図2に特許文献1に開示される多地点ミキシング方法の一例を示す。ただし図2では、送信側として地点A、受信側として地点Dのみを記載し、地点B、Cは省略した。地点B、Cでの処理は地点Aでの処理と同様である。
特許文献1に開示される多地点ミキシング方法では、フレーム(例えば10ms〜20ms程度である。)に区切った入力音声信号を音声波形符号化部(901)が音声符号に変換してこれを出力するとともに、音声区間検出部(902)がフレーム毎にそれが音声区間のものであるか非音声区間のものであるかを示す判定結果(以下、VADフラグと云う。)を出力し、パケット構成部(903)がVADフラグを音声符号とともに音声パケットに組み込んでこれをパケット通信網(950)へ送っている。
パケット通信網(950)を介して音声パケットを受け取ったミキシングサーバ(970)では、パケット分解部(971)が音声パケットから音声符号とVADフラグを取り出し、ミキシング部(972)がVADフラグを参照して、各地点の話者が発話中であるか、そうでないかを判断し、時々刻々、どの地点の話者が主たる発言者であるのかの自動判定処理を行ったうえで、音声符号を切り替える、すなわち主たる発言者の音声符号を他の地点に配信する処理を行っている。
特開2005−229259号公報
一般的な人間の会話では、3割〜5割程度は非音声区間が含まれている。上記特許文献1に開示される方法を適用する場合において、音声区間すなわち発話中は音声符号の切り替えを行わず、発話が終了して非音声区間になった段階で切り替えが行われるようにすると、符号切り替えに伴う通話品質・音質劣化が少なく、良好な音質での多地点音声通信を実現することが可能である。
しかしながら、入力音声信号に背景雑音が含まれている場合や、マイクロホンへの過大入力、部屋の残響がある場合などでは、送信側の音声区間検出部が音声/非音声区間判定に失敗することがある。失敗の典型的な例としては、非音声区間を誤って音声区間と判定することが多い。従って、実際の会話における発話中の音声には3割〜5割程度は非音声区間が含まれているにも係らず、ミキシングサーバ側でVADフラグを参照しても、非音声区間に判定されたフレームが全く無いか、極めて少ないと判断されることになり、音声区間と非音声区間との識別・判定の誤りを惹起せしめる場合がある。
そのような場合には、ミキシングサーバにおいて、主たる発言者の自動判定の誤り、あるいは、誤って発話中に音声符号の切り替えが発生して、ミキシング後の通話品質・音質が劣化する虞が全く無いとはいえない。
一方、上記構成において、マイクロホンへの過小入力の場合には、上述の場合とは逆に、実際の会話における発話中の音声には5割〜7割程度は音声区間が含まれているにも係らず、音声区間に判定されたフレームが全く無いか、極めて少ないと判断されることになり、音声区間と非音声区間との識別・判定の誤りを惹起せしめる虞を否定できない。
以上の虞は、上記特許文献1に述べられた音声/非音声区間判定技術以外の音声/非音声区間判定方法を用いたとしても、同様に存在する。
以上の音声パケット通信の例からもわかるように、従来の音声/非音声区間判定方法――特に、簡易な音声/非音声区間判定方法――では、入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響などが在りえる自然な環境下では音声区間と非音声区間との判別に失敗する可能性があり、爾後の音声信号処理に悪影響を及ぼす虞があった。
そこで本発明は、音声/非音声の判定結果を補正する音声/非音声判定補正装置、方法、プログラムおよびその記録媒体、さらに音声パケットについて音声/非音声の判定結果を補正した上でミキシングを行う音声ミキシング装置、方法、プログラムおよびその記録媒体を提供することを目的とする。
上記課題を解決するため、本発明は、フレーム単位の音響信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(VADフラグ)と、上記フレーム(現フレーム)の音響信号とを入力とし、現フレームに対するVADフラグ(現VADフラグ)および過去に入力された各フレームに対する各VADフラグ(過去VADフラグ)によって得られる音声区間の割合/非音声区間の割合の少なくとも一方が、予め設定された条件(所定条件)を満たしていない場合に、現フレームの音響信号の音響特徴量(音声情報)と閾値との比較した結果に基づいて、現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合に前記補正されたVADフラグを出力する〔音声/非音声判定補正手段〕。
このように、VADフラグが示す音声区間の割合/非音声区間の割合が所定条件を満たしていない場合には、音声情報と閾値との比較結果に基づいて、現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定する。これはフレームに対する事後的な音声区間/非音声区間の再判定に相当する。補正要と判定した場合に前記補正されたVADフラグを出力する。このことにより、音声区間の割合/非音声区間の割合が所定条件を満たすかあるいは所定条件を満たすように修正されるものとなる。
上記音声/非音声判定補正手段は、上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、入力された上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段とを含むものとして構成することができる。
この構成は、非音声区間の割合を指標として、現VADフラグを、当該現VADフラグが音声区間を示すものであれば、非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合に前記補正されたVADフラグを出力する。このことにより、音声区間の割合/非音声区間の割合が所定条件を満たすかあるいは所定条件を満たすように修正されるものとなる。
上記音声/非音声判定補正手段は、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(過去補正VADフラグ)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段とを含み、上記所定条件を、予め定められた第一の割合以上/より大として、上記閾値更新手段を、上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、上記第一の割合未満/以下であれば上記閾値を大きくするように更新し、上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記閾値を更新せず、上記第二の割合以上/より大であれば上記閾値を小さくするように更新するものとして構成することもできる。
この構成は、非音声区間の割合を指標とするものであって、現フレームに対応する補正VADフラグおよび過去に入力された各フレームに対応する各過去補正VADフラグによって得られる非音声区間の割合を基に閾値を更新することで、現在および過去の補正VADフラグによって示される非音声区間の割合が、第一の割合〜第二の割合の範囲に収まるようにフィードバックをかけるものである。
上記音声/非音声判定補正手段は、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(過去補正VADフラグ)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段とを含み、上記所定条件を、予め定められた第一の割合以上/より大として、上記閾値更新手段を、上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、上記第一の割合未満/以下であれば上記Nを増大して上記閾値を更新し、上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記Nを更新せず、上記第二の割合以上/より大であれば上記Nを減少して上記閾値を更新するものとして構成することもできる。
この構成は、非音声区間の割合を指標とするものであって、現フレームに対応する補正VADフラグおよび過去に入力された各フレームに対応する各過去補正VADフラグによって得られる非音声区間の割合を基に、音声情報と比較される閾値を音声情報の統計量に関連付けて更新することで、現在および過去の補正VADフラグによって示される非音声区間の割合が、第一の割合〜第二の割合の範囲に収まるようにフィードバックをかけるものである。
なお、上記VADフラグ補正判定手段は、上記音声情報が上記閾値以下/より小の場合に、上記現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値より大/以下の場合に、現VADフラグを補正VADフラグとして出力するものとして構成できる。
以上では、非音声区間の割合を指標としていたが、同様に、音声区間の割合を指標とするものとして構成できる。
この場合には、上記音声/非音声判定補正手段を、上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、入力された上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段とを含むものとして構成することができる。
あるいは、上記音声/非音声判定補正手段を、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段とを含み、上記所定条件を、予め定められた第三の割合以上/より大として、上記閾値更新手段を、上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、上記第三の割合未満/以下であれば上記閾値を小さくするように更新し、上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記閾値を更新せず、上記第四の割合以上/より大であれば上記閾値を大きくするように更新するものとして構成することができる。
あるいは、上記音声/非音声判定補正手段を、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段とを含み、上記所定条件を、予め定められた第三の割合以上/より大として、上記閾値更新手段を、上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、上記第三の割合未満/以下であれば上記Nを減少して上記閾値を更新し、上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記Nを更新せず、上記第四の割合以上/より大であれば上記Nを増大して上記閾値を更新するものとして構成することができる。
なお、上記VADフラグ補正判定手段は、上記音声情報が上記閾値以上/より大の場合に、上記現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値未満/以下の場合に、現VADフラグを補正VADフラグとして出力するものとして構成できる。
また、上記課題を解決するため、本発明は、入力された音声パケットから少なくとも音声符号および上記音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(現VADフラグ)を取り出し、音声/非音声判定補正手段が上記音声符号および上記現VADフラグを入力として補正VADフラグを出力するとして、複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正VADフラグを用いてミキシングすることで音声パケットを出力する。
ここで音声/非音声判定補正手段は、すでに述べた音声/非音声判定補正手段として構成できる。なお、既述の音声/非音声判定補正手段ではフレームの音響信号が入力となっていたが、それを音声符号に読み替えて理解すればよい。
本発明の音声/非音声判定補正装置としてコンピュータを機能させる音声/非音声判定補正プログラムによって、コンピュータを音声/非音声判定補正装置として作動処理させることができる。そして、この音声/非音声判定補正プログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音声/非音声判定補正装置として機能させることや、音声/非音声判定補正プログラムを流通させることなどが可能になる。
また、本発明の音声ミキシング装置としてコンピュータを機能させる音声ミキシングプログラムによって、コンピュータを音声ミキシング装置として作動処理させることができる。そして、この音声ミキシングプログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音声ミキシング装置として機能させることや、音声ミキシングプログラムを流通させることなどが可能になる。
本発明によれば、音声区間の割合/非音声区間の割合を監視(所定条件を満たすか否か)して、監視の結果に基づき、音声信号(音声符号)に対する事後的な音声区間/非音声区間の再判定を行うことで、音声/非音声の判定結果を補正することができる。このため、例えば入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響などが在りえる自然な環境下で収音したことによって、音声区間と非音声区間との判別に失敗したとしても、音声区間と非音声区間との別を自然な存在比率で識別・判定することが可能となる。
また、このような音声/非音声の判定結果を補正することを音声ミキシング装置に適用することで、音声パケットについて音声/非音声の判定結果を補正した上でミキシングを行うことができる。このため、音声パケットの送信側で音声/非音声の判定に失敗しても、音声ミキシング装置においてVADフラグが補正されることから、主たる発話者の判定誤りや音声符号の切り替え誤りが低減された、良好な通話品質・音質での多地点通信を実現することが可能となる。
<第1実施形態>
本発明である音声/非音声判定補正装置・方法の第1実施形態を説明する。
本発明の第1実施形態である音声/非音声判定補正装置(1)は、それ単体で独立に存在するよりは、音声/非音声の判定結果を用いて音声信号処理を行う装置(音声信号処理装置)を構成するエンティティとして存在するのが一般的である。さらに云えば、音声/非音声判定補正装置(1)は、音声信号処理装置とは容易に分離可能に音声信号処理装置を構成するエンティティではなく、音声信号処理装置自体を或る機能に着眼して片面的に評価したものと云うこともできる。要するに、音声/非音声判定補正装置(1)は、音声信号処理装置そのものであることが一般的である。具体的には、音声/非音声判定補正装置(1)の機能をデジタルシグナルプロセッサや専用LSIに実装して、音声/非音声判定補正装置(1)を実現することができる。
ただし、単体独立のエンティティとして存在すること、音声信号処理装置とは容易に分離可能に音声信号処理装置を構成するエンティティであることを排除する趣旨ではない。例えば音声/非音声の判定結果の補正自体を目的とするならば、音声/非音声判定補正装置(1)を単体独立のエンティティとして実現することに何らの妨げは無い。
ここで音声信号処理装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、単体独立のエンティティとして音声/非音声判定補正装置(1)を実現する場合も同様である。
音声/非音声判定補正装置(1)を単体単独のエンティティとして、これをコンピュータ(汎用機)で実現する場合のハードウェア構成例を説明する。
図3に例示するように、音声/非音声判定補正装置(1)は、キーボード、ポインティングデバイスなどが接続可能な入力部(11)、液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどが接続可能な出力部(12)、音声/非音声判定補正装置(1)外部に通信可能な通信装置(例えば通信ケーブル、LANカード、ルータ、モデムなど)が接続可能な通信部(13)、DSP(Digital Signal Processor)(14)〔CPU(Central Processing Unit)でも良い。またキャッシュメモリやレジスタ(19)などを備えていてもよい。〕、メモリであるRAM(15)、ROM(16)やハードディスク、光ディスク、半導体メモリなどである外部記憶装置(17)並びにこれらの入力部(11)、出力部(12)、通信部(13)、DSP(14)、RAM(15)、ROM(16)、外部記憶装置(17)間のデータのやり取りが可能なように接続するバス(18)を有している。また必要に応じて、音声/非音声判定補正装置(1)に、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)などの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
第1実施形態では、予めマイクロホン(図示しない。)によって得られた収音信号を離散信号化して、この離散信号(音声信号)に対して窓関数(例えば、矩形窓、ハミング窓、ガウス窓)を適用する処理を行って得られた複数のフレームの音声信号を外部記憶装置に保存記憶しておくとする。
また、従来的な音声/非音声区間判定方法を用いて、音声信号が細分化された各フレームの音声信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示すVADフラグを出力しておく。これらVADフラグは、各フレームに対応付けられて外部記憶装置に保存記憶されているとする。
なお、第1実施形態では、フレームを用いる形態として説明するが、フレームの音声信号に限定する趣旨ではない。例えばフレームの音声信号に対して符号化が施された音声符号を用いることもできる。この音声符号には、フレームの音声信号の音響特徴量(例えばパワーなどである。)が符号化されたものが付加されていてもよい。この場合の実施形態は、第5実施形態および第6実施形態として説明を加える。
音声/非音声判定補正装置(1)の外部記憶装置(17)には、音声/非音声判定補正のためのプログラムおよびこのプログラムの処理において必要となるデータ(フレーム単位の音声信号、フレームに対応付けられたVADフラグ)などが保存記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに保存記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に保存記憶される。
より具体的には、音声/非音声判定補正装置(1)の外部記憶装置(17)〔あるいはROMなど〕には、音声信号の音声情報を取得するためのプログラム、現在までの所定時間におけるVADフラグが示す音声区間および非音声区間の割合を求めて補正のための判定処理を行うか否かを決定するためのプログラム、音声情報と閾値との比較によってVADフラグの補正の要否を判定して補正要の場合にVADフラグを補正するためのプログラム、現在までの所定時間における補正VADフラグが示す音声区間および非音声区間の割合を求めるためのプログラム、閾値を動的に更新するためのプログラム、およびこれらのプログラムの処理において必要となるデータ(フレーム単位の音声信号、フレームに対応付けられたVADフラグなど)が保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。
第1実施形態に係る音声/非音声判定補正装置(1)では、外部記憶装置(17)〔あるいはROMなど〕に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、DSP(14)で解釈実行・処理される。その結果、DSP(14)が所定の機能(音声情報取得部、補正判定制御部、VADフラグ補正判定部、音声/非音声区間割合算出部、閾値更新部)を実現することで、音声/非音声の判定結果の補正が実現される。
そこで次に、図4および図5を参照して、音声/非音声判定補正装置(1)における音声/非音声判定補正処理の流れを順次説明する。以下では、或る1つのフレーム(現フレーム)に対して音声/非音声判定補正処理がなされる場合で説明するが、音声/非音声判定補正処理はフレーム毎に順次に行われることに留意しなければならない。
第1実施形態は、前述のように、入力音声信号に背景雑音が含まれている場合やマイクロホンへの過大入力、あるいは部屋の残響などが在りえる自然な環境下では、非音声区間を音声区間に誤ることが多い。本実施形態は、非音声区間を音声区間に誤ったVADフラグを補正するため場合の形態である。
(ステップS1)
音声情報取得部(140)は、現フレームの音声信号から音声信号の音響特徴量である音声情報を取得する。音声情報としては、例えば現フレームの音声信号のパワーやピッチの相関値とすることができる。音声情報の取得方法として、フレーム内の音声波形の二乗和を計算することによってパワーを求めてもよいし、フレーム内の音声波形のピッチの相関値を求めてもよい。音声情報取得部(140)が出力した音声情報は、VADフラグ補正判定部(120)の入力となる。
(ステップS2)
補正判定制御部(110)は、現フレーム(例えば20msとする。)に対応付けられたVADフラグ(現VADフラグ)および過去一定時間(例えば1980msとする。)分の各フレームに対応付けられた各VADフラグを用いて、現在および現在までの過去一定時間における各VADフラグが示す音声区間の割合および/または非音声区間の割合を計算し、補正のための判定処理を行うか否かを決定する。
なお、VADフラグが音声区間と非音声区間の2種類しか示さない場合には、音声区間の割合と非音声区間の割合の合計は100%であり、音声区間の割合が決まれば非音声区間の割合が一意に決まるため、以下、非音声区間の割合を判断基準として説明するが、音声区間の割合を判断基準としても同義である。
上記の例であれば、現在および現在までの過去一定時間における各VADフラグが、1600ms分のフレームに対応する80個の音声区間を示すVADフラグおよび400ms分のフレームに対応する20個の非音声区間を示すVADフラグであれば、補正判定制御部(110)は、音声区間が80%、非音声区間が20%と計算する。
そして、補正判定制御部(110)は、非音声区間の割合が予め決められた第一の割合(例えば10%とする。)以上である場合は、補正のための判定処理を行わないと決定し、非音声区間の割合が予め決められた第一の割合に達していない場合には、補正のための判定処理を行うと決定する。
具体的には、非音声区間の割合が第一の割合以上である場合は、補正判定制御部(110)は補正のための判定処理を行わないと決定し(図4のB側)、入力された現フレームに対応付けられたVADフラグは、補正されずにそのまま音声/非音声判定補正装置(1)の出力となる。なお、ここでは、補正されずに出力されたVADフラグも、補正のための判定処理を行うか否かの判定を受けたという点で、補正VADフラグと呼ぶことにする。補正VADフラグは、音声/非音声区間割合算出部(160)の入力になる。
非音声区間の割合が第一の割合に達していない場合には、補正判定制御部(110)は、入力された現フレームに対応付けられたVADフラグをVADフラグ補正判定部(120)に送る(図4のA側)。
(ステップS3)
VADフラグ補正判定部(120)は、音声情報取得部(140)から送られた音声情報と、後述する閾値更新部(150)から送られた閾値とを比較し、音声情報が閾値よりも低い場合(あるいは音声情報が閾値以下の場合)には、現VADフラグが音声区間を示すものであればこれを非音声区間を示す補正VADフラグに変更して出力し、音声情報が閾値よりも低くない場合(あるいは音声情報が閾値より大の場合)には、現VADフラグをそのまま補正VADフラグとして出力する。VADフラグの値として、非音声区間は0、音声区間は1が割り当てられている場合、例えば現VADフラグの値が1で音声区間を表していたとき、音声情報が閾値よりも低い場合には、現VADフラグの値を0に補正してこれを補正VADフラグとする。同様に、現VADフラグの値が1で音声区間を表していたとき、音声情報が閾値よりも低くない場合には、値1の現VADフラグをそのまま補正VADフラグとして出力する。
この補正VADフラグは、音声/非音声判定補正装置(1)の出力となるとともに、音声/非音声区間割合算出部(160)の入力になる。
(ステップS4)
音声/非音声区間割合算出部(160)は、補正判定制御部(110)と同様の方法で、補正VADフラグが示す音声区間の割合および/または非音声区間の割合を計算する。
音声/非音声区間割合算出部(160)から出力される非音声区間の割合は、閾値更新部(150)の入力となる。
(ステップS5)
閾値更新部(150)は、VADフラグ補正判定部(120)で用いられる閾値を動的に変更する。閾値の初期値は予め決められた値(例えば十分に小さい値とする。)がセットされ、以後は、音声/非音声区間割合算出部(160)から出力される非音声区間の割合が、第一の割合未満であれば閾値を上げ、予め決められた第一の割合以上であって、第一の割合よりも高い予め決められた第二の割合(例えば20%とする。)未満であれば閾値は変更せず、第二の割合以上であれば閾値を下げるように更新する。
この実施形態によれば、各VADフラグが示す非音声区間の割合が予め決められた第一の割合よりも少ない場合には、各補正VADフラグが示す非音声区間の割合が、第一の割合以上第二の割合未満になるようにフィードバックがかかるように制御される。つまり、各補正VADフラグが示す非音声区間の割合を算出して、この割合に基づいてVADフラグ補正判定部(120)が用いる閾値を調整することで、各補正VADフラグが示す非音声区間の割合が、第一の割合以上第二の割合未満になるように調整される。
このため、従来の音声/非音声区間判定方法、特に簡易な音声/非音声区間判定方法で得られたVADフラグが、入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響で、音声区間と非音声区間との判別に失敗して、音声区間を示すものに偏っていて不自然な場合に、より自然な音声区間と非音声区間の存在比率に補正することができる。
なお、第一の割合および第二の割合は、各補正VADフラグが示す音声区間と非音声区間の存在比率が、自然な会話における音声区間と非音声区間の存在比率に収まるように適宜に設定される設計事項である。例えば、一般的な人間の会話では、3割〜5割程度は非音声区間が含まれていることに留意して、第一の割合および第二の割合を設定する。
この実施形態では、各補正VADフラグの示す非音声区間の割合をn、第一の割合をT、第二の割合をTとすれば、T≦n<Tになるように調整したが、T<n<TあるいはT<n≦TあるいはT≦n≦Tのように調整することでもよい。
閾値更新部(150)および音声/非音声区間割合算出部(160)は、必ずしも本発明の必須の構成要素ではなく、閾値を予め設定された初期値に固定したままとしてもよい。この場合の初期値は、ある程度高い値に設定しておく。VADフラグ補正判定部(120)は、固定値である閾値を用いて上記処理を行うことになる。
<第2実施形態>
次に、図6および図7を参照して、本発明の第2実施形態を説明する。第2実施形態は、第1実施形態の変形例であるので、第1実施形態と異なる部分について説明を加える。
第2実施形態では、音声情報蓄積部(180)が追加される。ステップS1の処理で音声情報取得部(140)から出力された音声情報は、VADフラグ補正判定部(120)に送られるとともに、音声情報蓄積部(180)に送られる(ステップS1a)。音声情報蓄積部(180)は、音声情報を予め決められた一定時間(フレーム)分蓄える機能であり、RAM(15)やレジスタ(19)などで実現可能だが、例えばシフトバッファとしてもよい。閾値更新部(150)は、上記ステップS5の処理に替え、音声情報蓄積部(180)に蓄えられた一定時間分の音声情報の統計量と、音声/非音声区間割合算出部(160)から出力された音声/非音声区間の割合のうち非音声区間の割合とに基づいて、閾値を更新する(ステップS5a)。
(ステップS5a)
閾値更新部(150)の具体的な処理は、まず音声情報蓄積部(180)に蓄積された一定時間(フレーム)分の音声情報の時系列から、音声情報の統計量を求める。音声情報の統計量は、音声情報(ピッチの相関値やパワーなどの値)の時系列のうち最小値とするのが簡易であるが、音声情報の小さい方から複数個または一定割合の値を選択してそれらの値の平均としてもよい。または、音声情報が一定の値より小さいフレームは除外し、音声情報が前記一定の値以上のフレームの中で、上記のように、最小値を統計量としあるいは音声情報の小さい方から複数個または一定割合の値を選択してそれらの平均を統計量としてもよい。
VADフラグ補正判定部(120)に送る閾値は、音声情報の統計量のN倍という形式とする。Nの初期値は1または2の如く小さい値とし、音声/非音声区間割合算出部(160)から出力された非音声区間の割合が、第一の割合未満であればNの値を増加し、第一の割合以上第二の割合未満であればNの値は変更せず、第二の割合以上であればNの値を減少するように更新する。Nの値を増加するときは、それまでのNの値を2倍し、Nの値を減少する場合には、それまでのNの値を1/2倍する方法が簡便である。勿論、3倍(増加)ないし1/3倍(減少)でもよいし、整数倍とするのではなく、例えば3/2倍(増加)ないし2/3倍(減少)とすることでも構わないし、更に云えば、減少のときの倍数値を増加のときの倍数値の逆数とするのではなく、例えば、2倍(増加)ないし1/3倍(減少)とすることでもよい。なお、閾値が音声情報の統計量のN倍という形式であるから、不相当な閾値とならないよう、Nの値には上限値および下限値を設け、その範囲を超えてNが増加または減少しないようにするとよい。
<第3実施形態>
次に、図8を参照して、本発明の第3実施形態を説明する。第3実施形態は、第1実施形態の変形例であるので、第1実施形態と異なる部分について説明を加える。第3実施形態における音声/非音声判定補正装置の機能構成は、第1の実施形態に拠るものとして、説明を略する(図4参照)。
前述のように、入力音声信号に背景雑音が含まれている場合やマイクロホンへの過大入力、あるいは部屋の残響などが在りえる自然な環境下では、非音声区間を音声区間に誤ることが多いが、マイクロホンへの過小入力などの場合には、逆に音声区間を非音声区間に誤ることも多い。第3実施形態は、音声区間を非音声区間に誤ったVADフラグを補正するためのもので、第1実施形態を一部変更した形態になっている。
(ステップS2b)
補正判定制御部(110)は、上記ステップS2の処理に替え、現フレーム(例えば20msとする。)に対応付けられたVADフラグ(現VADフラグ)および過去一定時間(例えば1980msとする。)分の各フレームに対応付けられた各VADフラグを用いて、現在および現在までの過去一定時間における各VADフラグが示す音声区間の割合および/または非音声区間の割合を計算し、補正のための判定処理を行うか否かを決定する。
なお、VADフラグが音声区間と非音声区間の2種類しか示さない場合には、音声区間の割合と非音声区間の割合の合計は100%であり、音声区間の割合が決まれば非音声区間の割合が一意に決まるため、以下、音声区間の割合を判断基準として説明するが、非音声区間の割合を判断基準としても同義である
上記の例であれば、現在および現在までの過去一定時間における各VADフラグが、1200ms分のフレームに対応する60個の音声区間を示すVADフラグおよび800ms分のフレームに対応する40個の非音声区間を示すVADフラグであれば、補正判定制御部(110)は、音声区間が60%、非音声区間が40%と計算する。
そして、補正判定制御部(110)は、音声区間の割合が予め決められた第三の割合(例えば50%とする。)以上である場合は、補正のための判定処理を行わないと決定し、音声区間の割合が予め決められた第三の割合に達していない場合には、補正のための判定処理を行うと決定する。
具体的には、音声区間の割合が第三の割合以上である場合は、補正判定制御部(110)は補正のための判定処理を行わないと決定し(図4のB側)、入力された現フレームに対応付けられたVADフラグは、補正されずにそのまま音声/非音声判定補正装置(1)の出力となる。この補正VADフラグは、音声/非音声区間割合算出部(160)の入力になる。
音声区間の割合が第三の割合に達していない場合には、補正判定制御部(110)は、入力された現フレームに対応付けられたVADフラグをVADフラグ補正判定部(120)に送る(図4のA側)。
(ステップS3b)
VADフラグ補正判定部(120)は、上記ステップS3の処理に替え、音声情報取得部(140)から送られた音声情報と、後述する閾値更新部(150)から送られた閾値とを比較し、音声情報が閾値よりも大きい場合(あるいは音声情報が閾値以上の場合)には、現VADフラグが非音声区間を示すものであればこれを音声区間を示す補正VADフラグに変更して出力し、音声情報が閾値よりも大きくない場合(あるいは音声情報が閾値未満の場合)には、現VADフラグをそのまま補正VADフラグとして出力する。この補正VADフラグは、音声/非音声判定補正装置(1)の出力となるとともに、音声/非音声区間割合算出部(160)の入力になる。
(ステップS4b)
音声/非音声区間割合算出部(160)は、上記ステップS4の処理に替え、補正判定制御部(110)と同様の方法で、補正VADフラグが示す音声区間の割合および/または非音声区間の割合を計算する。
音声/非音声区間割合算出部(160)から出力される音声区間の割合は、閾値更新部(150)の入力となる。
(ステップS5b)
閾値更新部(150)は、上記ステップS5の処理に替え、VADフラグ補正判定部(120)で用いられる閾値を動的に変更する。閾値の初期値は予め決められた値(例えば十分に大きい値とする。)がセットされ、以後は、音声/非音声区間割合算出部(160)から出力される音声区間の割合が、第三の割合未満であれば閾値を下げ、予め決められた第三の割合以上であって、第三の割合よりも高い予め決められた第四の割合(例えば90%とする。)未満であれば閾値は変更せず、第四の割合以上であれば閾値を上げるように更新する。
この実施形態によれば、各VADフラグが示す音声区間の割合が予め決められた第三の割合よりも少ない場合には、各補正VADフラグの示す音声区間の割合が、第三の割合以上第四の割合未満になるようにフィードバックがかかるように制御される。つまり、各補正VADフラグが示す音声区間の割合を算出して、この割合に基づいてVADフラグ補正判定部(120)が用いる閾値を調整することで、各補正VADフラグが示す音声区間の割合が、第三の割合以上第四の割合未満になるように調整される。
このため、従来の音声/非音声区間判定方法、特に簡易な音声/非音声区間判定方法で得られたVADフラグが、入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響で、音声区間と非音声区間との判別に失敗して、非音声区間を示すものに偏っていて不自然な場合に、より自然な音声区間と非音声区間の存在比率に補正することができる。
なお、第三の割合および第四の割合は、各補正VADフラグが示す音声区間と非音声区間の存在比率が、自然な会話における音声区間と非音声区間の存在比率に収まるように適宜に設定される設計事項である。例えば、一般的な人間の会話では、5割〜7割程度は音声区間が含まれていることに留意して、第三の割合および第四の割合を設定する。
この実施形態では、各補正VADフラグが示す音声区間の割合をm、第三の割合をT、第四の割合をTとすれば、T≦m<Tになるように調整したが、T<m<TあるいはT<m≦TあるいはT≦m≦Tのように調整することでもよい。
また、第1実施形態と同様、閾値更新部(150)および音声/非音声区間割合算出部(160)は、必ずしも必須の構成要素ではなく、閾値は予め設定された初期値に固定したままとしてもよい。この場合の初期値は、ある程度低い値に設定しておく。VADフラグ補正判定部(120)は、固定値である閾値を用いて上記処理を行うことになる。
<第4実施形態>
次に、図9を参照して、本発明の第4実施形態を説明する。第4実施形態は、第3実施形態の変形例であるから、第3実施形態と異なる部分について説明を加える。第4実施形態における音声/非音声判定補正装置の機能構成は、第2の実施形態に拠るものとして、説明を略する(図6参照)。
第4実施形態では、第2実施形態と同様、第3実施形態の構成に音声情報蓄積部(180)が追加される。閾値更新部(150)は、上記ステップS1aの処理で音声情報蓄積部(180)に蓄えられた一定時間分の音声情報の時系列と、音声/非音声区間割合算出部(160)から出力された音声/非音声区間の割合のうち音声区間の割合とに基づいて、閾値を更新する(ステップS5c)。
(ステップS5c)
音声情報の統計量については、既述の統計量と同様であるから説明を略する。
VADフラグ補正判定部(120)に送る閾値は、音声情報の統計量のN倍という形式とする。Nの初期値は8または10の如く大きい値とし、音声/非音声区間割合算出部(160)から出力された音声区間の割合が、第三の割合未満であればNの値を減少し、第三の割合以上第四の割合未満であればNの値は変更せず、第四の割合以上であればNの値を増加するように更新する。Nの値を増加するときは、それまでのNの値を2倍し、Nの値を減少する場合には、それまでのNの値を1/2倍する方法が簡便である。勿論、3倍(増加)ないし1/3倍(減少)でもよいし、整数倍とするのではなく、例えば3/2倍(増加)ないし2/3倍(減少)とすることでも構わないし、更に云えば、減少のときの倍数値を増加のときの倍数値の逆数とするのではなく、例えば、2倍(増加)ないし1/3倍(減少)とすることでもよい。なお、Nの値には上限値および下限値を設け、その範囲を超えて増加または減少しないようにする。
<第5実施形態>
次に、図10〜図12を参照して、本発明の第5実施形態を説明する。第5実施形態は、第1実施形態を音声パケット通信に適用した実施形態である。詳しくは、上記特許文献1に開示される多地点ミキシング方法において音声ミキシング装置に第1実施形態を適用した実施形態である。音声ミキシング装置のハードウェア構成例は音声/非音声判定補正装置のハードウェア構成例と同様であり、重複説明をしない(図3参照。)。また、音声ミキシング装置のパケット分解部およびミキシング部について、いずれもDSP(14)がその機能を実現するとする。なお、本形態では、音声ミキシング装置としてミキシングサーバを例にとる。
第5実施形態において、音声/非音声の判定結果の補正処理は、ミキシングサーバ(570)において行われる。このとき、第1実施形態の音声/非音声判定補正装置(1)は、音声/非音声の判定結果を用いて音声信号処理を行う音声信号処理装置、つまりミキシングサーバ(570)を構成するエンティティとして存在するのが一般的であるので、第5実施形態では、第1実施形態の音声/非音声判定補正装置(1)と同等の機能構成を、ミキシングサーバ(570)を構成する音声/非音声判定補正部(100)によって実現するとして説明する。つまり、音声/非音声判定補正部(100)の機能をデジタルシグナルプロセッサが実現する場合や専用LSIに実装して実現する例で考えればよい。
上記特許文献1に開示される多地点ミキシング方法では、既述のとおり、各地点の音声パケット送信部において、フレーム(例えば10ms〜20ms程度である。)に区切った入力音声信号を音声波形符号化部(901)が音声符号に変換してこれを出力するとともに、音声区間検出部(902)がフレーム毎に音声区間であるか非音声区間であるかのVADフラグを出力し、パケット構成部(903)がVADフラグを音声符号とともに音声パケットに組み込んでこれをパケット通信網(950)へ送っている。
音声パケットを受け取ったミキシングサーバ(570)では、パケット通信網(950)経由で各地点の音声パケット送信部から送られた音声パケットを受信すると、パケット分解部(571)が各地点の音声パケットを分解して情報を取り出す。即ち、パケット分解部(571)は、音声パケットを、音声波形の情報を含む音声符号と、当該パケットに対応するフレーム、つまり現フレームの音声信号が音声区間のものであるか非音声区間のものであるかを示すVADフラグとに分解してこれらを取り出す(ステップS60)。パケット分解部(571)で取り出された音声符号は音声情報取得部(140)およびミキシング部(572)の入力となり、パケット分解部(571)で取り出されたVADフラグは補正判定制御部(110)の入力となる。音声/非音声判定補正部(100)における機能構成および処理内容は第1実施形態と同様であり、音声/非音声判定補正部(100)は補正VADフラグを出力する。補正VADフラグはミキシング部(572)の入力となる。上記特許文献1に開示されるような従来的な多地点ミキシング方法では、パケット分解部で取り出されたVADフラグがミキシング部(572)の入力となっていたが、第5実施形態では、音声/非音声判定補正部(100)が出力した補正VADフラグがミキシング部(572)の入力となっている点で異なる。
なお、図10に示すように、各地点から送られた音声パケットに含まれるVADフラグの補正は、各地点における音声パケットごとに行われる。図11は、或る1地点の音声パケットに対するVADフラグの補正を行うミキシングサーバ内の機能構成を示したものである。
なお、第5実施形態では、音声情報取得部(140)は、音声符号から音声情報を取得する。音声情報としては、第1実施形態と同様、例えば音声符号の音声のパワーやピッチの相関値とすることができる。音声情報の取得方法は、例えばパワーを音声情報とする場合に、音声符号にパワーを示す符号が含まれている場合はそれを参照してもよいし、パワーを示す符号が含まれていない場合は音声符号を一旦デコードし、フレーム内の音声波形の二乗和を計算することによってパワーを求めてもよい。
ミキシング部(572)は、補正VADフラグを参照して、各地点の話者が発話中であるか、そうでないかを判断し、時々刻々、どの地点の話者が主たる発言者であるのかの自動判定処理を行ったうえで、音声符号を切り替える、すなわち主たる発言者の音声符号を他の地点に配信する処理を行う(ステップS61)。
図23に、上記特許文献1に開示されるミキシングサーバを例にして第1実施形態を適用した機能構成例の詳細を示す。なお、図23では、説明を簡単にするため入力が3地点、出力が1地点の例を示しているが、入力は何地点でもよい。また、通常の多地点音声通信利用においては、入力地点と出力地点は同一であり、入力がA、B、C地点であれば、出力もA、B、Cの3地点分必要であり、地点DはA、B、Cのいずれかの例であると読み替えるとよい。
音声パケットを受け取ったミキシングサーバ(570)では、パケット分解部(571)で音声パケットから音声符号およびVADフラグを取り出す。音声符号は更に音声符号分解部(573)で、低域符号と高域符号に分解され、低域符号は低域ミキシング部(575)に、高域符号は高域切換部(576)に送られる。ここで、高域符号は拡張レイヤ符号のひとつであり、高域符号は任意の拡張レイヤ符号に読み替えてもよいものとする。(以下同じ。)
低域ミキシング部(575)は、各地点からの低域符号を受け取ってデコードし、出力する地点毎にミキシング音声を生成して低域符号に変換し、この低域符号を音声符号結合部(576)に送る。
話者選択部(574)は、各地点からのVADフラグと、各音声符号に含まれる音声情報(例えばパワーであるとし、これを示す符号が音声符号に含まれているとする。)を参照して、時々刻々、どの地点が主たる発言者であるのかの自動判定処理を行ったうえで、第一話者を示すインデックス(第一話者番号)と第二話者を示すインデックス(第二話者番号)を出力する。第一話者とは、全地点の中で主として発言している地点の話者であり、第二話者とは、第一話者地点を除いた地点の中で主として発言している地点の話者である。なお、話者選択部(574)の話者選択方法は、例えば、パワーが十分に大きく且つ補正VADフラグによって音声区間と判別された地点の高域符号(拡張レイヤ情報)を選択するようにすればよい。
ここでは、音声符号にパワーを示す符号が含まれているとして、それを話者選択部(574)が取得する構成としたが、例えば、パケット分解部(571)が音声情報を音声符号から取り出して、この音声情報が話者選択部(574)の入力となる構成としてもよいし、音声/非音声判定補正部(100)の音声情報取得部(140)が取り出した音声情報を話者選択部(574)の入力となる構成としてもよい。
高域切換部(576)は、各地点からの高域符号を受け取り、話者選択部(574)が出力した第一話者番号および第二話者番号を用いて、音声パケットを出力する地点毎に高域符号を1地点分選択し、音声符号結合部(576)に送る。
音声符号結合部(576)は、低域符号と高域符号とを結合して、結合した音声符号をパケット構成部(577)に送る。パケット構成部(577)は、入力された音声符号を用いて音声パケットを作成し、これを出力する。
第5実施形態では、第1実施形態を音声ミキシング装置に適用した実施形態を説明したが、第2、第3、第4の各実施形態も同様に音声ミキシング装置に適用できる。パケット分解部(571)で取り出された音声符号は音声情報取得部(140)およびミキシング部(572)の入力となり、パケット分解部(571)で取り出されたVADフラグは補正判定制御部(110)の入力となることに変わりないので、図13〜図16に示して説明を略する。図13は、ミキシングサーバに第2実施形態を適用した場合のミキシングサーバ内の機能構成例を示す図、図14は、ミキシングサーバに第2実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、図15は、ミキシングサーバに第3実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、図16は、ミキシングサーバに第4実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、である。同一符号が当てられた機能・処理は既述のとおりである。
各地点における音声パケット送信部では、入力音声信号に背景雑音が含まれている場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響などが在りえる自然な環境下で、音声区間と非音声区間との判別に失敗したとしても、符号化に要するビットレートが増加する等の問題は生じる場合があるものの、致命的な問題は生じない。しかし、音声ミキシング装置におけるミキシングにおいては、音声区間であるか非音声区間であるかの情報に基づいてチャネルを選択する処理を用いてミキシングを行うため、例えば非音声区間が音声区間として判定されている場合はチャネルを選択する処理が正しく行われなくなり、ミキシング後の通話品質・音質が劣化するという虞があった。
しかし、上記第5実施形態の如く、音声ミキシング装置で音声/非音声の判定結果の補正処理を行う構成に拠れば、単にVADフラグが補正されるという効果のみならず、音声パケットの送信側における音声区間検出部を変更する手間をかけることなく、ミキシング後の通話品質・音質を劣化させないという効果を有することになる。
<第6実施形態>
次に、図17および図18を参照して、本発明の第6実施形態を説明する。第6実施形態は、第1実施形態を音声パケット通信に適用した実施形態である。詳しくは、上記特許文献1に開示される多地点ミキシング方法において音声パケット生成装置に第1実施形態を適用した実施形態である。音声パケット生成装置のハードウェア構成例は音声/非音声判定補正装置のハードウェア構成例と同様であり、重複説明をしない(図3参照。)。また、音声パケット生成装置のパケット構成部、音声波形符号化部および音声区間検出部については、いずれもDSP(14)がその機能を実現するとする。なお、本形態では、音声パケット生成装置を音声パケット送信部として説明する。
第6実施形態において、音声/非音声の判定結果の補正処理は、音声パケット送信部(500)において行われる。このとき、第1実施形態の音声/非音声判定補正装置(1)は、音声/非音声の判定結果を用いて音声信号処理を行う音声信号処理装置、つまり音声パケット送信部(500)を構成するエンティティとして存在するのが一般的であるので、第5実施形態では、第1実施形態の音声/非音声判定補正装置(1)と同等の機能構成を、音声パケット送信部(500)を構成する音声/非音声判定補正部(200)によって実現するとして説明する。つまり、音声/非音声判定補正部(200)の機能をデジタルシグナルプロセッサが実現する場合や専用LSIに実装して実現する例で考えればよい。
特許文献1に開示される多地点ミキシング方法では、フレーム(例えば10ms〜20ms程度である。)に区切った入力音声信号を音声波形符号化部(501)が音声符号に変換してこれを出力する(ステップS70)。出力された音声符号は、パケット構成部(503)および音声/非音声判定補正部(200)の音声情報取得部(140)の入力となる。また、音声区間検出部(502)がフレーム毎に音声区間であるか非音声区間であるかのVADフラグを出力する(ステップS71)。音声区間検出部(502)の音声/非音声区間判定方法は従来的なものであり格別の限定は無い。ただ、従来的な音声/非音声区間判定方法が、簡易迅速な音声/非音声区間判定を行うものであるならば、本発明である音声/非音声の判定結果の補正処理は有利な効果をもたらす。このVADフラグは音声/非音声判定補正部(200)の補正判定制御部(110)の入力となる。音声/非音声判定補正部(200)における機能構成および処理内容は第1実施形態と同様であり、音声/非音声判定補正部(200)は補正VADフラグを出力する。補正VADフラグはパケット構成部(503)の入力となる。パケット構成部(503)は補正VADフラグを音声符号とともに音声パケットに組み込んでこれをパケット通信網(950)へ送る(ステップS72)。上記特許文献1に開示される多地点ミキシング方法では、音声区間検出部が出力したVADフラグがパケット構成部(503)の入力となっていたが、第6実施形態では、音声/非音声判定補正部(200)が出力した補正VADフラグがパケット構成部(503)の入力となっている点で異なる。
なお、第6実施形態は各地点の音声パケット送信部に適用可能であり、図17は、入力音声信号に対するVADフラグの補正を行う、或る1地点の音声パケット送信部の機能構成例を示したものである。
第6実施形態では、音声情報取得部(140)は、音声符号から音声情報を取得する。音声情報としては、第1実施形態と同様、例えば音声符号の音声のパワーやピッチの相関値とすることができる。音声情報の取得方法は、第5実施形態で説明したのと同様の方法に拠ることができる。
なお、第6実施形態では、音声情報取得部(140)が、音声符号から音声情報を取得することに限定されない。この場合、音声情報の取得方法を、入力音声信号から直接に音声情報を得るものとすることができ、例えばパワーを音声情報とする場合では、入力音声信号の音声波形の二乗和を計算することによってパワーを求めることができる。
第6実施形態では、第1実施形態を音声パケット生成装置に適用した実施形態を説明したが、第2、第3、第4の各実施形態も同様に音声パケット生成装置に適用できる。音声波形符号化部(501)が出力した音声符号は音声情報取得部(140)およびパケット構成部(503)の入力となり、音声区間検出部(502)が出力したVADフラグは補正判定制御部(110)の入力となることに変わりないので、図19〜図22に示して説明を略する。図19は、音声パケット送信部に第2実施形態を適用した場合のミキシングサーバ内の機能構成例を示す図、図20は、音声パケット送信部に第2実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、図21は、音声パケット送信部に第3実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、図22は、音声パケット送信部に第4実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、である。同一符号が当てられた機能・処理は既述のとおりである。
以上の実施形態の他、本発明である音声/非音声判定補正装置・方法並びに音声ミキシング装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記音声/非音声判定補正装置・方法並びに音声ミキシング装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記音声/非音声判定補正装置並びに音声ミキシング装置における処理機能をコンピュータによって実現する場合、音声/非音声判定補正装置並びに音声ミキシング装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声/非音声判定補正装置並びに音声ミキシング装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、音声/非音声判定補正装置並びに音声ミキシング装置を構成するとしてもよいが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、音声/非音声の判定結果(VADフラグ)を補正することに特徴があるところ、例えば、VADフラグに基づいて話者の切り替えを行う、音声パケット通信による多地点音声通信に有用である。また、音声パケット通信による多地点音声通信に利用する場合には、音声ミキシング装置側のみに本発明を適用することだけで、低コストで品質の高い多地点音声通信を実現できる。
多地点音声通信のシステム構成例を示す図。 多地点音声通信システムの機能構成例を示す図。 第1実施形態における音声/非音声判定補正装置のハードウェア構成例を示す図。 第1実施形態における音声/非音声判定補正装置の機能構成例を示す図。 第1実施形態における音声/非音声判定補正処理の流れを示す図。 第2実施形態における音声/非音声判定補正装置の機能構成例を示す図。 第2実施形態における音声/非音声判定補正処理の流れを示す図。 第3実施形態における音声/非音声判定補正処理の流れを示す図。 第4実施形態における音声/非音声判定補正処理の流れを示す図。 第1実施形態を適用した音声パケット通信システムの機能構成例を示す図(第5実施形態)。 第1実施形態を適用したミキシングサーバの機能構成例を示す図(第5実施形態)。 第1実施形態を適用したミキシングサーバにおける処理の流れを示す図(第5実施形態)。 第2実施形態を適用したミキシングサーバの機能構成例を示す図(第5実施形態相当)。 第2実施形態を適用したミキシングサーバにおける処理の流れを示す図(第5実施形態相当)。 第3実施形態を適用したミキシングサーバにおける処理の流れを示す図(第5実施形態相当)。 第4実施形態を適用したミキシングサーバにおける処理の流れを示す図(第5実施形態相当)。 第1実施形態を適用した音声パケット送信部の機能構成例を示す図(第6実施形態)。 第1実施形態を適用した音声パケット送信部における処理の流れを示す図(第6実施形態)。 第2実施形態を適用した音声パケット送信部の機能構成例を示す図(第6実施形態相当)。 第2実施形態を適用した音声パケット送信部における処理の流れを示す図(第6実施形態相当)。 第3実施形態を適用した音声パケット送信部における処理の流れを示す図(第6実施形態相当)。 第4実施形態を適用した音声パケット送信部における処理の流れを示す図(第6実施形態相当)。 ミキシング部の詳細な機能構成例を示した図。
符号の説明
1 音声/非音声判定補正装置
100 音声/非音声判定補正部
110 補正判定制御部
120 VADフラグ補正判定部
140 音声情報取得部
150 閾値更新部
160 音声/非音声区間割合算出部
180 音声情報蓄積部
200 音声/非音声判定補正部

Claims (38)

  1. フレーム単位の音響信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、VADフラグという。)と、上記フレーム(以下、現フレームという。)の音響信号とを入力とし、
    現フレームに対するVADフラグ(以下、現VADフラグという。)および過去に入力された各フレームに対する各VADフラグ(以下、過去VADフラグという。)によって得られる音声区間の割合/非音声区間の割合の少なくとも一方が、予め設定された条件(以下、所定条件という。)を満たしていない場合に、現フレームの音響信号の音響特徴量(以下、音声情報という。)と閾値との比較した結果に基づいて、現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合に前記補正されたVADフラグを出力する音声/非音声判定補正手段
    を備えた音声/非音声判定補正装置。
  2. 上記音声/非音声判定補正手段は、
    上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、
    上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、
    入力された上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段と
    を含むことを特徴とする請求項1に記載の音声/非音声判定補正装置。
  3. 上記音声/非音声判定補正手段は、
    上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、
    上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
    を含み、
    上記所定条件を、予め定められた第一の割合以上/より大として、
    上記閾値更新手段は、
    上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
    上記第一の割合未満/以下であれば上記閾値を大きくするように更新し、
    上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記閾値を更新せず、
    上記第二の割合以上/より大であれば上記閾値を小さくするように更新する
    ことを特徴とする請求項2に記載の音声/非音声判定補正装置。
  4. 上記音声/非音声判定補正手段は、
    上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、
    上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
    上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
    を含み、
    上記所定条件を、予め定められた第一の割合以上/より大として、
    上記閾値更新手段は、
    上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
    Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
    上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
    上記第一の割合未満/以下であれば上記Nを増大して上記閾値を更新し、
    上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記Nを更新せず、
    上記第二の割合以上/より大であれば上記Nを減少して上記閾値を更新する
    ことを特徴とする請求項2に記載の音声/非音声判定補正装置。
  5. 上記VADフラグ補正判定手段は、
    上記音声情報が上記閾値以下/より小の場合に、上記現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値より大/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
    ことを特徴とする請求項2から請求項4のいずれかに記載の音声/非音声判定補正装置。
  6. 上記音声/非音声判定補正手段は、
    上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、
    上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、
    入力された上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段と
    を含むことを特徴とする請求項1に記載の音声/非音声判定補正装置。
  7. 上記音声/非音声判定補正手段は、
    上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、
    上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
    を含み、
    上記所定条件を、予め定められた第三の割合以上/より大として、
    上記閾値更新手段は、
    上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、
    上記第三の割合未満/以下であれば上記閾値を小さくするように更新し、
    上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記閾値を更新せず、
    上記第四の割合以上/より大であれば上記閾値を大きくするように更新する
    ことを特徴とする請求項6に記載の音声/非音声判定補正装置。
  8. 上記音声/非音声判定補正手段は、
    上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、
    上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
    上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
    を含み、
    上記所定条件を、予め定められた第三の割合以上/より大として、
    上記閾値更新手段は、
    上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
    Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
    上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、
    上記第三の割合未満/以下であれば上記Nを減少して上記閾値を更新し、
    上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記Nを更新せず、
    上記第四の割合以上/より大であれば上記Nを増大して上記閾値を更新する
    ことを特徴とする請求項6に記載の音声/非音声判定補正装置。
  9. 上記VADフラグ補正判定手段は、
    上記音声情報が上記閾値以上/より大の場合に、上記現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値未満/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
    ことを特徴とする請求項6から請求項8のいずれかに記載の音声/非音声判定補正装置。
  10. 音声/非音声判定補正手段が、フレーム単位の音響信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、VADフラグという。)と、上記フレーム(以下、現フレームという。)の音響信号とを入力として、現フレームに対するVADフラグ(以下、現VADフラグという。)および過去に入力された各フレームに対する各VADフラグ(以下、過去VADフラグという。)によって得られる音声区間の割合/非音声区間の割合の少なくとも一方が、予め設定された条件(以下、所定条件という。)を満たしていない場合に、現フレームの音響信号の音響特徴量(以下、音声情報という。)と閾値との比較した結果に基づいて、現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合に補正されたVADフラグを出力する音声/非音声判定補正ステップ
    を有する音声/非音声判定補正方法。
  11. 上記音声/非音声判定補正ステップは、
    音声情報取得手段が、上記現フレームの音響信号から上記音声情報を取得する音声情報取得ステップと、
    VADフラグ補正判定手段が、上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定ステップと、
    補正判定制御手段が、入力された上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御ステップと
    を含むことを特徴とする請求項10に記載の音声/非音声判定補正方法。
  12. 上記音声/非音声判定補正ステップは、
    音声/非音声区間割合算出手段が、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出ステップと、
    閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
    を含み、
    上記所定条件を、予め定められた第一の割合以上/より大として、
    上記閾値更新ステップは、
    上記音声/非音声区間割合算出ステップにおいて得られた非音声区間の割合が、
    上記第一の割合未満/以下であれば上記閾値を大きくするように更新し、
    上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記閾値を更新せず、
    上記第二の割合以上/より大であれば上記閾値を小さくするように更新する
    ことを特徴とする請求項11に記載の音声/非音声判定補正方法。
  13. 上記音声/非音声判定補正ステップは、
    音声/非音声区間割合算出手段が、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出ステップと、
    閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
    音声情報蓄積手段が、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積する音声情報蓄積ステップと
    を含み、
    上記所定条件を、予め定められた第一の割合以上/より大として、
    上記閾値更新ステップは、
    上記音声情報蓄積ステップにおいて蓄積された上記音声情報の統計量を算出し、
    Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
    上記音声/非音声区間割合算出ステップにおいて得られた非音声区間の割合が、
    上記第一の割合未満/以下であれば上記Nを増大して上記閾値を更新し、
    上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記Nを更新せず、
    上記第二の割合以上/より大であれば上記Nを減少して上記閾値を更新する
    ことを特徴とする請求項11に記載の音声/非音声判定補正方法。
  14. 上記VADフラグ補正判定ステップは、
    上記音声情報が上記閾値以下/より小の場合に、上記現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値より大/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
    ことを特徴とする請求項11から請求項13のいずれかに記載の音声/非音声判定補正方法。
  15. 上記音声/非音声判定補正ステップは、
    音声情報取得手段が、上記現フレームの音響信号から上記音声情報を取得する音声情報取得ステップと、
    VADフラグ補正判定手段が、上記音声情報と上記閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグ(以下、補正VADフラグという。)を出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定ステップと、
    補正判定制御手段が、入力された上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御ステップと
    を含むことを特徴とする請求項10に記載の音声/非音声判定補正方法。
  16. 上記音声/非音声判定補正ステップは、
    音声/非音声区間割合算出手段が、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出ステップと、
    閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
    を含み、
    上記所定条件を、予め定められた第三の割合以上/より大として、
    上記閾値更新ステップは、
    上記音声/非音声区間割合算出ステップにおいて得られた音声区間の割合が、
    上記第三の割合未満/以下であれば上記閾値を小さくするように更新し、
    上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記閾値を更新せず、
    上記第四の割合以上/より大であれば上記閾値を大きくするように更新する
    ことを特徴とする請求項15に記載の音声/非音声判定補正方法。
  17. 上記音声/非音声判定補正ステップは、
    音声/非音声区間割合算出手段が、上記現フレームに対応する上記補正VADフラグおよび過去に入力された各フレームに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出ステップと、
    閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
    音声情報蓄積手段が、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積する音声情報蓄積ステップと
    を含み、
    上記所定条件を、予め定められた第三の割合以上/より大として、
    上記閾値更新ステップは、
    上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
    Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
    上記音声/非音声区間割合算出ステップにおいて得られた音声区間の割合が、
    上記第三の割合未満/以下であれば上記Nを減少して上記閾値を更新し、
    上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記Nを更新せず、
    上記第四の割合以上/より大であれば上記Nを増大して上記閾値を更新する
    ことを特徴とする請求項15に記載の音声/非音声判定補正方法。
  18. 上記VADフラグ補正判定ステップは、
    上記音声情報が上記閾値以上/より大の場合に、上記現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値未満/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
    ことを特徴とする請求項15から請求項17のいずれかに記載の音声/非音声判定補正方法。
  19. 入力された音声パケットから少なくとも音声符号および当該音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、現VADフラグという。)を取り出すパケット分解手段と、
    上記音声符号および上記現VADフラグを入力として補正VADフラグを出力する音声/非音声判定補正手段と、
    複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正VADフラグを用いてミキシングし、音声パケットを出力するミキシング手段と
    を備え、
    上記音声/非音声判定補正手段は、
    上記音声符号から当該音声符号の音響特徴量(以下、音声情報という。)を取得する音声情報取得手段と、
    上記音声情報と閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグを補正VADフラグとして出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、
    入力された上記現VADフラグおよび過去に入力された各音声パケットに対応する各VADフラグ(以下、過去VADフラグという。)によって得られる非音声区間の割合が予め設定された条件(以下、所定条件という。)を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段と
    を含む音声ミキシング装置。
  20. 上記音声/非音声判定補正手段は、
    入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、
    上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
    を含み、
    上記所定条件を、予め定められた第一の割合以上/より大として、
    上記閾値更新手段は、
    上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
    上記第一の割合未満/以下であれば上記閾値を大きくするように更新し、
    上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記閾値を更新せず、
    上記第二の割合以上/より大であれば上記閾値を小さくするように更新する
    ことを特徴とする請求項19に記載の音声ミキシング装置。
  21. 上記音声/非音声判定補正手段は、
    入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出手段と、
    上記音声/非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
    入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
    を含み、
    上記所定条件を、予め定められた第一の割合以上/より大として、
    上記閾値更新手段は、
    上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
    Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
    上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
    上記第一の割合未満/以下であれば上記Nを増大して上記閾値を更新し、
    上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記Nを更新せず、
    上記第二の割合以上/より大であれば上記Nを減少して上記閾値を更新する
    ことを特徴とする請求項19に記載の音声ミキシング装置。
  22. 上記VADフラグ補正判定手段は、
    上記音声情報が上記閾値以下/より小の場合に、上記現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値より大/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
    ことを特徴とする請求項19から請求項21のいずれかに記載の音声ミキシング装置。
  23. 入力された音声パケットから少なくとも音声符号および当該音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、現VADフラグという。)を取り出すパケット分解手段と、
    上記音声符号および上記現VADフラグを入力として補正VADフラグを出力する音声/非音声判定補正手段と、
    複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正VADフラグを用いてミキシングし、音声パケットを出力するミキシング手段と
    を備え、
    上記音声/非音声判定補正手段は、
    上記音声符号から当該音声符号の音響特徴量(以下、音声情報という。)を取得する音声情報取得手段と、
    上記音声情報と閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグを補正VADフラグとして出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定手段と、
    入力された上記現VADフラグおよび過去に入力された各音声パケットに対応する各VADフラグ(以下、過去VADフラグという。)によって得られる音声区間の割合が予め設定された条件(以下、所定条件という。)を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御手段と
    を含む音声ミキシング装置。
  24. 上記音声/非音声判定補正手段は、
    入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、
    上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
    を含み、
    上記所定条件を、予め定められた第三の割合以上/より大として、
    上記閾値更新手段は、
    上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、
    上記第三の割合未満/以下であれば上記閾値を小さくするように更新し、
    上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記閾値を更新せず、
    上記第四の割合以上/より大であれば上記閾値を大きくするように更新する
    ことを特徴とする請求項23に記載の音声ミキシング装置。
  25. 上記音声/非音声判定補正手段は、
    入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出手段と、
    上記音声/非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
    入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
    を含み、
    上記所定条件を、予め定められた第三の割合以上/より大として、
    上記閾値更新手段は、
    上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
    Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
    上記音声/非音声区間割合算出手段によって得られた音声区間の割合が、
    上記第三の割合未満/以下であれば上記Nを減少して上記閾値を更新し、
    上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記Nを更新せず、
    上記第四の割合以上/より大であれば上記Nを増大して上記閾値を更新する
    ことを特徴とする請求項23に記載の音声ミキシング装置。
  26. 上記VADフラグ補正判定手段は、
    上記音声情報が上記閾値以上/より大の場合に、上記現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値未満/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
    ことを特徴とする請求項23から請求項25のいずれかに記載の音声ミキシング装置。
  27. パケット分解手段が、入力された音声パケットから少なくとも音声符号および当該音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、現VADフラグという。)を取り出すパケット分解ステップと、
    音声/非音声判定補正手段が、上記音声符号および上記現VADフラグを入力として補正VADフラグを出力する音声/非音声判定補正ステップと、
    ミキシング手段が、複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正VADフラグを用いてミキシングし、音声パケットを出力するミキシングステップと
    を有し、
    上記音声/非音声判定補正ステップは、
    音声情報取得手段が、上記音声符号から当該音声符号の音響特徴量(以下、音声情報という。)を取得する音声情報取得ステップと、
    VADフラグ補正判定手段が、上記音声情報と閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグを補正VADフラグとして出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定ステップと、
    補正判定制御手段が、入力された上記現VADフラグおよび過去に入力された各音声パケットに対応する各VADフラグ(以下、過去VADフラグという。)によって得られる非音声区間の割合が予め設定された条件(以下、所定条件という。)を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御ステップと
    を含む音声ミキシング方法。
  28. 上記音声/非音声判定補正ステップは、
    音声/非音声区間割合算出手段が、入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出ステップと、
    閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
    を含み、
    上記所定条件を、予め定められた第一の割合以上/より大として、
    上記閾値更新ステップは、
    上記音声/非音声区間割合算出ステップにおいて得られた非音声区間の割合が、
    上記第一の割合未満/以下であれば上記閾値を大きくするように更新し、
    上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記閾値を更新せず、
    上記第二の割合以上/より大であれば上記閾値を小さくするように更新する
    ことを特徴とする請求項27に記載の音声ミキシング方法。
  29. 上記音声/非音声判定補正ステップは、
    音声/非音声区間割合算出手段が、入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる非音声区間の割合を算出する音声/非音声区間割合算出ステップと、
    閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
    音声情報蓄積手段が、入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積する音声情報蓄積ステップと
    を含み、
    上記所定条件を、予め定められた第一の割合以上/より大として、
    上記閾値更新ステップは、
    上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
    Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
    上記音声/非音声区間割合算出手段によって得られた非音声区間の割合が、
    上記第一の割合未満/以下であれば上記Nを増大して上記閾値を更新し、
    上記第一の割合以上/より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満/以下であれば上記Nを更新せず、
    上記第二の割合以上/より大であれば上記Nを減少して上記閾値を更新する
    ことを特徴とする請求項27に記載の音声ミキシング方法。
  30. 上記VADフラグ補正判定ステップは、
    上記音声情報が上記閾値以下/より小の場合に、上記現VADフラグが音声区間を示すものであれば非音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値より大/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
    ことを特徴とする請求項27から請求項29のいずれかに記載の音声ミキシング方法。
  31. パケット分解手段が、入力された音声パケットから少なくとも音声符号および上記音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果(以下、現VADフラグという。)を取り出すパケット分解ステップと、
    音声/非音声判定補正手段が、上記音声符号および上記現VADフラグを入力として補正VADフラグを出力する音声/非音声判定補正ステップと、
    ミキシング手段が、複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正VADフラグを用いてミキシングし、音声パケットを出力するミキシングステップと
    を有し、
    上記音声/非音声判定補正ステップは、
    音声情報取得手段が、上記現音声符号から当該音声符号の音響特徴量(以下、音声情報という。)を取得する音声情報取得ステップと、
    VADフラグ補正判定手段が、上記音声情報と閾値との比較した結果に基づいて、上記現VADフラグを、当該現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したVADフラグを補正VADフラグとして出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力するVADフラグ補正判定ステップと、
    補正判定制御手段が、入力された上記現VADフラグおよび過去に入力された各音声パケットに対応する各VADフラグ(以下、過去VADフラグという。)によって得られる音声区間の割合が予め設定された条件(以下、所定条件という。)を満たしていない場合には、上記現VADフラグを上記VADフラグ補正判定手段に出力し、上記現VADフラグおよび上記各過去VADフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現VADフラグを補正VADフラグとして出力する補正判定制御ステップと
    を含む音声ミキシング方法。
  32. 上記音声/非音声判定補正ステップは、
    音声/非音声区間割合算出手段が、入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出ステップと、
    閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
    を含み、
    上記所定条件を、予め定められた第三の割合以上/より大として、
    上記閾値更新ステップは、
    上記音声/非音声区間割合算出ステップにおいて得られた音声区間の割合が、
    上記第三の割合未満/以下であれば上記閾値を小さくするように更新し、
    上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記閾値を更新せず、
    上記第四の割合以上/より大であれば上記閾値を大きくするように更新する
    ことを特徴とする請求項31に記載の音声ミキシング方法。
  33. 上記音声/非音声判定補正ステップは、
    音声/非音声区間割合算出手段が、入力された音声パケットに対応する上記補正VADフラグおよび過去に入力された各音声パケットに対応する各補正VADフラグ(以下、過去補正VADフラグという。)によって得られる音声区間の割合を算出する音声/非音声区間割合算出ステップと、
    閾値更新手段が、上記音声/非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
    音声情報蓄積手段が、入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積する音声情報蓄積ステップと
    を含み、
    上記所定条件を、予め定められた第三の割合以上/より大として、
    上記閾値更新ステップは、
    上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
    Nを1以上の数値として、上記閾値を上記統計量のN倍として設定するものとし、
    上記音声/非音声区間割合算出ステップにおいて得られた音声区間の割合が、
    上記第三の割合未満/以下であれば上記Nを減少して上記閾値を更新し、
    上記第三の割合以上/より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満/以下であれば上記Nを更新せず、
    上記第四の割合以上/より大であれば上記Nを増大して上記閾値を更新する
    ことを特徴とする請求項31に記載の音声ミキシング方法。
  34. 上記VADフラグ補正判定ステップは、
    上記音声情報が上記閾値以上/より大の場合に、上記現VADフラグが非音声区間を示すものであれば音声区間を示すVADフラグに補正するとして、この補正をした補正VADフラグを出力し、上記音声情報が上記閾値未満/以下の場合に、現VADフラグを補正VADフラグとして出力するものである
    ことを特徴とする請求項31から請求項33のいずれかに記載の音声ミキシング方法。
  35. 請求項1から請求項9のいずれかに記載された音声/非音声判定補正装置としてコンピュータを機能させるための音声/非音声判定補正プログラム。
  36. 請求項35に記載の音声/非音声判定補正プログラムを記録した、コンピュータに読み取り可能な記録媒体。
  37. 請求項19から請求項26のいずれかに記載された音声ミキシング装置としてコンピュータを機能させるための音声ミキシングプログラム。
  38. 請求項37に記載の音声ミキシングプログラムを記録した、コンピュータに読み取り可能な記録媒体。
JP2006322321A 2006-11-29 2006-11-29 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 Expired - Fee Related JP4714129B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006322321A JP4714129B2 (ja) 2006-11-29 2006-11-29 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006322321A JP4714129B2 (ja) 2006-11-29 2006-11-29 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2008134565A JP2008134565A (ja) 2008-06-12
JP4714129B2 true JP4714129B2 (ja) 2011-06-29

Family

ID=39559432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006322321A Expired - Fee Related JP4714129B2 (ja) 2006-11-29 2006-11-29 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4714129B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5446874B2 (ja) * 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
JP2015102702A (ja) * 2013-11-26 2015-06-04 日本電信電話株式会社 発話区間抽出装置とその方法とプログラム
JP6276132B2 (ja) 2014-07-30 2018-02-07 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
CN114242116A (zh) * 2022-01-05 2022-03-25 成都锦江电子系统工程有限公司 一种语音的话音与非话音的综合判决方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2835483B2 (ja) * 1993-06-23 1998-12-14 松下電器産業株式会社 音声判別装置と音響再生装置
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
JP4033840B2 (ja) * 2004-02-12 2008-01-16 日本電信電話株式会社 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Also Published As

Publication number Publication date
JP2008134565A (ja) 2008-06-12

Similar Documents

Publication Publication Date Title
JP6790048B2 (ja) 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法
US9990938B2 (en) Detector and method for voice activity detection
US20220277756A1 (en) Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
US7617109B2 (en) Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US9401160B2 (en) Methods and voice activity detectors for speech encoders
US6389391B1 (en) Voice coding and decoding in mobile communication equipment
KR20030048067A (ko) 음성 복호기에서 프레임 오류 은폐를 위한 개선된스펙트럼 매개변수 대체
JPWO2007063910A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP4714129B2 (ja) 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体
JP2018084834A (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
JP5411807B2 (ja) チャネル統合方法、チャネル統合装置、プログラム
US8265941B2 (en) Method and an apparatus for decoding an audio signal
WO2011044153A1 (en) Automatic generation of metadata for audio dominance effects
US20200227061A1 (en) Signal codec device and method in communication system
JPH10207491A (ja) 背景音/音声分類方法、有声/無声分類方法および背景音復号方法
JP5604572B2 (ja) 複雑さ分散によるデジタル信号の転送誤り偽装
JPH1022937A (ja) 誤り補償装置および記録媒体
JP4709734B2 (ja) 話者選択装置、話者選択方法、話者選択プログラムおよびこれを記録した記録媒体
JPH086596A (ja) 音声強調装置
EP2238589B1 (en) A method and an apparatus for processing a signal
US20060104460A1 (en) Adaptive time-based noise suppression
Rämö et al. EVS Channel Aware Mode Robustness to Frame Erasures.
JPH03241400A (ja) 音声検出器
JPH0483300A (ja) 雑音抑圧型音声検出器
JPH11355145A (ja) 音響符号器および音響復号器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110325

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees