JP4714129B2

JP4714129B2 - 音声／非音声判定補正装置、音声／非音声判定補正方法、音声／非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体

Info

Publication number: JP4714129B2
Application number: JP2006322321A
Authority: JP
Inventors: 仲大室; 岳至森; 祐介日和▲崎▼; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-11-29
Filing date: 2006-11-29
Publication date: 2011-06-29
Anticipated expiration: 2026-11-29
Also published as: JP2008134565A

Description

本発明は、音声／非音声の判定技術に関する。より詳しくは、音声／非音声の判定結果を必要に応じて補正する技術に関する。

離散化された音声信号や音楽信号などの音響信号（以下、総称して音声信号と云う。）の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音声信号処理技術の多くにおいては、種々の信号が含まれる入力信号の或る区間が、信号処理対象とする音声信号を含む信号区間（音声区間）のものであるか音声信号を含まない信号区間（非音声区間）のものであるかを判定する必要があり、この判定精度がその後の音声信号処理の効果に大きな影響を与えることがある。

この音声／非音声区間判定〔本明細書では、特に断りの無い限り、／をもって「又は」を意味する。〕では、音声特徴（信号特徴）として、従来、例えば、音声信号の周波数スペクトル、音声信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、音声信号波形の零交差数、およびそれらの時間微分などが利用されている。これらの音声特徴を用いた音声／非音声判定方法では、音声信号を例えば２０ｍｓ程度のある一定時間長（フレーム）に分割（細分化）し、細分化された各フレームで上述の音声特徴を算出し、その値が予め別途定めた閾値を超える場合にはそのフレームの音声信号は音声区間のもの、そうでない場合にはそのフレームの音声信号は非音声区間のものとして判定している。

このような音声／非音声区間判定の利用例を、音声パケット通信を例にとって説明する。
ディジタル通信網であるパケット通信網を介して多地点（３地点以上を多地点と云い、以下同様とする。）を結び、音声パケット通信で多地点音声通信（例えば多地点音声会議である。）を行うことが増えている。

図１に、３つの地点Ａ、Ｂ、Ｃから送られた音声パケットをミキシングサーバでミキシングして、ミキシング後の音声パケットを地点Ｄに送る構成例の概要を示す。地点Ａの音声パケット送信部（９００Ａ）は、地点Ａでの入力音声信号を音声パケットＡに変換して、パケット通信網（９５０）経由でミキシングサーバ（９７０）に送り出す。同様に、地点Ｂの音声パケット送信部（９００Ｂ）は、地点Ｂでの入力音声信号を音声パケットＢに変換して、パケット通信網（９５０）経由でミキシングサーバ（９７０）に送り出し、地点Ｃの音声パケット送信部（９００Ｃ）は、地点Ｃでの入力音声信号を音声パケットＣに変換して、パケット通信網（９５０）経由でミキシングサーバ（９７０）に送り出す。ミキシングサーバ（９７０）は、音声パケットＡ、音声パケットＢ、音声パケットＣから１地点分の音声パケットを作成の上、これをパケット通信網（９５０）経由で地点Ｄに送り出す。地点Ｄの音声パケット受信部（９００Ｄ）は、受信した音声パケットを出力音声信号に変換する。
なお、図１では、説明を簡単にするため入力が３地点、出力が１地点の例を示しているが、入力は何地点でもよい。また、通常の多地点音声通信利用においては、入力地点と出力地点は同一であり、入力がＡ、Ｂ、Ｃ地点であれば、出力もＡ、Ｂ、Ｃの３地点分必要であり、地点ＤはＡ、Ｂ、Ｃのいずれかの例であると読み替えるとよい（以下、同様である。）。

従来、このような多地点音声通信の用途においては、音声符号化方法としてＩＴＵ−ＴＧ．７１１が利用されることがほとんどであった。
その理由は、ミキシングサーバにおいて、各地点から送られてくる音声パケットに含まれる音声符号をいったんデコードし、ＰＣＭ（Pulse Code Modulation）信号レベルでミキシング処理を行った後、再度エンコード処理を行って各地点向けの音声パケットを生成する必要があり、Ｇ．７１１以外の符号化方式では、ミキシングサーバに多大な負荷がかかるためである。

このような状況において本発明者らは、本発明に先立ち、音声符号化方式としてＧ．７１１よりも音質の良い広帯域音声符号化方式を用いながら、ミキシングサーバに多大な負荷のかからない多地点ミキシング方法を実現した（特許文献１参照。）。
図２に特許文献１に開示される多地点ミキシング方法の一例を示す。ただし図２では、送信側として地点Ａ、受信側として地点Ｄのみを記載し、地点Ｂ、Ｃは省略した。地点Ｂ、Ｃでの処理は地点Ａでの処理と同様である。

特許文献１に開示される多地点ミキシング方法では、フレーム（例えば１０ｍｓ〜２０ｍｓ程度である。）に区切った入力音声信号を音声波形符号化部（９０１）が音声符号に変換してこれを出力するとともに、音声区間検出部（９０２）がフレーム毎にそれが音声区間のものであるか非音声区間のものであるかを示す判定結果（以下、ＶＡＤフラグと云う。）を出力し、パケット構成部（９０３）がＶＡＤフラグを音声符号とともに音声パケットに組み込んでこれをパケット通信網（９５０）へ送っている。

パケット通信網（９５０）を介して音声パケットを受け取ったミキシングサーバ（９７０）では、パケット分解部（９７１）が音声パケットから音声符号とＶＡＤフラグを取り出し、ミキシング部（９７２）がＶＡＤフラグを参照して、各地点の話者が発話中であるか、そうでないかを判断し、時々刻々、どの地点の話者が主たる発言者であるのかの自動判定処理を行ったうえで、音声符号を切り替える、すなわち主たる発言者の音声符号を他の地点に配信する処理を行っている。
特開２００５−２２９２５９号公報

一般的な人間の会話では、３割〜５割程度は非音声区間が含まれている。上記特許文献１に開示される方法を適用する場合において、音声区間すなわち発話中は音声符号の切り替えを行わず、発話が終了して非音声区間になった段階で切り替えが行われるようにすると、符号切り替えに伴う通話品質・音質劣化が少なく、良好な音質での多地点音声通信を実現することが可能である。

しかしながら、入力音声信号に背景雑音が含まれている場合や、マイクロホンへの過大入力、部屋の残響がある場合などでは、送信側の音声区間検出部が音声／非音声区間判定に失敗することがある。失敗の典型的な例としては、非音声区間を誤って音声区間と判定することが多い。従って、実際の会話における発話中の音声には３割〜５割程度は非音声区間が含まれているにも係らず、ミキシングサーバ側でＶＡＤフラグを参照しても、非音声区間に判定されたフレームが全く無いか、極めて少ないと判断されることになり、音声区間と非音声区間との識別・判定の誤りを惹起せしめる場合がある。
そのような場合には、ミキシングサーバにおいて、主たる発言者の自動判定の誤り、あるいは、誤って発話中に音声符号の切り替えが発生して、ミキシング後の通話品質・音質が劣化する虞が全く無いとはいえない。

一方、上記構成において、マイクロホンへの過小入力の場合には、上述の場合とは逆に、実際の会話における発話中の音声には５割〜７割程度は音声区間が含まれているにも係らず、音声区間に判定されたフレームが全く無いか、極めて少ないと判断されることになり、音声区間と非音声区間との識別・判定の誤りを惹起せしめる虞を否定できない。

以上の虞は、上記特許文献１に述べられた音声／非音声区間判定技術以外の音声／非音声区間判定方法を用いたとしても、同様に存在する。

以上の音声パケット通信の例からもわかるように、従来の音声／非音声区間判定方法――特に、簡易な音声／非音声区間判定方法――では、入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響などが在りえる自然な環境下では音声区間と非音声区間との判別に失敗する可能性があり、爾後の音声信号処理に悪影響を及ぼす虞があった。

そこで本発明は、音声／非音声の判定結果を補正する音声／非音声判定補正装置、方法、プログラムおよびその記録媒体、さらに音声パケットについて音声／非音声の判定結果を補正した上でミキシングを行う音声ミキシング装置、方法、プログラムおよびその記録媒体を提供することを目的とする。

上記課題を解決するため、本発明は、フレーム単位の音響信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果（ＶＡＤフラグ）と、上記フレーム（現フレーム）の音響信号とを入力とし、現フレームに対するＶＡＤフラグ（現ＶＡＤフラグ）および過去に入力された各フレームに対する各ＶＡＤフラグ（過去ＶＡＤフラグ）によって得られる音声区間の割合／非音声区間の割合の少なくとも一方が、予め設定された条件（所定条件）を満たしていない場合に、現フレームの音響信号の音響特徴量（音声情報）と閾値との比較した結果に基づいて、現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに、当該現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合に前記補正されたＶＡＤフラグを出力する〔音声／非音声判定補正手段〕。

このように、ＶＡＤフラグが示す音声区間の割合／非音声区間の割合が所定条件を満たしていない場合には、音声情報と閾値との比較結果に基づいて、現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに、当該現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正することの要否を判定する。これはフレームに対する事後的な音声区間／非音声区間の再判定に相当する。補正要と判定した場合に前記補正されたＶＡＤフラグを出力する。このことにより、音声区間の割合／非音声区間の割合が所定条件を満たすかあるいは所定条件を満たすように修正されるものとなる。

上記音声／非音声判定補正手段は、上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、上記音声情報と上記閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグ（以下、補正ＶＡＤフラグという。）を出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定手段と、入力された上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる非音声区間の割合が上記所定条件を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御手段とを含むものとして構成することができる。
この構成は、非音声区間の割合を指標として、現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば、非音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合に前記補正されたＶＡＤフラグを出力する。このことにより、音声区間の割合／非音声区間の割合が所定条件を満たすかあるいは所定条件を満たすように修正されるものとなる。

上記音声／非音声判定補正手段は、上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（過去補正ＶＡＤフラグ）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出手段と、上記音声／非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段とを含み、上記所定条件を、予め定められた第一の割合以上／より大として、上記閾値更新手段を、上記音声／非音声区間割合算出手段によって得られた非音声区間の割合が、上記第一の割合未満／以下であれば上記閾値を大きくするように更新し、上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記閾値を更新せず、上記第二の割合以上／より大であれば上記閾値を小さくするように更新するものとして構成することもできる。
この構成は、非音声区間の割合を指標とするものであって、現フレームに対応する補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各過去補正ＶＡＤフラグによって得られる非音声区間の割合を基に閾値を更新することで、現在および過去の補正ＶＡＤフラグによって示される非音声区間の割合が、第一の割合〜第二の割合の範囲に収まるようにフィードバックをかけるものである。

上記音声／非音声判定補正手段は、上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（過去補正ＶＡＤフラグ）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出手段と、上記音声／非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段とを含み、上記所定条件を、予め定められた第一の割合以上／より大として、上記閾値更新手段を、上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、上記音声／非音声区間割合算出手段によって得られた非音声区間の割合が、上記第一の割合未満／以下であれば上記Ｎを増大して上記閾値を更新し、上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記Ｎを更新せず、上記第二の割合以上／より大であれば上記Ｎを減少して上記閾値を更新するものとして構成することもできる。
この構成は、非音声区間の割合を指標とするものであって、現フレームに対応する補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各過去補正ＶＡＤフラグによって得られる非音声区間の割合を基に、音声情報と比較される閾値を音声情報の統計量に関連付けて更新することで、現在および過去の補正ＶＡＤフラグによって示される非音声区間の割合が、第一の割合〜第二の割合の範囲に収まるようにフィードバックをかけるものである。

なお、上記ＶＡＤフラグ補正判定手段は、上記音声情報が上記閾値以下／より小の場合に、上記現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値より大／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものとして構成できる。

以上では、非音声区間の割合を指標としていたが、同様に、音声区間の割合を指標とするものとして構成できる。
この場合には、上記音声／非音声判定補正手段を、上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、上記音声情報と上記閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグ（以下、補正ＶＡＤフラグという。）を出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定手段と、入力された上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる音声区間の割合が上記所定条件を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御手段とを含むものとして構成することができる。

あるいは、上記音声／非音声判定補正手段を、上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出手段と、上記音声／非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段とを含み、上記所定条件を、予め定められた第三の割合以上／より大として、上記閾値更新手段を、上記音声／非音声区間割合算出手段によって得られた音声区間の割合が、上記第三の割合未満／以下であれば上記閾値を小さくするように更新し、上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記閾値を更新せず、上記第四の割合以上／より大であれば上記閾値を大きくするように更新するものとして構成することができる。

あるいは、上記音声／非音声判定補正手段を、上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出手段と、上記音声／非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段とを含み、上記所定条件を、予め定められた第三の割合以上／より大として、上記閾値更新手段を、上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、上記音声／非音声区間割合算出手段によって得られた音声区間の割合が、上記第三の割合未満／以下であれば上記Ｎを減少して上記閾値を更新し、上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記Ｎを更新せず、上記第四の割合以上／より大であれば上記Ｎを増大して上記閾値を更新するものとして構成することができる。

なお、上記ＶＡＤフラグ補正判定手段は、上記音声情報が上記閾値以上／より大の場合に、上記現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値未満／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものとして構成できる。

また、上記課題を解決するため、本発明は、入力された音声パケットから少なくとも音声符号および上記音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果（現ＶＡＤフラグ）を取り出し、音声／非音声判定補正手段が上記音声符号および上記現ＶＡＤフラグを入力として補正ＶＡＤフラグを出力するとして、複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正ＶＡＤフラグを用いてミキシングすることで音声パケットを出力する。
ここで音声／非音声判定補正手段は、すでに述べた音声／非音声判定補正手段として構成できる。なお、既述の音声／非音声判定補正手段ではフレームの音響信号が入力となっていたが、それを音声符号に読み替えて理解すればよい。

本発明の音声／非音声判定補正装置としてコンピュータを機能させる音声／非音声判定補正プログラムによって、コンピュータを音声／非音声判定補正装置として作動処理させることができる。そして、この音声／非音声判定補正プログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音声／非音声判定補正装置として機能させることや、音声／非音声判定補正プログラムを流通させることなどが可能になる。
また、本発明の音声ミキシング装置としてコンピュータを機能させる音声ミキシングプログラムによって、コンピュータを音声ミキシング装置として作動処理させることができる。そして、この音声ミキシングプログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音声ミキシング装置として機能させることや、音声ミキシングプログラムを流通させることなどが可能になる。

本発明によれば、音声区間の割合／非音声区間の割合を監視（所定条件を満たすか否か）して、監視の結果に基づき、音声信号（音声符号）に対する事後的な音声区間／非音声区間の再判定を行うことで、音声／非音声の判定結果を補正することができる。このため、例えば入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響などが在りえる自然な環境下で収音したことによって、音声区間と非音声区間との判別に失敗したとしても、音声区間と非音声区間との別を自然な存在比率で識別・判定することが可能となる。

また、このような音声／非音声の判定結果を補正することを音声ミキシング装置に適用することで、音声パケットについて音声／非音声の判定結果を補正した上でミキシングを行うことができる。このため、音声パケットの送信側で音声／非音声の判定に失敗しても、音声ミキシング装置においてＶＡＤフラグが補正されることから、主たる発話者の判定誤りや音声符号の切り替え誤りが低減された、良好な通話品質・音質での多地点通信を実現することが可能となる。

＜第１実施形態＞
本発明である音声／非音声判定補正装置・方法の第１実施形態を説明する。
本発明の第１実施形態である音声／非音声判定補正装置（１）は、それ単体で独立に存在するよりは、音声／非音声の判定結果を用いて音声信号処理を行う装置（音声信号処理装置）を構成するエンティティとして存在するのが一般的である。さらに云えば、音声／非音声判定補正装置（１）は、音声信号処理装置とは容易に分離可能に音声信号処理装置を構成するエンティティではなく、音声信号処理装置自体を或る機能に着眼して片面的に評価したものと云うこともできる。要するに、音声／非音声判定補正装置（１）は、音声信号処理装置そのものであることが一般的である。具体的には、音声／非音声判定補正装置（１）の機能をデジタルシグナルプロセッサや専用ＬＳＩに実装して、音声／非音声判定補正装置（１）を実現することができる。
ただし、単体独立のエンティティとして存在すること、音声信号処理装置とは容易に分離可能に音声信号処理装置を構成するエンティティであることを排除する趣旨ではない。例えば音声／非音声の判定結果の補正自体を目的とするならば、音声／非音声判定補正装置（１）を単体独立のエンティティとして実現することに何らの妨げは無い。
ここで音声信号処理装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、単体独立のエンティティとして音声／非音声判定補正装置（１）を実現する場合も同様である。

音声／非音声判定補正装置（１）を単体単独のエンティティとして、これをコンピュータ（汎用機）で実現する場合のハードウェア構成例を説明する。
図３に例示するように、音声／非音声判定補正装置（１）は、キーボード、ポインティングデバイスなどが接続可能な入力部（１１）、液晶ディスプレイ、ＣＲＴ（Cathode Ray Tube）ディスプレイなどが接続可能な出力部（１２）、音声／非音声判定補正装置（１）外部に通信可能な通信装置（例えば通信ケーブル、ＬＡＮカード、ルータ、モデムなど）が接続可能な通信部（１３）、ＤＳＰ（Digital Signal Processor）（１４）〔ＣＰＵ（Central Processing Unit）でも良い。またキャッシュメモリやレジスタ（１９）などを備えていてもよい。〕、メモリであるＲＡＭ（１５）、ＲＯＭ（１６）やハードディスク、光ディスク、半導体メモリなどである外部記憶装置（１７）並びにこれらの入力部（１１）、出力部（１２）、通信部（１３）、ＤＳＰ（１４）、ＲＡＭ（１５）、ＲＯＭ（１６）、外部記憶装置（１７）間のデータのやり取りが可能なように接続するバス（１８）を有している。また必要に応じて、音声／非音声判定補正装置（１）に、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）などの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。

第１実施形態では、予めマイクロホン（図示しない。）によって得られた収音信号を離散信号化して、この離散信号（音声信号）に対して窓関数（例えば、矩形窓、ハミング窓、ガウス窓）を適用する処理を行って得られた複数のフレームの音声信号を外部記憶装置に保存記憶しておくとする。

また、従来的な音声／非音声区間判定方法を用いて、音声信号が細分化された各フレームの音声信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示すＶＡＤフラグを出力しておく。これらＶＡＤフラグは、各フレームに対応付けられて外部記憶装置に保存記憶されているとする。
なお、第１実施形態では、フレームを用いる形態として説明するが、フレームの音声信号に限定する趣旨ではない。例えばフレームの音声信号に対して符号化が施された音声符号を用いることもできる。この音声符号には、フレームの音声信号の音響特徴量（例えばパワーなどである。）が符号化されたものが付加されていてもよい。この場合の実施形態は、第５実施形態および第６実施形態として説明を加える。

音声／非音声判定補正装置（１）の外部記憶装置（１７）には、音声／非音声判定補正のためのプログラムおよびこのプログラムの処理において必要となるデータ（フレーム単位の音声信号、フレームに対応付けられたＶＡＤフラグ）などが保存記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに保存記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に保存記憶される。

より具体的には、音声／非音声判定補正装置（１）の外部記憶装置（１７）〔あるいはＲＯＭなど〕には、音声信号の音声情報を取得するためのプログラム、現在までの所定時間におけるＶＡＤフラグが示す音声区間および非音声区間の割合を求めて補正のための判定処理を行うか否かを決定するためのプログラム、音声情報と閾値との比較によってＶＡＤフラグの補正の要否を判定して補正要の場合にＶＡＤフラグを補正するためのプログラム、現在までの所定時間における補正ＶＡＤフラグが示す音声区間および非音声区間の割合を求めるためのプログラム、閾値を動的に更新するためのプログラム、およびこれらのプログラムの処理において必要となるデータ（フレーム単位の音声信号、フレームに対応付けられたＶＡＤフラグなど）が保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。

第１実施形態に係る音声／非音声判定補正装置（１）では、外部記憶装置（１７）〔あるいはＲＯＭなど〕に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（１５）に読み込まれて、ＤＳＰ（１４）で解釈実行・処理される。その結果、ＤＳＰ（１４）が所定の機能（音声情報取得部、補正判定制御部、ＶＡＤフラグ補正判定部、音声／非音声区間割合算出部、閾値更新部）を実現することで、音声／非音声の判定結果の補正が実現される。

そこで次に、図４および図５を参照して、音声／非音声判定補正装置（１）における音声／非音声判定補正処理の流れを順次説明する。以下では、或る１つのフレーム（現フレーム）に対して音声／非音声判定補正処理がなされる場合で説明するが、音声／非音声判定補正処理はフレーム毎に順次に行われることに留意しなければならない。
第１実施形態は、前述のように、入力音声信号に背景雑音が含まれている場合やマイクロホンへの過大入力、あるいは部屋の残響などが在りえる自然な環境下では、非音声区間を音声区間に誤ることが多い。本実施形態は、非音声区間を音声区間に誤ったＶＡＤフラグを補正するため場合の形態である。

（ステップＳ１）
音声情報取得部（１４０）は、現フレームの音声信号から音声信号の音響特徴量である音声情報を取得する。音声情報としては、例えば現フレームの音声信号のパワーやピッチの相関値とすることができる。音声情報の取得方法として、フレーム内の音声波形の二乗和を計算することによってパワーを求めてもよいし、フレーム内の音声波形のピッチの相関値を求めてもよい。音声情報取得部（１４０）が出力した音声情報は、ＶＡＤフラグ補正判定部（１２０）の入力となる。

（ステップＳ２）
補正判定制御部（１１０）は、現フレーム（例えば２０ｍｓとする。）に対応付けられたＶＡＤフラグ（現ＶＡＤフラグ）および過去一定時間（例えば１９８０ｍｓとする。）分の各フレームに対応付けられた各ＶＡＤフラグを用いて、現在および現在までの過去一定時間における各ＶＡＤフラグが示す音声区間の割合および／または非音声区間の割合を計算し、補正のための判定処理を行うか否かを決定する。
なお、ＶＡＤフラグが音声区間と非音声区間の２種類しか示さない場合には、音声区間の割合と非音声区間の割合の合計は１００％であり、音声区間の割合が決まれば非音声区間の割合が一意に決まるため、以下、非音声区間の割合を判断基準として説明するが、音声区間の割合を判断基準としても同義である。

上記の例であれば、現在および現在までの過去一定時間における各ＶＡＤフラグが、１６００ｍｓ分のフレームに対応する８０個の音声区間を示すＶＡＤフラグおよび４００ｍｓ分のフレームに対応する２０個の非音声区間を示すＶＡＤフラグであれば、補正判定制御部（１１０）は、音声区間が８０％、非音声区間が２０％と計算する。

そして、補正判定制御部（１１０）は、非音声区間の割合が予め決められた第一の割合（例えば１０％とする。）以上である場合は、補正のための判定処理を行わないと決定し、非音声区間の割合が予め決められた第一の割合に達していない場合には、補正のための判定処理を行うと決定する。
具体的には、非音声区間の割合が第一の割合以上である場合は、補正判定制御部（１１０）は補正のための判定処理を行わないと決定し（図４のＢ側）、入力された現フレームに対応付けられたＶＡＤフラグは、補正されずにそのまま音声／非音声判定補正装置（１）の出力となる。なお、ここでは、補正されずに出力されたＶＡＤフラグも、補正のための判定処理を行うか否かの判定を受けたという点で、補正ＶＡＤフラグと呼ぶことにする。補正ＶＡＤフラグは、音声／非音声区間割合算出部（１６０）の入力になる。
非音声区間の割合が第一の割合に達していない場合には、補正判定制御部（１１０）は、入力された現フレームに対応付けられたＶＡＤフラグをＶＡＤフラグ補正判定部（１２０）に送る（図４のＡ側）。

（ステップＳ３）
ＶＡＤフラグ補正判定部（１２０）は、音声情報取得部（１４０）から送られた音声情報と、後述する閾値更新部（１５０）から送られた閾値とを比較し、音声情報が閾値よりも低い場合（あるいは音声情報が閾値以下の場合）には、現ＶＡＤフラグが音声区間を示すものであればこれを非音声区間を示す補正ＶＡＤフラグに変更して出力し、音声情報が閾値よりも低くない場合（あるいは音声情報が閾値より大の場合）には、現ＶＡＤフラグをそのまま補正ＶＡＤフラグとして出力する。ＶＡＤフラグの値として、非音声区間は０、音声区間は１が割り当てられている場合、例えば現ＶＡＤフラグの値が１で音声区間を表していたとき、音声情報が閾値よりも低い場合には、現ＶＡＤフラグの値を０に補正してこれを補正ＶＡＤフラグとする。同様に、現ＶＡＤフラグの値が１で音声区間を表していたとき、音声情報が閾値よりも低くない場合には、値１の現ＶＡＤフラグをそのまま補正ＶＡＤフラグとして出力する。
この補正ＶＡＤフラグは、音声／非音声判定補正装置（１）の出力となるとともに、音声／非音声区間割合算出部（１６０）の入力になる。

（ステップＳ４）
音声／非音声区間割合算出部（１６０）は、補正判定制御部（１１０）と同様の方法で、補正ＶＡＤフラグが示す音声区間の割合および／または非音声区間の割合を計算する。
音声／非音声区間割合算出部（１６０）から出力される非音声区間の割合は、閾値更新部（１５０）の入力となる。

（ステップＳ５）
閾値更新部（１５０）は、ＶＡＤフラグ補正判定部（１２０）で用いられる閾値を動的に変更する。閾値の初期値は予め決められた値（例えば十分に小さい値とする。）がセットされ、以後は、音声／非音声区間割合算出部（１６０）から出力される非音声区間の割合が、第一の割合未満であれば閾値を上げ、予め決められた第一の割合以上であって、第一の割合よりも高い予め決められた第二の割合（例えば２０％とする。）未満であれば閾値は変更せず、第二の割合以上であれば閾値を下げるように更新する。

この実施形態によれば、各ＶＡＤフラグが示す非音声区間の割合が予め決められた第一の割合よりも少ない場合には、各補正ＶＡＤフラグが示す非音声区間の割合が、第一の割合以上第二の割合未満になるようにフィードバックがかかるように制御される。つまり、各補正ＶＡＤフラグが示す非音声区間の割合を算出して、この割合に基づいてＶＡＤフラグ補正判定部（１２０）が用いる閾値を調整することで、各補正ＶＡＤフラグが示す非音声区間の割合が、第一の割合以上第二の割合未満になるように調整される。
このため、従来の音声／非音声区間判定方法、特に簡易な音声／非音声区間判定方法で得られたＶＡＤフラグが、入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響で、音声区間と非音声区間との判別に失敗して、音声区間を示すものに偏っていて不自然な場合に、より自然な音声区間と非音声区間の存在比率に補正することができる。
なお、第一の割合および第二の割合は、各補正ＶＡＤフラグが示す音声区間と非音声区間の存在比率が、自然な会話における音声区間と非音声区間の存在比率に収まるように適宜に設定される設計事項である。例えば、一般的な人間の会話では、３割〜５割程度は非音声区間が含まれていることに留意して、第一の割合および第二の割合を設定する。

この実施形態では、各補正ＶＡＤフラグの示す非音声区間の割合をｎ、第一の割合をＴ_１、第二の割合をＴ_２とすれば、Ｔ_１≦ｎ＜Ｔ_２になるように調整したが、Ｔ_１＜ｎ＜Ｔ_２あるいはＴ_１＜ｎ≦Ｔ_２あるいはＴ_１≦ｎ≦Ｔ_２のように調整することでもよい。

閾値更新部（１５０）および音声／非音声区間割合算出部（１６０）は、必ずしも本発明の必須の構成要素ではなく、閾値を予め設定された初期値に固定したままとしてもよい。この場合の初期値は、ある程度高い値に設定しておく。ＶＡＤフラグ補正判定部（１２０）は、固定値である閾値を用いて上記処理を行うことになる。

＜第２実施形態＞
次に、図６および図７を参照して、本発明の第２実施形態を説明する。第２実施形態は、第１実施形態の変形例であるので、第１実施形態と異なる部分について説明を加える。
第２実施形態では、音声情報蓄積部（１８０）が追加される。ステップＳ１の処理で音声情報取得部（１４０）から出力された音声情報は、ＶＡＤフラグ補正判定部（１２０）に送られるとともに、音声情報蓄積部（１８０）に送られる（ステップＳ１ａ）。音声情報蓄積部（１８０）は、音声情報を予め決められた一定時間（フレーム）分蓄える機能であり、ＲＡＭ（１５）やレジスタ（１９）などで実現可能だが、例えばシフトバッファとしてもよい。閾値更新部（１５０）は、上記ステップＳ５の処理に替え、音声情報蓄積部（１８０）に蓄えられた一定時間分の音声情報の統計量と、音声／非音声区間割合算出部（１６０）から出力された音声／非音声区間の割合のうち非音声区間の割合とに基づいて、閾値を更新する（ステップＳ５ａ）。

（ステップＳ５ａ）
閾値更新部（１５０）の具体的な処理は、まず音声情報蓄積部（１８０）に蓄積された一定時間（フレーム）分の音声情報の時系列から、音声情報の統計量を求める。音声情報の統計量は、音声情報（ピッチの相関値やパワーなどの値）の時系列のうち最小値とするのが簡易であるが、音声情報の小さい方から複数個または一定割合の値を選択してそれらの値の平均としてもよい。または、音声情報が一定の値より小さいフレームは除外し、音声情報が前記一定の値以上のフレームの中で、上記のように、最小値を統計量としあるいは音声情報の小さい方から複数個または一定割合の値を選択してそれらの平均を統計量としてもよい。

ＶＡＤフラグ補正判定部（１２０）に送る閾値は、音声情報の統計量のＮ倍という形式とする。Ｎの初期値は１または２の如く小さい値とし、音声／非音声区間割合算出部（１６０）から出力された非音声区間の割合が、第一の割合未満であればＮの値を増加し、第一の割合以上第二の割合未満であればＮの値は変更せず、第二の割合以上であればＮの値を減少するように更新する。Ｎの値を増加するときは、それまでのＮの値を２倍し、Ｎの値を減少する場合には、それまでのＮの値を１／２倍する方法が簡便である。勿論、３倍（増加）ないし１／３倍（減少）でもよいし、整数倍とするのではなく、例えば３／２倍（増加）ないし２／３倍（減少）とすることでも構わないし、更に云えば、減少のときの倍数値を増加のときの倍数値の逆数とするのではなく、例えば、２倍（増加）ないし１／３倍（減少）とすることでもよい。なお、閾値が音声情報の統計量のＮ倍という形式であるから、不相当な閾値とならないよう、Ｎの値には上限値および下限値を設け、その範囲を超えてＮが増加または減少しないようにするとよい。

＜第３実施形態＞
次に、図８を参照して、本発明の第３実施形態を説明する。第３実施形態は、第１実施形態の変形例であるので、第１実施形態と異なる部分について説明を加える。第３実施形態における音声／非音声判定補正装置の機能構成は、第１の実施形態に拠るものとして、説明を略する（図４参照）。
前述のように、入力音声信号に背景雑音が含まれている場合やマイクロホンへの過大入力、あるいは部屋の残響などが在りえる自然な環境下では、非音声区間を音声区間に誤ることが多いが、マイクロホンへの過小入力などの場合には、逆に音声区間を非音声区間に誤ることも多い。第３実施形態は、音声区間を非音声区間に誤ったＶＡＤフラグを補正するためのもので、第１実施形態を一部変更した形態になっている。

（ステップＳ２ｂ）
補正判定制御部（１１０）は、上記ステップＳ２の処理に替え、現フレーム（例えば２０ｍｓとする。）に対応付けられたＶＡＤフラグ（現ＶＡＤフラグ）および過去一定時間（例えば１９８０ｍｓとする。）分の各フレームに対応付けられた各ＶＡＤフラグを用いて、現在および現在までの過去一定時間における各ＶＡＤフラグが示す音声区間の割合および／または非音声区間の割合を計算し、補正のための判定処理を行うか否かを決定する。
なお、ＶＡＤフラグが音声区間と非音声区間の２種類しか示さない場合には、音声区間の割合と非音声区間の割合の合計は１００％であり、音声区間の割合が決まれば非音声区間の割合が一意に決まるため、以下、音声区間の割合を判断基準として説明するが、非音声区間の割合を判断基準としても同義である

上記の例であれば、現在および現在までの過去一定時間における各ＶＡＤフラグが、１２００ｍｓ分のフレームに対応する６０個の音声区間を示すＶＡＤフラグおよび８００ｍｓ分のフレームに対応する４０個の非音声区間を示すＶＡＤフラグであれば、補正判定制御部（１１０）は、音声区間が６０％、非音声区間が４０％と計算する。

そして、補正判定制御部（１１０）は、音声区間の割合が予め決められた第三の割合（例えば５０％とする。）以上である場合は、補正のための判定処理を行わないと決定し、音声区間の割合が予め決められた第三の割合に達していない場合には、補正のための判定処理を行うと決定する。
具体的には、音声区間の割合が第三の割合以上である場合は、補正判定制御部（１１０）は補正のための判定処理を行わないと決定し（図４のＢ側）、入力された現フレームに対応付けられたＶＡＤフラグは、補正されずにそのまま音声／非音声判定補正装置（１）の出力となる。この補正ＶＡＤフラグは、音声／非音声区間割合算出部（１６０）の入力になる。
音声区間の割合が第三の割合に達していない場合には、補正判定制御部（１１０）は、入力された現フレームに対応付けられたＶＡＤフラグをＶＡＤフラグ補正判定部（１２０）に送る（図４のＡ側）。

（ステップＳ３ｂ）
ＶＡＤフラグ補正判定部（１２０）は、上記ステップＳ３の処理に替え、音声情報取得部（１４０）から送られた音声情報と、後述する閾値更新部（１５０）から送られた閾値とを比較し、音声情報が閾値よりも大きい場合（あるいは音声情報が閾値以上の場合）には、現ＶＡＤフラグが非音声区間を示すものであればこれを音声区間を示す補正ＶＡＤフラグに変更して出力し、音声情報が閾値よりも大きくない場合（あるいは音声情報が閾値未満の場合）には、現ＶＡＤフラグをそのまま補正ＶＡＤフラグとして出力する。この補正ＶＡＤフラグは、音声／非音声判定補正装置（１）の出力となるとともに、音声／非音声区間割合算出部（１６０）の入力になる。

（ステップＳ４ｂ）
音声／非音声区間割合算出部（１６０）は、上記ステップＳ４の処理に替え、補正判定制御部（１１０）と同様の方法で、補正ＶＡＤフラグが示す音声区間の割合および／または非音声区間の割合を計算する。
音声／非音声区間割合算出部（１６０）から出力される音声区間の割合は、閾値更新部（１５０）の入力となる。

（ステップＳ５ｂ）
閾値更新部（１５０）は、上記ステップＳ５の処理に替え、ＶＡＤフラグ補正判定部（１２０）で用いられる閾値を動的に変更する。閾値の初期値は予め決められた値（例えば十分に大きい値とする。）がセットされ、以後は、音声／非音声区間割合算出部（１６０）から出力される音声区間の割合が、第三の割合未満であれば閾値を下げ、予め決められた第三の割合以上であって、第三の割合よりも高い予め決められた第四の割合（例えば９０％とする。）未満であれば閾値は変更せず、第四の割合以上であれば閾値を上げるように更新する。

この実施形態によれば、各ＶＡＤフラグが示す音声区間の割合が予め決められた第三の割合よりも少ない場合には、各補正ＶＡＤフラグの示す音声区間の割合が、第三の割合以上第四の割合未満になるようにフィードバックがかかるように制御される。つまり、各補正ＶＡＤフラグが示す音声区間の割合を算出して、この割合に基づいてＶＡＤフラグ補正判定部（１２０）が用いる閾値を調整することで、各補正ＶＡＤフラグが示す音声区間の割合が、第三の割合以上第四の割合未満になるように調整される。
このため、従来の音声／非音声区間判定方法、特に簡易な音声／非音声区間判定方法で得られたＶＡＤフラグが、入力音声信号に背景雑音が含まれる場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響で、音声区間と非音声区間との判別に失敗して、非音声区間を示すものに偏っていて不自然な場合に、より自然な音声区間と非音声区間の存在比率に補正することができる。
なお、第三の割合および第四の割合は、各補正ＶＡＤフラグが示す音声区間と非音声区間の存在比率が、自然な会話における音声区間と非音声区間の存在比率に収まるように適宜に設定される設計事項である。例えば、一般的な人間の会話では、５割〜７割程度は音声区間が含まれていることに留意して、第三の割合および第四の割合を設定する。

この実施形態では、各補正ＶＡＤフラグが示す音声区間の割合をｍ、第三の割合をＴ_３、第四の割合をＴ_４とすれば、Ｔ_３≦ｍ＜Ｔ_４になるように調整したが、Ｔ_３＜ｍ＜Ｔ_４あるいはＴ_３＜ｍ≦Ｔ_４あるいはＴ_３≦ｍ≦Ｔ_４のように調整することでもよい。

また、第１実施形態と同様、閾値更新部（１５０）および音声／非音声区間割合算出部（１６０）は、必ずしも必須の構成要素ではなく、閾値は予め設定された初期値に固定したままとしてもよい。この場合の初期値は、ある程度低い値に設定しておく。ＶＡＤフラグ補正判定部（１２０）は、固定値である閾値を用いて上記処理を行うことになる。

＜第４実施形態＞
次に、図９を参照して、本発明の第４実施形態を説明する。第４実施形態は、第３実施形態の変形例であるから、第３実施形態と異なる部分について説明を加える。第４実施形態における音声／非音声判定補正装置の機能構成は、第２の実施形態に拠るものとして、説明を略する（図６参照）。
第４実施形態では、第２実施形態と同様、第３実施形態の構成に音声情報蓄積部（１８０）が追加される。閾値更新部（１５０）は、上記ステップＳ１ａの処理で音声情報蓄積部（１８０）に蓄えられた一定時間分の音声情報の時系列と、音声／非音声区間割合算出部（１６０）から出力された音声／非音声区間の割合のうち音声区間の割合とに基づいて、閾値を更新する（ステップＳ５ｃ）。

（ステップＳ５ｃ）
音声情報の統計量については、既述の統計量と同様であるから説明を略する。
ＶＡＤフラグ補正判定部（１２０）に送る閾値は、音声情報の統計量のＮ倍という形式とする。Ｎの初期値は８または１０の如く大きい値とし、音声／非音声区間割合算出部（１６０）から出力された音声区間の割合が、第三の割合未満であればＮの値を減少し、第三の割合以上第四の割合未満であればＮの値は変更せず、第四の割合以上であればＮの値を増加するように更新する。Ｎの値を増加するときは、それまでのＮの値を２倍し、Ｎの値を減少する場合には、それまでのＮの値を１／２倍する方法が簡便である。勿論、３倍（増加）ないし１／３倍（減少）でもよいし、整数倍とするのではなく、例えば３／２倍（増加）ないし２／３倍（減少）とすることでも構わないし、更に云えば、減少のときの倍数値を増加のときの倍数値の逆数とするのではなく、例えば、２倍（増加）ないし１／３倍（減少）とすることでもよい。なお、Ｎの値には上限値および下限値を設け、その範囲を超えて増加または減少しないようにする。

＜第５実施形態＞
次に、図１０〜図１２を参照して、本発明の第５実施形態を説明する。第５実施形態は、第１実施形態を音声パケット通信に適用した実施形態である。詳しくは、上記特許文献１に開示される多地点ミキシング方法において音声ミキシング装置に第１実施形態を適用した実施形態である。音声ミキシング装置のハードウェア構成例は音声／非音声判定補正装置のハードウェア構成例と同様であり、重複説明をしない（図３参照。）。また、音声ミキシング装置のパケット分解部およびミキシング部について、いずれもＤＳＰ（１４）がその機能を実現するとする。なお、本形態では、音声ミキシング装置としてミキシングサーバを例にとる。

第５実施形態において、音声／非音声の判定結果の補正処理は、ミキシングサーバ（５７０）において行われる。このとき、第１実施形態の音声／非音声判定補正装置（１）は、音声／非音声の判定結果を用いて音声信号処理を行う音声信号処理装置、つまりミキシングサーバ（５７０）を構成するエンティティとして存在するのが一般的であるので、第５実施形態では、第１実施形態の音声／非音声判定補正装置（１）と同等の機能構成を、ミキシングサーバ（５７０）を構成する音声／非音声判定補正部（１００）によって実現するとして説明する。つまり、音声／非音声判定補正部（１００）の機能をデジタルシグナルプロセッサが実現する場合や専用ＬＳＩに実装して実現する例で考えればよい。

上記特許文献１に開示される多地点ミキシング方法では、既述のとおり、各地点の音声パケット送信部において、フレーム（例えば１０ｍｓ〜２０ｍｓ程度である。）に区切った入力音声信号を音声波形符号化部（９０１）が音声符号に変換してこれを出力するとともに、音声区間検出部（９０２）がフレーム毎に音声区間であるか非音声区間であるかのＶＡＤフラグを出力し、パケット構成部（９０３）がＶＡＤフラグを音声符号とともに音声パケットに組み込んでこれをパケット通信網（９５０）へ送っている。

音声パケットを受け取ったミキシングサーバ（５７０）では、パケット通信網（９５０）経由で各地点の音声パケット送信部から送られた音声パケットを受信すると、パケット分解部（５７１）が各地点の音声パケットを分解して情報を取り出す。即ち、パケット分解部（５７１）は、音声パケットを、音声波形の情報を含む音声符号と、当該パケットに対応するフレーム、つまり現フレームの音声信号が音声区間のものであるか非音声区間のものであるかを示すＶＡＤフラグとに分解してこれらを取り出す（ステップＳ６０）。パケット分解部（５７１）で取り出された音声符号は音声情報取得部（１４０）およびミキシング部（５７２）の入力となり、パケット分解部（５７１）で取り出されたＶＡＤフラグは補正判定制御部（１１０）の入力となる。音声／非音声判定補正部（１００）における機能構成および処理内容は第１実施形態と同様であり、音声／非音声判定補正部（１００）は補正ＶＡＤフラグを出力する。補正ＶＡＤフラグはミキシング部（５７２）の入力となる。上記特許文献１に開示されるような従来的な多地点ミキシング方法では、パケット分解部で取り出されたＶＡＤフラグがミキシング部（５７２）の入力となっていたが、第５実施形態では、音声／非音声判定補正部（１００）が出力した補正ＶＡＤフラグがミキシング部（５７２）の入力となっている点で異なる。
なお、図１０に示すように、各地点から送られた音声パケットに含まれるＶＡＤフラグの補正は、各地点における音声パケットごとに行われる。図１１は、或る１地点の音声パケットに対するＶＡＤフラグの補正を行うミキシングサーバ内の機能構成を示したものである。

なお、第５実施形態では、音声情報取得部（１４０）は、音声符号から音声情報を取得する。音声情報としては、第１実施形態と同様、例えば音声符号の音声のパワーやピッチの相関値とすることができる。音声情報の取得方法は、例えばパワーを音声情報とする場合に、音声符号にパワーを示す符号が含まれている場合はそれを参照してもよいし、パワーを示す符号が含まれていない場合は音声符号を一旦デコードし、フレーム内の音声波形の二乗和を計算することによってパワーを求めてもよい。

ミキシング部（５７２）は、補正ＶＡＤフラグを参照して、各地点の話者が発話中であるか、そうでないかを判断し、時々刻々、どの地点の話者が主たる発言者であるのかの自動判定処理を行ったうえで、音声符号を切り替える、すなわち主たる発言者の音声符号を他の地点に配信する処理を行う（ステップＳ６１）。

図２３に、上記特許文献１に開示されるミキシングサーバを例にして第１実施形態を適用した機能構成例の詳細を示す。なお、図２３では、説明を簡単にするため入力が３地点、出力が１地点の例を示しているが、入力は何地点でもよい。また、通常の多地点音声通信利用においては、入力地点と出力地点は同一であり、入力がＡ、Ｂ、Ｃ地点であれば、出力もＡ、Ｂ、Ｃの３地点分必要であり、地点ＤはＡ、Ｂ、Ｃのいずれかの例であると読み替えるとよい。

音声パケットを受け取ったミキシングサーバ（５７０）では、パケット分解部（５７１）で音声パケットから音声符号およびＶＡＤフラグを取り出す。音声符号は更に音声符号分解部（５７３）で、低域符号と高域符号に分解され、低域符号は低域ミキシング部（５７５）に、高域符号は高域切換部（５７６）に送られる。ここで、高域符号は拡張レイヤ符号のひとつであり、高域符号は任意の拡張レイヤ符号に読み替えてもよいものとする。（以下同じ。）

低域ミキシング部（５７５）は、各地点からの低域符号を受け取ってデコードし、出力する地点毎にミキシング音声を生成して低域符号に変換し、この低域符号を音声符号結合部（５７６）に送る。

話者選択部（５７４）は、各地点からのＶＡＤフラグと、各音声符号に含まれる音声情報（例えばパワーであるとし、これを示す符号が音声符号に含まれているとする。）を参照して、時々刻々、どの地点が主たる発言者であるのかの自動判定処理を行ったうえで、第一話者を示すインデックス（第一話者番号）と第二話者を示すインデックス（第二話者番号）を出力する。第一話者とは、全地点の中で主として発言している地点の話者であり、第二話者とは、第一話者地点を除いた地点の中で主として発言している地点の話者である。なお、話者選択部（５７４）の話者選択方法は、例えば、パワーが十分に大きく且つ補正ＶＡＤフラグによって音声区間と判別された地点の高域符号（拡張レイヤ情報）を選択するようにすればよい。
ここでは、音声符号にパワーを示す符号が含まれているとして、それを話者選択部（５７４）が取得する構成としたが、例えば、パケット分解部（５７１）が音声情報を音声符号から取り出して、この音声情報が話者選択部（５７４）の入力となる構成としてもよいし、音声／非音声判定補正部（１００）の音声情報取得部（１４０）が取り出した音声情報を話者選択部（５７４）の入力となる構成としてもよい。

高域切換部（５７６）は、各地点からの高域符号を受け取り、話者選択部（５７４）が出力した第一話者番号および第二話者番号を用いて、音声パケットを出力する地点毎に高域符号を１地点分選択し、音声符号結合部（５７６）に送る。

音声符号結合部（５７６）は、低域符号と高域符号とを結合して、結合した音声符号をパケット構成部（５７７）に送る。パケット構成部（５７７）は、入力された音声符号を用いて音声パケットを作成し、これを出力する。

第５実施形態では、第１実施形態を音声ミキシング装置に適用した実施形態を説明したが、第２、第３、第４の各実施形態も同様に音声ミキシング装置に適用できる。パケット分解部（５７１）で取り出された音声符号は音声情報取得部（１４０）およびミキシング部（５７２）の入力となり、パケット分解部（５７１）で取り出されたＶＡＤフラグは補正判定制御部（１１０）の入力となることに変わりないので、図１３〜図１６に示して説明を略する。図１３は、ミキシングサーバに第２実施形態を適用した場合のミキシングサーバ内の機能構成例を示す図、図１４は、ミキシングサーバに第２実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、図１５は、ミキシングサーバに第３実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、図１６は、ミキシングサーバに第４実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、である。同一符号が当てられた機能・処理は既述のとおりである。

各地点における音声パケット送信部では、入力音声信号に背景雑音が含まれている場合やマイクロホンへの入力レベルが適切でない場合、あるいは部屋の残響等の影響などが在りえる自然な環境下で、音声区間と非音声区間との判別に失敗したとしても、符号化に要するビットレートが増加する等の問題は生じる場合があるものの、致命的な問題は生じない。しかし、音声ミキシング装置におけるミキシングにおいては、音声区間であるか非音声区間であるかの情報に基づいてチャネルを選択する処理を用いてミキシングを行うため、例えば非音声区間が音声区間として判定されている場合はチャネルを選択する処理が正しく行われなくなり、ミキシング後の通話品質・音質が劣化するという虞があった。
しかし、上記第５実施形態の如く、音声ミキシング装置で音声／非音声の判定結果の補正処理を行う構成に拠れば、単にＶＡＤフラグが補正されるという効果のみならず、音声パケットの送信側における音声区間検出部を変更する手間をかけることなく、ミキシング後の通話品質・音質を劣化させないという効果を有することになる。

＜第６実施形態＞
次に、図１７および図１８を参照して、本発明の第６実施形態を説明する。第６実施形態は、第１実施形態を音声パケット通信に適用した実施形態である。詳しくは、上記特許文献１に開示される多地点ミキシング方法において音声パケット生成装置に第１実施形態を適用した実施形態である。音声パケット生成装置のハードウェア構成例は音声／非音声判定補正装置のハードウェア構成例と同様であり、重複説明をしない（図３参照。）。また、音声パケット生成装置のパケット構成部、音声波形符号化部および音声区間検出部については、いずれもＤＳＰ（１４）がその機能を実現するとする。なお、本形態では、音声パケット生成装置を音声パケット送信部として説明する。

第６実施形態において、音声／非音声の判定結果の補正処理は、音声パケット送信部（５００）において行われる。このとき、第１実施形態の音声／非音声判定補正装置（１）は、音声／非音声の判定結果を用いて音声信号処理を行う音声信号処理装置、つまり音声パケット送信部（５００）を構成するエンティティとして存在するのが一般的であるので、第５実施形態では、第１実施形態の音声／非音声判定補正装置（１）と同等の機能構成を、音声パケット送信部（５００）を構成する音声／非音声判定補正部（２００）によって実現するとして説明する。つまり、音声／非音声判定補正部（２００）の機能をデジタルシグナルプロセッサが実現する場合や専用ＬＳＩに実装して実現する例で考えればよい。

特許文献１に開示される多地点ミキシング方法では、フレーム（例えば１０ｍｓ〜２０ｍｓ程度である。）に区切った入力音声信号を音声波形符号化部（５０１）が音声符号に変換してこれを出力する（ステップＳ７０）。出力された音声符号は、パケット構成部（５０３）および音声／非音声判定補正部（２００）の音声情報取得部（１４０）の入力となる。また、音声区間検出部（５０２）がフレーム毎に音声区間であるか非音声区間であるかのＶＡＤフラグを出力する（ステップＳ７１）。音声区間検出部（５０２）の音声／非音声区間判定方法は従来的なものであり格別の限定は無い。ただ、従来的な音声／非音声区間判定方法が、簡易迅速な音声／非音声区間判定を行うものであるならば、本発明である音声／非音声の判定結果の補正処理は有利な効果をもたらす。このＶＡＤフラグは音声／非音声判定補正部（２００）の補正判定制御部（１１０）の入力となる。音声／非音声判定補正部（２００）における機能構成および処理内容は第１実施形態と同様であり、音声／非音声判定補正部（２００）は補正ＶＡＤフラグを出力する。補正ＶＡＤフラグはパケット構成部（５０３）の入力となる。パケット構成部（５０３）は補正ＶＡＤフラグを音声符号とともに音声パケットに組み込んでこれをパケット通信網（９５０）へ送る（ステップＳ７２）。上記特許文献１に開示される多地点ミキシング方法では、音声区間検出部が出力したＶＡＤフラグがパケット構成部（５０３）の入力となっていたが、第６実施形態では、音声／非音声判定補正部（２００）が出力した補正ＶＡＤフラグがパケット構成部（５０３）の入力となっている点で異なる。
なお、第６実施形態は各地点の音声パケット送信部に適用可能であり、図１７は、入力音声信号に対するＶＡＤフラグの補正を行う、或る１地点の音声パケット送信部の機能構成例を示したものである。

第６実施形態では、音声情報取得部（１４０）は、音声符号から音声情報を取得する。音声情報としては、第１実施形態と同様、例えば音声符号の音声のパワーやピッチの相関値とすることができる。音声情報の取得方法は、第５実施形態で説明したのと同様の方法に拠ることができる。

なお、第６実施形態では、音声情報取得部（１４０）が、音声符号から音声情報を取得することに限定されない。この場合、音声情報の取得方法を、入力音声信号から直接に音声情報を得るものとすることができ、例えばパワーを音声情報とする場合では、入力音声信号の音声波形の二乗和を計算することによってパワーを求めることができる。

第６実施形態では、第１実施形態を音声パケット生成装置に適用した実施形態を説明したが、第２、第３、第４の各実施形態も同様に音声パケット生成装置に適用できる。音声波形符号化部（５０１）が出力した音声符号は音声情報取得部（１４０）およびパケット構成部（５０３）の入力となり、音声区間検出部（５０２）が出力したＶＡＤフラグは補正判定制御部（１１０）の入力となることに変わりないので、図１９〜図２２に示して説明を略する。図１９は、音声パケット送信部に第２実施形態を適用した場合のミキシングサーバ内の機能構成例を示す図、図２０は、音声パケット送信部に第２実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、図２１は、音声パケット送信部に第３実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、図２２は、音声パケット送信部に第４実施形態を適用した場合のミキシングサーバ内のミキシング処理の流れを示す図、である。同一符号が当てられた機能・処理は既述のとおりである。

以上の実施形態の他、本発明である音声／非音声判定補正装置・方法並びに音声ミキシング装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記音声／非音声判定補正装置・方法並びに音声ミキシング装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記音声／非音声判定補正装置並びに音声ミキシング装置における処理機能をコンピュータによって実現する場合、音声／非音声判定補正装置並びに音声ミキシング装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声／非音声判定補正装置並びに音声ミキシング装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、音声／非音声判定補正装置並びに音声ミキシング装置を構成するとしてもよいが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明は、音声／非音声の判定結果（ＶＡＤフラグ）を補正することに特徴があるところ、例えば、ＶＡＤフラグに基づいて話者の切り替えを行う、音声パケット通信による多地点音声通信に有用である。また、音声パケット通信による多地点音声通信に利用する場合には、音声ミキシング装置側のみに本発明を適用することだけで、低コストで品質の高い多地点音声通信を実現できる。

多地点音声通信のシステム構成例を示す図。多地点音声通信システムの機能構成例を示す図。第１実施形態における音声／非音声判定補正装置のハードウェア構成例を示す図。第１実施形態における音声／非音声判定補正装置の機能構成例を示す図。第１実施形態における音声／非音声判定補正処理の流れを示す図。第２実施形態における音声／非音声判定補正装置の機能構成例を示す図。第２実施形態における音声／非音声判定補正処理の流れを示す図。第３実施形態における音声／非音声判定補正処理の流れを示す図。第４実施形態における音声／非音声判定補正処理の流れを示す図。第１実施形態を適用した音声パケット通信システムの機能構成例を示す図（第５実施形態）。第１実施形態を適用したミキシングサーバの機能構成例を示す図（第５実施形態）。第１実施形態を適用したミキシングサーバにおける処理の流れを示す図（第５実施形態）。第２実施形態を適用したミキシングサーバの機能構成例を示す図（第５実施形態相当）。第２実施形態を適用したミキシングサーバにおける処理の流れを示す図（第５実施形態相当）。第３実施形態を適用したミキシングサーバにおける処理の流れを示す図（第５実施形態相当）。第４実施形態を適用したミキシングサーバにおける処理の流れを示す図（第５実施形態相当）。第１実施形態を適用した音声パケット送信部の機能構成例を示す図（第６実施形態）。第１実施形態を適用した音声パケット送信部における処理の流れを示す図（第６実施形態）。第２実施形態を適用した音声パケット送信部の機能構成例を示す図（第６実施形態相当）。第２実施形態を適用した音声パケット送信部における処理の流れを示す図（第６実施形態相当）。第３実施形態を適用した音声パケット送信部における処理の流れを示す図（第６実施形態相当）。第４実施形態を適用した音声パケット送信部における処理の流れを示す図（第６実施形態相当）。ミキシング部の詳細な機能構成例を示した図。

符号の説明

１音声／非音声判定補正装置
１００音声／非音声判定補正部
１１０補正判定制御部
１２０ＶＡＤフラグ補正判定部
１４０音声情報取得部
１５０閾値更新部
１６０音声／非音声区間割合算出部
１８０音声情報蓄積部
２００音声／非音声判定補正部

Claims

フレーム単位の音響信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果（以下、ＶＡＤフラグという。）と、上記フレーム（以下、現フレームという。）の音響信号とを入力とし、
現フレームに対するＶＡＤフラグ（以下、現ＶＡＤフラグという。）および過去に入力された各フレームに対する各ＶＡＤフラグ（以下、過去ＶＡＤフラグという。）によって得られる音声区間の割合／非音声区間の割合の少なくとも一方が、予め設定された条件（以下、所定条件という。）を満たしていない場合に、現フレームの音響信号の音響特徴量（以下、音声情報という。）と閾値との比較した結果に基づいて、現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに、当該現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合に前記補正されたＶＡＤフラグを出力する音声／非音声判定補正手段
を備えた音声／非音声判定補正装置。
上記音声／非音声判定補正手段は、
上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、
上記音声情報と上記閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグ（以下、補正ＶＡＤフラグという。）を出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定手段と、
入力された上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる非音声区間の割合が上記所定条件を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御手段と
を含むことを特徴とする請求項１に記載の音声／非音声判定補正装置。
上記音声／非音声判定補正手段は、
上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出手段と、
上記音声／非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
を含み、
上記所定条件を、予め定められた第一の割合以上／より大として、
上記閾値更新手段は、
上記音声／非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満／以下であれば上記閾値を大きくするように更新し、
上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記閾値を更新せず、
上記第二の割合以上／より大であれば上記閾値を小さくするように更新する
ことを特徴とする請求項２に記載の音声／非音声判定補正装置。
上記音声／非音声判定補正手段は、
上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出手段と、
上記音声／非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
を含み、
上記所定条件を、予め定められた第一の割合以上／より大として、
上記閾値更新手段は、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、
上記音声／非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満／以下であれば上記Ｎを増大して上記閾値を更新し、
上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記Ｎを更新せず、
上記第二の割合以上／より大であれば上記Ｎを減少して上記閾値を更新する
ことを特徴とする請求項２に記載の音声／非音声判定補正装置。
上記ＶＡＤフラグ補正判定手段は、
上記音声情報が上記閾値以下／より小の場合に、上記現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値より大／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものである
ことを特徴とする請求項２から請求項４のいずれかに記載の音声／非音声判定補正装置。
上記音声／非音声判定補正手段は、
上記現フレームの音響信号から上記音声情報を取得する音声情報取得手段と、
上記音声情報と上記閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグ（以下、補正ＶＡＤフラグという。）を出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定手段と、
入力された上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる音声区間の割合が上記所定条件を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御手段と
を含むことを特徴とする請求項１に記載の音声／非音声判定補正装置。
上記音声／非音声判定補正手段は、
上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出手段と、
上記音声／非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
を含み、
上記所定条件を、予め定められた第三の割合以上／より大として、
上記閾値更新手段は、
上記音声／非音声区間割合算出手段によって得られた音声区間の割合が、
上記第三の割合未満／以下であれば上記閾値を小さくするように更新し、
上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記閾値を更新せず、
上記第四の割合以上／より大であれば上記閾値を大きくするように更新する
ことを特徴とする請求項６に記載の音声／非音声判定補正装置。
上記音声／非音声判定補正手段は、
上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出手段と、
上記音声／非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
を含み、
上記所定条件を、予め定められた第三の割合以上／より大として、
上記閾値更新手段は、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、
上記音声／非音声区間割合算出手段によって得られた音声区間の割合が、
上記第三の割合未満／以下であれば上記Ｎを減少して上記閾値を更新し、
上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記Ｎを更新せず、
上記第四の割合以上／より大であれば上記Ｎを増大して上記閾値を更新する
ことを特徴とする請求項６に記載の音声／非音声判定補正装置。
上記ＶＡＤフラグ補正判定手段は、
上記音声情報が上記閾値以上／より大の場合に、上記現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値未満／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものである
ことを特徴とする請求項６から請求項８のいずれかに記載の音声／非音声判定補正装置。
音声／非音声判定補正手段が、フレーム単位の音響信号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果（以下、ＶＡＤフラグという。）と、上記フレーム（以下、現フレームという。）の音響信号とを入力として、現フレームに対するＶＡＤフラグ（以下、現ＶＡＤフラグという。）および過去に入力された各フレームに対する各ＶＡＤフラグ（以下、過去ＶＡＤフラグという。）によって得られる音声区間の割合／非音声区間の割合の少なくとも一方が、予め設定された条件（以下、所定条件という。）を満たしていない場合に、現フレームの音響信号の音響特徴量（以下、音声情報という。）と閾値との比較した結果に基づいて、現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに、当該現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合に補正されたＶＡＤフラグを出力する音声／非音声判定補正ステップ
を有する音声／非音声判定補正方法。
上記音声／非音声判定補正ステップは、
音声情報取得手段が、上記現フレームの音響信号から上記音声情報を取得する音声情報取得ステップと、
ＶＡＤフラグ補正判定手段が、上記音声情報と上記閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグ（以下、補正ＶＡＤフラグという。）を出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定ステップと、
補正判定制御手段が、入力された上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる非音声区間の割合が上記所定条件を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御ステップと
を含むことを特徴とする請求項１０に記載の音声／非音声判定補正方法。
上記音声／非音声判定補正ステップは、
音声／非音声区間割合算出手段が、上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出ステップと、
閾値更新手段が、上記音声／非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
を含み、
上記所定条件を、予め定められた第一の割合以上／より大として、
上記閾値更新ステップは、
上記音声／非音声区間割合算出ステップにおいて得られた非音声区間の割合が、
上記第一の割合未満／以下であれば上記閾値を大きくするように更新し、
上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記閾値を更新せず、
上記第二の割合以上／より大であれば上記閾値を小さくするように更新する
ことを特徴とする請求項１１に記載の音声／非音声判定補正方法。
上記音声／非音声判定補正ステップは、
音声／非音声区間割合算出手段が、上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出ステップと、
閾値更新手段が、上記音声／非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
音声情報蓄積手段が、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積する音声情報蓄積ステップと
を含み、
上記所定条件を、予め定められた第一の割合以上／より大として、
上記閾値更新ステップは、
上記音声情報蓄積ステップにおいて蓄積された上記音声情報の統計量を算出し、
Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、
上記音声／非音声区間割合算出ステップにおいて得られた非音声区間の割合が、
上記第一の割合未満／以下であれば上記Ｎを増大して上記閾値を更新し、
上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記Ｎを更新せず、
上記第二の割合以上／より大であれば上記Ｎを減少して上記閾値を更新する
ことを特徴とする請求項１１に記載の音声／非音声判定補正方法。
上記ＶＡＤフラグ補正判定ステップは、
上記音声情報が上記閾値以下／より小の場合に、上記現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値より大／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものである
ことを特徴とする請求項１１から請求項１３のいずれかに記載の音声／非音声判定補正方法。
上記音声／非音声判定補正ステップは、
音声情報取得手段が、上記現フレームの音響信号から上記音声情報を取得する音声情報取得ステップと、
ＶＡＤフラグ補正判定手段が、上記音声情報と上記閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグ（以下、補正ＶＡＤフラグという。）を出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定ステップと、
補正判定制御手段が、入力された上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる音声区間の割合が上記所定条件を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御ステップと
を含むことを特徴とする請求項１０に記載の音声／非音声判定補正方法。
上記音声／非音声判定補正ステップは、
音声／非音声区間割合算出手段が、上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出ステップと、
閾値更新手段が、上記音声／非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
を含み、
上記所定条件を、予め定められた第三の割合以上／より大として、
上記閾値更新ステップは、
上記音声／非音声区間割合算出ステップにおいて得られた音声区間の割合が、
上記第三の割合未満／以下であれば上記閾値を小さくするように更新し、
上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記閾値を更新せず、
上記第四の割合以上／より大であれば上記閾値を大きくするように更新する
ことを特徴とする請求項１５に記載の音声／非音声判定補正方法。
上記音声／非音声判定補正ステップは、
音声／非音声区間割合算出手段が、上記現フレームに対応する上記補正ＶＡＤフラグおよび過去に入力された各フレームに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出ステップと、
閾値更新手段が、上記音声／非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
音声情報蓄積手段が、上記現フレームおよび過去に入力された各フレームに対応する音声情報を蓄積する音声情報蓄積ステップと
を含み、
上記所定条件を、予め定められた第三の割合以上／より大として、
上記閾値更新ステップは、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、
上記音声／非音声区間割合算出ステップにおいて得られた音声区間の割合が、
上記第三の割合未満／以下であれば上記Ｎを減少して上記閾値を更新し、
上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記Ｎを更新せず、
上記第四の割合以上／より大であれば上記Ｎを増大して上記閾値を更新する
ことを特徴とする請求項１５に記載の音声／非音声判定補正方法。
上記ＶＡＤフラグ補正判定ステップは、
上記音声情報が上記閾値以上／より大の場合に、上記現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値未満／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものである
ことを特徴とする請求項１５から請求項１７のいずれかに記載の音声／非音声判定補正方法。
入力された音声パケットから少なくとも音声符号および当該音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果（以下、現ＶＡＤフラグという。）を取り出すパケット分解手段と、
上記音声符号および上記現ＶＡＤフラグを入力として補正ＶＡＤフラグを出力する音声／非音声判定補正手段と、
複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正ＶＡＤフラグを用いてミキシングし、音声パケットを出力するミキシング手段と
を備え、
上記音声／非音声判定補正手段は、
上記音声符号から当該音声符号の音響特徴量（以下、音声情報という。）を取得する音声情報取得手段と、
上記音声情報と閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグを補正ＶＡＤフラグとして出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定手段と、
入力された上記現ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各ＶＡＤフラグ（以下、過去ＶＡＤフラグという。）によって得られる非音声区間の割合が予め設定された条件（以下、所定条件という。）を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御手段と
を含む音声ミキシング装置。
上記音声／非音声判定補正手段は、
入力された音声パケットに対応する上記補正ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出手段と、
上記音声／非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
を含み、
上記所定条件を、予め定められた第一の割合以上／より大として、
上記閾値更新手段は、
上記音声／非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満／以下であれば上記閾値を大きくするように更新し、
上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記閾値を更新せず、
上記第二の割合以上／より大であれば上記閾値を小さくするように更新する
ことを特徴とする請求項１９に記載の音声ミキシング装置。
上記音声／非音声判定補正手段は、
入力された音声パケットに対応する上記補正ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出手段と、
上記音声／非音声区間割合算出手段によって得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
を含み、
上記所定条件を、予め定められた第一の割合以上／より大として、
上記閾値更新手段は、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、
上記音声／非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満／以下であれば上記Ｎを増大して上記閾値を更新し、
上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記Ｎを更新せず、
上記第二の割合以上／より大であれば上記Ｎを減少して上記閾値を更新する
ことを特徴とする請求項１９に記載の音声ミキシング装置。
上記ＶＡＤフラグ補正判定手段は、
上記音声情報が上記閾値以下／より小の場合に、上記現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値より大／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものである
ことを特徴とする請求項１９から請求項２１のいずれかに記載の音声ミキシング装置。
入力された音声パケットから少なくとも音声符号および当該音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果（以下、現ＶＡＤフラグという。）を取り出すパケット分解手段と、
上記音声符号および上記現ＶＡＤフラグを入力として補正ＶＡＤフラグを出力する音声／非音声判定補正手段と、
複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正ＶＡＤフラグを用いてミキシングし、音声パケットを出力するミキシング手段と
を備え、
上記音声／非音声判定補正手段は、
上記音声符号から当該音声符号の音響特徴量（以下、音声情報という。）を取得する音声情報取得手段と、
上記音声情報と閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグを補正ＶＡＤフラグとして出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定手段と、
入力された上記現ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各ＶＡＤフラグ（以下、過去ＶＡＤフラグという。）によって得られる音声区間の割合が予め設定された条件（以下、所定条件という。）を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御手段と
を含む音声ミキシング装置。
上記音声／非音声判定補正手段は、
入力された音声パケットに対応する上記補正ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出手段と、
上記音声／非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と
を含み、
上記所定条件を、予め定められた第三の割合以上／より大として、
上記閾値更新手段は、
上記音声／非音声区間割合算出手段によって得られた音声区間の割合が、
上記第三の割合未満／以下であれば上記閾値を小さくするように更新し、
上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記閾値を更新せず、
上記第四の割合以上／より大であれば上記閾値を大きくするように更新する
ことを特徴とする請求項２３に記載の音声ミキシング装置。
上記音声／非音声判定補正手段は、
入力された音声パケットに対応する上記補正ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出手段と、
上記音声／非音声区間割合算出手段によって得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新手段と、
入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積し、この蓄積された上記音声情報を上記閾値更新手段に供給可能である音声情報蓄積手段と
を含み、
上記所定条件を、予め定められた第三の割合以上／より大として、
上記閾値更新手段は、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、
上記音声／非音声区間割合算出手段によって得られた音声区間の割合が、
上記第三の割合未満／以下であれば上記Ｎを減少して上記閾値を更新し、
上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記Ｎを更新せず、
上記第四の割合以上／より大であれば上記Ｎを増大して上記閾値を更新する
ことを特徴とする請求項２３に記載の音声ミキシング装置。
上記ＶＡＤフラグ補正判定手段は、
上記音声情報が上記閾値以上／より大の場合に、上記現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値未満／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものである
ことを特徴とする請求項２３から請求項２５のいずれかに記載の音声ミキシング装置。
パケット分解手段が、入力された音声パケットから少なくとも音声符号および当該音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果（以下、現ＶＡＤフラグという。）を取り出すパケット分解ステップと、
音声／非音声判定補正手段が、上記音声符号および上記現ＶＡＤフラグを入力として補正ＶＡＤフラグを出力する音声／非音声判定補正ステップと、
ミキシング手段が、複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正ＶＡＤフラグを用いてミキシングし、音声パケットを出力するミキシングステップと
を有し、
上記音声／非音声判定補正ステップは、
音声情報取得手段が、上記音声符号から当該音声符号の音響特徴量（以下、音声情報という。）を取得する音声情報取得ステップと、
ＶＡＤフラグ補正判定手段が、上記音声情報と閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグを補正ＶＡＤフラグとして出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定ステップと、
補正判定制御手段が、入力された上記現ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各ＶＡＤフラグ（以下、過去ＶＡＤフラグという。）によって得られる非音声区間の割合が予め設定された条件（以下、所定条件という。）を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる非音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御ステップと
を含む音声ミキシング方法。
上記音声／非音声判定補正ステップは、
音声／非音声区間割合算出手段が、入力された音声パケットに対応する上記補正ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出ステップと、
閾値更新手段が、上記音声／非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
を含み、
上記所定条件を、予め定められた第一の割合以上／より大として、
上記閾値更新ステップは、
上記音声／非音声区間割合算出ステップにおいて得られた非音声区間の割合が、
上記第一の割合未満／以下であれば上記閾値を大きくするように更新し、
上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記閾値を更新せず、
上記第二の割合以上／より大であれば上記閾値を小さくするように更新する
ことを特徴とする請求項２７に記載の音声ミキシング方法。
上記音声／非音声判定補正ステップは、
音声／非音声区間割合算出手段が、入力された音声パケットに対応する上記補正ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる非音声区間の割合を算出する音声／非音声区間割合算出ステップと、
閾値更新手段が、上記音声／非音声区間割合算出ステップにおいて得られた上記非音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
音声情報蓄積手段が、入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積する音声情報蓄積ステップと
を含み、
上記所定条件を、予め定められた第一の割合以上／より大として、
上記閾値更新ステップは、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、
上記音声／非音声区間割合算出手段によって得られた非音声区間の割合が、
上記第一の割合未満／以下であれば上記Ｎを増大して上記閾値を更新し、
上記第一の割合以上／より大であり、且つ、上記第一の割合よりも大であって予め定められた第二の割合未満／以下であれば上記Ｎを更新せず、
上記第二の割合以上／より大であれば上記Ｎを減少して上記閾値を更新する
ことを特徴とする請求項２７に記載の音声ミキシング方法。
上記ＶＡＤフラグ補正判定ステップは、
上記音声情報が上記閾値以下／より小の場合に、上記現ＶＡＤフラグが音声区間を示すものであれば非音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値より大／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものである
ことを特徴とする請求項２７から請求項２９のいずれかに記載の音声ミキシング方法。
パケット分解手段が、入力された音声パケットから少なくとも音声符号および上記音声符号が音声区間のものであるかあるいは非音声区間のものであるかのいずれであるかを示す判定結果（以下、現ＶＡＤフラグという。）を取り出すパケット分解ステップと、
音声／非音声判定補正手段が、上記音声符号および上記現ＶＡＤフラグを入力として補正ＶＡＤフラグを出力する音声／非音声判定補正ステップと、
ミキシング手段が、複数の地点から送られた上記音声パケットそれぞれについて得られた複数の上記音声符号および上記補正ＶＡＤフラグを用いてミキシングし、音声パケットを出力するミキシングステップと
を有し、
上記音声／非音声判定補正ステップは、
音声情報取得手段が、上記現音声符号から当該音声符号の音響特徴量（以下、音声情報という。）を取得する音声情報取得ステップと、
ＶＡＤフラグ補正判定手段が、上記音声情報と閾値との比較した結果に基づいて、上記現ＶＡＤフラグを、当該現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正することの要否を判定し、補正要と判定した場合には前記補正したＶＡＤフラグを補正ＶＡＤフラグとして出力し、補正を要しないと判定した場合には現ＶＡＤフラグを補正ＶＡＤフラグとして出力するＶＡＤフラグ補正判定ステップと、
補正判定制御手段が、入力された上記現ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各ＶＡＤフラグ（以下、過去ＶＡＤフラグという。）によって得られる音声区間の割合が予め設定された条件（以下、所定条件という。）を満たしていない場合には、上記現ＶＡＤフラグを上記ＶＡＤフラグ補正判定手段に出力し、上記現ＶＡＤフラグおよび上記各過去ＶＡＤフラグによって得られる音声区間の割合が上記所定条件を満たしている場合には、現ＶＡＤフラグを補正ＶＡＤフラグとして出力する補正判定制御ステップと
を含む音声ミキシング方法。
上記音声／非音声判定補正ステップは、
音声／非音声区間割合算出手段が、入力された音声パケットに対応する上記補正ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出ステップと、
閾値更新手段が、上記音声／非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと
を含み、
上記所定条件を、予め定められた第三の割合以上／より大として、
上記閾値更新ステップは、
上記音声／非音声区間割合算出ステップにおいて得られた音声区間の割合が、
上記第三の割合未満／以下であれば上記閾値を小さくするように更新し、
上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記閾値を更新せず、
上記第四の割合以上／より大であれば上記閾値を大きくするように更新する
ことを特徴とする請求項３１に記載の音声ミキシング方法。
上記音声／非音声判定補正ステップは、
音声／非音声区間割合算出手段が、入力された音声パケットに対応する上記補正ＶＡＤフラグおよび過去に入力された各音声パケットに対応する各補正ＶＡＤフラグ（以下、過去補正ＶＡＤフラグという。）によって得られる音声区間の割合を算出する音声／非音声区間割合算出ステップと、
閾値更新手段が、上記音声／非音声区間割合算出ステップにおいて得られた上記音声区間の割合に基づいて上記閾値を更新する閾値更新ステップと、
音声情報蓄積手段が、入力された音声パケットに対応する音声情報および過去に入力された各音声パケットに対応する音声情報を蓄積する音声情報蓄積ステップと
を含み、
上記所定条件を、予め定められた第三の割合以上／より大として、
上記閾値更新ステップは、
上記音声情報蓄積手段に蓄積された上記音声情報の統計量を算出し、
Ｎを１以上の数値として、上記閾値を上記統計量のＮ倍として設定するものとし、
上記音声／非音声区間割合算出ステップにおいて得られた音声区間の割合が、
上記第三の割合未満／以下であれば上記Ｎを減少して上記閾値を更新し、
上記第三の割合以上／より大であり、且つ、上記第三の割合よりも大であって予め定められた第四の割合未満／以下であれば上記Ｎを更新せず、
上記第四の割合以上／より大であれば上記Ｎを増大して上記閾値を更新する
ことを特徴とする請求項３１に記載の音声ミキシング方法。
上記ＶＡＤフラグ補正判定ステップは、
上記音声情報が上記閾値以上／より大の場合に、上記現ＶＡＤフラグが非音声区間を示すものであれば音声区間を示すＶＡＤフラグに補正するとして、この補正をした補正ＶＡＤフラグを出力し、上記音声情報が上記閾値未満／以下の場合に、現ＶＡＤフラグを補正ＶＡＤフラグとして出力するものである
ことを特徴とする請求項３１から請求項３３のいずれかに記載の音声ミキシング方法。
請求項１から請求項９のいずれかに記載された音声／非音声判定補正装置としてコンピュータを機能させるための音声／非音声判定補正プログラム。
請求項３５に記載の音声／非音声判定補正プログラムを記録した、コンピュータに読み取り可能な記録媒体。
請求項１９から請求項２６のいずれかに記載された音声ミキシング装置としてコンピュータを機能させるための音声ミキシングプログラム。
請求項３７に記載の音声ミキシングプログラムを記録した、コンピュータに読み取り可能な記録媒体。