JP4798601B2

JP4798601B2 - 音声区間検出装置および音声区間検出プログラム

Info

Publication number: JP4798601B2
Application number: JP2005211746A
Authority: JP
Inventors: 博章田川
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-12-28
Filing date: 2005-07-21
Publication date: 2011-10-19
Anticipated expiration: 2025-07-21
Also published as: JP2006209069A

Description

本発明は、サンプリングされた音声データから音声区間を検出する音声区間検出装置および音声区間検出プログラムの構成に関する。

たとえば、移動体通信などの音声処理の技術として、ＶＯＸ（ＶｏｉｃｅＯｐｅｒａｔｅｄＴｒａｎｓｍｉｔｔｅｒ）がある。ここで、ＶＯＸとは、音声の有無に応じて送信信号出力のＯＮ／ＯＦＦを行う技術のことで、例えば、音声を検出したときのみ信号を発信し、装置周辺が無音の時は信号を発信しないなどの処理を行うものであり、送信部の省電力化を図ることができる（たとえば、特許文献１を参照）。
特開２００４−２７２０５２号公報明細書

しかしながら、従来の方法は、高精度に音声区間を検出しようとすると、計算量が増加してしまう傾向があり、雑音環境下において、比較的少ない計算量で効率よく音声区間を検出する方法は、必ずしも確立されたとはいえない状況であった。

本発明は、上記のような問題を解決するためになされたものであって、その目的は、雑音環境下において、比較的少ない計算量で効率よく音声区間を検出することが可能な音声区間検出装置および音声区間検出プログラムを提供することである。

このような目的を達成するために、本発明の音声区間検出装置は、指定された区間における離散変数について、離散変数の区間における平均と各離散変数との差の絶対値の区間についての平均または絶対値の２乗の区間についての平均のいずれかを離散変数のばらつき量として求める関数と定義するとき、サンプリングされた音声データに対してフレームの切り出し処理を行うためのフレーム処理手段と、フレームを区間とし音声データを離散変数として関数により、音声データのばらつきを第１変動として算出する第１変動算出手段と、音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を区間とし第１変動を離散変数として関数により、第１変動のばらつきを第２変動として算出する第２変動算出手段と、第２変動と所定のしきい値を比較することで、音声または非音声の判定をフレーム毎に行うフレーム判定手段と、音声および非音声に判定された結果をもとに音声区間を決定する音声区間決定手段とを備える。

好ましくは、第１変動算出手段は、音声データのばらつきをスムージングして第１変動として算出する。

好ましくは、第２変動算出手段は、第１変動のばらつきをスムージングして第２変動として算出する。

好ましくは、音声区間決定手段は、音声および非音声に判定されたフレームの継続長から音声区間を決定する。

好ましくは、音声区間決定手段は、音声区間と判定されたフレームのうち、所定の継続長を満たさなかった音声区間は音声区間から除外する。

好ましくは、音声区間決定手段は、音声区間の間に挟まれていて、所定の継続長以下の非音声区間は、両端の音声区間と合わせて１つの音声区間とする。

この発明の他の局面に従うと、演算処理装置と音声入力装置と記憶装置とを有するコンピュータに音声区間検出を実行させるための音声区間検出プログラムであって、指定された区間における離散変数について、離散変数の区間における平均と各離散変数との差の絶対値の区間についての平均または絶対値の２乗の区間についての平均のいずれかを離散変数のばらつき量として求める関数と定義するとき、音声入力装置によりサンプリングされ、記憶装置に格納された音声データに対してフレームの切り出し処理を行うステップと、演算処理装置が、フレームを区間とし音声データを離散変数として関数により、音声データのばらつきを第１変動として算出するステップと、演算処理装置が、音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を区間とし第１変動を離散変数として関数により、第１変動のばらつきを第２変動として算出するステップと、演算処理装置が、第２変動と所定のしきい値を比較することで、音声または非音声の判定をフレーム毎に行うステップと、演算処理装置が、音声および非音声に判定された結果をもとに音声区間を決定するステップと、をコンピュータに実行させる。

好ましくは、第１変動として算出するステップは、音声データの音量をスムージングして第１変動として算出する。

好ましくは、第２変動として算出するステップは、第１変動の変動をスムージングして第２変動として算出する。

好ましくは、音声区間決定するステップは、音声および非音声に判定されたフレームの継続長から音声区間を決定する。

好ましくは、音声区間決定するステップは、音声区間と判定されたフレームのうち、所定の継続長を満たさなかった音声区間は音声区間から除外する。

好ましくは、音声区間決定するステップは、音声区間の間に挟まれていて、所定の継続長以下の非音声区間は、両端の音声区間と合わせて１つの音声区間とする。

以下、図面を参照して本発明の実施の形態について説明する。
[実施の形態１]
（本発明のシステム構成）
図１は、本発明の音声区間検出装置１０００の構成の一例を示す概念図である。

図１を参照して、音声区間検出装置１０００は、音声入力を受けて、音声データをサンプリングし、デジタルデータに変換するための音声データサンプリング部１０２と、音声データサンプリング部１０２によりサンプリングされた音声データを後の処理のために一時記憶するための一時記憶部１０４と、一時記憶部１０４に格納された音声データに対して音声区間の検出のための演算処理を行う演算部１０６と、演算部１０６により音声区間と判断された音声データを格納しておくためのデータ格納部１０８とを備える。

なお、図１に示した音声区間検出装置１０００では、演算部１０６による音声区間の検出は、データ格納部１０８へのデータの格納処理を行うか否かの判断を行うために実行されるものとしたが、本発明の音声区間検出方法は、このような場合に限定されることなく、音声区間の検出を他の処理を行うための判断基準として用いることもできる。たとえば、音声処理の前処理とか、上述したような、音声信号の送信を行うか否か、というような判断の基準としても用いることが可能である。

演算部１０６は、一時記憶部１０４に格納された音声データに対してフレーム処理（音声データの時系列に一定のウィンドウを順次かける処理）を行うフレーム処理部１０６２と、各フレームごとに音声か非音声かの判定を行って、音声区間の検出を行うための音声区間検出部１０６４とを含む。

特に、限定されないが、たとえば、音声データサンプリング部１０２については、コンピュータにおける周知の音声入力システムを用いることができ、また、演算部１０６の機能は、コンピュータのＣＰＵ（Central Processing Unit）がソフトウェアにより実行する機能により実現することも可能である。

もちろん、演算部１０６の機能は、専用のハードウェア（半導体集積回路）によって実現することも可能である。

図２は、図１に示したフレーム処理部１０６２と、音声区間検出部１０６４とが行う処理を説明するためのフローチャートであり、図３は、図２のフローチャートの処理を示す概念図である。

以下、図２および図３を参照して、本発明の音声区間検出装置１０００の動作について説明する。以下では、本発明の音声区間検出アルゴリズムを「ＶＳＤ（Variance Speech Detection）アルゴリズム」と呼ぶ。

ＶＳＤアルゴリズムは、以下に説明するとおり、音声信号の変動（パワー）の変動（変化量）としきい値を比較することで、音声または非音声の判定をフレーム毎に行い、音声および非音声に判定されたフレームの継続長から音声区間を決定するアルゴリズムである。

図２および図３を参照して、まず、音声データサンプリング部１０２により、以下のような音声データがサンプリングされる（ステップＳ１００）。

続いて、フレーム処理部１０６２により、以下のような音声フレームが切り出される（ステップＳ１０２）。

さらに、音声区間検出部１０６４により、各フレームについて、周波数の高域成分を強調するためのフィルタリング処理が行われる（ステップＳ１０４）。このようなフィルタリング処理を行う関数をＦＩＬＴＥＲ（…）で表す。

このようにして、高域強調がなされた各フレームについて、音声区間検出部１０６４は、以下の式にしたがって音声の第１変動ν_fの算出処理が行われる（ステップＳ１０６）。第１変動は音声データの“ばらつき”（=音の大きさ（音量）、パワーに相当）を意味し、その値は、大きな音であれば大きくなり、小さな音であれば小さくなる。このような変動の演算を行う関数をＶＡＲＩＡＮＣＥ（…）で表す。

なお、第１変動は、上記のとおり、サンプリングされた各音声信号と平均値との差の絶対値の和に対応する量に限られず、たとえば、このような差の２乗和に対応する量としてもよい。すなわち、上述のとおり、音量の大きな音の音声信号の系列に対しては大きな値となり、音量の小さな音の音声信号の系列に対しては小さな値となるような関数であれば、他の関数を用いることも可能である。

さらに、音声区間検出部１０６４は、第１変動ν_fについて、以下のようなスムージング窓長Ｍについて中央値をとるメディアンスムージング処理により、スムージングされた第１変動が算出される（ステップＳ１０８）。

このようにして得られたスムージングされた第１変動について、音声区間検出部１０６４は、さらに、音声変動の変動、すなわち、第２変動ｗfの算出が以下のようにして行われる（ステップＳ１１０）。第２変動は音の大きさ（音量）の“ばらつき”（=パワーの変化量）を意味し、その値は、音量が大きなったり小さくなったりと変化するほど大きくなり、音量に変化がない場合は小さくなる。

このようにして得られた第２変動に対して、さらに、音声区間検出部１０６４は、以下のようなスムージング窓長Ｌについて中央値をとるメディアンスムージングを行うことで、スムージングされた第２変動の算出が行われる（ステップＳ１１２）。

このようにして得られた「スムージングされた第２変動」に対して、以下のように予め定められたしきい値Ｈと比較することにより、音声区間検出部１０６４は、フレーム毎の音声・非音声判定を行う（ステップＳ１１４）。このようなしきい値Ｈについては、予め実験により、適切な値を定めておくものとする。

このようにして、フレームごとに音声区間と非音声区間とを予備的に判断した上で、音声区間検出部１０６４は、以下のような判定条件にしたがって、音声および非音声のフレーム継続長をもとにした音声区間を決定する（ステップＳ１１６）。

すなわち、しきい値比較により得られた仮の音声区間に対して、次の条件を当てはめる事で最適な音声区間を決定する。

条件（１）：最低限必要な継続長を満たさなかった音声区間は音声区間として認めない。このような「最低限必要な継続長」としては、特に限定されないがたとえば、所定の値として「１００ｍｓｅｃ以上」とすることができる。

条件（２）：音声区間の間に挟まれていて、連続した音声区間として扱うべき継続長を満たした非音声区間は、両端の音声区間と合わせて１つの音声区間とする。このような「連続した音声区間として扱うべき継続長」については、特に限定されないがたとえば、所定の値として「５００ｍｓｅｃ以下」とすることができる。

条件（３）：変動の値が小さいために非音声として判定された音声区間始終端の一定数のフレームを音声区間に付け加える。このような「一定数」としては、たとえば９７フレームとすることができる。

なお、以上の説明では、スムージング処理として、メディアンスムージングを例として説明したが、スムージング処理としては、他の方法を用いてもよい。

以上のような処理により、雑音環境下において、比較的少ない計算量で効率よく音声区間を検出することが可能となる。

すなわち、ＶＳＤアルゴリズムが音声・非音声を判定するために利用する音声の特徴としては、「言語音声の１つの特徴」として、比較的短い時間の単位で音量（パワー）が刻々と変化するということが挙げられる。ＶＳＤアルゴリズムでは、この特徴に着目して、パワーの変化量を抽出するために、音声変動の変動という値を利用している。

さらに、雑音下においてＶＳＤアルゴリズムが効率よく音声区間を検出できる理由としては、無音状態や環境雑音では音量の“ばらつき”が比較的少なく、ほぼ一定の音量であったり、音量の変化速度が遅い場合が多いことが挙げられる。このような特徴はＶＳＤアルゴリズムが着目して検出しようとする音声の特徴とは反する。このように比較的定常な雑音はその音量に関係なく、音声と区別することができる。また、音量変化の激しい雑音は、音声と比較すると継続時間が短い場合が多い。このような特徴は、継続長をもとにした音声区間の決定操作により音声区間と区別することができる。

図４から図７は、発声内容「あー」について、ＶＳＤアルゴリズムで計算される変動の時間変化を示す図である。

図４は、第１変動を表し、図５は、スムージングされた第１変動を表し、図６は、第２変動を表し、図７は、スムージングされた第２変動を表わす。なお、縦軸は、いずれも強度を表し、横軸は時間を表す。

発声内容「あー」については、長母音定状部分で第２変動が顕著に減衰することがわかる。そして、無音状態では、スムージングされた第２変動がほぼ０であるために、一定のしきい値を第２変動に用いれば、音声区間となるフレームを識別できることがわかる。

ただし、長母音定状部分で第２変動が顕著に減衰するため、上述した条件（１）〜（３）をさらに用いることで、正しく音声区間を検出できる。

図８から図１１は、発声内容「あいかわらず」(図３に使用したサンプル)について、ＶＳＤアルゴリズムで計算される変動の時間変化を示す図である。

図８は、第１変動を表し、図９は、スムージングされた第１変動を表し、図１０は、第２変動を表し、図１１は、スムージングされた第２変動を表わす。なお、縦軸は、いずれも強度を表し、横軸は時間を表す。

発声内容「あいかわらず」については、長母音定状部分で第２変動が顕著に減衰することがわかる。そして、語尾近傍以外では、スムージングされた第２変動に、一定のしきい値を用いれば、音声区間となるフレームを識別できることがわかる。

ただし、ここでも、語尾近傍部分で第２変動が減衰するため、上述した条件（１）〜（３）を用いることで、正しく音声区間を検出できる。
［実施の形態２］
実施の形態２では、実施の形態１で説明した音声区間検出装置１０００の構成を使用して、入力された音声信号の解析結果をユーザに対して表示し、一方で、ユーザは、音声区間検出装置の動作パラメータ等の設定を行なうことが可能なインタフェースを備えた、音声区間解析装置２０００の構成について説明する。

図１２は、実施の形態２の音声区間解析装置２０００の構成を説明するための機能ブロック図である。

図１２において、図１と同一部分には、同一符号を付している。
図１２を参照して、音声区間解析装置２０００は、マイク（図示せず）からの音声入力を、入出力インタフェース（以下、「入出力Ｉ／Ｆ」）１０１を介して受けて、音声データをサンプリングし、デジタルデータに変換するための音声データサンプリング部１０２と、音声データサンプリング部１０２によりサンプリングされた音声データを後の処理のために一時記憶するための一時記憶部１０４と、一時記憶部１０４に格納された音声データに対して音声区間の検出のための演算処理を行う演算部１０６と、演算部１０６により音声区間についての判断結果と関連づけて音声データを格納しておくためのデータ格納部１０８と、ユーザからの指示を入力するための操作部１２０と、データ格納部１０８に格納された音声データを演算部１０６の制御に基づいて、アナログの音声信号に変換して、入出力Ｉ／Ｆ１０１を介して、スピーカ（図示せず）に出力するためのＤ／Ａ変換器１１０とを備える。操作部１２０は、特に限定されないが、キーボードとマウスを備える。

演算部１０６は、操作部１２０からの指示に基づいて、音声区間解析装置２０００の動作を制御するための制御処理部１０６０と、一時記憶部１０４に格納された音声データに対してフレーム処理（音声データの時系列に一定のウィンドウを順次かける処理）を行うフレーム処理部１０６２と、各フレームごとに音声か非音声かの判定を行って、音声区間の検出を行い、音声区間を示すラベル情報と音声データとを関連づけて格納するための音声区間検出部１０６４とを含む。ここで、制御処理部１０６０は、操作部１２０からの指示に基づいて、音声入力信号の録音の開始、録音の停止、データ格納部１０８に格納された音声データに基づく音声信号の再生出力の開始、再生出力の停止、フレーム処理部１０６２や音声区間検出部１０６４の動作パラメータの設定等の処理を行なう。
（ラベルファイル出力機能）
以下では、フレーム処理部１０６２の機能について、さらに説明する。

まず、音声区間解析装置２０００において、フレーム処理部１０６２は、フレーム処理されたフレームの個数から、フレーム処理部で処理を開始してからの経過時間をフレーム毎に算出して出力する機能を有するものとする。

これに応じて、制御処理部１０６０は、音声区間検出部１０６４の検出結果に応じて、以下の処理を行なう。

１）制御処理部１０６０は、音声区間の開始位置に判定されたフレームの経過時間を音声区間の開始時間として出力する。

２）制御処理部１０６０は、音声区間の終了位置に判定されたフレームの経過時間を音声区間の終了時間として出力する。

制御処理部１０６０は、このような、音声区間の開始時間と、終了時間とをラベルファイルとして、音声データファイルと関連づけて、データ格納部１０８０に格納する。

特に、限定されないが、ラベルファイルのフォーマットの出力例としては、例えば、以下のような形式とすることができる。
<開始時間[msec]> <この時間区間が音声区間であることを示すラベル> <終了時間[msec]>
なお、これも特に限定されないが、演算部１０６の機能は、コンピュータのＣＰＵ（Central Processing Unit）がアプリケーションソフトウェアにより実行する機能により実現することが可能である。以下では、このような機能を実現するためのソフトウェアを「音声区間検出機能付き音声収録試聴アプリケーション」と呼ぶ。このようなアプリケーションソフトウェアは、音声のキャプチャおよび音声出力のためのハードウェアが実装されているのであれば、一般的な、パーソナルコンピュータ等にインストールして実行させることができる。

このとき、たとえば、データ格納部１０８がハードディスクであり、一時記憶部１０４がＲＡＭ（Random Access Memory）であるとすると、このような演算部１０６が実行するアプリケーションソフトウェアは記録媒体上に格納されており、図示しないドライブ装置により、パーソナルコンピュータに読み込まれて、ハードディスクに格納されることになる。
（音声区間検出機能付き音声収録試聴アプリケーション：基本画面）
次に、上述した「音声区間検出機能付き音声収録試聴アプリケーション」について、説明する。

図１３は、表示装置１４０上に出力される「音声区間検出機能付き音声収録試聴アプリケーション」の基本画面を説明するための図である。

初期状態では、音声波形表示窓１４１０には何も表示されていない。この状態で、操作部１２０のマウスの操作により、画面上の「録音開始ボタン」がクリックされると、制御処理部１０６０は、マイクなどの音声入力デバイスから音声波形データの読み込みを開始させる。

続いて、図１３に示すように、制御処理部１０６０の処理により、表示部１４０において、読み込んだ音声波形データが、音声波形表示窓１４１０に表示される。表示方法は、１）「録音停止ボタン」がクリックされてから読み込んだ全ての音声波形データを一度に表示しても良いし、２）「録音開始ボタン」がクリックされて読み込みが開始すると同時に所定の間隔で少しずつ窓の右端から逐次的に表示しても良い。

演算部１０６においては、一時記憶部１０４から読み込んだ音声波形データを音声区間検出部１０６４へ伝達する。伝達するタイミングとしては、１）「録音停止ボタン」がクリックされてから読み込んだ全ての音声波形データを一時記憶部１０４から読み出して一度に渡しても良いし、２）「録音開始ボタン」がクリックされて読み込みが開始すると同時に所定の間隔で少しずつ逐次的に渡しても良い。

音声波形表示窓１４１０中のレベルメータ１４２０には、しきい値と比較されて音声／非音声判定の基準値となるスムージングされた第２変動を可視化して表示する。レベルメータ中の下から１／３程度の箇所に「しきい値バー」が表示される。しきい値以上の場合と以下の場合で表示色が変更される。

レベルメータ１４２０は、録音時に音声区間検出部１０６４へ逐次的に音声波形データを伝送し、かつ制御処理部１０６０が音声区間検出部１０６４から逐次的にスムージングされた第２変動値を受け取った場合に有効になる。

レベルメータ１４２０は、音声波形データの再生時にも有効になる。再生時に可視化して「レベルメータ」に表示するスムージングされた第２変動値は、１)音声区間検出処理実行時にあらかじめデータ格納部１０８に保持しておいたものを再生と同期して表示しても良いし、２)再生と同期して音声区間検出部１０６４が逐次的に音声区間検出処理を再実行したものを制御処理部１０６０が受け取ったものを表示しても良い。

制御処理部１０６０は、データ格納部１０８を経由して音声区間検出部１０６４から音声区間検出結果を受け取る。受け取るタイミングは、１)音声区間検出処理が終了後、全ての音声区間情報を一度に受け取っても良いし、２)フレーム毎に音声／非音声の判定結果を受け取りながら、音声区間の開始／終了情報を逐次的に受け取っても良い。

制御処理部１０６０は、音声区間検出部１０６４から受け取った音声区間情報を、音声波形表示窓１４１０に表示する。表示方法は、１)音声区間の開始／終了位置を表示するだけでも良いし、２)フレーム毎に判定された音声／非音声の情報を背景色を変更するなどの方法で表示しても良い。

制御処理部１０６０は、録音停止ボタンがクリックされると、マイクなどの音声入力デバイスから音声波形データの読み込みを停止する。さらに、制御処理部１０６０は、再生ボタンがクリックされると、読み込んだ音声波形データをスピーカなどの音声出力デバイスへ出力して再生する。

なお、制御処理部１０６０は、音声波形データを再生する場合は、動的に波形中の再生されている位置を、音声波形表示窓１４１０に色の変化等により表示する。

また、マウス、あるいは他の指示入力デバイスを用いて、音声波形表示窓１４１０の中で任意の区間を（選択したい区間の先頭でマウスの左ボタンをクリックして選択したい区間の終端までドラッグしたのちリリースするなどの方法で）選択した上で、さらに「再生ボタン」をクリックした場合は、選択区間のみ再生される。音声波形表示窓１４１０中の区間選択は録音が終了（停止）するまで操作することはできない。音声波形表示窓１４１０中で選択区間解除操作（マウスの左ボタンクリックなど）を行うと選択区間を解除できる。

マウス、あるいは他の指示入力デバイスを用いて音声波形表示窓１４１０の中で選択された任意の区間において、マウス等を用いて（マウスの右ボタンをクリックするなどの方法で）「メニュー画面」を呼び出すことで、選択区間に対して再生や保存などの操作ができる。

さらに、選択された区間が無い状態の音声波形表示窓１４１０中で「音声区間開始位置」と「音声区間終了位置」で挟まれた音声区間において、マウスなどの指示入力デバイスを用いて「メニュー画面」を呼び出すことで、音声区間に対して再生や保存などの操作ができる。音声波形表示窓１４１０中の音声区間でのメニュー表示は録音が終了（停止）するまで、および音声区間検出処理が終了するまで呼び出すことはできない。

「設定ボタン」がクリックされると、制御処理部１０６０は、音声区間検出部１０６４の各種パラメータの設定と、後に説明する各変動値表示窓の表示／非表示を設定するための「設定画面」を呼び出す。

また、制御処理部１０６０は、「音声区間検出ボタン」がクリックされると、録音されてデータ格納部１０８に格納された音声波形データを音声区間検出部１０６４に伝送して、音声区間検出処理を再実行する。「音声区間検出ボタン」は録音が終了（停止）するまで操作することはできない。

制御処理部１０６０は、「時間情報保存ボタン」がクリックされると、音声区間検出部１０６４から受け取った音声区間開始／終了位置情報を、録音の開始時刻を基準とした経過時間に変換して、音声区間の開始／終了時間ファイルとして保存する。「時間情報保存ボタン」は音声区間検出処理が終了するまで操作することはできない。

さらに、制御処理部１０６０は、「音声区間保存ボタン」がクリックされると、検出された全ての音声区間中の音声波形データを保存する。「音声区間保存ボタン」は音声区間検出処理が終了するまで操作することはできない。また、制御処理部１０６０は、「録音音声保存ボタン」がクリックされると、録音された全ての音声波形データを保存する。「録音音声保存ボタン」は録音が終了（停止）するまで操作することはできない。
（音声区間検出機能付き音声収録試聴アプリケーション：設定画面）
図１４は、図１３で説明した基本画面（または各変動値表示画面）の「設定ボタン」がクリックされると、呼び出される設定画面を示す図である。

図１４に示すとおり、初期状態ではあらかじめ保持する所定の値がデフォルトとして設定されている。

ユーザにより、操作部１２０から値が入力変更された後、「ＯＫボタン」がクリックされると、制御処理部１０６０は、保持する設定値を入力された値に変更して、設定画面を閉じて、基本画面（または各変動値表示画面）へ戻る。なお、値の変更があってもなくても、「キャンセル（Cancel）ボタン」がクリックされると、保持する設定値を変更せずに、設定画面を閉じて、基本画面（または各変動値表示画面）へ戻る。
（音声区間検出機能付き音声収録試聴アプリケーション：拡張画面（１））
図１５は、上記設定画面において、「スムージングされた第２変動の表示」を「表示する」に設定された場合、表示装置１４０に表示される第１の拡張画面を示す図である。第１の拡張画面では、「スムージングされた第２変動としきい値の表示」が表示される。なお、第１の各校画面では、「スムージングされた第２変動表示窓」が表示されること以外は基本画面の動作と同様であるので、以下では、相違点を説明する。

制御処理部１０６０は、初期状態では、スムージングされた第２変動表示窓１４３０には「しきい値」のみを表示させる。

制御処理部１０６０は、音声区間検出部１０６４からスムージングされた第２変動値を受け取ると、これをスムージングされた第２変動表示窓１４３０に表示する。表示方法は、１)音声区間検出処理が終了した後で一度に表示しても良いし、２)音声区間検出処理が逐次的に実行されている場合は、音声区間検出処理と同期して逐次的に表示しても良い。なお、音声区間検出処理が再実行された場合は、スムージングされた第２変動表示窓１４３０の表示内容も更新される。
（音声区間検出機能付き音声収録試聴アプリケーション：拡張画面（２））
図１６は、設定画面において、「第１変動の表示」、「スムージングされた第１変動の表示」、「第２変動の表示」、「スムージングされた第２変動の表示」のいずれもが「表示する」に設定された場合の第２の拡張画面を示す図である。つまり、第２の拡張画面では、「全ての変動値の表示」が表示される。

なお、変動値の表示は、設定画面にも示したとおり、必要なものを任意に選択して表示させることが可能である。「第１変動表示窓」「スムージングされた第１変動表示窓」「第２変動表示窓」「スムージングされた第２変動表示窓」が表示されること以外は、原則として、基本画面の動作と同様である。

つまり、初期状態では「第１変動の表示」「スムージングされた第１変動の表示」「第２変動の表示」には何も表示されていない。「スムージングされた第２変動表示窓」には「しきい値」のみが表示される。

さらに、制御処理部１０６０は、音声区間検出部１０６４から受け取った各変動値を各変動表示窓１４３０〜１４６０に表示する。表示方法は、１)音声区間検出処理が終了した後で一度に表示しても良いし、２)音声区間検出処理が逐次的に実行されている場合は、音声区間検出処理と同期して逐次的に表示しても良い。さらに、音声区間検出処理が再実行された場合は、各変動表示窓１４３０〜１４６０の表示内容も更新される。

このような構成により、実施の形態２の音声区間解析装置２０００は、録音された音声データについて、音声区間の検出処理を柔軟に実行しつつ、音声の解析を行なうことが可能である。
［実施の形態３］
次に、実施の形態３では、実施の形態１で説明した音声区間検出装置を、この音声区間検出装置に後続して接続される後続音声処理装置において利用する形態を説明する。

（接続方式１）
まず、図１７は、第１の接続方式を説明するための機能ブロック図である。実施の形態１と同一部分には、同一符号を付す。

図１７では、音声データサンプリング部１０２、一時記憶部１０４、フレーム処理部１０６２については、音声区間検出装置の音声区間検出部１０６４と後続音声処理装置の音声処理部２００とが共有する構成である。

すなわち、音声区間検出部１０６４が検出したフレーム毎の音声／非音声の情報と、音声区間の開始／終了情報は、音声処理部２００へ伝送される。

続いて、音声処理部２００は音声区間検出部１０６４から伝送されたフレーム毎の音声／非音声の情報と、音声区間の開始／終了情報をもとに、フレーム分割された音声波形データの音声区間に相当するフレーム部分のみに対して音声処理を実行する。

ここで、音声処理部２００が実行する「音声処理」とは、特に、限定されないが、たとえば、音声認識の前処理とか、後続音声処理装置から他の機器へ音声信号の送信を行うか否か、という判断をフレーム毎に行なって、伝送処理を選択的に行なう処理などである。

図１７に示したような構成では、音声区間検出部１０６４から音声処理部２００へ伝送されるデータは、音声区間の開始／終了情報のみでよいので、これらの間のデータ伝送量を抑制できる。

なお、図１７では、音声区間検出装置と後続音声処理装置が、音声データサンプリング部１０２と一時記憶部１０４とフレーム処理部１０６２とを共有するものとしたが、かならずしも共有する必要はなく、音声区間検出装置と後続音声処理装置がそれぞれ個別に音声データサンプリング部１０２と一時記憶部１０４とフレーム処理部１０６２とを別系統で有するものとしてもよい。この場合は、音声区間検出部１０６４から音声処理部２００への情報の伝送量が少ないので、音声区間検出装置と後続音声処理装置を分離して遠隔地に設置しても、伝送路の伝送速度に影響を受けにくい。もちろん、このとき音声入力から音声データサンプリング部１０２までの間は音声区間検出装置と後続音声処理装置への２分岐されたアナログ音声信号として遠隔地間で伝送することになるものの、音声信号の情報量からすると、これも伝送路の伝送速度にさほど影響は受けない。

［実施の形態３の変形例１］
（接続方式２）
図１８は、実施の形態３の変形例１である、第２の接続方式を説明するための機能ブロック図である。ここでも、実施の形態１と同一部分には、同一符号を付す。

図１８では、音声区間検出装置１０００の音声区間検出部１０６４が検出した音声区間の音声波形データのみを、音声区間毎に後続音声処理装置２０００のフレーム処理部２０１０へ伝送する。

後続音声処理装置２０００では、音声区間検出部１０６４から伝送された音声区間の音声波形データを、フレーム処理部２０１０において再度フレーム処理してから、音声処理部２００において音声処理を実行する。

このような構成とすると、音声区間検出装置１０００と後続音声処理装置２０００との間では、音声信号の伝送が行なわれるのみであるので、音声区間検出装置１０００と後続音声処理装置２０００との接続部分の仕組みが単純である。このため、前処理に音声区間検出部１０６４を持たない音声処理装置２０００に対して、当該音声処理装置２０００のフレーム処理部２０１０の直前に、音声区間検出装置１０００をそのまま接続するだけでよい。

［実施の形態３の変形例２］
（接続方式３）
図１９は、実施の形態３の変形例２である、第３の接続方式を説明するための機能ブロック図である。ここでも、実施の形態１と同一部分には、同一符号を付す。

図１９では、音声区間検出装置１０００の音声区間検出部１０６４が検出した音声区間のフレーム分割した音声波形データを、フレーム毎に音声処理装置２０００の音声処理部２００へ伝送する。

音声処理装置２０００の音声処理部２００は、音声区間検出部１０６４から伝送された音声区間のフレーム分割した音声波形データに対して音声処理を実行する。

このような構成とすれば、音声区間検出装置１０００と後続音声処理装置２０００との接続部分の仕組みは、音声信号の伝達のみを担えばよいので比較的単純であり、しかも、音声区間検出装置１０００と後続音声処理装置２０００の間で重複する処理が無く、処理効率が高い。

［実施の形態３の変形例３］
（接続方式４）
図２０は、実施の形態３の変形例３である、第４の接続方式を説明するための機能ブロック図である。ここでも、実施の形態１と同一部分には、同一符号を付す。

図２０では、音声区間検出装置１０００の音声区間検出部１０６４が検出したフレーム毎の音声／非音声の情報と、音声区間の開始／終了情報とともに、フレーム分割した音声波形データを、フレーム毎に音声処理装置２０００の音声処理部２００へ伝送する。

音声処理装置２０００の音声処理部２００は、音声区間検出部１０６４から伝送されたフレーム毎の音声／非音声の情報と、音声区間の開始／終了情報とに基づいて、処理方法を分別して、同じく音声区間検出部１０６４から伝送されたフレーム毎の音声波形データに対して個別の音声処理を実行する。

このような構成とすれば、音声区間情報と音声波形データがフレーム毎に対になって音声処理部２００へ伝送されるので、音声処理部２００は音声区間情報を利用して処理内容を細分できる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の音声区間検出装置１０００の構成の一例を示す概念図である。図１に示したフレーム処理部１０６２と、音声区間検出部１０６４とが行う処理を説明するためのフローチャートである。図２のフローチャートの処理を示す概念図である。発声内容「あー」について、第１変動を表す図である。スムージングされた第１変動を表す図である。第２変動を表す図である。スムージングされた第２変動を表わす図である。発声内容「あいかわらず」について、第１変動を表す図である。スムージングされた第１変動を表す図である。第２変動を表す図である。スムージングされた第２変動を表わす図である。実施の形態２の音声区間解析装置２０００の構成を説明するための機能ブロック図である。表示装置１４０上に出力される「音声区間検出機能付き音声収録試聴アプリケーション」の基本画面を説明するための図である。図１３で説明した基本画面（または各変動値表示画面）の「設定ボタン」がクリックされると、呼び出される設定画面を示す図である。設定画面において、「スムージングされた第２変動の表示」を「表示する」に設定された場合、表示装置１４０に表示される第１の拡張画面を示す図である。設定画面において、各変動の表示のいずれもが「表示する」に設定された場合の第２の拡張画面を示す図である。第１の接続方式を説明するための機能ブロック図である。第２の接続方式を説明するための機能ブロック図である。第３の接続方式を説明するための機能ブロック図である。第４の接続方式を説明するための機能ブロック図である。

符号の説明

１０１入出力Ｉ／Ｆ、１０２音声データサンプリング部、１０４一時記憶部、１０６演算部、１０８データ格納部、１１０Ａ／Ｄ変換器、１０００音声区間検出装置、１０６２フレーム処理部、１０６４音声区間検出部１０６４、２０００音声処理装置。

Claims

音声区間検出装置であって、
指定された区間における離散変数について、前記離散変数の前記区間における平均と各前記離散変数との差の絶対値の前記区間についての平均または前記絶対値の２乗の前記区間についての平均のいずれかを前記離散変数のばらつき量として求める関数と定義するとき、
サンプリングされた音声データに対してフレームの切り出し処理を行うためのフレーム処理手段と、
前記フレームを前記区間とし前記音声データを前記離散変数として前記関数により、前記音声データのばらつきを第１変動として算出する第１変動算出手段と、
音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を前記区間とし前記第１変動を前記離散変数として前記関数により、前記第１変動のばらつきを第２変動として算出する第２変動算出手段と、
前記第２変動と所定のしきい値を比較することで、音声または非音声の判定を前記フレーム毎に行うフレーム判定手段と、
前記音声および非音声に判定された結果をもとに音声区間を決定する音声区間決定手段とを備える、音声区間検出装置。
前記第１変動算出手段は、前記音声データのばらつきをスムージングして第１変動として算出する、請求項１記載の音声区間検出装置。
前記第２変動算出手段は、前記第１変動のばらつきをスムージングして第２変動として算出する、請求項１記載の音声区間検出装置。
前記音声区間決定手段は、前記音声および非音声に判定された前記フレームの継続長から音声区間を決定する、請求項１記載の音声区間検出装置。
前記音声区間決定手段は、前記音声区間と判定された前記フレームのうち、所定の継続長を満たさなかった音声区間は音声区間から除外する、請求項１記載の音声区間検出装置。
前記音声区間決定手段は、前記音声区間の間に挟まれていて、所定の継続長以下の非音声区間は、両端の前記音声区間と合わせて１つの音声区間とする、請求項１記載の音声区間検出装置。
演算処理装置と音声入力装置と記憶装置とを有するコンピュータに音声区間検出を実行させるための音声区間検出プログラムであって、
指定された区間における離散変数について、前記離散変数の前記区間における平均と各前記離散変数との差の絶対値の前記区間についての平均または前記絶対値の２乗の前記区間についての平均のいずれかを前記離散変数のばらつき量として求める関数と定義するとき、
前記音声入力装置によりサンプリングされ、前記記憶装置に格納された音声データに対してフレームの切り出し処理を行うステップと、
前記演算処理装置が、前記フレームを前記区間とし前記音声データを前記離散変数として前記関数により、前記音声データのばらつきを第１変動として算出するステップと、
前記演算処理装置が、音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を前記区間とし前記第１変動を前記離散変数として前記関数により、前記第１変動のばらつきを第２変動として算出するステップと、
前記演算処理装置が、前記第２変動と所定のしきい値を比較することで、音声または非音声の判定を前記フレーム毎に行うステップと、
前記演算処理装置が、前記音声および非音声に判定された結果をもとに音声区間を決定するステップと、をコンピュータに実行させるための、音声区間検出プログラム。