JP4798601B2 - 音声区間検出装置および音声区間検出プログラム - Google Patents

音声区間検出装置および音声区間検出プログラム Download PDF

Info

Publication number
JP4798601B2
JP4798601B2 JP2005211746A JP2005211746A JP4798601B2 JP 4798601 B2 JP4798601 B2 JP 4798601B2 JP 2005211746 A JP2005211746 A JP 2005211746A JP 2005211746 A JP2005211746 A JP 2005211746A JP 4798601 B2 JP4798601 B2 JP 4798601B2
Authority
JP
Japan
Prior art keywords
speech
variation
voice
section
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005211746A
Other languages
English (en)
Other versions
JP2006209069A (ja
Inventor
博章 田川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005211746A priority Critical patent/JP4798601B2/ja
Publication of JP2006209069A publication Critical patent/JP2006209069A/ja
Application granted granted Critical
Publication of JP4798601B2 publication Critical patent/JP4798601B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、サンプリングされた音声データから音声区間を検出する音声区間検出装置および音声区間検出プログラムの構成に関する。
たとえば、移動体通信などの音声処理の技術として、VOX(Voice Operated Transmitter)がある。ここで、VOXとは、音声の有無に応じて送信信号出力のON/OFFを行う技術のことで、例えば、音声を検出したときのみ信号を発信し、装置周辺が無音の時は信号を発信しないなどの処理を行うものであり、送信部の省電力化を図ることができる(たとえば、特許文献1を参照)。
特開2004−272052号公報明細書
しかしながら、従来の方法は、高精度に音声区間を検出しようとすると、計算量が増加してしまう傾向があり、雑音環境下において、比較的少ない計算量で効率よく音声区間を検出する方法は、必ずしも確立されたとはいえない状況であった。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、雑音環境下において、比較的少ない計算量で効率よく音声区間を検出することが可能な音声区間検出装置および音声区間検出プログラムを提供することである。
このような目的を達成するために、本発明の音声区間検出装置は、指定された区間における離散変数について、離散変数の区間における平均と各離散変数との差の絶対値の区間についての平均または絶対値の2乗の区間についての平均のいずれかを離散変数のばらつき量として求める関数と定義するとき、サンプリングされた音声データに対してフレームの切り出し処理を行うためのフレーム処理手段と、フレームを区間とし音声データを離散変数として関数により、音声データのばらつきを第1変動として算出する第1変動算出手段と、音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を区間とし第1変動を離散変数として関数により、第1変動のばらつきを第2変動として算出する第2変動算出手段と、第2変動と所定のしきい値を比較することで、音声または非音声の判定をフレーム毎に行うフレーム判定手段と、音声および非音声に判定された結果をもとに音声区間を決定する音声区間決定手段とを備える。
好ましくは、第1変動算出手段は、音声データのばらつきをスムージングして第1変動として算出する。
好ましくは、第2変動算出手段は、第1変動のばらつきをスムージングして第2変動として算出する。
好ましくは、音声区間決定手段は、音声および非音声に判定されたフレームの継続長から音声区間を決定する。
好ましくは、音声区間決定手段は、音声区間と判定されたフレームのうち、所定の継続長を満たさなかった音声区間は音声区間から除外する。
好ましくは、音声区間決定手段は、音声区間の間に挟まれていて、所定の継続長以下の非音声区間は、両端の音声区間と合わせて1つの音声区間とする。
この発明の他の局面に従うと、演算処理装置と音声入力装置と記憶装置とを有するコンピュータに音声区間検出を実行させるための音声区間検出プログラムであって、指定された区間における離散変数について、離散変数の区間における平均と各離散変数との差の絶対値の区間についての平均または絶対値の2乗の区間についての平均のいずれかを離散変数のばらつき量として求める関数と定義するとき、音声入力装置によりサンプリングされ、記憶装置に格納された音声データに対してフレームの切り出し処理を行うステップと、演算処理装置が、フレームを区間とし音声データを離散変数として関数により、音声データのばらつきを第1変動として算出するステップと、演算処理装置が、音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を区間とし第1変動を離散変数として関数により、第1変動のばらつきを第2変動として算出するステップと、演算処理装置が、第2変動と所定のしきい値を比較することで、音声または非音声の判定をフレーム毎に行うステップと、演算処理装置が、音声および非音声に判定された結果をもとに音声区間を決定するステップと、をコンピュータに実行させる。
好ましくは、第1変動として算出するステップは、音声データの音量をスムージングして第1変動として算出する。
好ましくは、第2変動として算出するステップは、第1変動の変動をスムージングして第2変動として算出する。
好ましくは、音声区間決定するステップは、音声および非音声に判定されたフレームの継続長から音声区間を決定する。
好ましくは、音声区間決定するステップは、音声区間と判定されたフレームのうち、所定の継続長を満たさなかった音声区間は音声区間から除外する。
好ましくは、音声区間決定するステップは、音声区間の間に挟まれていて、所定の継続長以下の非音声区間は、両端の音声区間と合わせて1つの音声区間とする。
以下、図面を参照して本発明の実施の形態について説明する。
[実施の形態1]
(本発明のシステム構成)
図1は、本発明の音声区間検出装置1000の構成の一例を示す概念図である。
図1を参照して、音声区間検出装置1000は、音声入力を受けて、音声データをサンプリングし、デジタルデータに変換するための音声データサンプリング部102と、音声データサンプリング部102によりサンプリングされた音声データを後の処理のために一時記憶するための一時記憶部104と、一時記憶部104に格納された音声データに対して音声区間の検出のための演算処理を行う演算部106と、演算部106により音声区間と判断された音声データを格納しておくためのデータ格納部108とを備える。
なお、図1に示した音声区間検出装置1000では、演算部106による音声区間の検出は、データ格納部108へのデータの格納処理を行うか否かの判断を行うために実行されるものとしたが、本発明の音声区間検出方法は、このような場合に限定されることなく、音声区間の検出を他の処理を行うための判断基準として用いることもできる。たとえば、音声処理の前処理とか、上述したような、音声信号の送信を行うか否か、というような判断の基準としても用いることが可能である。
演算部106は、一時記憶部104に格納された音声データに対してフレーム処理(音声データの時系列に一定のウィンドウを順次かける処理)を行うフレーム処理部1062と、各フレームごとに音声か非音声かの判定を行って、音声区間の検出を行うための音声区間検出部1064とを含む。
特に、限定されないが、たとえば、音声データサンプリング部102については、コンピュータにおける周知の音声入力システムを用いることができ、また、演算部106の機能は、コンピュータのCPU(Central Processing Unit)がソフトウェアにより実行する機能により実現することも可能である。
もちろん、演算部106の機能は、専用のハードウェア(半導体集積回路)によって実現することも可能である。
図2は、図1に示したフレーム処理部1062と、音声区間検出部1064とが行う処理を説明するためのフローチャートであり、図3は、図2のフローチャートの処理を示す概念図である。
以下、図2および図3を参照して、本発明の音声区間検出装置1000の動作について説明する。以下では、本発明の音声区間検出アルゴリズムを「VSD(Variance Speech Detection)アルゴリズム」と呼ぶ。
VSDアルゴリズムは、以下に説明するとおり、音声信号の変動(パワー)の変動(変化量)としきい値を比較することで、音声または非音声の判定をフレーム毎に行い、音声および非音声に判定されたフレームの継続長から音声区間を決定するアルゴリズムである。
図2および図3を参照して、まず、音声データサンプリング部102により、以下のような音声データがサンプリングされる(ステップS100)。
Figure 0004798601
続いて、フレーム処理部1062により、以下のような音声フレームが切り出される(ステップS102)。
Figure 0004798601
さらに、音声区間検出部1064により、各フレームについて、周波数の高域成分を強調するためのフィルタリング処理が行われる(ステップS104)。このようなフィルタリング処理を行う関数をFILTER(…)で表す。
Figure 0004798601
このようにして、高域強調がなされた各フレームについて、音声区間検出部1064は、以下の式にしたがって音声の第1変動νfの算出処理が行われる(ステップS106)。第1変動は音声データの“ばらつき”(=音の大きさ(音量)、パワーに相当)を意味し、その値は、大きな音であれば大きくなり、小さな音であれば小さくなる。このような変動の演算を行う関数をVARIANCE(…)で表す。
Figure 0004798601
なお、第1変動は、上記のとおり、サンプリングされた各音声信号と平均値との差の絶対値の和に対応する量に限られず、たとえば、このような差の2乗和に対応する量としてもよい。すなわち、上述のとおり、音量の大きな音の音声信号の系列に対しては大きな値となり、音量の小さな音の音声信号の系列に対しては小さな値となるような関数であれば、他の関数を用いることも可能である。
さらに、音声区間検出部1064は、第1変動νfについて、以下のようなスムージング窓長Mについて中央値をとるメディアンスムージング処理により、スムージングされた第1変動が算出される(ステップS108)。
Figure 0004798601
このようにして得られたスムージングされた第1変動について、音声区間検出部1064は、さらに、音声変動の変動、なわち、第2変動wfの算出が以下のようにして行われる(ステップS110)。第2変動は音の大きさ(音量)の“ばらつき”(=パワーの変化量)を意味し、その値は、音量が大きなったり小さくなったりと変化するほど大きくなり、音量に変化がない場合は小さくなる。
Figure 0004798601
このようにして得られた第2変動に対して、さらに、音声区間検出部1064は、以下のようなスムージング窓長Lについて中央値をとるメディアンスムージングを行うことで、スムージングされた第2変動の算出が行われる(ステップS112)。
Figure 0004798601
このようにして得られた「スムージングされた第2変動」に対して、以下のように予め定められたしきい値Hと比較することにより、音声区間検出部1064は、フレーム毎の音声・非音声判定を行う(ステップS114)。このようなしきい値Hについては、予め実験により、適切な値を定めておくものとする。
Figure 0004798601
このようにして、フレームごとに音声区間と非音声区間とを予備的に判断した上で、音声区間検出部1064は、以下のような判定条件にしたがって、音声および非音声のフレーム継続長をもとにした音声区間を決定する(ステップS116)。
すなわち、しきい値比較により得られた仮の音声区間に対して、次の条件を当てはめる事で最適な音声区間を決定する。
条件(1):最低限必要な継続長を満たさなかった音声区間は音声区間として認めない。このような「最低限必要な継続長」としては、特に限定されないがたとえば、所定の値として「100msec以上」とすることができる。
条件(2):音声区間の間に挟まれていて、連続した音声区間として扱うべき継続長を満たした非音声区間は、両端の音声区間と合わせて1つの音声区間とする。このような「連続した音声区間として扱うべき継続長」については、特に限定されないがたとえば、所定の値として「500msec以下」とすることができる。
条件(3):変動の値が小さいために非音声として判定された音声区間始終端の一定数のフレームを音声区間に付け加える。このような「一定数」としては、たとえば97フレームとすることができる。
なお、以上の説明では、スムージング処理として、メディアンスムージングを例として説明したが、スムージング処理としては、他の方法を用いてもよい。
以上のような処理により、雑音環境下において、比較的少ない計算量で効率よく音声区間を検出することが可能となる。
すなわち、VSDアルゴリズムが音声・非音声を判定するために利用する音声の特徴としては、「言語音声の1つの特徴」として、比較的短い時間の単位で音量(パワー)が刻々と変化するということが挙げられる。VSDアルゴリズムでは、この特徴に着目して、パワーの変化量を抽出するために、音声変動の変動という値を利用している。
さらに、雑音下においてVSDアルゴリズムが効率よく音声区間を検出できる理由としては、無音状態や環境雑音では音量の“ばらつき”が比較的少なく、ほぼ一定の音量であったり、音量の変化速度が遅い場合が多いことが挙げられる。このような特徴はVSDアルゴリズムが着目して検出しようとする音声の特徴とは反する。このように比較的定常な雑音はその音量に関係なく、音声と区別することができる。また、音量変化の激しい雑音は、音声と比較すると継続時間が短い場合が多い。このような特徴は、継続長をもとにした音声区間の決定操作により音声区間と区別することができる。
図4から図7は、発声内容「あー」について、VSDアルゴリズムで計算される変動の時間変化を示す図である。
図4は、第1変動を表し、図5は、スムージングされた第1変動を表し、図6は、第2変動を表し、図7は、スムージングされた第2変動を表わす。なお、縦軸は、いずれも強度を表し、横軸は時間を表す。
発声内容「あー」については、長母音定状部分で第2変動が顕著に減衰することがわかる。そして、無音状態では、スムージングされた第2変動がほぼ0であるために、一定のしきい値を第2変動に用いれば、音声区間となるフレームを識別できることがわかる。
ただし、長母音定状部分で第2変動が顕著に減衰するため、上述した条件(1)〜(3)をさらに用いることで、正しく音声区間を検出できる。
図8から図11は、発声内容「あいかわらず」(図3に使用したサンプル)について、VSDアルゴリズムで計算される変動の時間変化を示す図である。
図8は、第1変動を表し、図9は、スムージングされた第1変動を表し、図10は、第2変動を表し、図11は、スムージングされた第2変動を表わす。なお、縦軸は、いずれも強度を表し、横軸は時間を表す。
発声内容「あいかわらず」については、長母音定状部分で第2変動が顕著に減衰することがわかる。そして、語尾近傍以外では、スムージングされた第2変動に、一定のしきい値を用いれば、音声区間となるフレームを識別できることがわかる。
ただし、ここでも、語尾近傍部分で第2変動が減衰するため、上述した条件(1)〜(3)を用いることで、正しく音声区間を検出できる。
[実施の形態2]
実施の形態2では、実施の形態1で説明した音声区間検出装置1000の構成を使用して、入力された音声信号の解析結果をユーザに対して表示し、一方で、ユーザは、音声区間検出装置の動作パラメータ等の設定を行なうことが可能なインタフェースを備えた、音声区間解析装置2000の構成について説明する。
図12は、実施の形態2の音声区間解析装置2000の構成を説明するための機能ブロック図である。
図12において、図1と同一部分には、同一符号を付している。
図12を参照して、音声区間解析装置2000は、マイク(図示せず)からの音声入力を、入出力インタフェース(以下、「入出力I/F」)101を介して受けて、音声データをサンプリングし、デジタルデータに変換するための音声データサンプリング部102と、音声データサンプリング部102によりサンプリングされた音声データを後の処理のために一時記憶するための一時記憶部104と、一時記憶部104に格納された音声データに対して音声区間の検出のための演算処理を行う演算部106と、演算部106により音声区間についての判断結果と関連づけて音声データを格納しておくためのデータ格納部108と、ユーザからの指示を入力するための操作部120と、データ格納部108に格納された音声データを演算部106の制御に基づいて、アナログの音声信号に変換して、入出力I/F101を介して、スピーカ(図示せず)に出力するためのD/A変換器110とを備える。操作部120は、特に限定されないが、キーボードとマウスを備える。
演算部106は、操作部120からの指示に基づいて、音声区間解析装置2000の動作を制御するための制御処理部1060と、一時記憶部104に格納された音声データに対してフレーム処理(音声データの時系列に一定のウィンドウを順次かける処理)を行うフレーム処理部1062と、各フレームごとに音声か非音声かの判定を行って、音声区間の検出を行い、音声区間を示すラベル情報と音声データとを関連づけて格納するための音声区間検出部1064とを含む。ここで、制御処理部1060は、操作部120からの指示に基づいて、音声入力信号の録音の開始、録音の停止、データ格納部108に格納された音声データに基づく音声信号の再生出力の開始、再生出力の停止、フレーム処理部1062や音声区間検出部1064の動作パラメータの設定等の処理を行なう。
(ラベルファイル出力機能)
以下では、フレーム処理部1062の機能について、さらに説明する。
まず、音声区間解析装置2000において、フレーム処理部1062は、フレーム処理されたフレームの個数から、フレーム処理部で処理を開始してからの経過時間をフレーム毎に算出して出力する機能を有するものとする。
これに応じて、制御処理部1060は、音声区間検出部1064の検出結果に応じて、以下の処理を行なう。
1)制御処理部1060は、音声区間の開始位置に判定されたフレームの経過時間を音声区間の開始時間として出力する。
2)制御処理部1060は、音声区間の終了位置に判定されたフレームの経過時間を音声区間の終了時間として出力する。
制御処理部1060は、このような、音声区間の開始時間と、終了時間とをラベルファイルとして、音声データファイルと関連づけて、データ格納部1080に格納する。
特に、限定されないが、ラベルファイルのフォーマットの出力例としては、例えば、以下のような形式とすることができる。
<開始時間[msec]> <この時間区間が音声区間であることを示すラベル> <終了時間[msec]>
なお、これも特に限定されないが、演算部106の機能は、コンピュータのCPU(Central Processing Unit)がアプリケーションソフトウェアにより実行する機能により実現することが可能である。以下では、このような機能を実現するためのソフトウェアを「音声区間検出機能付き音声収録試聴アプリケーション」と呼ぶ。このようなアプリケーションソフトウェアは、音声のキャプチャおよび音声出力のためのハードウェアが実装されているのであれば、一般的な、パーソナルコンピュータ等にインストールして実行させることができる。
このとき、たとえば、データ格納部108がハードディスクであり、一時記憶部104がRAM(Random Access Memory)であるとすると、このような演算部106が実行するアプリケーションソフトウェアは記録媒体上に格納されており、図示しないドライブ装置により、パーソナルコンピュータに読み込まれて、ハードディスクに格納されることになる。
(音声区間検出機能付き音声収録試聴アプリケーション:基本画面)
次に、上述した「音声区間検出機能付き音声収録試聴アプリケーション」について、説明する。
図13は、表示装置140上に出力される「音声区間検出機能付き音声収録試聴アプリケーション」の基本画面を説明するための図である。
初期状態では、音声波形表示窓1410には何も表示されていない。この状態で、操作部120のマウスの操作により、画面上の「録音開始ボタン」がクリックされると、制御処理部1060は、マイクなどの音声入力デバイスから音声波形データの読み込みを開始させる。
続いて、図13に示すように、制御処理部1060の処理により、表示部140において、読み込んだ音声波形データが、音声波形表示窓1410に表示される。表示方法は、1)「録音停止ボタン」がクリックされてから読み込んだ全ての音声波形データを一度に表示しても良いし、2)「録音開始ボタン」がクリックされて読み込みが開始すると同時に所定の間隔で少しずつ窓の右端から逐次的に表示しても良い。
演算部106においては、一時記憶部104から読み込んだ音声波形データを音声区間検出部1064へ伝達する。伝達するタイミングとしては、1)「録音停止ボタン」がクリックされてから読み込んだ全ての音声波形データを一時記憶部104から読み出して一度に渡しても良いし、2)「録音開始ボタン」がクリックされて読み込みが開始すると同時に所定の間隔で少しずつ逐次的に渡しても良い。
音声波形表示窓1410中のレベルメータ1420には、しきい値と比較されて音声/非音声判定の基準値となるスムージングされた第2変動を可視化して表示する。レベルメータ中の下から1/3程度の箇所に「しきい値バー」が表示される。しきい値以上の場合と以下の場合で表示色が変更される。
レベルメータ1420は、録音時に音声区間検出部1064へ逐次的に音声波形データを伝送し、かつ制御処理部1060が音声区間検出部1064から逐次的にスムージングされた第2変動値を受け取った場合に有効になる。
レベルメータ1420は、音声波形データの再生時にも有効になる。再生時に可視化して「レベルメータ」に表示するスムージングされた第2変動値は、1)音声区間検出処理実行時にあらかじめデータ格納部108に保持しておいたものを再生と同期して表示しても良いし、2)再生と同期して音声区間検出部1064が逐次的に音声区間検出処理を再実行したものを制御処理部1060が受け取ったものを表示しても良い。
制御処理部1060は、データ格納部108を経由して音声区間検出部1064から音声区間検出結果を受け取る。受け取るタイミングは、1)音声区間検出処理が終了後、全ての音声区間情報を一度に受け取っても良いし、2)フレーム毎に音声/非音声の判定結果を受け取りながら、音声区間の開始/終了情報を逐次的に受け取っても良い。
制御処理部1060は、音声区間検出部1064から受け取った音声区間情報を、音声波形表示窓1410に表示する。表示方法は、1)音声区間の開始/終了位置を表示するだけでも良いし、2)フレーム毎に判定された音声/非音声の情報を背景色を変更するなどの方法で表示しても良い。
制御処理部1060は、録音停止ボタンがクリックされると、マイクなどの音声入力デバイスから音声波形データの読み込みを停止する。さらに、制御処理部1060は、再生ボタンがクリックされると、読み込んだ音声波形データをスピーカなどの音声出力デバイスへ出力して再生する。
なお、制御処理部1060は、音声波形データを再生する場合は、動的に波形中の再生されている位置を、音声波形表示窓1410に色の変化等により表示する。
また、マウス、あるいは他の指示入力デバイスを用いて、音声波形表示窓1410の中で任意の区間を(選択したい区間の先頭でマウスの左ボタンをクリックして選択したい区間の終端までドラッグしたのちリリースするなどの方法で)選択した上で、さらに「再生ボタン」をクリックした場合は、選択区間のみ再生される。音声波形表示窓1410中の区間選択は録音が終了(停止)するまで操作することはできない。音声波形表示窓1410中で選択区間解除操作(マウスの左ボタンクリックなど)を行うと選択区間を解除できる。
マウス、あるいは他の指示入力デバイスを用いて音声波形表示窓1410の中で選択された任意の区間において、マウス等を用いて(マウスの右ボタンをクリックするなどの方法で)「メニュー画面」を呼び出すことで、選択区間に対して再生や保存などの操作ができる。
さらに、選択された区間が無い状態の音声波形表示窓1410中で「音声区間開始位置」と「音声区間終了位置」で挟まれた音声区間において、マウスなどの指示入力デバイスを用いて「メニュー画面」を呼び出すことで、音声区間に対して再生や保存などの操作ができる。音声波形表示窓1410中の音声区間でのメニュー表示は録音が終了(停止)するまで、および音声区間検出処理が終了するまで呼び出すことはできない。
「設定ボタン」がクリックされると、制御処理部1060は、音声区間検出部1064の各種パラメータの設定と、後に説明する各変動値表示窓の表示/非表示を設定するための「設定画面」を呼び出す。
また、制御処理部1060は、「音声区間検出ボタン」がクリックされると、録音されてデータ格納部108に格納された音声波形データを音声区間検出部1064に伝送して、音声区間検出処理を再実行する。「音声区間検出ボタン」は録音が終了(停止)するまで操作することはできない。
制御処理部1060は、「時間情報保存ボタン」がクリックされると、音声区間検出部1064から受け取った音声区間開始/終了位置情報を、録音の開始時刻を基準とした経過時間に変換して、音声区間の開始/終了時間ファイルとして保存する。「時間情報保存ボタン」は音声区間検出処理が終了するまで操作することはできない。
さらに、制御処理部1060は、「音声区間保存ボタン」がクリックされると、検出された全ての音声区間中の音声波形データを保存する。「音声区間保存ボタン」は音声区間検出処理が終了するまで操作することはできない。また、制御処理部1060は、「録音音声保存ボタン」がクリックされると、録音された全ての音声波形データを保存する。「録音音声保存ボタン」は録音が終了(停止)するまで操作することはできない。
(音声区間検出機能付き音声収録試聴アプリケーション:設定画面)
図14は、図13で説明した基本画面(または各変動値表示画面)の「設定ボタン」がクリックされると、呼び出される設定画面を示す図である。
図14に示すとおり、初期状態ではあらかじめ保持する所定の値がデフォルトとして設定されている。
ユーザにより、操作部120から値が入力変更された後、「OKボタン」がクリックされると、制御処理部1060は、保持する設定値を入力された値に変更して、設定画面を閉じて、基本画面(または各変動値表示画面)へ戻る。なお、値の変更があってもなくても、「キャンセル(Cancel)ボタン」がクリックされると、保持する設定値を変更せずに、設定画面を閉じて、基本画面(または各変動値表示画面)へ戻る。
(音声区間検出機能付き音声収録試聴アプリケーション:拡張画面(1))
図15は、上記設定画面において、「スムージングされた第2変動の表示」を「表示する」に設定された場合、表示装置140に表示される第1の拡張画面を示す図である。第1の拡張画面では、「スムージングされた第2変動としきい値の表示」が表示される。なお、第1の各校画面では、「スムージングされた第2変動表示窓」が表示されること以外は基本画面の動作と同様であるので、以下では、相違点を説明する。
制御処理部1060は、初期状態では、スムージングされた第2変動表示窓1430には「しきい値」のみを表示させる。
制御処理部1060は、音声区間検出部1064からスムージングされた第2変動値を受け取ると、これをスムージングされた第2変動表示窓1430に表示する。表示方法は、1)音声区間検出処理が終了した後で一度に表示しても良いし、2)音声区間検出処理が逐次的に実行されている場合は、音声区間検出処理と同期して逐次的に表示しても良い。なお、音声区間検出処理が再実行された場合は、スムージングされた第2変動表示窓1430の表示内容も更新される。
(音声区間検出機能付き音声収録試聴アプリケーション:拡張画面(2))
図16は、設定画面において、「第1変動の表示」、「スムージングされた第1変動の表示」、「第2変動の表示」、「スムージングされた第2変動の表示」のいずれもが「表示する」に設定された場合の第2の拡張画面を示す図である。つまり、第2の拡張画面では、「全ての変動値の表示」が表示される。
なお、変動値の表示は、設定画面にも示したとおり、必要なものを任意に選択して表示させることが可能である。「第1変動表示窓」「スムージングされた第1変動表示窓」「第2変動表示窓」「スムージングされた第2変動表示窓」が表示されること以外は、原則として、基本画面の動作と同様である。
つまり、初期状態では「第1変動の表示」「スムージングされた第1変動の表示」「第2変動の表示」には何も表示されていない。「スムージングされた第2変動表示窓」には「しきい値」のみが表示される。
さらに、制御処理部1060は、音声区間検出部1064から受け取った各変動値を各変動表示窓1430〜1460に表示する。表示方法は、1)音声区間検出処理が終了した後で一度に表示しても良いし、2)音声区間検出処理が逐次的に実行されている場合は、音声区間検出処理と同期して逐次的に表示しても良い。さらに、音声区間検出処理が再実行された場合は、各変動表示窓1430〜1460の表示内容も更新される。
このような構成により、実施の形態2の音声区間解析装置2000は、録音された音声データについて、音声区間の検出処理を柔軟に実行しつつ、音声の解析を行なうことが可能である。
[実施の形態3]
次に、実施の形態3では、実施の形態1で説明した音声区間検出装置を、この音声区間検出装置に後続して接続される後続音声処理装置において利用する形態を説明する。
(接続方式1)
まず、図17は、第1の接続方式を説明するための機能ブロック図である。実施の形態1と同一部分には、同一符号を付す。
図17では、音声データサンプリング部102、一時記憶部104、フレーム処理部1062については、音声区間検出装置の音声区間検出部1064と後続音声処理装置の音声処理部200とが共有する構成である。
すなわち、音声区間検出部1064が検出したフレーム毎の音声/非音声の情報と、音声区間の開始/終了情報は、音声処理部200へ伝送される。
続いて、音声処理部200は音声区間検出部1064から伝送されたフレーム毎の音声/非音声の情報と、音声区間の開始/終了情報をもとに、フレーム分割された音声波形データの音声区間に相当するフレーム部分のみに対して音声処理を実行する。
ここで、音声処理部200が実行する「音声処理」とは、特に、限定されないが、たとえば、音声認識の前処理とか、後続音声処理装置から他の機器へ音声信号の送信を行うか否か、という判断をフレーム毎に行なって、伝送処理を選択的に行なう処理などである。
図17に示したような構成では、音声区間検出部1064から音声処理部200へ伝送されるデータは、音声区間の開始/終了情報のみでよいので、これらの間のデータ伝送量を抑制できる。
なお、図17では、音声区間検出装置と後続音声処理装置が、音声データサンプリング部102と一時記憶部104とフレーム処理部1062とを共有するものとしたが、かならずしも共有する必要はなく、音声区間検出装置と後続音声処理装置がそれぞれ個別に音声データサンプリング部102と一時記憶部104とフレーム処理部1062とを別系統で有するものとしてもよい。この場合は、音声区間検出部1064から音声処理部200への情報の伝送量が少ないので、音声区間検出装置と後続音声処理装置を分離して遠隔地に設置しても、伝送路の伝送速度に影響を受けにくい。もちろん、このとき音声入力から音声データサンプリング部102までの間は音声区間検出装置と後続音声処理装置への2分岐されたアナログ音声信号として遠隔地間で伝送することになるものの、音声信号の情報量からすると、これも伝送路の伝送速度にさほど影響は受けない。
[実施の形態3の変形例1]
(接続方式2)
図18は、実施の形態3の変形例1である、第2の接続方式を説明するための機能ブロック図である。ここでも、実施の形態1と同一部分には、同一符号を付す。
図18では、音声区間検出装置1000の音声区間検出部1064が検出した音声区間の音声波形データのみを、音声区間毎に後続音声処理装置2000のフレーム処理部2010へ伝送する。
後続音声処理装置2000では、音声区間検出部1064から伝送された音声区間の音声波形データを、フレーム処理部2010において再度フレーム処理してから、音声処理部200において音声処理を実行する。
このような構成とすると、音声区間検出装置1000と後続音声処理装置2000との間では、音声信号の伝送が行なわれるのみであるので、音声区間検出装置1000と後続音声処理装置2000との接続部分の仕組みが単純である。このため、前処理に音声区間検出部1064を持たない音声処理装置2000に対して、当該音声処理装置2000のフレーム処理部2010の直前に、音声区間検出装置1000をそのまま接続するだけでよい。
[実施の形態3の変形例2]
(接続方式3)
図19は、実施の形態3の変形例2である、第3の接続方式を説明するための機能ブロック図である。ここでも、実施の形態1と同一部分には、同一符号を付す。
図19では、音声区間検出装置1000の音声区間検出部1064が検出した音声区間のフレーム分割した音声波形データを、フレーム毎に音声処理装置2000の音声処理部200へ伝送する。
音声処理装置2000の音声処理部200は、音声区間検出部1064から伝送された音声区間のフレーム分割した音声波形データに対して音声処理を実行する。
このような構成とすれば、音声区間検出装置1000と後続音声処理装置2000との接続部分の仕組みは、音声信号の伝達のみを担えばよいので比較的単純であり、しかも、音声区間検出装置1000と後続音声処理装置2000の間で重複する処理が無く、処理効率が高い。
[実施の形態3の変形例3]
(接続方式4)
図20は、実施の形態3の変形例3である、第4の接続方式を説明するための機能ブロック図である。ここでも、実施の形態1と同一部分には、同一符号を付す。
図20では、音声区間検出装置1000の音声区間検出部1064が検出したフレーム毎の音声/非音声の情報と、音声区間の開始/終了情報とともに、フレーム分割した音声波形データを、フレーム毎に音声処理装置2000の音声処理部200へ伝送する。
音声処理装置2000の音声処理部200は、音声区間検出部1064から伝送されたフレーム毎の音声/非音声の情報と、音声区間の開始/終了情報とに基づいて、処理方法を分別して、同じく音声区間検出部1064から伝送されたフレーム毎の音声波形データに対して個別の音声処理を実行する。
このような構成とすれば、音声区間情報と音声波形データがフレーム毎に対になって音声処理部200へ伝送されるので、音声処理部200は音声区間情報を利用して処理内容を細分できる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明の音声区間検出装置1000の構成の一例を示す概念図である。 図1に示したフレーム処理部1062と、音声区間検出部1064とが行う処理を説明するためのフローチャートである。 図2のフローチャートの処理を示す概念図である。 発声内容「あー」について、第1変動を表す図である。 スムージングされた第1変動を表す図である。 第2変動を表す図である。 スムージングされた第2変動を表わす図である。 発声内容「あいかわらず」について、第1変動を表す図である。 スムージングされた第1変動を表す図である。 第2変動を表す図である。 スムージングされた第2変動を表わす図である。 実施の形態2の音声区間解析装置2000の構成を説明するための機能ブロック図である。 表示装置140上に出力される「音声区間検出機能付き音声収録試聴アプリケーション」の基本画面を説明するための図である。 図13で説明した基本画面(または各変動値表示画面)の「設定ボタン」がクリックされると、呼び出される設定画面を示す図である。 設定画面において、「スムージングされた第2変動の表示」を「表示する」に設定された場合、表示装置140に表示される第1の拡張画面を示す図である。 設定画面において、各変動の表示のいずれもが「表示する」に設定された場合の第2の拡張画面を示す図である。 第1の接続方式を説明するための機能ブロック図である。 第2の接続方式を説明するための機能ブロック図である。 第3の接続方式を説明するための機能ブロック図である。 第4の接続方式を説明するための機能ブロック図である。
符号の説明
101 入出力I/F、102 音声データサンプリング部、104 一時記憶部、106 演算部、108 データ格納部、110 A/D変換器、1000 音声区間検出装置、1062 フレーム処理部、1064 音声区間検出部1064、2000 音声処理装置。

Claims (7)

  1. 音声区間検出装置であって、
    指定された区間における離散変数について、前記離散変数の前記区間における平均と各前記離散変数との差の絶対値の前記区間についての平均または前記絶対値の2乗の前記区間についての平均のいずれかを前記離散変数のばらつき量として求める関数と定義するとき、
    サンプリングされた音声データに対してフレームの切り出し処理を行うためのフレーム処理手段と、
    前記フレームを前記区間とし前記音声データを前記離散変数として前記関数により、前記音声データのばらつきを第1変動として算出する第1変動算出手段と、
    音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を前記区間とし前記第1変動を前記離散変数として前記関数により、前記第1変動のばらつきを第2変動として算出する第2変動算出手段と、
    前記第2変動と所定のしきい値を比較することで、音声または非音声の判定を前記フレーム毎に行うフレーム判定手段と、
    前記音声および非音声に判定された結果をもとに音声区間を決定する音声区間決定手段とを備える、音声区間検出装置。
  2. 前記第1変動算出手段は、前記音声データのばらつきをスムージングして第1変動として算出する、請求項1記載の音声区間検出装置。
  3. 前記第2変動算出手段は、前記第1変動のばらつきをスムージングして第2変動として算出する、請求項1記載の音声区間検出装置。
  4. 前記音声区間決定手段は、前記音声および非音声に判定された前記フレームの継続長から音声区間を決定する、請求項1記載の音声区間検出装置。
  5. 前記音声区間決定手段は、前記音声区間と判定された前記フレームのうち、所定の継続長を満たさなかった音声区間は音声区間から除外する、請求項1記載の音声区間検出装置。
  6. 前記音声区間決定手段は、前記音声区間の間に挟まれていて、所定の継続長以下の非音声区間は、両端の前記音声区間と合わせて1つの音声区間とする、請求項1記載の音声区間検出装置。
  7. 演算処理装置と音声入力装置と記憶装置とを有するコンピュータに音声区間検出を実行させるための音声区間検出プログラムであって、
    指定された区間における離散変数について、前記離散変数の前記区間における平均と各前記離散変数との差の絶対値の前記区間についての平均または前記絶対値の2乗の前記区間についての平均のいずれかを前記離散変数のばらつき量として求める関数と定義するとき、
    前記音声入力装置によりサンプリングされ、前記記憶装置に格納された音声データに対してフレームの切り出し処理を行うステップと、
    前記演算処理装置が、前記フレームを前記区間とし前記音声データを前記離散変数として前記関数により、前記音声データのばらつきを第1変動として算出するステップと、
    前記演算処理装置が、音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を前記区間とし前記第1変動を前記離散変数として前記関数により、前記第1変動のばらつきを第2変動として算出するステップと、
    前記演算処理装置が、前記第2変動と所定のしきい値を比較することで、音声または非音声の判定を前記フレーム毎に行うステップと、
    前記演算処理装置が、前記音声および非音声に判定された結果をもとに音声区間を決定するステップと、をコンピュータに実行させるための、音声区間検出プログラム。
JP2005211746A 2004-12-28 2005-07-21 音声区間検出装置および音声区間検出プログラム Active JP4798601B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005211746A JP4798601B2 (ja) 2004-12-28 2005-07-21 音声区間検出装置および音声区間検出プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004381206 2004-12-28
JP2004381206 2004-12-28
JP2005211746A JP4798601B2 (ja) 2004-12-28 2005-07-21 音声区間検出装置および音声区間検出プログラム

Publications (2)

Publication Number Publication Date
JP2006209069A JP2006209069A (ja) 2006-08-10
JP4798601B2 true JP4798601B2 (ja) 2011-10-19

Family

ID=36965944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005211746A Active JP4798601B2 (ja) 2004-12-28 2005-07-21 音声区間検出装置および音声区間検出プログラム

Country Status (1)

Country Link
JP (1) JP4798601B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5446874B2 (ja) 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
WO2010070839A1 (ja) 2008-12-17 2010-06-24 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法
US8812313B2 (en) 2008-12-17 2014-08-19 Nec Corporation Voice activity detector, voice activity detection program, and parameter adjusting method
US9293131B2 (en) 2010-08-10 2016-03-22 Nec Corporation Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program
CN103730032B (zh) * 2012-10-12 2016-12-28 李志刚 多媒体数据控制方法和系统
JP6435133B2 (ja) * 2014-08-11 2018-12-05 日本板硝子環境アメニティ株式会社 音素分割装置、音声処理システム、音素分割方法、および音素分割プログラム
JP5863928B1 (ja) * 2014-10-29 2016-02-17 シャープ株式会社 音声調整装置
CA3004281A1 (en) 2016-10-31 2018-05-03 Rovi Guides, Inc. Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset
US11488033B2 (en) 2017-03-23 2022-11-01 ROVl GUIDES, INC. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
KR20220114094A (ko) 2017-05-24 2022-08-17 로비 가이드스, 인크. 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62211699A (ja) * 1986-03-13 1987-09-17 株式会社東芝 音声区間検出回路
JPH0823756B2 (ja) * 1988-08-09 1996-03-06 沖電気工業株式会社 音声区間検出方式
JPH10111697A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 音声反応装置と音声認識装置
JP3588030B2 (ja) * 2000-03-16 2004-11-10 三菱電機株式会社 音声区間判定装置及び音声区間判定方法
JP3760787B2 (ja) * 2000-05-12 2006-03-29 株式会社デンソー 移動電話機
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体

Also Published As

Publication number Publication date
JP2006209069A (ja) 2006-08-10

Similar Documents

Publication Publication Date Title
JP4798601B2 (ja) 音声区間検出装置および音声区間検出プログラム
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
EP1171873B9 (en) Apparatus and methods for detecting emotions in the human voice
JP4282704B2 (ja) 音声区間検出装置およびプログラム
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
CN108198548A (zh) 一种语音唤醒方法及其系统
US6205420B1 (en) Method and device for instantly changing the speed of a speech
JP4587160B2 (ja) 信号処理装置および方法
JP6060989B2 (ja) 音声録音装置、音声録音方法、及びプログラム
WO2016103988A1 (ja) 情報処理装置、情報処理方法およびプログラム
US7916848B2 (en) Methods and systems for participant sourcing indication in multi-party conferencing and for audio source discrimination
US20130253926A1 (en) Speech dialogue system, terminal apparatus, and data center apparatus
EP1944753A2 (en) Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
JP2012027186A (ja) 音声信号処理装置、音声信号処理方法及びプログラム
KR20090049300A (ko) 음성 구간 검출 방법 및 장치
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
CN105706167A (zh) 有语音的话音检测方法和装置
JP2004199053A (ja) 絶対音量を使用して音声信号を処理する方法
JPH0431898A (ja) 音声雑音分離装置
JP3402748B2 (ja) 音声信号のピッチ周期抽出装置
JP6565500B2 (ja) 発話状態判定装置、発話状態判定方法、及び判定プログラム
US9412380B2 (en) Method for processing data and electronic device thereof
JPH10326176A (ja) 音声対話制御方法
JP7017873B2 (ja) 音質改善方法、音質改善方法を実行させるためのコンピュータプログラム、および電子機器
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110727

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4798601

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250