JP2005031632A - 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ - Google Patents

発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ Download PDF

Info

Publication number
JP2005031632A
JP2005031632A JP2004101094A JP2004101094A JP2005031632A JP 2005031632 A JP2005031632 A JP 2005031632A JP 2004101094 A JP2004101094 A JP 2004101094A JP 2004101094 A JP2004101094 A JP 2004101094A JP 2005031632 A JP2005031632 A JP 2005031632A
Authority
JP
Japan
Prior art keywords
value
energy
frame
utterance
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004101094A
Other languages
English (en)
Other versions
JP4521673B2 (ja
Inventor
K Soong Frank
フランク ガーピン スーン
Satoru Nakamura
哲 中村
Yutaka Ashikari
豊 葦苅
Gen Ito
玄 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004101094A priority Critical patent/JP4521673B2/ja
Publication of JP2005031632A publication Critical patent/JP2005031632A/ja
Application granted granted Critical
Publication of JP4521673B2 publication Critical patent/JP4521673B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】環境雑音にかかわらず発話区間の検出を適切に行なうことができる発話区間検出装置を提供する。
【解決手段】発話区間検出装置は、音声データをフレーム化する音声入力部104と、フレーム化された音声のエネルギ値をFIFO形式で記憶するフレームバッファ110と、フレームバッファ110内のフレームのエネルギ値を所定の統計的手法に従って処理し、環境雑音の推定値の初期値を算出する初期環境雑音算出部112と、環境雑音の推定値の初期値と、フレームバッファ110に記憶されるエネルギ値とに基づいて、音声データに含まれる環境雑音の変化に追従して変化するように、発話区間を検出するためのエネルギ値のしきい値をフレームごとに算出する動的しきい値算出部116と、このしきい値に基づいて、フレームの状態を判定する状態判定部118とを含む。
【選択図】 図4

Description

この発明は音声認識処理などの前処理として発話区間を検出するための装置に関し、特に、実時間での音声認識処理において、環境雑音による発話区間の誤検出を避けることができる発話区間検出装置、ならびにフレームごとの特徴量として正規化した音声エネルギを算出するための音声エネルギ正規化装置に関する。
音声認識などの処理においては、音声認識に先立って入力信号中の発話区間とそれ以外の区間(無音区間と呼ぶ。)との区別をすることが必要である。さもなければ、発話のない区間を音声認識することにより無意味な結果がもたらされるためである。
従来、このような発話区間(又は無音区間)の検出は、入力される音声信号のパワー(エネルギ)を算出し、その値が予め定められたしきい値以上になれば発話区間、しきい値未満であれば無音区間とする、という手法により行なわれている。このとき、そうした条件の成立が持続した時間をも考慮にいれて発話区間又は無音区間の検出がされるのが通常である。
そのような技術が特許文献1に開示されている。特許文献1は、音声付の映像情報から要約を自動的に作成するために、要約の対象となる個所を抽出するための技術を開示している。音声付の映像では、その内容(ジャンル)により、環境雑音の大きさが異なることが知られている。例えばニュース番組では環境雑音が小さく、スポーツ中継等の番組では環境雑音が大きい、などである。そのため、同じしきい値を用いて発話区間を検出しようとすると、映像情報のジャンルによりその結果が異なってしまうという問題がある。そのために特許文献1に開示の技術では、映像情報に、そのジャンルを示す付帯情報をもたせておき、付帯情報に従って各ジャンルに予め割当てられたしきい値を選択している。
特開2003−101939(段落209、210、図1及び図7)
しかし、上記した特許文献1に記載の技術では、一つの映像情報には一種類のしきい値しか使用できない。そのため、番組の中で環境雑音が変化した場合には、発話区間の検出に問題が生じるという問題がある。
特に、実時間の音声認識を行なう場合には、上記したような付帯情報が利用可能となるとは考えられない。また、電話による自動応答などに音声認識を用いる場合、音声信号の背景に存在する環境雑音がどのようなものになるかは予想できない。たとえば突発的な環境雑音が生じた場合、発話区間の検出を誤る可能性が高い。
また、音声認識においては発話中の音声エネルギの最大値で各フレームの音声エネルギを正規化した特徴量を用いると有効であることが知られている。しかしそのためには、発話の終了まで待って発話中での最大パワーを算出した後、算出された最大パワーを用いて当該発話中の各フレームの音声エネルギを正規化する必要がある。しかし、発話の終了まで待っていると実時間の音声認識を行なうことができないという問題がある。
従って、本発明の目的は、環境雑音にかかわらず発話区間の検出を適切に行なうことができる発話区間検出装置を提供することである。
本発明の他の目的は、環境雑音が変化しても発話区間の検出を適切に行なうことができる発話区間検出装置を提供することである。
本発明のさらに他の目的は、環境雑音が変化しても発話区間の検出を実時間で適切に行なうことができる発話区間検出装置を提供することである。
本発明のさらに他の目的は、突発的な環境雑音の変化があっても発話区間の検出を実時間で適切に行なうことができる発話区間検出装置を提供することである。
本発明の他の目的は、実時間で各フレームの音声エネルギを正規化することができる音声エネルギ正規化装置を提供することである。
本発明の第1の局面に係る発話区間検出装置は、音声データを逐次フレーム化するためのフレーム化手段と、フレーム化手段によりフレーム化された音声のエネルギ値をフレームごとに算出し、FIFO(First−In First−Out)形式で第1の個数のフレームのエネルギ値を記憶するフレームエネルギ算出及び記憶手段と、フレームエネルギ算出及び記憶手段に、第2の個数のフレームのエネルギ値が格納されたことに応答して、第2の個数のフレームのエネルギ値を所定の統計的手法に従って処理することにより、音声データに含まれる環境雑音の推定値の初期値を算出するための初期値算出手段と、推定値の初期値と、フレームエネルギ算出及び記憶手段に逐次記憶される音声のエネルギ値とに基づいて、音声データに含まれる環境雑音の変化に追従して変化する様に、発話区間を検出するためのエネルギ値のしきい値をフレームごとに逐次算出するための手段と、しきい値に基づいて、第2の個数のフレーム以降のフレームの中で、音声データの発話区間の開始位置又は終了位置に対応するフレームを推定するための発話区間推定手段とを含む。
環境雑音の推定値の初期値が、第2の個数のフレームのエネルギ値を統計的に処理することにより算出される。以後は、この推定値の初期値と、フレームエネルギ算出及び記憶手段に逐次記憶される音声のエネルギ値とに基づいて、音声データに含まれる環境雑音の変化に追従して変化する様に、発話区間を検出するためのエネルギ値のしきい値をフレームごとに逐次算出する。そのしきい値を用いて音声データの発話区間の開始位置又は終了位置に対応するフレームを推定する。しきい値が、環境雑音の変化に追従して変化するので、正確に発話区間の開始位置又は終了位置を推定できる。
好ましくは、初期値算出手段は、第2の個数のフレームを、各フレームのエネルギ値の大きさによって、第1のエネルギ値を中心とする第1のクラスタと、第1のエネルギよりも大きな第2のエネルギ値を中心とする第2のクラスタとにクラスタ化するための手段と、第1のエネルギ値を環境雑音の推定値の初期値として出力するための手段とを含む。
音声信号には、環境雑音と発話音声とが含まれる。各フレームをクラスタ化すると、環境雑音のみのフレームと、環境雑音と発話音声とを含むフレームとの二つのグループに分類されると思われる。フレームをエネルギの大きさに従って二つのクラスタにクラスタ化すると、エネルギの小さな第1のフレームからなるクラスタにおいて、環境雑音のみからなるフレームの占める割合が高くなる。そこで、この第1のクラスタのフレームのエネルギ値の平均を環境雑音の推定値の初期値とすれば、環境雑音の初期値を信頼性高く推定することができる。
より好ましくは、クラスタ化するための手段は、第2の個数のフレームを第1及び第2のクラスタにクラスタ化するための境界値を決定するための手段と、境界値よりも小さなエネルギ値を持つフレームを第1のクラスタに、それ以外のフレームを第2のクラスタに、それぞれ分類するための手段とを含む。
境界値を決定するための手段は、第2の個数のフレームのうち、エネルギ値をキーとしてソートしたときに予め定める第1のソート順位及び第2のソート順位となる二つのフレームを選択するための手段と、選択された二つのフレームのエネルギ値の平均値を算出するための第1の平均値算出手段と、第1の平均値算出手段により算出された平均値より小さいエネルギ値を持つか否かを基準として、第2の個数のフレームを第1及び第2のグループに分類するための手段と、第1及び第2のグループに属するフレームのエネルギ値の平均値をそれぞれ算出するための第2の平均値算出手段と、第2の平均値算出手段により算出された二つの平均値の平均値をさらに算出し、境界値として出力するための第3の平均値算出手段とを含んでもよい。
好ましくは、しきい値をフレームごとに逐次算出するための手段は、フレームエネルギ算出及び記憶手段に格納されているフレームのエネルギ値と、環境雑音の推定値の初期値とに基づいて、フレームエネルギ算出及び記憶手段に格納されているフレームの環境雑音のエネルギ値をフレームごとに推定するための手段と、フレームエネルギ算出及び記憶手段に格納されているフレームのエネルギ値のうち、定常的な背景雑音及び発話音声の合計のエネルギ値の最大値をフレームごとに逐次推定するための手段と、推定された環境雑音のエネルギ値と、推定された背景雑音及び発話音声の合計のエネルギ値とに基づいて、発話区間を検出するためのエネルギのしきい値をフレームごとに算出するための手段とを含む。
より好ましくは、発話区間推定手段は、しきい値に基づいて、第2の個数のフレーム以降のフレームの状態を判定するための手段を含み、状態は、非発話状態を含み、環境雑音のエネルギ値をフレームごとに逐次推定するための手段は、1フレーム前の時点において推定された環境雑音のエネルギ値を記憶するための手段と、環境雑音の推定値の初期値が算出された時点で記憶するための手段に環境雑音の推定値の初期値を記憶させるための手段と、記憶するための手段に記憶された値、フレームエネルギ算出及び記憶手段に含まれるフレームのエネルギ値、及びフレームの状態を判定する手段による判定結果に基づいて、以下の式
b(t)=b(t−1)×α+E(t)×(1−α) (状態が非発話状態の場合)
b(t)=b(t−1) (状態が非発話状態以外の場合)
ただしαは所定の忘却係数、E(t)は時刻tにおけるフレームのエネルギ値、に従って時刻tにおける背景雑音b(t)を算出するための手段とを含み、記憶するための手段は、算出された背景雑音b(t)を記憶する。
合計のエネルギ値の最大値をフレームごとに推定するための手段は、フレームエネルギ算出及び記憶手段に格納されているフレームを、エネルギ値をキーとしてソートするための手段と、ソートするための手段によりソートされた結果所定の順位となるフレームのエネルギ値を合計のエネルギ値の最大値Emax(t)として選択するための手段を含んでもよい。
好ましくは、しきい値をフレームごとに逐次算出するための手段は、時刻tにおける発話開始位置検出のためのしきい値Eth1(t)を、
Eth1(t)= b(t)+max(β,Emax(t)−b(t))×第1の定数
に従って算出するための手段を含む。
さらに好ましくは、しきい値をフレームごとに逐次算出するための手段は、さらに、時刻tにおける発話終了位置検出のためのしきい値Eth2(t)を、
Eth2(t)=b(t)+max(β,Emax(t)−b(t))×第2の定数
ただし第2の定数<第1の定数、に従って算出するための手段を含む。
発話区間検出装置はさらに、発話の先頭からの各フレームの音声データの最大エネルギ値又は所定のデフォルト基準値のいずれか大きい方を用いて各フレームの音声データを正規化し、各フレームの音声特徴パラメータとして出力するための音声エネルギ正規化手段を含んでもよい。
発話の先頭からの各フレームの音声データの最大エネルギ値又は所定のデフォルト基準値のいずれか大きい方を用いて正規化するので、発話の終了まで待たずに、擬似的にではあるが実時間で正規化することが可能になる。したがって、音声特徴パラメータの一つとして音声エネルギを実時間で得ることができる。
好ましくは、音声エネルギ正規化手段は、正規化の基準値を記憶するための基準値記憶手段と、フレームエネルギ算出及び記憶手段により算出された音声エネルギが、基準値記憶手段に記憶された基準値を超えていることを検出し、検出信号を出力するための検出手段と、検出手段により出力される検出信号に応答して、基準値記憶手段に記憶された基準値を、フレームエネルギ算出及び記憶手段により算出された値で置換するための手段と、フレームエネルギ算出及び記憶手段により算出された音声エネルギ値を、基準値記憶手段に記憶された基準値で除算することにより、当該フレームの音声エネルギを正規化するための除算手段とを含む。
さらに好ましくは、発話区間検出装置は、発話区間推定手段により、発話区間の終了位置に対応するフレームが推定されたことに応答して、基準値記憶手段の記憶内容を、所定のデフォルト値で置換するための手段をさらに含む。
発話区間検出装置は、所定のデフォルト値を、発話区間検出装置の起動時に与えられたオプション値に基づいて設定するための手段をさらに含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、上記したいずれかの発話区間検出装置としてコンピュータを動作させるためのものである。
本発明の第3の局面にかかる音声エネルギ正規化装置は、フレーム化された音声データの正規化音声エネルギを実時間で算出するための音声エネルギ正規化装置であって、正規化の基準値を記憶するための基準値記憶手段と、フレームごとの音声データの音声エネルギを算出するための手段と、音声エネルギ算出手段により算出された音声エネルギが、基準値記憶手段に記憶された基準値を超えていることを検出し、検出信号を出力するための手段と、検出手段により出力される検出信号に応答して、基準値記憶手段に記憶された基準値を、音声エネルギ算出手段により算出された値で置換するための手段と、音声エネルギ算出手段により算出された音声エネルギを、基準値記憶手段に記憶された基準値で除算することにより、当該フレームの音声エネルギを正規化するための除算手段とを含む。
発話区間の最初においては、デフォルトの値を基準値として音声エネルギを正規化する。発話区間の途中でフレームの音声エネルギが基準値を超えると、フレームの音声エネルギを新たな基準値として音声エネルギを正規化する。発話区間の終了まで到達しなくても擬似的にではあるが音声エネルギの実時間での正規化が可能になる。発話区間の最初では誤差が生ずるが、実際に音声エネルギが発話区間中での最大値まで到達すると、後は正確な正規化が行なえる。またデフォルトの値を適切に選ぶことにより、発話区間の最初に生ずる誤差も小さく抑えることができる。
好ましくは、音声エネルギ正規化装置は、発話区間の終了を検出して発話終了検出信号を出力するための手段と、発話終了検出信号に応答して、基準値記憶手段の記憶内容を、所定のデフォルト値で置換するための手段とをさらに含む。
発話区間が終了すると、基準値を再びデフォルトの値に再設定できる。音声エネルギを、フレームごとに適切な基準値を使用して正規化できる。
さらに好ましくは、音声エネルギ正規化装置は、所定のデフォルト値を、音声エネルギ正規化装置の起動時に与えられたオプション値に基づいて設定するための手段をさらに含む。
起動時のオプション値によってデフォルト値を設定できるので、様々なオプション値をデフォルト値として音声エネルギ正規化装置を動作させることができる。その結果、音声エネルギの正規化処理をより適切に実現することが容易になる。
本発明の第4の局面に係るコンピュータプログラムは、上記したいずれかの音声エネルギ正規化装置としてコンピュータを動作させるためのものである。
本発明の第5の局面に係るコンピュータは、上記した第2の局面に係るコンピュータプログラム、又は第4の局面に係るコンピュータプログラムによりプログラムされ、発話区間検出装置又は音声エネルギ正規化装置として動作する。
本実施の形態に係る発話区間検出装置は、フレーム化して入力される音声信号に基づき、統計的手法によって発話区間検出の際のしきい値を変化させる。その際、装置の立上がり時の遅延をできるだけ少なくするとともに、突発的な雑音があっても安定して発話区間の検出を行なうことができるよう、統計的手法を工夫している。また、音声認識のための特徴量パラメータとしてフレームの正規化した音声エネルギを算出する際、実時間処理によって、擬似的な正規化ができるような工夫をしている。
[発話区間の検出原理]
図1に、音声信号と、本実施の形態において発話区間の検出に使用される手法で使用される様々なパラメータとを示す。図1を参照して、音声信号20に対し、発話開始しきい値22と発話終了しきい値24という二つのしきい値を用いて発話の開始位置26及び終了位置28を判定する。これら発話開始しきい値22及び発話終了しきい値24は、入力波形データからフレーム単位で算出されるエネルギから統計的手法により定められる。これらを定める手法については後述する。
図1において、発話区間の判定の際に使用される時間的パラメータT1からT6は以下の意味を持つ。
T1:プリロール時間 あるフレームが発話の開始位置であると判定されたとき、そのフレームからさらにこのプリロール時間だけさかのぼった位置(図1の参照符号26)のフレームに、発話開始フレームとしてのマークが付される。
T2:発話開始判定時間 発話が開始したと判定されるための第1の条件として、フレーム単位のエネルギ値が連続して発話開始しきい値を超えなければならない時間。
T3:最短発話時間 発話開始と判定されるために、フレーム単位のエネルギ値が連続して超えなければならない最小時間。エネルギ値が発話開始しきい値をT2時間連続して超え、かつT3時間連続して超えてはじめて発話開始と判定される。
T4:最長無音時間 発話状態でフレーム単位のエネルギ値が発話終了しきい値を下回っても、発話終了と判定されない最長の時間。
T5:発話終了判定時間 発話が終了したと判定されるための第1の条件として、フレーム単位のエネルギ値が連続して発話終了しきい値を下回らなければならない時間。エネルギ値が発話終了しきい値をT5時間連続して下回り、かつT4時間連続して下回った場合、発話終了と判定される。
T6:アフタロール時間 あるフレームで発話終了と判定されたとき、そのフレームからさらにこのアフタロール時間だけ下った位置のフレーム(図1の参照符号28)に、発話終了フレームとしてのマークが付される。
図1の水平軸付近に記載されているS1からS4の符号は、後述する手法により決定される、各フレームの状態を示す。図2に、フレームの状態の遷移を示す。
図2を参照して、フレームは4つの状態(非発話状態(S1)30、発話開始状態(S2)32、発話状態(S3)34,及び発話終了状態(S4)36)の間を遷移する。状態間の遷移は以下の様にして行なわれる。
(1) 非発話状態(S1)30で、フレームのエネルギ値が発話開始しきい値22を上回ると状態は発話開始状態(S2)32に遷移する(アーク42)。
(2) 発話開始状態(S2)32が、一定時間T3だけ継続すると状態は発話状態(S3)34となる(アーク48)。
(3) 発話開始状態(S2)32で、フレームのエネルギ値が発話開始しきい値22を下回ると状態は非発話状態(S1)30に遷移する(アーク46)。
(4) 発話状態(S3)34で、フレームのエネルギ値が発話終了しきい値24を下回ると状態は発話終了状態(S4)36に遷移する(アーク52)。
(5) 発話終了状態(S4)36が、一定時間T4だけ継続すると状態は非発話状態(S1)30に遷移する(アーク58)。
(6) 発話終了状態(S4)36で、フレームのエネルギ値が発話終了しきい値24を上回ると状態は発話状態(S3)34に戻る(アーク54)。
(7) それ以外の場合、状態は現在の状態を維持する(アーク40、44、50及び56)。
上記した種々のパラメータは、本実施の形態の装置では、装置の起動時に手操作により設定される。設定のないものはデフォルト値が用いられる。パラメータ設定の部分は本発明と直接関係をもたないため、以下の説明では詳細には説明しない。
[フレームの構成]
後述する様に、本実施の形態に係る装置は、音声入力信号をフレーム単位で処理する。図3にフレーム及びフレームシフトの概念を説明するための模式図を示す。
図3を参照して、各フレーム70、72、74、…はフレーム長Tw=30ミリ秒の長さの音声信号である。本実施の形態では、このフレームを10ミリ秒単位で時間軸上を移動させながら順次音声信号をフレーム化する。この移動量をフレームシフト量と呼ぶ。従って、本実施の形態の装置の処理対象となる音声データは、フレーム長30ミリ秒,フレームシフト量10ミリ秒である。
また、各フレームのエネルギは、当該フレーム中のデータに窓関数80(ハミング窓)で示される値を乗算して総和を計算することにより得られる。フレームごとのエネルギの算出方法については後述する。
本実施の形態の装置では、通常は100フレームのデータを統計的に処理することにより発話開始しきい値22及び発話終了しきい値24を動的に計算する。この様に動的な処理を行なう場合、ある程度のデータが集積されないと処理を開始することができない。他方で、あまり多くのデータを使用して統計的処理を行なおうとすると、装置が適切に動作するまでの時間的遅延が長くなり、発話の最初を正しく検出できなくなるおそれがある。
そこで、本実施の形態の装置では、処理の開始後、最初の400ミリ秒までは無音状態であると仮定し、この間に40フレーム分のデータをフレームバッファに収集する。この40フレーム分のデータを用いて環境雑音の初期値を求め、その値を用いてさらにしきい値の初期値を決める。以後、100フレーム分のデータが収集されるまで、フレームデータをフレームバッファに蓄積しながら、収集したデータを用いてしきい値を動的に計算する。100フレームに達したら、以後、FIFO(First−In First−Out)形式でフレームデータを100個に維持しながらしきい値の計算を行なう。なお、この最大のフレーム数(フレームバッファ内に記憶され使用される最大のフレーム数)をフレームバッファサイズと呼ぶことにする。また、環境雑音の初期値を求めるために使用するフレームの数を初期バッファサイズと呼ぶ。すなわち、本実施の形態の装置ではフレームバッファサイズは100、初期バッファサイズは40である。
なお、これらのフレームバッファサイズ及び初期バッファサイズは一例であって、これ以外の値を用いることも考えられる。
以下の説明では、入力されるフレームの番号をt(0≦t)で表す。フレームは10ミリ秒ごとに入力されるので、tはまた時刻も表す。従って、以下の説明では単に「t番目のフレーム」を「時刻tにおけるフレーム」という表現で表すこともある。
こうした処理を行なうことで、処理開始時の遅延は400ミリ秒となり、実用上の問題は見られない。通常は100個のフレームデータを用いてしきい値を計算するので、信頼性高く発話区間の検出を行なうことができる。
[装置の構成]
図4は、本実施の形態に係る発話区間検出装置の構成を示す機能的ブロック図である。図4を参照して、この発話区間検出装置100は、マイク102から与えられる音声信号の中で発話区間を検出するためのものである。発話区間検出装置100は、マイク102から与えられる音声信号を標本化し、量子化することによりデジタル化し、さらに上記した形式のフレームデータとして10ミリ秒ごとに出力するとともに、フレームデータを出力したことを示すフレーム出力信号124を出力するための音声入力部104と、音声入力部104から与えられる複数個のフレームデータを記憶するための入力バッファ106とを含む。
発話区間検出装置100はさらに、入力バッファ106からフレームデータを読出してエネルギ値などのフレーム情報を算出するためのフレーム情報算出部108と、フレーム情報算出部108の出力するフレーム情報を記憶するためのフレームバッファ110とを含む。フレームバッファ110のバッファサイズは、前述した通り100フレーム分である。フレームバッファ110は、入力されたフレーム情報をFIFO形式で100個保持することができる。
本実施の形態では、フレーム情報算出部108は、次の式に従って時刻tにおけるフレームの音声エネルギE(t)を算出する。
Figure 2005031632
ただし、Nは1フレーム中のデータサンプル数、Si(i=1〜N)はデータの値、Hi(i=1〜N)はハミング窓関数の値を、それぞれ示す。
発話区間検出装置100はさらに、フレーム情報算出部108が算出したフレームの音声エネルギを、発話中の最大パワーを基準として正規化し、フレームの特徴ベクトルの一要素として入力バッファ106中に書込むためのフレーム音声エネルギ正規化処理部126を含む。フレームの音声エネルギの大きさを一発話の中の最大エネルギで正規化し、特徴量の一つとして音声認識に利用すると効果があることが認められている。しかし、そのためには発話の終了まで待ってフレームエネルギの最大値を算出する必要がある。しかしそれでは実時間処理を行なうことができない。
そこでフレーム音声エネルギ正規化処理部126は、音声エネルギのダイナミックレンジを実時間に更新することにより、擬似的にではあるが音声エネルギを実時間で正規化する機能を持つ。フレーム音声エネルギ正規化処理部126はそのため、図5に示すような構成を持つ。
図5を参照して、フレーム音声エネルギ正規化処理部126は、発話の先頭部分でまた音声エネルギの十分大きなフレームがないときに、最大音声エネルギのデフォルト値として使用されるデフォルト最大値を記憶するためのデフォルト最大値記憶部132と、発話の最初の部分ではデフォルト最大値記憶部132から与えられたデフォルト最大値を記憶し、発話途中でデフォルト最大値より大きな音声エネルギを持つフレームが検出された場合に、当該音声エネルギの値を記憶するための最大値記憶部134と、フレーム情報算出部108からの音声エネルギ128を最大値記憶部134に記憶されている最大値で除算し、結果を入力バッファ106の該当フレームの特徴量の一つとして書込むための除算部136と、最大値記憶部134の出力とフレーム情報算出部108からの音声エネルギ128とを受けて両者の値を比較し、比較結果信号139を最大値記憶部134に与えるための比較部138とを含む。比較結果信号139は、音声エネルギ128により示される値が最大値記憶部134に記憶された最大値を上回るとH(ハイ)レベルとなり,それ以外の場合はL(ロー)レベルとなる。なお、デフォルトの値は、オプションとしてこの装置(プログラム)起動時に与えられた値があれば、その値で書換えられる。
最大値記憶部134は、状態判定部118から与えられる信号200によって発話が終了したことが示されると、デフォルト最大値記憶部132の値を新たな最大値として記憶し、比較部138からの比較結果信号139がHレベルとなると、音声エネルギ128により示される値を新たな最大値として記憶する。したがって、最大値記憶部134に記憶される値は、発話開始時にはデフォルト最大値記憶部132に記憶されていたデフォルト値となり、発話の進行とともに音声エネルギがデフォルト値を上回るものが出現するとその音声エネルギとなる。以下、発話の進行中には同様の処理が繰返される。この値を発話中の音声エネルギの最大値として使用して各フレームの音声エネルギを正規化することにより、擬似的にではあるが、実時間で音声エネルギの正規化を行なうことができる。
なお、デフォルトの値は予め実験により適切な値を決めておくことが望ましい。
発話区間検出装置100はさらに、音声入力部104からのフレーム出力信号124を受け、入力バッファ106、フレーム情報算出部108及びフレームバッファ110の読出ポイント及び書込ポイント、並びにそれらへの書込み・読出しのタイミングを管理するための入出力・アドレス管理部114と、発話区間検出装置100の処理開始後400ミリ秒までの間にフレームバッファ110に格納されるフレームデータ160を読出し、初期環境雑音を算出するための初期環境雑音算出部112と、フレームバッファ110からのフレームデータ192、初期環境雑音算出部112からの初期環境雑音の推定値194、及び現在の状態が非発話状態(S1)30(図2参照)か否かを示す信号190を受け、それらから発話開始しきい値22及び発話終了しきい値24を動的に算出し、しきい値の値を示す信号198として出力するための動的しきい値算出部116とを含む。
入力バッファ106、フレームバッファ110などは半導体記憶装置などにより実現される。入出力・アドレス管理部114はタイマを装備しており、音声入力部104による音声データのデジタル化に同期して、入力バッファ106、フレームバッファ110などへの書込みのポインタ、それらからの読出しポインタを管理する。入出力・アドレス管理部114はまた、起動後400ミリ秒までのフレームを処理する際にはHレベル、それ以後はLレベルの値をとる初回フラグ196を動的しきい値算出部116に与える機能も持つ。動的しきい値算出部116の処理は、初回フラグ196及び信号190の値によって制御される。
発話区間検出装置100はさらに、動的しきい値算出部116から出力されたしきい値の値を示す信号198及びフレームバッファ110からのフレームデータ192とから、後述する方法に従ってフレームの状態を判定し、状態を表す信号200を出力するための状態判定部118と、状態判定部118の出力する状態を表す信号200を受け、入力バッファ106から状態の確定したフレームに対応する入力データを読出して予め定められた算出方法によってこのフレームの音声の特徴ベクトルを算出し、さらに発話区間の開始又は終了フレームの場合には、それらを示すマークを当該特徴ベクトル122に付して出力するための特徴ベクトル出力部120とを含む。状態判定部118はまた、現在の状態が非発話状態(S1)30か否かを示す信号190を生成し、動的しきい値算出部116に与える機能も持つ。
図6は初期環境雑音算出部112のブロック図であって、初期環境雑音算出部112は、フレームバッファ110から与えられるフレーム情報のうち、フレームごとのエネルギ値を昇順にソートしてソート後フレームエネルギ記憶部142に格納させるためのソート処理部140と、ソート処理部140に格納されたフレームごとのエネルギ値のうち、下位から25%及び75%の大きさにあたる位置のフレームのエネルギを算出し、それぞれ後述するクラスタリング処理のシードとなる値em1及びem2として出力するためのシーズ算出部144と、この値em1及びem2を記憶するための記憶部146とを含む。
初期環境雑音算出部112はさらに、記憶部146から値em1及びem2を読出し、その平均値eaverageを算出するための第1の平均値算出部148と、第1の平均値算出部148が出力する平均値を境界値としてそれより大きいエネルギ値を持つか否かを基準として、ソート後フレームエネルギ記憶部142中の各フレームを二つのクラスタC1及びC2に分類するためのフレーム分類部150と、フレーム分類部150により得られた二つのクラスタC1及びC2の各々に属するフレームのエネルギ値の平均値Em1及びEm2を次の式に従って算出するための第2の平均値算出部152とを含む。
Figure 2005031632
ただし、Nはフレームバッファ110内のフレーム数、I1はeaverageより小さいエネルギ値を持ち、クラスタC1に属するフレームの数、I2はeaverageより大きいエネルギ値を持ち、クラスタC2に属するフレームの数を、それぞれ表す。
初期環境雑音算出部112はさらに、第2の平均値算出部152によって算出された二つの平均値Em1及びEm2をそれぞれ新たな値em1及びem2として記憶部146に記憶させ、さらに第1の平均値算出部148、フレーム分類部150、及び第2の平均値算出部152に先ほどの処理を繰返し実行させ、その結果得られた平均値Em1を初期環境雑音の推定値(em1)194として図4に示す動的しきい値算出部116に与えるための判定部154とを含む。
以下に、第1の平均値算出部148、フレーム分類部150及び第2の平均値算出部152により行なわれる処理について、図4、及び図6から図9を参照して説明する。一般に、図4に示すフレームバッファ110に記憶されている各フレームのエネルギ値は、図7に示される様に、入力音声信号のエネルギの大きさに従って変動する。これをエネルギの大きさに従って昇順にソートすると図8の様になると想定される。ソート処理部140が行なうソート処理はこうした処理であり、ソート後フレームエネルギ記憶部142に記憶されているフレーム情報は図8に示すものに対応している。
図8の様にソートすることで、エネルギ値のヒストグラムを容易にとることができる。図9にその例を示す。音声信号に環境雑音と発話成分とが含まれているとすれば、環境雑音のみのフレームのエネルギ値と、発話成分を含むフレームのエネルギ値とは、それぞれ別々の値を中心として分布することになると思われる。そして、それらは図9に示されるようなヒストグラムにおいて、エネルギの比較的低い部分のピークと、エネルギの比較的高い部分のピークとの二つのピークを形成することになるであろう。
図6に示す第1の平均値算出部148、フレーム分類部150、及び第2の平均値算出部152が行なっているのは、最初にエネルギ値の25%と75%の部分とをピークの初期位置として、上記した二つのピークをその後の演算により求め、ソート後フレームエネルギ記憶部142に格納されている各フレームを、環境雑音側のピークに近いフレームと、発話部分側のピークに近いフレームとの二つのクラスタにクラスタ化する処理である。
図10は、図4に示す動的しきい値算出部116の機能的ブロック図である。図10を参照して、動的しきい値算出部116は、フレームデータ192を受け、フレームバッファ110に格納されているソート後のフレーム情報のうち、小さい方から90%の位置にあるフレームのエネルギを、t番目までのフレームバッファサイズ分の数のフレームにおける最大エネルギemax(t)(最大エネルギ信号182)として出力するための最大エネルギ算出部176と、フレームデータ192を受け、後述する式に従って環境雑音の推定値を算出するための環境雑音算出部170と、1フレーム分だけ前の処理で算出された環境雑音の推定値b(t−1)を記憶するための記憶部174とを含む。
動的しきい値算出部116はさらに、記憶部174に記憶されている1フレーム分だけ前の推定値b(t−1)と、環境雑音算出部170から与えられる環境雑音の推定値と、初期環境雑音の推定値(em1)194とを受けて、初回フラグ196がHレベルであれば初期環境雑音の推定値(em1)194を、初回フラグ196がLレベルでかつ状態を示す信号190が非発話状態を示す値であれば環境雑音算出部170の出力を、初回フラグ196がLレベルでかつ状態を示す信号190が非発話状態を示す値でなければ記憶部174の出力を、それぞれ選択してt番目のフレームに対する環境雑音b(t)として出力するための選択部172とを含む。選択部172の出力は記憶部174に与えられ記憶される。
動的しきい値算出部116はさらに、最大エネルギ算出部176からの最大エネルギ値と、選択部172からのt番目のフレームにおける環境雑音b(t)とに基づいて発話開始しきい値22及び発話終了しきい値24を動的に算出するためのしきい値算出部178を含む。しきい値算出部178の出力する、しきい値を表す信号198は状態判定部118に与えられ、状態判定に用いられる。
環境雑音算出部170は、フレームバッファ110に記憶されたフレームデータ192の中でt番目のフレームのエネルギE(t)、及び記憶部174に記憶されたt−1番目のフレームに対する環境雑音b(t−1)とから次の式1に従って環境雑音の推定値b’(t)を算出する。
[式1]
b’(t)=b(t−1)×α+E(t)×(1−α)
ここで、αは予め定められた忘却係数、E(t)はt番目のフレームのエネルギを表す。忘却係数は0以上1以下の値であるが、本実施の形態では0.8を用いる。
選択部172は、状態が非発話状態以外であれば記憶部174から出力されるt−1番目のフレームに対する環境雑音b(t−1)を選択する。従ってこの場合には環境雑音は変化しない。状態が非発話状態であれば、選択部172は、環境雑音算出部170から出力される環境雑音の推定値b’(t)を選択する。
従って、環境雑音算出部170から出力される時刻tにおける環境雑音b(t)は以下の通りの式で表される。ただしE(t)は時刻tにおけるフレームのエネルギ値、αは前述の忘却係数である。
[式2]
b(t)=b(t−1)×α+E(t)×(1−α) (状態が非発話状態の場合)
b(t)=b(t−1) (状態が非発話状態以外の場合)
しきい値算出部178は以下の式に従って発話開始しきい値Eth1及び発話終了しきい値cを動的に算出する。
[式3]
0≦t<400ミリ秒では
Eth1(t)=b(t)+β×γ1
Eth2(t)=b(t)+β×γ2
400ミリ秒≦tでは
Eth1(t)=b(t)+max(β,Emax(t)−b(t))×γ1
Eth2(t)=b(t)+max(β,Emax(t)−b(t))×γ2
ただし、βは発話の最低ダイナミックレンジで、本実施の形態では20dBである。またγ1及びγ2はそれぞれ発話開始しきい値比率及び発話終了しきい値比率であり、それぞれ実験的に定められる、0以上で1以下の定数である。本実施の形態ではγ1=0.25、γ2=0.20を用いる。
こうして算出された発話開始しきい値Eth1及び発話終了しきい値Eth2が、図1を参照して説明した発話区間の検出時の発話開始しきい値22及び発話終了しきい値24として用いられる。
[装置の動作]
以上構成を述べた装置は以下のように動作する。
-起動時-
起動時には、処理に必要となるバッファ及びオプションの値を格納するためのエリアを記憶装置に確保する。起動時に与えられるオプションの値を調べ、オプションの値に誤りがなければ当該オプションに、与えられた値を設定する。オプションの値が与えられなかったものにはデフォルト値を設定する。与えられたオプションの値に誤りがあれば、その旨のメッセージを表示して処理を終了する。図5に示すフレーム音声エネルギ正規化処理部126のデフォルト最大値記憶部132については、起動時にオプションの値が与えられれば、その値をデフォルトの値として記憶し、さらに最大値記憶部134に記憶する。オプションの値が与えられなければ、プログラム上のデフォルト値をデフォルト最大値記憶部132に記憶し、さらに最大値記憶部134に記憶する。
各バッファの書込みポイント及び読出しポイントをそれぞれ初期値に設定する。
なお、起動後、実際の処理を開始する時刻(フレーム番号)をt=0とする。このときのフレームの状態は非発話状態に設定される。以後、図4に示す音声入力部104は、マイク102からの電気信号を10ミリ秒ごとに、30ミリ秒のフレーム長でデジタル化する。
-0ミリ秒から400ミリ秒まで-
入出力・アドレス管理部114からの初回フラグ196はHレベルである。音声入力部104は、発話判定に必要なデータ数が集まると、1回の処理で引き渡す数として予め定められた数のデータを入力バッファ106の、バッファ書込みポインタにより指定されるアドレスに書込む。
フレーム情報算出部108は、入力バッファ106の、読出しポインタにより指定されるアドレスから1フレーム分のデータを読出し、フレームエネルギを算出してフレームバッファ110の当該フレームに対応するエリアに書込む。フレーム情報算出部108はまた、算出されたフレームエネルギをこのフレームの音声エネルギ128として図5に示す除算部136、比較部138及び最大値記憶部134に与える。比較部138は、最大値記憶部134に記憶された値と音声エネルギ128により示される値とを比較し、比較結果信号139を最大値記憶部134に与える。音声エネルギ128により示される値が最大値記憶部134に記憶されている値を上回ったことが検出されると、比較結果信号139はHレベルとなり、最大値記憶部134は比較結果信号139がHレベルとなったことに応答して、これまで記憶していた値に代えて音声エネルギ128により表される値を記憶する。
除算部136は、音声エネルギ128により表される値を最大値記憶部134に記憶された値で除算して正規化された音声エネルギを算出する。正規化された音声エネルギ130は、入力バッファ106中で該当するフレームの、正規化音声エネルギのフィールドに書込まれる。以後、フレーム情報算出部108とフレーム音声エネルギ正規化処理部126とは、これと同様の動作を各フレームに対して繰返す。
初期環境雑音算出部112は、フレーム情報算出部108によりフレームバッファ110に書込まれたフレームエネルギを読出し、初期環境雑音の算出を行なう。時刻0ミリ秒から400ミリ秒の間は、状態の判定は行なわない。
次に、図6を参照して、初期環境雑音算出部112の動作について説明する。ソート処理部140は、フレームバッファ110から読出したフレームエネルギの値160をソートし、ソート後フレームエネルギ記憶部142に格納する。t=0では読出されるフレームエネルギの値は一つ(E(0))だけなので、その値をソート後フレームエネルギ記憶部142の1番目の領域に書込む。2回目以後は、ソート後フレームエネルギ記憶部142に前のソートの結果が既に書込まれており、そこに新たに一つのフレームエネルギをその大きさに従った位置に追加するだけでよい(ヒープソート)。従って、ソート処理は少ない計算量で実行できる。
起動後、0ミリ秒から400ミリ秒の間は、シーズ算出部144以後の処理部は動作しない。
-400ミリ秒経過時-
起動後400ミリ秒が経過すると、フレームバッファ110には40個のフレームデータ(E(0)〜E(39))のエネルギ値が格納されている。この状態が図7に対応する。ソート後フレームエネルギ記憶部142には、これら40個のフレームのエネルギ値を昇順にソートしたものが格納されている。この状態が図8に対応する。
フレーム情報算出部108及びフレーム音声エネルギ正規化処理部126は、400ミリ秒経過までと同様に動作する。
除算部136は、音声エネルギ128により表される値を最大値記憶部134に記憶された値で除算して正規化された音声エネルギを算出する。正規化された音声エネルギ130は、入力バッファ106中で該当するフレームの、正規化音声エネルギのフィールドに書込まれる。
シーズ算出部144は、ソート後フレームエネルギ記憶部142に格納されている40個のフレームエネルギのうち、小さい方から25%及び75%に相当する値を算出する。この値は記憶部146に記憶され、第1の平均値算出部148、フレーム分類部150及び第2の平均値算出部152により行なわれるクラスタリングのシードとなる。
第1の平均値算出部148は、記憶部146からこのシードem1及びem2の平均値を算出しフレーム分類部150に与える。フレーム分類部150は、全てのフレームについて、そのエネルギ値がシードem1及びem2のいずれに近いかを基準として、40個のフレームを二つのクラスタに分類し、分類した結果を第2の平均値算出部152に与える。
第2の平均値算出部152は、それら二つのクラスタの各々について、そのクラスタに属するフレームのエネルギ値の平均値Em1及びEm2を算出し判定部154に与える。
判定部154は、第2の平均値算出部152から与えられたEm1及びEm2を記憶部146に新たなem1及びem2として記憶させ、先ほどと同じ処理を第1の平均値算出部148、フレーム分類部150,及び第2の平均値算出部152に実行させる。こうして再び得られたEm1及びEm2のうち、Em1を初期環境雑音の推定値194(em1)として動的しきい値算出部116に与える。
図10を参照して、動的しきい値算出部116の動作について説明する。動的しきい値算出部116の選択部172は、b(t)の初期値として初期環境雑音の推定値194であるem1を選択し、記憶部174及びしきい値算出部178に与える。記憶部174はこの値を記憶する。
一方、最大エネルギ算出部176は、ソート後フレームエネルギ記憶部142に記憶されているソートされているフレームエネルギの値のうち、小さい方から90%に相当するエネルギ値を計算し、最大エネルギ値(Emax)182としてしきい値算出部178に与える。
しきい値算出部178は、選択部172から与えられる環境雑音の推定値em1と、最大エネルギ算出部176からの最大エネルギ値(Emax)182とに基づき、前述の式3によって発話開始しきい値22及び発話終了しきい値24を算出し(198)、図4に示す状態判定部118に与える。
状態判定部118は、動的しきい値算出部116から与えられる発話開始しきい値22及び発話終了しきい値24に基づき、図1及び図2に示す判定方法に従ってフレームの状態を判定し、その結果を表す信号200を特徴ベクトル出力部120及びフレーム音声エネルギ正規化処理部126に与える。状態判定部118はまた、フレームの状態が非発話状態か否かを示す信号190を動的しきい値算出部116に与える。
フレーム音声エネルギ正規化処理部126の最大値記憶部134(図5参照)は、状態を表す信号200により発話区間が終了したことが示されると、それまで記憶していた値に代えてデフォルト最大値記憶部132の値を記憶する。この処理により、次の発話に対する音声エネルギの正規化処理の開始時には、最大パワーとしてデフォルトの値(又はオプションとして与えられた値)が再び使用される。
特徴ベクトル出力部120は、状態判定部118の処理によって状態が確定したフレームのデータを入力バッファ106から読出し、そのフレームの特徴ベクトルを算出し、出力(122)する。特徴ベクトル出力部120はこのとき、当該フレームが発話開始フレーム又は発話終了フレームであれば、それを示すマークを当該特徴ベクトルに付して出力する。
-400ミリ秒から1秒まで-
入出力・アドレス管理部114からの初回フラグ196はオフとなる。40番目のフレームの後、100番目までのフレームについては、40番目のフレームに対する処理とほぼ同様である。この間の処理では、フレームバッファ110には10ミリ秒ごとに1フレーム分のデータが追加されていく。そして、その結果フレームバッファ110に格納されている全てのフレーム情報を用いて状態判定が実行される。
また、図10に示す動的しきい値算出部116においては、既に記憶部174に一つ前のフレームに対する処理で計算された環境雑音の推定値b(t−1)が記憶されている。環境雑音算出部170は、記憶部174に記憶された環境雑音の推定値b(t−1)と、フレームデータ192から得られるt番目のフレームのエネルギE(t)とから、式1に従って環境雑音の推定値b’(t)を算出し選択部172に与える。
選択部172は、初回フラグ196の値がオフなので、記憶部174の出力と、環境雑音算出部170の出力とのいずれかを状態を示す信号190の値に従って選択する。すなわち、信号190の表す状態が非発話状態であれば選択部172は環境雑音算出部170の出力を選択し、それ以外であれば記憶部174の出力を選択する。選択部172は、選択した値を示す信号を、記憶部174及びしきい値算出部178に与える。
他の点では、動的しきい値算出部116は、40番目のフレームに対する処理と同様の処理を実行する。状態判定部118、特徴ベクトル出力部120、及びフレーム音声エネルギ正規化処理部126の動作も同様である。
-1秒以後-
101番目のフレーム以降の処理も、400ミリ秒から1秒までの処理とほぼ同様である。ただしこの処理では、フレームバッファ110に記憶されているフレーム情報に新たなフレーム情報を追加する際には、最も古いフレーム情報が削除される。すなわちフレームバッファ110はFIFO形式でデータを格納する。その結果、フレームバッファ110には常に100フレーム分のフレーム情報が維持される。ソート処理部140によるソート処理も同様である。ソート後フレームエネルギ記憶部142のうち、最も古いフレームのエネルギ値が削除され、新たなフレームのエネルギ値が、その大きさに従って決まる位置に書込まれる。
初期環境雑音算出部112、動的しきい値算出部116、状態判定部118及び特徴ベクトル出力部120は、いずれもフレームバッファ110に記憶された100フレーム分のデータに基づいて、背景雑音の推定、しきい値の算出、状態の判定、及び特徴ベクトルの作成を繰返し実行する。
こうして、特徴ベクトル出力部120から出力されるフレームごとの特徴ベクトル122には、そのフレームが発話開始位置であれば発話開始マーカが、発話終了位置であれば発話終了マーカが、それぞれ付されている。このマーカにより、最初の音声データの発話区間(発話開始位置から発話終了位置まで)を検出する事ができる。
また、特徴ベクトル122にはフレームごとの音声エネルギを正規化した値が含まれ、これを特徴量として音声認識で利用することができる。またこの音声エネルギは、発話全体にわたって調べることで算出された最大値ではなく、発話の最初からの最大値によって実時間に更新される最大値で擬似的に正規化されたものである。この様子を図11に示す。
図11を参照して、この正規化処理により定められる音声エネルギの最大値の推移について説明する。図11を参照して、従前の方法によれば、発話の終了まで完了した時点で発話の音声エネルギの最大値を調べ、その値によって音声エネルギを正規化する。図11において、この音声エネルギの最大値は点線212とその後に続く太い実線218により表される。
これに対し上記した実施の形態では、発話の開始時点では一定のデフォルト値(又はオプション値)214で、点線212で示される音声エネルギの最大値を近似する。さらに音声エネルギの値がこのデフォルト値より大きくなると(図11における太い実線の曲線216の部分)、その値で音声エネルギの最大値の近似値を置換する。発話中で実際の音声エネルギの最大値位置に到達した後は、この近似値は実際の最大値と等しくなる(太い実線218の部分)。
この正規化処理によって、実時間で音声エネルギの正規化を行なうことができる。各発話の先頭部分ではデフォルトの値が最大値として使用されるため、多少の誤差は生じるが、デフォルトの値を適当な大きさに定めておくことにより、擬似的な正規化ではあっても十分な効果を得ることができる。
-実施の形態の効果-
以上説明した本実施の形態の装置によれば、発話の開始及び終了のための発話開始しきい値及び発話終了しきい値が、実際の音声データを統計的に処理する事により、実際の音声データに従って動的に変化される。環境雑音の変化に追従して変化するしきい値を用いて発話区間の検出ができる。その結果、環境雑音の影響を最小限に抑えて、正しく発話区間を検出する事ができる。
上記した実施の形態の装置では、しきい値を算出する際に用いられるフレームの最大エネルギ値として、実際の最大値の90%のものを用いている。そのため、環境雑音の突発的な変化によるしきい値の大きな変化を抑制する事ができる。また、フレームバッファサイズだけの量のフレームに対する統計的処理によりしきい値を算出しているので、一部のフレームで突出したエネルギ値の変化があっても、しきい値にその変化が与える影響は比較的少なくて済む。その結果、安定してしきい値を算出できる。
本実施の形態の装置ではさらに、フレームデータが40個となった時点で状態の判定を開始している。統計処理にはある程度の数が必要なので、あまり少ない数のフレームデータを用いたしきい値算出では、状態判定結果の信頼性が低くなる。従って、最低で300ミリ秒程度、望ましくは本実施の形態の装置のように400ミリ秒程度の音声データに基づいてしきい値算出を開始する事がよい。また、処理対象のフレーム数が40個となった時点で状態判定を開始するので、起動後、状態判定の開始までの遅延時間はほぼ400ミリ秒程度となる。この程度の遅延の大きさは実用上で問題とならない程度である。あまり大きな遅延をとるようにすると、発話区間の開始の検出に失敗するおそれがある。また上記実施の形態では、遅延は400ミリ秒であるが、しきい値判定には1000ミリ秒分のデータが使用されるので、少ない遅延で信頼性の高いしきい値算出を行なう事ができる。
[変形例]
上記した実施の形態では、フレームのエネルギ算出の際の窓関数としてハミング窓を用いた。しかし使用可能な窓関数はこれに限らない。ハニング窓、ブラックマン、カイザー、ブラックマン-ハリスなど種々の窓関数のうち、適切と思われるものを用いればよい。
上記実施の形態では、フレームバッファサイズを100、初期バッファサイズを40とした。これらの値は一例であって、これ以外の組合せをとる事もできる。ただし、フレームバッファサイズをあまり大きくとると環境雑音の変化に追従してしきい値を変化させる事が困難になる。またフレームバッファサイズをあまり小さくとると、環境雑音のちょっとした変化に対応してしきい値が変化し、発話区間の検出が安定してできなくなる。また、初期バッファサイズをあまり大きくとると環境雑音の推定までの遅延が大きくなり、発話区間の先頭の検出に失敗する可能性が高くなる。また、当然の事ながら初期バッファサイズはフレームバッファサイズ以下でなければならない。従って、フレームバッファサイズとしては300〜2000ミリ秒程度、初期バッファサイズとしては200から500ミリ秒程度がよい。特に、フレームバッファサイズが600〜1000ミリ秒程度、初期バッファサイズとして300から450ミリ秒程度が適している。
また、上記した実施の形態では、音声エネルギの正規化のため、予め算出された固定的な値をデフォルト値として使用している。しかし本発明はそのような実施の形態には限定されない。例えば、このデフォルト値を発話の終了時に直前の発話での最大パワーによって更新することもできる。このとき、最大エネルギに対して所定の係数a(0<a≦1、好ましくは0.7<a<0.9、さらに好ましくはa=0.8程度)を乗算しておくとよい。また、直前の発話だけでなく、過去の複数個の発話での最大エネルギの関数としてこのデフォルトの値を更新するようにしてもよい。
また、上記した実施の形態では、フレーム内の各音声データの絶対値に窓関数の値を乗じた値の平均値の対数をとり、さらに係数20を掛けることにより求めた対数音声エネルギを正規化したものを音声エネルギの特徴パラメータとしている。しかし本発明はそのような実施の形態には限定されず、例えば各音声データの二乗に窓関数の値を乗じた値の平均値の対数をとり、さらに係数10を掛けることで対数音声エネルギを算出するようにした場合にも本発明は同様に適用できる。
上記した実施の形態の装置は、DSP(Digital Signal Processor)などのプロセッサと、そうしたプロセッサ上で実行されるプログラム(マイクロプログラムを含む。)とにより実現される事が想定される。上記した説明により、そうしたプログラムを作成する事は、当業者には容易であろう。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明での発話区間判定の方式及びそのためのパラメータとを説明するための図である。 本発明での発話区間処理における状態遷移図である。 フレーム長及びフレームシフト量を説明するための図である。 本発明の一実施の形態に係る発話区間検出装置の機能的ブロック図である。 図4に示す装置の、音声エネルギ正規化処理部のブロック図である。 図4に示す装置の、初期環境雑音算出部の機能的ブロック図である。 フレームエネルギの変化の例を示す図である。 フレームエネルギを昇順にソートした結果を示す図である。 フレームエネルギのヒストグラムである。 図4に示す装置の動的しきい値算出部の機能的ブロック図である。 本発明の一実施の形態における音声エネルギ正規化処理を説明するための図である。
符号の説明
20 音声信号、22 発話開始しきい値、24 発話終了しきい値、30 非発話状態(S1)、32 発話開始状態(S2)、34 発話状態(S3)、36 発話終了状態(S4)、100 発話区間検出装置、102 マイク、104 音声入力部、106 入力バッファ、108 フレーム情報算出部、110 フレームバッファ、112 初期環境雑音算出部、114 入出力・アドレス管理部、116 動的しきい値算出部、118 状態判定部、120 特徴ベクトル出力部、122 特徴ベクトル、124 フレーム出力信号、126 フレーム音声エネルギ正規化処理部、140 ソート処理部、142 ソート後フレームエネルギ記憶部、144 シーズ算出部、146、174 記憶部、148 第1の平均値算出部、150 フレーム分類部、152 第2の平均値算出部、154 判定部、160 フレームデータ、170 環境雑音算出部、172 選択部、176 最大エネルギ算出部、178 しきい値算出部

Claims (19)

  1. 音声データを逐次フレーム化するためのフレーム化手段と、
    前記フレーム化手段によりフレーム化された音声のエネルギ値をフレームごとに算出し、FIFO(First−In First−Out)形式で第1の個数のフレームのエネルギ値を記憶するためのフレームエネルギ算出及び記憶手段と、
    前記フレームエネルギ算出及び記憶手段に、第2の個数のフレームのエネルギ値が格納されたことに応答して、前記第2の個数のフレームのエネルギ値を所定の統計的手法に従って処理することにより、前記音声データに含まれる環境雑音の推定値の初期値を算出するための初期値算出手段と、
    前記推定値の初期値と、フレームエネルギ算出及び記憶手段に逐次記憶される音声のエネルギ値とに基づいて、前記音声データに含まれる環境雑音の変化に追従して変化する様に、前記発話区間を検出するためのエネルギ値のしきい値をフレームごとに逐次算出するための手段と、
    前記しきい値に基づいて、前記第2の個数のフレーム以降のフレームの中で、前記音声データの発話区間の開始位置又は終了位置に対応するフレームを推定するための発話区間推定手段とを含む、発話区間検出装置。
  2. 前記初期値算出手段は、
    前記第2の個数のフレームを、各フレームのエネルギ値の大きさによって、第1のエネルギ値を中心とする第1のクラスタと、前記第1のエネルギよりも大きな第2のエネルギ値を中心とする第2のクラスタとにクラスタ化するための手段と、
    前記第1のエネルギ値を前記環境雑音の推定値の初期値として出力するための手段とを含む、請求項1に記載の発話区間検出装置。
  3. 前記クラスタ化するための手段は、
    前記第2の個数のフレームを前記第1及び第2のクラスタにクラスタ化するための境界値を決定するための手段と、
    前記境界値よりも小さなエネルギ値を持つフレームを前記第1のクラスタに、それ以外のフレームを前記第2のクラスタに、それぞれ分類するための手段とを含む、請求項2に記載の発話区間検出装置。
  4. 前記境界値を決定するための手段は、
    前記第2の個数のフレームのうち、エネルギ値をキーとしてソートしたときに予め定める第1のソート順位及び第2のソート順位となる二つのフレームを選択するための手段と、
    前記選択された二つのフレームのエネルギ値の平均値を算出するための第1の平均値算出手段と、
    前記第1の平均値算出手段により算出された平均値より小さいエネルギ値を持つか否かを基準として、前記第2の個数のフレームを第1及び第2のグループに分類するための手段と、
    前記第1及び第2のグループに属するフレームのエネルギ値の平均値をそれぞれ算出するための第2の平均値算出手段と、
    前記第2の平均値算出手段により算出された二つの平均値の平均値をさらに算出し、前記境界値として出力するための第3の平均値算出手段とを含む、請求項3に記載の発話区間検出装置。
  5. 前記しきい値をフレームごとに逐次算出するための手段は、
    前記フレームエネルギ算出及び記憶手段に格納されているフレームのエネルギ値と、前記環境雑音の推定値の初期値とに基づいて、前記フレームエネルギ算出及び記憶手段に格納されているフレームの環境雑音のエネルギ値をフレームごとに推定するための手段と、
    前記フレームエネルギ算出及び記憶手段に格納されているフレームのエネルギ値のうち、定常的な背景雑音及び発話音声の合計のエネルギ値の最大値をフレームごとに逐次推定するための手段と、
    前記推定された環境雑音のエネルギ値と、前記推定された背景雑音及び発話音声の合計のエネルギ値とに基づいて、前記発話区間を検出するためのエネルギのしきい値をフレームごとに算出するための手段とを含む、請求項1に記載の発話区間検出装置。
  6. 前記発話区間推定手段は、前記しきい値に基づいて、前記第2の個数のフレーム以降のフレームの状態を判定するための手段を含み、
    前記状態は、非発話状態を含み、
    前記環境雑音のエネルギ値をフレームごとに逐次推定するための手段は、
    1フレーム前の時点において推定された前記環境雑音のエネルギ値を記憶するための手段と、
    前記環境雑音の推定値の初期値が算出された時点で前記記憶するための手段に前記環境雑音の推定値の初期値を記憶させるための手段と、
    前記記憶するための手段に記憶された値、前記フレームエネルギ算出及び記憶手段に含まれるフレームのエネルギ値、及び前記フレームの状態を判定する手段による判定結果に基づいて、以下の式
    b(t)=b(t−1)×α+E(t)×(1−α) (状態が非発話状態の場合)
    b(t)=b(t−1) (状態が非発話状態以外の場合)
    ただしαは所定の忘却係数、E(t)は時刻tにおけるフレームのエネルギ値、
    に従って時刻tにおける背景雑音b(t)を算出するための手段とを含み、
    前記記憶するための手段は、算出された前記背景雑音b(t)を記憶する、請求項5に記載の発話区間検出装置。
  7. 前記合計のエネルギ値の最大値をフレームごとに推定するための手段は、
    前記フレームエネルギ算出及び記憶手段に格納されているフレームを、エネルギ値をキーとしてソートするための手段と、
    前記ソートするための手段によりソートされた結果所定の順位となるフレームのエネルギ値を前記合計のエネルギ値の最大値Emax(t)として選択するための手段を含む、請求項6に記載の発話区間検出装置。
  8. 前記しきい値をフレームごとに逐次算出するための手段は、
    時刻tにおける発話開始位置検出のためのしきい値Eth1(t)を、
    Eth1(t)=b(t)+max(β,Emax(t)−b(t))×第1の定数
    に従って算出するための手段を含む、請求項7に記載の発話区間検出装置。
  9. 前記しきい値をフレームごとに逐次算出するための手段は、
    さらに、
    時刻tにおける発話終了位置検出のためのしきい値Eth2(t)を、
    Eth2(t)=b(t)+max(β,Emax(t)−b(t))×第2の定数
    ただし第2の定数<第1の定数、
    に従って算出するための手段を含む、請求項8に記載の発話区間検出装置。
  10. さらに、発話の先頭からの各フレームの音声データの最大エネルギ値又は所定のデフォルト基準値のいずれか大きい方を用いて各フレームの音声データを正規化し、各フレームの音声特徴パラメータとして出力するための音声エネルギ正規化手段を含む、請求項1〜請求項9のいずれかに記載の発話区間検出装置。
  11. 前記音声エネルギ正規化手段は、
    正規化の基準値を記憶するための基準値記憶手段と、
    前記フレームエネルギ算出及び記憶手段により算出された音声エネルギが、前記基準値記憶手段に記憶された基準値を超えていることを検出し、検出信号を出力するための検出手段と、
    前記検出手段により出力される前記検出信号に応答して、前記基準値記憶手段に記憶された基準値を、前記フレームエネルギ算出及び記憶手段により算出された値で置換するための手段と、
    前記フレームエネルギ算出及び記憶手段により算出された音声エネルギ値を、前記基準値記憶手段に記憶された基準値で除算することにより、当該フレームの音声エネルギを正規化するための除算手段とを含む、発話区間検出装置。
  12. 前記発話区間推定手段により、発話区間の終了位置に対応するフレームが推定されたことに応答して、前記基準値記憶手段の記憶内容を、所定のデフォルト値で置換するための手段をさらに含む、請求項11に記載の発話区間検出装置。
  13. 前記所定のデフォルト値を、前記発話区間検出装置の起動時に与えられたオプション値に基づいて設定するための手段をさらに含む、請求項11又は請求項12に記載の発話区間検出装置。
  14. コンピュータにより実行されると、当該コンピュータを請求項1から請求項13のいずれかに記載の発話区間検出装置として動作させる、発話区間検出のためのコンピュータプログラム。
  15. フレーム化された音声データの正規化音声エネルギを実時間で算出するための音声エネルギ正規化装置であって、
    正規化の基準値を記憶するための基準値記憶手段と、
    フレームごとの音声データの音声エネルギを算出するための手段と、
    前記音声エネルギ算出手段により算出された音声エネルギが、前記基準値記憶手段に記憶された基準値を超えていることを検出し、検出信号を出力するための手段と、
    前記検出手段により出力される前記検出信号に応答して、前記基準値記憶手段に記憶された基準値を、前記音声エネルギ算出手段により算出された値で置換するための手段と、
    前記音声エネルギ算出手段により算出された音声エネルギを、前記基準値記憶手段に記憶された基準値で除算することにより、当該フレームの音声エネルギを正規化するための除算手段とを含む、音声エネルギ正規化装置。
  16. 発話区間の終了を検出して発話終了検出信号を出力するための手段と、
    前記発話終了検出信号に応答して、前記基準値記憶手段の記憶内容を、所定のデフォルト値で置換するための手段とをさらに含む、請求項15に記載の音声エネルギ正規化装置。
  17. 前記所定のデフォルト値を、前記音声エネルギ正規化装置の起動時に与えられたオプション値に基づいて設定するための手段をさらに含む、請求項16に記載の音声エネルギ正規化装置。
  18. コンピュータにより実行されると、当該コンピュータを請求項15から請求項17のいずれかに記載の音声エネルギ正規化装置として動作させる、音声エネルギ正規化のためのコンピュータプログラム。
  19. 請求項14又は請求項18に記載のコンピュータプログラムによりプログラムされた、コンピュータ。
JP2004101094A 2003-06-19 2004-03-30 発話区間検出装置、コンピュータプログラム及びコンピュータ Expired - Fee Related JP4521673B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004101094A JP4521673B2 (ja) 2003-06-19 2004-03-30 発話区間検出装置、コンピュータプログラム及びコンピュータ

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003174416 2003-06-19
JP2004101094A JP4521673B2 (ja) 2003-06-19 2004-03-30 発話区間検出装置、コンピュータプログラム及びコンピュータ

Publications (2)

Publication Number Publication Date
JP2005031632A true JP2005031632A (ja) 2005-02-03
JP4521673B2 JP4521673B2 (ja) 2010-08-11

Family

ID=34220012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004101094A Expired - Fee Related JP4521673B2 (ja) 2003-06-19 2004-03-30 発話区間検出装置、コンピュータプログラム及びコンピュータ

Country Status (1)

Country Link
JP (1) JP4521673B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
US8099277B2 (en) 2006-09-27 2012-01-17 Kabushiki Kaisha Toshiba Speech-duration detector and computer program product therefor
US8380500B2 (en) 2008-04-03 2013-02-19 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for judging speech/non-speech
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
WO2015105199A1 (en) 2014-01-10 2015-07-16 Ricoh Company, Ltd. Imaging module and imaging device
JP2016145944A (ja) * 2015-02-09 2016-08-12 沖電気工業株式会社 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
JP2016145940A (ja) * 2015-02-09 2016-08-12 沖電気工業株式会社 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
JP2016191788A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 音響処理装置、音響処理方法、及び、プログラム
US9570094B2 (en) 2008-11-10 2017-02-14 Google Inc. Multisensory speech detection
WO2021091504A1 (en) * 2019-11-04 2021-05-14 Cankaya Universitesi Signal energy calculation with a new method and a speech signal encoder obtained by means of this method
JP6996185B2 (ja) 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
JPS61273596A (ja) * 1985-05-30 1986-12-03 沖電気工業株式会社 音声区間検出方式
JPH0832526A (ja) * 1994-07-18 1996-02-02 Kokusai Electric Co Ltd 音声検出器
JPH0823756B2 (ja) * 1988-08-09 1996-03-06 沖電気工業株式会社 音声区間検出方式
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH08314500A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法及び音声認識装置
JPH10301593A (ja) * 1997-04-30 1998-11-13 Nippon Hoso Kyokai <Nhk> 音声区間検出方法およびその装置
JP2002258882A (ja) * 2001-03-05 2002-09-11 Hitachi Ltd 音声認識システム及び情報記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
JPS61273596A (ja) * 1985-05-30 1986-12-03 沖電気工業株式会社 音声区間検出方式
JPH0823756B2 (ja) * 1988-08-09 1996-03-06 沖電気工業株式会社 音声区間検出方式
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH0832526A (ja) * 1994-07-18 1996-02-02 Kokusai Electric Co Ltd 音声検出器
JPH08314500A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法及び音声認識装置
JPH10301593A (ja) * 1997-04-30 1998-11-13 Nippon Hoso Kyokai <Nhk> 音声区間検出方法およびその装置
JP2002258882A (ja) * 2001-03-05 2002-09-11 Hitachi Ltd 音声認識システム及び情報記録媒体

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8099277B2 (en) 2006-09-27 2012-01-17 Kabushiki Kaisha Toshiba Speech-duration detector and computer program product therefor
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法
JPWO2008114448A1 (ja) * 2007-03-20 2010-07-01 富士通株式会社 音声認識システム、音声認識プログラムおよび音声認識方法
US7991614B2 (en) 2007-03-20 2011-08-02 Fujitsu Limited Correction of matching results for speech recognition
JP4836290B2 (ja) * 2007-03-20 2011-12-14 富士通株式会社 音声認識システム、音声認識プログラムおよび音声認識方法
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8380500B2 (en) 2008-04-03 2013-02-19 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for judging speech/non-speech
US10026419B2 (en) 2008-11-10 2018-07-17 Google Llc Multisensory speech detection
US9570094B2 (en) 2008-11-10 2017-02-14 Google Inc. Multisensory speech detection
KR101829865B1 (ko) * 2008-11-10 2018-02-20 구글 엘엘씨 멀티센서 음성 검출
US10020009B1 (en) 2008-11-10 2018-07-10 Google Llc Multisensory speech detection
US10714120B2 (en) 2008-11-10 2020-07-14 Google Llc Multisensory speech detection
US10720176B2 (en) 2008-11-10 2020-07-21 Google Llc Multisensory speech detection
WO2015105199A1 (en) 2014-01-10 2015-07-16 Ricoh Company, Ltd. Imaging module and imaging device
JP2016145944A (ja) * 2015-02-09 2016-08-12 沖電気工業株式会社 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
JP2016145940A (ja) * 2015-02-09 2016-08-12 沖電気工業株式会社 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
JP2016191788A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 音響処理装置、音響処理方法、及び、プログラム
JP6996185B2 (ja) 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
WO2021091504A1 (en) * 2019-11-04 2021-05-14 Cankaya Universitesi Signal energy calculation with a new method and a speech signal encoder obtained by means of this method

Also Published As

Publication number Publication date
JP4521673B2 (ja) 2010-08-11

Similar Documents

Publication Publication Date Title
KR101942521B1 (ko) 음성 엔드포인팅
CN109473123B (zh) 语音活动检测方法及装置
US11062705B2 (en) Information processing apparatus, information processing method, and computer program product
JP4521673B2 (ja) 発話区間検出装置、コンピュータプログラム及びコンピュータ
CN109767792B (zh) 语音端点检测方法、装置、终端和存储介质
US6873953B1 (en) Prosody based endpoint detection
US7610199B2 (en) Method and apparatus for obtaining complete speech signals for speech recognition applications
US9418662B2 (en) Method, apparatus and computer program product for providing compound models for speech recognition adaptation
CN108563655B (zh) 基于文本的事件识别方法和装置
JP2004264816A (ja) 再帰的構成における反復ノイズ推定法
US6651040B1 (en) Method for dynamic adjustment of audio input gain in a speech system
JP2007133411A (ja) ガウス確率データビットの低減と計算のためのメモリ使用削減方法および装置
US8121299B2 (en) Method and system for music detection
US20200365146A1 (en) Dialog device, dialog method, and dialog computer program
JP2001092496A (ja) 連続音声認識装置および記録媒体
US8725508B2 (en) Method and apparatus for element identification in a signal
CN106504756A (zh) 嵌入式语音识别系统及方法
CN102246226B (zh) 声音识别装置
CN113378541A (zh) 文本标点预测方法、装置、系统及存储介质
JPWO2015093025A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
US20220189499A1 (en) Volume control apparatus, methods and programs for the same
Chelloug et al. Real Time Implementation of Voice Activity Detection based on False Acceptance Regulation.
US20220007124A1 (en) Audio signal processing method, apparatus, and program
CN109378019B (zh) 音频数据读取方法及处理系统
JP6969597B2 (ja) 音響信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100514

R150 Certificate of patent or registration of utility model

Ref document number: 4521673

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130604

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees