JP6759898B2 - 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム - Google Patents

発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム Download PDF

Info

Publication number
JP6759898B2
JP6759898B2 JP2016175765A JP2016175765A JP6759898B2 JP 6759898 B2 JP6759898 B2 JP 6759898B2 JP 2016175765 A JP2016175765 A JP 2016175765A JP 2016175765 A JP2016175765 A JP 2016175765A JP 6759898 B2 JP6759898 B2 JP 6759898B2
Authority
JP
Japan
Prior art keywords
utterance section
threshold value
section
frame
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016175765A
Other languages
English (en)
Other versions
JP2018040982A (ja
Inventor
鈴木 政直
政直 鈴木
千里 塩田
千里 塩田
鷲尾 信之
信之 鷲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016175765A priority Critical patent/JP6759898B2/ja
Priority to US15/643,576 priority patent/US10755731B2/en
Publication of JP2018040982A publication Critical patent/JP2018040982A/ja
Application granted granted Critical
Publication of JP6759898B2 publication Critical patent/JP6759898B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Description

本発明は、例えば、音声信号から話者が発話している区間を検出する発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラムに関する。
音声信号から話者が発した語句を認識し、認識した語句を他の言語に翻訳したり、認識した語句をクエリとしてネットワークまたはデータベース上で探索するといったアプリケーションが開発されている。このようなアプリケーションでは、話者が発話している区間を特定するために、例えば、話者自身がそのようなアプリケーションが実装された装置を操作して、音声信号の録音開始及び録音終了を指示することが求められる。しかし、そのようなアプリケーションが利用される環境によっては、話者がそのような操作を行えないことがある。例えば、話者が両手を使用する何らかの作業を行っている場合には、話者は音声信号の録音開始及び録音終了を指示する操作を行えない。
一方、音声信号において有音か無音かを判定する技術が提案されている(例えば、特許文献1を参照)。この技術では、入力音声信号の一定区間ごとに音声信号のパワー及びピッチパラメータなどが算出される。そして有音の第1の一定区間に続く次の第2の一定区間に対応するピッチパラメータが所定の閾値より低い場合に、その第2の一定区間が無音の一定区間として判定される。
特開平11−133997号公報
しかしながら、話者が発話している区間において、ピッチパラメータは一定ではない。そのため、ピッチパラメータと固定された閾値との比較に基づいて有音か否かを判定する上記の技術では、音声信号中で話者が発話している区間を正確に検出できないことがある。
一つの側面では、本発明は、音声信号中で話者が発話している区間を検出できる発話区間検出装置を提供することを目的とする。
一つの実施形態によれば、発話区間検出装置が提供される。この発話区間検出装置は、話者の声が表された音声信号を分割した所定長を持つフレームごとに、音声信号の周期性の強さを表すピッチゲインを算出するピッチゲイン算出部と、話者が発話していない非発話区間が継続している場合においてピッチゲインが第1の閾値以上となると話者が発話している発話区間が開始されたと判定し、かつ、発話区間が継続している場合においてピッチゲインが第1の閾値よりも小さい第2の閾値未満となると発話区間が終了すると判定する発話区間検出部とを有する。
音声信号中で話者が発話している区間を検出できる。
一つの実施形態による発話区間検出装置の概略構成図である。 発話区間検出処理に関する処理部の機能ブロック図である。 発話区間検出処理の概要を説明する図である。 発話区間検出処理の動作フローチャートである。 変形例による、発話区間と閾値の関係を示す図である。 SN比と第1の閾値の関係の一例を示す図である。 変形例による、発話区間の判定に関する状態遷移図である。 変形例による、発話区間検出処理の動作フローチャートである。 (a)は、変形例による、発話区間開始からの経過時間と第2の閾値との関係の一例を表す図である。(b)は、変形例による、発話区間終了からの経過時間と第1の閾値との関係の一例を表す図である。 実施形態またはその変形例による発話区間検出装置が実装されたサーバクライアントシステムの概略構成図である。
以下、図を参照しつつ、実施形態による発話区間検出装置について説明する。
この発話区間検出装置は、音声信号中で話者が発話している区間(以下、単に発話区間と呼ぶ)では、人の声の特性上、ある程度の周期性が認められることから、音の周期性の強さを表すピッチゲインに基づいて発話区間を検出する。これにより、この発話区間検出装置は、話者の声以外でも大きな値を取り得るパワーまたは信号対雑音比を利用するよりも、発話区間をより正確に検出できる。
ここで、話者が連続して発声していると、語尾にかけて話者の呼気圧が低下し、声門閉鎖の周期性が弱くなることが知られている(例えば、上村幸雄、「呼気流・呼気圧と調音音声学」、人文 6、 pp.247-291、2007年を参照)。このことから、発明者は、発話区間では、語尾にかけてピッチゲインが減衰することに着目した。そこで、この発話区間検出装置は、発話区間の開始を検出する際に用いられる、ピッチゲインに対する第1の閾値よりも、発話区間の終了を検出する際に用いられる、ピッチゲインに対する第2の閾値を低く設定する。
なお、この発話区間検出装置は、音声認識を利用するユーザインターフェースを採用する様々な装置、例えば、ナビゲーションシステム、携帯電話機またはコンピュータなどに実装できる。
図1は、一つの実施形態による発話区間検出装置の概略構成図である。発話区間検出装置1は、マイクロホン11と、アナログ/デジタルコンバータ12と、処理部13と、記憶部14とを有する。なお、発話区間検出装置1は、さらに、スピーカ(図示せず)、表示装置(図示せず)及び他の機器と通信するための通信インターフェース(図示せず)を有していてもよい。
マイクロホン11は、音声入力部の一例であり、話者の声を含む、発話区間検出装置1の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成する。そしてマイクロホン11は、そのアナログ音声信号をアナログ/デジタルコンバータ12(以下、A/Dコンバータと表記する)へ出力する。A/Dコンバータ12は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。なお、サンプリングレートは、例えば、音声信号から話者の声を解析するために必要な周波数帯域がナイキスト周波数以下となるよう、例えば、16kHz〜32kHzに設定される。そしてA/Dコンバータ12は、デジタル化された音声信号を処理部13へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。
処理部13は、例えば、一つまたは複数のプロセッサと、読み書き可能なメモリ回路と、その周辺回路とを有する。そして処理部13は、音声信号に対して発話区間検出処理を実行することで発話区間を検出する。処理部13は、発話区間中の音声信号に対して、例えば、音声認識処理を実行して、話者が発声した語句を認識する。さらに、処理部13は、認識した語句に応じた処理、例えば、認識した語句を、予め設定された言語の語句に翻訳したり、あるいは、認識した語句をクエリとしてネットワークなどの探索処理を行う。なお、発話区間検出処理の詳細については後述する。
記憶部14は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。さらに、記憶部14は、磁気記録媒体あるいは光記録媒体及びそのアクセス装置を有していてもよい。そして記憶部14は、処理部13上で実行される発話区間検出処理で利用される各種のデータ及び発話区間検出処理の途中で生成される各種のデータを記憶する。例えば、記憶部14は、ピッチゲインに対する閾値を記憶する。さらに、記憶部14は、発話区間中の音声信号に対して行われる処理に関するプログラム及びそのプログラムで利用される各種のデータを記憶してもよい。
以下、処理部13の詳細について説明する。
図2は、発話区間検出処理に関する処理部13の機能ブロック図である。処理部13は、パワー算出部21と、雑音推定部22と、信号対雑音比算出部23と、有音判定部24と、ピッチゲイン算出部25と、発話区間検出部26とを有する。
処理部13が有するこれらの各部は、例えば、処理部13が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部13が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路であってもよい。また処理部13は、音声信号を所定長を持つフレームを処理単位として発話区間検出処理を実行する。フレーム長は、例えば、10msec〜20msecに設定される。そのため、処理部13は、音声信号をフレームごとに分割し、各フレームをパワー算出部21及びピッチゲイン算出部25へ入力する。
パワー算出部21は、フレームが入力される度に、そのフレームについての音声信号のパワーを算出する。パワー算出部21は、例えば、フレームごとに、次式に従ってパワーを算出する。
Figure 0006759898
ここで、Sk(n)は、最新のフレーム(現フレームとも呼ぶ)のn番目のサンプリング点の信号値を表す。kはフレーム番号である。またNは、一つのフレームに含まれるサンプリング点の総数を表す。そしてSpow(k)は、現フレームのパワーを表す。
なお、パワー算出部21は、各フレームについて、複数の周波数のそれぞれごとにパワーを算出してもよい。この場合、パワー算出部21は、フレームごとに、音声信号を、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。なお、パワー算出部21は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform,FFT)を用いることができる。そしてパワー算出部21は、周波数帯域ごとに、その周波数帯域に含まれるスペクトル信号の2乗和を、その周波数帯域のパワーとして算出できる。
パワー算出部21は、フレームごとのパワーを雑音推定部22及び信号対雑音比算出部23へ出力する。
雑音推定部22は、フレームごとに、そのフレームにおける音声信号中の推定雑音成分を算出する。本実施形態では、雑音推定部22は、直前のフレームにおいて推定雑音成分を、現フレームのパワーを用いて次式に従って更新することで、現フレームの推定雑音成分を算出する。
Figure 0006759898
ここで、Noise(k-1)は、直前のフレームにおける推定雑音成分を表し、Noise(k)は、現フレームにおける推定雑音成分を表す。またβは、忘却係数であり、例えば、0.9に設定される。
なお、パワーが周波数帯域ごとに算出されている場合には、雑音推定部22は、(2)式に従って、推定される雑音成分を周波数帯域ごとに算出してもよい。この場合には、(2)式において、Noise(k-1)、Noise(k)及びSpow(k)は、それぞれ、着目する周波数帯域についての直前のフレームの推定雑音成分、現フレームの推定雑音成分、パワーとなる。
雑音推定部22は、フレームごとの推定雑音成分を信号対雑音比算出部23へ出力する。
なお、後述する有音判定部24により、現フレームが何らかの信号成分を含む有音フレームであると判定された場合には、雑音推定部22は、現フレームの推定雑音成分Noise(k)を、Noise(k-1)で置換してもよい。これにより、雑音推定部22は、雑音成分のみを含み、信号成分を含まないと推定されるフレームに基づいて雑音成分を推定できるので、雑音成分の推定精度を向上できる。
あるいは、雑音推定部22は、現フレームのパワーが所定の閾値以下である場合に限り、(2)式に従って推定雑音成分を更新すればよい。そして現フレームのパワーが所定の閾値より大きい場合には、雑音推定部22は、Noise(k)=Noise(k-1)とすればよい。なお、所定の閾値は、例えば、Noise(k-1)に所定のオフセット値を加算した値とすることができる。
信号対雑音比算出部23は、フレームごとに、信号対雑音比(以下では、単にSN比と表記する)を算出する。例えば、信号対雑音比算出部23は、次式に従ってSN比を算出する。
Figure 0006759898
ここで、SNR(k)は、現フレームのSN比を表す。なお、パワー及び推定雑音成分が周波数帯域ごとに算出されている場合には、信号対雑音比算出部23は、(3)式に従って、SN比を周波数帯域ごとに算出してもよい。この場合には、(3)式において、Noise(k)、Spow(k)及びSNR(k)は、それぞれ、着目する周波数帯域についての現フレームの推定雑音成分、パワー、SN比となる。
信号対雑音比算出部23は、フレームごとのSN比を有音判定部24へ出力する。
有音判定部24は、フレームごとに、そのフレームのSN比に基づいてそのフレームが有音区間に含まれるか否かを判定する。なお、有音区間は、その区間中の音声信号中に何らかの信号成分が含まれると推定される区間である。そのため、発話区間は有音区間に含まれると想定される。そこで、発話区間の検出対象となる区間として有音区間を特定することで、発話区間検出装置1は、発話区間の検出精度を向上できる。
本実施形態では、有音判定部24は、フレームごとに、そのフレームのSN比を有音判定閾値Thsnrと比較する。なお、有音判定閾値Thsnrは、例えば、音声信号中に推定雑音成分以外の信号成分が含まれることに相当する値、例えば、2〜3に設定される。そして有音判定部24は、SN比が有音判定閾値Thsnr以上であれば、そのフレームは有音区間に含まれると判定する。一方、有音判定部24は、SN比が有音判定閾値Thsnr未満であれば、そのフレームは有音区間に含まれない、すなわち、無音区間に含まれると判定する。なお、有音判定部24は、SN比が有音判定閾値Thsnr以上となるフレームが一定期間(例えば、1秒間)連続した時点で、有音区間に入ったと判定してもよい。また、有音判定部24は、それ以前のフレームが有音区間に含まれると判定されている状態で、SN比が有音判定閾値Thsnr未満となるフレームが一定期間連続した時点で、有音区間が終了したと判定してもよい。
さらに、周波数帯域ごとにSN比が算出されている場合には、有音判定部24は、SN比が有音判定閾値Thsnr以上となる周波数帯域の数が所定数以上となる場合に、そのフレームは有音区間に含まれると判定してもよい。なお、所定数は、例えば、SN比が算出される周波数帯域の総数の1/2とすることができる。あるいは、有音判定部24は、解析対象となる周波数が含まれる周波数帯域についてSN比が有音判定閾値Thsnr以上となる場合に、そのフレームは有音区間に含まれると判定してもよい。
あるいは、有音判定部24は、フレームごとのパワーそのものに基づいて、フレームごとに有音区間に含まれるか否かを判定してもよい。この場合には、有音判定部24は、現フレームのパワーが所定の閾値以上であれば、現フレームは有音区間に含まれ、現フレームのパワーが所定の閾値未満であれば、現フレームは無音区間に含まれると判定してもよい。この場合、所定の閾値は、現フレームの推定雑音成分が大きくなるほど、高くなるように設定されてもよい。
有音判定部24は、フレームごとに、有音区間に含まれるか否かの判定結果を表す情報を雑音推定部22及びピッチゲイン算出部25に通知する。なお、有音区間に含まれるか否かの判定結果を表す情報は、例えば、有音区間である場合に"1"となり、無音区間である場合に"0"となるフラグとすることができる。
なお、発話区間検出部26が発話区間の開始を検出した後において、発話区間の終了を検知するよりも前に、有音判定部24が現フレームについて無音区間に属すると判定した場合、有音判定部24は、直前のフレームまでで発話区間が終了したと判定してもよい。
ピッチゲイン算出部25は、有音区間に含まれる各フレームについて、音の周期性の強さを表すピッチゲインを算出する。なお、ピッチゲインは、ピッチ予測利得とも呼ばれる。ピッチゲイン算出部25は、有音区間に含まれる各フレームについて同一の処理を実行するので、以下では、一つのフレームに対する処理について説明する。
ピッチゲインを算出するために、ピッチゲイン算出部25は、先ず、音声信号の長期自己相関C(d)を、遅延量d∈{dlow,...,dhigh}について算出する。
Figure 0006759898
上記のように、Sk(n)は、現フレームkのn番目の信号値である。またNは、フレームに含まれるサンプリング点の総数を表す。なお、(n-d)が負となる場合、直前のフレームの対応する信号値(すなわち、Sk-1(N-(n-d)))がSk(n-d)として用いられる。そして遅延量dの範囲{dlow,...,dhigh}は、人の声の基本周波数(100〜300Hz)に相当する遅延量が含まれるように設定される。ピッチゲインは、基本周波数において最も高くなるためである。例えば、サンプリングレートが16kHzである場合、dlow=40、dhigh=286に設定される。
ピッチゲイン算出部25は、遅延量の範囲に含まれる遅延量dごとに長期自己相関C(d)を算出すると、長期自己相関C(d)のうちの最大値C(dmax)を求める。なお、dmaxは、長期自己相関C(d)の最大値C(dmax)に対応する遅延量であり、この遅延量はピッチ周期に相当する。そしてピッチゲイン算出部25は、次式に従ってピッチゲインgpitchを算出する。
Figure 0006759898
ピッチゲイン算出部25は、有音区間内のフレームについてピッチゲインgpitchを算出する度に、ピッチゲインgpitchを発話区間検出部26へ出力する。
発話区間検出部26は、有音区間内の各フレームについて、ピッチゲインgpitchを発話区間検出用の閾値と比較することで、発話区間を検出する。すなわち、発話区間検出部26は、話者が発話していない非発話区間が継続している場合においてピッチゲインgpitchが第1の閾値以上となると話者が発話している発話区間が開始されたと判定する。一方、発話区間検出部26は、発話区間が継続している場合においてピッチゲインが第1の閾値よりも小さい第2の閾値未満となると発話区間が終了すると判定する。
本実施形態では、発話区間検出部26は、現フレームの直前のフレームが発話区間でない場合、相対的に高い、発話区間開始検出用の第1の閾値とピッチゲインとを比較する。なお、直前のフレームが発話区間に含まれるか否かは、例えば、記憶部14に保存されている、発話区間か否かを表すフラグを参照することで判定される。そして発話区間検出部26は、ピッチゲインが第1の閾値以上である場合、現フレームから発話区間が開始されたと判定する。そして発話区間検出部26は、発話区間か否かを表すフラグを、発話区間であることを表す値(例えば、'1')に更新定する。
一方、現フレームの直前のフレームが発話区間に含まれている場合、相対的に低い、発話区間終了検出用の第2の閾値とピッチゲインとを比較する。そして発話区間検出部26は、ピッチゲインが第2の閾値未満である場合、直前のフレームまでで発話区間は終了したと判定する。そして発話区間検出部26は、発話区間か否かを表すフラグを、非発話区間であることを表す値(例えば、'0')に更新する。
図3は、本実施形態による、発話区間検出処理の概要を説明する図である。図3の各グラフにおいて、横軸は時間を表す。1番上のグラフでは、縦軸はSN比を表す。上から2番目のグラフでは、縦軸は有音区間か無音区間かの判定結果を表す。また、上から3番目のグラフでは、縦軸はピッチゲインを表す。そして一番下のグラフでは、縦軸は発話区間か否かの判定結果を表す。
一番上のグラフにおいて、折れ線301は、SN比の時間変化を表す。上から2番目のグラフにおいて、折れ線302は、時刻ごとの有音区間か無音区間かの判定結果を表す。折れ線301に示されるように、時刻t1にてSN比が有音判定閾値Thsnr以上となり、その後、時刻t4まで継続してSN比は有音判定閾値Thsnr以上となる。時刻t4以降、SN比は、有音判定閾値Thsnr未満となる。その結果、折れ線302に示されるように、時刻t1から時刻t4までの区間が有音区間と判定され、その前後は、無音区間と判定される。
上から3番目のグラフにおいて、折れ線303は、ピッチゲインの時間変化を表す。また一番下のグラフにおいて、折れ線304は、時刻ごとの発話区間か否かの判定結果を表す。折れ線303に示されるように、ピッチゲインは、時刻t1から上昇を開始し、時刻t2にて第1の閾値Th1以上となる。その後しばらくしてからピッチゲインはピークとなり、以降徐々に減衰する。そして時刻t3にて、ピッチゲインは第1の閾値Th1よりも低い、第2の閾値Th2未満となる。その結果、折れ線304に示されるように、時刻t2から時刻t3までの区間が発話区間と判定される。なお、仮に、発話区間の終了の判定にも閾値Th1が用いられると、時刻t2'にてピッチゲインは閾値Th1未満となるので、本来の発話区間よりも短い区間しか発話区間として検出されないことになる。しかし上記のように、発話区間の終了の判定に利用される閾値Th2を、発話区間の開始の判定に利用される閾値Th1よりも小さくすることで、発話区間検出部26は、発話区間を適切に検出できる。
発話区間検出部26は、発話区間が開始されたタイミングと発話区間が終了したタイミングとを処理部13に出力する。
処理部13は、発話区間が検出されると、例えば、発話区間中に話者が発話した内容を認識するために、発話区間中の各フレームから、話者の声の特徴を表す複数の特徴量を抽出する。そのような特徴量として、例えば、メル周波数ケプストラムの所定の次数の係数が用いられる。そして処理部13は、例えば、各フレームの特徴量を、隠れマルコフモデルにより音響モデルに適用することで、発話区間内の音素系列を認識する。そして処理部13は、単語ごとの音素系列を表す単語辞書を参照して、発話区間の音素系列と一致する単語の組み合わせを検出することで、発話区間内の発話内容を認識する。さらに処理部13は、その発話内容と、処理部13にて実行されるアプリケーションとに応じた処理を実行してもよい。例えば、処理部13は、発話内容に応じた単語の組み合わせに対して自動翻訳処理を行って、その発話内容を他言語に翻訳してもよい。そして処理部13は、他言語に翻訳された発話内容に応じた文字列を表示装置(図示せず)に表示してもよい。あるいは、処理部13は、その翻訳された文字列に音声合成処理を適用して、その文字列を表した合成音声信号を生成し、その合成音声信号をスピーカ(図示せず)を介して再生してもよい。あるいは、処理部13は、発話内容に応じた単語の組み合わせをクエリとして、発話区間検出装置1と接続されたネットワーク上で探索処理を実行してもよい。あるいはまた、処理部13は、発話内容を表す文字列と、発話区間検出装置1が実装された装置の操作コマンドとを比較し、発話内容を表す文字列が何れかの操作コマンドと一致する場合に、その操作コマンドに応じた処理を実行してもよい。
図4は、本実施形態による、発話区間検出処理の動作フローチャートである。処理部13は、フレームごとに、下記の動作フローチャートに従って発話区間検出処理を実行する。
パワー算出部21は、音声信号の現フレームのパワーを算出する(ステップS101)。雑音推定部22は、現フレームのパワーと、直前のフレームにおける推定雑音成分に基づいて、現フレームの推定雑音成分を算出する(ステップS102)。そして信号対雑音比算出部23は、現フレームのパワーと推定雑音成分に基づいて、現フレームのSN比SNR(k)を算出する(ステップS103)。
有音判定部24は、現フレームのSN比SNR(k)が有音判定閾値Thsnr以上か否か判定する(ステップS104)。現フレームのSN比SNR(k)が有音判定閾値Thsnr未満であれば(ステップS104−No)、有音判定部24は、現フレームは有音区間には含まれないと判定する。そして処理部13は、発話区間検出処理を終了する。
一方、現フレームのSN比が有音判定閾値Thsnr以上であれば(ステップS104−Yes)、有音判定部24は、現フレームは有音区間に含まれると判定する。そしてピッチゲイン算出部25は、現フレームのピッチゲインgpitchを算出する(ステップS105)。
発話区間検出部26は、直前のフレームが発話区間に含まれるか否か判定する(ステップS106)。直前のフレームが発話区間に含まれない場合(ステップS106−No)、発話区間検出部26は、現フレームのピッチゲインgpitchが相対的に高い第1の閾値Th1以上か否か判定する(ステップS107)。現フレームのピッチゲインgpitchが第1の閾値Th1以上であれば(ステップS107−Yes)、発話区間検出部26は、現フレームから発話区間が開始したと判定し、発話区間が開始したことを表す情報を出力する(ステップS108)。また、発話区間検出部26は、発話区間か否かを表すフラグを、発話区間であることを表す値に更新する。
一方、現フレームのピッチゲインgpitchが第1の閾値Th1未満であれば(ステップS107−No)、発話区間検出部26は、現フレームは発話区間に含まれないと判定する。そして処理部13は、発話区間検出処理を終了する。
また、ステップS106において、直前のフレームが発話区間に含まれる場合(ステップS106−Yes)、発話区間検出部26は、現フレームのピッチゲインgpitchが相対的に低い第2の閾値Th2未満か否か判定する(ステップS109)。現フレームのピッチゲインgpitchが第2の閾値Th2未満であれば(ステップS109−Yes)、発話区間検出部26は、直前のフレームまでで発話区間が終了したと判定し、発話区間が終了したことを表す情報を出力する(ステップS110)。また、発話区間検出部26は、発話区間か否かを表すフラグを、非発話区間であることを表す値に更新する。
一方、現フレームのピッチゲインgpitchが第2の閾値Th2以上であれば(ステップS109−No)、発話区間検出部26は、現フレームにおいても発話区間は継続していると判定する。そして処理部13は、発話区間検出処理を終了する。
以上に説明してきたように、この発話区間検出装置は、発話区間の開始を検出する際のピッチゲインに対する閾値よりも、発話区間の終了を検出する際のピッチゲインに対する閾値を低く設定する。そのため、この発話区間検出装置は、発話の継続に応じてピッチゲインが小さくなっても、発話区間を適切に検出できる。
なお、変形例によれば、発話区間検出部26は、発話区間開始時におけるピッチゲインに基づいて、第2の閾値Th2を調整してもよい。例えば、発話区間検出部26は、次式に示されるように、第1の閾値Th1に対する発話区間開始時におけるピッチゲインgpitch(tstart)の比を第2の閾値Th2に乗じて得られる値を、調整後の第2の閾値Th2'としてもよい。すなわち、発話区間開始時におけるピッチゲインが大きいほど、調整後の第2の閾値Th2'も大きくなる。
Figure 0006759898
この場合、発話区間検出部26は、ピッチゲインが調整後の第2の閾値Th2'未満となったときに発話区間が終了したと判定すればよい。
図5は、この変形例による、発話区間と閾値の関係を示す図である。図5において、横軸は時間を表し、縦軸はピッチゲインを表す。折れ線501は、ピッチゲインの時間変化を表す。また折れ線502は、発話区間の検出に利用される閾値の時間変化を表す。この例では、時刻t1において最初にピッチゲインgpitch(t1)が第1の閾値Th1以上となるので、時刻t1にて発話区間が開始したと判定される。そして、比(gpitch(t1)/Th1)に基づいて調整された第2の閾値Th2'が算出される。その後、時刻t2において、ピッチゲインgpitch(t2)が調整された第2の閾値Th2'未満となるので、時刻t2において発話区間が終了したと判定される。
この変形例によれば、発話区間開始時のピッチゲインに基づいて第2の閾値が調整されるので、発話区間検出部26は、話者の声の特徴に応じて適切に第2の閾値を調整できる。その結果として、発話区間検出部26は、発話区間をより適切に検出できる。
また他の変形例によれば、発話区間検出部26は、音声信号のSN比に基づいて、第1の閾値Th1及び第2の閾値Th2を調整してもよい。
一般に、SN比が低いほど、音声信号に含まれる雑音成分の比率が高いので、音声信号の周期性も低下する。そこで、この変形例によれば、発話区間検出部26は、現フレームのSN比が低いほど、第1の閾値Th1及び第2の閾値Th2を低く設定する。
図6は、SN比と第1の閾値の関係の一例を示す図である。図6において、横軸はSN比を表し、縦軸は、第1の閾値を表す。そして折れ線600は、SN比と第1の閾値の関係を表す。折れ線600に示されるように、SN比がSNRlow以下のときは、第1の閾値は、Thlowに設定される。そしてSN比がSNRlowより大きく、かつ、SNRhigh未満のときは、SN比が大きくなるにつれて第1の閾値も線形に増加する。そしてSN比がSNRhigh以上となると、第1の閾値はThhighに設定される。なお、SNRlow及びSNRhighは、例えば、18dB及び30dBに設定される。また、Thlow及びThhighは、例えば、0.5及び0.7に設定される。第2の閾値Th2についても同様に、SN比がSNRlowより大きく、かつ、SNRhigh未満のときにSN比が大きくなるにつれて線形に増加するように設定されればよい。また、SN比がSNRlow以下のときの第2の閾値は、例えば、0.4に設定され、SN比がSNRhigh以上の時の第2の閾値は、例えば、0.6に設定される。なお、図6に示されるように、SN比と第1及び第2の閾値との関係を表す参照テーブルが予め記憶部14に保存され、発話区間検出部26は、その参照テーブルを参照して、SN比に対応する第1及び第2の閾値の値を設定すればよい。
この変形例によれば、発話区間検出部26は、音声信号のSN比に応じて、発話区間の検出に利用されるピッチゲインに対する第1及び第2の閾値を適切に決定できる。なお、ピッチゲインに対する第1及び第2の閾値がフレームごとに急激に変動することを抑制するために、発話区間検出部26は、図6に示される関係に従って、有音区間開始時のフレームのSN比に応じて第1及び第2の閾値を決定してもよい。
また、SN比による第1及び第2の閾値の調整と、ピッチゲインによる第2の閾値の調整は組み合わせられてもよい。この場合には、発話区間検出部26は、例えば、SN比に基づいて決定された第1及び第2の閾値を(6)式における閾値Th1及び閾値Th2とすることで、調整後の閾値Th2'を算出すればよい。
また、雑音が大きい環境では、雑音の影響により、ピッチゲインの算出値に含まれる誤差が相対的に大きくなることがある。そのため、発話区間が終了していなくても、瞬間的にピッチゲインが第2の閾値未満となることがある。
そこでさらに他の変形例によれば、発話区間検出部26は、発話区間の開始後において、ピッチゲインが第2の閾値未満となることが一定の監視区間にわたって継続した場合に、発話区間が終了したと判定してもよい。なお、発明者による実験によれば、雑音が比較的小さい環境(例えば、SN比が30dB)では、ピッチゲインの値は、発話区間中、継続して0.6以上となった。一方、発話区間以外では、ピッチゲインが1秒以上継続することはなかった。このことから、上記の監視区間は、例えば、1秒間に設定される。
図7は、この変形例による、発話区間の判定に関する状態遷移図である。状態遷移図700において、状態1〜状態3は、それぞれ、互いに異なる発話区間の検出状態を表す。具体的に、状態1は、直前のフレームが発話区間及び監視区間中でないこと、すなわち、非発話区間中であることを表す。また状態2は、直前のフレームが発話区間中であることを表す。そして状態3は、直前のフレームが監視区間中であることを表す。
状態1において、現フレームのピッチゲインが第1の閾値Th1未満であれば、発話区間の検出状態は変化しない。すなわち、現フレームは、非発話区間内に含まれる。一方、状態1において、現フレームのピッチゲインが第1の閾値Th1以上であれば、発話区間の検出状態は状態1から状態2に遷移する。すなわち、現フレームから発話区間が開始となる。
状態2において、現フレームのピッチゲインが第1の閾値Th1よりも低い第2の閾値Th2以上であれば、発話区間の検出状態は変化しない。すなわち、現フレームは、発話区間内に含まれる。一方、状態2において、現フレームのピッチゲインが第2の閾値Th2未満であれば、発話区間の検出状態は状態2から状態3に遷移する。すなわち、現フレームから監視区間が開始となる。
状態3において、現フレームのピッチゲインが第2の閾値Th2以上となれば、発話区間の検出状態は状態3から状態2に遷移する。すなわち、現フレームまで発話区間は継続していると判定され、監視区間は一旦終了する。一方、現フレームのピッチゲインが第2の閾値Th2未満であり、かつ、監視区間開始からの継続時間(その継続時間に相当するフレーム数をNframeと表記する)が一定期間(閾値ThN)に達していなければ、発話区間の検出状態は変化しない。すなわち、現フレームは、監視区間内に含まれる。そして、現フレームのピッチゲインが第2の閾値Th2未満であり、かつ、監視区間開始からの継続時間が一定期間に達していれば、発話区間の検出状態は状態3から状態1に遷移する。すなわち、現フレームにて、発話区間が終了したと判定される。
図8は、この変形例による、発話区間検出処理の動作フローチャートである。なお、図4に示される、上記の実施形態による発話区間検出処理と比較して、ステップS105までは同じであるため、図8では、ステップS105以降の処理について説明する。
発話区間検出部26は、直前のフレームが非発話区間に含まれるか否か判定する(ステップS201)。すなわち、発話区間検出部26は、直前のフレームにおける発話区間の検出状態が状態1か否か判定する。直前のフレームが非発話区間に含まれる場合(ステップS201−Yes)、発話区間検出部26は、現フレームのピッチゲインgpitchが相対的に高い第1の閾値Th1以上か否か判定する(ステップS202)。現フレームのピッチゲインgpitchが第1の閾値Th1以上であれば(ステップS202−Yes)、発話区間検出部26は、現フレームから発話区間が開始したと判定し、発話区間が開始したことを表す情報を出力する(ステップS203)。すなわち、発話区間の検出状態が状態1から状態2へ遷移する。
一方、現フレームのピッチゲインgpitchが第1の閾値Th1未満であれば(ステップS202−No)、発話区間検出部26は、現フレームは発話区間に含まれないと判定する。すなわち、発話区間の検出状態は状態1のまま維持される。そして処理部13は、発話区間検出処理を終了する。
また、ステップS201において、直前のフレームが非発話区間に含まれない場合(ステップS201−No)、発話区間検出部26は、直前のフレームが発話区間に含まれるか否か判定する(ステップS204)。すなわち、発話区間検出部26は、直前のフレームにおける発話区間の検出状態が状態2か否か判定する。直前のフレームが発話区間に含まれる場合(ステップS204−Yes)、現フレームのピッチゲインgpitchが相対的に低い第2の閾値Th2未満か否か判定する(ステップS205)。現フレームのピッチゲインgpitchが第2の閾値Th2未満であれば(ステップS205−Yes)、発話区間検出部26は、監視区間を開始する(ステップS206)。すなわち、発話区間の検出状態が状態2から状態3へ遷移する。そして発話区間検出部26は、監視区間が継続する時間を表す、監視区間開始からのフレーム数Nframeを1に設定する。一方、現フレームのピッチゲインgpitchが第2の閾値Th2以上であれば(ステップS205−No)、発話区間検出部26は、現フレームにおいても発話区間は継続していると判定する。すなわち、発話区間の検出状態は状態2のまま維持される。そして処理部13は、発話区間検出処理を終了する。
また、ステップS204において、直前のフレームが発話区間に含まれない場合(ステップS204−No)、監視区間が継続中(状態3)である。この場合、発話区間検出部26は、現フレームのピッチゲインgpitchが第2の閾値Th2以上か否か判定する(ステップS207)。現フレームのピッチゲインgpitchが第2の閾値Th2以上であれば(ステップS207−Yes)、発話区間検出部26は、監視区間を終了する(ステップS208)。すなわち、発話区間の検出状態が状態3から状態2へ遷移する。そして発話区間検出部26は、Nframeを0にリセットする。
一方、現フレームのピッチゲインgpitchが第2の閾値Th2未満であれば(ステップS207−No)、発話区間検出部26は、Nframeを1インクリメントする(ステップS209)。そして発話区間検出部26は、Nframeが監視区間の長さの閾値を表すフレーム数ThN以上となったか否か判定する(ステップS201)。なお、ThNは、例えば、1秒間に相当するフレーム数に設定される。NframeがThN以上であれば(ステップS210−Yes)、発話区間検出部26は、現フレームにおいて発話区間が終了したと判定し、発話区間が終了したことを表す情報を出力する(ステップS211)。すなわち、発話区間の検出状態が状態3から状態1へ遷移する。なお、この場合において、発話区間検出部26は、監視区間が開始した時点で発話区間が終了したと遡って判定してもよい。
一方、NframeがThN未満であれば(ステップS210−No)、発話区間検出部26は、現フレームにおいても監視区間は継続していると判定する。すなわち、発話区間の検出状態は状態3のまま維持される。そして処理部13は、発話区間検出処理を終了する。
この変形例によれば、発話区間検出部26は、音声信号中の雑音成分により、ピッチゲインの誤差が大きくなる場合でも、発話区間が終了するタイミングを適切に検出できる。
さらに他の変形例によれば、発話区間検出部26は、発話区間が開始してからの経過時間に応じて第2の閾値を調整してもよい。同様に、発話区間検出部26は、発話区間が終了してからの経過時間に応じて第1の閾値を調整してもよい。
図9(a)は、この変形例による、発話区間開始からの経過時間と第2の閾値Th2との関係の一例を表す。また図9(b)は、この変形例による、発話区間終了からの経過時間と第1の閾値Th1との関係の一例を表す。図9(a)及び図9(b)において、横軸は時間を表し、縦軸は閾値を表す。そして図9(a)に示される折れ線901は、発話区間開始からの経過時間と第2の閾値Th2との関係を表す。また図9(b)に示される折れ線902は、発話区間終了からの経過時間と第1の閾値Th1との関係を表す。
図9(a)に示される例では、時刻t1にて発話区間が開始したとする。折れ線901に示されるように、時刻t1から時刻t2にかけて、経過時間に応じて第2の閾値Th2は、第1の閾値Th1と同じ値であるTh2highから線形に減少する。そして時刻t2以降、一定値Th2lowとなる。同様に、図9(b)に示される例では、時刻t1にて発話区間が終了したとする。折れ線902に示されるように、時刻t1から時刻t2にかけて、経過時間に応じて第1の閾値Th1は、第2の閾値Th2と同じ値Th1lowから線形に増加する。そして時刻t2以降、一定値Th1highとなる。なお、時刻t1から時刻t2までの間隔は、例えば、1秒未満、より具体的には、0.2秒〜0.4秒に設定されることが好ましい。
このように、第1の閾値及び第2の閾値を時間経過に応じて滑らかに変化させることで、発話区間検出部26は、ピッチゲインの時間変動が大きい場合でも、発話区間をより適切に検出することができる。
さらに他の変形例によれば、ピッチゲイン算出部25は、音声信号の線形予測成分に対する残差信号の長期自己相関に基づいてピッチゲインを算出してもよい。なお、残差信号の長期自己相関は、音声信号から短期相関成分を取り除いた残りの自己相関を表す。この場合、ピッチゲイン算出部25は、音声信号の線形予測係数を算出する。その際、ピッチゲイン算出部25は、例えば、TTC標準JT-G722.2規格の5.2.2章で規定されている方法に従って線形予測係数を算出すればよい。そしてピッチゲイン算出部25は、次式に従って残差信号res(n)を算出する。
Figure 0006759898
ここでa(i)は、線形予測係数であり、pは、線形予測係数の次数(例えば、16)である。
ピッチゲイン算出部25は、残差信号の長期自己相関Cres(d)を次式に従って算出する。
Figure 0006759898
なお、遅延量dの最小値dlow及び最大値dhighは、上記の実施形態における(4)式と同様に、人の声の基本周波数に相当する遅延量が含まれるように設定される。
ピッチゲイン算出部25は、遅延量の範囲に含まれる遅延量dごとに残差信号の長期自己相関Cres(d)を算出すると、その長期自己相関Cres(d)のうちの最大値Cres(dmax)を求める。なお、dmaxは、長期自己相関Cres(d)の最大値Cres(dmax)に対応する遅延量であり、この遅延量はピッチ周期に相当する。そしてピッチゲイン算出部25は、次式に従ってピッチゲインgpitchを算出すればよい。
Figure 0006759898
また、上記の実施形態または変形例において、発話区間検出装置1は、有音区間を検出せずに、音声信号から発話区間を直接検出してもよい。すなわち、ピッチゲイン算出部25は、全てのフレームについてピッチゲインを算出し、発話区間検出部26は、有音区間か否かにかかわらず、ピッチゲインと第1の閾値Th1または第2の閾値Th2との比較結果により、発話区間を検出すればよい。
これにより、発話区間の検出精度が若干低下する可能性があるものの、発話区間の検出に要する演算量が削減される。この場合、処理部13が有する各部のうち、有音判定部24が省略されてもよい。また、第1の閾値Th1及び第2の閾値Th2の調整にSN比が利用されない場合には、パワー算出部21、雑音推定部22及び信号対雑音比算出部23も省略されてもよい。
また上記の実施形態または変形例による発話区間検出装置は、サーバクライアント型のシステムに実装されてもよい。
図10は、上記の何れかの実施形態またはその変形例による発話区間検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
端末110は、音声入力部111と、記憶部112と、通信部113と、制御部114とを有する。音声入力部111、記憶部112及び通信部113は、例えば、制御部114とバスを介して接続されている。
音声入力部111は、例えば、オーディオインターフェースとA/Dコンバータを有する。そして音声入力部111は、例えば、マイクロホンからアナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そして音声入力部111は、デジタル化された音声信号を制御部114へ出力する。
記憶部112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報、発話区間検出処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。
通信部113は、端末110を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部113は、制御部114から受け取った音声信号を、端末110の識別情報とともに通信ネットワーク130を介してサーバ120へ送信する。
制御部114は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部114は、音声信号を、端末110の識別情報とともに、通信部113及び通信ネットワーク130を介してサーバ120へ送信する。また制御部114は、サーバ120から受け取った、音声信号に対する処理結果をディスプレイ(図示せず)に表示するか、あるいは、その処理結果に対応する合成音声信号をスピーカ(図示せず)を介して再生する。
サーバ120は、通信部121と、記憶部122と、処理部123とを有する。通信部121及び記憶部122は、処理部123とバスを介して接続されている。
通信部121は、サーバ120を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部121は、音声信号と端末110の識別情報とを端末110から通信ネットワーク130を介して受信して処理部123に渡す。
記憶部122は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部122は、サーバ120を制御するためのコンピュータプログラムなどを記憶する。また記憶部122は、発話区間検出処理を実行するためのコンピュータプログラム及び各端末から受信した音声信号を記憶していてもよい。
処理部123は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部123は、上記の実施形態または変形例による発話区間検出装置の処理部の各機能を実現する。さらに処理部123は、検出された発話区間に対して音声認識などの所定の処理を実行してその処理結果を求める。そして処理部123は、その処理結果を通信部121及び通信ネットワーク130を介して端末110へ送信する。
上記の実施形態または変形例による発話区間検出装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出するピッチゲイン算出部と、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、かつ、前記発話区間が継続している場合において前記ピッチゲインが前記第1の閾値よりも小さい第2の閾値未満となると前記発話区間が終了すると判定する発話区間検出部と、
を有する発話区間検出装置。
(付記2)
前記フレームごとに、前記音声信号の信号対雑音成分比を算出する信号対雑音成分比算出部と、
前記フレームごとの前記信号対雑音成分比に基づいて前記音声信号に信号成分が含まれる有音区間を検出する有音区間検出部とをさらに有し、
前記発話区間検出部は、前記有音区間内において直前のフレームが前記発話区間でなく、かつ、現フレームの前記ピッチゲインが前記第1の閾値以上となる場合に前記現フレームから前記発話区間が開始されたと判定する、付記1に記載の発話区間検出装置。
(付記3)
前記発話区間検出部は、前記発話区間が開始されたと判定されたフレームにおける前記ピッチゲインが大きいほど、前記第2の閾値を高くする、付記1または2に記載の発話区間検出装置。
(付記4)
前記フレームごとに、前記音声信号の信号対雑音成分比を算出する信号対雑音成分比算出部をさらに有し、
前記発話区間検出部は、前記信号対雑音成分比が大きいフレームほど、当該フレームにおける前記第1の閾値及び前記第2の閾値を高くする、付記1に記載の発話区間検出装置。
(付記5)
前記フレームごとに、前記音声信号の信号対雑音成分比を算出する信号対雑音成分比算出部と、
前記フレームごとの前記信号対雑音成分比に基づいて前記音声信号に信号成分が含まれる有音区間を検出する有音区間検出部とをさらに有し、
前記発話区間検出部は、前記有音区間が開始されたと判定したフレームにおける前記信号対雑音成分比が大きいほど、前記第1の閾値及び前記第2の閾値を高くする、付記1に記載の発話区間検出装置。
(付記6)
前記発話区間検出部は、前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となる期間が一定期間継続すると前記発話区間が終了したと判定する、付記1〜5の何れかに記載の発話区間検出装置。
(付記7)
話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、かつ、前記発話区間が継続している場合において前記ピッチゲインが前記第1の閾値よりも小さい第2の閾値未満となると前記発話区間が終了すると判定する、
ことを含む発話区間検出方法。
(付記8)
話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、かつ、前記発話区間が継続している場合において前記ピッチゲインが前記第1の閾値よりも小さい第2の閾値未満となると前記発話区間が終了すると判定する、
ことをコンピュータに実行させるための発話区間検出用コンピュータプログラム。
(付記9)
話者の声が表された音声信号を取得するマイクロホンと、
前記音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、かつ、前記発話区間が継続している場合において前記ピッチゲインが前記第1の閾値よりも小さい第2の閾値未満となると前記発話区間が終了すると判定するように構成されたプロセッサと、
を有する発話区間検出装置。
1 発話区間検出装置
11 マイクロホン
12 アナログ/デジタルコンバータ
13 処理部
14 記憶部
21 パワー算出部
22 雑音推定部
23 信号対雑音比算出部
24 有音判定部
25 ピッチゲイン算出部
26 発話区間検出部
100 サーバクライアントシステム
110 端末
111 音声入力部
112 記憶部
113 通信部
114 制御部
120 サーバ
121 通信部
122 記憶部
123 処理部
130 通信ネットワーク

Claims (6)

  1. 話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出するピッチゲイン算出部と、
    前記フレームごとに、前記音声信号の信号対雑音成分比を算出する信号対雑音成分比算出部と、
    前記フレームごとの前記信号対雑音成分比に基づいて前記音声信号に信号成分が含まれる有音区間を検出する有音区間検出部と、
    前記有音区間内において直前のフレームが発話区間でなく、かつ、現フレームの前記ピッチゲインが第1の閾値以上となる場合に前記現フレームから前記発話区間が開始されたと判定し、かつ、前記発話区間が継続している場合において前記ピッチゲインが前記第1の閾値よりも小さい第2の閾値未満となると前記発話区間が終了すると判定する発話区間検出部と、
    を有する発話区間検出装置。
  2. 前記発話区間検出部は、前記発話区間が開始されたと判定されたフレームにおける前記ピッチゲインが大きいほど、前記第2の閾値を高くする、請求項に記載の発話区間検出装置。
  3. 前記発話区間検出部は、前記信号対雑音成分比が大きいフレームほど、当該フレームにおける前記第1の閾値及び前記第2の閾値を高くする、請求項1に記載の発話区間検出装置。
  4. 前記発話区間検出部は、前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となる期間が一定期間継続すると前記発話区間が終了したと判定する、請求項1〜の何れか一項に記載の発話区間検出装置。
  5. 話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
    前記フレームごとに、前記音声信号の信号対雑音成分比を算出し、
    前記フレームごとの前記信号対雑音成分比に基づいて前記音声信号に信号成分が含まれる有音区間を検出し、
    前記有音区間内において直前のフレームが発話区間でなく、かつ、現フレームの前記ピッチゲインが第1の閾値以上となる場合に前記現フレームから前記発話区間が開始されたと判定し、かつ、前記発話区間が継続している場合において前記ピッチゲインが前記第1の閾値よりも小さい第2の閾値未満となると前記発話区間が終了すると判定する、
    ことを含む発話区間検出方法。
  6. 話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
    前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、かつ、前記発話区間が継続している場合において前記ピッチゲインが前記第1の閾値よりも小さい第2の閾値未満となると前記発話区間が終了すると判定
    前記発話区間が開始されたと判定されたフレームにおける前記ピッチゲインが大きいほど、前記第2の閾値を高くする、
    ことをコンピュータに実行させるための発話区間検出用コンピュータプログラム。
JP2016175765A 2016-09-08 2016-09-08 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム Active JP6759898B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016175765A JP6759898B2 (ja) 2016-09-08 2016-09-08 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US15/643,576 US10755731B2 (en) 2016-09-08 2017-07-07 Apparatus, method, and non-transitory computer-readable storage medium for storing program for utterance section detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016175765A JP6759898B2 (ja) 2016-09-08 2016-09-08 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2018040982A JP2018040982A (ja) 2018-03-15
JP6759898B2 true JP6759898B2 (ja) 2020-09-23

Family

ID=61281398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016175765A Active JP6759898B2 (ja) 2016-09-08 2016-09-08 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム

Country Status (2)

Country Link
US (1) US10755731B2 (ja)
JP (1) JP6759898B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10609479B2 (en) 2017-09-14 2020-03-31 Fujitsu Limited Device and method for determining a sound source direction
EP3503592B1 (en) * 2017-12-19 2020-09-16 Nokia Technologies Oy Methods, apparatuses and computer programs relating to spatial audio
JP7243105B2 (ja) 2018-09-27 2023-03-22 富士通株式会社 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム
JP2020118838A (ja) * 2019-01-23 2020-08-06 日本電信電話株式会社 判定装置、その方法、およびプログラム
DE102019201879B3 (de) * 2019-02-13 2020-06-04 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörsystems und Hörsystem
US11138981B2 (en) * 2019-08-21 2021-10-05 i2x GmbH System and methods for monitoring vocal parameters
KR20210031265A (ko) * 2019-09-11 2021-03-19 삼성전자주식회사 전자 장치 및 그 동작방법
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5018200A (en) * 1988-09-21 1991-05-21 Nec Corporation Communication system capable of improving a speech quality by classifying speech signals
JP3211398B2 (ja) 1992-09-04 2001-09-25 松下電器産業株式会社 テレビ会議用発言音声検出装置
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JP2739811B2 (ja) 1993-11-29 1998-04-15 日本電気株式会社 雑音抑圧方式
JPH11133997A (ja) 1997-11-04 1999-05-21 Matsushita Electric Ind Co Ltd 有音無音判定装置
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
JP2008058667A (ja) * 2006-08-31 2008-03-13 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
WO2011049515A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Method and voice activity detector for a speech encoder
WO2011148230A1 (en) * 2010-05-25 2011-12-01 Nokia Corporation A bandwidth extender
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
US8751220B2 (en) * 2011-11-07 2014-06-10 Broadcom Corporation Multiple microphone based low complexity pitch detector
JP2015004703A (ja) 2013-06-19 2015-01-08 アルパイン株式会社 電子装置、音声信号の転送方法、音声信号の転送プログラム及び音声処理システム
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
WO2017196382A1 (en) * 2016-05-11 2017-11-16 Nuance Communications, Inc. Enhanced de-esser for in-car communication systems

Also Published As

Publication number Publication date
US10755731B2 (en) 2020-08-25
JP2018040982A (ja) 2018-03-15
US20180068677A1 (en) 2018-03-08

Similar Documents

Publication Publication Date Title
JP6759898B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
EP2083417B1 (en) Sound processing device and program
US9031841B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP6699748B2 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
JP6176055B2 (ja) 音声検索装置及び音声検索方法
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
JP6996185B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP2005070367A (ja) 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器
JP2011154341A (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR102051966B1 (ko) 음성 인식 향상 장치 및 방법
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
Kasap et al. A unified approach to speech enhancement and voice activity detection
KR20230118165A (ko) 핫워드 속성에 기초한 자동화된 스피치 인식 파라미터적응시키기
KR20100111544A (ko) 음성인식을 이용한 발음 교정 시스템 및 그 방법
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
Prasangini et al. Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka
JP4632831B2 (ja) 音声認識方法および音声認識装置
JP2015087557A (ja) 発話様式検出装置および発話様式検出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200817

R150 Certificate of patent or registration of utility model

Ref document number: 6759898

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150