JP2019053233A - 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム - Google Patents

発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム Download PDF

Info

Publication number
JP2019053233A
JP2019053233A JP2017178359A JP2017178359A JP2019053233A JP 2019053233 A JP2019053233 A JP 2019053233A JP 2017178359 A JP2017178359 A JP 2017178359A JP 2017178359 A JP2017178359 A JP 2017178359A JP 2019053233 A JP2019053233 A JP 2019053233A
Authority
JP
Japan
Prior art keywords
pitch gain
section
threshold
utterance
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017178359A
Other languages
English (en)
Other versions
JP6996185B2 (ja
Inventor
千里 塩田
Chisato Shioda
千里 塩田
鷲尾 信之
Nobuyuki Washio
信之 鷲尾
鈴木 政直
Masanao Suzuki
政直 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017178359A priority Critical patent/JP6996185B2/ja
Priority to US16/124,288 priority patent/US10446173B2/en
Publication of JP2019053233A publication Critical patent/JP2019053233A/ja
Application granted granted Critical
Publication of JP6996185B2 publication Critical patent/JP6996185B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

【課題】音声信号中で話者が発話している区間の終了を適切に検出できる発話区間検出装置を提供する。【解決手段】発話区間検出装置は、話者の声が表された音声信号を分割した所定長を持つフレームごとに、音声信号の周期性の強さを表すピッチゲインを算出するピッチゲイン算出部(25)と、話者が発話していない非発話区間が継続している場合においてピッチゲインが第1の閾値以上となると話者が発話している発話区間が開始されたと判定する発話区間開始検出部(26)と、発話区間におけるピッチゲインの第1の代表値から発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ第1の閾値より低い第2の閾値を設定する閾値設定部(28)と、発話区間が継続している場合においてピッチゲインが第2の閾値未満となると発話区間が終了すると判定する発話区間終了検出部(29)とを有する。【選択図】図2

Description

本発明は、例えば、音声信号から話者が発話している区間を検出する発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラムに関する。
音声信号から話者が発した語句を認識し、認識した語句を他の言語に翻訳したり、認識した語句をクエリとしてネットワークまたはデータベース上で探索するといったアプリケーションが開発されている。このようなアプリケーションでは、話者が発話している区間を特定するために、例えば、話者自身がそのようなアプリケーションが実装された装置を操作して、音声信号の録音開始及び録音終了を指示することが求められる。しかし、そのようなアプリケーションが利用される環境によっては、話者がそのような操作を行えないことがある。例えば、話者が両手を使用する何らかの作業を行っている場合には、話者は音声信号の録音開始及び録音終了を指示する操作を行えない。
一方、音声信号において有音か無音かを判定する技術が提案されている(例えば、特許文献1を参照)。この技術では、入力音声信号の一定区間ごとに音声信号のパワー及びピッチパラメータなどが算出される。そして有音の第1の一定区間に続く次の第2の一定区間に対応するピッチパラメータが所定の閾値より低い場合に、その第2の一定区間が無音の一定区間として判定される。
特開平11−133997号公報
しかしながら、話者の周囲の環境によっては、入力音声信号のピッチパラメタ―が話者が発した声以外の音声に影響されることがある。そのため、ピッチパラメータと固定された閾値との比較に基づいて有音か否かを判定する上記の技術では、音声信号中で話者が発話している区間の終了を検出できないことがある。
一つの側面では、本発明は、音声信号中で話者が発話している区間の終了を適切に検出できる発話区間検出装置を提供することを目的とする。
一つの実施形態によれば、発話区間検出装置が提供される。この発話区間検出装置は、話者の声が表された音声信号を分割した所定長を持つフレームごとに、音声信号の周期性の強さを表すピッチゲインを算出するピッチゲイン算出部と、話者が発話していない非発話区間が継続している場合においてピッチゲインが第1の閾値以上となると話者が発話している発話区間が開始されたと判定する発話区間開始検出部と、発話区間におけるピッチゲインの第1の代表値から発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ第1の閾値より低い第2の閾値を設定する閾値設定部と、発話区間が継続している場合においてピッチゲインが第2の閾値未満となると発話区間が終了すると判定する発話区間終了検出部とを有する。
音声信号中で話者が発話している区間の終了を適切に検出できる。
一つの実施形態による発話区間検出装置の概略構成図である。 発話区間検出処理に関するプロセッサの機能ブロック図である。 ピッチゲインの差分値と閾値低下量調整用の係数aの関係の一例を示す図である。 変形例による、ピッチゲインの差分値と閾値低下量の関係の一例を示す図である。 発話区間検出処理の概要を説明する図である。 ピッチゲインの差分値に応じて設定された第2の閾値と発話区間の関係の一例を示す図である。 発話区間検出処理の動作フローチャートである。 SN比と第1の閾値の関係の一例を示す図である。 変形例による、発話区間の判定に関する状態遷移図である。 変形例による、発話区間検出処理の動作フローチャートである。 実施形態またはその変形例による発話区間検出装置が実装されたサーバクライアントシステムの概略構成図である。
以下、図を参照しつつ、実施形態による発話区間検出装置について説明する。
この発話区間検出装置は、音声信号中で話者が発話している区間(以下、単に発話区間と呼ぶ)では、人の声の特性上、ある程度の周期性が認められることから、音の周期性の強さを表すピッチゲインに基づいて発話区間を検出する。これにより、この発話区間検出装置は、話者の声以外でも大きな値を取り得るパワーまたは信号対雑音比を利用するよりも、発話区間をより正確に検出できる。
ここで、話者が連続して発声していると、語尾にかけて話者の呼気圧が低下し、声門閉鎖の周期性が弱くなることが知られている(例えば、上村幸雄、「呼気流・呼気圧と調音音声学」、人文 6、 pp.247-291、2007年を参照)。このことから、発明者は、発話区間では、語尾にかけてピッチゲインが減衰することに着目した。そして、この発話区間検出装置は、発話区間の開始を検出する際に用いられる、ピッチゲインに対する第1の閾値よりも、発話区間の終了を検出する際に用いられる、ピッチゲインに対する第2の閾値を低く設定する。
ただし、話者の周囲に、声を発する他者がいる場合など、音声信号のピッチゲインが話者の周囲の環境に影響されることがある。このような場合、話者が発話を終了した後も、音声信号のピッチゲインがある程度の大きさを持つ。そのため、第2の閾値を低くし過ぎると、発話区間の終了を正確に検出することが困難となる。そして例えば、発話区間中の話者の音声を認識する装置が、発話区間の終了の検出に失敗すると、発話区間終了後も音声の認識を継続するために、話者が発話を終えてからその装置が応答するまでの応答時間が長くなってしまう。
そこで、この発話区間検出装置は、発話区間中のピッチゲインの代表値から発話区間の直前の区間におけるピッチゲインの代表値を減じた差が小さいほど、第1の閾値と第2の閾値の差を小さくする。
なお、この発話区間検出装置は、音声認識を利用するユーザインターフェースを採用する様々な装置、例えば、ナビゲーションシステム、携帯電話機またはコンピュータなどに実装できる。
図1は、一つの実施形態による発話区間検出装置の概略構成図である。発話区間検出装置1は、マイクロホン11と、アナログ/デジタルコンバータ12と、プロセッサ13と、メモリ14とを有する。なお、発話区間検出装置1は、さらに、スピーカ(図示せず)、表示装置(図示せず)及び他の機器と通信するための通信インターフェース(図示せず)を有していてもよい。
マイクロホン11は、音声入力部の一例であり、話者の声を含む、発話区間検出装置1の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成する。そしてマイクロホン11は、そのアナログ音声信号をアナログ/デジタルコンバータ12(以下、A/Dコンバータと表記する)へ出力する。A/Dコンバータ12は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。なお、サンプリングレートは、例えば、音声信号から話者の声を解析するために必要な周波数帯域がナイキスト周波数以下となるよう、例えば、16kHz〜32kHzに設定される。そしてA/Dコンバータ12は、デジタル化された音声信号をプロセッサ13へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。
プロセッサ13は、例えば、Central Processing Unit(CPU)と、読み書き可能なメモリ回路と、その周辺回路とを有する。プロセッサ13は、数値演算回路をさらに有していてもよい。そしてプロセッサ13は、音声信号に対して発話区間検出処理を実行することで発話区間を検出する。プロセッサ13は、発話区間中の音声信号に対して、例えば、音声認識処理を実行して、話者が発声した語句を認識する。さらに、プロセッサ13は、認識した語句に応じた処理、例えば、認識した語句を、予め設定された言語の語句に翻訳したり、あるいは、認識した語句をクエリとしてネットワークなどの探索処理を行う。なお、発話区間検出処理の詳細については後述する。
メモリ14は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。さらに、メモリ14は、磁気記録媒体あるいは光記録媒体及びそのアクセス装置を有していてもよい。そしてメモリ14は、プロセッサ13上で実行される発話区間検出処理で利用される各種のデータ及び発話区間検出処理の途中で生成される各種のデータを記憶する。例えば、メモリ14は、ピッチゲインに対する閾値を記憶する。さらに、メモリ14は、発話区間中の音声信号に対して行われる処理に関するプログラム及びそのプログラムで利用される各種のデータを記憶してもよい。
以下、プロセッサ13の詳細について説明する。
図2は、発話区間検出処理に関するプロセッサ13の機能ブロック図である。プロセッサ13は、パワー算出部21と、雑音推定部22と、信号対雑音比算出部23と、有音判定部24と、ピッチゲイン算出部25と、発話区間開始検出部26と、雑音ピッチゲイン算出部27と、閾値設定部28と、発話区間終了検出部29とを有する。
プロセッサ13が有するこれらの各部は、例えば、プロセッサ13上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、プロセッサ13が有するこれらの各部は、その各部の機能を専用の回路として、プロセッサ13に組み込まれてもよい。
プロセッサ13は、音声信号を所定長を持つフレームを処理単位として発話区間検出処理を実行する。フレーム長は、例えば、10msec〜20msecに設定される。そのため、プロセッサ13は、音声信号をフレームごとに分割し、各フレームをパワー算出部21及びピッチゲイン算出部25へ入力する。
パワー算出部21は、フレームが入力される度に、そのフレームについての音声信号のパワーを算出する。パワー算出部21は、例えば、フレームごとに、次式に従ってパワーを算出する。
Figure 2019053233
ここで、Sk(n)は、最新のフレーム(現フレームとも呼ぶ)のn番目のサンプリング点の信号値を表す。kはフレーム番号である。またNは、一つのフレームに含まれるサンプリング点の総数を表す。そしてSpow(k)は、現フレームのパワーを表す。
なお、パワー算出部21は、各フレームについて、複数の周波数のそれぞれごとにパワーを算出してもよい。この場合、パワー算出部21は、フレームごとに、音声信号を、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。なお、パワー算出部21は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform,FFT)を用いることができる。そしてパワー算出部21は、周波数帯域ごとに、その周波数帯域に含まれるスペクトル信号の2乗和を、その周波数帯域のパワーとして算出できる。
パワー算出部21は、フレームごとのパワーを雑音推定部22及び信号対雑音比算出部23へ出力する。
雑音推定部22は、フレームごとに、そのフレームにおける音声信号中の推定雑音成分を算出する。本実施形態では、雑音推定部22は、直前のフレームにおける推定雑音成分を、現フレームのパワーを用いて次式に従って更新することで、現フレームの推定雑音成分を算出する。
Figure 2019053233
ここで、Noise(k-1)は、直前のフレームにおける推定雑音成分を表し、Noise(k)は、現フレームにおける推定雑音成分を表す。またβは、忘却係数であり、例えば、0.9に設定される。
なお、パワーが周波数帯域ごとに算出されている場合には、雑音推定部22は、(2)式に従って、推定される雑音成分を周波数帯域ごとに算出してもよい。この場合には、(2)式において、Noise(k-1)、Noise(k)及びSpow(k)は、それぞれ、着目する周波数帯域についての直前のフレームの推定雑音成分、現フレームの推定雑音成分、パワーとなる。
雑音推定部22は、フレームごとの推定雑音成分を信号対雑音比算出部23へ出力する。
なお、後述する有音判定部24により、現フレームが何らかの信号成分を含む有音フレームであると判定された場合には、雑音推定部22は、現フレームの推定雑音成分Noise(k)を、Noise(k-1)で置換してもよい。これにより、雑音推定部22は、雑音成分のみを含み、信号成分を含まないと推定されるフレームに基づいて雑音成分を推定できるので、雑音成分の推定精度を向上できる。
あるいは、雑音推定部22は、現フレームのパワーが所定の閾値以下である場合に限り、(2)式に従って推定雑音成分を更新すればよい。そして現フレームのパワーが所定の閾値より大きい場合には、雑音推定部22は、Noise(k)=Noise(k-1)とすればよい。なお、所定の閾値は、例えば、Noise(k-1)に所定のオフセット値を加算した値とすることができる。
信号対雑音比算出部23は、フレームごとに、信号対雑音比(以下では、単にSN比と表記する)を算出する。例えば、信号対雑音比算出部23は、次式に従ってSN比を算出する。
Figure 2019053233
ここで、SNR(k)は、現フレームのSN比を表す。なお、パワー及び推定雑音成分が周波数帯域ごとに算出されている場合には、信号対雑音比算出部23は、(3)式に従って、SN比を周波数帯域ごとに算出してもよい。この場合には、(3)式において、Noise(k)、Spow(k)及びSNR(k)は、それぞれ、着目する周波数帯域についての現フレームの推定雑音成分、パワー、SN比となる。
信号対雑音比算出部23は、フレームごとのSN比を有音判定部24へ出力する。
有音判定部24は、フレームごとに、そのフレームのSN比に基づいてそのフレームが有音区間に含まれるか否かを判定する。なお、有音区間は、その区間中の音声信号中に何らかの信号成分が含まれると推定される区間である。そのため、発話区間は有音区間に含まれると想定される。そこで、発話区間の検出対象となる区間として有音区間を特定することで、発話区間検出装置1は、発話区間の検出精度を向上できる。
本実施形態では、有音判定部24は、フレームごとに、そのフレームのSN比を有音判定閾値Thsnrと比較する。なお、有音判定閾値Thsnrは、例えば、音声信号中に推定雑音成分以外の信号成分が含まれることに相当する値、例えば、2〜3に設定される。そして有音判定部24は、SN比が有音判定閾値Thsnr以上であれば、そのフレームは有音区間に含まれると判定する。一方、有音判定部24は、SN比が有音判定閾値Thsnr未満であれば、そのフレームは有音区間に含まれない、すなわち、無音区間に含まれると判定する。なお、有音判定部24は、SN比が有音判定閾値Thsnr以上となるフレームが一定期間(例えば、1秒間)連続した時点で、有音区間に入ったと判定してもよい。また、有音判定部24は、それ以前のフレームが有音区間に含まれると判定されている状態で、SN比が有音判定閾値Thsnr未満となるフレームが一定期間連続した時点で、有音区間が終了したと判定してもよい。
さらに、周波数帯域ごとにSN比が算出されている場合には、有音判定部24は、SN比が有音判定閾値Thsnr以上となる周波数帯域の数が所定数以上となる場合に、そのフレームは有音区間に含まれると判定してもよい。なお、所定数は、例えば、SN比が算出される周波数帯域の総数の1/2とすることができる。あるいは、有音判定部24は、解析対象となる周波数が含まれる周波数帯域についてSN比が有音判定閾値Thsnr以上となる場合に、そのフレームは有音区間に含まれると判定してもよい。
あるいは、有音判定部24は、フレームごとのパワーそのものに基づいて、フレームごとに有音区間に含まれるか否かを判定してもよい。この場合には、有音判定部24は、現フレームのパワーが所定の閾値以上であれば、現フレームは有音区間に含まれ、現フレームのパワーが所定の閾値未満であれば、現フレームは無音区間に含まれると判定してもよい。この場合、所定の閾値は、現フレームの推定雑音成分が大きくなるほど、高くなるように設定されてもよい。
有音判定部24は、フレームごとに、有音区間に含まれるか否かの判定結果を表す情報を雑音推定部22及びピッチゲイン算出部25に通知する。なお、有音区間に含まれるか否かの判定結果を表す情報は、例えば、有音区間である場合に"1"となり、無音区間である場合に"0"となるフラグとすることができる。
なお、発話区間開始検出部26が発話区間の開始を検出した後において、発話区間終了検出部29が発話区間の終了を検知するよりも前に、有音判定部24が現フレームについて無音区間に属すると判定することも有り得る。このような場合、有音判定部24は、直前のフレームまでで発話区間が終了したと判定してもよい。
ピッチゲイン算出部25は、各フレームについて、音の周期性の強さを表すピッチゲインを算出する。なお、ピッチゲインは、ピッチ予測利得とも呼ばれる。ピッチゲイン算出部25は、有音区間に含まれる各フレームについて同一の処理を実行するので、以下では、一つのフレームに対する処理について説明する。
ピッチゲインを算出するために、ピッチゲイン算出部25は、先ず、音声信号の長期自己相関C(d)を、遅延量d∈{dlow,...,dhigh}について算出する。
Figure 2019053233
上記のように、Sk(n)は、現フレームkのn番目の信号値である。またNは、フレームに含まれるサンプリング点の総数を表す。なお、(n-d)が負となる場合、直前のフレームの対応する信号値(すなわち、Sk-1(N-(n-d)))がSk(n-d)として用いられる。そして遅延量dの範囲{dlow,...,dhigh}は、人の声の基本周波数(100〜300Hz)に相当する遅延量が含まれるように設定される。ピッチゲインは、基本周波数において最も高くなるためである。例えば、サンプリングレートが16kHzである場合、dlow=40、dhigh=286に設定される。
ピッチゲイン算出部25は、遅延量の範囲に含まれる遅延量dごとに長期自己相関C(d)を算出すると、長期自己相関C(d)のうちの最大値C(dmax)を求める。なお、dmaxは、長期自己相関C(d)の最大値C(dmax)に対応する遅延量であり、この遅延量はピッチ周期に相当する。そしてピッチゲイン算出部25は、次式に従ってピッチゲインgpitchを算出する。
Figure 2019053233
ピッチゲイン算出部25は、フレームについてピッチゲインgpitchを算出する度に、ピッチゲインgpitchを発話区間開始検出部26、雑音ピッチゲイン算出部27、閾値設定部28及び発話区間終了検出部29へ出力する。
発話区間開始検出部26は、有音区間内の各フレームについて、ピッチゲインgpitchを発話区間開始検出用の第1の閾値と比較することで、発話区間の開始を検出する。すなわち、発話区間開始検出部26は、話者が発話していない非発話区間が継続している場合においてピッチゲインgpitchが第1の閾値以上となると話者が発話している発話区間が開始されたと判定する。
本実施形態では、発話区間開始検出部26は、現フレームの直前のフレームが発話区間でない場合、相対的に高い、発話区間開始検出用の第1の閾値とピッチゲインとを比較する。なお、直前のフレームが発話区間に含まれるか否かは、例えば、メモリ14に保存されている、発話区間か否かを表すフラグを参照することで判定される。そして発話区間開始検出部26は、ピッチゲインが第1の閾値以上である場合、現フレームから発話区間が開始されたと判定する。そして発話区間開始検出部26は、発話区間か否かを表すフラグを、発話区間であることを表す値(例えば、'1')に更新する。さらに、発話区間開始検出部26は、発話区間が開始したことをプロセッサ13及び雑音ピッチゲイン算出部27へ通知する。
雑音ピッチゲイン算出部27は、発話区間が開始される直前における、複数のフレームを含む区間のピッチゲインの代表値、すなわち、雑音のピッチゲインの代表値を算出する。本実施形態では、雑音ピッチゲイン算出部27は、雑音のピッチゲインの代表値として、雑音のピッチゲインの平均値を算出する。発話区間以外では、ピッチゲインは比較的ランダムに変動すると想定される。そこで、発話区間の直前の区間におけるピッチゲインの平均値を、雑音のピッチゲインの代表値とすることで、雑音ピッチゲイン算出部27は、話者の周囲の環境におけるピッチゲインの程度を正確に評価できる。
例えば、雑音ピッチゲイン算出部27は、発話区間開始検出部26より、発話区間が開始したことを通知されるまで、例えば、次式に従って、雑音のピッチゲインの平均値を更新する。
Figure 2019053233
ここで、gnoisep(k)は、最新のフレームを終端とする区間における雑音のピッチゲインの平均値であり、gnoisep(k-1)は、直前のフレームを終端とする区間における雑音のピッチゲインの平均値である。またgpitch(k)は、最新のフレームのピッチゲインである。またαは、忘却係数であり、例えば、0.9に設定される。なお、最新のフレームが発話区間の最初のフレームである場合には、雑音ピッチゲイン算出部27は、雑音のピッチゲインの平均値を更新せず、直前のフレームについて算出された雑音のピッチゲインの平均値gnoisep(k-1)を閾値設定部28へ通知する。
変形例によれば、雑音ピッチゲイン算出部27は、ピッチゲイン算出部25からフレームのピッチゲインgpitchを受け取る度に、そのピッチゲインgpitchをメモリ14に保存する。雑音ピッチゲイン算出部27は、発話区間開始検出部26より、発話区間が開始したことを通知されると、メモリ14から各フレームのピッチゲインgpitchを読み出す。そして雑音ピッチゲイン算出部27は、次式に従って、発話区間が開始される直前における区間の雑音のピッチゲインの平均値gnoisep(k-1)を算出すればよい。
Figure 2019053233
ここで、Mは、雑音のピッチゲインの平均値を算出する区間に含まれるフレームの数であり、2以上、例えば、5〜10に設定される。そしてgpitch(k-M+i)は、雑音のピッチゲインの平均値を算出する区間に含まれる各フレームのピッチゲインである。特に、gpitch(k-1)は、発話区間が開始される直前のフレームのピッチゲインである。そしてこの変形例についても、雑音ピッチゲイン算出部27は、雑音のピッチゲインの平均値gnoisep(k-1)を閾値設定部28へ通知する。
閾値設定部28は、発話区間におけるピッチゲインの代表値と、発話区間が開始される直前における区間の雑音のピッチゲインの代表値との差に応じて、第1の閾値に対する、発話区間の終了を検出するために用いられる第2の閾値の低下量を設定する。
例えば、閾値設定部28は、発話区間開始後において、現フレームまでの各フレームのピッチゲインのうちの最大値を、発話区間中のピッチゲインの代表値として算出する。発話区間では、ピッチゲインの最大値は、話者の声にほぼ依存する。そのため、発話区間中のピッチゲインの最大値を、発話区間中のピッチゲインの代表値とすることで、閾値設定部28は、話者の声によるピッチゲインの程度を正確に評価できる。そして閾値設定部28は、発話区間中のピッチゲインの代表値から、発話区間が開始される直前における区間の雑音のピッチゲインの代表値を減じた差分値(以下、ピッチゲインの差分値と呼ぶ)を、閾値の低下量を設定するために算出する。本実施形態のように、発話区間中のピッチゲインの最大値と発話区間が開始される直前の区間の雑音のピッチゲインの平均値の差分値に基づいて閾値の低下量を設定することで、閾値設定部28は、第2の閾値を適切な値に設定できる。
なお、上記のように、話者が連続して発声している間、語尾にかけてピッチゲインが減衰する。そのため、発話区間の最初の数フレームにおいて、ピッチゲインは最大となると想定される。そこで、閾値設定部28は、発話区間開始検出部26より、発話区間が開始したことを通知されてからの数フレームにおけるピッチゲインの最大値を、発話区間中のピッチゲインの最大値としてもよい。
閾値設定部28は、ピッチゲインの差分値が大きいほど、発話区間の開始の検出に用いられる第1の閾値に対する発話区間の終了の検出に用いられる第2の閾値の低下量を大きくする。すなわち、閾値設定部28は、ピッチゲインの差分値が大きいほど、第2の閾値を小さくする。これにより、話者の周囲の環境が比較的静かな環境である場合に、発話区間終了検出部29が、話者が発話を継続している間に誤って発話区間の終了を検出することを抑制できる。一方、話者の周囲で他者が発声している場合には、第1の閾値と第2の閾値の差が小さくなるので、発話区間終了検出部29が発話区間の終了の検出に失敗することを抑制できる。
例えば、閾値設定部28は、次式に従って、第2の閾値Th2を設定する。
Figure 2019053233
ここで、Th1は第1の閾値であり、Dは、予め設定される閾値低下量の基準値であり、例えば、0.2〜0.3に設定される。また係数aは、ピッチゲインの差分値に応じた係数であり、ピッチゲインの差分値が大きいほど、大きな値となる。
図3は、ピッチゲインの差分値と係数aの関係の一例を示す図である。図3において、横軸はピッチゲインの差分値を表し、縦軸は係数aを表す。そしてグラフ300は、ピッチゲインの差分値と係数aの関係を表す。図3に示されるように、ピッチゲインの差分値が下限基準値DFMIN(例えば、DFMIN=0.1〜0.2)以下である場合、係数aは0に設定される。すなわち、ピッチゲインの差分値が下限基準値DFMIN以下である場合、第2の閾値Th2は、第1の閾値Th1と等しくなる。一方、ピッチゲインの差分値が上限基準値DFMAX(例えば、DFMAX=0.5〜0.6)以上である場合、係数aは1に設定される。すなわち、ピッチゲインの差分値が上限基準値DFMAX以上である場合、第2の閾値Th2は、(Th1-D)となる。そしてピッチゲインの差分値が下限基準値DFMINより大きく、かつ、上限基準値DFMAX未満であれば、ピッチゲインの差分値が大きくなるにつれて係数aも単調かつ線形に増加する。したがって、ピッチゲインの差分値が下限基準値DFMINより大きく、かつ、上限基準値DFMAX未満であれば、ピッチゲインの差分値が大きくなるにつれて、第2の閾値Th2は小さくなる。
変形例によれば、ピッチゲインの差分値が大きくなるにつれて、閾値低下量Dも大きくなるように、閾値低下量Dが設定されてもよい。この場合には、(8)式において、係数aは1.0に設定されればよい。
図4は、この変形例による、ピッチゲインの差分値と閾値低下量Dの関係の一例を示す図である。図4において、横軸はピッチゲインの差分値を表し、縦軸は閾値低下量Dを表す。そしてグラフ400は、ピッチゲインの差分値と係数aの関係を表す。図4に示されるように、ピッチゲインの差分値が下限基準値DFMIN以下である場合、閾値低下量Dは閾値低下量の最小値Dmin(例えば、Dmin=0〜0.1)に設定される。すなわち、ピッチゲインの差分値が下限基準値DFMIN以下である場合、第2の閾値Th2は、(Th1-Dmin)となる。一方、ピッチゲインの差分値が上限基準値DFMAX以上である場合、閾値低下量Dは閾値低下量の最大値Dmax(例えば、Dmax=0.2〜0.3)に設定される。すなわち、ピッチゲインの差分値が上限基準値DFMAX以上である場合、第2の閾値Th2は、(Th1-Dmax)となる。そしてピッチゲインの差分値が下限基準値DFMINより大きく、かつ、上限基準値DFMAX未満であれば、ピッチゲインの差分値が大きくなるにつれて閾値低下量Dも単調かつ線形に増加する。したがって、ピッチゲインの差分値が下限基準値DFMINより大きく、かつ、上限基準値DFMAX未満であれば、ピッチゲインの差分値が大きくなるにつれて、第2の閾値Th2は小さくなる。
閾値設定部28は、発話区間中のピッチゲインの最大値が更新される度に、第2の閾値Th2を算出してもよい。そして閾値設定部28は、第2の閾値Th2が算出される度に、第2の閾値Th2を発話区間終了検出部29へ通知する。
発話区間終了検出部29は、発話区間が継続している場合においてピッチゲインが第1の閾値よりも小さい第2の閾値未満となると発話区間が終了すると判定する。すなわち、現フレームの直前のフレームが発話区間に含まれている場合、発話区間終了検出部29は、現フレームのピッチゲインを第2の閾値と比較する。そして発話区間終了検出部29は、現フレームのピッチゲインが第2の閾値未満である場合、直前のフレームまでで発話区間は終了したと判定する。そして発話区間終了検出部29は、発話区間か否かを表すフラグを、非発話区間であることを表す値(例えば、'0')に更新する。
図5は、本実施形態による、発話区間検出処理の概要を説明する図である。図5の各グラフにおいて、横軸は時間を表す。1番上のグラフでは、縦軸はSN比を表す。上から2番目のグラフでは、縦軸は有音区間か無音区間かの判定結果を表す。また、上から3番目のグラフでは、縦軸はピッチゲインを表す。そして一番下のグラフでは、縦軸は発話区間か否かの判定結果を表す。
一番上のグラフにおいて、波形501は、SN比の時間変化を表す。上から2番目のグラフにおいて、波形502は、時刻ごとの有音区間か無音区間かの判定結果を表す。波形501に示されるように、時刻t1にてSN比が有音判定閾値Thsnr以上となり、その後、時刻t4まで継続してSN比は有音判定閾値Thsnr以上となる。時刻t4以降、SN比は、有音判定閾値Thsnr未満となる。その結果、波形502に示されるように、時刻t1から時刻t4までの区間が有音区間と判定され、その前後は、無音区間と判定される。
上から3番目のグラフにおいて、波形503は、ピッチゲインの時間変化を表す。また一番下のグラフにおいて、波形504は、時刻ごとの発話区間か否かの判定結果を表す。波形503に示されるように、ピッチゲインは、時刻t1から上昇を開始し、時刻t2にて第1の閾値Th1以上となる。その後しばらくしてからピッチゲインはピークとなり、以降徐々に減衰する。そして時刻t3にて、ピッチゲインは第1の閾値Th1よりも低い、第2の閾値Th2未満となる。その結果、波形504に示されるように、時刻t2から時刻t3までの区間が発話区間と判定される。なお、仮に、発話区間の終了の判定にも閾値Th1が用いられると、時刻t2'にてピッチゲインは閾値Th1未満となるので、本来の発話区間よりも短い区間しか発話区間として検出されないことになる。しかし上記のように、発話区間の終了の判定に利用される閾値Th2を、発話区間の開始の判定に利用される閾値Th1よりも小さくすることで、発話区間が適切に検出される。
図6は、本実施形態による、ピッチゲインの差分値に応じて設定された第2の閾値と発話区間の関係の一例を示す図である。図6において、横軸は時間を表し、縦軸はピッチゲインを表す。波形600は、ピッチゲインの時間変化を表す。この例では、ピッチゲインは、時刻t1にて第1の閾値Th1以上となる。したがって、時刻t1にて、発話区間の開始が検出される。その後、時刻t2にて、話者が発声を終了したとする。しかし、この例では、時刻t2以降もしばらくの間、ピッチゲインはある程度の大きさを保っている。そのため、点線で示されるように、閾値Th2が小さ過ぎると、時刻t2では発話区間の終了が検出されず、時刻t3で発話区間が終了したと判定されることになる。
一方、本実施形態によれば、発話区間が開始される直前の区間での雑音のピッチゲインの平均値と発話区間におけるピッチゲインの最大値との差Δpに基づいて閾値Th2が設定される。そのため、第1の閾値Th1に対する第2の閾値Th2の低下量が比較的小さくなり、その結果として、時刻t2にてピッチゲインが閾値Th2未満となり、発話区間の終了が正確に検出される。
発話区間終了検出部29は、発話区間が終了したタイミングをプロセッサ13に出力する。
プロセッサ13は、発話区間の開始及び終了が検出されると、例えば、発話区間中に話者が発話した内容を認識するために、発話区間中の各フレームから、話者の声の特徴を表す複数の特徴量を抽出する。そのような特徴量として、例えば、メル周波数ケプストラムの所定の次数の係数が用いられる。そしてプロセッサ13は、例えば、各フレームの特徴量を、隠れマルコフモデルにより音響モデルに適用することで、発話区間内の音素系列を認識する。そしてプロセッサ13は、単語ごとの音素系列を表す単語辞書を参照して、発話区間の音素系列と一致する単語の組み合わせを検出することで、発話区間内の発話内容を認識する。さらにプロセッサ13は、その発話内容と、プロセッサ13にて実行されるアプリケーションとに応じた処理を実行してもよい。例えば、プロセッサ13は、発話内容に応じた単語の組み合わせに対して自動翻訳処理を行って、その発話内容を他言語に翻訳してもよい。そしてプロセッサ13は、他言語に翻訳された発話内容に応じた文字列を表示装置(図示せず)に表示してもよい。あるいは、プロセッサ13は、その翻訳された文字列に音声合成処理を適用して、その文字列を表した合成音声信号を生成し、その合成音声信号をスピーカ(図示せず)を介して再生してもよい。あるいは、プロセッサ13は、発話内容に応じた単語の組み合わせをクエリとして、発話区間検出装置1と接続されたネットワーク上で探索処理を実行してもよい。あるいはまた、プロセッサ13は、発話内容を表す文字列と、発話区間検出装置1が実装された装置の操作コマンドとを比較し、発話内容を表す文字列が何れかの操作コマンドと一致する場合に、その操作コマンドに応じた処理を実行してもよい。
図7は、本実施形態による、発話区間検出処理の動作フローチャートである。プロセッサ13は、フレームごとに、下記の動作フローチャートに従って発話区間検出処理を実行する。
パワー算出部21は、音声信号の現フレームのパワーを算出する(ステップS101)。雑音推定部22は、現フレームのパワーと、直前のフレームにおける推定雑音成分に基づいて、現フレームの推定雑音成分を算出する(ステップS102)。そして信号対雑音比算出部23は、現フレームのパワーと推定雑音成分に基づいて、現フレームのSN比SNR(k)を算出する(ステップS103)。さらに、ピッチゲイン算出部25は、現フレームのピッチゲインgpitchを算出する(ステップS104)。
有音判定部24は、現フレームのSN比SNR(k)が有音判定閾値Thsnr以上か否か判定する(ステップS105)。現フレームのSN比SNR(k)が有音判定閾値Thsnr未満であれば(ステップS105−No)、有音判定部24は、現フレームは有音区間には含まれないと判定する。そしてプロセッサ13は、発話区間検出処理を終了する。
一方、現フレームのSN比が有音判定閾値Thsnr以上であれば(ステップS105−Yes)、有音判定部24は、現フレームは有音区間に含まれると判定する。
発話区間開始検出部26は、直前のフレームが発話区間に含まれるか否か判定する(ステップS106)。直前のフレームが発話区間に含まれない場合(ステップS106−No)、発話区間開始検出部26は、現フレームのピッチゲインgpitchが相対的に高い第1の閾値Th1以上か否か判定する(ステップS107)。現フレームのピッチゲインgpitchが第1の閾値Th1以上であれば(ステップS107−Yes)、発話区間開始検出部26は、現フレームから発話区間が開始したと判定し、発話区間が開始したことを表す情報を出力する(ステップS108)。また、発話区間開始検出部26は、発話区間か否かを表すフラグを、発話区間であることを表す値に更新する。そして雑音ピッチゲイン算出部27は、発話区間が開始される直前の区間における、雑音のピッチゲインの平均値を算出する(ステップS109)。
一方、現フレームのピッチゲインgpitchが第1の閾値Th1未満であれば(ステップS107−No)、発話区間開始検出部26は、現フレームは発話区間に含まれないと判定する。そしてプロセッサ13は、発話区間開始検出処理を終了する。
また、ステップS106において、直前のフレームが発話区間に含まれる場合(ステップS106−Yes)、閾値設定部28は、第2の閾値Th2を設定する(ステップS110)。その際、閾値設定部28は、例えば、発話区間におけるピッチゲインの最大値と発話区間の開始直前の区間における雑音のピッチゲインの平均値との差に応じて第1の閾値Th1に対する第2の閾値Th2の低下量を設定する。そして発話区間終了検出部29は、現フレームのピッチゲインgpitchが第2の閾値Th2未満か否か判定する(ステップS111)。現フレームのピッチゲインgpitchが第2の閾値Th2未満であれば(ステップS111−Yes)、発話区間終了検出部29は、直前のフレームまでで発話区間が終了したと判定し、発話区間が終了したことを表す情報を出力する(ステップS112)。また、発話区間終了検出部29は、発話区間か否かを表すフラグを、非発話区間であることを表す値に更新する。
一方、現フレームのピッチゲインgpitchが第2の閾値Th2以上であれば(ステップS111−No)、発話区間終了検出部29は、現フレームにおいても発話区間は継続していると判定する。そしてプロセッサ13は、発話区間検出処理を終了する。なお、発話区間の開始が検出されるまで、フレームごとに(6)式に基づいて雑音のピッチゲインの平均値が更新される場合には、ステップS109の処理は、ステップS106とステップS107の間で実行されてもよい。
以上に説明してきたように、この発話区間検出装置は、発話区間の開始を検出するためのピッチゲインに対する第1の閾値よりも、発話区間の終了を検出するためのピッチゲインに対する第2の閾値を低く設定する。そのため、この発話区間検出装置は、発話の継続に応じてピッチゲインが小さくなっても、発話区間を適切に検出できる。またこの発話区間検出装置は、第1の閾値に対する、第2の閾値の低下量を、発話区間の開始直前の区間における雑音のピッチゲインの平均値と発話区間のピッチゲインの最大値との差に応じて調整する。そのため、この発話区間検出装置は、話者の周囲の環境が騒がしい場合でも、発話区間の終了を適切に検出できる。
なお、変形例によれば、ピッチゲイン算出部25は、有音区間内の各フレームについてピッチゲインを算出し、無音区間内の各フレームについては、ピッチゲインを算出しなくてもよい。これにより、演算量が削減される。この場合において、発話区間が開始される直前の区間と無音区間とが重なっている場合、雑音ピッチゲイン算出部27は、その直前の区間から無音区間を除いた残りの区間に含まれる各フレームのピッチゲインの平均値を、雑音のピッチゲインの平均値としてもよい。あるいは、雑音ピッチゲイン算出部27は、発話区間が開始される直前の区間及び無音区間の両方に含まれる各フレームのピッチゲインを所定値(例えば、0)として、雑音のピッチゲインの平均値を算出してもよい。
他の変形例によれば、雑音ピッチゲイン算出部27は、発話区間の直前の区間における、雑音のピッチゲインの代表値として、発話区間の直前の区間における雑音のピッチゲインの中央値あるいは最頻値を算出してもよい。また、閾値設定部28は、第2の閾値の設定に用いる発話区間内のピッチゲインの代表値として、発話区間内の各フレームのピッチゲインに対して平滑化フィルタ処理をして得られる、各フレームの平滑化されたピッチゲインのうちの最大値を算出してもよい。あるいは、閾値設定部28は、第2の閾値の設定に用いる発話区間内のピッチゲインの代表値として、発話区間開始直後の数フレームにおけるピッチゲインの平均値を算出してもよい。これらの値が用いられる場合でも、閾値設定部28は、第1の閾値に対する第2の閾値の低下量を適切に設定できる。
また他の変形例によれば、閾値設定部28は、発話区間開始時におけるピッチゲインに基づいて、第2の閾値Th2を調整してもよい。例えば、閾値設定部28は、次式に示されるように、(8)式における第1の閾値Th1の代わりに、ピッチゲインの基準値grefに対する発話区間開始時におけるピッチゲインgpitch(tstart)の比を第1の閾値Th1に乗じて得られる値を用いることで、第2の閾値Th2を算出してもよい。すなわち、発話区間開始時におけるピッチゲインが大きいほど、第2の閾値Th2も大きくなる。なお、係数aは、上記の実施形態と同様に、ピッチゲインの差分値が大きくなるほど大きな値に設定されればよい。
Figure 2019053233
この場合も、発話区間終了検出部29は、ピッチゲインが第2の閾値Th2未満となったときに発話区間が終了したと判定すればよい。
この変形例によれば、発話区間開始時のピッチゲインに基づいて第2の閾値が調整されるので、発話区間終了検出部29は、話者の声の特徴に応じて適切に第2の閾値を調整できる。その結果として、発話区間終了検出部29は、発話区間の終了をより適切に検出できる。
なお、(9)式において、閾値設定部28は、発話区間開始時におけるピッチゲインgpitch(tstart)の代わりに、発話区間におけるピッチゲインの最大値を用いてもよい。
また他の変形例によれば、発話区間開始検出部26は、音声信号のSN比に基づいて、第1の閾値Th1を調整してもよい。同様に、閾値設定部28は、音声信号のSN比に基づいて、第2の閾値Th2を調整してもよい。
一般に、SN比が低いほど、音声信号に含まれる雑音成分の比率が高いので、音声信号の周期性も低下する。そこで、この変形例によれば、発話区間開始検出部26は、現フレームのSN比が低いほど、第1の閾値Th1を低く設定する。
図8は、SN比と第1の閾値Th1の関係の一例を示す図である。図8において、横軸はSN比を表し、縦軸は、第1の閾値Th1を表す。そして折れ線800は、SN比と第1の閾値Th1の関係を表す。折れ線800に示されるように、SN比がSNRlow以下のときは、第1の閾値Th1は、Thlowに設定される。そしてSN比がSNRlowより大きく、かつ、SNRhigh未満のときは、SN比が大きくなるにつれて第1の閾値Th1も線形に増加する。そしてSN比がSNRhigh以上となると、第1の閾値Th1はThhighに設定される。なお、SNRlow及びSNRhighは、例えば、18dB及び30dBに設定される。また、Thlow及びThhighは、例えば、0.5及び0.7に設定される。なお、図8に示されるように、SN比と第1の閾値Th1との関係を表す参照テーブルが予めメモリ14に保存され、発話区間開始検出部26は、その参照テーブルを参照して、SN比に対応する第1の閾値Th1の値を設定すればよい。
さらに、閾値設定部28は、SN比に基づいて決定された第1の閾値Th1を(8)式または(9)式に代入することで第2の閾値Th2を算出すればよい。これにより、第2の閾値Th2も、SN比がSNRlowより大きく、かつ、SNRhigh未満のときにSN比が大きくなるにつれて線形に増加する。
この変形例によれば、発話区間開始検出部26は、音声信号のSN比に応じて、第1の閾値Th1を適切に決定できる。同様に、閾値設定部28は、音声信号のSN比に応じて、第2の閾値Th2を適切に決定できる。なお、ピッチゲインに対する第1及び第2の閾値がフレームごとに急激に変動することを抑制するために、発話区間開始検出部26は、図8に示される関係に従って、有音区間開始時のフレームのSN比に応じて第1の閾値Th1を決定してもよい。
また、SN比による第1の閾値の調整と、ピッチゲインによる第2の閾値の調整は組み合わせられてもよい。この場合には、閾値設定部28は、例えば、SN比に基づいて決定された第1の閾値を(9)式における第1の閾値Th1とすることで、第2の閾値Th2を算出すればよい。
また、雑音が大きい環境では、雑音の影響により、ピッチゲインの算出値に含まれる誤差が相対的に大きくなることがある。そのため、発話区間が終了していなくても、瞬間的にピッチゲインが第2の閾値未満となることがある。
そこでさらに他の変形例によれば、発話区間終了検出部29は、発話区間の開始後において、ピッチゲインが第2の閾値Th2未満となることが一定の監視区間にわたって継続した場合に、発話区間が終了したと判定してもよい。なお、発明者による実験によれば、雑音が比較的小さい環境(例えば、SN比が30dB)では、ピッチゲインの値は、発話区間中、継続して0.6以上となった。一方、発話区間以外では、ピッチゲインが1秒以上継続することはなかった。このことから、上記の監視区間は、例えば、1秒間に設定される。
図9は、この変形例による、発話区間の判定に関する状態遷移図である。状態遷移図900において、状態1〜状態3は、それぞれ、互いに異なる発話区間の検出状態を表す。具体的に、状態1は、直前のフレームが発話区間及び監視区間中でないこと、すなわち、非発話区間中であることを表す。また状態2は、直前のフレームが発話区間中であることを表す。そして状態3は、直前のフレームが監視区間中であることを表す。
状態1において、現フレームのピッチゲインが第1の閾値Th1未満であれば、発話区間の検出状態は変化しない。すなわち、現フレームは、非発話区間内に含まれる。一方、状態1において、現フレームのピッチゲインが第1の閾値Th1以上であれば、発話区間の検出状態は状態1から状態2に遷移する。すなわち、現フレームから発話区間が開始となる。
状態2において、現フレームのピッチゲインが第1の閾値Th1よりも低い第2の閾値Th2以上であれば、発話区間の検出状態は変化しない。すなわち、現フレームは、発話区間内に含まれる。一方、状態2において、現フレームのピッチゲインが第2の閾値Th2未満であれば、発話区間の検出状態は状態2から状態3に遷移する。すなわち、現フレームから監視区間が開始となる。
状態3において、現フレームのピッチゲインが第2の閾値Th2以上となれば、発話区間の検出状態は状態3から状態2に遷移する。すなわち、現フレームまで発話区間は継続していると判定され、監視区間は一旦終了する。一方、現フレームのピッチゲインが第2の閾値Th2未満であり、かつ、監視区間開始からの継続時間(その継続時間に相当するフレーム数をNframeと表記する)が一定期間(閾値ThN)に達していなければ、発話区間の検出状態は変化しない。すなわち、現フレームは、監視区間内に含まれる。そして、現フレームのピッチゲインが第2の閾値Th2未満であり、かつ、監視区間開始からの継続時間が一定期間に達していれば、発話区間の検出状態は状態3から状態1に遷移する。すなわち、現フレームにて、発話区間が終了したと判定される。
図10は、この変形例による、発話区間検出処理の動作フローチャートである。なお、図7に示される、上記の実施形態による発話区間検出処理と比較して、ステップS105で有音区間と判定されるまで(すなわち、ステップS105においてYes)は同じであるため、図10では、ステップS105以降の処理について説明する。
発話区間開始検出部26は、直前のフレームが非発話区間に含まれるか否か判定する(ステップS201)。すなわち、発話区間開始検出部26は、直前のフレームにおける発話区間の検出状態が状態1か否か判定する。直前のフレームが非発話区間に含まれる場合(ステップS201−Yes)、発話区間開始検出部26は、現フレームのピッチゲインgpitchが第1の閾値Th1以上か否か判定する(ステップS202)。現フレームのピッチゲインgpitchが第1の閾値Th1以上であれば(ステップS202−Yes)、発話区間開始検出部26は、現フレームから発話区間が開始したと判定し、発話区間が開始したことを表す情報を出力する(ステップS203)。すなわち、発話区間の検出状態が状態1から状態2へ遷移する。また、雑音ピッチゲイン算出部27は、発話区間が開始される直前の区間における雑音のピッチゲインの平均値を算出する(ステップS204)。
一方、現フレームのピッチゲインgpitchが第1の閾値Th1未満であれば(ステップS202−No)、発話区間開始検出部26は、現フレームは発話区間に含まれないと判定する。すなわち、発話区間の検出状態は状態1のまま維持される。そしてプロセッサ13は、発話区間検出処理を終了する。
また、ステップS201において、直前のフレームが非発話区間に含まれない場合(ステップS201−No)、閾値設定部28は、直前のフレームが発話区間に含まれるか否か判定する(ステップS205)。すなわち、閾値設定部28は、直前のフレームにおける発話区間の検出状態が状態2か否か判定する。直前のフレームが発話区間に含まれる場合(ステップS205−Yes)、閾値設定部28は、ピッチゲインの差分値に応じて第2の閾値Th2を設定する(ステップS206)。そして発話区間終了検出部29は、現フレームのピッチゲインgpitchが第2の閾値Th2未満か否か判定する(ステップS207)。現フレームのピッチゲインgpitchが第2の閾値Th2未満であれば(ステップS207−Yes)、発話区間終了検出部29は、監視区間を開始する(ステップS208)。すなわち、発話区間の検出状態が状態2から状態3へ遷移する。そして発話区間終了検出部29は、監視区間が継続する時間を表す、監視区間開始からのフレーム数Nframeを1に設定する。一方、現フレームのピッチゲインgpitchが第2の閾値Th2以上であれば(ステップS207−No)、発話区間終了検出部29は、現フレームにおいても発話区間は継続していると判定する。すなわち、発話区間の検出状態は状態2のまま維持される。そしてプロセッサ13は、発話区間検出処理を終了する。
また、ステップS205において、直前のフレームが発話区間に含まれない場合(ステップS205−No)、監視区間が継続中(状態3)である。この場合、発話区間終了検出部29は、現フレームのピッチゲインgpitchが第2の閾値Th2以上か否か判定する(ステップS209)。現フレームのピッチゲインgpitchが第2の閾値Th2以上であれば(ステップS209−Yes)、発話区間終了検出部29は、監視区間を終了する(ステップS210)。すなわち、発話区間の検出状態が状態3から状態2へ遷移する。そして発話区間終了検出部29は、Nframeを0にリセットする。
一方、現フレームのピッチゲインgpitchが第2の閾値Th2未満であれば(ステップS209−No)、発話区間終了検出部29は、Nframeを1インクリメントする(ステップS211)。そして発話区間終了検出部29は、Nframeが監視区間の長さの閾値を表すフレーム数ThN以上となったか否か判定する(ステップS212)。なお、ThNは、例えば、1秒間に相当するフレーム数に設定される。NframeがThN以上であれば(ステップS212−Yes)、発話区間終了検出部29は、現フレームにおいて発話区間が終了したと判定し、発話区間が終了したことを表す情報を出力する(ステップS213)。すなわち、発話区間の検出状態が状態3から状態1へ遷移する。なお、この場合において、発話区間終了検出部29は、監視区間が開始した時点で発話区間が終了したと遡って判定してもよい。
一方、NframeがThN未満であれば(ステップS212−No)、発話区間終了検出部29は、現フレームにおいても監視区間は継続していると判定する。すなわち、発話区間の検出状態は状態3のまま維持される。そしてプロセッサ13は、発話区間検出処理を終了する。
この変形例によれば、発話区間終了検出部29は、音声信号中の雑音成分により、ピッチゲインの誤差が大きくなる場合でも、発話区間が終了するタイミングを適切に検出できる。
さらに他の変形例によれば、ピッチゲイン算出部25は、音声信号の線形予測成分に対する残差信号の長期自己相関に基づいてピッチゲインを算出してもよい。なお、残差信号の長期自己相関は、音声信号から短期相関成分を取り除いた残りの自己相関を表す。この場合、ピッチゲイン算出部25は、音声信号の線形予測係数を算出する。その際、ピッチゲイン算出部25は、例えば、TTC標準JT-G722.2規格の5.2.2章で規定されている方法に従って線形予測係数を算出すればよい。そしてピッチゲイン算出部25は、次式に従って残差信号res(n)を算出する。
Figure 2019053233
ここでa(i)は、線形予測係数であり、pは、線形予測係数の次数(例えば、16)である。
ピッチゲイン算出部25は、残差信号の長期自己相関Cres(d)を次式に従って算出する。
Figure 2019053233
なお、遅延量dの最小値dlow及び最大値dhighは、上記の実施形態における(4)式と同様に、人の声の基本周波数に相当する遅延量が含まれるように設定される。
ピッチゲイン算出部25は、遅延量の範囲に含まれる遅延量dごとに残差信号の長期自己相関Cres(d)を算出すると、その長期自己相関Cres(d)のうちの最大値Cres(dmax)を求める。なお、dmaxは、長期自己相関Cres(d)の最大値Cres(dmax)に対応する遅延量であり、この遅延量はピッチ周期に相当する。そしてピッチゲイン算出部25は、次式に従ってピッチゲインgpitchを算出すればよい。
Figure 2019053233
また、上記の実施形態または変形例において、発話区間検出装置1は、有音区間を検出せずに、音声信号から発話区間を直接検出してもよい。すなわち、発話区間開始検出部26は、有音区間か否かにかかわらず、ピッチゲインと第1の閾値Th1との比較結果により、発話区間の開始を検出すればよい。
これにより、発話区間の検出精度が若干低下する可能性があるものの、発話区間の検出に要する演算量が削減される。この場合、プロセッサ13が有する各部のうち、有音判定部24が省略されてもよい。また、第1の閾値Th1及び第2の閾値Th2の調整にSN比が利用されない場合には、パワー算出部21、雑音推定部22及び信号対雑音比算出部23も省略されてもよい。
また上記の実施形態または変形例による発話区間検出装置は、サーバクライアント型のシステムに実装されてもよい。
図11は、上記の何れかの実施形態またはその変形例による発話区間検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
端末110は、マイクロホン111と、メモリ112と、通信インターフェース113と、プロセッサ114とを有する。マイクロホン111、メモリ112及び通信インターフェース113は、例えば、プロセッサ114とバスを介して接続されている。
マイクロホン111は、音声入力部の一例であり、アナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そしてマイクロホン111は、デジタル化された音声信号をプロセッサ114へ出力する。
メモリ112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そしてメモリ112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報、発話区間検出処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。
通信インターフェース113は、端末110を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信インターフェース113は、プロセッサ114から受け取った音声信号を、端末110の識別情報とともに通信ネットワーク130を介してサーバ120へ送信する。
プロセッサ114は、CPUとその周辺回路を有する。そしてプロセッサ114は、音声信号を、端末110の識別情報とともに、通信インターフェース113及び通信ネットワーク130を介してサーバ120へ送信する。またプロセッサ114は、サーバ120から受け取った、音声信号に対する処理結果をディスプレイ(図示せず)に表示するか、あるいは、その処理結果に対応する合成音声信号をスピーカ(図示せず)を介して再生する。
サーバ120は、通信インターフェース121と、メモリ122と、プロセッサ123とを有する。通信インターフェース121及びメモリ122は、プロセッサ123とバスを介して接続されている。
通信インターフェース121は、サーバ120を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信インターフェース121は、音声信号と端末110の識別情報とを端末110から通信ネットワーク130を介して受信してプロセッサ123に渡す。
メモリ122は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そしてメモリ122は、サーバ120を制御するためのコンピュータプログラムなどを記憶する。またメモリ122は、発話区間検出処理を実行するためのコンピュータプログラム及び各端末から受信した音声信号を記憶していてもよい。
プロセッサ123は、CPUとその周辺回路を有する。そしてプロセッサ123は、上記の実施形態または変形例による発話区間検出装置のプロセッサの各機能を実現する。さらにプロセッサ123は、検出された発話区間に対して音声認識などの所定の処理を実行してその処理結果を求める。そしてプロセッサ123は、その処理結果を通信インターフェース121及び通信ネットワーク130を介して端末110へ送信する。
上記の実施形態または変形例による発話区間検出装置のプロセッサが有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出するピッチゲイン算出部と、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定する発話区間開始検出部と、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定する閾値設定部と、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する発話区間終了検出部と、
を有する発話区間検出装置。
(付記2)
前記閾値設定部は、前記発話区間におけるピッチゲインの最大値を前記第1の代表値として算出する、付記1に記載の発話区間検出装置。
(付記3)
前記発話区間が開始される前の区間におけるピッチゲインの平均値を前記第2の代表値として算出する雑音ピッチゲイン算出部をさらに有する、付記1または2に記載の発話区間検出装置。
(付記4)
前記閾値設定部は、前記発話区間が開始されたと判定されたフレームにおける前記ピッチゲインが大きいほど、前記第2の閾値を高くする、付記1〜3の何れかに記載の発話区間検出装置。
(付記5)
前記フレームごとに、前記音声信号の信号対雑音成分比を算出する信号対雑音成分比算出部をさらに有し、
前記発話区間開始検出部は、前記信号対雑音成分比が大きいフレームほど、当該フレームにおける前記第2の閾値を高くする、付記1〜3の何れかに記載の発話区間検出装置。
(付記6)
話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する、
ことを含む発話区間検出方法。
(付記7)
話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する、
ことをコンピュータに実行させるための発話区間検出用コンピュータプログラム。
(付記8)
話者の声が表された音声信号を取得するマイクロホンと、
前記音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定するように構成されたプロセッサと、
を有する発話区間検出装置。
1 発話区間検出装置
11 マイクロホン
12 アナログ/デジタルコンバータ
13 プロセッサ
14 メモリ
21 パワー算出部
22 雑音推定部
23 信号対雑音比算出部
24 有音判定部
25 ピッチゲイン算出部
26 発話区間開始検出部
27 雑音ピッチゲイン算出部
28 閾値設定部
29 発話区間終了検出部
100 サーバクライアントシステム
110 端末
111 マイクロホン
112 メモリ
113 通信インターフェース
114 プロセッサ
120 サーバ
121 通信インターフェース
122 メモリ
123 プロセッサ
130 通信ネットワーク

Claims (6)

  1. 話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出するピッチゲイン算出部と、
    前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定する発話区間開始検出部と、
    前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定する閾値設定部と、
    前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する発話区間終了検出部と、
    を有する発話区間検出装置。
  2. 前記閾値設定部は、前記発話区間におけるピッチゲインの最大値を前記第1の代表値として算出する、請求項1に記載の発話区間検出装置。
  3. 前記発話区間が開始される前の区間におけるピッチゲインの平均値を前記第2の代表値として算出する雑音ピッチゲイン算出部をさらに有する、請求項1または2に記載の発話区間検出装置。
  4. 前記閾値設定部は、前記発話区間が開始されたと判定されたフレームにおける前記ピッチゲインが大きいほど、前記第2の閾値を高くする、請求項1〜3の何れか一項に記載の発話区間検出装置。
  5. 話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
    前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
    前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
    前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する、
    ことを含む発話区間検出方法。
  6. 話者の声が表された音声信号を分割した所定長を持つフレームごとに、前記音声信号の周期性の強さを表すピッチゲインを算出し、
    前記話者が発話していない非発話区間が継続している場合において前記ピッチゲインが第1の閾値以上となると前記話者が発話している発話区間が開始されたと判定し、
    前記発話区間におけるピッチゲインの第1の代表値から前記発話区間が開始される前の区間におけるピッチゲインの第2の代表値を減じた値に応じた低下量だけ前記第1の閾値より低い第2の閾値を設定し、
    前記発話区間が継続している場合において前記ピッチゲインが前記第2の閾値未満となると前記発話区間が終了すると判定する、
    ことをコンピュータに実行させるための発話区間検出用コンピュータプログラム。
JP2017178359A 2017-09-15 2017-09-15 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム Active JP6996185B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017178359A JP6996185B2 (ja) 2017-09-15 2017-09-15 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US16/124,288 US10446173B2 (en) 2017-09-15 2018-09-07 Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017178359A JP6996185B2 (ja) 2017-09-15 2017-09-15 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2019053233A true JP2019053233A (ja) 2019-04-04
JP6996185B2 JP6996185B2 (ja) 2022-01-17

Family

ID=65720471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017178359A Active JP6996185B2 (ja) 2017-09-15 2017-09-15 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム

Country Status (2)

Country Link
US (1) US10446173B2 (ja)
JP (1) JP6996185B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6996185B2 (ja) * 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP6904198B2 (ja) * 2017-09-25 2021-07-14 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1333425C (en) * 1988-09-21 1994-12-06 Kazunori Ozawa Communication system capable of improving a speech quality by classifying speech signals
US5960386A (en) * 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
JP3331297B2 (ja) 1997-01-23 2002-10-07 株式会社東芝 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JPH11133997A (ja) 1997-11-04 1999-05-21 Matsushita Electric Ind Co Ltd 有音無音判定装置
CA2336360C (en) 1998-06-30 2006-08-01 Nec Corporation Speech coder
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US6687668B2 (en) * 1999-12-31 2004-02-03 C & S Technology Co., Ltd. Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same
JP3806344B2 (ja) 2000-11-30 2006-08-09 松下電器産業株式会社 定常雑音区間検出装置及び定常雑音区間検出方法
WO2002045078A1 (en) * 2000-11-30 2002-06-06 Matsushita Electric Industrial Co., Ltd. Audio decoder and audio decoding method
JP4521673B2 (ja) 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
US7571094B2 (en) * 2005-09-21 2009-08-04 Texas Instruments Incorporated Circuits, processes, devices and systems for codebook search reduction in speech coders
JP4911034B2 (ja) 2005-10-20 2012-04-04 日本電気株式会社 音声判別システム、音声判別方法及び音声判別用プログラム
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US20150170655A1 (en) * 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
JP6996185B2 (ja) * 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム

Also Published As

Publication number Publication date
JP6996185B2 (ja) 2022-01-17
US20190088272A1 (en) 2019-03-21
US10446173B2 (en) 2019-10-15

Similar Documents

Publication Publication Date Title
JP6759898B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP5810946B2 (ja) 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP5708155B2 (ja) 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
JP6268717B2 (ja) 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
JP6263868B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
US9031841B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JPWO2008114448A1 (ja) 音声認識システム、音声認識プログラムおよび音声認識方法
JP6176055B2 (ja) 音声検索装置及び音声検索方法
JP6699748B2 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP6996185B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JPH08221092A (ja) スペクトルサブトラクションを用いた雑音除去システム
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP2005070367A (ja) 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器
JP2011154341A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPWO2011077924A1 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP2023553994A (ja) ホットワード特性に基づいた自動音声認識パラメータの適応
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
JP2015087557A (ja) 発話様式検出装置および発話様式検出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211129

R150 Certificate of patent or registration of utility model

Ref document number: 6996185

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150