JP6716513B2

JP6716513B2 - 音声区間検出装置、その方法、及びプログラム

Info

Publication number: JP6716513B2
Application number: JP2017163974A
Authority: JP
Inventors: 隆朗福冨; 岡本　学; 学岡本; 清彰松井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2020-07-01
Anticipated expiration: 2037-08-29
Also published as: JP2019040148A

Description

本発明は、音声信号と音声以外の信号である非音声信号とを含む観測信号から前記音声信号が存在する時間区間である音声区間を検出する音声区間検出技術に関する。

音声区間検出技術の従来技術として非特許文献１が知られている。

非特許文献１では、観測信号(以下「入力信号」ともいう)から音声区間(以下「発話区間」ともいう）のみを検出し、発話していない区間（「非音声区間」または「非発話区間」ともいう）を除外する。

例えば、発話区間検出技術は、音声認識の事前処理として、不要な信号（非音声）を除外する役割を持っており、認識精度の低下を防いでいる。

非特許文献１の発話区間検出技術は、事前に音声と非音声の音響的な特徴を学習データとして構築した統計的なモデルを用いて、音声区間と非音声区間を検出する。統計モデルに基づく発話区間検出技術では、入力信号の各フレームに対して音声尤度、非音声尤度を算出し、その尤度比などを閾値処理することで音声区間と判定している。

藤本雅清、「音声区間検出の基礎と最近の研究動向」、 IEICE Technical Report.、 SP2010-23（2010-06）

しかしながら、従来技術では、音声区間であっても、発話内でのポーズなどの箇所では、音声尤度が低下し、正しく音声と判定されないことがある。また、従来技術では、背景雑音などの影響により、話していない区間でも音声区間として検出されてしまうことがある。

本発明は、従来技術と比べ、ポーズなどの箇所においても音声区間検出の精度が高く、背景雑音などの影響による音声区間または非音声区間の誤検出を低減できる音声区間検出装置、その方法、及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、音声区間検出装置は、音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出部と、音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと始端特徴量とを用いて、始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定部と、観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出部と、音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと終端特徴量を用いて、終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定部と、音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、音声区間検出方法は、音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出ステップと、音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと始端特徴量とを用いて、始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定ステップと、観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出ステップと、音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと終端特徴量を用いて、終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定ステップと、音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定ステップとを含む。

本発明によれば、従来技術と比べ、ポーズなどの箇所においても音声区間検出の精度が高く、背景雑音などの影響による誤検出を低減できるという効果を奏する。

第一実施形態に係る音声区間検出装置の機能ブロック図。第一実施形態に係る音声区間検出装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態＞
本実施形態の音声区間検出装置１００は、音声区間そのものを検出する（音声らしいところを検出する）のではなく、音声区間の始端と終端とをそれぞれに特化した統計モデルに基づき検出することで、始端らしい箇所から終端らしい箇所までを音声区間とする。

図１、図２を参照して、音声区間検出装置１００が実行する音声区間検出方法について説明する。図１は第一実施形態に係る音声区間検出装置の機能ブロック図を、図２はその処理フローを示す。

音声区間検出装置１００は、図１に示すように、始端特徴量算出部１０１、始端モデル学習部１０２、終端特徴量算出部１０３、終端モデル学習部１０４、始端判定部１０５、終端判定部１０６、および音声区間確定部１０７を含む。

音声区間検出装置１００が図２に示す各ステップの処理を行うことにより実施形態の音声区間検出方法が実現される。なお、音声区間検出装置１００が実行する部分を音声区間検出方法とも呼ぶ。

音声区間検出装置１００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声区間検出装置１００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声区間検出装置１００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声区間検出装置１００の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声区間検出装置１００が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

音声区間の始端と終端の判定に特化した統計モデル(始端モデル及び終端モデル)を学習するフェーズと、学習した始端モデル及び終端モデルを用いて音声区間を検出するフェーズとがあるため、まず学習するフェーズについて説明し、次に検出するフェーズについて説明する。

＜学習時＞
音声区間検出装置１００は、学習用観測信号を入力とし、始端モデル及び終端モデルを学習し、それぞれ始端判定部１０５及び主端判定部１０６に設定する。

なお、学習用観測信号は、発話の開始時刻情報及び終了時刻情報が付与された音声データである。例えば、音声データには音声信号と音声以外の信号である非音声信号とが含まれる。

＜始端特徴量算出部１０１＞
始端特徴量算出部１０１は、学習用観測信号を入力とし、学習用観測信号を用いて特徴量をフレーム毎に算出し、音声信号の開始時刻情報とともに始端モデル学習部１０２に出力する。特徴量としては、音声区間の始端に表れやすい特徴を判別できるものを用いればよく、このような特徴量を以下「始端特徴量」ともいう。たとえば、短時間フレーム毎(たとえば20msec毎)の音声データのフィルタバンク出力値、ケプストラム、メル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients : MFCC）等の様々な特徴量を用いることができる。また、発話開始時に特徴的な言語的な情報を活用し、始端検出精度を高めてもよい。例えば、単語N-gramや音素系列を始端特徴量として用いてもよい。単語N-gramや音素系列は、特に音声区間の始端に表れる特徴を判別しやすい特徴量である。

＜始端モデル学習部１０２＞
始端モデル学習部１０２は、フレーム毎の学習用観測信号の始端特徴量と、音声信号の開始時刻情報とを入力とし、始端フレーム（音声信号の開始時刻情報に対応するフレーム）を識別するモデル(始端モデル)を学習し、学習の結果得られる始端モデルを始端判定部１０５に出力する。始端モデルの学習には様々な公知の技術を利用できる。例えばDNN、CNN、RNNといった深層学習などを用いてモデル化すると良い。

＜終端特徴量算出部１０３＞
終端特徴量算出部１０３は、学習用観測信号を入力とし、学習用観測信号を用いて特徴量をフレーム毎に算出し、音声信号の終了時刻情報とともに終端モデル学習部１０２に出力する。特徴量としては、音声区間の終端に表れやすい特徴を判別できるものを用いればよく、このような特徴量を以下「終端特徴量」ともいう。たとえば、始端特徴量算出部１０１で算出した始端特徴量と同じ特徴量(フィルタバンク出力値、ケプストラム、 MFCC等)を用いてもよい。また、例えば、終端に特徴的なイントネーションの変化を終端特徴量として用いてもよい。公知の技術を用いて、たとえば基本周波数の時間変化量などをイントネーションの変化を表す終端特徴量として算出する。基本周波数の時間変化量は、特に音声区間の終端に表れやすい特徴を判別しやすい特徴量と言える。

＜終端モデル学習部１０４＞
終端モデル学習部１０４は、フレーム毎の学習用観測信号の終端特徴量と、音声信号の終了時刻情報とを入力とし、終端フレーム（音声信号の終了時刻情報に対応するフレーム）を識別するモデル(終端モデル)を学習し、学習の結果得られる終端モデルを終端判定部１０６に出力する。終端モデルの学習には様々な公知の技術を利用できる。例えばDNN、CNN、RNNといった深層学習などを用いてモデル化すると良い。なお、終端モデルの学習には、始端モデルの学習と同じ方法を用いてもよいし、異なる方法を用いてもよい。

なお、上述の学習処理は、音声区間検出処理に先立ち行っておく。

＜検出時＞
音声区間検出装置１００は、音声区間の検出対象となる観測信号を入力とし、始端モデル及び終端モデルを用いて音声区間を検出し、検出結果(音声区間情報)を出力する。

＜始端特徴量算出部１０１＞
始端特徴量算出部１０１は、音声区間検出対象の観測信号を入力とし、観測信号を用いて学習時と同じ方法により始端特徴量をフレーム毎に算出し（Ｓ１０１）、始端判定部１０５に出力する。

＜始端判定部１０５＞
始端判定部１０５は、音声区間検出処理に先立ち、始端モデルを受け取る。

始端判定部１０５は、始端特徴量を入力とし、始端モデルを用いて、始端特徴量に対応するフレームが音声区間の始端か否かを判定する（Ｓ１０５）。なお、判定方法としては始端モデルに従って様々な方法を利用することができる。例えば、始端特徴量を始端モデルに与え各フレームに対して始端尤度、非始端尤度を算出し、その尤度比等を閾値処理することで始端フレームか否かを判定する。

始端と識別された際には、以降のフレームに対しては、始端特徴量算出部１０１の処理を行わず、終端特徴量算出部１０３の処理へ移行する。また、始端と識別されなかった際には、以降の処理(終端特徴量算出部１０３、終端判定部１０６、音声区間確定部１０７の処理)は行わず、再び次フレームの観測信号を対象に始端特徴量算出部１０１の処理を行う。

始端判定部１０５は、始端と識別されたフレームに関する情報(例えばフレーム番号)を音声区間確定部１０７に出力する。

＜終端特徴量算出部１０３＞
終端特徴量算出部１０３は、音声区間検出対象の観測信号を入力とし、観測信号を用いて学習時と同じ方法により終端特徴量をフレーム毎に算出し（Ｓ１０３）、終端判定部１０６に出力する。

＜終端判定部１０６＞
終端判定部１０６は、音声区間検出処理に先立ち、終端モデルを受け取る。

終端判定部１０６は、終端特徴量を入力とし、終端モデルを用いて、終端特徴量に対応するフレームが音声区間の終端か否かを判定する（Ｓ１０６）。なお、判定方法としては終端モデルに従って様々な方法を利用することができる。例えば、終端特徴量を終端モデルに与え各フレームに対して終端尤度、非終端尤度を算出し、その尤度比等を閾値処理することで終端フレームか否かを判定する。

終端と識別された際には、発話区間確定部１０７の処理へ移行する。また、終端と識別されなかった場合は、以降の処理（音声区間確定部１０７の処理）は行わず、再び次フレームの観測信号を対象にした終端特徴量算出部１０３の処理を行う。

終端判定部１０６は、終端と識別されたフレームに関する情報(例えばフレーム番号)を音声区間確定部１０７に出力する。

＜音声区間確定部１０７＞
音声区間確定部１０７は、始端及び終端と識別されたフレームに関する情報(例えば各フレーム番号)を受け取り、音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とし、検出結果（音声区間情報であり、音声区間を示す情報、例えば音声区間に対応するフレーム番号やフレーム番号に対応するフレーム時刻、フレームに対応し音声区間または非音声区間を示すビット列(例えば音声区間と判定されたフレームに対応するビットを1とし非音声区間と判定されたフレームに対応するビットを0とするビット列)など）を出力する。

＜効果＞
以上の構成により、ポーズなどの箇所においても音声区間検出の精度が高く、背景雑音などの影響による誤検出を低減できる。例えば、音声区間の始端と終端とをそれぞれのモデルに基づき推定するため、発話途中のポーズ等の箇所において非音声区間と判断する誤判断を低減することができる。また、発話区間そのものを検出する（音声らしいところを検出する）場合には、テレビの音声などの背景雑音を音背区間であるとして誤検出することがあるが、検出する箇所を音声区間の始端と終端に絞ることで検出の精度を上げ、誤検出を低減することができる。

＜変形例＞
本実施形態では、始端モデル、終端モデルの学習処理と、検出処理とを同じ音声区間検出装置内で行っているが、学習処理と検出処理とを異なる装置内で行ってもよい。例えば、モデル学習装置で学習した始端モデル、終端モデルを音声区間検出装置に出力し、音声区間検出装置では検出処理だけを行う。

本実施形態では、時系列の観測信号に対して音声区間を１つ検出するため、まず、始端特徴量算出部と始端判定部とにおける処理を繰り返し、始端を検出した後に、終端特徴量算出部と終端判定部とにおける処理を繰り返し、終端を検出した後に、音声区間検出装置の処理を終了している。ここで、終端と識別された際には、再度、始端特徴量算出部１０１、始端判定部１０５の処理（Ｓ１０１，Ｓ１０５）を行ってもよい。このような構成とすることで、あるフレームが音声区間の始端と判定されてからその音声区間の終端と判定されるフレームが現れるまで終端特徴量算出部１０３と終端判定部１０６とにおける処理（Ｓ１０３，Ｓ１０６）を繰り返し、それ以外のフレームに対しては始端特徴量算出部１０１と始端判定部１０５とにおける処理（Ｓ１０１，Ｓ１０５）を繰り返し、連続して音声区間を検出することができる。このような構成により、終端特徴量算出部と終端判定部とにおける処理と、始端特徴量算出部と始端判定部とにおける処理とを交互に行うことで、特徴量の算出処理や判定処理の処理量を減らすことができ、ポーズなどの箇所においても音声区間検出の精度が保つことができる。ただし、交互に行わず、全てのフレームについて、終端特徴量算出部と終端判定部と始端特徴量算出部と始端判定部とにおける処理を行う構成としてもよい。このような構成の場合、例えば、(i)始端を検出した後、かつ、終端を検出する前に、再度始端が検出される場合がある。このような場合には、後から検出された始端を誤りとしてもよいし、先に検出した始端と後から検出した始端との尤もらしさを比較し、より尤もらしい始端を音声区間の始端と判定してもよい。このとき、先に検出した始端が音声区間の始端と判定されやすくなるように補正してもよい。例えば、始端尤度と非始端尤度との尤度比が大きいほどより尤もらしい場合には、先に検出した始端に対応する尤度比に所定の値を加算する。また、(ii)始端を検出する前に、終端が検出される場合がある。このような場合には、検出された終端を誤りとしてもよいし、始端と判定されなかったフレームの中で最も始端として尤もらしいフレームを音声区間の始端と判定してもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出部と、
音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと前記始端特徴量とを用いて、前記始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定部と、
前記観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出部と、
音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと前記終端特徴量を用いて、前記終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定部と、
音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定部とを含む、
音声区間検出装置。
請求項１の音声区間検出装置であって、
あるフレームが音声区間の始端と判定されてからその音声区間の終端と判定されるフレームが現れるまで前記終端特徴量算出部と前記終端判定部とにおける処理を繰り返し、それ以外のフレームに対しては前記始端特徴量算出部と前記始端判定部とにおける処理を繰り返す、
音声区間検出装置。
音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出ステップと、
音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと前記始端特徴量とを用いて、前記始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定ステップと、
前記観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出ステップと、
音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと前記終端特徴量を用いて、前記終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定ステップと、
音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定ステップとを含む、
音声区間検出方法。
請求項３の音声区間検出方法であって、
あるフレームが音声区間の始端と判定されてからその音声区間の終端と判定されるフレームが現れるまで前記終端特徴量算出ステップと前記終端判定ステップとを繰り返し、それ以外のフレームに対しては前記始端特徴量算出ステップと前記始端判定ステップとを繰り返す、
音声区間検出方法。
請求項１または請求項２の音声区間検出装置としてコンピュータを機能させるためのプログラム。