JP7024691B2

JP7024691B2 - 非言語発話検出装置、非言語発話検出方法、およびプログラム

Info

Publication number: JP7024691B2
Application number: JP2018212666A
Authority: JP
Inventors: 孝中村; 隆朗福冨; 清彰松井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2022-02-24
Anticipated expiration: 2038-11-13
Also published as: US20210272587A1; JP2020079852A; WO2020100606A1; US11741989B2

Description

この発明は、音声信号から非言語発話を検出する技術（non-verbal sound detection）に関する。

非言語発話とは、例えば、咳やくしゃみ、笑い声などの非言語的な音声である。非特許文献１には、非言語発話のうち笑い声を検出する様々な技術が開示されている。非特許文献２には、日本語による通話中の呼吸音を検出する技術が開示されている。非特許文献３には、人間とロボットとの対話において笑い声を検出する技術が開示されている。非特許文献４には、雑音環境下で人間の叫び声を検出する技術が開示されている。

Sarah Cosentino, Salvatore Sessa, Atsuo Takanishi, "Quantitative Laughter Detection, Measurement, and Classification - A Critical Survey," IEEE Reviews in Biomedical Engineering, Vol. 9, pp. 148-162, February 2016. Takashi Fukuda, Osamu Ichikawa, Masafumi Nishimura, "Detecting breathing sounds in realistic Japanese telephone conversations and its application to automatic speech recognition," Speech Communication, Vol. 98, pp. 95-103, April 2018. Marie Tahon, Laurence Devillers, "Laughter Detection for On-line Human-robot Interaction," Proceedings of the 4th Interdisciplinary Workshop on Laughter and Other Non-verbal Vocalisations in Speech, pp. 35-37, April 2015. Mahesh Kumar Nandwana, Ali Ziaei, John H. L. Hansen, "Robust unsupervised detection of human screams in noisy acoustic environments," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 161-165, April 2015.

非言語発話であっても文字に書き起こせる音（すなわち、音素の特定が概ね可能な音）が含まれることがある。音声認識等での利用を考える際、このような音は重要な手がかりになる。しかしながら、従来の非言語発話検出では、このような音は活用されていない。

この発明の目的は、非言語発話の検出に発話内容の情報を利用することで非言語発話の検出精度を向上させることである。

上記の課題を解決するために、この発明の一態様の非言語発話検出装置は、ボトルネック構造をもつ深層ニューラルネットワークにより構成され、入力された音声特徴量から音素状態を推定して出力する音響モデルを記憶する音響モデル記憶部と、入力された音声特徴量とボトルネック特徴量とから非言語発話らしさの事後確率を推定して出力する非言語発話モデルを記憶する非言語発話モデル記憶部と、入力された音声信号からフレーム毎に音声特徴量を抽出する音声特徴量抽出部と、音声信号から抽出した各フレームの音声特徴量を音響モデルへ入力し、音響モデルのボトルネック層の出力を各フレームのボトルネック特徴量として得るボトルネック特徴量推定部と、音声信号から抽出した各フレームの音声特徴量とその音声特徴量から得た各フレームのボトルネック特徴量とを非言語発話モデルへ入力し、非言語発話モデルが出力する各フレームの非言語発話らしさの事後確率を得る非言語発話検出部と、を含む。

この発明によれば、非言語発話の検出に発話内容の情報を利用することができ、非言語発話の検出精度が向上する。

図１は非言語発話検出装置の機能構成を例示する図である。図２は非言語発話検出方法の処理手順を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下で説明する実施形態は、事前に学習された非言語発話を推定するモデル（以下、「非言語発話モデル」と呼ぶ）を用いて、入力された音声信号から非言語発話らしさの事後確率を求める非言語発話検出装置および方法である。実施形態の非言語発話検出装置１は、図１に例示するように、音響モデル記憶部１０Ａ、非言語発話モデル記憶部１０Ｂ、音声特徴量抽出部１１、ボトルネック特徴量推定部１２、および非言語発話検出部１３を備える。この非言語発話検出装置１が、図２に例示する各ステップの処理を行うことにより実施形態の非言語発話検出方法が実現される。

非言語発話検出装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。非言語発話検出装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。非言語発話検出装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。非言語発話検出装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

音響モデル記憶部１０Ａには、予め学習した音響モデルが記憶されている。この音響モデルは、音声特徴量を入力とし、音素状態番号（senone）を出力する深層ニューラルネットワーク（DNN: Deep Neural Network）により構成される。この深層ニューラルネットワークは、中間層のうちの１層についてユニット数を少なく抑えたボトルネック構造をもつものとする。ここで、ユニット数を抑えた中間層を「ボトルネック層」と呼び、ボトルネック層の出力値を「ボトルネック特徴量」と呼ぶ。

ボトルネック特徴量は、入力特徴量を次元圧縮された音響歪み耐性がある特徴量である。なお、「音響歪み耐性がある特徴量」とは、同じ入力音声に対して、例えば、異なる２つの音響歪みが付加されていると仮定した場合に、これら２つの異なる音響歪みが付加された入力音声に対して生成した２つの特徴量が似通っていることをいう。言い換えれば、「音響歪み耐性がある特徴量」は、音響歪みの影響が軽減された特徴量である。

音響モデルの学習は、大量の音響モデル学習用音声データと、各音声データと対になる書き起こしデータとに基づいて、予め行う。このとき、音響モデル学習用音声データは、非言語発話が大量に含まれているものとする。

非言語発話モデル記憶部１０Ｂには、予め学習済みの非言語発話モデルが記憶されている。この非言語発話モデルは、フレーム毎の音声特徴量とそのフレームの音声特徴量に対応するボトルネック特徴量とを入力とし、非言語発話らしさの事後確率を出力とする。なお、「音声特徴量に対応するボトルネック特徴量」とは、ある音声特徴量を上述の音響モデルに入力したときにボトルネック層が出力するボトルネック特徴量を意味する。

この実施形態では、非言語発話らしさは、値域を0.0以上1.0以下とする。非言語発話らしさは、言語的意味を伴わないものの人間の口腔を通じて発声される音声（例えば、咳やくしゃみ、笑い声など、人工のものを含む）は1.0に近い値を与えるものとする。逆に、言語的意味を伴う音声および非音声（例えば、車の騒音や階段をのぼる足音などの雑音）は0.0に近い値を与えるものとする。

非言語発話モデルは、例えば、深層ニューラルネットワーク（DNN: Deep Neural Network）や畳み込みニューラルネットワーク（CNN: Convolutional Neural Network）、混合正規分布（GMM: Gaussian Mixture Model）などを用いることができる。ただし、前後の発話内容に依存して非言語発話らしいか否かが決まる場合に対応することを想定して、長短期記憶（LSTM: Long Short Term Memory）やゲート付き再帰ユニット（GRU: Gated Recurrent Unit）などの長距離文脈を捉えられる（扱える）モデルを用いると好適である。

非言語発話モデルは、以下のように学習する。非言語発話モデル学習用音声データから抽出した各フレームの音声特徴量と、そのフレームの音声特徴量に対応するボトルネック特徴量と、非言語発話らしさの正解値とが対応付けられた学習用データを予め用意する。非言語発話らしさの正解値は、非言語発話らしい場合は1.0、そうでない場合は0.0の二値を人手で与えるものとする。初期値を適当に設定したニューラルネットワークに学習用データを入力したときの出力（非言語発話らしさの事後確率）の推定値と学習用データ中の非言語発話らしさの正解値との比較結果に基づき、推定値が正解値に近付くようにニューラルネットワークの各パラメータを繰り返し更新する。更新方法は、例えば誤差伝搬学習等の公知の技術を用いればよい。

ステップＳ１において、音声特徴量抽出部１１は、非言語発話検出装置１に入力された音声信号を受け取る。音声特徴量抽出部１１は、受け取った音声信号からフレーム毎に音声特徴量を抽出する。抽出する音声特徴量は、例えば、下記参考文献１に記載されたメルフィルタバンクスロープ（MFS: Mel Filterbank Slope）やメル周波数ケプストラム係数（MFCC: Mel Frequency Cepstral Coefficients）などである。音声特徴量抽出部１１は、抽出したフレーム毎の音声特徴量をボトルネック特徴量推定部１２および非言語発話検出部１３へ入力する。
〔参考文献１〕S. R. Madikeri, H. A. Murthy, "Mel Filter Bank energy-based Slope feature and its application to speaker recognition," 2011 National Conference on Communications (NCC), pp. 1-4, 2011.

フレーム毎に処理を行うのは以下の理由による。入力音声を音響分析する際、分析対象の波形は一定の性質を持つ（分析対象の始めと終わりで特性が変わらない）ものであるという前提を置く場合が多い。そのため、分析対象の音声波形を非常に短い時間幅（20～30ミリ秒といった値が採用されることが多い）で切り出すことにより、そのごく短い時間では音声は同じ特性を持つと言えるようにする。このように音声を短い時間幅で切り出す際、音響分析結果の急激な変化を避ける（連続的に変化するようにする）ことを目的に、切り出し位置を時間幅より短い幅でずらすことにより、切り出された音声波形が一部オーバーラップし、その分共通の音声になっている部分ができる。フレームの切り出し位置をずらしていく時間幅をフレームシフトと呼ぶことが多い（10～15ミリ秒といった値が採用されることが多い）。詳細は、上記非特許文献３（特にFig. 1）を参照されたい。

ステップＳ２において、ボトルネック特徴量推定部１２は、音声特徴量抽出部１１からフレーム毎の音声特徴量を受け取る。ボトルネック特徴量推定部１２は、受け取った各フレームの音声特徴量を音響モデル記憶部１０Ａに記憶された音響モデルへ入力し、音響モデルのボトルネック層の出力ベクトルを各フレームのボトルネック特徴量として得る。ボトルネック特徴量推定部１２は、得たフレーム毎のボトルネック特徴量を非言語発話検出部１３へ入力する。

ステップＳ３において、非言語発話検出部１３は、音声特徴量抽出部１１からフレーム毎の音声特徴量を、ボトルネック特徴量推定部１２からフレーム毎のボトルネック特徴量を受け取る。非言語発話検出部１３は、受け取った各フレームの音声特徴量と各フレームのボトルネック特徴量とを非言語発話モデル記憶部１０Ｂに記憶された非言語発話モデルへ入力し、非言語発話モデルが出力する各フレームの非言語発話らしさの事後確率を得る。非言語発話検出部１３は、得た非言語発話らしさの事後確率を非言語発話検出装置１の出力とする。

上述の実施形態で示したように、非言語発話の検出に音響モデルが出力する音素状態のボトルネック特徴量を用いることで、以下のような効果が期待できる。第一に、非言語発話の音素情報を推定に用いることで、検出精度の向上が期待できる。第二に、前後の特徴量の関係を捉えるモデルを用いることで、文字にすると同じような結果になる音による非言語発話の推定を行いやすくすることができる。すなわち、実施形態の非言語発話検出技術によれば、非言語発話の検出に発話内容の情報を利用することができ、非言語発話の検出精度が向上する。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１非言語発話検出装置
１０Ａ音響モデル記憶部
１０Ｂ非言語発話モデル記憶部
１１音声特徴量抽出部
１２ボトルネック特徴量推定部
１３非言語発話検出部

Claims

ボトルネック構造をもつ深層ニューラルネットワークにより構成され、入力された音声特徴量から音素状態を推定して出力する音響モデルを記憶する音響モデル記憶部と、
入力された音声特徴量とボトルネック特徴量とから非言語発話らしさの事後確率を推定して出力する非言語発話モデルを記憶する非言語発話モデル記憶部と、
入力された音声信号からフレーム毎に音声特徴量を抽出する音声特徴量抽出部と、
上記音声信号から抽出した各フレームの音声特徴量を上記音響モデルへ入力し、上記音響モデルのボトルネック層の出力を各フレームのボトルネック特徴量として得るボトルネック特徴量推定部と、
上記音声信号から抽出した各フレームの音声特徴量とその音声特徴量から得た各フレームのボトルネック特徴量とを上記非言語発話モデルへ入力し、上記非言語発話モデルが出力する各フレームの非言語発話らしさの事後確率を得る非言語発話検出部と、
を含む非言語発話検出装置。
請求項１に記載の非言語発話検出装置であって、
上記非言語発話モデルは、長距離文脈を扱う再帰型ニューラルネットワークにより構成されるものである、
非言語発話検出装置。
音響モデル記憶部に、ボトルネック構造をもつ深層ニューラルネットワークにより構成され、入力された音声特徴量から音素状態を推定して出力する音響モデルが記憶されており、
非言語発話モデル記憶部に、入力された音声特徴量とボトルネック特徴量とから非言語発話らしさの事後確率を推定して出力する非言語発話モデルが記憶されており、
音声特徴量抽出部が、入力された音声信号からフレーム毎に音声特徴量を抽出し、
ボトルネック特徴量推定部が、上記音声信号から抽出した各フレームの音声特徴量を上記音響モデルへ入力し、上記音響モデルのボトルネック層の出力を各フレームのボトルネック特徴量として得、
非言語発話検出部が、上記音声信号から抽出した各フレームの音声特徴量とその音声特徴量から得た各フレームのボトルネック特徴量とを上記非言語発話モデルへ入力し、上記非言語発話モデルが出力する各フレームの非言語発話らしさの事後確率を得る、
非言語発話検出方法。
請求項１または２に記載の非言語発話検出装置としてコンピュータを機能させるためのプログラム。