JP7218810B2

JP7218810B2 - 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム

Info

Publication number: JP7218810B2
Application number: JP2021534517A
Authority: JP
Inventors: 亮増村; 隆伸大庭; 清彰松井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2023-02-07
Anticipated expiration: 2039-07-25
Also published as: WO2021014649A1; US20220277767A1; JPWO2021014649A1; US11894017B2

Description

本発明は、音響信号の音声区間と非音声区間を判定する音声非音声判定装置、音声非音声判定用モデルパラメータを学習する音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラムに関する。

音声非音声判定は、発話区間検出における重要な要素技術であり、音響信号を音声区間、非音声区間のいずれかに判定する技術である。発話区間検出では、判定された音声区間と非音声区間の情報に基づき、後段の音声認識、話者認識、言語識別、音声キーワード検出といった処理において有効となる発話区間を検出する。一般的に、音声非音声判定を実施した後に、短い時間長(例えば0.2秒以下)の非音声区間を「発話内の非音声区間」とみなし、それより長い時間長の非音声区間を「発話外の非音声区間」とみなすことで、発話区間を検出する。

音声非音声判定は、短時間フレーム（例えば20msec）ごとの音響信号ごとに、音声であるか非音声であるかを判定する方法が一般的である。音声非音声判定のうち最も簡易な方法は、短時間フレームごとに音声パワーを計算して、音声パワーがあらかじめ人手で決定した閾値よりも大きいか小さいかを判断することにより、音声非音声判定を行う方法である。しかしながら、雑音下では非音声区間のパワーも音声区間のパワーも同様に大きくなってしまうため、このような簡易な方法は実用的ではないことが知られている。

実用に資する音声非音声判定を行うための手段として、機械学習に基づく方法が多く検討されている。その中でも、近年はDeep Neural Networkを用いたモデル化が強力な方法として知られている。以下ではこの方法の概要を述べる。入力は、短時間フレームごとの音響特徴量の系列である。この音響特徴量としては、様々な情報が利用できるが、例えばメル周波数ケプストラム係数や基本周波数といった情報を用いることができる。ここでは、入力の音響信号を(x₁,...,x_T)と表し、x_tはt番目のフレームの音響特徴量を表す。従来技術におけるDeep Neural Networkのモデル化は、各フレームの音声非音声状態の生成確率をモデル化することにより実現される。t番目のフレームの音声非音声状態の生成確率は次式で定義できる。
P(s_t|x₁,...,x_t;θ)=VoiceActivityDetection(x₁,...,x_t;θ)

ここで、(s₁,...,s_T)は(x₁,...,x_T)に対応した音声非音声状態を表し、s_tはt番目のフレームの状態を表し、「音声」か「非音声」の何れかのラベルを持つ。VoiceActivityDetection()は音声非音声判定を行うための関数であり、出力として音声非音声状態の生成確率を求めることができるものであれば、任意のネットワーク構造を適用できる。たとえば、リカレントニューラルネットワークや畳み込みニューラルネットワークなどと、ソフトマックス層を組み合わせることにより状態の生成確率を求めるネットワークを構成できる。例えば、非特許文献１、非特許文献２、非特許文献３の技術を採用できる。θはあらかじめ与えられた学習データを用いて後述する方法で事前に計算されたパラメータであり、パラメータの実体はVoiceActivityDetection()の関数の定義に依存したものとなる。このようなモデル化を行う場合、音声非音声判定は次式に基づく。

ここで、s^₁,...,s^_Tは音声非音声状態（ラベル）の予測結果である。

従来技術では、音響信号と正解の音声非音声状態のペアデータを１組以上準備することにより、モデルパラメータθを学習する。L個(Lは１以上の整数)のペアデータを含む学習データセットをC={(X₁,S₁),...,(X_L,S_L)}と置き、音響信号をX_l=(x_1,l,...,x_Tl,l)、音声非音声状態のラベル系列をS_l=(s_1,l,...,s_Tl,l)と表す場合、従来技術では以下のような基準で学習を行う。

ここで、θ^は学習データをもとに学習されたモデルパラメータを表す。なお、このモデルパラメータ推定問題は任意の方法で解くことができるが、例えば勾配法を用いた最適化を利用することができる。詳細は、例えば非特許文献１、非特許文献２、非特許文献３に開示されている。

X.-L. Zhang and J. Wu, "Deep belief networks based voice activity detection," IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 4, pp. 697-710, 2013. N. Ryant, M. Liberman, and J. Yuan, "Speech activity detection on youtube using deep neural networks," In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 728-731, 2013. T. Hughes and K. Mierle, "Recurrent neural networks for voice activity detection," In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 7378-7382, 2013.

従来技術の課題は、高雑音下での音声非音声判定の性能である。様々な雑音環境下で収録された音響信号と音声非音声状態のラベルのペアから学習を行うことにより、雑音が比較的少ない音響信号の音声非音声判定の性能は高いが、雑音が多く含まれる音響信号の音声非音声判定の性能は低くなってしまう。特に信号雑音比が10dB以下の高雑音下の音響信号に対する音声非音声判定の性能が低いことが知られている。これは、入力の音響信号からの情報のみでは、音声と非音声（雑音）を見分けづらいことに起因する。

そこで本発明では、高雑音下の音響信号に対して頑健な音声非音声判定装置を提供することを目的とする。

本発明の音声非音声判定装置は、音響シーン分類部と、音声強調部と、音声非音声判定部を含む。

音響シーン分類部は、音響信号を入力とし音響信号が収録されたシーンに関する情報である音響シーン情報を出力する第１のモデルを含み、音響信号と予め学習された第１のモデルのパラメータとを入力として音響シーン情報を出力する。音声強調部は、音響信号を入力とし強調後の音響信号に関する情報である音声強調情報を出力する第２のモデルを含み、音響信号と予め学習された第２のモデルのパラメータとを入力として音声強調情報を出力する。音声非音声判定部は、音響信号と音響シーン情報と音声強調情報を入力とし音声区間または非音声区間のいずれかのラベルに関する情報である音声非音声ラベルを出力する第３のモデルを含み、音響信号と音響シーン情報と音声強調情報と予め学習された第３のモデルのパラメータとを入力として音声非音声ラベルを出力する。

本発明の音声非音声判定装置は、高雑音下の音響信号に対して頑健である。

実施例１の音声非音声判定装置の構成を示すブロック図。実施例１の音声非音声判定装置の動作を示すフローチャート。実施例１の音声非音声判定用モデルパラメータ学習装置の構成を示すブロック図。実施例１の音声非音声判定用モデルパラメータ学習装置の動作を示すフローチャート。実施例２の音声非音声判定装置の構成を示すブロック図。実施例２の音声非音声判定装置の動作を示すフローチャート。実施例２の音声非音声判定用モデルパラメータ学習装置の構成を示すブロック図。実施例２の音声非音声判定用モデルパラメータ学習装置の動作を示すフローチャート。コンピュータの機能構成例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜実施例の概要＞
以下の実施例では、高雑音下での音声非音声判定の性能を向上した音声非音声判定装置を開示する。

以下の実施例におけるポイントは、入力の音響信号に対して、「どんな場所で収録された音響信号なのかを判定する技術」である音響シーン分類と、「雑音を取り除いた音響信号を推定する技術」である音声強調を同時に適用し、両者の出力情報をもとに、音声非音声判定を行うことである。音響シーン分類の出力情報を扱うことより、例えば駅のホームなのか、人込みなのか、工場なのかといった場所を推定することができ、「どんな雑音が発生しているのか」を情報として得ることが可能となる。これにより音声非音声判定の性能改善が可能となる。また、音声強調の出力情報を扱うことにより、雑音で埋もれてしまった音声情報をより考慮した音声非音声判定を行うことが可能となる。そしてこれらの情報を同時に考慮することにより、多様な雑音環境下で頑健に動作する音声非音声判定装置を提供することができる。具体的な効果としては、従来技術と比較して、高雑音下、特に信号雑音比が10dB以下の音響信号に対する音声非音声判定の性能を大きく改善することができる。

さらに、以下の実施例では、上述した音響シーン分類や音声強調の情報を考慮した音声非音声判定を実現するための音声非音声判定用モデルパラメータ学習装置を開示する。

＜音声非音声判定装置１１の構成、動作＞
図１を参照して実施例１の音声非音声判定装置の構成を説明する。同図に示すように本実施例の音声非音声判定装置１１は、音響シーン分類部１１１と、音声強調部１１２と、音声非音声判定部１１３を含む。

以下、図２を参照して各構成要件の動作を説明する。音響シーン分類部１１１は、音響信号を入力とし音響信号が収録されたシーンに関する情報である音響シーン情報を出力する第１のモデルを含み、音響信号と予め学習された第１のモデルのパラメータとを入力として音響シーン情報を出力する（Ｓ１１１）。音声強調部１１２は、音響信号を入力とし強調後の音響信号に関する情報である音声強調情報を出力する第２のモデルを含み、音響信号と予め学習された第２のモデルのパラメータとを入力として音声強調情報を出力する（Ｓ１１２）。音声非音声判定部１１３は、音響信号と音響シーン情報と音声強調情報を入力とし音声区間または非音声区間のいずれかのラベルに関する情報である音声非音声ラベルを出力する第３のモデルを含み、音響信号と音響シーン情報と音声強調情報と予め学習された第３のモデルのパラメータとを入力として音声非音声ラベルを出力する（Ｓ１１３）。なお、第１、第２、第３のモデルは、ＤＮＮを用いたモデルであってもよいし、他の機械学習等を用いた任意のモデルであってもよい。

以下、各構成要件の動作をさらに詳細に説明する。

＜音響シーン分類部１１１＞
入力：音響信号(x₁,...,x_T)、音響シーン分類用モデルパラメータθ_a
出力：音響シーン情報(a₁,...,a_T)

音響シーン分類部１１１は、音響信号(x₁,...,x_T)、音響シーン分類用モデルパラメータθ_aから、音響シーン情報(a₁,...,a_T)を推定する（Ｓ１１１）。この音響シーン情報は、ベクトル系列として表され、系列長は音響信号と同一のものである。音響シーン情報は次式に従い推定できる。
(a₁,...,a_T)=AcousticSceneClassification(x₁,...,x_T;θ_a)

ここで、AcousticSceneClassification()は、入力の音響信号から音響シーン情報のベクトル系列を出力する関数である。この関数には、後述のθ_aに関する学習基準が適用できるネットワークであれば任意のものを用いることができ、例えばフィードフォワードニューラルネットワークやリカレントニューラルネットワークなどを用いることができる。音響シーン分類用モデルパラメータθ_aをどのように得るかは項目＜音声非音声判定用モデルパラメータ学習装置１２の構成、動作＞以降で後述する。

＜音声強調部１１２＞
入力：音響信号(x₁,...,x_T)、音声強調用モデルパラメータθ_b
出力：音声強調情報(b₁,...,b_T)

音声強調部１１２は、音響信号(x₁,...,x_T)、音声強調用モデルパラメータθ_bから、音声強調情報(b₁,...,b_T)を推定する（Ｓ１１２）。この音声強調情報は、ベクトル系列として表され、系列長は音響信号と同一のものである。音声強調情報は次式に従い推定できる。
(b₁,...,b_T)=SpeechEnhancement(x₁,...,x_T;θ_b)

ここで、SpeechEnhancement()は、入力の音響信号から音声強調情報のベクトル系列を出力する関数である。この関数には、後述のθ_bに関する学習基準が適用できるネットワークであれば任意のものを用いることができ、例えばフィードフォワードニューラルネットワークやリカレントニューラルネットワークなどを用いることができる。音声強調用モデルパラメータθ_bをどのように得るかは項目＜音声非音声判定用モデルパラメータ学習装置１２の構成、動作＞以降で後述する。

＜音声非音声判定部１１３＞
入力：音響信号(x₁,...,x_T)、音声非音声判定用モデルパラメータθ_c、音響シーン情報(a₁,...,a_T)、音声強調情報(b₁,...,b_T)
出力：音声非音声ラベル(s₁,...,s_T)

音声非音声判定部１１３は、入力の音響信号(x₁,...,x_T)と音響シーン情報(a₁,...,a_T)と音声強調情報(b₁,...,b_T)、音声非音声判定用モデルパラメータθ_cから、音声非音声ラベル(s₁,...,s_T)を推定する（Ｓ１１３）。そのために、入力の音響信号、音響シーン情報、そして音声強調情報を同時に考慮して、音声非音声状態を推定する。具体的には、音声非音声判定部１１３は、これらの３つの要素の結合ベクトルを最初に構成する。結合ベクトル系列は次式で表される。
(u₁,...,u_T)=([x₁,a₁,b₁],...,[x_T,a_T,b_T])

この結合ベクトル系列の系列長は、入力の音響信号の系列長と同一である。音声非音声判定部１１３は、この結合ベクトル系列を用い、次式に従って音声非音声判定のモデル化を実行する。
P(s_t|x₁,...,x_t;θ_a,θ_b,θ_c)=SpeechActivityDetection(u₁,...,u_t;θ_c)

ここで、SpeechActivityDetection()は、結合ベクトル系列から音声非音声状態系列の確率を生成するための関数である。この関数には、後述のθ_cに関する学習基準が適用できるネットワークであれば任意のものを用いることができ、例えばフィードフォワードニューラルネットワークやリカレントニューラルネットワークとソフトマックス関数を組み合わせることで実現できる。このようなモデル化を行う場合、音声非音声判定は次式に基づく。

ここで、s^₁,...,s^_Tは予測結果の音声非音声状態である。

＜音声非音声判定用モデルパラメータ学習装置１２の構成、動作＞
以下、図３を参照して本実施例の音声非音声判定用モデルパラメータ学習装置の構成を説明する。同図に示すように、本実施例の音声非音声判定用モデルパラメータ学習装置１２は、音響シーン分類用モデルパラメータ学習部１２１と、音声強調用モデルパラメータ学習部１２２と、音声非音声判定用モデルパラメータ学習部１２３を含む。

以下、図４を参照して各構成要件の動作を説明する。音響シーン分類用モデルパラメータ学習部１２１は、音響信号と音響信号が収録されたシーンのラベルである音響シーンラベルのペアデータ集合を第１の学習データとして音響シーン分類用のモデルである第１のモデルのパラメータを学習する（Ｓ１２１）。音声強調用モデルパラメータ学習部１２２は、音響信号と音声強調後の音響信号のペアデータ集合を第２の学習データとして音声強調用のモデルである第２のモデルのパラメータを学習する（Ｓ１２２）。音声非音声判定用モデルパラメータ学習部１２３は、音響信号と音声非音声状態を表すラベルのペアデータ集合を第３の学習データとし、第３の学習データに含まれる音響信号に対する第１のモデルの出力である音響シーン情報と、第３の学習データに含まれる音響信号に対する第２のモデルの出力である音声強調情報と、第３の学習データに含まれるラベルと、第３の学習データに含まれる音響信号の、合計４つの情報を含む第４の学習データについて、音声非音声判定用のモデルである第３のモデルのパラメータを学習する（Ｓ１２３）。

以下、各構成要件の動作をさらに詳細に説明する。

＜音響シーン分類用モデルパラメータ学習部１２１＞
入力:音響信号と音響シーンラベルのペアデータ集合A={(X₁,O₁),...,(X_M,O_M)}
出力:音響シーン分類用モデルパラメータθ_a

音響シーン分類用モデルパラメータ学習部１２１は、音響信号と音響シーンラベル情報のペアデータ集合A={(X₁,O₁),...,(X_M,O_M)}から、音響シーン分類用モデルパラメータθ_aを学習する（Ｓ１２１）。ここで、Mはペアデータの総数であり、１以上の値である。音響信号をX_m=(x_1,m,...,x_Tm,m)、音響シーンのラベル系列をO_m=(o_1,m,...,o_Tm,m)と表す。ここで、o_t,mは、音響シーンのラベルを表し、例えば「駅構内」「人ごみ」「静音」など、あらかじめ人手で規定したものであり、ラベル種類数は２以上である。例えば場所、人が近くにいるか、ノイズがあるか、背景音はどんなものか、残響はどの程度あるかなど、発話以外の音の情報から定義できるものであれば、任意のラベルを設定できる。また、１つの音声区間に対してラベルを複数付与してもよい。このとき、モデルパラメータの推定は次式に従う。

ここで、θ^_aは学習データをもとに推定された音響シーン分類用モデルパラメータを表す。このモデルパラメータ推定問題は任意の方法で解くことができ、例えば勾配法を用いた最適化を利用できる。本実施例では、P(o_t,m|x_1,m,...,x_t,m;θ_a)は２種類のモデル定義を用いることができる。１種類目は、以下のようなモデル定義である。
P(o_t,m|x_1,m,...,x_t,m;θ_a)=AcousticSceneClassification(x_1,m,...,x_t,m;θ_a)

このとき、AcousticSceneClassification()の出力ベクトル系列は、各フレームの音響シーンについての離散確率分布の系列として表されることになる。２種類目は、以下のようなモデル定義である。
P(o_t,m|x_1,m,...,x_t,m;θ_a)=Posterior(AcousticSceneClassification(x_1,m,...,x_t,m;θ_a);θ_a)

ここで、Posterior()はAcousticSceneClassification()の出力ベクトル系列から、各フレームの音響シーンについての離散確率分布の系列に変換するための関数である。Posterior()には、ベクトル系列を離散確率分布系列に変換できる関数であれば任意の関数を用いることができるが、例えばソフトマックス関数を用いた線形変換関数を用いることができる。

＜音声強調用モデルパラメータ学習部１２２＞
入力:音響信号と音声強調後の音響信号のペアデータ集合B={(X₁,X^- ₁),...,(X_N,X^- _N)}
出力:音声強調用モデルパラメータθ_b

音声強調用モデルパラメータ学習部１２２は、音響信号と音声強調後の音響信号のペアデータ集合B={(X₁,X^- ₁),...,(X_N,X^- _N)}から、音声強調用モデルパラメータθ_bを学習する（Ｓ１２２）。ここで、Nはペアデータの総数であり、１以上の値である。音響信号をX_n=(x_1,n,...,x_Tn,n)、音声強調後の音響信号をX^- _n=(x^- _1,n,...,x^- _Tn,n)と表す。このモデルパラメータの推定は次式に従う。

ここで、θ^_bは学習データをもとに推定された音声強調用モデルパラメータを表す。このモデルパラメータ推定問題は任意の方法で解くことができるが、例えば勾配法を用いた最適化を利用することができる。本実施例では、f(x_1,n,...,x_t,n;θ_b)は２種類のモデル定義を用いることができる。１種類目は、以下のようなモデル定義である。
f(x_1,n,...,x_t,n;θ_b)=SpeechEnhancement(x_1,n,...,x_t,n;θ_b)

このとき、SpeechEnhancement()の出力ベクトル系列は、各フレームの音声強調後の音響信号の系列として表されることになる。2種類目は、以下のようなモデル定義である。
f(x_1,n,...,x_t,n;θ_b)=Post(SpeechEnhancement(x_1,n,...,x_t,n;θ_b);θ_b)

このとき、Post()はSpeechEnhancement()の出力ベクトル系列から、各フレーム音声強調後の音響信号の系列に変換するための関数である。Post()には、ベクトル系列をベクトル系列に変換できる関数であれば任意の関数を用いることができるが、例えば単純な線形変換関数を用いることができる。

＜音声非音声判定用モデルパラメータ学習部１２３＞
入力:音響信号と音声非音声状態を表すラベルのペアデータ集合C={(X₁,S₁),...,(X_L,S_L)}、音響シーン分類用モデルパラメータθ_a、音声強調用モデルパラメータθ_b
出力:音声非音声判定用モデルパラメータθ_c

音声非音声判定モデルパラメータ学習部１２３は、音響信号と音声非音声状態（ラベル）のペアデータ集合C={(X₁,S₁),...,(X_L,S_L)}、音響シーン分類用モデルパラメータθ_a、音声強調用モデルパラメータθ_bから、音声非音声判定用モデルパラメータθ_cを推定する。ここで、Lは音響信号と音声非音声状態を表すラベルのペアデータ数を表し、１以上である。音響信号をX_l=(x_1,l,...,x_Tl,l)、音声非音声状態のラベル系列をS_l=(s_1,l,...,s_Tl,l)と表す。このとき、音声非音声判定用モデルパラメータは次式のとおり推定できる。

ここで、θ^_cは学習データをもとに推定された音声非音声判定用モデルパラメータを表す。このモデルパラメータ推定問題は任意の方法で解くことができるが、例えば勾配法を用いた最適化を利用することができる。

前述の実施例では、音響シーン情報と音声強調情報を用いているが、これ以外にも、「音響信号から同一系列長のベクトル系列を出力する動作」であれば、その出力情報を、音響シーン分類情報と音声強調情報に加えて用いる構成とすることができる。

例えば、入力の音響信号から音素認識を動作させ、音素認識情報を追加で用いる構成や、入力の音響信号から話者認識を動作させ、話者認識情報を追加で用いる構成とすることができる。実施例２は、音響シーン情報、音声強調情報、音素認識情報、話者認識情報を音声非音声判定のために用いる構成例である。

＜音声非音声判定装置２１の構成、動作＞
図５を参照して実施例２の音声非音声判定装置の構成を説明する。同図に示すように本実施例の音声非音声判定装置２１は、音響シーン分類部１１１と、音声強調部１１２と、音素認識部２１３と、話者認識部２１４と、音声非音声判定部２１５を含み、音響シーン分類部１１１、音声強調部１１２は実施例１と同じである。なお、同図において、音素認識情報を(d₁,...,d_T)、話者認識情報を(e₁,...,e_T)、音素認識用モデルパラメータをθ_d、話者認識用モデルパラメータをθ_eと表す。

以下、図６を参照して実施例１と異なる各構成要件の動作を説明する。

音素認識部２１３は、音響信号を入力とし音響信号の音素認識結果に関する情報である音素認識情報を出力する第４のモデルを含み、音響信号と予め学習された第４のモデルのパラメータとを入力として音素認識情報を出力する（Ｓ２１３）。話者認識部２１４は、音響信号を入力とし音響信号の話者認識結果に関する情報である話者認識情報を出力する第５のモデルを含み、音響信号と予め学習された第５のモデルのパラメータとを入力として話者認識情報を出力する（Ｓ２１４）。

なお、第４、第５のモデルは、ＤＮＮを用いたモデルであってもよいし、他の機械学習等を用いた任意のモデルであってもよい。

ここで、音声非音声判定用のモデルである第３のモデルは、音響シーン情報と音声強調情報と音素認識情報と話者認識情報を入力とし音声非音声ラベルを出力するモデルである。

音声非音声判定部２１５は、音響信号と音響シーン情報と音声強調情報と音素認識情報と話者認識情報と予め学習された第３のモデルのパラメータとを入力として音声非音声ラベルを出力する（Ｓ２１５）。

なお、音素認識部２１３、話者認識部２１４のいずれか一つを省略してもよい。音素認識部２１３を省略する場合、第３のモデルは、音響信号と音響シーン情報と音声強調情報と話者認識情報を入力とし音声非音声ラベルを出力するモデルであり、音声非音声判定部２１５は、音響信号と音響シーン情報と音声強調情報と話者認識情報と予め学習された第３のモデルのパラメータとを入力として音声非音声ラベルを出力する。話者認識部２１４を省略する場合、第３のモデルは、音響信号と音響シーン情報と音声強調情報と音素認識情報を入力とし音声非音声ラベルを出力するモデルであり、音声非音声判定部２１５は、音響信号と音響シーン情報と音声強調情報と音素認識情報と予め学習された第３のモデルのパラメータとを入力として音声非音声ラベルを出力する。

＜音声非音声判定用モデルパラメータ学習装置２２の構成、動作＞
図７を参照して実施例２の音声非音声判定用モデルパラメータ学習装置の構成を説明する。同図に示すように本実施例の音声非音声判定用モデルパラメータ学習装置２２は、音響シーン分類用モデルパラメータ学習部１２１と、音声強調用モデルパラメータ学習部１２２と、音素認識用モデルパラメータ学習部２２３と、話者認識用モデルパラメータ学習部２２４と、音声非音声判定用モデルパラメータ学習部２２５を含み、音響シーン分類用モデルパラメータ学習部１２１、音声強調用モデルパラメータ学習部１２２は実施例１と同じである。なお、同図において、音響信号と音素ラベルのペアデータ集合をD={(X₁,V₁),...,(X_H,V_H)}、音響信号と話者ラベルのペアデータ集合をE={(X₁,W₁),...,(X_J,W_J)}と表す。

以下、図８を参照して実施例１と異なる各構成要件の動作を説明する。

音素認識用モデルパラメータ学習部２２３は、音響信号と音響信号の音素ラベルのペアデータ集合を第５の学習データとして音素認識用のモデルである第４のモデルのパラメータを学習する（Ｓ２２３）。

話者認識用モデルパラメータ学習部２２４は、音響信号と音響信号の話者ラベルのペアデータ集合を第６の学習データとして話者認識用のモデルである第５のモデルのパラメータを学習する（Ｓ２２４）

音声非音声判定用モデルパラメータ学習部２２５は、第３の学習データに含まれる音響信号に対する第１のモデルの出力である音響シーン情報と、第３の学習データに含まれる音響信号に対する第２のモデルの出力である音声強調情報と、第３の学習データに含まれるラベルと、第３の学習データに含まれる音響信号と、第３の学習データに含まれる音響信号に対する第４のモデルの出力である音素認識情報と、第３の学習データに含まれる音響信号に対する第５のモデルの出力である話者認識情報の、合計６つの情報を含む第７の学習データについて、音声非音声ラベルを出力する第３のモデルのパラメータを学習する（Ｓ２２５）。

なお、音素認識用モデルパラメータ学習部２２３、話者認識用モデルパラメータ学習部２２４のいずれか一つを省略してもよい。

本実施例では、音素認識情報、話者認識情報を追加したが、これ以外にも、性別、年齢、感情などの情報を用いてもよく、「音響信号から同一系列長のベクトル系列を出力する動作」を実行できる限り、任意の情報を用いることができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

上述の各種の処理は、図９に示すコンピュータの記録部１００２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部１００１０、入力部１００３０、出力部１００４０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electrically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音響信号を入力とし前記音響信号が収録されたシーンに関する情報である音響シーン情報を出力する第１のモデルを含み、前記音響信号と予め学習された前記第１のモデルのパラメータとを入力として前記音響シーン情報を出力する音響シーン分類部と、
前記音響信号を入力とし強調後の前記音響信号に関する情報である音声強調情報を出力する第２のモデルを含み、前記音響信号と予め学習された前記第２のモデルのパラメータとを入力として前記音声強調情報を出力する音声強調部と、
前記音響信号と前記音響シーン情報と前記音声強調情報を入力とし音声区間または非音声区間のいずれかのラベルに関する情報である音声非音声ラベルを出力する第３のモデルを含み、前記音響信号と前記音響シーン情報と前記音声強調情報と予め学習された前記第３のモデルのパラメータとを入力として前記音声非音声ラベルを出力する音声非音声判定部を含む
音声非音声判定装置。
請求項１に記載の音声非音声判定装置であって、
前記音響信号を入力とし前記音響信号の音素認識結果に関する情報である音素認識情報を出力する第４のモデルを含み、前記音響信号と予め学習された前記第４のモデルのパラメータとを入力として前記音素認識情報を出力する音素認識部を含み、
前記第３のモデルは、
前記音響信号と前記音響シーン情報と前記音声強調情報と前記音素認識情報を入力とし前記音声非音声ラベルを出力するモデルであって、
前記音声非音声判定部は、
前記音響信号と前記音響シーン情報と前記音声強調情報と前記音素認識情報と予め学習された前記第３のモデルのパラメータとを入力として前記音声非音声ラベルを出力する
音声非音声判定装置。
請求項１に記載の音声非音声判定装置であって、
前記音響信号を入力とし前記音響信号の話者認識結果に関する情報である話者認識情報を出力する第５のモデルを含み、前記音響信号と予め学習された前記第５のモデルのパラメータとを入力として前記話者認識情報を出力する話者認識部を含み、
前記第３のモデルは、
前記音響信号と前記音響シーン情報と前記音声強調情報と前記話者認識情報を入力とし前記音声非音声ラベルを出力するモデルであって、
前記音声非音声判定部は、
前記音響信号と前記音響シーン情報と前記音声強調情報と前記話者認識情報と予め学習された前記第３のモデルのパラメータとを入力として前記音声非音声ラベルを出力する
音声非音声判定装置。
音響信号と前記音響信号が収録されたシーンのラベルである音響シーンラベルのペアデータ集合を第１の学習データとして音響シーン分類用のモデルである第１のモデルのパラメータを学習する音響シーン分類用モデルパラメータ学習部と、
前記音響信号と音声強調後の前記音響信号のペアデータ集合を第２の学習データとして音声強調用のモデルである第２のモデルのパラメータを学習する音声強調用モデルパラメータ学習部と、
前記音響信号と音声非音声状態を表すラベルのペアデータ集合を第３の学習データとし、前記第３の学習データに含まれる前記音響信号に対する前記第１のモデルの出力である音響シーン情報と、前記第３の学習データに含まれる前記音響信号に対する前記第２のモデルの出力である音声強調情報と、前記第３の学習データに含まれる前記ラベルと、前記第３の学習データに含まれる前記音響信号の、合計４つの情報を含む第４の学習データについて、音声非音声判定用のモデルである第３のモデルのパラメータを学習する音声非音声判定用モデルパラメータ学習部を含む
音声非音声判定用モデルパラメータ学習装置。
請求項４に記載の音声非音声判定用モデルパラメータ学習装置であって、
前記音響信号と前記音響信号の音素ラベルのペアデータ集合を第５の学習データとして音素認識用のモデルである第４のモデルのパラメータを学習する音素認識用モデルパラメータ学習部と、
前記音響信号と前記音響信号の話者ラベルのペアデータ集合を第６の学習データとして話者認識用のモデルである第５のモデルのパラメータを学習する話者認識用モデルパラメータ学習部を含み、
前記音声非音声判定用モデルパラメータ学習部は、
前記音響シーン情報と、前記音声強調情報と、前記第３の学習データに含まれる前記ラベルと、前記第３の学習データに含まれる前記音響信号と、前記第３の学習データに含まれる前記音響信号に対する前記第４のモデルの出力である音素認識情報と、前記第３の学習データに含まれる前記音響信号に対する前記第５のモデルの出力である話者認識情報の、合計６つの情報を含む第７の学習データについて、前記第３のモデルのパラメータを学習する
音声非音声判定用モデルパラメータ学習装置。
音響信号を入力とし前記音響信号が収録されたシーンに関する情報である音響シーン情報を出力する第１のモデルを含み、前記音響信号と予め学習された前記第１のモデルのパラメータとを入力として前記音響シーン情報を出力する音響シーン分類ステップと、
前記音響信号を入力とし強調後の前記音響信号に関する情報である音声強調情報を出力する第２のモデルを含み、前記音響信号と予め学習された前記第２のモデルのパラメータとを入力として前記音声強調情報を出力する音声強調ステップと、
前記音響信号と前記音響シーン情報と前記音声強調情報を入力とし音声区間または非音声区間のいずれかのラベルに関する情報である音声非音声ラベルを出力する第３のモデルを含み、前記音響信号と前記音響シーン情報と前記音声強調情報と予め学習された前記第３のモデルのパラメータとを入力として前記音声非音声ラベルを出力する音声非音声判定ステップを含む
音声非音声判定方法。
音響信号と前記音響信号が収録されたシーンのラベルである音響シーンラベルのペアデータ集合を第１の学習データとして音響シーン分類用のモデルである第１のモデルのパラメータを学習する音響シーン分類用モデルパラメータ学習ステップと、
前記音響信号と音声強調後の前記音響信号のペアデータ集合を第２の学習データとして音声強調用のモデルである第２のモデルのパラメータを学習する音声強調用モデルパラメータ学習ステップと、
前記音響信号と音声非音声状態を表すラベルのペアデータ集合を第３の学習データとし、前記第３の学習データに含まれる前記音響信号に対する前記第１のモデルの出力である音響シーン情報と、前記第３の学習データに含まれる前記音響信号に対する前記第２のモデルの出力である音声強調情報と、前記第３の学習データに含まれる前記ラベルと、前記第３の学習データに含まれる前記音響信号の、合計４つの情報を含む第４の学習データについて、音声非音声判定用のモデルである第３のモデルのパラメータを学習する音声非音声判定用モデルパラメータ学習ステップを含む
音声非音声判定用モデルパラメータ学習方法。
コンピュータを請求項１から５の何れかに記載の装置として機能させるプログラム。