JP2021152682A

JP2021152682A - 音声処理装置、音声処理方法、およびプログラム

Info

Publication number: JP2021152682A
Application number: JP2021109850A
Authority: JP
Inventors: 仁山本; Hitoshi Yamamoto; 孝文越仲; Takafumi Koshinaka; 隆之鈴木; Takayuki Suzuki
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-09-14
Filing date: 2021-07-01
Publication date: 2021-09-30
Anticipated expiration: 2037-09-11
Also published as: JP6908045B2; WO2018051945A1; US20190279644A1; JP7342915B2; JPWO2018051945A1

Abstract

【課題】先行技術においては、話者認識装置に入力された音声信号に対して抽出した特徴ベクトルのそれぞれの要素が、当該音声信号の話者認識結果に与える影響を分析（解釈）することが難しいという問題があった。【解決手段】本発明の音声処理装置は、音声信号から音響特徴を算出し、算出した音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出する算出手段と、音響多様情報および音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出する抽出手段と、認識特徴情報を用いて、音声信号を発した話者に関する情報を出力する出力手段と、を備える。【選択図】図１

Description

本開示は、音声処理に関し、特に音声信号から話者の個人性や発話された言語等の属性情報を認識する音声処理装置、音声処理方法等に関する。

音声を発した話者を特定するための個人性を表す音響的特徴（個人性特徴）および音声が伝える言語を表す音響的特徴を音声信号から抽出する音声処理装置が知られている。また、音声処理装置の一種として、音声信号がもつこれらの特徴を用いて話者を推定する話者認識装置および言語を推定する言語認識装置が知られている。

この音声処理装置を用いる話者認識装置は、音声処理装置が音声信号から抽出した個人性特徴と、予め定義した個人性特徴との類似度を評価し、その評価に基づき話者を選択する。話者認識装置は、例えば、最も類似度が高いと評価された個人性特徴によって特定される話者を選択する。

非特許文献１には、話者認識装置に入力される音声信号から個人性特徴を抽出する技術が記載されている。非特許文献１に記載の特徴抽出技術は、音声信号に対して、音響モデルを用いて当該音声信号の音響統計量を算出し、因子分析の技術に基づいてその音響統計量を処理することにより、任意の音声信号を所定の要素数のベクトル形式で表現する。また、話者認識装置においては、当該特徴ベクトルを話者の個人性特徴として利用する。

国際公開第２０１４／１５５６５２号

Najim Dehak， Patrick Kenny， Reda Dehak， Pierre Dumouchel， and Pierre Ouellet， "Front-End Factor Analysis for Speaker Verification"， IEEE Transactions on Audio， Speech and Language Processing， Vol. 19， No. 4， pp. 788-798， 2011.

非特許文献１に記載の技術は、話者認識装置に入力された音声信号に対して、音響モデルを用いて算出した音響統計量を因子分析技術に基づいて圧縮する。しかし、同技術は、話者認識装置に入力された音声信号の全体に対して一律の統計処理によりひとつの特徴ベクトルを算出するにとどまる。

そのため、非特許文献１に記載の技術は、話者認識計算において特徴ベクトルの類似度に基づくスコア（点数）を算出することはできる。しかしながら非特許文献１に記載の技術は、特徴ベクトルの要素それぞれと音声信号との対応関係、あるいは特徴ベクトルの要素それぞれが話者認識結果に与える影響、を分析し解釈することは困難であった。

本開示は、上記問題に鑑みてなされたものであり、その目的は、話者認識結果の解釈性を高める技術を提供することにある。

本開示の音声処理装置は、音声信号から音響特徴を算出し、算出した前記音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出する算出手段と、前記音響多様情報および前記音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出する抽出手段と、前記認識特徴情報を用いて、前記音声信号を発した前記話者に関する情報を出力する出力手段と、を備える。

本開示の音声処理方法では、音声信号から音響特徴を算出し、算出した前記音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出し、前記音響多様情報および前記音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出し、前記認識特徴情報を用いて、前記音声信号を発した前記話者に関する情報を出力する。

本開示の記録媒体に格納されたプログラムは、音声信号から音響特徴を算出し、算出した前記音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出することと、前記音響多様情報および前記音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出することと、前記認識特徴情報を用いて、前記音声信号を発した前記話者に関する情報を出力することと、をコンピュータに実行させる。

本開示によれば、話者認識結果の解釈性を高める技術を提供することができる。

第１の実施形態に係る音声処理装置のブロック図である。第１の実施形態に係る音声処理装置の動作の一例を示すフローチャートである。第１の実施形態に係る音声処理装置の部分特徴抽出部の構成の一例を示す図である。第１の実施形態に係る音響多様度の例示である。第１の実施形態に係る選別係数Ｗｎの例示である。第１の実施形態に係る選別係数Ｗｎの例示である。第２の実施形態に係る話者認識装置の機能構成の一例を示すブロック図である。第２の実施形態に係る話者認識装置の動作の一例を示すフローチャートである。第２の実施形態に係る話者認識装置の話者認識計算部の構成の一例を示す図である。第２の実施形態に係る話者認識装置が出力する話者認識結果の一例を示す図である。第２の実施形態に係る話者認識装置が出力する話者認識結果の一例を示す図である。第２の実施形態に係る話者認識装置が出力する話者認識結果の一例を示す図である。

以下に、図面を参照しながら、本開示の実施形態について詳細に説明する。なお、以下の説明では、同じ機能を有するものには同じ符号をつけ、その説明を省略する場合がある。

（構成）
図１は、第１の実施形態に係る音声処理装置１００のブロック図である。音声処理装置１００は、音響統計量算出部１１、音響モデル記憶部１２、部分特徴抽出部１３および部分特徴統合部１４を備える。
（音響モデル記憶部１２）
音響モデル記憶部１２は、１つ以上の音響モデルを記憶する。音響モデルとは、音声信号の周波数特性と音の種類との対応関係を表すものである。音響モデルは、瞬時的な音声信号が表す音の種類を識別するように構成される。音響モデルの表現としては、例えば、ガウス混合モデル（ＧＭＭ：ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）やニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）がある。

音の種類は、例えば、音声信号を類似度に基づいてクラスタリングして得られる音声信号のクラスタである。あるいは、音の種類は、音素等の言語知識により分類される音声信号のクラスである。

音響モデル記憶部１２が記憶する音響モデルは、訓練用に用意された音声信号（訓練用音声信号）を用いて、一般的な最適化基準に従って予め訓練された音響モデルである。音響モデル記憶部１２は、例えば、話者の性別（男性または女性）、録音環境別（屋内または屋外）等のように複数の訓練用音声信号毎に訓練された２つ以上の音響モデルを記憶してもよい。

なお、図１の例では、音声処理装置１００が音響モデル記憶部１２を備えているが、音響モデル記憶部１２は、音声処理装置１００とは別個の記憶装置で実現されるものであってもよい。
（音響統計量算出部１１）
音響統計量算出部１１は、音声信号を受け取り、受け取った音声信号から音響特徴を算出し、算出した音響特徴と１つ以上の音響モデルとを用いて、音響多様度を算出し、算出した音響多様度および音響特徴を出力する。

ここで、受け取るとは、例えば、外部の装置または他の処理装置から音声信号を受信すること、または、他のプログラムから処理結果の引き渡しを受けることである。また、音響多様度は、音声信号に含まれる音の種類のばらつきの程度を表すベクトルである。以降、ある音声信号から算出された音響多様度を、該音声信号の音響多様度と呼ぶ。そして、出力とは、例えば、外部の装置や他の処理装置への送信、または、他のプログラムへ処理結果を引き渡すことである。また、出力とは、ディスプレイへの表示、プロジェクタを用いた投影、プリンタでの印字なども含む概念である。

まず、音響統計量算出部１１が、受け取った音声信号を周波数分析処理することにより音響特徴を算出する手順について説明する。

音響統計量算出部１１は、受け取った音声信号を短時間毎にフレームとして切り出して配列することにより時系列（短時間フレーム時系列）とし、フレームそれぞれを周波数分析し、周波数分析の結果として音響特徴を算出する。音響統計量算出部１１は、例えば、短時間フレーム時系列として、２５ミリ秒区間のフレームを１０ミリ秒ごとに生成する。
周波数分析処理として、例えば、音響統計量算出部１１は、高速フーリエ変換処理（ＦＦＴ：ｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）およびフィルタバンク処理を行うことにより、音響特徴である周波数フィルタバンク特徴を算出する。あるいは、周波数分析処理として、音響統計量算出部１１は、ＦＦＴおよびフィルタバンク処理に加えて離散コサイン変換処理を行うことにより、音響特徴であるメル周波数ケプストラム係数（ＭＦＣＣ：Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）を算出する。

以上が、音響統計量算出部１１が、受け取った音声信号を周波数分析処理することにより音響特徴を算出する手順である。

次に、音響統計量算出部１１が、算出した音響特徴と音響モデル記憶部１２に記憶されている１つ以上の音響モデルとを用いて、音響多様度を算出する手順について説明する。

例えば、用いる音響モデルがＧＭＭである場合、ＧＭＭが有する複数の要素分布はそれぞれ異なる音の種類に対応する。そこで、音響統計量算出部１１は、音響モデル（ＧＭＭ）から複数の要素分布それぞれのパラメタ（平均、分散）および各要素分布の混合係数を取り出し、算出した音響特徴と、取り出した要素分布のパラメタ（平均、分散）および各要素分布の混合係数に基づき、音声信号に含まれる複数の音の種類それぞれの出現度を算出する。ここで、出現度とは、出現することが繰り返される度合い（出現頻度）または出現する確率を意味する。このため、出現度は自然数（出現頻度）の場合もあるし、０以上１未満の小数（確率）の場合もある。

また、例えば、用いる音響モデルがニューラルネットワークである場合、ニューラルネットワークが有する出力層の各要素がそれぞれ異なる音の種類に対応する。そこで、音響統計量算出部１１は、音響モデル（ニューラルネットワーク）から各要素のパラメタ（重み係数、バイアス係数）を取り出し、算出した音響特徴と、取り出した要素のパラメタ（重み係数、バイアス係数）に基づき、音声信号に含まれる複数の音の種類それぞれの出現度を算出する。
このようにして算出した複数の音の種類それぞれの出現度を用いて、音響統計量算出部１１は、さらに音響多様度を算出する。

以上が、音響統計量算出部１１が、算出した音響特徴と音響モデル記憶部１２に記憶されている１つ以上の音響モデルとを用いて、音響多様度を算出する手順である。

次に、音響統計量算出部１１が音声信号ｘの音響多様度Ｖ（ｘ）を算出する手順の一例を詳細に説明する。

例えば、用いる音響モデルがＧＭＭである場合、音響統計量算出部１１は、まず、音声信号ｘについて、音響モデルであるＧＭＭが有する複数の要素分布それぞれに対する事後確率を求める。ＧＭＭのｉ番目の要素分布の事後確率Ｐ_ｉ（ｘ）は、音声信号ｘがＧＭＭのｉ番目の要素分布に属する程度を表す。Ｐ_ｉ（ｘ）は、次の数１の式によって求める。

ここで、関数Ｎ（）はガウス分布の確率密度関数を表し、θ_ｉはＧＭＭのｉ番目の要素分布のパラメタ（平均と分散）、ｗ_ｉはＧＭＭのｉ番目の要素分布の混合係数を示す。そして次に、音響統計量算出部１１は、Ｐ_ｉ（ｘ）を要素に持つベクトルである音響多様度Ｖ（ｘ）を算出する。例えば、音響モデルであるＧＭＭの混合数が４であるとき、Ｖ（ｘ）＝［Ｐ_１（ｘ），Ｐ_２（ｘ），Ｐ_３（ｘ），Ｐ_４（ｘ）］とする。

以上が、音響統計量算出部１１が音声信号ｘの音響多様度Ｖ（ｘ）を算出する手順の一例である。

次に、音響統計量算出部１１が音声信号ｘの音響多様度Ｖ（ｘ）を算出する他の方法を詳細に説明する。

例えば、用いる音響モデルがＧＭＭであるとき、音響統計量算出部１１は、音声信号ｘを短時間音声信号の時系列｛ｘ１，ｘ２，・・・，ｘＴ｝（Ｔは任意の自然数）に分割する。そして、音響統計量算出部１１は、短時間音声信号それぞれに対し、その出現確率が最大となる要素分布番号ｉを次の数２の式によって求める。

ここで、ＧＭＭのｉ番目の要素分布が選ばれた回数をＣ_ｉ（ｘ）とする。Ｃ_ｉ（ｘ）は音声信号ｘがＧＭＭのｉ番目の要素分布に属する程度を表している。そして次に、音響統計量算出部１１は、Ｃ_ｉ（ｘ）あるいはＣ_ｉ（ｘ）／Σ_ｊＣ_ｊ（ｘ）を要素に持つベクトルとして音響多様度Ｖ（ｘ）を算出する。例えば、音響モデルであるＧＭＭの混合数が４であるとき、音響多様度をＶ（ｘ）＝［Ｃ_１（ｘ），Ｃ_２（ｘ），Ｃ_３（ｘ），Ｃ_４（ｘ）］とする。

なお、音響統計量算出部１１は、受け取った音声信号を区分化した後に音響多様度を算出してもよい。より具体的には、例えば、音響統計量算出部１１は、受け取った音声信号を一定時間ごとに区切って区分化音声信号とし、区分化音声信号それぞれについて音響多様度を算出してもよい。

あるいは、音響統計量算出部１１は、外部の装置または他の処理装置から音声信号を受信しているときに、その音声信号の継続時間が所定の値を超えた場合、その時点までに受け取った音声信号の音響多様度を算出する。また、音響統計量算出部１１は、音響モデル記憶部１２に記憶されている２つ以上の音響モデルを参照する場合に、それぞれの音響モデルに基づいて出現度を算出してもよい。そして、音響統計量算出部１１は、２つ以上の音響モデルそれぞれに基づいて算出した出現度を用いて音響多様度を算出し、算出した音響多様度を重みづけした上で加算したものをあらためて音響多様度としてもよい。

以上が、音響統計量算出部１１が音声信号ｘの音響多様度Ｖ（ｘ）を算出する他の方法である。

このように、音響統計量算出部１１は、複数の音の種類の出現度をそれぞれ算出し、算出した出現度を用いて、音声信号の音響多様度を算出する。言い換えると、音響統計量算出部１１は、音声信号に含まれる音の種類の比率（音響モデルが有する要素分布全体に対するｉ番目の要素分布の割合）を反映させた音響多様度を算出する。
（部分特徴抽出部１３）
部分特徴抽出部１３は、音響統計量算出部１１が出力した統計情報（音響多様度や音響特徴等）を受け取る。部分特徴抽出部１３は、受け取った統計情報を用いて、認識特徴量を算出する処理を行い、算出した認識特徴量を出力する。ここで、認識特徴量とは、音声信号から特定の属性情報を認識するための情報である。属性情報とは、音声信号を発した話者の個人性や発話された音声信号の言語等を示す情報である。認識特徴量は、例えば、１つ以上の値からなるベクトルである。ベクトルである認識特徴量としては、例えば、ｉ−ｖｅｃｔｏｒがある。

図３Ａは、本実施形態にかかる音声処理装置１００の部分特徴抽出部１３の構成の一例を示す図である。図３Ｂは、本実施形態における音響多様度の例示である。図３Ｃは、本実施形態における選別係数Ｗ１の例示である。図３Ｄは、本実施形態における選別係数Ｗｎの例示である。選別係数は、特徴抽出のときに音の種類を選ぶために予め定義するベクトルである。図３Ａの例では、部分特徴抽出部１３は、選別部１３０ｎおよび特徴抽出部１３１ｎ（ｎは１以上Ｎ以下の自然数、Ｎは自然数）を有する。

図３Ａを用いて、部分特徴抽出部１３が音声信号ｘの認識特徴量Ｆ（ｘ）を算出する方法の一例について説明する。認識特徴量Ｆ（ｘ）は、音声信号ｘに対して所定の演算を施して算出できるベクトルであればよい。一例として部分特徴抽出部１３が算出する認識特徴量Ｆ（ｘ）としてｉ−ｖｅｃｔｏｒに基づく部分特徴ベクトルを算出する方法について説明する。

例えば、部分特徴抽出部１３は、音響統計量算出部１１から、音声信号ｘの統計情報として、短時間フレームごとに算出された音響多様度Ｖ_ｔ（ｘ）および音響特徴Ａ_ｔ（ｘ）（ｔは１以上Ｔ以下の自然数、Ｔは自然数）とを受け取る。部分特徴抽出部１３の選別部１３０ｎは、受け取ったＶ_ｔ（ｘ）の各要素に対して、選別部ごとに定められた選別係数Ｗｎをかけて、その結果を重みつきの音響多様度Ｖ_ｎｔ（ｘ）として出力する。

部分特徴抽出部１３の特徴抽出部１３１ｎは、受け取ったＶ_ｎｔ（ｘ）およびＡ_ｔ（ｘ）を用いて、以下の式に基づいて音声信号ｘの０次統計量Ｓ_０（ｘ）および１次統計量Ｓ_１（ｘ）を算出する。

ここで、ｃは統計量Ｓ_０（ｘ）およびＳ_１（ｘ）の要素数、ＤはＡ_ｔ（ｘ）の要素数（次元数）、ｍ_ｃは音響特徴空間におけるｃ番目の領域の平均ベクトル、Ｉは単位行列、０は零行列を表す。

続いて、部分特徴抽出部１３の特徴抽出部１３１ｎは、以下の式に基づいて音声信号ｘのｉ−ｖｅｃｔｏｒである部分特徴ベクトルＦ_ｎ（ｘ）を算出する。

ここで、Ｔ_ｎは特徴抽出部１３１ｎに依存するｉ−ｖｅｃｔｏｒ計算用のパラメタであり、Σは音響特徴空間における共分散行列である。

以上が、部分特徴抽出部１３が算出する認識特徴量Ｆ（ｘ）としてｉ−ｖｅｃｔｏｒに基づく部分特徴ベクトルＦ_ｎ（ｘ）を算出する方法の一例である。

部分特徴抽出部１３が、上述の手順で部分特徴ベクトルＦ_ｎ（ｎ＝１，２，…，Ｎ、Ｎは１以上の自然数）を算出する際に、Ｎ＝１であり、かつ、選別部１３０１が有する選別係数Ｗ１の各要素がすべて１であれば、非特許文献１に記載のｉ−ｖｅｃｔｏｒ算出手順と等価である。部分特徴抽出部１３は、選別部１３０ｎが有する選別係数Ｗｎの各要素を１ではない値に設定することにより、非特許文献１に記載のｉ−ｖｅｃｔｏｒとは異なる特徴ベクトルＦ_ｎ（ｘ）を算出できる。また、選別部１３０ｎが有する選別係数Ｗｎの各要素がそれぞれ異なるように設定することにより、非特許文献１に記載のｉ−ｖｅｃｔｏｒとは異なる部分特徴ベクトルＦ_ｎ（ｘ）を複数算出できる。

次に、選別係数Ｗｎの設定例について説明する。

例えば、音響モデルが、音素を識別するように構成されたニューラルネットワークであるとき、音響多様度Ｖ（ｘ）の各要素は音響モデルが識別する音素と対応づけられる。そこで、選別部１３０ｎが有する選別係数Ｗｎの各要素のうち、ある音素に対応する音響多様度の要素のみをゼロでない値とし、それ以外の要素をゼロと設定することにより、特徴抽出部１３１ｎは当該音素のみを考慮した部分特徴ベクトルＦ_ｎ（ｘ）を算出できる。

また、例えば、音響モデルがガウス混合モデルであるとき、音響多様度Ｖ（ｘ）の各要素は、ガウス混合モデルの要素分布と対応づけられる。そこで、選別部１３０ｎが有する選別係数Ｗｎの各要素のうち、ある要素分布に対応する音響多様度の要素のみをゼロでない値とし、それ以外の要素をゼロと設定することにより、特徴抽出部１３１ｎは当該要素のみを考慮した部分特徴ベクトルＦ_ｎ（ｘ）を算出できる。

また、例えば、音響モデルがＧＭＭであるとき、音響モデルが有する複数の要素分布を、類似度毎にクラスタリングすることにより、音響モデルを複数の集合（クラスタ）に分割することができる。クラスタリングの手法としては例えば木構造クラスタリングがある。ここで、選別部１３０ｎが有する選別係数Ｗｎの要素のうち、例えば１番目のクラスタに含まれる要素分布に対応する音響多様度の要素に対応するもののみをゼロでない値とし、それ以外の要素をゼロと設定することにより、特徴抽出部１３１ｎでは１番目のクラスタのみを考慮した部分特徴ベクトルＦ_ｎ（ｘ）を算出できる。

以上が、選別係数Ｗｎの設定例である。

このように、部分特徴抽出部１３は、音の種類を考慮した選別係数Ｗｎを設定し、音声信号ｘの統計量である音響多様度Ｖ（ｘ）に対して音の種類を考慮した選別係数Ｗｎをかけることで重みつきの音響多様度Ｖ_ｎｔ（ｘ）を算出し、算出したＶ_ｎｔ（ｘ）を用いて部分特徴ベクトルＦ_ｎ（ｘ）を算出する。このため、部分特徴抽出部１３は、音の種類を考慮した部分特徴ベクトルを出力することができる。
（部分特徴統合部１４）
部分特徴統合部１４は、部分特徴抽出部１３が出力した認識特徴量を受け取る。部分特徴統合部１４は、受け取った認識特徴量を用いて、特徴ベクトルを算出する処理を行い、その処理結果を出力する。ここで、特徴ベクトルとは、音声信号から特定の属性情報を認識するためのベクトル情報である。

部分特徴統合部１４は、部分特徴抽出部１３が、音声信号ｘに対して算出した、１つ以上の部分特徴ベクトルＦ_ｎ（ｘ）（ｎは１以上Ｎ以下の自然数、Ｎは自然数）を受け取る。部分特徴統合部１４は、例えば、受け取った１つ以上の部分特徴ベクトルＦ_ｎ（ｘ）から、１つの特徴ベクトルＦ（ｘ）を算出して出力する。部分特徴統合部１４は、例えば、以下の数５の数式のように特徴ベクトルＦ（ｘ）を算出する。

以上述べたとおりであるので、本実施形態にかかる音声処理装置１００は、音響統計量算出部１１が算出する音響多様度により、音声信号に含まれる音の種類のばらつきの程度である多様性をパラメタとして含む処理を行っているといえる。

また、音響統計量算出部１１が算出した音響統計量を用いて、部分特徴抽出部１３が音の種類を考慮した部分特徴ベクトルを算出し、部分特徴統合部１４がそれらを統合した特徴ベクトルを出力する。これにより、音声信号に対して、特徴ベクトルのそれぞれの要素が音声信号を構成するどの要素に対応するかを解釈可能な特徴ベクトルを出力できる。すなわち、本実施形態にかかる音声処理装置１００は、話者認識の解釈性を高めるのに適した認識特徴量を算出できる。

なお、本実施形態にかかる音声処理装置１００における音響モデル記憶部１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

また、音響モデル記憶部１２に音響モデルが記憶される過程は特に限定されない。例えば、記録媒体を介して音響モデルが音響モデル記憶部１２に記憶されてもよいし、通信回線等を介して送信された音響モデルが音響モデル記憶部１２に記憶されてもよい。または、入力デバイスを介して入力された音響モデルが音響モデル記憶部１２で記憶されてもよい。

音響統計量算出部１１、部分特徴抽出部１３、および部分特徴統合部１４は、例えば、これら機能を実現するソフトウェアを演算処理装置およびメモリ等のハードウェアが取得して実行することで実現される。音響統計量算出部１１等の処理手順は、例えば、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。また、音声処理装置１００の各部は、ハードウェア（専用回路）で実現されてもよい。
（第１の実施形態の動作）
次に、第１の実施形態における音声処理装置１００の動作について説明する。

図２は、第１の実施形態に係る音声処理装置１００の動作の一例を示すフローチャートである。

音響統計量算出部１１は、１つ以上の音声信号を受け取る（ステップＳ１０１）。そして、音響統計量算出部１１は、受け取った１つ以上の音声信号について、音響モデル記憶部１２に記憶されている１つ以上の音響モデルを参照し、音響多様度を含む音響統計量を算出する（ステップＳ１０２）。

部分特徴抽出部１３は、音響統計量算出部１１が算出した１つ以上の音響統計量に基づいて、１つ以上の部分的な認識特徴量を算出して出力する（ステップＳ１０３）。

部分特徴統合部１４は部分特徴抽出部１３が算出した１つ以上の部分的な認識特徴量を統合して認識特徴量として出力する（ステップＳ１０４）。

音声処理装置１００は、ステップＳ１０４の認識特徴量の出力が完了したら、一連の処理を終了する。
（第１の実施形態の効果）
以上、説明したように、本実施形態にかかる音声処理装置１００は、部分特徴抽出部１３が音の種類を考慮した部分特徴ベクトルを算出し、部分特徴統合部１４が算出された部分特徴ベクトル統合することで、その要素と音声信号の構成要素との対応づけが可能な特徴ベクトルを出力する。すなわち、音声処理装置１００は、音声信号に対して部分特徴ベクトルを統合した特徴ベクトルを出力する。このような計算方式により、音声処理装置１００は、音の種類ごとの認識特徴量（特徴ベクトル）を算出することができる。つまり、話者認識結果の解釈性を高めることが可能となる。
＜第２の実施形態＞
次に、第２の実施形態について説明する。本実施形態では、音声処理装置の適用例として、上述した第１の実施形態にかかる音声処理装置１００を含む話者認識装置について説明する。なお、第１の実施形態と同じ機能を有する構成については、同じ符号を付し、その説明を省略する場合がある。

図４は、第２の実施形態に係る話者認識装置２００の機能構成の一例を示すブロック図である。本実施形態における話者認識装置２００は、音声信号から特定の属性情報を認識する属性認識装置の一例である。図４に示す通り、話者認識装置２００は、認識特徴抽出部２２、および話者認識計算部２３を少なくとも備える。また、話者認識装置２００は、さらに、音声区間検出部２１、話者モデル記憶部２４を備えてもよい。

音声区間検出部２１は、音声信号を受け取る。そして、音声区間検出部２１は、受け取った音声信号から音声区間を検出して音声信号を区分化する。音声区間検出部２１は、音声信号を区分化した処理結果である区分化音声信号を出力する。音声区間検出部２１は、例えば、音声信号のうち一定時間継続して音量が所定値より小さい区間を無音の音声区間として検出し、検出した無音の音声区間の前後を、異なる音声区間と判定して区分化してもよい。

ここで、音声信号を受け取るとは、例えば、外部の装置または他の処理装置からの音声信号の受信、または、他のプログラムからの、音声信号処理の処理結果の引き渡しのことである。

認識特徴抽出部２２は、音声区間検出部２１が出力した１つ以上の区分化音声信号を受け取り、特徴ベクトルを算出して出力する。話者認識装置２００が音声区間検出部２１を備えない場合、認識特徴抽出部２２は、音声信号を受け取り、特徴ベクトルを算出して出力する。認識特徴抽出部２２の構成および動作は、第１の実施形態における音声処理装置１００の構成および動作と同様であってもよい。例えば、認識特徴抽出部２２は、上述した第１の実施の形態にかかる音声処理装置１００であってもよい。

話者認識計算部２３は、認識特徴抽出部２２が出力した特徴ベクトルを受け取る。そして、話者認識計算部２３は、話者モデル記憶部２４に記憶されている１つ以上の話者モデルを参照して、受け取った認識特徴量が、参照した話者モデルに適合する度合いを表す数値情報である話者認識のスコアを算出する。この話者認識のスコアから、音声信号に含まれる属性情報が特定される。そして、さらにこの特定された属性情報によって、話者や言語等が特定される。話者認識計算部２３は、得られた結果（話者認識のスコア）を出力する。

話者モデル記憶部２４は、１つ以上の話者モデルを記憶する。話者モデルは、入力された音声信号が特定の話者に適合する度合いである話者認識のスコアを算出するための情報である。話者モデル記憶部２４は、例えば、話者モデルと、話者ごとに設定される識別子である話者ＩＤ（Ｉｄｅｎｔｉｆｉｅｒ）とを対応付けて記憶する。

なお、図４では、話者モデル記憶部２４が話者認識装置２００に内蔵されることを例に説明を行ったが、これに限定されるものではない。話者モデル記憶部２４は、話者認識装置２００とは別個の記憶装置で実現されるものであってもよい。また、話者モデル記憶部２４は、音響モデル記憶部１２と同じ記憶装置で実現されるものであってもよい。

図６は、第２の実施形態に係る話者認識装置２００の話者認識計算部２３の構成の一例を示す図である。図６の例では、話者認識計算部２３は、分割部２３１、認識部２３２ｍ（ｍ＝１，２，…，Ｍ｝、Ｍは１以上の自然数）および統合部２３３を有する。話者認識計算部２３は、特徴ベクトルＦ（ｘ）を用いて話者認識のスコアを算出する。また、話者認識計算部２３は、算出した話者認識のスコアを含む情報である話者認識結果を出力する。

話者認識計算部２３が特徴ベクトルＦ（ｘ）を用いて話者認識のスコアを算出する方法の一例について図６を用いて説明する。

分割部２３１は、受け取った特徴ベクトルＦ（ｘ）から複数（Ｍ個）のベクトルを作成する。複数のベクトルは、それぞれ別の音の種類に対応する。分割部２３１は、例えば、部分特徴抽出部１３が算出したｎ個の部分特徴ベクトルＦ_ｎ（ｘ）と同じベクトルを作成する。

認識部２３２ｍは、分割部２３１が作成したｍ番目のベクトルを受け取り、話者認識計算を行う。認識部２３２ｍは、例えば、音声信号から算出した認識特徴量と話者モデル記憶部２４が記憶する話者モデルがともにベクトル形式であるとき、それらのコサイン類似度に基づいて、スコアを算出する。

統合部２３３は、複数の認識部２３２ｍそれぞれが算出したスコアを統合して話者認識のスコアとして出力する。

以上が、話者認識計算部２３が音声信号ｘの認識特徴量Ｆ（ｘ）を用いて話者認識のスコアを算出する方法の一例である。

図７Ａ、図７Ｂ、図７Ｃは、本実施形態にかかる話者認識装置２００が出力する話者認識結果の一例を示す図である。

話者認識計算部２３が出力する話者認識結果について、図７Ａから図７Ｃを用いて説明する。

統合部２３３は、話者認識結果の情報として、図７Ａに示す認識結果７１のように、話者ＩＤと、認識部２３２ｍの番号ｍと、認識部２３２ｍから取得したスコアとを対応づけた情報を出力する。ここで、統合部２３３は、番号ｍに加えて、番号ｍの音の種類を示す情報をあわせて出力してもよい。統合部２３３は、音の種類を示す情報として、例えば、図７Ｃに示すように、音素や単語などの文字情報、スペクトログラムなどの画像情報、音声信号などの音響情報、を出力してもよい。

また、統合部２３３は、話者認識結果の情報として、図７Ｂに示す認識結果７２のように、話者ＩＤと話者認識のスコアとを対応付けた情報を出力する。ここで、話者認識のスコアは、例えば、認識部２３２ｍから取得したスコアの重み付き加算によって算出してもよい。統合部２３３は、例えば、話者認識装置２００が話者照合することを目的とする場合は、照合対象の話者ＩＤに対して算出したスコアに基づく照合可否の判定情報を出力してもよい。また、統合部２３３は、例えば、話者認識装置２００が話者識別することを目的とする場合は、複数の話者ＩＤに対して算出したスコア順に並べた話者ＩＤのリストを出力してもよい。なお、本実施形態にかかる話者認識装置２００における話者モデル記憶部２４は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

また、話者モデル記憶部２４に話者モデルが記憶される過程は特に限定されない。例えば、記録媒体を介して話者モデルが話者モデル記憶部２４に記憶されてもよく、通信回線等を介して送信された話者モデルが話者モデル記憶部２４に記憶されてもよく、あるいは、入力デバイスを介して入力された話者モデルが話者モデル記憶部２４で記憶されてもよい。

音声区間検出部２１、認識特徴抽出部２２、および話者認識計算部２３は、例えば、これら機能を実現するソフトウェアを通常演算処理装置およびメモリ等のハードウェアが取得して実行することで実現される。当該ソフトウェアはＲＯＭ等の記録媒体に記録されていてもよい。また、話者認識装置２００の各部は、ハードウェア（専用回路）で実現されてもよい。
（第２の実施形態の動作）
次に、話者認識装置２００の動作について、図５のフローチャートを用いて説明する。
図５は、第２の実施形態に係る話者認識装置２００の動作の一例を示すフローチャートである。

音声区間検出部２１は、音声信号を受け取る（ステップＳ２０１）。そして、音声区間検出部２１は、受け取った音声信号に対し、音声区間を検出することによって、音声信号の区分化を行う。音声区間検出部２１は、１つ以上の区分化した音声信号（以降、区分化音声信号と呼ぶ）を認識特徴抽出部２２に出力する（ステップＳ２０２）。

認識特徴抽出部２２は、受理した１つ以上の区分化音声信号のそれぞれに対し、音響統計量を算出する（ステップＳ２０３）。そして、認識特徴抽出部２２は、算出した音響統計量から部分的な認識特徴量（部分特徴ベクトル）を算出し（ステップＳ２０４）、算出した部分的な認識特徴量（部分特徴ベクトル）を統合して特徴ベクトルとし、特徴ベクトルを出力する（ステップＳ２０５）。

話者認識計算部２３は、認識特徴抽出部２２が算出した特徴ベクトルに対し、話者モデル記憶部２４に記憶されている１つ以上の話者モデルを参照し、話者認識のスコアを計算する。話者認識計算部２３は、話者認識のスコアを出力する（ステップＳ２０６）。

話者認識装置２００は、ステップＳ２０６の話者認識のスコアの出力が完了したら、一連の処理を終了する。
（第２の実施形態の効果）
以上、説明したように、話者認識装置２００は、認識特徴抽出部２２が音の種類を考慮した部分特徴ベクトルを算出し、算出された部分特徴ベクトル統合することで、その要素と音声信号との対応づけが可能な特徴ベクトルとして出力する。さらに、話者認識計算部２３が特徴ベクトルから話者認識のスコアを算出して出力する。このような計算方式により、話者認識のスコアから音声信号に含まれる属性情報が特定できる。そして、音の種類ごとの話者認識のスコアを算出することができる。つまり、話者認識結果の解釈性を高めることが可能となる。

第２の実施形態における話者認識装置２００は、音声信号から特定の属性情報を認識する属性認識装置の一例でもある。つまり、話者認識装置２００は、特定の属性として、音声信号を発した話者を示す情報を認識する属性認識装置であるといえる。また、話者認識装置２００は、例えば文発話の音声信号に対して、当該話者認識装置により推定した話者情報に基づいて、当該話者の話し方の特徴に適応化する機構を備える音声認識装置の一部としても応用可能である。話者を示す情報は、話者の性別を示す情報や、話者の年齢あるいは年齢層を示す情報であってもよい。話者認識装置２００は、特定の属性として、音声信号が伝える言語（音声信号を構成する言語）を示す情報を認識するとき、言語認識装置として応用可能である。また、話者認識装置２００は、例えば文発話の音声信号に対して、当該言語認識装置により推定した言語情報に基づいて、翻訳する言語を選択する機構を備える音声翻訳装置の一部としても応用可能である。話者認識装置２００は、特定の属性として、話者の発話時の感情を示す情報を認識するとき、感情認識装置として応用可能である。

また、話者認識装置２００は、例えば蓄積された多数の発話の音声信号に対して、当該感情認識装置により推定した感情情報に基づいて、特定の感情に対応する音声信号を特定する機構を備える音声検索装置や音声表示装置の一部、すなわち、音声処理装置の一種として応用可能である。この感情情報には、例えば、感情表現を示す情報、話者の性格を示す情報等が含まれる。すなわち、本実施形態における特定の属性情報は、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格、の少なくともいずれか一つを表す情報である。第２の実施形態における話者認識装置２００は、このような属性情報を認識することができる。

以上のように、本開示の一態様における音声処理装置等は、音声信号から音の種類を考慮した特徴ベクトルを抽出し話者認識結果の解釈性を高めることができるという効果を有しており、音声処理装置および話者認識装置として有用である。

本開示は上記実施形態に限定されることなく、特許請求の範囲に記載の発明の範囲内で、種々の変形が可能であり、それらも本開示の範囲内に含まれるものであることはいうまでもない。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
１つ以上の音響モデルを記憶する音響モデル記憶部と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出部と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性又は言語を認識するための認識特徴量を算出する部分特徴抽出部と、
算出された前記認識特徴量を用いて特徴ベクトルを算出する部分特徴統合部と、
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部を備える、
音声処理装置。
（付記２）
前記部分特徴抽出部は、前記音響多様度から複数の重みつきの音響多様度を算出し、前記重みつきの音響多様度それぞれと前記音響特徴とから、複数の認識特徴量を算出する、付記１に記載した音声処理装置。
（付記３）
前記部分特徴抽出部は、認識特徴量としてベクトル形式で表現される部分特徴ベクトルを算出する、付記１または付記２に記載した音声処理装置。
（付記４）
前記音響統計量算出部は、
前記音響モデルを用いて、受け取った前記音声信号に含まれる音の種類の比率に基づき、前記音響多様度を算出する、付記１から付記３のいずれか１つに記載した音声処理装置。
（付記５）
前記音響統計量算出部は、前記音響モデルとしてガウス混合モデルを用いて、要素分布の事後確率として算出した値に基づき、前記音響多様度を算出する、付記１から付記４のいずれか１つに記載した音声処理装置。
（付記６）
前記音響統計量算出手段は、前記音響モデルとしてニューラルネットワークを用いて、音の種類の出現度として算出した値に基づき、前記音響多様度を算出する、付記１から付記４のいずれか１つに記載した音声処理装置。
（付記７）
前記部分特徴抽出手段は、
前記音声信号の前記音響多様度と選別係数と、前記音響特徴を用いて、前記認識特徴量としてｉ−ｖｅｃｔｏｒを算出する、付記１から付記３のいずれか１つに記載した音声処理装置。
（付記８）
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部をさらに備える、
付記1から付記7のいずれか１つに記載した音声処理装置。
（付記９）
受け取った音声信号を区分化して区分化音声信号とする音声区間検出部と、
１つ以上の音響モデルを記憶する音響モデル記憶部と、
前記区分化音声信号から音響特徴を算出し、算出した音響特徴と前記音響モデル記憶部に記憶された音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出部と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性又は言語を認識するための認識特徴量を算出する部分特徴抽出部と、
算出された前記認識特徴量を用いて特徴ベクトルを算出する部分特徴統合部と、
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部を備える、
音声処理装置。
（付記１０）
前記話者認識計算部は、
前記特徴ベクトルから、それぞれ別の音の種類に対応する複数のベクトルを作成し、前記複数のベクトルそれぞれについてスコアを算出し、算出した複数の前記スコアを統合することで話者認識のスコアを算出する、付記９に記載した音声処理装置。
（付記１１）
前記話者認識計算部は、算出した前記スコアを、音の種類を示す情報とあわせて出力する付記１０に記載した音声処理装置。
（付記１２）
前記特徴ベクトルは、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格、の少なくともいずれか一つを認識するための情報である、付記１から付記１１のいずれか１つに記載した音声処理装置。
（付記１３）
１つ以上の音響モデルを記憶し、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出し、算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、
算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性や言語等を示す情報を認識するための情報である認識特徴量を算出し、
算出された前記認識特徴量を用いて特徴ベクトルを算出する、
音声処理方法。
（付記１４）
コンピュータを、
１つ以上の音響モデルを記憶する手段と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する手段と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性や言語等を示す情報を認識するための情報である認識特徴量を算出する手段、
として機能させるためのプログラム。

１１音響統計量算出部
１２音響モデル記憶部
１３部分特徴抽出部
１３０ｎ選別部
１３１ｎ特徴抽出部
１４部分特徴統合部
２１音声区間検出部
２２認識特徴抽出部
２３話者認識計算部
２３１分割部
２３２ｍ認識部
２３３統合部
２４話者モデル記憶部
１００音声処理装置
２００話者認識装置
Ｖ（ｘ）音声信号ｘの音響多様度
Ｖ_ｔ（ｘ）短時間フレームごとに算出された音響多様度
Ｖ_ｎｔ（ｘ）重みつきの音響多様度
Ｐ_ｉ（ｘ）ＧＭＭのｉ番目の要素分布の事後確率
Ｎ（）ガウス分布の確率密度関数
θ_ｉＧＭＭのｉ番目の要素分布のパラメタ（平均と分散）
ｗ_ｉＧＭＭのｉ番目の要素分布の混合係数
Ｃ_ｉ（ｘ）ＧＭＭのｉ番目の要素分布が選ばれた回数
Ｗｎ選別係数
Ｆ（ｘ）認識特徴量
Ｆ_ｎ（ｘ）部分特徴ベクトル
Ｓ_０（ｘ）音声信号ｘの０次統計量
Ｓ_１（ｘ）音声信号ｘの１次統計量
Ａ_ｔ（ｘ）音響特徴
ｃ統計量Ｓ_０（ｘ）およびＳ_１（ｘ）の要素数
ＤＡ_ｔ（ｘ）の要素数（次元数）
ｍ_ｃ音響特徴空間におけるｃ番目の領域の平均ベクトル
Ｓ_１（ｘ）音声信号ｘの１次統計量

Claims

音声信号から音響特徴を算出し、算出した前記音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出する算出手段と、
前記音響多様情報および前記音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出する抽出手段と、
前記認識特徴情報を用いて、前記音声信号を発した前記話者に関する情報を出力する出力手段と、を備える、
音声処理装置。
前記算出手段は、
前記音響モデルから、前記複数の音の種類に対応するパラメタを取り出し、
前記音響特徴と、前記複数の音の種類に対応する前記パラメタに基づき、前記音声信号に含まれる前記複数の音の種類のそれぞれについて、前記出現度を算出する
ことを特徴とする請求項１に記載の音声処理装置。
前記音響多様情報は、前記音声信号に含まれる音の種類のばらつきの程度を表すベクトルであり、
前記抽出手段は、
前記音響多様情報に対して、音の種類を選ぶために予め定義するベクトルである選別係数をかけて、重みつきの音響多様情報を算出する選別手段を含む
ことを特徴とする請求項１または２に記載の音声処理装置。
前記抽出手段は、
前記重みつきの音響多様情報および前記音響特徴を用いて、前記選別係数によって選択された前記音の種類と対応する前記音声信号のｉ−ｖｅｃｔｏｒである部分特徴ベクトルを算出する特徴抽出手段をさらに含む
ことを特徴とする請求項３に記載の音声処理装置。
前記特徴抽出手段は、
前記複数の音の種類と対応する複数の前記選別係数を用いて、前記複数の音の種類と対応する複数の前記部分特徴ベクトルを算出する
ことを特徴とする請求項４に記載の音声処理装置。
前記抽出手段は、
複数の前記部分特徴ベクトルを統合することによって、それぞれの要素が音声信号を構成するどの要素に対応するかを解釈可能な特徴ベクトルを算出する部分特徴統合手段をさらに含む
ことを特徴とする請求項５に記載の音声処理装置。
前記出力手段は、
話者の識別子と対応付けられた話者モデルを用いて、前記認識特徴情報が前記話者に適合する度合いである話者認識のスコアを算出し、
前記スコアに基づいて、前記音声信号を発した前記話者を認識する
ことを特徴とする請求項１から６のいずれか１項に記載の音声処理装置。
前記出力手段は、前記スコアを、音の種類を示す情報とあわせて出力する
ことを特徴とする請求項７に記載の音声処理装置。
音声信号から音響特徴を算出し、算出した前記音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出し、
前記音響多様情報および前記音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出し、
前記認識特徴情報を用いて、前記音声信号を発した前記話者に関する情報を出力する、
音声処理方法。
音声信号から音響特徴を算出し、算出した前記音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出することと、
前記音響多様情報および前記音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出することと、
前記認識特徴情報を用いて、前記音声信号を発した前記話者に関する情報を出力することと、
をコンピュータに実行させるためのプログラム。