JP7268711B2

JP7268711B2 - 信号処理システム、信号処理装置、信号処理方法、およびプログラム

Info

Publication number: JP7268711B2
Application number: JP2021165174A
Authority: JP
Inventors: 浩司岡部; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-03-15
Filing date: 2021-10-07
Publication date: 2023-05-08
Anticipated expiration: 2039-03-13
Also published as: US20210050021A1; WO2019176986A1; JP2022008928A; US11842741B2; JPWO2019176986A1; JP6958723B2

Description

本発明は、信号処理システム、信号処理装置、信号処理方法、およびプログラムに関する。

特許文献１および特許文献２には、動画や楽曲などのコンテンツに対応する時系列の信号を解析することによって、コンテンツに含まれる音声の特徴を抽出する技術が開示されている。

話者の音声を用いた話者認識には、深層学習を利用したものがある。例えば、非特許文献１は、短時間特徴ベクトルと、その平均ベクトルと標準偏差ベクトルを生成する。そして、非特許文献１は、平均ベクトルと標準偏差ベクトルから長時間特徴ベクトルを生成することで、話者認識力が高い特徴ベクトルを生成するものである。

国際公開第２０１１／０７７６９６号特開２００６－２８７３１９号公報国際公開第２０１１／０３３５９７号

ＤａｖｉｄＳｎｙｄｅｒ、ＤａｎｉｅｌＧａｒｃｉａ－Ｒｏｍｅｒｏ、ＤａｎｉｅｌＰｏｖｅｙ、ＳａｎｊｅｅｖＫｈｕｄａｎｐｕｒ、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋＥｍｂｅｄｄｉｎｇｓｆｏｒＴｅｘｔ－ＩｎｄｅｐｅｎｄｅｎｔＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ、ＩＮＴＥＲＳＰＥＥＣＨ２０１７（２０１７年８月２４日）

しかしながら、非特許文献１では、例えば、長時間にわたる音声データに用いる場合などにおいて、フレームごとに話者の特徴の確からしさにばらつきが生じるにも関わらず、全フレームに対して均等に重み付けて統計量を算出してしまうため、話者などのクラス認識能力が高い特徴ベクトルを生成することができない場合があった。

本発明は、上述の課題を解決する信号処理システム、信号処理装置、信号処理方法、およびプログラムを提供することを目的とする。

本発明の第１の態様は、話者の属性を識別するためのモデルデータを保持する保持手段と、時系列の音声データまたは前記音声データの特徴量に基づいて第１の特徴ベクトルを生成する第１生成手段と、前記第１の特徴ベクトルを用いて、重みを算出する重み算出手段と、前記第１の特徴ベクトルと、前記重みとを用いて、第２の特徴ベクトルを生成する第２生成手段と、前記第２の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、を備え、前記第１生成手段、前記重み算出手段及び第２生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させる、信号処理システムである。

本発明の第２の態様は、話者の属性を識別するためのモデルデータを保持する保持手段と、時系列の音声データまたは前記音声データの特徴量に基づいて第１の特徴ベクトルを生成する第１生成手段と、前記第１の特徴ベクトルを用いて、重みを算出する重み算出手段と、前記第１の特徴ベクトルと、前記重みとを用いて、第２の特徴ベクトルを生成する第２生成手段と、前記第２の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、を備え、前記第１生成手段、前記重み算出手段及び第２生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させる、信号処理装置である。

本発明の第３の態様は、コンピュータが、話者の属性を識別するためのモデルデータを取得し、時系列の音声データまたは前記音声データの特徴量に基づいて第１の特徴ベクトルを生成し、前記第１の特徴ベクトルを用いて、重みを算出し、前記第１の特徴ベクトルと、前記重みとを用いて第２の特徴ベクトルを生成すし、前記第２の特徴ベクトルに基づき、前記話者の属性を識別し、前記第１の特徴ベクトル、前記重み、前記第２の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、信号処理方法である。

本発明の第４の態様は、コンピュータが、話者の属性を識別するためのモデルデータを取得し、時系列の音声データまたは前記音声データの特徴量に基づいて第１の特徴ベクトルを生成する第１生成ステップと、前記第１の特徴ベクトルを用いて、重みを算出する重み算出ステップと、前記第１の特徴ベクトルと、前記重みとを用いて第２の特徴ベクトルを生成する第２生成ステップと、前記第２の特徴ベクトルに基づき、前記話者の属性を識別する識別ステップと、を実行するためのプログラムであって、前記第１の特徴ベクトル、前記重み、前記第２の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、プログラムである。

本発明の一態様によれば、クラス認識能力が高い特徴ベクトルを生成することができる。

第１の実施形態に係る信号処理システムの構成の一例を示すシステム構成図である。第１の実施形態に係る信号処理装置のハードウェア構成の一例を示す概略ブロック図である。第１の実施形態に係る信号処理装置の機能構成の一例を示す概略ブロック図である。第１の実施形態に係る信号処理装置の最小構成の一例を示す概略ブロック図である。第１の実施形態に係る信号処理の一例を示すフローチャートである。変形例に係る信号処理システムの構成の一例を示すシステム構成図である。

以下、本発明の実施形態について図面を参照して説明する。

（第１の実施形態）
図１は、第１の実施形態に係る信号処理システムｓｙｓの構成の一例を示すシステム構成図である。

信号処理システムｓｙｓは、第１生成装置１２０と、第２生成装置１３０と、重み算出装置１４０と、統計量算出装置１５０と、含んで構成される。第１生成装置１２０と、第２生成装置１３０と、重み算出装置１４０と、統計量算出装置１５０とは、ネットワークＮＷを介して接続される。

例えば、第１生成装置１２０と、第２生成装置１３０と、重み算出装置１４０と、統計量算出装置１５０とのそれぞれは、ニューラルネットワークによって構成される。

第１生成装置１２０は、人物の音声などの音声データまたは人物の音声などの特徴量が入力されると、第１の特徴ベクトルを生成する。具体的には、第１生成装置１２０は、音声データまたは特徴量が入力されると、所定時刻（フレーム）毎の第１の特徴ベクトル、すなわち、短時間特徴ベクトルを生成する。

重み算出装置１４０は、第１生成装置１２０が生成した所定時刻（フレーム）毎の第１の特徴ベクトルに対して重みをそれぞれ算出する。例えば、重み算出装置１４０は、第１生成装置１２０から所定時刻（フレーム）毎の第１の特徴ベクトルとして、例えば、短時間特徴ベクトルを複数フレーム分並べた行列として入力されると、それぞれのフレーム（第１の特徴ベクトル）毎の重みを算出する。

統計量算出装置１５０は、第１生成装置１２０が生成した第１の特徴ベクトルと、重み算出装置１４０が算出した重みとを用いて、重み付き平均ベクトルおよび二次以上の重み付き高次統計ベクトルを算出する。具体的には、統計量算出装置１５０は、所定時刻（フレーム）毎の第１の特徴ベクトルとして、例えば、短時間特徴ベクトルを複数フレーム分並べた行列および重みとが入力されると、重み付き平均ベクトルおよび重み付き標準偏差ベクトルを算出する。

第２生成装置１３０は、統計量算出装置１５０が算出した重み付き高次統計ベクトルを用いて第２の特徴ベクトルを生成する。具体的には、第２生成装置１３０は、重み付き平均ベクトルおよび重み付き標準偏差ベクトルが入力されると、第２の特徴ベクトルとして、固定次元数の長時間特徴ベクトルを生成する。

信号処理システムは、第２の特徴ベクトルとして生成した長時間特徴ベクトルを用いることで、音声データの話者（クラス）を認識（識別）することができる。

上記では、第１生成装置１２０と、第２生成装置１３０と、重み算出装置１４０と、統計量算出装置１５０とのそれぞれは、ニューラルネットワークによって構成され、別々の装置として構成される場合の一例について説明した。以下の説明では、第１生成装置１２０と、第２生成装置１３０と、重み算出装置１４０と、統計量算出装置１５０とのそれぞれを、第１生成部１２１、第２生成部１３１、重み算出部１４１、統計量算出部１５１として、信号処理装置１として機能する場合の一例について説明する。第１生成部１２１は、第１生成手段の一例である。第２生成部１３１は、第２生成手段の一例である。重み算出部１４１は、重み算出手段の一例である。統計量算出部１５１は、統計量算出手段の一例である。

図２は、第１の実施形態に係る信号処理装置１のハードウェア構成の一例を示す概略ブロック図である。

信号処理装置１は、ＣＰＵ１００と、記憶媒体インタフェース部１０１と、記憶媒体１０２と、入力部１０３と、出力部１０４と、ＲＯＭ１０５（Read Only Memory：ロム）と、ＲＡＭ１０６（Random Access Memory：ラム）と、補助記憶部１０７と、ネットワークインターフェース部１０８と、を備える。ＣＰＵ１００と、記憶媒体インタフェース部１０１と、入力部１０３と、出力部１０４と、ＲＯＭ１０５と、ＲＡＭ１０６と、補助記憶部１０７と、ネットワークインターフェース部１０８とは、バスを介して相互に接続される。

ＣＰＵ１００は、補助記憶部１０７が記憶するプログラム、ＲＯＭ１０５およびＲＡＭ１０６が記憶する各種データを読み出して実行し、信号処理装置１を制御する。また、ＣＰＵ１００は、記憶媒体インタフェース部１０１を介して記憶媒体１０２が記憶する各種データを読み出して実行し、信号処理装置１を制御する。記憶媒体１０２は、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体であり、各種データを記憶する。

記憶媒体インタフェース部１０１は、光ディスクドライブ、フレキシブルディスクドライブなどの記憶媒体１０２の読み出し装置である。

入力部１０３は、マウス、キーボード、タッチパネルなどの入力装置である。

出力部１０４は、表示部、スピーカなどの出力装置である。

ＲＯＭ１０５、ＲＡＭ１０６は、各種データを記憶する。

補助記憶部１０７は、ハードディスクドライブ、フラッシュメモリなどであり、信号処理装置１の各機能部を動作させるためのプログラム、各種データを記憶する。

ネットワークインターフェース部１０８は、通信インタフェースを有し、有線または無線によりネットワークＮＷに接続される。

例えば、後述する図３における信号処理装置１のソフトウェア構成における制御部１１０、受付部１６０、提示部１７０は、図２におけるＣＰＵ１００に対応する。

図３は、第１の実施形態に係る信号処理装置１の機能構成の一例を示す概略ブロック図である。

信号処理装置１は、制御部１１０と、受付部１６０と、提示部１７０と、を含んで構成される。制御部１１０は、生成部１８０と、算出部１９０と、を含んで構成される。生成部１８０は、第１生成部１２１と、第２生成部１３１と、を含んで構成される。算出部１９０は、重み算出部１４１と、統計量算出部１５１と、を含んで構成される。

受付部１６０は、ネットワークＮＷまたはユーザからの入力を受け付ける。具体的には、受付部１６０は、話者の音声などの音声データまたは音声特徴量を入力として受け付ける。受付部１６０は、受け付けた音声データまたは音声特徴量を制御部１１０に出力する。

制御部１１０は、信号処理装置１の各部の機能を制御する。

生成部１８０は、受付部１６０から音声データまたは音声特徴量が入力されると、短時間特徴ベクトルを、第１の特徴ベクトルとして生成する。また、生成部１８０は、算出部１９０が算出した高次統計ベクトルに基づいて、長時間特徴ベクトルを、第２の特徴ベクトルとして生成する。

より具体的には、第１生成部１２１は、受付部１６０から音声データまたは音声特徴量が入力されると、フレーム（単位時刻）毎の短時間特徴ベクトルを、第１の特徴ベクトルとして生成する。第１生成部１２１は、生成したフレームごとの第１の特徴ベクトルを、算出部１９０に出力する。

また、第２生成部１３１は、算出部１９０が算出した重み付き平均ベクトルおよび重み付き標準偏差ベクトルに基づいて、固定次元数の長時間特徴ベクトルを、第２の特徴ベクトルとして生成する。第２生成部１３１は、生成した第２の特徴ベクトルを、提示部１７０に出力する。

算出部１９０は、生成部１８０からフレームごとの第１の特徴ベクトルが入力されると、複数の第１の特徴ベクトルのそれぞれに対して重みを算出する。また、算出部１９０は、フレームごとの第１の特徴ベクトルと、算出した重みとにもとづいて、高次統計ベクトルを算出する。

より具体的には、重み算出部１４１は、第１生成部１２１からフレームごとの第１の特徴ベクトルを複数フレーム分並べた行列として入力されると、それぞれのフレームに対する重みを算出する。重み算出部１４１は、算出したフレームごとの重みを統計量算出部１５１に出力する。

統計量算出部１５１は、第１生成部１２１からフレームごとの第１の特徴ベクトルを複数フレーム分並べた行列として入力され、重み算出部１４１からフレームごとの重みが入力されると、重み付き平均ベクトルおよび重み付き標準偏差ベクトルを、高次統計ベクトルとして算出する。統計量算出部１５１は、算出した高次統計ベクトルを第２生成部１３１に出力する。

提示部１７０は、第２生成部１３１から第２の特徴ベクトルが入力されると、第２の特徴ベクトルに基づいて、話者認識を行う。提示部１７０は、認識結果を、例えばユーザに提示する。

なお、提示部１７０は、音声データまたは音声特徴量と第２の特徴ベクトルとに基づいて、話者認識を行ってもよい。

図４は、第１の実施形態に係る信号処理装置１の最小構成の一例を示す概略ブロック図である。

信号処理装置１は、最小構成として、例えば、生成部１８０と、算出部１９０とを少なくとも備えればよい。

生成部１８０は、時系列の音声データ、気象データ、センサデータ、テキストデータのいずれか、またはいずれかの特徴量に基づいて第１の特徴ベクトルを生成する。また、生成部１８０は、重み付き高次統計ベクトルを用いて、第２の特徴ベクトルを生成する。

算出部１９０は、第１の特徴ベクトルに対する重みを算出する。また、算出部１９０は、第１の特徴ベクトルと、重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する。

図５は、第１の実施形態に係る信号処理の一例を示すフローチャートである。

ステップＳ１００において、第１生成部１２１は、音声データまたは音声特徴量が入力されると、第１の特徴ベクトルを生成する。入力される音声特徴量は、例えば、２０次元のＭＦＣＣ（Mel-Frequency Cepstral Coefficient）や、２０次元のＭＦＣＣの時間方向の差分をとった一次や二次の動的特徴量を連結したり、連続する複数フレームの音声特徴量を連結したりして用いてもよい。また、音声データは、音声データに対して事前に平均分散正規化やＶＡＤ（Voice Activity Detection）を用いた雑音除去などの事前処理が施されていてもよい。第１生成部１２１が生成する第１の特徴ベクトルは、Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ、Ｔｉｍｅ－ＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣｏｎｖｅｎｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋなどを用いて生成されればよい。

ステップＳ１０２において、重み算出部１４１は、複数フレーム分の第１の特徴ベクトルが行列として入力されると、フレームごとの重みを算出する。重み算出部１４１は、例えば、出力が一次元のニューラルネットワーク（例えば、Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ）によりフレームごとの重みを算出する。また、重み算出部１４１は、算出した全てのフレームに対する重みを、ｓｏｆｔｍａｘ関数に入力することで、重みを正規化する。重み算出部１４１は、正規化された重みをフレームごとの重みとして、統計量算出部１５１に出力する。

ステップＳ１０４において、統計量算出部１５１は、第１の特徴ベクトルと、重みとに基づいて、式（１）および式（２）を用いて高次統計ベクトルとして、重み付き平均ベクトルおよび重み付き標準偏差ベクトルを算出する。

ここで、ｘ_ｔｉは、ｔフレーム目の第１の特徴ベクトルの第ｉ要素、α_ｔは、ｔフレーム目の重み、μ_ｉ、σ_ｉは、それぞれ重み付き平均、重み付き標準偏差の第ｉ要素を表す。

ステップＳ１０６において、第２生成部１３１は、重み算出部１４１から重み付き平均ベクトルおよび重み付き標準偏差ベクトルが入力されると、第２の特徴ベクトルを生成する。第２生成部１３１は、例えば、Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎにより、第２の特徴ベクトルを生成する。

信号処理装置１は、話者の話者認識などのクラスのクラス認識精度（クラス識別能力）が高い第２の特徴ベクトルを生成することができる。また、信号処理装置１は、このようにして生成された第２の特徴ベクトルを用いることで話者認識精度を向上させることができ、話者認識を行う際の利便性を向上させることができる。

なお、本実施形態では、第１生成装置１２０と、第２生成装置１３０と、重み算出装置１４０と、統計量算出装置１５０とのそれぞれが、異なるニューラルネットワークによって構成される場合について説明したが、これらをネットワークで接続することで、上述の信号処理装置１のように１つの大きなニューラルネットワークとみなしてもよい。

なお、ニューラルネットワークの学習時には、例えば、出力層の各ノードが各話者クラスに相当する新たなニューラルネットワークを、提示部１７０に接続してもよい。この場合には、クロスエントロピーロスなどの損失関数を使用し、誤差逆伝播法により生成部１８０（第１生成部１２１、第２生成部１３１）、算出部１９０（重み算出部１４１）が持つパラメータを学習させることができる。

なお、本実施形態では、第２の特徴ベクトルを用いて話者を識別する場合の一例について説明したが、話者が話す言語、話者の性別、話者の年齢、話者の感情などを識別してもよい。この場合、提示部１７０は、言語ラベル（言語を識別するためのモデルデータ）を予め保持し、これに基づいて損失関数を最小化するように生成部１８０（第１生成部１２１、第２生成部１３１）、算出部１９０（重み算出部１４１）に学習させればよい。話者の性別、話者の年齢、話者の感情などについても同様である。

なお、本実施形態では、重み算出部１４１に第１の特徴ベクトルを複数フレーム分並べた行列として入力する場合の一例について説明したが、重み算出部１４１は、第１生成部１２１から逐次入力される第１の特徴ベクトルに対して算出可能な重みを算出してもよい。

なお、統計量算出部１５１は、重み付き平均ベクトルおよび重み付き標準偏差ベクトルの代わりに、二次統計量である分散ベクトル、第１の特徴ベクトルの異なる要素間の相関を示す重み付き共分散ベクトルを算出してもよい。また、統計量算出部１５１は、三次統計量である重み付き歪度（ｓｋｅｗｎｅｓｓ）や四次統計量である重み付き尖度（ｋｕｒｔｏｓｉｓ）などの三次以上の高次統計ベクトルを用いてもよい。

なお、本実施形態では、音声データまたは音声特徴量を用いる場合の一例について説明したが、文章などのテキストデータ、センサ出力などのセンサデータ、気象データやそれらの特徴量を用いてもよい。

このように、本実施形態に係る信号処理システムｓｙｓは、時系列の音声データ、気象データ、センサデータ、テキストデータのいずれか、またはいずれかの特徴量に基づいて第１の特徴ベクトルを生成する第１生成部１２１と、第１の特徴ベクトルに対する重みを算出する重み算出部１４１と、第１の特徴ベクトルと、重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出部１５１と、重み付き高次統計ベクトルを用いて、第２の特徴ベクトルを生成する第２生成部１３１と、を備える。

この構成により、識別に重要なフレームに対して大きな重みを付加して第１の特徴ベクトルを生成することができるため、長時間にわたる音声データ等であっても、重要なフレームを考慮した第２の特徴ベクトルを生成することができる。このため、第２の特徴ベクトルを用いる話者認識精度を向上させることができる。また、話者の特徴が少ないフレーム（重要でないフレーム）に対する重みを低くすることができるため、認識精度を向上させることができる。これらにより、話者認識を行う際の利便性を向上させることができる。

図６は、変形例に係る信号処理システムｓｙｓ１の構成の一例を示すシステム構成図である。

信号処理システムｓｙｓ１は、第１の特徴量抽出ニューラルネットワーク１２と、第２の特徴量抽出ニューラルネットワーク１３と、重み算出ニューラルネットワーク１４と、重み付き高次統計量算出ニューラルネットワーク１５と、を含んで構成される。第１の特徴量抽出ニューラルネットワーク１２と、第２の特徴量抽出ニューラルネットワーク１３と、重み算出ニューラルネットワーク１４と、重み付き高次統計量算出ニューラルネットワーク１５と、はそれぞれニューラルネットワークで構成される。第１の特徴量抽出ニューラルネットワーク１２と、第２の特徴量抽出ニューラルネットワーク１３と、重み算出ニューラルネットワーク１４と、重み付き高次統計量算出ニューラルネットワーク１５と、は、相互にネットワークＮＷを介して接続される。

なお、第１の特徴量抽出ニューラルネットワーク１２と、第２の特徴量抽出ニューラルネットワーク１３と、重み算出ニューラルネットワーク１４と、重み付き高次統計量算出ニューラルネットワーク１５と、は１つのニューラルネットワークとして構成さてもよい。

第１の特徴量抽出ニューラルネットワーク１２は、音声データまたは音声特徴量が入力されると、上述の第１生成装置１２０や第１生成部１２１と同様に第１の特徴ベクトルを生成する。第１の特徴量抽出ニューラルネットワーク１２は、生成した第１の特徴ベクトルを、重み算出ニューラルネットワーク１４に出力する。また、第１の特徴量抽出ニューラルネットワーク１２は、生成した第１の特徴ベクトルを重み付き高次統計量算出ニューラルネットワーク１５に出力する。ここで、第１の特徴ベクトルは、例えば、短時間特徴ベクトルである。

重み算出ニューラルネットワーク１４は、第１の特徴量抽出ニューラルネットワーク１２から第１の特徴ベクトルが入力されると、上述の重み算出装置１４０や重み算出部１４１と同様にそれぞれの第1の特徴ベクトルに対する重みを算出する。重み算出ニューラルネットワーク１４は、それぞれの第1の特徴ベクトルに対する算出した重みを、重み付き高次統計量算出ニューラルネットワーク１５に出力する。

重み付き高次統計量算出ニューラルネットワーク１５は、第１の特徴量抽出ニューラルネットワーク１２から入力された第１の特徴ベクトルと、重み算出ニューラルネットワーク１４から入力された重みとに基づいて、上述の統計量算出装置１５０や統計量算出部１５１と同様に重み付き高次統計量を算出する。重み付き高次統計量算出ニューラルネットワーク１５が算出する重み付き高次統計量は、重み付き平均と、重み付き標準偏差である。重み付き高次統計量算出ニューラルネットワーク１５は、算出した重み付き平均および重み付き標準偏差を、第２の特徴量抽出ニューラルネットワーク１３に出力する。

第２の特徴量抽出ニューラルネットワーク１３は、重み付き高次統計量算出ニューラルネットワーク１５から入力された重み付き平均および重み付き標準偏差に基づいて、上述の第２生成装置１３０や第２生成部１３１と同様に第２の特徴ベクトルを生成する。

第２の特徴ベクトルは、例えば、固定次元数の長時間特徴ベクトルである。

信号処理システムｓｙｓ１は、話者認識などのクラス認識能力が高い第２の特徴ベクトルを生成することができる。また、信号処理システムｓｙｓ１は、各ニューラルネットワークを介して生成された第２の特徴ベクトルを用いて話者認識（クラス認識、クラス識別）をすることができる。また、重み付き平均および重み付き標準偏差のような高次統計量を用いて第２の特徴ベクトルを生成することで、第２の特徴ベクトルを用いた場合の話者認識精度を向上させることができる。

なお、本発明の各実施形態や各変形例における信号処理装置１、信号処理システムｓｙｓ、信号処理システムｓｙｓ１で動作するプログラムは、本発明の一態様に関わる上記の各実施形態や変形例で示した機能を実現するように、ＣＰＵ（Central Processing Unit）等を制御するプログラム（コンピュータを機能させるプログラム）であっても良い。そして、これらの各装置で取り扱われる情報は、その処理時に一時的にＲＡＭ（Random Access Memory）に蓄積され、その後、ＦｌａｓｈＲＯＭ（Read Only Memory）などの各種ＲＯＭやＨＤＤ（Hard Disk Drive）に格納され、必要に応じてＣＰＵによって読み出し、修正・書き込みが行われる。

なお、上述した各実施形態や変形例における信号処理装置１、信号処理システムｓｙｓ、信号処理システムｓｙｓ１の一部、をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。

なお、ここでいう「コンピュータシステム」とは、信号処理装置１、信号処理システムｓｙｓ、信号処理システムｓｙｓ１に内蔵されたコンピュータシステムであって、ＯＳ（Operating System）や周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ（Compact Disc）－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信回線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

また、上述した各実施形態や変形例における信号処理装置１、信号処理システムｓｙｓ、信号処理システムｓｙｓ１の一部、又は全部を典型的には集積回路であるＬＳＩ（Large-Scale Integration）として実現してもよいし、チップセットとして実現してもよい。また、上述した各実施形態や変形例における信号処理装置１、信号処理システムｓｙｓの各機能ブロックは個別にチップ化してもよいし、一部、又は全部を集積してチップ化してもよい。また、集積回路化の手法は、ＬＳＩに限らず専用回路、および／または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いることも可能である。

以上、この発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。

この出願は、２０１８年３月１５日に出願された日本出願（特願２０１８－０４８４１９）を基礎とする優先権を主張し、その開示の全てをここに取り込む。

ｓｙｓ、ｓｙｓ１信号処理システム
１２０第１生成装置
１３０第２生成装置
１４０重み算出装置
１５０統計量算出装置
１２１第１生成部
１３１第２生成部
１４１重み算出部
１５１統計量算出部
１６０受付部
１７０提示部
１８０生成部
１９０算出部
１００ＣＰＵ
１０１記憶媒体インタフェース部
１０２記憶媒体
１０３入力部
１０４出力部
１０５ＲＯＭ
１０６ＲＡＭ
１０７補助記憶部
１０８ネットワークインターフェース部
１２第１の特徴量抽出ニューラルネットワーク
１３第２の特徴量抽出ニューラルネットワーク
１４重み算出ニューラルネットワーク
１５重み付き高次統計量算出ニューラルネットワーク

Claims

話者の属性を識別するためのモデルデータを保持する保持手段と、
時系列の音声データまたは前記音声データの特徴量に基づいて第１の特徴ベクトルを生成する第１生成手段と、
前記第１の特徴ベクトルを用いて、重みを算出する重み算出手段と、
前記第１の特徴ベクトルと、前記重みとを用いて、第２の特徴ベクトルを生成する第２生成手段と、
前記第２の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、
を備え、
前記第１生成手段、前記重み算出手段及び第２生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させ、
前記第１の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出手段を更に備え、
前記第２生成手段は、前記重み付き高次統計ベクトルを用いて、前記第２の特徴ベクトルを生成する、
信号処理システム。
前記保持手段は、前記話者の話す言語を識別するためのモデルデータ、前記話者の性別を識別するためのモデルデータ、前記話者の年齢を識別するためのモデルデータ及び前記話者の感情を識別するためのモデルデータのうち少なくとも一つを保持し、
前記識別手段は、前記話者の話す言語、前記話者の性別、前記話者の年齢及び前記話者の感情のうち少なくとも一つを識別する、請求項１に記載の信号処理システム。
前記重み付き高次統計ベクトルは、重み付き標準偏差ベクトル、または重み付き分散ベクトルである、
請求項１または２に記載の信号処理システム。
前記重み付き高次統計ベクトルは、三次以上の重み付き高次統計ベクトルである、
請求項１または２に記載の信号処理システム。
前記第１生成手段と、前記重み算出手段と、前記統計量算出手段と、前記第２生成手段とは、ニューラルネットワークで構成され、それぞれが単一の損失関数に基づいて最適化される、
請求項１から４のいずれか一項に記載の信号処理システム。
前記ニューラルネットワークで構成された前記重み算出手段は、前記第１生成手段により生成された前記第１の特徴ベクトルを入力とし、前記第１の特徴ベクトルのフレームごとの重みを出力とするよう構成される、請求項５に記載の信号処理システム。
前記第１生成手段は、前記話者の特徴を有する、各時刻の短時間特徴ベクトルを前記第１の特徴ベクトルとして生成し、
前記第２生成手段は、前記話者の特徴を有する、固定次元数の長時間特徴ベクトルを前記第２の特徴ベクトルとして生成する、
請求項１から請求項６のいずれか一項に記載の信号処理システム。
話者の属性を識別するためのモデルデータを保持する保持手段と、
時系列の音声データまたは前記音声データの特徴量に基づいて第１の特徴ベクトルを生成する第１生成手段と、
前記第１の特徴ベクトルを用いて、重みを算出する重み算出手段と、
前記第１の特徴ベクトルと、前記重みとを用いて、第２の特徴ベクトルを生成する第２生成手段と、
前記第２の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、
を備え、
前記第１生成手段、前記重み算出手段及び第２生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させ、
前記第１の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出手段を更に備え、
前記第２生成手段は、前記重み付き高次統計ベクトルを用いて、前記第２の特徴ベクトルを生成する、
信号処理装置。
コンピュータが、
話者の属性を識別するためのモデルデータを取得し、
時系列の音声データまたは前記音声データの特徴量に基づいて第１の特徴ベクトルを生成し、
前記第１の特徴ベクトルを用いて、重みを算出し、
前記第１の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出し、
前記重み付き高次統計ベクトルを用いて第２の特徴ベクトルを生成し、
前記第２の特徴ベクトルに基づき、前記話者の属性を識別し、
前記第１の特徴ベクトル、前記重み、前記第２の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、
ことを含む、
信号処理方法。
コンピュータが、
話者の属性を識別するためのモデルデータを取得し、
時系列の音声データまたは前記音声データの特徴量に基づいて第１の特徴ベクトルを生成する第１生成ステップと、
前記第１の特徴ベクトルを用いて、重みを算出する重み算出ステップと、
前記第１の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出ステップと、
前記重み付き高次統計ベクトルを用いて第２の特徴ベクトルを生成する第２生成ステップと、
前記第２の特徴ベクトルに基づき、前記話者の属性を識別する識別ステップと、
を実行するためのプログラムであって、
前記第１の特徴ベクトル、前記重み、前記第２の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、プログラム。