JP7473910B2

JP7473910B2 - 話者認識装置、話者認識方法およびプログラム

Info

Publication number: JP7473910B2
Application number: JP2020058067A
Authority: JP
Inventors: 浩一浅野; 康孝浦川; 直樹柴田; 俊明深田
Original assignee: Fuetrek Co Ltd
Current assignee: Fuetrek Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2024-04-24
Anticipated expiration: 2040-03-27
Also published as: JP2021157081A

Description

本発明は、取得した音声データに基づいて話者を認識する話者認識装置、話者認識方法およびプログラムに関する。

音声による話者認識には、例えば、以下のような方法がある。まず、多数の話者の音声情報から、標準的な（平均的な）声情報を表す「背景モデル」（ＧＭＭ－ＵＢＭ（Gaussian Mixture Model - Universal Background Model）等）を生成しておく。つぎに、登録すべき人物の音声データから、背景モデルを用いて、すなわち背景モデルを登録人物の音声に適応させることで、話者モデルを生成する。話者モデルは、平均的な話者との違いを表現したモデルである。

話者を認識するときは、認識対象者の音声データから、背景モデルを用いて声の特徴量を抽出する。抽出した特徴量と登録人物の話者モデルとの類似度のうち、最大の類似度の話者モデルに対応する登録人物が、認識対象者であると判定する。

特許文献１の話者認識装置は、入力された音声について、不特定多数話者または登録話者の音声又は音声モデルを有する大規模音声データベースを用いて、ｉ－ｖｅｃｔｏｒと呼ばれる特徴量を抽出し、類似度計算部は、大規模音声データベースの不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算する。順位計算部は、入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算し、判定部は、順位計算処理で求められた順位があらかじめ定められた順位内である場合本人であると判定する。

特許文献２では、性別を区分する声紋認証処理モデルを構築することにより、声紋認証の効率及び精度を向上させる。特許文献２の声紋認証処理方法は、性別を混合した深層ニューラルネットワーク声紋ベースラインシステムを利用し、訓練集合における各音声断片の第１特徴ベクトルを抽出するステップと、各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するステップと、訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練するステップと、性別が異なるＤＮＮモデル及び訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するステップと含む。

特許文献３のユーザのアクセスを検証するシステムでは、音声登録サンプル中で話者／ユーザの音声パラメータを見出し、それをデータベースに保存することにより、複数話者／ユーザ其々に関する略固有な初期識別を提供する音声登録部を含む。システムには、複数ユーザの１人のアイデンティティを略完全に検証する音声認証部も備える。音声認証部には、音声認証サンプルを提供し、データベースと動作する認識部を含む。音声認証部にはまた、認識部及びデータベースと動作する判定部も含み、ユーザがシステムに登録したアイデンティティの人物と同じか否かを判定し、それにより複数ユーザの１人のアイデンティティを略完全に検証する。

特開２０１７－２２３８４８号公報特表２０１８－５０８７９９号公報特表２００８－５０９４３２号公報

上記技術では、標準的な声情報から話者モデルを作成するため、登録時の発話時間が短い場合には、精度の高い話者モデルを作成することができず、認識精度が低いという課題があった。例えば、先行研究（辻川美沙貴, 西川剛樹, 松井知子: "i-vectorによる短い発話の話者識別の検討", 信学技報, vol. 115, no. 99, SP2015-12, pp. 65-70, 2015年6月.）には、２秒以下の音声ではｉ－ｖｅｃｔｏｒの性能が急激に劣化することが報告されている。

本発明は、音声で話者を認識する話者認識において、登録時の発話時間長が短い場合でも高い認識精度を得ることを目的とする。

本発明の第１の観点に係る話者認識装置は、
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部と、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部と、
認識対象者の音声データを取得する音声入力部と、
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部と、
を備え、
前記認識部は、
前記音声入力部で取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成する特徴量生成部と、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出する類似度算出部と、
を含み、
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する。

本発明によれば、登録人物ごとの背景モデルから生成された話者モデルと、認識対象者の音声データから登録人物ごとの背景モデルで生成された対象特徴量との類似度を算出する。その結果、登録時（および認識対象者）の発話時間長が短い場合でも高い認識精度を得ることができる。

好ましくは、前記認識部において、前記認識対象者が前記登録人物のいずれであるかを判定することは、前記認識対象者が前記登録人物の少なくともいずれか１人以上に該当する可能性が考えられる場合に、前記認識対象者が前記登録人物のいずれかであると判定することを少なくとも含む。

好ましくは、前記認識部において、前記認識対象者が前記登録人物のいずれであるかを判定できない場合に、前記認識対象者が前記登録人物のいずれでもないと判定する。

好ましくは、前記登録人物ごとに、前記登録人物ごとの属性情報を記憶する属性記憶部と、
前記属性情報に基づいて、前記認識対象者が含まれるか否かを判定する前記登録人物の集合を部分集合に限定する限定部と、を備え、
前記認識部は、前記音声入力部で取得した音声データと、前記部分集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記部分集合に含まれる前記登録人物のいずれであるかを判定する。

好ましくは、前記属性情報は、前記登録人物ごとの行動様式を含み、
前記限定部は、前記認識対象者の音声データが取得された時刻と、前記登録人物ごとの行動様式とに基づいて、前記認識対象者が含まれるか否かを判定する前記登録人物の集合を部分集合に限定する。

好ましくは、前記認識部は、前記認識対象者が前記部分集合に含まれないと判定した場合に、前記音声入力部で取得した音声データと、前記登録人物の集合における前記部分集合の補集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記補集合に含まれる前記登録人物のいずれであるかを判定する。

本発明の第２の観点に係る話者認識方法は、
音声に基づいて認識対象者を認識する話者認識装置が行う話者認識方法であって、
認識対象者の音声データを取得する音声入力ステップと、
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部から、前記登録人物ごとの背景モデルを取得する背景取得ステップと、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部から、前記登録人物ごとの話者モデルを取得する話者モデル取得ステップと、
前記音声入力ステップで取得した音声データと、前記登録人物ごとの背景モデルおよび前記登録人物ごとの話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識ステップと、
を備え、
前記認識ステップでは、
前記音声入力ステップで取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成し、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出し、
前記算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する。

本発明の第３の観点に係るプログラムは、
コンピュータを
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部、
認識対象者の音声データを取得する音声入力部、ならびに
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部、
として機能させ、
前記認識部は、
前記音声入力部で取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成する特徴量生成部と、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出する類似度算出部と、
を含み、
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する。

本発明によれば、多数の話者の平均的な分布を基準にするのではなく、登録人物ごとの背景モデルを基準に話者モデルを作成するので、登録時の発話時間長が短い場合でも高い認識精度を得ることができる。

本発明の実施の形態１に係る話者認識装置の構成を示すブロック図実施の形態１に係る背景モデルの生成を説明する概念図実施の形態１に係る話者モデルの生成を説明する概念図実施の形態１に係る対象特徴量と話者モデルとの類似度を説明する概念図実施の形態１に係る話者認識処理の動作の一例を示すフローチャート本発明の実施の形態２に係る話者認識装置の構成を示すブロック図実施の形態２に係る属性情報の一例を示す図実施の形態２に係る話者認識処理の動作の一例を示すフローチャート実施の形態に係る話者認識装置のハードウェア構成の一例を示すブロック図

以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。

実施の形態１．
図１は、本発明の実施の形態１に係る話者認識装置の構成を示すブロック図である。話者認識装置１は、マイクロフォン２１に入力された認識対象者の音声データから特徴量を生成し、登録されている人物の話者モデルと比較して、認識対象者が登録人物のいずれであるか否かを判定する。

話者認識装置１は、音声入力部１０、認識部１１、背景モデル記憶部１２、および、話者モデル記憶部１３を備える。認識部１１は、特徴量生成部１４および類似度算出部１５を含む。背景モデル記憶部１２は、音声データから特徴量を生成するための背景モデル１６を記憶する。話者モデル記憶部１３は、認識対象者の音声データから生成された特徴量と比較する、登録人物の話者モデル１７を記憶する。

通常の背景モデルは、一般的な音声の特徴を表し、多数話者の音声からＭＦＣＣ（Mel Frequency Cepstral Coefficient）として得られる音声特徴量から作成されるＧＭＭ－ＵＢＭ（Gaussian Mixture Model - Universal Background Model）である。通常、話者モデルは、背景モデルを話者の音声データに適応させ、その統計量からｉ－ｖｅｃｔｏｒ、ＬＤＡという手法を用いて作成される。本発明の実施の形態では、登録人物ごとに、登録人物それぞれの音声データから背景モデルを生成する。そして、登録人物ごとに、登録人物の音声と該登録人物の背景モデルとから、話者モデルを算出する。

図２は、実施の形態１に係る背景モデルの生成を説明する概念図である。ここで登録人物がＡ、Ｂ、Ｃ、．．．Ｎであったとして、例えば登録人物Ａの音声から、背景モデルとして前述のＧＭＭ－ＵＢＭを生成する。登録人物Ａの音声には、背景モデルを生成するのに十分な量の音声データを用いる。ここで、登録人物Ａのみの音声から生成された背景モデルであることをＧＭＭ－ＵＢＭ｜Ａと表す。

同様にして、すべての登録人物について、登録人物Ｂの背景モデル＝ＧＭＭ－ＵＢＭ｜Ｂ、登録人物Ｃの背景モデル＝ＧＭＭ－ＵＢＭ｜Ｃ等々、登録人物Ｎの背景モデル＝ＧＭＭ－ＵＢＭ｜Ｎまでを生成する。生成した背景モデル＝ＧＭＭ－ＵＢＭ｜Ｘ（Ｘ∈｛Ａ，Ｂ，Ｃ，．．．，Ｎ｝）を、背景モデル１６として、背景モデル記憶部１２に記憶させておく。

図３は、実施の形態１に係る話者モデルの生成を説明する概念図である。実施の形態では、登録人物Ｘ（Ｘ∈｛Ａ，Ｂ，Ｃ，．．．，Ｎ｝）ごとの背景モデル＝ＧＭＭ－ＵＢＭ｜Ｘを、登録人物Ｘの登録音声データに適応させ、話者モデルを算出する。ここで、登録人物Ｘの音声モデルを、登録人物Ｘの背景モデル＝ＧＭＭ－ＵＢＭ｜Ｘを用いて算出されたモデルとして、話者Ｘモデル｜Ｘで表す。算出した話者Ｘモデル｜Ｘを、話者モデル１７として、話者モデル記憶部１３に記憶させておく。

話者認識装置１の特徴量生成部１４は、音声入力部１０で取得した認識対象者の音声データと、登録人物Ｘ（Ｘ∈｛Ａ，Ｂ，Ｃ，．．．，Ｎ｝）ごとの背景モデル＝ＧＭＭ－ＵＢＭ｜Ｘとから、背景モデルごとに音声データの特徴量である対象特徴量を生成する。ここで、背景モデル＝ＧＭＭ－ＵＢＭ｜Ｘから生成された特徴量であることを、対象特徴量｜Ｘで表す。

図４は、実施の形態１に係る対象特徴量と話者モデルとの類似度を説明する概念図である。話者認識装置１の類似度算出部１５は、登録人物Ｘ（Ｘ∈｛Ａ，Ｂ，Ｃ，．．．，Ｎ｝）ごとの背景モデル＝ＧＭＭ－ＵＢＭ｜Ｘから生成された対象特徴量｜Ｘと、話者Ｘモデル｜Ｘとの類似度を算出する。類似度の算出は、例えば、ユークリッド距離、コサイン距離、マハラノビス距離、ＰＬＤＡなどの方法により行う。対象特徴量｜Ｘと話者Ｘモデル｜Ｘとの類似度を、類似度｜Ｘ（Ｘ∈｛Ａ，Ｂ，Ｃ，．．．，Ｎ｝）で表す。

話者認識装置１の認識部１１は、類似度｜Ｘ（Ｘ∈｛Ａ，Ｂ，Ｃ，．．．，Ｎ｝）を用いて、認識対象者が登録人物のいずれであるかを判定する。認識部１１は例えば、類似度｜Ｘのうちの最大値Ｍを選択し、最大値Ｍと基準の閾値を比較する。最大値Ｍが閾値以上であれば、認識対象者は、最大値Ｍの類似度｜Ｘに対応する登録人物Ｘであると判定する。話者認識装置１は、判定結果を出力する。他の機器は、判定結果を用いて認識対象者に応じた制御を行うことができる。例えば、ドアの施錠／解錠を制御する解錠制御装置は、認識対象者が登録人物のいずれかであればドアを解錠し、認識対象者が登録人物のいずれでもなければドアを施錠したままにする。

このように、例えば、認識対象者が登録人物の少なくともいずれか１人以上に該当する可能性が考えられる場合に、認識対象者が登録人物のいずれかであると判定する（例えば、類似度｜Ｘが閾値以上となるようなＸが少なくとも１以上ある場合に、認識対象者がそれらの登録人物Ｘのいずれかであると判定する）ことによって、認識対象者が登録人物のいずれであるかを判定するようにしてもよい。また、認識対象者が登録人物のいずれであるかを判定できない場合に（例えば、いずれのＸについても類似度｜Ｘが閾値未満である場合など）、認識対象者が登録人物のいずれでもないと判定するようにしてもよい。

図５は、実施の形態１に係る話者認識処理の動作の一例を示すフローチャートである。話者認識装置１は、認識対象者が登録人物の集合に含まれる登録人物のいずれであるかの判定を求められたときに、話者認証処理を起動する。例えば、人感知センサでドアの前に人物が居ることを感知したとき、あるいは、認証対象者が解錠するためにスイッチを押下したときに、話者認証処理を起動する。

話者認識装置１の音声入力部１０は、マイク２１から入力された認証対象者の音声データを取得する（ステップＳ１０）。話者認証装置１の特徴量生成部１４は、登録人物を指定する変数ｉを初期化し（ステップＳ１１）、変数ｉで指定される登録人物ｉの背景データＧＭＭ－ＵＢＭ｜ｉを用いて、音声データの対象特徴量｜ｉを生成する（ステップＳ１２）。特徴量算出部１５は、対象特徴量｜ｉと話者ｉモデル｜ｉとの類似度｜ｉを算出する（ステップＳ１３）。

特徴量生成部１４は、変数ｉをインクリメントし（ステップＳ１４）、変数ｉが登録人物の数Ｎを超えたか否かを判断する（ステップＳ１５）。変数ｉが数Ｎを超えていなければ（ステップＳ１５；Ｎ）、すなわち、対象特徴量｜Ｘを生成していない背景データ｜Ｘが残っていれば、ステップＳ１２に戻って、対象特徴量｜ｉの生成から繰り返す。

変数ｉが数Ｎを超えていれば（ステップＳ１５；Ｙ）、すなわち、特徴量生成部１４がすべての背景データＧＭＭ－ＵＢＭ｜Ｘについて対象特徴量｜Ｘを生成したら、認識部１１は、類似度｜ｉ（ｉ＝１～Ｎ）のうちの最大値Ｍを選択する（ステップＳ１６）。認識部１１は、最大値Ｍが閾値以上であるか否かを判定する（ステップＳ１７）。最大値Ｍが閾値以上であれば（ステップＳ１７；Ｙ）、認識部１１は、認証対象者は最大値Ｍに対応する背景データおよび話者モデルの登録人物Ｍであると判定して（ステップＳ１８）、処理を終了する。最大値Ｍが閾値未満であれば（ステップＳ１７；Ｎ）、認識部１１は、認証対象者は登録人物の集合に含まれないと判定して（ステップＳ１９）、処理を終了する。

以上説明したように、実施の形態１の話者認識装置１は、登録人物ごとの背景モデルから生成された話者モデルと、認識対象者の音声データから登録人物ごとの背景モデルで生成された対象特徴量との類似度を算出する。話者認識装置１では、認識対象者が登録人物ｉであった場合の音声データについて、背景データＧＭＭ－ＵＢＭ｜ｉで生成した対象特徴量｜ｉと、背景データＧＭＭ－ＵＢＭ｜ｊ（ｊ≠ｉ）で生成した対象特徴量｜ｊとの差が大きく現れる。そして、認識対象者が登録人物の集合に含まれない場合は、いずれの対象特徴量｜ｉも、すべての登録人物Ｘの話者Ｘモデル｜Ｘとの差が大きい。すなわちいずれの類似度｜ｉも小さい。その結果、登録時（および認識対象者）の発話時間長が短い場合でも高い認識精度を得ることができる。なお、特定の登録人物のみの音声データから背景モデルを生成する場合に限らず、登録人物の音声データと少量の他の人物の音声データとから背景モデルを生成する場合などにおいても、背景モデルが特定の登録人物の音声の特徴を十分に表現するものである限り、同様の効果が期待できる。

実施の形態２．
図６は、本発明の実施の形態２に係る話者認識装置の構成を示すブロック図である。実施の形態２の話者認識装置１は、実施の形態１の構成に加えて、限定部１８および属性記憶部１９を備える。限定部１８は、属性記憶部１９に記憶されている登録人物ごとの属性情報２０に基づいて、認識対象者がいずれであるかを判定する登録人物の集合を部分集合に限定する。認証部１１は、認識対象者が限定された部分集合に含まれる登録人物のいずれであるかを判定する。その他の構成は、実施の形態１と同様である。

属性記憶部１９は、登録人物ごとの属性情報を、属性情報２０として記憶する。登録人物の属性情報は、例えば、性別、年代、言語（母語）、身長、体格の類型、顔輪郭の類型、発話音声の基本周波数、などである。話者認識装置１は、例えば、認識対象者の画像または音声から認識対象者の属性を把握し、限定部１８は、登録人物の集合から、認識対象者の属性と同じ属性を有する登録人物の部分集合に限定する。

図７は、実施の形態２に係る属性情報の一例を示す図である。実施の形態２では、登録人物ごとの属性情報として、登録人物ごとの行動様式の一種である入場時刻の分布を想定する。図７は、登録人物ごとの行動様式として、周期的な期間、例えば、一日のうちの入場時刻の分布を示す。登録人物ごとの属性情報として、例えば、登録人物の入場時刻の分布の平均値と標準偏差を、属性記憶部１９に記憶させておく。

限定部１８は、認識対象者の音声データを取得した、すなわち認識対象者が音声を入力した時刻から、登録人物の部分集合に含まれる登録人物を選択する。例えば、音声データ取得時刻が、平均値±標準偏差×ｎ（ｎ＝１～３）の範囲に入る登録人物を部分集合に含める。図７では、例えば、登録人物Ａと登録人物Ｂは部分集合に含まれ、登録人物Ｃおよび登録人物Ｎは、部分集合に含まれない。

認識部１１は、認識対象者が限定部１８で限定された部分集合に含まれる登録人物のいずれであるかを判定する。すなわち、認識対象者の音声データから、部分集合に含まれる登録人物Ｘごとの背景データＧＭＭ－ＵＢＭ｜Ｘで対象特徴量｜Ｘを生成し、登録人物の話者Ｘデータ｜Ｘとの類似度を算出する。認識部１１は、部分集合に含まれる登録人物Ｘごとの類似度｜Ｘのうちの最大値が閾値以上であれば、認識対象者は、部分集合に含まれる登録人物のうちの最大値に対応する登録人物であると判定する。部分集合に含まれる登録人物Ｘごとの類似度｜Ｘのうちの最大値が閾値未満であれば、認識部１１は、認識対象者が部分集合に含まれないと判定する。

認識部１１は、認識対象者が部分集合に含まれないと判定した場合、登録人物の集合における部分集合の補集合に含まれる登録人物を選択し、認識対象者が補集合に含まれる登録人物のいずれであるかを判定する。認識対象者が登録人物である場合、認識対象者が最初に限定した部分集合に含まれる登録人物のいずれかである蓋然性は、認識対象者が補集合に含まれる登録人物のいずれかである蓋然性より大きいので、認識対象者が登録人物であると判定されるまでの演算時間の期待値（平均値）は、実施の形態１の演算時間より短くなる。

属性情報が行動様式の場合、認識対象者が補集合に含まれる登録人物のいずれかである可能性を排除できないので、認識対象者が部分集合に含まれない場合に正しく判定するためには、補集合に関する演算が必要である。属性情報の分類によって、認識対象者が補集合に含まれる登録人物のいずれかである可能性が極めて小さければ、認識対象者が部分集合に含まれないと判定した場合に、補集合に関する演算を省略して、認識対象者は登録人物の集合に含まれないと判定することも可能である。

例えば、性別、または、身長もしくは発話音声の基本周波数の層別では、認識対象者の分類を間違える可能性は極めて小さいと考えられ、補集合に関する演算を省略しても、判定の誤差は極めて小さいことが期待できる。

行動様式としての入場時刻の分布は、日または期間によって変化してもよい。例えば、話者認識装置１がカレンダー機能を備え、曜日および休日によって異なる分布としてもよい。その場合、日によって属性情報で部分集合に限定する場合と、部分集合に限定せず実施の形態１のように登録人物の集合全体で演算する場合を混合してもよい。また、スケジュール管理装置と連動して、または、スケジュール管理装置から予定情報をダウンロードして、登録人物の予定に合わせて、入場時刻の分布を変化させてもよい。

なお、部分集合と補集合の２段階だけでなく、３段階以上に分けて演算してもよい。例えば、属性情報が入場時刻の分布の場合、音声データ取得時刻が平均値±標準偏差の範囲に入る登録人物を第１部分集合に含める。認識対象者が第１部分集合に含まれないと判定した場合、第１部分集合の補集合に含まれる登録人物のうち、音声データ取得時刻が平均値±標準偏差×２の範囲に入る人物を第２部分集合として、認識対象者が第２部分集合に含まれる登録人物のいずれであるかを判定する。さらに、認識対象者が第２部分集合に含まれないと判定した場合に、残りの登録人物のうち、音声データ取得時刻が平均値±標準偏差×３の範囲に入る登録人物を第３部分集合として、認識対象者が第３部分集合に含まれる登録人物のいずれであるかを判定する。そして、認識対象者が第３部分集合にも含まれないと判定した場合に、第１から第３部分集合に含まれない登録人物を補集合として、認識対象者が補集合に含まれる登録人物のいずれであるかを判定する。このようにすれば、認識対象者が登録人物の集合に含まれる場合に、認識対象者が登録人物のいずれかであると判定されるまでの演算時間の期待値（平均値）を、さらに短くできる。

図８は、実施の形態２に係る話者認識処理の動作の一例を示すフローチャートである。実施の形態２の話者認識処理では、登録人物の集合を部分集合に限定することを除いて、部分集合に関する演算および補集合に関する演算は、実施の形態１の登録人物の集合に関する演算とほぼ同じである。

前述のように話者認証処理が起動されると、話者認識装置１の音声入力部１０は、マイク２１から入力された認証対象者の音声データを取得する（ステップＳ２０）。話者認証装置１の限定部１８は、属性記憶部１９に記憶されている属性情報２０を参照して、登録人物の集合Σ：｛Ａ，Ｂ，．．．，Ｎ｝から部分集合φ：｛ａ，ｂ，．．．，ｍ｝に限定する（ステップＳ２１）。

特徴量生成部１４は、部分集合φのうちの登録人物を指定する変数ｊを初期化し（ステップＳ２２）、変数ｊで指定される登録人物ｊの背景データＧＭＭ－ＵＢＭ｜ｊを用いて、音声データの対象特徴量｜ｊを生成する（ステップＳ２３）。特徴量算出部１５は、対象特徴量｜ｊと話者ｊモデル｜ｊとの類似度｜ｊを算出する（ステップＳ２４）。

特徴量生成部１４は、変数ｊをインクリメントし（ステップＳ２５）、変数ｊが部分集合φに含まれる登録人物の数ｍを超えたか否かを判断する（ステップＳ２６）。変数ｊが数ｍを超えていなければ（ステップＳ２６；Ｎ）、すなわち、対象特徴量｜Ｘを生成していない背景データ｜Ｘが残っていれば、ステップＳ２３に戻って、対象特徴量｜ｊの生成から繰り返す。

変数ｊが数ｍを超えていれば（ステップＳ２６；Ｙ）、すなわち、特徴量生成部１４が部分集合φに含まれるすべての登録人物Ｘの背景データＧＭＭ－ＵＢＭ｜Ｘについて対象特徴量｜Ｘを生成したら、認識部１１は、類似度｜ｊ（ｊ＝１～ｍ）のうちの最大値Ｍを選択する（ステップＳ２７）。認識部１１は、最大値Ｍが閾値以上であるか否かを判定する（ステップＳ２８）。最大値Ｍが閾値以上であれば（ステップＳ２８；Ｙ）、認識部１１は、認証対象者は最大値Ｍに対応する背景データおよび話者モデルの登録人物Ｍであると判定して（ステップＳ２９）、処理を終了する。

最大値Ｍが閾値未満であれば（ステップＳ２８；Ｎ）、認識部１１は、認証対象者は登録人物の部分集合φに含まれないと判定し、集合Σにおける部分集合φの補集合ψ：｛ｐ，ｑ，．．．，ｗ｝を選択する（ステップＳ３０）。

特徴量生成部１４は、補集合ψのうちの登録人物を指定する変数ｋを初期化し（ステップＳ３１）、変数ｋで指定される登録人物ｋの背景データＧＭＭ－ＵＢＭ｜ｋを用いて、音声データの対象特徴量｜ｋを生成する（ステップＳ３２）。特徴量算出部１５は、対象特徴量｜ｋと話者ｋモデル｜ｋとの類似度｜ｋを算出する（ステップＳ３３）。

特徴量生成部１４は、変数ｋをインクリメントし（ステップＳ３４）、変数ｋが補集合ψに含まれる登録人物の数ｎを超えたか否かを判断する（ステップＳ３５）。変数ｋが数ｎを超えていなければ（ステップＳ３５；Ｎ）、すなわち、対象特徴量｜Ｘを生成していない背景データ｜Ｘが残っていれば、ステップＳ３２に戻って、対象特徴量｜ｋの生成から繰り返す。

変数ｋが数ｎを超えていれば（ステップＳ３５；Ｙ）、すなわち、特徴量生成部１４が補集合ψに含まれるすべての登録人物Ｘの背景データＧＭＭ－ＵＢＭ｜Ｘについて対象特徴量｜Ｘを生成したら、認識部１１は、類似度｜ｋ（ｊ＝１～ｎ）のうちの最大値Ｒを選択する（ステップＳ３６）。認識部１１は、最大値Ｒが閾値以上であるか否かを判定する（ステップＳ３７）。最大値Ｒが閾値以上であれば（ステップＳ３７；Ｙ）、認識部１１は、認証対象者は最大値Ｒに対応する背景データおよび話者モデルの登録人物Ｒであると判定して（ステップＳ３８）、処理を終了する。最大値Ｒが閾値未満であれば（ステップＳ３７；Ｎ）、認識部１１は、認証対象者は登録人物の集合Σに含まれないと判定して（ステップＳ３９）、処理を終了する。

部分集合と補集合の２段階だけでなく、３段階以上の場合には、第２部分集合および第３部分集合等に関して、ステップＳ３０からステップＳ３８と同様の処理を行う。

以上説明したように、実施の形態２の話者認識装置１は、登録人物ごとの属性情報２０に基づいて、認識対象者がいずれであるかを判定する登録人物の集合を部分集合に限定し、認識対象者が部分集合に含まれる登録人物のいずれであるかを判定する。その結果、認識対象者が登録人物である場合に、認識対象者が登録人物であると判定されるまでの演算時間の期待値（平均値）は、実施の形態１の演算時間より短くなる。

図９は、実施の形態に係る話者認識装置のハードウェア構成の一例を示すブロック図である。話者認識装置１は、図９に示すように、制御部４１、主記憶部４２、外部記憶部４３、操作部４４、表示部４５、入出力部４６および送受信部４７を備える。主記憶部４２、外部記憶部４３、操作部４４、表示部４５、入出力部４６および送受信部４７はいずれも内部バス４０を介して制御部４１に接続されている。

制御部４１はＣＰＵ（Central Processing Unit）等から構成され、外部記憶部４３に記憶されている制御プログラム５０に従って、話者認識装置１の音声入力部１０、認識部１１、および限定部１８の各処理を実行する。

主記憶部４２はＲＡＭ（Random-Access Memory）等から構成され、外部記憶部４３に記憶されている制御プログラム５０をロードし、制御部４１の作業領域として用いられる。

外部記憶部４３は、フラッシュメモリ、ハードディスク、ＤＶＤ－ＲＡＭ（Digital Versatile Disc Random-Access Memory）、ＤＶＤ－ＲＷ（Digital Versatile Disc ReWritable）等の不揮発性メモリから構成され、話者認識装置１の処理を制御部４１に行わせるためのプログラムならびに背景モデル１６、話者モデル１７および属性情報２０の各データを予め記憶し、また、制御部４１の指示に従って、このプログラムが記憶するデータを制御部４１に供給し、制御部４１から供給されたデータを記憶する。

操作部４４はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス４０に接続するインタフェース装置から構成されている。操作部４４を介して、背景モデル１６、話者モデル１７および属性情報２０の記憶、記憶された背景モデル１６、話者モデル１７および属性情報２０の表示または消去などが入力され、制御部４１に供給される。

表示部４５は、ＬＣＤ（Liquid Crystal Display）または有機ＥＬディスプレイなどから構成され、背景モデル１６、話者モデル１７および属性情報２０を表示する。

入出力部４６は、シリアルインタフェースまたはパラレルインタフェースから構成されている。入出力部４６にマイク２１が接続され、制御部４１は入出力部４６を介して認識対象者の音声データを取得する。また入出力部４６は、撮像装置（図示せず）が接続され、認識対象者の画像データを取得する。

送受信部４７は、ネットワークに接続する網終端装置または無線通信装置、およびそれらと接続するシリアルインタフェースまたはＬＡＮ（Local Area Network）インタフェースから構成されている。送受信部４７は、ネットワークを介して、例えば、背景モデル１６、話者モデル１７および属性情報２０の更新、または、制御プログラムのダウンロードを行う。話者認識装置１は、送受信部４７を介して、話者認識処理の判定結果を他の機器に送信する。

図１に示す話者認識装置１の音声入力部１０、認識部１１、および限定部１８の処理は、制御プログラム５０が、制御部４１、主記憶部４２、外部記憶部４３、操作部４４、表示部４５、入出力部４６および送受信部４７などを資源として用いて処理することによって実行する。

なお、各実施の形態で説明した話者認識装置１の構成は一例であり、任意に変更および修正が可能である。話者認識装置１の構成は、実施の形態で示したものがすべてではなく、これらに限定されるものではない。例えば、スマートフォンまたはタブレット端末を話者認識装置１として用いてもよい。また、ネットワーク上に話者認識装置１を設置して、ネットワークを介して話者認識装置１の機能を提供してもよい。

その他、前記のハードウェア構成やフローチャートは一例であり、任意に変更および修正が可能である。

音声入力部１０、認識部１１、限定部１８、背景モデル記憶部１２、話者モデル記憶部１３および、属性記憶部１９等から構成される話者認識装置１の話者認識処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読みとり可能な記録媒体（ＵＳＢメモリ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する話者認識装置１を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで話者認識装置１を構成してもよい。

また、話者認識装置１を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

１話者認識装置
１０音声入力部
１１認識部
１２背景モデル記憶部
１３話者モデル記憶部
１４特徴量生成部
１５類似度算出部
１６背景モデル
１７話者モデル
１８限定部
１９属性記憶部
２０属性情報

Claims

登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部と、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部と、
認識対象者の音声データを取得する音声入力部と、
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部と、
を備え、
前記認識部は、
前記音声入力部で取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成する特徴量生成部と、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出する類似度算出部と、
を含み、
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する、
話者認識装置。
前記認識部において、前記認識対象者が前記登録人物のいずれであるかを判定することは、前記認識対象者が前記登録人物の少なくともいずれか１人以上に該当する可能性が考えられる場合に、前記認識対象者が前記登録人物のいずれかであると判定することを少なくとも含む、請求項１に記載の話者認識装置。
前記認識部において、前記認識対象者が前記登録人物のいずれであるかを判定できない場合に、前記認識対象者が前記登録人物のいずれでもないと判定する、請求項１または２に記載の話者認識装置。
前記登録人物ごとに、前記登録人物ごとの属性情報を記憶する属性記憶部と、
前記属性情報に基づいて、前記認識対象者が含まれるか否かを判定する前記登録人物の集合を部分集合に限定する限定部と、を備え、
前記認識部は、前記音声入力部で取得した音声データと、前記部分集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記部分集合に含まれる前記登録人物のいずれであるかを判定する、請求項１から３のいずれか１項に記載の話者認識装置。
前記属性情報は、前記登録人物ごとの行動様式を含み、
前記限定部は、前記認識対象者の音声データが取得された時刻と、前記登録人物ごとの行動様式とに基づいて、前記認識対象者がいずれであるかを判定する前記登録人物の集合を部分集合に限定する、請求項４に記載の話者認識装置。
前記認識部は、前記認識対象者が前記部分集合に含まれないと判定した場合に、前記音声入力部で取得した音声データと、前記登録人物の集合における前記部分集合の補集合に含まれる前記登録人物の前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記補集合に含まれる前記登録人物のいずれであるかを判定する、請求項４または５に記載の話者認識装置。
音声に基づいて認識対象者を認識する話者認識装置が行う話者認識方法であって、
認識対象者の音声データを取得する音声入力ステップと、
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部から、前記登録人物ごとの背景モデルを取得する背景取得ステップと、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部から、前記登録人物ごとの話者モデルを取得する話者モデル取得ステップと、
前記音声入力ステップで取得した音声データと、前記登録人物ごとの背景モデルおよび前記登録人物ごとの話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識ステップと、
を備え、
前記認識ステップでは、
前記音声入力ステップで取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成し、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出し、
前記算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する、
話者認識方法。
コンピュータを
登録人物ごとに、前記登録人物それぞれの音声データから生成された前記登録人物ごとの背景モデルを記憶する背景モデル記憶部、
前記登録人物ごとに、前記登録人物の音声と、該登録人物の前記背景モデルとから算出された話者モデルを記憶する話者モデル記憶部、
認識対象者の音声データを取得する音声入力部、ならびに
前記音声入力部で取得した音声データと、前記背景モデルおよび前記話者モデルとから、前記認識対象者が前記登録人物のいずれであるかを判定する認識部、
として機能させ、
前記認識部は、
前記音声入力部で取得した音声データと、前記背景モデルそれぞれとから、前記背景モデルごとの前記音声データの特徴量である対象特徴量を生成する特徴量生成部と、
前記背景モデルごとの前記対象特徴量と、該背景モデルに対応する前記話者モデルとの類似度を算出する類似度算出部と、
を含み、
前記類似度算出部で算出した類似度の最大値が所定の値以上である場合に、前記認識対象者が、前記最大値の類似度に対応する話者モデルの登録人物であると判定する、
プログラム。