JP2016206660A

JP2016206660A - 話者識別方法及び話者識別装置

Info

Publication number: JP2016206660A
Application number: JP2016079449A
Authority: JP
Inventors: 美沙貴辻川; Misaki Tsujikawa; 松井　知子; Tomoko Matsui; 知子松井
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2015-04-22
Filing date: 2016-04-12
Publication date: 2016-12-08
Anticipated expiration: 2036-04-12
Also published as: US20160314790A1; US9947324B2; JP6596376B2

Abstract

【課題】識別対象である話者の話者モデルが作成されていない場合であっても、より高い精度で話者を識別する。
【解決手段】第１の類似度算出部１４は、複数の第１の話者のそれぞれの音声信号における特徴量と、複数の不特定話者の複数の不特定話者モデルにおける各特徴量との第１の類似度をそれぞれ算出し、モデル特定部１５は、第１の類似度が所定の値以上である複数の不特定話者モデルを特定し、第２の話者モデル格納部１６は、複数の第１の話者のそれぞれと、特定された複数の不特定話者モデルとを対応付けて記憶し、第２の類似度算出部１８は、第２の話者の音声信号における特徴量と、第２の話者モデル格納部１６に記憶されており、第１の話者に対応付けられている複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を複数の第１の話者毎にそれぞれ算出し、話者識別部１９は、複数の第２の類似度に基づいて、第２の話者に対応する複数の第１の話者の中の一人を特定する。
【選択図】図１

Description

本開示は、取得した音声信号に基づいて話者を識別する話者識別方法及び話者識別装置に関するものである。

話者識別において、一般的に、予め本人の音声を収集し、学習してモデルを生成する手法がある。また、音声認識においては，話者適応として他者の音声を利用する手法がある。

例えば、特許文献１に示す音声辞書作成方法は、新規登録ユーザの音声データを取り込んでその特徴を抽出し、予め性別、年代、声の高低等の音声の特徴要因別に作成された複数の不特定話者音声辞書の中から前記抽出された特徴に最も近い不特定話者音声辞書を選択し、選択された不特定話者音声辞書を新規登録ユーザの音声データに基づいて適応化することで新規登録ユーザの個人用音声辞書を作成している。

また、例えば、特許文献２に示す音声認識装置における話者適応化方法は、全認識対象語彙について復数話者の発声で構成された初期標準パターンセット内の各音声パターンと利用者の音声パターンとの距離情報により、各語彙ごとに標準パターンセット内から該利用者の音声パターンに近接する１個または複数の音声パターンを選択し、これらを該利用者の標準パターンセットとしている。

特開平１１−３４４９９２号公報特開平１−１６１３９９号公報

従来の話者識別では、識別対象である話者の発話が少ない場合、データ量が不十分であるため、学習により最適な話者モデルを作成することができず、話者を識別する精度が低下するという課題がある。

特許文献１では、語彙を限定しない話者識別では、語彙の違い及び発話文の短さなどにより照合スコアが大きく変動し、話者識別の精度が低下するおそれがある。

また、特許文献２では、複数のパターンに対してそれぞれ距離を算出するのみであり、最も距離が小さい単語が認識用入力音声の認識結果として判別される。そのため、未知の語彙の音声が入力された場合、音声認識の精度が低下するおそれがある。

本開示は、上記の問題を解決するためになされたもので、識別対象である話者の話者モデルが作成されていない場合であっても、より高い精度で話者を識別することができる話者識別方法及び話者識別装置を提供することを目的とするものである。

本開示の一局面に係る話者識別方法は、複数の不特定話者と、前記複数の不特定話者の音声の特徴をモデル化した複数の不特定話者モデルとを対応付けて記憶する第１のデータベースを用いて、前記第１のデータベースに記憶されていない複数の第１の話者と、前記複数の不特定話者モデルとを対応付けて記憶する第２のデータベースを作成する学習モード処理と、前記第２のデータベースを用いて、第２の話者を識別する識別モード処理とを含み、前記学習モード処理において、前記複数の第１の話者のそれぞれの音声信号を取得し、取得された前記複数の第１の話者のそれぞれの前記音声信号における特徴量と、前記第１のデータベースに記憶されている前記複数の不特定話者モデルにおける各特徴量との第１の類似度をそれぞれ算出し、算出された前記第１の類似度が所定の値以上である複数の不特定話者モデルを特定し、前記複数の第１の話者のそれぞれと、特定された前記複数の不特定話者モデルとを対応付けて前記第２のデータベースに記憶し、前記識別モード処理において、前記第２の話者の音声信号を取得し、取得された前記第２の話者の前記音声信号における特徴量と、前記第２のデータベースに記憶されており、前記第１の話者に対応付けられている前記複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を前記複数の第１の話者毎にそれぞれ算出し、算出された前記複数の第２の類似度に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する。

本開示によれば、識別対象である話者の話者モデルが作成されていない場合であっても、より高い精度で話者を識別することができる。

図１は、本実施の形態１における話者識別装置の構成を示す図である。図２は、本実施の形態１における話者識別装置の学習モード処理の動作について説明するためのフローチャートである。図３は、本実施の形態１における話者識別装置の識別モード処理の動作について説明するためのフローチャートである。図４は、本実施の形態１における話者識別装置の学習モード処理の具体的な処理の一例を説明するための模式図である。図５は、本実施の形態１における話者識別装置の識別モード処理の具体的な処理の一例を説明するための模式図である。図６は、本実施の形態１の第１の変形例における話者識別装置の識別モード処理の具体的な処理の一例を説明するための模式図である。図７は、本実施の形態１の第２の変形例における話者識別装置の識別モード処理の具体的な処理の一例を説明するための模式図である。図８は、本実施の形態１の第３の変形例における話者識別装置の識別モード処理の具体的な処理の一例を説明するための模式図である。図９は、本実施の形態２における話者識別装置の構成を示す図である。図１０は、本実施の形態２における話者識別装置の学習モード処理の動作について説明するためのフローチャートである。図１１は、本実施の形態２における話者識別装置の識別モード処理の動作について説明するためのフローチャートである。図１２は、本実施の形態２における話者識別装置の学習モード処理の具体的な処理の一例を説明するための模式図である。図１３は、本実施の形態３における話者識別装置の構成を示す図である。図１４は、本実施の形態３における話者識別装置の学習モード処理の動作について説明するためのフローチャートである。図１５は、本実施の形態３における話者識別装置の識別モード処理の動作について説明するためのフローチャートである。

本開示の一局面に係る話者識別方法は、複数の不特定話者と、前記複数の不特定話者の音声の特徴をモデル化した複数の不特定話者モデルとを対応付けて記憶する第１のデータベースを用いて、前記第１のデータベースに記憶されていない複数の第１の話者と、前記複数の不特定話者モデルとを対応付けて記憶する第２のデータベースを作成する学習モード処理と、前記第２のデータベースを用いて、第２の話者を識別する識別モード処理とを含み、前記学習モード処理において、前記複数の第１の話者のそれぞれの音声信号を取得し、取得された前記複数の第１の話者のそれぞれの前記音声信号における特徴量と、前記第１のデータベースに記憶されている前記複数の不特定話者モデルにおける各特徴量との第１の類似度をそれぞれ算出し、算出された前記第１の類似度が所定の値以上である複数の不特定話者モデルを特定し、前記複数の第１の話者のそれぞれと、特定された前記複数の不特定話者モデルとを対応付けて前記第２のデータベースに記憶し、前記識別モード処理において、前記第２の話者の音声信号を取得し、取得された前記第２の話者の前記音声信号における特徴量と、前記第２のデータベースに記憶されており、前記第１の話者に対応付けられている前記複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を前記第１の話者毎にそれぞれ算出し、算出された前記複数の第２の類似度に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する。

この構成によれば、学習モード処理において、複数の第１の話者のそれぞれの音声信号が取得される。取得された複数の第１の話者のそれぞれの音声信号における特徴量と、第１のデータベースに記憶されている複数の不特定話者モデルにおける各特徴量との第１の類似度がそれぞれ算出される。算出された第１の類似度が所定の値以上である複数の不特定話者モデルが特定される。複数の第１の話者のそれぞれと、特定された複数の不特定話者モデルとが対応付けられて第２のデータベースに記憶される。識別モード処理において、第２の話者の音声信号が取得される。取得された第２の話者の音声信号における特徴量と、第２のデータベースに記憶されており、第１の話者に対応付けられている複数の不特定話者モデルにおける各特徴量との複数の第２の類似度が第１の話者毎にそれぞれ算出される。算出された複数の第２の類似度に基づいて、第２の話者に対応する第２のデータベースに記憶されている複数の第１の話者の中の一人が特定される。

したがって、第１の話者の音声信号に類似する複数の不特定話者の話者モデルを用いて、第２の話者が識別されるので、識別対象である話者の話者モデルが作成されていない場合であっても、より高い精度で話者を識別することができる。

また、上記の話者識別方法において、算出された前記複数の第２の類似度を合計した合計値を前記第１の話者毎に算出し、算出した前記合計値に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定してもよい。

この構成によれば、算出された複数の第２の類似度を合計した合計値が第１の話者毎に算出され、算出された合計値に基づいて、第２の話者に対応する第２のデータベースに記憶されている複数の第１の話者の中の一人が特定される。

したがって、複数の第２の類似度を合計した合計値に基づいて第２の話者が特定されるので、語彙の違い及び発話文の短さなどによる第２の類似度の変動を抑えることができ、より高い精度で話者を識別することができる。

また、上記の話者識別方法において、算出された前記複数の第２の類似度のそれぞれに前記第１の類似度の順位に応じた重み付け値を乗算することにより前記複数の第２の類似度を補正し、補正した前記複数の第２の類似度を合計した合計値を前記第１の話者毎に算出し、算出した前記合計値に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定してもよい。

この構成によれば、算出された複数の第２の類似度のそれぞれに第１の類似度の順位に応じた重み付け値が乗算されることにより複数の第２の類似度が補正される。補正された複数の第２の類似度を合計した合計値が第１の話者毎に算出され、算出された合計値に基づいて、第２の話者に対応する第２のデータベースに記憶されている複数の第１の話者の中の一人が特定される。

したがって、複数の第２の類似度のそれぞれに第１の類似度の順位に応じた重み付け値が乗算されることにより複数の第２の類似度が補正されるので、語彙の違い及び発話文の短さなどによる第２の類似度の変動を抑えることができ、より高い精度で話者を識別することができる。

また、上記の話者識別方法において、前記重み付け値は、前記第１の類似度が高い順に高くしてもよい。

この構成によれば、重み付け値は、第１の類似度が高い順に高くなるので、語彙の違い及び発話文の短さなどによる第２の類似度の変動をより抑えることができる。

また、上記の話者識別方法において、算出された前記複数の第２の類似度のそれぞれに前記第１の類似度を乗算することにより前記複数の第２の類似度を補正し、補正した前記複数の第２の類似度を合計した合計値を前記第１の話者毎に算出し、算出した前記合計値に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定してもよい。

この構成によれば、算出された複数の第２の類似度のそれぞれに第１の類似度が乗算されることにより複数の第２の類似度が補正される。補正された複数の第２の類似度を合計した合計値が第１の話者毎に算出され、算出された合計値に基づいて、第２の話者に対応する第２のデータベースに記憶されている複数の第１の話者の中の一人が特定される。

したがって、複数の第２の類似度のそれぞれに第１の類似度が乗算されることにより複数の第２の類似度が補正されるので、語彙の違い及び発話文の短さなどによる第２の類似度の変動を抑えることができ、より高い精度で話者を識別することができる。

また、上記の話者識別方法において、算出された前記複数の第２の類似度のうち、所定の値以上である前記複数の第２の類似度を合計した合計値を前記複数の第１の話者毎に算出し、算出した前記合計値に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定してもよい。

この構成によれば、算出された複数の第２の類似度のうち、所定の値以上である複数の第２の類似度を合計した合計値が複数の第１の話者毎に算出され、算出された合計値に基づいて、第２の話者に対応する第２のデータベースに記憶されている複数の第１の話者の中の一人が特定される。

したがって、所定の値以上である複数の第２の類似度が合計され、所定の値より小さい第２の類似度が考慮されないので、より高い精度で話者を識別することができる。

また、上記の話者識別方法において、算出した前記合計値が最も高い前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人が、前記第２の話者として特定されてもよい。

この構成によれば、算出した合計値が最も高い第２のデータベースに記憶されている第１の話者が、第２の話者として特定されるので、容易に話者を識別することができる。

また、上記の話者識別方法において、前記学習モード処理において、特定された前記複数の不特定話者モデルと、取得された前記複数の第１の話者のそれぞれの前記音声信号とに基づいて、前記複数の第１の話者に対応する複数の話者モデルを新たに作成し、作成した前記複数の話者モデルを前記複数の第１の話者に対応付けて第３のデータベースに記憶し、前記識別モード処理において、取得された前記第２の話者の音声信号における特徴量と、前記第３のデータベースに記憶されている前記第１の話者に対応付けられている前記話者モデルにおける特徴量との第３の類似度を前記第１の話者毎に算出し、算出された前記第３の類似度に基づいて、前記第２の話者に対応する前記第３のデータベースに記憶されている前記複数の第１の話者の中の一人を特定してもよい。

この構成によれば、学習モード処理において、特定された複数の不特定話者モデルと、取得された複数の第１の話者のそれぞれ音声信号とに基づいて、複数の第１の話者に対応する複数の話者モデルが新たに作成される。作成された複数の話者モデルが複数の第１の話者に対応付けて第３のデータベースに記憶される。識別モード処理において、取得された第２の話者の音声信号における特徴量と、第３のデータベースに記憶されている第１の話者に対応付けられている話者モデルにおける特徴量との第３の類似度が第１の話者毎に算出される。算出された第３の類似度に基づいて、第２の話者に対応する第３のデータベースに記憶されている複数の第１の話者の中の一人が特定される。

したがって、取得した第１の話者の音声信号に類似する複数の他者の話者モデルを用いて第１の話者に対応する新たな話者モデルが作成されるので、新たに作成された話者モデルを用いて話者をより高い精度で識別することができる。

また、上記の話者識別方法において、前記第２の話者が前記第３のデータベースに記憶されている前記第１の話者のいずれにも特定されない場合、取得された前記第２の話者の音声信号における特徴量と、前記第２のデータベースに記憶されており、前記第１の話者に対応付けられている前記複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を前記第１の話者毎にそれぞれ算出し、算出された前記複数の第２の類似度に基づいて、前記第２の話者が前記第２のデータベースに記憶されている前記第１の話者のいずれであるかを特定してもよい。

この構成によれば、第２の話者が第３のデータベースに記憶されている第１の話者のいずれにも特定されない場合、取得された第２の話者の音声信号における特徴量と、第２のデータベースに記憶されており、第１の話者に対応付けられている複数の不特定話者モデルにおける各特徴量との複数の第２の類似度が第１の話者毎にそれぞれ算出される。算出された複数の第２の類似度に基づいて、第２の話者が第２のデータベースに記憶されている第１の話者のいずれであるかが特定される。

したがって、取得した第１の話者の音声信号に類似する複数の他者の話者モデルを用いて作成された新たな話者モデルを用いて第２の話者を特定することができない場合、第１の話者の音声信号に類似する複数の不特定話者の話者モデルを用いて第２の話者を識別することができる。

また、上記の話者識別方法において、前記識別モード処理が行われた後、前記学習モード処理において算出された各々の前記不特定話者モデルに対応する前記第１の類似度と、前記識別モード処理において算出された各々の前記不特定話者モデルに対応する前記第２の類似度とを比較し、前記第１の類似度と前記第２の類似度との差異が所定値以上である前記不特定話者モデルが所定数以上存在する場合、前記学習モード処理を再度行ってもよい。

この構成によれば、識別モード処理が行われた後、学習モード処理において算出された各々の不特定話者モデルに対応する第１の類似度と、識別モード処理において算出された各々の不特定話者モデルに対応する第２の類似度とが比較される。第１の類似度と第２の類似度との差異が所定値以上である不特定話者モデルが所定数以上存在する場合、学習モード処理が再度行われる。

したがって、学習モード処理において算出された第１の類似度と、識別モード処理において算出された第２の類似度とが大きく異なっている場合、学習モード処理を再度行うことにより、より第１の話者に類似した複数の不特定話者モデルを特定することができ、より高い精度で話者を識別することができる。

また、上記の話者識別方法において、前記識別モード処理が行われた後、前記学習モード処理において算出された各々の前記不特定話者モデルに対応する前記第１の類似度と、前記識別モード処理において算出された各々の前記不特定話者モデルに対応する前記第２の類似度とを比較し、前記第１の類似度と前記第２の類似度との差異が所定値以上である前記不特定話者モデルが所定数以上存在する場合、前記第２のデータベースに記憶されている前記差異が所定値以上である前記不特定話者モデルに対応する前記第１の類似度を前記識別モード処理において算出した前記第２の類似度に修正してもよい。

この構成によれば、識別モード処理が行われた後、学習モード処理において算出された各々の不特定話者モデルに対応する第１の類似度と、識別モード処理において算出された各々の不特定話者モデルに対応する第２の類似度とが比較される。第１の類似度と第２の類似度との差異が所定値以上である不特定話者モデルが所定数以上存在する場合、第２のデータベースに記憶されている差異が所定値以上である不特定話者モデルに対応する第１の類似度が識別モード処理において算出された第２の類似度に修正される。

したがって、学習モード処理において算出された第１の類似度と、識別モード処理において算出された第２の類似度とが大きく異なっている場合、第１の類似度を第２の類似度に修正することにより、より第１の話者に類似した複数の不特定話者モデルを特定することができ、より高い精度で話者を識別することができる。

本開示の他の局面に係る話者識別装置は、複数の不特定話者と、前記複数の不特定話者の音声の特徴をモデル化した複数の不特定話者モデルとを対応付けて記憶する第１のデータベースを用いて、前記第１のデータベースに記憶されていない第１の話者と、前記複数の不特定話者モデルとを対応付けて記憶する第２のデータベースを作成する学習モード処理部と、前記第２のデータベースを用いて、第２の話者を識別する識別モード処理部とを備え、前記学習モード処理部は、前記複数の第１の話者のそれぞれ音声信号を取得する第１の音声取得部と、第１の音声取得部によって取得された前記複数の第１の話者のそれぞれの前記音声信号における特徴量と、前記第１のデータベースに記憶されている前記第１の話者とは異なる前記複数の不特定話者の前記複数の不特定話者モデルにおける各特徴量との第１の類似度をそれぞれ算出する第１の類似度算出部と、前記第１の類似度算出部によって算出された前記第１の類似度が所定の値以上である複数の不特定話者モデルを特定する第１の特定部と、前記複数の第１の話者のそれぞれと、前記第１の特定部によって特定された前記複数の不特定話者モデルとを対応付けて前記第２のデータベースに記憶する記憶処理部とを含み、前記識別モード処理部は、前記第２の話者の音声信号を取得する第２の音声取得部と、前記第２の音声取得部によって取得された前記第２の話者の前記音声信号における特徴量と、前記第２のデータベースに記憶されており、前記第１の話者に対応付けられている前記複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を前記第１の話者毎にそれぞれ算出する第２の類似度算出部と、前記第２の類似度算出部によって算出された前記複数の第２の類似度に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する第２の特定部とを含む。

本開示の他の局面に係る話者識別方法は、複数の不特定話者と、前記複数の不特定話者の音声の特徴をモデル化した複数の不特定話者モデルとを対応付けて記憶する第１のデータベースを用いて、前記第１のデータベースに記憶されていない第１の話者と、前記複数の不特定話者モデルとを対応付けて記憶する第２のデータベースを作成する学習モード処理と、前記第２のデータベースを用いて、第２の話者を識別する識別モード処理とを含み、前記学習モード処理において、前記複数の第１の話者のそれぞれの音声信号を取得し、取得された前記複数の第１の話者のそれぞれの前記音声信号における特徴量と、前記第１のデータベースに記憶されている前記複数の不特定話者モデルにおける各特徴量との第１の類似度を算出し、算出された前記第１の類似度が所定の値以上である複数の不特定話者モデルを特定し、特定された前記複数の不特定話者モデルと、取得された前記複数の第１の話者のそれぞれの前記音声信号とに基づいて、前記第１の話者に対応する話者モデルを新たに作成し、作成した前記話者モデルを前記第１の話者に対応付けて前記第２のデータベースに記憶し、前記識別モード処理において、前記第２の話者の音声を取得し、取得された前記第２の話者の前記音声信号における特徴量と、前記第２のデータベースに記憶されている前記第１の話者に対応付けられている話者モデルにおける特徴量との複数の第２の類似度を前記第１の話者毎に算出し、算出された前記複数の第２の類似度に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する。

この構成によれば、学習モード処理において、複数の第１の話者のそれぞれの音声信号が取得される。取得された複数の第１の話者のそれぞれの音声信号における特徴量と、第１のデータベースに記憶されている複数の不特定話者モデルにおける各特徴量との第１の類似度が算出される。算出された第１の類似度が所定の値以上である複数の不特定話者モデルが特定される。特定された複数の不特定話者モデルと、取得された複数の第１の話者のそれぞれの音声信号とに基づいて、複数の第１の話者に対応する複数の話者モデルが新たに作成される。作成した話者モデルが第１の話者に対応付けて第２のデータベースに記憶される。識別モード処理において、第２の話者の音声信号が取得される。取得された第２の話者の音声信号における特徴量と、第２のデータベースに記憶されている第１の話者に対応付けられている話者モデルにおける特徴量との複数の第２の類似度が第１の話者毎に算出される。算出された複数の第２の類似度に基づいて、第２の話者に対応する第２のデータベースに記憶されている複数の第１の話者の中の一人が特定される。

なお、これらの包括的または具体的な態様は、システム、方法、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、装置、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

（実施の形態１）
図１は、本実施の形態１における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。

図１に示す話者識別装置は、音声入力部１１、第１の音声分析部１２、第１の話者モデル格納部１３、第１の類似度算出部１４、モデル特定部１５、第２の話者モデル格納部１６、第２の音声分析部１７、第２の類似度算出部１８及び話者識別部１９を備える。

また、学習モード処理部１は、音声入力部１１、第１の音声分析部１２、第１の話者モデル格納部１３、第１の類似度算出部１４、モデル特定部１５及び第２の話者モデル格納部１６で構成される。識別モード処理部２は、音声入力部１１、第２の話者モデル格納部１６、第２の音声分析部１７、第２の類似度算出部１８及び話者識別部１９で構成される。

学習モード処理部１は、学習モード処理において、複数の不特定話者と、複数の不特定話者の音声の特徴をモデル化した複数の不特定話者モデルとを対応付けて記憶する第１の話者モデル格納部１３（第１のデータベース）を用いて、第１の話者モデル格納部１３に記憶されていない第１の話者と、複数の不特定話者モデルとを対応付けて記憶する第２の話者モデル格納部１６（第２のデータベース）を作成する。

第１の話者モデル格納部１３、および第２の話者モデル格納部１６は、ハードウェア構成として、それぞれ、例えば、メモリであってもよい。メモリとは、例えば、半導体メモリ、ハードディスクといったような書き込み可能な記録媒体である。

識別モード処理部２は、識別モード処理において、第２の話者モデル格納部１６を用いて、第２の話者を識別する。

本実施の形態１における話者識別装置は、ハードウェア構成として、プロセッサとメモリとを含んでもよい。メモリには、学習モード処理部１、および識別モード処理部２のそれぞれに対応するプログラムを含んでもよい。メモリとは、例えば、半導体メモリ、ハードディスクなどの記録媒体である。プロセッサがプログラムを実行することにより、学習モード処理部１、および識別モード処理部２がそれぞれ機能する。

または、本実施の形態１における話者識別装置は、学習モード処理部１、および識別モード処理部２のそれぞれの機能を実現する集積回路を含んでもよい。

または、本実施の形態１における話者識別装置は、学習モード処理部１、および識別モード処理部２の一方に対応するプログラム、他方の機能を実現する集積回路、およびプロセッサを含んでもよい。この場合、学習モード処理部１、および識別モード処理部２の一方に対応するプログラムをプロセッサが実行することにより、学習モード処理部１、および識別モード処理部２のうちの一方が機能する。

なお、本実施の形態１における話者識別装置は、学習モード処理部１によって行われる学習モード処理と、識別モード処理部２によって行われる識別モード処理とを切り替えることができる。学習モード処理と識別モード処理との切り替えは、例えば、ユーザによる入力操作により行われる。話者識別装置は、例えばユーザによる切り替えボタンの押下を受け付けることにより、学習モード処理と識別モード処理とを切り替えてもよい。また、話者識別装置は、例えばユーザによる発話を音声認識することにより、学習モード処理と識別モード処理とを切り替えてもよい。

音声入力部１１は、例えばマイクロフォンで構成され、学習モード処理又は識別モード処理において、周囲の音声を収集し、収集した音声を音声信号に変換して出力する。

第１の音声分析部１２は、学習モード処理において、音声入力部１１から入力された音声信号を分析し、第１の話者によって発話された音声信号を出力する。第１の音声分析部１２は、第１の話者モデル格納部１３に記憶されていない第１の話者の音声信号を取得する。

第１の話者モデル格納部１３は、複数の不特定話者と、複数の不特定話者の音声の特徴をモデル化した複数の不特定話者モデルとを対応付けて記憶する。複数の不特定話者モデルは、それぞれ、例えば、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）による確率モデルなどを用いて不特定話者の固有の特徴量を含むものであってもよい。

第１の類似度算出部１４は、取得された第１の話者の音声信号における特徴量と、第１の話者モデル格納部１３に記憶されている複数の不特定話者モデルにおける各特徴量との第１の類似度をそれぞれ算出する。

第１の類似度算出部１４は、取得された第１の話者の音声信号における特徴量を算出する。ここで、特徴量は、ｉＶｅｃｔｏｒを用いて算出される。なお、ｉＶｅｃｔｏｒを用いた特徴量の算出方法については従来技術であるため、詳細な説明は省略する。また、特徴量の算出方法については、ｉＶｅｃｔｏｒに限定されず、他の算出方法を用いてもよい。また、第１の類似度算出部１４は、第１の話者モデル格納部１３に記憶されている複数の不特定話者モデルを読み出し、読み出した複数の不特定話者モデルにおける特徴量をそれぞれ算出する。

なお、第１の話者モデル格納部１３は、複数の不特定話者モデルに対して算出された特徴量を複数の不特定話者モデルに対応付けて予め記憶してもよい。第１の話者モデル格納部１３が特徴量を記憶している場合、第１の類似度算出部１４は、第１の話者モデル格納部１３から特徴量を読み出す。

第１の類似度算出部１４は、第１の話者の音声信号における特徴量と、第１の話者モデル格納部１３に記憶されている複数の不特定話者モデルにおける各特徴量との第１の類似度をそれぞれ算出する。第１の類似度算出部１４は、２つの特徴量（第１の話者の音声信号における特徴量と、第１の話者モデル格納部１３に記憶されている不特定話者モデルにおける特徴量）がどれだけ類似しているかを示す話者間距離を算出する。

また、第１の類似度算出部１４は、例えば、話者間距離として、第１の話者の音声信号における特徴量が、不特定話者モデルにおける各特徴量のそれぞれであると推測する尤もらしさを示す数値（尤度）を算出するのでもよい。第１の類似度算出部１４は、２つの特徴量の間の近さを算出する関数を用いて、話者間距離を算出する。話者間距離は、特徴量同士が類似する度合いが高いほど、より１に近い値となり、特徴量同士が類似する度合いが低いほど、０に近い値となる。なお、類似度の算出方法については従来技術であるため、詳細な説明は省略する。また、類似度の算出方法については上記に限定されない。

モデル特定部１５は、第１の類似度算出部１４によって算出された第１の類似度が所定の値以上である複数の不特定話者モデルを特定する。モデル特定部１５は、特定した複数の不特定話者モデルを第１の話者モデル格納部１３から抽出する。モデル特定部１５は、第１の話者を識別する識別情報と、特定した複数の不特定話者モデルとを対応付けて第２の話者モデル格納部１６に記憶する。なお、モデル特定部１５は、識別情報を入力音声毎に作成する。

第２の話者モデル格納部１６は、第１の話者を識別する識別情報と、モデル特定部１５によって特定された複数の不特定話者モデルとを対応付けて記憶する。

第２の音声分析部１７は、識別モード処理において、音声入力部１１から入力された音声信号を分析し、第２の話者によって発話された音声信号を出力する。第２の音声分析部１７は、第２の話者の音声信号を取得する。第２の話者は、第１の話者と同じ話者又は第１の話者とは異なる話者である。第２の音声分析部１７は、第１の音声分析部１２と同じ処理を行う。

第２の類似度算出部１８は、第２の音声分析部１７によって取得された第２の話者の音声信号における特徴量と、第２の話者モデル格納部１６（第２のデータベース）に記憶されており、第１の話者に対応付けられている複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を第１の話者毎にそれぞれ算出する。

第２の類似度算出部１８は、取得された第２の話者の音声信号における特徴量を算出する。ここで、特徴量は、ｉＶｅｃｔｏｒを用いて算出される。なお、ｉＶｅｃｔｏｒを用いた特徴量の算出方法については従来技術であるため、詳細な説明は省略する。また、特徴量の算出方法については、ｉＶｅｃｔｏｒに限定されず、他の算出方法を用いてもよい。また、第２の類似度算出部１８は、第１の類似度算出部１４による特徴量の算出方法と同じ算出方法で特徴量を算出してもよいし、第１の類似度算出部１４による特徴量の算出方法とは異なる算出方法で特徴量を算出してもよい。

また、第２の類似度算出部１８は、第２の話者モデル格納部１６に記憶されている複数の第１の話者のそれぞれに対応付けられている複数の不特定話者モデルを読み出し、読み出した複数の不特定話者モデルにおける特徴量を複数の第１の話者毎に算出する。

なお、第２の話者モデル格納部１６は、複数の不特定話者モデルに対して算出された特徴量を複数の不特定話者モデルに対応付けて予め記憶してもよい。第２の話者モデル格納部１６が特徴量を記憶している場合、第２の類似度算出部１８は、第２の話者モデル格納部１６から特徴量を読み出す。

第２の類似度算出部１８は、第２の話者の音声信号における特徴量と、第２の話者モデル格納部１６に記憶されており、第１の話者に対応付けられている複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を第１の話者毎にそれぞれ算出する。第２の類似度算出部１８は、２つの特徴量がどれだけ類似しているかを示す話者間距離を算出する。第２の類似度算出部１８は、２つの特徴量の間の近さを算出する関数を用いて、話者間距離を算出する。話者間距離は、特徴量同士が類似している場合には１に近い値となり、特徴量同士が類似していない場合には０に近い値となる。なお、類似度の算出方法については従来技術であるため、詳細な説明は省略する。また、類似度の算出方法については上記に限定されない。

また、第２の類似度算出部１８は、第１の類似度算出部１４による第１の類似度の算出方法と同じ算出方法で第２の類似度を算出してもよいし、第１の類似度算出部１４による第１の類似度の算出方法とは異なる算出方法で第２の類似度を算出してもよい。

話者識別部１９は、第２の類似度算出部１８によって算出された複数の第２の類似度に基づいて、第２の話者に対応する第２の話者モデル格納部１６に記憶されている複数の第１の話者の中の一人を特定する。ここで、話者識別部１９は、第２の類似度算出部１８によって算出された複数の第２の類似度を合計した合計値を第１の話者毎に算出し、算出した合計値に基づいて、第２の話者が第２の話者モデル格納部１６に記憶されている第１の話者のいずれであるかを特定する。話者識別部１９は、算出した合計値が最も高い第２の話者モデル格納部１６に記憶されている第１の話者として、第２の話者を特定する。

このように、類似度の合計値を比較することにより、語彙の違い及び文の短さに影響されることなく、話者識別の精度を高めることができる。

なお、本実施の形態１において、テレビ又はスマートホンなどの端末装置が、音声入力部１１を備え、話者識別装置が、音声入力部１１以外の構成を備えてもよい。この場合、話者識別装置は、例えばサーバで構成され、ネットワークを介して端末装置と通信可能に接続される。サーバは、話者識別装置の機能の一部又は全部を備えてもよい。

また、第１の話者及び第２の話者は、例えば、家庭内に配置された家電機器を操作するユーザであってもよい。

続いて、本実施の形態１における話者識別装置の学習モード処理及び識別モード処理のそれぞれの動作について説明する。図２は、本実施の形態１における話者識別装置の学習モード処理の動作について説明するためのフローチャートである。

まず、ステップＳ１において、第１の音声分析部１２は、第１の話者モデル格納部１３に記憶されていない第１の話者の音声信号を取得する。

次に、ステップＳ２において、第１の類似度算出部１４は、第１の音声分析部１２によって取得された第１の話者の音声信号の特徴量、及び第１の話者モデル格納部１３に記憶されている複数の不特定話者モデルの特徴量を算出する。

次に、ステップＳ３において、第１の類似度算出部１４は、算出した第１の話者の音声信号の特徴量と、算出した複数の不特定話者モデルの特徴量との第１の類似度を算出する。

次に、ステップＳ４において、モデル特定部１５は、第１の類似度算出部１４によって算出された第１の類似度が所定の値以上である複数の不特定話者モデルを特定する。モデル特定部１５は、特定した複数の不特定話者モデルを第１の話者モデル格納部１３から抽出する。このとき、モデル特定部１５は、特定した複数の不特定話者モデルを、第１の類似度が高い順に第１の話者モデル格納部１３から抽出してもよい。

次に、ステップＳ５において、モデル特定部１５は、特定した複数の不特定話者モデルを、第１の話者を識別する識別情報に対応付けて第２の話者モデル格納部１６に記憶する。

図３は、本実施の形態１における話者識別装置の識別モード処理の動作について説明するためのフローチャートである。

まず、ステップＳ１１において、第２の音声分析部１７は、第２の話者の音声信号を取得する。

次に、ステップＳ１２において、第２の類似度算出部１８は、第２の音声分析部１７によって取得された第２の話者の音声信号の特徴量、及び第２の話者モデル格納部１６に記憶されており、複数の第１の話者のそれぞれに対応付けられている複数の不特定話者モデルの特徴量を算出する。

次に、ステップＳ１３において、第２の類似度算出部１８は、第２の話者の音声信号の特徴量と、第１の話者に対応付けられている複数の不特定話者モデルの特徴量のそれぞれとの複数の第２の類似度を第１の話者毎にそれぞれ算出する。

次に、ステップＳ１４において、話者識別部１９は、第２の類似度算出部１８によって算出された複数の第２の類似度を合計した合計値を第１の話者毎に算出する。

次に、ステップＳ１５において、話者識別部１９は、算出した合計値が最も高い第２の話者モデル格納部１６に記憶されている第１の話者として、第２の話者を特定する。

なお、識別モード処理が行われた後、話者識別部１９は、学習モード処理において算出された各々の不特定話者モデルに対応する第１の類似度と、識別モード処理において算出された各々の不特定話者モデルに対応する第２の類似度とを比較してもよい。そして、第１の類似度と第２の類似度との差異が所定値以上である不特定話者モデルが所定数以上存在する場合、話者識別部１９は、学習モード処理を再度行うように学習モード処理部１に指示し、学習モード処理部１は、学習モード処理を再度行ってもよい。

また、識別モード処理が行われた後、話者識別部１９は、学習モード処理において算出された各々の不特定話者モデルに対応する第１の類似度と、識別モード処理において算出された各々の不特定話者モデルに対応する第２の類似度とを比較してもよい。そして、第１の類似度と第２の類似度との差異が所定値以上である不特定話者モデルが所定数以上存在する場合、話者識別部１９は、第２の話者モデル格納部１６に記憶されている差異が所定値以上である不特定話者モデルに対応する第１の類似度を識別モード処理において算出した第２の類似度に修正してもよい。

続いて、本実施の形態１における話者識別装置の具体的な処理の流れについて説明する。

図４は、本実施の形態１における話者識別装置の学習モード処理の具体的な処理の一例を説明するための模式図である。

まず、学習モード処理において、第１の話者Ｘが「テレビ」と発話した場合、音声入力部１１は、第１の話者Ｘが発話した音声を収集し、収集した音声を音声信号に変換して出力する。なお、本実施の形態１では、第１の話者Ｘが発話する語彙は、特に限定されず、第１の話者Ｘは、予め決められている語彙を発話する必要はない。第１の音声分析部１２は、音声入力部１１から入力された音声信号を分析し、第１の話者Ｘによって発話された音声信号を出力する。

次に、第１の類似度算出部１４は、取得された第１の話者Ｘの音声信号と、他者の話者モデルとを比較する。すなわち、第１の類似度算出部１４は、取得された第１の話者Ｘの音声信号における特徴量と、第１の話者モデル格納部１３に記憶されている複数の不特定話者モデルＡ〜Ｆにおける各特徴量との第１の類似度をそれぞれ算出する。

次に、モデル特定部１５は、第１の類似度算出部１４によって算出された第１の類似度が所定の値以上である複数の不特定話者モデルを特定する。図４では、第１の類似度が０．４以上である複数の不特定話者モデルＡ〜Ｃが特定されている。例えば、第１の話者Ｘの音声信号と不特定話者モデルＡとの第１の類似度は、０．９であり、第１の話者Ｘの音声信号と不特定話者モデルＢとの第１の類似度は、０．７であり、第１の話者Ｘの音声信号と不特定話者モデルＣとの第１の類似度は、０．４である。モデル特定部１５は、第１の話者Ｘを識別する識別情報と、特定した複数の不特定話者モデルＡ〜Ｃとを対応付けたテーブルを、第２の話者モデル格納部１６に記憶する。

同様に、学習モード処理において、第１の話者Ｙが「音量」と発話した場合、音声入力部１１は、第１の話者Ｙが発話した音声を収集し、収集した音声を音声信号に変換して出力する。第１の音声分析部１２は、音声入力部１１から入力された音声信号を分析し、第１の話者Ｙによって発話された音声信号を出力する。

次に、第１の類似度算出部１４は、取得された第１の話者Ｙの音声信号と、他者の話者モデルとを比較する。すなわち、第１の類似度算出部１４は、取得された第１の話者Ｙの音声信号における特徴量と、第１の話者モデル格納部１３に記憶されている複数の不特定話者モデルＡ〜Ｆにおける各特徴量との第１の類似度をそれぞれ算出する。

次に、モデル特定部１５は、第１の類似度算出部１４によって算出された第１の類似度が所定の値以上である複数の不特定話者モデルを特定する。図４では、第１の類似度が０．４以上である複数の不特定話者モデルＤ〜Ｆが特定されている。例えば、第１の話者Ｙの音声信号と不特定話者モデルＤとの第１の類似度は、０．８であり、第１の話者Ｙの音声信号と不特定話者モデルＥとの第１の類似度は、０．５であり、第１の話者Ｙの音声信号と不特定話者モデルＦとの第１の類似度は、０．４である。モデル特定部１５は、第１の話者Ｙを識別する識別情報と、特定した複数の不特定話者モデルＤ〜Ｆとを対応付けたテーブルを、第２の話者モデル格納部１６に記憶する。

図５は、本実施の形態１における話者識別装置の識別モード処理の具体的な処理の一例を説明するための模式図である。

まず、識別モード処理において、第２の話者が「音量」と発話した場合、音声入力部１１は、第２の話者が発話した音声を収集し、収集した音声を音声信号に変換して出力する。第２の音声分析部１７は、音声入力部１１から入力された音声信号を分析し、第２の話者によって発話された音声信号を出力する。

次に、第２の類似度算出部１８は、第２の話者の音声信号における特徴量と、第２の話者モデル格納部１６に記憶されており、第１の話者Ｘに対応付けられている複数の不特定話者モデルＡ〜Ｃにおける各特徴量との複数の第２の類似度を算出する。また、第２の類似度算出部１８は、第２の話者の音声信号における特徴量と、第２の話者モデル格納部１６に記憶されており、第１の話者Ｙに対応付けられている複数の不特定話者モデルＤ〜Ｆにおける各特徴量との複数の第２の類似度を算出する。

そして、話者識別部１９は、第２の類似度算出部１８によって算出された複数の第２の類似度を合計した合計値を第１の話者毎に算出する。すなわち、話者識別部１９は、第２の話者の音声信号と、第１の話者Ｘに対応付けられている複数の不特定話者モデルＡ〜Ｃのそれぞれとの複数の第２の類似度を合計した合計値を算出する。また、話者識別部１９は、第２の話者の音声信号と、第１の話者Ｙに対応付けられている複数の不特定話者モデルＤ〜Ｆのそれぞれとの複数の第２の類似度を合計した合計値を算出する。

例えば、第２の話者の音声信号と不特定話者モデルＡとの第２の類似度は、０．７であり、第２の話者の音声信号と不特定話者モデルＢとの第２の類似度は、０．６であり、第２の話者の音声信号と不特定話者モデルＣとの第２の類似度は、０．５である。そのため、第２の話者と第１の話者Ｘとの複数の第２の類似度の合計値は、０．７＋０．６＋０．５＝１．８である。また、第２の話者の音声信号と不特定話者モデルＤとの第２の類似度は、０．４であり、第２の話者の音声信号と不特定話者モデルＥとの第２の類似度は、０．８であり、第２の話者の音声信号と不特定話者モデルＦとの第２の類似度は、０．３である。そのため、第２の話者と第１の話者Ｙとの複数の第２の類似度の合計値は、０．４＋０．８＋０．３＝１．５である。

次に、話者識別部１９は、算出した合計値に基づいて、第２の話者が第２の話者モデル格納部１６に記憶されている第１の話者Ｘ，Ｙのいずれであるかを特定する。第２の話者と第１の話者Ｘとの複数の第２の類似度の合計値は、１．８であり、第２の話者と第１の話者Ｙとの複数の第２の類似度の合計値は、１．５であり、第１の話者Ｘの合計値の方が第１の話者Ｙの合計値よりも大きい。そのため、話者識別部１９は、第２の話者が第１の話者Ｘであると決定する。

このように、第２の話者が第１の話者Ｘであったとしても、第１の話者Ｘの話者モデルが十分に学習されていない場合、当該話者モデルを用いて第２の話者を識別することができないおそれがある。そこで、本実施の形態では、第１の話者Ｘに類似する複数の不特定話者の複数の不特定話者モデルを用いることにより、第２の話者を正確に識別することができる。

また、第１の話者の音声信号に類似する複数の不特定話者の話者モデルを用いて、第２の話者が識別されるので、識別対象である話者の話者モデルが作成されていない場合であっても、より高い精度で話者を識別することができる。

続いて、実施の形態１の第１の変形例について説明する。

図６は、本実施の形態１の第１の変形例における話者識別装置の識別モード処理の具体的な処理の一例を説明するための模式図である。なお、本実施の形態１の第１の変形例における話者識別装置の学習モード処理は、上記の実施の形態１と同じであるので説明を省略する。

実施の形態１の第１の変形例では、複数の第２の類似度が単に合計されるのではなく、第１の類似度の大きさの順位に応じた重み付け値を乗算した複数の第２の類似度が合計される。

実施の形態１の第１の変形例における識別モード処理において、第２の話者が「音量」と発話した場合、音声入力部１１は、第２の話者が発話した音声を収集し、収集した音声を音声信号に変換して出力する。第２の音声分析部１７は、音声入力部１１から入力された音声信号を分析し、第２の話者によって発話された音声信号を出力する。

次に、話者識別部１９は、第２の類似度算出部１８によって算出された複数の第２の類似度のそれぞれに第１の類似度の順位に応じた重み付け値を乗算することにより複数の第２の類似度を補正する。重み付け値は、前記第１の類似度が高い順に高くする。例えば、第１の話者に対応付けられている複数の不特定話者モデルの第１の類似度のうち、値が最も大きい第１の類似度には１．５の重み付け値を付与し、２番目に大きい第１の類似度には１．０の重み付け値を付与し、３番目に大きい第１の類似度には０．５の重み付け値を付与する。

なお、学習モード処理において、モデル特定部１５は、第１の話者に対して複数の不特定話者モデルを第１の類似度が大きい順に対応付けて記憶することが好ましい。これにより、識別モード処理において、第１の類似度の順位に応じた重み付け値を決定する際に、第１の類似度を算出する必要がなくなり、処理速度を向上させることができる。また、学習モード処理において、モデル特定部１５は、算出された第１の類似度を、複数の不特定話者モデルに対応付けて第２の話者モデル格納部１６に記憶してもよい。また、識別モード処理において、第２の類似度算出部１８は、第１の話者の話者モデルの特徴量と、第１の話者に対応付けられている複数の不特定話者モデルの特徴量との第１の類似度を算出してもよい。

そして、話者識別部１９は、補正した複数の第２の類似度を合計した合計値を第１の話者Ｘ，Ｙ毎に算出する。

例えば、第２の話者の音声信号と不特定話者モデルＡとの第２の類似度は、０．７であり、第２の話者の音声信号と不特定話者モデルＢとの第２の類似度は、０．６であり、第２の話者の音声信号と不特定話者モデルＣとの第２の類似度は、０．５である。また、不特定話者モデルＡの第１の類似度は、不特定話者モデルＢの第１の類似度より大きく、不特定話者モデルＢの第１の類似度は、不特定話者モデルＣの第１の類似度より大きい。また、重み付け値は、第１の類似度が大きい順に１．５、１．０及び０．５である。そのため、第２の話者と第１の話者Ｘとの補正した複数の第２の類似度の合計値は、０．７＊１．５＋０．６＊１．０＋０．５＊０．５＝１．９である。

また、例えば、第２の話者の音声信号と不特定話者モデルＤとの第２の類似度は、０．４であり、第２の話者の音声信号と不特定話者モデルＥとの第２の類似度は、０．８であり、第２の話者の音声信号と不特定話者モデルＦとの第２の類似度は、０．３である。また、不特定話者モデルＤの第１の類似度は、不特定話者モデルＥの第１の類似度より大きく、不特定話者モデルＥの第１の類似度は、不特定話者モデルＦの第１の類似度より大きい。また、重み付け値は、第１の類似度が大きい順に１．５、１．０及び０．５である。そのため、第２の話者と第１の話者Ｙとの補正した複数の第２の類似度の合計値は、０．４＊１．５＋０．８＊１．０＋０．３＊０．５＝１．５５である。

次に、話者識別部１９は、算出した合計値に基づいて、第２の話者が第２の話者モデル格納部１６に記憶されている第１の話者Ｘ，Ｙのいずれであるかを特定する。第２の話者と第１の話者Ｘとの補正した複数の第２の類似度の合計値は、１．９であり、第２の話者と第１の話者Ｙとの補正した複数の第２の類似度の合計値は、１．５５であり、第１の話者Ｘの合計値の方が第１の話者Ｙの合計値よりも大きい。そのため、話者識別部１９は、第２の話者が第１の話者Ｘであると決定する。

このように、複数の第２の類似度のそれぞれに第１の類似度の順位に応じた重み付け値が乗算されることにより複数の第２の類似度が補正されるので、語彙の違い及び発話文の短さなどによる第２の類似度の変動を抑えることができ、より高い精度で話者を識別することができる。

続いて、実施の形態１の第２の変形例について説明する。

図７は、本実施の形態１の第２の変形例における話者識別装置の識別モード処理の具体的な処理の一例を説明するための模式図である。なお、本実施の形態１の第２の変形例における話者識別装置の学習モード処理は、上記の実施の形態１と同じであるので説明を省略する。

実施の形態１の第２の変形例では、複数の第２の類似度が単に合計されるのではなく、第１の類似度の値に応じた重み付け値を乗算した複数の第２の類似度が合計される。

実施の形態１の第２の変形例における識別モード処理において、第２の話者が「音量」と発話した場合、音声入力部１１は、第２の話者が発話した音声を収集し、収集した音声を音声信号に変換して出力する。第２の音声分析部１７は、音声入力部１１から入力された音声信号を分析し、第２の話者によって発話された音声信号を出力する。

次に、話者識別部１９は、第２の類似度算出部１８によって算出された複数の第２の類似度のそれぞれに第１の類似度を乗算することにより複数の第２の類似度を補正する。なお、第１の類似度は、複数の不特定話者モデルに対応付けて第２の話者モデル格納部１６に記憶されている。

例えば、第２の話者の音声信号と不特定話者モデルＡとの第２の類似度は、０．７であり、第２の話者の音声信号と不特定話者モデルＢとの第２の類似度は、０．６であり、第２の話者の音声信号と不特定話者モデルＣとの第２の類似度は、０．５である。また、不特定話者モデルＡに対応付けられている第１の類似度は、０．９であり、不特定話者モデルＢに対応付けられている第１の類似度は、０．７であり、不特定話者モデルＣに対応付けられている第１の類似度は、０．４である。そのため、第２の話者と第１の話者Ｘとの補正した複数の第２の類似度の合計値は、０．７＊０．９＋０．６＊０．７＋０．５＊０．４＝１．２５である。

また、例えば、第２の話者の音声信号と不特定話者モデルＤとの第２の類似度は、０．４であり、第２の話者の音声信号と不特定話者モデルＥとの第２の類似度は、０．８であり、第２の話者の音声信号と不特定話者モデルＦとの第２の類似度は、０．３である。また、不特定話者モデルＤに対応付けられている第１の類似度は、０．８であり、不特定話者モデルＥに対応付けられている第１の類似度は、０．５であり、不特定話者モデルＦに対応付けられている第１の類似度は、０．４である。そのため、第２の話者と第１の話者Ｙとの補正した複数の第２の類似度の合計値は、０．４＊０．８＋０．８＊０．５＋０．３＊０．４＝０．８４である。

次に、話者識別部１９は、算出した合計値に基づいて、第２の話者が第２の話者モデル格納部１６に記憶されている第１の話者Ｘ，Ｙのいずれであるかを特定する。第２の話者と第１の話者Ｘとの補正した複数の第２の類似度の合計値は、１．２５であり、第２の話者と第１の話者Ｙとの補正した複数の第２の類似度の合計値は、０．８４であり、第１の話者Ｘの合計値の方が第１の話者Ｙの合計値よりも大きい。そのため、話者識別部１９は、第２の話者が第１の話者Ｘであると決定する。

このように、複数の第２の類似度のそれぞれに第１の類似度が乗算されることにより複数の第２の類似度が補正されるので、語彙の違い及び発話文の短さなどによる第２の類似度の変動を抑えることができ、より高い精度で話者を識別することができる。

続いて、実施の形態１の第３の変形例について説明する。

図８は、本実施の形態１の第３の変形例における話者識別装置の識別モード処理の具体的な処理の一例を説明するための模式図である。なお、本実施の形態１の第３の変形例における話者識別装置の学習モード処理は、上記の実施の形態１と同じであるので説明を省略する。

実施の形態１の第３の変形例では、複数の第２の類似度が単に合計されるのではなく、所定の値以上である複数の第２の類似度が合計される。

実施の形態１の第３の変形例における識別モード処理において、第２の話者が「音量」と発話した場合、音声入力部１１は、第２の話者が発話した音声を収集し、収集した音声を音声信号に変換して出力する。第２の音声分析部１７は、音声入力部１１から入力された音声信号を分析し、第２の話者によって発話された音声信号を出力する。

次に、話者識別部１９は、第２の類似度算出部１８によって算出された複数の第２の類似度のうち、所定の値以上である複数の第２の類似度を合計した合計値を第１の話者毎に算出する。すなわち、話者識別部１９は、第２の話者の音声信号と、第１の話者Ｘに対応付けられている複数の不特定話者モデルＡ〜Ｃとの複数の第２の類似度のうち、所定の値以上である複数の第２の類似度を合計した合計値を算出する。また、話者識別部１９は、第２の話者の音声信号と、第１の話者Ｙに対応付けられている複数の不特定話者モデルＤ〜Ｆとの複数の第２の類似度のうち、所定の値以上である複数の第２の類似度を合計した合計値を算出する。

例えば、話者識別部１９は、０．５未満の第２の類似度を棄却し、０．５以上の複数の第２の類似度を合計する。例えば、第２の話者の音声信号と不特定話者モデルＡとの第２の類似度は、０．７であり、第２の話者の音声信号と不特定話者モデルＢとの第２の類似度は、０．６であり、第２の話者の音声信号と不特定話者モデルＣとの第２の類似度は、０．５である。そのため、第２の話者と第１の話者Ｘとの複数の第２の類似度の合計値は、０．７＋０．６＋０．５＝１．８である。

また、例えば、第２の話者の音声信号と不特定話者モデルＤとの第２の類似度は、０．４であり、第２の話者の音声信号と不特定話者モデルＥとの第２の類似度は、０．８であり、第２の話者の音声信号と不特定話者モデルＦとの第２の類似度は、０．３である。そのため、第２の話者と第１の話者Ｙとの複数の第２の類似度の合計値は、０．４＋０．８＝１．２である。

次に、話者識別部１９は、算出した合計値に基づいて、第２の話者が第２の話者モデル格納部１６に記憶されている第１の話者Ｘ，Ｙのいずれであるかを特定する。第２の話者と第１の話者Ｘとの複数の第２の類似度の合計値は、１．８であり、第２の話者と第１の話者Ｙとの複数の第２の類似度の合計値は、１．２であり、第１の話者Ｘの合計値の方が第１の話者Ｙの合計値よりも大きい。そのため、話者識別部１９は、第２の話者が第１の話者Ｘであると決定する。

このように、所定の値以上である複数の第２の類似度が合計され、所定の値より小さい第２の類似度が考慮されないので、より高い精度で話者を識別することができる。

（実施の形態２）
図９は、本実施の形態２における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。

図９に示す話者識別装置は、音声入力部１１、第１の音声分析部１２、第１の話者モデル格納部１３、第１の類似度算出部１４、モデル特定部１５、第２の話者モデル格納部１６、第２の音声分析部１７、第２の類似度算出部１８、モデル作成部２１、第３の話者モデル格納部２２、第３の類似度算出部２３及び話者識別部２４を備える。

また、学習モード処理部１０１は、音声入力部１１、第１の音声分析部１２、第１の話者モデル格納部１３、第１の類似度算出部１４、モデル特定部１５、第２の話者モデル格納部１６、モデル作成部２１及び第３の話者モデル格納部２２で構成される。識別モード処理部１０２は、音声入力部１１、第２の話者モデル格納部１６、第２の音声分析部１７、第２の類似度算出部１８、第３の話者モデル格納部２２、第３の類似度算出部２３及び話者識別部２４で構成される。

なお、実施の形態２において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

モデル作成部２１は、モデル特定部１５によって特定された複数の不特定話者モデルと、取得された第１の話者の音声信号とに基づいて、第１の話者に対応する話者モデルを新たに作成する。例えば、モデル作成部２１は、モデル特定部１５によって特定された複数の不特定話者モデルと、取得された第１の話者の音声信号とを平均化し、平均化した話者モデルを第１の話者に対応する新たな話者モデルとして作成する。なお、本実施の形態１では、平均化することにより新たな話者モデルを作成しているが、特にこれに限定されず、他の方法により新たな話者モデルを作成してもよい。モデル作成部２１は、第１の話者を識別する識別情報と、作成した話者モデルとを対応付けて第３の話者モデル格納部２２に記憶する。

第３の話者モデル格納部２２は、第１の話者を識別する識別情報と、モデル作成部２１によって作成された話者モデルとを対応付けて記憶する。

第３の類似度算出部２３は、第２の音声分析部１７によって取得された第２の話者の音声信号における特徴量と、第３の話者モデル格納部２２（第３のデータベース）に記憶されている第１の話者に対応付けられている話者モデルにおける特徴量との第３の類似度を第１の話者毎に算出する。

第３の類似度算出部２３は、取得された第２の話者の音声信号における特徴量を算出する。ここで、特徴量は、ｉＶｅｃｔｏｒを用いて算出される。なお、ｉＶｅｃｔｏｒを用いた特徴量の算出方法については従来技術であるため、詳細な説明は省略する。また、特徴量の算出方法については、ｉＶｅｃｔｏｒに限定されず、他の算出方法を用いてもよい。また、第３の類似度算出部２３は、第１の類似度算出部１４又は第２の類似度算出部１８による特徴量の算出方法と同じ算出方法で特徴量を算出してもよいし、第１の類似度算出部１４又は第２の類似度算出部１８による特徴量の算出方法とは異なる算出方法で特徴量を算出してもよい。

また、第３の類似度算出部２３は、第３の話者モデル格納部２２に記憶されている複数の第１の話者のそれぞれに対応付けられている話者モデルを読み出し、読み出した話者モデルにおける特徴量を複数の第１の話者毎に算出する。

第３の類似度算出部２３は、第２の話者の音声信号における特徴量と、第３の話者モデル格納部２２に記憶されており、第１の話者に対応付けられている話者モデルにおける特徴量との第３の類似度を第１の話者毎にそれぞれ算出する。第３の類似度算出部２３は、２つの特徴量がどれだけ類似しているかを示す話者間距離を算出する。第３の類似度算出部２３は、２つの特徴量の間の近さを算出する関数を用いて、話者間距離を算出する。話者間距離は、特徴量同士が類似している場合には１に近い値となり、特徴量同士が類似していない場合には０に近い値となる。なお、類似度の算出方法については従来技術であるため、詳細な説明は省略する。また、類似度の算出方法については上記に限定されない。

また、第３の類似度算出部２３は、第１の類似度算出部１４による第１の類似度の算出方法又は第２の類似度算出部１８による第２の類似度の算出方法と同じ算出方法で第３の類似度を算出してもよいし、第１の類似度算出部１４による第１の類似度の算出方法又は第２の類似度算出部１８による第２の類似度の算出方法とは異なる算出方法で第３の類似度を算出してもよい。

話者識別部２４は、第３の類似度算出部２３によって算出された第３の類似度に基づいて、第２の話者に対応する第３の話者モデル格納部２２に記憶されている複数の第１の話者の中の一人を特定する。ここで、話者識別部２４は、第３の類似度算出部２３によって算出された第３の類似度が最も高い第３の話者モデル格納部２２に記憶されている第１の話者として、第２の話者を特定する。

なお、話者識別部２４は、第３の類似度算出部２３によって算出された第３の類似度が所定値以上であり且つ最も高い第１の話者として、第２の話者を特定してもよい。

第２の話者が第３の話者モデル格納部２２に記憶されている第１の話者のいずれにも特定されない場合、第２の類似度算出部１８は、第２の音声分析部１７によって取得された第２の話者の音声信号における特徴量と、第２の話者モデル格納部１６に記憶されており、第１の話者に対応付けられている複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を第１の話者毎にそれぞれ算出する。

話者識別部２４は、第２の類似度算出部１８によって算出された複数の第２の類似度に基づいて、第２の話者が第２の話者モデル格納部１６に記憶されている第１の話者のいずれであるかを特定する。

続いて、本実施の形態２における話者識別装置の学習モード処理及び識別モード処理のそれぞれの動作について説明する。

図１０は、本実施の形態２における話者識別装置の学習モード処理の動作について説明するためのフローチャートである。

なお、図１０に示すステップＳ２１〜ステップＳ２５の処理は、図２に示すステップＳ１〜ステップＳ５の処理と同じであるので説明を省略する。

ステップＳ２６において、モデル作成部２１は、モデル特定部１５によって特定された複数の不特定話者モデルと、取得された第１の話者の音声信号とに基づいて、第１の話者に対応する話者モデルを新たに作成する。

次に、ステップＳ２７において、モデル作成部２１は、第１の話者を識別する識別情報と、作成した話者モデルとを対応付けて第３の話者モデル格納部２２に記憶する。

図１１は、本実施の形態２における話者識別装置の識別モード処理の動作について説明するためのフローチャートである。

まず、ステップＳ３１において、第２の音声分析部１７は、第２の話者の音声信号を取得する。

次に、ステップＳ３２において、第３の類似度算出部２３は、第２の音声分析部１７によって取得された第２の話者の音声信号の特徴量、及び第３の話者モデル格納部２２に記憶されている第１の話者に対応付けられている話者モデルの特徴量を算出する。

次に、ステップＳ３３において、第３の類似度算出部２３は、第２の話者の音声信号の特徴量と、第１の話者に対応付けられている話者モデルの特徴量との第３の類似度を第１の話者毎にそれぞれ算出する。

次に、ステップＳ３４において、話者識別部２４は、算出された複数の第３の類似度の中に、所定値以上の第３の類似度があるか否かを判断する。なお、所定値は、２つの話者モデルが類似していると判断することが可能な値であり、例えば、０．５である。

ここで、所定値以上の第３の類似度があると判断された場合（ステップＳ３４でＹＥＳ）、ステップＳ３５において、話者識別部２４は、所定値以上である第３の類似度のうち、値が最も高い第３の類似度に対応する第１の話者として、第２の話者を特定する。

一方、所定値以上の第３の類似度がないと判断された場合（ステップＳ３４でＮＯ）、ステップＳ３６において、第２の類似度算出部１８は、第２の音声分析部１７によって取得された第２の話者の音声信号の特徴量、及び第２の話者モデル格納部１６に記憶されており、複数の第１の話者のそれぞれに対応付けられている複数の不特定話者モデルの特徴量を算出する。なお、ステップＳ３２で第２の話者の音声信号の特徴量が既に算出されているため、第２の類似度算出部１８は、第２の話者の音声信号の特徴量を算出しなくてもよい。

なお、図１１に示すステップＳ３７〜ステップＳ３９の処理は、図３に示すステップＳ１３〜ステップＳ１５の処理と同じであるので説明を省略する。

続いて、本実施の形態２における話者識別装置の具体的な処理の流れについて説明する。

図１２は、本実施の形態２における話者識別装置の学習モード処理の具体的な処理の一例を説明するための模式図である。

次に、モデル特定部１５は、第１の類似度算出部１４によって算出された第１の類似度が所定の値以上である複数の不特定話者モデルを特定する。図１２では、第１の類似度が０．４以上である複数の不特定話者モデルＡ〜Ｃが特定されている。例えば、第１の話者Ｘの音声信号と不特定話者モデルＡとの第１の類似度は、０．９であり、第１の話者Ｘの音声信号と不特定話者モデルＢとの第１の類似度は、０．７であり、第１の話者Ｘの音声信号と不特定話者モデルＣとの第１の類似度は、０．４である。モデル特定部１５は、第１の話者Ｘを識別する識別情報と、特定した複数の不特定話者モデルＡ〜Ｃとを対応付けたテーブルを、第２の話者モデル格納部１６に記憶する。

次に、モデル作成部２１は、モデル特定部１５によって特定された複数の不特定話者モデルＡ〜Ｃと、取得された第１の話者Ｘの音声信号とに基づいて、第１の話者Ｘに対応する話者モデルＸ’を新たに作成する。モデル作成部２１は、第１の話者Ｘを識別する識別情報と、第１の話者Ｘに対応する新たに作成した話者モデルＸ’とを対応付けて第３の話者モデル格納部２２に記憶する。

次に、モデル特定部１５は、第１の類似度算出部１４によって算出された第１の類似度が所定の値以上である複数の不特定話者モデルを特定する。図１２では、第１の類似度が０．４以上である複数の不特定話者モデルＤ〜Ｆが特定されている。例えば、第１の話者Ｙの音声信号と不特定話者モデルＤとの第１の類似度は、０．８であり、第１の話者Ｙの音声信号と不特定話者モデルＥとの第１の類似度は、０．５であり、第１の話者Ｙの音声信号と不特定話者モデルＦとの第１の類似度は、０．４である。モデル特定部１５は、第１の話者Ｙを識別する識別情報と、特定した複数の不特定話者モデルＤ〜Ｆとを対応付けたテーブルを、第２の話者モデル格納部１６に記憶する。

次に、モデル作成部２１は、モデル特定部１５によって特定された複数の不特定話者モデルＤ〜Ｆと、取得された第１の話者Ｙの音声信号とに基づいて、第１の話者Ｙに対応する話者モデルＹ’を新たに作成する。モデル作成部２１は、第１の話者Ｙを識別する識別情報と、第１の話者Ｙに対応する新たに作成した話者モデルＹ’とを対応付けて第３の話者モデル格納部２２に記憶する。

このように、本実施の形態２では、取得した第１の話者の音声信号に類似する複数の他者の話者モデルを用いて第１の話者に対応する新たな話者モデルが作成されるので、新たに作成された話者モデルを用いて話者をより高い精度で識別することができる。

（実施の形態３）
図１３は、本実施の形態３における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。

図１３に示す話者識別装置は、音声入力部１１、第１の音声分析部１２、第１の話者モデル格納部１３、第１の類似度算出部１４、モデル特定部１５、第２の音声分析部１７、モデル作成部２１、第３の話者モデル格納部２２、第３の類似度算出部２３及び話者識別部２４を備える。

また、学習モード処理部２０１は、音声入力部１１、第１の音声分析部１２、第１の話者モデル格納部１３、第１の類似度算出部１４、モデル特定部１５、モデル作成部２１及び第３の話者モデル格納部２２で構成される。識別モード処理部２０２は、音声入力部１１、第２の音声分析部１７、第３の話者モデル格納部２２、第３の類似度算出部２３及び話者識別部２４で構成される。

なお、実施の形態３において、実施の形態１及び実施の形態２と同じ構成については同じ符号を付し、説明を省略する。

実施の形態３が実施の形態２と異なる点は、実施の形態３の話者識別装置が、実施の形態２における第２の話者モデル格納部１６及び第２の類似度算出部１８を備えていない点である。実施の形態３において、モデル特定部１５は、特定した複数の不特定話者モデルを、第１の話者を識別する識別情報に対応付けて第２の話者モデル格納部１６に記憶しない。そのため、実施の形態３の識別モード処理では、特定した複数の不特定話者モデルと第２の話者の音声信号とに基づいて新たに作成された話者モデルのみを用いて、話者が識別される。

モデル作成部２１は、モデル特定部１５によって特定された複数の不特定話者モデルと、取得された第１の話者の音声信号とに基づいて、第１の話者に対応する話者モデルを新たに作成する。モデル作成部２１は、第１の話者を識別する識別情報と、作成した話者モデルとを対応付けて第３の話者モデル格納部２２に記憶する。

第３の話者モデル格納部２２は、ハードウェア構成として、例えば、メモリであってもよい。メモリとは、例えば、半導体メモリ、ハードディスクといったような書き込み可能な記録媒体である。

話者識別部２４は、第３の類似度算出部２３によって算出された第３の類似度に基づいて、第２の話者に対応する第３の話者モデル格納部２２に記憶されている複数の第１の話者の中の一人を特定する。

続いて、本実施の形態３における話者識別装置の学習モード処理及び識別モード処理のそれぞれの動作について説明する。

図１４は、本実施の形態３における話者識別装置の学習モード処理の動作について説明するためのフローチャートである。

なお、図１４に示すステップＳ４１〜ステップＳ４４の処理は、図２に示すステップＳ１〜ステップＳ４の処理と同じであるので説明を省略する。

ステップＳ４５において、モデル作成部２１は、モデル特定部１５によって特定された複数の不特定話者モデルと、取得された第１の話者の音声信号とに基づいて、第１の話者に対応する話者モデルを新たに作成する。

次に、ステップＳ４６において、モデル作成部２１は、第１の話者を識別する識別情報と、作成した話者モデルとを対応付けて第３の話者モデル格納部２２に記憶する。

図１５は、本実施の形態３における話者識別装置の識別モード処理の動作について説明するためのフローチャートである。

なお、図１５に示すステップＳ５１〜ステップＳ５５の処理は、図１１に示すステップＳ３１〜ステップＳ３５の処理と同じであるので説明を省略する。

ステップＳ５４において所定値以上の第３の類似度がないと判断された場合（ステップＳ５４でＮＯ）、ステップＳ５６において、話者識別部２４は、第２の話者を特定することができないことを通知する。話者識別装置が表示部を備えている場合、話者識別部２４は、第２の話者を特定することができないことを示す画面を表示部に表示する。また、話者識別装置が音声出力部を備えている場合、話者識別部２４は、第２の話者を特定することができないことを示す音声を音声出力部から出力する。なお、所定値以上の第３の類似度がないと判断された場合、第２の話者を特定することができないことを通知することなく、処理を終了してもよい。

このように、本実施の形態３では、取得した第１の話者の音声信号に類似する複数の他者の話者モデルを用いて第１の話者に対応する新たな話者モデルが作成されるので、新たに作成された話者モデルを用いて話者をより高い精度で識別することができる。

なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって各構成要素の動作または機能が実現されてもよい。

各構成要素の動作または機能を実現するときに利用するデータは、半導体メモリ、または、ハードディスクなどの書き込み可能な記録媒体に記録されてもよい。

本開示に係る話者識別方法及び話者識別装置は、識別対象である話者の話者モデルが作成されていない場合であっても、より高い精度で話者を識別することができ、取得した音声信号に基づいて話者を識別する話者識別方法及び話者識別装置として有用である。

１，１０１，２０１学習モード処理部
２，１０２，２０２識別モード処理部
１１音声入力部
１２第１の音声分析部
１３第１の話者モデル格納部
１４第１の類似度算出部
１５モデル特定部
１６第２の話者モデル格納部
１７第２の音声分析部
１８第２の類似度算出部
１９，２４話者識別部
２１モデル作成部
２２第３の話者モデル格納部
２３第３の類似度算出部

Claims

複数の不特定話者と、前記複数の不特定話者の音声の特徴をモデル化した複数の不特定話者モデルとを対応付けて記憶する第１のデータベースを用いて、前記第１のデータベースに記憶されていない複数の第１の話者と、前記複数の不特定話者モデルとを対応付けて記憶する第２のデータベースを作成する学習モード処理と、
前記第２のデータベースを用いて、第２の話者を識別する識別モード処理とを含み、
前記学習モード処理において、
前記複数の第１の話者のそれぞれ音声信号を取得し、
取得された前記複数の第１の話者のそれぞれの前記音声信号における特徴量と、前記第１のデータベースに記憶されている前記複数の不特定話者モデルにおける各特徴量との第１の類似度をそれぞれ算出し、
算出された前記第１の類似度が所定の値以上である複数の不特定話者モデルを特定し、
前記複数の第１の話者のそれぞれと、特定された前記複数の不特定話者モデルとを対応付けて前記第２のデータベースに記憶し、
前記識別モード処理において、
前記第２の話者の音声信号を取得し、
取得された前記第２の話者の前記音声信号における特徴量と、前記第２のデータベースに記憶されており、前記第１の話者に対応付けられている前記複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を前記複数の第１の話者毎にそれぞれ算出し、
算出された前記複数の第２の類似度に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する、
話者識別方法。
算出された前記複数の第２の類似度を合計した合計値を前記第１の話者毎に算出し、算出した前記合計値に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する、
請求項１記載の話者識別方法。
算出された前記複数の第２の類似度のそれぞれに前記第１の類似度の順位に応じた重み付け値を乗算することにより前記複数の第２の類似度を補正し、
補正した前記複数の第２の類似度を合計した合計値を前記第１の話者毎に算出し、算出した前記合計値に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する、
請求項１記載の話者識別方法。
前記重み付け値は、前記第１の類似度が高い順に高くする、
前記請求項３に記載の話者識別方法。
算出された前記複数の第２の類似度のそれぞれに前記第１の類似度を乗算することにより前記複数の第２の類似度を補正し、
補正した前記複数の第２の類似度を合計した合計値を前記第１の話者毎に算出し、算出した前記合計値に基づいて、前記第２の話者が前記第２のデータベースに記憶されている前記第１の話者のいずれであるかを特定する、
請求項１記載の話者識別方法。
算出された前記複数の第２の類似度のうち、所定の値以上である前記複数の第２の類似度を合計した合計値を前記第１の話者毎に算出し、算出した前記合計値に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する、
請求項１記載の話者識別方法。
算出した前記合計値が最も高い前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人が、前記第２の話者として特定される、
請求項２〜６のいずれか１項に記載の話者識別方法。
前記学習モード処理において、
特定された前記複数の不特定話者モデルと、取得された前記第１の話者の前記音声信号とに基づいて、前記複数の第１の話者に対応する複数の話者モデルを新たに作成し、
作成した前記複数の話者モデルを前記複数の第１の話者に対応付けて第３のデータベースに記憶し、
前記識別モード処理において、
取得された前記第２の話者の音声信号における特徴量と、前記第３のデータベースに記憶されている前記第１の話者に対応付けられている前記話者モデルにおける特徴量との第３の類似度を前記第１の話者毎に算出し、
算出された前記第３の類似度に基づいて、前記第２の話者に対応する前記第３のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する、
請求項１〜７のいずれか１項に記載の話者識別方法。
前記第２の話者が前記第３のデータベースに記憶されている前記複数の第１の話者のいずれにも特定されない場合、取得された前記第２の話者の音声信号における特徴量と、前記第２のデータベースに記憶されており、前記第１の話者に対応付けられている前記複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を前記第１の話者毎にそれぞれ算出し、
算出された前記複数の第２の類似度に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する、
請求項８記載の話者識別方法。
前記識別モード処理が行われた後、前記学習モード処理において算出された各々の前記不特定話者モデルに対応する前記第１の類似度と、前記識別モード処理において算出された各々の前記不特定話者モデルに対応する前記第２の類似度とを比較し、
前記第１の類似度と前記第２の類似度との差異が所定値以上である前記不特定話者モデルが所定数以上存在する場合、前記学習モード処理を再度行う、
請求項１〜９のいずれか１項に記載の話者識別方法。
前記識別モード処理が行われた後、前記学習モード処理において算出された各々の前記不特定話者モデルに対応する前記第１の類似度と、前記識別モード処理において算出された各々の前記不特定話者モデルに対応する前記第２の類似度とを比較し、
前記第１の類似度と前記第２の類似度との差異が所定値以上である前記不特定話者モデルが所定数以上存在する場合、前記第２のデータベースに記憶されている前記差異が所定値以上である前記不特定話者モデルに対応する前記第１の類似度を前記識別モード処理において算出した前記第２の類似度に修正する、
請求項１〜９のいずれか１項に記載の話者識別方法。
前記学習モード処理、前記識別モード処理のうちの少なくとも一方はプロセッサにより実行される、
請求項１に記載の話者識別方法。
複数の不特定話者と、前記複数の不特定話者の音声の特徴をモデル化した複数の不特定話者モデルとを対応付けて記憶する第１のデータベースを用いて、前記第１のデータベースに記憶されていない第１の話者と、前記複数の不特定話者モデルとを対応付けて記憶する第２のデータベースを作成する学習モード処理部と、
前記第２のデータベースを用いて、第２の話者を識別する識別モード処理部とを備え、
前記学習モード処理部は、
前記複数の第１の話者のそれぞれの音声信号を取得する第１の音声取得部と、
第１の音声取得部によって取得された前記複数の第１の話者のそれぞれの前記音声信号における特徴量と、前記第１のデータベースに記憶されている前記複数の不特定話者モデルにおける各特徴量との第１の類似度をそれぞれ算出する第１の類似度算出部と、
前記第１の類似度算出部によって算出された前記第１の類似度が所定の値以上である複数の不特定話者モデルを特定する第１の特定部と、
前記複数の第１の話者のそれぞれと、前記第１の特定部によって特定された前記複数の不特定話者モデルとを対応付けて前記第２のデータベースに記憶する記憶処理部とを含み、
前記識別モード処理部は、
前記第２の話者の音声信号を取得する第２の音声取得部と、
前記第２の音声取得部によって取得された前記第２の話者の前記音声信号における特徴量と、前記第２のデータベースに記憶されており、前記第１の話者に対応付けられている前記複数の不特定話者モデルにおける各特徴量との複数の第２の類似度を前記第１の話者毎にそれぞれ算出する第２の類似度算出部と、
前記第２の類似度算出部によって算出された前記複数の第２の類似度に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する第２の特定部とを含む、
話者識別装置。
前記学習モード処理部、前記識別モード処理部のうちの少なくとも一方はプロセッサを含む、
請求項１３に記載の話者識別装置。
複数の不特定話者と、前記複数の不特定話者の音声の特徴をモデル化した複数の不特定話者モデルとを対応付けて記憶する第１のデータベースを用いて、前記第１のデータベースに記憶されていない第１の話者と、前記複数の不特定話者モデルとを対応付けて記憶する第２のデータベースを作成する学習モード処理と、
前記第２のデータベースを用いて、第２の話者を識別する識別モード処理とを含み、
前記学習モード処理において、
前記複数の第１の話者それぞれの音声信号を取得し、
取得された前記複数の第１の話者のそれぞれの前記音声信号における特徴量と、前記第１のデータベースに記憶されている前記第１の話者とは異なる前記複数の不特定話者の前記複数の不特定話者モデルにおける各特徴量との第１の類似度を算出し、
算出された前記第１の類似度が所定の値以上である複数の不特定話者モデルを特定し、
特定された前記複数の不特定話者モデルと、取得された前記複数の第１の話者のそれぞれの前記音声信号とに基づいて、前記複数の第１の話者のそれぞれに対応する話者モデルを新たに作成し、
作成した前記話者モデルを前記第１の話者に対応付けて前記第２のデータベースに記憶し、
前記識別モード処理において、
前記第２の話者の音声信号を取得し、
取得された前記第２の話者の前記音声信号における特徴量と、前記第２のデータベースに記憶されている前記第１の話者に対応付けられている話者モデルにおける特徴量との複数の第２の類似度を前記第１の話者毎に算出し、
算出された前記複数の第２の類似度に基づいて、前記第２の話者に対応する前記第２のデータベースに記憶されている前記複数の第１の話者の中の一人を特定する、
話者識別方法。
前記学習モード処理、前記識別モード処理のうちの少なくとも一方はプロセッサにより実行される、
請求項１５に記載の話者識別方法。