JP2015175915A

JP2015175915A - 話者認識装置、話者認識方法及び話者認識プログラム

Info

Publication number: JP2015175915A
Application number: JP2014050753A
Authority: JP
Inventors: 学川▲崎▼; Manabu Kawasaki; 拓明夏見; Hiroaki Natsumi; 康貴田中; Yasutaka Tanaka
Original assignee: Sohgo Security Services Co Ltd
Current assignee: Sohgo Security Services Co Ltd
Priority date: 2014-03-13
Filing date: 2014-03-13
Publication date: 2015-10-05
Anticipated expiration: 2034-03-13
Also published as: JP6377921B2

Abstract

【課題】照合対象者の登録音声データを適正な状態で保持し、話者認識の精度を向上すること。
【解決手段】話者認識部３１の登録処理部４５は、複数の登録音声データから所定データ数の登録音声データを選択して登録音声セットを構築し、登録音声セットを話者に対応付けて記憶部４６に格納する。認識処理部４８は、入力音声データと登録音声セット内の登録音声データとの類似度に基づいて前記話者を識別する。このため、登録音声データから不適切なデータを除去し、もって話者認識の精度を向上することができる。
【選択図】図２

Description

この発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識装置、話者認識方法及び話者認識プログラムに関する。

従来、音声データに基づいて該音声データの話者を認識する技術が知られている。例えば、特許文献１は、照合対象者の音声データから予め登録モデルデータを生成して格納し、入力音声データを分析した音声分析データと登録モデルデータとを照合処理することで、入力音声データの話者が照合対象者であるか否かを判定する話者認識システムを開示している。

かかる話者認識では、登録モデルデータが認識精度に大きな影響を与える。単一の音声データから登録モデルデータを構築すると、当該音声データが不適切であった場合に認識精度が大きく低下するので、複数の音声データから登録モデルデータを構築するか、複数の音声データを登録モデルデータとして用いることが行われている。

特開２００５−０９１７５８号公報

しかしながら、従来の技術では、必ずしも照合対象者の登録モデルデータが適正な状態になるとは限らず、認識精度が低下する場合があるという問題点があった。具体的には、登録時に得られた複数の音声データに不適切な音声データが混在している場合には、不適切な音声データが登録モデルデータに影響を与え、認識精度の低下を招く。また、登録時に適正な状態であったとしても、話者側の音声が経時変化等により変化すると、認識精度の低下が発生することになる。

これらのことから、照合対象者の音声データを適正な状態で保持して入力音声データと比較することにより、話者認識の精度を向上することが重要な課題となっている。

本発明は、上述した従来技術の課題を解決するためになされたものであって、照合対象者の音声データを適正な状態で保持し、もって話者認識の精度を向上した話者認識装置、話者認識方法及び話者認識プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するため、請求項１に記載の発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識装置であって、識別すべき話者について、複数の登録音声データを受け付ける登録音声データ受付手段と、前記登録音声データ受付手段が受け付けた複数の登録音声データから所定データ数の登録音声データを選択する登録音声データ選択手段と、前記登録音声データ選択手段が選択した所定データ数の登録音声データを前記話者に対応付けて記憶する記憶手段と、前記入力音声データと前記記憶手段に格納された前記登録音声データとの類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に基づいて前記話者を識別する話者識別手段とを備えたことを特徴とする。

また、請求項２に記載の発明は、請求項１に記載の発明において、前記登録音声データ選択手段は、前記登録音声データ受付手段が受け付けた複数の登録音声データの各々について、前記登録音声データ受付手段が受け付けた他の登録音声データとの類似度を算出し、他の登録音声データとの類似度が低い登録音声データを選択対象から除外することにより、前記登録音声データ受付手段が受け付けた複数の登録音声データから所定データ数の登録音声データを選択することを特徴とする。

また、請求項３に記載の発明は、請求項１に記載の発明において、前記登録音声データ選択手段は、前記登録音声データ受付手段が受け付けた複数の登録音声データの各々について、当該登録音声データを選択対象から除外した場合の前記複数の登録音声データの距離の分散を算出し、分散が最小となるよう登録音声データを除外することにより、前記登録音声データ受付手段が受け付けた複数の登録音声データから所定データ数の登録音声データを選択することを特徴とする。

また、請求項４に記載の発明は、請求項１、２又は３に記載の発明において、前記記憶手段は、同一の話者の所定データ数の登録音声データを登録音声セットとし、同一の話者について複数の登録音声セットを対応付けて記憶することを特徴とする。

また、請求項５に記載の発明は、請求項４に記載の発明において、前記話者識別手段による識別が行われた場合に、当該識別に寄与した登録音声セットを示す実績データを蓄積するとともに、前記入力音声データを更新準備セットの登録音声データとして格納し、前記実績データにより識別への寄与が少ないことが示された登録音声セットを削除するとともに前記更新準備セットを新規の登録音声セットとして追加する更新処理手段をさらに備えたことを特徴とする。

また、請求項６に記載の発明は、請求項１〜５のいずれか一つに記載の発明において、前記話者識別手段は、前記類似度算出手段により算出された複数の類似度のうち、最も高い類似度に対応する話者を前記入力音声データの話者候補とし、前記類似度算出手段により算出された複数の類似度のうち、最も高い類似度が所定の照合閾値を超える場合に、前記話者候補と前記入力音声データの話者とが同一人物であると判定する話者照合手段をさらに備えたことを特徴とする。

また、請求項７に記載の発明は、請求項１〜６のいずれか一つに記載の発明において、前記類似度算出手段は、前記登録音声データと前記入力音声データとの距離の小ささを前記類似度の高さとして算出することを特徴とする。

また、請求項８に記載の発明は、請求項６又は７に記載の発明において、監視対象に対する監視動作を行なう監視手段と、前記入力音声データに含まれる単語を判定する単語判定手段と、前記話者照合手段により、前記入力音声データの話者が前記識別すべき話者であるとの照合結果が得られた場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の監視動作を制御する制御手段とをさらに備えたことを特徴とする。

また、請求項９に記載の発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識方法であって、識別すべき話者について、複数の登録音声データを受け付ける登録音声データ受付ステップと、前記登録音声データ受付ステップで受け付けた複数の登録音声データから所定データ数の登録音声データを選択する登録音声データ選択ステップと、前記登録音声データ選択ステップで選択した所定データ数の登録音声データを前記話者に対応付けて記憶部に格納する格納ステップと、前記入力音声データと前記記憶部に格納された前記登録音声データとの類似度を算出する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて前記話者を識別する話者識別ステップとを含んだことを特徴とする。

また、請求項１０に記載の発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識プログラムであって、識別すべき話者について、複数の登録音声データを受け付ける登録音声データ受付手順と、前記登録音声データ受付手順で受け付けた複数の登録音声データから所定データ数の登録音声データを選択する登録音声データ選択手順と、前記登録音声データ選択手順で選択した所定データ数の登録音声データを前記話者に対応付けて記憶部に格納する格納手順と、前記入力音声データと前記記憶部に格納された前記登録音声データとの類似度を算出する類似度算出手順と、前記類似度算出手順により算出された類似度に基づいて前記話者を識別する話者識別手順とをコンピュータに実行させることを特徴とする。

本発明によれば、識別すべき話者について複数の登録音声データを受け付け、複数の登録音声データから所定データ数の登録音声データを選択し、選択した所定データ数の登録音声データを話者に対応付けて記憶し、入力音声データと登録音声データとの類似度に基づいて話者を識別するよう構成したので、照合対象者の音声データを適正な状態で保持し、もって話者認識の精度を向上することができる。

図１は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図２は、図１に示した話者認識部の内部構成を示す内部構成図である。図３は、図２に示した話者登録データについて説明するための説明図である。図４は、不適切な登録音声データの影響について説明する説明図である。図５は、登録音声データの選択について説明するための説明図である。図６は、更新候補セットの生成について説明するための説明図である。図７は、登録音声セットの入替について説明するための説明図である。図８は、登録モードにおける話者認識部の処理手順を示すフローチャートである。図９は、図８に示した音声データ選択処理の処理手順を示すフローチャートである。図１０は、認識モードにおける話者認識部の処理手順を示すフローチャートである。図１１は、図１０に示した距離算出処理の処理手順を示すフローチャートである。図１２は、図１０のステップＳ３０８に示した更新処理の処理手順を示すフローチャートである。図１３は、不適切な登録音声データの具体例について説明する説明図である。図１４は、話者登録データの更新による効果についての説明図である。

以下に、添付図面を参照して、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムの好適な実施例を詳細に説明する。以下に示す実施例では、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムを住宅用のホームセキュリティシステムに適用した場合について説明する。

図１は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図１に示すホームセキュリティシステムは、監視装置６０にドア監視装置１１、窓監視装置１２、火災検知装置１３及び話者認識装置３０を接続し、話者認識装置３０にマイクロホン２０を接続した構成を有する。

ドア監視装置１１は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置１１は、ピッキングなどの侵入の試みを検知した場合には、監視装置６０に対して報知を行なう。

窓監視装置１２は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置１２は、窓に対する衝撃等を検知した場合には、監視装置６０に対して報知を行なう。

火災検知装置１３は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置１３は、火災の発生を検知した場合には、監視装置６０に対して報知を行なう。

マイクロホン２０は、玄関等の出入口に設置され、音響信号を取得して話者認識装置３０に出力する装置である。マイクロホン２０は、常に動作し、音響信号の取得及び出力を行なう。なお、人感センサ等を用いて音響信号の取得のオンオフ切替をおこなってもよい。話者認識装置３０は、任意の場所に設置可能である。また、マイクロホン２０を話者認識装置３０の筐体内に設けてもよい。

話者認識装置３０は、マイクロホン２０が取得した音響信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置６０に出力する。話者認識装置３０は、話者認識部３１及びテキスト判別部３２を有し、監視装置６０は、監視制御部３３及び監視部３４を有する。話者認識部３１は、マイクロホン２０が取得した音響信号から音声を切り出し、該音声が居住者の音声であるか否かを認識し、認識結果を監視装置６０の監視制御部３３に出力する。また、テキスト判別部３２は、マイクロホン２０が取得した音響信号から音声を切り出し、該音声内の単語をテキスト情報として監視装置６０の監視制御部３３に出力する。

監視制御部３３は、話者認識部３１により話者が居住者であると認識された場合に、テキスト判別部３２から出力されたテキスト情報に基づいて、監視部３４の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部３４による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部３４による監視動作を終了させる。

監視部３４は、ドア監視装置１１、窓監視装置１２及び火災検知装置１３の出力を用いて、住居の監視を行なう処理部である。具体的には、監視部３４は、監視制御部３３から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置１１、窓監視装置１２又は火災検知装置１３から異常発生の報知を受けた場合には、警報動作を行なうとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部３３から終了指示を受けた場合に終了する。

このように、本実施例に係るホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行なうことが可能である。

次に、図１に示した話者認識部３１の内部構成について説明する。図２は、図１に示した話者認識部３１の内部構成を示す内部構成図である。図２に示すように、話者認識部３１は、ＡＤ変換部４１、音声区間抽出部４２、特徴パラメータ算出部４３、切替部４４、登録処理部４５、記憶部４６、距離算出部４７、認識処理部４８及び更新処理部４９を有する。

ＡＤ変換部４１は、マイクロホン２０が取得した音響信号をアナログ信号からデジタル信号に変換し、音声区間抽出部４２に出力する処理を行なう処理部である。

音声区間抽出部４２は、ＡＤ変換部４１によりデジタル信号に変換された音響信号から音声区間を抽出する処理部である。音声区間の抽出は、音響信号の信号パワーやゼロクロス数等に基づいて行なうことができる。

特徴パラメータ算出部４３は、音声区間抽出部４２から出力された音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する処理部である。特徴パラメータの算出手法としては、ＬＰＣ（Linear Predictive Coding）ケプストラム係数や、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）等の任意の手法を用いることができる。

切替部４４は、話者認識部３１の動作モードを切り替える処理部である。話者認識部３１の動作モードには、登録モードと認識モードとがある。切替部４４により登録モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、登録音声データとして登録処理部４５に出力される。一方、切替部４４により認識モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、入力音声データとして距離算出部４７に出力される。

登録処理部４５は、登録対象となる居住者に対し、当該居住者の登録音声データを対応付けて話者登録データを生成し、記憶部４６に格納する。このとき、登録処理部４５は、同一話者の登録音声データを所定数含む登録音声セットを構築して居住者に対応付ける。

また、登録処理部４５は、音声データ選択処理部４５ａを有する。音声データ選択処理部４５ａは、登録時に受け付けた複数の登録音声データから登録音声セットに格納する登録音声データを選択する処理部である。音声データ選択処理部４５ａの具体的な動作については後述する。

記憶部４６は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、話者登録データを記憶する。話者登録データには、識別すべき話者である居住者に関する情報と、当該居住者の登録音声データを所定数格納した登録音声セットと、登録音声セットを更新するための登録音声データを格納した更新準備セットとが含まれる。図２では、記憶部４６は、話者登録データＲ１及び話者登録データＲ２を記憶している。

距離算出部４７は、入力音声データと登録音声データとの距離の小ささを類似度の高さとして算出する処理部である。具体的には、距離算出部４７は、同一の登録音声データから複数の部分登録音声データを切り出すとともに、入力音声データから複数の部分入力音声データを切り出し、部分登録音声データと部分入力音声データとの組合せについてそれぞれ距離を算出し、算出した複数の距離のうち、最小の距離を当該登録音声データと入力音声データとの距離とする。なお、算出した複数の距離の平均を登録音声データとの距離としてもよい。

距離算出部４７は、入力音声データと登録音声データとの距離を認識処理部４８に出力する。距離算出部４７による距離の算出と出力は、記憶部４６に格納された複数の登録音声データについてそれぞれ行なう。

認識処理部４８は、話者識別部４８ａと、話者照合部４８ｂとを有する。話者識別部４８ａは、距離算出部４７により算出された距離が最小となる登録音声データを選択する。この登録音声データの話者が、入力音声データの話者候補となる。

話者照合部４８ｂは、話者識別部４８ａにより選択された登録音声データと入力音声データとの距離と、照合閾値とを比較する。この距離が照合閾値よりも小さいならば、話者照合部４８ｂは、当該登録音声データの話者と入力音声データの話者とが一致すると判定する。距離の小ささは、類似度の高さに対応するため、距離が照合閾値以下であることは、類似度が所定の類似度閾値以上であることを意味する。話者照合部４８ｂは、判定結果を監視装置６０及び更新処理部４９に出力する。

更新処理部４９は、認識モードにおける認識結果に基づいて、話者登録データを更新する処理部である。具体的には、更新処理部４９は、認識処理部４８の話者照合部４８ｂにより入力音声データの話者が登録音声データの話者と一致すると判定された場合に、入力音声データを当該話者の登録音声セットを更新するための登録音声データとして更新準備セットに格納する。そして、更新準備セットに登録音声データが十分に蓄積されたならば、音声データ選択処理部４９ａにより所定数の登録音声データを選択し、更新候補セットとする。

更新候補セットを生成した更新処理部４９は、話者登録データ内の登録音声セットが上限に達していなければ、更新候補セットを登録音声セットとして追加登録する。話者登録データ内の登録音声セットが上限に達しているならば、更新処理部４９は、音声セット選択処理部４９ｂによる音声セットの選択を行う。

音声セット選択処理部４９ｂは、既存の登録音声セットに識別への寄与の実績がない登録音声セットが存在するか否かを判定する。識別への寄与の実績がない登録音声セットが存在する場合には、音声セット選択処理部４９ｂは、当該登録音声セットを削除し、更新候補セットを登録音声セットとして追加登録する。既存の登録音声セットのいずれも識別への寄与の実績があるならば、音声セット選択処理部４９ｂは、更新候補セットと識別への寄与の実績とをリセットする。

図３は、図２に示した話者登録データについて説明するための説明図である。図３に示すように、話者登録データＲ１は、話者データ、登録音声セット及び更新準備セットを対応付けたデータである。

話者データは、話者登録データＲ１の話者に関する情報であり、氏名、性別、年齢等を示す。登録音声セットは、当該話者の登録音声データを所定数含む登録音声データのセットである。図３では、登録音声セットＧ１〜Ｇｍのｍ個の登録音声セットが話者登録データＲ１に含まれている。そして、登録音声セットＧ１〜Ｇｍは、それぞれ登録音声データｖ１〜ｖ（Ｎ−ｎ）の（Ｎ−ｎ）個の登録音声データを含む。

話者登録データＲ１を最初に登録した場合には、登録モードにて少なくとも１つの登録音声セットが生成される。その後、認識モードにおける認識結果に基づいて、登録音声セットの追加と入替が行われることになる。

更新準備セットＧ０は、登録音声セットの追加や入替を行うための登録音声データを格納した登録音声データのセットである。認識モードで入力音声データの話者が当該登録音声データの話者と一致すると判定された場合に、入力音声データは登録音声データとして更新準備セットＧ０に追加される。

このとき、話者識別部４８ａにより選択された登録音声データが属する登録音声セットを示す照合実績データを生成し、更新準備セットＧ０に追加した登録音声データに対応付ける。すなわち、照合実績データは、どの登録音声セットを用いた識別によって入力音声データが登録音声データとして登録されたかを示す。

図３では、更新準備セットＧ０は、登録音声データｖ１〜ｖＮのＮ個の登録音声データを含む。そして、登録音声データｖ１〜ｖＮにはそれぞれ照合実績データｄ１〜ｄＮが対応付けられている。

更新準備セットＧ０にＮ個の登録音声データが蓄積されたならば、音声データ選択処理部４９ａにより所定数（Ｎ−ｎ）の登録音声データが選択され、更新候補セットが生成される。

その後、登録音声セットが上限ｍ個に達していなければ、更新候補セットは登録音声セットとして追加登録される。登録音声セットが上限ｍ個に達しているならば、照合実績データｄ１〜ｄ（Ｎ−ｎ）に基づいて登録音声セットの入替、若しくは更新準備セットのリセットを行う。

次に、登録音声データの選択について説明する。図４は、不適切な登録音声データの影響について説明する説明図である。図４では、登録音声データと入力音声データとの距離と、その頻度の分布とを示している。なお、登録音声データの話者と入力音声データの話者とが同一である場合の距離の分布が「本人分布」であり、登録音声データの話者と入力音声データの話者とが異なる場合の距離の分布が「他人分布」である。

同一人物であるにも関わらず他人と認識する「本人拒否」を回避するためには、話者の照合を行うための照合閾値を大きくし、本人分布が照合閾値以下となるようにすることが有効である。一方、他人であるにも関わらず同一人物と認識する「他人受容」を回避するためには、照合閾値を小さくし、他人分布が照合閾値以上となるようにすることが有効である。

図４（ａ）に示すように、適切な登録音声データを使用し、不適切な登録音声データが含まれていなければ、本人分布の分散は小さくなり、他人分布と重ならない。そのため、本人分布と他人分布とを峻別する距離を照合閾値とすれば、本人拒否が発生する本人拒否率と他人受容が発生する他人受容率の双方を十分に低くすることができる。

ところが、図４（ｂ）に示すように、不適切な登録音声データが含まれていると、本人分布の分散が広くなり、他人分布と重なりが生じるので、適切な照合閾値を設定することができなくなる。図４（ｂ）に示すように、本人拒否率を十分に下げるよう照合閾値を設定すると、他人受容率が高まってしまうのである。同様に、他人受容率を下げようとすると、本人拒否率が高まってしまう。

ここで、不適切な登録音声データとは、例えば、本人の音声に雑音や他人の話し声などが重畳した場合に生じる。従って、登録時に雑音などが重畳し、不適切な登録音声データが話者登録データに混入すると、以降の認識の全てに影響を与えることとなる。

そこで、登録処理部４５の音声データ選択処理部４５ａは、登録時に受け付けた複数の登録音声データから、不適切な登録音声データを除外し、登録音声セットに格納する登録音声データを選択する。

図５は、登録音声データの選択について説明するための説明図である。まず、音声データ選択処理部４５ａは、図５（ａ）に示すように、登録対象の話者がＮ回発話した音声からそれぞれの特徴量を算出して得られた登録音声データｖ１〜ｖＮを蓄積する。

次に、音声データ選択処理部４５ａは、図５（ｂ）に示すように、登録音声データｖ１〜ｖＮの各組合せについて距離を算出する。この距離の算出は、距離算出部４７による距離の算出と同様である。音声データ選択処理部４５ａは、各登録音声データについて、他の登録音声データとの距離の平均を算出する。例えば、登録音声データｖ１については登録音声データｖ１と登録音声データｖ２〜ｖＮとの距離の平均を算出し、登録音声データｖ２については登録音声データｖ２と登録音声データｖ１，ｖ３〜ｖＮとの距離の平均を算出することになる。そして、距離の平均が最大となるものを選択対象から除外する。図５（ｂ）では、登録音声データｖ５が選択対象から除外することになる。

音声データ選択処理部４５ａは、かかる処理を繰り返し、選択対象の数が所定数（Ｎ−ｎ）となった場合に、残った登録音声データを登録音声セットに格納する登録音声データとして選択する。

なお、ここでは距離の平均を用いたが、距離の合計を用いてもよい。また、距離の平均や合計に対して閾値を設定し、該閾値を超える登録音声データを選択対象から除外してもよい。

また、登録音声データの選択に際し、距離の分散を利用してもよい。この場合には、まず、登録音声データｖ１〜ｖＮを蓄積し、その一部を除外候補として、他の登録音声データの全ての組合せについて距離を求め、それらの分散を算出する。その他のデータについても同様に除外候補として分散を算出する。その結果、図５（ｃ）に示すように、不適切な登録音声データが残っていれば距離の分散が大きくなり、不適切な登録音声データを除外候補とした場合に距離の分散が小さくなる。そこで、分散の値が最も小さくなるときの除外候補を除外し、残った登録音声データを登録音声セットに格納する登録音声データとして選択する。なお、登録のための繰り返し発話回数Ｎは３以上、除去候補のデータ数ｎは１以上、Ｎ−ｎは２以上とする。

次に、登録音声セットの更新について説明する。登録時に適切な登録音声データを得られたとしても、話者の音声が経時変化等により変化すると、認識精度の低下が発生することになる。そこで、更新処理部４９は、認識モードにおける認識結果に基づいて、登録音声セットを更新する。

具体的には、更新処理部４９は、認識モードで入力音声データの話者が当該登録音声データの話者と一致すると判定された場合に、入力音声データを当該話者の登録音声データとして更新準備セットＧ０に追加する。

また、話者識別部４８ａにより選択された登録音声データが属する登録音声セット、すなわち識別に寄与した登録音声セットを示す照合実績データを生成し、更新準備セットＧ０に追加した登録音声データに対応付ける。

図６に示すように、更新準備セットＧ０にＮ個の登録音声データが蓄積されたならば、音声データ選択処理部４９ａは、所定数（Ｎ−ｎ）の登録音声データを選択し、更新候補セットを生成する。

その後、登録音声セットが上限ｍ個に達していなければ、更新候補セットは登録音声セットとして追加登録される。登録音声セットが上限ｍ個に達しているならば、音声セット選択処理部４９ｂは音声セットの選択を行う。

音声セット選択処理部４９ｂは、照合実績データｄ１〜ｄ（Ｎ−ｎ）を参照し、識別への寄与の実績がない登録音声セットが存在するか否かを判定する。識別への寄与の実績がない登録音声セットが存在する場合には、音声セット選択処理部４９ｂは、当該登録音声セットを削除し、更新候補セットを登録音声セットとして追加登録する。既存の登録音声セットのいずれも識別への寄与の実績があるならば、音声セット選択処理部４９ｂは、更新候補セットと識別への寄与の実績とをリセットする。

図７に示した例では、照合実績データｄ１〜ｄ４は、登録音声セットＧ１，Ｇ２，Ｇ３のいずれかを示しており、登録音声セットＧ２には識別の実績がない。そこで、登録音声セットＧ２が削除され、登録候補セットが新たな登録音声セットＧ２として格納されることになる。

次に、話者認識部３１の処理手順について説明する。図８は、登録モードにおける話者認識部３１の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により登録モードに設定された状態で実行される。

まず、マイクロホン２０が音響信号を取得する（ステップＳ１０１）。音声区間抽出部４２は、マイクロホン２０が取得した音響信号から音声区間を抽出する（ステップＳ１０２）。

特徴パラメータ算出部４３は、音声区間の音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ１０３）。登録処理部４５は、算出された特徴パラメータを登録音声データとして蓄積し（ステップＳ１０４）、登録音声データの数がＮ個になったか否かを判定する（ステップＳ１０５）。登録音声データの数がＮ個に満たなければ（ステップＳ１０５；Ｎｏ）、ステップＳ１０１に移行し、次の発話の音響信号を取得する。

登録音声データの数がＮ個になったならば（ステップＳ１０５；Ｙｅｓ）、音声データ選択処理部４５ａは、Ｎ個の登録音声データから（Ｎ−ｎ）個の登録音声データを選択する音声データ選択処理を行う（ステップＳ１０６）。その後、選択された（Ｎ−ｎ）個の登録音声データを登録音声セットＧ１に格納し（ステップＳ１０７）、処理を終了する。

次に、図８に示した音声データ選択処理について説明する。図９は、図８に示した音声データ選択処理の処理手順を示すフローチャートである。音声データ選択処理部４５ａは、まず、登録音声データｖ１〜ｖＮの各組合せについて距離を算出する（ステップＳ２０１）。そして、音声データ選択処理部４５ａは、各登録音声データについて、他の登録音声データとの距離の平均を算出し（ステップＳ２０２）、距離の平均が最大となる登録音声データを選択対象から除外する（ステップＳ２０３）。

ステップＳ２０３の後、音声データ選択処理部４５ａは、登録音声データの除去数がｎとなったかを判定する（ステップＳ２０４）。登録音声データの除去数がｎに達していなければ（ステップＳ２０４；Ｎｏ）、ステップＳ２０１に移行し、残った登録音声データの各組合せについて距離を算出する。登録音声データの除去数がｎとなったならば（ステップＳ２０４；Ｙｅｓ）、残った（Ｎ−ｎ）個の登録音声データを選択し（ステップＳ２０５）、音声データ選択処理を終了する。

図１０は、認識モードにおける話者認識部３１の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により認識モードに設定された状態で実行される。

まず、マイクロホン２０が音響信号を取得する（ステップＳ３０１）。音声区間抽出部４２は、マイクロホン２０が取得した音響信号から音声区間を抽出する（ステップＳ３０２）。

特徴パラメータ算出部４３は、音声区間のスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ３０３）。

距離算出部４７は、全ての話者登録データについて入力音声データとの距離をそれぞれ算出する（ステップＳ３０４）。話者識別部４８ａは、距離算出部４７により算出された距離が最も小さい話者登録データを特定する（ステップＳ３０５）。

話者照合部４８ｂは、話者識別部４８ａにより特定された話者登録データと入力音声データとの距離、すなわち距離の最小値と照合閾値とを比較する（ステップＳ３０６）。距離の最小値が照合閾値よりも小さいならば（ステップＳ３０６；Ｙｅｓ）、話者照合部４８ｂは、当該話者登録データの話者と入力データの話者とが一致すると判定し、当該話者登録データの話者データを照合結果として監視装置６０及び更新処理部４９に出力する（ステップＳ３０７）。ステップＳ３０７の後、更新処理部４９は、更新処理を行って（ステップＳ３０８）、処理を終了する。

一方、距離の最小値が照合閾値以上であるならば（ステップＳ３０６；Ｎｏ）、話者照合部４８ｂは、入力音声データに該当が無い旨を照合結果として監視装置６０に出力して処理を終了する（ステップＳ３０９）。

次に、図１０のステップＳ３０４に示した距離算出処理について説明する。図１１は、図１０に示した距離算出処理の処理手順を示すフローチャートである。距離算出部４７は、まず、話者登録データを選択する（ステップＳ４０１）。そして、選択した話者登録データから登録音声データを選択し（ステップＳ４０２）、選択した登録音声データと入力音声データとの距離を算出する（ステップＳ４０３）。

ステップＳ４０３の後、距離算出部４７は、ステップＳ４０１で選択した話者登録データ内の全ての登録音声データを選択済であるか否かを判定する（ステップＳ４０４）。その結果、未選択の登録音声データが残っているならば（ステップＳ４０４；Ｎｏ）、ステップＳ４０２に移行し、登録音声データの選択を行う。

同一の話者登録データ内の全ての登録音声データを選択済であるならば（ステップＳ４０４；Ｙｅｓ）。距離算出部４７は、同一の話者登録データ内の全ての登録音声データについて算出した距離のうち、最小の距離を当該話者登録データの距離とする（ステップＳ４０５）。

ステップＳ４０５の後、距離算出部４７は、全ての話者登録データを選択済であるか否かを判定する（ステップＳ４０６）、その結果、未選択の話者登録データが残っているならば（ステップＳ４０６；Ｎｏ）、ステップＳ４０１に移行し、話者登録データの選択を行う。そして、全ての話者登録データを選択済であるならば（ステップＳ４０６；Ｙｅｓ）、距離算出処理を終了する。

次に、図１０のステップＳ３０８に示した更新処理について説明する。図１２は、図１０に示した更新処理の処理手順を示すフローチャートである。更新処理部４９は、認識モードで入力音声データの話者が当該登録音声データの話者と一致すると判定された場合に、入力音声データを当該話者の登録音声データとして更新準備セットＧ０に追加し、蓄積する（ステップＳ５０１）。

そして、話者識別部４８ａにより選択された登録音声データが属する登録音声セット、すなわち識別に寄与した登録音声セットを示す照合実績データを生成し、更新準備セットＧ０に追加した登録音声データに対応付ける（ステップＳ５０２）。

更新処理部４９は、更新準備セットＧ０における登録音声データの蓄積数がＮとなったか否かを判定する（ステップＳ５０３）。登録音声データの蓄積数がＮに達していなければ（ステップＳ５０３；Ｎｏ）、そのまま更新処理を終了する。

登録音声データの蓄積数がＮとなったならば（ステップＳ５０３；Ｙｅｓ）、音声データ選択処理部４９ａは、音声データ選択処理を行って所定数（Ｎ−ｎ）の登録音声データを選択する（ステップＳ５０４）。この音声データ選択処理は、図９に示した音声データ選択処理と同様の処理である。

更新処理部４９は、ステップＳ５０４で選択した（Ｎ−ｎ）個の登録音声データを更新候補セットとし（ステップＳ５０５）、登録音声セット数がｍであるか否かを判定する（ステップＳ５０６）。

登録音声セット数がｍであるならば（ステップＳ５０６；Ｙｅｓ）、音声セット選択処理部４９ｂは音声セットの選択を行う。具体的には、音声セット選択処理部４９ｂは、照合実績データｄ１〜ｄ（Ｎ−ｎ）を参照し、識別への寄与の実績がない登録音声セットが存在するか否かを判定する（ステップＳ５０９）。識別への寄与の実績がない登録音声セットが存在する場合には（ステップＳ５０９；Ｙｅｓ）、音声セット選択処理部４９ｂは、当該登録音声セットを削除する（ステップＳ５１０）。

ステップＳ５１０の後、若しくは登録音声セット数がｍに達していない場合（ステップＳ５０６；Ｎｏ）、更新処理部４９は、更新候補セットを登録音声セットとして追加する（ステップＳ５０７）。

ステップ５０７の後、若しくは識別への寄与の実績がない登録音声セットが存在しない場合（ステップＳ５０９；Ｎｏ）、更新準備セットＧ０をリセットして（ステップＳ５０８）、更新処理を終了する。更新準備セットＧ０のリセットでは、登録候補セットや照合実績データもリセットされることになる。

次に、不適切な登録音声データの具体例について説明する。図１３は、不適切な登録音声データの具体例について説明する説明図である。図１３は、発話回数を４回（Ｎ＝４）とし、各登録音声データからそれ以外の登録音声データまでの距離の平均を示したものである。

図１３に示すデータ例Ｈ０は、登録音声データｖ１〜ｖ４の全てが適切な登録音声データであり、雑音が重畳した登録音声データが含まれない場合を示している。そして、データ例Ｈ１は登録音声データｖ１に雑音が重畳した場合を示し、データ例Ｈ２は登録音声データｖ２に雑音が重畳した場合を示し、データ例Ｈ３は登録音声データｖ３に雑音が重畳した場合を示し、データ例Ｈ４は登録音声データｖ４に雑音が重畳した場合を示している。

データ例Ｈ０〜Ｈ４に示したように、雑音を重畳した登録音声データは距離が他に比べて大きくなる。このため、距離の大きさから不適切な登録音声データを識別して予め除去することにより、識別時の精度を向上することができるのである。

次に、話者登録データの更新による効果について説明する。図１４は、話者登録データの更新による効果についての説明図である。具体的には、成人男性一名が週に一日、５２週（１年間）に亘り、朝昼夕の三回、同じ内容の言葉を７回ずつ発声した場合について示す。

まず、最初の７回分の内、５回分を登録音声データとした登録音声セットを生成する。この登録音声セットのみを使用すると、１年間の照合率は７９．７％となった。つぎに、認識モードでの認識結果を用いて登録音声セットを４つまで追加し、その後の入替を行わなかったケースでは、１年間の照合率は９７．６％となった。そして、４つの登録音声セットの生成後に照合実績による入替を行ったケースでは、１年間の照合率は９９．１％まで向上した。

上述してきたように、本実施例では、話者認識部３１は、複数の登録音声データから所定データ数の登録音声データを選択して登録音声セットを構築し、登録音声セットを話者に対応付けて記憶し、入力音声データと登録音声セット内の登録音声データとの類似度に基づいて前記話者を識別する。このため、登録音声データから不適切なデータを除去し、もって話者認識の精度を向上することができる。

また、認識モードにおける認識結果に基づいて、登録音声セットの追加や更新を行うことにより、経時変化等により音声の特徴に変化が生じた場合であっても認識精度の低下を抑制できる。

さらに、識別に寄与した登録音声セットを示す照合実績データを蓄積し、照合実績データにより識別への寄与が少ないことが示された登録音声セットを削除して新規の登録音声セットを追加することにより、認識精度を高く保つことが可能である。

なお、登録音声セットは、所定期間一度も照合に利用されなかった場合に削除するように構成してもよい。また、登録音声セット間で距離を算出し、距離の大きさに応じて削除するか否かを決定してもよい。

また、上記実施例では、ホームセキュリティの動作モードを音声操作により切り替える場合について説明したが、本発明に係る話者認識は、動作モードの切替に限定されるものではなく、テキスト判別により多様な操作に適用可能である。

また、上記実施例では、話者の照合が成功したことを条件にセキュリティの動作モードを切り替える構成を示したが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するよう構成してもよい。

また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。また、電話回線を介した話者認識による「振り込め詐欺対策」や、「インタホン越しの音声による本人確認」などへも適用可能である。

また、図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置の分散・統合の形態は図示のものに限られず、その全部または一部を各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、話者認識部３１の機能部をソフトウェアにより実現し、コンピュータに実行させれば、コンピュータを話者認識装置として動作させる話者認識プログラムを得ることができる。

以上のように、話者認識装置、話者認識方法及び話者認識プログラムは、照合対象者の音声データを適正な状態で保持し、話者認識の精度を向上することに適している。

１１ドア監視装置
１２窓監視装置
１３火災検知装置
２０マイクロホン
３０話者認識装置
３１話者認識部
３２テキスト判別部
３３監視制御部
３４監視部
４１ＡＤ変換部
４２音声区間抽出部
４３特徴パラメータ算出部
４４切替部
４５登録処理部
４５ａ、４９ａ音声データ選択処理部
４６記憶部
４７距離算出部
４８認識処理部
４８ａ話者識別部
４８ｂ話者照合部
４９更新処理部
４９ｂ音声セット選択処理部
６０監視装置

Claims

入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識装置であって、
識別すべき話者について、複数の登録音声データを受け付ける登録音声データ受付手段と、
前記登録音声データ受付手段が受け付けた複数の登録音声データから所定データ数の登録音声データを選択する登録音声データ選択手段と、
前記登録音声データ選択手段が選択した所定データ数の登録音声データを前記話者に対応付けて記憶する記憶手段と、
前記入力音声データと前記記憶手段に格納された前記登録音声データとの類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に基づいて前記話者を識別する話者識別手段と
を備えたことを特徴とする話者認識装置。
前記登録音声データ選択手段は、前記登録音声データ受付手段が受け付けた複数の登録音声データの各々について、前記登録音声データ受付手段が受け付けた他の登録音声データとの類似度を算出し、他の登録音声データとの類似度が低い登録音声データを選択対象から除外することにより、前記登録音声データ受付手段が受け付けた複数の登録音声データから所定データ数の登録音声データを選択することを特徴とする請求項１に記載の話者認識装置。
前記登録音声データ選択手段は、前記登録音声データ受付手段が受け付けた複数の登録音声データの各々について、当該登録音声データを選択対象から除外した場合の前記複数の登録音声データの距離の分散を算出し、分散が最小となるよう登録音声データを除外することにより、前記登録音声データ受付手段が受け付けた複数の登録音声データから所定データ数の登録音声データを選択することを特徴とする請求項１に記載の話者認識装置。
前記記憶手段は、同一の話者の所定データ数の登録音声データを登録音声セットとし、同一の話者について複数の登録音声セットを対応付けて記憶することを特徴とする請求項１、２又は３に記載の話者認識装置。
前記話者識別手段による識別が行われた場合に、当該識別に寄与した登録音声セットを示す実績データを蓄積するとともに、前記入力音声データを更新準備セットの登録音声データとして格納し、前記実績データにより識別への寄与が少ないことが示された登録音声セットを削除するとともに前記更新準備セットを新規の登録音声セットとして追加する更新処理手段をさらに備えたことを特徴とする請求項４に記載の話者認識装置。
前記話者識別手段は、前記類似度算出手段により算出された複数の類似度のうち、最も高い類似度に対応する話者を前記入力音声データの話者候補とし、
前記類似度算出手段により算出された複数の類似度のうち、最も高い類似度が所定の照合閾値を超える場合に、前記話者候補と前記入力音声データの話者とが同一人物であると判定する話者照合手段をさらに備えたことを特徴とする請求項１〜５のいずれか一つに記載の話者認識装置。
前記類似度算出手段は、前記登録音声データと前記入力音声データとの距離の小ささを前記類似度の高さとして算出することを特徴とする請求項１〜６のいずれか一つに記載の話者認識装置。
監視対象に対する監視動作を行なう監視手段と、
前記入力音声データに含まれる単語を判定する単語判定手段と、
前記話者照合手段により、前記入力音声データの話者が前記識別すべき話者であるとの照合結果が得られた場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の監視動作を制御する制御手段と
をさらに備えたことを特徴とする請求項６又は７に記載の話者認識装置。
入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識方法であって、
識別すべき話者について、複数の登録音声データを受け付ける登録音声データ受付ステップと、
前記登録音声データ受付ステップで受け付けた複数の登録音声データから所定データ数の登録音声データを選択する登録音声データ選択ステップと、
前記登録音声データ選択ステップで選択した所定データ数の登録音声データを前記話者に対応付けて記憶部に格納する格納ステップと、
前記入力音声データと前記記憶部に格納された前記登録音声データとの類似度を算出する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて前記話者を識別する話者識別ステップと
を含んだことを特徴とする話者認識方法。
入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識プログラムであって、
識別すべき話者について、複数の登録音声データを受け付ける登録音声データ受付手順と、
前記登録音声データ受付手順で受け付けた複数の登録音声データから所定データ数の登録音声データを選択する登録音声データ選択手順と、
前記登録音声データ選択手順で選択した所定データ数の登録音声データを前記話者に対応付けて記憶部に格納する格納手順と、
前記入力音声データと前記記憶部に格納された前記登録音声データとの類似度を算出する類似度算出手順と、
前記類似度算出手順により算出された類似度に基づいて前記話者を識別する話者識別手順と
をコンピュータに実行させることを特徴とする話者認識プログラム。