JP2024034016A

JP2024034016A - 音声取得装置および音声取得方法

Info

Publication number: JP2024034016A
Application number: JP2022138001A
Authority: JP
Inventors: 昭博垂口; 亮太藤井
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-03-13

Abstract

【課題】話者識別により適した音声信号を取得する。【解決手段】音声取得装置は、話者の第１音声信号を取得する取得部と、第１音声信号に含まれるノイズを除去して第２音声信号を生成するノイズ除去部と、第１音声信号に人間の音声が含まれている確からしさを示す第１尤度と、第２音声信号に人間の音声が含まれている確からしさを示す第２尤度とを算出する尤度算出部と、話者の認証に用いられる認証音声信号を決定する音声決定部と、を備え、音声決定部は、第１尤度が第２尤度以上であると判定した場合には、第１音声信号を認証音声信号に決定し、第１尤度が第２尤度以上でないと判定した場合には、第２音声信号を認証音声信号に決定する。【選択図】図１

Description

本開示は、音声取得装置および音声取得方法に関する。

特許文献１には、騒音がある環境において音声を認識する音声認識装置が開示されている。音声認識装置は、認識の対象となる音声と音声以外の音からなる音声とを含む音声信号から雑音成分を互いに異なる強度で除去して、ＳＮ比が良い第１の音声除去信号および音声成分の劣化が少ない第２の雑音除去信号を生成し、第１の雑音除去信号の信号パターンに基づいて、音声信号のうち音声成分が存在する区間を検出し、第２の雑音除去信号から区間に対応する区間の信号を抽出して、周波数変換を行い、周波数変換が行われた第２の雑音除去信号と、予め準備された音声パターン信号との類似度を求める。

特開２００６－３３０３８９号公報

しかしながら、音声認識装置は、音声認識に使用される第２の雑音除去信号に雑音除去を行うため、雑音とともにユーザの音声成分が除去され、音声認識精度が低下する可能性があった。

本開示は、上述した従来の状況に鑑みて案出され、話者識別により適した音声信号を取得する音声取得装置および音声取得方法を提供することを目的とする。

本開示は、話者の第１音声信号を取得する取得部と、前記第１音声信号に含まれるノイズを除去して第２音声信号を生成するノイズ除去部と、前記第１音声信号に人間の音声が含まれている確からしさを示す第１尤度と、前記第２音声信号に前記人間の音声が含まれている確からしさを示す第２尤度とを算出する尤度算出部と、前記話者の認証に用いられる認証音声信号を決定する音声決定部と、を備え、前記音声決定部は、前記第１尤度が前記第２尤度以上であると判定した場合には、前記第１音声信号を前記認証音声信号に決定し、前記第１尤度が前記第２尤度以上でないと判定した場合には、前記第２音声信号を前記認証音声信号に決定する、音声取得装置を提供する。

また、本開示は、音声信号に基づく話者認証を実行するコンピュータが実行する音声取得方法であって、話者の第１音声信号を取得し、前記第１音声信号に含まれるノイズを除去して第２音声信号を生成し、前記第１音声信号に人間の音声が含まれている確からしさを示す第１尤度と、前記第２音声信号に前記人間の音声が含まれている確からしさを示す第２尤度とを算出し、前記第１尤度が前記第２尤度以上であると判定した場合には、前記第１音声信号を前記話者の認証に用いられる認証音声信号に決定し、前記第１尤度が前記第２尤度以上でないと判定した場合には、前記第２音声信号を前記認証音声信号に決定する、音声取得方法を提供する。

本開示によれば、話者識別により適した音声信号を取得できる。

実施の形態１に係る音声識別システムの内部構成例を示すブロック図実施の形態１における端末装置の動作手順例１を説明するフローチャート実施の形態１における端末装置の動作手順例２を説明するフローチャート実施の形態１の変形例に係る音声識別システムの内部構成例を示すブロック図

以下、適宜図面を参照しながら、本開示に係る音声取得装置および音声取得方法を具体的に開示した各実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

まず、図１を参照して、実施の形態１に係る音声識別システム１００について説明する。図１は、実施の形態１に係る音声識別システム１００の内部構成例を示すブロック図である。

実施の形態１に係る音声識別システム１００は、音声信号取得装置Ｐ２により取得された音声信号の話者を端末装置Ｐ１によって識別する。音声識別システム１００は、端末装置Ｐ１と、音声信号取得装置Ｐ２とを含む。なお、音声信号取得装置Ｐ２は、図１に示す端末装置Ｐ１と別体で構成される例を示すが、一体的に構成されてもよい。

コンピュータの一例としての端末装置Ｐ１は、音声信号取得装置Ｐ２から送信された話者の音声信号を取得し、取得された音声信号（以降、「入力音声」と表記）にノイズ除去処理を実行する。端末装置Ｐ１は、入力音声と、ノイズ除去処理された音声信号（以降、「ノイズ除去音声」と表記）とのうちいずれか話者識別（認証）により適した音声信号を選定し、選定された音声信号（つまり、入力音声またはノイズ除去音声）を用いて話者識別を実行する。

なお、端末装置Ｐ１は、入力音声およびノイズ除去音声のそれぞれが、共に話者識別（認証）に適した音声信号でないと判定した場合には、話者識別処理を中止してもよい。

端末装置Ｐ１は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ），ノートＰＣ，タブレット端末，スマートフォン等により実現される。端末装置Ｐ１は、通信部１０と、プロセッサ１１と、メモリ１２と、表示部１３と、データベースＤＢとを含む。

取得部の一例としての通信部１０は、音声信号取得装置Ｐ２との間で有線通信によりデータ送受信可能に接続される。通信部１０は、音声信号取得装置Ｐ２から送信された入力音声をプロセッサ１１に出力する。

なお、通信部１０は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインターフェースを介して音声信号取得装置Ｐ２との間でデータ送受信を実行してもよい。

プロセッサ１１は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を用いて構成されて、メモリ１２と協働して、各種の処理および制御を行う。具体的には、プロセッサ１１は、メモリ１２に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、ノイズ除去部１１１，尤度算出部１１２，尤度判定部１１３，ノイズ除去動作切替部１１４，話者識別部１１５，表示制御部１１６等の各部の機能を実現する。

ノイズ除去部１１１は、通信部１０から出力された入力音声に含まれるノイズを除去して、ノイズ除去音声を生成する。なお、ここでいうノイズは、環境音、人間以外の音声（例えば、動物の鳴き声等）等を示す。ノイズ除去部１１１は、生成されたノイズ除去音声を尤度算出部１１２に出力する。

ノイズ除去部１１１は、ノイズ除去動作切替部１１４によりノイズ除去機能のオン／オフ制御が実行される。ノイズ除去部１１１は、ノイズ除去動作切替部１１４によりノイズ除去機能がオフされた場合、同一話者の識別処理を実行する間、入力音声のノイズ除去処理を中止し、ノイズ除去音声の生成を停止する。

尤度算出部１１２は、同一話者の入力音声とノイズ除去音声とを取得する。尤度算出部１１２は、メモリ１２に記録された学習モデルを用いて、入力音声に含まれる音声の人間の声である確からしさ（以降、「第１尤度」と表記）を評価する。また、尤度算出部１１２は、メモリ１２に記録された学習モデルを用いて、ノイズ除去音声に含まれる音声の人間の声である確からしさ（以降、「第２尤度」と表記）を評価する。

なお、第１尤度および第２尤度のそれぞれは、尤度の評価基準，評価精度のばらつきを抑制するために同一の学習モデルを用いて評価されることが望ましいが、これに限定されず、異なる学習モデルが用いられてもよい。

尤度算出部１１２は、算出された第１尤度および第２尤度のそれぞれを尤度判定部１１３に出力する。

音声決定部の一例としての尤度判定部１１３は、尤度算出部１１２から出力された第１尤度と第２尤度とを比較し、入力音声またはノイズ除去音声のいずれがより高い尤度を有するかを判定する。尤度判定部１１３は、より高い尤度を有する音声信号（入力音声またはノイズ除去音声）の情報をノイズ除去動作切替部１１４および話者識別部１１５のそれぞれに出力する。

ノイズ除去動作切替部１１４は、尤度判定部１１３から出力された音声信号の情報に基づいて、ノイズ除去部１１１により実行されるノイズ除去機能のオン／オフを切り替える。

具体的に、ノイズ除去動作切替部１１４は、音声信号の情報に基づいて、第１尤度が第２尤度以上であると判定した場合、ノイズ除去後のノイズ除去音声よりもノイズが除去されていない入力音声の方が話者識別により適した音声信号であると判定し、同一話者の識別（認証）を実行する間、ノイズ除去部１１１により実行されるノイズ除去機能をオフにする。

一方、ノイズ除去動作切替部１１４は、音声信号の情報に基づいて、第１尤度が第２尤度以上でないと判定した場合、ノイズが除去されていない入力音声よりもノイズ除去後のノイズ除去音声の方が話者識別により適した音声信号であると判定し、同一話者の識別（認証）を実行する間、ノイズ除去部１１１により実行されるノイズ除去機能をオンにする。

音声決定部の一例としての話者識別部１１５は、尤度判定部１１３から出力された音声信号の情報に基づいて、話者識別に用いられる音声信号（入力音声またはノイズ除去音声）を選定する。

なお、話者識別部１１５は、尤度判定部１１３から出力された音声信号の情報に対応する第１尤度または第２尤度が規定値以上であるか否かを判定し、判定結果に基づいて、話者識別に用いられる音声信号を選定してもよい。話者識別部１１５は、第１尤度または第２尤度が規定値以上でないと判定した場合、話者識別処理を中止する。

これにより、話者識別部１１５は、第１尤度または第２尤度と規定値との比較により、話者識別に適した音声信号であるか否かを判定できる。また、話者識別部１１５は、話者識別に適した音声信号でないと判定した場合、話者識別処理を省略でき、話者識別精度の低下をより効果的に抑制できる。

なお、第１尤度および第２尤度のそれぞれは、話者識別に適する音声信号の評価（選定）基準のばらつきを抑制するために同一の規定値を用いて評価（比較）されることが望ましいが、これに限定されず、異なる規定値が用いられてもよい。

話者識別部１１５は、選定された音声信号の情報を取得し、この音声信号の情報に対応する音声信号（入力音声またはノイズ除去音声）と、データベースＤＢに登録された１以上の音声信号のそれぞれとを照合し、音声信号の話者を識別する。話者識別部１１５は、話者識別結果を表示制御部１１６に出力する。

なお、話者識別部１１５により実行される話者識別処理は、上述した例に限定されず、公知である任意の話者識別処理が採用されてもよい。例えば、話者識別部１１５は、音声信号（入力音声またはノイズ除去音声）に含まれる話者の個人性を示す特徴量と、データベースＤＢに登録された特徴量とを照合することで話者識別を実行してもよい。

表示制御部１１６は、話者識別部１１５から出力された話者識別結果に基づいて、話者あるいは端末装置Ｐ１を管理，操作する管理者に話者識別結果を通知する識別結果画面（不図示）を生成する。表示制御部１１６は、生成された識別結果画面を表示部１３に出力して表示させる。

メモリ１２は、例えばプロセッサ１１の各処理を実行する際に用いられるワークメモリとしてのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、プロセッサ１１の動作を規定したプログラムおよびデータを格納するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）とを有する。ＲＡＭには、プロセッサ１１により生成あるいは取得されたデータもしくは情報が一時的に保存される。ＲＯＭには、プロセッサ１１の動作を規定するプログラムが書き込まれている。メモリ１２は、第１尤度および第２尤度のそれぞれの評価（算出）に用いられる学習モデルを記憶する。

なお、プロセッサ１１は、学習データを生成したり、外部装置（不図示）から送信された新たな学習モデルを取得したりすることにより、メモリ１２に記憶された学習モデルを更新可能であってもよい。学習データを生成して学習モデルを更新する場合、プロセッサ１１は、入力音声およびノイズ除去音声のそれぞれを学習データとして機械学習を実行し、第１尤度および第２尤度のそれぞれを評価するための学習モデルを更新してもよい。

ここで、学習データを生成するための機械学習は、１つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器（ＬｉｎｅａｒＣｌａｓｓｉｆｉｅｒｓ）、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ）、二次分類器（ＱｕａｄｒａｔｉｃＣｌａｓｓｉｆｉｅｒｓ）、カーネル密度推定（ＫｅｒｎｅｌＥｓｔｉｍａｔｉｏｎ）、決定木（ＤｅｃｉｓｉｏｎＴｒｅｅｓ）、人工ニューラルネットワーク（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、ベイジアン技術および／またはネットワーク（ＢａｙｅｓｉａｎＴｅｃｈｎｉｑｕｅｓａｎｄ／ｏｒＮｅｔｗｏｒｋｓ）、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）、バイナリ分類子（ＢｉｎａｒｙＣｌａｓｓｉｆｉｅｒｓ）、マルチクラス分類器（Ｍｕｌｔｉ－ＣｌａｓｓＣｌａｓｓｉｆｉｅｒｓ）、クラスタリング（ＣｌｕｓｔｅｒｉｎｇＴｅｃｈｎｉｑｕｅ）、ランダムフォレスト（ＲａｎｄｏｍＦｏｒｅｓｔＴｅｃｈｎｉｑｕｅ）、ロジスティック回帰（ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎＴｅｃｈｎｉｑｕｅ）、線形回帰（ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎＴｅｃｈｎｉｑｕｅ）、勾配ブースティング（ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＴｅｃｈｎｉｑｕｅ）等が挙げられる。但し、使用される統計的分類技術はこれらに限定されない。

表示部１３は、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）あるいは有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイを用いて構成される。表示部１３は、表示制御部１１６により制御されて、表示制御部１１６から出力された話者識別画面（不図示）を表示する。

データベースＤＢは、所謂ストレージであって、例えばフラッシュメモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）あるいはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶媒体を用いて構成される。データベースＤＢは、話者情報と、音声信号とを対応付けて、話者ごとに格納（登録）する。

なお、話者識別部１１５が音声信号（入力音声またはノイズ除去音声）に含まれる話者の個人性を示す特徴量に基づいて話者識別を実行する場合、データベースＤＢは、音声信号の代わりに特徴量を格納してもよいし、音声信号と特徴量とを話者情報に対応付けて格納してもよい。

音声信号取得装置Ｐ２は、話者の音声を収音し、収音された音声を音声信号に変換して、端末装置Ｐ１に送信する。音声信号取得装置Ｐ２は、例えば、マイク，電話機，ＰＣ，ノートＰＣ，タブレット端末，スマートフォン等により実現される。

次に、図２を参照して、端末装置Ｐ１により実行される話者識別手順について説明する。図２は、実施の形態１における端末装置Ｐ１の話者識別手順例１を説明するフローチャートである。

端末装置Ｐ１は、音声信号取得装置Ｐ２から送信された入力音声の入力（取得）を受け付ける（Ｓｔ１１）。

端末装置Ｐ１は、メモリ１２に記憶され、音声信号の音声が人間の音声である確からしさ（第１尤度）を評価するための学習モデルを用いて、入力（取得）された入力音声に対応する第１尤度を評価（算出）する（Ｓｔ１２）。

端末装置Ｐ１は、入力（取得）された入力音声に含まれるノイズを除去して、ノイズ除去音声を生成する（Ｓｔ１３）。ノイズ除去部１１１は、メモリ１２に記憶された学習モデルを用いて、生成されたノイズ除去音声に対応する第２尤度を評価（算出）する（Ｓｔ１４）。

端末装置Ｐ１は、算出された第１尤度および第２尤度のそれぞれに基づいて、第１尤度が第２尤度以上であるか否かを判定する（Ｓｔ１５）。

端末装置Ｐ１は、ステップＳｔ１５の処理において、第１尤度が第２尤度以上であると判定した場合（Ｓｔ１５，ＹＥＳ）、この第１尤度が算出された入力音声と、データベースＤＢに登録された音声信号とを照合して、話者識別処理を実行する（Ｓｔ１６）。

一方、端末装置Ｐ１は、ステップＳｔ１５の処理において、第１尤度が第２尤度以上でないと判定した場合（Ｓｔ１５，ＮＯ）、この第２尤度が算出されたノイズ除去音声と、データベースＤＢに登録された音声信号とを照合して、話者識別処理を実行する（Ｓｔ１７）。

端末装置Ｐ１は、ステップＳｔ１６またはステップＳｔ１７の処理で実行された話者識別結果を通知する話者識別画面（不図示）を生成して、表示部１３に表示する（Ｓｔ１８）。

以上により、実施の形態１における端末装置Ｐ１は、ノイズ除去により音声信号に含まれるノイズを除去したノイズ除去音声を用いた話者識別だけでなく、ノイズが多く、ノイズ除去によって音声信号から話者の音声そのものが除去されてしまう場合には、ノイズ除去しない入力音声を用いて話者識別を実行できる。これにより、端末装置Ｐ１は、ノイズによる話者識別精度の低下と、ノイズ除去による話者識別精度の低下とをより効果的に抑制できる。

次に、図３を参照して、端末装置Ｐ１により実行される話者識別手順について説明する。図３は、実施の形態１における端末装置Ｐ１の話者識別手順例２を説明するフローチャートである。なお、図３に示す話者識別手順例２におけるステップＳｔ１１～ステップＳｔ１４の処理は、図２に示す話者識別手順例１におけるステップＳｔ１１～ステップＳｔ１４の処理と同様であるため、説明を省略する。

端末装置Ｐ１は、ステップＳｔ１５の処理において、第１尤度が第２尤度以上であると判定した場合（Ｓｔ１５，ＹＥＳ）、第１尤度が規定値以上であるか否かをさらに判定する（Ｓｔ２１）。

端末装置Ｐ１は、ステップＳｔ２１の処理において、第１尤度が規定値以上であると判定した場合（Ｓｔ２１，ＹＥＳ）、入力音声と、データベースＤＢに登録された音声信号とを照合して、話者識別処理を実行する（Ｓｔ２２）。

一方、端末装置Ｐ１は、ステップＳｔ２１の処理において、第１尤度が規定値以上でないと判定した場合（Ｓｔ２１，ＮＯ）、入力音声が話者識別に適した音声信号でないと判定し、話者識別処理を中止する（Ｓｔ２３）。

また、端末装置Ｐ１は、ステップＳｔ１５の処理において、第１尤度が第２尤度以上でないと判定した場合（Ｓｔ１５，ＮＯ）、第２尤度が規定値以上であるか否かをさらに判定する（Ｓｔ２４）。

端末装置Ｐ１は、ステップＳｔ２４の処理において、第２尤度が規定値以上であると判定した場合（Ｓｔ２４，ＹＥＳ）、ノイズ除去音声と、データベースＤＢに登録された音声信号とを照合して、話者識別処理を実行する（Ｓｔ２５）。

一方、端末装置Ｐ１は、ステップＳｔ２４の処理において、第２尤度が規定値以上でないと判定した場合（Ｓｔ２４，ＮＯ）、ノイズ除去音声が話者識別に適した音声信号でないと判定し、話者識別処理を中止する（Ｓｔ２６）。

端末装置Ｐ１は、ステップＳｔ２２またはステップＳｔ２５の処理で実行された話者識別結果を通知する話者識別画面（不図示）を生成して、表示部１３に表示する（Ｓｔ２７）。

以上により、実施の形態１における端末装置Ｐ１は、第１尤度または第２尤度に基づいて、話者識別に用いられる音声信号が話者識別に適した音声信号でないと判定した場合、話者識別処理を中止できる。これにより、端末装置Ｐ１は、話者識別手順例１よりも話者識別精度の低下をより効果的に抑制することができる。

（実施の形態１の変形例）
実施の形態１に係る音声識別システム１００は、端末装置Ｐ１と音声信号取得装置Ｐ２とが有線通信可能に接続されたり、端末装置Ｐ１と音声信号取得装置Ｐ２とが一体的に構成されたりする例を示した。実施の形態１の変形例に係る音声識別システム１００Ａは、端末装置Ｐ１と音声信号取得装置Ｐ２とがネットワークＮＷ等を介してデータ通信可能に接続される例について説明する。

なお、実施の形態１の変形例に係る音声識別システム１００Ａの内部構成例は、実施の形態１に係る音声識別システム１００の内部構成例と同様の構成を有する。よって、以下の実施の形態１の変形例に係る音声識別システム１００Ａの説明では、同様の構成に対して同一の符号を付与することで、その説明を省略する。

図４を参照して、実施の形態１の変形例に係る音声識別システム１００Ａに係る音声識別システム１００について説明する。図４は、実施の形態１の変形例に係る音声識別システム１００Ａの内部構成例を示すブロック図である。

実施の形態１の変形例に係る音声識別システム１００Ａは、音声信号取得装置Ｐ２Ａにより取得された音声信号の話者を端末装置Ｐ１Ａによって識別する。音声識別システム１００Ａは、端末装置Ｐ１Ａと、音声信号取得装置Ｐ２Ａとを含む。なお、音声信号取得装置Ｐ２Ａは、複数であってよい。また、データベースＤＢＡは、端末装置Ｐ１Ａと一体的に構成されてもよい。

端末装置Ｐ１Ａは、音声信号取得装置Ｐ２Ａとの間でネットワークＮＷを介して有線通信あるいは無線通信可能に接続される。端末装置Ｐ１Ａは、音声信号取得装置Ｐ２Ａから送信された話者の音声信号を取得する。端末装置Ｐ１Ａは、取得された入力音声にノイズ除去処理したノイズ除去音声と入力音声とのうちいずれか話者識別（認証）により適した音声信号を選定し、選定された音声信号（つまり、入力音声またはノイズ除去音声）を用いて話者識別を実行する。なお、端末装置Ｐ１Ａにより実行される話者識別処理は、端末装置Ｐ１により実行される話者識別処理と同様であるため、説明を省略する。

端末装置Ｐ１Ａは、例えば、ＰＣ，ノートＰＣ，タブレット端末，スマートフォン、サーバ等により実現される。端末装置Ｐ１Ａは、通信部１０Ａと、プロセッサ１１と、メモリ１２と、表示部１３と、を含む。

通信部１０Ａは、ネットワークＮＷを介して、音声信号取得装置Ｐ２Ａとの間で有線通信または無線通信によってデータ送受信可能に接続される。通信部１０Ａは、音声信号取得装置Ｐ２Ａから送信された入力音声をプロセッサ１１に出力する。

なお、ここでいう無線通信は、例えばＢｌｕｅｔｏｏｔｈ（登録商標）、ＮＦＣ（登録商標）等の近距離無線通信、またはＷｉ－Ｆｉ（登録商標）等の無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）を介した通信である。

データベースＤＢＡは、所謂ストレージであって、例えばフラッシュメモリ、ＨＤＤあるいはＳＳＤ等の記憶媒体を用いて構成される。データベースＤＢＡは、話者情報と、音声信号とを対応付けて、話者ごとに格納（登録）する。データベースＤＢＡは、ネットワークＮＷを介して、端末装置Ｐ１との間でデータ送受信可能に接続される。

音声信号取得装置Ｐ２Ａは、話者の音声を収音し、収音された音声を音声信号に変換する。音声信号取得装置Ｐ２Ａは、ネットワークＮＷを介して、音声信号を端末装置Ｐ１Ａに送信する。音声信号取得装置Ｐ２Ａは、例えば、マイク，電話機，ＰＣ，ノートＰＣ，タブレット端末，スマートフォン等により実現される。

以上により、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａは、話者の入力音声（第１音声信号の一例）を取得する通信部１０（取得部の一例）と、入力音声に含まれるノイズを除去してノイズ除去音声（第２音声信号の一例）を生成するノイズ除去部１１１と、入力音声に人間の音声が含まれている確からしさを示す第１尤度と、ノイズ除去音声に人間の音声が含まれている確からしさを示す第２尤度とを算出する尤度算出部１１２と、話者の認証に用いられる認証音声信号を決定する尤度判定部１１３あるいは話者識別部１１５（音声決定部の一例）と、を備える。尤度判定部１１３あるいは話者識別部１１５は、第１尤度が第２尤度以上であると判定した場合には、入力音声を認証音声信号に決定し、第１尤度が第２尤度以上でないと判定した場合には、ノイズ除去音声を認証音声信号に決定する。

これにより、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａは、ノイズ除去により音声信号に含まれるノイズを除去したノイズ除去音声を用いた話者識別だけでなく、ノイズが多く、ノイズ除去によって音声信号から話者の音声そのものが除去されてしまう場合には、ノイズ除去しない入力音声を用いて話者識別を実行できる。これにより、端末装置Ｐ１，Ｐ１Ａは、ノイズによる話者識別精度の低下と、ノイズ除去による話者識別精度の低下とをより効果的に抑制できる。

また、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａにおける尤度算出部１１２は、同一の学習モデルを用いて、第１尤度と第２尤度とを算出する。これにより、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａは、同一の学習モデルを用いて第１尤度と第２尤度とを算出（評価）できるため、算出された第１尤度および第２尤度の評価基準，評価精度のばらつきを抑制できる。したがって、端末装置Ｐ１，Ｐ１Ａは、話者識別（認証）により適した音声信号の決定し、取得できる。

また、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａにおける尤度判定部１１３あるいは話者識別部１１５は、第１尤度が第２尤度以上であると判定した場合、第１尤度が規定値以上であるか否かを判定し、第１尤度が規定値以上であると判定した場合、入力音声を認証音声信号に決定する。これにより、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａは、第１尤度（つまり、人間の音声が含まれている確からしさ）が規定値以上であって、話者識別により適した入力音声を用いて話者識別（認証）を実行できる。

また、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａにおける尤度判定部１１３あるいは話者識別部１１５は、第１尤度が規定値以上でないと判定した場合、認証音声信号の決定を中止する。これにより、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａは、第１尤度（つまり、人間の音声が含まれている確からしさ）が規定値以上でなく、話者識別に適していないと判定された入力音声を用いた話者識別（認証）の実行を中止できる。

また、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａにおける尤度判定部１１３あるいは話者識別部１１５は、第１尤度が第２尤度以上でないと判定した場合、第２尤度が規定値以上であるか否かを判定し、第２尤度が規定値以上であると判定した場合、ノイズ除去音声を認証音声信号に決定する。これにより、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａは、第２尤度（つまり、人間の音声が含まれている確からしさ）が規定値以上であって、話者識別により適した入力音声を用いて話者識別（認証）を実行できる。

また、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａにおける尤度判定部１１３あるいは話者識別部１１５は、第２尤度が規定値以上でないと判定した場合、認証音声信号の決定を中止する。これにより、実施の形態１および実施の形態１の変形例に係る端末装置Ｐ１，Ｐ１Ａは、第２尤度（つまり、人間の音声が含まれている確からしさ）が規定値以上でなく、話者識別に適していないと判定された入力音声を用いた話者識別（認証）の実行を中止できる。

以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

本開示は、話者識別により適した音声信号を取得する音声取得装置および音声取得方法として有用である。

１０，１０Ａ通信部
１１プロセッサ
１２メモリ
１３表示部
１００，１００Ａ音声識別システム
１１１ノイズ除去部
１１２尤度算出部
１１３尤度判定部
１１４ノイズ除去動作切替部
１１５話者識別部
１１６表示制御部
ＤＢ，ＤＢＡデータベース
Ｐ１，Ｐ１Ａ端末装置
Ｐ２，Ｐ２Ａ音声信号取得装置

Claims

話者の第１音声信号を取得する取得部と、
前記第１音声信号に含まれるノイズを除去して第２音声信号を生成するノイズ除去部と、
前記第１音声信号に人間の音声が含まれている確からしさを示す第１尤度と、前記第２音声信号に前記人間の音声が含まれている確からしさを示す第２尤度とを算出する尤度算出部と、
前記話者の認証に用いられる認証音声信号を決定する音声決定部と、を備え、
前記音声決定部は、
前記第１尤度が前記第２尤度以上であると判定した場合には、前記第１音声信号を前記認証音声信号に決定し、
前記第１尤度が前記第２尤度以上でないと判定した場合には、前記第２音声信号を前記認証音声信号に決定する、
音声取得装置。
前記尤度算出部は、
同一の学習モデルを用いて、前記第１尤度と前記第２尤度とを算出する、
請求項１に記載の音声取得装置。
前記音声決定部は、
前記第１尤度が前記第２尤度以上であると判定した場合、前記第１尤度が規定値以上であるか否かを判定し、
前記第１尤度が前記規定値以上であると判定した場合、前記第１音声信号を前記認証音声信号に決定する、
請求項１に記載の音声取得装置。
前記音声決定部は、
前記第１尤度が前記規定値以上でないと判定した場合、前記認証音声信号の決定を中止する、
請求項３に記載の音声取得装置。
前記音声決定部は、
前記第１尤度が前記第２尤度以上でないと判定した場合、前記第２尤度が規定値以上であるか否かを判定し、
前記第２尤度が前記規定値以上であると判定した場合、前記第２音声信号を前記認証音声信号に決定する、
請求項１に記載の音声取得装置。
前記音声決定部は、
前記第２尤度が前記規定値以上でないと判定した場合、前記認証音声信号の決定を中止する、
請求項５に記載の音声取得装置。
音声信号に基づく話者認証を実行するコンピュータが実行する音声取得方法であって、
話者の第１音声信号を取得し、
前記第１音声信号に含まれるノイズを除去して第２音声信号を生成し、
前記第１音声信号に人間の音声が含まれている確からしさを示す第１尤度と、前記第２音声信号に前記人間の音声が含まれている確からしさを示す第２尤度とを算出し、
前記第１尤度が前記第２尤度以上であると判定した場合には、前記第１音声信号を前記話者の認証に用いられる認証音声信号に決定し、
前記第１尤度が前記第２尤度以上でないと判定した場合には、前記第２音声信号を前記認証音声信号に決定する、
音声取得方法。