JP2019527370A

JP2019527370A - 話者照合の方法、装置、及びシステム

Info

Publication number: JP2019527370A
Application number: JP2018503622A
Authority: JP
Inventors: ジエチェン; ダンスー; ティエンシャオフー; ナーフー
Original assignee: ベイジンディディインフィニティテクノロジーアンドディベロップメントカンパニーリミティッド
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2019-09-26
Anticipated expiration: 2037-06-13
Also published as: US20190214020A1; TW201903753A; GB2580856A; US10937430B2; ES2800348T3; EP3706118B1; JP6677796B2; CN109429523A; EP3433854A1; WO2018227381A1; AU2017305006A1; TWI719304B; HUE051594T2; US20180358020A1; GB201801258D0; EP3706118A1; EP3433854A4; AU2019279933B2; EP3433854B1; US10276167B2

Abstract

本開示は、効率的で信頼性の高い話者照合の方法、装置、及びシステムに関する。方法は、オーディオ録音を取得するステップと、オーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された話し声信号が、抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、所定の話者による話し声を表すかどうかを判定するステップと、を含む。【選択図】図１

Description

本開示は、一般に、話者照合技術に関し、より詳細には、信頼性が高く効率的な話者照合の方法、システム、及び装置に関する。

話者照合技術は、彼又は彼女の音声又は声紋の特徴に基づいて話者を照合するステップを含む。このような特徴は、彼又は彼女の喉頭、口、及び鼻の大きさ及び形状などの話者の解剖学的特徴並びに音声ピッチ及び言語などの行動パターンに関連する可能性がある。話者照合技術は、一般に、テキスト依存型話者照合及びテキスト独立型話者照合（ｔｅｘｔ−ｉｎｄｅｐｅｎｄｅｎｔｖｅｒｉｆｉｃａｔｉｏｎ）の２つのカテゴリーに分類される。様々な話者照合技術が、特にセキュリティ機構として、話者の身元を照合するために開発され、適用されてきた。

多くのサービス及び製品が、現在、ユーザ端末とサービス提供者サーバとの間の遠隔通信を介して提供され、処理されている。例えば、乗客が彼らの携帯端末上のアプリケーションを介してタクシーサービスを予約することがますます普及してきている。情報は、次いで、インターネットを介してタクシーサービス管理システムに送信されることができ、タクシーサービス管理システムは、トリップ情報を処理し、システムに登録されている利用可能なドライバの位置を確認し、それに応じて出迎えを手配することができる。しかしながら、登録ドライバアカウントが不正ユーザによって不正に使用され、ドライバ記録管理におけるセキュリティ上の懸念及び問題を引き起こす状況がある。例えば、登録ドライバは、許可なく他のドライバと彼又は彼女のアカウントを共有する可能性があるか又はドライバアカウントもしくはドライバの携帯端末がハッキングもしくは盗難される可能性がある。このようなドライバアカウントの不正使用は、提供者の収入損失を引き起こすだけでなく、ドライバの本当の身元を追跡することができないことに関する安全上の懸念をももたらす。従って、ドライバの身元を照合する信頼性の高いシステムが、タクシーサービスのセキュリティ及びドライバ記録の効率的な管理を向上させるために必要である。

上記の問題に鑑みて、本開示は、タクシー呼び出しなどのアプリケーションに対してセキュリティを向上させるための及び登録ユーザアカウントの効率的な管理ための話者照合の方法、デバイス、及びシステムを提供する。

本開示の１つの態様は話者照合方法を対象とする。方法は、オーディオ録音を取得するステップと、オーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された話し声信号が、抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、所定の話者による話し声を表すかどうかを判断するステップと、を含むことができる。

本開示の別の態様は話者照合システムを対象とする。システムは、命令を含むメモリと、オーディオ録音を受信し、オーディオ録音から話し声信号を抽出し、抽出された話し声信号の特徴を抽出し、抽出された話し声信号が、抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、所定の話者による話し声を表すかどうかを判断する命令を実行するように構成されるプロセッサと、を含むことができる。

本開示の別の態様は、１つ又は複数のプロセッサによって実行されると、プロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読記憶媒体を対象とする。方法は、オーディオ録音を取得するステップと、オーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された話し声信号が、抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、所定の話者による話し声を表すかどうかを判断するステップと、を含む。

本開示の別の態様は話者照合方法を対象とする。方法は、端末から複数のオーディオ録音を取得するステップと、複数のオーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された特徴を１つ又は複数のクラスに分類するステップと、抽出された特徴が複数のクラスに分類される場合、複数のオーディオ録音が所定の話者と異なる１人又は複数の話者による話し声を含むかどうかを判断するステップと、を含むことができる。

本開示の別の態様は話者照合システムを対象とする。システムは、命令を含むメモリと、端末から複数のオーディオ録音を受信し、複数のオーディオ録音から話し声信号を抽出し、抽出された話し声信号の特徴を抽出し、抽出された特徴を１つ又は複数のクラスに分類し、抽出された特徴が複数のクラスに分類される場合、複数のオーディオ録音が所定の話者と異なる１人又は複数の話者による話し声を含むかどうかを判断する命令を実行するように構成されるプロセッサと、を含むことができる。

本開示の更に別の態様は、１つ又は複数のプロセッサによって実行されると、プロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読記憶媒体を対象とする。方法は、端末から複数のオーディオ録音を取得するステップと、複数のオーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された特徴を１つ又は複数のクラスに分類するステップと、抽出された特徴が複数のクラスに分類される場合、複数のオーディオ録音が所定の話者と異なる１人又は複数の話者による話し声を含むかどうかを判断するステップと、を含む。

例示的な実施形態によるタクシーサービス管理分野で使用される話者照合システム１００のブロック図である。例示的な実施形態によるタクシーサービス管理分野に適用される話者照合器２００のブロック図である。例示的な実施形態によるオーディオ信号前処理方法３００を示すフローチャートである。別の例示的な実施形態によるオーディオ信号前処理方法４００を示すフローチャートである。例示的な実施形態による話者照合処理５００を示すフローチャートである。例示的な実施形態による話者記載又は登録処理６００を示すフローチャートである。例示的な一実施形態による登録ドライバカウントに関連付けられる話者モデルが格納されていない話者照合方法７００を示すフローチャートである。

本開示は、一般に、話者の音声データから抽出された音声特性に基づいて話者を照合することに関する。音声データは、或るテキストを読む話者の音声録音又は話者と他の人との間の会話の録音などの話者の話し声信号を含むオーディオ録音入力から取得されることができる。それは、リアルタイムで又は予め保存された録音の入力を介して取得されることができる。更に、例えば、ＰＤＡ、タブレット、ラップトップなどのコンピュータ、携帯電話、スマートウォッチなどの様々なユーザ端末が、オーディオ録音入力を受信するために使用されることができる。

例えば、輸送サービスに関連して、輸送サービス提供者（例えば、タクシーの呼び出し、自家用車の呼び出し、乗り物の共有などの提供者）は、音声データをドライバ又は乗客の身元を照合するために使用することができる。具体的には、タクシーサービスなどの輸送サービスを必要とする乗客は、彼らの携帯電話などの彼らのユーザ端末にインストールされているタクシーサービス・アプリケーションを有することができる。タクシーサービスを提供するドライバはまた、注文を処理して或る乗客を迎えに行くために注文を受け取る及び／又は輸送サービス提供者から指示を受ける端末にインストールされている対応するアプリケーションを有することができる。典型的なシナリオでは、乗客は、ドライバ側の携帯電話アプリケーションを介して今度のトリップに関する情報を入力し、タクシーサービスを要求することができる。輸送サービス提供者は、そのようなサービス要求をネットワークを介して受信し、それに応じて注文を処理し、出迎えを手配するために利用可能なドライバを送ることができる。乗客の出迎えの前に、ドライバは、乗客に関連する電話番号又は他のアカウント情報などの乗客の連絡先情報に従って乗客に接触することができる。通信は、ドライバ端末と乗客端末との間の直接的な会話を含むことができる。管理を容易にし、タクシーサービスのセキュリティを確保するために、会話が記録され、且つオーディオ録音は、例えば登録ドライバ情報に従ってドライバの身元を照合するために、更なる処理及び話者照合のために照合システムに提供されることができる。

図１は、例示的な実施形態によるタクシーサービス管理で使用される話者照合システム１００のブロック図である。図１を参照すると、システム１００は、話者照合器１１０、ネットワーク１２０、複数の乗客端末１３０、及び複数のドライバ端末１４０、タクシーサービス管理システム１５０、並びに制御パネル１６０を含むことができる。

話者照合器１１０は、話者の音声特性に従って話者を照合するように構成されることができる。図１に示すように、話者照合器１１０は、とりわけ、メモリ１１１、プロセッサ１１３、記憶装置１１５、入出力（Ｉ／Ｏ）インタフェース１１７、及び通信インタフェース１１９を含むことができる。話者照合器１１０のこれらの構成要素のうちの少なくともいくつかは、データを転送し、且つ相互に又は相互間で命令を送信又は受信するように構成されることができる。いくつかの実施形態では、話者照合器１１０は、輸送サービス提供者によって運営されるタクシーサービス管理プラットフォームの一部として設置されることができ、又はその機能はまた、タクシーサービス・アプリケーション（例えば、乗客端末１３０にインストールされるアプリケーション）の一部として組み込まれることができ、ユーザは、サービスを提供するドライバの身元を照合することができる。

プロセッサ１１３は、任意の適切なタイプの汎用もしくは専用マイクロプロセッサ、デジタル信号プロセッサ、又はマイクロコントローラを含むことができる。プロセッサ１１３は、話者を照合し、照合の結果を出力する専用の別個のプロセッサモジュールとして構成されることができる。代替的に、プロセッサ１１３は、話者照合とは無関係の他の機能を実行する共有プロセッサモジュールとして構成されることもできる。

プロセッサ１１３は、話者照合を実行するために、システム１００の他の構成要素からデータ及び／又は信号を受信するように構成されることができ。例えば、プロセッサ１１３は、例えばＩ／Ｏインタフェース１１７を介してタクシーサービス管理システム１５０と情報を、及び制御パネル１６０と命令を交換することができる。照合後、プロセッサ１１３は、照合結果をタクシーサービス管理システム１５０及び制御パネル１６０に提供することができ、プロセッサ１１３は、更に、対応する乗客端末１３０又は対応するドライバ端末１４０に、照合結果の保存、ドライバ／ユーザアカウント記録の更新、又は照合結果の出力などの更なる命令を提供することができる。

プロセッサ１１３はまた、通信インタフェース１１９を介して送信された情報にアクセスすることができる。例えば、プロセッサ１１３は、乗客端末１３０及びドライバ端末１４０からネットワーク１２０を介して送信されたオーディオ信号を含む会話のオーディオ録音を受信することができる。照合後、プロセッサ１１３は、制御パネル１６０からの命令を受信すると、照合結果を、ネットワーク１２０を介して対応する乗客端末１３０及び対応するドライバ端末１４０に送信することができる。

プロセッサ１１３は、メモリ１１１及び／又は記憶装置１１５に格納されるコンピュータ命令（例えば、プログラムコード）を実行することができ、本開示に記載されている例示的な技術に従って機能を実行することができる。プロセッサ１１３の更なる例示的な機能は図２〜７に関連して後述されるであろう。

メモリ１１１及び記憶装置１１５は、プロセッサ１１３が動作するために必要な可能性がある任意のタイプの情報を格納するために提供される任意の適切なタイプの大容量記憶装置を含むことができる。メモリ１１１及び記憶装置１１５は、揮発性もしくは不揮発性、磁気、半導体、テープ、光学、取外し可能な、取外し不可能な、又は他のタイプの記憶デバイスあるいは読み出し専用メモリ（ＲＯＭ：ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）、フラッシュメモリ、ダイナミックランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍ−ａｃｃｅｓｓｍｅｍｏｒｙ）、及びスタティックＲＡＭを含むが、これらに限定されない有形の（すなわち非一時的）コンピュータ可読媒体で表されることができる。メモリ１１１及び／又は記憶装置１１５は、話者照合のために本明細書で説明される開示された方法を実行するためにプロセッサ１１３によって実行されることができる１つ又は複数のコンピュータプログラムを格納するように構成されることができる。

メモリ１１１及び／又は記憶装置１１５は、プロセッサ１１３によって使用される情報及びデータを格納するように更に構成されることができる。例えば、メモリ１１１及び／又は記憶装置１１５は、乗客端末１３０及び／又はドライバ端末１４０から受信されるオーディオ録音、話者照合処理中に生成されるデータ、並びに最終的な照合結果を格納することができる。

Ｉ／Ｏインタフェース１１７は、話者照合器１１０、タクシーサービス管理システム１５０、及び制御パネル１６０の間の通信を容易にするように構成されることができる。例えば、話者照合器１１０は、話者照合結果を、ドライバアカウント情報及びタクシーサービス記録を更新するためにＩ／Ｏインタフェース１１７を介して、タクシーサービス管理システム１５０に提供することができる。話者照合器１１０はまた、話者照合の実行に関して制御パネル１６０から命令を受信し、又は照合結果を対応する乗客端末１３０及びドライバ端末１４０に更に出力することができる。

通信インタフェース１１９は、ネットワーク１２０を介して乗客端末１３０及びドライバ端末１４０と通信するように構成されることができる。ネットワーク１２０は、データを送信及び受信することを可能にすることができる任意のタイプの有線又は無線ネットワークとすることができる。例えば、ネットワーク１２０は、有線ネットワーク、ローカル無線ネットワーク（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＷｉＦｉ、近距離通信（ＮＦＣ：ｎｅａｒｆｉｅｌｄｃｏｍｍｕｎｉｃａｔｉｏｎｓ）など）、セルラネットワーク、インターネットなど、又はそれらの組み合わせとすることができる。データを送信する媒体を提供する他の既知の通信方法も考えられる。

乗客端末１３０は、タクシーサービス・アプリケーションを持つ例えば携帯電話、ラップトップ又はデスクトップなどのコンピュータ、ＰＤＡ、タブレット、スマートウォッチなどの、ネットワーク１２０を介して情報を受信及び送信することができる任意のデバイスとすることができる。乗客端末１３０は、ネットワーク１２０を介してオーディオ信号を受信及び記録し、情報を送信するように構成されることができる。例えば、乗客は、携帯電話上のアプリケーションを介して情報を入力し、ドライバ端末１４０との会話を開始するか又はそれに参加することができる。乗客の携帯電話は、会話のオーディオ録音を受信する乗客端末１３０として機能し、オーディオ録音は、その後話者照合のために話者照合器１１０に送信されることができる。

ドライバ端末１４０は、乗客端末１３０と同様に、ネットワーク１２０を介して情報を受信及び送信することができる任意のデバイスとすることができる。例えば、ドライバ端末１４０は、タクシーサービス・アプリケーションを持つ携帯電話、ラップトップ又はデスクトップなどのコンピュータ、ＰＤＡ、タブレット、スマートウォッチなどとすることができる。乗客端末１３０はまた、車両制御システムの一部としてインストールされるデバイス又はモジュールとすることができる。例えば、ドライバは、携帯電話上のアプリケーションを介して情報を入力し、乗客端末１３０との会話を開始するか又はそれに参加することができる。ドライバの携帯電話は、会話のオーディオ録音を受信するドライバ端末１４０として機能し、オーディオ録音は、その後話者照合のために話者照合器１１０に送信されることができる。更に、ドライバアカウント登録中に、ドライバ端末１４０は、電話番号、性別、電子メールアカウント、及び音声録音などのドライバの登録又はアカウント設定情報を受信するように構成されることができる。ドライバ端末１４０は、その後ドライバ登録情報をネットワーク１２０を介して話者照合器１１０に送信することができる。

乗客端末１３０及び／又はドライバ端末１４０は、ＬＣＤ、ＬＥＤ、プラズマディスプレイ、又は任意の他のタイプのディスプレイを含むディスプレイを更に含み、ユーザ入力及びデータ表示のためにディスプレイ上に提示されるグラフィカルユーザインタフェース（ＧＵＩ：ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を更に提供することができる。例えば、ユーザ及びドライバのアカウント情報がディスプレイで表示され、話者照合結果もまた表示されることができる。

タクシーサービス管理システム１５０は、ドライバアカウント記録及びタクシーサービスの配送を管理する複数の構成要素を更に含むことができる。それは、ドライバアカウント情報を送信し、話者照合器１１０から照合結果を受信するなどのために、Ｉ／Ｏインタフェース１１７を介して話者照合器１１０と通信することができる。それは、話者照合結果に関連付けられるドライバ記録を格納するデータベース及びドライバ記録に基づいてドライバ実績を評価するプロセッサなどの他の構成要素を更に含むことができ、プロセッサは、対応するドライバ端末１４０に注文通知を送信することによって利用可能なドライバを派遣するように更に構成されることができる。

図１では別個のモジュールとして示されているが、話者照合器１１０、タクシーサービス管理システム１５０、及び制御パネル１６０は、１つのシステムとして統合されることができることが考えられる。例えば、１つの実施形態では、話者照合器１１０及び制御パネル１６０は、輸送サービス提供者によって運営されるタクシーサービス管理システム１５０に統合されることができる。話者照合に直接関係しないシステム１００の他の構成要素及びそれらの機能は本明細書では詳細には説明されない。

図２は、タクシーサービス管理分野に適用される例示的な実施形態による話者照合器２００のブロック図である。図２を参照すると、話者照合器２００は、ドライバ登録部２１０及びドライバ照合部２２０を含むことができる。ドライバ登録部２１０は、前処理モジュール２１１、特徴抽出モジュール２１３、話者モデル構築モジュール２１５、及び話者モデルデータベース２１７を更に含む。ドライバ照合部２２０は、前処理モジュール２２１、特徴抽出モジュール２２３、及び話者照合モジュール２２５を更に含むことができる。前処理モジュール２１１及び２２１は、ドライバ登録処理及びドライバ照合処理の両方で前処理機能を実行する同じ機能モジュール内に具現化されることができる。同様に、特徴抽出モジュール２１３及び２２３はまた、ドライバ登録処理及びドライバ照合処理の両方のために特徴抽出機能を実行する同じ機能モジュール内に具現化されることができる。

ドライバ登録中に、前処理モジュール２１１は、ドライバ端末１４０から送信され、受信されたドライバオーディオ録音を前処理するように構成される。前処理ステップは、音声特徴抽出モジュール２１３による更なる処理のために、話し声信号を抽出するステップ、周囲雑音又は背景雑音信号を除去するステップ、及びドライバ音声データを抽出するステップを含む。オーディオ録音の前処理は、複数の性別に対応する話し声信号が存在する場合、ドライバに関連付けられる性別と一致する話者に対応する音声データを選択するステップを更に含むことができる。前処理ステップの詳細は、図３及び図４を参照して以下で更に説明されるであろう。

特徴抽出モジュール２１３は、前処理された音声データから音声特徴を抽出するように構成される。話し声又は話者照合技術で使用される様々な既存の特徴抽出技術が使用されることができる。例えば、特徴抽出モジュール２１３は、１９８０年代にＤａｖｉｓ及びＭｅｒｍｅｌｓｔｅｉｎによって導入され、話し声認識で広く使用されるメル周波数ケプストラム係数（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）を抽出するように構成されることができ、他のものは線形予測係数（ＬＰＣ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔｓ）又は線形予測ケプストラム係数（ＬＰＣＣ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）を含むことができる。

話者モデル構築モジュール２１５は、特徴抽出モジュール２１３によって抽出された特徴を利用し、登録されているドライバの音声特徴を表す話者音響モデルを構築するように構成されることができる。様々な話者モデル構築技術が話者モデル構築モジュール２１５によって使用されることができる。例えば、ディープニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）がドライバ音声データから抽出された特徴を使用して訓練されることができ、話者モデルは、話者の音声特徴を表す特徴ベクトルを抽出して構築されることができる。ＤＮＮは、入力層と出力層との間に複数の隠れ層を有する人工ニューラルネットワーク（ＡＮＮ：ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）である。利用される可能性のある他の話者モデルは、ガウス混合モデル（ＧＭＭ：ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）又は隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）ｍｏｄｅｌ）を含む。話者モデルを訓練するための様々な手法の組み合わせも存在する。本開示は、特定のモデルトレーニング手法に限定されない。

タクシーサービス管理システムに登録した後、ドライバは彼の固有の音声特徴で訓練された話者モデルを有するであろう。全ての話者モデルは話者モデルデータベース２１７に格納されることができ、これは全ての登録されたドライバが自分のアカウントに関連付けられる話者モデルを有するであろうことを意味する。その後、話者モデルはドライバ照合処理で使用される。

話者モデルデータベース２１７に保存されている話者モデルに基づいて話者を照合するドライバ照合部２２０は、前処理モジュール２２１、特徴抽出モジュール２２３、及び話者照合モジュール２２５を含む。

前処理モジュール２２１は、ドライバと乗客との間の会話のオーディオ録音の形態とすることができるオーディオ録音入力を前処理するように構成されることができる。ドライバ登録中に前処理モジュール２１１によって実行される前処理ステップと同様に、照合中の前処理は、音声特徴抽出モジュール２２３による更なる処理のために、ドライバ端末１４０から送信される信号を選択するステップ、話し声信号を抽出するステップ、周囲雑音又は背景雑音信号を除去するステップ、及びドライバ音声データを抽出するステップを含むことができる。オーディオ録音の前処理は、複数の性別に対応する話し声信号が存在する場合、対応する登録ドライバに関連付けられる性別と一致する話者に対応する音声データを選択するステップを更に含むことができる。前処理の詳細については、図３及び図４を参照して以下で更に説明されるであろう。

特徴抽出モジュール２２３は、前処理された話者音声データから音声特徴を抽出するように構成される。話し声又は話者認識技術で使用される様々な既存の特徴抽出技術が特徴抽出モジュール２２３によって使用されることができる。例えば、特徴抽出モジュール２２３は、１９８０年代にＤａｖｉｓ及びＭｅｒｍｅｌｓｔｅｉｎによって導入され、話し声認識で広く使用されるメル周波数ケプストラム係数（ＭＦＣＣ）（（ＭＦＣＣｓ）ｆｅａｔｕｒｅｓ）を抽出するように構成されることができ、他のものは線形予測係数（ＬＰＣ）又は線形予測ケプストラム係数（ＬＰＣＣ）を含むことができる。

話者照合モジュール２２５は、登録ドライバに関連付けられる抽出された話者音声特徴及び話者モデルに基づいて、話者が登録ドライバであるかどうかを照合するように構成されることができる。照合は、登録ドライバに対応する話者モデルに対して抽出された特徴をチェックするステップ及び類似性スコアを計算するステップを含むことができる。類似性スコアは所定の類似性閾値と比較されるであろう。照合処理の詳細は図５を参照して以下で更に説明される。

図３は、例示的な実施形態によるオーディオ信号前処理方法３００を示すフローチャートである。方法３００は、図２に示される前処理モジュール２１１及び／又は２２１などの話者照合デバイスの前処理モジュールによって実行されることができる。一例として、ここに示される方法３００は、タクシーサービスの文脈で使用される話者／ドライバ照合中の前処理に関連される。上述したように、同様の前処理ステップは、ユーザ／ドライバ登録処理中に実行されることができる。

ステップ３０１、前処理モジュール２２１は、乗客とドライバとの間の会話を含むオーディオ録音入力を受信する。オーディオ録音は、図１に示されるようにネットワークを介して乗客端末１３０及びドライバ端末１４０の一方又は両方から送信されることができる。

ステップ３０３、前処理モジュール２２１は、所定の端末から送信されるオーディオ信号を選択する。これは、使用されているアカウントに関連付けられるドライバ端末１４０から送信されるオーディオ信号を選択することによって実行されることができる。登録アカウントが使用されている場合、前処理モジュール２２１は、アカウントに関連付けられる端末情報をチェックし、対応する端末から送信されるオーディオ信号が適宜に選択されることができる。例えば、これはまた、ドライバ端末１４０及び乗客端末１３０から送信されるオーディオ信号のチャネル情報に基づいて実行されることができる。

ステップ３０５、前処理モジュール２２１は、抽出されたオーディオ信号から周囲雑音を除去するか又は話し声信号を抽出する。所定のドライバ端末１４０から選択されるオーディオ信号は、他のメディアプレーヤーからの音、近くの他の端末からの音、車両の運転によって生成される雑音、及び車両の外部の環境からの雑音などの様々な背景又は環境雑音を含むことができる。このような周囲雑音は除去され、話し声信号が抽出されることができる。これは、様々な音信号をそれらの周波数に従って分類すること及び非話し声周波数に対応する信号を除去することなどの様々な既存の技術によって実行されることができる。いくつかの実施形態では、これは、共振器時間−周波数画像（ＲＴＦＩ：ＲｅｓｏｎａｔｏｒＴｉｍｅ−ＦｒｅｑｕｅｎｃｙＩｍａｇｅ）スペクトルを使用して、時間−周波数エネルギースペクトルを生成し、それらのエネルギーレベルに基づいて話し声信号を選択することによって実行されることもできる。例えば、前処理モジュール２２１は、時間−周波数エネルギースペクトルを取得するために抽出されたオーディオ信号にＲＴＦＩ分析を実行することができ、時間−周波数エネルギースペクトルは、平均エネルギースペクトルを取得するために時間領域にわたって平均化される。次いで、前処理モジュール２２１は、話し声信号及び非話し声信号の開始点及び終了点を決定するためにエネルギー変化に基づくセグメンテーション方法を使用することができる。次いで、入力オーディオ信号の非話し声信号成分及び背景雑音成分は、話し声信号のエネルギーレベルと異なるそれらのエネルギーレベルに基づいて除去されることができる。

ステップ３０７、前処理モジュール２２１は、話し声信号が様々な性別の複数の話者による話し声を含むかどうかを判定する。例えば、ドライバ端末１４０から送信される話し声信号は、ドライバからの話し声を含み、且つ様々な性別である可能性がある車両内の乗客などの近くの別の人の発話をも含むことができる。様々な性別の話者からの話し声信号は、様々な性別の特徴的基本周波数の差異に基づいて分類されることができる。基本周波数は、声帯振動の周波数を表し、声帯の張力、声帯のサイズ及び厚さ、並びに声門下の空気圧の変化と相関する。基本周波数は性別及び年齢などの要因で変わる。それは、ピッチと相関し、人の音声がどの程度高い又は低い音を出すかを示す。例えば、典型的な成人男性は、８５〜１８０Ｈｚの範囲の基本周波数を有し、一方典型的な成人女性は、１６５〜２５５Ｈｚの範囲の基本周波数を有する。広く使用されているＹＩＮアルゴリズム及び確率的ＹＩＮ（ＰＹＩＮ：ＰｒｏｂａｂｉｌｉｓｔｉｃＹＩＮ）アルゴリズムなどのＹＩＮの変形などの多数のアルゴリズムがオーディオ信号の基本周波数を推定するために開発されてきた。

ステップ３０９、話し声信号が様々な性別の複数の話者による話し声を含むと判定される場合、前処理モジュール２２１は、ドライバアカウントに関連付けられる所定の性別に関連する音声データを抽出する。ドライバアカウントに関連付けられる性別と異なる性別の話者からの話し声信号が除去されることができる。例えば、ドライバアカウントに関連付けられる性別が男性であり、女性に対応する特徴基本周波数に基づいて決定されることができる抽出された話し声信号が女性乗客からの話し声信号を含む場合、女性乗客からの話し声信号は除去されることができる。

ステップ３１１、前処理モジュール２２１は、更なる処理のために抽出された話者音声データを特徴抽出モジュール２２３に送信する。

図４は、別の例示的な実施形態によるオーディオ信号前処理方法４００を示すフローチャートである。方法３００と同様に、方法４００は、タクシーサービスの文脈で使用される話者／ドライバ登録又は照合処理の間の前処理に関連されるとすることができる。例えば、方法４００は、図２に示される前処理モジュール２１１及び／又は２２１などの話者照合デバイスの前処理モジュールによって実行されることができる。例示のみを目的として、方法４００は、話者照合処理において前処理モジュール２２１によって実行されるとして説明されるであろう。

図４を参照すると、ステップ４０１〜４０５はステップ３０１〜３０５と同様であり、その詳細は本明細書では繰り返されない。次に、ステップ４０７において、前処理モジュール２２１は、抽出された話し声信号の話者の性別を判定する。例えば、ステップ３０７に関連して上述したように、前処理モジュール２２１は、話し声信号の基本周波数に基づいて話者の性別を判定することができる。音声信号が車両のドライバなどの所定のユーザの性別と異なる性別の話者による話し声を表している（すなわち、オーディオ録音が話し声を含む）と判断される場合、前処理モジュール２２１はステップ４０９に進み、所定のユーザの性別と異なる性別の話者の話し声信号を選択する。

ステップ４１１において、前処理モジュール２２１は、選択された話し声信号によって表される話し声がオーディオ録音のかなりの部分を表すかどうかを判定するために、オーディオ録音の継続時間に対する選択された話し声信号の継続時間の比を計算する。比が所定の閾値を超える場合、前処理モジュール２２１は、オーディオ録音の話者が所定のユーザではないと直ちに結論付ける（ステップ４１３）。しかしながら、比が所定の閾値以下である場合、前処理モジュール２２１は、抽出された話し声信号から選択された話し声信号を除去し（ステップ４１５）、次いでステップ４１１に戻り、次の選択された話し声信号に対する比をチェックする。ステップ４１７において、前処理モジュール２２１は、残りの抽出された話し声信号を更なる処理のために特徴抽出モジュール２２３に送信する（ステップ４１７）。

方法４００によれば、オーディオ録音の前処理フェーズの間、話者照合デバイスは、所定のユーザの性別と一致しない性別の話者の話し声信号を識別する。識別された話し声信号の１つ又は複数がオーディオ録音のかなりの部分を構成する場合、話者照合デバイスは、オーディオ録音を更に処理する必要なしに、オーディオ録音の話者が所定のユーザではないと結論する。そうでない場合、話者照合デバイスは、更なる処理を必要とするデータの量を減らすために、オーディオ録音から識別された話し声信号をフィルタリングする。これにより、話者照合の精度が向上され、一方計算コストが低減される。

図５は、例示的な実施形態による話者照合処理５００を示すフローチャートである。これは、図２に示される話者照合器２００のドライバ照合部２２０によって実行されることができる。例えば、タクシーサービス管理の文脈において、本実施形態の話者照合方法５００は、話者が登録ドライバであるかどうかを照合するために使用されることができる。

ステップ５０１、特徴抽出モジュール２２３は、前処理モジュール２２１から送信される話者音声データを受信する。

ステップ５０３、特徴抽出モジュール２２３は話者音声データの特徴を抽出する。上述したように、話し声又は話者認識技術で使用される様々な既存の特徴抽出技術が使用されることができる。例えば、特徴抽出モジュールは、１９８０年代にＤａｖｉｓ及びＭｅｒｍｅｌｓｔｅｉｎによって導入され、話し声認識で広く使用されるメル周波数ケプストラム係数（ＭＦＣＣ）（（ＭＦＣＣｓ）ｆｅａｔｕｒｅｓ）を抽出するように構成されることができ、他のものは線形予測係数（ＬＰＣ）又は線形予測ケプストラム係数（ＬＰＣＣ）を含むことができる。

次に、ステップ５０５〜５１７は、話者が、話者音声データの抽出された特徴及び登録ドライバに対応する話者モデルに基づいて、登録ドライバと同一であるかどうかを照合する処理を示す。これらのステップは話者照合モジュール２２５によって実行されることができる。更に、全ての登録ドライバの話者モデルは、それぞれのドライバの音声特徴に基づいて構築され、ドライバ登録中に保存されることができ、その処理は図６を参照して以下に更に示される。

ステップ５０５、話者照合モジュール２２５は、話者音声データの特徴を所定のユーザに関連付けられる基準特徴と比較する。タクシーサービスの文脈では、所定のユーザは、その話者モデルがドライバの登録中に構築され、話者モデルデータベースに格納された登録ライバに対応する。基準特徴は登録ドライバの特徴に対応する。

ステップ５０７、話者照合モジュール２２５は、話者音声データの特徴と登録ドライバの基準特徴との間の類似性を査定する類似性スコアを計算する。類似性スコアは、登録ドライバに対応する話者モデルに対して話者音声データの特徴をチェックすることによって計算されることができる。類似性スコアは、話者音声データの特徴と登録ドライバの基準特徴との間の類似度を表す。例えば、話者音声データの特徴を表す特徴ベクトルが生成され、登録ドライバに関連付けられる特徴を表す特徴ベクトルと比較されることができる。

いくつかの実施形態では、登録ドライバに関連付けられる特徴を表す特徴ベクトルは、登録ドライバの複数のオーディオ録音でＤＮＮを訓練し、複数のオーディオ録音の特徴ベクトルに基づいて平均化特徴ベクトルを取得後、取得されることができる。類似性スコアは、話者音声データから取得される特徴ベクトルと、登録ドライバに対応する平均化特徴ベクトルとの差を計算することによって取得されることができる。更に、いくつかの実施形態では、確率的線形判別分析（ＰＬＤＡ：ｐｒｏｂａｂｉｌｉｓｔｉｃｌｉｎｅａｒｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ）スコアリングが類似性スコア計算に使用されることができる。

ステップ５１１、話者照合モジュール２２５は類似性スコアを所定の閾値と比較する。次いで、計算された類似性スコアは所定の閾値と比較される。所定の閾値は、照合が成功した場合の最小基準を表す。例えば、類似値が、話者音声データの特徴ベクトルと登録ドライバに対応する特徴ベクトルとの間の距離として表される場合、ステップ５０７で計算された距離が所定の閾値距離と比較されるであろう。実際のアプリケーションでは、閾値は、他の方法で又は他の値として表されることができ、システム要件に応じて変わることができる。

ステップ５１３、類似性スコアが所定の閾値を満たす場合、話者照合モジュール２２５は、話者が登録ドライバである、すなわち照合が成功したと結論付ける。

ステップ５１５、類似性スコアが所定の閾値を満たさない場合、話者照合モジュール２２５は、話者が登録ドライバではない、すなわち照合が成功しなかったと結論付ける。

ステップ５１７、話者照合モジュール２２５は判定結果を出力する。上述したように、例として図１で説明されたシステムを採用すると、判定結果は、タクシーサービス記録又はドライバアカウント記録を更新するために、Ｉ／Ｏインタフェース１１７を介してタクシーサービス管理システム１５０に出力されることができる。それはまた、制御パネル１６０に出力されることができ、その後、制御パネル１６０は、ネットワーク１２０を介して、判定結果が対応する乗客端末１３０又はドライバ端末１４０に提供されることを要求する命令を送信することができる。

図６は、例示的な実施形態による話者記載又は登録処理６００を示すフローチャートである。タクシーサービスの文脈では、処理６００は、新しいドライバアカウントが登録され、格納され、ドライバの話者モデルが、将来の照合目的のために構築され、格納される処理を表す。例えば、処理６００は、図２に示される話者照合器２００のドライバ登録部２１０によって実行されることができる。

ステップ６０１、ドライバは、タクシーサービス管理システム１５０を使用してユーザアカウントを設定する。ドライバは、ドライバ端末アプリケーションを介して新しいユーザアカウントを登録することができる。ドライバ端末アプリケーションは、その後、登録要求を処理し、ドライバのユーザアカウントを設定するタクシーサービス管理システム１５０などのタクシーサービス管理システムに必要な登録情報を送信することができる。

ステップ６０３、タクシーサービス管理システム１５０はユーザ登録情報を格納する。新しいドライバアカウントが設定されると、対応するドライバ端末１４０に関連付けられる情報、性別、年齢、運転経験、ライセンス情報、及びドライバの電話番号のような連絡先情報などのドライバの個人情報、又はドライバに関連付けられる他のアカウント情報を含むドライバ登録情報が格納されることができる。

ステップ６０５、前処理モジュール２１１は、ドライバ端末１４０などのユーザ端末からのオーディオ録音入力を受信する。新たに登録されたドライバは、１つ又は複数の彼又は彼女のオーディオ録音を入力するよう要求されることができ、これは、或る指定されたテキストを読むことか又は放言的発言の形態とすることができる。図１に示されるように、ドライバ端末１４０からのオーディオ録音は、その後ネットワーク１２０を介して前処理モジュール２１１に送信されることができる。

ステップ６０７、前処理モジュール２１１は、オーディオ信号から周囲雑音を除去するか又はオーディオ信号から話し声信号を抽出する。ドライバ端末１４０に入力されるオーディオ録音は、背景雑音又は話し声に関連しない音を含む可能性がある。これらの音は、特徴抽出の前にオーディオ信号から除去されることができる。開示された実施形態では、ステップ５０７はステップ３０５と同様であり、その詳細は本明細書では繰り返されない。

ステップ６０９、前処理モジュール２１１は、話し声信号が様々な性別の話者による話し声を含むかどうかを判定する。このステップは、オーディオ録音入力の品質及び純度に応じて任意選択的である。図３に関連して説明されたステップ３０７と同様に、話し声信号が様々な性別の話者による話し声を含むかどうかが、例えば様々な性別に対応する様々な特徴的基本周波数に基づいて、判定されることができる。

ステップ６１１、前処理モジュール２１１は、前に登録された性別に関連付けられるユーザ音声データを抽出する。ステップ６０３の間に、新たに登録されたドライバの性別情報が入力され格納されている。様々な性別の話者による話し声が話し声信号に存在する場合、登録されている性別に対応する話し声信号は更なる処理のために抽出されることができる。開示された実施形態では、ステップ６１１は、図３に関連して説明されたステップ３０９と同様であり、その詳細は本明細書では繰り返されない。

ステップ６１３、特徴抽出モジュール２１３は、受信されたユーザ音声データから特徴抽出モジュールへ特徴を抽出する。これは、図５を参照して説明された特徴抽出処理と同様のステップを含み、その詳細は本明細書では繰り返されない。

ステップ６１５、話者モデル構築モジュール２１５は基準特徴に基づいて話者モデルを構築する。図２を参照して上述したように、様々な話者モデル構築技術が話者モデル構築モジュール２１５によって使用されることができる。例えば、ディープニューラルネットワーク（ＤＮＮ）は、ドライバ音声データから抽出された特徴を用いて訓練されることができ、話者モデルは話者の音声特徴を表す特徴ベクトルを抽出することによって構築されることができる。利用されることができる他の話者モデルは、ガウス混合モデル（ＧＭＭ）及び隠れマルコフモデル（ＨＭＭ）（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）ｍｏｄｅｌ）を含む。話者モデルを構築する様々な手法の組み合わせも存在し、本開示は如何なる特定の話者モデル構築手法に限定されるものではない。

ステップ６１７、登録ドライバに対応する話者モデルを構築後、話者モデルはその後話者モデルデータベース２１７に格納されることができる。全ての登録ドライバは、将来の照合のために構築され格納される話者モデルを有することができる。

いくつかの実施形態では、或る登録ドライバアカウントは、ドライバに対応する格納された話者モデルを有していない可能性がある。１つの話者照合実施形態によれば、話者照合器は、図６を参照して以下で更に説明されるように、１つの登録ドライバアカウントが複数のユーザによって使用されているかどうかを判定するために、ある期間にわたってドライバと乗客の会話の複数のオーディオ録音を収集することができる。

図７は、登録ドライバアカウントに関連付けられる話者モデルが格納されていない話者照合方法７００を示すフローチャートである。例えば、方法７００はシステム１００によって実行されることができる。

ステップ７０１、話者照合器１１０は、ユーザ端末から複数のオーディオ録音を受信する。例えば、１つの登録ドライバアカウントに関連付けられるドライバ端末１４０が、タクシーサービスを提供するために複数のドライバによって使用されている場合、話者照合器１１０は、ある期間にわたって複数の録音を収集することができる。

ステップ７０３、話者照合器１１０は、ドライバ端末１４０から送信される話者音声データを抽出するために各オーディオ録音を前処理する。開示された実施形態では、ステップ７０３は方法３００及び／又は４００と同様であり、その詳細は本明細書では繰り返されない。

ステップ７０５、話者照合器１１０は特徴を話者音声データから抽出する。開示された実施形態では、ステップ７０５はステップ５０３又は６１３と同様であり、その詳細は本明細書では繰り返されない。

ステップ７０７、話者照合器１１０は抽出された特徴を分類する。特徴がドライバ端末１４０からの各オーディオ録音入力に対して話者音声データから抽出された後に、特徴は、それらが同じ人に対応するかどうかを判定するために分類される。例えば、単純ベイズ（ＮａｉｖｅＢａｙｅｓ）分類器又はサポートベクトルマシン（ＳＶＭ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）分類器などの様々な特徴分類器が分類に使用されることができる。既存の話者認識技術における他の分類器も使用されることができ、それは、抽出された特徴に基づいて選択されることができる。更に、分類は、抽出された全ての特徴を使用する必要はない可能性がある。

ステップ７０９、話者照合器１１０は、抽出された特徴が同じ話者に対応するかどうかを判定する。ステップ７０７における分類が複数のカテゴリーの特徴を示すかどうかに応じて、話者照合器１１０は、同じドライバアカウントを使用する複数のユーザが存在するかどうかを判定することができる。特徴が複数のカテゴリーに属するならば、同じドライバアカウントを使用する複数のユーザが存在すると判定されることができる。判定結果は、その後更なるアクションのためにタクシーサービス管理システム１５０に出力されることができる。

本開示の別の態様は、上述したように、実行されると、１つ又は複数のプロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読媒体を対象とする。コンピュータ可読媒体は、揮発性もしくは不揮発性、磁気、半導体、テープ、光学、取外し可能、取外し不可能、又は他のタイプのコンピュータ可読媒体もしくはコンピュータ可読記憶デバイスを含むことができる。例えば、コンピュータ可読媒体は、開示されているように、その上に格納されるコンピュータ命令を有する記憶ユニット又はメモリモジュールとすることができる。いくつかの実施形態では、コンピュータ可読媒体は、その上に格納されるコンピュータ命令を有するディスク又はフラッシュドライブとすることができる。

当業者には、様々な変更及び変形が開示された話者照合システム及び関連する方法になされることができることが明らかであろう。当業者には、他の実施形態が、開示された話者照合システム及び関連する方法の仕様及び実施の考察から明らかであろう。例えば、開示された話者照合システム及び方法は、タクシー呼び出しサービスに関連して説明されているが、それらは、顧客サービスコールセンター、食糧配送発注システム、電話による支払いシステムなどのような、個人の身元が音声に基づいて照合されることができる他のアプリケーション用に適合され実装されることができる。明細書及び実施例は、例示的なものとしてのみ考慮され、真の範囲は以下の特許請求の範囲及びそれらの同等物によって示されることが意図されている。

Claims

オーディオ録音を取得するステップと、
前記オーディオ録音から話し声信号を抽出するステップと、
前記抽出された話し声信号の特徴を抽出するステップと、
前記抽出された話し声信号が、前記抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、前記所定の話者による話し声を表すかどうかを判定するステップと、を備える話者照合方法。
前記オーディオ録音は前記所定の話者に関連付けられる端末から送信される、請求項１に記載の方法。
前記オーディオ録音は車両のドライバと同じ車両の乗客との間の電話通話からのものである、請求項１に記載の方法。
前記話し声信号を抽出するステップは、
前記オーディオ録音のエネルギーレベルを測定するステップと、
前記エネルギーレベルに基づいて話し声信号を抽出するステップと、を備える、請求項１に記載の方法。
前記オーディオ録音の前記エネルギーレベルを測定するステップは、
前記オーディオ録音の共振器時間−周波数画像（ＲＴＦＩ）スペクトルを計測するステップを備える、請求項４に記載の方法。
前記話し声信号を抽出するステップは、
前記オーディオ録音が様々な性別の話者による話し声を含むかどうかを判定するステップと、
前記オーディオ録音が様々な性別の話者による話し声を含むと判定される場合、前記所定の話者の性別に対応する話し声信号を抽出するステップと、を備える、請求項１に記載の方法。
前記オーディオ録音が様々な性別の話者による話し声を含むかどうかを判定するステップは、
前記オーディオ録音が様々な性別の特徴的基本周波数を含むかどうかを検出するステップを備える、請求項６に記載の方法。
前記抽出された話し声信号は第１の話し声信号を含み、
前記話し声信号を抽出するステップは、
前記第１の話し声信号の話者性別を判定するステップと、
前記第１の話し声信号の前記話者性別が前記所定の話者の性別と異なる場合、前記オーディオ録音の継続時間に対する前記第１の話し声信号の継続時間の比を決定するステップと、
前記比が所定の閾値を超える場合、前記オーディオ録音は前記所定の話者による話し声を含まないと結論付けるステップと、
前記比が前記所定の閾値以下である場合、前記抽出された話し声信号から前記第１の話し声信号を除去するステップと、を備える、請求項１に記載の方法。
前記抽出された特徴は、前記抽出された話し声信号のメル周波数ケプストラム係数（ＭＦＣＣ）を備える、請求項１に記載の方法。
前記抽出された話し声信号が前記所定の話者による話し声を表すかどうかを判定するステップは、
前記基準音声データから前記所定のユーザに関連付けられる基準特徴を抽出するステップと、
前記基準特徴に基づいて前記話者モデルを訓練するステップと、を更に備える、請求項１に記載の方法。
前記話者モデルは、ガウス混合モデル（ＧＭＭ）、隠れマルコフモデル（ＨＭＭ）、又はディープニューラルネットワーク（ＤＮＮ）モデルのうちの少なくとも１つである、請求項１０に記載の方法。
前記抽出された特徴と前記基準特徴との間の類似性を計算するステップと、
前記抽出された話し声信号が、前記類似性に基づいて前記所定のユーザによる話し声を表すかどうかを判定するステップと、を更に備える請求項１０に記載の方法。
命令を含むメモリと、
プロセッサであって、
オーディオ録音を受信し、
前記オーディオ録音から話し声信号を抽出し、
前記抽出された話し声信号の特徴を抽出し、
前記抽出された話し声信号が、前記抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、前記所定の話者による話し声を表すかどうかを判定する前記命令を実行するように構成されるプロセッサと、を備える話者照合システム。
前記オーディオ録音は前記所定の話者に関連付けられる端末から送信される、請求項１３に記載のシステム。
前記オーディオ録音は車両のドライバと同じ車両の乗客との間の電話通話からのものである、請求項１３に記載のシステム。
前記プロセッサは、
前記オーディオ録音のエネルギーレベルを測定し、
前記エネルギーレベルに基づいて話し声信号を抽出する前記命令を実行するように更に構成される、請求項１３に記載のシステム。
前記プロセッサは、
前記オーディオ録音の共振器時間−周波数画像（ＲＴＦＩ）スペクトルを計測する前記命令を実行するように更に構成される、請求項１６に記載のシステム。
前記プロセッサは、
前記オーディオ録音が様々な性別の話者による話し声を含むかどうかを判定し、
前記オーディオ録音が様々な性別の話者による話し声を含むと判定される場合、前記所定の話者の性別に対応する話し声信号を抽出する前記命令を実行するように更に構成される、請求項１３に記載のシステム。
前記プロセッサは、
前記オーディオ録音が様々な性別の特徴的基本周波数を含むかどうかを検出する前記命令を実行するように更に構成される、請求項１８に記載のシステム。
前記抽出された話し声信号は第１の話し声信号を含み、
前記プロセッサは、
前記第１の話し声信号の話者性別を判定し、
前記第１の話し声信号の前記話者性別が前記所定の話者の性別と異なる場合、前記オーディオ録音の継続時間に対する前記第１の話し声信号の継続時間の比を決定し、
前記比が所定の閾値を超える場合、前記オーディオ録音は前記所定の話者による話し声を含まないと結論付け、
前記比が前記所定の閾値以下である場合、前記抽出された話し声信号から前記第１の話し声信号を除去する前記命令を実行するように更に構成される、請求項１３に記載のシステム。
前記抽出された特徴は、前記抽出された話し声信号のメル周波数ケプストラム係数（ＭＦＣＣ）を備える、請求項１３に記載のシステム。
前記プロセッサは、
前記基準音声データから前記所定のユーザに関連付けられる基準特徴を抽出し、
前記基準特徴に基づいて前記話者モデルを訓練する前記命令を実行するように更に構成される、請求項１３に記載のシステム。
前記話者モデルは、ガウス混合モデル（ＧＭＭ）、隠れマルコフモデル（ＨＭＭ）、又はディープニューラルネットワーク（ＤＮＮ）モデルのうちの少なくとも１つである、請求項２２に記載のシステム。
前記プロセッサは、
前記抽出された特徴と前記基準特徴との間の類似性を計算し、
前記抽出された話し声信号が、前記類似性に基づいて前記所定のユーザによる話し声を表すかどうかを判定する前記命令を実行するように更に構成される、請求項２２に記載のシステム。
１つ又は複数のプロセッサによって実行されると、前記プロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読記憶媒体であって、
前記方法は、
オーディオ録音を受信するステップと、
前記オーディオ録音から話し声信号を抽出するステップと、
前記抽出された話し声信号の特徴を抽出するステップと、
前記抽出された話し声信号が、前記抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、前記所定のユーザによる話し声を表すかどうかを判定するステップと、を備える、非一時的なコンピュータ可読記憶媒体。
端末から複数のオーディオ録音を取得するステップと、
前記複数のオーディオ録音から話し声信号を抽出するステップと、
前記抽出された話し声信号の特徴を抽出するステップと、
前記抽出された特徴を１つ又は複数のクラスに分類するステップと、
前記抽出された特徴が複数のクラスに分類される場合、前記複数のオーディオ録音が所定の話者と異なる一人又は複数の話者による話し声を含むかどうかを判定するステップと、を備える話者照合方法。
前記複数のオーディオ録音は車両のドライバと同じ車両の乗客との間の電話通話からのものである、請求項２６に記載の方法。
前記話し声信号を抽出するステップは、
前記複数のオーディオ録音のエネルギーレベルを測定するステップと、
前記エネルギーレベルに基づいて話し声信号を抽出するステップと、を備える、請求項２６に記載の方法。
前記複数のオーディオ録音の前記エネルギーレベルを測定するステップは、
前記複数のオーディオ録音の共振器時間−周波数画像（ＲＴＦＩ）スペクトルを計測するステップを備える、請求項２８に記載の方法。
前記話し声信号を抽出するステップは、
前記複数のオーディオ録音が様々な性別の話者による話し声を含むかどうかを判定するステップと、
前記複数のオーディオ録音が様々な性別の話者による話し声を含むと判定される場合、前記所定の話者の性別に対応する話し声信号を抽出するステップと、を備える、請求項２６に記載の方法。
前記抽出された話し声信号は第１のオーディオ録音から抽出された第１の話し声信号を含み、
前記話し声信号を抽出するステップは、
前記第１の話し声信号の話者性別を判定するステップと、
前記第１の話し声信号の前記話者性別が前記所定の話者の性別と異なる場合、前記第１のオーディオ録音の継続時間に対する前記第１の話し声信号の継続時間の比を決定するステップと、
前記比が所定の閾値を超える場合、前記複数のオーディオ録音は前記所定の話者と異なる話者による話し声を含むと結論付けるステップと、
前記比が前記所定の閾値以下である場合、前記抽出された話し声信号から前記第１の話し声信号を除去するステップと、を備える、請求項２６に記載の方法。
前記抽出された特徴は、前記抽出された話し声信号のメル周波数ケプストラム係数（ＭＦＣＣ）を備える、請求項２６に記載の方法。
命令を含むメモリと、
プロセッサであって、
端末から複数のオーディオ録音を取得し、
前記複数のオーディオ録音から話し声信号を抽出し、
前記抽出された話し声信号の特徴を抽出し、
前記抽出された特徴を１つ又は複数のクラスに分類し、
前記抽出された特徴が複数のクラスに分類される場合、前記複数のオーディオ録音が所定の話者と異なる一人又は複数の話者による話し声を含むかどうかを判定する前記命令を実行するように構成されるプロセッサと、を備える話者照合システム。
前記複数のオーディオ録音は車両のドライバと同じ車両の乗客との間の電話通話からのものである、請求項３３に記載のシステム。
前記プロセッサは、
前記複数のオーディオ録音のエネルギーレベルを測定し、
前記エネルギーレベルに基づいて話し声信号を抽出する前記命令を実行するように更に構成される、請求項３３に記載のシステム。
前記プロセッサは、
前記複数のオーディオ録音の共振器時間−周波数画像（ＲＴＦＩ）スペクトルを計測する前記命令を実行するように更に構成される、請求項３５に記載のシステム。
前記プロセッサは、
前記複数のオーディオ録音が様々な性別の話者による話し声を含むかどうかを判定し、
前記複数のオーディオ録音が様々な性別の話者による話し声を含むと判定される場合、前記所定の話者の性別に対応する話し声信号を抽出する前記命令を実行するように更に構成される、請求項３３に記載のシステム。
前記抽出された話し声信号は第１のオーディオ録音から抽出された第１の話し声信号を含み、
前記プロセッサは、
前記第１の話し声信号の話者性別を判定し、
前記第１の話し声信号の前記話者性別が前記所定の話者の性別と異なる場合、前記第１のオーディオ録音の継続時間に対する前記第１の話し声信号の継続時間の比を決定し、
前記比が所定の閾値を超える場合、前記複数のオーディオ録音は前記所定の話者と異なる話者による話し声を含むと結論付け、
前記比が前記所定の閾値以下である場合、前記抽出された話し声信号から前記第１の話し声信号を除去する前記命令を実行するように更に構成される、請求項３３に記載のシステム。
前記抽出された特徴は、前記抽出された話し声信号のメル周波数ケプストラム係数（ＭＦＣＣ）を備える、請求項３３に記載のシステム。
１つ又は複数のプロセッサによって実行されると、前記プロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読記憶媒体であって、
前記方法は、
端末から複数のオーディオ録音を取得するステップと、
前記複数のオーディオ録音から話し声信号を抽出するステップと、
前記抽出された話し声信号の特徴を抽出するステップと、
前記抽出された特徴を１つ又は複数のクラスに分類するステップと、
前記抽出された特徴が複数のクラスに分類される場合、前記複数のオーディオ録音が所定の話者と異なる一人又は複数の話者による話し声を含むかどうかを判定するステップと、を備える、非一時的なコンピュータ可読記憶媒体。