JP2019527370A - 話者照合の方法、装置、及びシステム - Google Patents

話者照合の方法、装置、及びシステム Download PDF

Info

Publication number
JP2019527370A
JP2019527370A JP2018503622A JP2018503622A JP2019527370A JP 2019527370 A JP2019527370 A JP 2019527370A JP 2018503622 A JP2018503622 A JP 2018503622A JP 2018503622 A JP2018503622 A JP 2018503622A JP 2019527370 A JP2019527370 A JP 2019527370A
Authority
JP
Japan
Prior art keywords
speaker
speech signal
extracted
speech
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018503622A
Other languages
English (en)
Other versions
JP6677796B2 (ja
Inventor
ジエ チェン
ジエ チェン
ダン スー
ダン スー
ティエンシャオ フー
ティエンシャオ フー
ナー フー
ナー フー
Original Assignee
ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド
ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド, ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド filed Critical ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド
Publication of JP2019527370A publication Critical patent/JP2019527370A/ja
Application granted granted Critical
Publication of JP6677796B2 publication Critical patent/JP6677796B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Traffic Control Systems (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本開示は、効率的で信頼性の高い話者照合の方法、装置、及びシステムに関する。方法は、オーディオ録音を取得するステップと、オーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された話し声信号が、抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、所定の話者による話し声を表すかどうかを判定するステップと、を含む。【選択図】図1

Description

本開示は、一般に、話者照合技術に関し、より詳細には、信頼性が高く効率的な話者照合の方法、システム、及び装置に関する。
話者照合技術は、彼又は彼女の音声又は声紋の特徴に基づいて話者を照合するステップを含む。このような特徴は、彼又は彼女の喉頭、口、及び鼻の大きさ及び形状などの話者の解剖学的特徴並びに音声ピッチ及び言語などの行動パターンに関連する可能性がある。話者照合技術は、一般に、テキスト依存型話者照合及びテキスト独立型話者照合(text−independent verification)の2つのカテゴリーに分類される。様々な話者照合技術が、特にセキュリティ機構として、話者の身元を照合するために開発され、適用されてきた。
多くのサービス及び製品が、現在、ユーザ端末とサービス提供者サーバとの間の遠隔通信を介して提供され、処理されている。例えば、乗客が彼らの携帯端末上のアプリケーションを介してタクシーサービスを予約することがますます普及してきている。情報は、次いで、インターネットを介してタクシーサービス管理システムに送信されることができ、タクシーサービス管理システムは、トリップ情報を処理し、システムに登録されている利用可能なドライバの位置を確認し、それに応じて出迎えを手配することができる。しかしながら、登録ドライバアカウントが不正ユーザによって不正に使用され、ドライバ記録管理におけるセキュリティ上の懸念及び問題を引き起こす状況がある。例えば、登録ドライバは、許可なく他のドライバと彼又は彼女のアカウントを共有する可能性があるか又はドライバアカウントもしくはドライバの携帯端末がハッキングもしくは盗難される可能性がある。このようなドライバアカウントの不正使用は、提供者の収入損失を引き起こすだけでなく、ドライバの本当の身元を追跡することができないことに関する安全上の懸念をももたらす。従って、ドライバの身元を照合する信頼性の高いシステムが、タクシーサービスのセキュリティ及びドライバ記録の効率的な管理を向上させるために必要である。
上記の問題に鑑みて、本開示は、タクシー呼び出しなどのアプリケーションに対してセキュリティを向上させるための及び登録ユーザアカウントの効率的な管理ための話者照合の方法、デバイス、及びシステムを提供する。
本開示の1つの態様は話者照合方法を対象とする。方法は、オーディオ録音を取得するステップと、オーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された話し声信号が、抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、所定の話者による話し声を表すかどうかを判断するステップと、を含むことができる。
本開示の別の態様は話者照合システムを対象とする。システムは、命令を含むメモリと、オーディオ録音を受信し、オーディオ録音から話し声信号を抽出し、抽出された話し声信号の特徴を抽出し、抽出された話し声信号が、抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、所定の話者による話し声を表すかどうかを判断する命令を実行するように構成されるプロセッサと、を含むことができる。
本開示の別の態様は、1つ又は複数のプロセッサによって実行されると、プロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読記憶媒体を対象とする。方法は、オーディオ録音を取得するステップと、オーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された話し声信号が、抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、所定の話者による話し声を表すかどうかを判断するステップと、を含む。
本開示の別の態様は話者照合方法を対象とする。方法は、端末から複数のオーディオ録音を取得するステップと、複数のオーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された特徴を1つ又は複数のクラスに分類するステップと、抽出された特徴が複数のクラスに分類される場合、複数のオーディオ録音が所定の話者と異なる1人又は複数の話者による話し声を含むかどうかを判断するステップと、を含むことができる。
本開示の別の態様は話者照合システムを対象とする。システムは、命令を含むメモリと、端末から複数のオーディオ録音を受信し、複数のオーディオ録音から話し声信号を抽出し、抽出された話し声信号の特徴を抽出し、抽出された特徴を1つ又は複数のクラスに分類し、抽出された特徴が複数のクラスに分類される場合、複数のオーディオ録音が所定の話者と異なる1人又は複数の話者による話し声を含むかどうかを判断する命令を実行するように構成されるプロセッサと、を含むことができる。
本開示の更に別の態様は、1つ又は複数のプロセッサによって実行されると、プロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読記憶媒体を対象とする。方法は、端末から複数のオーディオ録音を取得するステップと、複数のオーディオ録音から話し声信号を抽出するステップと、抽出された話し声信号の特徴を抽出するステップと、抽出された特徴を1つ又は複数のクラスに分類するステップと、抽出された特徴が複数のクラスに分類される場合、複数のオーディオ録音が所定の話者と異なる1人又は複数の話者による話し声を含むかどうかを判断するステップと、を含む。
例示的な実施形態によるタクシーサービス管理分野で使用される話者照合システム100のブロック図である。 例示的な実施形態によるタクシーサービス管理分野に適用される話者照合器200のブロック図である。 例示的な実施形態によるオーディオ信号前処理方法300を示すフローチャートである。 別の例示的な実施形態によるオーディオ信号前処理方法400を示すフローチャートである。 例示的な実施形態による話者照合処理500を示すフローチャートである。 例示的な実施形態による話者記載又は登録処理600を示すフローチャートである。 例示的な一実施形態による登録ドライバカウントに関連付けられる話者モデルが格納されていない話者照合方法700を示すフローチャートである。
本開示は、一般に、話者の音声データから抽出された音声特性に基づいて話者を照合することに関する。音声データは、或るテキストを読む話者の音声録音又は話者と他の人との間の会話の録音などの話者の話し声信号を含むオーディオ録音入力から取得されることができる。それは、リアルタイムで又は予め保存された録音の入力を介して取得されることができる。更に、例えば、PDA、タブレット、ラップトップなどのコンピュータ、携帯電話、スマートウォッチなどの様々なユーザ端末が、オーディオ録音入力を受信するために使用されることができる。
例えば、輸送サービスに関連して、輸送サービス提供者(例えば、タクシーの呼び出し、自家用車の呼び出し、乗り物の共有などの提供者)は、音声データをドライバ又は乗客の身元を照合するために使用することができる。具体的には、タクシーサービスなどの輸送サービスを必要とする乗客は、彼らの携帯電話などの彼らのユーザ端末にインストールされているタクシーサービス・アプリケーションを有することができる。タクシーサービスを提供するドライバはまた、注文を処理して或る乗客を迎えに行くために注文を受け取る及び/又は輸送サービス提供者から指示を受ける端末にインストールされている対応するアプリケーションを有することができる。典型的なシナリオでは、乗客は、ドライバ側の携帯電話アプリケーションを介して今度のトリップに関する情報を入力し、タクシーサービスを要求することができる。輸送サービス提供者は、そのようなサービス要求をネットワークを介して受信し、それに応じて注文を処理し、出迎えを手配するために利用可能なドライバを送ることができる。乗客の出迎えの前に、ドライバは、乗客に関連する電話番号又は他のアカウント情報などの乗客の連絡先情報に従って乗客に接触することができる。通信は、ドライバ端末と乗客端末との間の直接的な会話を含むことができる。管理を容易にし、タクシーサービスのセキュリティを確保するために、会話が記録され、且つオーディオ録音は、例えば登録ドライバ情報に従ってドライバの身元を照合するために、更なる処理及び話者照合のために照合システムに提供されることができる。
図1は、例示的な実施形態によるタクシーサービス管理で使用される話者照合システム100のブロック図である。図1を参照すると、システム100は、話者照合器110、ネットワーク120、複数の乗客端末130、及び複数のドライバ端末140、タクシーサービス管理システム150、並びに制御パネル160を含むことができる。
話者照合器110は、話者の音声特性に従って話者を照合するように構成されることができる。図1に示すように、話者照合器110は、とりわけ、メモリ111、プロセッサ113、記憶装置115、入出力(I/O)インタフェース117、及び通信インタフェース119を含むことができる。話者照合器110のこれらの構成要素のうちの少なくともいくつかは、データを転送し、且つ相互に又は相互間で命令を送信又は受信するように構成されることができる。いくつかの実施形態では、話者照合器110は、輸送サービス提供者によって運営されるタクシーサービス管理プラットフォームの一部として設置されることができ、又はその機能はまた、タクシーサービス・アプリケーション(例えば、乗客端末130にインストールされるアプリケーション)の一部として組み込まれることができ、ユーザは、サービスを提供するドライバの身元を照合することができる。
プロセッサ113は、任意の適切なタイプの汎用もしくは専用マイクロプロセッサ、デジタル信号プロセッサ、又はマイクロコントローラを含むことができる。プロセッサ113は、話者を照合し、照合の結果を出力する専用の別個のプロセッサモジュールとして構成されることができる。代替的に、プロセッサ113は、話者照合とは無関係の他の機能を実行する共有プロセッサモジュールとして構成されることもできる。
プロセッサ113は、話者照合を実行するために、システム100の他の構成要素からデータ及び/又は信号を受信するように構成されることができ。例えば、プロセッサ113は、例えばI/Oインタフェース117を介してタクシーサービス管理システム150と情報を、及び制御パネル160と命令を交換することができる。照合後、プロセッサ113は、照合結果をタクシーサービス管理システム150及び制御パネル160に提供することができ、プロセッサ113は、更に、対応する乗客端末130又は対応するドライバ端末140に、照合結果の保存、ドライバ/ユーザアカウント記録の更新、又は照合結果の出力などの更なる命令を提供することができる。
プロセッサ113はまた、通信インタフェース119を介して送信された情報にアクセスすることができる。例えば、プロセッサ113は、乗客端末130及びドライバ端末140からネットワーク120を介して送信されたオーディオ信号を含む会話のオーディオ録音を受信することができる。照合後、プロセッサ113は、制御パネル160からの命令を受信すると、照合結果を、ネットワーク120を介して対応する乗客端末130及び対応するドライバ端末140に送信することができる。
プロセッサ113は、メモリ111及び/又は記憶装置115に格納されるコンピュータ命令(例えば、プログラムコード)を実行することができ、本開示に記載されている例示的な技術に従って機能を実行することができる。プロセッサ113の更なる例示的な機能は図2〜7に関連して後述されるであろう。
メモリ111及び記憶装置115は、プロセッサ113が動作するために必要な可能性がある任意のタイプの情報を格納するために提供される任意の適切なタイプの大容量記憶装置を含むことができる。メモリ111及び記憶装置115は、揮発性もしくは不揮発性、磁気、半導体、テープ、光学、取外し可能な、取外し不可能な、又は他のタイプの記憶デバイスあるいは読み出し専用メモリ(ROM:read−only memory)、フラッシュメモリ、ダイナミックランダムアクセスメモリ(RAM:random−access memory)、及びスタティックRAMを含むが、これらに限定されない有形の(すなわち非一時的)コンピュータ可読媒体で表されることができる。メモリ111及び/又は記憶装置115は、話者照合のために本明細書で説明される開示された方法を実行するためにプロセッサ113によって実行されることができる1つ又は複数のコンピュータプログラムを格納するように構成されることができる。
メモリ111及び/又は記憶装置115は、プロセッサ113によって使用される情報及びデータを格納するように更に構成されることができる。例えば、メモリ111及び/又は記憶装置115は、乗客端末130及び/又はドライバ端末140から受信されるオーディオ録音、話者照合処理中に生成されるデータ、並びに最終的な照合結果を格納することができる。
I/Oインタフェース117は、話者照合器110、タクシーサービス管理システム150、及び制御パネル160の間の通信を容易にするように構成されることができる。例えば、話者照合器110は、話者照合結果を、ドライバアカウント情報及びタクシーサービス記録を更新するためにI/Oインタフェース117を介して、タクシーサービス管理システム150に提供することができる。話者照合器110はまた、話者照合の実行に関して制御パネル160から命令を受信し、又は照合結果を対応する乗客端末130及びドライバ端末140に更に出力することができる。
通信インタフェース119は、ネットワーク120を介して乗客端末130及びドライバ端末140と通信するように構成されることができる。ネットワーク120は、データを送信及び受信することを可能にすることができる任意のタイプの有線又は無線ネットワークとすることができる。例えば、ネットワーク120は、有線ネットワーク、ローカル無線ネットワーク(例えば、Bluetooth(登録商標)、WiFi、近距離通信(NFC:near field communications)など)、セルラネットワーク、インターネットなど、又はそれらの組み合わせとすることができる。データを送信する媒体を提供する他の既知の通信方法も考えられる。
乗客端末130は、タクシーサービス・アプリケーションを持つ例えば携帯電話、ラップトップ又はデスクトップなどのコンピュータ、PDA、タブレット、スマートウォッチなどの、ネットワーク120を介して情報を受信及び送信することができる任意のデバイスとすることができる。乗客端末130は、ネットワーク120を介してオーディオ信号を受信及び記録し、情報を送信するように構成されることができる。例えば、乗客は、携帯電話上のアプリケーションを介して情報を入力し、ドライバ端末140との会話を開始するか又はそれに参加することができる。乗客の携帯電話は、会話のオーディオ録音を受信する乗客端末130として機能し、オーディオ録音は、その後話者照合のために話者照合器110に送信されることができる。
ドライバ端末140は、乗客端末130と同様に、ネットワーク120を介して情報を受信及び送信することができる任意のデバイスとすることができる。例えば、ドライバ端末140は、タクシーサービス・アプリケーションを持つ携帯電話、ラップトップ又はデスクトップなどのコンピュータ、PDA、タブレット、スマートウォッチなどとすることができる。乗客端末130はまた、車両制御システムの一部としてインストールされるデバイス又はモジュールとすることができる。例えば、ドライバは、携帯電話上のアプリケーションを介して情報を入力し、乗客端末130との会話を開始するか又はそれに参加することができる。ドライバの携帯電話は、会話のオーディオ録音を受信するドライバ端末140として機能し、オーディオ録音は、その後話者照合のために話者照合器110に送信されることができる。更に、ドライバアカウント登録中に、ドライバ端末140は、電話番号、性別、電子メールアカウント、及び音声録音などのドライバの登録又はアカウント設定情報を受信するように構成されることができる。ドライバ端末140は、その後ドライバ登録情報をネットワーク120を介して話者照合器110に送信することができる。
乗客端末130及び/又はドライバ端末140は、LCD、LED、プラズマディスプレイ、又は任意の他のタイプのディスプレイを含むディスプレイを更に含み、ユーザ入力及びデータ表示のためにディスプレイ上に提示されるグラフィカルユーザインタフェース(GUI:Graphical User Interface)を更に提供することができる。例えば、ユーザ及びドライバのアカウント情報がディスプレイで表示され、話者照合結果もまた表示されることができる。
タクシーサービス管理システム150は、ドライバアカウント記録及びタクシーサービスの配送を管理する複数の構成要素を更に含むことができる。それは、ドライバアカウント情報を送信し、話者照合器110から照合結果を受信するなどのために、I/Oインタフェース117を介して話者照合器110と通信することができる。それは、話者照合結果に関連付けられるドライバ記録を格納するデータベース及びドライバ記録に基づいてドライバ実績を評価するプロセッサなどの他の構成要素を更に含むことができ、プロセッサは、対応するドライバ端末140に注文通知を送信することによって利用可能なドライバを派遣するように更に構成されることができる。
図1では別個のモジュールとして示されているが、話者照合器110、タクシーサービス管理システム150、及び制御パネル160は、1つのシステムとして統合されることができることが考えられる。例えば、1つの実施形態では、話者照合器110及び制御パネル160は、輸送サービス提供者によって運営されるタクシーサービス管理システム150に統合されることができる。話者照合に直接関係しないシステム100の他の構成要素及びそれらの機能は本明細書では詳細には説明されない。
図2は、タクシーサービス管理分野に適用される例示的な実施形態による話者照合器200のブロック図である。図2を参照すると、話者照合器200は、ドライバ登録部210及びドライバ照合部220を含むことができる。ドライバ登録部210は、前処理モジュール211、特徴抽出モジュール213、話者モデル構築モジュール215、及び話者モデルデータベース217を更に含む。ドライバ照合部220は、前処理モジュール221、特徴抽出モジュール223、及び話者照合モジュール225を更に含むことができる。前処理モジュール211及び221は、ドライバ登録処理及びドライバ照合処理の両方で前処理機能を実行する同じ機能モジュール内に具現化されることができる。同様に、特徴抽出モジュール213及び223はまた、ドライバ登録処理及びドライバ照合処理の両方のために特徴抽出機能を実行する同じ機能モジュール内に具現化されることができる。
ドライバ登録中に、前処理モジュール211は、ドライバ端末140から送信され、受信されたドライバオーディオ録音を前処理するように構成される。前処理ステップは、音声特徴抽出モジュール213による更なる処理のために、話し声信号を抽出するステップ、周囲雑音又は背景雑音信号を除去するステップ、及びドライバ音声データを抽出するステップを含む。オーディオ録音の前処理は、複数の性別に対応する話し声信号が存在する場合、ドライバに関連付けられる性別と一致する話者に対応する音声データを選択するステップを更に含むことができる。前処理ステップの詳細は、図3及び図4を参照して以下で更に説明されるであろう。
特徴抽出モジュール213は、前処理された音声データから音声特徴を抽出するように構成される。話し声又は話者照合技術で使用される様々な既存の特徴抽出技術が使用されることができる。例えば、特徴抽出モジュール213は、1980年代にDavis及びMermelsteinによって導入され、話し声認識で広く使用されるメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstral Coefficients)を抽出するように構成されることができ、他のものは線形予測係数(LPC:Linear Prediction Coefficients)又は線形予測ケプストラム係数(LPCC:Linear Prediction Cepstral Coefficient)を含むことができる。
話者モデル構築モジュール215は、特徴抽出モジュール213によって抽出された特徴を利用し、登録されているドライバの音声特徴を表す話者音響モデルを構築するように構成されることができる。様々な話者モデル構築技術が話者モデル構築モジュール215によって使用されることができる。例えば、ディープニューラルネットワーク(DNN:Deep Neural Network)がドライバ音声データから抽出された特徴を使用して訓練されることができ、話者モデルは、話者の音声特徴を表す特徴ベクトルを抽出して構築されることができる。DNNは、入力層と出力層との間に複数の隠れ層を有する人工ニューラルネットワーク(ANN:artificial neural network)である。利用される可能性のある他の話者モデルは、ガウス混合モデル(GMM:Gaussian Mixture Model)又は隠れマルコフモデル(HMM:Hidden Markov Model)(Hidden Markov Model (HMM) model)を含む。話者モデルを訓練するための様々な手法の組み合わせも存在する。本開示は、特定のモデルトレーニング手法に限定されない。
タクシーサービス管理システムに登録した後、ドライバは彼の固有の音声特徴で訓練された話者モデルを有するであろう。全ての話者モデルは話者モデルデータベース217に格納されることができ、これは全ての登録されたドライバが自分のアカウントに関連付けられる話者モデルを有するであろうことを意味する。その後、話者モデルはドライバ照合処理で使用される。
話者モデルデータベース217に保存されている話者モデルに基づいて話者を照合するドライバ照合部220は、前処理モジュール221、特徴抽出モジュール223、及び話者照合モジュール225を含む。
前処理モジュール221は、ドライバと乗客との間の会話のオーディオ録音の形態とすることができるオーディオ録音入力を前処理するように構成されることができる。ドライバ登録中に前処理モジュール211によって実行される前処理ステップと同様に、照合中の前処理は、音声特徴抽出モジュール223による更なる処理のために、ドライバ端末140から送信される信号を選択するステップ、話し声信号を抽出するステップ、周囲雑音又は背景雑音信号を除去するステップ、及びドライバ音声データを抽出するステップを含むことができる。オーディオ録音の前処理は、複数の性別に対応する話し声信号が存在する場合、対応する登録ドライバに関連付けられる性別と一致する話者に対応する音声データを選択するステップを更に含むことができる。前処理の詳細については、図3及び図4を参照して以下で更に説明されるであろう。
特徴抽出モジュール223は、前処理された話者音声データから音声特徴を抽出するように構成される。話し声又は話者認識技術で使用される様々な既存の特徴抽出技術が特徴抽出モジュール223によって使用されることができる。例えば、特徴抽出モジュール223は、1980年代にDavis及びMermelsteinによって導入され、話し声認識で広く使用されるメル周波数ケプストラム係数(MFCC)((MFCCs) features)を抽出するように構成されることができ、他のものは線形予測係数(LPC)又は線形予測ケプストラム係数(LPCC)を含むことができる。
話者照合モジュール225は、登録ドライバに関連付けられる抽出された話者音声特徴及び話者モデルに基づいて、話者が登録ドライバであるかどうかを照合するように構成されることができる。照合は、登録ドライバに対応する話者モデルに対して抽出された特徴をチェックするステップ及び類似性スコアを計算するステップを含むことができる。類似性スコアは所定の類似性閾値と比較されるであろう。照合処理の詳細は図5を参照して以下で更に説明される。
図3は、例示的な実施形態によるオーディオ信号前処理方法300を示すフローチャートである。方法300は、図2に示される前処理モジュール211及び/又は221などの話者照合デバイスの前処理モジュールによって実行されることができる。一例として、ここに示される方法300は、タクシーサービスの文脈で使用される話者/ドライバ照合中の前処理に関連される。上述したように、同様の前処理ステップは、ユーザ/ドライバ登録処理中に実行されることができる。
ステップ301、前処理モジュール221は、乗客とドライバとの間の会話を含むオーディオ録音入力を受信する。オーディオ録音は、図1に示されるようにネットワークを介して乗客端末130及びドライバ端末140の一方又は両方から送信されることができる。
ステップ303、前処理モジュール221は、所定の端末から送信されるオーディオ信号を選択する。これは、使用されているアカウントに関連付けられるドライバ端末140から送信されるオーディオ信号を選択することによって実行されることができる。登録アカウントが使用されている場合、前処理モジュール221は、アカウントに関連付けられる端末情報をチェックし、対応する端末から送信されるオーディオ信号が適宜に選択されることができる。例えば、これはまた、ドライバ端末140及び乗客端末130から送信されるオーディオ信号のチャネル情報に基づいて実行されることができる。
ステップ305、前処理モジュール221は、抽出されたオーディオ信号から周囲雑音を除去するか又は話し声信号を抽出する。所定のドライバ端末140から選択されるオーディオ信号は、他のメディアプレーヤーからの音、近くの他の端末からの音、車両の運転によって生成される雑音、及び車両の外部の環境からの雑音などの様々な背景又は環境雑音を含むことができる。このような周囲雑音は除去され、話し声信号が抽出されることができる。これは、様々な音信号をそれらの周波数に従って分類すること及び非話し声周波数に対応する信号を除去することなどの様々な既存の技術によって実行されることができる。いくつかの実施形態では、これは、共振器時間−周波数画像(RTFI:Resonator Time−Frequency Image)スペクトルを使用して、時間−周波数エネルギースペクトルを生成し、それらのエネルギーレベルに基づいて話し声信号を選択することによって実行されることもできる。例えば、前処理モジュール221は、時間−周波数エネルギースペクトルを取得するために抽出されたオーディオ信号にRTFI分析を実行することができ、時間−周波数エネルギースペクトルは、平均エネルギースペクトルを取得するために時間領域にわたって平均化される。次いで、前処理モジュール221は、話し声信号及び非話し声信号の開始点及び終了点を決定するためにエネルギー変化に基づくセグメンテーション方法を使用することができる。次いで、入力オーディオ信号の非話し声信号成分及び背景雑音成分は、話し声信号のエネルギーレベルと異なるそれらのエネルギーレベルに基づいて除去されることができる。
ステップ307、前処理モジュール221は、話し声信号が様々な性別の複数の話者による話し声を含むかどうかを判定する。例えば、ドライバ端末140から送信される話し声信号は、ドライバからの話し声を含み、且つ様々な性別である可能性がある車両内の乗客などの近くの別の人の発話をも含むことができる。様々な性別の話者からの話し声信号は、様々な性別の特徴的基本周波数の差異に基づいて分類されることができる。基本周波数は、声帯振動の周波数を表し、声帯の張力、声帯のサイズ及び厚さ、並びに声門下の空気圧の変化と相関する。基本周波数は性別及び年齢などの要因で変わる。それは、ピッチと相関し、人の音声がどの程度高い又は低い音を出すかを示す。例えば、典型的な成人男性は、85〜180Hzの範囲の基本周波数を有し、一方典型的な成人女性は、165〜255Hzの範囲の基本周波数を有する。広く使用されているYINアルゴリズム及び確率的YIN(PYIN:Probabilistic YIN)アルゴリズムなどのYINの変形などの多数のアルゴリズムがオーディオ信号の基本周波数を推定するために開発されてきた。
ステップ309、話し声信号が様々な性別の複数の話者による話し声を含むと判定される場合、前処理モジュール221は、ドライバアカウントに関連付けられる所定の性別に関連する音声データを抽出する。ドライバアカウントに関連付けられる性別と異なる性別の話者からの話し声信号が除去されることができる。例えば、ドライバアカウントに関連付けられる性別が男性であり、女性に対応する特徴基本周波数に基づいて決定されることができる抽出された話し声信号が女性乗客からの話し声信号を含む場合、女性乗客からの話し声信号は除去されることができる。
ステップ311、前処理モジュール221は、更なる処理のために抽出された話者音声データを特徴抽出モジュール223に送信する。
図4は、別の例示的な実施形態によるオーディオ信号前処理方法400を示すフローチャートである。方法300と同様に、方法400は、タクシーサービスの文脈で使用される話者/ドライバ登録又は照合処理の間の前処理に関連されるとすることができる。例えば、方法400は、図2に示される前処理モジュール211及び/又は221などの話者照合デバイスの前処理モジュールによって実行されることができる。例示のみを目的として、方法400は、話者照合処理において前処理モジュール221によって実行されるとして説明されるであろう。
図4を参照すると、ステップ401〜405はステップ301〜305と同様であり、その詳細は本明細書では繰り返されない。次に、ステップ407において、前処理モジュール221は、抽出された話し声信号の話者の性別を判定する。例えば、ステップ307に関連して上述したように、前処理モジュール221は、話し声信号の基本周波数に基づいて話者の性別を判定することができる。音声信号が車両のドライバなどの所定のユーザの性別と異なる性別の話者による話し声を表している(すなわち、オーディオ録音が話し声を含む)と判断される場合、前処理モジュール221はステップ409に進み、所定のユーザの性別と異なる性別の話者の話し声信号を選択する。
ステップ411において、前処理モジュール221は、選択された話し声信号によって表される話し声がオーディオ録音のかなりの部分を表すかどうかを判定するために、オーディオ録音の継続時間に対する選択された話し声信号の継続時間の比を計算する。比が所定の閾値を超える場合、前処理モジュール221は、オーディオ録音の話者が所定のユーザではないと直ちに結論付ける(ステップ413)。しかしながら、比が所定の閾値以下である場合、前処理モジュール221は、抽出された話し声信号から選択された話し声信号を除去し(ステップ415)、次いでステップ411に戻り、次の選択された話し声信号に対する比をチェックする。ステップ417において、前処理モジュール221は、残りの抽出された話し声信号を更なる処理のために特徴抽出モジュール223に送信する(ステップ417)。
方法400によれば、オーディオ録音の前処理フェーズの間、話者照合デバイスは、所定のユーザの性別と一致しない性別の話者の話し声信号を識別する。識別された話し声信号の1つ又は複数がオーディオ録音のかなりの部分を構成する場合、話者照合デバイスは、オーディオ録音を更に処理する必要なしに、オーディオ録音の話者が所定のユーザではないと結論する。そうでない場合、話者照合デバイスは、更なる処理を必要とするデータの量を減らすために、オーディオ録音から識別された話し声信号をフィルタリングする。これにより、話者照合の精度が向上され、一方計算コストが低減される。
図5は、例示的な実施形態による話者照合処理500を示すフローチャートである。これは、図2に示される話者照合器200のドライバ照合部220によって実行されることができる。例えば、タクシーサービス管理の文脈において、本実施形態の話者照合方法500は、話者が登録ドライバであるかどうかを照合するために使用されることができる。
ステップ501、特徴抽出モジュール223は、前処理モジュール221から送信される話者音声データを受信する。
ステップ503、特徴抽出モジュール223は話者音声データの特徴を抽出する。上述したように、話し声又は話者認識技術で使用される様々な既存の特徴抽出技術が使用されることができる。例えば、特徴抽出モジュールは、1980年代にDavis及びMermelsteinによって導入され、話し声認識で広く使用されるメル周波数ケプストラム係数(MFCC)((MFCCs) features)を抽出するように構成されることができ、他のものは線形予測係数(LPC)又は線形予測ケプストラム係数(LPCC)を含むことができる。
次に、ステップ505〜517は、話者が、話者音声データの抽出された特徴及び登録ドライバに対応する話者モデルに基づいて、登録ドライバと同一であるかどうかを照合する処理を示す。これらのステップは話者照合モジュール225によって実行されることができる。更に、全ての登録ドライバの話者モデルは、それぞれのドライバの音声特徴に基づいて構築され、ドライバ登録中に保存されることができ、その処理は図6を参照して以下に更に示される。
ステップ505、話者照合モジュール225は、話者音声データの特徴を所定のユーザに関連付けられる基準特徴と比較する。タクシーサービスの文脈では、所定のユーザは、その話者モデルがドライバの登録中に構築され、話者モデルデータベースに格納された登録ライバに対応する。基準特徴は登録ドライバの特徴に対応する。
ステップ507、話者照合モジュール225は、話者音声データの特徴と登録ドライバの基準特徴との間の類似性を査定する類似性スコアを計算する。類似性スコアは、登録ドライバに対応する話者モデルに対して話者音声データの特徴をチェックすることによって計算されることができる。類似性スコアは、話者音声データの特徴と登録ドライバの基準特徴との間の類似度を表す。例えば、話者音声データの特徴を表す特徴ベクトルが生成され、登録ドライバに関連付けられる特徴を表す特徴ベクトルと比較されることができる。
いくつかの実施形態では、登録ドライバに関連付けられる特徴を表す特徴ベクトルは、登録ドライバの複数のオーディオ録音でDNNを訓練し、複数のオーディオ録音の特徴ベクトルに基づいて平均化特徴ベクトルを取得後、取得されることができる。類似性スコアは、話者音声データから取得される特徴ベクトルと、登録ドライバに対応する平均化特徴ベクトルとの差を計算することによって取得されることができる。更に、いくつかの実施形態では、確率的線形判別分析(PLDA:probabilistic linear discriminant analysis)スコアリングが類似性スコア計算に使用されることができる。
ステップ511、話者照合モジュール225は類似性スコアを所定の閾値と比較する。次いで、計算された類似性スコアは所定の閾値と比較される。所定の閾値は、照合が成功した場合の最小基準を表す。例えば、類似値が、話者音声データの特徴ベクトルと登録ドライバに対応する特徴ベクトルとの間の距離として表される場合、ステップ507で計算された距離が所定の閾値距離と比較されるであろう。実際のアプリケーションでは、閾値は、他の方法で又は他の値として表されることができ、システム要件に応じて変わることができる。
ステップ513、類似性スコアが所定の閾値を満たす場合、話者照合モジュール225は、話者が登録ドライバである、すなわち照合が成功したと結論付ける。
ステップ515、類似性スコアが所定の閾値を満たさない場合、話者照合モジュール225は、話者が登録ドライバではない、すなわち照合が成功しなかったと結論付ける。
ステップ517、話者照合モジュール225は判定結果を出力する。上述したように、例として図1で説明されたシステムを採用すると、判定結果は、タクシーサービス記録又はドライバアカウント記録を更新するために、I/Oインタフェース117を介してタクシーサービス管理システム150に出力されることができる。それはまた、制御パネル160に出力されることができ、その後、制御パネル160は、ネットワーク120を介して、判定結果が対応する乗客端末130又はドライバ端末140に提供されることを要求する命令を送信することができる。
図6は、例示的な実施形態による話者記載又は登録処理600を示すフローチャートである。タクシーサービスの文脈では、処理600は、新しいドライバアカウントが登録され、格納され、ドライバの話者モデルが、将来の照合目的のために構築され、格納される処理を表す。例えば、処理600は、図2に示される話者照合器200のドライバ登録部210によって実行されることができる。
ステップ601、ドライバは、タクシーサービス管理システム150を使用してユーザアカウントを設定する。ドライバは、ドライバ端末アプリケーションを介して新しいユーザアカウントを登録することができる。ドライバ端末アプリケーションは、その後、登録要求を処理し、ドライバのユーザアカウントを設定するタクシーサービス管理システム150などのタクシーサービス管理システムに必要な登録情報を送信することができる。
ステップ603、タクシーサービス管理システム150はユーザ登録情報を格納する。新しいドライバアカウントが設定されると、対応するドライバ端末140に関連付けられる情報、性別、年齢、運転経験、ライセンス情報、及びドライバの電話番号のような連絡先情報などのドライバの個人情報、又はドライバに関連付けられる他のアカウント情報を含むドライバ登録情報が格納されることができる。
ステップ605、前処理モジュール211は、ドライバ端末140などのユーザ端末からのオーディオ録音入力を受信する。新たに登録されたドライバは、1つ又は複数の彼又は彼女のオーディオ録音を入力するよう要求されることができ、これは、或る指定されたテキストを読むことか又は放言的発言の形態とすることができる。図1に示されるように、ドライバ端末140からのオーディオ録音は、その後ネットワーク120を介して前処理モジュール211に送信されることができる。
ステップ607、前処理モジュール211は、オーディオ信号から周囲雑音を除去するか又はオーディオ信号から話し声信号を抽出する。ドライバ端末140に入力されるオーディオ録音は、背景雑音又は話し声に関連しない音を含む可能性がある。これらの音は、特徴抽出の前にオーディオ信号から除去されることができる。開示された実施形態では、ステップ507はステップ305と同様であり、その詳細は本明細書では繰り返されない。
ステップ609、前処理モジュール211は、話し声信号が様々な性別の話者による話し声を含むかどうかを判定する。このステップは、オーディオ録音入力の品質及び純度に応じて任意選択的である。図3に関連して説明されたステップ307と同様に、話し声信号が様々な性別の話者による話し声を含むかどうかが、例えば様々な性別に対応する様々な特徴的基本周波数に基づいて、判定されることができる。
ステップ611、前処理モジュール211は、前に登録された性別に関連付けられるユーザ音声データを抽出する。ステップ603の間に、新たに登録されたドライバの性別情報が入力され格納されている。様々な性別の話者による話し声が話し声信号に存在する場合、登録されている性別に対応する話し声信号は更なる処理のために抽出されることができる。開示された実施形態では、ステップ611は、図3に関連して説明されたステップ309と同様であり、その詳細は本明細書では繰り返されない。
ステップ613、特徴抽出モジュール213は、受信されたユーザ音声データから特徴抽出モジュールへ特徴を抽出する。これは、図5を参照して説明された特徴抽出処理と同様のステップを含み、その詳細は本明細書では繰り返されない。
ステップ615、話者モデル構築モジュール215は基準特徴に基づいて話者モデルを構築する。図2を参照して上述したように、様々な話者モデル構築技術が話者モデル構築モジュール215によって使用されることができる。例えば、ディープニューラルネットワーク(DNN)は、ドライバ音声データから抽出された特徴を用いて訓練されることができ、話者モデルは話者の音声特徴を表す特徴ベクトルを抽出することによって構築されることができる。利用されることができる他の話者モデルは、ガウス混合モデル(GMM)及び隠れマルコフモデル(HMM)(Hidden Markov Model (HMM) model)を含む。話者モデルを構築する様々な手法の組み合わせも存在し、本開示は如何なる特定の話者モデル構築手法に限定されるものではない。
ステップ617、登録ドライバに対応する話者モデルを構築後、話者モデルはその後話者モデルデータベース217に格納されることができる。全ての登録ドライバは、将来の照合のために構築され格納される話者モデルを有することができる。
いくつかの実施形態では、或る登録ドライバアカウントは、ドライバに対応する格納された話者モデルを有していない可能性がある。1つの話者照合実施形態によれば、話者照合器は、図6を参照して以下で更に説明されるように、1つの登録ドライバアカウントが複数のユーザによって使用されているかどうかを判定するために、ある期間にわたってドライバと乗客の会話の複数のオーディオ録音を収集することができる。
図7は、登録ドライバアカウントに関連付けられる話者モデルが格納されていない話者照合方法700を示すフローチャートである。例えば、方法700はシステム100によって実行されることができる。
ステップ701、話者照合器110は、ユーザ端末から複数のオーディオ録音を受信する。例えば、1つの登録ドライバアカウントに関連付けられるドライバ端末140が、タクシーサービスを提供するために複数のドライバによって使用されている場合、話者照合器110は、ある期間にわたって複数の録音を収集することができる。
ステップ703、話者照合器110は、ドライバ端末140から送信される話者音声データを抽出するために各オーディオ録音を前処理する。開示された実施形態では、ステップ703は方法300及び/又は400と同様であり、その詳細は本明細書では繰り返されない。
ステップ705、話者照合器110は特徴を話者音声データから抽出する。開示された実施形態では、ステップ705はステップ503又は613と同様であり、その詳細は本明細書では繰り返されない。
ステップ707、話者照合器110は抽出された特徴を分類する。特徴がドライバ端末140からの各オーディオ録音入力に対して話者音声データから抽出された後に、特徴は、それらが同じ人に対応するかどうかを判定するために分類される。例えば、単純ベイズ(Naive Bayes)分類器又はサポートベクトルマシン(SVM:Support Vector Machine)分類器などの様々な特徴分類器が分類に使用されることができる。既存の話者認識技術における他の分類器も使用されることができ、それは、抽出された特徴に基づいて選択されることができる。更に、分類は、抽出された全ての特徴を使用する必要はない可能性がある。
ステップ709、話者照合器110は、抽出された特徴が同じ話者に対応するかどうかを判定する。ステップ707における分類が複数のカテゴリーの特徴を示すかどうかに応じて、話者照合器110は、同じドライバアカウントを使用する複数のユーザが存在するかどうかを判定することができる。特徴が複数のカテゴリーに属するならば、同じドライバアカウントを使用する複数のユーザが存在すると判定されることができる。判定結果は、その後更なるアクションのためにタクシーサービス管理システム150に出力されることができる。
本開示の別の態様は、上述したように、実行されると、1つ又は複数のプロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読媒体を対象とする。コンピュータ可読媒体は、揮発性もしくは不揮発性、磁気、半導体、テープ、光学、取外し可能、取外し不可能、又は他のタイプのコンピュータ可読媒体もしくはコンピュータ可読記憶デバイスを含むことができる。例えば、コンピュータ可読媒体は、開示されているように、その上に格納されるコンピュータ命令を有する記憶ユニット又はメモリモジュールとすることができる。いくつかの実施形態では、コンピュータ可読媒体は、その上に格納されるコンピュータ命令を有するディスク又はフラッシュドライブとすることができる。
当業者には、様々な変更及び変形が開示された話者照合システム及び関連する方法になされることができることが明らかであろう。当業者には、他の実施形態が、開示された話者照合システム及び関連する方法の仕様及び実施の考察から明らかであろう。例えば、開示された話者照合システム及び方法は、タクシー呼び出しサービスに関連して説明されているが、それらは、顧客サービスコールセンター、食糧配送発注システム、電話による支払いシステムなどのような、個人の身元が音声に基づいて照合されることができる他のアプリケーション用に適合され実装されることができる。明細書及び実施例は、例示的なものとしてのみ考慮され、真の範囲は以下の特許請求の範囲及びそれらの同等物によって示されることが意図されている。

Claims (40)

  1. オーディオ録音を取得するステップと、
    前記オーディオ録音から話し声信号を抽出するステップと、
    前記抽出された話し声信号の特徴を抽出するステップと、
    前記抽出された話し声信号が、前記抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、前記所定の話者による話し声を表すかどうかを判定するステップと、を備える話者照合方法。
  2. 前記オーディオ録音は前記所定の話者に関連付けられる端末から送信される、請求項1に記載の方法。
  3. 前記オーディオ録音は車両のドライバと同じ車両の乗客との間の電話通話からのものである、請求項1に記載の方法。
  4. 前記話し声信号を抽出するステップは、
    前記オーディオ録音のエネルギーレベルを測定するステップと、
    前記エネルギーレベルに基づいて話し声信号を抽出するステップと、を備える、請求項1に記載の方法。
  5. 前記オーディオ録音の前記エネルギーレベルを測定するステップは、
    前記オーディオ録音の共振器時間−周波数画像(RTFI)スペクトルを計測するステップを備える、請求項4に記載の方法。
  6. 前記話し声信号を抽出するステップは、
    前記オーディオ録音が様々な性別の話者による話し声を含むかどうかを判定するステップと、
    前記オーディオ録音が様々な性別の話者による話し声を含むと判定される場合、前記所定の話者の性別に対応する話し声信号を抽出するステップと、を備える、請求項1に記載の方法。
  7. 前記オーディオ録音が様々な性別の話者による話し声を含むかどうかを判定するステップは、
    前記オーディオ録音が様々な性別の特徴的基本周波数を含むかどうかを検出するステップを備える、請求項6に記載の方法。
  8. 前記抽出された話し声信号は第1の話し声信号を含み、
    前記話し声信号を抽出するステップは、
    前記第1の話し声信号の話者性別を判定するステップと、
    前記第1の話し声信号の前記話者性別が前記所定の話者の性別と異なる場合、前記オーディオ録音の継続時間に対する前記第1の話し声信号の継続時間の比を決定するステップと、
    前記比が所定の閾値を超える場合、前記オーディオ録音は前記所定の話者による話し声を含まないと結論付けるステップと、
    前記比が前記所定の閾値以下である場合、前記抽出された話し声信号から前記第1の話し声信号を除去するステップと、を備える、請求項1に記載の方法。
  9. 前記抽出された特徴は、前記抽出された話し声信号のメル周波数ケプストラム係数(MFCC)を備える、請求項1に記載の方法。
  10. 前記抽出された話し声信号が前記所定の話者による話し声を表すかどうかを判定するステップは、
    前記基準音声データから前記所定のユーザに関連付けられる基準特徴を抽出するステップと、
    前記基準特徴に基づいて前記話者モデルを訓練するステップと、を更に備える、請求項1に記載の方法。
  11. 前記話者モデルは、ガウス混合モデル(GMM)、隠れマルコフモデル(HMM)、又はディープニューラルネットワーク(DNN)モデルのうちの少なくとも1つである、請求項10に記載の方法。
  12. 前記抽出された特徴と前記基準特徴との間の類似性を計算するステップと、
    前記抽出された話し声信号が、前記類似性に基づいて前記所定のユーザによる話し声を表すかどうかを判定するステップと、を更に備える請求項10に記載の方法。
  13. 命令を含むメモリと、
    プロセッサであって、
    オーディオ録音を受信し、
    前記オーディオ録音から話し声信号を抽出し、
    前記抽出された話し声信号の特徴を抽出し、
    前記抽出された話し声信号が、前記抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、前記所定の話者による話し声を表すかどうかを判定する前記命令を実行するように構成されるプロセッサと、を備える話者照合システム。
  14. 前記オーディオ録音は前記所定の話者に関連付けられる端末から送信される、請求項13に記載のシステム。
  15. 前記オーディオ録音は車両のドライバと同じ車両の乗客との間の電話通話からのものである、請求項13に記載のシステム。
  16. 前記プロセッサは、
    前記オーディオ録音のエネルギーレベルを測定し、
    前記エネルギーレベルに基づいて話し声信号を抽出する前記命令を実行するように更に構成される、請求項13に記載のシステム。
  17. 前記プロセッサは、
    前記オーディオ録音の共振器時間−周波数画像(RTFI)スペクトルを計測する前記命令を実行するように更に構成される、請求項16に記載のシステム。
  18. 前記プロセッサは、
    前記オーディオ録音が様々な性別の話者による話し声を含むかどうかを判定し、
    前記オーディオ録音が様々な性別の話者による話し声を含むと判定される場合、前記所定の話者の性別に対応する話し声信号を抽出する前記命令を実行するように更に構成される、請求項13に記載のシステム。
  19. 前記プロセッサは、
    前記オーディオ録音が様々な性別の特徴的基本周波数を含むかどうかを検出する前記命令を実行するように更に構成される、請求項18に記載のシステム。
  20. 前記抽出された話し声信号は第1の話し声信号を含み、
    前記プロセッサは、
    前記第1の話し声信号の話者性別を判定し、
    前記第1の話し声信号の前記話者性別が前記所定の話者の性別と異なる場合、前記オーディオ録音の継続時間に対する前記第1の話し声信号の継続時間の比を決定し、
    前記比が所定の閾値を超える場合、前記オーディオ録音は前記所定の話者による話し声を含まないと結論付け、
    前記比が前記所定の閾値以下である場合、前記抽出された話し声信号から前記第1の話し声信号を除去する前記命令を実行するように更に構成される、請求項13に記載のシステム。
  21. 前記抽出された特徴は、前記抽出された話し声信号のメル周波数ケプストラム係数(MFCC)を備える、請求項13に記載のシステム。
  22. 前記プロセッサは、
    前記基準音声データから前記所定のユーザに関連付けられる基準特徴を抽出し、
    前記基準特徴に基づいて前記話者モデルを訓練する前記命令を実行するように更に構成される、請求項13に記載のシステム。
  23. 前記話者モデルは、ガウス混合モデル(GMM)、隠れマルコフモデル(HMM)、又はディープニューラルネットワーク(DNN)モデルのうちの少なくとも1つである、請求項22に記載のシステム。
  24. 前記プロセッサは、
    前記抽出された特徴と前記基準特徴との間の類似性を計算し、
    前記抽出された話し声信号が、前記類似性に基づいて前記所定のユーザによる話し声を表すかどうかを判定する前記命令を実行するように更に構成される、請求項22に記載のシステム。
  25. 1つ又は複数のプロセッサによって実行されると、前記プロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読記憶媒体であって、
    前記方法は、
    オーディオ録音を受信するステップと、
    前記オーディオ録音から話し声信号を抽出するステップと、
    前記抽出された話し声信号の特徴を抽出するステップと、
    前記抽出された話し声信号が、前記抽出された特徴及び所定の話者の基準音声データで訓練された話者モデルに基づいて、前記所定のユーザによる話し声を表すかどうかを判定するステップと、を備える、非一時的なコンピュータ可読記憶媒体。
  26. 端末から複数のオーディオ録音を取得するステップと、
    前記複数のオーディオ録音から話し声信号を抽出するステップと、
    前記抽出された話し声信号の特徴を抽出するステップと、
    前記抽出された特徴を1つ又は複数のクラスに分類するステップと、
    前記抽出された特徴が複数のクラスに分類される場合、前記複数のオーディオ録音が所定の話者と異なる一人又は複数の話者による話し声を含むかどうかを判定するステップと、を備える話者照合方法。
  27. 前記複数のオーディオ録音は車両のドライバと同じ車両の乗客との間の電話通話からのものである、請求項26に記載の方法。
  28. 前記話し声信号を抽出するステップは、
    前記複数のオーディオ録音のエネルギーレベルを測定するステップと、
    前記エネルギーレベルに基づいて話し声信号を抽出するステップと、を備える、請求項26に記載の方法。
  29. 前記複数のオーディオ録音の前記エネルギーレベルを測定するステップは、
    前記複数のオーディオ録音の共振器時間−周波数画像(RTFI)スペクトルを計測するステップを備える、請求項28に記載の方法。
  30. 前記話し声信号を抽出するステップは、
    前記複数のオーディオ録音が様々な性別の話者による話し声を含むかどうかを判定するステップと、
    前記複数のオーディオ録音が様々な性別の話者による話し声を含むと判定される場合、前記所定の話者の性別に対応する話し声信号を抽出するステップと、を備える、請求項26に記載の方法。
  31. 前記抽出された話し声信号は第1のオーディオ録音から抽出された第1の話し声信号を含み、
    前記話し声信号を抽出するステップは、
    前記第1の話し声信号の話者性別を判定するステップと、
    前記第1の話し声信号の前記話者性別が前記所定の話者の性別と異なる場合、前記第1のオーディオ録音の継続時間に対する前記第1の話し声信号の継続時間の比を決定するステップと、
    前記比が所定の閾値を超える場合、前記複数のオーディオ録音は前記所定の話者と異なる話者による話し声を含むと結論付けるステップと、
    前記比が前記所定の閾値以下である場合、前記抽出された話し声信号から前記第1の話し声信号を除去するステップと、を備える、請求項26に記載の方法。
  32. 前記抽出された特徴は、前記抽出された話し声信号のメル周波数ケプストラム係数(MFCC)を備える、請求項26に記載の方法。
  33. 命令を含むメモリと、
    プロセッサであって、
    端末から複数のオーディオ録音を取得し、
    前記複数のオーディオ録音から話し声信号を抽出し、
    前記抽出された話し声信号の特徴を抽出し、
    前記抽出された特徴を1つ又は複数のクラスに分類し、
    前記抽出された特徴が複数のクラスに分類される場合、前記複数のオーディオ録音が所定の話者と異なる一人又は複数の話者による話し声を含むかどうかを判定する前記命令を実行するように構成されるプロセッサと、を備える話者照合システム。
  34. 前記複数のオーディオ録音は車両のドライバと同じ車両の乗客との間の電話通話からのものである、請求項33に記載のシステム。
  35. 前記プロセッサは、
    前記複数のオーディオ録音のエネルギーレベルを測定し、
    前記エネルギーレベルに基づいて話し声信号を抽出する前記命令を実行するように更に構成される、請求項33に記載のシステム。
  36. 前記プロセッサは、
    前記複数のオーディオ録音の共振器時間−周波数画像(RTFI)スペクトルを計測する前記命令を実行するように更に構成される、請求項35に記載のシステム。
  37. 前記プロセッサは、
    前記複数のオーディオ録音が様々な性別の話者による話し声を含むかどうかを判定し、
    前記複数のオーディオ録音が様々な性別の話者による話し声を含むと判定される場合、前記所定の話者の性別に対応する話し声信号を抽出する前記命令を実行するように更に構成される、請求項33に記載のシステム。
  38. 前記抽出された話し声信号は第1のオーディオ録音から抽出された第1の話し声信号を含み、
    前記プロセッサは、
    前記第1の話し声信号の話者性別を判定し、
    前記第1の話し声信号の前記話者性別が前記所定の話者の性別と異なる場合、前記第1のオーディオ録音の継続時間に対する前記第1の話し声信号の継続時間の比を決定し、
    前記比が所定の閾値を超える場合、前記複数のオーディオ録音は前記所定の話者と異なる話者による話し声を含むと結論付け、
    前記比が前記所定の閾値以下である場合、前記抽出された話し声信号から前記第1の話し声信号を除去する前記命令を実行するように更に構成される、請求項33に記載のシステム。
  39. 前記抽出された特徴は、前記抽出された話し声信号のメル周波数ケプストラム係数(MFCC)を備える、請求項33に記載のシステム。
  40. 1つ又は複数のプロセッサによって実行されると、前記プロセッサに話者照合方法を実行させる命令を格納する非一時的なコンピュータ可読記憶媒体であって、
    前記方法は、
    端末から複数のオーディオ録音を取得するステップと、
    前記複数のオーディオ録音から話し声信号を抽出するステップと、
    前記抽出された話し声信号の特徴を抽出するステップと、
    前記抽出された特徴を1つ又は複数のクラスに分類するステップと、
    前記抽出された特徴が複数のクラスに分類される場合、前記複数のオーディオ録音が所定の話者と異なる一人又は複数の話者による話し声を含むかどうかを判定するステップと、を備える、非一時的なコンピュータ可読記憶媒体。
JP2018503622A 2017-06-13 2017-06-13 話者照合の方法、装置、及びシステム Active JP6677796B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/088073 WO2018227381A1 (en) 2017-06-13 2017-06-13 International patent application for method, apparatus and system for speaker verification

Publications (2)

Publication Number Publication Date
JP2019527370A true JP2019527370A (ja) 2019-09-26
JP6677796B2 JP6677796B2 (ja) 2020-04-08

Family

ID=61558061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018503622A Active JP6677796B2 (ja) 2017-06-13 2017-06-13 話者照合の方法、装置、及びシステム

Country Status (10)

Country Link
US (2) US10276167B2 (ja)
EP (2) EP3433854B1 (ja)
JP (1) JP6677796B2 (ja)
CN (1) CN109429523A (ja)
AU (2) AU2017305006A1 (ja)
ES (1) ES2800348T3 (ja)
GB (1) GB2580856A (ja)
HU (1) HUE051594T2 (ja)
TW (1) TWI719304B (ja)
WO (1) WO2018227381A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022123742A1 (ja) * 2020-12-10 2022-06-16 日本電信電話株式会社 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
WO2023079815A1 (ja) * 2021-11-08 2023-05-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置及び情報処理プログラム

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801661D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
CN107945806B (zh) * 2017-11-10 2022-03-08 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN109683938B (zh) * 2018-12-26 2022-08-02 思必驰科技股份有限公司 用于移动终端的声纹模型升级方法和装置
JP7458371B2 (ja) * 2019-03-18 2024-03-29 富士通株式会社 話者識別プログラム、話者識別方法、および話者識別装置
CN110348474B (zh) * 2019-05-29 2021-09-10 天津五八到家科技有限公司 任务执行方法、装置及电子设备
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备
CN110808053B (zh) * 2019-10-09 2022-05-03 深圳市声扬科技有限公司 一种驾驶员身份验证方法、装置及电子设备
CN110689893A (zh) * 2019-10-12 2020-01-14 四川虹微技术有限公司 一种提高语音支付安全性的方法
WO2021127975A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声音采集对象声纹检测方法、装置和设备
CN111179911B (zh) * 2020-01-02 2022-05-03 腾讯科技(深圳)有限公司 目标语音提取方法、装置、设备、介质和联合训练方法
US11537701B2 (en) * 2020-04-01 2022-12-27 Toyota Motor North America, Inc. Transport related n-factor authentication
CN111785279A (zh) * 2020-05-18 2020-10-16 北京奇艺世纪科技有限公司 视频说话人的识别方法、装置、计算机设备及存储介质
US11869511B2 (en) 2021-06-09 2024-01-09 Cisco Technology, Inc. Using speech mannerisms to validate an integrity of a conference participant
CN114726635B (zh) * 2022-04-15 2023-09-12 北京三快在线科技有限公司 权限验证方法、装置、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003283667A (ja) * 2002-03-22 2003-10-03 Ntt Docomo Tokai Inc 認証用音声データの登録方法
JP2008111190A (ja) * 2006-10-30 2008-05-15 Ahc Oberflaechentechnik Gmbh バリヤ層形成金属の素材上に耐摩耗層を形成する方法及びバリヤ層形成金属の素材

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2237135A (en) * 1989-10-16 1991-04-24 Logica Uk Ltd Speaker recognition
CA2230188A1 (en) * 1998-03-27 1999-09-27 William C. Treurniet Objective audio quality measurement
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US8078463B2 (en) * 2004-11-23 2011-12-13 Nice Systems, Ltd. Method and apparatus for speaker spotting
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
WO2008111190A1 (ja) 2007-03-14 2008-09-18 Pioneer Corporation 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN101640043A (zh) * 2009-09-01 2010-02-03 清华大学 基于多坐标序列内核的说话人识别方法和系统
CN101770774B (zh) * 2009-12-31 2011-12-07 吉林大学 基于嵌入式的开集说话人识别方法及其系统
US20120155663A1 (en) * 2010-12-16 2012-06-21 Nice Systems Ltd. Fast speaker hunting in lawful interception systems
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
CN103562993B (zh) * 2011-12-16 2015-05-27 华为技术有限公司 说话人识别方法及设备
WO2013110125A1 (en) * 2012-01-24 2013-08-01 Auraya Pty Ltd Voice authentication and speech recognition system and method
CN102664011B (zh) * 2012-05-17 2014-03-12 吉林大学 一种快速说话人识别方法
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
US20140214676A1 (en) * 2013-01-29 2014-07-31 Dror Bukai Automatic Learning Fraud Prevention (LFP) System
CN103236260B (zh) * 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别系统
WO2016022588A1 (en) * 2014-08-04 2016-02-11 Flagler Llc Voice tallying system
US10706873B2 (en) 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
EP3156978A1 (en) * 2015-10-14 2017-04-19 Samsung Electronics Polska Sp. z o.o. A system and a method for secure speaker verification
CN105513597B (zh) * 2015-12-30 2018-07-10 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
CN106571135B (zh) * 2016-10-27 2020-06-09 苏州大学 一种耳语音特征提取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003283667A (ja) * 2002-03-22 2003-10-03 Ntt Docomo Tokai Inc 認証用音声データの登録方法
JP2008111190A (ja) * 2006-10-30 2008-05-15 Ahc Oberflaechentechnik Gmbh バリヤ層形成金属の素材上に耐摩耗層を形成する方法及びバリヤ層形成金属の素材

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RUOHUA ZHOU: "Music Onset Detection Based on Resonator Time Frequency Image", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 16, no. 8, JPN6019033696, November 2008 (2008-11-01), XP011329083, ISSN: 0004106642, DOI: 10.1109/TASL.2008.2002042 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022123742A1 (ja) * 2020-12-10 2022-06-16 日本電信電話株式会社 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
WO2023079815A1 (ja) * 2021-11-08 2023-05-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
US20190214020A1 (en) 2019-07-11
TW201903753A (zh) 2019-01-16
GB2580856A (en) 2020-08-05
US10937430B2 (en) 2021-03-02
ES2800348T3 (es) 2020-12-29
EP3706118B1 (en) 2023-05-31
JP6677796B2 (ja) 2020-04-08
CN109429523A (zh) 2019-03-05
EP3433854A1 (en) 2019-01-30
WO2018227381A1 (en) 2018-12-20
AU2017305006A1 (en) 2019-01-03
TWI719304B (zh) 2021-02-21
HUE051594T2 (hu) 2021-03-01
US20180358020A1 (en) 2018-12-13
GB201801258D0 (en) 2018-03-14
EP3706118A1 (en) 2020-09-09
EP3433854A4 (en) 2019-02-27
AU2019279933B2 (en) 2021-03-25
EP3433854B1 (en) 2020-05-20
US10276167B2 (en) 2019-04-30
AU2019279933A1 (en) 2020-01-16

Similar Documents

Publication Publication Date Title
AU2019279933B2 (en) Method, apparatus and system for speaker verification
US11620104B2 (en) User interface customization based on speaker characteristics
CN105940407B (zh) 用于评估音频口令的强度的系统和方法
US9502038B2 (en) Method and device for voiceprint recognition
JP6096333B2 (ja) 決済を検証するための方法、装置、およびシステム
US20180293988A1 (en) Method and system of speaker recognition using context aware confidence modeling
CN111566729A (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
US9646613B2 (en) Methods and systems for splitting a digital signal
US20190005962A1 (en) Speaker identification
KR20190018282A (ko) 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
US20230401338A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
TW202018696A (zh) 語音識別方法、裝置及計算設備
CN112331217B (zh) 声纹识别方法和装置、存储介质、电子设备
CN111684521A (zh) 用于说话者识别的处理语音信号方法及实现其的电子装置
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
CN111199742A (zh) 一种身份验证方法、装置及计算设备
WO2022024188A1 (ja) 音声登録装置、制御方法、プログラム及び記憶媒体
Krishna et al. A Novel Method for Identifying the Keyless Authentication Entry System using Mobile for Auto Mobiles (CAR)

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180319

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200313

R150 Certificate of patent or registration of utility model

Ref document number: 6677796

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250