JP6561219B1 - 話者照合 - Google Patents

話者照合 Download PDF

Info

Publication number
JP6561219B1
JP6561219B1 JP2019500442A JP2019500442A JP6561219B1 JP 6561219 B1 JP6561219 B1 JP 6561219B1 JP 2019500442 A JP2019500442 A JP 2019500442A JP 2019500442 A JP2019500442 A JP 2019500442A JP 6561219 B1 JP6561219 B1 JP 6561219B1
Authority
JP
Japan
Prior art keywords
vector
user
neural network
user device
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019500442A
Other languages
English (en)
Other versions
JP2019530888A (ja
Inventor
イグナシオ・ロペス・モレーノ
リ・ワン
チュアン・ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Application granted granted Critical
Publication of JP6561219B1 publication Critical patent/JP6561219B1/ja
Publication of JP2019530888A publication Critical patent/JP2019530888A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

言語独立話者照合を円滑にするための、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、方法、システム、および装置が開示される。一態様において、本方法は、ユーザデバイスによって、ユーザの発話を表現するオーディオデータを受信するアクションを含む。他のアクションは、ユーザデバイス上に記憶されたニューラルネットワークに、オーディオデータおよび言語識別子から導出された入力データを提供することを含んでもよい。ニューラルネットワークは、異なる言語または方言で音声を表現する音声データを使用してトレーニングされてもよい。本方法は、ニューラルネットワークの出力に基づいて、話者表現を生成し、話者表現および第2の表現に基づいて、発話がユーザの発話であると判定する追加のアクションを含んでもよい。方法は、発話がユーザの発話であると判定したことに基づいてユーザデバイスへのアクセスをユーザに提供してもよい。

Description

本明細書は、一般的に話者照合(speaker verification)に関する。
音声認証は、ユーザデバイスのユーザがユーザデバイスにアクセスするための簡単な方法を提供する。音声認証は、ユーザが、パスコードを覚えておくかまたは入力することなくユーザのデバイスをロック解除し、かつユーザのデバイスにアクセスすることを可能にする。しかしながら、複数の異なる言語、方言(dialect)、アクセント、および同様のものの存在は、音声認証の分野においていくつかの問題を引き起こす。
一実装形態において、話者照合モデル(speaker verification model)は、話者の言語、方言、またはアクセントに関係なく話者照合を円滑にすることによって従来のシステムを改善する。話者照合モデルは、ニューラルネットワークに基づいてもよい。ニューラルネットワークは、発話および言語識別子を含む入力を使用してトレーニングされてもよい。トレーニングされた後、ニューラルネットワークの隠れ層によって出力されるアクティベーションは、声紋として使用することができ、ユーザのデバイス上の参照表現と比較することができる。話者は、声紋および参照表現が所定の類似度閾値の条件を満たす場合に認証されることが可能である。
一実装形態によれば、本明細書の主題は、言語独立話者照合を円滑にするための方法において使用されてもよい。本方法は、ユーザデバイスによって、ユーザの発話を表現するオーディオデータを受信するアクションと、ユーザデバイスに関連付けられた言語識別子を決定するアクションと、ユーザデバイス上に記憶されたニューラルネットワークにオーディオデータおよび決定された言語識別子から導出された入力データのセットを提供し、ニューラルネットワークは異なる言語および異なる方言で音声を表現する音声データを使用してトレーニングされたパラメータを有する、アクションと、入力データのそのセットの受信に応答して生成されるニューラルネットワークの出力に基づいてユーザの声の特徴を示す話者表現を生成するアクションと、話者表現および第2の表現に基づいて、発話がユーザの発話であると判定するアクションと、発話がユーザの発話であると判定したことに基づいてユーザデバイスへのユーザアクセスを提供するアクションとを含んでもよい。
他のバージョンは、対応するシステムと、装置と、方法のアクションを実行するための、コンピュータ記憶デバイス上に符号化されたコンピュータプログラムとを含む。
これらおよび他のバージョンは、オプションで次の特徴のうちの1つまたは複数を含んでもよい。たとえば、いくつかの実装形態において、オーディオデータおよび決定された言語識別子から導出された入力データのそのセットは、オーディオデータから導出される第1のベクトルと、決定された言語識別子から導出される第2のベクトルとを含む。
いくつかの実装形態において、本方法は、第1のベクトルと第2のベクトルとを連結して単一の連結ベクトルにすることによって入力ベクトルを生成することと、ニューラルネットワークに生成された入力ベクトルを提供することと、入力ベクトルの受信に応答して生成されたニューラルネットワークの出力に基づいて、ユーザの声の特徴を示す話者表現を生成することとを含んでもよい。
いくつかの実装形態において、本方法は、(i)第1のベクトル、(ii)第2のベクトル、または(iii)第1のベクトルおよび第2のベクトルの両方に基づいてそれぞれ出力を生成する少なくとも2つの他のニューラルネットワークの出力を連結することによって入力ベクトルを生成することと、ニューラルネットワークに生成された入力ベクトルを提供することと、入力ベクトルの受信に応答して生成されたニューラルネットワークの出力に基づいて、ユーザの声の特徴を示す話者表現を生成することとを含んでもよい。
いくつかの実装形態において、本方法は、第1のベクトルと第2のベクトルの加重和とに基づいて入力ベクトルを生成することと、ニューラルネットワークに生成された入力ベクトルを提供することと、入力ベクトルの受信に応答して生成されたニューラルネットワークの出力に基づいて、ユーザの声の特徴を示す話者表現を生成することとを含んでもよい。
いくつかの実装形態において、入力データのそのセットの受信に応答して生成されるニューラルネットワークの出力は、ニューラルネットワークの隠れ層によって生成されるアクティベーションのセットを含む。
いくつかの実装形態において、話者表現および第2の表現に基づいて、発話がユーザの発話であると判定することは、第1の表現と第2の表現との間の距離を決定することを含んでもよい。
いくつかの実装形態において、本方法は、発話がユーザの発話であると判定したことに基づいてユーザデバイスへのユーザアクセスを提供することを含んでもよく、これはユーザデバイスをロック解除することを含む。
本明細書によって説明された主題の他の実装形態は、受信されたオーディオデータが複数の言語特有のホットワードのうちの1つのホットワードの発話を含む可能性が高いかどうかを判定するように構成される言語独立話者照合モデルを実装するモバイルデバイスによって、(i)ユーザの特定の発話に対応する特定のオーディオデータ、および(ii)ユーザによって話される特定の言語を示すデータを受信することと、(i)ユーザの特定の発話に対応する特定のオーディオデータ、および(ii)ユーザによって話される特定の言語を示すデータの受信に応答して、出力のために、言語独立話者照合モデルが、特定のオーディオデータがユーザによって話される特定の言語について指定されているホットワードの発話を含む可能性が高いと判定したことを示す指示を提供することとを含む言語独立話者照合のための方法を含む。
これらおよび他のバージョンは、オプションで次の特徴のうちの1つまたは複数を含んでもよい。たとえば、一実装形態において、出力のために指示を提供することは、モバイルデバイスのリソースへのアクセスを提供することを含んでもよい。代替的にまたはそれに加えて、出力のために指示を提供することは、モバイルデバイスをロック解除することを含んでもよい。代替的にまたはそれに加えて、出力のために指示を提供することは、低電力状態からモバイルデバイスをスリープ解除することを含んでもよい。代替的にまたはそれに加えて、出力のために指示を提供することは、言語独立話者照合モデルが、特定のオーディオデータがモバイルデバイスに関連付けられた特定のユーザの発話を含むと判定したことを示す指示を提供することを含む。
いくつかの実装形態において、言語独立話者照合モデルは、ユーザの発話を使用することなくトレーニングされたニューラルネットワークを含んでもよい。
本明細書の主題は、従来の方法に勝る多数の利点をもたらす。たとえば、本出願の主題は、容易に分散されることが可能である話者照合モデルを提供する。話者照合モデルは言語、方言、アクセントから独立しているので、同じ話者照合モデルは、ユーザデバイスに広く分散されることが可能である。これは、デバイスユーザの言語に基づいて異なる話者照合モデルを異なるデバイスに提供するのに比べて甚だしく効率的である。代替的に、これは複数の話者照合モデルをユーザが1つ選択することができる同じデバイスに配置する必要性を回避する。
本出願によって提供される話者照合モデルは、話者言語、方言、またはアクセントから独立した話者照合を実行するために同じモデルを使用したときに精度が改善されることを実証している。たとえば、言語、方言、またはアクセントにバラツキがあるため、結果として特定のユーザが他のユーザと異なる仕方で所定のホットワードを発音する可能性がある。この発音の違いは、従来のシステムでは精度に関する問題を引き起こす可能性がある。本開示の話者照合モデルは、従来のシステムのこの弱点を改善する。
本出願によって提供される話者照合モデルでは、更新も容易に行われる。たとえば、新規にトレーニングされたモデルは、ユーザデバイスのオペレーティングシステムにルーチンソフトウェア更新の一部として容易に配置されてもよい。そのような更新された話者照合モデルは、新しい言語、方言、および/またはアクセントに、これらが現れるとともに対応できるように容易にトレーニングすることができる。代替的に、知られている言語、方言、および/またはアクセントに基づいて話者照合モデルの既存のバージョンに対する更新が作成されてもよい。そのような更新された話者照合モデルは、特定の場所照合モデルを特定の地理的領域内の特定のデバイスに提供する必要なく普遍的に配置されることが可能である。
本明細書で説明された主題の1つまたは複数の実施形態の詳細は、付属の図面および以下の説明で述べられる。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
言語独立話者照合モデルを使用して話者照合を実行するためのシステムの一例のコンテキスト図である。 言語独立話者照合モデルをトレーニングするためのシステムの一例を示す図である。 複数のそれぞれの言語識別ベクトルの概念的表現の一例を示す図である。 言語独立話者照合を実行するシステムの一例を示す図である。 言語独立話者照合を実行するためのプロセスを示すフローチャートである。
いくつかの実装形態において、システムは、ニューラルネットワークに基づくモデルである可能性のある言語独立話者照合モデルをユーザデバイスに提供する。言語独立話者照合モデルは、ユーザデバイスにインストールする前に、(i)複数の異なるユーザからの発話、および(ii)それぞれの発話に対応する言語または場所を示すベクトルを含むトレーニングデータに基づいてトレーニングされる。ユーザデバイスにインストールされた後、言語独立話者照合モデルは、言語独立話者照合モデルのその後のトレーニングなしでユーザデバイスのユーザの同一性を検証するために使用されてもよい。ユーザデバイスは、ユーザを登録するためにユーザの発話を取得し、使用してもよいが、モデルそれ自体は、ユーザデバイスのユーザの発話に基づいてトレーニングされる必要はない。
本明細書で使用されているように、「言語独立」話者照合モデルは、異なる言語または方言を話す話者の同一性を正確に検証するために使用できる単一のモデルを指す。すなわち、このモデルは、特定の単一の言語での発語に依存または制限されない。その結果、異なる言語、方言、またはアクセントに対して異なるモデルを使用するのではなく、単一の言語独立モデルが使用できる。いくつかの実装形態において、特定の単語またはフレーズ、たとえば所定のホットワードまたは注意語の発話に基づいて話者を識別するようにトレーニングされたテキスト依存モデルがある。言語独立モデルは、単一のホットワードに基づいて、または異なる言語もしくは場所に対する異なるホットワードに基づいて異なる言語の話者を区別するようにトレーニングされてもよい。同じホットワードが異なる言語または場所で使用されるときでも、異なる言語、方言、アクセント、または場所を有するユーザは、ホットワードを異なる仕方で発音する場合がある。これらのバラツキは、従来のモデルの精度を低下させてしまい、多くの場合にこのモデルは、地域的な言語またはアクセントによるバラツキを話者独特の特徴へと不適切に帰属させていた。たとえば、照合の偽陽性率は、従来のモデルにおいて地域的アクセントの一般的な特徴を特定の話者の音声の主要な独特の要素であると解釈するときに増大するが、実際にはこのとき、それらの特徴は非常に類似するアクセントを有する他の多くのユーザに実際に共通している。本出願では、ユーザの言語または場所に関する情報を取得し、その情報をモデルに提供し、モデルがユーザを同じ言語、方言、アクセント、または場所を有する他のユーザからより適切に区別する話者表現、たとえば声紋を作成することを可能にする。
図1は、言語独立話者照合モデルを使用して同一性照合を実行するためのシステム100の一例の文脈図である。システム100は、ユーザデバイス110と、ユーザデバイス120と、ネットワーク130と、サーバ140と、ニューラルネットワーク150と、話者照合モデル180とを備える。
システム100は、ニューラルネットワーク150を記憶するサーバ140を備える。ニューラルネットワーク150は、異なる言語、異なる方言、またはその両方で音声サンプルを表現する音声データを使用してトレーニングされている。サーバ140は、ニューラルネットワーク150に基づいて話者照合モデル180を生成する。次いで、サーバ150は、話者照合モデル180のコピーをネットワーク130を通じて第1のユーザデバイス110および第2のユーザデバイス120に伝送する。次いで、話者照合モデル180のコピーは、各それぞれのユーザデバイス110、120上に記憶される。
ユーザ、たとえば"Joe"は、音声認証を使用してユーザデバイス110にアクセスしようと試みてもよい。たとえば、Joeは、英語で"Ok Google"などの所定のホットワード105a、またはフレーズを発してもよい。所定の発話に対応するオーディオ105bは、ユーザデバイス110のマイクロフォン111によって検出されてもよい。ユーザデバイス110は、マイクロフォン111によって検出されたオーディオ105bから導出される記憶された話者照合モデル180への第1の入力を生成してもよい。それに加えて、ユーザデバイス110は、Joeが英語で、ホットワード105a、またはフレーズを発したという判定に基づいて記憶された話者照合モデル180への第2の入力を導出してもよい。ユーザデバイス110は、デバイスの言語設定を取得することによってJoeが英語でホットワード105a、またはフレーズを発したと判定してもよい。次いで、Joeのユーザデバイス110に記憶された話者照合モデル180は、オーディオ105bから導出された第1の入力および英語のJoeの使用から導出された第2の入力を処理することに基づいてJoeに対する声紋を生成してもよい。生成された声紋の分析結果に基づいて、ユーザデバイス110は、Joeがデバイス110にアクセスすることを許可されていると判定してもよい。Joeがユーザデバイス110にアクセスすることを許可されているという判定に応答して、ユーザデバイス110は、ユーザデバイス110をロック解除する処理を開始することができる。いくつかの場合において、ユーザデバイス110は、たとえば"Speaker Identity Verified"113というメッセージをグラフィカルユーザインターフェース112に表示してもよい。代替的にまたはそれに加えて、ユーザデバイス110がロック解除されたときに、ユーザデバイス110のスピーカは、"Welcome Joe"というオーディオによる挨拶115を出力してもよい。
図1の例において、別のユーザ、たとえば"Wang"は、同じ話者照合モデル180のコピーもまた記憶するユーザデバイス120を有する。中国語を流暢にしゃべるWangは、音声認証を使用してユーザデバイス120にアクセスしようと試みてもよい。たとえば、Wangは、中国語で"Ni hao Android"(英語の"Hello Android"にほぼ相当する翻訳)などの所定のホットワード115a、またはフレーズを発してもよい。所定の発話に対応するオーディオ115bは、ユーザデバイス120のマイクロフォン121によって検出されてもよい。それに加えて、ユーザデバイス120は、Wangが中国語で、ホットワード115aまたはフレーズを発したという判定に基づいて記憶された話者照合モデル180への第2の入力を導出してもよい。ユーザデバイス120は、デバイスの言語設定を取得することによってJoeが中国語でホットワード115aまたはフレーズを発したと判定してもよい。次いで、Wangのユーザデバイス120に記憶された話者照合モデル180は、オーディオ115bから導出された第1の入力および中国語のWangの使用から導出された第2の入力を処理することに基づいて、Wangに対する声紋を生成してもよい。生成された声紋の分析結果に基づいて、ユーザデバイス120は、Wangがデバイス120にアクセスすることを許可されていると判定してもよい。Wangがユーザデバイス120にアクセスすることを許可されているという判定に応答して、ユーザデバイス120は、ユーザデバイス120をロック解除する処理を開始することができる。いくつかの場合において、ユーザデバイス120は、たとえば"Shuohuazhe de shenfen yanzheng"123(英語の"Speaker Identity Verified"にほぼ相当する翻訳)というメッセージをグラフィカルユーザインターフェース122に表示してもよい。代替的にまたはそれに加えて、ユーザデバイス120がロック解除されたときに、ユーザデバイス120のスピーカは、"Huanying Wang"(英語の"Welcome Wang"にほぼ相当する翻訳)というオーディオによる挨拶125を出力してもよい。
図1の例に示されるように、単一のテキスト依存話者認識モデル180は、異なる言語または場所に対して異なる所定のホットワードを使用するように構成することができる。それに加えて、または代替的に、モデル180は、複数の言語または場所に対して同じホットワードを使用することができるが、モデル180は、たとえば異なる言語または地方アクセントによるホットワードの発音の様々なバラツキに関する話者表現を生成することができる。以下で説明されたように、モデル180は、オーディオ情報とともにモデル180のニューラルネットワークに言語または場所に対する識別子を入力することによって照合プロセスを微調整することができる。
図2は、言語独立話者照合モデル280をトレーニングするためのシステム200の一例を示す図である。システム200は、ユーザデバイス210と、ネットワーク230と、サーバ240と、ニューラルネットワーク250とを備える。一般に、言語独立話者照合モデル280のトレーニングは、モデル280がユーザデバイス210に分散され、話者認識を実行するために使用される前にサーバ240上で行われる処理を介して行われる。そのようなトレーニングは、ユーザデバイス210がネットワーク230に接続されることを必要としない。
トレーニングが開始できる前に、サーバ240は、トレーニング発話210aおよび210bのセットを取得する。トレーニング発話は、各々複数の異なるトレーニング話者によって発せられ、記録され、サーバ240に利用可能にされているトレーニング発話リポジトリに記憶された1つまたは複数の音声サンプルを含んでもよい。各トレーニング発話210a、210bは、ユーザがトレーニング発話を発するときに結果として発生するオーディオ信号の少なくとも一部を含んでもよい。
音声認証を円滑にするために、ニューラルネットワーク250は、音声認証時にユーザデバイス210のユーザによって発せられることが可能な所定のホットワードに対応するトレーニング発話を使用してトレーニングされてもよい。トレーニング発話は、各々異なる言語、異なる方言、異なるアクセント、または同様のもので同じホットワードを発する複数の異なるユーザからの発話を含んでもよい。一実装形態において、トレーニングデータの複数のセットは、特定の言語、方言、アクセント、または同様のものでの特定のキーワードの発話に対応する各トレーニングデータセットによりニューラルネットワーク250をトレーニングするために使用されてもよい。たとえば、単一のニューラルネットワーク250は、米国英語で"Ok Google"と発する複数の異なるユーザからのトレーニング発話のセットと、英国英語で"Ok Google"と発する複数の異なるユーザによるトレーニングデータの別のセットとによりトレーニングされてもよい。一実装形態において、単一のニューラルネットワーク250は、同様に、ニューラルネットワーク250がすべての知られている言語、方言、アクセント、または同様のものについてトレーニングされるまで、異なる言語、異なる方言、異なるアクセント、または同様のもので発せられるホットワード"Ok Google"を含む他のトレーニングデータセットによりトレーニングされてもよい。代替的に、単一のニューラルネットワーク250は、同様に、ニューラルネットワーク250に基づく話者照合モデルが配置される領域においてニューラルネットワーク250がすべての言語、方言、アクセント、または同様のものについてトレーニングされてしまうまで、異なる言語、異なる方言、異なるアクセント、または同様のもので発せられるホットワード"Ok Google"を含む他のトレーニングデータセットによりトレーニングされてもよい。本明細書で使用されるように、ホットワードは、単一の単語、または複数の単語を含むフレーズとすることができる。いくつかの実装形態において、各言語に対するホットワードは、モデルのトレーニング時に固定されており、したがって特定の場所でモデルを使用する各ユーザは同じホットワードを使用する。
発せられたトレーニングフレーズに対応するオーディオ信号は、キャプチャされ記録されてもよい。本明細書で提供される所定のホットワードに対応するトレーニング発話のここで提供される例は、"Ok Google"および"Ni hao Android"を含むが、本開示はそれに限定される必要はない。その代わりに、任意の言語または任意の方言による所定のホットワードに対応するトレーニング発話は、ニューラルネットワーク250をトレーニングするために使用することができる。それに加えて、ニューラルネットワーク250は、すべての知られている言語、方言、アクセント、または同様のものを受け入れるように容易にトレーニングすることができることが企図される。
いくつかの場合において、トレーニング話者は、同じトレーニング単語またはフレーズに対する複数の異なるトレーニング発話を生成するために同じトレーニングフレーズを複数回発し、記録するように要求されてもよい。トレーニング発話は、このようにして、複数の異なる言語、複数の異なる方言、または同様のものでトレーニング単語またはフレーズを発する複数の異なる話者を使用して取得されてもよい。トレーニング発話210a、210bが取得された後、システム200は、関係するトレーニング発話の音響特徴に対応する各トレーニング発話に対するそれぞれの特徴ベクトルを導出してもよい(212a、212b)。各トレーニング発話に対するそれぞれの特徴ベクトルは、たとえばトレーニング発話から導出され、発話の音響特徴に対応するN-by-1ベクトルを含んでもよい。N-by-1ベクトルは、N個の値の単一の列を使用して概念的にモデル化されてもよい。一実装形態において、N-by-1ベクトル内のN個の値の各々は、"0"または"1"のいずれかの値を含んでもよい。
システム200はまた、複数の異なる言語ID215a、215bも取得してもよい。言語IDは、特定の言語を識別するデータを含んでもよい。一実装形態において、言語IDは、one-hot言語ベクトルを含んでもよい。そのようなone-hot言語ベクトルは、言語ベクトルの1つの特徴のみが活性化されるN-by-1ベクトルを含んでもよい。言語ベクトルの特定の特徴は、たとえば特徴を"1"の値に設定することによって活性化されてもよい。同様に、任意の所与のone-hot言語ベクトルについて、one-hot言語ベクトルの他のすべての特徴は不活性化される。言語ベクトルの特定の特徴は、たとえば特徴を"0"に設定することによって不活性化されてもよい。
図3は、複数のone-hot言語ベクトル305、310、315、320の概念的表現の一例である。各one-hot言語ベクトル305、310、315、320において、ただ1つの特徴が活性化されており、他の特徴はすべて不活性化されている。システム200は、各one-hot言語ベクトル305、310、315、320を特定の言語に関連付けてもよい。たとえば、システム200は、言語識別ベクトル305に関する場合など活性化された言語ベクトルの第1の特徴を有するone-hot言語ベクトルは、"English"言語に関連付けられてもよいと判定してもよい。同様に、システム200は、言語識別ベクトル310に関する場合など活性化されたベクトルの第2の特徴を有するone-hot言語ベクトル310は、"Chinese"言語に関連付けられてもよいと判定してもよい。類似の言語関連付けが、言語識別ベクトル315および320と他の言語との間で行われてもよい。
話者照合モデル280のトレーニングは、トレーニングデータのセットをニューラルネットワーク250に提供することによって開始してもよい。一実装形態において、ニューラルネットワーク250は、ペアごとのトレーニング技術を使用してトレーニングされてもよい。たとえば、トレーニング発話ベクトル214aを含むトレーニングデータ213aの第1のセットがニューラルネットワーク250に入力され、第2の入力は言語ID215aを含む。言語ID215aは、たとえばトレーニング発話ベクトル214aが導出されたトレーニング発話210aを提供したトレーニング話者によって使用される言語または方言を識別するone-hot言語ベクトルを含んでもよい。ニューラルネットワーク250は、第1のトレーニングデータのセット213aを処理し、出力260aを生成する。その後、トレーニングデータ213bの第2のセットがニューラルネットワーク250に入力される。ニューラルネットワーク250は、第2のトレーニングデータのセット213bを処理し、出力260bを生成する。次いで、出力260a、260bは、コンパレータ270を使用して比較される。コンパレータ270は、トレーニングベクトル214a、214bが同じ話者によって発せられたトレーニング発話210a、210bから導出されたかどうかを判定するために出力260a、260bを分析する。一実装形態において、比較モジュール440は、出力260a、260bの間の距離を計算することによってトレーニングベクトル214a、214bが同じ話者によって発せられたトレーニング発話210a、210bから導出されたかどうかを判定してもよい。そのような距離は、たとえばコサイン類似度を使用して計算されてもよい。
比較モジュールの出力272は、トレーニング発話210a、210bが同じ話者によって発せられたかどうかの指示を提供する。一実装形態において、たとえば出力272は'0'または'1'のいずれかからなる2進値であるものとしてもよい。そのような実装形態において、'0'は、それらの発話が同じ話者からのものでなかったことを示してもよい。他方では、'1'は、その発話が同じ話者からのものであったことを示してもよい。代替的に、出力272は、'0'または'1'などの2進値にマッピングすることができる値であってもよい。たとえば、出力272は、トレーニング発話210a、210bが同じ話者によって発せられたかどうかを示す確率を含んでもよい。次いで、ニューラルネットワーク250のパラメータは、比較モジュール270の出力272に基づいて調整されてもよい。いくつかの実装形態において、ニューラルネットワーク250のパラメータは、出力272に基づいて自動的に調整されてもよい。代替的に、いくつかの実装形態において、ニューラルネットワークの1つまたは複数のパラメータは、出力272に基づいて手動で調整されてもよい。トレーニングデータの複数のセットは、2つの出力260a、260bの比較結果が一貫して214a、214bなどのトレーニングベクトルの対が同じ話者によって発せられた発話210a、210bから導出されたかどうかを示すまでこの方式で処理されてもよい。
ニューラルネットワーク250は、トレーニングデータのセットを入力するための入力層252と、トレーニングデータのセットを処理するための複数の隠れ層254a、254b、254cと、出力を提供するための出力層256とを備えてもよい。各隠れ層254a、254b、254cは、1つまたは複数の重みまたは他のパラメータを含んでもよい。各それぞれの隠れ層254a、254b、254cの重みまたは他のパラメータは、トレーニングされたニューラルネットワークがトレーニングデータの各セットに対応する所望のターゲットベクトルを生成するように調整されてもよい。各隠れ層254a、254b、254cの出力は、M-by-1アクティベーションベクトルを生成してもよい。254cなどの最後の隠れ層の出力は出力層256に提供されてよく、これはニューラルネットワーク出力を生成するために受信されたアクティベーションベクトルの追加の計算を実行する。ニューラルネットワーク250が実行の所望のレベルに達した後、ニューラルネットワーク250は、トレーニングされたニューラルネットワークとして指定されてもよい。たとえば、ニューラルネットワーク250は、ネットワーク250が異なる話者の発声を区別し、最高未満の誤差率で、同じ話者の発声の間のマッチを識別することができるまでトレーニングされてもよい。
トレーニング発話ベクトル214aおよび言語ID215aを含む213aなどのトレーニングデータのセットは、様々な異なる方法でニューラルネットワーク250へのトレーニング入力として提供される前に前処理されてもよい。たとえば、one-hot言語ベクトルなどのトレーニング発話ベクトル214aおよび言語ID215aは連結されてもよい。そのような場合において、連結されたベクトルは、トレーニング時にニューラルネットワーク250への入力として提供されてもよい。代替的に、システム200は、トレーニング発話ベクトル214a、one-hot言語ベクトル、またはトレーニング発話ベクトル214aおよびone-hot言語ベクトルの両方の各それぞれのニューラルネットワークの処理に基づいてそれぞれ生成された出力を有する少なくとも2つの他のニューラルネットワークの出力を連結することによってニューラルネットワーク250への入力を生成してもよい。そのような場合において、2つ以上の他のニューラルネットワークの連結された出力は、ニューラルネットワーク250をトレーニングするために使用されてもよい。代替的に、システム200は、トレーニング発話ベクトル214aおよびone-hot言語ベクトルの加重和に基づいて入力ベクトルを生成してもよい。トレーニング発話ベクトル214aおよびone-hot言語ベクトルに基づいてトレーニングデータのセットを生成する他の方法が使用されることが可能である。
ニューラルネットワーク250の一部258は、ニューラルネットワーク250がトレーニング済みとして指定された後に取得され、話者照合モデル280を生成するために使用されてもよい。ニューラルネットワーク250の取得された部分258は、ニューラルネットワーク250の入力層252とニューラルネットワーク254aの1つまたは複数の隠れ層とを含んでもよい。しかしながら、いくつかの実装形態において、ニューラルネットワーク250の取得された部分は出力層256を含まない。トレーニングされた後、ニューラルネットワーク250は、話者の声紋として使用できる取得された部分258の最後の隠れ層の出力としてアクティベーションベクトルを生成することができる。声紋は、ホットワードの発話をユーザデバイスに与える人の同一性を検証するためにユーザデバイスによって使用されてもよい。
サーバ240は、話者照合モデル280のコピーをネットワーク230を通じてユーザデバイス210などの1つまたは複数のそれぞれのユーザデバイスに伝送する。次いで、話者照合モデル280のコピーは、各それぞれのユーザデバイス110上に記憶され、言語独立話者同一性照合を円滑にするために使用することができる。別の例として、話者照合モデル280は、たとえばユーザデバイス210のオペレーティングシステムにより、ユーザデバイス210上にプリインストールされてもよい。
図4は、言語独立話者同一性照合を実行するシステム400の一例である。システム400は、ユーザデバイス210と、話者照合モデル280と、比較モジュール440と、照合モジュール450とを備える。
図4に示される例において、ユーザ402は、音声照合を使用してユーザデバイス210にアクセスすることを試みる。ユーザデバイス210は、ネットワーク230を介してサーバ240によって提供される話者照合モデル280をすでに受信し、記憶している。音声照合を使用してユーザデバイス210にアクセスするために、ユーザ402は、"Ok Google"などの所定のホットワード410a、またはフレーズを発する。所定のホットワード410a、またはフレーズ、"Ok Google"に対応するオーディオ410bは、ユーザデバイス210のマイクロフォン211によって検出される。ユーザデバイス410bは、オーディオ410bの音響特徴を表すオーディオ410bから音響特徴ベクトルを導出してもよい(413)。
それに加えて、システム400は、ユーザデバイス210の言語ID記憶領域に記憶された言語ID415を取得してもよい。言語IDは、ユーザに関連付けられた特定の言語または方言を識別するデータを含んでもよい。一実装形態において、言語IDは、one-hot言語ベクトルを含んでもよい。特定のユーザデバイス210上に記憶された言語ID415は、多数の異なる方法で知られている言語および方言に対応する複数の異なる言語IDのセットからの特定の言語IDに設定されてもよい。たとえば、ユーザは、ユーザデバイス210の購入後初めてユーザデバイス210の電源をオンにし、構成するときに特定の言語または方言を選択してもよい。対応する言語IDは、ユーザによって選択された特定の言語または方言に基づいて、選択され、ユーザデバイス210に記憶されてもよい。
代替的にまたはそれに加えて、特定の言語IDが、デバイスの場所に基づいて、選択され、ユーザデバイス210に記憶されてもよい。たとえば、ユーザデバイス210は、デバイスが最初にアクティベートされた場所、デバイスの現在位置、または同様のものに基づいて言語IDに対する既定の設定を確立してもよい。代替的にまたはそれに加えて、ユーザデバイス210は、ユーザから取得された音声サンプルに基づいてユーザに関連付けられた特定の言語または方言を動的に検出してもよい。ユーザに関連付けられた特定の言語または方言の動的検出は、たとえば話者認証時に、ユーザが所定のホットワードを発したときに決定されてもよい。そのような場合において、対応する言語IDは、ユーザの音声サンプルから検出された言語または方言に基づいて、選択され、ユーザデバイス210に記憶されてもよい。代替的にまたはそれに加えて、ユーザは、いつでも特定の言語または方言を選択するためにユーザデバイス210に関連付けられた言語または方言設定を修正してもよい。そのような場合において、対応する言語IDは、ユーザデバイス210の言語または方言設定のユーザの修正に基づいて、選択され、ユーザデバイス210に記憶されてもよい。
音響特徴ベクトル414および言語ID415は、トレーニングされたニューラルネットワーク250の少なくとも一部に基づく音声照合モデル280への入力として提供されてもよい。たとえば、音声照合モデル280は、たとえば入力層252および1つまたは複数の隠れ層254a、254b、254cなどのトレーニングされたニューラルネットワーク250の1つまたは複数の層を含んでもよい。しかしながら、一実装形態において、音声照合モデル280はニューラルネットワーク250の出力層256を利用しない。
音響特徴ベクトル414および言語ID415は様々な異なる方法で音声照合モデル280への入力として提供することができる。たとえば、one-hot言語ベクトルなどの音響特徴ベクトル414および言語ID415は連結されてもよい。そのような場合において、連結されたベクトルは音声照合モデルへの入力として提供されてもよい。代替的に、システム400は、音響特徴ベクトル414、one-hot言語ベクトルなどの言語ID415、または音響特徴ベクトル414および言語ID415の両方の各それぞれのニューラルネットワークの処理に基づいてそれぞれ生成された出力を有する少なくとも2つの他のニューラルネットワークの出力を連結してもよい。そのような場合において、2つまたはそれ以上の他のニューラルネットワークの連結された出力は音声照合モデル280に提供されてもよい。代替的に、システム400は、音響特徴ベクトル414および言語ID415として使用されるone-hot言語ベクトルの加重和に基づいて入力ベクトルを生成してもよい。音響特徴ベクトル414および言語ID415に基づいて音声照合モデル280への入力データを生成する他の方法が使用されることが可能である。
音響特徴ベクトル414および言語ID415に基づく提供された入力データの音声照合モデル280の処理の結果として、音声照合モデル280のニューラルネットワークの1つまたは複数の隠れ層においてアクティベーションのセットを生成してもよい。たとえば、提供された入力の音声照合モデル280の処理の結果として、アクティベーションのセットが第1の隠れ層254a、第2の隠れ層254b、第3の隠れ層254c、または同様のものにおいて生成されることが可能である。一実装形態において、システム400は、音声照合モデル280のニューラルネットワークの最終隠れ層254cによって出力されたアクティベーションを取得してもよい。最終隠れ層254cによって出力されるアクティベーションは、話者ベクトル420を生成するために使用されてもよい。この話者ベクトル420は、ユーザの声の特徴を示す表現を提供する。この話者ベクトルは声紋と称されてもよい。声紋は、ユーザの声の特徴に基づいて話者の同一性を一意的に検証するために使用できる。
比較モジュール440は、話者ベクトル420と参照ベクトル430とを受信するように構成されてもよい。参照ベクトル430は、デバイスによってキャプチャされた前のユーザ発話、たとえばユーザをデバイスに登録するときに提供された発話から導出されたベクトルであってもよい。たとえば、音声認証を使用してユーザデバイス210をロック解除するためにユーザ402がシステム400を使用する前のある時点において、ユーザ402は、"Ok Google"などのフレーズを1回または複数回発してもよい。ユーザデバイス210は、マイクロフォン211を使用してユーザの発話に対応するオーディオ信号をキャプチャするように構成されることが可能である。次いで、ユーザデバイス210は、ユーザ402がシステム400を使用し音声認証を用いてユーザデバイス210をロック解除する前のある時点においてキャプチャされた、発せられたフレーズのうちの少なくとも1つに対応するオーディオ信号から参照特徴ベクトル430を導出することができる。参照ベクトル430は、生成された声紋が比較できるユーザ402の声の特徴のベースライン表現を提供してもよい。一実装形態において、参照ベクトル430は、音声許可の際に電話をロック解除するために発することができる所定のホットワードのユーザ402の発話に基づいて生成されてもよい。
比較モジュール440は、話者ベクトル420と参照ベクトル430との間の類似度レベルを決定してもよい。一実装形態において、比較モジュール440は、話者ベクトル420と参照ベクトル430との間の類似度尺度を計算することができる。いくつかの場合において、比較モジュール440は、話者ベクトル420と参照ベクトル430との間の類似度尺度が所定の閾値を超えたかどうかを判定することができる。類似度尺度が所定の閾値を超えるこうした場合に、比較モジュール440は、類似度尺度が所定の閾値を超えたことを指示する出力データを照合モジュール450に提供してもよい。代替的に、比較モジュール440は、類似度尺度が所定の閾値を超えないと判定してもよい。そのような場合に、比較モジュール440は、類似度尺度が所定の閾値を超えなかったことを指示する出力データを照合モジュール450に提供してもよい。
いくつかの実装形態において、話者ベクトル420と参照ベクトル430との間の類似度尺度は、話者ベクトル420と参照ベクトル430との間の距離に基づいて計算されてもよい。比較モジュール440は、話者ベクトル420と参照ベクトル430との間の距離を決定するように構成されてもよい。一実装形態において、話者ベクトル420と参照ベクトル430との間の距離は、たとえばコサイン関数を使用して決定されてもよい。コサイン関数は、話者ベクトル420と参照ベクトル430との間の距離をこれら2つのベクトルの間の角度を測定することによって決定することができる。
照合モジュール450は、照合モジュール450が比較モジュール440から受信した出力データを受信し解釈する。比較モジュール440から受信された出力データに基づいて、照合モジュールは、話者ベクトル420が導出されたフレーズ410aを発したユーザ402が参照ベクトル430が導出されたフレーズを以前に発した同じユーザであるかどうかを判定してもよい。話者ベクトル420が導出されたフレーズ410aを発したユーザ402が、参照ベクトル430が導出されたフレーズを以前に発した同じユーザであると判定された場合、照合モジュール450は、ユーザデバイス210上で実行しているアプリケーションにデバイス420へのアクセスをユーザ402に提供するよう命令してもよい。代替的にまたはそれに加えて、話者ベクトル420が導出されたフレーズ410aを発したユーザ402が、参照ベクトル420が導出されたフレーズを以前に発した同じユーザであると判定した後、照合モジュール450は、デバイス上の特定のリソースへのアクセスを提供し、デバイスをロック解除し、デバイスを低電力状態からスリープ解除し、または同様のことを行ってもよい。
照合モジュール450は、比較モジュール440からの出力データに基づいて、比較モジュール440からの出力データが類似度尺度が所定の閾値を超えたことを指示する場合にフレーズ410aを発したユーザが参照ベクトル430が導出されたフレーズを発した同じユーザであると判定してもよい。そのような場合において、照合モジュールがユーザが完全認証され、ユーザデバイス210を使用することを許可されていると判定してもよい。代替的に、照合モジュール450は、比較モジュール440からの出力データに基づいて、検証モジュール450がフレーズ410aを発したユーザ402が参照ベクトル430を発した同じユーザであると結論することができないと判定してもよい。そのような場合において、ユーザ402は認証されず、デバイスへのアクセスを提供されない。その代わりに、システム400、ユーザデバイス210、1つまたは複数の他のアプリケーション、またはそれらの組合せはユーザデバイス210にアクセスするための代替的オプションを提供してもよい。たとえば、ユーザデバイス210は、秘密のパスコードを入力することをユーザ402に促してもよい。
ユーザ402が認証されたときに、フレーズ410aを発したユーザ402が参照ベクトル430が導出されたフレーズを発した同じユーザであると判定することによって、ユーザデバイス210はロック解除し、"Speaker's Identity is Verified"であることを指示するメッセージ460をユーザに出力してもよい。このメッセージは、ユーザデバイス210のグラフィカルユーザインターフェース上に表示されるテキストメッセージ、ユーザデバイス210のスピーカによって出力されるオーディオメッセージ、ユーザデバイス210のグラフィカルユーザインターフェース上に表示されるビデオメッセージ、または前述のタイプのメッセージのうちの1つもしくは複数の組合せであってもよい。
図5は、言語独立話者同一性照合を実行するためのプロセス500を示すフローチャートである。便宜上、プロセス500は、システムによって実行されるものとして説明される。たとえば、上で説明されたシステム400は、ユーザデバイス210にアクセスすることを試みるユーザを認証するためにプロセス500を実行することができる。
プロセス500は、ユーザデバイス210が音声認証を実行する要求をデバイスのユーザから受信したとき510に始まってもよい。いくつかの実装形態において、ユーザは、ユーザの音声認証を開始することを電話機に指令するためにユーザデバイス上でボタンを選択するか、ユーザデバイスのユーザインターフェース上でジェスチャーを実行するか、ユーザデバイスのカメラの視界内の空中でジェスチャーを実行するか、または同様のことを実行しなければならない場合がある。そのような場合において、音声認証を開始する命令が受信された後、ユーザは、ユーザの同一性を確認するために使用できる任意の言語または方言で所定のホットワードを発してもよい。代替的にまたはそれに加えて、ユーザデバイス210は、ユーザの音声認証を開始するために使用されてもよい任意の言語または方言による所定の発せられたホットワードの検出のために、受動的に「聴く」ようにマイクロフォンを使用してもよい。所定のホットワードは、たとえば"Hello Phone"、"Ok Google"、"Ni hao Android"、または同様のものを含んでもよい。いくつかの実装形態において、特定の場所にいるすべてのユーザまたは特定の言語を話すすべてのユーザに対して単一の固定されたホットワードがある。
このプロセスは、システム400がユーザデバイス210のユーザによって入力された発話を取得したときに520において継続することができる。発話は、たとえばユーザの音声認証を開始するために使用されてもよい任意の言語または方言による所定のホットワードを含んでもよい。システム400は、取得された発話に対応するオーディオ信号から音響特徴ベクトルを導出してもよい。
システム400は、ユーザデバイス210に関連付けられた言語識別子を決定することができる(530)。言語識別子は、ユーザに関連付けられた特定の言語または方言を識別するデータを含んでもよい。一実装形態において、言語識別子は、one-hot言語ベクトルを含んでもよい。特定のユーザデバイス210上に記憶された言語識別子は、たとえば上で説明されたように、多数の異なる方法で知られている言語および方言に対応する複数の異なる言語識別子のプールからの特定の言語識別子に設定されてもよい。しかしながら、本明細書の主題は、現在知られている言語または方言のみに限定されるわけではない。たとえば、話者照合モデルは、新しい言語、方言、またはアクセントに対応できるようにトレーニングすることができる。話者照合モデルが再トレーニングされるときに、言語または場所と識別子との間のマッピングは、たとえば新しい場所または言語を追加するように調整されてもよい。
システム400は、音響特徴ベクトルおよび言語識別子に基づいて話者照合モデルに入力データを提供してもよい(540)。入力は、様々な異なる方法で話者照合モデルに提供されてもよい。たとえば、one-hot言語ベクトルなどの音響特徴ベクトルおよび言語識別子は連結されてもよい。そのような場合において、連結されたベクトルは、音声照合モデルへの入力として提供されてもよい。代替的に、システム400は、音響特徴ベクトル、one-hot言語ベクトルなどの言語識別子、または音響特徴ベクトルおよび言語識別子の両方の各それぞれのニューラルネットワークの処理に基づいてそれぞれ生成された出力を有する少なくとも2つの他のニューラルネットワークの出力を連結してもよい。そのような場合において、2つ以上の他のニューラルネットワークの連結された出力は、音声照合モデルに提供されてもよい。代替的に、システム400は、音響特徴ベクトルおよび言語識別子として使用されるone-hot言語ベクトルの加重和に基づいて入力ベクトルを生成してもよい。音響特徴ベクトルおよび言語識別子に基づいて音声照合モデル280への入力データを生成する他の方法が使用されてもよい。
システム400は、540で提供される入力に基づいて話者表現を生成してもよい。たとえば、話者照合モデルは、540で提供される入力を処理し、1つまたは複数の隠れ層においてアクティベーションのセットを生成するニューラルネットワークを含んでもよい。次いで、話者表現は、ニューラルネットワークの少なくとも1つの隠れ層から取得されたアクティベーションの特定のセットから導出されてもよい。一実装形態において、アクティベーションは、ニューラルネットワークの最後の隠れ層から取得されてもよい。この話者表現は、ユーザの声の特徴を示す特徴ベクトルを含んでもよい。
560において、システム400は、段階520で取得された発話の話者がユーザデバイス210にアクセスできるかどうかを判定してもよい。この決定は、たとえば話者表現と参照表現との比較結果に基づいてもよい。参照は、ユーザが音声認証を使用してユーザデバイスにアクセスすることを要求する前のある時点においてユーザデバイス210に入力されるユーザ発話から導出された特徴ベクトルであってもよい。話者表現と参照表現との比較の結果、話者表現と参照表現との間の類似性を示す類似度尺度が決定されてもよい。類似度尺度は、話者表現と参照表現との間の距離を含んでもよい。一実装形態において、距離は、コサイン関数を使用して計算されてもよい。類似度尺度が所定の閾値を超えたと判定された場合、システム400は、ユーザデバイス210へのアクセスをユーザに提供する(570)ことを決定してもよい。
本明細書で説明された主題、機能的動作およびプロセスの実施形態は、本明細書で開示される構造およびその構造的等価物を含む、デジタル電子回路で、有形に具現化されたコンピュータソフトウェアもしくはファームウェアで、コンピュータハードウェアで、またはこれらのうちの1つもしくは複数のものの組合せで実装されることが可能である。本明細書で説明された発明対象の実施形態は、1つまたは複数のコンピュータプログラム、すなわちデータ処理装置による実行のためまたはデータ処理装置の動作を制御するために有形な不揮発性プログラム担体上に符号化されたコンピュータプログラム命令からなる1つまたは複数のモジュールとして実装されることが可能である。代替的にまたはそれに加えて、プログラム命令は、データ処理装置による実行のため好適な受信機装置に伝送する情報が符号化されるように生成される、人工的に生成された伝搬信号たとえば機械で生成された電気、光、または電磁信号上で符号化されることが可能である。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらのうちの1つもしくは複数の組合せとすることができる。
「データ処理装置」という用語は、たとえばプログラム可能プロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを備える、データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置は、専用論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)、またはASIC(特定用途向け集積回路)を含むことができる。装置はまた、ハードウェアに加えて、注目しているコンピュータプログラム用の実行環境を作成するコード、たとえばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはこれらのうちの1つもしくは複数のものの組合せを構成するコードを含むことができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも称されるか、または記述されてもよい)は、コンパイル言語またはインタプリタ言語または宣言型言語または手続き型言語を含む、任意の形態のプログラミング言語で書かれることが可能であり、スタンドアロンプログラム、またはモジュール、構成要素、サブルーチン、またはコンピューティング環境において使用するのに適している他のユニットを含む任意の形態で配置されることが可能である。コンピュータプログラムは、ファイルシステム内のファイルに対応してもよいが、そうである必要はない。プログラムは、他のプログラムまたはデータ(たとえば、マークアップ言語ドキュメントに記憶される1つまたは複数のスクリプト)を保持するファイルの一部に、注目しているプログラム専用の単一ファイルに、または複数の協調ファイル(たとえば、1つもしくは複数のモジュール、サブプログラム、またはコードの一部分を記憶するファイル)に記憶されることが可能である。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに配置されるか、または複数のサイトにまたがって分散され、通信ネットワークによって相互接続されている複数のコンピュータ上で実行されるように配置されることが可能である。
本明細書で説明されたプロセスおよび論理の流れは、入力データを操作し、出力を生成することによって機能を実行するように1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行することができる。これらのプロセスまたは論理の流れはまた、専用論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)、またはASIC(特定用途向け集積回路)によっても実行され、また装置は、専用論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)、またはASIC(特定用途向け集積回路)として実装されることが可能である。
コンピュータプログラムの実行に適しているコンピュータは、汎用マイクロプロセッサ、専用マイクロプロセッサ、またはその両方、または任意の他の種類の中央演算処理装置を備える、たとえばそれらに基づくことができる。一般に、中央演算処理装置は、リードオンリーメモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受け取る。コンピュータの不可欠な要素は、命令を遂行または実行するための中央演算処理装置ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般的に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば磁気ディスク、磁気光ディスク、または光ディスクを備え、これらからデータを受け取るか、またはこれらにデータを転送するか、またはその両方を行うように動作可能なように結合される。しかしながら、コンピュータは、そのようなデバイスを有している必要はない。さらに、コンピュータは、別のデバイス、たとえば2、3例を挙げると、携帯電話、携帯情報端末(PDA)、携帯オーディオもしくはビデオプレーヤー、ゲーム機、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス(たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ)に組み込まれることが可能である。
コンピュータプログラムの命令およびデータを格納するのに適したコンピュータ可読媒体は、たとえば半導体メモリデバイス、たとえばEPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば内蔵ハードディスクまたはリムーバブルディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補助されるか、または専用論理回路に組み込まれることが可能である。
ユーザと情報のやり取りを行うために、本明細書で説明された発明対象の実施形態は、ユーザに情報を表示するためのディスプレイデバイス(たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)ならびにユーザがコンピュータに入力を送るために使用できるキーボードおよびポインティングデバイス(たとえば、マウスもしくはトラックボール)を有するコンピュータ上で実装されることが可能である。他の種類のデバイスも、ユーザとインタラクティブにやり取りするために使用することができ、たとえばユーザに返されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバックとすることができ、ユーザからの入力は、音響、話し声、または触覚入力を含む、任意の形態で受信されることが可能である。それに加えて、コンピュータは、ドキュメントをユーザによって使用されるデバイスに送り、そのデバイスからドキュメントを受け取ることによって、たとえばウェブブラウザから受け取った要求に応答して、ウェブページをユーザのユーザデバイス上のウェブブラウザに送信することによってユーザとインタラクティブにやり取りすることができる。
本明細書で説明された主題の実施形態は、バックエンド構成要素をたとえばデータサーバとして備えるか、もしくはミドルウェア構成要素、たとえばアプリケーションサーバを備えるか、もしくはフロントエンド構成要素、たとえばユーザが本明細書で説明された発明対象の実装をインタラクティブに操作するために使用することができるグラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータを備えるコンピューティングシステムで、または1つもしくは複数のそのようなバックエンド、ミドルウェア、もしくはフロントエンド構成要素の任意の組合せで実装されることが可能である。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体、たとえば通信ネットワークによって相互接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク("LAN")およびワイドエリアネットワーク("WAN")、たとえばインターネットを含む。
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に互いに隔てられており、典型的には通信ネットワークを通じてインタラクティブな操作を行う。クライアントとサーバとの関係は、コンピュータプログラムが各コンピュータ上で実行され、互いとの間にクライアント−サーバ関係を有することによって発生する。
本明細書は、多くの実装固有の詳細事項を含んでいるが、これらは、請求内容の範囲に対する制限として解釈すべきではなく、むしろ特定の実施形態に特有であると思われる特徴の説明として解釈すべきである。別の実施形態の文脈において本明細書で説明されたいくつかの特徴もまた、単一の実施形態において組合せで実装されることが可能である。逆に、単一の実施形態の文脈において説明された様々な特徴は、複数の実施形態で別々に、または好適な部分的組合せで、実装されることも可能である。さらに、特徴は、いくつかの組合せで働くものとして上記で説明され、初めにそのように請求されることさえあるが、請求される組合せからの1つまたは複数の特徴は、場合によってはその組合せから削除することが可能であり、請求される組合せは、部分組合せ、または部分組合せの変形形態を対象としてもよい。
同様に、動作は特定の順序で図面に示されるが、そのような動作は、望ましい結果を達成するために、示される特定の順序でもしくは順番に実行される必要がないことをまたはすべての図示の動作が実行される必要があるとは限らないことを理解されたい。ある状況では、マルチタスキングおよび並列処理が有利である場合がある。さらに、上で説明された実施形態における様々なシステムコンポーネントの分離は、すべての実施形態においてそのような分離が必要とされるものと理解されるべきではなく、前述のプログラム構成要素およびシステムが概して単一のソフトウェアプロダクトとして一体化されるかまたは複数のソフトウェアプロダクトとしてパッケージ化されることが可能であることを理解されたい。
発明対象の特定の実施形態が説明された。他の実施形態は、次の請求項の範囲内に収まる。たとえば、請求項に記載のアクションは異なる順序で実行することができ、それでも所望の結果を得ることができる。一例として、添付図面に示されるプロセスは、必ずしも、望ましい結果を達成するために図示される特定の順序、または順番を必要としない。いくつかの実装形態では、マルチタスキングおよび並列処理が有利である場合がある。他のステップまたは段階が提示されてもよく、または説明されたプロセスからステップもしくは段階が取り除かれてもよい。したがって、他の実装形態は特許請求の範囲内に収まる。
100 システム
105a ホットワード
105b オーディオ
110 ユーザデバイス
111 マイクロフォン
113 "Speaker Identity Verified"
115 オーディオによる挨拶
115a ホットワード
115b オーディオ
120 ユーザデバイス
121 マイクロフォン
123 "Shuohuazhe de shenfen yanzheng"
125 オーディオによる挨拶
130 ネットワーク
140 サーバ
150 ニューラルネットワーク
180 話者照合モデル
200 システム
210 ユーザデバイス
210a、210b トレーニング発話
211 マイクロフォン
213a 第1のトレーニングデータのセット
213b 第2のトレーニングデータのセット
214a トレーニング発話ベクトル
215a、215b 言語ID
230 ネットワーク
240 サーバ
250 ニューラルネットワーク
252 入力層
254a、254b、254c 隠れ層
256 出力層
258 一部
260a 出力
260b 出力
270 コンパレータ
272 比較モジュールの出力
280 言語独立話者照合モデル
305、310、315、320 one-hot言語ベクトル
400 システム
402 ユーザ
410a ホットワード
410b オーディオ
414 音響特徴ベクトル
415 言語ID
430 参照ベクトル
440 比較モジュール
450 照合モジュール
460 メッセージ
500 プロセス

Claims (14)

1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されたときに、前記1つまたは複数のコンピュータに、
ユーザデバイスによって、ユーザの発話を表現するオーディオデータを受信することと、
前記ユーザデバイス上に記憶されたニューラルネットワークに、前記オーディオデータと、前記ユーザデバイスに関連付けられた言語識別子または場所識別子とから導出された入力データのセットを提供することであって、前記ニューラルネットワークは異なる言語または異なる方言で音声を表現する音声データを使用してトレーニングされたパラメータを有する、提供することと、
前記入力データのセットの受信に応答して生成される前記ニューラルネットワークの出力に基づいて、前記ユーザの声の特徴を示す話者表現を生成することと、
前記話者表現および第2の表現に基づいて、前記発話が前記ユーザの発話であると判定することと、
前記発話が前記ユーザの発話であると判定したことに基づいて前記ユーザデバイスへのーザアクセスを提供することと
を含む動作を実行させるように動作可能な命令を記憶した1つまたは複数の記憶デバイスと
を備える、システム。
前記オーディオデータおよび前記語識別子から導出された前記入力データのセットは、前記オーディオデータから導出される第1のベクトルと、前記ユーザデバイスに関連付けられた言語識別子から導出される第2のベクトルとを含む、請求項1に記載のシステム。
前記第1のベクトルと前記第2のベクトルとを単一の連結されたベクトルへと連結することによって入力ベクトルを生成することと、
前記ニューラルネットワークに、前記生成された入力ベクトルを提供することと、
前記入力ベクトルの受信に応答して生成される前記ニューラルネットワークの出力に基づいて、前記ユーザの前記声の特徴を示す話者表現を生成することと
をさらに含む、請求項2に記載のシステム。
(i)前記第1のベクトル、(ii)前記第2のベクトル、または(iii)前記第1のベクトルおよび前記第2のベクトルの両方に基づいてそれぞれ出力を生成する少なくとも2つの他のニューラルネットワークの前記出力を連結することによって入力ベクトルを生成することと、
前記ニューラルネットワークに、前記生成された入力ベクトルを提供することと、
前記入力ベクトルの受信に応答して生成される前記ニューラルネットワークの出力に基づいて、前記ユーザの前記声の特徴を示す話者表現を生成することと
をさらに含む、請求項2に記載のシステム。
前記第1のベクトルと前記第2のベクトルとの加重和に基づいて入力ベクトルを生成することと、
前記ニューラルネットワークに、前記生成された入力ベクトルを提供することと、
前記入力ベクトルの受信に応答して生成される前記ニューラルネットワークの出力に基づいて、前記ユーザの前記声の特徴を示す話者表現を生成することと
をさらに含む、請求項2に記載のシステム。
前記入力データのセットの受信に応答して生成される前記ニューラルネットワークの前記出力は、前記ニューラルネットワークの隠れ層によって生成されるアクティベーションのセットを含む、請求項1から5のいずれか一項に記載のシステム。
ユーザデバイスによって、ユーザの発話を表現するオーディオデータを受信するステップと、
前記ユーザデバイス上に記憶されたニューラルネットワークに、前記オーディオデータと、前記ユーザデバイスに関連付けられた言語識別子または場所識別子とから導出された入力データのセットを提供するステップであって、前記ニューラルネットワークは異なる言語または方言で音声を表現する音声データを使用してトレーニングされたパラメータを有する、ステップと、
前記入力データのセットの受信に応答して生成される前記ニューラルネットワークの出力に基づいて、前記ユーザの声の特徴を示す話者表現を生成するステップと、
前記話者表現および第2の表現に基づいて、前記発話が前記ユーザの発話であると判定するステップと、
前記発話が前記ユーザの発話であると判定したことに基づいて前記ユーザデバイスへのーザアクセスを提供するステップと
を含む、方法。
前記オーディオデータおよび前記語識別子から導出された前記入力データのセットは、前記オーディオデータから導出される第1のベクトルと、前記ユーザデバイスに関連付けられた言語識別子から導出される第2のベクトルとを含む、請求項7に記載の方法。
前記第1のベクトルと前記第2のベクトルとを単一の連結されたベクトルへと連結することによって入力ベクトルを生成するステップと、
前記ニューラルネットワークに、前記生成された入力ベクトルを提供するステップと、
前記入力ベクトルの受信に応答して生成される前記ニューラルネットワークの出力に基づいて、前記ユーザの前記声の特徴を示す話者表現を生成するステップと
をさらに含む、請求項8に記載の方法。
(i)前記第1のベクトル、(ii)前記第2のベクトル、または(iii)前記第1のベクトルおよび前記第2のベクトルの両方に基づいてそれぞれ出力を生成する少なくとも2つの他のニューラルネットワークの前記出力を連結することによって入力ベクトルを生成するステップと、
前記ニューラルネットワークに、前記生成された入力ベクトルを提供するステップと、
前記入力ベクトルの受信に応答して生成される前記ニューラルネットワークの出力に基づいて、前記ユーザの前記声の特徴を示す話者表現を生成するステップと
をさらに含む、請求項8に記載の方法。
前記第1のベクトルと前記第2のベクトルとの加重和に基づいて入力ベクトルを生成するステップと、
前記ニューラルネットワークに、前記生成された入力ベクトルを提供するステップと、
前記入力ベクトルの受信に応答して生成される前記ニューラルネットワークの出力に基づいて、前記ユーザの前記声の特徴を示す話者表現を生成するステップと
をさらに含む、請求項8に記載の方法。
前記入力データのセットの受信に応答して生成される前記ニューラルネットワークの前記出力は、前記ニューラルネットワークの隠れ層によって生成されるアクティベーションのセットを含む、請求項7から11のいずれか一項に記載の方法。
前記話者表現および第2の表現に基づいて、前記発話が前記ユーザの発話であると判定するステップは、
前記話者表現と前記第2の表現との間の距離を決定するステップを含む、
請求項7から12のいずれか一項に記載の方法。
前記発話が前記ユーザの発話であると判定したことに基づいて前記ユーザデバイスへの前記ユーザアクセスを提供するステップは、前記ユーザデバイスをロック解除するステップを含む、請求項7から13のいずれか一項に記載の方法。
JP2019500442A 2016-07-15 2017-07-06 話者照合 Active JP6561219B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/211,317 2016-07-15
US15/211,317 US20180018973A1 (en) 2016-07-15 2016-07-15 Speaker verification
PCT/US2017/040906 WO2018013401A1 (en) 2016-07-15 2017-07-06 Speaker verification

Publications (2)

Publication Number Publication Date
JP6561219B1 true JP6561219B1 (ja) 2019-08-14
JP2019530888A JP2019530888A (ja) 2019-10-24

Family

ID=59366524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019500442A Active JP6561219B1 (ja) 2016-07-15 2017-07-06 話者照合

Country Status (7)

Country Link
US (4) US20180018973A1 (ja)
EP (2) EP3373294B1 (ja)
JP (1) JP6561219B1 (ja)
KR (1) KR102109874B1 (ja)
CN (1) CN108140386B (ja)
RU (1) RU2697736C1 (ja)
WO (1) WO2018013401A1 (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11676608B2 (en) * 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
CN106469040B (zh) * 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106251859B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
US11545146B2 (en) * 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
EP3625792B1 (en) * 2017-07-31 2023-05-10 Beijing Didi Infinity Technology and Development Co., Ltd. System and method for language-based service hailing
US11817103B2 (en) * 2017-09-15 2023-11-14 Nec Corporation Pattern recognition apparatus, pattern recognition method, and storage medium
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
KR102486395B1 (ko) * 2017-11-23 2023-01-10 삼성전자주식회사 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법
US10593321B2 (en) * 2017-12-15 2020-03-17 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for multi-lingual end-to-end speech recognition
US10783873B1 (en) * 2017-12-15 2020-09-22 Educational Testing Service Native language identification with time delay deep neural networks trained separately on native and non-native english corpora
CN111630934B (zh) * 2018-01-22 2023-10-13 诺基亚技术有限公司 隐私保护的声纹认证装置和方法
CN108597525B (zh) * 2018-04-25 2019-05-03 四川远鉴科技有限公司 语音声纹建模方法及装置
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
GB2573809B (en) 2018-05-18 2020-11-04 Emotech Ltd Speaker Recognition
WO2019227290A1 (en) * 2018-05-28 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for speech recognition
JP6980603B2 (ja) * 2018-06-21 2021-12-15 株式会社東芝 話者モデル作成システム、認識システム、プログラムおよび制御装置
US10991379B2 (en) 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
CN110634489B (zh) * 2018-06-25 2022-01-14 科大讯飞股份有限公司 一种声纹确认方法、装置、设备及可读存储介质
KR20200011796A (ko) * 2018-07-25 2020-02-04 엘지전자 주식회사 음성 인식 시스템
CN110874875B (zh) * 2018-08-13 2021-01-29 珠海格力电器股份有限公司 门锁控制方法及装置
KR102492783B1 (ko) * 2018-09-25 2023-01-27 구글 엘엘씨 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN110164452B (zh) * 2018-10-10 2023-03-10 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
KR102623246B1 (ko) * 2018-10-12 2024-01-11 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체.
US11144542B2 (en) * 2018-11-01 2021-10-12 Visa International Service Association Natural language processing system
US11031017B2 (en) * 2019-01-08 2021-06-08 Google Llc Fully supervised speaker diarization
TW202029181A (zh) * 2019-01-28 2020-08-01 正崴精密工業股份有限公司 語音識別用於特定目標喚醒的方法及裝置
US10978069B1 (en) * 2019-03-18 2021-04-13 Amazon Technologies, Inc. Word selection for natural language interface
US11948582B2 (en) * 2019-03-25 2024-04-02 Omilia Natural Language Solutions Ltd. Systems and methods for speaker verification
CN113646835A (zh) * 2019-04-05 2021-11-12 谷歌有限责任公司 联合自动语音识别和说话人二值化
WO2020223122A1 (en) * 2019-04-30 2020-11-05 Walmart Apollo, Llc Systems and methods for processing retail facility-related information requests of retail facility workers
US11158305B2 (en) * 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11222622B2 (en) 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11031013B1 (en) 2019-06-17 2021-06-08 Express Scripts Strategic Development, Inc. Task completion based on speech analysis
CN110400562B (zh) * 2019-06-24 2022-03-22 歌尔科技有限公司 交互处理方法、装置、设备及音频设备
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
CN110379433B (zh) * 2019-08-02 2021-10-08 清华大学 身份验证的方法、装置、计算机设备及存储介质
EP4086904A1 (en) * 2019-12-04 2022-11-09 Google LLC Speaker awareness using speaker dependent speech model(s)
RU2723902C1 (ru) * 2020-02-15 2020-06-18 Илья Владимирович Редкокашин Способ верификации голосовых биометрических данных
JP7388239B2 (ja) * 2020-02-21 2023-11-29 日本電信電話株式会社 照合装置、照合方法、および、照合プログラム
CN111370003B (zh) * 2020-02-27 2023-05-30 杭州雄迈集成电路技术股份有限公司 一种基于孪生神经网络的声纹比对方法
US11651767B2 (en) 2020-03-03 2023-05-16 International Business Machines Corporation Metric learning of speaker diarization
US11443748B2 (en) * 2020-03-03 2022-09-13 International Business Machines Corporation Metric learning of speaker diarization
US20210287681A1 (en) * 2020-03-16 2021-09-16 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
WO2021187146A1 (ja) * 2020-03-16 2021-09-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報送信装置、情報受信装置、情報送信方法、プログラム、及び、システム
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11508380B2 (en) * 2020-05-26 2022-11-22 Apple Inc. Personalized voices for text messaging
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR102277422B1 (ko) * 2020-07-24 2021-07-19 이종엽 음성 단말기의 음성 검증 및 제한 방법
US11676572B2 (en) * 2021-03-03 2023-06-13 Google Llc Instantaneous learning in text-to-speech during dialog
US11776550B2 (en) * 2021-03-09 2023-10-03 Qualcomm Incorporated Device operation based on dynamic classifier
US11798562B2 (en) * 2021-05-16 2023-10-24 Google Llc Attentive scoring function for speaker identification
US20230137652A1 (en) * 2021-11-01 2023-05-04 Pindrop Security, Inc. Cross-lingual speaker recognition

Family Cites Families (160)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4799262A (en) 1985-06-27 1989-01-17 Kurzweil Applied Intelligence, Inc. Speech recognition
US4868867A (en) 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
JP2733955B2 (ja) 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US5465318A (en) 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
JP2979711B2 (ja) 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
US5680508A (en) 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
EP0576765A1 (en) 1992-06-30 1994-01-05 International Business Machines Corporation Method for coding digital data using vector quantizing techniques and device for implementing said method
US5636325A (en) 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5627939A (en) 1993-09-03 1997-05-06 Microsoft Corporation Speech recognition system and method employing data compression
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
US5509103A (en) 1994-06-03 1996-04-16 Motorola, Inc. Method of training neural networks used for speech recognition
US5542006A (en) 1994-06-21 1996-07-30 Eastman Kodak Company Neural network based character position detector for use in optical character recognition
US5729656A (en) 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US6067517A (en) 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5745872A (en) 1996-05-07 1998-04-28 Texas Instruments Incorporated Method and system for compensating speech signals using vector quantization codebook adaptation
US6038528A (en) 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
EP0954854A4 (en) * 1996-11-22 2000-07-19 T Netix Inc PARTIAL VALUE-BASED SPEAKER VERIFICATION BY UNIFYING DIFFERENT CLASSIFIERS USING CHANNEL, ASSOCIATION, MODEL AND THRESHOLD ADAPTATION
US6260013B1 (en) 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
KR100238189B1 (ko) 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
AU1305799A (en) * 1997-11-03 1999-05-24 T-Netix, Inc. Model adaptation system and method for speaker verification
US6188982B1 (en) 1997-12-01 2001-02-13 Industrial Technology Research Institute On-line background noise adaptation of parallel model combination HMM with discriminative learning using weighted HMM for noisy speech recognition
US6397179B2 (en) 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6381569B1 (en) 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US6434520B1 (en) 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6665644B1 (en) 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
GB9927528D0 (en) 1999-11-23 2000-01-19 Ibm Automatic language identification
DE10018134A1 (de) 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
US6631348B1 (en) 2000-08-08 2003-10-07 Intel Corporation Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
DE10047172C1 (de) 2000-09-22 2001-11-29 Siemens Ag Verfahren zur Sprachverarbeitung
US6876966B1 (en) 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
JP4244514B2 (ja) 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US7280969B2 (en) 2000-12-07 2007-10-09 International Business Machines Corporation Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
GB2370401A (en) 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
US7062442B2 (en) 2001-02-23 2006-06-13 Popcatcher Ab Method and arrangement for search and recording of media signals
GB2375673A (en) 2001-05-14 2002-11-20 Salgen Systems Ltd Image compression method using a table of hash values corresponding to motion vectors
GB2375935A (en) 2001-05-22 2002-11-27 Motorola Inc Speech quality indication
GB0113581D0 (en) 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
US7668718B2 (en) 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US20030033143A1 (en) 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US7571095B2 (en) 2001-08-15 2009-08-04 Sri International Method and apparatus for recognizing speech in a noisy environment
US7043431B2 (en) 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US6950796B2 (en) 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7286987B2 (en) 2002-06-28 2007-10-23 Conceptual Speech Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7290207B2 (en) 2002-07-03 2007-10-30 Bbn Technologies Corp. Systems and methods for providing multimedia information management
US6756821B2 (en) * 2002-07-23 2004-06-29 Broadcom High speed differential signaling logic gate and applications thereof
JP4352790B2 (ja) 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US20040111272A1 (en) 2002-12-10 2004-06-10 International Business Machines Corporation Multimodal speech-to-speech language translation and display
US7593842B2 (en) 2002-12-10 2009-09-22 Leslie Rousseau Device and method for translating language
KR100486735B1 (ko) 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
US7571097B2 (en) 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
US8849185B2 (en) 2003-04-15 2014-09-30 Ipventure, Inc. Hybrid audio delivery system and method therefor
JP2004325897A (ja) 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
US7275032B2 (en) 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
US7499857B2 (en) 2003-05-15 2009-03-03 Microsoft Corporation Adaptation of compressed acoustic models
US20040260550A1 (en) 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
JP4548646B2 (ja) 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US20050144003A1 (en) 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
FR2865846A1 (fr) 2004-02-02 2005-08-05 France Telecom Systeme de synthese vocale
FR2867598B1 (fr) 2004-03-12 2006-05-26 Thales Sa Procede d'identification automatique de langues, en temps reel, dans un signal audio et dispositif de mise en oeuvre
US20050228673A1 (en) 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
FR2868586A1 (fr) 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
US20050267755A1 (en) 2004-05-27 2005-12-01 Nokia Corporation Arrangement for speech recognition
US7406408B1 (en) 2004-08-24 2008-07-29 The United States Of America As Represented By The Director, National Security Agency Method of recognizing phones in speech of any language
US7418383B2 (en) 2004-09-03 2008-08-26 Microsoft Corporation Noise robust speech recognition with a switching linear dynamic model
US7797156B2 (en) 2005-02-15 2010-09-14 Raytheon Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook
US20060253272A1 (en) 2005-05-06 2006-11-09 International Business Machines Corporation Voice prompts for use in speech-to-speech translation system
CN101176146B (zh) 2005-05-18 2011-05-18 松下电器产业株式会社 声音合成装置
WO2006126216A1 (en) 2005-05-24 2006-11-30 Loquendo S.P.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US20070088552A1 (en) 2005-10-17 2007-04-19 Nokia Corporation Method and a device for speech recognition
US20070118372A1 (en) 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
US7991770B2 (en) 2005-11-29 2011-08-02 Google Inc. Detecting repeating content in broadcast media
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
US20080004858A1 (en) 2006-06-29 2008-01-03 International Business Machines Corporation Apparatus and method for integrated phrase-based and free-form speech-to-speech translation
US7996222B2 (en) 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
CN101166017B (zh) 2006-10-20 2011-12-07 松下电器产业株式会社 用于声音产生设备的自动杂音补偿方法及装置
US8204739B2 (en) 2008-04-15 2012-06-19 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
CA2676380C (en) 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
US7848924B2 (en) 2007-04-17 2010-12-07 Nokia Corporation Method, apparatus and computer program product for providing voice conversion using temporal dynamic features
US20080300875A1 (en) 2007-06-04 2008-12-04 Texas Instruments Incorporated Efficient Speech Recognition with Cluster Methods
CN101359473A (zh) 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
GB2453366B (en) 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
JP4944241B2 (ja) * 2008-03-14 2012-05-30 名古屋油化株式会社 離型性シートおよび成形物
US8615397B2 (en) 2008-04-04 2013-12-24 Intuit Inc. Identifying audio content using distorted target patterns
CN101562013B (zh) * 2008-04-15 2013-05-22 联芯科技有限公司 一种自动识别语音的方法和装置
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US20100057435A1 (en) 2008-08-29 2010-03-04 Kent Justin R System and method for speech-to-speech translation
US8239195B2 (en) 2008-09-23 2012-08-07 Microsoft Corporation Adapting a compressed model for use in speech recognition
US8332223B2 (en) * 2008-10-24 2012-12-11 Nuance Communications, Inc. Speaker verification methods and apparatus
CA2748695C (en) 2008-12-31 2017-11-07 Bce Inc. System and method for unlocking a device
US20100198577A1 (en) 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
EP2406787B1 (en) 2009-03-11 2014-05-14 Google, Inc. Audio classification for information retrieval using sparse features
US9009039B2 (en) 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US20110238407A1 (en) 2009-08-31 2011-09-29 O3 Technologies, Llc Systems and methods for speech-to-speech translation
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US8700394B2 (en) 2010-03-24 2014-04-15 Microsoft Corporation Acoustic model adaptation using splines
US8234111B2 (en) 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
US20110313762A1 (en) 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
EP2609587B1 (en) 2010-08-24 2015-04-01 Veovox SA System and method for recognizing a user voice command in noisy environment
US8782012B2 (en) 2010-08-27 2014-07-15 International Business Machines Corporation Network analysis
EP2431969B1 (de) 2010-09-15 2013-04-03 Svox AG Spracherkennung mit kleinem Rechenaufwand und reduziertem Quantisierungsfehler
US8972253B2 (en) 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
US9318114B2 (en) 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US20120143604A1 (en) 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
TWI413105B (zh) 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
US9286886B2 (en) 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US8594993B2 (en) 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation
US8260615B1 (en) 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
ES2459391T3 (es) 2011-06-06 2014-05-09 Bridge Mediatech, S.L. Método y sistema para conseguir hashing de audio invariante al canal
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
CN103562993B (zh) * 2011-12-16 2015-05-27 华为技术有限公司 说话人识别方法及设备
US9137600B2 (en) 2012-02-16 2015-09-15 2236008 Ontario Inc. System and method for dynamic residual noise shaping
US9042867B2 (en) 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
JP5875414B2 (ja) 2012-03-07 2016-03-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 雑音抑制方法、プログラム及び装置
WO2013149123A1 (en) 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
US9368104B2 (en) 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
US20130297299A1 (en) 2012-05-07 2013-11-07 Board Of Trustees Of Michigan State University Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
US9489950B2 (en) 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
US9123338B1 (en) 2012-06-01 2015-09-01 Google Inc. Background audio identification for speech disambiguation
US9704068B2 (en) 2012-06-22 2017-07-11 Google Inc. System and method for labelling aerial images
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9153230B2 (en) * 2012-10-23 2015-10-06 Google Inc. Mobile speech recognition hardware accelerator
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US9263036B1 (en) 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
US20140156575A1 (en) 2012-11-30 2014-06-05 Nuance Communications, Inc. Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US9502038B2 (en) * 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US9454958B2 (en) 2013-03-07 2016-09-27 Microsoft Technology Licensing, Llc Exploiting heterogeneous data in deep neural network-based speech recognition systems
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
JP5734354B2 (ja) * 2013-06-26 2015-06-17 ファナック株式会社 工具クランプ装置
US9311915B2 (en) 2013-07-31 2016-04-12 Google Inc. Context-based speech recognition
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US9401148B2 (en) * 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
US9620145B2 (en) 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
US9715660B2 (en) 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
US8965112B1 (en) 2013-12-09 2015-02-24 Google Inc. Sequence transcription with deep neural networks
US9195656B2 (en) 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US20150228277A1 (en) 2014-02-11 2015-08-13 Malaspina Labs (Barbados), Inc. Voiced Sound Pattern Detection
US10102848B2 (en) 2014-02-28 2018-10-16 Google Llc Hotwords presentation framework
US9412358B2 (en) * 2014-05-13 2016-08-09 At&T Intellectual Property I, L.P. System and method for data-driven socially customized models for language generation
US9728185B2 (en) 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks
US20150364129A1 (en) 2014-06-17 2015-12-17 Google Inc. Language Identification
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
CN104168270B (zh) * 2014-07-31 2016-01-13 腾讯科技(深圳)有限公司 身份验证方法、服务器、客户端及系统
US9378731B2 (en) 2014-09-25 2016-06-28 Google Inc. Acoustic model training corpus selection
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification

Also Published As

Publication number Publication date
US20190385619A1 (en) 2019-12-19
US20180018973A1 (en) 2018-01-18
EP3345181B1 (en) 2019-01-09
CN108140386A (zh) 2018-06-08
US20180277124A1 (en) 2018-09-27
KR102109874B1 (ko) 2020-05-12
US11017784B2 (en) 2021-05-25
US10403291B2 (en) 2019-09-03
JP2019530888A (ja) 2019-10-24
EP3345181A1 (en) 2018-07-11
EP3373294B1 (en) 2019-12-18
EP3373294A1 (en) 2018-09-12
KR20180050365A (ko) 2018-05-14
WO2018013401A1 (en) 2018-01-18
CN108140386B (zh) 2021-11-23
RU2697736C1 (ru) 2019-08-19
US20210256981A1 (en) 2021-08-19
US11594230B2 (en) 2023-02-28

Similar Documents

Publication Publication Date Title
JP6561219B1 (ja) 話者照合
US10255922B1 (en) Speaker identification using a text-independent model and a text-dependent model
US10476872B2 (en) Joint speaker authentication and key phrase identification
US10446141B2 (en) Automatic speech recognition based on user feedback
KR20160011709A (ko) 지불 확인을 위한 방법, 장치 및 시스템
US11416593B2 (en) Electronic device, control method for electronic device, and control program for electronic device
JP4143541B2 (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
KR20230156145A (ko) 하이브리드 다국어 텍스트 의존형 및 텍스트 독립형 화자 검증
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
AU2019100034B4 (en) Improving automatic speech recognition based on user feedback

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190208

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190208

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190624

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190722

R150 Certificate of patent or registration of utility model

Ref document number: 6561219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250