JP7092953B2 - エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 - Google Patents

エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 Download PDF

Info

Publication number
JP7092953B2
JP7092953B2 JP2021564950A JP2021564950A JP7092953B2 JP 7092953 B2 JP7092953 B2 JP 7092953B2 JP 2021564950 A JP2021564950 A JP 2021564950A JP 2021564950 A JP2021564950 A JP 2021564950A JP 7092953 B2 JP7092953 B2 JP 7092953B2
Authority
JP
Japan
Prior art keywords
speech recognition
language
model
bias
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021564950A
Other languages
English (en)
Other versions
JP2022523883A (ja
Inventor
フー、キー
ジャン ブルギエ、アントワーヌ
エヌ. サイナス、ターラ
プラカーシュ プラバーバルカル、ロヒット
プンダック、ゴラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2022523883A publication Critical patent/JP2022523883A/ja
Application granted granted Critical
Publication of JP7092953B2 publication Critical patent/JP7092953B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Description

特許法第30条第2項適用 令和1年6月21日にウェブサイトのアドレス https://arxiv.org/abs/1906.09292にて発表
本開示は、エンドツーエンドモデルにおける多言語(クロスリンガル)音声認識のための音素(phoneme)ベースのコンテキスト化(文脈解析)に関する。
音声の文脈(コンテキスト)を認識することは、自動音声認識(ASR)システムの目標である。しかし、人が話す言葉は多種多様であり、アクセントや発音にも違いがあるので、音声の文脈を認識することは困難である。多くの場合、人が話す単語やフレーズの種類(タイプ)は、その人が置かれている文脈に応じて変化する。
文脈的(コンテクスチュアル)自動音声認識ASRは音声認識を、ユーザ自身のプレイリスト、連絡先、地理的な地名など、与えられた文脈(コンテキスト)に偏らせる(バイアスする)。文脈情報には、通常、認識すべき関連フレーズのリストが含まれており、このリストには、珍しいフレーズや、学習(トレーニング)ではあまり見られない外国語が含まれていることが多い。文脈バイアスを行うべく、従来の自動音声認識ASRシステムでは、文脈情報をn-gram重み付き有限状態変換器(WFST:weighted Finite State Transducer)を用いて、独立した文脈言語モデル(LM:Language Model)でモデル化し、その独立した文脈言語モデルLMをベースライン言語モデルLMと合成して、オンザフライ(OTF)再スコアリングを行うことがある。
米国特許出願公開第2016/104482号明細書
近年、エンドツーエンド(E2E)モデルが自動音声認識ASRに大きな期待を寄せており、従来のオンデバイスモデルと比較して、ワードエラーレート(WER)やレイテンシの指標(メトリックス)が改善されている。これらのE2Eモデルは、音響モデル(AM)、発音モデル(PM:Pronunciation Model)、および言語モデルLMを単一のネットワークに折り畳んで、音声とテキストの写像(スピーチツーテキストマッピング)を直接学習するものであり、音響モデルAM、発音モデルPM、および言語モデルLMを個別に有する従来のASRシステムと比較して、競争力のある結果を示している。代表的なE2Eモデルには、単語ベースのCTC(Connectionist temporal Classification)モデルと、RNN-T(リカレントニューラルネットワークトランスデューサ)モデルと、LAS(Listen, Attend, およびSpell)などの注意ベースモデル(アテンションベースモデル)とがある。E2Eモデルは、ビーム検索復号時(ビームサーチデコーディング時)に限られた数の認識候補を保持しているので、文脈的自動音声認識ASRはE2Eモデルにとって困難である。
本開示の一態様は、バイアス用語(biasing term)リストに存在する用語に音声認識結果をバイアスする(偏らせる)方法を提供する。この方法は、データ処理ハードウェアにおいて、第1言語のネイティブスピーカによって話される発話を符号化(エンコーディング)する音声データ(オーディオデータ)を受け取る工程と、データ処理ハードウェアにおいて、第1言語とは異なる第2言語の1つまたは複数の用語(terms)を備えているバイアス用語リストを受け取る工程とを備えている。本方法は、データ処理ハードウェアによって、音声認識モデルを用いて、音声データから得られた音響特徴を処理して、第1言語における語句(ワードピース(Wordpiece))と、対応する音素シーケンス(音素列)との両方に対する音声認識スコアを生成する工程も備えている。また、本方法は、データ処理ハードウェアによって、バイアス用語リスト内の1つまたは複数の用語に基づき、音素シーケンスに対する音声認識スコアを再スコアリングする工程を備えている。本方法はまた、データ処理ハードウェアによって、語句に対する音声認識スコアと、音素シーケンスに対する再スコアリングされた音声認識スコアとを用いて、発話に対する転写(トランスクリプション)を生成するための復号グラフ(デコーディンググラフ)を実行する工程を備えている。
本開示の実装は、以下のオプション機能のうちの1つまたは複数を備えていることができる。いくつかの実装では、音素シーケンスに対する音声認識スコアを再スコアリングする工程は、バイアスのかかった有限状態変換器(baiasing Finite State Transducer。バイアスFST)を使用して、音素シーケンスに対する音声認識スコアを再スコアリングする工程を備えている。これらの実装では、本方法は、データ処理ハードウェアによって、バイアス用語リスト内の各用語を、第2言語における対応する音素シーケンスにトークン化する工程と、データ処理ハードウェアによって、第2言語における各対応する音素シーケンスを、第1言語における対応する音素シーケンスに写像する工程と、データ処理ハードウェアによって、第1言語における各対応する音素シーケンスに基づき、バイアス有限状態変換器FSTを生成する工程と、を備えていることもできる。
いくつかの例では、音声認識モデルは、エンドツーエンドの語句-音素モデルを備えている。特定の例では、エンドツーエンドの語句-音素モデルは、リカレントニューラルネットワーク-変換器(RNN-T)を備えている。
いくつかの実装では、復号グラフの実行中に、復号グラフは、バイアス用語リスト内の1つまたは複数の用語のいずれかを有利にするように転写(トランスクリプション)をバイアスする。音声認識モデルは、第1言語のみの学習発話で学習されてもよい。さらに、バイアス用語リスト内のいずれの用語も、音声認識モデルの学習に使用されなくてもよい。
データ処理ハードウェアおよび音声認識モデルは、ユーザ装置上、またはユーザ装置に通信するリモート計算装置上に存在してもよい。データ処理ハードウェアおよび音声認識モデルがリモート計算装置上に存在する場合、発話を符号化する音声データを受け取る工程は、ユーザ装置から、発話を符号化する音声データを受け取る工程を備えてもよい。
本開示の別の態様は、バイアス用語リストに存在する用語に音声認識結果を偏らせるシステムを提供する。このシステムは、データ処理ハードウェアと、データ処理ハードウェアに通信するメモリハードウェアであって、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実行させる命令を格納するメモリハードウェアとを備えている。この動作は、第1言語のネイティブスピーカによって話された発話を符号化する音声データを受け取る工程と、第1言語とは異なる第2言語の1つまたは複数の用語を備えているバイアス用語リストを受け取る工程と、音声認識モデルを使用して、音声データから得られた音響特徴を処理して、第1言語の語句と、対応する音素シーケンスとの両方に対する音声認識スコアを生成する工程とを備えている。また、動作は、バイアス用語リスト内の1つまたは複数の用語に基づき、音素シーケンスに対する音声認識スコアを再スコアリングする工程と、語句に対する音声認識スコアと、音素シーケンスに対する再スコアリングされた音声認識スコアとを使用して、復号グラフを実行して、発話に対する転写を生成する工程とを備えている。
この態様は、以下のオプション機能の1つまたは複数を備えていることができる。いくつかの実装において、音素シーケンスに対する音声認識スコアを再スコアリングする工程は、バイアスのかかった有限状態変換器(FST)を使用して、音素シーケンスに対する音声認識スコアを再スコアリングする工程を備えている。これらの実装では、動作は、バイアス用語リスト内の各用語を第2言語の対応する音素シーケンスにトークン化する工程と、第2言語の各対応する音素シーケンスを第1言語の対応する音素シーケンスに写像する工程と、第1言語の各対応する音素シーケンスに基づきバイアス有限状態変換器FSTを生成する工程と、を備えていることもできる。
いくつかの例では、音声認識モデルは、エンドツーエンドの語句-音素モデルを備えている。特定の例では、エンドツーエンドの語句-音素モデルは、リカレントニューラルネットワーク-変換器(RNN-T)を備えている。
いくつかの実装では、復号グラフの実行中に、復号グラフは、バイアス用語リスト内の1つまたは複数の用語のいずれかに有利になるように転写(トランスクリプション)をバイアスする。音声認識モデルは、第1言語のみの学習発話で学習されてもよい。さらに、バイアス用語リスト内のいずれの用語も、音声認識モデルの学習に使用されなくてもよい。
データ処理ハードウェアおよび音声認識モデルは、ユーザ装置上、またはユーザ装置に通信するリモート計算装置上に存在してもよい。データ処理ハードウェアおよび音声認識モデルがリモート計算装置上に存在する場合、発話を符号化する音声データを受け取る工程は、ユーザ装置から、発話を符号化する音声データを受け取る工程を備えてもよい。
本開示の1つまたは複数の実装の詳細は、添付の図面および以下の説明に記載されている。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。
バイアス用語リストに存在する用語に向けて音声認識結果をバイアスする音声認識モデルを備えている、自動音声認識システムの例を示す概略図。 図1の音声認識モデルのアーキテクチャの一例を示す概略図。 例示的なバイアス有限状態変換器の模式図。 語句と、対応する音素シーケンスとに基づく、復号グラフの例の概略図。 バイアス用語リストに存在する用語に向けて音声認識結果をバイアスする方法のための動作の、例示的な配置のフローチャート。 本明細書に記載されたシステムおよび方法を実施するべく使用することができる、例示的な計算装置の概略図。
様々な図面における同様の参照記号は、同様の要素を示す。
本明細書の実装は、他の動作の中でも、外国語音素セットを自動音声認識ASRモデルの言語(例えば、アメリカ英語)の音素セットに写像(マッピング)して、音素レベルでバイアスをかける有限状態変換器(FST)において外国語のモデリングを可能にすることで、外国語を認識する文脈的(コンテクチュアル)自動音声認識(ASR)モデルを強化することに向けられている。さらなる実装は、自動音声認識ASRモデルが、モデリング空間における自動音声認識ASRモデルの言語(例えば、アメリカ英語)のための語句(ワードピース)および音素を備えている語句(ワードピース)-音素モデルを組み込むことに向けられている。例として、文脈的自動音声認識ASRモデルは、語句-音素モデルおよび文脈的バイアス有限状態変換器FSTを使用して音声発話(スポークン発話)を復号(デコード)し、発話の転写を文脈的に1つまたは複数の外国語に偏らせるように構成される。たとえば、アメリカ英語を話す人が、クレテイユ(Creteil。Creのeの上にアクソンテグュが付されている)という単語がフランス語である、「クレテイユまでの道順」(Directions to Creteil)という発話をすると、文脈的自動音声認識ASRモデルは、アメリカ英語以外の言語の単語で学習されていないにもかかわらず、語句-音素モデルと文脈的バイアス有限状態変換器FSTを利用して、外国語であるクレテイユ(Creteil)を認識するように転写を偏らせることができる。この例では、外国語のクレテイユ(Creteil)は、現在の文脈に基づきバイアスをかけた単語リストに含まれる複数のフランス語のうちの1つである可能性がある。例えば、ユーザが現在フランスにいて車を運転している場合、現在の文脈(コンテキスト)は、フランスの都市名/地域名が関連していることを示している可能性があり、したがって、文脈的(コンテキストに基づく)自動音声認識ASRモデルは、これらのフランスの都市名/地域名に偏っている(バイアスしている)可能性がある。
図1を参照すると、いくつかの実装では、強化(エンハンスト)された自動音声認識ASRシステム100は、外国語の単語(ワード)を認識するように強化されている。示された例では、自動音声認識ASRシステム100は、ユーザ110のユーザ装置102上、および/または、ユーザ装置に通信するリモート計算装置(リモート計算装置)201(例えば、クラウド計算環境で実行される分散システムの1つまたは複数のサーバ)上に存在する。ユーザ装置102は、モバイル計算装置(例えば、スマートフォン)として描かれているが、ユーザ装置102は、限定されないが、タブレットデバイス、ラップトップ/デスクトップコンピュータ、ウェアラブルデバイス、デジタルアシスタントデバイス、スマートスピーカ/ディスプレイ、スマートアプライアンス、自動車インフォテイメントシステム、またはIoT(インターネットオブシングス)デバイスなどの任意のタイプの計算装置に対応してもよい。
ユーザ装置102は音声サブシステム103を備えており、音声サブシステム103は、ユーザ110によって話された発話106を受け取り(例えば、ユーザ装置102は、話された発話106を記録するための1つまたは複数のマイクロフォンを備えてもよい)、発話106を、自動音声認識ASRシステム100によって処理可能なパラメータ化された入力音響フレーム104に関連する対応するデジタルフォーマットに変換するように構成されている。示されている例では、ユーザは「クレテイユまでの道順」(Directions to Creteil)というフレーズに対するそれぞれの発話106を話し、音声サブシステム103は発話106を、自動音声認識ASRシステム100に入力するための対応する音響フレーム104に変換する。例えば、音響フレーム104は、短い、例えば25msのウィンドウで計算され、数ミリ秒、例えば10ミリ秒ごとにシフトされた、それぞれが80次元のlog-Mel特徴を備えている一連(シリーズ)のパラメータ化された入力音響フレームであってもよい。
その後、自動音声認識ASRシステム100は、入力として、発話106に対応する音響フレーム104を受け取り、出力として、発話106に対応する転写(トランスクリプション。例えば、認識結果/認識仮説)116を生成/予測する。図示の例では、ユーザ装置102および/またはリモート計算装置201は、ユーザ装置102のユーザインタフェース136において、発話106の転写116の表現(レプレゼンテーション)をユーザ110に提示するように構成されたユーザインタフェース生成システム107も実行する。いくつかの例では、ユーザインタフェース136は、ユーザ装置102に通信しているスクリーン上に表示されてもよい。
いくつかの構成では、自動音声認識ASRシステム100から出力された転写116は、例えば、ユーザ装置102またはリモート計算装置201上で実行される自然言語理解(NLU)モジュールによって、ユーザコマンドを実行するべく処理される。さらに、または代替として、音声合成(テキストツースピーチ)システム(例えば、ユーザ装置102またはリモート計算装置201の任意の組み合わせ上で実行される)は、別のデバイスによる可聴出力のために、転写を合成音声に変換してもよい。例えば、元の発話106は、ユーザ110が友人に送信しているメッセージに対応していてもよく、その場合、転写116は、元の発話106で伝えられたメッセージを聞くべく、友人への可聴出力のために合成音声に変換される。
強化された自動音声認識ASRシステム100は、バイアス構成要素115と、語句-音素モデル200およびバイアス有限状態変換器FST300を有する音声認識装置150と、学習構成要素114とを備えている。バイアス構成要素115は、バイアス有限状態変換器FST300を生成するように構成され、学習構成要素114は、音素レベルで外国語を再スコアリングすることで文脈的バイアスを実行するように、語句-音素モデル200およびバイアス有限状態変換器FST300を学習するように構成される。明らかになるように、音声認識装置150は、学習された語句-音素モデル200およびバイアス有限状態変換器FST300を使用して、外国語の単語に向かってバイアスをかけることで、文脈的な音声認識を実行する。
学習構成要素114は、単一の言語、例えば、アメリカ英語のテキストのコーパスを有する辞書(レキシコン、語彙集)117と、頻度チェッカ118と、モデル学習器120とを備えている。頻度(フリーケンシ)チェッカ118は、コーパスのテキストの中での単一言語の用語の相対的な頻度を決定するように構成され、モデル学習器120は、テキストコーパスの用語の語句と音素の両方に基づき語句-音素モデル200を学習し、モデリング空間に語句と音素の両方を含めるように構成される。いくつかの例では、語句-音素モデル200は、単一の言語のみ、例えば、アメリカ英語のみからの語句-音素セットを含む一方で、他の言語からの語句-音素セットを除外した学習データを用いて、モデル学習器120によってエンドツーエンドで学習される。モデル学習器120は、単語頻度ベースのサンプリング戦略を採用して、辞書117を用いて、稀な単語をターゲットシーケンスの音素にランダムにトークン化してもよい。段階(ステージ)Aにおいて、学習構成要素114は、辞書117からのテキストを使用して、語句-音素モデル200を学習する。
いくつかの例では、辞書117は約50万個の単語を含み、その頻度は音素シーケンスを使用するタイミングを決定するべく使用される。辞書117は、学習データからの単語とその頻度を含み、同音異義語(ホモフォン。例えば、「flower」(花)と「flour」(小麦粉))、同形異義語(ホモグラフ。例えば、動詞または形容詞としての「live」(生きる、生の))、および発音変種(プロナンシエイションバリエント。例えば、「either」(イーザーまたはアイザー))を除去してトリミングされる。このように、辞書117には、綴りから発音へまたはその逆の場合に、曖昧さがない項目のみが含まれている。
いくつかの実装では、モデル学習器(トレーナ)120は、学習入力発話を25msのフレームに分割し、10msのレート(速度)で窓を開けシフトする。各フレームで80次元のlog-Mel特徴が抽出され、現在のフレームと左隣の2つのフレームが連結されて240次元のlog-Mel特徴が生成される。これらの特徴は、その後、30msのレートでダウンサンプリングされる。
いくつかの実装では、語句-音素モデル200は、シーケンスツーシーケンスモデルを備えている。いくつかの例では、語句-音素モデル200は、RNN-T(リカレントニューラルネットワーク-トランスデューサ)シーケンスツーシーケンスモデルアーキテクチャを備えている。他の例では、語句-音素モデル200は、リッスン、アテンド、スペルのシーケンスツーシーケンスモデルアーキテクチャを備えている。
語句-音素モデル200は、学習において少数の語句を選択的に音素に分解することができる点で、語句のみのモデルとは異なる。このモデルの出力は、記号セット(シンボルセット)が語句記号と音素記号との組合わせである、単一のソフトマックスである。単語の音素シーケンスを得るためには、発音辞書(レキシコン)が用いられる。音素は、希少な単語の認識に強みを発揮するので、これらの単語はより頻繁に音素として提示される。ターゲット文では、i番目の単語が確率p(i)=p・min(T/(c(i)),1.0)でランダムに音素として提示される。ここでpとTは定数であり、c(i)は、学習コーパス全体での単語の出現回数を表す整数である。出現回数がT回以下の単語は、確率pで音素として提示される。T回よりも多く出現する単語については、頻度が高いほど音素として提示されないことになる。いくつかの例では、Tは10に等しく、pは0.5に等しくなっているが、他の例では異なる値を選択することができる。なお、単語と音素のどちらを使用するかの決定は、勾配のイテレーションごとにランダムに行われるので、ある文は、異なるエポックで異なるターゲットシーケンスを持つ可能性がある。いくつかの実装では、音素は文脈に依存しない音素である。
図2を参照すると、語句-音素モデル200は、インタラクティブアプリケーションに関連付けられたレイテンシ制約に準拠したエンドツーエンド(E2E)のRNN-Tモデル200を備えていることができる。RNN-Tモデル200は、小さな計算フットプリントを提供し、従来の自動音声認識ASRアーキテクチャよりも少ないメモリ要件を利用するので、RNN-Tモデルアーキテクチャは、ユーザ装置102上で完全に音声認識を実行するのに適している(例えば、リモートサーバとの通信は必要とされない)。RNN-Tモデル200は、符号化器ネットワーク(エンコーダネットワーク)210と、予測ネットワーク220と、結合ネットワーク(ジョイントネットワーク)230とを備えている。符号化器ネットワーク210は、従来の自動音声認識ASRシステムにおける音響モデル(AM)にほぼ類似しており、積層されたLSTM(Long Short-Term Memory)層のリカレントネットワークを備えている。例えば符号化器は、x∈R(Rは白抜き文字)であるd次元特徴ベクトル(例えば、音響フレーム104(図1))のシーケンスx=(x,x,・・・ ,x)を読み込み、各時間ステップで高次の特徴表現を生成する。この高次の特徴表現は、h enc,・・・,h encのように示される。
同様に、予測ネットワーク220もLSTMネットワークであり、言語モデル(LM)のように、これまでに最終ソフトマックス層240が出力した非空白記号のシーケンスy,・・・,yui-1を処理して、高密度の表現Puiにする。最後に、RNN-Tモデルのアーキテクチャでは、符号化器ネットワーク210および予測ネットワーク220によって生成された表現同士は、結合ネットワーク230によって結合される。結合ネットワーク230は、次の出力記号に対する分布である予測P(y|x,・・・,xti,y,・・・,yui-1)を行う。別の言い方をすると、結合ネットワーク230は、各出力ステップ(例えば、時間ステップ)において、可能性のある音声認識仮説に対する確率分布を生成する。ここで、「可能性のある音声認識仮説」(ポシブルスピーチレコグニションヒポセシス)は、指定された自然言語の記号/文字(キャラクタ)をそれぞれが表す出力ラベルの第1セットと、指定された自然言語の音素をそれぞれが表す出力ラベルの第2セットとに対応する。したがって、結合ネットワーク230は、所定の出力ラベルのセットのそれぞれの発生の可能性(ライクリフッドオブオカレンス)を示す一連の値を出力することができる。この値のセットは、ベクトルとすることができ、出力ラベルのセットに対する確率分布を示すことができる。いくつかのケースでは、出力ラベルは、第1セットでは書記素(graphemes。例えば、個々の文字、および潜在的には句読点および他の記号)であり、第2セットでは音素であるが、出力ラベルのセットはそのように限定されない。結合ネットワーク230の出力分布は、異なる出力ラベル同士のそれぞれに対する事後確率値(ポステリアプロバビリティバリュー)を備えていることができる。したがって、異なる書記素または他の記号を表す100個の異なる出力ラベルがある場合、結合ネットワーク230の出力yは、各出力ラベルに対して1つずつになるように、100個の異なる確率値を備えていることができる。次に、確率分布は、転写116を決定するためのビーム探索プロセス(例えば、ソフトマックス層240による)において、正書法の候補要素(candidate orthgraphic element)(例えば、書記素、語句、単語、音素)を選択し、スコアを割り当てるべく使用することができる。
ソフトマックス層240は、対応する出力ステップでモデル200によって予測される次の出力記号として、分布内で最も高い確率を持つ出力ラベル/記号を選択するべく、任意の技術を採用することができる。このようにして、RNN-Tモデル200は条件付き独立性仮定を行わず、むしろ各記号の予測は、音響だけでなくこれまでに出力されたラベルのシーケンスにも条件付けられている。RNN-Tモデル200は、出力記号が将来の音響フレーム104から独立していると仮定しており、これによって、RNN-Tモデルをストリーミング方式で採用することができる。
いくつかの例では、RNN-Tモデル200の符号化器ネットワーク210は、8個の2048次元LSTM層で構成され、それぞれの後に640次元の投影(プロジェクション)層が続く。モデルのレイテンシを低減するべく、符号化器の第2LSTM層の後に、低減(リダクション)係数が2の時間低減層を挿入してもよい。また、予測ネットワーク220は、2個の2048次元LSTM層を有していてもよく、それぞれの後に640次元の投影層が続いている。最後に、結合ネットワーク230は、640個の隠れユニットと、それの後に続く4096個のソフトマックス出力も有していてもよい。具体的には、出力ユニットは、41個の文脈非依存音素を含み、残りは語句(ワードピース)である。
図1に戻って、自動音声認識ASRシステム100のバイアス構成要素115は、バイアスされるべき外国語のバイアス用語リスト105からの用語を外国語音素にトークン化するように構成されたトークン化器121と、トークン化された用語の外国語音素を単一言語、例えば、アメリカ英語に関連する類似の音素に写像(マッピング)するように構成された音素写像器(マッパー)123とを備えている。音素写像器123は、人間が生成したソース言語からターゲット言語への音素ペアを備えている辞書によって表されてもよく、X-SAMPA音素セットはすべての言語に使用される。注目すべきは、音素写像器123は、語句-音素モデル200が、単一の言語、例えば、アメリカ英語に関連する音素のみを備えている場合に有用である。
例えば、ナビゲーションクエリ「クレテイユまでの道順」(directions to Creteil)の発話106と、フランス語の単語「クレテイユ」(Creteil)がバイアス用語リスト105内にあるという仮定が与えられた場合、「クレテイユ」(Creteil)は、まずトークン化器121によって「k R e t E j」としてフランス語の音素にトークン化され、次に音素写像器123によって「k r¥ E t E j」として英語の音素に写像されて、音素レベルのバイアス有限状態変換器FST300の生成に使用される。語句-音素モデル200が単一の言語、例えば、アメリカ英語からの音素のみをモデリングユニットとして備えているので、音素写像は使用される。
本開示は、どのような用語がバイアス用語リスト105に含まれるか、または用語がバイアス用語リスト105に含まれるようにどのように選択されるかに限定されない。バイアス用語リスト105は、関連する文脈(コンテキスト)に基づき、動的に更新されてもよい。例えば、文脈情報は、ユーザ装置102上でどのようなアプリケーションが開いていて使用中であるか、ユーザの連絡先リストからの連絡先名、ユーザ110のメディアライブラリ内のアーティスト名/アルバム名、ユーザ110の位置などを示してもよい。例えば、ユーザ110はアメリカ英語を話すことができ、ナビゲーション/地図アプリケーションがユーザ装置102上で開かれていることと、ユーザ110の場所がフランスであることとを示す文脈情報に基づき、バイアス用語リスト105は、フランスの都市名および/または地域名に関連する用語を備えていることができる。
また、バイアス構成要素115は、音素レベルのバイアス有限状態変換器FST生成器125を備えており、音素レベルのバイアス有限状態変換器FST生成器125は、バイアス用語リスト105内の外国語(例えば、フランス語)用語のそれぞれを表す母語(例えば、アメリカ英語)の音素シーケンスに基づき、バイアス有限状態変換器FST300を生成するように構成されている。いくつかの例では、バイアス有限状態変換器FST生成器125は、音素レベルで重みを割り当てるべく押す重み(weight pushing)を使用し、過剰バイアスを避けるべく失敗アーク(failure arcs)を追加する。いくつかの実装では、復号化において、すべてのバイアス語を使用して、各アーク(arc)が同じ重みを持つ文脈的有限状態変換器FSTを構築する。これらの重みは、異なるモデルに対して独立して、調整することができる。
音声認識装置150は、バイアス構成要素115によって生成されたバイアス有限状態変換器FST300を使用して、語句-音素モデル200によって出力された音素を再スコアリングし、一方、復号グラフ400は、バイアス有限状態変換器FST300からの再スコアリングされた音素と、語句-音素モデル200によって出力された語句とを消費して、転写116に含めるための語句を生成する。復号グラフ400は、発話106に対する1つまたは複数の転写候補を決定するビーム探索復号処理に対応してもよい。
いくつかの例では、語句-音素モデル200による復号中に、バイアス有限状態変換器FST300は、語句-音素モデル200によって出力された英語音素記号を消費し、外国語辞書および音素写像を使用して語句を生成してもよく、すなわち「k r¥ E t E j」→クレテイユ(Creteil)である。復号グラフ400によって出力された語句は、連結器(コンカチネータ)134によって、ユーザ装置102の他の構成要素に出力される転写116の単語(ワード)に連結され、ここでユーザ装置102の他の構成要素は、例えば、ユーザインタフェース生成システム107や、他の自然言語処理構成要素である。
図3は、音素レベルでの単語「クレテイユ」(Creteil)に対する、例示的なバイアス有限状態変換器FST300を示す。そして、このバイアス有限状態変換器FSTは、以下の式(1)を用いて、語句-音素モデルの音素出力をオンザフライで再スコアリングするべく使用される。
Figure 0007092953000001
式(1)において、xは音響観測値であり、yはサブ単語(サブワード)ユニットシーケンスであり、PはE2Eモデルからの確率推定であり、Pはバイアス再スコアリング確率である。λは、再スコアリングにおける文脈言語モデルLMの重みを制御する。
図1に戻ると、語句-音素モデル200は、モデリングユニットとして語句だけでなく音素も組み込み、バイアス用語リスト105内の外国語用語に向けた文脈上のバイアスのためにバイアス有限状態変換器FST300を使用する。すべての音素モデルとは対照的に、音素と語句の両方をモデル化する語句-音素モデル200は、通常の単語(レギュラーワード)を認識する際の回帰を緩和する。
語句-音素モデル200が段階Aで学習(トレーニング)された後、段階Bで、ユーザ110は、発話106「クレテイユへの道順」(directinos to Creteil)をユーザ装置102に話す。段階Cにおいて、音声サブシステム103は、例えばマイクロフォンを使用して、発話を受け取り、受け取った発話を、一連のパラメータ化された入力音響フレーム104に変換する。例えば、パラメータ化された入力音響フレーム104はそれぞれ、80次元のlog-Mel特徴を備えてもよく、ここで80次元のlog-Mel特徴は、短い、例えば25msのウィンドウで計算されるとともに、数ミリ秒ごと、例えば10ミリ秒ごとにシフトされる。
段階Dにおいて、自動音声認識ASRシステム100は、上述したようにパラメータ化された入力音響フレームを処理し、文脈的にバイアスされた転写116、すなわちテキスト「クレテイユ(Creteil)への道順」を出力する。段階Eにおいて、ユーザインタフェース生成システム107は、転写の表現を備えているグラフィカルユーザインタフェース136のためのコンピュータコードを生成し、段階Fにおいて、ユーザインタフェース136に表示するべく、そのコンピュータコードをモバイル装置(102)に送信する。
自動音声認識ASRシステム100によって実行される追加の詳細は、段階Dの期間内に発生する可能性がある。例えば、段階D′の期間内に、バイアス構成要素115は、用語「クレテイユ」(Creteil)を備えているバイアス用語リスト105の受け取りに基づき、バイアス有限状態変換器FST300を生成する。段階D′′において、音声認識装置150の学習された語句-音素モデル200は、ユーザ110の発話106に基づき、語句と、対応する音素シーケンスとの両方に対する音声認識スコアを生成し、音素に対する音声認識スコアは、バイアス有限状態変換器FST300によって再スコアリングおよび再写像され、語句と、再スコアリング/再写像された音素とは、段階D′′において、転写116で出力するための語句を生成するべく、復号グラフ400によって消費される。復号グラフ400および連結器134は、文脈的にバイアスされた転写116を生成し、出力用の転写を、例えば、ユーザ装置102のGUI136に表示するべくユーザインタフェース生成システム107に提供する。注目すべきは、バイアス用語リスト105内の用語のいずれかに対応する音素シーケンスをバイアス有限状態変換器FST300が再スコアリングした後に、復号グラフ400は実行されることである。このように、バイアス用語リスト105内の外国語に対応する低い音声認識スコアを有する語句は、早々には剪定(prune)されない。
テスト中、語句-音素モデル200およびバイアス有限状態変換器FST300を採用して認識結果をバイアス用語リスト105内の用語に向けて文脈的にバイアスする音声認識装置150は、書記素のみのバイアスモデルと語句のみのバイアスモデルとの両方よりも顕著に優れたWER率で、外国語単語の認識に成功することが示された。また、語句-音素モデル200は、モデルのスケーラビリティの問題なく、他の外国語に直接適用してバイアスをかけることができるという利点がある。
図4は、音声認識装置150が音声認識結果を文脈的にバイアスするべく実行する、例示的な復号グラフ400を示す。具体的には、例示的な復号グラフ400は、英語のクロスリンガル発音「k r¥ E S」を有する単語「クレイシュ」(creche。creのeの上にアクソングラーヴが付されている。英語では「デイケア」(daycare))と、発音「k r¥ E t E j」を有する単語「クレテイユ」(Creteil。フランスの都市)とに対する復号を描いている。なお、わかりやすくするべく、「0」という状態の語句はほとんど省略している。
復号グラフ400は、語句-音素モデル200から出力された音素と語句の両方を入力として受け取るように構成されている。音声復号化処理は、復号グラフ(デコーディンググラフ)400を検索して、出力として単語を生成する。図示の例では、復号有限状態変換器FSTは、状態0を中心とした語句ループを有するが、発音有限状態変換器FST、すなわち状態1~14を有し、それら状態は音素を入力とし、対応する語句を出力とする接頭辞(prefix)ツリーを備えている。発音有限状態変換器FSTは、すべてのバイアス用語について、バイアス時に使用された発音と同じ発音を用いて構築される。常に語句である最終出力記号は、(例えば、図1の連結器134によって)単語(ワード)に連結される。
図4の復号グラフ400は、全体的な復号戦略に2つの追加の改善をもたらす。第1に、復号グラフ400の性質を考慮すると、同じコストで同じ入力を消費するが、同じ出力を持たないいくつかの仮説が存在する可能性がある。例えば、状態7で終了する仮説は、状態9で終了する仮説と同じコストを持つことになる。このため、すべてが等価な多くの仮説によって、ビームが埋め尽くされてしまうという問題が生じる。本明細書に記載されている強化された自動音声認識ASR技術は、このように、状態9で終わる仮説のみを保持することで、ビームを刈り取る(pruneする)。
第2改善点は、結合(マージ)された経路(path)に関する。学習と復号との性質を考慮すると、与えられた単語は、直接語句で出力されるか、または、音素から語句に変換される。同等の仮説が追跡され、それらの確率を加算することで再結合され、最も可能性の高い仮説に合計確率を割り当て、他のものをビームから削除する。
語句-音素モデル200のバイアスの結果を、語句のみのモデルと、書記素のみのモデルとに対して比較するテストが行われた。後者の2つのモデルは語句-音素モデル200と同じ構造を有しており、違いは、書記素モデルが出力として76個の書記素を有している一方で、語句モデルが4096個の語句(ワードピース)を有することである。この違いによって、書記素モデルと語句モデルのパラメータは、それぞれ約117M個と120M個になる。なお、この2つのモデルの出力記号は英語であり、全英語データを用いて学習されている。これらの2つのモデルでは、フランス語のバイアス単語(ワード)の英語音訳版を使用して、書記素レベルまたは語句レベルのみでバイアスが行われる。
一般的に、テストでは、3つのモデルはバイアスをかけなくても同じように動作することが示された。これは、地名がフランス語であり、それらが学習では見られたことがないためであり、すなわち、ほぼ100%の単語OOV率である。さらに、すべてのモデルは、バイアスをかけることで大幅に性能が向上する。バイアスをかけない場合と比較して、WERの減少が顕著である。
異なるバイアス戦略を比較すると、語句-音素モデル200が最も優れた性能を示し、書記素モデルおよび語句モデルの両方よりも有意に良好に動作した。語句-音素モデルの優れた性能は、OOVの単語に対する音素のロバスト性に起因する。語句-音素モデル200は、モデリングユニットとして語句と音素の両方を備えているので、音素有限状態変換器FSTに加えて語句有限状態変換器FSTを構築することで、音素ベースのバイアスに加えて語句バイアスを実行することができる。この語句単位の有限状態変換器FSTを追加することで、WERがさらに減少することが実証されており、語句単位のバイアスと音素単位のバイアスとは相互に補完し合う関係にあることがわかる。音素と語句のバイアスに使用する重みは、同じでもよいし、異なっていてもよい。観察によると、長いユニットをマッチングする際のスパース性の問題から、語句単位の方が、書記素(grapheme)単位よりも性能が高い場合がある。
テストの結果、バイアスは外国の地名を認識するのに役立つことがわかった。例えば、バイアスをかけると、正しいフランス語の単語(word)が生成され、逆にバイアスをかけないと、音韻的には似ているが間違った英語の単語が生成される。誤りは、フランス語の音韻的に類似した単語が原因であることが多い。
バイアスなしのシナリオでの回帰がないことをより確実にするべく、通常の英語の発話の復号(デコーディング)で3つのモデルを比較した。復号では、バイアスフレーズの空リストを使用することで、バイアスメカニズムをオフにした。テストの結果、語句モデルは、書記素(grapheme)モデルよりも優れた性能を示すことがわかった。語句-音素モデルは、書記素モデルよりもやや良好な結果となったが、これは学習時に語句の頻度が高かったことに起因していると考えられる。語句モデルと比較して、語句-音素モデルは非常にわずかに劣化している。これは、モデリングに電話を導入したことによる。回帰性を向上させるための潜在的なアプローチとしては、語句ベースの再スコアリングと同様に、再スコアリングに音素の英語外部言語モデルを組み込むことが考えられる。しかし、全音素(all-phoneme)モデルに比べて、回帰が著しく小さくなる。
図5は、バイアス用語リスト内の外国語用語に向かって転写を文脈的にバイアスする方法の動作の例示的な配置のフローチャートである。動作502において、方法500は、第1言語のネイティブスピーカ(110)によって話される発話106を符号化(エンコーディング)する音声データを受け取る工程を備えている。発話106は、第1言語とは異なる第2言語の1つまたは複数の外国語を備えてもよい。動作504において、方法500は、第2言語の1つまたは複数の用語を備えているバイアス用語リスト105を受け取る工程を備えている。
動作506において、方法500は、音声認識モデル200を使用して、音声データから導出された音響特徴(104)を処理して、第1言語における語句と、対応する音素シーケンスとの両方に対する音声認識スコアを生成する工程も備えている。動作508において、方法500は、バイアス用語リスト内の1つまたは複数の用語に基づき、音素シーケンスに対する音声認識スコアを再スコアリングする工程も備えている。動作506において、方法500は、語句に対する音声認識スコアと、音素シーケンスに対する再スコアリングされた音声認識スコアとを用いて、復号グラフ(デコーディンググラフ)400を実行して、発話106に対する転写(トランスクリプション)116を生成する工程を備えている。
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、計算装置にタスクを実行させるコンピュータソフトウェアを指すことがある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。アプリケーションの例としては、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワープロアプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、ゲームアプリケーションなどがあるが、これらに限定されない。
非一過性メモリは、計算装置が使用するためのプログラム(例えば、命令のシーケンス)またはデータ(例えば、プログラムの状態情報)を一時的または永久的に保存するべく使用される物理デバイスであってもよい。非一時的メモリは、揮発性および/または不揮発性のアドレス可能な半導体メモリであってもよい。不揮発性メモリの例としては、フラッシュメモリ、リードオンリーメモリ(ROM)/プログラマブルリードオンリーメモリ(PROM)/消去可能プログラマブルリードオンリーメモリ(EPROM)/電子的消去可能プログラマブルリードオンリーメモリ(EEPROM)(例えば、ブートプログラムなどのファームウェアに典型的に使用される)などがあるが、これらに限定されない。揮発性メモリの例としては、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、フェイズチェンジメモリ(PCM)のほか、ディスクやテープなどが挙げられるが、これらに限定されるものではない。
図6は、本書で説明したシステムおよび方法を実施するべく使用することができる例示的な計算装置600の概略図である。計算装置600は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。ここに示されている構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものであることを意図しており、本書に記載および/または請求されている発明の実施を制限することを意図していない。
計算装置600は、プロセッサ610と、メモリ620と、記憶装置(ストレージデバイス)630と、メモリ620および高速拡張ポート650に接続する高速インタフェース/コントローラ640と、および低速バス670および記憶装置(ストレージデバイス)630に接続する低速インタフェース/コントローラ660とを備えている。構成要素610、620、630、640、650、660のそれぞれは、様々なバスを用いて相互に接続されており、共通のマザーボードに搭載されていてもよいし、適宜他の態様で搭載されていてもよい。プロセッサ610は、高速インタフェース640に結合されたディスプレイ680などの外部入出力デバイスにグラフィカルユーザインタフェース(GUI)のためのグラフィカル情報を表示するべく、メモリ620または記憶装置630に格納された命令を備えている、計算装置600内で実行するための命令を処理することができる。他の実装では、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリの種類とともに、適宜使用されてもよい。また、複数の計算装置600が接続され、各デバイスが必要な動作の一部を提供してもよい(例えば、サーババンク、ブレードサーバ群、またはマルチプロセッサシステムとして)。
メモリ620は、計算装置600内の情報を非一時的に格納する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)であってもよい。不揮発性メモリ620は、計算装置600による使用のために、プログラム(例えば、命令のシーケンス)またはデータ(例えば、プログラム状態情報)を一時的または永久的に格納するべく使用される物理デバイスであってもよい。不揮発性メモリの例には、フラッシュメモリおよびリードオンリーメモリ(ROM)/プログラマブルリードオンリーメモリ(PROM)/消去可能プログラマブルリードオンリーメモリ(EPROM)/電子的消去可能プログラマブルリードオンリーメモリ(EEPROM)(例えば、ブートプログラムなどのファームウェアに典型的に使用される)が含まれるが、これらに限定されない。揮発性メモリの例としては、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、フェイズチェンジメモリ(PCM)のほか、ディスクやテープなどが挙げられるが、これらに限定されるものではない。
記憶装置630は、計算装置600に大容量記憶を提供することができる。いくつかの実施態様において、記憶装置630は、コンピュータ可読媒体である。様々な異なる実装において、記憶装置(ストレージデバイス)630は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の類似のソリッドステートメモリデバイス、またはストレージエリアネットワークまたは他の構成のデバイスを備えている、デバイスのアレイであってもよい。追加の実装では、コンピュータプログラム製品が、情報キャリアに有形的に具現化される。コンピュータプログラム製品は、実行されると、上述したような1つまたは複数の方法を実行する命令を備えている。情報キャリア(情報担体)は、メモリ620、記憶装置630、またはプロセッサ610上のメモリなどの、コンピュータまたは機械可読媒体である。
高速コントローラ640は、計算装置600のための帯域幅集中型の動作を管理し、低速コントローラ660は、より低い帯域幅集中型の動作を管理する。このような職務の割り当ては、例示的なものに過ぎない。いくつかの実装では、高速コントローラ640は、メモリ620と、ディスプレイ680(例えば、グラフィックプロセッサまたはアクセラレータを介して)と、および、様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート650とに結合される。いくつかの実装では、低速コントローラ660は、記憶装置630および低速拡張ポート690に結合される。様々な通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット(登録商標))を備えてもよい低速拡張ポート690は、キーボード、ポインティングデバイス、スキャナなどの1つまたは複数の入出力デバイスに、またはスイッチやルータなどのネットワークデバイスに、例えばネットワークアダプタを介して結合されてもよい。
計算装置600は、図に示すように、いくつかの異なる形態で実装されてもよい。例えば、計算装置は、標準的なサーバ600aまたはそのようなサーバ600aのグループにおける複数倍として、ラップトップコンピュータ600bとして、またはラックサーバシステム600cの一部として、実装されてもよい。
本明細書に記載されたシステムおよび技術の様々な実装は、デジタル電子および/または光学回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実装は、プログラム可能なシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムでの実装を備えていることができ、ここでプログラム可能なシステムは、データおよび命令を記憶装置から受け取り、データおよび命令を記憶装置に送信するように記憶装置に結合された、特殊目的または汎用の少なくとも1つのプログラム可能なプロセッサと、少なくとも1つの入力装置と、および少なくとも1つの出力装置とを備えている。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサのための機械命令を含み、高レベルの手続き型および/またはオブジェクト指向のプログラミング言語、および/またはアセンブリ/機械言語で実装することができる。本明細書において、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を含んでいる、機械命令および/またはデータをプログラマブルプロセッサに提供するべく使用される任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置(アパレイタス)および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味する。「機械可読信号」とは、機械命令および/またはデータをプログラマブルプロセッサに提供するべく使用されるあらゆる信号を指す。
本明細書に記載されている処理および論理フローは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサが、1つまたは複数のコンピュータプログラムを実行して、入力データを操作して出力を生成することで機能を実行することができる。また、FPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)などの特殊な論理回路によっても処理や論理フローを実行することができる。コンピュータプログラムの実行に適したプロセッサには、一例として、汎用および特殊目的のマイクロプロセッサ、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが含まれる。一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令とデータを受け取る。コンピュータの本質的な要素は、命令を実行するためのプロセッサと、命令やデータを格納するための1つまたは複数のメモリデバイスである。一般に、コンピュータは、データを格納するための1つまたは複数の大容量記憶装置、例えば、磁気ディスク、光磁気ディスク、または光ディスクを備えているか、またはデータを受け取るか、またはデータを転送するか、もしくは両方であるように動作可能に結合される。しかし、コンピュータはそのようなデバイスを持っている必要はない。コンピュータプログラムの命令やデータを格納するのに適したコンピュータ可読媒体には、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスが含まれ、例として、半導体メモリデバイス、例えばEPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、およびCD-ROMおよびDVD-ROMディスクが挙げられる。プロセッサとメモリは、特別な目的の論理回路によって補完されるか、またはそれに組み込まれることができる。
ユーザとの対話(相互作用)を提供するべく、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、例えばCRT(cathode ray tube)、LCD(liquid crystal display)モニタ、またはタッチスクリーンと、任意でキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールを有し、それによってユーザがコンピュータに入力を提供することができるコンピュータ上で実装することができる。同様にユーザに相互作用を提供できる多の種類の装置が使用でき、例えば、ユーザに提供されるフィードバックは、視覚的なフィードバック、聴覚的なフィードバック、触覚的なフィードバックなど、あらゆる形態の感覚的なフィードバックであり、ユーザからの入力は、音響的な入力、音声的な入力、触覚的な入力など、あらゆる形態で受け取ることができる。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送信したり、デバイスからドキュメントを受け取ったりすることで、ユーザと対話することができる。例えば、ウェブブラウザから受け取った要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することで、ユーザと対話することができる。
多数の実施例を説明してきた。それにもかかわらず、本開示の精神および範囲から逸脱することなく、様々な変更を行うことができることが理解されるであろう。したがって、他の実施態様は、以下の請求項の範囲内にある。

Claims (20)

  1. データ処理ハードウェア(610)において、第1言語のネイティブスピーカ(110)によって話される発話(106)を符号化する音声データを受け取る工程と、
    前記データ処理ハードウェア(610)において、前記第1言語とは異なる第2言語の1つまたは複数の用語を備えているバイアス用語リスト(105)を受け取る工程と、
    前記データ処理ハードウェア(610)において、音声認識モデル(200)を用いて、前記音声データから得られる音響特徴(104)を処理して、前記第1言語の語句と、対応する音素シーケンスとの両方に対する音声認識スコアを生成する工程と、
    前記データ処理ハードウェア(610)によって、前記バイアス用語リスト(105)内の前記1つまたは複数の用語に基づき、前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程と、
    前記データ処理ハードウェア(610)によって、前記語句に対する前記音声認識スコアと、前記音素シーケンスに対する再スコアリングされた音声認識スコアとを用いて、復号グラフ(400)を実行して、前記発話(106)に対する転写(116)を生成する工程と、
    を備えている方法(500)。
  2. 前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程は、バイアス有限状態変換器(FST)を使用して、前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程を備えている、
    請求項1に記載の方法(500)。
  3. 前記方法はさらに、
    前記データ処理ハードウェア(610)によって、前記バイアス用語リスト(105)の各用語を、前記第2言語の対応する音素シーケンスにトークン化する工程と、
    前記データ処理ハードウェア(610)によって、前記第2言語における各対応する音素シーケンスを、前記第1言語における対応する音素シーケンスに写像する工程と、
    前記データ処理ハードウェア(610)によって、前記第1言語における各対応する音素シーケンスに基づき、前記バイアス有限状態変換器(300)を生成する工程と、
    を備えている、請求項2に記載の方法(500)。
  4. 前記音声認識モデル(200)は、エンドツーエンド語句-音素モデル(200)を備えている、
    請求項1~3のいずれか一項に記載の方法(500)。
  5. 前記エンドツーエンド語句-音素モデル(200)は、リカレントニューラルネットワーク-変換器(RNN-T)を備えている、
    請求項4に記載の方法(500)。
  6. 前記復号グラフ(400)の実行中に、前記復号グラフ(400)は、前記バイアス用語リスト(105)内の前記1つまたは複数の用語のいずれかを有利にするように、前記転写(116)をバイアスする、
    請求項1~5のいずれか一項に記載の方法(500)。
  7. 前記音声認識モデル(200)は、前記第1言語のみの学習発話で学習される、
    請求項1~6のいずれか一項に記載の方法(500)。
  8. 前記バイアス用語リスト(105)内の用語のいずれも、前記音声認識モデル(200)を学習するために使用されなかった、
    請求項1~7のいずれか一項に記載の方法(500)。
  9. 前記データ処理ハードウェア(610)および前記音声認識モデル(200)は、ユーザ装置(102)上に存在する、
    請求項1~8のいずれか一項に記載の方法(500)。
  10. 前記データ処理ハードウェア(610)および前記音声認識モデル(200)は、リモート計算装置(201)上に存在し、
    前記発話(106)を符号化する前記音声データを受け取る工程は、前記リモート計算装置(201)に通信しているユーザ装置(102)から、前記発話(106)を符号化する前記音声データを受け取る工程を備えている、
    請求項1~9のいずれか一項に記載の方法(500)。
  11. データ処理ハードウェア(610)と、
    前記データ処理ハードウェア(610)に通信するメモリハードウェア(620)であって、前記メモリハードウェア(620)は、前記データ処理ハードウェア(610)上で実行されると前記データ処理ハードウェア(610)に、以下を備えている動作を実行させる命令を格納する、前記メモリハードウェア(620)と、
    を備えているシステム(100)であって、前記動作は、
    第1言語のネイティブスピーカ(110)によって話される発話(106)を符号化する音声データを受け取る工程と、
    前記第1言語とは異なる第2言語による1つまたは複数の用語を備えているバイアス用語リスト(105)を受け取る工程と、
    音声認識モデル(200)を用いて、前記音声データから得られる音響特徴(104)を処理して、前記第1言語の語句と、対応する音素シーケンスとの両方に対する音声認識スコアを生成する工程と、
    前記バイアス用語リスト(105)の前記1つまたは複数の用語に基づき、前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程と、
    前記語句に対する前記音声認識スコアと、前記音素シーケンスに対する再スコアリングされた音声認識スコアとを用いて、復号グラフ(400)を実行して、前記発話(106)に対する転写(116)を生成する工程と、
    を備えている、システム(100)。
  12. 前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程は、バイアス有限状態変換器(FST)を使用して、前記音素シーケンスに対する前記音声認識スコアを再スコアリングする工程を備えている、
    請求項11に記載のシステム(100)。
  13. 前記動作はさらに、
    前記バイアス用語リスト(105)の各用語を、前記第2言語の対応する音素シーケンスにトークン化する工程と、
    前記第2言語における各対応する音素シーケンスを、前記第1言語における対応する音素シーケンスに写像する工程と、
    前記第1言語における各対応する音素シーケンスに基づき、前記バイアス有限状態変換器(300)を生成する工程と、
    を備えている、請求項12に記載のシステム(100)。
  14. 前記音声認識モデル(200)は、エンドツーエンド語句-音素モデル(200)を備えている、
    請求項11~13のいずれか一項に記載のシステム(100)。
  15. 前記エンドツーエンド語句-音素モデル(200)は、リカレントニューラルネットワーク-変換器(RNN-T)を備えている、
    請求項14に記載のシステム(100)。
  16. 前記復号グラフ(400)の実行中に、前記復号グラフ(400)は、前記バイアス用語リスト(105)内の前記1つまたは複数の用語のいずれかを有利にするように、前記転写(116)をバイアスする、
    請求項11~15のいずれか一項に記載のシステム(100)。
  17. 前記音声認識モデル(200)は、前記第1言語のみの学習発話で学習される、
    請求項11~16のいずれか一項に記載のシステム(100)。
  18. 前記バイアス用語リスト(105)内の用語のいずれも、前記音声認識モデル(200)を学習するために使用されなかった、
    請求項11~17のいずれか一項に記載のシステム(100)。
  19. 前記データ処理ハードウェア(610)および前記音声認識モデル(200)は、ユーザ装置(102)上に存在する、
    請求項11~18のいずれか一項に記載のシステム(100)。
  20. 前記データ処理ハードウェア(610)および前記音声認識モデル(200)は、リモート計算装置(201)上に存在し、
    前記発話(106)を符号化する前記音声データを受け取る工程は、前記リモート計算装置(201)に通信しているユーザ装置(102)から、前記発話(106)を符号化する前記音声データを受け取る工程を備えている、
    請求項11~19のいずれか一項に記載のシステム(100)。
JP2021564950A 2019-05-03 2020-04-28 エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 Active JP7092953B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962842571P 2019-05-03 2019-05-03
US62/842,571 2019-05-03
PCT/US2020/030321 WO2020226948A1 (en) 2019-05-03 2020-04-28 Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models

Publications (2)

Publication Number Publication Date
JP2022523883A JP2022523883A (ja) 2022-04-26
JP7092953B2 true JP7092953B2 (ja) 2022-06-28

Family

ID=70922127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021564950A Active JP7092953B2 (ja) 2019-05-03 2020-04-28 エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析

Country Status (6)

Country Link
US (2) US11270687B2 (ja)
EP (1) EP3948849A1 (ja)
JP (1) JP7092953B2 (ja)
KR (2) KR20220038514A (ja)
CN (2) CN113692616B (ja)
WO (1) WO2020226948A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501764B2 (en) * 2019-05-10 2022-11-15 Spotify Ab Apparatus for media entity pronunciation using deep learning
WO2021145893A1 (en) * 2020-01-17 2021-07-22 Google Llc Alphanumeric sequence biasing for automatic speech recognition
CN112784696A (zh) * 2020-12-31 2021-05-11 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
KR102637025B1 (ko) * 2021-03-26 2024-02-16 구글 엘엘씨 자동 음성 인식을 위한 다언어 리스코어링 모델들
WO2022256026A1 (en) * 2021-06-04 2022-12-08 Google Llc Systems and methods for generating phonetic spelling variations
CN113643718A (zh) * 2021-08-16 2021-11-12 北京房江湖科技有限公司 音频数据处理方法和装置
CN113936647B (zh) * 2021-12-17 2022-04-01 中国科学院自动化研究所 语音识别模型的训练方法、语音识别方法和系统
CN114078469B (zh) * 2022-01-19 2022-05-10 广州小鹏汽车科技有限公司 语音识别方法、装置、终端和存储介质
US20240127801A1 (en) * 2022-10-13 2024-04-18 International Business Machines Corporation Domain adaptive speech recognition using artificial intelligence

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019507362A (ja) 2016-02-05 2019-03-14 グーグル エルエルシー 外部データソースを用いた音声の再認識

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040078191A1 (en) * 2002-10-22 2004-04-22 Nokia Corporation Scalable neural network-based language identification from written text
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
TWI233589B (en) * 2004-03-05 2005-06-01 Ind Tech Res Inst Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously
DE602005004503T2 (de) * 2005-02-21 2009-01-22 Harman Becker Automotive Systems Gmbh Multilinguale Spracherkennung
EP1975923B1 (en) * 2007-03-28 2016-04-27 Nuance Communications, Inc. Multilingual non-native speech recognition
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
CN101727901B (zh) * 2009-12-10 2011-11-09 清华大学 嵌入式系统的汉英双语语音识别方法
US8886533B2 (en) * 2011-10-25 2014-11-11 At&T Intellectual Property I, L.P. System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
US10068569B2 (en) * 2012-06-29 2018-09-04 Rosetta Stone Ltd. Generating acoustic models of alternative pronunciations for utterances spoken by a language learner in a non-native language
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US9502032B2 (en) * 2014-10-08 2016-11-22 Google Inc. Dynamically biasing language models
US9966066B1 (en) * 2016-02-03 2018-05-08 Nvoq Incorporated System and methods for combining finite state transducer based speech recognizers
JP6727607B2 (ja) * 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US10235991B2 (en) * 2016-08-09 2019-03-19 Apptek, Inc. Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
US10074369B2 (en) * 2016-09-01 2018-09-11 Amazon Technologies, Inc. Voice-based communications
US10311876B2 (en) * 2017-02-14 2019-06-04 Google Llc Server side hotwording
US11093110B1 (en) * 2017-07-17 2021-08-17 Amazon Technologies, Inc. Messaging feedback mechanism
WO2020039247A1 (en) * 2018-08-23 2020-02-27 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US10861446B2 (en) * 2018-12-10 2020-12-08 Amazon Technologies, Inc. Generating input alternatives
US11069353B1 (en) * 2019-05-06 2021-07-20 Amazon Technologies, Inc. Multilingual wakeword detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019507362A (ja) 2016-02-05 2019-03-14 グーグル エルエルシー 外部データソースを用いた音声の再認識

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PATEL, Ami et al.,"CROSS-LINGUAL PHONEME MAPPING FOR LANGUAGE ROBUST CONTEXTUAL SPEECH RECOGNITION",Proc. of the 2018 IEEE ICASSP,2018年04月15日,pp.5924-5928

Also Published As

Publication number Publication date
CN113692616A (zh) 2021-11-23
US11270687B2 (en) 2022-03-08
CN117935785A (zh) 2024-04-26
WO2020226948A1 (en) 2020-11-12
US11942076B2 (en) 2024-03-26
KR20220038514A (ko) 2022-03-28
US20220172706A1 (en) 2022-06-02
US20200349923A1 (en) 2020-11-05
KR20210138776A (ko) 2021-11-19
JP2022523883A (ja) 2022-04-26
EP3948849A1 (en) 2022-02-09
CN113692616B (zh) 2024-01-05
KR102375115B1 (ko) 2022-03-17

Similar Documents

Publication Publication Date Title
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
EP4078572B1 (en) Proper noun recognition in end-to-end speech recognition
KR20230086737A (ko) 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들
WO2023059969A1 (en) Joint unsupervised and supervised training for multilingual automatic speech recognition
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
US20210225362A1 (en) Attention-Based Joint Acoustic and Text On-Device End-to-End Model
US20220310067A1 (en) Lookup-Table Recurrent Language Model
JP2024512606A (ja) 自己アライメントを用いたストリーミングasrモデル遅延の短縮
US11893349B2 (en) Systems and methods for generating locale-specific phonetic spelling variations
US20220310061A1 (en) Regularizing Word Segmentation
Theis Learning to detect named entities in bilingual code-mixed open speech corpora
WO2024086265A1 (en) Context-aware end-to-end asr fusion of context, acoustic and text representations
CN117378005A (zh) 用于自动语音识别的多语言重新评分模型

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220124

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20220124

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220124

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220616

R150 Certificate of patent or registration of utility model

Ref document number: 7092953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150