JP6507316B2

JP6507316B2 - 外部データソースを用いた音声の再認識

Info

Publication number: JP6507316B2
Application number: JP2018524838A
Authority: JP
Inventors: トレヴァー・ディー・ストローマン; ジョアン・ショークウィック; グレブ・スコベルツィン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-02-05
Filing date: 2016-11-18
Publication date: 2019-04-24
Anticipated expiration: 2036-11-18
Also published as: CN107045871A; WO2017136016A1; CN107045871B; US20170301352A1; EP3360129A1; DE202016008230U1; EP3360129B1; RU2688277C1; DE102016125954A1; KR20180066216A; JP2019507362A; KR102115541B1; US20170229124A1

Description

本明細書は、自動音声認識に関する。

音声認識は、自動音声認識器(ASR)を使用したテキストへの話されたワードのトランスクリプションを指す。従来のASRシステムでは、受信したオーディオは、コンピュータ可読サウンドに変換され、その後、所与の言語に関連しているワードの辞書と比較される。

一般に、本明細書において説明した発明特定事項の1つの革新的な態様は、外部データソースを使用して音声認識を改善する方法で具現化し得る。例えば、自動音声認識器は、発話を符号化するオーディオデータを受信し、第1の言語モデルを使用して発話の初期候補トランスクリプションを提供し得る。システムは、その後、異なる第2の言語モデルを初期候補トランスクリプションに適用して、(i)初期候補トランスクリプションと音素的に類似して聞こえる、且つ、(ii)所与の言語において出現する可能性が高い、代替の候補トランスクリプションを生成し得る。システムは、その後、(i)オーディオデータと候補トランスクリプションとの間の音素類似度と、(ii)所与の言語において出現する候補トランスクリプションの尤度とに基づいて、候補トランスクリプションからトランスクリプションを選択し得る。

実施形態は、以下の特徴のうちの1つまたは複数を含み得る。例えば、いくつかの実施形態においては、方法は、自動音声認識器を使用して発話の初期候補トランスクリプションを取得するステップと、初期候補トランスクリプションを生成する際に自動音声認識器によって使用されていない言語モデルに基づいて、初期候補トランスクリプションに出現する1つまたは複数のタームと音素的に類似している1つまたは複数のタームを識別するステップと、識別した1つまたは複数のタームに基づいて1つまたは複数の追加の候補トランスクリプションを生成するステップと、候補トランスクリプションからトランスクリプションを選択するステップとを含む。

他のバージョンは、対応するシステム、コンピュータストレージデバイス上に符号化された方法のアクションを行うように構成されたコンピュータプログラム、コンピューティング装置に方法のアクションを行わせるように構成されたコンピュータプログラムを含む。

1つまたは複数の実施形態は、以下の随意的な特徴を含み得る。例えば、いくつかの実施形態においては、初期候補トランスクリプションを生成する際に自動音声認識器によって使用されていない言語モデルは、初期候補トランスクリプションを生成する際に自動音声認識器によって使用される言語モデルにはない1つまたは複数のタームを含む。いくつかの態様においては、初期候補トランスクリプションを生成する際に自動音声認識器によって使用されていない言語モデルと初期候補トランスクリプションを生成する際に自動音声認識器によって使用される言語モデルとの両方は、1つまたは複数のタームの配列を含むが、出現について異なる尤度を有するような配列を示す。

ある態様においては、初期候補トランスクリプションを生成する際に自動音声認識器によって使用されていない言語モデルは、ワードまたはワードの配列が出現する尤度を示す。いくつかの実施形態においては、アクションは、候補トランスクリプションの各々について、どれくらいの頻度で候補トランスクリプションが話される見込みがあるかを反映する尤度スコアを決定するステップと、候補トランスクリプションの各々について、候補トランスクリプションと発話との間の音素類似度を反映する音響一致スコアを決定するステップとを含み、候補トランスクリプションからトランスクリプションを選択するステップは、音響一致スコアおよび尤度スコアに基づく。いくつかの態様においては、候補トランスクリプションと発話との間の音素類似度を反映する音響一致スコアを決定するステップは、サブワード音響一致スコアを自動音声認識器から取得するステップと、候補トランスクリプションと一致するサブワード音響一致スコアのサブセットを識別するステップと、候補トランスクリプションと一致するサブワード音響一致スコアのサブセットに基づいて音響一致スコアを生成するステップとを含む。

ある態様においては、どれくらいの頻度で候補トランスクリプションが話される見込みがあるかを反映する尤度スコアを決定するステップは、初期候補トランスクリプションを生成する際に自動音声認識器によって使用されていない言語モデルに基づいて尤度スコアを決定するステップを含む。いくつかの実施形態においては、識別した1つまたは複数のタームに基づいて1つまたは複数の追加の候補トランスクリプションを生成するステップは、初期候補トランスクリプションに出現する1つまたは複数のタームと音素的に類似している識別した1つまたは複数のタームを初期候補トランスクリプションに出現する1つまたは複数のタームで置換するステップを含む。

技術的な利点として、外部データソースからのデータを有効にして、既存の自動音声認識器を修正することなく、より正確なトランスクリプションを生成する際に使用されるようにすることを含み得る。例えば、自動音声認識器の出力を更新された言語モデルに適用することは、コンピュータ計算上コストがかかる自動音声認識器の再コンパイルを回避して、更新された言語モデルを使用することになり得る。別の利点は、初期トランスクリプションを生成するために使用される自動音声認識器が認識することができるターム以外の追加のタームをシステムが認識し得ることであり得る。さらに別の利点は、リアルタイム音声認識デコーダに一般的に適し得ない言語モデルの異なる機構を組み込み得ることであり得る。例えば、ユーザがいつも聴いていた歌曲のすべてのリストを含むテキストファイルを、リアルタイムに音声認識器に効率的に取り込むことが難しい場合がある。しかしながら、本システムにおいては、音声認識器が初期候補トランスクリプションを出力した後に、テキストファイルからの情報を取り込み最終的なトランスクリプションを決定し得る。

タームが音素的に類似しているかどうかを決定することは、類似度の度合いを決定し閾値との度合いを比較すること、または、類似度の度合いが他のタームのペアに関する類似度の度合いより大きいかどうかを決定することを含み得る。

1つまたは複数の実施形態の詳細を以下の添付の図面および説明において記載している。他の潜在的な特徴および利点は、説明、図面、および特許請求の範囲から明らかとなるであろう。

他のこれらの態様の実施形態は、対応するシステム、装置、およびコンピュータストレージデバイス上に符号化された、方法のアクションを行うように構成された、コンピュータプログラムを含む。

外部データソースを使用して音声認識を改善するために使用され得る例示的なシステムを示す図である。外部データソースを使用して音声認識を改善するための例示的なプロセスを示す図である。本明細書に記載のプロセスまたはその一部が実施され得るコンピュータデバイスのブロック図である。

図面において、類似の参照番号は全体にわたって対応する部分を表す。

図1は、外部データソースを使用して音声認識を改善するために使用され得る例示的なシステム100を図示している。簡潔には、システム100は、音響モデル112および言語モデル114、第2の言語モデル120、音素展開器130、ならびに再スコア決定器140を含む、自動音声認識器(ASR)110を含み得る。

より詳細には、ASR110は、発話をエンコードした音響データを受信し得る。例えば、ASR110は、「CityZen reservation」という発話に対応する音響データを受信し得る。音響データは、例えば、生の波形データ、メル尤度(mel-likelihood)ケプストラム係数、またはオーディオの任意の他の音響もしくは音素表現を含み得る。

ASR110の音響モデル112は、音響データを受信し、音響データに対応するワードまたは例えば音素といったサブワードについての音響スコアを生成し得る。音響スコアは、ワードまたはサブワードと音響データとの間の音素類似度を反映し得る。例えば、音響モデルは、「CityZen reservation」についての音響データを受信し、「SE - 0.9 / 0 / 0 / ..., ...EE - 0 / 0 / 0.9 / ...I - 0 / 0 / 0.7 / ...」という音響スコアを生成し得る。例示的な音響スコアは、「SE」という音素について、発話中の第1のサブワードについて90%の音響一致、発話中の第2のサブワードについて0%の音響一致、および発話中の第3のサブワードについて0%の音響一致が存在し、「EE」という音素について、発話中の第1のサブワードについて0%の音響一致、発話中の第2のサブワードについて0%の一致、および発話中の第3のサブワードについて90%の一致が存在し、「I」という音素について、発話中の第1のサブワードについて0%の音響一致、発話中の第2のサブワードについて0%の音響一致、および発話中の第3のサブワードについて70%の音響一致が存在していることを示し得る。上記の例において、音響モデル112は、発話におけるサブワードの音素と位置との各組合せについての音響スコアを出力し得る。

音響モデル112は、音響データによって示される波形を特定のサブワードに対応するものとして示された波形とを比較することに基づいて、音響スコアを生成し得る。例えば、音響モデル112は、「CityZen reservation」という発話についての音響データを受信し、音響データの冒頭が「SE」という音素について保存されている波形と90%の一致を有する波形を表していると識別し、それに応じて、発話中の「SE」という音素である第1の音素について0.9という音響スコアを生成し得る。

ASR110の言語モデル114は、音響スコアを受信し、音響スコアに基づいて初期候補トランスクリプションを生成し得る。例えば、ASR110の言語モデル114は、「SE - 0.9 / 0 / 0 / ..., ...EE - 0 / 0 / 0.9 / ...I - 0 / 0 / 0.7 / ....」という音響スコアを受信し、それに応じて、「Citizen reservation」を生成し得る。

言語モデル114は、ワードの配列が出現する尤度および音響スコアに基づいて初期候補トランスクリプションを生成し得る。例えば、言語モデル114は、例えば、「CityZen」というワードが言語モデル114中に存在しないということが理由で、「CityZen reservation」というワードの出現が0%であるという尤度、「Citizen reservation」というワードの出現が70%であるという尤度、発話が「Citizen」と比較して「City」に続いて「Zen」となる方が音響学的により類似して聞こえることを示す「CityZen reservation」についての音響スコアに基づいて、「Citizen reservation」という候補トランスクリプションを生成するとともに、「Citizen reservation」という初期候補トランスクリプションを生成し得る。

いくつかの実施形態においては、言語モデル114は、初期候補トランスクリプションを生成する際に尤度スコアとしてワードの配列の尤度を示し得るし、言語モデル114は、音響一致スコアと尤度スコアとを乗算し得る。例えば、「SE-ET-EE-ZE」という音素について、言語モデル114は、0.9、0.9、0.9、0.7という音響一致スコアを「City」に続いて「Zen」となることについての0.0という尤度スコアと乗算して0というスコアの結果を得ることになり得るし、「SE-ET-I-ZE」という音素について、言語モデル114は、0.9、0.9、0.7、0.9という音響一致スコアを「Citizen」についての0.9という尤度スコアと乗算して0.45というスコアの結果を得て、その後、その0.45というスコアが「City」に続いて「Zen」となることについての0というスコアと比べてより望ましいので、「Citizen」というワードを選択し得る。

ASR110は、言語モデル114によって生成された初期トランスクリプションを出力し得る。例えば、ASR110は、「CityZen reservation」という発話についての音響データに基づく音響スコアを受信したことに応じて言語モデル114によって生成された「Citizen reservation」という初期トランスクリプションを出力し得る。

第2の言語モデル120は、初期トランスクリプションを受信し、追加の候補トランスクリプションを生成し得る。例えば、第2の言語モデル120は、「Citizen reservation」という初期トランスクリプションを受信し、それに応じて、「CityZen reservation」および「Sooty bin reservation」という追加のトランスクリプションを生成し得る。

第2の言語モデル120は、初期候補トランスクリプションに出現する1つまたは複数のタームと音素的に類似している1つまたは複数のタームを識別して初期候補トランスクリプションに出現する1つまたは複数のタームを音素的に類似している識別した1つまたは複数のタームで置換することに基づいて、追加の候補トランスクリプションを生成し得る。例えば、第2の言語モデル120は、「Citizen reservation」という初期候補トランスクリプションを受信し、「CityZen」および「Sooty bin」というタームが両方とも「Citizen」というタームと音素的に類似していると識別し、それに応じて、「Citizen」を「CityZen」および「Sooty bin」でそれぞれ置換することによって「CityZen reservation」および「Sooty bin reservation」という追加の候補トランスクリプションを生成し得る。

いくつかの実施形態においては、第2の言語モデル120は、ワードについての音素表現を記憶し、保存されている音素表現に基づいて音素的に類似しているタームを識別することに基づいて、音素的に類似しているタームを識別し得る。例えば、第2の言語モデル120は、「Citizen」が「SE-ET-I-ZE-EN」という音素によって表され得ることと「City」および「Zen」が「SE-ET-EE-ZE-EN」という音素によって表され得ることとを示す情報を記憶し、初期トランスクリプション中の「Citizen」というタームを受信し、タームが「SE-ET-I-ZE-EN」という音素に対応していると決定し、「SE-ET-I-ZE-EN」という音素が「City」および「Zen」に関連している「SE-ET-EE-ZE-EN」という音素と類似していると決定し、それに応じて、「Citizen」というタームが「CityZen」というタームと音素的に類似していると識別し得る。

いくつかの実施形態においては、第2の言語モデル120は、音素の音響表現に基づいて音素がどれくらい類似して聞こえるかを決定し得る。例えば、第2の言語モデル120は、「EE」という音素のための音響表現が「ZA」という音素の音響表現と比較して「I」という音素の音響表現により類似していると決定したことに基づいて、「EE」という音素および「I」という音素が「EE」という音素および「ZA」という音素と比較して互いにより類似していると決定し得る。加えてまたはあるいは、いくつかの実施形態においては、第2の言語モデル120は、類似して聞こえるワードの明示的なインディケーションに基づいて、音素的に類似しているタームを識別し得る。例えば、第2の言語モデル120は、「Floor」および「Flour」が音素的に類似して聞こえることを明示的に示す情報を含み得る。

第2の言語モデル120は、候補トランスクリプション中にワードの配列が出現する尤度に基づいて、追加の候補トランスクリプションを生成し得る。例えば、第2の言語モデル120は、「CityZen reservation」というワードの配列が出現について高い尤度を有していると決定し、それに応じて、追加の候補として「CityZen reservation」を出力するように決定し得る。別の例において、第2の言語モデル120は、「Sooty zen reservation」というワードの配列が出現について低い尤度を有していると決定し、それに応じて、追加の候補として「Sooty zen reservation」を出力しないように決定し得る。

いくつかの実施形態においては、第2の言語モデル120は、初期候補トランスクリプションに対する音素類似度と候補トランスクリプションが出現する尤度との組合せに基づいて、候補トランスクリプションを生成し得る。例えば、第2の言語モデル120は、「Sooty zen reservation」を出力しないように決定しても、「Sooty zen reservation」が「Citizen reservation」に音素的により類似して聞こえるが「Sooty zen reservation」は第2の言語モデル120による出現について非常に低い尤度を有していることと、「Sooty bin reservation」が「Citizen reservation」とやや類似していないように聞こえるが出現について中程度の尤度を有していることとが理由で、「Sooty bin reservation」を出力し得る。

第2の言語モデル120は、関連する尤度スコアを用いて候補トランスクリプションを出力し得る。例えば、「Citizen reservation」を受信したことに応じて、第2の言語モデル120は、0.6という中程度の尤度スコアが関連付けられた「Citizen reservation」を出力し、0.9という高い尤度スコアが関連付けられた「CityZen reservation」を出力し、0.4という中程度の尤度スコアを有する「Sooty bin reservation」を出力し得る。尤度スコアは、所与の言語における候補トランスクリプション中に1つまたは複数のワードの配列が出現する尤度を反映し得る。

いくつかの実施形態においては、1つまたは複数のワードの配列についての尤度スコアを記憶し、候補トランスクリプションにある1つまたは複数のワードの配列を識別し、候補トランスクリプション内にあると識別した1つまたは複数のワードの配列についての尤度スコアに基づいて候補トランスクリプションについての尤度スコアを生成することに基づいて、第2の言語モデル120は、候補トランスクリプションについての尤度スコアを決定し得る。ある例において、第2の言語モデル120は、「Sooty bin」および「reservation」の配列が「Sooty bin reservation」という候補トランスクリプション内にあるとともにそれぞれ0.8および0.5という尤度スコアに事前に関連付けられていると決定し、0.8という尤度スコアと0.5という尤度スコアとを乗算して0.4という結果を得ることによって「Sooty bin reservation」という候補トランスクリプションについての尤度スコアを生成し得る。別の例において、第2の言語モデル120は、「CityZen reservation」という配列全体が0.9という尤度スコアに事前に関連付けられているとともに「CityZen reservation」という候補トランスクリプションに全面的に一致すると決定し、それに応じて、「CityZen reservation」という候補トランスクリプションの尤度スコアが0.9であると決定し得る。

音素展開器130は、候補トランスクリプションを第2の言語モデル120から受信し、候補トランスクリプションをサブワードに展開し得る。例えば、音素展開器130は、「Citizen reservation」を受信して「SE-ET-I-ZE...」という音素展開を生成し、「CityZen reservation」を受信して「SE-ET-EE-ZE...」という音素展開を生成し、「Sooty bin reservation」を受信して「SO-OT-EE-BI..」という音素展開を生成し得る。いくつかの実施形態においては、音素展開器130は、所定の展開ルールに基づいて、候補トランスクリプションをサブワードに展開し得る。例えば、ルールは、「SOO」が「SO」という音素に展開されると定義し得る。別の例において、あるルールは、「Sooty」というワードが「SO-OT-EE」という音素に展開されると定義し得る。

再スコア決定器140は、候補トランスクリプションの各々についての音素展開を音素展開器から受信し、候補トランスクリプションの各々についての関連する尤度スコアを第2の言語モデル120から受信し、音響スコアを音響モデル112から受信し、音響モデル112からの尤度スコアと音響スコアとの組合せに基づいて候補トランスクリプションについての全体スコアを生成し、全体スコアに基づいて候補トランスクリプションからトランスクリプションを選択し得る。例えば、再スコア決定器は、0.6という中程度の尤度スコアと「SE-ET-I-ZE...」という音素展開とに関連付けられた「Citizen reservation」という候補トランスクリプション、0.9という高い尤度スコアと「SE-ET-EE-ZE...」という音素展開とに関連付けられた「CityZen reservation」という候補トランスクリプション、および0.4という中程度の尤度スコアと「SO-OT-EE-BI...」という音素展開とに関連付けられた「Sooty bin reservation」という候補トランスクリプションを受信し、「SE - 0.9 / 0 / 0 / ..., ...EE - 0 / 0 / 0.9 / ...I - 0 / 0.7 / 0 / ....」という音響スコアを受信し、「CityZen reservation」についての0.8という全体スコア、「Citizen reservation」についての0.6という全体スコア、および「Sooty bin reservation」についての0.3という全体スコアを生成し、最高全体スコアを有している「CityZen reservation」を選択し得る。

いくつかの実施形態においては、再スコア決定器140は、候補発話についての尤度スコアと音響一致スコアとの組合せに基づいて、全体スコアを生成し得る。例えば、再スコア決定器140は、候補トランスクリプションについての0.9という尤度スコアと候補トランスクリプションについての0.8という音響一致スコアとを乗算することに基づいて、候補トランスクリプションのための0.7という全体スコアを生成し得る。

いくつかの実施形態においては、再スコア決定器140は、音響モデル112からの音響スコアと音素展開器130からの音素展開とに基づいて、候補発話のための音響一致スコアを生成し得る。詳細には、再スコア決定器140は、複数のサブワードを含む音素展開を受信し、複数のサブワードの各々に対応する音響スコアを識別し、候補発話の音素展開に含まれる複数のサブワードの音響スコアに基づいて各候補発話のための音響一致スコアを生成し得る。例えば、再スコア決定器140は、「CityZen reservation」についての「SE-ET-EE-ZE...」という音素展開を受信し、「SE-ET-EE-ZE...」という音素の各々について音響モデル112から受信した音響スコアを識別し、識別した音響スコアを乗算して「CityZen reservation」についての音響一致スコアを生成し得る。

いくつかの実施形態においては、再スコア決定器140は、音響モデル112から音響スコアのすべてを受信しなくてもよい。その代わりに、再スコア決定器140は、音素展開を音素展開器130から受信し、音素展開器130から受信した音素展開にあるサブワードに対応する音響スコアのみについて音響モデル112に要求を提供し得る。例えば、音響モデル112が、「SE」、「ET」、「I」、「ZE」という音素および音素展開に現れる他の音素についての音響スコアを提供するとともに、「BA」、「FU」、「KA」という音素および音素展開に現れない他の音素については提供しないように、再スコア決定器140は要求し得る。

いくつかの実施形態においては、再スコア決定器140は、候補トランスクリプションからトランスクリプションを選択する際に他の要素を考慮し得る。例えば、再スコア決定器140は、ユーザの現在のロケーションを識別し、ユーザの現在のロケーションにより密接に関連した候補トランスクリプションを識別するために選択を重み付けし得る。別の例において、再スコア決定器140は、現在時刻を識別し、時刻により密接に関連した候補トランスクリプションを識別するために選択を重み付けし得る。さらに別の例において、再スコア決定器140は、発話を提供するユーザのプリファレンスを識別し、ユーザの識別したプリファレンスにより密接に関連した候補トランスクリプションを識別するために選択を重み付けし得る。

音響モデル112、言語モデル114、自動音声認識器110、第2の言語モデル120、音素展開器130、および再スコア決定器140の機能性が、結合、さらに分離、分散、または交換され得る、システム100の異なる構成が使用されてもよい。システム100は、単一のデバイス内で実施され得る、または、複数のデバイスにわたって分散され得る。

図2は、外部データソースに基づいて音声認識を改善するための例示的なプロセス200のフローチャートである。説明した図1を参照して説明したシステム100のコンポーネントによって行われる場合の処理200を以下に説明している。しかしながら、プロセス200は、他のシステムまたはシステム構成によって行われてもよい。

プロセス200は、自動音声認識器を使用して発話の初期候補トランスクリプションを取得するステップ(210)を含み得る。例えば、自動音声認識器110は、「Zaytinya reservation」という発話についての音響データを受信し、「Say tin ya reservation」という初期候補トランスクリプションを出力し得る。

プロセス200は、初期候補トランスクリプションを生成する際に自動音声認識器によって使用されていない言語モデルに基づいて、初期候補トランスクリプションと音素的に類似している1つまたは複数の追加のタームを識別するステップ(220)を含み得る。例えば、第2の言語モデル120は、「Zaytinya」および「Say ten ya」というタームが「Say tin ya」と音素的に類似して聞こえると識別し得る。

プロセス200は、追加の1つまたは複数のタームに基づいて1つまたは複数の追加の候補トランスクリプションを生成するステップ(230)を含み得る。例えば、第2の言語モデル120は、「Say tin ya reservation」という初期候補発話中の「Zaytinya」および「Say ten ya」で「Say tin ya」を置換することに基づいて、「Zaytinya reservation」および「Say ten ya reservation」という追加の候補トランスクリプションを生成し得る。

プロセス200は、候補トランスクリプションからトランスクリプションを選択するステップ(240)を含み得る。例えば、再スコア決定器140は、「Say tin ya reservation」、「Zaytinya reservation」、および「Say ten ya reservation」という候補トランスクリプションから「Zaytinya reservation」というトランスクリプションを選択し得る。選択は、候補トランスクリプションの各々についての尤度スコアおよび音響一致スコアに基づき得る。例えば、選択は、所与の言語において候補発話が出現することについて高い尤度を示す尤度スコアと、音響データと候補発話の音響類似度が近いことを示す音響一致スコアとを有する候補トランスクリプションを識別することに基づき得る。

図3は、クライアントまたはサーバもしくは複数のサーバのいずれかとして、本明細書において説明したシステムおよび方法を実施するために使用され得るコンピュータデバイス300、350のブロック図である。コンピュータデバイス300は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどといった、様々な形式のデジタルコンピュータを表すことを意図している。コンピュータデバイス350は、携帯情報端末、セルラ電話、スマートフォン、および他の同様のコンピュータデバイスなどといった、様々な形式のモバイルデバイスを表すことを意図している。加えてコンピュータデバイス300または350は、Universal Serial Bus(USB)フラッシュドライブを含み得る。USBフラッシュドライブは、オペレーティングシステムおよび他のアプリケーションを記憶し得る。USBフラッシュドライブは、無線トランスミッタまたは別のコンピュータデバイスのUSBポートに差し込まれ得るUSBコネクタなどといった、入力/出力コンポーネントを含み得る。本明細書で示したコンポーネント、それらの接続および関係、およびそれらの機能は、例示的なものに過ぎないことを意図しており、本明細書で説明および/または主張した発明の実施形態を限定することは意図していない。

コンピュータデバイス300は、プロセッサ302、メモリ304、ストレージデバイス306、メモリ304および高速拡張ポート310に接続されている高速インターフェース308、ならびに低速バス314およびストレージデバイス306に接続されている低速インターフェース312を含む。コンポーネント302、304、306、308、310、および312の各々は、様々なバスを使用して相互接続されており、共通のマザーボード上にまたは適切な他の方式で組み込まれ得る。プロセッサ302は、高速インターフェース308に接続されているディスプレイ316などの外部入力/出力デバイス上のGUIに対するグラフィカル情報を表示するためにメモリ304またはストレージデバイス306に記憶されている命令を含む、コンピュータデバイス300内にある実行のための命令を処理し得る。他の実施形態においては、複数のプロセッサおよび/または複数のバスが、複数のメモリおよび複数のタイプのメモリとともに適切に使用され得る。また、複数のコンピュータデバイス300は、例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムのような必須の動作の一部を提供する各デバイスと接続されていてもよい。

メモリ304は、情報をコンピュータデバイス300内に記憶する。ある実施形態においては、メモリ304は、揮発性メモリユニットまたはユニットである。別の実施形態においては、メモリ304は、不揮発性メモリユニットまたはユニットである。メモリ304はまた、磁気または光ディスクなどといった、他の形式のコンピュータ可読媒体であり得る。

ストレージデバイス306は、コンピュータデバイス300のためのマスストレージを提供することを可能としている。ある実施形態においては、ストレージデバイス306は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成内にあるデバイスを含むデバイスのアレイなどといった、コンピュータ可読媒体であり得るまたは含み得る。コンピュータプログラム製品は、情報キャリアに有形に具現化され得る。コンピュータプログラム製品はまた、実行されると上述してきたような1つまたは複数の方法を行う命令を含み得る。情報キャリアは、メモリ304、ストレージデバイス306、またはプロセッサ302上のメモリなどといった、コンピュータまたはマシン可読媒体である。

高速コントローラ308はコンピュータデバイス300についての帯域幅を集中的に使用する動作を管理する一方で、低速コントローラ312はより低い帯域幅を集中的に使用する動作を管理する。そのような機能の割り振りは、例示的なものに過ぎない。ある実施形態においては、高速コントローラ308は、例えば、グラフィックプロセッサまたはアクセラレータを介して、メモリ304、ディスプレイ316に接続されるとともに、様々な拡張カード(図示せず)にアクセスし得る高速拡張ポート310に接続される。その実施形態においては、低速コントローラ312は、ストレージデバイス306および低速拡張ポート314に接続される。例えば、USB、Bluetooth(登録商標)、Ethernet、無線Ethernetといった、様々な通信ポートを含み得る低速拡張ポートは、例えばネットワークアダプタを介して、キーボード、ポインティングデバイス、マイクロフォン/スピーカペア、スキャナ、またはスイッチまたはルータなどのネットワークデバイスなどといった、1つまたは複数の入力/出力デバイスに接続され得る。コンピュータデバイス300は、図に示したように、多数の異なる形式で実装され得る。例えば、標準サーバ320として実装され得る、または、そのようなサーバのグループ内で複数回実装され得る。ラックサーバシステム324の一部としても実装され得る。加えて、ラップトップコンピュータ322などのパーソナルコンピュータ内に実装され得る。あるいは、コンピュータデバイス300のコンポーネントは、デバイス350などのモバイルデバイス内の他のコンポーネント(図示せず)と結合され得る。そのようなデバイスの各々は、1つまたは複数のコンピュータデバイス300、350を含み得るし、システム全体は、互いに通信する複数のコンピュータデバイス300、350で構成され得る。

コンピュータデバイス300は、図に示したように、多数の異なる形式で実装され得る。例えば、標準サーバ320として実装され得る、または、そのようなサーバのグループ内で複数回実装され得る。ラックサーバシステム324の一部としても実装され得る。加えて、ラップトップコンピュータ322などのパーソナルコンピュータ内に実装され得る。あるいは、コンピュータデバイス300のコンポーネントは、デバイス350などのモバイルデバイス内の他のコンポーネント(図示せず)と結合され得る。そのようなデバイスの各々は、1つまたは複数のコンピュータデバイス300、350を含み得るし、システム全体は、互いに通信する複数のコンピュータデバイス300、350で構成され得る。

コンピュータデバイス350は、プロセッサ352、メモリ364、および、他のコンポーネントのうち、ディスプレイ354、通信インターフェース366、およびトランシーバ368などといった、入力/出力デバイスを含む。デバイス350は、追加のストレージを提供するために、マイクロドライブまたは他のデバイスなどのストレージデバイスを備え得る。コンポーネント350、352、364、354、366、および368の各々は、様々なバスを使用して相互接続されており、コンポーネントのいくつかは、共通のマザーボード上にまたは適切な他の方式で組み込まれ得る。

プロセッサ352は、メモリ364に記憶されている命令を含む、コンピュータデバイス350内にある命令を実行し得る。プロセッサは、独立したおよび複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実装され得る。加えて、プロセッサは、多数の機構のいずれかを使用して実装され得る。例えば、プロセッサ310は、CISC(Complex Instruction Set Computer)プロセッサ、RISC(Reduced Instruction Set Computer)プロセッサ、またはMISC(Minimal Instruction Set Computer)プロセッサであり得る。プロセッサは、例えば、ユーザインターフェースの制御、デバイス350によって実行されるアプリケーション、およびデバイス350による無線通信などといった、デバイス350の他のコンポーネントとの協調を提供し得る。

プロセッサ352は、制御インターフェース358とディスプレイ354に接続されているディスプレイインターフェース356とを介してユーザと通信し得る。ディスプレイ354は、例えば、TFT(Thin-Film-Transistor Liquid Crystal Display)ディスプレイもしくはOLED(Organic Light Emitting Diode)ディスプレイ、または他の適切なディスプレイ技術であり得る。ディスプレイインターフェース356は、ディスプレイ354を駆動してグラフィカル情報および他の情報をユーザに提示するのに適した回路を含み得る。制御インターフェース358は、ユーザからコマンドを受信し、プロセッサ352に渡すためにそれらを変換し得る。加えて、外部インターフェース362は、他のデバイスとデバイス350との近距離通信を可能にするために、プロセッサ352との通信に提供され得る。外部インターフェース362は、例えば、いくつかの実施形態においては有線通信を提供し得るし、また、他の実施形態においては無線通信を提供し得るし、複数のインターフェースが使用されてもよい。

メモリ364は、コンピュータデバイス350内に情報を記憶する。メモリ364は、1つまたは複数のコンピュータ可読媒体もしくはその複数の媒体、揮発性メモリユニットもしくはその複数のユニット、または不揮発性メモリユニットもしくはその複数のユニットとして実装され得る。また、拡張メモリ374が、提供されるとともに、例えば、SIMM(Single In Line Memory Module)カードインターフェースを含み得る、拡張インターフェース372を介して、デバイス350に接続され得る。そのような拡張メモリ374は、デバイス350に追加の記憶領域を提供し得る、または、デバイス350のためのアプリケーションもしくは他の情報も記憶し得る。特に、拡張メモリ374は、上述したプロセスを実行または補完する命令を含み得るし、セキュアな情報も含み得る。そのため、例えば、拡張メモリ374は、デバイス350のためのセキュリティモジュールとして提供され得るし、デバイス350のセキュアな使用を可能にする命令でプログラムされ得る。加えて、セキュアなアプリケーションは、SIMMカード上での識別情報のハッキング不可な方式での配置などの、追加の情報とともに、SIMMカードを介して提供され得る。

メモリは、例えば、後述するようなフラッシュメモリおよび/またはNVRAMメモリを含み得る。ある実施形態においては、コンピュータプログラム製品は、情報キャリアに有形に具現化され得る。コンピュータプログラム製品は、実行されると上述してきたような1つまたは複数の方法を行う命令を含む。情報キャリアは、例えば、トランシーバ368または外部インターフェース362を介して受信し得る、メモリ364、拡張メモリ374、またはプロセッサ352上のメモリなどといった、コンピュータまたはマシン可読媒体である。

デバイス350は、必要であればデジタル信号処理回路を含み得る、通信インターフェース366を介して無線で通信し得る。通信インターフェース366は、GSM(登録商標)音声通話、SMS、EMS、もしくはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRSなどといった、様々なモードまたはプロトコル下における通信のために提供され得る。そのような通信は、例えば、無線型トランシーバ368を介して、行われ得る。加えて、短距離通信は、Bluetooth(登録商標)、WiFi、または他のそのようなトランシーバ(図示せず)などを使用して、行われ得る。加えて、GPS(Global Positioning System)受信機モジュール370は、デバイス350上で動作するアプリケーションによって適切に使用され得る、追加のナビゲーションまたは位置関係無線データをデバイス350に提供し得る。

デバイス350はまた、ユーザが話した情報を受信しそれを利用可能なデジタル情報に変換し得るオーディオコーデック360を使用して音声で通信し得る。同様に、オーディオコーデック360はまた、例えばデバイス350のハンドセット内にあるスピーカなどを介して、ユーザに対する可聴音を生成し得る。そのような音は、音声電話通信の音を含み得るし、例えば、音声メッセージ、音楽ファイルなどの録音された音を含み得るし、デバイス350上で動作するアプリケーションによって生成された音も含み得る。

コンピュータデバイス350は、図に示したように、多数の異なる形式で実装され得る。例えば、セルラ電話380として実装され得る。また、スマートフォン382、携帯情報端末、または他の同様のモバイルデバイスの一部として実装され得る。

本明細書に記載のシステムおよび方法の様々な実施形態は、デジタル電子回路、集積回路、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、そのような実施形態のおよび/または組合せで実現し得る。これらの様々な実施形態は、特殊または汎用であり得るとともに、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信して、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスにデータおよび命令を送信するために結合された少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムの実施形態を含み得る。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサについてのマシン命令を含み、高次の手続き型および/またはオブジェクト指向プログラミング言語で、および/またはアセンブリ/マシン言語で実装され得る。本明細書で使用しているような、「マシン可読媒体」および「コンピュータ可読媒体」という用語は、マシン可読信号としてマシン命令を受信するマシン可読媒体を含む、マシン命令および/またはデータをプログラマブルプロセッサに提供するために使用される、例えば、磁気ディスク、光ディスク、メモリ、Programmable Logic Device(PLD)といった、任意のコンピュータプログラム製品、装置および/またはデバイスを指す。「マシン可読信号」という用語は、マシン命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとのインタラクションを提供するために、本明細書に記載のシステムおよび技法は、ユーザに情報を表示するための、例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタといった、表示デバイスと、例えば、ユーザが入力をコンピュータに提供することが可能となるマウスまたはトラックボールといった、キーボードおよびポインティングデバイスとを有するコンピュータに実装され得る。他の種類のデバイスも同様に、ユーザとのインタラクションを提供するために使用され得るし、例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックといった、任意の形式の感覚フィードバックであり得るし、ユーザからの入力は、音響、音声、または触覚入力を含む、任意の形式で受信され得る。

本明細書に記載のシステムおよび技法は、例えば、データサーバとして、バックエンドコンポーネントを含む、または、例えば、アプリケーションサーバといった、ミドルウェアコンポーネントを含む、または、例えば、ユーザがそれを介して本明細書に記載のシステムおよび技法の実施形態とのインタラクションを行い得るグラフィックユーザインターフェースもしくはWebブラウザを有するクライアントコンピュータといった、フロントエンドコンポーネントを含む、または、そのようなバックエンド、ミドルウェア、もしくはフロントエンドコンポーネントの任意の組合せを含む、コンピューティングシステムにおいて実施され得る。システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信によって相互接続され得るし、例えば、通信ネットワークによって相互接続され得る。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、およびインターネットを含む。

コンピューティングシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、一般的に互いにリモートに存在しており、通信ネットワークを介して通常はインタラクションを行う。クライアントとサーバとの関係は、それぞれのコンピュータ上で動作するとともに互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。

多数の実施形態を説明してきた。しかしながら、発明の精神および範囲から逸脱しない限り様々な修正を行い得ることは理解されよう。加えて、図に示したロジックフローは、望ましい結果を達成するために、図示した特定の順序またはシーケンシャル順序を必要とするわけではない。加えて、他のステップが提供されてもよいし、または説明したフローからステップを削除してもよいし、他のコンポーネントを、説明したシステムに追加してもよいし、または記説明したシステムから除去してもよい。それゆえ、他の実施形態も以下の特許請求の範囲の範囲内にある。

100 システム
110 自動音声認識器
112 音響モデル
114 言語モデル
120 言語モデル
130 音素展開器
140 再スコア決定器
302 プロセッサ
304 メモリ
306 ストレージデバイス
308 高速インターフェース
310 高速拡張ポート
312 低速インターフェース
314 低速拡張ポート
316 ディスプレイ
320 標準サーバ
322 ラップトップコンピュータ
324 ラックサーバシステム
350 デバイス
352 プロセッサ
354 ディスプレイ
356 ディスプレイインターフェース
358 制御インターフェース
360 オーディオコーデック
362 外部インターフェース
364 メモリ
366 通信インターフェース
368 トランシーバ
370 受信機モジュール
372 拡張インターフェース
374 拡張メモリ
380 セルラ電話
382 スマートフォン

Claims

コンピュータによって実施される方法であって、
自動音声認識器を使用して発話の初期候補トランスクリプションを取得するステップと、
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない言語モデルに基づいて、前記初期候補トランスクリプションに出現する1つまたは複数のタームと音素的に類似している1つまたは複数のタームを識別するステップと、
前記識別した1つまたは複数のタームに基づいて1つまたは複数の追加の候補トランスクリプションを生成するステップと、
前記候補トランスクリプションからトランスクリプションを選択するステップと
を含む、方法。
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルは、前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用される言語モデルにはない1つまたは複数のタームを含む、請求項1に記載の方法。
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルと前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用される言語モデルとの両方は、1つまたは複数のタームの配列を含むが、出現について異なる尤度を有するような前記配列を示す、請求項1または請求項2に記載の方法。
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルは、ワードまたはワードの配列が出現する尤度を示す、請求項1から3のいずれか一項に記載の方法。
前記候補トランスクリプションの各々について、どれくらいの頻度で前記候補トランスクリプションが話される見込みがあるかを反映する尤度スコアを決定するステップと、
前記候補トランスクリプションの各々について、前記候補トランスクリプションと前記発話との間の音素類似度を反映する音響一致スコアを決定するステップとを含み、
前記候補トランスクリプションから前記トランスクリプションを選択するステップは、前記音響一致スコアおよび前記尤度スコアに基づく、請求項1から4のいずれか一項に記載の方法。
前記候補トランスクリプションと前記発話との間の音素類似度を反映する音響一致スコアを決定するステップは、
サブワード音響一致スコアを前記自動音声認識器から取得するステップと、
前記候補トランスクリプションと一致する前記サブワード音響一致スコアのサブセットを識別するステップと、
前記候補トランスクリプションと一致する前記サブワード音響一致スコアの前記サブセットに基づいて前記音響一致スコアを生成するステップとを含む、請求項5に記載の方法。
どれくらいの頻度で前記候補トランスクリプションが話される見込みがあるかを反映する尤度スコアを決定するステップは、
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルに基づいて前記尤度スコアを決定するステップを含む、請求項5または請求項6に記載の方法。
前記識別した1つまたは複数のタームに基づいて1つまたは複数の追加の候補トランスクリプションを生成するステップは、
前記初期候補トランスクリプションに出現する1つまたは複数のタームと音素的に類似している前記識別した1つまたは複数のタームで前記初期候補トランスクリプションに出現する前記1つまたは複数のタームを置換するステップを含む、請求項1から7のいずれか一項に記載の方法。
システムであって、
1つまたは複数のコンピュータと、1つまたは複数のストレージデバイスとを含み、前記1つまたは複数のストレージデバイスは、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、
自動音声認識器を使用して発話の初期候補トランスクリプションを取得するステップと、
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない言語モデルに基づいて、前記初期候補トランスクリプションに出現する1つまたは複数のタームと音素的に類似している1つまたは複数のタームを識別するステップと、
前記識別した1つまたは複数のタームに基づいて1つまたは複数の追加の候補トランスクリプションを生成するステップと、
前記候補トランスクリプションからトランスクリプションを選択するステップと
を含む動作を行わせるように動作可能な命令を記憶する、システム。
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルは、前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用される言語モデルにはない1つまたは複数のタームを含む、請求項9に記載のシステム。
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルと前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用される言語モデルとの両方は、1つまたは複数のタームの配列を含むが、出現について異なる尤度を有するような前記配列を示す、請求項9または請求項10に記載のシステム。
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルは、ワードまたはワードの配列が出現する尤度を示す、請求項9から11のいずれか一項に記載のシステム。
前記候補トランスクリプションの各々について、どれくらいの頻度で前記候補トランスクリプションが話される見込みがあるかを反映する尤度スコアを決定するステップと、
前記候補トランスクリプションの各々について、前記候補トランスクリプションと前記発話との間の音素類似度を反映する音響一致スコアを決定するステップとを含み、
前記候補トランスクリプションから前記トランスクリプションを選択するステップは、前記音響一致スコアおよび前記尤度スコアに基づく、請求項9から12のいずれか一項に記載のシステム。
前記候補トランスクリプションと前記発話との間の音素類似度を反映する音響一致スコアを決定するステップは、
サブワード音響一致スコアを前記自動音声認識器から取得するステップと、
前記候補トランスクリプションと一致する前記サブワード音響一致スコアのサブセットを識別するステップと、
前記候補トランスクリプションと一致する前記サブワード音響一致スコアの前記サブセットに基づいて前記音響一致スコアを生成するステップとを含む、請求項13に記載のシステム。
どれくらいの頻度で前記候補トランスクリプションが話される見込みがあるかを反映する尤度スコアを決定するステップは、
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルに基づいて前記尤度スコアを決定するステップを含む、請求項13または請求項14に記載のシステム。
前記識別した1つまたは複数のタームに基づいて1つまたは複数の追加の候補トランスクリプションを生成するステップは、
前記初期候補トランスクリプションに出現する1つまたは複数のタームと音素的に類似している前記識別した1つまたは複数のタームで前記初期候補トランスクリプションに出現する前記1つまたは複数のタームを置換するステップを含む、請求項9から15のいずれか一項に記載のシステム。
1つまたは複数のコンピュータによって実行可能な命令を含むソフトウェアを記憶する非一時的コンピュータ可読媒体であって、前記命令は、その実行時に、前記1つまたは複数のコンピュータに、
自動音声認識器を使用して発話の初期候補トランスクリプションを取得するステップと、
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない言語モデルに基づいて、前記初期候補トランスクリプションに出現する1つまたは複数のタームと音素的に類似している1つまたは複数のタームを識別するステップと、
前記識別した1つまたは複数のタームに基づいて1つまたは複数の追加の候補トランスクリプションを生成するステップと、
前記候補トランスクリプションからトランスクリプションを選択するステップとを含む動作を行わせる、媒体。
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルは、前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用される言語モデルにはない1つまたは複数のタームを含む、請求項17に記載の媒体。
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルと前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用される言語モデルとの両方は、1つまたは複数のタームの配列を含むが、出現について異なる尤度を有するような前記配列を示す、請求項17に記載の媒体。
前記初期候補トランスクリプションを生成する際に前記自動音声認識器によって使用されていない前記言語モデルは、ワードまたはワードの配列が出現する尤度を示す、請求項17に記載の媒体。