JP2017513047A

JP2017513047A - 音声認識における発音予測

Info

Publication number: JP2017513047A
Application number: JP2016555771A
Authority: JP
Inventors: ペンロッドアダムス、ジェフリー; ウルハスパーリカル、アロク; ポールリリー、ジェフリー; ラストロー、アリヤ
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2014-03-04
Filing date: 2015-02-27
Publication date: 2017-05-25
Anticipated expiration: 2035-02-27
Also published as: US20150255069A1; CN106463113B; EP3114679A1; WO2015134309A1; EP3114679B1; EP3114679A4; CN106463113A; US10339920B2; JP6550068B2

Abstract

自動音声認識（ＡＳＲ）装置が、テキスト識別子の１つまたは複数の元言語の予測に基づきテキスト識別子（たとえば、曲名など）の発音を予測するよう構成されてもよい。１つまたは複数の元言語がテキスト識別子に基づいて判断されてもよい。１つの言語の発音、第２の言語の発音及び複数の言語を組み合わせる混合発音を含む混合発音が発音に含まれてもよい。発音はレキシコンに追加され、コンテンツアイテム（たとえば、曲）及び／またはテキスト識別子と照合されてもよい。ＡＳＲ装置は、コンテンツアイテムにアクセスするためのＡＳＲ装置を要求するユーザからの口頭での発話を受信してもよい。ＡＳＲ装置は、口頭での発話がレキシコン上のコンテンツアイテムの発音の１つと一致するか否かを判断する。ＡＳＲ装置はその後、口頭での発話が前潜在的なテキスト識別子の発音の１つに一致する際に、コンテンツにアクセスする。

Description

関連出願データの相互参照
本出願は、その全体が参照により本明細書に組み込まれる、２０１４年３月４日出願の米国特許出願第１４／１９６，０５５号に対する優先権を主張する。

ヒューマンコンピュータインタラクションは、人間が発話によって計算装置を制御し、これらの装置に入力を行うことができる段階まで進んでいる。計算装置は、受信した音声入力の様々な品質に基づく人間のユーザが話す語を識別する技術を利用する。このような技術は音声認識または自動音声認識（ＡＳＲ）と称される。言語処理技術と組み合わせた音声認識により、ユーザが発話した命令に基づく、ユーザによる計算装置の制御及びタスクの実行を可能にすることができる。音声認識はまたユーザの音声をテキストデータに変換してもよく、その後そのテキストデータは様々なテキストに基づくプログラム及びアプリケーションに提供されてもよい。

ヒューマンコンピュータインタラクションを向上させるためのコンピュータ、携帯端末、電話回線を利用したコンピュータシステム、キオスク、及び他の様々な装置は、音声認識を利用してもよい。

本開示をさらに完全に理解するために、ここで以下の説明を添付の図面と併せて参照する。

本開示の一態様による、語の元言語に基づく、外来語の予想発音の予測のための音声認識技術を示す。本開示の一態様による、分散型音声認識の利用のためのコンピュータネットワークを示す。本開示の一態様による、音声認識のための装置を概念的に示すブロック図である。本開示の一態様によって処理されるオーディオ波形を示す。本開示の一態様による、音声認識ラティス（ｌａｔｔｉｃｅ）を示す。本開示の一態様による、語の元言語に基づく、外来語の予想発音の予測のための音声認識方法を示す。本開示の一態様による、テキスト識別子を含む口頭での発話の処理のための音声認識方法を示す。

自動音声認識（ＡＳＲ）を実行することが可能な装置との対話において、ユーザはコンテンツアイテムにアクセスするための命令を発声してもよい。これらのコンテンツアイテムは装置のローカルに保存されてもよく、またはリモートに保存されてもよいが、装置によりアクセス可能である。たとえば、ユーザは計算装置に対して特定の音楽のアイテムを「再生する」ための命令を発声してもよい。口頭での命令は、発話と称されてもよい。音楽のアイテムは、テキスト識別子によって識別されてもよい。テキスト識別子は、曲、動画などのコンテンツのアイテムを識別するテキストであってもよい。例示的なテキスト識別子には、アーティスト名、バンド名、アルバム名、曲名、または再生される音楽を識別する他のいくつかのラベルが含まれる。

ＡＳＲシステムは、予想発音がテキスト識別子に基づく場合の、対応する予想発音に照合される保存されたテキスト識別子（すなわち、アーティスト名、バンド名、アルバム名、及び曲名）のレキシコン（ｌｅｘｉｃｏｎ）を有してもよい。レキシコンはローカルまたはリモートに保存されてもよい。ＡＳＲシステムは発話を受信する際、発話音声を保存された予想発音と照合し、検索のために発話を１つまたは複数のコンテンツアイテムと照合してもよい。たとえばユーザが「ＡＣ／ＤＣの曲を何か再生して」と述べると、システムは「ＡＣ／ＤＣ」に対応する音声を、対応する予想発音と、その後バンド名と照合してもよい。バンドが識別されると、装置はその後バンドに関連する曲を再生してもよい。

典型的なＡＳＲシステムは、それぞれ特定の言語に関連する。たとえば英語のＡＳＲシステムは英語を解するよう構成されてもよく、ドイツ語のＡＳＲシステムはドイツ語を解するよう構成されてもよい、など。いくつかのテキスト識別子は、ＡＳＲシステムの主言語ではない外国語に由来してもよい。これにより、ユーザが外国語のテキスト識別子の言語学的素性を利用してテキスト識別子を発音しようと試みる場合に混乱が生じる可能性がある。たとえば、ドイツ語の曲名またはドイツ語のバンド名のドイツ語の発音を利用して音楽をリクエストする発話を行うユーザは、英語に基づくＡＳＲシステムを混乱させる場合がある。同様に、ＡＳＲシステムが曲名のテキストに基づく異なる発音を予想している可能性があるため、ドイツ語の曲名の英語の発音を利用するユーザもまたＡＳＲシステムを混乱させる場合がある。

テキスト識別子の元言語の予測に基づく、テキスト識別子の予想発音の判断方法を提示する。元言語はテキスト識別子に基づき判断されてもよい。本開示のいくつかの態様においては、テキスト識別子の予想発音がまた、特定のユーザまたはユーザのカテゴリの発音履歴に基づいてもよい。予想発音には、元言語に基づく予想発音の組み合わせ、たとえばある元言語を有すると予想されるテキスト識別子の特定の音素及び異なる元言語を有すると予想されるテキスト識別子の別の音素を有する予想発音が含まれてもよい。さらに、それぞれの予想発音が発生可能性に関連する可能性がある場合、複数の予想発音がテキスト識別子ごとに判断されてもよい。可能性は、テキスト識別子、ユーザの行動、他のユーザの行動、または他の要因に基づいてもよい。

テキスト識別子の異なる予想発音がレキシコンに追加され、異なるユーザからの異なる発音に対応してもよい。予想発音は、音楽カタログ上に保存された曲などのコンテンツアイテムにリンクされてもよい。計算装置はテキスト識別子を含む口頭での発話を受信すると、発話を予想発音の修正されたレキシコンと照合することによって、口頭での発話にテキスト識別子が含まれるか否かを判断する。口頭での発話が予想発音と一致すると、計算装置は発話の命令部分において示されるように、たとえばリクエストされた曲の再生によってコンテンツ上で動作する。

図１は、本開示の一態様による、テキスト識別子の元言語に基づく、テキスト識別子の予想発音の予測のための音声認識技術を示す。図１は、予想発音予測モジュール１２８及びＡＳＲモジュール３１４を有するＡＳＲ装置１００ならびにＡＳＲ装置１００の近位に位置するユーザ１２０を含む。予想発音予測モジュール１２８は、ブロック１０２に示されるようにテキスト識別子（曲名など）にアクセスし、ブロック１０４に示されるようにテキスト識別子の元言語を判断するよう構成されてもよい。予測モジュール１２８はその後ブロック１０６に示すように、元言語に基づくテキスト識別子の１つまたは複数の予想発音を判断してもよい。予想発音はシステムによる検索のために、コンテンツアイテム（たとえば、曲）と照合されてもよい。予測モジュール１２８は、発話の受信前にＡＳＲシステムの動作の構成またはトレーニングを行う際に、これらのアクションを前もって実行してもよい。

ブロック１０８に示される装置の口頭での発話の受信の際に、発話はＡＳＲモジュール３１４に移行される。ＡＳＲモジュールはその後、ブロック１１０に示すように発話を予想発音と照合してもよい。その予想発音はその後、ブロック１１２に示すように、発話において言及された曲などのコンテンツアイテムに照合されてもよい。装置はその後ブロック１１４に示すように、コンテンツアイテムにアクセス（たとえば、曲を再生）してもよい。

図１は特定のモジュールによって実行されている特定のタスクを示すが、タスクは特定のＡＳＲシステムによって構成されるように、様々なモジュールによって実行されてもよい。

さらに本明細書に記載の技術は、ＡＳＲ装置１００、ネットワーク装置、または異なる装置のいくつかの組み合わせなどのローカル装置上で実行されてもよい。たとえば元言語及び（１つまたは複数の）予想発音の判断を実際に実行するために、ローカル装置及びリモート装置はローカル装置のテキスト識別子をリモート装置と交換してもよい。さらに、ローカル装置が口頭での発話を含む音声データを受信してもよい間、ローカル装置は音声データを処理のためにリモート装置に送信してもよい。リモート装置はその後、音声上のＡＳＲ処理を実行してもよい。ＡＳＲ結果はその後、発話のコンテンツアイテムとの照合及びコンテンツアイテムへのアクセスのためにローカル装置に送信されてもよく、またはリモート装置及びユーザへの再生のためにローカル装置に送信されたその結果（たとえば、ストリーミング曲）によってそれらのタスクが実行されてもよい。あるいは、ローカル装置及びリモート装置は他の方法でともに作用してもよい。

これらの複数のＡＳＲ装置はネットワークを介して接続されてもよい。図２に示すように、複数の装置がネットワーク２０２を介して接続されてもよい。ネットワーク２０２は、ローカルまたはプライベートネットワークを含んでもよく、またはインターネットなどの広域ネットワークを含んでもよい。装置は有線または無線接続のいずれかを通じてネットワーク２０２に接続されてもよい。たとえば無線装置２０４は、無線サービスプロバイダを通じてネットワーク２０２に接続されてもよい。コンピュータ２１２などの他の装置は、有線接続を通じてネットワーク２０２に接続してもよい。たとえば、家庭内または商業施設内に位置する冷蔵庫２１８などの他の装置は有線または無線接続を通じてネットワーク２０２に接続してもよい。ラップトップ２０８またはタブレットコンピュータ２１０などの他の装置は、様々な接続方法を利用したネットワーク２０２への接続が可能であってもよく、無線サービスプロバイダを通じて、ＷｉＦｉ接続などを介することを含む。ネットワーク装置は、ヘッドセット２０６または２１４などを介することを含む、いくつかの音声入力装置を通じて、口頭での音声を入力してもよい。音声入力装置は、有線または無線接続のいずれかを通じてネットワーク装置に接続されてもよい。ネットワーク装置はまた、ラップトップ２０８、無線装置２０４またはタブレットコンピュータ２１０内の内部マイクロホン（図示せず）などの埋め込み型音声入力装置を含んでもよい。

特定のＡＳＲシステム構成において、ある装置が音声信号をキャプチャしてもよく、別の装置がＡＳＲ処理を実行してもよい。たとえば、ヘッドセット２１４への音声入力はコンピュータ２１２によってキャプチャされ、処理のためにネットワーク２０２を介してコンピュータ２２０またはサーバ２１６へと送信されてもよい。あるいは、コンピュータ２１２はネットワーク２０２を介して送信する前に、音声信号を部分的に処理してもよい。ＡＳＲ処理は多大な計算リソースを利用してもよいため、音声をキャプチャする装置の処理能力がリモート装置よりも低く、より高質なＡＳＲ結果が所望される場合に、ストレージ及び処理能力の両方に関してこのような分割構成が利用されてもよい。ユーザ及び処理のために他の装置に送信されるキャプチャされた音声信号の近くで音声キャプチャが行われてもよい。たとえば、１つまたは複数のマイクロホンアレイがＡＳＲ装置とは異なる場所に位置してもよく、キャプチャされた音声が処理のためにアレイからＡＳＲ装置（または装置）に送信されてもよい。

図３は、音声認識を実行するための自動音声認識（ＡＳＲ）装置３０２を示す。本開示の態様は、ＡＳＲ装置３０２上に存在してもよいコンピュータ読み取り可能及びコンピュータ実行可能命令を含む。図３は、ＡＳＲ装置３０２内に含まれてもよいいくつかの構成要素を示すが、他の図示されない構成要素もまた含まれてもよい。また図示される構成要素のいくつかは、本開示の態様を利用することが可能なすべての装置内に存在するとは限らない。さらに、単一の構成要素としてＡＳＲ装置３０２内に示されるいくつかの構成要素はまた、単一の装置内に複数回出現してもよい。たとえばＡＳＲ装置３０２は、複数の入力装置３０６、出力装置３０７または複数の制御装置／処理装置３０８を含んでもよい。

単一の音声認識システム内で複数のＡＳＲ装置が利用されてもよい。このようなマルチデバイスシステムにおいて、ＡＳＲ装置は、音声認識処理の異なる態様を実行するための異なる構成要素を含んでもよい。複数の装置は、重複する構成要素を含んでもよい。図３に示されるようなＡＳＲ装置は例示であり、スタンドアロン装置であってもよく、またはその一部または全部がより規模の大きな装置またはシステムの構成要素として含まれてもよい。

本開示の教示は、たとえば、汎用計算システム、サーバクライアント計算システム、メインフレーム計算システム、電話回線を利用した計算システム、ラップトップコンピュータ、携帯電話、携帯情報端末（ＰＤＡ）、タブレットコンピュータ、他のモバイル装置などを含む、いくつかの異なる装置及びコンピュータシステム内で応用されてもよい。ＡＳＲ装置３０２はまた、たとえば現金自動預払機（ＡＴＭ）、キオスク、家電機器（冷蔵庫、オーブンなど）、乗り物（車、バス、オートバイなど）、及び／または運動機器などの音声認識機能を提供してもよい他の装置またはシステムの構成要素であってもよい。

ＡＳＲ装置３０２は図３に示すように、処理のために口頭での発話をキャプチャする音声キャプチャ装置３０４を含んでもよい。音声キャプチャ装置３０４は、音声をキャプチャするためのマイクロホンまたは他の好適な構成要素を含んでもよい。音声キャプチャ装置３０４はＡＳＲ装置３０２に一体化されてもよく、またはＡＳＲ装置３０２から分離されてもよい。ＡＳＲ装置３０２はまた、ＡＳＲ装置３０２の構成要素の間でのデータ搬送のためのアドレス／データバス３２４を含んでもよい。ＡＳＲ装置３０２内の各構成要素はまた、バス３２４をまたいでの他の構成要素への接続に加えて（またはそれに代えて）、他の構成要素に直接接続されてもよい。図３に特定の構成要素が直接接続されるように示されているが、これらの接続は例示にすぎず、他の構成要素が互いに直接接続されてもよい（ＡＳＲモジュール３１４が制御装置／処理装置３０８に、など）。

ＡＳＲ装置３０２は、データ及びコンピュータ読み取り可能命令の処理のための中央処理装置（ＣＰＵ）ならびにデータおよび命令の保存のためのメモリ３１０であってもよい制御装置／処理装置３０８を含んでもよい。メモリ３１０は、揮発性ランダムアクセスメモリ（ＲＡＭ）、不揮発性読み取り専用メモリ（ＲＯＭ）、及び／または他のタイプのメモリを含んでもよい。ＡＳＲ装置３０２はまた、データ及び命令の保存のためのデータストレージ構成要素３１２を含んでもよい。データストレージ構成要素３１２は、磁気ストレージ、光学ストレージ、固体ストレージなどの１つまたは複数のストレージタイプを含んでもよい。ＡＳＲ装置３０２はまた、入力装置３０６または出力装置３０７を通じてリムーバブルまたは外部メモリ及び／またはストレージ（リムーバブルメモリカード、メモリーキードライブ、ネットワークストレージなど）に接続されてもよい。ＡＳＲ装置３０２及びその様々な構成要素を操作する制御装置／処理装置３０８による処理のためのコンピュータ命令は、制御装置／処理装置３０８によって実行され、メモリ３１０、ストレージ３１２、外部装置内に、または以下に記載するＡＳＲモジュール３１４に含まれるメモリ／ストレージ内に保存されてもよい。あるいは実行可能命令の一部または全部が、ソフトウェアに加えてまたは代えてハードウェアまたはファームウェア内に埋め込まれてもよい。本開示の教示は、たとえばソフトウェア、ファームウェア、及び／またはハードウェアの様々な組み合わせにおいて実装されてもよい。

ＡＳＲ装置３０２は、（１つまたは複数の）入力装置３０６及び（１つまたは複数の）出力装置３０７を含む。様々な（１つまたは複数の）入力／出力装置が装置内に含まれてもよい。例示的な入力装置３０６は、（個別の構成要素として図示される）マイクロホンなどの音声キャプチャ装置３０４、タッチ入力装置、キーボード、マウス、スタイラスまたは他の入力装置を含む。例示的な出力装置３０７は、視覚ディスプレイ、触覚ディスプレイ、オーディオスピーカ、ヘッドホン、プリンタまたは他の出力装置を含む。入力装置３０６及び／または出力装置３０７はまた、ユニバーサルシリアルバス（ＵＳＢ）、ＦｉｒｅＷｉｒｅ（登録商標）、Ｔｈｕｎｄｅｒｂｏｌｔ（登録商標）または他の接続プロトコルなどの、外部周辺装置接続のためのインターフェイスを含んでもよい。入力装置３０６及び／または出力装置３０７はまた、イーサネット（登録商標）ポート、モデムネットなどのネットワーク接続部を含んでもよい。入力装置３０６及び／または出力装置３０７はまた、無線周波（ＲＦ）、赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、無線ローカルエリアネットワーク（ＷＬＡＮ）（ＷｉＦｉなど）などの無線通信装置、またはロングタームエボリューション（ＬＴＥ）ネットワーク、ＷｉＭＡＸネットワーク、３Ｇネットワークなどの無線通信ネットワークを用いた通信が可能な無線機などの無線ネットワーク装置を含んでもよい。ＡＳＲ装置３０２は入力装置３０６及び／または出力装置３０７を通じて、インターネットまたはプライベートネットワークなどの分散型コンピューティング環境を含んでもよいネットワークへの接続をおこなってもよい。

装置はまた、口頭での音声データのテキストへの処理のためのＡＳＲモジュール３１４を含んでもよい。ＡＳＲモジュール３１４は音声データを音声データに含まれる音声の語を表すテキストデータに書き写す。テキストデータはその後、システム命令の実行、データの入力などの様々な目的のための他の構成要素によって利用されてもよい。口頭での発話を含む音声データは、リアルタイムで処理されてもよく、または後で保存されかつ処理されてもよい。音声データ上の口頭での発話はＡＳＲモジュール３１４に入力され、ＡＳＲモジュール３１４はその後、発話とＡＳＲモジュール３１４に知られているモデルとの間の類似性に基づき発話を解釈する。たとえばＡＳＲモジュール３１４は入力音声データを音声（たとえば、音声単位または音素）及び音声のシーケンスのためのモデルと比較し、音声データの発話において発せられた音声のシーケンスに一致する語を識別してもよい。口頭での発話を解釈することができる異なる方法により、それぞれ特定の組の語が発話において発せられた語の組に一致する可能性を表す確率または認識スコアを割り当ててもよい。認識スコアは、たとえば発話における音声の言語音声のためのモデル（たとえば、音響モデル）との類似性及び音声に一致する特定の語が（たとえば、言語モデルまたは文法を利用して）特定の位置の文に含まれる可能性を含むいくつかの要因に基づいてもよい。考慮される要因及び割り当てられた認識スコアに基づき、ＡＳＲモジュール３１４は、音声データにおいて認識される最も見込みの高い語を出力してもよい。ＡＳＲモジュール３１４はまた、複数の代替的な認識された語をラティスまたはＮ−ｂｅｓｔリスト（以下により詳細に説明する）の形式で出力してもよい。

認識スコアは音声データの部分が特定の音素または語に対応する確率を表してもよい一方、認識スコアはまた、他の音声データのＡＳＲ処理に対するスコアをつけた音声データのＡＳＲ処理品質を示す他の情報を組み込んでもよい。認識スコアは、０から１までの確率、ログ確率または他のインジケータとして、１から１００までの数値として表されてもよい。認識スコアは音声データの一部が特定の音素、語などに対応する相対的な信頼度を示してもよい。

ＡＳＲモジュール３１４は、ＡＳＲ装置３０２のバス３２４、（１つまたは複数の）入力装置３０６及び／または（１つまたは複数の）出力装置３０７、音声キャプチャ装置３０４、エンコーダ／デコーダ３２２、制御装置／処理装置３０８及び／または他の構成要素に接続されてもよい。ＡＳＲモジュール３１４に送信された音声データは、リモートエンティティによってキャプチャされ、ネットワークを介してＡＳＲ装置３０２に送信された音声データのように、音声キャプチャ装置３０４から来てもよく、または入力装置３０６によって受信されてもよい。音声データは、口頭での発話のオーディオ波形のデジタル表現の形式であってもよい。サンプリングレート、フィルタリング、及びアナログデジタル変換処理の他の態様が音声データの全体的な品質に影響する可能性がある。音声キャプチャ装置３０４及び入力装置３０６の様々な設定は、品質とデータサイズまたは他の留意点との従来の兼ね合いに基づき音声データを調節するよう構成されてもよい。

ＡＳＲモジュール３１４は、音響フロントエンド（ＡＦＥ）３１６、音声認識エンジン３１８、及び音声ストレージ３２０を含む。ＡＦＥ３１６は音声データを、音声認識エンジン３１８による処理のためのデータに変換する。音声認識エンジン３１８は音声認識データを、元の音声データに含まれる音声の認識のために音声ストレージ３２０に保存された音響、言語、及び他のデータモデルならびに情報と比較する。ＡＦＥ３１６及び音声認識エンジン３１８は、それら自体の（１つまたは複数の）制御装置／（１つまたは複数の）処理装置及びメモリを含んでもよく、またはそれらはたとえばＡＳＲ装置３０２の制御装置／処理装置３０８及びメモリ３１０を利用してもよい。同様に、ＡＦＥ３１６及び音声認識エンジン３１８の操作のための命令は、ＡＳＲ装置３０２のメモリ３１０及び／若しくはストレージ３１２内のＡＳＲモジュール３１４内部、または外部装置内にあってもよい。

受信された音声データは処理のためにＡＦＥ３１６に送信されてもよい。ＡＦＥ３１６は、音声データ内のノイズを低減し、処理のために音声を含む音声データの部分を識別し、識別された音声構成要素を分割及び処理してもよい。ＡＦＥ３１６は、デジタル音声データを各フレームがたとえば１０ミリ秒（ｍｓ）の時間間隔を表すようなフレームまたは音声セグメントに分割してもよい。フレームの間に、ＡＦＥ３１６は、フレーム内の発話部分の素性／品質を表す素性ベクトルと呼ばれる値の組を決定する。素性ベクトルは、たとえば４０などの可変数の値を含んでもよい。素性ベクトルは、フレーム内の音声データの異なる品質を表してもよい。図４は、第１の語４０４が処理される際の第１の語４０４の複数の点４０６を有するデジタル音声データ波形４０２を示す。それらの点音声品質は素性ベクトルに保存されてもよい。素性ベクトルは、口頭での発話の時間を表すマトリクスに流れるかまたは組み合わせられてもよい。これらの素性ベクトルマトリクスはその後処理のために音声認識エンジン３１８へと移行してもよい。いくつかの手法が、音声データの処理のためにＡＦＥ３１６によって利用されてもよい。このような手法は、メル周波数ケプストラム係数（ＭＦＣＣ）、知覚的線形予測（ＰＬＰ）技術、ニューラルネットワーク素性ベクトル技術、線形判別分析、半結合共分散マトリクス、または当業者に知られる他の手法の利用を含んでもよい。

処理された素性ベクトルはその後ＡＳＲモジュール３１４から出力され、さらなる処理のために他の装置へと伝達する目的で出力装置３０７に送信されてもよい。素性ベクトルはエンコーダ／デコーダ３２２によって伝達の前に符号化かつ／または圧縮されてもよい。エンコーダ／デコーダ３２２は、デジタル音声データ、素性ベクトルなどのＡＳＲデータの符号化及び復号化のためにカスタマイズされてもよい。エンコーダ／デコーダ３２２はまた、たとえば．ｚｉｐなどの一般的な符号化方式を利用してＡＳＲ装置３０２の非ＡＳＲデータを符号化してもよい。エンコーダ／デコーダ３２２の機能は図３に示されるように個別の構成要素内にあってもよく、または、たとえば制御装置／処理装置３０８、ＡＳＲモジュール３１４、または他の構成要素によって実行されてもよい。

音声認識エンジン３１８は、音声ストレージ３２０内に保存された情報を参照してＡＦＥ３１６からの出力を処理してもよい。あるいは、フロントエンド後処理後のデータ（素性ベクトルなど）がＡＳＲモジュール３１４によって、内部ＡＦＥ３１６以外の別のソースより受信されてもよい。たとえば、別のエンティティが音声データを素性ベクトルへと処理し、その情報を（１つまたは複数の）入力装置３０６を通じてＡＳＲ装置３０２へと伝達してもよい。素性ベクトルは符号化されてＡＳＲ装置３０２に到達してもよく、この場合、音声認識エンジン３１８による処理の前に（たとえばエンコーダ／デコーダ３２２によって）復号化されてもよい。

音声ストレージ３２０は、音素の発音を特定の語と照合するデータなどの音声認識のための様々な情報を含む。このデータは、音響モデルと称されてもよい。音声ストレージはまた、語の辞書またはレキシコンを含んでもよい。音声ストレージはまた、テキスト識別子をそれらの識別子の予想発音と照合するレキシコンを含んでもよい。テキスト識別子は、カタログ上の音楽、アドレスブック上のコンテンツ、及び／またはＡＳＲ装置に（または他の場所に）保存された他のコンテンツなどのデジタルコンテンツを識別してもよい。テキスト識別子はまた、ＡＳＲシステム及び／またはユーザのデフォルト言語とは異なってもよい（１つまたは複数の）言語に由来する名を有してもよい食品（すなわち、材料、料理など）、レストラン、イベント、または他のアイテムなどの非デジタルアイテムを識別してもよい。音声ストレージはまた、特定のコンテキストにおいてともに利用しやすい語を示すデータを含んでもよい。このデータは、言語または文法モデルと称されてもよい。音声ストレージ３２０はまた、音声認識においてＡＳＲモジュール３１４によって利用されるモデルをトレーニングし改善するために利用されてもよい録音された音声及び／または対応するトランスクリプションを含んでもよいトレーニングコーパスを含んでもよい。トレーニングコーパスは、音響モデル及び言語モデルを含む音声認識モデルを事前にトレーニングするために利用されてもよい。モデルはその後、ＡＳＲ処理中に利用されてもよい。

トレーニングコーパスは、たとえば音響モデル及び言語モデルを作成するために利用されてもよい関連する素性ベクトル及び関連する正確なテキストを有するいくつかのサンプル発話を含んでもよい。サンプル発話は、特定の音声単位のための予想される音声に対応する数学的モデルを作成するために利用されてもよい。それらの音声単位は、音素、音節、音節の一部、語などを含んでもよい。音声単位はまた、トライフォン、クインフォンなどのコンテキスト上の音素を含んでもよい。音声において規則的に利用されるコンテキスト上の音素は、それ自体のモデルに関連してもよい。あまり一般的でないコンテキスト上の音素は、群モデルを有するようにクラスタ化されてもよい。音素群をこのようにクラスタ化することで、トレーニングコーパスに含まれるモデルが少なくなってもよく、したがってＡＳＲ処理を容易にする。トレーニングコーパスは、ＡＳＲモジュール３１４の異なる発話の比較を提供するための異なるスピーカからの同じ発話の複数のバージョンを含んでもよい。トレーニングコーパスはまた、正確に認識された発話及び不正確に認識された発話を含んでもよい。これらの不正確に認識された発話は、ＡＳＲモジュール３１４に、たとえばエラータイプ及び対応する訂正の実施例を提供する文法エラー、誤認識エラー、ノイズ、または他のエラーを含んでもよい。トレーニングコーパスは外来語を含み、このような語を認識するようＡＳＲシステムをトレーニングしてもよい。トレーニングコーパスはまた、以下に記載するようにシステム性能を向上させるために特定のユーザの傾向を組み込むよう適合されてもよい。

他の情報はまた、音声認識における利用のために音声ストレージ３２０内に保存されてもよい。音声ストレージ３２０のコンテンツが一般的なＡＳＲの利用のために用意されてもよく、または、特定のアプリケーションにおいて利用しやすい音声及び語を含むようにカスタマイズされてもよい。たとえばＡＴＭ（現金自動預払機）におけるＡＳＲ処理のために、音声ストレージ３２０は、銀行取引の固有のカスタマイズされたデータを含んでもよい。場合によっては、音声ストレージ３２０はユーザの個別化された音声入力に基づき、個別のユーザのためにカスタマイズされてもよい。性能を向上させるために、ＡＳＲモジュール３１４は、ＡＳＲ処理の結果のフィードバックに基づき音声ストレージ３２０のコンテンツを修正／更新し、ＡＳＲモジュール３１４がトレーニングコーパスにおいて提供された能力を上回るよう音声認識を向上させることを可能にしてもよい。

音声認識エンジン３１８は、受信された素性ベクトルを音声ストレージ３２０において知られるような語または部分語単位と照合するよう試みる。部分語単位は音素、コンテキスト上の音素、音節、音節の一部、コンテキスト上の音節、または語の任意の他のこのような部分であってもよい。音声認識エンジン３１８は音響情報及び言語情報に基づき、素性ベクトルのための認識スコアを計算する。素性ベクトル群によって表される意図された音声が部分語単位に一致する可能性を表す音響スコアを計算するために、音響情報が利用される。どの音声及び／または語がコンテキスト上で互いに利用されるかを考慮することによって音響スコアを調節し、それによってＡＳＲモジュールが文法的に意味の通る音声結果を出力する可能性を向上させるために、言語情報が利用される。

音声認識エンジン３１８は、素性ベクトルを音素またはダイフォン、トライフォンなどの他の表音単位と照合するためのいくつかの技術を利用してもよい。ある一般的な技術は、隠れマルコフモデル（ＨＭＭ）を利用している。素性ベクトルが音素に一致してもよい確率を判断するために、ＨＭＭが利用される。ＨＭＭを利用して、その状態がともに潜在的な音素（またはトライフォンなどの他の音声単位）を表し、各状態が混合ガウスモデルなどのモデルに関連するような、いくつかの状態が示される。状態間の遷移はまた、以前の状態から現在の状態に到達することができる可能性を表す関連する確率を有してもよい。受信された音声はＨＭＭの状態間の経路として表されてもよく、複数の経路は同じ音声に関する複数の可能性のあるテキストの一致を表してもよい。各音素は、音素の異なる既知の発音及びそれらの部分（口頭での言語音声の冒頭、中央、及び末尾など）に対応する複数の潜在的な状態によって表されてもよい。潜在的な音素の確率の初期判断は、１つの状態に関連してもよい。新しい素性ベクトルが音声認識エンジン３１８によって処理される際、状態は新しい素性ベクトルの処理に基づき、変化するかまたは同じままであってもよい。処理された素性ベクトルに基づく状態の最も見込みの高いシーケンスを発見するために、ビタビアルゴリズム（Ｖｉｔｅｒｂｉａｌｇｏｒｉｔｈｍ）が利用されてもよい。

確率及び状態はいくつかの技術を利用して計算されてもよい。たとえば各状態のための確率は、素性ベクトル及び音声ストレージ３２０のコンテンツに基づくガウスモデル、混合ガウスモデル、または他の技術を利用して計算されてもよい。最尤推定（ＭＬＥ）などの技術が、音素状態の確率を推定するために利用されてもよい。

ある音素のための潜在的な状態の、素性ベクトルとの潜在的な一致としての計算に加え音声認識エンジン３１８はまた、別の音素のための潜在的な状態を、素性ベクトルとの潜在的な一致として計算してもよい。このように、複数の状態及び状態遷移確率が計算されてもよい。

音声認識エンジン３１８によって計算された可能性の高い状態及び可能性の高い状態遷移が経路内に構成されてもよい。各経路は、素性ベクトルによって表される音声データと潜在的に一致する音素の進展を表す。１つの経路は各音素のために計算された認識スコアに応じて、１つまたは複数の他の経路と重複してもよい。特定の確率は、状態から状態への各遷移に関連する。累積経路スコアはまた、経路ごとに計算されてもよい。ＡＳＲ処理の一部としてスコアを組み合わせる際、所望の組み合わせられたスコアに到達するためにスコアが乗算されて（または他の方法で組み合わされて）もよく、または確率がログ領域に変換され、処理の補助のために追加されてもよい。

音声認識エンジン３１８は、潜在的な経路を音声認識結果を表すラティスへと組み合わせてもよい。サンプルラティスが図５に示される。ラティス５０２は、音声認識結果の複数の潜在的な経路を示す。大きなノード間の経路は潜在的な語（たとえば「ｈｅｌｌｏ」、「ｙｅｌｌｏｗ」など）を表し、より小さなノード間の経路は潜在的な音素（たとえば「Ｈ」、「Ｅ」、「Ｌ」、「Ｏ」及び「Ｙ」、「Ｅ」、「Ｌ」、「Ｏ」）を表す。例示の目的のために、個別の音素はラティスの第１の２つの語のためのみに示される。ノード５０４とノード５０６との間の２つの経路は、「ｈｅｌｌｏｈｏｗ」または「ｙｅｌｌｏｗｎｏｗ」の２つの潜在的な語の選択を表す。ノード（潜在的な語などの）間の各経路の点は、認識スコアに関連する。ラティスをまたぐ各経路にまた、認識スコアが割り当てられてもよい。認識スコアが音響モデルスコアの組み合わせである場合の最高の認識スコア経路、言語モデルスコア、及び／または他の要因は、関連する素性ベクトルのためのＡＳＲ結果として音声認識エンジン３１８によって返されてもよい。

ＡＳＲ処理に続き、ＡＳＲ結果がＡＳＲモジュール３１４によってさらなる処理（解釈されたテキストに含まれる命令の実行など）のために制御装置／処理装置３０８などのＡＳＲ装置３０２の別の構成要素へと、または外部装置への送信のために出力装置３０７へと送信されてもよい。

音声認識エンジン３１８はまた、言語モデルまたは文法に基づき経路の分岐のスコアを計算してもよい。言語モデルは、意味の通った語及び文を形成するためにどの語がともに利用しやすいかについてスコアの判断を利用する。言語モデルの応用により、ＡＳＲモジュール３１４が音声データ内に含まれる音声を正確に解釈する可能性が向上してもよい。たとえば口頭での発話内のそれぞれの語の言語コンテキストに基づき「ＨＥＬＯ」（語「ｈｅｌｌｏ」として解釈される）、「ＨＡＬＯ」（語「ｈａｌｏ」として解釈される）、及び「ＹＥＬＯ」（語「ｙｅｌｌｏｗ」として解釈される）の認識スコアを調節するために、「ＨＥＬＯ」、「ＨＡＬＯ」、及び「ＹＥＬＯ」の潜在的な音素経路を返す音響モデル処理が言語モデルによって調節されてもよい。言語モデルは音声ストレージ３２０内に保存されたトレーニングコーパスから判断されてもよく、また特定のアプリケーションのためにカスタマイズされてもよい。特定の次の語を知覚する確率が前のｎ−１語のコンテキスト履歴に依拠する、Ｎ−ｇｒａｍモデルなどの技術を利用して言語モデルが実行されてもよい。Ｎ−ｇｒａｍモデルはまた、次の語を知覚する確率が前の語（バイグラムモデルの場合）または前の２つの語（トリグラムモデルの場合）に依拠するバイグラム（ｎ＝２である）及びトリグラム（ｎ＝３である）モデルとして構成されてもよい。音響モデルはまた、Ｎ−ｇｒａｍ技術を応用してもよい。

言語モデルの一部として（またはＡＳＲ処理の他の段階において）、音声認識エンジン３１８は計算リソースを保存するために、言語モデルに従う低い認識スコアまたは他の理由のいずれかにより口頭での発話に対応する可能性がほとんどない低い認識スコア状態または経路を取り除き破棄してもよい。さらにＡＳＲ処理中に音声認識エンジン３１８は、すでに処理された発話部分における付加的な処理パスを反復的に実行してもよい。結果を洗練させ改善するために、後のパスが前のパスの結果を組み込んでもよい。音声認識エンジン３１８が潜在的な語を入力音声から判断する際に、ラティスは多くの潜在的な音声及び語が入力音声との潜在的な一致として見なされるように非常に大きくなってもよい。語の結果のネットワークとして潜在的な一致が示されてもよい。音声認識結果のネットワークは、認識されてもよい音声単位の可能性のあるシーケンス及び各シーケンスの可能性を表すアークならびにノードの接続されたネットワークである。語の結果のネットワークは、語レベルでの音声認識結果のネットワークである。他のレベルでの音声認識ネットワークもまた可能である。結果のネットワークは、任意のタイプの音声認識デコーダ（またはエンジン）によって生成されてもよい。たとえば結果のネットワークは、有限状態トランスデューサ（ＦＳＴ）によってデコーダに基づいて生成されてもよい。最高のスコア結果のラティスまたはＮ−ｂｅｓｔリストなどの音声認識結果の最終組を作成するために、結果のネットワークが利用されてもよい。ニューラルネットワークはまた、ＡＳＲ処理を実行するために利用されてもよい。

音声認識エンジン３１８は、音声認識エンジン３１８によって判断されるように、上位Ｎ個の経路に対応する経路のＮ−ｂｅｓｔリストをそのそれぞれの認識スコアとともに返してもよい。Ｎ−ｂｅｓｔリストを受信するアプリケーション（ＡＳＲ装置３０２の内部若しくは外部のいずれかの、プログラムまたは構成要素など）はその後、リスト及び関連する認識スコアを考慮してリスト上でさらなる動作または分析を実行してもよい。たとえばエラーの訂正ならびに様々な選択肢及びＡＳＲモジュール３１４の処理条件のトレーニングにおいて、Ｎ−ｂｅｓｔリストが利用されてもよい。音声認識エンジン３１８は最善の結果を有する実際の正確な発話をＮ−ｂｅｓｔリスト上の他の結果と比較し、不正確な認識が特定の認識スコアを受信した理由を判断してもよい。音声認識エンジン３１８はその後の処理の試みにおける不正確な手法の認識スコアを低減させるために、その手法を訂正してもよい（また、音声ストレージ３２０内の情報を更新してもよい）。

コンテンツアイテムに関する音声命令を処理するためにＡＳＲ装置が利用されてもよい。コンテンツアイテム自体がＡＳＲ装置上にローカルに保存されるか（携帯電話上の音楽コレクションなど）、またはリモートに保存されてもよい（リモートサーバからストリーミングされてもよい映画など）。それらのコンテンツアイテムは、たとえば、音楽、電子書籍（ｅブック）、映画、コンタクト情報、文書、ショートメッセージサービス通信、ｅメール及び／若しくは他の音声、動画またはテキスト情報を含んでもよい。ＡＳＲ装置のユーザは、再生、編集、転送などを含む様々な目的でのこのようなコンテンツアイテムへのアクセスを要求してもよい。たとえばユーザは、携帯電話がユーザからの口頭での要求に応じて音楽を再生することができるように要求してもよい。ユーザからの要求を実行するために、コンテンツアイテムのカタログが語の辞書またはレキシコンにリンクされてもよい。レキシコンは、個別のコンテンツアイテムにリンクされたテキスト識別子であってもよいテキスト識別子を含んでもよい。たとえばテキスト識別子は、アーティスト名、アルバム名、曲／映画／ｅブックのタイトルなどを含んでもよい。各テキスト識別子はカタログ上のコンテンツの１つまたは複数のアイテム（複数の曲にリンクされているバンド名など）に対応してもよく、各コンテンツアイテムは１つまたは複数のテキスト識別子（曲名、バンド名、アルバム名などにリンクされる曲など）にリンクされてもよい。テキスト識別子はまた、デジタルコンテンツ以外のアイテムを参照してもよい。

上述のように、レキシコンはまた各テキスト識別子の１つまたは複数の予想発音を含んでもよく、それによってユーザは音声命令を通じて関連するコンテンツアイテムにアクセスすることができる。たとえばユーザは、アーティスト名、アルバムまたは曲名を口に出すことによって音楽カタログ上に保存された曲の再生を試みてもよい。予想発音は、語の綴りに基づいて判断されてもよい。綴りに基づく語の予想発音の判断の処理は、書記素音素（Ｇ２Ｐ）変換または発音の推測（一般的に発音推測と称される）として定義される。場合によって、テキスト識別子は外来語を含んでもよい。例示の目的のために、本応用において言及される外来語（または外国語）は、ＡＳＲシステムのデフォルト言語に対して外国語に由来すると考えられる。本明細書に記載の技術が異なる言語に基づくＡＳＲシステムに応用されてもよいが、ＡＳＲシステムのデフォルト言語は本目的のために英語として示される。

異なる言語の語または言語学的素性を組み込むテキスト識別子のＡＳＲ処理を補助するために、本開示はテキスト識別子の言語の由来に基づいてテキスト識別子の１つまたは複数の発音を予想するようＡＳＲシステムが構成されるシステムを提供する。本開示の一態様において、ＡＳＲシステムはテキスト識別子に基づいてテキスト識別子の元言語を判断する。ＡＳＲシステムはその後、テキスト及び識別された元言語に基づきテキスト識別子の予想発音を判断する。ＡＳＲシステムは、各々が関連する可能性を有する特定のテキスト識別子の複数の予想発音を判断してもよい。予想発音（及び／またはそれらの関連する可能性）はまた、ユーザまたはユーザ群の発音傾向に基づいて調節されてもよい。予想発音はＡＳＲシステムによる最終的な検索のために、レキシコンに追加され、そのそれぞれのコンテンツアイテムにリンクされてもよい。

元言語を判断するために、綴り／テキスト識別子に基づく言語の由来を予測する分類子をＡＳＲシステムが利用してもよい。分類子は、文字に基づく統計的モデルなどの統計的モデルであってもよい。テキスト識別子（たとえば、バンド名）は文献、段落などの長い形式のテキストに対して短くてもよいため、元言語の予測のための分類子は、他の言語予測システムによって利用されてもよい段落の列をなす複数のテキストに基づく検知よりも短いテキストの基本的な言語単位に重点を置いてもよい。たとえば分類子は、１つまたは複数の言語（たとえば、言語Ａ、ＢまたはＣ）における文字のシーケンスの可能性を識別するようにトレーニングされてもよい。いくつかの態様において、各言語の可能性が個別に学習されてもよい。分類子はまた、異なる言語の語のためのｎ−ｇｒａｍに基づく文字モデルを実装してもよい。ｎ−ｇｒａｍは、ＡＳＲシステムの異なる構成による、音節、文字、語または塩基対などのアイテムのシーケンスに基づいてもよい。

語の綴りが特定の言語に一致する可能性を表すスコアが割り当てられてもよい。たとえばスコアは、テキスト識別子（またはその部分）が由来する可能性の高い２つ以上の言語に割り当てられてもよい。いくつかの態様においてスコアは、元言語の識別を改善させるために異なる言語のそれぞれに割り当てられた確率的重みであってもよい。外国語のための最高スコアを有する１つまたは複数の言語が元言語として識別されてもよい。テキストが「Ｇｏｔｙｅ」である場合、たとえば、確率的重みの７０％がフランス語に、また３０％がドイツ語に割り当てられてもよい。この判断に基づき、フランス語及びドイツ語の両方の語の予想発音ならびに対応する確率的重みがレキシコンに追加されてもよい。本実装態様により、テキストの最も見込みの高い元言語の選択が可能になる。一態様において、テキスト識別子の一部が異なる元言語スコアを有してもよい。たとえば「ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎ」の氏名の最初の語はドイツ語の高いスコアを有してもよいが、一方で中央の語がオランダ語の高いスコアなどを有してもよい。語の一部はまた、互いに異なる言語スコアを有してもよい。以下に記載の異なる予想発音を作成するために、このような異なるスコアが利用されてもよい。

いくつかの態様においては、言語の素性が展開される機械学習分類子に基づく分類子が実装されてもよい。素性は、テキスト識別子の語列の冒頭、中央または末尾において特定の文字の組み合わせを含んでもよい。これらの素性に基づき、素性を組み込みやすい異なる言語にスコアが割り当てられてもよい。たとえば分類子は、オランダ語の元言語を示す語列の中央におけるＶ−Ａ−Ｎの存在などの素性を識別する。分類子はテキスト識別子がそれらの言語のそれぞれに由来する可能性に基づく、点または重みを潜在的な元言語のそれぞれに割り当てる。他の分類子モデルは、サポートベクトルマシン／モデルまたは最大エントロピーモデル、文字レベル言語モデル及び条件付き確率場モデルを含む。これらのモデルは、最も見込みの高い元言語のスコアをつけるために、異なる言語のための素性及びスコアを組み合わせてもよい。

開示のいくつかの態様においては、コンテンツアイテムに関連する他のテキスト識別子の元言語に基づいて外国語の元言語が判断されてもよい。たとえば特定のアーティストの１つまたは複数の曲名または曲の歌詞がドイツ語である場合、アーティスト名がドイツ語に由来する可能性が増大してもよい。この場合、アーティスト名の元言語を判断するための証拠として曲名が利用されてもよい。さらに、他のテキスト識別子は識別されるコンテンツに関連するメタデータを含んでもよい。たとえばデジタルコンテンツのアイテムは、テキスト識別子の元言語を識別するかまたは識別するために利用されてもよいメタデータに関連してもよい。元言語の判断を調節するためにテキスト識別子間の他の関係が探求してもよい。

１つまたは複数の元言語がテキスト識別子（またはその部分）に関連すると、システムはテキスト識別子の（１つまたは複数の）元言語及びテキストに基づき、テキスト識別子の（１つまたは複数の）予想発音を判断してもよい。

開示のいくつかの態様において、書記素音素（Ｇ２Ｐ）変換または発音推測モデルなどの変換モデルが各潜在的な元言語のために展開されてもよい。変換モデルは外国語のテキストの綴りから外国語のテキストの発音を導き出す。各言語は、音素などの異なる言語単位を含む。外国語の予想発音を判断するために、クロスリンガルマッピング技術が利用されてもよい。第１の言語（たとえば、ドイツ語）の音素が、第１の言語の音素に最も類似する第２の言語（たとえば、英語）の音素にマッピングされてもよい。しかし、ドイツ語のいくつかの発音／音素は、標準的な英語の音素に類似または対応しない場合がある。たとえばＫｒａｆｔｗｅｒｋの最初の文字「ｒ」のドイツ語の発音は英語の音素に対応しない。文字「ｒ」のドイツ語の発音は実際には、文字「ｈ」の発音と文字「ｒ」の発音の中間の「口蓋垂音／ｒ／」である。このような場合には、ドイツ語の音素は、最も近い英語の音素にマッピングされてもよい。

本開示の一態様において、外国語の最も近い発音を判断するために、言語学的技術が利用される。たとえば外国語の最も近い発音を判断するために、「奥舌性」、「円唇性」の部位または調音などの言語学的調音素性が実装されてもよい。調音部位は、発声中に調音器官（たとえば、舌、歯、軟口蓋など）が空気の流れを制限し、形成し、または閉じる口腔内の部位であってもよい。実施例には、両唇音（唇の間）、歯唇音（唇と歯との間）、歯茎音（歯のすぐ後方）、及び口蓋垂音（口蓋垂付近）が含まれる。「奥舌性」は、音声（通常は母音）がのどに向かって調音される度合いとして定義されてもよい。後舌母音は、「ｃａｕｇｈｔ」の「ａｕ」、「ｒｏｔｅ」の「ｏ」、及び「ｌｕｔｅ」の「ｕ」を含んでもよい。「円唇性」または「円唇化」は、度合いとして定義されてもよい。音声（母音であることが多いが、常にそうではない）は唇を丸めて調音される。円唇母音は、「ｒｏｔｅ」の「ｏ」、及び「ｌｕｔｅ」の「ｕ」を含む。対象の音素を有する外国語のいくつかの実施例を認識するために、たとえば英語音素認識装置などの第１の言語認識装置を利用して、言語学的技術が応用されてもよい。認識装置はその後、外国語の潜在的な発音を判断する。

複数の語の関連及びその対応する発音を分析し、新しい語の予想発音を判断するために、いくつかの言語学的技術（たとえば、期待値最大化アルゴリズム、統計的モデル、隠れマルコフモデル（ＨＭＭ））が利用されてもよい。たとえば文字シーケンス、音素シーケンス及びそれぞれの語の音声との間の関連を判断するために、ドイツ語を含むレキシコン及び対応するドイツ語の発音が分析されてもよい。たとえば期待値最大化アルゴリズムは、いくつかの例外を除いて英語での文字Ｐ−ＨがＦとして発音されてもよいことを学習してもよい。期待値最大化アルゴリズムはまた、Ｅが「ｅｅ」に対して「ｅｈ」などといつ発音されるかを学習してもよい。モデルは期待値最大化アルゴリズムの分析に基づいて展開され、新しい音素シーケンスを、またその後新しい語の予想発音を予測するために利用されてもよい。外国語の予想発音を判断するために、言語学的技術が他の技術とともに利用されてもよい。

言語学的技術はまた、（１つまたは複数の）元言語に基づくテキスト識別子のための複数の代替的な発音の予測を可能にする。たとえば各テキスト識別子の複数の発音がグラフによって表されてもよい。グラフの異なる部分が、テキスト識別子の異なる部分のための可能性のある発音を表してもよい。グラフの辺などのグラフの一部は、グラフ上の経路の可能性を示す割り当てられたスコアまたは重みであってもよい。異なる言語（たとえば、英語及びドイツ語）を表すために、異なるグラフが展開されてもよい。たとえば英語及びドイツ語の発音のために、個別のグラフが展開されてもよい。しかしいくつかの態様において外国語の混合発音を予測するために、個別のグラフがともに組み合わせられてもよい。テキスト識別子の発音が進展する際の２つの言語の入れ替えが組み合わせグラフにより可能になるが、これはユーザがある言語に有利に働くテキスト識別子の部分及び別の言語に有利に働くテキスト識別子の他の部分を発音してもよい状況において望ましい。

たとえばドイツのバンド「Ｋｒａｆｔｗｅｒｋ」は、ドイツ語で（たとえば、ＫＨＨＡＡＦＴＶＥＨＲＫ）発音されてもよい。しかし一部のユーザはドイツ語の発音に不慣れである可能性があり、バンド名「Ｋｒａｆｔｗｅｒｋ」を英語として（たとえば、ＫＲＡＥＦＴＷＵＲＫ）発音してもよい。さらに一部のユーザについては、バンド名の発音の選択に一貫性がない可能性がある。結果としてテキスト識別子（バンド名「Ｋｒａｆｔｗｅｒｋ」など）が、各予想発音それ自体がテキスト識別子の（１つまたは複数の）元言語を含む複数の異なる言語に基づいてもよい複数の予想発音と照合されてもよい。

一部のユーザは第１の元言語を有しながら、ユーザが異なる言語で意思を疎通する（またはＡＳＲ装置を操作する）国に居住してもよい。これらのユーザは、ユーザの元言語を含む複数の言語からの発音の組み合わせを利用して外国語を発音してもよい。ユーザは外国語の一部を第１の言語で、他の部分を１つまたは複数の異なる言語で発音してもよい。たとえばユーザは、バンド名、Ｋｒａｆｔｗｅｒｋの第１の部分を英語で（たとえば、ＫＲＡＥＦＴ）、第２の部分をドイツ語で（たとえば、ＶＥＨＲＫ）発音してもよい。

英語の発音、ＫＲＡＥＦＴＷＵＲＫ、ドイツ語の発音、ＫＨＨＡＡＦＴＶＥＨＲＫのそれぞれ及び組み合わせの発音ＫＲＡＥＦＴＶＥＨＲＫは、レキシコンに追加される際に、バンド名と照合されてもよい。複数の予想発音及びバンド名は、ＡＳＲ装置または他の場所に保存されたバンドによる曲にリンクされてもよい。

外国語の予想発音はまた、特定のユーザの発音履歴に基づいてもよい。たとえばＡＳＲシステムは、特定のユーザの発音パターンまたは癖を認識するようにトレーニングされてもよい。語がその語の綴りに基づきフランス語に８０％、かつ英語に２０％の重みである場合、分類子または音声認識モデルは特定のユーザの癖に基づき、言語に割り当てられる重みを調節してもよい。発音パターンはまた、特定のユーザが好む言語のランクに基づいてもよい。たとえば言語に割り当てられる重みは、ユーザが好む（１つまたは複数の）言語に基づき調節されてもよい。たとえばＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎの名は、そのドイツ語及びオランダ語の由来のために、異なるバージョンの発音を有してもよい。この場合、重みがドイツ語（たとえば、６０％）及びオランダ語（たとえば、４０％）に割り当てられてもよい。ＬｕｄｗｉｇｖａｎＢｅｅｔｈｏｖｅｎの名などの外来語を発音する際、特定のユーザが英語、ドイツ語またはオランダ語のどれを好むかに基づき、割り当てられた重みが調節されてもよい。結果としての発音は、ドイツ語、オランダ語及び英語の混合または組み合わせであってもよい。

ユーザの発音パターンは、ユーザによる同一のまたは異なる語の発音の履歴に基づき判断されてもよい。ＡＳＲ装置は発音パターンまたは履歴に基づき、ユーザによる同一のまたは異なる語の今後の発音を予期してもよい。ＡＳＲ装置はまた、ユーザが１つまたは複数の言語の発音に慣れているか否かを、ユーザの発音パターンに基づき学習してもよい。たとえばバンド名、Ｋｒａｆｔｗｅｒｋの発音のユーザの履歴に基づいて、

または「ＧｕｓｔａｖＭａｈｌｅｒ」などの他のドイツ語のユーザの発音をＡＳＲ装置が予期してもよい。ＡＳＲ装置はまたユーザの発音パターンに基づき、重みを特定のユーザのために、様々な言語に割り当ててもよい。たとえばＡＳＲ装置は、外来語の発音の際にユーザが好む発音（たとえば、１つの言語または言語の組み合わせ）により大きな重みを割り当ててもよい。同様に特定のユーザが好む言語または好む経路のグラフ上の表現が、より高いスコアまたは重みを割り当てられてもよい。より高いスコアの割り当てにより、グラフのこれらの経路はユーザによる外国語の予想発音を表しやすくなる。したがって予想発音は、予想発音のグラフ、予想発音のＮ−ｂｅｓｔリスト、または予想発音の他のいくつかの構成に関連してもよい。

さらに類似の行動を有する複数のユーザは、予想発音の重み付けまたは判断の目的のために一緒にクラスタ化されてもよい。クラスタ化されたユーザのための自動音声認識技術の素性が、クラスタ化されたユーザの行動に基づいて選択される。たとえばユーザのクラスタは、類似の音楽的嗜好（たとえば、インド由来の音楽）を有してもよく、そのためにインド音楽が大半を占める音楽カタログを有してもよい。結果として、クラスタに含まれる新しいユーザからの発音はクラスタ内の他のユーザと同様に処理されてもよく、または（外国語の可能性のある発音を表す）グラフに沿った類似の経路をたどってもよい。ユーザのクラスタに関連する音声認識技術の対応する素性（たとえば、発音、好ましい言語など）に、重みが割り当てられてもよい。したがって（外国語の可能性のある発音を表す）グラフは類似の行動パターンを有するユーザの行動パターンまたはユーザのクラスタに基づいて、トリミングされてもよい。

図６は本開示の一態様による、音声認識における元言語に基づく、外国語のテキスト予想発音の予測のための方法のフロー図を示す。予想発音予測モジュール１２８、ＡＳＲ装置１００及び／またはリモート音声処理装置（たとえば、ＡＳＲ装置３０２）において、方法が実装されてもよい。ブロック６０２において、ユーザが利用できるようになるコンテンツが、ＡＳＲ装置１００が利用できるカタログに組み込まれてもよい。ブロック６０４において、１つまたは複数のテキスト識別子がブロック６０４に示すようにコンテンツアイテムにリンクされてもよい。ブロック６０６において、ＡＳＲシステムが（１つまたは複数の）テキスト識別子に基づいて、１つまたは複数の元言語を判断してもよい。（１つまたは複数の）元言語はそれぞれ、（１つまたは複数の）テキスト識別子のスコア及び／または特定の部分に関連してもよい。ブロック６０８においては、ＡＳＲシステムが判断された（１つまたは複数の）元言語に少なくとも部分的に基づき、テキスト識別子の１つまたは複数の予想発音を判断してもよい。（１つまたは複数の）元言語に基づく（１つまたは複数の）予想発音はそれぞれ、（１つまたは複数の）テキスト識別子のスコア及び／または特定の部分に関連してもよい。ブロック６１０において、ＡＳＲシステムはユーザ情報及び／またはユーザ履歴に少なくとも部分的に基づき、テキスト識別子の（１つまたは複数の）予想発音を判断してもよい。ユーザ履歴は母国語またはユーザが頻繁に利用する言語を含んでもよい。ユーザ履歴はまた、ユーザが類似の語を以前発音した方法を含んでもよい。ユーザ情報はまた、装置またはユーザの環境の判断された（１つまたは複数の）言語を含んでもよい。装置によって検知された他の音声において識別された（１つまたは複数の）言語を判断することによってまたは他の手段を通じて地理的領域の既知の（１つまたは複数の）言語を有する相関する位置データによって判断されてもよい、装置の位置において利用される言語を、環境の言語が含んでもよい。環境の言語はまた、ＡＳＲシステムのデフォルト言語を含んでもよい。ユーザの（１つまたは複数の）言語に基づく（１つまたは複数の）予想発音はそれぞれ、（１つまたは複数の）テキスト識別子のスコア及び／または特定の部分に関連してもよい。

ブロック６１２において、ＡＳＲシステムは予想発音を組み合わせ、テキスト識別子の（１つまたは複数の）元言語及び判断されたユーザの（１つまたは複数の）言語の組み合わせに少なくとも部分的に基づき、テキスト識別子の１つまたは複数の予想発音を判断してもよい。ユーザの（１つまたは複数の）言語の組み合わせに基づく（１つまたは複数の）予想発音はそれぞれ、（１つまたは複数の）テキスト識別子のスコア及び／または特定の部分に関連してもよい。ブロック６１４においては、ユーザの典型的な発音またはユーザのカテゴリなどのユーザ履歴に基づき、（１つまたは複数の）予想発音及び／若しくは重みのそれぞれまたはそれらの優先度が調節されてもよい。ブロック６１６において、（１つまたは複数の）予想発音は、レキシコン上の（１つまたは複数の）テキスト識別子及び／またはコンテンツアイテムに関連してもよい。

予想発音の上述の判断は、トレーニングまたはＡＳＲシステムの構成中に行われてもよく、またはＡＳＲ装置が新しいコンテンツを利用することができるようになった際に、ローカルストレージへの追加を通じて、若しくはＡＳＲ装置にアクセス可能になるがリモートに保存されることによって、実行されてもよい。予想発音の判断は、ローカルＡＳＲ装置、リモートＡＳＲ装置、またはその組み合わせによって実行されてもよい。

図７に示すように、ＡＳＲシステムは口頭での発話の受信時に発話を処理してもよい。ブロック７０２において、口頭でのテキスト識別子を含む発話が受信される。ブロック７０４においてＡＳＲシステムは、口頭でのテキスト識別子をテキスト識別子のための（１つまたは複数の）予想発音と照合してもよい。照合には、潜在的な一致のＮ−ｂｅｓｔリストを返すこと、または単に最高のスコア照合を返すことが含まれてもよい。ブロック７０６において、最高のスコア照合テキスト識別子に関連するコンテンツアイテムが判断される。ブロック７０８において、コンテンツアイテムがアクセスされ、発話に関連する任意の命令（音楽の再生など）がＡＳＲシステムによって、または別の装置によって実行されてもよい。

本開示の上述の態様は、例示を意図したものである。それらは本開示の原理及び応用を説明するために選択され、すべてを網羅することや本開示を限定することを意図していない。開示された態様の多くの修正や変形が当業者には明らかである。たとえば音声ストレージ内に保存された言語情報に基づく、本明細書に記載のＡＳＲ技術が多くの異なる言語に応用されてもよい。

本開示の態様は、コンピュータ実装方法、システムとして、またはメモリ装置若しくは非一時的コンピュータ読み取り可能記憶媒体などの製品として実装されてもよい。コンピュータ読み取り可能記憶媒体はコンピュータによって読み取り可能であってもよく、コンピュータまたは他の装置に本開示に記載の処理を実行させるための命令を含んでもよい。コンピュータ読み取り可能記憶媒体は、揮発性コンピュータメモリ、不揮発性コンピュータメモリ、ハードドライブ、固体メモリ、フラッシュドライブ、リムーバブルディスク、及び／または他の媒体によって実装されてもよい。

本開示の態様は、異なる形式のソフトウェア、ファームウェア、及び／またはハードウェアにおいて実行されてもよい。さらに本開示の教示は、たとえば特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他の構成要素によって実行されてもよい。

本開示の態様は単一の装置上で実行されてもよく、または複数の装置上で実行されてもよい。たとえば本明細書に記載の１つまたは複数の構成要素を含むプログラムモジュールは異なる装置内に位置してもよく、それぞれが本開示の１つまたは複数の態様を実行してもよい。本開示において使用されるとき、「ａ」または「ｏｎｅ」の用語は特段の記述がない限り、１つまたは複数のアイテムを含んでもよい。さらに、「ｂａｓｅｄｏｎ」の語句は特段の記述がない限り、「ｂａｓｅｄａｔｌｅａｓｔｉｎｐａｒｔｏｎ」を意味することを意図している。

条項

条項１
口頭での発話を処理するためのコンピュータ実装された方法であって、
曲名の綴りに少なくとも部分的に基づいて、前記曲名の少なくとも１つの元言語を判断するステップと、
前記少なくとも１つの元言語及びユーザが発話した言語に少なくとも部分的に基づいて前記曲名の複数の潜在的な発音を判断するステップであって、前記複数の潜在的な発音のそれぞれがスコアに関連する、前記判断するステップと、
前記複数の潜在的な発音のそれぞれと前記曲名との間の関連を保存するステップと、
曲の再生の要求を含む口頭での発話を受信するステップと、
前記複数の潜在的な発音の１つのスコアに少なくとも部分的に基づく、前記口頭での発話の部分を前記複数の潜在的な発音の１つと照合するステップと、
前記複数の潜在的な発音の１つに少なくとも部分的に基づく前記曲を識別するステップと、
計算装置上で前記曲を再生をさせるステップと、
を含む、前記方法。

条項２
前記複数の潜在的な発音を判断するステップがさらに、少なくとも１つの元言語が前記曲名と共通である語のユーザの発音履歴に少なくとも部分的に基づく、請求項１に記載の方法。

条項３
第１の元言語の前記曲名の１つの部分及び第２の元言語の前記曲名の第２の部分との関連付けにより、少なくとも１つの潜在的な発音を判断するステップをさらに含む、請求項１に記載の方法。

条項４
前記曲名の前記少なくとも１つの元言語を判断するステップが、前記計算装置によって再生可能な他の曲の元言語に少なくとも部分的に基づく、請求項１に記載の方法。

条項５
計算システムであって、
少なくとも１つの処理装置と、
アクションの組を実行するための、前記少なくとも１つの処理装置によって実行されるよう動作可能な命令を含むメモリ装置であって、前記命令は、少なくとも１つのプロセッサが、
潜在的な元言語がテキスト識別子に少なくとも部分的に基づくような、テキスト識別子の前記潜在的な元言語を判断し、
潜在的な発音が前記潜在的な元言語及び潜在的な口頭での言語に少なくとも部分的に基づくような、前記テキスト識別子の前記潜在的な発音を判断し、
前記潜在的な発音と前記テキスト識別子との間の関連を保存するよう構成する、前記メモリ装置と、
を含む、前記計算システム。

条項６
前記命令は前記少なくとも１つの処理装置が、
前記テキスト識別子のための前記第２の潜在的な元言語を判断し、前記第２の潜在的な元言語が前記テキスト識別子に少なくとも部分的に基づき、
前記テキスト識別子の第２の潜在的な発音を判断し、前記第２の潜在的な発音が前記第２の潜在的な元言語に少なくとも部分的に基づき、
前記第２の潜在的な発音との前記テキスト識別子間の関連を保存するようにさらに構成する、条項５に記載の計算システム。

条項７
前記潜在的な元言語、第２の潜在的な元言語、潜在的な発音及び第２の潜在的な発音が、それぞれのスコアにそれぞれ関連する、条項６に記載の計算システム。

条項８
前記少なくとも１つの処理装置が前記テキスト識別子の第２の潜在的な元言語を判断するようさらに構成され、
前記潜在的な元言語が前記テキスト識別子の第１の部分に関連し、
前記第２の潜在的な元言語が前記テキスト識別子の第２の部分に関連し、
前記潜在的な発音が前記第２の潜在的な元言語に少なくとも部分的にさらに基づく、
条項５に記載の計算システム。

条項９
前記少なくとも１つの処理装置が、ユーザの発音履歴に少なくとも部分的にさらに基づいて前記潜在的な発音を判断するようさらに構成される、条項５に記載の計算システム。

条項１０
ユーザの前記発音履歴が前記ユーザが発話した言語を含む、条項９に記載の計算システム。

条項１１
前記少なくとも１つの処理装置が、前記テキスト識別子に関連する第２のテキスト識別子の元言語に少なくとも部分的にさらに基づいて前記潜在的な元言語を判断するようさらに構成される、条項５に記載の計算システム。

条項１２
前記命令は少なくとも１つのプロセッサが、
発話を含む音声データを受信し、
前記発話における前記潜在的な発音を識別し、
前記保存された関連に基づいて前記テキスト識別子を識別し、
前記テキスト識別子に関連するコンテンツアイテムの少なくとも一部を検索するよう
さらに構成する、条項５に記載の計算システム。

条項１３
前記計算装置によってアクセスされるアーティスト、アルバム、バンド、映画、書籍、曲及び／または食品の名称を前記テキスト識別子が含む、条項５に記載の計算システム。

条項１４
前記潜在的な口頭での言語が前記システムの装置の位置に関連する言語を含む、条項５に記載の計算システム。

条項１５
前記少なくとも１つの処理装置が有限状態トランスデューサ（ＦＳＴ）モデル、最大エントロピーモデル、文字レベル言語モデル及び／または条件付き確率場モデルの少なくとも１つを利用して、前記テキスト識別子の前記潜在的な発音を判断するようさらに構成される、条項５に記載の計算システム。

条項１６
テキスト識別子のための潜在的な元言語を判断するためのプログラムコードであって、前記潜在的な元言語がテキスト識別子に少なくとも部分的に基づく前記プログラムコードと、
前記テキスト識別子の潜在的な発音を判断するためのプログラムコードであって、前記潜在的な発音が前記潜在的な元言語及び潜在的な口頭での言語に少なくとも部分的に基づく前記プログラムコードと、
前記潜在的な発音と前記テキスト識別子との間の関連を保存するためのプログラムコードと、
を含む、計算装置を制御するための処理装置実行可能命令を保存する非一時的コンピュータ読み取り可能記憶媒体。

条項１７
前記テキスト識別子のための第２の潜在的な元言語を判断するためのプログラムコードであって、前記第２の潜在的な元言語が前記テキスト識別子に少なくとも部分的に基づく前記プログラムコードと、
前記テキスト識別子の第２の潜在的な発音を判断するためのプログラムコードであって、前記第２の潜在的な発音が前記第２の潜在的な元言語に少なくとも部分的に基づく前記プログラムコードと、
前記第２の潜在的な発音と前記テキスト識別子との間の関連を保存するためのプログラムコードと、
をさらに含む、条項１６に記載の非一時的コンピュータ読み取り可能記憶媒体。

条項１８
前記潜在的な元言語、第２の潜在的な元言語、潜在的な発音及び第２の潜在的な発音がそれぞれのスコアにそれぞれ関連する、条項１７に記載の非一時的コンピュータ読み取り可能記憶媒体。

条項１９
前記テキスト識別子の第２の潜在的な元言語を判断するためのプログラムコードをさらに含む、非一時的コンピュータ読み取り可能記憶媒体であって、
前記潜在的な元言語が前記テキスト識別子の第１の部分に関連し、
前記第２の潜在的な元言語が前記テキスト識別子の第２の部分に関連し、
前記潜在的な発音が前記第２の潜在的な元言語に少なくとも部分的にさらに基づく、
条項１６に記載の前記非一時的コンピュータ読み取り可能記憶媒体。

条項２０
ユーザの発音履歴に少なくとも部分的にさらに基づき前記潜在的な発音を判断するためのプログラムコードをさらに含む、条項１６に記載の非一時的コンピュータ読み取り可能記憶媒体。

条項２１
ユーザの前記発音履歴が前記ユーザが発話した言語を含む、条項２０に記載の非一時的コンピュータ読み取り可能記憶媒体。

条項２２
前記テキスト識別子に関連する第２のテキスト識別子の元言語に少なくとも部分的にさらに基づき、前記潜在的な元言語を判断するためのプログラムコードをさらに含む、条項１６に記載の非一時的コンピュータ読み取り可能記憶媒体。

条項２３
発話を含む音声データを受信するためのプログラムコードと、
前記発話における前記潜在的な発音を識別するためのプログラムコードと、
前記保存された関連に基づき前記テキスト識別子を識別するためのプログラムコードと、
前記テキスト識別子に関連するコンテンツアイテムの少なくとも一部分を検索するためのプログラムコードと、
をさらに含む、条項１６に記載の非一時的コンピュータ読み取り可能記憶媒体。

条項２４
前記計算装置によってアクセスされる前記テキスト識別子がアーティスト、アルバム、バンド、映画、書籍、曲及び／または食品の名称を含む、条項１６に記載の非一時的コンピュータ読み取り可能記憶媒体。

条項２５
前記潜在的な口頭での言語が前記システムの装置の位置に関連する、条項１６に記載の非一時的コンピュータ読み取り可能記憶媒体。

条項２６
前記テキスト識別子の前記潜在的な発音を判断するための前記プログラムコードが、有限状態トランスデューサ（ＦＳＴ）モデル、最大エントロピーモデル、文字レベル言語モデル及び／または条件付き確率場モデルに少なくとも部分的に基づく、条項１６に記載の非一時的コンピュータ読み取り可能記憶媒体。

Claims

口頭での発話を処理するためのコンピュータ実装された方法であって、
曲名の綴りに少なくとも部分的に基づいて、前記曲名の少なくとも１つの元言語を判断するステップと、
前記少なくとも１つの元言語及びユーザが発話した言語に少なくとも部分的に基づいて前記曲名の複数の潜在的な発音を判断するステップであって、前記複数の潜在的な発音のそれぞれがスコアに関連する、前記判断するステップと、
前記複数の潜在的な発音のそれぞれと前記曲名との間の関連を保存するステップと、
曲の再生の要求を含む口頭での発話を受信するステップと、
前記複数の潜在的な発音の１つのスコアに少なくとも部分的に基づく、前記口頭での発話の部分を前記複数の潜在的な発音の１つと照合するステップと、
前記複数の潜在的な発音の１つに少なくとも部分的に基づく前記曲を識別するステップと、
計算装置上で前記曲を再生をさせるステップと、
を含む、前記方法。
前記複数の潜在的な発音を判断するステップがさらに、少なくとも１つの元言語が前記曲名と共通である語のユーザの発音履歴に少なくとも部分的に基づく、請求項１に記載の方法。
第１の元言語の前記曲名の１つの部分及び第２の元言語の前記曲名の第２の部分との関連付けにより、少なくとも１つの潜在的な発音を判断するステップをさらに含む、請求項１に記載の方法。
前記曲名の前記少なくとも１つの元言語を判断するステップが、前記計算装置によって再生可能な他の曲の元言語に少なくとも部分的に基づく、請求項１に記載の方法。
計算システムであって、
少なくとも１つの処理装置と、
アクションの組を実行するための、前記少なくとも１つの処理装置によって実行されるよう動作可能な命令を含むメモリ装置であって、前記命令は、少なくとも１つのプロセッサが、
潜在的な元言語がテキスト識別子に少なくとも部分的に基づくような、テキスト識別子の前記潜在的な元言語を判断し、
潜在的な発音が前記潜在的な元言語及び潜在的な口頭での言語に少なくとも部分的に基づくような、前記テキスト識別子の前記潜在的な発音を判断し、
前記潜在的な発音と前記テキスト識別子との間の関連を保存するよう構成する、前記メモリ装置と、
を含む、前記計算システム。
前記命令は前記少なくとも１つの処理装置が、
前記テキスト識別子のための前記第２の潜在的な元言語を判断し、前記第２の潜在的な元言語が前記テキスト識別子に少なくとも部分的に基づき、
前記テキスト識別子の第２の潜在的な発音を判断し、前記第２の潜在的な発音が前記第２の潜在的な元言語に少なくとも部分的に基づき、
前記第２の潜在的な発音との前記テキスト識別子間の関連を保存するようさらに構成する、
請求項５に記載の計算システム。
前記潜在的な元言語、第２の潜在的な元言語、潜在的な発音及び第２の潜在的な発音が、それぞれのスコアに関連する、請求項６に記載の計算システム。
前記少なくとも１つの処理装置が前記テキスト識別子の第２の潜在的な元言語を判断するようさらに構成され、
前記潜在的な元言語が前記テキスト識別子の第１の部分に関連し、
前記第２の潜在的な元言語が前記テキスト識別子の第２の部分に関連し、
前記潜在的な発音が前記第２の潜在的な元言語に少なくとも部分的にさらに基づく、
請求項５に記載の計算システム。
前記少なくとも１つの処理装置が、ユーザの発音履歴に少なくとも部分的にさらに基づいて前記潜在的な発音を判断するようさらに構成される、請求項５の計算システム。
ユーザの前記発音履歴が前記ユーザが発話した言語を含む、請求項９に記載の計算システム。
前記少なくとも１つの処理装置が前記テキスト識別子に関連する第２のテキスト識別子の元言語に少なくとも部分的にさらに基づいて前記潜在的な元言語を判断するようさらに構成される、請求項５に記載の計算システム。
前記命令は少なくとも１つのプロセッサが、
発話を含む音声データを受信し、
前記発話における前記潜在的な発音を識別し、
前記保存された関連に基づいて前記テキスト識別子を識別し、
前記テキスト識別子に関連するコンテンツアイテムの少なくとも一部を検索するよう、
さらに構成する、請求項５に記載の計算システム。
前記計算装置によってアクセスされるアーティスト、アルバム、バンド、映画、書籍、曲及び／または食品の名称を前記テキスト識別子が含む、請求項５の計算システム。
前記潜在的な口頭での言語が前記システムの装置の位置に関連する言語を含む、請求項５に記載の計算システム。
前記少なくとも１つの処理装置が有限状態トランスデューサ（ＦＳＴ）モデル、最大エントロピーモデル、文字レベル言語モデル及び／または条件付き確率場モデルの少なくとも１つを利用して、前記テキスト識別子の前記潜在的な発音を判断するようさらに構成される、請求項５に記載の計算システム。