JP2017521724A

JP2017521724A - 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識

Info

Publication number: JP2017521724A
Application number: JP2017503577A
Authority: JP
Inventors: ラジャットパシニ，
Original assignee: ハーマンインターナショナルインダストリーズインコーポレイテッド
Priority date: 2014-07-24
Filing date: 2015-07-24
Publication date: 2017-08-03
Anticipated expiration: 2035-07-24
Also published as: CN106663422A; KR102388992B1; JP6585154B2; EP3172729A1; EP3172729A4; EP3172729B1; CA2952836A1; CN106663422B; KR20170035905A; WO2016014970A1; US20170169814A1; US10290300B2

Abstract

コンピュータシステムで音声を認識する実施形態を開示する。音声認識方法の例は、アクセント付き部分文字列のデータベースを備える生成ユニットでメタデータを受信することと、メタデータに含まれるワードに関してアクセントを訂正した音声表記データであって、データベースに記憶されたアクセント付き部分文字列に基づいて、メタデータに含まれたワードの異なる発音を表すアクセントを訂正した音声表記データを生成ユニットを介して生成することと、ユーザが音声認識システムに入力した発話から引き出された抽出音声データを音声認識エンジンで受信することと、アクセントを訂正した音声表記データを音声認識エンジンで受信することと、を含む。と、認識された音声データを音声制御装置に出力することと、をさらに含む。【選択図】図３

Description

関連出願の相互参照
本出願は、２０１４年７月２４日出願のインド仮特許出願第３６１８／ＣＨＥ／２０１４号「ＴＥＸＴＲＵＬＥＢＡＳＥＤＭＵＬＴＩ‐ＡＣＣＥＮＴＳＰＥＥＣＨＲＥＣＯＧＮＩＴＩＯＮＷＩＴＨＳＩＮＧＬＥＡＣＯＵＳＴＩＣＭＯＤＥＬＡＮＤＡＵＴＯＭＡＴＩＣＡＣＣＥＮＴＤＥＴＥＣＴＩＯＮ」の優先権を主張し、あらゆる目的で、その内容全体を参照により本明細書に組み込む。

本開示は、音声認識に関し、より詳細には、複数アクセントの音声認識に関する。

同じ言語の複数アクセントを音声認識することは、組み込み機器業界にとっての課題である。通常、この問題は、大まかに分けた異なる地理に亘って、様々なアクセントに対して異なる音響モデルを有することによって解決される。例えば、北アメリカ、イギリス、オーストラリア、及び、インドの英語は、認識のための異なる音響モデルを有する。

各音響モデルを用いてさえ、地域的なアクセントが追加の課題となり得る。例えば、インドでは、英語は、各地域の母語の次に２番目に最もよく話される言語であるが、インドの異なる地域に亘って、その地域の多くの英語アクセントがある。これらの地域アクセントは、１つの音響モデルに基づいた音声認識にとっての課題である。音声認識は、アクセントに特化した複数の認識装置を並行に採用する複数アクセント認識システムを使用し得る。異なる音響モデルを用いたアクセント特化認識装置を複数、並行して運転して認識精度を向上させることは、プロセッサ集約的となり得る。この集約的なリソース使用は、処理能力が限られている組み込み機器にとっては特に難しいことがある。さらに、アクセントに特化した音響モデルの開発及び使用は、費用効果的ではない。

複数アクセントの問題を克服する手法の１つは、最もよく混同される音声対を分析して、音声的転用対（ｐｈｏｎｅｔｉｃｔｒａｎｓｆｅｒｐａｉｒｓ）を形成することである。これらの発音転用対（ｐｒｏｎｕｎｃｉａｔｉｏｎｔｒａｎｓｆｅｒｐａｉｒｓ）は、次に、元の基準語彙集に加えられて、最終的に、そのアクセントに適合された新しい辞書が構築される。要するに、そのアプローチは、アクセント付き発音に関して、使用されていない本来のアクセントの音声表記を最も可能性の高い音声記号の組み合わせで置き換えることを含む。音響モデルにも、内部で認識エンジンによって認識される記号にもアクセスが限られているまたはアクセスがないと、この分析が可能でない場合がある。

アクセント付き音声表記及び変換ＩＤ生成ユニットを備える音声認識システムの例の実施形態を開示する。アクセント付き音声表記及び変換ＩＤ生成ユニットは、アクセント付き部分文字列のデータベースを備え、メタデータと、メタデータに関連付けられた第１のＩＤデータ空間のＩＤデータとを受信する。アクセント付き音声表記及び変換ＩＤ生成ユニットは、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントと一意に関連付けられた複数の修正されたワードを提供し、複数の修正されたワードを処理し、複数の修正されたワードの複数のアクセントを訂正した音声表記データを提供する。アクセントを訂正した音声表記データは、それぞれ、処理されて、複数の変換ＩＤを第２のＩＤデータ空間に提供する。変換ＩＤは、それぞれ、複数のアクセントを訂正した音声表記データのうちの関連する音声表記データに一意に関連付けられている。音声特徴抽出器ユニットは、ユーザ入力音声を受信、処理し、ユーザ入力音声に関連付けられた抽出音声データを提供する。音声認識論理ユニットは、抽出音声データ、複数の変換ＩＤ、及び、複数のアクセントを訂正した音声表記データを受信し、末尾（ｔｅｒｍｉｎａｌ）に対応する末尾識別子と、音声表記のうちの１つがユーザ入力音声に関連付けられた抽出音声データに最も一致するアクセントデータとを提供する。アクセント検出及び逆ＩＤ変換ユニットは、末尾識別子を受信して、第１のＩＤデータ空間に確認されたＩＤを提供する。アクセント結果重み付け論理ユニットは、検出したアクセントデータを受信して、検出したアクセントデータの過去の値と比較して、認識された音声データを提供する。

アクセント付き音声表記及び変換ＩＤ生成ユニットは、複数のアクセントを訂正した音声表記データを提供する書記素‐音声表記ユニットを備えてよい。

アクセント付き音声表記及び変換ＩＤ生成ユニットは、変換ＩＤアロケータを備えてよく、変換ＩＤアロケータは、アクセントを訂正した音声表記データ及びＩＤデータを受信して、複数の変換ＩＤを第２のＩＤデータ空間に提供する。

音声認識論理ユニットは、ある言語に関連付けられた文法ファイルを含むコンテキストユニットを備える。テキストエントリは、例えば、連絡先データベースの電話連絡先名を含んでよく、または、例えば、曲名、アーティスト名、ジャンル名、アルバム名等、メディアプレーヤに関連付けられた任意の他のメタデータであってよい。

プロセッサで行われる音声認識方法の例は、メタデータ及び元のＩＤ空間のＩＤデータを受信し、複数の修正されたワードであって、それぞれ、メタデータと、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた複数の修正されたワードを提供し、複数の修正されたワードを処理して、複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供する。アクセントを訂正した音声表記データは、処理されて、変換ＩＤ空間に複数の変換ＩＤを提供する。複数の変換ＩＤは、それぞれ、複数のアクセントを訂正した音声表記データのうちの関連する音声表記データに一意に関連付けられている。ユーザ入力音声データが、受信、処理されて、ユーザ入力音声データに関連付けられた抽出音声データを提供する。抽出音声データ、複数の変換ＩＤ、及び、複数のアクセントを訂正した音声表記データは、処理されて、末尾に対応する末尾識別子を提供し、且つ、ユーザ入力音声データに関連付けられた抽出音声データに一致する音声表記のアクセントデータを提供する。末尾識別子は、処理されて、元のＩＤデータ空間に確認されたＩＤを提供し、検出したアクセントデータは、検出したアクセントデータの過去の値と比較されて、認識された音声データを提供する。

音声制御装置、プロセッサ、及び、プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法の別の例であって、当該方法は、アクセント付き部分文字列のデータベースを備えるアクセント付き音声表記及び変換ＩＤ生成ユニットでメタデータを受信することと、メタデータに含まれたワードに関するアクセントを訂正した音声表記データであって、データベースに記憶されたアクセント付き部分文字列に基づいてメタデータに含まれたワードの異なる発音を表すアクセントを訂正した音声表記データを、アクセント付き音声表記及び変換ＩＤ生成ユニットを介して、生成することと、ユーザが音声認識システムに入力した発話から引き出された抽出音声データを音声認識エンジンで受信することと、を含む。音声認識方法の例は、アクセントを訂正した音声表記データを音声認識エンジンで受信することと、抽出音声データ内の認識された発話を識別する１つまたは複数の末尾ＩＤを音声認識エンジンで決定することと、認識された発話内の検出されたアクセントを識別するアクセントデータを音声認識エンジンで生成することと、１つまたは複数の末尾ＩＤとアクセントデータとに基づいて、認識された音声データを生成することと、認識された音声データを音声制御装置に出力することと、をさらに含む。

上記特徴及び以下に説明する特徴は、記載した各組み合わせだけでなく、他の組み合わせで、または、個別に、使用できることは理解されたい。発明のこれら及び他の目的、特徴、及び、利点は、添付の図面に示す発明の実施形態の詳細な説明を考慮すると明らかになる。

開示は、添付の図面を参照しながら、制限を目的としない実施形態の以下の記載を読むとよりよく理解される。

本開示の１つまたは複数の実施形態に係る、車両のキャビンを示す部分図の例である。本開示の１つまたは複数の実施形態に係る、車載コンピュータシステムの例を示す図である。本開示の１つまたは複数の実施形態に係る、音声認識システムの例を示すブロック図である。本開示の１つまたは複数の実施形態に係る、アクセント付き音声表記及びＩＤ生成論理ユニットの例を示すブロック図である。本開示の１つまたは複数の実施形態に係る、図３の音声認識システムの例を備える処理システムの例を示すブロック図である。本開示の１つまたは複数の実施形態に係る、音声認識を行う方法を示すフローチャートである。

アクセント付きワード生成器を備える複数アクセントの音声認識システムに関するシステム及び方法を本明細書に開示する。当該生成器は、個々のアクセントに関して、入力ワードに最も類似した音の新しいワードを提供する。これは、システムが支援するアクセント全てに関して行われる。アクセント付きワード生成の基本は、個々のアクセントに関して、元のワード内の文字の組み合わせに基づいた文字列置換論理である。ＩＤ生成器モジュールは、アクセントを認識すると、元のワードのＩＤ、及び、アクセントの識別に使用できる置換されたワードの変換ＩＤを生成する。

図１は、音声認識システムのため環境の１つのタイプである車両１０２のキャビン１００の内部の部分図の例を示す。キャビン１００には、運転者及び／または１人若しくは複数の同乗者が座ってよい。図１の車両１０２は、駆動輪（図示せず）と内燃機関１０４とを備える自動車であってよい。車両１０２は、前方車両であってもよく、後方車両であってもよい。内燃機関１０４は、１つまたは複数の燃焼室を備えてよく、燃焼室は、吸気通路を介して吸気を受け取り、排気通路を介して燃焼ガスを排気してよい。車両１０２は、あらゆるタイプの車両のうち自動車であってよい。ある例においては、車両１０２は、ハイブリッド推進システムを備えてよく、ハイブリッド推進システムは、車両の動き及び／またはエンジンからエネルギーを吸収し、吸収したエネルギーをエネルギー蓄積装置に蓄積するのに適したエネルギー形態に変換するように動作可能なエネルギー変換装置を備える。車両１０２は、車両に電力を供給するための燃料電池、太陽エネルギー捕捉要素、及び／または、他のエネルギー蓄積システムを組み込んだ完全電気自動車を含んでよい。

図示のように、インストルメントパネル１０６は、車両１０２の運転者（ユーザとも呼ばれる）がアクセス可能な様々なディスプレイ及びコントロールを備えてよい。例えば、インストルメントパネル１０６は、車載コンピュータシステム１０９（例えば、インフォティンメントシステム）のタッチスクリーン１０８、オーディオシステムコントロールパネル、及び、インストルメントクラスタ１１０を備えてよい。図１に示すシステム例は、別個のオーディオシステムコントロールパネルなしに、タッチスクリーン１０８等、車載コンピュータシステム１０９のユーザインタフェースを介して行われてよいオーディオシステムコントロールを含むが、他の実施形態においては、車両は、オーディオシステムコントロールパネルを備えてよく、オーディオシステムコントロールパネルは、ラジオ、コンパクトディスクプレーヤ、ＭＰ３プレーヤ等の従来の車両オーディオシステムのコントロールを含んでよい。オーディオシステムコントロールは、車両スピーカシステムのスピーカ１１２を介したオーディオ出力の１つまたは複数の態様を制御する特徴を含んでよい。例えば、車載コンピュータシステムまたはオーディオシステムコントロールは、オーディオ出力の音量、車両スピーカシステムの個々のスピーカ間の音の分布、オーディオ信号の等化、及び／または、オーディオ出力の任意の他の態様を制御してよい。さらなる例においては、車載コンピュータシステム１０９は、タッチスクリーン１０８を介して直接受信されたユーザ入力に基づいて、または、外部装置１５０及び／またはモバイルデバイス１２８を介して受信された（ユーザの身体的状態及び／または環境等の）ユーザに関するデータに基づいて、ラジオ局の選択、プレイリストの選択、オーディオ入力ソース（例えば、ラジオ、ＣＤまたはＭＰ３）等を調整してよい。

ある実施形態においては、タッチスクリーン１０８、ディスプレイスクリーン、様々なコントロールダイヤル、ノブとボタン、メモリ、プロセッサ（単数または複数）、及び、任意のインタフェース要素（例えば、コネクタまたはポート）等の、車載コンピュータシステム１０９の１つまたは複数のハードウェア要素は、車両のインストルメントパネル１０６に設置された統合ヘッドユニットを形成してよい。ヘッドユニットは、インストルメントパネル１０６に固定または取り外し可能に取り付けられてよい。追加または代替の実施形態においては、車載コンピュータシステムの１つまたは複数のハードウェア要素は、モジュール式であってよく、また、車両の複数の場所に設置されてよい。

キャビン１００は、車両、ユーザ及び／または環境をモニタする１つまたは複数のセンサを備えてよい。例えば、キャビン１００は、ユーザの存在を判断するために座席にかかる圧力を測定するように構成された１つまたは複数の座席搭載圧力センサと、ドアの動きをモニタするように構成されたドアセンサと、キャビンの湿度を測定する湿度センサと、ユーザが電話できるように音声コマンドの形のユーザ入力を受信及び／またはキャビン１００の周囲雑音を測定するマイクロフォン等を備えてよい。上記センサ及び／または１つ若しくは複数の追加若しくは代替のセンサは、車両の任意の適切な場所に配置されてよいことは理解されたい。例えば、センサは、エンジン室、車両の外面、及び／または、車両の動作、車両の周囲条件、車両のユーザ等に関する情報を提供するのに適切な他の場所に配置されてよい。車両の周囲条件、車両の状態、または、車両の運転者に関する情報は、外部装置１５０及び／またはモバイルデバイス１２８に結合されたセンサ等、車両の外部／車両とは別個の（すなわち、車両システムの一部ではない）センサから受信されてもよい。

キャビン１００は、運転前、運転中、及び／または、運転後に車両内に置かれている、モバイルデバイス１２８等の１つまたは複数のユーザの持ち物も含んでよい。モバイルデバイス１２８は、スマートフォン、タブレット、ラップトップコンピュータ、ポータブルメディアプレーヤ、及び／または、任意の適切なモバイルコンピュータデバイスを含んでよい。モバイルデバイス１２８は、通信リンク１３０を介して車載コンピュータシステムに接続されてよい。通信リンク１３０は、有線（例えば、ユニバーサルシリアルバス［ＵＳＢ］、モバイルハイデフィニションリンク［ＭＨＬ］、ハイデフィニションマルチメディアインタフェース［ＨＤＭＩ（登録商標）］、Ｅｔｈｅｒｎｅｔ（登録商標）等）であってもよく、無線（例えば、ＢＬＵＥＴＯＯＴＨ（登録商標）、ＷＩＦＩ、ＷＩＦＩダイレクト近距離無線通信［ＮＦＣ］、セルラー接続等を介して）であってもよく、モバイルデバイスと車載コンピュータシステムとの間に双方向通信を提供するように構成されてよい。モバイルデバイス１２８は、１つまたは複数の通信リンク（例えば、上記通信リンク例の１つまたは複数）に接続するための１つまたは複数の無線通信インタフェースを備えてよい。無線通信インタフェースは、送信または受信されるデータを運ぶデータラインに結合されたアンテナ（単数または複数）またはポート（単数または複数）等の１つまたは複数の物理的装置と、モバイルデバイス内の他の装置に従って物理的装置を操作する１つまたは複数のモジュール／ドライバとを含んでよい。例えば、通信リンク１３０は、様々な車両システム（車両オーディオシステム、環境制御システム等）及びタッチスクリーン１０８からモバイルデバイス１２８にセンサ信号及び／または制御信号を提供してよく、また、モバイルデバイス１２８から車載システム及びタッチスクリーン１０８に制御信号及び／または表示信号を提供してよい。通信リンク１３０は、モバイルデバイスの１２８の内部電池を充電するために車載電源からモバイルデバイス１２８に電力を供給してもよい。

車載コンピュータシステム１０９は、ユーザによって操作及び／またはアクセスされるが車両１０２の外部にある１つまたは複数の外部装置１５０等の追加の装置に通信可能に接続されてもよい。図示の実施形態においては、外部装置は車両１０２の外にあるが、代替の実施形態においては、外部装置は、キャビン１００内にあってもよいことは理解されよう。外部装置は、サーバコンピュータシステム、パーソナルコンピュータシステム、ポータブル電子デバイス、電子リストバンド、電子ヘッドバンド、ポータブルミュージックプレーヤ、電子行動追跡装置、万歩計（登録商標）、スマートウォッチ、ＧＰＳシステム等を含んでよい。外部装置１５０は、通信リンク１３６を介して、車載コンピュータシステムに接続されてよく、通信リンク１３６は、通信リンク１３０に関して述べたように、有線であっても無線であってもよく、外部装置と車載コンピュータシステムの間に双方向通信を提供するように構成されてよい。例えば、外部装置１５０は、１つまたは複数のセンサを備えてよく、通信リンク１３６は、外部装置１５０から車載コンピュータシステム１０９及びタッチスクリーン１０８にセンサ出力を送信してよい。外部装置１５０は、コンテキストデータ、ユーザの振る舞い／プリファレンス、操作規則等に関する情報を記憶及び／または受信してもよく、このような情報を外部装置１５０から車載コンピュータシステム１０９及びタッチスクリーン１０８に送信してよい。

車載コンピュータシステム１０９は、外部装置１５０、モバイルデバイス１２８、及び／または、他の入力ソースから受信した入力を分析してよく、（環境制御システムまたはオーディオシステム等の）様々な車載システムの設定を選択してよく、タッチスクリーン１０８及び／またはスピーカ１１２を介して出力を行ってよく、モバイルデバイス１２８及び／または外部装置１５０と通信してよく、及び／または、評価に基づいて他の行動を行ってよい。ある実施形態においては、評価の全てまたは一部は、モバイルデバイス１２８及び／または外部装置１５０によって行われてよい。ある実施形態においては、外部装置１５０は、別の車両の車載コンピュータ装置を含んでよい。別の車両は、車両１０２の先行車両であってもよく、車両１０２の後方車両であってもよい。

ある実施形態においては、外部装置１５０の１つまたは複数は、モバイルデバイス１２８及び／または外部装置１５０のうちの別の１つを介して間接的に、車載コンピュータシステム１０９に通信可能に接続されてよい。例えば、通信リンク１３６は、外部装置１５０からの出力がモバイルデバイス１２８に中継されるように、外部装置１５０をモバイルデバイス１２８に通信可能に接続してよい。外部装置１５０から受信されたデータは、次に、モバイルデバイス１２８によって収集されたデータとモバイルデバイス１２８において統合されてよく、統合されたデータは、次に、車載コンピュータシステム１０９及びタッチスクリーン１０８に通信リンク１３０を介して送信されてよい。同様のデータ統合は、サーバシステムで行われてもよく、その後、通信リンク１３６／１３０を介して車載コンピュータシステム１０９及びタッチスクリーン１０８に送信されてよい。

図２は、車両２０１内に構成及び／または一体化された車載コンピュータシステム２００のブロック図を示す。車載コンピュータシステム２００は、図１の車載コンピュータシステム１０９の例であってよく、及び／または、ある実施形態における本明細書に記載の方法の１つまたは複数を行ってよい。ある例においては、車載コンピュータシステムは、情報ベースのメディアコンテンツ（エンターテイメントコンテンツ、ナビゲーションサービス等を含むオーディオ及び／または映像メディアコンテンツ）を車両ユーザに提供して操作者の車内体験を向上させるように構成された車両インフォティンメントシステムであってよい。車両インフォティンメントシステムは、運転者及び／または同乗者の車内体験を向上させるために、様々な車両システム、サブシステム、ハードウェアコンポーネントと、車両２０１に一体化されたまたは一体化できるソフトウェアアプリケーション及びシステムと、を含んでよい、または、それらに接続されてよい。

車載コンピュータシステム２００は、オペレーティングシステムプロセッサ２１４及びインタフェースプロセッサ２２０を含む１つまたは複数のプロセッサを備えてよい。オペレーティングシステムプロセッサ２１４は、車載コンピュータシステム上でオペレーティングシステムを実行してよく、入力／出力、表示、再生、及び、車載コンピュータシステムの他の操作を制御してよい。インタフェースプロセッサ２２０は、車両内システム通信モジュール２２２を介して車両制御システム２３０とインタフェースをとってよい。

車両内システム通信モジュール２２２は、他の車両システム２３１及び車両制御要素２６１にデータを出力してよく、また、他の車両コンポーネント及びシステム２３１、２６１から、例えば、車両制御システム２３０を介してデータ入力を受信してよい。データを出力するとき、車両内システム通信モジュール２２２は、車両の任意の状態、車両の周囲環境、または、車両に接続された任意の他の情報源の出力に対応する信号を、バスを介して供給してよい。車両データ出力は、例えば、アナログ信号（電流速度等）、個々の情報源によって提供されたデジタル信号（クロック、温度計、全地球測位システム［ＧＰＳ］センサ等の位置センサ等）、車両データネットワーク（エンジン関連の情報を通信し得るエンジンコントローラエリアネットワーク［ＣＡＮ］バス、環境制御関連の情報を通信し得る環境制御ＣＡＮバス、車両のマルチメディアコンポーネント間でマルチメディアデータを通信するマルチメディアデータネットワーク等）を通して伝えられたデジタル信号を含んでよい。例えば、車載コンピュータシステムは、車輪センサによって推定される車両の現在の速度、バッテリを介した車両の電力状態、及び／または、車両の電力分配システム、車両のイグニッション状態等を、エンジンＣＡＮバスから読み出してよい。さらに、本開示の範囲を逸脱することなく、Ｅｔｈｅｒｎｅｔ（登録商標）等の他のインタフェース手段も使用してよい。

不揮発性記憶装置２０８が、プロセッサ２１４及び２２０によって実行可能な命令等のデータを不揮発性の形態で記憶するために、車載コンピュータシステム２００に備えられてよい。記憶装置２０８は、クラウドベースサーバに接続するための、及び／または、クラウドベースサーバに送信する情報を収集するためのアプリケーションを車載コンピュータシステム２００が実行するのを可能にするアプリケーションデータを記憶してよい。アプリケーションは、車両システム／センサ、入力装置（例えば、ユーザインタフェース２１８）、車載コンピュータシステムと通信する装置（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）リンクで接続されたモバイルデバイス）等によって集められた情報を読み出してよい。車載コンピュータシステム２００は、揮発性メモリ２１６をさらに備えてよい。揮発性メモリ２１６は、ランダムアクセスメモリ（ＲＡＭ）であってよい。不揮発性記憶装置２０８及び／または揮発性メモリ２１６等の非一時的記憶装置は、命令及び／またはコードを記憶してよく、命令及び／またはコードは、プロセッサ（例えば、オペレーティングシステムプロセッサ２１４及び／またはインタフェースプロセッサ２２０）によって実行されて、本開示に記載のアクションの１つまたは複数を行うように車載コンピュータシステム２００を制御する。

マイクロフォン２０２が、ユーザからの音声コマンドを受信し、車両の周囲雑音を測定し、車両のスピーカからの音声が車両の音響環境に合わせて調整されているかを判断する等のために、車載コンピュータシステム２００に備えられてよい。音声処理ユニット２０４は、マイクロフォン２０２から受信した音声コマンド等の音声コマンドを処理してよい。ある実施形態においては、車載コンピュータシステム２００は、また、車両のオーディオシステム２３２に備えられたマイクロフォンを用いて、音声コマンドを受信し、且つ、周囲の車両の雑音をサンプリングすることができてよい。

１つまたは複数の追加のセンサが、車載コンピュータシステム２００のセンササブシステム２１０に備えられてよい。例えば、センササブシステム２１０は、ユーザが車両を駐車するのを助けるリアビューカメラ及び／または（例えば、顔認識及び／またはユーザジェスチャを用いて）ユーザを識別するキャビンカメラ等のカメラを含んでよい。車載コンピュータシステム２００のセンササブシステム２１０は、様々な車両センサと通信し、様々な車両センサから入力を受信してよく、また、ユーザ入力を受信してよい。例えば、センササブシステム２１０によって受信される入力は、変速ギア位置、変速クラッチ位置、アクセル入力、ブレーキ入力、変速セレクタ位置、車両速度、エンジン速度、エンジンからの質量空気流、周囲温度、吸気温度等と、環境制御システムセンサからの入力（熱伝導流体温度、不凍液温度、ファン速度、車室温度、所望の車室温度、周囲湿度等）、ユーザが発した音声コマンドを検出するオーディオセンサからの入力、車両のフォブからコマンドを受信し、オプションで、車両のフォブの地理的位置／近接性を追跡するフォブセンサからの入力等も含んでよい。一部の車両システムセンサは、センササブシステム２１０とのみ通信してよいが、他のセンサは、センササブシステム２１０と車両制御システム２３０の両方と通信してよく、または、車両制御システム２３０を介して間接的にセンササブシステム２１０と通信してもよい。車載コンピュータシステム２００のナビゲーションサブシステム２１１は、（例えば、ＧＰＳセンサ及び／または他のセンサを介して、センササブシステム２１０から）位置情報、ルート案内、交通情報、目標地点（ＰＯＩ）識別等のナビゲーション情報を生成及び／または受信してよく、及び／または、他のナビゲーションサービスを運転者に提供してよい。

車載コンピュータシステム２００の外部装置インタフェース２１２は、車両２０１の外部にある１つまたは複数の外部装置２４０と接続可能、及び／または通信してよい。外部装置は、車両２０１の外にあるとして示されているが、ユーザが車両２０１を運転しながら外部装置を操作している時等、外部装置は、一時的に車両２０１内にあってもよいことは理解されたい。言い換えると、外部装置２４０は、車両２０１に一体化されていない。外部装置２４０は、（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＮＦＣ、ＷＩＦＩダイレクト、または、他の無線接続を介して接続された）モバイルデバイス２４２、または、代替のＢｌｕｅｔｏｏｔｈ（登録商標）対応の装置２５２を含んでよい。モバイルデバイス２４２は、有線及び／または無線通信を介して車載コンピュータシステムと通信し得る携帯電話、スマートフォン、ウェアラブルデバイス／センサ、または、他のポータブル電子デバイス（単数または複数）であってよい。他の外部装置は、外部サービス２４６を含む。例えば、外部装置は、車両とは別個に車両の外部に配置された車外装置を含んでよい。さらに他の外部装置は、半導体ドライブ、ペンドライブ、ＵＳＢドライブ等の外部記憶装置２５４を含む。外部装置２４０は、本開示の範囲を逸脱することなく、無線またはコネクタを介して車載コンピュータシステム２００と通信してよい。例えば、外部装置２４０は、ネットワーク２６０、ユニバーサルバス（ＵＳＢ）接続、直接有線接続、直接無線接続、及び／または、他の通信リンクを介して、外部装置インタフェース２１２を通して車載コンピュータシステム２００と通信してよい。

外部装置インタフェース２１２は、車載コンピュータシステムが、運転者の連絡先と関連付けられたモバイルデバイスと通信できるようにする通信インタフェースを提供してよい。例えば、外部装置インタフェース２１２は、運転者の連絡先と関連付けられたモバイルデバイスに（例えば、セルラー通信ネットワークを介して）電話をかける、及び／またはテキストメッセージ（例えば、ＳＭＳ、ＭＭＳ等）を送ることを可能にする。外部装置インタフェース２１２は、以下により詳細に記載するように、車載コンピュータシステムが車両内の１つまたは複数の装置（例えば、運転者のモバイルデバイス）とＷＩＦＩダイレクトを介してデータを同期することを可能にする無線通信インタフェースを追加でまたは代わりに提供してよい。

１つまたは複数のアプリケーション２４４は、モバイルデバイス２４２で動作可能であってよい。一例として、モバイルデバイスアプリケーション２４４は、ユーザとモバイルデバイスとのやり取りに関するユーザデータを集約するように操作されてよい。例えば、モバイルデバイスアプリケーション２４４は、ユーザがモバイルデバイスで聴いたミュージックプレイリスト、（ユーザが受けた電話の頻度及び持続時間を含む）電話ログ、ユーザがよく訪れる場所と、その場所で費やす時間を含む位置情報等に関するデータを集約してよい。収集されたデータは、アプリケーション２４４によってネットワーク２６０を介して外部装置インタフェース２１２に転送されてよい。さらに、特定のユーザデータ要求が、車載コンピュータシステム２００から外部装置インタフェース２１２を介してモバイルデバイス２４２で受信されてよい。特定のデータ要求は、ユーザが地理的にいる場所、ユーザのいる場所の周囲雑音レベル及び／または音楽ジャンル、ユーザのいる場所の周囲の天候条件（温度、湿度等）等を判断する要求を含んでよい。モバイルデバイスアプリケーション２４４は、要求されたデータをモバイルデバイスで収集できるように、モバイルデバイス２４２のコンポーネント（例えば、マイクロフォン等）または他のアプリケーション（例えば、ナビゲーションアプリケーション）に制御命令を送信してよい。モバイルデバイスアプリケーション２４４は、次に、収集した情報を車載コンピュータシステム２００に中継して戻してよい。

同様に、１つまたは複数のアプリケーション２４８は、外部サービス２４６で動作可能であってよい。一例としては、外部サービスアプリケーション２４８は、複数のデータソースからのデータを集約及び／または分析するように動作してよい。例えば、外部サービスアプリケーション２４８は、ユーザの１つまたは複数のソーシャルメディアアカウントからのデータ、車載コンピュータシステムからのデータ（例えば、センサデータ、ログファイル、ユーザ入力等）、インターネットクエリからのデータ（例えば、天候データ、ＰＯＩデータ）等を集約してよい。収集されたデータは、別の装置に送信されてよく、及び／または、アプリケーションによって分析されて、運転者、車両、及び、環境の状況を判断し、その状況に基づいてアクションを行ってよい（例えば、データを他の装置に要求／送信する）。

車両制御システム２３０は、異なる車両内機能に関わる様々な車両システム２３１の態様を制御するコントロールを備えてよい。これらは、例えば、車両内の人にオーディオエンターテイメントを提供する車両オーディオシステム２３２の態様、車両内の人のキャビンの冷房または暖房需要に応じる環境制御システム２３４の態様、及び、車両内の人が車両外の人と遠距離通信網を構築できるようにする遠距離通信システム２３６の態様を制御することを含んでよい。

オーディオシステム２３２は、電磁変換器を含むスピーカ等の１つまたは複数の音響再生装置を備えてよい。車両オーディオシステム２３２は、受動的であってもよく、電力増幅器を備える等、能動的であってもよい。ある例においては、車載コンピュータシステム２００は、音響再生装置の唯一の音源であってよい、または、音声再生システム（例えば、携帯電話等の外部装置）に接続された他の音源があってもよい。このような任意の外部装置の音声再生装置への接続は、アナログ技術、デジタル技術、または、アナログ技術とデジタル技術の任意の組み合わせであってよい。

環境制御システム２３４は、車両２０１のキャビンまたは車室内に居心地のよい環境を提供するよう構成されてよい。環境制御システム２３４は、換気口、ヒータ、空調装置、一体式のヒータ及び空調装置システム等の制御換気を可能にするコンポーネントを備える。暖房及び空調設定にリンクされた他のコンポーネントは、フロントガラスを透明にできるフロントガラスの除霜及び曇り止めシステムと、外気吸入口を通って車室に入る外気を清浄にする換気フィルタとを含んでよい。

車両制御システム２３０は、エンジン及び／または車両のキャビン内の補助要素に関する様々な車両コントロール２６１（または、車両システム制御要素）の設定を調整するためのコントロール、例えば、ハンドルコントロール２６２（例えば、ハンドルに取り付けられたオーディオシステムコントロール、クルーズコントロール、フロントガラスワイパーコントロール、ヘッドライトコントロール、方向指示器コントロール等）、インストルメントパネルコントロール、マイクロフォン（単数または複数）、アクセル／ブレーキ／クラッチペダル、ギアシフト、運転者または同乗者のドアに配置されたドア／ウィンドウコントロール、座席コントロール、キャビンライトコントロール、オーディオシステムコントロール、キャビン温度コントロール等、も備えてよい。車両コントロール２６１は、内燃機関コントロール及び車両動作コントロール（例えば、エンジンコントローラモジュール、アクチュエータ、バルブ等）も含んでよく、内燃機関コントロール及び車両動作コントロールは、エンジン、排気システム、変速機、及び／または、他の車両システムの１つまたは複数の動作を変更する命令を車両のＣＡＮバスを介して受信するように構成されてよい。制御信号は、また、車両のオーディオシステム２３２の１つまたは複数のスピーカのオーディオ出力を制御してよい。例えば、制御信号は、音量、等化、音像（例えば、１つまたは複数の既定の位置から発せられたようにユーザに聞こえるようなオーディオ出力を生成するようなオーディオ信号の構成）、複数のスピーカ間の音声分布等、オーディオ出力特性を調整してよい。同様に、制御信号は、環境制御システム２３４の換気口、空調装置、及び／または、ヒータを制御してよい。例えば、制御信号によって、冷やされた空気をキャビンの特定の場所に送るのを増加させてよい。

車両の外にある制御要素（例えば、セキュリティシステムのコントロール）は、また、通信モジュール２２２を介して等、コンピュータシステム２００に接続されてよい。車両制御システムの制御要素は、ユーザ入力を受信するために、車両上及び／または車両内に、物理的及び永続的に置かれてよい。車載コンピュータシステム２００からの制御命令の受信に加えて、車両制御システム２３０は、モバイルデバイス２４２等、ユーザが操作する１つまたは複数の外部装置２４０からの入力も受信してよい。これによって、車両システム２３１及び車両コントロール２６１の態様は、外部装置２４０から受信したユーザ入力に基づいて制御できる。

車載コンピュータシステム２００は、アンテナ２０６をさらに備えてよい。アンテナ２０６は、１つのアンテナとして示しているが、ある実施形態においては、１つまたは複数のアンテナを含んでよい。車載コンピュータシステムは、アンテナ２０６を介してブロードバンド無線インターネットアクセスを得てよく、また、ラジオ、テレビ、天候、交通等の放送信号をさらに受信してよい。車載コンピュータシステムは、１つまたは複数のアンテナ２０６を介して、ＧＰＳ信号等の位置信号を受信してよい。車載コンピュータシステムは、アンテナ（単数または複数）２０６を介して等ＲＦを介して、または、適切な受信装置を通して赤外線若しくは他の手段を介して、無線コマンドも受信してよい。ある実施形態においては、アンテナ２０６は、オーディオシステム２３２または遠距離通信システム２３６の一部として含まれてよい。さらに、アンテナ２０６は、外部装置２４０（モバイルデバイス２４２等）に外部装置インタフェース２１２を介して、ＡＭ／ＦＭラジオ信号を供給してよい。

車載コンピュータシステム２００の１つまたは複数の要素は、ユーザインタフェース２１８を介してユーザによって制御されてよい。ユーザインタフェース２１８は、図１のタッチスクリーン１０８等のタッチスクリーン上に提示されるグラフィカルユーザインタフェース、及び／または、ユーザが作動させるボタン、スイッチ、ノブ、ダイヤル、スライダ等を含んでよい。例えば、ユーザが作動させる要素は、ハンドルコントロール、ドア及び／またはウィンドウコントロール、インストルメントパネルコントロール、オーディオシステム設定、環境制御システム設定等を含んでよい。ユーザは、また、車載コンピュータシステム２００及びモバイルデバイス２４２の１つまたは複数のアプリケーションとユーザインタフェース２１８を介して操作してよい。ユーザの車両設定プリファレンスをユーザインタフェース２１８で受信することに加えて、車載制御システムが選択した車両設定をユーザインタフェース２１８上でユーザに表示してよい。通知及び他のメッセージ（例えば、受信したメッセージ）とナビゲーション支援は、ユーザインタフェースのディスプレイ上でユーザに表示されてよい。ユーザプリファレンス／情報及び／または提示されたメッセージに対する応答は、ユーザインタフェースに対してユーザ入力を介して行われてよい。

図３は、音声認識システム３００を示すブロック図である。当該システムは、ライン３０４で（例えば、デジタル化された）ユーザ入力音声を受信する音声特徴抽出器ユニット３０２を備える。ユーザ入力音声は、マイクロフォン（図示せず）によって検出され、アナログ‐デジタルコンバータ（ＡＤＣ）を用いてデジタル化されてよい。特徴抽出器ユニット３０２は、コンテキストに追加された適切なワード（「末尾」）に対応する音声表記に対して、音声認識に使用できる特徴にデジタル音声信号を変換し、最も一致する結果を返す。特徴情報は、ライン３０６で音声認識エンジン３０８に提供され、音声認識エンジン３０８は、次に、音声表記のうちの１つがユーザ入力音声に関連付けられた抽出された特徴に最も一致する「末尾」に対応する識別子（ＩＤ）をライン３１０で返す。

音声認識が固定の語彙に対して有効であり得る方法は、認識すべきワードのリストを含む文法の定義を通したものである。「末尾（ｔｅｒｍｉｎａｌ）」とも呼ばれる各ワードまたはフレーズは、基本的な音声記号の組み合わせとしてワードまたはフレーズの１つまたは複数の発音の仕方を有してよい。末尾の発音の仕方を知るために、１つまたは複数の音声表記を末尾に関連させてよい。各末尾は、それに関連付けられた一意のＩＤを有する。文法は、バイナリコンテキストファイルにオフラインでコンパイルされてよく、バイナリコンテキストファイルは、ユーザの発話を認識できるように実行時間にロードされる。

音声認識システム３００は、また、メタデータ／テキストエントリ（例えば、スマートフォンまたはＰＤＡの連絡先／電話帳情報、ＵＳＢメモリスティックまたはオーディオＣＤからのデータ等）をライン３１２で受信する。ライン３１２のテキストエントリは、クエリされた部分文字列を含んでよく、アクセント付き音声表記及びＩＤ生成論理ユニットは、受信したデータを処理して、変換ＩＤデータと様々なアクセントに関連付けられた音声表記データとをライン３１６で提供してよい。すなわち、ライン３１２のメタデータ／テキストエントリとライン３１３のメタデータ／テキストエントリに関連付けられたＩＤデータとは、アクセント付き音声表記及び変換ＩＤ生成論理ユニット３１４に入力され、アクセント付き音声表記及び変換ＩＤ生成論理ユニット３１４は、受信したデータを処理して、変換ＩＤデータと様々なアクセントに関連付けられた音声表記情報とをライン３１６で提供する。ライン３１３のＩＤデータは、元のＩＤ空間にあり、ライン３１６の変換ＩＤデータは、変換データ空間にある。

図４は、アクセント付き音声表記及び変換ＩＤ生成ユニット３１４を示すブロック図である。ライン３１２のデータは、アクセント（ａｃｃｅｎｔ）ワード生成器４０２に入力され、アクセント（ａｃｃｅｎｔ）ワード生成器４０２は、文字列を音声表記列に変換する。その規則は、その個々の言語（例えば、アクセント付き音声表記及び変換ＩＤ生成ユニット３１４に関連付けられた言語、及び／または、自動的に及び／またはユーザ選択によって、アクセント付き音声表記及び変換ＩＤ生成ユニット３１４を含む装置が認識するように設定された言語）の言語学者によって生成される。アクセント付きワード生成器４０２は、（例えば、記憶されたワード／音声表記とライン３１２で受信したメタデータとの比較に基づいて）個々のアクセントに関してワードに最も近い音の新しいワードを提供してよい。これは、システムが支援する全てのアクセントに関して行われる。例えば、Ｎ（例えば、正の整数）個のアクセントが、アクセント付き音声表記及び変換ＩＤ生成ユニット３１４によって支援されてよい。アクセント（ａｃｃｅｎｔ）ワード生成器４０２は、データベース４０４に記憶された規則及びデータを用いて、使用されている言語に基づいてワードに関する発音を生成する。言語は、履歴データと、ユーザが入力した発話との１つまたは複数に基づいて自動的に識別されてもよく、及び／または、言語は、ユーザによる言語の選択に基づいて手動で設定及び識別されてもよい。例えば、アクセント付きワード生成器４０２は、ライン３１２で、例えば、ＣＡＫＥを表す文字列を［ＫＥＹＫ］等の音列に変換してよい。アクセント（ａｃｃｅｎｔ）ワード生成器４０２からの出力は、アクセント付き音声表記及びＩＤ生成論理ユニット３１４が支援するＮ個のアクセントのそれぞれに関して修正されたワードとして、ライン４０６〜４０８で提供される。ライン４０６〜４０８のＮ個の修正されたワードのそれぞれは、その個々のアクセントに関連付けられた出力を書記素‐音素（Ｇ２Ｐ）論理ユニット４１０に提供する。例えば、インド英語に関しては、十二（１２）の異なるアクセントがあるので、これら１２のアクセント（または、１２の異なるアクセントのうちの［１２−ｘ］の異なるアクセントを含むサブセット、例えば、最も普及している［１２−ｘ］の異なるアクセント等、１２の異なるアクセントのサブセット、ここで、ｘは１２未満の正の整数である）のそれぞれに関して修正されたワードが、アクセント付きワード生成器４０２から出力されてよいと、考えられる。

図３及び図４を参照すると、ライン３１２のテキストエントリが、アクセント付き音声表記及び変換ＩＤ生成論理ユニット３１４によって処理される。アクセント付き音声表記及び変換ＩＤ生成論理ユニット３１４は、適切なアクセント付き文字列を置換して、Ｎ個の修正されたテキストエントリ／ワードをライン４０６〜４０８で提供する。次に、これらのエントリは、音声表記取得に使用されて、認識のためにコンテキストに追加される。例えば、記憶された「Ａｎａｎｙａｖｒａｔａ」という名前をエントリとして考えてみよう。その名前の発音は、ベンガル語で発音される「Ｏｎａｎｙａｂｒｏｔａ」に最も近い。一般的な規則として、文字列「Ａｎ」は、「Ｏｎ」で置き換えることができ、「ｖ」は、文字「ｂ」で置き換えることができる。同じ名前は、タミール語の「Ａｎａｎｙａｖｒａｔｈａ」として発音し得るので、名前の最後の「ｔ」は「ｔｈ」となることを意味する。次に、新しい文字列を用いて、アクセントのそれぞれに関して音声表記を得ることができる。

同じＩＤに対して、全てのアクセントに関して生成された音声表記を実行時間に追加することができる。これは、認識精度を向上させるために、音声認識エンジン３０８がそれらのアクセントを同時に聴いてよいことを意味する。

音響特徴に基づいて、Ｇ２Ｐユニット４１０は、Ｎ個のアクセントのそれぞれに関して、音声表記データをライン４１３〜４１５で提供する。Ｇ２Ｐユニット４１０は、また、ライン３１２の（例えばアクセント無しの）入力信号に関連付けられた音声表記データをライン４１２で提供する。基本の音声表記の音は、異なる言語及び地域によって異なり得る。例えば、母音は、アフリカ英語と北アメリカ英語では異なって発音され得る。インドの異なる地域に関しても異なるアクセントで発音され得る。しかしながら、異なる地域において、あるワードの既知の発音の仕方がある、または、ストレスの置き方、ポーズの追加の仕方が追加される。ある言語のこれらの言語的特徴の知識は、音声表記の発音をモデル化する基礎を提供する。システムは、選択した言語（例えば、インド英語）の名前及びその言語に関連付けられた複数のアクセントに関してこのような処理及び関連付けを行ってよい。各入力文字列に関して、音声表記ユニット４１２〜４１５は一意の音声表記を返す。アクセント付き音声表記及び変換ＩＤ生成論理ユニット３１４は、オフライン及び組み込みプラットフォームの両方で使用されて、音声表記を生成することができる。音声表記は、Ｇ２Ｐユニット４１０から出力される。

Ｇ２Ｐ論理ユニット４１０は、音素の音響特徴に基づいて、言語の音素をマップする。例えば、Ｇ２Ｐユニットは、Ｇ２Ｐ規則生成に使用される発音辞書に含まれないワード（例えば、語彙外のワード）に対して最も可能性の高い音リストを生成する。Ｇ２Ｐユニット４１０は、図３の音声認識システム３００を構成する言語（単数または複数）に特有の音素セットを含む。

Ｇ２Ｐユニット４１０からの音声表記出力データは、変換ＩＤアロケータ４１６に入力され、変換ＩＤアロケータ４１６は、ライン４１２のアクセント無し音声表記データ及びライン４１３〜４１５のＮ個のアクセント付き音声表記データに関連付けられた変換ＩＤデータをライン４１７ａ〜４１７ｄで提供する。変換ＩＤは、変換ＩＤ空間に関連付けられる。アクセント付き音声表記及び変換ＩＤ生成ユニットは、ライン４１２〜４１５で音声表記データを提供し、ライン４１７ａ〜４１７ｄで変換ＩＤデータを提供する。ライン４１２の信号とライン４１７ａの信号は、ライン３１２の入力信号に関連付けられた出力データ対を提供する。同様に、ライン４１３の信号及びライン４１７ｂの信号は、ライン４０６のアクセント１の修正されたワードに関連付けられた出力データ対を提供し、ライン４１４の信号及びライン４１７ｃの信号は、ライン４０７等のアクセント２の修正されたワードに関連付けられた出力データ対を提供する。

変換ＩＤアロケータ４１６は、各元のワード及びアクセント付きワードに対して一意のＩＤを生成する。例えば、元の末尾のＩＤが、番号１０００を割り当てられ、支援される１５のアクセントがある場合、システムは、１〜１５の変換アクセントＩＤ範囲を介して変換ＩＤを提供してよい。一実施形態においては、変換は、
Ｎｅｗ＿ＩＤ＝（Ｏｌｄ＿ＩＤ^＊Ｍ）＋Ａｃｃｅｎｔ＿ＩＤであってよく、
ここで、Ｍ＝Ｎ＋１以上の整数、Ｎは、支援されるアクセントの最大数である。

Ｎの値は、様々なインドアクセントに関して以下のように割り当てられてよい。
０：アクセント無し
１：ベンガルアクセント
２：グジャラートアクセント
等

Ｏｌｄ＿ＩＤ値１０００を割り当てられたワードに関して、Ｍが２０である場合、そのワードのベンガルアクセントの形態に関する新しいＩＤは、
（１０００^＊２０）＋１＝２０００１
と計算されてよい。
Ｏｌｄ＿ＩＤ値１０００を割り当てられた同じ元のワードに関して、そのワードのグジャラートアクセントの形態に関する新しいＩＤは、
（１０００^＊２０）＋２＝２０００２
と計算されてよい。

音声認識エンジン３０８が、変換、認識されたＩＤを図３のアクセント検出ユニット３１８に渡すと、元の末尾ＩＤ及びアクセントＩＤが、変換を介して抽出されてよい。
Ａｃｃｅｎｔ＿ＩＤ＝（Ｒｅｃｏｇｎｉｚｅｄ＿Ｔｒａｎｓｆｏｒｍｅｄ＿ＩＤ％Ｍ）
ここで、％は、モジュロ（剰余）演算子を表し、
Ｏｌｄ＿ＩＤ＝Ｒｅｃｏｇｎｉｚｅｄ＿Ｔｒａｎｓｆｏｒｍｅｄ＿ＩＤ‐Ａｃｃｅｎｔ＿ＩＤ）／Ｍである。
このＩＤ割り当て技術によって、確実に音声認識システムが使用する元のＩＤと変換ＩＤの競合がなくなる。

図３及び図４を参照すると、音声認識エンジン３０８は、コンテキストユニット３２０も備え、コンテキストユニット３２０は、様々なアクセントに関する訂正を有する音声表記を示すデータをライン４１２〜４１５（図４）で、そして、これらの音声表記信号と関連付けられたＩＤデータをライン４１７ａ〜４１７ｄ（図４）で受信する。音声認識アプリケーションがアクティブなとき、個々のコンテキストが音声認識エンジン３０８にロードされる。システムが、ライン３０４でユーザ入力音声を受信すると、音声特徴抽出器ユニット３０２は、デジタル化された音声データを特徴に変換する。音声認識エンジン３０８は、次に、アクセント付き音声表記及びＩＤ生成ユニット３１４から音声認識ユニット３０８に入力されたアクセント付き入力データ対のそれぞれに関して末尾に対応するＩＤデータを返す。

コンテキストユニット３２０の文法ファイルは、Ｇ２Ｐユニット４１０（図４）によって返される音声表記を微調整することによって、または、例えば、音声表記生成ツールを使用することによって、オフラインで編集してよい。例えば、「ｒｅａｄ」というワードは、コンテキストに基づいて、「ｒｅｅｄ」または「ｒｅｄ」と発音できる。よって、両方の発音を認識するために、両方の発音に関する対応する音声表記をコンテキストユニット３２０（図３）の文法ファイルに追加してよい。適切な音声表記発音を有する末尾も、実行時間に追加することができる。

オフライン処理を用いると、ワードは、テキスト操作のみで、他の言語での話し方でモデル化することができる。音声表記を手で調整するという、面倒な作業になり得ることを行う必要がない。例えば、固定のコマンド「ｆｉｎｄｔｈｅｎｅａｒｅｓｔｂａｎｋ」を考えてみよう。あるアクセントにおいては、「ｂａｎｋ」とういうワードは、（ｂｙａ‐ｕｎｋと分割されて）「ｂｙｕｎｋ」と発音され得る。このような言語に関して、オフラインで音声表記データを準備して、ワードバンクを調べ、「ｂｙａｕｎｋ」で置き替えることができ、認識の目的で対応する音声表記を同義語として追加できる。

オンライン（例えば、組み込み機器）上でのワード処理方法は、ユーザによってロードされる動的データにとって有用であり得る。このようなデータの例は、電話帳のエントリである。電話帳のエントリは、例えば、（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）若しくは他の無線接続を介して等の無線で、及び／または、有線接続を介して）電話を接続することによって取得されてよい。ダイヤルするために音声認識を介して名前を認識できるために、名前のリストは、アクセント付き音声表記及びＩＤ生成論理３１４（図４）で提供されてよく、アクセント付き音声表記及びＩＤ生成論理３１４は、名前に関する音声表記を返す。人の名前は、通常、多くの地域的なアクセントを有し、それは、名前認識の課題となっている。認識精度を向上させるために、アクセント付き発音に似るように名前を表すよう、名前は、実行時間に修正されてよい。これらの修正は、実行時間に行われて、テンポラリファイルに書き込まれてよく、次に、テンポラリファイルを用いて、Ｇ２Ｐユニット４１０（図４）から音声表記をフェッチしてよい。修正または文字列の置き換えは、各アクセントに関して、データベース４０４（図４）を検索することによって、及び／または、構成ファイル（例えば、ＸＭＬ、ＪＳＯＮまたはＹＡＭＬベースのフォーマット）に基づいて、行われてよい。データベースは、ある期間に亘って拡張及び向上させてよいので、修正または文字列の置き換えによって精度を拡張可能である。

音声認識エンジン３０８からの認識ＩＤの精度を向上させるために、図３のシステム３００は、認識されたＩＤを示すデータを受信するアクセント検出ユニット３１８も備えてよい。アクセント検出ユニット３１８は、重み付け結果ユニット３２２にデータを提供し、重み付け結果ユニット３２２は、検出されたアクセントを追跡して、以前検出したアクセントを示すデータを提供する。信頼できるほど十分なアクセントが検出されると、検出されたアクセントを示すこの履歴情報は、ライン３２４で、重み付け結果ユニット３２２によって使用されて、本当らしいアクセントを決定してよい。上記フィードバック構成によって、このようなフィードバックを利用しない他の音声認識システムと比較して、音声認識システム３００のアクセント検出精度を向上させてよい。

（例えば、重み付け結果ユニット３２２から、精度を向上させた）認識結果を、１つまたは複数の音声制御ユニットまたは装置３２６に提供してよい。例えば、音声制御ユニットまたは装置３２６は、認識された音声結果に一致するテキストを表示する表示ユニット、及び／または、認識された音声結果を論理プロセスに適用して、（例えば、ユーザインタフェースを調整し、検索を行い、別の装置の動作及び／または任意の他の適切なプロセスを制御するために別の装置に送信する制御コマンドを決定する）プロセッサを備えてよい。音声制御ユニットまたは装置３２６は、認識された音声結果に基づいて、動作を変更する装置（例えば、車両システム、モバイルコンピュータデバイス、サーバ等）、及び／または、さらなる処理または制御のために、認識された音声結果を別のリモートユニットに中継若しくは送信するリモートサービス若しくはネットワークインタフェースを追加でまたは代わりに備えてよい。一般的に、１つまたは複数の音声制御ユニットまたは装置３２６は、重み付け結果ユニット３２２及び／またはアクセント検出ユニット３１８からの認識された音声結果に基づいて、アクションを行ってよい。アクションは、ディスプレイを調整すること、車両若しくは車両システム（例えば、オーディオシステム、環境制御システム等）の動作を調整すること、認識された音声結果をリモート装置に送信すること、認識された音声結果に対応するテキストを生成すること、及び／または、任意の他の適切なアクションを含んでよい。音声制御ユニットまたは装置３２６は、任意の適切なハードウェア要素、及び／または、記憶装置と記憶装置に記憶された命令を実行する論理装置とを含むハードウェア要素を備えてよい。

図５は、図３の音声認識システムを備える処理システム５００、例えば、インフォティンメントシステムを示すブロック図である。図３に示す音声認識システム３００は、１つまたは複数の処理ユニット５０４（図５）において実行可能なプログラム命令として実施されてよい。処理システム５００は、例えば、マイクロフォン、ＧＰＳ受信機、ラジオ受信機（例えば、ＡＭ／ＦＭ／衛星／ＷＩＦＩ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等）を含む入力装置５０２から入力信号を受信してよい。処理システム５００は、記憶装置５０６（例えば、オーディオ及び／またはビデオコンテンツを含むハードドライブ）も備えてよく、例えば、ディスプレイ、ラウドスピーカ、Ｂｌｕｅｔｏｏｔｈ（登録商標）トランシーバ、及び、有線接続等の複数の出力装置５０８に出力コマンド及びデータを提供してよい。

図６は、音声認識を行う方法６００のフローチャートである。例えば、方法６００は、図５の音声処理システム５００、及び／または、図３及び図４の音声認識システム３００等の音声認識システムによって行われてよい。６０２において、方法は、アクセント付き部分文字列のデータベースを備えるアクセント付き音声表記及び変換ＩＤ生成ユニット（例えば、図３のユニット３１４）において、メタデータ及び／またはメタデータのＩＤデータを受信することを含む。６０４で示すように、メタデータは、ユーザに関連付けられた装置に記憶されたテキストに対応するワードを含んでよい。例えば、メタデータは、音声認識システムの記憶装置、音声認識システムに入力を行うユーザのモバイルデバイス、音声認識システムに入力を行うユーザに関連付けられたユーザプロファイルをホストする外部サービス（例えば、ソーシャルネットワーキングサービス）、及び／または、任意の他の適切な記憶装置に記憶されたテキストエントリを含んでよい。

６０６において、方法は、アクセント付き音声表記及び変換ＩＤ生成ユニットを介して、メタデータに含まれるワードのアクセントを訂正した音声表記データを生成することを含む。６０８で示すように、アクセントを訂正した音声表記データは、データベースに記憶されたアクセント付き部分文字列に基づいて、メタデータに含まれるワードの異なる発音を表してよい。アクセント付き音声表記及び変換ＩＤ生成ユニットは、アクセントを訂正した音声表記データの変換ＩＤをさらに生成してよい。例えば、アクセントを訂正した音声表記データは、アクセント付きワードを含んでよく、各アクセント付きワードは、メタデータに含まれる関連付けられた元のワードに対応し、各変換ＩＤは、そのアクセント付きワードのアクセントに基づいて生成された異なるアクセントのワードと、そのアクセント付きワードに関連付けられた元のワードのＩＤデータに対応する。

６１０において、方法は、音声抽出ユニットで、ユーザによって入力された発話を受信し、その入力に基づいて抽出音声データを生成することを含む。６１２において、方法は、音声認識エンジン（例えば、図３の音声認識エンジン３０８）で、受信することを含む。６１４において、方法は、音声認識エンジンで、アクセントを訂正した音声表記データを受信することを含む。

６１６において、方法は、音声認識エンジンで、抽出音声データの認識された発話を識別する１つまたは複数の末尾ＩＤを決定することを含む。６１８において、方法は、音声認識エンジンで、認識された発話で検出されたアクセントを識別するアクセントデータを生成することを含む。６２０において、方法は、生成されたアクセントデータを記憶し、履歴データ（例えば、前に生成されたアクセントデータ及び／または認識された音声データ）と比較することを含む。生成されたアクセントデータ及び履歴データは、重み付け結果ユニットで受信されてよい（例えば、図３のユニット３２２、履歴データは、認識された音声結果を生成するとすぐに重み付け結果ユニットで受信、記憶された認識された音声結果を含んでよい）。重み付け結果ユニットは、現在及び前のデータ（例えば、今、決定されたアクセントデータ及び前に決定された履歴データ）を比較して、アクセントデータが前に認識された音声結果の最近決定したアクセントに一致するか否かを判断してよい。６２２において、方法は、末尾ＩＤ、アクセントデータ、及び／または、履歴データに基づいて、認識された音声データを生成することを含む。例えば、認識された音声データ及び１つまたは複数の末尾ＩＤは、メタデータのワード及びメタデータのワードのＩＤデータに一致されてよい。６２４において、方法は、認識された音声データを音声制御装置（例えば、図３の音声制御装置３２６）に出力することを含む。

本明細書に開示のシステム及び方法は、（例えば、インド英語の）複数のアクセントを１つの音響モデルを用いて支援するという問題を取り扱っている。音声表記は、個々のアクセントに関して、Ｇ２Ｐユニットのための音声表記を取得するために使用するワードを修正することによって、オフラインまたはオンラインで生成される。

上記システム及び方法は、音声認識システムの例も提供する。音声認識システムは、アクセント付き音声表記及び変換ＩＤ生成ユニットを備え、アクセント付き音声表記及び変換ＩＤ生成ユニットは、アクセント付き部分文字列のデータベースを備え、メタデータと、メタデータに関連付けられた第１のＩＤデータ空間のＩＤデータを受信し、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた複数の修正されたワードを提供し、複数の修正されたワードを処理して、複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供する。ここで、アクセントを訂正した音声表記データは、それぞれ、処理されて、第２のＩＤデータ空間の複数の変換ＩＤであって、それぞれ、複数のアクセントを訂正した音声表記データの関連する音声表記データに一意に関連付けられた複数の変換ＩＤを提供する。音声認識システムは、ユーザ入力音声を受信、処理し、ユーザ入力音声に関連付けられた抽出音声データを提供する音声特徴抽出器ユニットと、抽出音声データ、複数の変換ＩＤ、及び、複数のアクセントを訂正した音声表記データを受信し、及び、音声表記の１つが、ユーザ入力音声に関連付けられた抽出音声データに最も一致する末尾に対応する末尾識別子とアクセントデータとを提供する音声認識論理ユニットと、末尾識別子を受信し、第１のＩＤデータ空間に確認されたＩＤを提供するアクセント検出及び逆ＩＤ変換ユニットと、検出したアクセントデータを受信し、検出したアクセントデータの過去の値と比較して、認識された音声データを提供するアクセント結果重み付け論理ユニットも備える。第１の例においては、音声認識システムは、アクセント付き音声表記及び変換ＩＤ生成ユニットが書記素‐音声表記ユニットを備える音声認識システムをオプションで含んでよい。書記素‐音声表記ユニットは、複数のアクセントを訂正した音声表記データを提供する。音声認識システムの第２の例は、オプションで、第１の例を含み、且つ、アクセント付き音声表記及び変換ＩＤ生成ユニットが変換ＩＤアロケータを備える音声認識システムをさらに含む。変換ＩＤアロケータは、アクセントを訂正した音声表記データ及びＩＤデータを受信し、複数の変換ＩＤを第２のＩＤデータ空間に提供する。音声認識システムの第３の例は、オプションで、第１の例及び第２の例の１つまたは複数を含み、且つ、ある言語に関連付けられた文法ファイルを含むコンテキストユニットを音声認識論理ユニットが備える音声認識システムをさらに含む。

上記システム及び方法は、アクセント付き部分文字列のデータベースにアクセスする音声認識方法の例も提供する。当該音声認識方法は、メタデータとメタデータに関連付けられた元のＩＤ空間のＩＤデータを受信することと、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた複数の修正されたワードを提供することと、複数の修正されたワードを処理して複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することとを含む。ここで、アクセントを訂正した音声表記データは、それぞれ、処理されて、変換ＩＤ空間の複数の変換ＩＤであって、それぞれ、複数のアクセントを訂正した音声表記データの関連する音声データに一意に関連付けられた複数の変換ＩＤを提供する。当該音声認識方法は、ユーザ入力音声を受信することと、受信した入力音声を音声特徴抽出器ユニットで処理してユーザ入力音声に関連付けられた抽出音声データを提供することと、抽出音声データ、複数の変換ＩＤ、及び、複数のアクセントを訂正した音声表記データを処理することと、音声表記のうちの１つがユーザ入力音声に関連付けられた抽出音声データに最も一致する末尾に対応する末尾識別子とアクセントデータとを提供することと、末尾識別子を処理して元のＩＤデータ空間に確認されたＩＤを提供することと、検出したアクセントデータを検出したアクセントデータの過去の値と比較して、認識された音声データを提供することと、を含む。音声認識方法の第１の例は、複数のアクセントを訂正した音声表記データを提供するステップが、複数のアクセントを訂正した音声表記データを提供するための複数の修正されたワードの書記素‐音声表記処理を含む方法を含む。

上記システム及び方法は、アクセント付き部分文字列のデータベースにアクセスするプロセッサによって行われる音声認識方法も提供する。当該音声認識方法は、メタデータと、メタデータに関連付けられた元のＩＤ空間のＩＤデータとを受信することと、複数の修正されたワードであって、それぞれ、メタデータと、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントと一意に関連付けられた複数の修正されたワードを提供することと、複数の修正されたワードを処理して複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することと、アクセントを訂正した音声表記データを処理して、変換ＩＤ空間の複数の変換ＩＤであって、それぞれ、複数のアクセントを訂正した音声表記データのうちの関連する音声表記データに一意に関連付けられた複数の変換ＩＤを提供することと、ユーザ入力音声データを受信することと、受信した入力音声データを処理して、ユーザ入力音声データに関連付けられた抽出音声データを提供することと、抽出音声データ、複数の変換ＩＤ、及び、複数のアクセントを訂正した音声表記データを処理することと、末尾に対応する末尾識別子を提供することと、ユーザ入力音声データに関連付けられた抽出音声データに最も一致する音声表記に関するアクセントデータを提供することと、末尾識別子を処理して元のＩＤデータ空間に変換ＩＤを提供することと、検出したアクセントデータを検出したアクセントデータの過去の値と比較して、認識された音声データを提供することと、を含む。

上記システム及び方法は、音声制御装置、プロセッサ、及び、プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムも提供する。当該音声認識システムは、アクセント付き部分文字列のデータベースを含むアクセント付き音声表記及び変換ＩＤ生成ユニットにおいて、メタデータを受信し、アクセント付き音声表記及び変換ＩＤ生成ユニットを介して、メタデータに含まれるワードに関してアクセントを訂正した音声表記データであって、データベースに記憶されたアクセント付き部分文字列に基づいて、メタデータに含まれたワードの異なる発音を表すアクセントを訂正した音声表記データを生成し、音声認識システムにユーザによって入力された発話から引き出された抽出音声データを音声認識エンジンにおいて受信し、アクセントを訂正した音声表記データを音声認識エンジンにおいて受信し、抽出音声データの認識された発話を識別する１つまたは複数の末尾ＩＤを音声認識エンジンにおいて決定し、認識された発話で検出されたアクセントを識別するアクセントデータを音声認識エンジンにおいて生成し、１つまたは複数の末尾ＩＤ及びアクセントデータに基づいて、認識された音声データを生成し、且つ、認識された音声データを音声制御装置に出力する。音声認識システムの第１の例は、アクセントデータと、前に生成されたアクセントデータを含む履歴データを重み付け結果ユニットにおいて受信して、アクセントデータを履歴データと比較する命令をさらに実行可能であり、認識された音声データは、アクセントデータと履歴データとの比較にさらに基づいている、音声認識システムを含む。音声認識システムの第２の例は、第１の例をオプションで含み、且つ、音声認識システムの記憶装置、ユーザが音声認識システムに入力を行うモバイルデバイス、及び、音声認識システムに入力を行うユーザに関連付けられたユーザプロファイルをホストする外部サービスの１つまたは複数に記憶されたテキストエントリにメタデータが対応する音声認識システムをさらに含む。音声認識システムの第３の例は、オプションで、第１の例及び第２の例の任意の１つまたは複数を含み、且つ、メタデータに含まれるワードに対応するＩＤデータをアクセント付き音声表記及び変換ＩＤ生成ユニットにおいて受信し、且つ、アクセントを訂正した音声表記データに関する変換ＩＤをアクセント付き音声表記及び変換ＩＤ生成ユニットにおいて生成する命令をさらに実行可能な音声認識システムをさらに含む。音声認識システムの第４の例は、オプションで、第１の例〜第３の例のうちの任意の１つまたは複数を含み、且つ、アクセントを訂正した音声表記データが、アクセント付きワードであって、それぞれ、メタデータに含まれた関連付けられた元のワードに対応するアクセント付きワードを含み、各変換ＩＤが、異なるアクセントのワードに対応し、そのアクセント付きワードに関するアクセントと、そのアクセント付きワードに関連付けられた元のワードのＩＤデータとに基づいて生成される、音声認識システムをさらに含む。音声認識システムの第５の例は、オプションで、第１の例〜第４の例の任意の１つまたは複数を含み、且つ、認識された音声データ及び１つまたは複数の末尾ＩＤがメタデータのワード及びメタデータのワードのＩＤデータに一致される音声認識システムをさらに含む。音声認識システムの第６の例は、オプションで、第１の例〜第５の例の任意の１つまたは複数を含み、且つ、音声認識論理ユニットがユーザに関して識別された言語に関連付けられた文法ファイルを含むコンテキストユニットを備える音声認識システムをさらに含む。音声認識システムの第７の例は、オプションで、第１の例〜第６の例のうちの任意の１つまたは複数を含み、且つ、履歴データとユーザが入力した発話との１つまたは複数に基づいて、言語が自動的に識別される音声認識システムをさらに含む。音声認識システムの第８の例は、オプションで、第１の例〜第７の例の任意の１つまたは複数を含み、且つ、ユーザによる言語の選択に基づいて言語を識別する音声認識システムをさらに含む。音声認識システムの第９の例は、オプションで、第１の例〜第８の例の任意の１つまたは複数を含み、且つ、音声認識システムが車両の車載コンピュータシステムを備え、音声制御装置が、車載コンピュータシステムのディスプレイと車両の車両システムの１つまたは複数を含む、音声認識システムをさらに含む。

上記システム及び方法は、音声制御装置、プロセッサ、及び、プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法も提供する。当該音声認識方法は、アクセント付き部分文字列のデータベースを含むアクセント付き音声表記及び変換ＩＤ生成ユニットにおいて、メタデータを受信することと、メタデータに含まれたワードに関するアクセントを訂正した音声表記データであって、データベースに記憶されたアクセント付き部分文字列に基づいて、メタデータに含まれたワードの異なる発音を表すアクセントを訂正した音声表記データを、アクセント付き音声表記及び変換ＩＤ生成ユニットを介して、生成することと、ユーザによって音声認識システムに入力された発話から引き出された抽出音声データを音声認識エンジンにおいて受信することと、アクセントを訂正した音声表記データを音声認識エンジンにおいて受信することと、抽出音声データの認識された発話を識別する１つまたは複数の末尾ＩＤを音声認識エンジンにおいて決定することと、認識された発話で検出されたアクセントを識別するアクセントデータを音声認識エンジンにおいて生成することと、１つまたは複数の末尾ＩＤとアクセントデータに基づいて、認識された音声データを生成することと、認識された音声データを音声制御装置に出力することと、を含む。方法の第１の例は、アクセントデータと、前に生成されたアクセントデータを含む履歴データを重み付け結果ユニットにおいて受信することと、アクセントデータを履歴データと比較することとをさらに含み、認識された音声データは、アクセントデータと履歴データの比較にさらに基づいている。方法の第２の例は、オプションで、第１の例を含み、且つ、アクセントデータを履歴データと比較することは、アクセントデータによって識別されたアクセントが、最近、認識された音声データで識別されたアクセントと一致するか否かを判断することを含む方法をさらに含む。方法の第３の例は、オプションで、第１の例及び第２の例の任意の１つまたは複数を含み、且つ、音声認識システムの記憶装置、音声認識システムに入力を行うユーザのモバイルデバイス、及び、音声認識システムに入力を行うユーザに関連付けられたユーザプロファイルをホストする外部サービスの１つまたは複数に記憶されたテキストエントリにメタデータが対応する方法をさらに含む。方法の第４の例は、オプションで、第１の例〜第３の例の任意の１つまたは複数を含み、且つ、メタデータに含まれたワードに対応するＩＤデータをアクセント付き音声表記及び変換ＩＤ生成ユニットにおいて受信して、アクセント付き音声表記及び変換ＩＤ生成ユニットにおいて、アクセントを訂正した音声表記データの変換ＩＤを生成することをさらに含む。方法の第５の例は、オプションで、第１の例〜第４の例の任意の１つまたは複数を含み、且つ、アクセントを訂正した音声表記データが、アクセント付きワードであって、それぞれ、メタデータに含まれた関連付けられた元のワードに対応するアクセント付きワードを含み、各変換ＩＤが、異なるアクセントのワードに対応し、そのアクセント付きワードのアクセントと、そのアクセント付きワードに関連付けられた元のワードのＩＤデータとに基づいて生成される方法をさらに含む。方法の第６の例は、オプションで、第１の例〜第５の例の任意の１つまたは複数を含み、且つ、認識された音声データ及び１つまたは複数の末尾ＩＤが、メタデータのワード及びメタデータのワードのＩＤデータに一致される方法をさらに含む。方法の第７の例は、オプションで、第１の例〜第６の例の任意の１つまたは複数を含み、且つ、ユーザに関して識別された言語に関連付けられた文法ファイルを含むコンテキストユニットを音声認識論理ユニットが備える方法をさらに含む。方法の第８の例は、オプションで、第１の例〜第７の例の任意の１つまたは複数を含み、且つ、履歴データと、ユーザによって入力された発話との１つまたは複数に基づいて、言語が自動的に識別される方法をさらに含む。方法の第９の例は、オプションで、第１の例〜第８の例の任意の１つまたは複数を含み、且つ、ユーザによる言語の選択に基づいて言語が識別される方法をさらに含む。方法の第１０の例は、オプションで、第１の例〜第９の例の任意の１つまたは複数を含み、且つ、音声認識システムが、車両の車載コンピュータシステムを備え、音声制御装置が、車載コンピュータシステムのディスプレイと、車両の車両システムとの１つまたは複数を含む方法をさらに含む。

実施形態の記述を例示と説明の目的で実施形態を記載した。実施形態への適切な修正及び変更は、上記記載を考慮して行われてよい、または、方法の実践によって獲得されてよい。例えば、別段の記載のない限り、記載の方法の１つまたは複数は、図１及び図３を参照して記載した車載コンピュータシステム１０９及び／または音声認識システム３００等の、適切な装置及び／または装置の組み合わせによって行われてよい。方法は、記憶装置、メモリ、ハードウェアネットワークインタフェース／アンテナ、スイッチ、アクチュエータ、クロック回路等の１つまたは複数の追加のハードウェア要素と組み合わせて、１つまたは複数の論理装置（例えば、プロセッサ）を用いて記憶された命令を実行することによって行われてよい。記載した方法及び関連するアクションは、本出願書に記載の順序に加えて、様々な順序で、並行して、及び／または、同時に行われてよい。記載のシステムは、例示的な性質のものであって、追加の要素を含んでよく、及び／または、要素を省いてもよい。本開示の主題は、様々なシステム及び構成の全ての新規の自明でない組み合わせと下位の組み合わせ、並びに、開示の他の特徴、機能、及び／または特性を含む。

本開示で使用する場合、単数で記載され、単語「ａ」または「ａｎ」の後ろに続く要素またはステップは、別段の記載のない限り、当該要素またはステップの複数を除外しないものとする。さらに、本開示の「一実施形態」または「一例」という言及は、記載の特徴を含む追加の実施形態の存在を除外すると解釈してはならない。「第１の」「第２の」「第３の」等の語は、単にラベルとして使用しており、数字的な要件や物に対する特定の位置順を課すことを意図してはいない。以下の請求項は、新規で自明でないと見なされる上記開示の主題を詳細に記載する。

Claims

アクセント付き音声表記及び変換ＩＤ生成ユニットであって、アクセント付き部分文字列のデータベースを含み、メタデータと、前記メタデータに関連付けられた第１のＩＤデータ空間のＩＤデータとを受信し、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた前記複数の修正されたワードを提供し、前記複数の修正されたワードを処理し、前記複数の修正されたワードに関して複数のアクセントを訂正した音声表記データを提供し、前記アクセントを訂正した音声表記データのそれぞれは、処理されて、第２のＩＤデータ空間の複数の変換ＩＤであって、それぞれ、前記複数のアクセントを訂正した音声表記データのうちの関連する音声表記データと一意に関連付けられた前記複数の変換ＩＤを提供する、前記アクセント付き音声表記及び変換ＩＤ生成ユニットと、
ユーザ入力音声を受信、処理し、前記ユーザ入力音声に関連付けられた抽出音声データを提供する音声特徴抽出器ユニットと、
前記抽出音声データ、前記複数の変換ＩＤ、及び、前記複数のアクセントを訂正した音声表記データを受信し、前記音声表記のうちの１つが、前記ユーザ入力音声に関連付けられた前記抽出音声データに最も一致する末尾に対応する末尾識別子とアクセントデータとを提供する音声認識論理ユニットと、
前記末尾識別子を受信し、前記第１のＩＤデータ空間に確認されたＩＤを提供するアクセント検出及び逆ＩＤ変換ユニットと、
前記検出したアクセントデータを受信し、前記検出したアクセントデータの過去の値と比較して、認識された音声データを提供するアクセント結果重み付け論理ユニットと、
を備える、音声認識システム。
前記アクセント付き音声表記及び変換ＩＤ生成ユニットは、前記複数のアクセントを訂正した音声表記データを提供する書記素‐音声表記ユニットを含む、請求項１に記載の音声認識システム。
前記アクセント付き音声表記及び変換ＩＤ生成ユニットは、変換ＩＤアロケータを備え、前記変換ＩＤアロケータは、前記アクセントを訂正した音声表記データ及び前記ＩＤデータを受信して、第２のＩＤデータ空間に前記複数の変換ＩＤを提供する、請求項１または２のいずれか一項に記載の音声認識システム。
前記音声認識論理ユニットは、前記ある言語に関連付けられた文法ファイルを含むコンテキストユニットを備える、請求項３に記載の音声認識システム。
アクセント付き部分文字列のデータベースにアクセスする音声認識方法であって、
メタデータと、前記メタデータに関連付けられた元のＩＤ空間のＩＤデータを受信することと、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた前記複数の修正されたワードを提供することと、前記複数の修正されたワードを処理して、前記複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することと、前記アクセントを訂正した音声表記データは、それぞれ、処理されて、変換ＩＤ空間の複数の変換ＩＤであって、それぞれ、前記複数のアクセントを訂正した音声表記データの関連する音声データに一意に関連付けられた前記複数の変換ＩＤを提供することと、
ユーザ入力音声を受信することと、前記受信した入力音声を音声特徴抽出器ユニットで処理して前記ユーザ入力音声に関連付けられた抽出音声データを提供することと、
前記抽出音声データ、前記複数の変換ＩＤ、及び、前記複数のアクセントを訂正した音声表記データを処理することと、前記音声表記の１つが前記ユーザ入力音声に関連付けられた前記抽出音声データに最も一致する末尾に対応する末尾識別子と、前記アクセントデータとを提供することと、
前記末尾識別子を処理して、前記元のＩＤデータ空間に確認されたＩＤを提供することと、
前記検出したアクセントデータを前記検出したアクセントデータの過去の値と比較して認識された音声データを提供することと、
を含む、前記音声認識方法。
前記複数のアクセントを訂正した音声表記データを提供するステップは、前記複数のアクセントを訂正した音声表記データを提供する前記複数の修正されたワードの書記素‐音声表記処理を含む、請求項５に記載の方法。
音声制御装置、プロセッサ、及び、前記プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法であって、
アクセント付き部分文字列のデータベースを含むアクセント付き音声表記及び変換ＩＤ生成ユニットにおいて、メタデータを受信することと、
前記メタデータに含まれるワードに関して、アクセントを訂正した音声表記データであって、前記データベースに記憶された前記アクセント付き部分文字列に基づいて、前記メタデータに含まれる前記ワードの異なる発音を表す前記アクセントを訂正した音声表記データを、前記アクセント付き音声表記及び変換ＩＤ生成ユニットを介して生成することと、
ユーザによって前記音声認識システムに入力された発話から引き出された抽出音声データを音声認識エンジンにおいて受信することと、
前記アクセントを訂正した音声表記データを前記音声認識エンジンにおいて受信することと、
前記抽出音声データの認識された発話を識別する１つまたは複数の末尾ＩＤを前記音声認識エンジンにおいて決定することと、
前記認識された発話において検出されたアクセントを識別するアクセントデータを前記音声認識エンジンにおいて生成することと、
前記１つまたは複数の末尾ＩＤと前記アクセントデータとに基づいて、認識された音声データを生成することと、
前記認識された音声データを前記音声制御装置に出力することと、
を含む、前記音声認識方法。
重み付け結果ユニットにおいて、前記アクセントデータと、前に生成されたアクセントデータを含む履歴データを受信して、前記アクセントデータを前記履歴データと比較することをさらに含み、前記認識された音声データは、前記アクセントデータと前記履歴データとの前記比較にさらに基づいている、請求項７に記載の方法。
前記アクセントデータと前記履歴データを比較することは、前記アクセントデータによって識別されたアクセントが、最近、認識された音声データで識別されたアクセントに一致するか否かを判断することを含む、請求項８に記載の方法。
前記メタデータは、前記音声認識システムの前記記憶装置、前記音声認識システムに入力を行うユーザのモバイルデバイス、及び、前記音声認識システムに入力を行う前記ユーザに関連付けられたユーザプロファイルをホストする外部サービスの１つまたは複数に記憶されたテキストエントリに対応する、請求項７〜９のいずれか一項に記載の方法。
前記メタデータに含まれた前記ワードに対応するＩＤデータを前記アクセント付き音声表記及び変換ＩＤ生成ユニットにおいて受信し、前記アクセント付き音声表記及び変換ＩＤ生成ユニットにおいて、前記アクセントを訂正した音声表記データの変換ＩＤを生成することをさらに含む、請求項７〜９のいずれか一項に記載の方法。
前記アクセントを訂正した音声表記データは、アクセント付きワードであって、それぞれ、前記メタデータに含まれた関連付けられた元のワードに対応する前記アクセント付きワードを含み、前記変換ＩＤは、それぞれ、異なるアクセントのワードに対応し、そのアクセント付きワードのアクセントと、そのアクセント付きワードに関連付けられた前記元のワードの前記ＩＤデータとに基づいて生成された、請求項１１に記載の方法。
前記認識された音声データ及び前記１つまたは複数の末尾ＩＤは、前記メタデータのワードと、前記メタデータの前記ワードの前記ＩＤデータとに一致される、請求項１２に記載の方法。
前記音声認識論理ユニットは、ユーザに関して識別された言語に関連付けられた文法ファイルを含むコンテキストユニットを備える、請求項７〜１３のいずれか一項に記載の方法。
前記言語は、履歴データと、前記ユーザによって入力された前記発話との１つまたは複数に基づいて自動的に識別される、請求項１４に記載の方法。
前記言語は、前記ユーザによる前記言語の選択に基づいて識別される、請求項１５に記載の方法。
前記音声認識システムは、車両の車載コンピュータシステムを備え、音声制御装置は、前記車載コンピュータシステムのディスプレイと、前記車両の車両システムの１つまたは複数を備える、請求項７〜１６のいずれか一項に記載の方法。
音声制御装置、プロセッサ、及び、前記プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法であって、
メタデータと、前記メタデータに関連付けられた元のＩＤ空間のＩＤデータとを受信することと、
複数の修正されたワードであって、それぞれ、前記メタデータと、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントとに一意に関連付けられた前記複数の修正されたワードを提供することと、前記複数の修正されたワードを処理して、前記複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することと、
前記アクセントを訂正した音声表記データを処理して、変換ＩＤ空間の複数の変換ＩＤであって、それぞれ、前記複数のアクセントを訂正した音声表記データの関連する音声データに一意に関連付けられた前記複数の変換ＩＤを提供することと、
ユーザ入力音声データを受信することと、前記受信した入力音声データを処理して、前記ユーザ入力音声データに関連付けられた抽出音声データを提供することと、
前記抽出音声データ、前記複数の変換ＩＤ、及び、前記複数のアクセントを訂正した音声表記データを処理することと、前記ユーザ入力音声データに関連付けられた前記抽出音声データに最も一致する前記音声表記に関する末尾に対応する末尾識別子とアクセントデータとを提供することと、
前記末尾識別子を処理して、前記元のＩＤデータ空間の変換ＩＤを提供することと、
前記検出したアクセントデータを前記検出したアクセントデータの過去の値と比較して、認識された音声データを提供することと、
を含む、前記音声認識方法。