JP6585154B2 - 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識 - Google Patents

単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識 Download PDF

Info

Publication number
JP6585154B2
JP6585154B2 JP2017503577A JP2017503577A JP6585154B2 JP 6585154 B2 JP6585154 B2 JP 6585154B2 JP 2017503577 A JP2017503577 A JP 2017503577A JP 2017503577 A JP2017503577 A JP 2017503577A JP 6585154 B2 JP6585154 B2 JP 6585154B2
Authority
JP
Japan
Prior art keywords
data
accent
conversion
speech
accented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017503577A
Other languages
English (en)
Other versions
JP2017521724A (ja
Inventor
ラジャット パシニ,
ラジャット パシニ,
Original Assignee
ハーマン インターナショナル インダストリーズ インコーポレイテッド
ハーマン インターナショナル インダストリーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハーマン インターナショナル インダストリーズ インコーポレイテッド, ハーマン インターナショナル インダストリーズ インコーポレイテッド filed Critical ハーマン インターナショナル インダストリーズ インコーポレイテッド
Publication of JP2017521724A publication Critical patent/JP2017521724A/ja
Application granted granted Critical
Publication of JP6585154B2 publication Critical patent/JP6585154B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連出願の相互参照
本出願は、2014年7月24日出願のインド仮特許出願第3618/CHE/2014号「TEXT RULE BASED MULTI‐ACCENT SPEECH RECOGNITION WITH SINGLE ACOUSTIC MODEL AND AUTOMATIC ACCENT DETECTION」の優先権を主張し、あらゆる目的で、その内容全体を参照により本明細書に組み込む。
本開示は、音声認識に関し、より詳細には、複数アクセントの音声認識に関する。
同じ言語の複数アクセントを音声認識することは、組み込み機器業界にとっての課題である。通常、この問題は、大まかに分けた異なる地理に亘って、様々なアクセントに対して異なる音響モデルを有することによって解決される。例えば、北アメリカ、イギリス、オーストラリア、及び、インドの英語は、認識のための異なる音響モデルを有する。
各音響モデルを用いてさえ、地域的なアクセントが追加の課題となり得る。例えば、インドでは、英語は、各地域の母語の次に2番目に最もよく話される言語であるが、インドの異なる地域に亘って、その地域の多くの英語アクセントがある。これらの地域アクセントは、1つの音響モデルに基づいた音声認識にとっての課題である。音声認識は、アクセントに特化した複数の認識装置を並行に採用する複数アクセント認識システムを使用し得る。異なる音響モデルを用いたアクセント特化認識装置を複数、並行して運転して認識精度を向上させることは、プロセッサ集約的となり得る。この集約的なリソース使用は、処理能力が限られている組み込み機器にとっては特に難しいことがある。さらに、アクセントに特化した音響モデルの開発及び使用は、費用効果的ではない。
複数アクセントの問題を克服する手法の1つは、最もよく混同される音声対を分析して、音声的転用対(phonetic transfer pairs)を形成することである。これらの発音転用対(pronunciation transfer pairs)は、次に、元の基準語彙集に加えられて、最終的に、そのアクセントに適合された新しい辞書が構築される。要するに、そのアプローチは、アクセント付き発音に関して、使用されていない本来のアクセントの音声表記を最も可能性の高い音声記号の組み合わせで置き換えることを含む。音響モデルにも、内部で認識エンジンによって認識される記号にもアクセスが限られているまたはアクセスがないと、この分析が可能でない場合がある。
アクセント付き音声表記及び変換ID生成ユニットを備える音声認識システムの例の実施形態を開示する。アクセント付き音声表記及び変換ID生成ユニットは、アクセント付き部分文字列のデータベースを備え、メタデータと、メタデータに関連付けられた第1のIDデータ空間のIDデータとを受信する。アクセント付き音声表記及び変換ID生成ユニットは、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントと一意に関連付けられた複数の修正されたワードを提供し、複数の修正されたワードを処理し、複数の修正されたワードの複数のアクセントを訂正した音声表記データを提供する。アクセントを訂正した音声表記データは、それぞれ、処理されて、複数の変換IDを第2のIDデータ空間に提供する。変換IDは、それぞれ、複数のアクセントを訂正した音声表記データのうちの関連する音声表記データに一意に関連付けられている。音声特徴抽出器ユニットは、ユーザ入力音声を受信、処理し、ユーザ入力音声に関連付けられた抽出音声データを提供する。音声認識論理ユニットは、抽出音声データ、複数の変換ID、及び、複数のアクセントを訂正した音声表記データを受信し、末尾(terminal)に対応する末尾識別子と、音声表記のうちの1つがユーザ入力音声に関連付けられた抽出音声データに最も一致するアクセントデータとを提供する。アクセント検出及び逆ID変換ユニットは、末尾識別子を受信して、第1のIDデータ空間に確認されたIDを提供する。アクセント結果重み付け論理ユニットは、検出したアクセントデータを受信して、検出したアクセントデータの過去の値と比較して、認識された音声データを提供する。
アクセント付き音声表記及び変換ID生成ユニットは、複数のアクセントを訂正した音声表記データを提供する書記素‐音声表記ユニットを備えてよい。
アクセント付き音声表記及び変換ID生成ユニットは、変換IDアロケータを備えてよく、変換IDアロケータは、アクセントを訂正した音声表記データ及びIDデータを受信して、複数の変換IDを第2のIDデータ空間に提供する。
音声認識論理ユニットは、ある言語に関連付けられた文法ファイルを含むコンテキストユニットを備える。テキストエントリは、例えば、連絡先データベースの電話連絡先名を含んでよく、または、例えば、曲名、アーティスト名、ジャンル名、アルバム名等、メディアプレーヤに関連付けられた任意の他のメタデータであってよい。
プロセッサで行われる音声認識方法の例は、メタデータ及び元のID空間のIDデータを受信し、複数の修正されたワードであって、それぞれ、メタデータと、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた複数の修正されたワードを提供し、複数の修正されたワードを処理して、複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供する。アクセントを訂正した音声表記データは、処理されて、変換ID空間に複数の変換IDを提供する。複数の変換IDは、それぞれ、複数のアクセントを訂正した音声表記データのうちの関連する音声表記データに一意に関連付けられている。ユーザ入力音声データが、受信、処理されて、ユーザ入力音声データに関連付けられた抽出音声データを提供する。抽出音声データ、複数の変換ID、及び、複数のアクセントを訂正した音声表記データは、処理されて、末尾に対応する末尾識別子を提供し、且つ、ユーザ入力音声データに関連付けられた抽出音声データに一致する音声表記のアクセントデータを提供する。末尾識別子は、処理されて、元のIDデータ空間に確認されたIDを提供し、検出したアクセントデータは、検出したアクセントデータの過去の値と比較されて、認識された音声データを提供する。
音声制御装置、プロセッサ、及び、プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法の別の例であって、当該方法は、アクセント付き部分文字列のデータベースを備えるアクセント付き音声表記及び変換ID生成ユニットでメタデータを受信することと、メタデータに含まれたワードに関するアクセントを訂正した音声表記データであって、データベースに記憶されたアクセント付き部分文字列に基づいてメタデータに含まれたワードの異なる発音を表すアクセントを訂正した音声表記データを、アクセント付き音声表記及び変換ID生成ユニットを介して、生成することと、ユーザが音声認識システムに入力した発話から引き出された抽出音声データを音声認識エンジンで受信することと、を含む。音声認識方法の例は、アクセントを訂正した音声表記データを音声認識エンジンで受信することと、抽出音声データ内の認識された発話を識別する1つまたは複数の末尾IDを音声認識エンジンで決定することと、認識された発話内の検出されたアクセントを識別するアクセントデータを音声認識エンジンで生成することと、1つまたは複数の末尾IDとアクセントデータとに基づいて、認識された音声データを生成することと、認識された音声データを音声制御装置に出力することと、をさらに含む。
本明細書は、例えば、以下の項目も提供する。
(項目1)
アクセント付き音声表記及び変換ID生成ユニットであって、アクセント付き部分文字列のデータベースを含み、メタデータと、前記メタデータに関連付けられた第1のIDデータ空間のIDデータとを受信し、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた前記複数の修正されたワードを提供し、前記複数の修正されたワードを処理し、前記複数の修正されたワードに関して複数のアクセントを訂正した音声表記データを提供し、前記アクセントを訂正した音声表記データのそれぞれは、処理されて、第2のIDデータ空間の複数の変換IDであって、それぞれ、前記複数のアクセントを訂正した音声表記データのうちの関連する音声表記データと一意に関連付けられた前記複数の変換IDを提供する、前記アクセント付き音声表記及び変換ID生成ユニットと、
ユーザ入力音声を受信、処理し、前記ユーザ入力音声に関連付けられた抽出音声データを提供する音声特徴抽出器ユニットと、
前記抽出音声データ、前記複数の変換ID、及び、前記複数のアクセントを訂正した音声表記データを受信し、前記音声表記のうちの1つが、前記ユーザ入力音声に関連付けられた前記抽出音声データに最も一致する末尾に対応する末尾識別子とアクセントデータとを提供する音声認識論理ユニットと、
前記末尾識別子を受信し、前記第1のIDデータ空間に確認されたIDを提供するアクセント検出及び逆ID変換ユニットと、
前記検出したアクセントデータを受信し、前記検出したアクセントデータの過去の値と比較して、認識された音声データを提供するアクセント結果重み付け論理ユニットと、
を備える、音声認識システム。
(項目2)
前記アクセント付き音声表記及び変換ID生成ユニットは、前記複数のアクセントを訂正した音声表記データを提供する書記素‐音声表記ユニットを含む、項目1に記載の音声認識システム。
(項目3)
前記アクセント付き音声表記及び変換ID生成ユニットは、変換IDアロケータを備え、前記変換IDアロケータは、前記アクセントを訂正した音声表記データ及び前記IDデータを受信して、第2のIDデータ空間に前記複数の変換IDを提供する、項目1または2のいずれか一項に記載の音声認識システム。
(項目4)
前記音声認識論理ユニットは、前記ある言語に関連付けられた文法ファイルを含むコンテキストユニットを備える、項目3に記載の音声認識システム。
(項目5)
アクセント付き部分文字列のデータベースにアクセスする音声認識方法であって、
メタデータと、前記メタデータに関連付けられた元のID空間のIDデータを受信することと、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた前記複数の修正されたワードを提供することと、前記複数の修正されたワードを処理して、前記複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することと、前記アクセントを訂正した音声表記データは、それぞれ、処理されて、変換ID空間の複数の変換IDであって、それぞれ、前記複数のアクセントを訂正した音声表記データの関連する音声データに一意に関連付けられた前記複数の変換IDを提供することと、
ユーザ入力音声を受信することと、前記受信した入力音声を音声特徴抽出器ユニットで処理して前記ユーザ入力音声に関連付けられた抽出音声データを提供することと、
前記抽出音声データ、前記複数の変換ID、及び、前記複数のアクセントを訂正した音声表記データを処理することと、前記音声表記の1つが前記ユーザ入力音声に関連付けられた前記抽出音声データに最も一致する末尾に対応する末尾識別子と、前記アクセントデータとを提供することと、
前記末尾識別子を処理して、前記元のIDデータ空間に確認されたIDを提供することと、
前記検出したアクセントデータを前記検出したアクセントデータの過去の値と比較して認識された音声データを提供することと、
を含む、前記音声認識方法。
(項目6)
前記複数のアクセントを訂正した音声表記データを提供するステップは、前記複数のアクセントを訂正した音声表記データを提供する前記複数の修正されたワードの書記素‐音声表記処理を含む、項目5に記載の方法。
(項目7)
音声制御装置、プロセッサ、及び、前記プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法であって、
アクセント付き部分文字列のデータベースを含むアクセント付き音声表記及び変換ID生成ユニットにおいて、メタデータを受信することと、
前記メタデータに含まれるワードに関して、アクセントを訂正した音声表記データであって、前記データベースに記憶された前記アクセント付き部分文字列に基づいて、前記メタデータに含まれる前記ワードの異なる発音を表す前記アクセントを訂正した音声表記データを、前記アクセント付き音声表記及び変換ID生成ユニットを介して生成することと、
ユーザによって前記音声認識システムに入力された発話から引き出された抽出音声データを音声認識エンジンにおいて受信することと、
前記アクセントを訂正した音声表記データを前記音声認識エンジンにおいて受信することと、
前記抽出音声データの認識された発話を識別する1つまたは複数の末尾IDを前記音声認識エンジンにおいて決定することと、
前記認識された発話において検出されたアクセントを識別するアクセントデータを前記音声認識エンジンにおいて生成することと、
前記1つまたは複数の末尾IDと前記アクセントデータとに基づいて、認識された音声データを生成することと、
前記認識された音声データを前記音声制御装置に出力することと、
を含む、前記音声認識方法。
(項目8)
重み付け結果ユニットにおいて、前記アクセントデータと、前に生成されたアクセントデータを含む履歴データを受信して、前記アクセントデータを前記履歴データと比較することをさらに含み、前記認識された音声データは、前記アクセントデータと前記履歴データとの前記比較にさらに基づいている、項目7に記載の方法。
(項目9)
前記アクセントデータと前記履歴データを比較することは、前記アクセントデータによって識別されたアクセントが、最近、認識された音声データで識別されたアクセントに一致するか否かを判断することを含む、項目8に記載の方法。
(項目10)
前記メタデータは、前記音声認識システムの前記記憶装置、前記音声認識システムに入力を行うユーザのモバイルデバイス、及び、前記音声認識システムに入力を行う前記ユーザに関連付けられたユーザプロファイルをホストする外部サービスの1つまたは複数に記憶されたテキストエントリに対応する、項目7〜9のいずれか一項に記載の方法。
(項目11)
前記メタデータに含まれた前記ワードに対応するIDデータを前記アクセント付き音声表記及び変換ID生成ユニットにおいて受信し、前記アクセント付き音声表記及び変換ID生成ユニットにおいて、前記アクセントを訂正した音声表記データの変換IDを生成することをさらに含む、項目7〜9のいずれか一項に記載の方法。
(項目12)
前記アクセントを訂正した音声表記データは、アクセント付きワードであって、それぞれ、前記メタデータに含まれた関連付けられた元のワードに対応する前記アクセント付きワードを含み、前記変換IDは、それぞれ、異なるアクセントのワードに対応し、そのアクセント付きワードのアクセントと、そのアクセント付きワードに関連付けられた前記元のワードの前記IDデータとに基づいて生成された、項目11に記載の方法。
(項目13)
前記認識された音声データ及び前記1つまたは複数の末尾IDは、前記メタデータのワードと、前記メタデータの前記ワードの前記IDデータとに一致される、項目12に記載の方法。
(項目14)
前記音声認識論理ユニットは、ユーザに関して識別された言語に関連付けられた文法ファイルを含むコンテキストユニットを備える、項目7〜13のいずれか一項に記載の方法。
(項目15)
前記言語は、履歴データと、前記ユーザによって入力された前記発話との1つまたは複数に基づいて自動的に識別される、項目14に記載の方法。
(項目16)
前記言語は、前記ユーザによる前記言語の選択に基づいて識別される、項目15に記載の方法。
(項目17)
前記音声認識システムは、車両の車載コンピュータシステムを備え、音声制御装置は、前記車載コンピュータシステムのディスプレイと、前記車両の車両システムの1つまたは複数を備える、項目7〜16のいずれか一項に記載の方法。
(項目18)
音声制御装置、プロセッサ、及び、前記プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法であって、
メタデータと、前記メタデータに関連付けられた元のID空間のIDデータとを受信することと、
複数の修正されたワードであって、それぞれ、前記メタデータと、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントとに一意に関連付けられた前記複数の修正されたワードを提供することと、前記複数の修正されたワードを処理して、前記複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することと、
前記アクセントを訂正した音声表記データを処理して、変換ID空間の複数の変換IDであって、それぞれ、前記複数のアクセントを訂正した音声表記データの関連する音声データに一意に関連付けられた前記複数の変換IDを提供することと、
ユーザ入力音声データを受信することと、前記受信した入力音声データを処理して、前記ユーザ入力音声データに関連付けられた抽出音声データを提供することと、
前記抽出音声データ、前記複数の変換ID、及び、前記複数のアクセントを訂正した音声表記データを処理することと、前記ユーザ入力音声データに関連付けられた前記抽出音声データに最も一致する前記音声表記に関する末尾に対応する末尾識別子とアクセントデータとを提供することと、
前記末尾識別子を処理して、前記元のIDデータ空間の変換IDを提供することと、
前記検出したアクセントデータを前記検出したアクセントデータの過去の値と比較して、認識された音声データを提供することと、
を含む、前記音声認識方法。
上記特徴及び以下に説明する特徴は、記載した各組み合わせだけでなく、他の組み合わせで、または、個別に、使用できることは理解されたい。発明のこれら及び他の目的、特徴、及び、利点は、添付の図面に示す発明の実施形態の詳細な説明を考慮すると明らかになる。
開示は、添付の図面を参照しながら、制限を目的としない実施形態の以下の記載を読むとよりよく理解される。
本開示の1つまたは複数の実施形態に係る、車両のキャビンを示す部分図の例である。 本開示の1つまたは複数の実施形態に係る、車載コンピュータシステムの例を示す図である。 本開示の1つまたは複数の実施形態に係る、音声認識システムの例を示すブロック図である。 本開示の1つまたは複数の実施形態に係る、アクセント付き音声表記及びID生成論理ユニットの例を示すブロック図である。 本開示の1つまたは複数の実施形態に係る、図3の音声認識システムの例を備える処理システムの例を示すブロック図である。 本開示の1つまたは複数の実施形態に係る、音声認識を行う方法を示すフローチャートである。
アクセント付きワード生成器を備える複数アクセントの音声認識システムに関するシステム及び方法を本明細書に開示する。当該生成器は、個々のアクセントに関して、入力ワードに最も類似した音の新しいワードを提供する。これは、システムが支援するアクセント全てに関して行われる。アクセント付きワード生成の基本は、個々のアクセントに関して、元のワード内の文字の組み合わせに基づいた文字列置換論理である。ID生成器モジュールは、アクセントを認識すると、元のワードのID、及び、アクセントの識別に使用できる置換されたワードの変換IDを生成する。
図1は、音声認識システムのため環境の1つのタイプである車両102のキャビン100の内部の部分図の例を示す。キャビン100には、運転者及び/または1人若しくは複数の同乗者が座ってよい。図1の車両102は、駆動輪(図示せず)と内燃機関104とを備える自動車であってよい。車両102は、前方車両であってもよく、後方車両であってもよい。内燃機関104は、1つまたは複数の燃焼室を備えてよく、燃焼室は、吸気通路を介して吸気を受け取り、排気通路を介して燃焼ガスを排気してよい。車両102は、あらゆるタイプの車両のうち自動車であってよい。ある例においては、車両102は、ハイブリッド推進システムを備えてよく、ハイブリッド推進システムは、車両の動き及び/またはエンジンからエネルギーを吸収し、吸収したエネルギーをエネルギー蓄積装置に蓄積するのに適したエネルギー形態に変換するように動作可能なエネルギー変換装置を備える。車両102は、車両に電力を供給するための燃料電池、太陽エネルギー捕捉要素、及び/または、他のエネルギー蓄積システムを組み込んだ完全電気自動車を含んでよい。
図示のように、インストルメントパネル106は、車両102の運転者(ユーザとも呼ばれる)がアクセス可能な様々なディスプレイ及びコントロールを備えてよい。例えば、インストルメントパネル106は、車載コンピュータシステム109(例えば、インフォティンメントシステム)のタッチスクリーン108、オーディオシステムコントロールパネル、及び、インストルメントクラスタ110を備えてよい。図1に示すシステム例は、別個のオーディオシステムコントロールパネルなしに、タッチスクリーン108等、車載コンピュータシステム109のユーザインタフェースを介して行われてよいオーディオシステムコントロールを含むが、他の実施形態においては、車両は、オーディオシステムコントロールパネルを備えてよく、オーディオシステムコントロールパネルは、ラジオ、コンパクトディスクプレーヤ、MP3プレーヤ等の従来の車両オーディオシステムのコントロールを含んでよい。オーディオシステムコントロールは、車両スピーカシステムのスピーカ112を介したオーディオ出力の1つまたは複数の態様を制御する特徴を含んでよい。例えば、車載コンピュータシステムまたはオーディオシステムコントロールは、オーディオ出力の音量、車両スピーカシステムの個々のスピーカ間の音の分布、オーディオ信号の等化、及び/または、オーディオ出力の任意の他の態様を制御してよい。さらなる例においては、車載コンピュータシステム109は、タッチスクリーン108を介して直接受信されたユーザ入力に基づいて、または、外部装置150及び/またはモバイルデバイス128を介して受信された(ユーザの身体的状態及び/または環境等の)ユーザに関するデータに基づいて、ラジオ局の選択、プレイリストの選択、オーディオ入力ソース(例えば、ラジオ、CDまたはMP3)等を調整してよい。
ある実施形態においては、タッチスクリーン108、ディスプレイスクリーン、様々なコントロールダイヤル、ノブとボタン、メモリ、プロセッサ(単数または複数)、及び、任意のインタフェース要素(例えば、コネクタまたはポート)等の、車載コンピュータシステム109の1つまたは複数のハードウェア要素は、車両のインストルメントパネル106に設置された統合ヘッドユニットを形成してよい。ヘッドユニットは、インストルメントパネル106に固定または取り外し可能に取り付けられてよい。追加または代替の実施形態においては、車載コンピュータシステムの1つまたは複数のハードウェア要素は、モジュール式であってよく、また、車両の複数の場所に設置されてよい。
キャビン100は、車両、ユーザ及び/または環境をモニタする1つまたは複数のセンサを備えてよい。例えば、キャビン100は、ユーザの存在を判断するために座席にかかる圧力を測定するように構成された1つまたは複数の座席搭載圧力センサと、ドアの動きをモニタするように構成されたドアセンサと、キャビンの湿度を測定する湿度センサと、ユーザが電話できるように音声コマンドの形のユーザ入力を受信及び/またはキャビン100の周囲雑音を測定するマイクロフォン等を備えてよい。上記センサ及び/または1つ若しくは複数の追加若しくは代替のセンサは、車両の任意の適切な場所に配置されてよいことは理解されたい。例えば、センサは、エンジン室、車両の外面、及び/または、車両の動作、車両の周囲条件、車両のユーザ等に関する情報を提供するのに適切な他の場所に配置されてよい。車両の周囲条件、車両の状態、または、車両の運転者に関する情報は、外部装置150及び/またはモバイルデバイス128に結合されたセンサ等、車両の外部/車両とは別個の(すなわち、車両システムの一部ではない)センサから受信されてもよい。
キャビン100は、運転前、運転中、及び/または、運転後に車両内に置かれている、モバイルデバイス128等の1つまたは複数のユーザの持ち物も含んでよい。モバイルデバイス128は、スマートフォン、タブレット、ラップトップコンピュータ、ポータブルメディアプレーヤ、及び/または、任意の適切なモバイルコンピュータデバイスを含んでよい。モバイルデバイス128は、通信リンク130を介して車載コンピュータシステムに接続されてよい。通信リンク130は、有線(例えば、ユニバーサルシリアルバス[USB]、モバイルハイデフィニションリンク[MHL]、ハイデフィニションマルチメディアインタフェース[HDMI(登録商標)]、Ethernet(登録商標)等)であってもよく、無線(例えば、BLUETOOTH(登録商標)、WIFI、WIFIダイレクト近距離無線通信[NFC]、セルラー接続等を介して)であってもよく、モバイルデバイスと車載コンピュータシステムとの間に双方向通信を提供するように構成されてよい。モバイルデバイス128は、1つまたは複数の通信リンク(例えば、上記通信リンク例の1つまたは複数)に接続するための1つまたは複数の無線通信インタフェースを備えてよい。無線通信インタフェースは、送信または受信されるデータを運ぶデータラインに結合されたアンテナ(単数または複数)またはポート(単数または複数)等の1つまたは複数の物理的装置と、モバイルデバイス内の他の装置に従って物理的装置を操作する1つまたは複数のモジュール/ドライバとを含んでよい。例えば、通信リンク130は、様々な車両システム(車両オーディオシステム、環境制御システム等)及びタッチスクリーン108からモバイルデバイス128にセンサ信号及び/または制御信号を提供してよく、また、モバイルデバイス128から車載システム及びタッチスクリーン108に制御信号及び/または表示信号を提供してよい。通信リンク130は、モバイルデバイスの128の内部電池を充電するために車載電源からモバイルデバイス128に電力を供給してもよい。
車載コンピュータシステム109は、ユーザによって操作及び/またはアクセスされるが車両102の外部にある1つまたは複数の外部装置150等の追加の装置に通信可能に接続されてもよい。図示の実施形態においては、外部装置は車両102の外にあるが、代替の実施形態においては、外部装置は、キャビン100内にあってもよいことは理解されよう。外部装置は、サーバコンピュータシステム、パーソナルコンピュータシステム、ポータブル電子デバイス、電子リストバンド、電子ヘッドバンド、ポータブルミュージックプレーヤ、電子行動追跡装置、万歩計(登録商標)、スマートウォッチ、GPSシステム等を含んでよい。外部装置150は、通信リンク136を介して、車載コンピュータシステムに接続されてよく、通信リンク136は、通信リンク130に関して述べたように、有線であっても無線であってもよく、外部装置と車載コンピュータシステムの間に双方向通信を提供するように構成されてよい。例えば、外部装置150は、1つまたは複数のセンサを備えてよく、通信リンク136は、外部装置150から車載コンピュータシステム109及びタッチスクリーン108にセンサ出力を送信してよい。外部装置150は、コンテキストデータ、ユーザの振る舞い/プリファレンス、操作規則等に関する情報を記憶及び/または受信してもよく、このような情報を外部装置150から車載コンピュータシステム109及びタッチスクリーン108に送信してよい。
車載コンピュータシステム109は、外部装置150、モバイルデバイス128、及び/または、他の入力ソースから受信した入力を分析してよく、(環境制御システムまたはオーディオシステム等の)様々な車載システムの設定を選択してよく、タッチスクリーン108及び/またはスピーカ112を介して出力を行ってよく、モバイルデバイス128及び/または外部装置150と通信してよく、及び/または、評価に基づいて他の行動を行ってよい。ある実施形態においては、評価の全てまたは一部は、モバイルデバイス128及び/または外部装置150によって行われてよい。ある実施形態においては、外部装置150は、別の車両の車載コンピュータ装置を含んでよい。別の車両は、車両102の先行車両であってもよく、車両102の後方車両であってもよい。
ある実施形態においては、外部装置150の1つまたは複数は、モバイルデバイス128及び/または外部装置150のうちの別の1つを介して間接的に、車載コンピュータシステム109に通信可能に接続されてよい。例えば、通信リンク136は、外部装置150からの出力がモバイルデバイス128に中継されるように、外部装置150をモバイルデバイス128に通信可能に接続してよい。外部装置150から受信されたデータは、次に、モバイルデバイス128によって収集されたデータとモバイルデバイス128において統合されてよく、統合されたデータは、次に、車載コンピュータシステム109及びタッチスクリーン108に通信リンク130を介して送信されてよい。同様のデータ統合は、サーバシステムで行われてもよく、その後、通信リンク136/130を介して車載コンピュータシステム109及びタッチスクリーン108に送信されてよい。
図2は、車両201内に構成及び/または一体化された車載コンピュータシステム200のブロック図を示す。車載コンピュータシステム200は、図1の車載コンピュータシステム109の例であってよく、及び/または、ある実施形態における本明細書に記載の方法の1つまたは複数を行ってよい。ある例においては、車載コンピュータシステムは、情報ベースのメディアコンテンツ(エンターテイメントコンテンツ、ナビゲーションサービス等を含むオーディオ及び/または映像メディアコンテンツ)を車両ユーザに提供して操作者の車内体験を向上させるように構成された車両インフォティンメントシステムであってよい。車両インフォティンメントシステムは、運転者及び/または同乗者の車内体験を向上させるために、様々な車両システム、サブシステム、ハードウェアコンポーネントと、車両201に一体化されたまたは一体化できるソフトウェアアプリケーション及びシステムと、を含んでよい、または、それらに接続されてよい。
車載コンピュータシステム200は、オペレーティングシステムプロセッサ214及びインタフェースプロセッサ220を含む1つまたは複数のプロセッサを備えてよい。オペレーティングシステムプロセッサ214は、車載コンピュータシステム上でオペレーティングシステムを実行してよく、入力/出力、表示、再生、及び、車載コンピュータシステムの他の操作を制御してよい。インタフェースプロセッサ220は、車両内システム通信モジュール222を介して車両制御システム230とインタフェースをとってよい。
車両内システム通信モジュール222は、他の車両システム231及び車両制御要素261にデータを出力してよく、また、他の車両コンポーネント及びシステム231、261から、例えば、車両制御システム230を介してデータ入力を受信してよい。データを出力するとき、車両内システム通信モジュール222は、車両の任意の状態、車両の周囲環境、または、車両に接続された任意の他の情報源の出力に対応する信号を、バスを介して供給してよい。車両データ出力は、例えば、アナログ信号(電流速度等)、個々の情報源によって提供されたデジタル信号(クロック、温度計、全地球測位システム[GPS]センサ等の位置センサ等)、車両データネットワーク(エンジン関連の情報を通信し得るエンジンコントローラエリアネットワーク[CAN]バス、環境制御関連の情報を通信し得る環境制御CANバス、車両のマルチメディアコンポーネント間でマルチメディアデータを通信するマルチメディアデータネットワーク等)を通して伝えられたデジタル信号を含んでよい。例えば、車載コンピュータシステムは、車輪センサによって推定される車両の現在の速度、バッテリを介した車両の電力状態、及び/または、車両の電力分配システム、車両のイグニッション状態等を、エンジンCANバスから読み出してよい。さらに、本開示の範囲を逸脱することなく、Ethernet(登録商標)等の他のインタフェース手段も使用してよい。
不揮発性記憶装置208が、プロセッサ214及び220によって実行可能な命令等のデータを不揮発性の形態で記憶するために、車載コンピュータシステム200に備えられてよい。記憶装置208は、クラウドベースサーバに接続するための、及び/または、クラウドベースサーバに送信する情報を収集するためのアプリケーションを車載コンピュータシステム200が実行するのを可能にするアプリケーションデータを記憶してよい。アプリケーションは、車両システム/センサ、入力装置(例えば、ユーザインタフェース218)、車載コンピュータシステムと通信する装置(例えば、Bluetooth(登録商標)リンクで接続されたモバイルデバイス)等によって集められた情報を読み出してよい。車載コンピュータシステム200は、揮発性メモリ216をさらに備えてよい。揮発性メモリ216は、ランダムアクセスメモリ(RAM)であってよい。不揮発性記憶装置208及び/または揮発性メモリ216等の非一時的記憶装置は、命令及び/またはコードを記憶してよく、命令及び/またはコードは、プロセッサ(例えば、オペレーティングシステムプロセッサ214及び/またはインタフェースプロセッサ220)によって実行されて、本開示に記載のアクションの1つまたは複数を行うように車載コンピュータシステム200を制御する。
マイクロフォン202が、ユーザからの音声コマンドを受信し、車両の周囲雑音を測定し、車両のスピーカからの音声が車両の音響環境に合わせて調整されているかを判断する等のために、車載コンピュータシステム200に備えられてよい。音声処理ユニット204は、マイクロフォン202から受信した音声コマンド等の音声コマンドを処理してよい。ある実施形態においては、車載コンピュータシステム200は、また、車両のオーディオシステム232に備えられたマイクロフォンを用いて、音声コマンドを受信し、且つ、周囲の車両の雑音をサンプリングすることができてよい。
1つまたは複数の追加のセンサが、車載コンピュータシステム200のセンササブシステム210に備えられてよい。例えば、センササブシステム210は、ユーザが車両を駐車するのを助けるリアビューカメラ及び/または(例えば、顔認識及び/またはユーザジェスチャを用いて)ユーザを識別するキャビンカメラ等のカメラを含んでよい。車載コンピュータシステム200のセンササブシステム210は、様々な車両センサと通信し、様々な車両センサから入力を受信してよく、また、ユーザ入力を受信してよい。例えば、センササブシステム210によって受信される入力は、変速ギア位置、変速クラッチ位置、アクセル入力、ブレーキ入力、変速セレクタ位置、車両速度、エンジン速度、エンジンからの質量空気流、周囲温度、吸気温度等と、環境制御システムセンサからの入力(熱伝導流体温度、不凍液温度、ファン速度、車室温度、所望の車室温度、周囲湿度等)、ユーザが発した音声コマンドを検出するオーディオセンサからの入力、車両のフォブからコマンドを受信し、オプションで、車両のフォブの地理的位置/近接性を追跡するフォブセンサからの入力等も含んでよい。一部の車両システムセンサは、センササブシステム210とのみ通信してよいが、他のセンサは、センササブシステム210と車両制御システム230の両方と通信してよく、または、車両制御システム230を介して間接的にセンササブシステム210と通信してもよい。車載コンピュータシステム200のナビゲーションサブシステム211は、(例えば、GPSセンサ及び/または他のセンサを介して、センササブシステム210から)位置情報、ルート案内、交通情報、目標地点(POI)識別等のナビゲーション情報を生成及び/または受信してよく、及び/または、他のナビゲーションサービスを運転者に提供してよい。
車載コンピュータシステム200の外部装置インタフェース212は、車両201の外部にある1つまたは複数の外部装置240と接続可能、及び/または通信してよい。外部装置は、車両201の外にあるとして示されているが、ユーザが車両201を運転しながら外部装置を操作している時等、外部装置は、一時的に車両201内にあってもよいことは理解されたい。言い換えると、外部装置240は、車両201に一体化されていない。外部装置240は、(例えば、Bluetooth(登録商標)、NFC、WIFIダイレクト、または、他の無線接続を介して接続された)モバイルデバイス242、または、代替のBluetooth(登録商標)対応の装置252を含んでよい。モバイルデバイス242は、有線及び/または無線通信を介して車載コンピュータシステムと通信し得る携帯電話、スマートフォン、ウェアラブルデバイス/センサ、または、他のポータブル電子デバイス(単数または複数)であってよい。他の外部装置は、外部サービス246を含む。例えば、外部装置は、車両とは別個に車両の外部に配置された車外装置を含んでよい。さらに他の外部装置は、半導体ドライブ、ペンドライブ、USBドライブ等の外部記憶装置254を含む。外部装置240は、本開示の範囲を逸脱することなく、無線またはコネクタを介して車載コンピュータシステム200と通信してよい。例えば、外部装置240は、ネットワーク260、ユニバーサルバス(USB)接続、直接有線接続、直接無線接続、及び/または、他の通信リンクを介して、外部装置インタフェース212を通して車載コンピュータシステム200と通信してよい。
外部装置インタフェース212は、車載コンピュータシステムが、運転者の連絡先と関連付けられたモバイルデバイスと通信できるようにする通信インタフェースを提供してよい。例えば、外部装置インタフェース212は、運転者の連絡先と関連付けられたモバイルデバイスに(例えば、セルラー通信ネットワークを介して)電話をかける、及び/またはテキストメッセージ(例えば、SMS、MMS等)を送ることを可能にする。外部装置インタフェース212は、以下により詳細に記載するように、車載コンピュータシステムが車両内の1つまたは複数の装置(例えば、運転者のモバイルデバイス)とWIFIダイレクトを介してデータを同期することを可能にする無線通信インタフェースを追加でまたは代わりに提供してよい。
1つまたは複数のアプリケーション244は、モバイルデバイス242で動作可能であってよい。一例として、モバイルデバイスアプリケーション244は、ユーザとモバイルデバイスとのやり取りに関するユーザデータを集約するように操作されてよい。例えば、モバイルデバイスアプリケーション244は、ユーザがモバイルデバイスで聴いたミュージックプレイリスト、(ユーザが受けた電話の頻度及び持続時間を含む)電話ログ、ユーザがよく訪れる場所と、その場所で費やす時間を含む位置情報等に関するデータを集約してよい。収集されたデータは、アプリケーション244によってネットワーク260を介して外部装置インタフェース212に転送されてよい。さらに、特定のユーザデータ要求が、車載コンピュータシステム200から外部装置インタフェース212を介してモバイルデバイス242で受信されてよい。特定のデータ要求は、ユーザが地理的にいる場所、ユーザのいる場所の周囲雑音レベル及び/または音楽ジャンル、ユーザのいる場所の周囲の天候条件(温度、湿度等)等を判断する要求を含んでよい。モバイルデバイスアプリケーション244は、要求されたデータをモバイルデバイスで収集できるように、モバイルデバイス242のコンポーネント(例えば、マイクロフォン等)または他のアプリケーション(例えば、ナビゲーションアプリケーション)に制御命令を送信してよい。モバイルデバイスアプリケーション244は、次に、収集した情報を車載コンピュータシステム200に中継して戻してよい。
同様に、1つまたは複数のアプリケーション248は、外部サービス246で動作可能であってよい。一例としては、外部サービスアプリケーション248は、複数のデータソースからのデータを集約及び/または分析するように動作してよい。例えば、外部サービスアプリケーション248は、ユーザの1つまたは複数のソーシャルメディアアカウントからのデータ、車載コンピュータシステムからのデータ(例えば、センサデータ、ログファイル、ユーザ入力等)、インターネットクエリからのデータ(例えば、天候データ、POIデータ)等を集約してよい。収集されたデータは、別の装置に送信されてよく、及び/または、アプリケーションによって分析されて、運転者、車両、及び、環境の状況を判断し、その状況に基づいてアクションを行ってよい(例えば、データを他の装置に要求/送信する)。
車両制御システム230は、異なる車両内機能に関わる様々な車両システム231の態様を制御するコントロールを備えてよい。これらは、例えば、車両内の人にオーディオエンターテイメントを提供する車両オーディオシステム232の態様、車両内の人のキャビンの冷房または暖房需要に応じる環境制御システム234の態様、及び、車両内の人が車両外の人と遠距離通信網を構築できるようにする遠距離通信システム236の態様を制御することを含んでよい。
オーディオシステム232は、電磁変換器を含むスピーカ等の1つまたは複数の音響再生装置を備えてよい。車両オーディオシステム232は、受動的であってもよく、電力増幅器を備える等、能動的であってもよい。ある例においては、車載コンピュータシステム200は、音響再生装置の唯一の音源であってよい、または、音声再生システム(例えば、携帯電話等の外部装置)に接続された他の音源があってもよい。このような任意の外部装置の音声再生装置への接続は、アナログ技術、デジタル技術、または、アナログ技術とデジタル技術の任意の組み合わせであってよい。
環境制御システム234は、車両201のキャビンまたは車室内に居心地のよい環境を提供するよう構成されてよい。環境制御システム234は、換気口、ヒータ、空調装置、一体式のヒータ及び空調装置システム等の制御換気を可能にするコンポーネントを備える。暖房及び空調設定にリンクされた他のコンポーネントは、フロントガラスを透明にできるフロントガラスの除霜及び曇り止めシステムと、外気吸入口を通って車室に入る外気を清浄にする換気フィルタとを含んでよい。
車両制御システム230は、エンジン及び/または車両のキャビン内の補助要素に関する様々な車両コントロール261(または、車両システム制御要素)の設定を調整するためのコントロール、例えば、ハンドルコントロール262(例えば、ハンドルに取り付けられたオーディオシステムコントロール、クルーズコントロール、フロントガラスワイパーコントロール、ヘッドライトコントロール、方向指示器コントロール等)、インストルメントパネルコントロール、マイクロフォン(単数または複数)、アクセル/ブレーキ/クラッチペダル、ギアシフト、運転者または同乗者のドアに配置されたドア/ウィンドウコントロール、座席コントロール、キャビンライトコントロール、オーディオシステムコントロール、キャビン温度コントロール等、も備えてよい。車両コントロール261は、内燃機関コントロール及び車両動作コントロール(例えば、エンジンコントローラモジュール、アクチュエータ、バルブ等)も含んでよく、内燃機関コントロール及び車両動作コントロールは、エンジン、排気システム、変速機、及び/または、他の車両システムの1つまたは複数の動作を変更する命令を車両のCANバスを介して受信するように構成されてよい。制御信号は、また、車両のオーディオシステム232の1つまたは複数のスピーカのオーディオ出力を制御してよい。例えば、制御信号は、音量、等化、音像(例えば、1つまたは複数の既定の位置から発せられたようにユーザに聞こえるようなオーディオ出力を生成するようなオーディオ信号の構成)、複数のスピーカ間の音声分布等、オーディオ出力特性を調整してよい。同様に、制御信号は、環境制御システム234の換気口、空調装置、及び/または、ヒータを制御してよい。例えば、制御信号によって、冷やされた空気をキャビンの特定の場所に送るのを増加させてよい。
車両の外にある制御要素(例えば、セキュリティシステムのコントロール)は、また、通信モジュール222を介して等、コンピュータシステム200に接続されてよい。車両制御システムの制御要素は、ユーザ入力を受信するために、車両上及び/または車両内に、物理的及び永続的に置かれてよい。車載コンピュータシステム200からの制御命令の受信に加えて、車両制御システム230は、モバイルデバイス242等、ユーザが操作する1つまたは複数の外部装置240からの入力も受信してよい。これによって、車両システム231及び車両コントロール261の態様は、外部装置240から受信したユーザ入力に基づいて制御できる。
車載コンピュータシステム200は、アンテナ206をさらに備えてよい。アンテナ206は、1つのアンテナとして示しているが、ある実施形態においては、1つまたは複数のアンテナを含んでよい。車載コンピュータシステムは、アンテナ206を介してブロードバンド無線インターネットアクセスを得てよく、また、ラジオ、テレビ、天候、交通等の放送信号をさらに受信してよい。車載コンピュータシステムは、1つまたは複数のアンテナ206を介して、GPS信号等の位置信号を受信してよい。車載コンピュータシステムは、アンテナ(単数または複数)206を介して等RFを介して、または、適切な受信装置を通して赤外線若しくは他の手段を介して、無線コマンドも受信してよい。ある実施形態においては、アンテナ206は、オーディオシステム232または遠距離通信システム236の一部として含まれてよい。さらに、アンテナ206は、外部装置240(モバイルデバイス242等)に外部装置インタフェース212を介して、AM/FMラジオ信号を供給してよい。
車載コンピュータシステム200の1つまたは複数の要素は、ユーザインタフェース218を介してユーザによって制御されてよい。ユーザインタフェース218は、図1のタッチスクリーン108等のタッチスクリーン上に提示されるグラフィカルユーザインタフェース、及び/または、ユーザが作動させるボタン、スイッチ、ノブ、ダイヤル、スライダ等を含んでよい。例えば、ユーザが作動させる要素は、ハンドルコントロール、ドア及び/またはウィンドウコントロール、インストルメントパネルコントロール、オーディオシステム設定、環境制御システム設定等を含んでよい。ユーザは、また、車載コンピュータシステム200及びモバイルデバイス242の1つまたは複数のアプリケーションとユーザインタフェース218を介して操作してよい。ユーザの車両設定プリファレンスをユーザインタフェース218で受信することに加えて、車載制御システムが選択した車両設定をユーザインタフェース218上でユーザに表示してよい。通知及び他のメッセージ(例えば、受信したメッセージ)とナビゲーション支援は、ユーザインタフェースのディスプレイ上でユーザに表示されてよい。ユーザプリファレンス/情報及び/または提示されたメッセージに対する応答は、ユーザインタフェースに対してユーザ入力を介して行われてよい。
図3は、音声認識システム300を示すブロック図である。当該システムは、ライン304で(例えば、デジタル化された)ユーザ入力音声を受信する音声特徴抽出器ユニット302を備える。ユーザ入力音声は、マイクロフォン(図示せず)によって検出され、アナログ‐デジタルコンバータ(ADC)を用いてデジタル化されてよい。特徴抽出器ユニット302は、コンテキストに追加された適切なワード(「末尾」)に対応する音声表記に対して、音声認識に使用できる特徴にデジタル音声信号を変換し、最も一致する結果を返す。特徴情報は、ライン306で音声認識エンジン308に提供され、音声認識エンジン308は、次に、音声表記のうちの1つがユーザ入力音声に関連付けられた抽出された特徴に最も一致する「末尾」に対応する識別子(ID)をライン310で返す。
音声認識が固定の語彙に対して有効であり得る方法は、認識すべきワードのリストを含む文法の定義を通したものである。「末尾(terminal)」とも呼ばれる各ワードまたはフレーズは、基本的な音声記号の組み合わせとしてワードまたはフレーズの1つまたは複数の発音の仕方を有してよい。末尾の発音の仕方を知るために、1つまたは複数の音声表記を末尾に関連させてよい。各末尾は、それに関連付けられた一意のIDを有する。文法は、バイナリコンテキストファイルにオフラインでコンパイルされてよく、バイナリコンテキストファイルは、ユーザの発話を認識できるように実行時間にロードされる。
音声認識システム300は、また、メタデータ/テキストエントリ(例えば、スマートフォンまたはPDAの連絡先/電話帳情報、USBメモリスティックまたはオーディオCDからのデータ等)をライン312で受信する。ライン312のテキストエントリは、クエリされた部分文字列を含んでよく、アクセント付き音声表記及びID生成論理ユニットは、受信したデータを処理して、変換IDデータと様々なアクセントに関連付けられた音声表記データとをライン316で提供してよい。すなわち、ライン312のメタデータ/テキストエントリとライン313のメタデータ/テキストエントリに関連付けられたIDデータとは、アクセント付き音声表記及び変換ID生成論理ユニット314に入力され、アクセント付き音声表記及び変換ID生成論理ユニット314は、受信したデータを処理して、変換IDデータと様々なアクセントに関連付けられた音声表記情報とをライン316で提供する。ライン313のIDデータは、元のID空間にあり、ライン316の変換IDデータは、変換データ空間にある。
図4は、アクセント付き音声表記及び変換ID生成ユニット314を示すブロック図である。ライン312のデータは、アクセント(accent)ワード生成器402に入力され、アクセント(accent)ワード生成器402は、文字列を音声表記列に変換する。その規則は、その個々の言語(例えば、アクセント付き音声表記及び変換ID生成ユニット314に関連付けられた言語、及び/または、自動的に及び/またはユーザ選択によって、アクセント付き音声表記及び変換ID生成ユニット314を含む装置が認識するように設定された言語)の言語学者によって生成される。アクセント付きワード生成器402は、(例えば、記憶されたワード/音声表記とライン312で受信したメタデータとの比較に基づいて)個々のアクセントに関してワードに最も近い音の新しいワードを提供してよい。これは、システムが支援する全てのアクセントに関して行われる。例えば、N(例えば、正の整数)個のアクセントが、アクセント付き音声表記及び変換ID生成ユニット314によって支援されてよい。アクセント(accent)ワード生成器402は、データベース404に記憶された規則及びデータを用いて、使用されている言語に基づいてワードに関する発音を生成する。言語は、履歴データと、ユーザが入力した発話との1つまたは複数に基づいて自動的に識別されてもよく、及び/または、言語は、ユーザによる言語の選択に基づいて手動で設定及び識別されてもよい。例えば、アクセント付きワード生成器402は、ライン312で、例えば、CAKEを表す文字列を[K EY K]等の音列に変換してよい。アクセント(accent)ワード生成器402からの出力は、アクセント付き音声表記及びID生成論理ユニット314が支援するN個のアクセントのそれぞれに関して修正されたワードとして、ライン406〜408で提供される。ライン406〜408のN個の修正されたワードのそれぞれは、その個々のアクセントに関連付けられた出力を書記素‐音素(G2P)論理ユニット410に提供する。例えば、インド英語に関しては、十二(12)の異なるアクセントがあるので、これら12のアクセント(または、12の異なるアクセントのうちの[12−x]の異なるアクセントを含むサブセット、例えば、最も普及している[12−x]の異なるアクセント等、12の異なるアクセントのサブセット、ここで、xは12未満の正の整数である)のそれぞれに関して修正されたワードが、アクセント付きワード生成器402から出力されてよいと、考えられる。
図3及び図4を参照すると、ライン312のテキストエントリが、アクセント付き音声表記及び変換ID生成論理ユニット314によって処理される。アクセント付き音声表記及び変換ID生成論理ユニット314は、適切なアクセント付き文字列を置換して、N個の修正されたテキストエントリ/ワードをライン406〜408で提供する。次に、これらのエントリは、音声表記取得に使用されて、認識のためにコンテキストに追加される。例えば、記憶された「Ananyavrata」という名前をエントリとして考えてみよう。その名前の発音は、ベンガル語で発音される「Onanyabrota」に最も近い。一般的な規則として、文字列「An」は、「On」で置き換えることができ、「v」は、文字「b」で置き換えることができる。同じ名前は、タミール語の「Ananyavratha」として発音し得るので、名前の最後の「t」は「th」となることを意味する。次に、新しい文字列を用いて、アクセントのそれぞれに関して音声表記を得ることができる。
同じIDに対して、全てのアクセントに関して生成された音声表記を実行時間に追加することができる。これは、認識精度を向上させるために、音声認識エンジン308がそれらのアクセントを同時に聴いてよいことを意味する。
音響特徴に基づいて、G2Pユニット410は、N個のアクセントのそれぞれに関して、音声表記データをライン413〜415で提供する。G2Pユニット410は、また、ライン312の(例えばアクセント無しの)入力信号に関連付けられた音声表記データをライン412で提供する。基本の音声表記の音は、異なる言語及び地域によって異なり得る。例えば、母音は、アフリカ英語と北アメリカ英語では異なって発音され得る。インドの異なる地域に関しても異なるアクセントで発音され得る。しかしながら、異なる地域において、あるワードの既知の発音の仕方がある、または、ストレスの置き方、ポーズの追加の仕方が追加される。ある言語のこれらの言語的特徴の知識は、音声表記の発音をモデル化する基礎を提供する。システムは、選択した言語(例えば、インド英語)の名前及びその言語に関連付けられた複数のアクセントに関してこのような処理及び関連付けを行ってよい。各入力文字列に関して、音声表記ユニット412〜415は一意の音声表記を返す。アクセント付き音声表記及び変換ID生成論理ユニット314は、オフライン及び組み込みプラットフォームの両方で使用されて、音声表記を生成することができる。音声表記は、G2Pユニット410から出力される。
G2P論理ユニット410は、音素の音響特徴に基づいて、言語の音素をマップする。例えば、G2Pユニットは、G2P規則生成に使用される発音辞書に含まれないワード(例えば、語彙外のワード)に対して最も可能性の高い音リストを生成する。G2Pユニット410は、図3の音声認識システム300を構成する言語(単数または複数)に特有の音素セットを含む。
G2Pユニット410からの音声表記出力データは、変換IDアロケータ416に入力され、変換IDアロケータ416は、ライン412のアクセント無し音声表記データ及びライン413〜415のN個のアクセント付き音声表記データに関連付けられた変換IDデータをライン417a〜417dで提供する。変換IDは、変換ID空間に関連付けられる。アクセント付き音声表記及び変換ID生成ユニットは、ライン412〜415で音声表記データを提供し、ライン417a〜417dで変換IDデータを提供する。ライン412の信号とライン417aの信号は、ライン312の入力信号に関連付けられた出力データ対を提供する。同様に、ライン413の信号及びライン417bの信号は、ライン406のアクセント1の修正されたワードに関連付けられた出力データ対を提供し、ライン414の信号及びライン417cの信号は、ライン407等のアクセント2の修正されたワードに関連付けられた出力データ対を提供する。
変換IDアロケータ416は、各元のワード及びアクセント付きワードに対して一意のIDを生成する。例えば、元の末尾のIDが、番号1000を割り当てられ、支援される15のアクセントがある場合、システムは、1〜15の変換アクセントID範囲を介して変換IDを提供してよい。一実施形態においては、変換は、
New_ID=(Old_IDM)+Accent_IDであってよく、
ここで、M=N+1以上の整数、Nは、支援されるアクセントの最大数である。
Nの値は、様々なインドアクセントに関して以下のように割り当てられてよい。
0:アクセント無し
1:ベンガルアクセント
2:グジャラートアクセント
Old_ID値1000を割り当てられたワードに関して、Mが20である場合、そのワードのベンガルアクセントの形態に関する新しいIDは、
(100020)+1=20001
と計算されてよい。
Old_ID値1000を割り当てられた同じ元のワードに関して、そのワードのグジャラートアクセントの形態に関する新しいIDは、
(100020)+2=20002
と計算されてよい。
音声認識エンジン308が、変換、認識されたIDを図3のアクセント検出ユニット318に渡すと、元の末尾ID及びアクセントIDが、変換を介して抽出されてよい。
Accent_ID=(Recognized_Transformed_ID%M)
ここで、%は、モジュロ(剰余)演算子を表し、
Old_ID=Recognized_Transformed_ID‐Accent_ID)/Mである。
このID割り当て技術によって、確実に音声認識システムが使用する元のIDと変換IDの競合がなくなる。
図3及び図4を参照すると、音声認識エンジン308は、コンテキストユニット320も備え、コンテキストユニット320は、様々なアクセントに関する訂正を有する音声表記を示すデータをライン412〜415(図4)で、そして、これらの音声表記信号と関連付けられたIDデータをライン417a〜417d(図4)で受信する。音声認識アプリケーションがアクティブなとき、個々のコンテキストが音声認識エンジン308にロードされる。システムが、ライン304でユーザ入力音声を受信すると、音声特徴抽出器ユニット302は、デジタル化された音声データを特徴に変換する。音声認識エンジン308は、次に、アクセント付き音声表記及びID生成ユニット314から音声認識ユニット308に入力されたアクセント付き入力データ対のそれぞれに関して末尾に対応するIDデータを返す。
コンテキストユニット320の文法ファイルは、G2Pユニット410(図4)によって返される音声表記を微調整することによって、または、例えば、音声表記生成ツールを使用することによって、オフラインで編集してよい。例えば、「read」というワードは、コンテキストに基づいて、「reed」または「red」と発音できる。よって、両方の発音を認識するために、両方の発音に関する対応する音声表記をコンテキストユニット320(図3)の文法ファイルに追加してよい。適切な音声表記発音を有する末尾も、実行時間に追加することができる。
オフライン処理を用いると、ワードは、テキスト操作のみで、他の言語での話し方でモデル化することができる。音声表記を手で調整するという、面倒な作業になり得ることを行う必要がない。例えば、固定のコマンド「find the nearest bank」を考えてみよう。あるアクセントにおいては、「bank」とういうワードは、(bya‐unkと分割されて)「byunk」と発音され得る。このような言語に関して、オフラインで音声表記データを準備して、ワードバンクを調べ、「bya unk」で置き替えることができ、認識の目的で対応する音声表記を同義語として追加できる。
オンライン(例えば、組み込み機器)上でのワード処理方法は、ユーザによってロードされる動的データにとって有用であり得る。このようなデータの例は、電話帳のエントリである。電話帳のエントリは、例えば、(例えば、Bluetooth(登録商標)若しくは他の無線接続を介して等の無線で、及び/または、有線接続を介して)電話を接続することによって取得されてよい。ダイヤルするために音声認識を介して名前を認識できるために、名前のリストは、アクセント付き音声表記及びID生成論理314(図4)で提供されてよく、アクセント付き音声表記及びID生成論理314は、名前に関する音声表記を返す。人の名前は、通常、多くの地域的なアクセントを有し、それは、名前認識の課題となっている。認識精度を向上させるために、アクセント付き発音に似るように名前を表すよう、名前は、実行時間に修正されてよい。これらの修正は、実行時間に行われて、テンポラリファイルに書き込まれてよく、次に、テンポラリファイルを用いて、G2Pユニット410(図4)から音声表記をフェッチしてよい。修正または文字列の置き換えは、各アクセントに関して、データベース404(図4)を検索することによって、及び/または、構成ファイル(例えば、XML、JSONまたはYAMLベースのフォーマット)に基づいて、行われてよい。データベースは、ある期間に亘って拡張及び向上させてよいので、修正または文字列の置き換えによって精度を拡張可能である。
音声認識エンジン308からの認識IDの精度を向上させるために、図3のシステム300は、認識されたIDを示すデータを受信するアクセント検出ユニット318も備えてよい。アクセント検出ユニット318は、重み付け結果ユニット322にデータを提供し、重み付け結果ユニット322は、検出されたアクセントを追跡して、以前検出したアクセントを示すデータを提供する。信頼できるほど十分なアクセントが検出されると、検出されたアクセントを示すこの履歴情報は、ライン324で、重み付け結果ユニット322によって使用されて、本当らしいアクセントを決定してよい。上記フィードバック構成によって、このようなフィードバックを利用しない他の音声認識システムと比較して、音声認識システム300のアクセント検出精度を向上させてよい。
(例えば、重み付け結果ユニット322から、精度を向上させた)認識結果を、1つまたは複数の音声制御ユニットまたは装置326に提供してよい。 例えば、音声制御ユニットまたは装置326は、認識された音声結果に一致するテキストを表示する表示ユニット、及び/または、認識された音声結果を論理プロセスに適用して、(例えば、ユーザインタフェースを調整し、検索を行い、別の装置の動作及び/または任意の他の適切なプロセスを制御するために別の装置に送信する制御コマンドを決定する)プロセッサを備えてよい。音声制御ユニットまたは装置326は、認識された音声結果に基づいて、動作を変更する装置(例えば、車両システム、モバイルコンピュータデバイス、サーバ等)、及び/または、さらなる処理または制御のために、認識された音声結果を別のリモートユニットに中継若しくは送信するリモートサービス若しくはネットワークインタフェースを追加でまたは代わりに備えてよい。一般的に、1つまたは複数の音声制御ユニットまたは装置326は、重み付け結果ユニット322及び/またはアクセント検出ユニット318からの認識された音声結果に基づいて、アクションを行ってよい。アクションは、ディスプレイを調整すること、車両若しくは車両システム(例えば、オーディオシステム、環境制御システム等)の動作を調整すること、認識された音声結果をリモート装置に送信すること、認識された音声結果に対応するテキストを生成すること、及び/または、任意の他の適切なアクションを含んでよい。音声制御ユニットまたは装置326は、任意の適切なハードウェア要素、及び/または、記憶装置と記憶装置に記憶された命令を実行する論理装置とを含むハードウェア要素を備えてよい。
図5は、図3の音声認識システムを備える処理システム500、例えば、インフォティンメントシステムを示すブロック図である。図3に示す音声認識システム300は、1つまたは複数の処理ユニット504(図5)において実行可能なプログラム命令として実施されてよい。処理システム500は、例えば、マイクロフォン、GPS受信機、ラジオ受信機(例えば、AM/FM/衛星/WIFI、Bluetooth(登録商標)等)を含む入力装置502から入力信号を受信してよい。処理システム500は、記憶装置506(例えば、オーディオ及び/またはビデオコンテンツを含むハードドライブ)も備えてよく、例えば、ディスプレイ、ラウドスピーカ、Bluetooth(登録商標)トランシーバ、及び、有線接続等の複数の出力装置508に出力コマンド及びデータを提供してよい。
図6は、音声認識を行う方法600のフローチャートである。例えば、方法600は、図5の音声処理システム500、及び/または、図3及び図4の音声認識システム300等の音声認識システムによって行われてよい。602において、方法は、アクセント付き部分文字列のデータベースを備えるアクセント付き音声表記及び変換ID生成ユニット(例えば、図3のユニット314)において、メタデータ及び/またはメタデータのIDデータを受信することを含む。604で示すように、メタデータは、ユーザに関連付けられた装置に記憶されたテキストに対応するワードを含んでよい。例えば、メタデータは、音声認識システムの記憶装置、音声認識システムに入力を行うユーザのモバイルデバイス、音声認識システムに入力を行うユーザに関連付けられたユーザプロファイルをホストする外部サービス(例えば、ソーシャルネットワーキングサービス)、及び/または、任意の他の適切な記憶装置に記憶されたテキストエントリを含んでよい。
606において、方法は、アクセント付き音声表記及び変換ID生成ユニットを介して、メタデータに含まれるワードのアクセントを訂正した音声表記データを生成することを含む。608で示すように、アクセントを訂正した音声表記データは、データベースに記憶されたアクセント付き部分文字列に基づいて、メタデータに含まれるワードの異なる発音を表してよい。アクセント付き音声表記及び変換ID生成ユニットは、アクセントを訂正した音声表記データの変換IDをさらに生成してよい。例えば、アクセントを訂正した音声表記データは、アクセント付きワードを含んでよく、各アクセント付きワードは、メタデータに含まれる関連付けられた元のワードに対応し、各変換IDは、そのアクセント付きワードのアクセントに基づいて生成された異なるアクセントのワードと、そのアクセント付きワードに関連付けられた元のワードのIDデータに対応する。
610において、方法は、音声抽出ユニットで、ユーザによって入力された発話を受信し、その入力に基づいて抽出音声データを生成することを含む。612において、方法は、音声認識エンジン(例えば、図3の音声認識エンジン308)で、受信することを含む。614において、方法は、音声認識エンジンで、アクセントを訂正した音声表記データを受信することを含む。
616において、方法は、音声認識エンジンで、抽出音声データの認識された発話を識別する1つまたは複数の末尾IDを決定することを含む。618において、方法は、音声認識エンジンで、認識された発話で検出されたアクセントを識別するアクセントデータを生成することを含む。620において、方法は、生成されたアクセントデータを記憶し、履歴データ(例えば、前に生成されたアクセントデータ及び/または認識された音声データ)と比較することを含む。生成されたアクセントデータ及び履歴データは、重み付け結果ユニットで受信されてよい(例えば、図3のユニット322、履歴データは、認識された音声結果を生成するとすぐに重み付け結果ユニットで受信、記憶された認識された音声結果を含んでよい)。重み付け結果ユニットは、現在及び前のデータ(例えば、今、決定されたアクセントデータ及び前に決定された履歴データ)を比較して、アクセントデータが前に認識された音声結果の最近決定したアクセントに一致するか否かを判断してよい。622において、方法は、末尾ID、アクセントデータ、及び/または、履歴データに基づいて、認識された音声データを生成することを含む。例えば、認識された音声データ及び1つまたは複数の末尾IDは、メタデータのワード及びメタデータのワードのIDデータに一致されてよい。624において、方法は、認識された音声データを音声制御装置(例えば、図3の音声制御装置326)に出力することを含む。
本明細書に開示のシステム及び方法は、(例えば、インド英語の)複数のアクセントを1つの音響モデルを用いて支援するという問題を取り扱っている。音声表記は、個々のアクセントに関して、G2Pユニットのための音声表記を取得するために使用するワードを修正することによって、オフラインまたはオンラインで生成される。
上記システム及び方法は、音声認識システムの例も提供する。音声認識システムは、アクセント付き音声表記及び変換ID生成ユニットを備え、アクセント付き音声表記及び変換ID生成ユニットは、アクセント付き部分文字列のデータベースを備え、メタデータと、メタデータに関連付けられた第1のIDデータ空間のIDデータを受信し、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた複数の修正されたワードを提供し、複数の修正されたワードを処理して、複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供する。ここで、アクセントを訂正した音声表記データは、それぞれ、処理されて、第2のIDデータ空間の複数の変換IDであって、それぞれ、複数のアクセントを訂正した音声表記データの関連する音声表記データに一意に関連付けられた複数の変換IDを提供する。音声認識システムは、ユーザ入力音声を受信、処理し、ユーザ入力音声に関連付けられた抽出音声データを提供する音声特徴抽出器ユニットと、抽出音声データ、複数の変換ID、及び、複数のアクセントを訂正した音声表記データを受信し、及び、音声表記の1つが、ユーザ入力音声に関連付けられた抽出音声データに最も一致する末尾に対応する末尾識別子とアクセントデータとを提供する音声認識論理ユニットと、末尾識別子を受信し、第1のIDデータ空間に確認されたIDを提供するアクセント検出及び逆ID変換ユニットと、検出したアクセントデータを受信し、検出したアクセントデータの過去の値と比較して、認識された音声データを提供するアクセント結果重み付け論理ユニットも備える。第1の例においては、音声認識システムは、アクセント付き音声表記及び変換ID生成ユニットが書記素‐音声表記ユニットを備える音声認識システムをオプションで含んでよい。書記素‐音声表記ユニットは、複数のアクセントを訂正した音声表記データを提供する。音声認識システムの第2の例は、オプションで、第1の例を含み、且つ、アクセント付き音声表記及び変換ID生成ユニットが変換IDアロケータを備える音声認識システムをさらに含む。変換IDアロケータは、アクセントを訂正した音声表記データ及びIDデータを受信し、複数の変換IDを第2のIDデータ空間に提供する。音声認識システムの第3の例は、オプションで、第1の例及び第2の例の1つまたは複数を含み、且つ、ある言語に関連付けられた文法ファイルを含むコンテキストユニットを音声認識論理ユニットが備える音声認識システムをさらに含む。
上記システム及び方法は、アクセント付き部分文字列のデータベースにアクセスする音声認識方法の例も提供する。当該音声認識方法は、メタデータとメタデータに関連付けられた元のID空間のIDデータを受信することと、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた複数の修正されたワードを提供することと、複数の修正されたワードを処理して複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することとを含む。ここで、アクセントを訂正した音声表記データは、それぞれ、処理されて、変換ID空間の複数の変換IDであって、それぞれ、複数のアクセントを訂正した音声表記データの関連する音声データに一意に関連付けられた複数の変換IDを提供する。当該音声認識方法は、ユーザ入力音声を受信することと、受信した入力音声を音声特徴抽出器ユニットで処理してユーザ入力音声に関連付けられた抽出音声データを提供することと、抽出音声データ、複数の変換ID、及び、複数のアクセントを訂正した音声表記データを処理することと、音声表記のうちの1つがユーザ入力音声に関連付けられた抽出音声データに最も一致する末尾に対応する末尾識別子とアクセントデータとを提供することと、末尾識別子を処理して元のIDデータ空間に確認されたIDを提供することと、検出したアクセントデータを検出したアクセントデータの過去の値と比較して、認識された音声データを提供することと、を含む。音声認識方法の第1の例は、複数のアクセントを訂正した音声表記データを提供するステップが、複数のアクセントを訂正した音声表記データを提供するための複数の修正されたワードの書記素‐音声表記処理を含む方法を含む。
上記システム及び方法は、アクセント付き部分文字列のデータベースにアクセスするプロセッサによって行われる音声認識方法も提供する。当該音声認識方法は、メタデータと、メタデータに関連付けられた元のID空間のIDデータとを受信することと、複数の修正されたワードであって、それぞれ、メタデータと、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントと一意に関連付けられた複数の修正されたワードを提供することと、複数の修正されたワードを処理して複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することと、アクセントを訂正した音声表記データを処理して、変換ID空間の複数の変換IDであって、それぞれ、複数のアクセントを訂正した音声表記データのうちの関連する音声表記データに一意に関連付けられた複数の変換IDを提供することと、ユーザ入力音声データを受信することと、受信した入力音声データを処理して、ユーザ入力音声データに関連付けられた抽出音声データを提供することと、抽出音声データ、複数の変換ID、及び、複数のアクセントを訂正した音声表記データを処理することと、末尾に対応する末尾識別子を提供することと、ユーザ入力音声データに関連付けられた抽出音声データに最も一致する音声表記に関するアクセントデータを提供することと、末尾識別子を処理して元のIDデータ空間に変換IDを提供することと、検出したアクセントデータを検出したアクセントデータの過去の値と比較して、認識された音声データを提供することと、を含む。
上記システム及び方法は、音声制御装置、プロセッサ、及び、プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムも提供する。当該音声認識システムは、アクセント付き部分文字列のデータベースを含むアクセント付き音声表記及び変換ID生成ユニットにおいて、メタデータを受信し、アクセント付き音声表記及び変換ID生成ユニットを介して、メタデータに含まれるワードに関してアクセントを訂正した音声表記データであって、データベースに記憶されたアクセント付き部分文字列に基づいて、メタデータに含まれたワードの異なる発音を表すアクセントを訂正した音声表記データを生成し、音声認識システムにユーザによって入力された発話から引き出された抽出音声データを音声認識エンジンにおいて受信し、アクセントを訂正した音声表記データを音声認識エンジンにおいて受信し、抽出音声データの認識された発話を識別する1つまたは複数の末尾IDを音声認識エンジンにおいて決定し、認識された発話で検出されたアクセントを識別するアクセントデータを音声認識エンジンにおいて生成し、1つまたは複数の末尾ID及びアクセントデータに基づいて、認識された音声データを生成し、且つ、認識された音声データを音声制御装置に出力する。音声認識システムの第1の例は、アクセントデータと、前に生成されたアクセントデータを含む履歴データを重み付け結果ユニットにおいて受信して、アクセントデータを履歴データと比較する命令をさらに実行可能であり、認識された音声データは、アクセントデータと履歴データとの比較にさらに基づいている、音声認識システムを含む。音声認識システムの第2の例は、第1の例をオプションで含み、且つ、音声認識システムの記憶装置、ユーザが音声認識システムに入力を行うモバイルデバイス、及び、音声認識システムに入力を行うユーザに関連付けられたユーザプロファイルをホストする外部サービスの1つまたは複数に記憶されたテキストエントリにメタデータが対応する音声認識システムをさらに含む。音声認識システムの第3の例は、オプションで、第1の例及び第2の例の任意の1つまたは複数を含み、且つ、メタデータに含まれるワードに対応するIDデータをアクセント付き音声表記及び変換ID生成ユニットにおいて受信し、且つ、アクセントを訂正した音声表記データに関する変換IDをアクセント付き音声表記及び変換ID生成ユニットにおいて生成する命令をさらに実行可能な音声認識システムをさらに含む。音声認識システムの第4の例は、オプションで、第1の例〜第3の例のうちの任意の1つまたは複数を含み、且つ、アクセントを訂正した音声表記データが、アクセント付きワードであって、それぞれ、メタデータに含まれた関連付けられた元のワードに対応するアクセント付きワードを含み、各変換IDが、異なるアクセントのワードに対応し、そのアクセント付きワードに関するアクセントと、そのアクセント付きワードに関連付けられた元のワードのIDデータとに基づいて生成される、音声認識システムをさらに含む。音声認識システムの第5の例は、オプションで、第1の例〜第4の例の任意の1つまたは複数を含み、且つ、認識された音声データ及び1つまたは複数の末尾IDがメタデータのワード及びメタデータのワードのIDデータに一致される音声認識システムをさらに含む。音声認識システムの第6の例は、オプションで、第1の例〜第5の例の任意の1つまたは複数を含み、且つ、音声認識論理ユニットがユーザに関して識別された言語に関連付けられた文法ファイルを含むコンテキストユニットを備える音声認識システムをさらに含む。音声認識システムの第7の例は、オプションで、第1の例〜第6の例のうちの任意の1つまたは複数を含み、且つ、履歴データとユーザが入力した発話との1つまたは複数に基づいて、言語が自動的に識別される音声認識システムをさらに含む。音声認識システムの第8の例は、オプションで、第1の例〜第7の例の任意の1つまたは複数を含み、且つ、ユーザによる言語の選択に基づいて言語を識別する音声認識システムをさらに含む。音声認識システムの第9の例は、オプションで、第1の例〜第8の例の任意の1つまたは複数を含み、且つ、音声認識システムが車両の車載コンピュータシステムを備え、音声制御装置が、車載コンピュータシステムのディスプレイと車両の車両システムの1つまたは複数を含む、音声認識システムをさらに含む。
上記システム及び方法は、音声制御装置、プロセッサ、及び、プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法も提供する。当該音声認識方法は、アクセント付き部分文字列のデータベースを含むアクセント付き音声表記及び変換ID生成ユニットにおいて、メタデータを受信することと、メタデータに含まれたワードに関するアクセントを訂正した音声表記データであって、データベースに記憶されたアクセント付き部分文字列に基づいて、メタデータに含まれたワードの異なる発音を表すアクセントを訂正した音声表記データを、アクセント付き音声表記及び変換ID生成ユニットを介して、生成することと、ユーザによって音声認識システムに入力された発話から引き出された抽出音声データを音声認識エンジンにおいて受信することと、アクセントを訂正した音声表記データを音声認識エンジンにおいて受信することと、抽出音声データの認識された発話を識別する1つまたは複数の末尾IDを音声認識エンジンにおいて決定することと、認識された発話で検出されたアクセントを識別するアクセントデータを音声認識エンジンにおいて生成することと、1つまたは複数の末尾IDとアクセントデータに基づいて、認識された音声データを生成することと、認識された音声データを音声制御装置に出力することと、を含む。方法の第1の例は、アクセントデータと、前に生成されたアクセントデータを含む履歴データを重み付け結果ユニットにおいて受信することと、アクセントデータを履歴データと比較することとをさらに含み、認識された音声データは、アクセントデータと履歴データの比較にさらに基づいている。方法の第2の例は、オプションで、第1の例を含み、且つ、アクセントデータを履歴データと比較することは、アクセントデータによって識別されたアクセントが、最近、認識された音声データで識別されたアクセントと一致するか否かを判断することを含む方法をさらに含む。方法の第3の例は、オプションで、第1の例及び第2の例の任意の1つまたは複数を含み、且つ、音声認識システムの記憶装置、音声認識システムに入力を行うユーザのモバイルデバイス、及び、音声認識システムに入力を行うユーザに関連付けられたユーザプロファイルをホストする外部サービスの1つまたは複数に記憶されたテキストエントリにメタデータが対応する方法をさらに含む。方法の第4の例は、オプションで、第1の例〜第3の例の任意の1つまたは複数を含み、且つ、メタデータに含まれたワードに対応するIDデータをアクセント付き音声表記及び変換ID生成ユニットにおいて受信して、アクセント付き音声表記及び変換ID生成ユニットにおいて、アクセントを訂正した音声表記データの変換IDを生成することをさらに含む。方法の第5の例は、オプションで、第1の例〜第4の例の任意の1つまたは複数を含み、且つ、アクセントを訂正した音声表記データが、アクセント付きワードであって、それぞれ、メタデータに含まれた関連付けられた元のワードに対応するアクセント付きワードを含み、各変換IDが、異なるアクセントのワードに対応し、そのアクセント付きワードのアクセントと、そのアクセント付きワードに関連付けられた元のワードのIDデータとに基づいて生成される方法をさらに含む。方法の第6の例は、オプションで、 第1の例〜第5の例の任意の1つまたは複数を含み、且つ、認識された音声データ及び1つまたは複数の末尾IDが、メタデータのワード及びメタデータのワードのIDデータに一致される方法をさらに含む。方法の第7の例は、オプションで、第1の例〜第6の例の任意の1つまたは複数を含み、且つ、ユーザに関して識別された言語に関連付けられた文法ファイルを含むコンテキストユニットを音声認識論理ユニットが備える方法をさらに含む。方法の第8の例は、オプションで、第1の例〜第7の例の任意の1つまたは複数を含み、且つ、履歴データと、ユーザによって入力された発話との1つまたは複数に基づいて、言語が自動的に識別される方法をさらに含む。方法の第9の例は、オプションで、第1の例〜第8の例の任意の1つまたは複数を含み、且つ、ユーザによる言語の選択に基づいて言語が識別される方法をさらに含む。方法の第10の例は、オプションで、第1の例〜第9の例の任意の1つまたは複数を含み、且つ、音声認識システムが、車両の車載コンピュータシステムを備え、音声制御装置が、車載コンピュータシステムのディスプレイと、車両の車両システムとの1つまたは複数を含む方法をさらに含む。
実施形態の記述を例示と説明の目的で実施形態を記載した。実施形態への適切な修正及び変更は、上記記載を考慮して行われてよい、または、方法の実践によって獲得されてよい。例えば、別段の記載のない限り、記載の方法の1つまたは複数は、図1及び図3を参照して記載した車載コンピュータシステム109及び/または音声認識システム300等の、適切な装置及び/または装置の組み合わせによって行われてよい。方法は、記憶装置、メモリ、ハードウェアネットワークインタフェース/アンテナ、スイッチ、アクチュエータ、クロック回路等の1つまたは複数の追加のハードウェア要素と組み合わせて、1つまたは複数の論理装置(例えば、プロセッサ)を用いて記憶された命令を実行することによって行われてよい。記載した方法及び関連するアクションは、本出願書に記載の順序に加えて、様々な順序で、並行して、及び/または、同時に行われてよい。記載のシステムは、例示的な性質のものであって、追加の要素を含んでよく、及び/または、要素を省いてもよい。本開示の主題は、様々なシステム及び構成の全ての新規の自明でない組み合わせと下位の組み合わせ、並びに、開示の他の特徴、機能、及び/または特性を含む。
本開示で使用する場合、単数で記載され、単語「a」または「an」の後ろに続く要素またはステップは、別段の記載のない限り、当該要素またはステップの複数を除外しないものとする。さらに、本開示の「一実施形態」または「一例」という言及は、記載の特徴を含む追加の実施形態の存在を除外すると解釈してはならない。「第1の」「第2の」「第3の」等の語は、単にラベルとして使用しており、数字的な要件や物に対する特定の位置順を課すことを意図してはいない。以下の請求項は、新規で自明でないと見なされる上記開示の主題を詳細に記載する。

Claims (18)

  1. アクセント付き音声表記及び変換ID生成ユニットであって、アクセント付き部分文字列のデータベースを含み、メタデータと、前記メタデータに関連付けられた第1のIDデータ空間のIDデータとを受信し、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた前記複数の修正されたワードを提供し、前記複数の修正されたワードを処理し、前記複数の修正されたワードに関して複数のアクセントを訂正した音声表記データを提供し、前記複数のアクセントを訂正した音声表記データのそれぞれは、処理されて、第2のIDデータ空間の複数の変換IDであって、それぞれ、前記複数のアクセントを訂正した音声表記データのうちの関連する音声表記データと一意に関連付けられた前記複数の変換IDを提供する、前記アクセント付き音声表記及び変換ID生成ユニットと、
    ユーザ入力音声を受信、処理し、前記ユーザ入力音声に関連付けられた抽出音声データを提供する音声特徴抽出器ユニットと、
    前記抽出音声データ、前記複数の変換ID、及び、前記複数のアクセントを訂正した音声表記データを受信し、音声表記のうちの1つが、前記ユーザ入力音声に関連付けられた前記抽出音声データに最も一致する末尾に対応する末尾識別子とアクセントデータとを提供する音声認識論理ユニットと、
    前記末尾識別子を受信し、前記第1のIDデータ空間に確認されたIDを提供するアクセント検出及び逆ID変換ユニットと、
    記アクセントデータを受信し、前記アクセントデータの過去の値と比較して、認識された音声データを提供するアクセント結果重み付け論理ユニットと、
    を備える、音声認識システム。
  2. 前記アクセント付き音声表記及び変換ID生成ユニットは、前記複数のアクセントを訂正した音声表記データを提供する書記素‐音声表記ユニットを含む、請求項1に記載の音声認識システム。
  3. 前記アクセント付き音声表記及び変換ID生成ユニットは、変換IDアロケータを備え、前記変換IDアロケータは、前記複数のアクセントを訂正した音声表記データ及び前記IDデータを受信して、前記第2のIDデータ空間に前記複数の変換IDを提供する、請求項1または2のいずれか一項に記載の音声認識システム。
  4. 前記音声認識論理ユニットは、前記ある言語に関連付けられた文法ファイルを含むコンテキストユニットを備える、請求項3に記載の音声認識システム。
  5. アクセント付き部分文字列のデータベースにアクセスする音声認識方法であって、
    メタデータと、前記メタデータに関連付けられた元のID空間のIDデータを受信、複数の修正されたワードであって、それぞれ、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントに一意に関連付けられた前記複数の修正されたワードを提供、前記複数の修正されたワードを処理して、前記複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することであって、前記複数のアクセントを訂正した音声表記データは、それぞれ、処理されて、変換ID空間の複数の変換IDであって、それぞれ、前記複数のアクセントを訂正した音声表記データの関連する音声表記データに一意に関連付けられた前記複数の変換IDを提供することと、
    ユーザ入力音声を受信、前記受信したユーザ入力音声を音声特徴抽出器ユニットで処理して前記ユーザ入力音声に関連付けられた抽出音声データを提供することと、
    前記抽出音声データ、前記複数の変換ID、及び、前記複数のアクセントを訂正した音声表記データを処理し、音声表記の1つが前記ユーザ入力音声に関連付けられた前記抽出音声データに最も一致する末尾に対応する末尾識別子とアクセントデータとを提供することと、
    前記末尾識別子を処理して、元のIDデータ空間に確認されたIDを提供することと、
    記アクセントデータを前記アクセントデータの過去の値と比較して認識された音声データを提供することと、
    を含む、前記音声認識方法。
  6. 前記複数のアクセントを訂正した音声表記データを提供するステップは、前記複数のアクセントを訂正した音声表記データを提供する前記複数の修正されたワードの書記素‐音声表記処理を含む、請求項5に記載の方法。
  7. 音声制御装置、プロセッサ、及び、前記プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法であって、
    アクセント付き部分文字列のデータベースを含むアクセント付き音声表記及び変換ID生成ユニットにおいて、メタデータを受信することと、
    前記メタデータに含まれるワードに関して、アクセントを訂正した音声表記データであって、前記データベースに記憶された前記アクセント付き部分文字列に基づいて、前記メタデータに含まれる前記ワードの異なる発音を表す前記アクセントを訂正した音声表記データを、前記アクセント付き音声表記及び変換ID生成ユニットを介して生成することと、
    ユーザによって前記音声認識システムに入力された発話から引き出された抽出音声データを音声認識エンジンにおいて受信することと、
    前記アクセントを訂正した音声表記データを前記音声認識エンジンにおいて受信することと、
    前記抽出音声データの認識された発話を識別する1つまたは複数の末尾IDを前記音声認識エンジンにおいて決定することと、
    前記認識された発話において検出されたアクセントを識別するアクセントデータを前記音声認識エンジンにおいて生成することと、
    前記1つまたは複数の末尾IDと前記アクセントデータとに基づいて、認識された音声データを生成することと、
    前記認識された音声データを前記音声制御装置に出力することと、
    を含む、前記音声認識方法。
  8. 重み付け結果ユニットにおいて、前記アクセントデータと、前に生成されたアクセントデータを含む履歴データを受信して、前記アクセントデータを前記履歴データと比較することをさらに含み、前記認識された音声データは、前記アクセントデータと前記履歴データとの前記比較にさらに基づいている、請求項7に記載の方法。
  9. 前記アクセントデータ前記履歴データ比較することは、前記アクセントデータによって識別されたアクセントが、最近、認識された音声データで識別されたアクセントに一致するか否かを判断することを含む、請求項8に記載の方法。
  10. 前記メタデータは、前記音声認識システムの前記記憶装置、前記音声認識システムに入力を行うユーザのモバイルデバイス、及び、前記音声認識システムに入力を行う前記ユーザに関連付けられたユーザプロファイルをホストする外部サービスの1つまたは複数に記憶されたテキストエントリに対応する、請求項7〜9のいずれか一項に記載の方法。
  11. 前記メタデータに含まれた前記ワードに対応するIDデータを前記アクセント付き音声表記及び変換ID生成ユニットにおいて受信し、前記アクセント付き音声表記及び変換ID生成ユニットにおいて、前記アクセントを訂正した音声表記データの変換IDを生成することをさらに含む、請求項7〜9のいずれか一項に記載の方法。
  12. 前記アクセントを訂正した音声表記データは、アクセント付きワードであって、それぞれ、前記メタデータに含まれた関連付けられた元のワードに対応する前記アクセント付きワードを含み、前記変換IDは、それぞれ、異なるアクセントのワードに対応し、そのアクセント付きワードのアクセントと、そのアクセント付きワードに関連付けられた前記元のワードの前記IDデータとに基づいて生成された、請求項11に記載の方法。
  13. 前記認識された音声データ及び前記1つまたは複数の末尾IDは、前記メタデータのワードと、前記メタデータの前記ワードの前記IDデータとに一致される、請求項12に記載の方法。
  14. 前記音声認識エンジンは、ユーザに関して識別された言語に関連付けられた文法ファイルを含むコンテキストユニットを備える、請求項7〜13のいずれか一項に記載の方法。
  15. 前記言語は、履歴データと、前記ユーザによって入力された前記発話との1つまたは複数に基づいて自動的に識別される、請求項14に記載の方法。
  16. 前記言語は、前記ユーザによる前記言語の選択に基づいて識別される、請求項15に記載の方法。
  17. 前記音声認識システムは、車両の車載コンピュータシステムを備え、音声制御装置は、前記車載コンピュータシステムのディスプレイと、前記車両の車両システムの1つまたは複数を備える、請求項7〜16のいずれか一項に記載の方法。
  18. 音声制御装置、プロセッサ、及び、前記プロセッサによって実行可能な命令を記憶する記憶装置を備える音声認識システムによって行われる音声認識方法であって、
    メタデータと、前記メタデータに関連付けられた元のID空間のIDデータとを受信することと、
    複数の修正されたワードであって、それぞれ、前記メタデータと、ある言語に関連付けられた複数の異なるアクセントのうちの関連するアクセントとに一意に関連付けられた前記複数の修正されたワードを提供、前記複数の修正されたワードを処理して、前記複数の修正されたワードに関する複数のアクセントを訂正した音声表記データを提供することと、
    前記複数のアクセントを訂正した音声表記データを処理して、変換ID空間の複数の変換IDであって、それぞれ、前記複数のアクセントを訂正した音声表記データの関連する音声表記データに一意に関連付けられた前記複数の変換IDを提供することと、
    ユーザ入力音声データを受信、前記受信したユーザ入力音声データを処理して、前記ユーザ入力音声データに関連付けられた抽出音声データを提供することと、
    前記抽出音声データ、前記複数の変換ID、及び、前記複数のアクセントを訂正した音声表記データを処理、前記ユーザ入力音声データに関連付けられた前記抽出音声データに最も一致する音声表記に関する末尾に対応する末尾識別子とアクセントデータとを提供することと、
    前記末尾識別子を処理して、元のIDデータ空間の変換IDを提供することと、
    記アクセントデータを前記アクセントデータの過去の値と比較して、認識された音声データを提供することと、
    を含む、前記音声認識方法。
JP2017503577A 2014-07-24 2015-07-24 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識 Active JP6585154B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN3618/CHE/2014 2014-07-24
IN3618CH2014 2014-07-24
PCT/US2015/042046 WO2016014970A1 (en) 2014-07-24 2015-07-24 Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection

Publications (2)

Publication Number Publication Date
JP2017521724A JP2017521724A (ja) 2017-08-03
JP6585154B2 true JP6585154B2 (ja) 2019-10-02

Family

ID=55163851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017503577A Active JP6585154B2 (ja) 2014-07-24 2015-07-24 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識

Country Status (7)

Country Link
US (1) US10290300B2 (ja)
EP (1) EP3172729B1 (ja)
JP (1) JP6585154B2 (ja)
KR (1) KR102388992B1 (ja)
CN (1) CN106663422B (ja)
CA (1) CA2952836A1 (ja)
WO (1) WO2016014970A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
KR102388992B1 (ko) * 2014-07-24 2022-04-21 하만인터내셔날인더스트리스인코포레이티드 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식
DE112014007287B4 (de) * 2014-12-24 2019-10-31 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
US10056080B2 (en) 2016-10-18 2018-08-21 Ford Global Technologies, Llc Identifying contacts using speech recognition
US11043221B2 (en) * 2017-04-24 2021-06-22 Iheartmedia Management Services, Inc. Transmission schedule analysis and display
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
CN107481737A (zh) * 2017-08-28 2017-12-15 广东小天才科技有限公司 一种语音监控的方法、装置及终端设备
US10650844B2 (en) * 2018-01-18 2020-05-12 Wipro Limited Method and response recommendation system for recommending a response for a voice-based user input
KR101888059B1 (ko) 2018-02-12 2018-09-10 주식회사 공훈 문맥 기반 음성 모델 관리 장치 및 그 방법
KR20190133100A (ko) * 2018-05-22 2019-12-02 삼성전자주식회사 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법
WO2020014890A1 (zh) * 2018-07-18 2020-01-23 深圳魔耳智能声学科技有限公司 基于口音的语音识别处理方法、电子设备和存储介质
CN109410926A (zh) * 2018-11-27 2019-03-01 恒大法拉第未来智能汽车(广东)有限公司 语音语义识别方法及系统
US11450311B2 (en) 2018-12-13 2022-09-20 i2x GmbH System and methods for accent and dialect modification
US10839788B2 (en) 2018-12-13 2020-11-17 i2x GmbH Systems and methods for selecting accent and dialect based on context
CN109817208A (zh) * 2019-01-15 2019-05-28 上海交通大学 一种适合各地方言的驾驶员语音智能交互设备及方法
JP7225876B2 (ja) * 2019-02-08 2023-02-21 富士通株式会社 情報処理装置、演算処理装置および情報処理装置の制御方法
US11308265B1 (en) * 2019-10-11 2022-04-19 Wells Fargo Bank, N.A. Digitally aware neural dictation interface
CN111028834B (zh) * 2019-10-30 2023-01-20 蚂蚁财富(上海)金融信息服务有限公司 语音信息提醒方法、装置、服务器和语音信息提醒设备
KR20200007983A (ko) * 2020-01-03 2020-01-22 엘지전자 주식회사 지역적 특징 기반의 음성인식 방법 및 시스템
CN112614485A (zh) * 2020-12-30 2021-04-06 竹间智能科技(上海)有限公司 识别模型构建方法、语音识别方法、电子设备及存储介质
JP7509069B2 (ja) * 2021-03-29 2024-07-02 トヨタ自動車株式会社 車両制御システム及び車両制御方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2907728B2 (ja) * 1994-08-10 1999-06-21 富士通テン株式会社 音声処理装置
US5911129A (en) * 1996-12-13 1999-06-08 Intel Corporation Audio font used for capture and rendering
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
JP4296714B2 (ja) * 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US6785647B2 (en) * 2001-04-20 2004-08-31 William R. Hutchison Speech recognition system with network accessible speech processing resources
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US20040073425A1 (en) * 2002-10-11 2004-04-15 Das Sharmistha Sarkar Arrangement for real-time automatic recognition of accented speech
JP2004271895A (ja) * 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7412387B2 (en) * 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
US20070094022A1 (en) * 2005-10-20 2007-04-26 Hahn Koo Method and device for recognizing human intent
US7860722B1 (en) * 2006-01-18 2010-12-28 Securus Technologies, Inc. System and method for keyword detection in a controlled-environment facility using a hybrid application
US8725518B2 (en) * 2006-04-25 2014-05-13 Nice Systems Ltd. Automatic speech analysis
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
CN101447184B (zh) * 2007-11-28 2011-07-27 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
US8380499B2 (en) * 2008-03-31 2013-02-19 General Motors Llc Speech recognition adjustment based on manual interaction
JP2009251388A (ja) * 2008-04-08 2009-10-29 Denso Corp 母国語発話装置
CN101751919B (zh) * 2008-12-03 2012-05-23 中国科学院自动化研究所 一种汉语口语重音自动检测方法
CN101650943A (zh) * 2008-12-19 2010-02-17 中国科学院声学研究所 一种非母语语音识别系统及方法
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US9412369B2 (en) * 2011-06-17 2016-08-09 Microsoft Technology Licensing, Llc Automated adverse drug event alerts
US8825481B2 (en) * 2012-01-20 2014-09-02 Microsoft Corporation Subword-based multi-level pronunciation adaptation for recognizing accented speech
JP5812936B2 (ja) * 2012-05-24 2015-11-17 日本電信電話株式会社 アクセント句境界推定装置、アクセント句境界推定方法及びプログラム
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
CN103699530A (zh) * 2012-09-27 2014-04-02 百度在线网络技术(北京)有限公司 根据语音输入信息在目标应用中输入文本的方法与设备
KR102388992B1 (ko) * 2014-07-24 2022-04-21 하만인터내셔날인더스트리스인코포레이티드 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식

Also Published As

Publication number Publication date
KR102388992B1 (ko) 2022-04-21
EP3172729A4 (en) 2018-04-11
CN106663422A (zh) 2017-05-10
EP3172729A1 (en) 2017-05-31
CN106663422B (zh) 2021-03-30
JP2017521724A (ja) 2017-08-03
US20170169814A1 (en) 2017-06-15
US10290300B2 (en) 2019-05-14
EP3172729B1 (en) 2022-04-20
KR20170035905A (ko) 2017-03-31
WO2016014970A1 (en) 2016-01-28
CA2952836A1 (en) 2016-01-28

Similar Documents

Publication Publication Date Title
JP6585154B2 (ja) 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識
US10380992B2 (en) Natural language generation based on user speech style
JP6543460B2 (ja) 音声認識問い合わせ応答システム
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
US9601111B2 (en) Methods and systems for adapting speech systems
US9558739B2 (en) Methods and systems for adapting a speech system based on user competance
US9502030B2 (en) Methods and systems for adapting a speech system
US11928390B2 (en) Systems and methods for providing a personalized virtual personal assistant
US20190279613A1 (en) Dialect and language recognition for speech detection in vehicles
CN104123936A (zh) 对话系统自动训练方法、对话系统及用于车辆的控制装置
US20150379995A1 (en) Systems and methods for a navigation system utilizing dictation and partial match search
US10950229B2 (en) Configurable speech interface for vehicle infotainment systems
JP2017090612A (ja) 音声認識制御システム
JP6295884B2 (ja) 情報提案システム
US20200320997A1 (en) Agent apparatus, agent apparatus control method, and storage medium
US9715878B2 (en) Systems and methods for result arbitration in spoken dialog systems
CN117672226A (zh) 本地化语音辨识助理
KR20220129366A (ko) 음성 인식 시스템 및 그 제어 방법
CN111095398A (zh) 机动车
US20240214332A1 (en) Chatbot service providing method and chatbot service providing system
CN118136003A (zh) 基于个性化语音唤醒的车辆人机交互方法、装置、电子设备和存储介质
CN116643646A (zh) 自然语言处理装置及自然语言处理方法
CN116910194A (zh) 用于处理对话的方法和对话系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190904

R150 Certificate of patent or registration of utility model

Ref document number: 6585154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250