JP2019537749A - ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法 - Google Patents

ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法 Download PDF

Info

Publication number
JP2019537749A
JP2019537749A JP2019526240A JP2019526240A JP2019537749A JP 2019537749 A JP2019537749 A JP 2019537749A JP 2019526240 A JP2019526240 A JP 2019526240A JP 2019526240 A JP2019526240 A JP 2019526240A JP 2019537749 A JP2019537749 A JP 2019537749A
Authority
JP
Japan
Prior art keywords
speech recognition
neural network
controller
words
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019526240A
Other languages
English (en)
Other versions
JP6743300B2 (ja
Inventor
ヂョウ ヂェンユー
ヂョウ ヂェンユー
ボトロス ラミ
ボトロス ラミ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2019537749A publication Critical patent/JP2019537749A/ja
Application granted granted Critical
Publication of JP6743300B2 publication Critical patent/JP6743300B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

候補音声認識結果をランク付けするための方法は、コントローラを用いて、候補音声認識結果に関する複数の特徴ベクトルを生成するステップを備え、各特徴ベクトルは、トリガペア特徴、信頼度スコア特徴及び単語レベル特徴のうちの1つ又は複数を含む。本方法は、さらに、複数の特徴ベクトルを入力としてニューラルネットワークに提供するステップと、ニューラルネットワークの出力層に基づいて、複数の候補音声認識結果に関する複数の特徴ベクトルに対応する複数のランキングスコアを生成するステップと、入力としての複数のランキングスコアにおける最も高いランキングスコアに対応する複数の候補音声認識結果における候補音声認識結果を使用して、自動システムを動作させるステップとを、備える。

Description

本開示は、一般的に、自動音声認識の分野に関し、より詳細には、複数の音声認識エンジンを利用する音声認識システムの動作を改善するシステム及び方法に関する。
自動音声認識は、広範囲の用途においてヒューマン・マシン・インタフェース(HMI)を実現するための重要な技術である。特に、音声認識は、マウス及びキーボードなどの慣例の入力デバイスを使用することが不便である又は実用的ではないタスクを実施することに人間のユーザが集中する必要がある状況においては有用である。例えば、車載「インフォテイメント」システム、ホームオートメーションシステム、並びに、小型の電子モバイルデバイス、例えばスマートフォン、タブレット及びウェアラブルコンピュータの多くの用途は、ユーザからの音声コマンド及び他の入力を受信するために音声認識を使用することができる。
従来技術の音声認識システムの大部分は、ユーザが話して記録された入力を、コンピュータ化されたシステムにおける処理に適したディジタルデータに変換するために、訓練された音声認識エンジンを使用する。従来技術より公知の種々の音声エンジンは、自然言語理解技術を実施し、ユーザが話す単語を認識して、それらの単語から意味論的意味を抽出し、コンピュータ化されたシステムの動作を制御する。
ユーザが複数の異なるタスクを実施している間に、そのユーザに由来する音声を認識するためには、単一の音声認識エンジンでは最適でない可能性もある。従来の解決手段は、種々の音声認識音響モデルからのローレベルの出力の選択、又は、所定のランキングプロセスに基づいた、種々の音声認識エンジンからの出力の全セットの選択を含めて、音声認識の精度を改善するために、複数の音声認識システムを組み合わせることを試みている。しかしながら、複数の音声認識システムからの出力のローレベルの組合せは、ハイレベルの言語情報を保持しない。別の実施の形態においては、複数の音声認識エンジンが、完全な音声認識結果を生成するが、しかしながら、複数の音声認識エンジンの出力から、どの音声認識結果を選択するかの決定プロセスは、困難を伴う問題でもある。従って、複数の音声認識エンジンに由来する候補音声認識結果のセットからの音声認識結果の選択の精度を改善する音声認識システムについての改良は、有用であると考えられる。
概要
1つの実施の形態においては、自動システムにおいて音声認識を実施するための方法が開発された。この方法は、コントローラを用いて、それぞれが複数の候補音声認識結果における1つの候補音声認識結果に対応する複数の特徴ベクトルを生成するステップを備える。複数の候補音声認識結果における第1の候補認識結果に関する複数の特徴ベクトルにおける第1の特徴ベクトルの生成は、さらに、コントローラを用いて、メモリに記憶されている複数の所定のトリガペアを参照して、第1の候補音声認識結果内の2つの所定のトリガ単語を含む少なくとも1つのトリガペアを識別すること、及び、コントローラを用いて、少なくとも1つのトリガペアに関する要素を含む第1の特徴ベクトルを生成すること、を含む。この方法は、さらに、コントローラを用いて、複数の特徴ベクトルを入力としてニューラルネットワークに提供するステップと、コントローラを用いて、ニューラルネットワークの出力層に基づいて、複数の候補音声認識結果に関する複数の特徴ベクトルに対応する複数のランキングスコアを生成するステップと、コントローラを用いて、入力としての複数のランキングスコアにおける最も高いランキングスコアに対応する複数の候補音声認識結果における候補音声認識結果を使用して、自動システムを動作させるステップと、を備える。
別の実施の形態においては、自動音声認識システムにおいて種々の候補音声認識結果に関するランキングスコアを生成するニューラルネットワークランカーを訓練するための方法が開発された。この方法は、プロセッサを用いて、それぞれがメモリに記憶されている複数の訓練音声認識結果における1つの訓練音声認識結果に対応する複数の特徴ベクトルを生成するステップを備える。複数の訓練音声認識結果における第1の訓練音声認識結果に関する複数の特徴ベクトルにおける第1の特徴ベクトルの生成は、さらに、プロセッサを用いて、メモリに記憶されている複数の所定のトリガペアを参照して、第1の訓練音声認識結果内の2つの所定のトリガ単語を含む少なくとも1つのトリガペアを識別すること、及び、プロセッサを用いて、少なくとも1つのトリガペアに関する要素を含む第1の特徴ベクトルを生成すること、を含む。この方法は、さらに、プロセッサを用いて、ニューラルネットワークランカーに対する入力としての複数の訓練音声認識結果に対応する複数の特徴ベクトルと、訓練プロセス中にニューラルネットワークランカーによって生成された複数の出力スコアと、複数の訓練音声認識結果と複数の音声認識結果における各訓練音声認識に関する所定の正しい入力との間の所定の編集距離を基礎とする複数の目標結果と、を使用して、ニューラルネットワークランカーに関する訓練プロセスを実施するステップと、プロセッサを用いて、複数の訓練音声認識結果に存在しない音声認識結果に対応する付加的な特徴ベクトルに関するランキングスコアの生成に使用するために、訓練プロセスの完了後にメモリにニューラルネットワークランカーを記憶するステップと、を備える。
別の実施の形態においては、自動音声認識システムが開発された。システムは、メモリと、このメモリに接続されて動作するコントローラと、を備えている。メモリは、それぞれが2つの単語を含んでいる複数の所定のトリガペアと、複数の候補音声認識結果に対応するランキングスコアを生成するように構成されているニューラルネットワークと、を記憶するように構成されている。コントローラは、それぞれが複数の候補音声認識結果における1つの候補音声認識結果に対応する複数の特徴ベクトルを生成するように構成されており、複数の候補音声認識結果における第1の候補音声認識結果に関する複数の特徴ベクトルにおける第1の特徴ベクトルの生成は、以下のようなコントローラのさらなる構成をさらに含む。コントローラは、さらに、メモリに記憶されている複数の所定のトリガペアを参照して、第1の候補音声認識結果内の2つの所定のトリガ単語を含む少なくとも1つのトリガペアを識別し、かつ、少なくとも1つのトリガペアに関する要素を含む第1の特徴ベクトルを生成する、ように構成されている。コントローラは、さらに、複数の特徴ベクトルを入力としてニューラルネットワークに提供し、ニューラルネットワークの出力層に基づいて、複数の候補音声認識結果に関する複数の特徴ベクトルに対応する複数のランキングスコアを生成し、かつ、入力としての複数のランキングスコアにおける最も高いランキングスコアに対応する複数の候補音声認識結果における候補音声認識結果を使用して、自動システムを動作させる、ように構成されている。
車両の車室内の車載情報システムとして実施されている、ユーザからの音声入力コマンドを受信する、自動システムのコンポーネントの概略図を示す。 音声認識プロセス中に複数の候補音声認識結果に関するランキングスコアを生成するためにニューラルネットワークランカーを使用するプロセスのブロック図を示す。 図1及び図2の訓練されたニューラルネットワークランカーを生成するための訓練プロセスを実施するコンピューティングシステムの概略図を示す。 訓練されたニューラルネットワークランカーを生成するプロセスのブロック図を示す。 音声認識結果から生成される特徴ベクトルの構造及びニューラルネットワークランカーの構造を表す図を示す。
詳細な説明
本明細書に開示する実施の形態の原理の理解を促進することを目的として、以下においては、添付の図面及び以下の明細書における説明を参照する。この参照による、主たる対象の範囲の制限は意図されていない。本開示は、説明する実施の形態についての任意の代替形態及び修正形態も含み、また本開示が属する技術分野の当業者であれば通常想到するであろう、開示した実施の形態の原理の別の用途も含む。
本明細書においては、「音声認識エンジン」という用語は、マイクロフォン又は他のオーディオ入力デバイスを介して受信して記録された、オペレータが話した単語のオーディオ入力データに基づいて、コンピュータ化されたシステムがその単語を識別することができる実行可能なプログラムコード及びデータモデルを表す。音声認識システムは、録音された人間の音声の個々の音を認識するローレベル音響モデルと、所定の言語に関する音響モデルから、連続する音を基礎とする単語及び文を認識するハイレベル言語モデルと、を有していることが多い。従来技術より公知の音声認識エンジンは、典型的には、1つ又は複数の統計モデル、例えば、隠れマルコフモデル(HMM)、サポートベクターマシン(SVM)、訓練されたニューラルネットワーク、又は、記録された人間の音声に対応する入力データの特徴ベクトルに適用される複数の訓練されたパラメータを使用してその人間の音声に関する統計的な予測を生成する他の統計モデルなどを実現する。音声認識エンジンは、例えば記録された音声信号のプロパティ(「特徴」)を抽出して、その特徴を、個々の単語及び文を含む音声の種々の部分を識別するために統計モデルを使用して処理することができる1次元又は多次元のベクトルに組織化する、従来技術より公知の種々の信号処理技術を使用して、特徴ベクトルを生成する。音声認識エンジンは、話された個々の音素並びに話された単語及び関連する一連の単語から成る文を含む、音のより複雑なパターンに対応する音声入力に関する結果をもたらすことができる。
本明細書においては、「音声認識結果」という用語は、音声認識エンジンが与えられた入力に対して生成する機械可読の出力を表す。結果は、例えば、機械可読のフォーマットにエンコーディングされたテキストであってもよいし、自動システムの動作を制御するための入力として使用される、他のエンコーディングされたデータのセットであってもよい。音声認識エンジンの統計的な性質に起因して、一部の構成においては、音声エンジンが単一の入力に対して複数の潜在的な音声認識結果を生成する。音声エンジンは、各音声認識結果に関する「信頼度スコア」も生成し、この信頼度スコアは、各音声認識結果が音声認識エンジンの訓練された統計モデルに基づいて正確であるという尤度の統計的な推定値である。下記においてより詳細に説明するように、ハイブリッド音声認識システムは、複数の音声認識エンジンによってもたらされる音声認識結果を使用して、付加的なハイブリッド音声認識結果を生成し、また最終的には、先行して生成された複数の音声認識結果に基づいて、少なくとも1つの出力音声認識結果をもたらす。本明細書においては、「候補音声認識結果」又はより簡潔に「候補結果」という用語は、複数の候補結果をもたらし、またそれらの結果のうちの(典型的には1つの)サブセットだけを最終的な音声認識結果として選択するハイブリッド音声認識システムからの、最終的な音声認識結果となるべき候補である音声認識結果を表す。種々の実施の形態においては、候補音声認識結果が、汎用の音声認識エンジンからの音声認識結果及びドメイン固有の音声認識エンジンからの音声認識結果の2つの結果と、システム100が複数の候補音声認識結果に由来する単語を使用して生成するハイブリッド音声認識結果と、を含んでいる。
本明細書においては、「汎用の音声認識エンジン」という用語は、英語又は中国語などの自然人間言語から広範囲の音声を認識するように訓練されたタイプの音声認識エンジンを表す。汎用の音声認識エンジンは、自然言語における言語的パターンを広範にカバーするように訓練された言語モデル及び単語の広範な語彙に基づいて、音声認識結果を生成する。本明細書においては、「ドメイン固有の音声認識エンジン」という用語は、より広範な自然言語とは異なる場合があると見込まれる文法構造及び多少異なる語彙を含むことが多い特定の使用領域又は「ドメイン」における音声入力を認識するように訓練されたタイプの音声認識エンジンを表す。特定のドメインに関する語彙は、典型的には、広範な自然言語に由来する一部の用語を含むが、しかしながら、全体としてより狭義の語彙を含むと考えられ、また一部の例においては、自然言語における公式の単語としては正式には認められていないが、しかしながら、特定のドメインには良く知られている特殊な用語を含む。例えば、ナビゲーションの用途においては、ドメイン固有の音声認識は、より一般的な言語における固有の名称としては一般的に認識されていない、道路、街、又は、他の地理学的な目的地に関する用語を認識することができる。他の構成においては、特定のドメインが、特定のドメインに対しては有効であるが、しかしながら、より広範な言語においてはあまり認識されていない可能性がある専門家用語の特定のセットを使用する。例えば、航空機の操縦士は、公式には、コミュニケーションのための言語として英語を使用するが、しかしながら、ドメイン固有の多数の専門家用語の単語及び標準的な英語の一部ではない他の略語を使用する。
本明細書においては、「トリガペア」という用語は2つの単語を表し、それら2つの単語はそれぞれ、1つの単語(例えば「再生」)であり、又は、所定のクラス、例えば曲、人、及び、地名などの固有の名称に含まれる単語列(例えば「ポーカー・フェイス」)を表す所定のクラス(例えば、<曲名>)であると考えられる。トリガペアにおける単語は、音声認識結果の文章テキストコンテンツにおける複数の単語の中で特定の順序で現れる場合、A→Bのトリガペアに関するオーディオ入力データにおいて単語Aが先に観測される状況において、後に続く単語Bの出現との間に高いレベルの相関を有する。下記においてより詳細に説明するように、トレーニングプロセスを介してトリガペアのセットが識別された後の、候補音声認識結果のテキストにおけるトリガ単語ペアの出現は、異なる候補音声認識結果をランク付けするためにランキングプロセスが使用する、各候補結果に関する特徴ベクトルの一部を成す。
訓練されたニューラルネットワークランカーを使用する推論システム及びランキングプロセス
図1は、車載情報システム100を示しており、この車載情報システム100は、ヘッドアップディスプレイ(HUD)120、1つ又は複数のコンソールLCDパネル124、1つ又は複数の入力マイクロフォン128、及び、1つ又は複数の出力スピーカ132を含んでいる。LCDディスプレイ124及びHUD120は、システム100が車両の運転者又は他の乗員から受信した音声入力コマンドに少なくとも部分的に基づいて、システム100からの視覚的な出力応答を生成する。コントローラ148は、車載情報システム100における各コンポーネントに接続されることにより、それらを動作させる。一部の実施の形態においては、コントローラ148が付加的なコンポーネント、例えばグローバルポジショニングシステム(GPS)受信器152及びワイヤレスネットワークデバイス154に接続されており又はそれらを組み込んでおり、それによって、ナビゲーションを提供し、また、外部のデータネットワーク及びコンピューティングデバイスとの通信を提供する。
一部の動作モードにおいては、車載情報システム100が独立して動作し、その一方で、他の動作モードにおいては、車載情報システム100が、モバイル電子デバイス、例えばスマートフォン170、タブレット、ノートブックコンピュータ、又は、他の電子デバイスと対話する。車載情報システムは、USBなどのワイヤードインタフェース、又は、Bluetoothなどのワイヤレスインタフェースを使用して、スマートフォン170と通信する。車載情報システム100は、運転者が音声コマンドを使用してスマートフォン170又は他のモバイル通信デバイスを制御することができる音声認識ユーザインタフェースを提供し、これによって車両の運転中に注意散漫になることが低減される。例えば、車載情報システム100は、車両運転者がスマートフォン170を手に取り又はスマートフォン170に視線を落とすことを必要とすることなく、車両運転者がスマートフォン170を用いて電話を掛けることができ又はテキストメッセージを送信することができる音声インタフェースを提供する。一部の実施の形態においては、スマートフォン170が、車両に収容されるデバイスの機能を補完するか、そのようなデバイスの機能を代替的に担う、GPS及びワイヤレスネットワーキングデバイスなどの種々のデバイスを含んでいる。
マイクロフォン128は、車両運転者又は他の車両乗員から受信した、音声入力からオーディオデータを生成する。コントローラ148は、オーディオデータを処理するハードウェア、例えばDSPと、マイクロフォン128からの入力信号をオーディオ入力データに変換するためのソフトウェアコンポーネントと、を含んでいる。下記において説明するように、コントローラ148は、少なくとも1つの汎用の音声認識エンジンと、少なくとも1つのドメイン固有の音声認識エンジンと、を使用して、オーディオ入力データに基づいて候補音声認識結果を生成し、さらにコントローラ148は、最終的な音声認識結果出力の精度を改善するためにランカーを使用する。付加的に、コントローラ148は、スピーカ132を介して出力される合成音声又は他のオーディオを生成することができる、ハードウェアコンポーネント及びソフトウェアコンポーネントを含んでいる。
車載情報システム100は、LCDパネル124、フロントガラス102に投影されるHUD120を使用して、また、ダッシュボード108に配置されるゲージ、インジケータライト、又は、付加的なLCDパネルを介して、視覚的なフィードバックを車両運転者に提供する。車両が移動している場合、コントローラ148は、車両運転者の注意散漫を低減するために、任意選択的に、LCDパネル124のスイッチを切り、又は、LCDパネル124を介して単純化された出力だけを表示する。コントローラ148は、HUD120を使用して視覚的なフィードバックを表示し、それによって運転者は視覚的なフィードバックを受信しながら、車両周囲の環境を見ることができる。コントローラ148は、典型的には、車両運転者の周辺視野に対応する領域においてHUD120に単純化されたデータを表示し、それによって車両運転者は、車両周囲の道路及び環境を遮られることなく見ることができる。
上記において説明したように、HUD120は、フロントガラス120の一部に視覚的な情報を表示する。本明細書においては、「HUD」という用語は、一般的に、別個の結合部材を含む複合型ヘッドアップディスプレイ(CHUD)などを含む、広範なヘッドアップディスプレイを表す。なお、ヘッドアップディスプレイの例は、上記の例に限定されるものではない。一部の実施の形態においては、HUD120が、単色のテキスト及びグラフィックを表示するが、別のHUDの実施の形態には、多色の表示が含まれる。HUD120は、フロントガラス102に表示されるものとして図示されているが、代替的な実施の形態においては、ヘッドアップユニットが、眼鏡、ヘルメットのバイザ、又は、運転者が運転中に着用するフォーカシングスクリーンに統合されている。
コントローラ148は、中央処理ユニット(CPU)、グラフィカル処理ユニット(GPU)、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、ディジタルシグナルプロセッサ(DSP)、又は、任意の他の適切なディジタルロジックデバイスのうちの1つとして若しくはそれらの組合せとして構成されている1つ又は複数の集積回路を含んでいる。コントローラ148は、また車載情報システム100の動作に関するプログラミングされた命令を記憶するメモリ、例えばソリッドステートデバイス又は磁気データストレージデバイスも含んでいる。
運転中に、車載情報システム100は、マイクロフォン128を介して受信される音声入力コマンドを含む入力リクエストを複数の入力デバイスから受信する。特に、コントローラ148は、マイクロフォン128を介するユーザからの音声に対応するオーディオ入力データを受信する。
コントローラ148は、中央処理ユニット(CPU)、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、ディジタルシグナルプロセッサ(DSP)、又は、任意の他の適切なディジタルロジックデバイスとして構成されている1つ又は複数の集積回路を含んでいる。またコントローラ148はメモリ160に接続されることにより、メモリ160を動作させ、このメモリ160には、車載情報システム100の動作に関するプログラミングされた命令を記憶する、不揮発性のソリッドステートデバイス又は磁気データストレージデバイス、及び、揮発性データストレージデバイス、例えばランダムアクセスメモリ(RAM)が含まれる。メモリ160は、複数の音声認識エンジン162、特徴エクストラクタ164及びディープニューラルネットワークランカー166を実現するための、モデルデータ並びに実行可能なプログラム命令コード及びプログラム命令データを記憶している。音声認識エンジン162は、所定の訓練プロセスを使用して訓練され、また音声認識エンジン162は、それ以外の点においては従来技術から公知のものである。図1の実施の形態は、モータビークル内のシステム100のメモリ160に記憶されている要素を含んでいるが、一部の実施の形態においては、外部のコンピューティングデバイス、例えばネットワークに接続されたサーバが、システム100内に図示されている一部の特徴又はすべての特徴を実現する。従って、当業者であれば、コントローラ148及びメモリ160を含むシステム100の動作についての何れかの参照は、システム100の代替的な実施の形態における、サーバコンピューティングデバイス及び他の分散型コンピューティングデバイスの動作もさらに含むべきことが分かるであろう。
図1の実施の形態においては、特徴エクストラクタ164が、音声認識エンジン162のうちの1つによって生成された音声認識結果、又は、複数ある音声認識エンジン162のうちの2つ又はそれ以上からの単語を組み合わせたハイブリッド音声認識結果を含む各候補音声認識結果の内容に対応する複数の数値要素を用いて、特徴ベクトルを生成するように構成されている。特徴エクストラクタ164は、以下の特徴、即ち、(a)トリガペア、(b)信頼度スコア、及び、(c)減衰性バッグ・オブ・ワーズ(BoW:Bag−of−Words)特徴を含む個々の単語レベル特徴、のうちのいずれか1つ又はそれらの組合せに関する要素を含む特徴ベクトルを生成する。
システム100においては、特徴エクストラクタ164に記憶されるトリガペアがそれぞれ、予測される音声入力の構造を表す訓練コーパスから音声入力シーケンスにおいて強い相関を有しているものとして先行して識別されている2つの単語の所定のセットを含んでいる。第1のトリガ単語及び第2のトリガ単語は、異なる音声入力における不定数の介在単語によって隔てられる可能性があるにもかかわらず、第1のトリガ単語は、音声入力におけるトリガペアの第2のトリガ単語が続くことについて強い統計的尤度を有している。従って、音声認識結果がトリガ単語を含んでいる場合には、音声認識結果におけるそれらのトリガ単語が正確であるという尤度は、第1のトリガ単語と第2のトリガ単語との間の統計的相関に起因して比較的高い。システム100においては、トリガ単語が、従来技術より公知の統計的な方法を使用して相互情報スコアに基づいて生成される。メモリ160は、高い相互情報スコアを有するトリガ単語のセットに基づいて、第1の単語と第2の単語との間に高い相関レベルを有するトリガペアに対応する、特徴ベクトルにおけるN個のトリガペア要素の所定のセットを記憶する。下記において説明するように、トリガ単語ペアは、音声認識結果の付加的な特徴をニューラルネットワークランカー166に提供し、これによって、ニューラルネットワークランカー166は、音声認識結果にある単語の範囲を超える音声認識結果の付加的な特徴を使用して音声認識結果をランク付けすることができる。
信頼度スコア特徴は、音声認識エンジン162が各候補音声認識結果と共に生成する信頼度スコア数値に対応する。例えば、1つの構成においては、(0.0,1.0)の範囲の数値が、音声認識エンジンが最も低い信頼度(0.0)から最も高い信頼度(1.0)までの特定の候補音声認識結果の精度に位置づけた確率信頼レベルを示す。2つ又はそれ以上の音声認識エンジンからの単語を含む各ハイブリッド候補音声認識結果には、コントローラ148が専念してハイブリッド音声認識結果を生成するために使用する候補音声認識結果の信頼度スコアの正規化された平均値である信頼度スコアが割り当てられる。
システム100においては、コントローラ148が、異なる音声認識エンジンによって生成された音声認識結果に関する信頼度スコア値の正規化及び白色化も行い、複数の音声認識エンジン162の出力間で一様である正規化及び白色化された信頼度スコアを含む最終的な特徴ベクトル要素を生成する。コントローラ148は、正規化プロシージャを使用して異なる音声認識エンジンに由来する信頼度スコアを正規化し、続いて、その正規化された信頼度スコア値を、訓練データに基づいて推定された平均値及び分散に従い、従来技術による白色化技術を使用して白色化する。1つの実施の形態においては、コントローラ148が、異なる音声認識エンジン間の信頼度スコアを、線形回帰プロセスを使用して正規化する。コントローラ148は、先ず、信頼度スコア範囲を、所定数の細区分又は「ビン」に細分化し、例えば2つの音声認識エンジンA及びBに関して20個のユニークなビンに細分化する。コントローラ148は、続いて、観測された音声認識結果と、プロセス200に先行する訓練プロセス中に使用された現在の基礎入力とに基づいて、スコアの各ビンに対応する種々の音声認識結果に関する現在の精度率を識別する。コントローラ148は、異なる音声認識エンジンに由来する結果の各セットについてのビンを隔てる「エッジ」付近の所定の数値ウィンドウ内の信頼度スコアのクラスタリング動作を実施し、各エッジ信頼度スコア値に対応する平均精度スコアを識別する。「エッジ」信頼度スコアは、各音声認識エンジンの信頼度スコア範囲に沿って一様に分散されており、また類似の精度率を有する他の音声認識エンジンの信頼度スコアに第1の音声認識エンジンの信頼度スコアをマッピングする線形回帰を実施するために、所定数の比較点を提供する。
コントローラ148は、各エッジスコアに関する識別された精度データを使用して線形回帰マッピングを実施し、これによってコントローラ148は、第1の音声認識エンジンに由来する信頼度スコアを、第2の音声認識エンジンに由来する等価の信頼度スコアに対応する他の信頼度スコア値に変換することができる。第1の音声認識エンジンに由来する一方の信頼度スコアの、他の音声認識に由来する他方の信頼度スコアへのマッピングは、スコアアライメントプロセスとも称され、また一部の実施の形態においては、コントローラ148が、次式を使用して、第1の音声認識エンジンに由来する信頼度スコアの、第2の音声認識エンジンへのアライメントを決定する:
Figure 2019537749
ここで、xは、第1の音声認識エンジンに由来するスコアであり、x’は、第2の音声認識エンジンの信頼度スコア範囲内にあるxの等価値であり、値ei及びei+1は、第1の音声認識エンジンに関する値xに最も近い、異なるエッジ値に関する推定された精度スコア(例えば、22の信頼度スコア付近のエッジ値20及び25の推定された精度スコア)に対応し、また値ei’及びei+1’は、第2の音声認識エンジンに関する同一の相対的なエッジ値における推定された精度スコアに対応する。
一部の実施の形態においては、コントローラ148が、比較の度に線形回帰を再生成する必要なく、異なる音声認識エンジン162間の信頼度スコアの効率的な正規化を実現するために、メモリ160内の特徴エクストラクタ164における線形回帰の結果を、ルックアップテーブル又は他の適切なデータ構造として記憶する。
またコントローラ148は、候補音声認識結果における単語レベル特徴を識別するために特徴エクストラクタ164も使用する。単語レベル特徴は、コントローラ148が候補音声認識結果内の個々の単語の特性に対応する特徴ベクトルの要素に置くデータに対応する。1つの実施の形態においては、コントローラ148が、単に、各候補音声認識結果内の所定の特徴ベクトルの個々の要素に対応する複数の所定の語彙内単語が存在するか否かを識別する。例えば、単語「通り」が候補音声認識結果に少なくとも1回現れる場合、コントローラ148は、特徴抽出プロセス中に、特徴ベクトルにおける要素に対応する値を1に設定する。別の実施の形態においては、コントローラ148が各単語の頻度を識別する。ここで、本明細書においては「頻度」とは、単一の単語が候補認識結果内に現れる回数を表す。コントローラ148は、単語の出現数を、特徴ベクトルの対応する要素に置く。
さらに別の実施の形態においては、特徴エクストラクタ164が、所定の語彙において各単語に対応する特徴ベクトルにおける要素に関して、「減衰性バッグ・オブ・ワーズ特徴」を生成する。本明細書においては「減衰性バッグ・オブ・ワーズ」特徴という用語は、コントローラ148が、結果内の単語の位置及び出現時間に基づいて、所定の語彙に与えられている候補音声認識結果における各単語に割り当てる数値スコアを表す。コントローラ148は、減衰性バッグ・オブ・ワーズ・スコアを、所定の語彙内にある候補音声認識結果における各単語に関して生成し、また候補結果に表れない語彙内単語に関して、減衰性バッグ・オブ・ワーズ・スコアに0を割り当てる。一部の実施の形態においては、所定の語彙が、任意の語彙外単語を表すための特別なエントリを含み、またコントローラ148が、候補結果内のすべての語彙外単語に基づいて、その特別なエントリに関して、単一の減衰性バッグ・オブ・ワーズ・スコアを生成する。所定の辞書における与えられた単語wiに関して、減衰性バッグ・オブ・ワーズ・スコアは:
Figure 2019537749
であり、ただしP’(wi)は、候補音声認識結果において単語wiが現れる位置のセットであり、また項γは、(0,1.0)の範囲にある所定の減衰係数であり、例えば、システム100の図示した実施の形態においては0.9にセットされる。
図5には、特徴ベクトル500の構造の一例がより詳細に示されている。特徴ベクトル500は、トリガペア特徴504に対応する複数の要素、信頼度スコア要素508、及び、図5において減衰性バッグ・オブ・ワーズ特徴として示された単語レベル特徴512に対応する他の複数の要素を含んでいる。特徴ベクトル500においては、トリガ単語ペア特徴504が、所定の各トリガペアに関する要素を含んでおり、ここで「0」の値は、トリガペアが候補音声認識結果に存在しないこと示し、また「1」の値は、トリガペアが候補音声認識結果に存在することを示す。信頼度スコア要素508は、対応する音声認識エンジン162又はハイブリッド音声認識結果用の音声認識エンジンの組合せによって生成された信頼度スコア数値を含む単一の要素である。単語レベル特徴要素512は、所定の語彙における特定の単語にそれぞれが対応する要素のアレイを含む。例えば、1つの実施の形態においては、ある言語(例えば、英語又は中国語)に関する所定の辞書が、単語レベル要素512のうちの1つにそれぞれがマッピングされる単語を含む。下記においてより詳細に説明する別の実施の形態においては、訓練プロセスが、訓練データの膨大なセットにおける単語の出現の頻度に基づいて単語の語彙を生成し、この場合、訓練データセットにおいて最も高い頻度で出現する単語(例えば、最も高い頻度を有する単語の90%)が、特徴ベクトル500の構造における単語レベル要素512にマッピングされる。
特徴ベクトル500に示されている特徴ベクトル要素の正確な順序は、トリガペア、信頼度スコア及び単語レベル特徴を表すための要求事項ではない。その代わりに、各要素がすべての候補音声認識結果において同一のトリガペア、信頼度スコア、又は、単語レベル特徴を表す一貫した構造を使用して、すべての候補音声認識結果に関する特徴ベクトルが生成される限りは、特徴ベクトル500における要素のあらゆる順序付けが有効である。
再び図1を参照すると、図1の実施の形態においては、ニューラルネットワークランカー166が、所定数の候補音声認識結果に対応する複数の特徴ベクトルを受信するニューロンの入力層と、各入力特徴ベクトルに対応するランキングスコアを生成するニューロンの出力層と、を含む、訓練されたニューラルネットワークである。一般的に、ニューラルネットワークは、「ニューロン」と称される複数のノードを含んでいる。各ニューロンは、少なくとも1つの入力値を受信し、所定の重み付け係数を入力値に適用し(ただし、異なる入力値は異なる重み付け係数を受信することが多い)、重み付けされた入力の合計としての出力を生成し、また、一部の実施の形態においては、合計に加算される任意選択的なバイアス係数を用いてそのような出力を生成する。各ニューロンにおける各入力に関する正確な重み付け係数及び任意選択的なバイアス値は、下記においてより詳細に説明する訓練プロセス中に生成される。ニューラルネットワークの出力層は、訓練プロセス中の「活性化関数」を用いて特別に構成されたニューロンの別のセットを含む。活性化関数は、例えば、シグモイド関数、又は、ニューラルネットワークにおけるニューロンの最後の隠れ層からの入力に基づいて出力値をもたらす他の閾値関数であり、ここでシグモイド関数の正確なパラメータ又は閾値は、ニューラルネットワークの訓練プロセス中に生成される。
図1の特別な構成においては、ニューラルネットワークランカー166が、フィードフォワードディープニューラルネットワークであり、また図5には、フィードフォワードディープニューラルネットワーク550が例示的に図示されている。従来技術において公知であるように、フィードフォワードニューラルネットワークは、ニューラルネットワークの1つの層におけるニューロンをニューラルネットワークの先行の層におけるニューロンに接続する再帰又は「フィードバック」ループを用いることなく、入力層(層554)から出力層(層566)へと進む単一の方向で接続されているニューロンの層を含む。ディープニューラルネットワークは、入力層にも出力層にも見えていないニューロンの少なくとも1つの「隠れ層」(典型的には2つ以上の隠れ層)を含んでいる。ニューラルネットワーク550においては、ニューロン562の複数のk個の隠れ層を介して、入力層554が出力層566に接続されている。
ニューラルネットワーク550の1つの実施の形態においては、入力層がさらに投影層558を含んでおり、この投影層558は、トリガペア要素504及び単語レベル特徴要素512それぞれに関する2つの異なる投影マトリクスを含む、入力特徴ベクトル要素の選択されたセットに、所定のマトリクス変換を適用する。投影層558は、入力層554における入力ニューロンの出力の単純化された表現を生成する。何故ならば、大部分の実際の入力においては、トリガペア504及び単語レベル特徴512に関する特徴ベクトル要素が「疎」であり、このことは、各候補音声認識結果が、特徴ベクトル500の構造にエンコーディングされている単語の全体として大きいセット(例えば、10,000単語)において、(存在すれば)少数のトリガペア項及び少数の単語しか含んでいないことを意味している。投影層558における変換によって、ニューラルネットワーク550の残りの層は少数のニューロンを含むことができ、その一方で、依然として、候補音声認識結果の特徴ベクトル入力に関する有用なランキングスコアを生成することができる。説明を目的とした1つの実施の形態においては、トリガ単語ペアに関する投影マトリクスPf及び単語レベル特徴に関する投影マトリクスPwの2つの投影マトリクスはそれぞれ、対応する入力ニューロンを、それぞれ200個の要素を有するより小さいベクトル空間に投影し、この小さいベクトル空間は、ニューラルネットワークランカー166におけるn個の入力特徴ベクトルそれぞれに関して401個のニューロン(1つのニューロンは信頼度スコア特徴のために確保されている)の投影された層をもたらす。
図5には、n個の異なる候補音声認識結果に対応する特徴ベクトルに関する全体でn個の入力スロットを有するニューラルネットワーク550が示されているが、入力層554における複数の入力ニューロンは、候補音声認識結果に関する特徴ベクトルにおける各要素のための1つのニューロンを含み、又は、全体でn(T+[0.9V]+2)個のニューロンを含み、ここでTは、候補音声認識結果において識別された所定のトリガペアの数であり、Vは、上記において説明したような最も高い頻度で現れる単語の90%だけを含むようにするための訓練セットのフィルタリングを表す0.9の係数を有する、認識された単語の語彙に現れる単語の数である。固定値2は、信頼度スコア値に関する1つの入力ニューロンと、入力特徴ベクトルの所定の単語レベル要素に対応しない任意の単語レベル特徴、例えばニューラルネットワークランカー166において明示的にモデリングされていない任意の語彙外単語に関するキャッチオール入力として機能する他の入力ニューロンと、を表す。例えば、コントローラ148は、特徴エクストラクタ164を使用して特徴ベクトルを生成し、特徴ベクトルの所定の構造における要素にアライメントされない候補音声認識結果における任意の単語に関する、減衰性バッグ・オブ・ワーズ・スコアをもたらす。語彙外単語に対応する特徴ベクトルにおける要素によって、ニューラルネットワークランカー166は、デフォルト語彙に含まれていない何らかの単語が存在するということを、語彙外単語を含む任意の候補音声認識結果に関するランキングスコアの生成に組み込むことができる。
出力層566は、入力層554よりも少ない出力ニューロンを含んでいる。特に、出力層566は、n個の出力ニューロンを含んでおり、各出力ニューロンが、推論プロセス中にn個の入力特徴ベクトルのうちの1つに対応する入力特徴ベクトルに関するランキングスコア数値を生成する。推論プロセスは、システム100の特別な構成においては、複数の候補音声認識結果に対応する特徴ベクトルに関するランキングスコアを生成するためのランキングプロセスである。コントローラ148のハードウェアによる一部の実施の形態は、時間及び性能に関して効率的なやり方で推論プロセスを実施するために、GPUにおける1つ又は複数の計算ユニット又は他の特別なハードウェアアクセラレーションコンポーネントを含む。別の実施の形態においては、システム100が、付加的なディジタルロジック処理ハードウェアをさらに含んでおり、この付加的なディジタルロジック処理ハードウェアは、コントローラ148がワイヤレスネットワークデバイス154及びデータネットワークを使用してアクセスするリモートサーバに組み込まれている。一部の実施の形態においては、リモートサーバにおけるハードウェアも、複数の音声認識エンジン162に関する機能の一部を実施する。サーバは、複数の音声認識結果のランキングスコア及び特徴ベクトルを生成するための特徴抽出及びニューラルネットワーク推論処理のすべて及び一部を実施する付加的な処理ハードウェアを含んでいる。
動作中に、システム100は、マイクロフォン128を使用してオーディオ入力データを受信し、複数の候補音声認識結果を生成するために複数の音声エンジン162を使用し、一部の実施の形態においては、複数の候補音声認識結果の生成には、候補音声認識結果のうちの2つ又はそれ以上から選択された単語を含むハイブリッド音声認識結果の生成が含まれる。コントローラ148は、特徴エクストラクタ164を使用して候補音声認識結果から特徴を抽出して、候補音声認識結果から特徴ベクトルを生成し、また各特徴ベクトルに関して出力スコアを生成するために、特徴ベクトルをニューラルネットワークランカー166に提供する。コントローラ148は、最も高いランキングスコアに対応する候補音声認識結果及び特徴ベクトルを識別し、またコントローラ148は、入力としての複数のランキングスコアにおける最も高いランキングスコアに対応する複数の候補音声認識結果における候補音声認識結果を使用して自動システムを動作させる。
図2には、複数の音声認識エンジン及び候補音声認識結果を選択するためのニューラルネットワークランカーを使用して音声認識を実施するためのプロセス200が示されている。下記の説明においては、機能又は動作を実施するプロセス200の参照は、自動システムにおける他のコンポーネントと共に機能又は動作を実施するための、記憶されているプログラム命令を実行するためのコントローラの動作を表す。プロセス200を、例示を目的とした図1のシステム100と関連させて説明する。
プロセス200は、システム100が複数の音声認識エンジン162を使用して複数の候補音声認識結果を生成することで開始される(ブロック204)。システム100においては、ユーザは、音声オーディオ入力を、マイクロフォン128のようなオーディオ入力デバイスに提供する。コントローラ148は、複数の候補音声認識結果を生成するために、複数の音声認識エンジン162を使用する。上記において説明したように、一部の実施の形態においては、コントローラ148が、汎用の音声認識エンジンの候補音声認識結果において選択された単語の代わりに、ドメイン固有の音声認識エンジンの候補音声認識結果から選択された単語を使用して、ハイブリッド候補音声認識結果を生成する。音声認識エンジン162は、システム100がプロセス200における特徴ベクトル生成中に使用する信頼度スコアデータも生成する。
プロセス200は、システム100が特徴抽出を実施し、候補音声認識結果のうちの1つにそれぞれが対応する複数の特徴ベクトルを生成することで継続される(ブロック208)。システム100においては、コントローラ148が、特徴エクストラクタ164を使用して、図5における特徴ベクトル500の構造、又は、上記において説明したトリガペア、信頼度スコア及び単語レベル特徴のうちの1つ又は複数に関する他の類似の構造を有する特徴ベクトルを生成するために、トリガペア、信頼度スコア及び単語レベル特徴のうちの1つ又は複数を含む特徴ベクトルを生成する。図2の実施の形態においては、コントローラ148が、特徴ベクトルの単語レベル特徴要素に関する減衰性バッグ・オブ・ワーズ・メトリックを使用して、単語レベル特徴を生成する。
プロセス200は、コントローラ148が、複数の候補音声認識結果に対応する複数のランキングスコアを生成するための推論プロセスにおける入力として、複数の候補音声認識結果に関する特徴ベクトルを、ニューラルネットワークランカー166に供給することで継続される(ブロック212)。1つの実施の形態においては、コントローラ148が、推論プロセスを使用してニューラルネットワークの出力層ニューロンにおいて複数のランキングスコアを生成するために、訓練されたフィードフォワードディープニューラルネットワークランカー166を使用する。上記において説明したように、別の実施の形態においては、コントローラ148が、特徴ベクトルデータ、候補音声認識結果、又は、記録されたオーディオ音声認識データのエンコーディングされたヴァージョンを、ワイヤレスネットワークデバイス154を使用して外部のサーバに伝送し、サーバにおけるプロセッサが、プロセス200の一部を実施し、候補音声認識結果のランキングスコアを生成する。
大部分の例においては、コントローラ148が、多数の候補音声認識結果と、ニューラルネットワークランカー166が訓練プロセス中に受信する、所定数のn個の特徴ベクトル入力に合致する、対応する特徴ベクトルnと、を生成する。しかしながら、一部の例においては、候補音声認識結果に関する特徴ベクトルの数が最大数nよりも小さい場合には、コントローラ148が、すべて0の値を有する「ボイド(void)」特徴ベクトル入力を生成し、ニューラルネットワークランカー166の入力層におけるすべてのニューロンが入力を受信することを保証する。コントローラ148は、各ボイド入力のための対応する出力層ニューロンに関するスコアを無視するが、その一方で、ランカー166におけるニューラルネットワークは、候補検索認識結果の非ボイド特徴ベクトルに関するスコアをもたらす。
プロセス200は、コントローラ148が、ニューラルネットワークランカー166の出力層において最も高いランキングスコアに対応する候補音声認識結果を識別することで継続される(ブロック216)。図5を参照して上記において説明したように、ニューラルネットワーク550の出力層566における各出力ニューロンは、システム100が入力層554における入力ニューロンの所定のセットに提供する、入力特徴ベクトルのうちの1つのランキングスコアに対応する出力値を生成する。コントローラ148は、ニューラルネットワーク550内の最も高いランキングスコアをもたらす出力ニューロンのインデクスに基づいて、最も高いランキングスコアを有する候補音声認識結果を識別する。
図2を再び参照すると、プロセス200は、コントローラ148が、自動システムを動作させるためのユーザからの入力として、選択された最も高くランク付けされた音声認識結果を使用することで継続される(ブロック220)。図1の車載情報システム100においては、コントローラ148が、例えば、ユーザからの音声入力に応答して車両ナビゲーション動作を実施するために、GPS152、ワイヤレスネットワークデバイス154、及び、LCDディスプレイ124又はHUD120を使用する車両ナビゲーションシステムを含む種々のシステムを動作させる。別の構成においては、コントローラ148が、音声コマンドに応答して、オーディオ出力デバイス132を介して音楽を再生する。さらに別の構成においては、システム100が、スマートフォン170若しくは他のネットワーク接続デバイスを使用し、ハンズフリーコールを行い、又は、ユーザからの音声入力に基づいてテキストメッセージを伝送する。図1には、車載情報システムの実施の形態を示したが、他の実施の形態は、種々のハードウェアコンポーネント及びソフトウェアアプリケーションの動作を制御するためにオーディオ入力データを用いる自動システムを使用する。
図1には、ユーザからのコマンドを受信して実施するために音声認識を実施する自動システムの説明を目的とした例として車載情報システム100を図示したが、類似の音声認識プロセスを、別のコンテキストにおいて実現することができる。例えば、スマートフォン170又は他の適切なデバイスなどのモバイル電子デバイスは、典型的には、1つ又は複数のマイクロフォンと、音声認識エンジン、ランカー、記憶されているトリガペアを実現することができるプロセッサと、音声認識及び制御システムを実現する他のコンポーネントと、を含んでいる。別の実施の形態においては、ホームオートメーションシステムが、家庭内の種々の自動システムの動作を制御するために、ユーザからの音声入力を受信し、複数の音声認識エンジンを使用して音声認識を実施する少なくとも1つのコンピューティングデバイスを使用して、家庭内のHVAC及びアプリケーションを制御する。各実施の形態においては、システムが、任意選択的に、異なる自動システムの特定の用途及び動作のために調整された、ドメイン固有の音声認識エンジンの異なるセットを使用するように構成されている。
ニューラルネットワークランカーを訓練するための訓練システム及び訓練プロセス
図1のシステム100及び図2の音声認識プロセスにおいては、ニューラルネットワークランカー166が、訓練されたフィードフォワードディープニューラルネットワークである。ニューラルネットワークランカー166は、上記において説明した音声認識プロセスを実行するために、システム100の動作に先行して訓練される。図3は、ニューラルネットワークランカー166を訓練するように構成されているコンピュータ化システム300の例示的な実施の形態を示しており、また、図4は、訓練されたニューラルネットワークランカー166を生成するための訓練プロセス400を示している。
システム300は、プロセッサ304及びメモリ320を含んでいる。プロセッサ304は、例えば、1つ又は複数のCPUコアを含んでおり、このCPUコアは、任意選択的に並列化ハードウェアアクセラレータに接続されており、このハードウェアアクセラレータは、時間及び性能に関して効率的なやり方でニューラルネットワークを訓練するよう指定されている。そのようなアクセラレータの例には、例えばニューラルネットワーク訓練のために構成されているコンピュートシェーダユニットを備えたGPU、また特にプログラミングされたFPGAチップ又はニューラルネットワーク訓練専用のASICハードウェアを含んでいる。一部の実施の形態においては、プロセッサ304がさらに、ニューラルネットワーク訓練プロセスを並列に実施するよう動作するコンピューティングデバイスのクラスタを含んでいる。
メモリ320には、例えば、システム300の動作に関するプログラミングされた命令を記憶する、不揮発性のソリッドステートデバイス又は磁気データストレージデバイス、及び、揮発性データストレージデバイス、例えばランダムアクセスメモリ(RAM)が含まれる。図3の構成においては、メモリ320が、訓練入力データ324、ニューラルネットワーク用の確率的勾配降下トレーナ328、ニューラルネットワークランカー332及び特徴エクストラクタ164に対応するデータを記憶する。
訓練データ324は、例えば、ハイブリッド音声認識結果を任意選択的に含む所定の入力の大量のセットのためにシステム100において使用される同一の音声認識エンジン162によってもたらされる音声認識結果の大量のセットを含む。訓練音声認識結果データは、訓練音声認識結果に関する信頼度スコアも含んでいる。各音声認識結果に関して、訓練データは、レーベンシュタイン距離メトリックも含み、これは、音声認識結果と、訓練プロセスにおいて標準的に「正しい」結果を表す、所定のグラウンドトゥルース(Ground Truth)音声入力訓練データとの距離を定量化する。レーベンシュタイン距離メトリックは、「編集距離」メトリックの一例である。何故ならば、このメトリックは、音声認識エンジンからの音声認識結果を、訓練データに使用された実際の入力に変換するために必要とされる変化量(編集)を定量化するからである。音声認識結果及びグラウンドトゥルース音声入力訓練データのいずれも、比較メトリックにおけるテキストの「文字列」として表される。例えば、編集距離は、音声認識結果文字列「Sally shells sea sells by the seashore」を対応する正しいグラウンドトゥルース訓練データ文字列「Sally sells sea shells by the seashore」に変換するために必要とされる変化の回数を定量化する。
レーベンシュタイン距離メトリックは、他のコンテキストにおいて従来技術より公知であり、また(1)レーベンシュタイン距離は常に、少なくとも、2つの文字列の大きさの差異である;(2)レーベンシュタイン距離は、せいぜい、より長い文字列の長さである;(3)レーベンシュタイン距離は、文字列が等しい場合、またそのような場合にのみ0である、(4)文字列が同一の大きさである場合、ハミング距離は、レーベンシュタイン距離の上限値である;(4)2つの文字列間のレーベンシュタイン距離は、3番目の文字列からのそれらのレーベンシュタイン距離の和よりも大きくない(三角不等式)、ことを含む種々の特性を有している。ここで、ハミング距離は、一方の文字列を他方の文字列に変化させるために要求される置換の最小数、又は、一方の文字列を他方の文字列に変換することができたエラーの最小数のメトリックを表す。システム300は、説明を目的とした、レーベンシュタイン距離を用いてエンコーディングされた訓練データを含んでいるが、代替的な実施の形態においては、別の編集距離メトリックが、訓練音声認識結果と対応するグラウンドトゥルース訓練入力との間の差異を表すために使用される。
図3の実施の形態においては、メモリ320における特徴エクストラクタ164が、上記において説明したシステム100において使用される同一の特徴エクストラクタ164である。特に、プロセッサ304は、上記において説明した、トリガ単語ペア、信頼度スコア及び単語レベル特徴のうちの1つ又は複数を使用して各訓練音声認識結果から特徴ベクトルを生成するために特徴エクストラクタ164を使用する。
確率的勾配降下トレーナ328は、訓練データ324に基づいて特徴エクストラクタ164が生成する特徴ベクトルを使用してニューラルネットワークランカー332を訓練するためにプロセッサ304が実施するニューラルネットワーク訓練プロセスに関する、記憶されたプログラム命令及びパラメータデータを含んでいる。従来技術から公知であるように、確率的勾配降下トレーナは、ニューラルネットワークの出力と、「目的」関数とも称される所定のターゲット関数との差異(エラー)を最小にするために、ニューラルネットワーク内でパラメータを調整することによって反復プロセスにおいてニューラルネットワークを訓練する、関連する訓練プロセスのクラスを含む。確率的勾配降下訓練は一般的に従来技術より公知であるので、ここではさらに詳細には説明しないが、システム300は、従来技術による標準的な訓練プロセスを修正する。特に、訓練プロセスは、ニューラルネットワークの出力と所定の訓練データに由来する、予測される目標結果との間のエラーを最小にする入力としての訓練データを使用して、ニューラルネットワークを用いて出力を生成することに努める。従来技術による訓練プロセスにおいては、目標値が、一般的に、与えられた出力がバイナリで「正しい」か「正しくない」かを規定し、例えば、何らかのやり方で訓練データにおけるグラウンドトゥルース入力と比較した場合に、訓練音声認識結果に関する特徴ベクトルが100%正しいか又は正しくないかを示すスコアを提供するニューラルネットワークランカーからの目標出力のような出力がバイナリで「正しい」か「正しくない」かを規定する。しかしながら、システム300においては、確率的勾配降下トレーナ328が、単に完全に正しいか正しくないかの代わりに、連続する範囲にわたりランキングスコアに影響を及ぼすエラーの範囲を含むことができる種々の訓練音声認識結果に関する正しさのレベルをより正確に反映するために、訓練データ324における編集距離目標データを「ソフトな」目標値として使用する。
プロセッサ304は、確率的勾配降下トレーナ328を使用して訓練プロセスを実施するために、目的関数において「ソフトな」目標データを使用する。例えば、図3の構成は、次式の「ソフトマックス」目的関数を使用する:
Figure 2019537749
ここで、diは、与えられた訓練音声認識結果iに関する編集距離である。訓練プロセス中、勾配降下トレーナ328は、コスト最小化プロセスを実施する。ここで「コスト」とは、訓練プロセスの各反復時の間のニューラルネットワークランカー332の出力値と、目的関数によって生成された目標値との間のクロスエントロピを表す。プロセッサ304は、訓練プロセス中にサンプルのバッチ、例えばそれぞれが複数の音声認識エンジンによって生成された種々の訓練音声認識結果をそれぞれが含む180個の訓練入力のバッチを勾配降下トレーナ328に提供する。反復プロセスは、訓練セットのクロスエントロピが10回の反復の過程にわたり改善されなくなるまで継続され、また訓練されたニューラルネットワークパラメータが、最終的な訓練されたニューラルネットワークに由来するすべての訓練データから最も低い全体のエントロピをもたらすまで継続される。
訓練プロセス中に、プロセッサ304は、ニューラルネットワークの入力層における特定の特徴ベクトルの位置が、訓練されたニューラルネットワークにおいて正しくないバイアスをもたらさないことを保証するために、訓練プロセスの種々の反復中に、ニューラルネットワークランカー332における入力ニューロンの異なるセット間で、同一の入力特徴ベクトルをシャッフルする。推論プロセスについて上記において説明したように、訓練データの特定のセットが、ニューラルネットワークランカー332の入力層におけるすべてのニューロンに入力を提供するには十分な数の候補音声認識結果を含まない場合、プロセッサ304は、0の値入力を有する「ボイド」入力特徴ベクトルを生成する。従来技術より公知であるように、確率的勾配降下訓練プロセスは、数値訓練パラメータを含み、またシステム300の1つの構成においては、確率的勾配降下トレーナ328のハイパーパラメータは、α=0.001、β1=0.9、及び、β2=0.999である。
1つの実施の形態においては、ニューラルネットワークランカー332が、図5に図示したニューラルネットワーク550の構造を有する、フィードフォワードディープニューラルネットワークである。動作中に、プロセッサ304は、所定数のニューロンを有する、訓練されていないニューラルネットワークランカー332の構造を、図5におけるニューラルネットワーク550の入力層554における複数のニューロンと、それぞれが推論プロセスのためのニューラルネットワークに対する入力として提供された全部でn個の候補音声認識結果に関する出力層566における複数の出力ニューロンと、に基づいて生成する。プロセッサ304は、また、ニューラルネットワーク550のk個の隠れ層562における適切な数のニューロンも生成する。1つの実施の形態においては、プロセッサ304が、ニューロンに対する各入力に関するランダム化された重み値を用いて、ニューラルネットワーク構造を初期化する。上記において説明したように、訓練プロセス中に、プロセッサ304は、ニューラルネットワークの入力層554及び隠れ層562におけるニューロンに関する種々の重み値及びバイアス値を、出力層566のニューロンにおける活性化関数のパラメータと共に調整し、目的関数と比較した入力の与えられたセットに関するニューラルネットワークランカー332に由来する出力のクロスエントロピを最小化する。
図3には、訓練されたニューラルネットワークランカーを生成する、コンピュータ化されたデバイス300の特定の構成を示したが、一部の実施の形態においては、音声認識プロセスにおける訓練されたニューラルネットワークランカーを使用する同一のシステムがさらに、ニューラルネットワークランカーを訓練するように構成されている。例えば、システム100におけるコントローラ148は、一部の実施の形態におけるニューラルネットワーク訓練プロセスを実施するように構成可能であるプロセッサの一例である。
図4には、複数の音声認識エンジン及び候補音声認識結果を選択するためのニューラルネットワークランカーを使用して音声認識を実施するためのプロセス400が示されている。下記の説明においては、機能又は動作を実施するプロセス400の参照は、自動システムにおける他のコンポーネントと共に機能又は動作を実施するための、記憶されているプログラム命令を実行するためのプロセッサの動作を表す。プロセス400を、例示を目的とした図3のシステム300と関連させて説明する。
プロセス400は、システム300が、訓練データ324に記憶されている複数の訓練音声認識結果に対応する複数の特徴ベクトルを生成することで開始される(ブロック404)。システム300においては、プロセッサ304が、特徴エクストラクタ164を使用して複数の特徴ベクトルを生成し、各特徴ベクトルは、訓練データ324における1つの訓練音声認識結果に対応する。上記において説明したように、プロセス400の少なくとも1つの実施の形態においては、コントローラ304が、トリガペア特徴、信頼度スコア、及び、減衰性バッグ・オブ・ワーズ特徴を含む単語レベル特徴のうちの1つ又は複数を含む各特徴ベクトルを生成する。
特徴抽出プロセス及び特徴生成プロセスの一部として、一部の実施の形態においては、コントローラ304が、トリガペア特徴及び単語レベル特徴をマッピングする特定の要素を含む特徴ベクトルの構造を生成する。例えば、システム100について上記において説明したように、一部の実施の形態においては、コントローラ304が、訓練データ324において観測された単語の一部にのみ対応する、例えば大部分共通して観測された90%の単語にのみ対応する構造を有する特徴ベクトルを生成し、その一方で、非常に低い頻度で現れる残りの10%の単語は特徴ベクトルの構造にエンコーディングされない。プロセッサ304は、任意選択的に、大部分共通するトリガペア特徴を識別し、また大部分共通して観測された、訓練データ324に存在するトリガ単語ペアに関する構造を生成する。システム300がプロセス400中に特徴ベクトルに関する構造を生成する実施の形態においては、プロセッサ304が、特徴エクストラクタデータ164を有する特徴ベクトルの構造を記憶し、また特徴ベクトルの構造はニューラルネットワークランカー332と共に、訓練プロセスの完了後に、自動システムに提供され、自動システムは、候補音声認識結果に関するランキングスコアを生成するために、訓練されたニューラルネットワークに対する入力として特定の構造を有する特徴ベクトルを使用する。別の実施の形態においては、特徴ベクトルの構造が、特に訓練データ324の内容を基礎とする代わりに、英語又は中国語のような自然言語に基づいて先験的に決定されている。
プロセス400は、システム300が訓練音声認識結果の特徴ベクトル及び訓練データ324に由来するソフトな目標編集距離データに基づいて、確率的勾配降下トレーナ328を使用してニューラルネットワークランカー332を訓練することで継続される(ブロック408)。訓練プロセス中に、プロセッサ304は、ニューラルネットワークランカーに対する入力としての複数の訓練音声認識結果に対応する複数の特徴ベクトルを使用し、また複数の訓練音声認識結果と、複数の音声認識結果における各訓練音声認識に関する所定の正しい入力との間の所定の編集距離に基づく、上記において説明したソフトなスコアを用いる目的関数と、訓練プロセス中にニューラルネットワークランカーによって生成された複数の出力スコアと、のコスト最小化プロセスに基づいて、ニューラルネットワークランカー332を訓練する。プロセス400中に、プロセッサ304は、ニューラルネットワークランカー332の入力層及び隠れ層におけるニューロンバイアス値及び入力重み付け係数を修正し、確率的勾配降下トレーナ328を使用した反復的なやり方でニューロンの出力層における活性化関数のパラメータを調整する。
訓練プロセスが完了した後に、プロセッサ304は、訓練されたニューラルネットワークランカー332の構造を記憶し、また、任意選択的に、特徴ベクトルがメモリ320における訓練データに基づいて生成される実施の形態においては特徴ベクトルの構造を記憶する(ブロック412)。ニューラルネットワークランカー332の記憶された構造及び特徴ベクトルの構造は、続けて、音声認識動作中に複数の候補音声認識結果をランク付けするために、訓練されたニューラルネットワークランカー332及び特徴エクストラクタ164を使用する他の自動システム、例えば図1のシステム100に伝送される。
上記において説明した特徴及び機能並びに他の特徴及び機能のヴァリエーション又はそれらの代替形態を、他の多くの異なるシステム、アプリケーション又は方法に、所望のように組み合わせることができることは自明である。現在は予想されていない又は予期されていないが、添付の特許請求の範囲に含まれることが意図されている種々の代替形態、修正形態、変化形態又は改善形態も、当業者であれば実施することができるであろう。
従来技術の音声認識システムの大部分は、ユーザが話して記録された入力を、コンピュータ化されたシステムにおける処理に適したディジタルデータに変換するために、訓練された音声認識エンジンを使用する。従来技術より公知の種々の音声認識エンジンは、自然言語理解技術を実施し、ユーザが話す単語を認識して、それらの単語から意味論的意味を抽出し、コンピュータ化されたシステムの動作を制御する。
本明細書においては、「音声認識結果」という用語は、音声認識エンジンが与えられた入力に対して生成する機械可読の出力を表す。結果は、例えば、機械可読のフォーマットにエンコーディングされたテキストであってもよいし、自動システムの動作を制御するための入力として使用される、他のエンコーディングされたデータのセットであってもよい。音声認識エンジンの統計的な性質に起因して、一部の構成においては、音声認識エンジンが単一の入力に対して複数の潜在的な音声認識結果を生成する。音声認識エンジンは、各音声認識結果に関する「信頼度スコア」も生成し、この信頼度スコアは、各音声認識結果が音声認識エンジンの訓練された統計モデルに基づいて正確であるという尤度の統計的な推定値である。下記においてより詳細に説明するように、ハイブリッド音声認識システムは、複数の音声認識エンジンによってもたらされる音声認識結果を使用して、付加的なハイブリッド音声認識結果を生成し、また最終的には、先行して生成された複数の音声認識結果に基づいて、少なくとも1つの出力音声認識結果をもたらす。本明細書においては、「候補音声認識結果」又はより簡潔に「候補結果」という用語は、複数の候補結果をもたらし、またそれらの結果のうちの(典型的には1つの)サブセットだけを最終的な音声認識結果として選択するハイブリッド音声認識システムからの、最終的な音声認識結果となるべき候補である音声認識結果を表す。種々の実施の形態においては、候補音声認識結果が、汎用の音声認識エンジンからの音声認識結果及びドメイン固有の音声認識エンジンからの音声認識結果の2つの結果と、システム100が複数の候補音声認識結果に由来する単語を使用して生成するハイブリッド音声認識結果と、を含んでいる。
動作中に、システム100は、マイクロフォン128を使用してオーディオ入力データを受信し、複数の候補音声認識結果を生成するために複数の音声認識エンジン162を使用し、一部の実施の形態においては、複数の候補音声認識結果の生成には、候補音声認識結果のうちの2つ又はそれ以上から選択された単語を含むハイブリッド音声認識結果の生成が含まれる。コントローラ148は、特徴エクストラクタ164を使用して候補音声認識結果から特徴を抽出して、候補音声認識結果から特徴ベクトルを生成し、また各特徴ベクトルに関して出力スコアを生成するために、特徴ベクトルをニューラルネットワークランカー166に提供する。コントローラ148は、最も高いランキングスコアに対応する候補音声認識結果及び特徴ベクトルを識別し、またコントローラ148は、入力としての複数のランキングスコアにおける最も高いランキングスコアに対応する複数の候補音声認識結果における候補音声認識結果を使用して自動システムを動作させる。
大部分の例においては、コントローラ148が、多数の候補音声認識結果と、ニューラルネットワークランカー166が訓練プロセス中に受信する、所定数のn個の特徴ベクトル入力に合致する、対応する特徴ベクトルnと、を生成する。しかしながら、一部の例においては、候補音声認識結果に関する特徴ベクトルの数が最大数nよりも小さい場合には、コントローラ148が、すべて0の値を有する「ボイド(void)」特徴ベクトル入力を生成し、ニューラルネットワークランカー166の入力層におけるすべてのニューロンが入力を受信することを保証する。コントローラ148は、各ボイド入力のための対応する出力層ニューロンに関するスコアを無視するが、その一方で、ランカー166におけるニューラルネットワークは、候補音声認識結果の非ボイド特徴ベクトルに関するスコアをもたらす。
レーベンシュタイン距離メトリックは、他のコンテキストにおいて従来技術より公知であり、また(1)レーベンシュタイン距離は常に、少なくとも、2つの文字列の大きさの差異である;(2)レーベンシュタイン距離は、せいぜい、より長い文字列の長さである;(3)レーベンシュタイン距離は、文字列が等しい場合、またそのような場合にのみ0である、(4)文字列が同一の大きさである場合、ハミング距離は、レーベンシュタイン距離の上限値である;()2つの文字列間のレーベンシュタイン距離は、3番目の文字列からのそれらのレーベンシュタイン距離の和よりも大きくない(三角不等式)、ことを含む種々の特性を有している。ここで、ハミング距離は、一方の文字列を他方の文字列に変化させるために要求される置換の最小数、又は、一方の文字列を他方の文字列に変換することができたエラーの最小数のメトリックを表す。システム300は、説明を目的とした、レーベンシュタイン距離を用いてエンコーディングされた訓練データを含んでいるが、代替的な実施の形態においては、別の編集距離メトリックが、訓練音声認識結果と対応するグラウンドトゥルース訓練入力との間の差異を表すために使用される。

Claims (17)

  1. 自動システムにおける音声認識のための方法において、
    コントローラを用いて、それぞれが複数の候補音声認識結果における1つの候補音声認識結果に対応する複数の特徴ベクトルを生成するステップであって、前記複数の候補音声認識結果における第1の候補音声認識結果に関する前記複数の特徴ベクトルにおける第1の特徴ベクトルの生成は、さらに、
    前記コントローラを用いて、メモリに記憶されている複数の所定のトリガペアを参照して、前記第1の候補音声認識結果内の2つの所定のトリガ単語を含む少なくとも1つのトリガペアを識別すること、及び、
    前記コントローラを用いて、前記少なくとも1つのトリガペアに関する要素を含む前記第1の特徴ベクトルを生成すること、を含む、ステップと、
    前記コントローラを用いて、前記複数の特徴ベクトルを入力としてニューラルネットワークに提供するステップと、
    前記コントローラを用いて、前記ニューラルネットワークの出力層に基づいて、前記複数の候補音声認識結果に関する前記複数の特徴ベクトルに対応する複数のランキングスコアを生成するステップと、
    前記コントローラを用いて、入力としての前記複数のランキングスコアにおける最も高いランキングスコアに対応する前記複数の候補音声認識結果における前記候補音声認識結果を使用して、前記自動システムを動作させるステップと、
    を備える、方法。
  2. 前記複数の特徴ベクトルにおける各特徴ベクトルを生成するステップは、さらに、
    前記コントローラを用いて、複数の信頼度スコアにおける1つの信頼度スコアに関する要素をそれぞれが含む特徴ベクトルを生成するステップを備え、
    各信頼度スコアは、各特徴ベクトルに対応する1つの候補音声認識結果に関連付けられている、請求項1に記載の方法。
  3. さらに、
    前記コントローラを用いて、前記複数の信頼度スコアに基づいて線形回帰プロセスを実施し、前記複数の特徴ベクトルに関する正規化された複数の信頼度スコアを生成するステップを備え、
    前記正規化された複数の信頼度スコアは、前記複数の音声認識結果における1つの所定の候補音声認識結果の信頼度スコアを基礎とする、請求項2に記載の方法。
  4. 前記第1の特徴ベクトルの生成は、さらに、
    前記コントローラを用いて、複数の単語において各ユニークな単語が出現する頻度及び前記第1の候補音声認識結果における各ユニークな単語の少なくとも1つの位置を含む、前記第1の候補音声認識結果における複数のユニークな単語を識別することと、
    前記コントローラを用いて、前記1つのユニークな単語の前記頻度及び前記少なくとも1つの位置並びに所定の減衰パラメータに基づいて、前記複数のユニークな単語における1つのユニークな単語にそれぞれが対応する複数の減衰性バッグ・オブ・ワーズ・パラメータを生成することと、
    前記コントローラを用いて、前記複数の減衰性バッグ・オブ・ワーズ・パラメータにおける各減衰性バッグ・オブ・ワーズ・パラメータに関する要素を含む前記第1の特徴ベクトルを生成することと、
    を含む、請求項1に記載の方法。
  5. 前記複数の特徴ベクトルを前記ニューラルネットワークに提供するステップは、さらに、
    前記コントローラを用いて、前記複数の特徴ベクトルを入力としてフィードフォワードディープニューラルネットワークに提供することを含む、請求項1に記載の方法。
  6. さらに、
    オーディオ入力デバイスを用いて、ユーザからの音声入力に対応するオーディオ入力データを生成するステップと、
    前記コントローラを用いて、複数の音声認識エンジンを使用して前記オーディオ入力データに対応する前記複数の候補音声認識結果を生成するステップと、
    を備える、請求項1に記載の方法。
  7. ニューラルネットワークランカーを訓練するための方法において、
    プロセッサを用いて、それぞれがメモリに記憶されている複数の訓練音声認識結果における1つの訓練音声認識結果に対応する複数の特徴ベクトルを生成するステップであって、前記複数の訓練音声認識結果における第1の訓練音声認識結果に関する前記複数の特徴ベクトルにおける第1の特徴ベクトルの生成は、さらに、
    前記プロセッサを用いて、メモリに記憶されている複数の所定のトリガペアを参照して、前記第1の訓練音声認識結果内の2つの所定のトリガ単語を含む少なくとも1つのトリガペアを識別すること、及び、
    前記プロセッサを用いて、前記少なくとも1つのトリガペアに関する要素を含む前記第1の特徴ベクトルを生成すること、を含む、ステップと、
    前記プロセッサを用いて、前記ニューラルネットワークランカーに対する入力としての前記複数の訓練音声認識結果に対応する前記複数の特徴ベクトルと、訓練プロセス中に前記ニューラルネットワークランカーによって生成された複数の出力スコアと、前記複数の訓練音声認識結果と前記複数の音声認識結果における各訓練音声認識に関する所定の正しい入力との間の所定の編集距離を基礎とする複数の目標結果と、を使用して、ニューラルネットワークランカーに関する訓練プロセスを実施するステップと、
    前記プロセッサを用いて、前記複数の訓練音声認識結果に存在しない音声認識結果に対応する付加的な特徴ベクトルに関するランキングスコアの生成に使用するために、前記訓練プロセスの完了後に前記メモリに前記ニューラルネットワークランカーを記憶するステップと、
    を備える、方法。
  8. 前記第1の特徴ベクトルの生成は、さらに、
    前記プロセッサを用いて、前記第1の訓練音声認識結果に関連付けられた信頼度スコアに関する要素を含む前記特徴ベクトルを生成することを含む、請求項7に記載の方法。
  9. 前記第1の特徴ベクトルの生成は、さらに、
    前記プロセッサを用いて、複数の単語において各ユニークな単語が出現する頻度及び前記第1の訓練音声認識結果における各ユニークな単語の少なくとも1つの位置を含む、前記第1の訓練音声認識結果における複数のユニークな単語を識別することと、
    前記プロセッサを用いて、前記1つのユニークな単語の前記頻度及び前記少なくとも1つの位置並びに所定の減衰パラメータに基づいて、前記複数のユニークな単語における1つのユニークな単語にそれぞれが対応する複数の減衰性バッグ・オブ・ワーズ・パラメータを生成することと、
    前記プロセッサを用いて、前記複数の減衰性バッグ・オブ・ワーズ・パラメータにおける、複数の減衰性バッグ・オブ・ワーズ・パラメータそれぞれに関する要素を含む前記第1の特徴ベクトルを生成することと、
    を含む、請求項7に記載の方法。
  10. 前記訓練プロセスは、さらに、
    前記プロセッサを用いて、確率的勾配降下訓練プロセスを使用して、訓練されたニューラルネットワークを生成することを含む、請求項7に記載の方法。
  11. 前記訓練は、さらに、
    前記プロセッサを用いて、前記複数の訓練音声認識結果と、前記複数の音声認識結果における各訓練音声認識に関する所定の正しい入力との間のレーベンシュタイン距離に基づいて、前記複数の目標結果を使用して、前記ニューラルネットワークランカーに関する前記訓練プロセスを実施することを含む、請求項7に記載の方法。
  12. 自動音声認識のためのシステムにおいて、
    それぞれが2つの単語を含んでいる複数の所定のトリガペアと、複数の候補音声認識結果に対応するランキングスコアを生成するように構成されているニューラルネットワークと、を記憶するように構成されている、メモリと、
    前記メモリに接続されて動作するコントローラと、
    を備えており、前記コントローラは、
    それぞれが複数の候補音声認識結果における1つの候補音声認識結果に対応する複数の特徴ベクトルを生成するように構成されており、前記複数の候補音声認識結果における第1の候補音声認識結果に関する前記複数の特徴ベクトルにおける第1の特徴ベクトルの生成は、さらに、
    メモリに記憶されている複数の所定のトリガペアを参照して、前記第1の候補音声認識結果内の2つの所定のトリガ単語を含む少なくとも1つのトリガペアを識別し、かつ、
    前記少なくとも1つのトリガペアに関する要素を含む前記第1の特徴ベクトルを生成するように、前記コントローラをさらに構成することを含み、
    前記コントローラは、さらに、
    前記複数の特徴ベクトルを入力として前記ニューラルネットワークに提供し、
    前記ニューラルネットワークの出力層に基づいて、前記複数の候補音声認識結果に関する前記複数の特徴ベクトルに対応する複数のランキングスコアを生成し、
    入力としての前記複数のランキングスコアにおける最も高いランキングスコアに対応する前記複数の候補音声認識結果における前記候補音声認識結果を使用して、自動システムを動作させる、ように構成されている、システム。
  13. 前記コントローラは、さらに、
    各特徴ベクトルに対応する前記1つの候補音声認識結果にそれぞれが関連付けられている複数の信頼度スコアにおける1つの信頼度スコアに関する要素をそれぞれが含む特徴ベクトルを生成するように構成されている、請求項12に記載のシステム。
  14. 前記コントローラは、さらに、
    前記複数の信頼度スコアに基づいて線形回帰プロセスを実施し、前記複数の特徴ベクトルに関する正規化された複数の信頼度スコアを生成するように構成されており、
    前記正規化された複数の信頼度スコアは、前記複数の音声認識結果における1つの所定の候補音声認識結果の信頼度スコアを基礎とする、請求項13に記載のシステム。
  15. 前記コントローラは、さらに、
    複数の単語において各ユニークな単語が出現する頻度及び前記第1の候補音声認識結果における各ユニークな単語の少なくとも1つの位置を含む前記第1の候補音声認識結果における複数のユニークな単語を識別し、
    前記1つのユニークな単語の前記頻度及び前記少なくとも1つの位置並びに所定の減衰パラメータに基づいて、前記複数のユニークな単語における1つのユニークな単語にそれぞれが対応する複数の減衰性バッグ・オブ・ワーズ・パラメータを生成し、
    前記複数の減衰性バッグ・オブ・ワーズ・パラメータにおける各減衰性バッグ・オブ・ワーズ・パラメータに関する要素を含む前記第1の特徴ベクトルを生成するように構成されている、請求項12に記載のシステム。
  16. 前記メモリにおける前記ニューラルネットワークは、フィードフォワードディープニューラルネットワークであり、
    前記コントローラは、さらに、
    前記複数の特徴ベクトルを入力として前記フィードフォワードディープニューラルネットワークに提供するように構成されている、請求項12に記載のシステム。
  17. さらに、
    オーディオ入力デバイスを備えており、
    前記コントローラは、前記オーディオ入力デバイスに接続されて動作し、さらに、
    前記オーディオ入力デバイスを用いたユーザからの音声入力に対応するオーディオ入力データを生成し、
    複数の音声認識エンジンを使用して前記オーディオ入力データに対応する前記複数の候補音声認識結果を生成するように構成されている、請求項12に記載のシステム。
JP2019526240A 2016-11-17 2017-11-15 ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法 Active JP6743300B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/353,767 2016-11-17
US15/353,767 US10170110B2 (en) 2016-11-17 2016-11-17 System and method for ranking of hybrid speech recognition results with neural networks
PCT/EP2017/079272 WO2018091501A1 (en) 2016-11-17 2017-11-15 System and method for ranking of hybrid speech recognition results with neural networks

Publications (2)

Publication Number Publication Date
JP2019537749A true JP2019537749A (ja) 2019-12-26
JP6743300B2 JP6743300B2 (ja) 2020-08-19

Family

ID=60327326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019526240A Active JP6743300B2 (ja) 2016-11-17 2017-11-15 ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法

Country Status (5)

Country Link
US (1) US10170110B2 (ja)
JP (1) JP6743300B2 (ja)
CN (1) CN109923608B (ja)
DE (1) DE112017004397B4 (ja)
WO (1) WO2018091501A1 (ja)

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
JP2016508007A (ja) 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10985777B2 (en) * 2016-12-09 2021-04-20 William Marsh Rice University Signal recovery via deep convolutional networks
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN108460454B (zh) * 2017-02-21 2022-07-26 京东方科技集团股份有限公司 卷积神经网络和用于其的处理方法、装置、系统
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
US10984788B2 (en) 2017-08-18 2021-04-20 Blackberry Limited User-guided arbitration of speech processing results
US10497370B2 (en) 2017-08-18 2019-12-03 2236008 Ontario Inc. Recognition module affinity
US10964318B2 (en) * 2017-08-18 2021-03-30 Blackberry Limited Dialogue management
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US20190147855A1 (en) * 2017-11-13 2019-05-16 GM Global Technology Operations LLC Neural network for use in speech recognition arbitration
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11676062B2 (en) * 2018-03-06 2023-06-13 Samsung Electronics Co., Ltd. Dynamically evolving hybrid personalized artificial intelligence system
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10825451B1 (en) * 2018-06-25 2020-11-03 Amazon Technologies, Inc. Wakeword detection
US10762896B1 (en) 2018-06-25 2020-09-01 Amazon Technologies, Inc. Wakeword detection
US10380997B1 (en) * 2018-07-27 2019-08-13 Deepgram, Inc. Deep learning internal state index-based search and classification
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
CN111194463A (zh) * 2018-08-27 2020-05-22 北京嘀嘀无限科技发展有限公司 用于在移动设备上显示目的地的人工智能系统和方法
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11322136B2 (en) * 2019-01-09 2022-05-03 Samsung Electronics Co., Ltd. System and method for multi-spoken language detection
US11380315B2 (en) * 2019-03-09 2022-07-05 Cisco Technology, Inc. Characterizing accuracy of ensemble models for automatic speech recognition by determining a predetermined number of multiple ASR engines based on their historical performance
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
RU2731334C1 (ru) * 2019-03-25 2020-09-01 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для формирования текстового представления фрагмента устной речи пользователя
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11615785B2 (en) 2019-05-10 2023-03-28 Robert Bosch Gmbh Speech recognition using natural language understanding related knowledge via deep feedforward neural networks
EP3970141B1 (en) * 2019-05-14 2024-02-28 Dolby Laboratories Licensing Corporation Method and apparatus for speech source separation based on a convolutional neural network
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11204968B2 (en) * 2019-06-21 2021-12-21 Microsoft Technology Licensing, Llc Embedding layer in neural network for ranking candidates
US11397742B2 (en) 2019-06-21 2022-07-26 Microsoft Technology Licensing, Llc Rescaling layer in neural network
US11204973B2 (en) 2019-06-21 2021-12-21 Microsoft Technology Licensing, Llc Two-stage training with non-randomized and randomized data
US11163845B2 (en) 2019-06-21 2021-11-02 Microsoft Technology Licensing, Llc Position debiasing using inverse propensity weight in machine-learned model
KR20210010133A (ko) * 2019-07-19 2021-01-27 삼성전자주식회사 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들
KR20210030160A (ko) * 2019-09-09 2021-03-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
DE102019214713A1 (de) * 2019-09-26 2021-04-01 Zf Friedrichshafen Ag System zum automatisierten Betätigen einer Fahrzeugtür, Fahrzeug und Verfahren
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11437026B1 (en) * 2019-11-04 2022-09-06 Amazon Technologies, Inc. Personalized alternate utterance generation
CN110956621B (zh) * 2019-11-27 2022-09-13 北京航空航天大学合肥创新研究院 一种基于神经网络的组织癌变的检测方法及系统
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11494593B2 (en) * 2020-03-18 2022-11-08 Walmart Apollo, Llc Methods and apparatus for machine learning model hyperparameter optimization
US11688219B2 (en) * 2020-04-17 2023-06-27 Johnson Controls Tyco IP Holdings LLP Systems and methods for access control using multi-factor validation
KR20210136463A (ko) 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
EP3944155A3 (en) * 2020-06-03 2022-05-11 Google LLC Object-centric learning with slot attention
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11829720B2 (en) 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models
CN112466280B (zh) * 2020-12-01 2021-12-24 北京百度网讯科技有限公司 语音交互方法、装置、电子设备和可读存储介质
KR20230156427A (ko) * 2021-03-23 2023-11-14 구글 엘엘씨 연결 및 축소된 rnn-t
CN113112827B (zh) * 2021-04-14 2022-03-25 深圳市旗扬特种装备技术工程有限公司 一种智能交通调控方法及智能交通调控系统
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272134A (ja) * 2003-03-12 2004-09-30 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2014077865A (ja) * 2012-10-10 2014-05-01 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2017527846A (ja) * 2015-04-16 2017-09-21 三菱電機株式会社 音声認識装置およびリスコアリング装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
US6836758B2 (en) * 2001-01-09 2004-12-28 Qualcomm Incorporated System and method for hybrid voice recognition
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
JP5595112B2 (ja) * 2010-05-11 2014-09-24 本田技研工業株式会社 ロボット
US8812321B2 (en) 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
JP6155592B2 (ja) 2012-10-02 2017-07-05 株式会社デンソー 音声認識システム
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US9484023B2 (en) 2013-02-22 2016-11-01 International Business Machines Corporation Conversion of non-back-off language models for efficient speech decoding
US9153231B1 (en) * 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
CN104143330A (zh) * 2013-05-07 2014-11-12 佳能株式会社 语音识别方法和语音识别系统
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
CN104795069B (zh) * 2014-01-21 2020-06-05 腾讯科技(深圳)有限公司 语音识别方法和服务器
US9520127B2 (en) * 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9679558B2 (en) * 2014-05-15 2017-06-13 Microsoft Technology Licensing, Llc Language modeling for conversational understanding domains using semantic web resources
EP3284084A4 (en) * 2015-04-17 2018-09-05 Microsoft Technology Licensing, LLC Deep neural support vector machines
US10127220B2 (en) * 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272134A (ja) * 2003-03-12 2004-09-30 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2014077865A (ja) * 2012-10-10 2014-05-01 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2017527846A (ja) * 2015-04-16 2017-09-21 三菱電機株式会社 音声認識装置およびリスコアリング装置

Also Published As

Publication number Publication date
DE112017004397T5 (de) 2019-05-23
US10170110B2 (en) 2019-01-01
CN109923608A (zh) 2019-06-21
US20180137857A1 (en) 2018-05-17
DE112017004397B4 (de) 2022-10-20
WO2018091501A1 (en) 2018-05-24
CN109923608B (zh) 2023-08-01
JP6743300B2 (ja) 2020-08-19

Similar Documents

Publication Publication Date Title
JP6743300B2 (ja) ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法
CN109791767B (zh) 用于语音识别的系统和方法
US11615785B2 (en) Speech recognition using natural language understanding related knowledge via deep feedforward neural networks
US11282522B2 (en) Artificial intelligence apparatus and method for recognizing speech of user
US11270694B2 (en) Artificial intelligence apparatus and method for recognizing speech by correcting misrecognized word
KR102449875B1 (ko) 음성 신호 번역 방법 및 그에 따른 전자 장치
EP4006902B1 (en) Inter-channel feature extraction for audio separation
WO2019118254A1 (en) Chatbot integrating derived user intent
US20080177541A1 (en) Voice recognition device, voice recognition method, and voice recognition program
JP2011503638A (ja) カーナビゲーションシステムのための自由会話命令分類の改良
US20200058290A1 (en) Artificial intelligence apparatus for correcting synthesized speech and method thereof
KR20200059054A (ko) 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
US20210050018A1 (en) Server that supports speech recognition of device, and operation method of the server
US11508358B2 (en) Artificial intelligence apparatus and method for recognizing speech in consideration of utterance style
US11568853B2 (en) Voice recognition method using artificial intelligence and apparatus thereof
CN114830139A (zh) 使用模型提供的候选动作训练模型
US20210110821A1 (en) Electronic apparatus and method for controlling electronic apparatus
US11211059B2 (en) Artificial intelligence apparatus and method for recognizing speech with multiple languages
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
US20220375469A1 (en) Intelligent voice recognition method and apparatus
KR20200140171A (ko) 전자 장치 및 이의 제어 방법
WO2017159207A1 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
CN115410572A (zh) 语音交互方法、装置、终端、存储介质及程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190705

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200729

R150 Certificate of patent or registration of utility model

Ref document number: 6743300

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250