JP2019535034A - 音声認識のためのシステム及び方法 - Google Patents

音声認識のためのシステム及び方法 Download PDF

Info

Publication number
JP2019535034A
JP2019535034A JP2019517330A JP2019517330A JP2019535034A JP 2019535034 A JP2019535034 A JP 2019535034A JP 2019517330 A JP2019517330 A JP 2019517330A JP 2019517330 A JP2019517330 A JP 2019517330A JP 2019535034 A JP2019535034 A JP 2019535034A
Authority
JP
Japan
Prior art keywords
speech recognition
candidate speech
recognition result
word
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019517330A
Other languages
English (en)
Other versions
JP6869339B2 (ja
Inventor
ヂョウ ヂェンユー
ヂョウ ヂェンユー
フェン ヂェ
フェン ヂェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2019535034A publication Critical patent/JP2019535034A/ja
Application granted granted Critical
Publication of JP6869339B2 publication Critical patent/JP6869339B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

自動音声認識のための方法は、第1の汎用音声認識エンジンと第2のドメイン固有音声認識エンジンとをそれぞれ用いて、オーディオ入力データに対応する第1及び第2の複数の候補音声認識結果を生成することを含む。この方法はさらに、第1の複数の音声認識結果のうちの1つの結果中に含まれる複数の単語と、第2の複数の音声認識結果のうちの他の結果中に含まれる少なくとも1つの単語とを含む、第3の複数の候補音声認識結果を生成すること、最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて第3の複数の候補音声認識結果をランク付けすること、及び、最も高くランク付けされた音声認識結果をユーザからの入力として用いて、自動システムを動作させることを含む。

Description

本開示は、全般的には、自動音声認識の分野に関するものであり、より具体的には、複数の音声認識エンジンを活用する音声認識システムの動作を改善するシステム及び方法に関するものである。
背景
自動音声認識は、広範囲に及ぶ適用事例においてヒューマンマシンインタフェース(HMI)を実現するための重要な技術である。詳細には、マウスやキーボードなど慣用の入力デバイスを使用するのが不便であるか又は非実用的なところで、ヒューマンユーザがタスクの実施に集中しなければならない状況において、音声認識は有用である。例えば、車載「インフォテイメント」システム、ホームオートメーションシステム、並びに、スマートフォン、タブレット及びウェアラブルコンピュータなどの小型電子モバイルデバイスの数多くの用途は、音声命令及び他の入力をユーザから受け取るために、音声認識を採用することができる。
多くの従来技術による音声認識システムは、訓練済みの音声認識エンジンを使用して、記録されたユーザ発話入力が、コンピュータ化システムにおける処理に適したディジタルデータに変換される。当該技術分野において知られている様々な音声エンジンは、自然言語を理解する技術を実施してユーザが発話する単語を認識し、それらの単語から意味論的意味を抽出して、コンピュータ化システムの動作を制御する。
一部の状況において単一の音声認識エンジンは、ユーザが種々のタスクを実施している最中にユーザからの音声を認識するためには、必ずしも最適化されていない。従来技術の解決手段によれば、音声認識の精度を改善するために複数の音声認識システムを組み合わせることが試みられており、これには音響モデルである種々の音声認識モデルからの下位レベル出力を選択すること、又は、所定のランキングプロセスに基づき、種々の音声認識エンジンからの複数の出力から成るセット全体を選択することが含まれる。しかしながら、種々の音声認識エンジンから出力を選び出す従来の技術は、ユーザが自然言語からのいくつかの音声をしばしば用いるが、自然言語の音声命令を固有の目的のために使用される単語及び文章と組み合わせるような固有のタスクでの使用には、適していないことが多い。例えば車載インフォテイメントシステムの場合、車両運転者からの音声入力には、英語又は中国語といった自然言語が、音声認識エンジンによってもうまく認識されない固有の単語及びフレーズと組み合わせられて含まれている可能性があり、各々が高い確率でエラーを含む種々の音声認識エンジンの出力を単に選択するだけでは、音声認識の総合的な精度は高められない。しかも、複数の音響モデル出力などのような複数の下位レベル出力又は複数の音声認識エンジンから得られた他の下位レベルの特徴だけを組み合わせる既存の音声認識システムは、上位レベルの言語的特徴を用いて種々の音声認識エンジンの出力を評価することができない。従って、複数の音声認識エンジンを用いた音声認識の精度を高めるために、自動システムの動作を改善することが有用となるであろう。
概要
1つの実施形態によれば、ハイブリッド音声認識結果を用いて音声認識を実施するための方法が開発された。この方法は、オーディオ入力デバイスにより、ユーザからの音声入力に対応するオーディオ入力データを生成すること、コントローラにより、第1の汎用音声認識エンジンを用いて、オーディオ入力データに対応する第1の複数の候補音声認識結果を生成すること、コントローラにより、第1のドメイン固有音声認識エンジンを用いて、オーディオ入力データに対応する第2の複数の候補音声認識結果を生成すること、コントローラにより、第3の複数の候補音声認識結果を生成すること、ただし、この第3の複数の候補音声認識結果における各候補音声認識結果は、第1の複数の候補音声認識結果のうちの1つの結果中に含まれる複数の単語と、第2の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも1つの単語とを含み、コントローラにより、最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて少なくとも第3の複数の音声認識結果をランク付けすること、及び、コントローラにより、最も高くランク付けされた候補音声認識結果をユーザからの入力として用いて、自動システムを動作させることを含む。
他の実施形態によれば、ハイブリッド音声認識結果を用いて音声認識を実施する自動システムが開発された。このシステムは、ユーザからの音声入力に対応するオーディオ入力データを生成するように構成されたオーディオ入力デバイスと、このオーディオ入力デバイス及びメモリに動作可能に接続されたコントローラとを含む。このコントローラは以下のように構成されている。即ち、オーディオ入力デバイスからオーディオ入力データを受け取り、第1の汎用音声認識エンジンを用いてオーディオ入力データに対応する第1の複数の候補音声認識結果を生成し、第1のドメイン固有音声認識エンジンを用いて、オーディオ入力データに対応する第2の複数の候補音声認識結果を生成し、第3の複数の候補音声認識結果を生成し、ただし、この第3の複数の候補音声認識結果における各候補音声認識結果は、第1の複数の候補音声認識結果のうちの1つの結果中に含まれる複数の単語と、第2の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも1つの単語とを含み、最も高くランク付けされた候補音声認識結果を識別するためにペアワイズランカーを用いて、少なくとも第3の複数の候補音声認識結果をランク付けし、かつ、最も高くランク付けされた候補音声認識結果をユーザからの入力として用いて、自動システムを動作させるように構成されている。
車両の乗員室内の車載情報システムにおいて具現化された、ユーザから音声入力命令を受け取るコンピュータ化システムの構成要素の概略図である。 複数の音声認識エンジン及びペアワイズランカーを用いて音声認識を実施するためのプロセスのブロック図である。 音声認識結果中のトリガ単語系列に基づき特徴ベクトルを生成するためのプロセスのブロック図である。 単一の音声入力に対する2つの異なる音声認識結果と、これらの音声認識結果双方から得られた単語を組み合わせたハイブリッド音声認識結果とを示す図である。
詳細な説明
次に、本明細書で開示する実施形態の原理を理解しやすくする目的で、図面及び以下に記載された明細書中の説明について言及する。この言及は、保護対象の範囲に対する限定を意図するものではない。本開示には、例示した実施形態に対するあらゆる代案や変更も含まれ、また、本開示が属する技術分野の当業者であれば通常想定するであろう開示された実施形態の原理のさらなる応用も含まれる。
本明細書においては、用語「音声認識エンジン」は、マイクロフォン又は他のオーディオ入力デバイスを介して受け取られた発話単語の記録されたオーディオ入力データに基づき、コンピュータ化システムが操作者からの発話単語を識別することができるようにするデータモデル及び実行可能なプログラムコードのことを指す。音声認識システムは、音響記録における人声の個々の音響を認識する下位レベルの音響モデルと、所定の言語に対する音響モデルから得られた音響系列に基づき単語及び文章を認識する上位レベルの言語モデルとを含むことが多い。当該技術分野において知られている音声認識エンジンは一般に、1つ又は複数の統計モデルを実現しており、これは、例えば、隠れマルコフモデル(HMM)、サポートベクターマシン(SVM)、訓練済みニューラルネットワーク、又は、その他の統計モデルなどであって、そのようなモデルによれば、人声に対応する入力データの特徴ベクトルに適用される複数の訓練済みパラメータを用いて、記録された人声に対する統計的予測が生成される。音声認識エンジンは、例えば、当該技術分野において知られている様々な信号処理技術を用いて特徴ベクトルを生成し、そのような信号処理技術によれば、記録された音声信号の特性(「特徴」)が抽出され、それらの特徴が一次元ベクトル又は多次元ベクトルとしてまとめられ、個々の単語及び文章を含む音声の様々な部分を識別するために、統計モデルを用いてそれらのベクトルを処理することができる。音声認識エンジンは、発話された個々の音素及びより複雑な音響パターンに対応する音声入力に対する結果を作成することができ、この場合、音響パターンには、発話された単語及び関連単語系列を含む文章が含まれている。
本明細書においては、用語「音声認識結果」は、所与の入力に対して音声認識エンジンが生成する機械可読出力のことを指す。この結果を、例えば、機械可読フォーマットでコーディングされたテキスト、又は、自動システムの動作を制御するための入力として用いられるその他のコーディングデータセットとすることができる。音声認識エンジンの統計的特性ゆえに、一部の構成によれば音声エンジンは、単一の入力に対し可能性のある複数の音声認識結果を生成する。また、音声エンジンは、音声認識結果各々に対する「信頼度スコア」も生成し、この場合、信頼度スコアは、音声認識エンジンの訓練済み統計モデルに基づき音声認識結果各々が正確であるという尤度の統計的推定である。あとでさらに詳細に述べるように、ハイブリッド音声認識システムは、複数の音声認識エンジンにより作成された音声認識結果を使用し、付加的なハイブリッド音声認識結果を生成し、先行して生成された複数の音声認識結果に基づき、最終的に少なくとも1つの出力音声認識結果を作成する。本明細書においては、用語「候補音声認識結果」又はより簡単に「候補結果」は、ハイブリッド音声認識システムから得られた最終的な音声認識結果となるべき候補である音声認識結果のことを指し、この場合、ハイブリッド音声認識システムは、複数の候補結果を作成し、最終的な音声認識結果として、それらの結果のうち1つのサブセット(又は一般的には1つの結果)だけを選択する。様々な実施形態によれば、候補音声認識結果には、汎用音声認識エンジン及びドメイン固有音声認識エンジンから得られた音声認識結果と、複数の候補音声認識結果から得られた単語を用いてシステム100が生成するハイブリッド音声認識結果の双方が含まれる。
本明細書においては、用語「汎用音声認識エンジン」は、英語又は中国語など人間の自然言語からの一般的な範囲の音声を認識するように訓練された、音声認識エンジンの1つのタイプのことを指す。汎用音声認識エンジンは、自然言語において広く用いられる音声パターンに対応する訓練済み単語と訓練済み文法モデルとから成る一般的な語彙に基づき、音声認識結果を生成する。本明細書においては、用語「ドメイン固有音声認識エンジン」は、特定の使用エリアにおいて、又は、より一般的な自然言語とはいくらか異なる語彙及び場合によってはそれらとは異なることが予期される文法構造を含むことが多い「ドメイン」において、音声入力を認識するように訓練された音声認識エンジンの1つのタイプのことを指す。固有のドメインに対する語彙は典型的には、より一般的な自然言語からの一部の語句を含むけれども、より狭められた全体語彙を含むようにすることができ、一部の事例においては、自然言語における公用語としては正式には認められないが特定のドメインではよく知られている特化された語句を含んでいる。例えば、ナビゲーションアプリケーションの場合には、ドメイン固有音声認識は、道路、町、又は、より一般的な言語では固有名詞としては一般的には認められないその他の地理的呼称に対する語句を認識することができる。他の構成によれば、ある特定のドメインは、ある特定のドメインに対しては通用するが、より一般的な言語ではよく認知されていない可能性がある専門用語の特定のセットを使用する。例えば航空機操縦士は、通信用の言語として正式には英語を使用するが、多数のドメイン固有の専門用語及び標準英語には含まれないその他の略語も使用する。
本明細書においては、用語「トリガペア」は、以下のような2つの単語のことを指す。即ち、この2つの単語各々を、1つの単語(例えば「再生」)であるか又は所定の1つの分類(例えば<曲名>)とすることができ、この分類は、曲、人、地名等の固有名詞などのように所定の分類に入る1つの単語系列(例えば「ポーカー・フェース」)を表す。トリガペアにおける単語は、1つの音声認識結果の文章テキスト内容における複数の単語の中で固有の順序で現れる場合、A→Bのトリガペアに関してオーディオ入力データにおいて先行する単語Aが観測される状況においては、後続の単語Bの出現との間において高い相関レベルを有する。トリガペアは3つ以上の単語を伴う系列を含むことができるとはいえ、多くの事例においては、トリガペアは1つのトリガペア内に2つの単語を含んでいる。あとで詳細に述べるように、訓練プロセスを介してトリガペアセットが識別された後、候補音声認識結果のテキストにトリガ単語ペアが出現すると、各候補結果に対し1つの特徴ベクトルの一部分が形成され、ランキングプロセスがこれを使用して、種々の候補音声認識結果をランク付けする。
図1には、ヘッドアップディスプレイ(HUD)120、1つ又は複数のコンソールLCDパネル124、1つ又は複数の入力マイクロフォン128、及び、1つ又は複数の出力スピーカ132を含む車載情報システム100が示されている。LCDディスプレイ124及びHUD120は、少なくとも部分的に、車両の運転者又は他の乗員からシステム100が受け取った音声入力命令に基づき、システム100からの視覚的出力応答を生成する。コントローラ148は、車載情報システム100内の構成要素各々に動作可能に接続されている。一部の実施形態によれば、コントローラ148は、ナビゲーション、並びに、外部のデータネットワーク及びコンピューティングデバイスとの通信を提供する目的で、グローバルポジショニングシステム(GPS)受信機152及びワイヤレスネットワークデバイス154といった付加的な構成要素に接続されており、又は、それらの構成要素を組み込んでいる。
一部の動作モードによれば車載情報システム100は、他の動作モードにおいて車載情報システム100がスマートフォン170、タブレット、ノートブックコンピュータ又は他の電子デバイスといったモバイル電子デバイスと対話している間に、独立して動作する。車載情報システムは、USBなどのような有線インタフェース又はブルートゥースなどのような無線インタフェースを用いて、スマートフォン170と通信する。車載情報システム100は、車両運転中の注意散漫を抑制する発話命令を用いて、運転者がスマートフォン170又は他のモバイル電子通信デバイスを制御し得るようにする音声認識ユーザインタフェースを提供する。例えば、車載情報システム100は、車両運転者がスマートフォン170を掴んだり注視したりする必要なく、運転者がスマートフォン170を用いて電話をかけたりテキストメッセージを送信したりすることができるようにする音声インタフェースを提供する。一部の実施形態によれば、スマートフォン170は、GPS及びワイヤレスネットワークデバイスなど、車両内に収容されたデバイスの機能を補完又は置換する様々なデバイスを含んでいる。
マイクロフォン128は、車両運転者又は他の車両乗員から受け取った発話入力からオーディオデータを生成する。コントローラ148は、オーディオデータを処理するDSPなどのようなハードウェアと、マイクロフォン128からの入力信号をオーディオ入力データに変換するソフトウェア構成要素とを含んでいる。あとで述べるように、コントローラ148は、少なくとも1つの汎用音声認識エンジンと少なくとも1つのドメイン固有音声認識エンジンとを使用して、オーディオ入力データに基づき候補音声認識結果を生成し、コントローラ148はさらにペアワイズランカーを使用して、最終音声認識結果出力の精度を改善する。これに加えて、コントローラ148は、合成された音声又は他のオーディオ出力を、スピーカ132を介して生成することができるようにするハードウェア及びソフトウェアの構成要素を含んでいる。
車載情報システム100は、LCDパネル124、フロントガラス102に投影されるHUD120を用いて、さらに、計器、インジケータライト、又は、ダッシュボード108内に配置された付加的なLCDパネルを介して、車両運転者に視覚的フィードバックを提供する。車両が動いているとき、車両運転者が注意散漫になるのを抑制するために、コントローラ148は、任意選択的に、LCDパネル124をディアクティベートし、又は、LCDパネル124を介して単純化された出力だけを表示する。コントローラ148は、視覚的フィードバックを受け取りながら運転者が車両周囲の環境を見ることができるようにするために、HUD120を用いて視覚的フィードバックを表示する。コントローラ148は一般的には、車両運転者の周辺視野に対応する領域において、HUD120に単純化されたデータを表示し、これによって車両運転者は、道路及び車両周囲の環境の遮られないビューを得ることができるようになる。
上述のようにHUD120は、視覚的情報をフロントガラス102の一部分の上に表示する。本明細書においては、用語「HUD」は、広範囲に及ぶヘッドアップディスプレイデバイスのことを総称的に指し、それらのヘッドアップディスプレイデバイスには、以下に限定されるものではないが、別個のコンバイナ部材等を有する複合型ヘッドアップディスプレイ(CHUD)が含まれる。一部の実施形態によれば、HUD120は、単色のテキスト及びグラフィックスを表示するのに対し、他のHUDの実施形態には多色ディスプレイが含まれる。HUD120は、フロントガラス102上で表示するように描かれているのに対し、選択的な実施形態によれば、ヘッドアップユニットは、運転者が運転中に装着するメガネ、ヘルメットの庇又はレチクルと一体化されている。
コントローラ148は、中央処理ユニット(CPU)、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、ディジタル信号プロセッサ(DSP)、又は、他の任意の適切なディジタルロジックデバイスとして構成された1つ又は複数の集積回路を含んでいる。コントローラ148は、半導体ストレージデバイス又は磁気データストレージデバイスなど、車載情報システム100を動作させるためにプログラミングされた命令を記憶するメモリも含んでいる。
動作中、車載情報システム100は、マイクロフォン128を介して受信される音声入力命令を含め、複数の入力デバイスからの入力要求を受け取る。詳細にはコントローラ148は、マイクロフォン128を介したユーザからの音声に対応するオーディオ入力データを受け取る。
コントローラ148は、中央処理ユニット(CPU)、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、ディジタル信号プロセッサ(DSP)、又は、他の任意の適切なディジタルロジックデバイスとして構成された1つ又は複数の集積回路を含んでいる。コントローラ148は、半導体ストレージデバイス又は磁気データストレージデバイスなど、車載情報システム100を動作させるためにプログラミングされた命令を記憶するメモリ160とも動作可能に接続されている。メモリ160は、モデルデータ及び実行可能なプログラム命令コードを記憶しており、これによって、少なくとも1つの汎用音声認識エンジン及び少なくとも1つのドメイン固有音声認識エンジン162、ハイブリッド音声認識結果生成エンジン163、音声認識エンジン162から得られた候補音声認識結果とハイブリッド音声認識結果生成エンジン163から得られた候補ハイブリッド音声認識結果とをランク付けするペアワイズランカー164、及び、ペアワイズランカー164がランキングプロセスの一部として使用する複数の所定のトリガペア166が実装される。音声認識エンジン162は、所定の訓練プロセスを用いて訓練され、その他の点においては、音声認識エンジン162は当該技術分野において知られたものである。図1の実施形態には、自動車内のシステム100のメモリ160の中に記憶された要素が含まれているのに対し、一部の実施形態によれば、ネットワーク接続されたサーバなど外部のコンピューティングデバイスによって、システム100内に示された特徴の一部又はすべてが実装される。よって、当業者であれば、コントローラ148及びメモリ160を含むシステム100の動作についてのいかなる言及にも当然ながら、システム100の選択的な実施形態においてサーバコンピューティングデバイス及び他の分散型コンピューティング構成要素の動作がさらに含まれる、ということを明確に理解するであろう。
図1の実施形態によれば、ハイブリッド音声認識結果生成エンジン163は付加的な音声認識エンジンを生成し、これには音声認識エンジン162がシステム100の動作中に作成した少なくとも2つの異なる音声認識結果セットから得られた複数の単語が含まれる。あとで詳細に述べるように、ハイブリッド音声認識結果生成エンジン163は、汎用音声認識エンジンの音声認識結果から得られた単語を、ドメイン固有音声認識結果から選択された単語と組み合わせて、個々の音声認識エンジン162のいずれによっても作成されなかった新たな音声認識結果を作成する。本明細書においては、用語「ハイブリッド」音声認識結果は、汎用音声認識エンジン及びドメイン固有音声認識エンジン162により作成された音声認識結果のうち、少なくとも2つの結果から得られた単語を含む音声認識結果のことを指す。ハイブリッド音声認識結果生成エンジン163は、慣用の音声認識エンジンではない。そうではなく、ハイブリッド音声認識結果生成エンジン163は言語モデルを使用して、ドメイン固有音声認識のドメイン内で言語的に重要なドメイン固有音声認識結果から得られた単語を識別し、ドメイン固有音声認識結果から得られたそれらの単語を使用して、汎用音声認識エンジンから得られた音声認識結果中の単語を置き換える。ハイブリッド音声認識結果生成エンジン163は、ハイブリッド結果を形成する元の音声認識結果各々についての音声認識エンジン162から得られた信頼度スコアの平均として、ハイブリッド音声認識結果各々についての信頼度スコアも生成する。
ペアワイズランカー164は、ランダムフォレストペアワイズランカーであり、これは音声認識エンジン162を訓練するために用いられるのと同じ訓練データセットを用いて訓練される。ただし、ペアワイズランカー164は、慣用の音声認識エンジンではない。そうではなく、ペアワイズランカーは、音声認識エンジン162の候補音声認識結果とハイブリッド音声認識結果生成エンジン163から得られた候補ハイブリッド音声認識結果とを、ペアワイズランキングプロセスを用いてランク付けするために訓練される。このペアワイズランキングプロセスによれば、音声認識結果のペアの組み合わせごとに、入力音声認識結果のペアのうち最低推定単語誤り率を有する一方の音声認識結果が、「勝者」として選択される。訓練プロセス中、ペアワイズランカー164は、候補音声認識結果各々に対応する特徴ベクトル入力に基づき、音声認識結果をランク付けして単語誤り率を推定するように訓練され、この場合、所与のペアについて最低推定単語誤り率を有する音声認識入力が「勝者」となる。ペアワイズランカーは、ベースラインとして所定の適正値を有する訓練入力を用いた種々の音声認識結果を使用して訓練され、これによって複数の音声認識エンジン162から得られた音声認識結果の精度に関する推定がなされる。一部の実施形態によれば、ペアワイズランカー164は、所定のトリガペア166を識別する特徴ベクトルや、音声認識エンジン162各々が音声認識結果と共に作成する信頼度スコアなど、音声認識結果から得られた付加的なデータを用いても訓練される。これに加えあとで述べるように、コントローラ148はハイブリッド音声認識結果を生成し、これによれば汎用音声認識エンジンの結果において選択された単語が、ドメイン固有音声認識エンジンの結果から得られた単語と置き換えられて、ペアワイズランカー164が入力として使用する複数のハイブリッド音声認識結果が作成される。
例えば、2つの候補音声認識結果h1及びh2に対して生成された特徴ベクトルが入力として与えられるとすれば、コントローラ148はペアワイズランカー164を実行し、h1に対する特徴ベクトル入力がh2よりも低い推定単語誤り率を有する場合には、h1が勝利を得たことを意味する第1の「正の」出力を生成し、このことはh1がh2よりも「良い」ことを表す。さもなければ、ペアワイズランカー164は第2の「負の」出力を生成し、これによってh2の推定単語誤り率がh1よりも低いことが表される。候補音声認識結果のすべてのペアが処理された後、システム100は、ペアワイズランカー164から得られた最多勝利数を有する候補音声認識結果を、最も高くランク付けされた候補音声認識結果として識別する。例えば、仮説リスト「h1,h2,h3」の場合、h2が仮説ペア(h1,h2)において勝ち、h1が(h1,h3)において勝ち、さらにh2が(h2,h3)において勝ったなら、それぞれh1は1回、h2は2回、h3は0回、勝利を得たことになる。h2は最多回数で勝利を得たので、システム100はh2を最も高くランク付けされた候補音声認識結果として識別する。ペアワイズランカー164の選択的な実施形態によれば、候補音声認識結果をランク付けするために、ランダムフォレストアプローチではなく他の分類技術が用いられる。一部の実施形態によれば、ペアワイズランカー164は、トリガペアに関連する特徴に加えて、信頼度スコアに関連する特徴や「減衰性バッグ・オブ・ワーズ」(“bag-of-words with decay”)に関連する特徴など、他の分類特徴を用いても訓練される。信頼度スコアに関連する特徴は、特定のアプローチを用いた候補仮説の文章レベルの信頼度スコアに基づき計算される。ペアワイズランカー164のステップ1において生成された候補文章仮説リスト中、音声認識エンジンから得られた元の認識結果である仮説は、音声認識エンジン162各々が音声認識結果と共に作成する文章レベルの信頼度スコアと、ハイブリッド音声認識結果に対する信頼度スコアとを有する。「減衰性バッグ・オブ・ワーズ」に関連する特徴は、候補仮説のテキスト内容(即ち、単語系列)に基づき計算される。
システム100においてトリガペア166各々は、予期される音声入力の構造を表す訓練コーパスからの音声入力系列において強い相関を有するものとして先行して識別されていた2つ以上の単語から成る所定のセットを含んでいる。第1のトリガ単語は、音声入力のトリガペアにおける第2のトリガ単語が次に続くという強い統計的尤度を有しており、ただし、これらの単語は、種々の音声入力において不定数の中間単語によって分離されている場合もある。従って、音声認識結果がトリガ単語を含んでいるならば、音声認識結果中のそれらのトリガ単語が正確であるという尤度は、第1のトリガ単語と第2のトリガ単語との間の統計的相関ゆえに比較的高い。システム100においてトリガ単語166が、当該技術分野において知られている統計的手法を用いた相互情報スコアに基づき生成される。メモリ160は、特徴ベクトルにおけるN個のトリガペア要素から成る所定のセットを記憶しており、それらのトリガペア要素は、高い相互情報スコアを有するトリガ単語セットに基づき、トリガ単語系列中の第1の単語と1つ又は複数の後続の単語との間において高い相関レベルを有するトリガペアに対応する。あとで述べるように、トリガ単語系列166は、ペアワイズランカー164に音声認識結果の付加的な特徴を供給し、これによってペアワイズランカー164は、音声認識結果中に存在する単語を凌ぐ音声認識結果の付加的な特徴を用いて、音声認識結果をランク付けすることができるようになる。
あとでさらに詳細に述べるように、システム100は、マイクロフォン128を用いてオーディオ入力データを受け取り、複数の音声エンジン162を用いて複数の音声認識結果を生成する。コントローラ148は、ハイブリッド音声認識結果を生成する目的で、ドメイン固有音声認識エンジン結果から選択された語句も、汎用音声エンジンから得られた音声エンジン結果と組み合わせる。コントローラ148は、ペアワイズランカー164を使用してハイブリッド音声認識結果をランク付けし、最も高くランク付けされた結果を使用して、車載情報システム100の動作を制御し、又は、選択的な実施形態として他の任意の自動システムの動作を制御する。ランキングプロセスの一部として、ペアワイズランカー164は、音声認識結果において所定のトリガペア166の出現を識別し、識別されたトリガペアに基づき特徴ベクトルを生成して、付加的な上位レベルの言語情報をペアワイズランカー164に供給する。
図1には、ユーザからの命令を受け取って実施するために音声認識を実施する自動システムを説明するための例として、車載情報システム100が示されているけれども、同様の音声認識プロセスをこれとは異なる状況において実現することができる。例えば、スマートフォン170などのようなモバイル電子デバイス又は他の適切なデバイスは、一般に1つ又は複数のマイクロフォン及びプロセッサを含み、このプロセッサによって、音声認識エンジン、ペアワイズランカー、記憶されたトリガペア、並びに、音声認識及び制御システムを実現する他の構成要素を実装することができる。他の実施形態によれば、ホームオートメーションシステムが、少なくとも1つのコンピューティングデバイスを用いて家屋内のHVAC及び器具を制御し、その際に少なくとも1つのコンピューティングデバイスは、ユーザからの音声入力を受け取り、複数の音声認識エンジンを用いて音声認識を実施し、家屋内の様々な自動システムの動作を制御する。いずれの実施形態においてもシステムは任意選択的に、固有の用途及び種々の自動システムの動作に合わせて作られた種々のドメイン固有音声認識エンジンセットを使用するように構成されている。
図2には、複数の音声認識エンジン及びペアワイズランカーを用いて音声認識を実施するためのプロセス200が示されている。あとで述べるように、ある機能又はアクションを実施するプロセス200についての言及は、音声認識インタフェースを介して命令入力を受け取る自動システムの1つ又は複数の構成要素を用いてその機能又はアクションを実現するために、記憶されたプログラム命令を実行するコントローラの動作のことを指す。プロセス200については、例示目的で図1のシステム100と関連させて説明する。
プロセス200は、システム100がユーザからオーディオ入力データを受け取るとスタートする(ブロック204)。マイクロフォン128などのようなオーディオ入力デバイスが、ユーザからの音声入力に対応するオーディオ入力データを生成する。コントローラ148は、オーディオ入力データをディジタル形式で受け取り、任意選択的にフィルタリング又は他のディジタル信号処理演算を実施して、オーディオ入力データからノイズを除去する。
これに続いてプロセス200によれば、システム100は、オーディオ入力データに基づき第1の汎用音声認識エンジンを用いて、オーディオ入力データに対応する第1の複数の候補音声認識結果を生成する(ブロック208)。システム100は、少なくとも1つのドメイン固有音声認識エンジンを用いて、第2の複数の候補音声認識結果も生成する(ブロック212)。システム100の場合、コントローラ148は、第1の複数の結果を生成するために1つ又は複数の汎用音声認識エンジン162を用い、第2の複数の候補結果を生成するために1つ又は複数のドメイン固有音声認識エンジン162を用いる。一部の実施形態によれば、コントローラ148は、各音声認識エンジンが最高信頼度スコア値を有することを表す、各音声認識エンジンから得られた所定数の音声認識結果を選択して、複数の音声認識結果各々を形成する。例えば、1つの実施形態によれば、コントローラ148は音声認識エンジン162各々から、最高信頼度スコア値を有する5つの候補音声認識結果を生成する。第1及び第2の複数の候補音声認識結果の生成は任意の順序で行われ、又は、マルチプロセッサコアなど並列処理ハードウェアを含むコントローラ148の実施形態であれば、同時に行われる。
これに続いてプロセス200によれば、コントローラ148は、第1の複数の候補音声認識結果と第2の複数の候補音声認識結果とに基づき、第3の複数の候補ハイブリッド音声認識結果を生成する(ブロック216)。第3の複数の候補音声認識結果はハイブリッド音声認識結果とも呼ばれる。その理由は、それらの結果は、2つ以上の音声認識エンジンにより作成された音声認識結果から得られた複数の単語を組み合わせているからである。コントローラ148は、汎用音声認識から得られた第1の複数の候補音声認識結果のうちの1つの結果中に含まれる複数の単語と、ドメイン固有音声認識エンジンから得られた第2の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも1つの単語とを含む、第3の複数の候補音声認識結果の中で音声認識結果各々を生成する。コントローラ148は、音声エンジン双方の候補音声認識結果において共通する単語を識別し、汎用音声エンジンの結果から得られた単語を、汎用音声認識結果とは異なるドメイン固有音声エンジンの結果から得られた対応する単語と置き換える。
第3の複数の音声認識結果において各候補ハイブリッド音声認識結果を生成するため、コントローラ148はまずは、単語系列間の差を最小化する「最小編集距離」を用いて単語をアライメントするダイナミックプログラミングプロセスを用いるなど、当該技術分野において知られている技術を用いて、音声認識結果各々における共通の単語をアライメントする。次にコントローラ148は、第1の音声認識結果中の種々の単語とアライメントされたドメイン固有音声認識エンジンの候補音声認識結果から単語を選択し、それらの単語を汎用音声認識エンジンの候補音声認識結果に代入し、それによって第3の複数の候補音声認識結果においてハイブリッド候補音声認識結果を作成する。ドメイン固有音声認識エンジンから得られた候補音声認識結果が、汎用音声認識エンジンの対応する候補音声認識結果中には出現していないドメイン固有の単語t,t,...tを含むならば、コントローラ148は、ドメイン固有音声認識エンジンから得られた個々の単語の順列及び個々の単語の組み合わせを、汎用音声認識エンジンから得られた候補音声認識結果に代入し、それによってドメイン固有音声認識エンジンから得られた種々の単語の順列を含む複数の候補ハイブリッド音声認識結果を作成する。
図4には、2つの候補音声認識結果404及び408並びにハイブリッド候補音声認識結果450の例が示されている。図4の例の場合、音声入力は、ユーザから車載ナビゲーションシステムへのナビゲーションリクエストに基づくものである。汎用音声認識エンジンは、一般的な英語の言語モデルに基づいて音声認識結果404を生成する。ドメイン固有音声認識エンジンは、ナビゲーションだけに着目し、公用英語の語彙には入らない語句を含む道路名及び地名に関する付加的な語句を含んでいる。システム100においてコントローラ148は、ハイブリッド音声認識結果生成エンジン163におけるプログラムコードを実行し、汎用音声認識エンジン及びドメイン固有音声認識エンジン162により生成された少なくとも2つの音声認識結果から得られた単語を用いて、ハイブリッド音声認識結果を生成する。各音声認識結果は、1つの文章を成す1つの単語系列を含んでいる。コントローラ148は、具体例として挙げた単語“boulevard”のように双方の文章に共通する単語に基づき、2つの音声認識結果404及び408をアライメントする。この場合、“boulevard”は、第1の音声認識結果では共通の単語406として、第2の音声認識結果では共通の単語410として示されている。第1の音声認識結果404における単語“mope”420は、音声認識結果408における単語“Mopac”424とアライメントされる。次いでコントローラ148は、アライメントされた音声認識結果404には存在しないドメイン固有音声認識エンジンから得られた第2の音声認識結果408における単語を識別する。図4の例によれば、第2の音声認識結果408における語句“Mopac”424は、テキサス州オースティンの主要な大通りを表すために用いられる俗称であり、これをドメイン固有音声認識エンジンがオーディオ入力データにおいて認識する。ただし、汎用音声認識エンジンは、単語“Mopac”を“mope”と誤って識別している。その理由は、汎用音声認識エンジンは、一般的な範囲の英単語を認識するように訓練されているからである。しかも第2の音声認識結果408は、より狭められた語句セットを含んでいる。その理由は、ドメイン固有音声認識エンジンは、オーディオ入力データからの単語の一部を直接的には認識しないからである。
コントローラ148は、第1の候補音声認識結果404から得られた単語をベースとして使用し、第2の候補音声認識結果408から得られた異なる語句を組み入れる目的で、単語“mope”を置き換えるために代入された語句“Mopac”を用いて、ハイブリッド候補音声認識出力450を生成する。コントローラ148は任意選択的に、汎用音声認識エンジンの音声認識結果から得られた複数の語句を、ドメイン固有音声認識エンジンから得られた異なる単語と置き換えて、ハイブリッド音声認識結果を形成する。プロセス200中、コントローラ148は、汎用音声認識結果とドメイン固有音声認識結果とから成る複数のセットに対し上述のプロセスを実施して、第3の複数のハイブリッド音声認識結果を生成する。これには、1つ又は複数の汎用音声認識エンジン及びドメイン固有音声認識エンジン双方から得られた単語が含まれている。
一部の実施形態によれば、コントローラ148は、ドメイン固有音声認識エンジンの候補音声認識結果において固有の意味論的重要性をもつ単語だけを、汎用音声認識エンジンの音声認識結果に代入する。例えば、図4の場合、ドメイン固有音声認識エンジン162は、通りの名前及び他の地理的な語句を汎用音声認識エンジンよりも高い精度で認識するように、特に訓練されている。このためコントローラ148は、図4において単語“mope”を“Mopac”と取り替える。その理由は、語句“Mopac”は、ドメイン固有音声認識エンジンにおいて道路の名前として意味論的重要性をもつからである。しかしながら、ドメイン固有音声認識エンジンが、通例用いられる英語の動詞や代名詞などのような他の単語に対し異なる結果を生成したならば、コントローラ148は汎用音声認識エンジンから得られた結果に依拠し続け、これによってより一般的な自然言語パターンに対しより正確な結果がまず間違いなく形成される。コントローラ148は、音声認識エンジン162各々における言語モデルから得られた情報に基づき、特定の単語の意味論的分類を識別する。
プロセス200中、コントローラ148は、候補ハイブリッド音声認識結果各々について信頼度スコアを作成するために、ハイブリッド音声認識結果生成エンジン163も使用する。システム100においてコントローラ148は、ハイブリッド音声認識結果に対する信頼度の値として、汎用音声認識エンジン及びドメイン固有音声認識エンジン162の音声認識結果から信頼度スコアの平均値を生成する。あとでさらに詳細に述べるように、コントローラ148は、2つ以上の異なる音声認識エンジンの信頼度スコアを正規化するために線形回帰プロセスを使用し、1つの実施形態によれば、コントローラ148は、ハイブリッド音声認識結果に対する信頼度スコアを生成するために、ハイブリッド音声認識結果のベースを形成する元の音声認識結果から得られた信頼度スコアを正規化する。プロセス200中、ペアワイズランカー164は、候補音声認識結果のペアをランク付けするために、入力特徴ベクトルにおける1つの特徴として、ハイブリッド音声認識結果に対する正規化された信頼度スコアを受け取る。
再び図2を参照すると、これに続いてプロセス200によれば、コントローラ148は、ペアワイズランカー164を使用して、第3の複数の候補ハイブリッド音声認識結果に対するランキングスコアを生成する。これは音声認識結果から得られた推定単語誤り率に基づいて行われ、さらに任意選択的に、音声認識結果において識別された単語トリガペア及びバッグ・オブ・ワーズ特徴、並びに、音声認識結果に対する信頼度スコアに基づき行われる(ブロック220)。上述のように、コントローラ148は、ペアワイズプロセスを用いて音声認識結果をランク付けするためにペアワイズランカー164を使用し、このペアワイズプロセスによれば、ペアワイズランカー164は2つの音声認識結果を受け取り、そのペアにおける最低推定単語誤り率を有する音声認識結果として、「勝利を得た」結果を識別する。これに加え一部の実施形態によれば、システム100は、第3の複数の候補ハイブリッド音声認識結果に加えて、汎用音声認識エンジンから得られた第1の複数の候補音声認識結果、又は、ドメイン固有音声認識エンジンから得られた第2の複数の候補音声認識結果、又は、これら第1及び第2の複数の結果の双方、のうちの一部又はすべてをランク付けする。
システム100の場合、ペアワイズランカー164はランダムフォレストランキングシステムであり、これは2つの音声認識結果を入力として受け取り、音声認識結果各々に対する推定単語誤り率に基づき音声認識結果のペアをランク付けする。この場合、より低い推定単語誤り率によって、より高いランクが生じる。プロセス200中、コントローラ148は、音声認識結果のペアの組み合わせ各々をペアワイズランカー164に供給して、音声認識結果の種々のペアの相対的なランクを決定する。コントローラ148は、最低推定単語誤り率を有するという点で、ペアワイズランカーによる各比較で「勝利を得た」、第1の候補音声認識結果又は第2の候補音声認識結果のいずれかに関連づけられたランキングスコアをインクリメントする。次いでコントローラ148は、ペアワイズランカー164が音声認識結果の各ペア間における最低単語誤り率を識別した後、最高ランキングスコアを有する候補音声認識結果として最高ランク結果を識別する。
動作中、ペアワイズランカー164は、所定の特徴ベクトルのフォーマットで音声認識結果を受け取り、ペアワイズランカーにおける訓練済みランダムフォレストモデルは、各音声認識結果中の単語、単語構造、及び、各音声認識結果を作成した音声認識エンジンのアイデンティティに基づき、各音声認識結果において単語誤り率の推定値を生成する。詳細には、2つ以上の汎用音声認識エンジン又は特別な目的の音声認識エンジンを使用するシステム100の構成の場合、訓練済みランダムフォレストペアワイズランカーは、各音声認識結果を生成した音声認識エンジンのアイデンティティに基づき、単語誤り率についてそれぞれ異なる推定値を生成する可能性がある。その理由は、例えば、一部の音声認識エンジンは、単語又はフレーズの固有のセットの識別にあたり、より正確だからである。ペアワイズランカー164は、プロセス200よりも前に行われる訓練プロセス中、所定の訓練データのセットに基づき、音声認識エンジン162の各々から得られた観測された単語誤り率をベースにして、単語誤り率を推定するように訓練される。あとでさらに詳細に述べるように、各結果の現在の内容に基づく音声認識結果のランキングに加え、ペアワイズランカー164は任意選択的に、単語トリガペア、候補音声認識結果の信頼度スコア値、及び、候補音声認識結果の特徴ベクトルに関連づけられた、減衰性バッグ・オブ・ワーズ特徴を用いて、最低単語誤り率を推定し、候補音声認識結果の各ペアに対しランキングを作成する。
図3には、1つ又は複数の音声認識結果中に存在するトリガペアに対応する特徴ベクトルを生成するためのプロセス300が示されている。あとで述べるように、ある機能又はアクションを実施するプロセス300についての言及は、音声認識インタフェースを介して命令入力を受け取る自動システムの1つ又は複数の構成要素を用いてその機能又はアクションを実現するために、記憶されたプログラム命令を実行するコントローラの動作のことを指す。プロセス300については、例示目的で図1のシステム100及び図2のプロセス200と関連させて説明する。
プロセス300がスタートすると、コントローラ148は、候補音声認識結果のペアに対応するテキストデータにおいて、トリガペア、信頼度スコア、及び、減衰性バッグ・オブ・ワーズ特徴のうちの少なくとも1つを含む特徴を識別する(ブロック304)。例えば、図4の例示的な音声認識結果450を用いると、メモリ160に記憶された複数のトリガ単語系列166のうちの1つが、トリガペア(“Shops”,“around”)を含んでいるならば、コントローラ148は、単語“Shops”をこのトリガペアにおける第1のトリガ語句であるとして識別し、単語“around”のようなこのトリガペアにおける付加的な単語を識別するために、音声認識結果中のいずれの後続の単語についても構文解析する。一部の事例においては、コントローラ148は、単一の音声認識結果において複数のトリガ単語系列セットを識別する。
これに続いてプロセス300によれば、コントローラ148は、トリガペア各々に対する値、信頼度スコア、及び、音声認識結果において識別された減衰性バッグ・オブ・ワーズ特徴を含む特徴ベクトルを生成する(ブロック308)。コントローラ148は、メモリ160に記憶されているN個のトリガ単語系列166のうちの1つに各々対応する所定数のN個の要素を含む特徴ベクトルを生成する。よって、この特徴ベクトルにおける各インデックスは、複数の音声認識結果の間において一貫したかたちで1つのトリガフレーズに対応する。1つの典型的な事例においては、トリガ単語系列の大部分(ときにはすべて)が音声認識結果中には存在せず、コントローラ148は任意選択的に、音声認識結果内に現在存在しているトリガ単語系列に対する非自明的なエントリだけしか含まない疎ベクトルとして、特徴ベクトルを生成する。
ペアワイズランキングプロセスによれば、コントローラ148は、双方ともが同じトリガペアを含む2つの特徴ベクトルにおいてトリガペア各々が出現するのを相殺する。例えば、双方の候補音声認識結果が共にトリガペア(“Shops”,“around”)を含んでいるならば、コントローラ148は、このエントリを双方の候補音声認識結果の特徴ベクトルから除去する。その理由は、このトリガペアが双方の候補結果中に出現し、ペアワイズ比較プロセスにおいて効果的に相殺されるからである。しかしながら、一方の候補結果だけがトリガペアを含んでいるならば、この候補結果に対する特徴ベクトルは、トリガペアがこの候補音声認識結果中にだけに存在することを表す値を含む。次いでコントローラ148は、2つの候補結果の2つの特徴ベクトル間の差に基づき、候補音声認識結果のペアに対応するペアワイズランカー164に対し、1つの入力特徴ベクトルを生成する。プロセス200中、コントローラ148は、ペアワイズ比較ごとに第1の特徴ベクトルと第2の特徴ベクトルとに基づき、第3の特徴ベクトルを生成する。第3の特徴ベクトルは、ペアワイズランカー164に対する入力を成し、これは2つの元の特徴ベクトルの結果の間におけるコーディングされた差を含んでいる。第3の特徴ベクトルは負の値と正の値とを含んでおり、これによってペアワイズランカー164は、各特徴を含む特定の音声認識結果を識別することができる。例えば、トリガペア、減衰性バッグ・オブ・ワーズ値、信頼度スコア、又は、他の特徴に対応する単純化された特徴ベクトル配列を用いるならば、第1の候補音声認識結果は[0,0,1,1,0,0]を含み、第2の候補音声認識結果は[0,1,1,0,0,0]を含み、コントローラ148は、第1の特徴ベクトルから第2の特徴ベクトルを減算して[0,−1,0,1,0,0]に基づき、ペアワイズランカー164に対する最終的な音声認識結果を生成する。この例においては、負の値は、ある特徴が第2の特徴ベクトルのみに存在していることを表し、又は、ある所与の特徴について第2の特徴ベクトルがより高い数値的特徴の値を有することを表す。上述の例によれば、第1及び第2の特徴ベクトルの双方についてインデックス化された第3の値は「1」であり、双方の入力特徴ベクトルが同じ特徴を含むことから、最終的な特徴ベクトルは第3のインデックスにおいて自明の値「0」を含み、この特徴は2つの候補音声認識結果の間では区別されないことから、ペアワイズランカー164はこれを無視する。
一部の実施形態によれば、コントローラ148は、候補音声認識結果の各ペアにおける各トリガペアの出現の頻度を識別する。候補音声認識結果各々が、同じ頻度で出現する同じトリガペアを含んでいるならば、コントローラ148はこのトリガペアを双方の候補音声認識結果の特徴ベクトルから除去する。その理由は、このトリガペアの出現によっても、ランキングプロセスを実施するためにペアワイズランカー164に対する付加的な情報はもたらされないからである。しかしながら、候補音声認識結果のうちの一方が、ペアにおける他方の音声認識結果よりも、より頻繁にこのトリガペアを含んでいるのであれば、コントローラ148は、候補音声認識結果のペアについて生成された最終的な特徴ベクトルにおけるトリガフレーズに対応する値として、頻度の差を含む。
プロセス300によれば最後に、図2のブロック220の処理を参照しながら上述したように、コントローラ148は、トリガ単語ペア、信頼度スコア及び減衰性バッグ・オブ・ワーズ特徴に対応する特徴ベクトルデータを、音声認識結果をランク付けするためのプロセスの一部として使用する(ブロック312)。プロセス200中、コントローラ148は、音声認識結果各々に対し付加的な特徴ベクトルデータを生成するためにプロセス300を実施する。コントローラ148は、ペアワイズランカー164を使用して、1つのトリガペアにおける非隣接単語間の関係に関する付加的な情報をコーディングする特徴ベクトルに少なくとも部分的に基づき、各音声認識結果において単語誤り率を推定する。この特徴ベクトルにおける付加的な情報によれば、典型的には1つの文章内で隣接する単語を含まないトリガ単語系列に関してより上位レベルの言語的特徴が、ペアワイズランカー164に対してコーディングされ、これによってランキングプロセスの精度が改善される。
トリガペア要素を含む各候補音声認識結果に対し特徴ベクトルを生成することに加えて、ペアワイズランカー164は任意選択的に、候補文章仮説に基づき計算された「減衰性バッグ・オブ・ワーズ」特性を特徴ベクトルに付加する。本明細書で用いられる用語「減衰性バッグ・オブ・ワーズ」特性は、候補音声認識結果中に存在する各単語に対し、その結果内の単語のポジション及び単語の出現頻度に基づき、コントローラ148が割り当てる数値スコアのことを指す。コントローラ148は、候補音声認識結果中に存在する認識された辞書単語各々に対し、減衰性バッグ・オブ・ワーズ・スコアを生成する。システム100によれば辞書データは、例えば、音声認識エンジンモデルデータ162に関連づけられて、メモリ160内に記憶されている。所定の辞書内の所与の単語wについて、減衰性バッグ・オブ・ワーズ・スコアはbow=Σp∈P’(wi)γであり、ただし、P’(w)は、単語wが出現している場合の候補音声認識結果中のポジションのセットであり、項γは、範囲(0,1.0)内の所定の数値による減衰係数であり、これはシステム100の例示的な実施形態においては、例えば0.9にセットされている。
プロセス200中、候補音声認識結果中に所定の辞書からの各単語が存在するのかしないのかを表す特徴ベクトル値を補完するか又は置き換えるために、コントローラ148は、減衰性バッグ・オブ・ワーズ値を含む特徴ベクトルを生成する。トリガペアの特徴ベクトル値と同様の手法で、コントローラ148は、ペアにおける候補音声認識結果各々について、個々の減衰性バッグ・オブ・ワーズ特徴値を生成し、次いで2つの特徴ベクトル間の差を、ペアワイズランカー164に供給される最終的な特徴ベクトル値として生成する。従って、コントローラ148は、このペアにおける2つの音声認識結果が、ある単語に対し異なる減衰性バッグ・オブ・ワーズ・スコアを有する場合のみ、その単語に対し非自明のエントリを有する特徴ベクトルを生成し、そのペアにおける2つの候補音声認識結果各々には出現しない、又は、そのペアにおける候補音声認識結果の双方について同じ減衰性バッグ・オブ・ワーズ・スコアを有する各単語に対しては、ゼロ値の特徴ベクトルエントリを含む。
トリガペア要素及び減衰性バッグ・オブ・ワーズ特徴を含む候補音声認識結果の各ペアに対し特徴ベクトルを生成することに加えて、ペアワイズランカー164は任意選択的に、ペアワイズランカーに供給される特徴ベクトルにおける1つの付加的な特徴として、信頼度スコア特徴を付加する。信頼度スコア特徴は、ペアにおける2つの音声認識結果の信頼度スコア間の差として計算される。
図2を再び参照すると、プロセス200は、上述の特徴ベクトル入力に基づき、第3の複数の候補ハイブリッド音声認識結果の各ペアに対し、ランキングスコアを生成する。一部の構成によれば、コントローラ148は、汎用音声認識エンジンから得られた第1の複数の音声認識結果と、ドメイン固有音声認識エンジンから得られた第2の複数の音声認識結果のいずれか又は双方についても、ランキングスコアを生成する。
図2の実施形態の場合、音声認識結果各々について生成されたランキングスコアは、最も高くランク付けされた音声認識結果を識別するためにコントローラ148が使用する単なるメトリックではない。コントローラ148は、ランキングプロセス中、ハイブリッド音声認識結果を含め各音声認識結果に関連して音声認識エンジン各々が生成する信頼度スコアも使用する。プロセス200中、コントローラ148は、最高信頼度スコアを有する候補音声認識結果を識別し、この最高信頼度スコアを最高ランキングスコアを有する音声認識結果の信頼度スコアと比較する。最高ランキングスコアを有する候補音声認識結果の信頼度スコアが、最高総合信頼度スコアの所定の閾値範囲内にあるならば(ブロック224)、コントローラ148は、最高ランキングスコアを有する候補音声認識結果を、複数の候補音声認識結果から選択された最も高くランク付けされた出力音声認識結果として選択する(ブロック228)。例えば、信頼度スコアにおける差が、あとでさらに詳細に述べる正規化された信頼度スコア範囲において15%以内であれば、コントローラ148は、最高ランキングスコアを有する音声認識結果を、総合的に最も高くランク付けされた音声認識結果として選択する。しかしながら、他の音声認識結果の最高信頼度スコアが、最高ランキングスコアを有する音声認識結果の信頼度スコアを、所定の閾値を超えた大きさで上回っているならば(ブロック224)、コントローラ148は、最高信頼度スコアを有するその音声認識結果を、出力音声認識結果として選択する(ブロック232)。ブロック224乃至232に示された処理に対する選択的な実施形態によれば、コントローラ148は、候補音声認識結果の信頼度スコアを比較するために付加的な処理を実施することなく、最高ランキングスコアを有する候補音声認識結果を、最終的な出力音声認識結果として選択する。
当然ながら多くの事例によれば、最高ランキングスコアを有する音声認識結果の信頼度スコアは、音声認識結果すべての中で最高の信頼度スコア又は著しく高い信頼度スコアでもあり、コントローラ148は、最高ランキングスコアを有する音声認識結果を、最高ランク音声認識結果として識別する。ただし、他の状況において、最高ランキングスコアを有する音声認識結果がはるかに低い信頼度スコアを有する場合には、コントローラ148は、最高信頼度スコアを有する音声認識結果を選択する。他の構成によれば、コントローラ148は、最も高くランク付けされた音声認識結果を識別するために、ランキングスコアと信頼度スコアとを組み合わせて、複合スコアを形成する。例えば、一部の状況によれば、ある音声認識結果が高いランキングスコア及び高い信頼度スコアを有するかもしれないが、この音声認識結果は、音声認識結果すべての中で最高のランキングスコア又は信頼度スコアを有していない場合もある。コントローラ148は、ランキングスコアと信頼度スコアとの重み付け平均又は他の組み合わせとして複合スコアを用いて、この音声認識結果を最高ランキングを有するものとして識別する。
上述のようにコントローラ148は、各音声認識結果に関連づけられた信頼度スコアに部分的に基づき、最も高くランク付けされた音声認識結果を識別する。信頼度スコアは、音声認識エンジン162が複数の音声認識結果に関連づけて生成した各音声認識結果に対する精度(信頼度)の統計的推定値である。ただし、1つの音声認識エンジンに対する数値的な信頼度スコアの範囲は、一般的には他の音声認識エンジンには移し換えられず、このことから複数の音声認識エンジンから得られた音声認識結果の信頼度スコアを比較することの難しさが増大する。例えば、第1の音声認識エンジンAは1乃至100のスケールで信頼度スコアを生成する一方、第2の音声認識エンジンBは1乃至1000のスケールで信頼度スコアを生成する。とはいえ、エンジンAにおける数値結果をエンジンBにおける信頼度スコアの範囲にマッチさせるようにスケーリングする又はその逆を行うだけでは、信頼度スコアを比較可能にするには不十分である。その理由は、ある特定の信頼度スコアに対応する実際の精度推定は、2つの異なる音声認識エンジンの間において一般的に同じではないからである。例えば、エンジンAに対して正規化されたスケールにおいて330という任意の信頼度スコアを、75%の推定精度に対応させることができるかもしれないが、エンジンBに対する同じスコアは、84%の推定精度に対応することになるかもしれず、高品質の音声認識エンジンにおいて予期される精度レベル範囲を前提とすれば、これは大きな差であるといえる。
システム100の場合、コントローラ148は線形回帰プロセスを用いて、種々の音声認識エンジンの間で信頼度スコアを正規化する。コントローラ148は最初に、信頼度スコア範囲を所定数の下位区分又は「ビン」に細分化し、例えば、2つの音声認識エンジンA及びBについて20個のユニークなビンに細分化する。次いでコントローラ148は、観測された音声認識結果と、プロセス200に先立ち訓練プロセス中に使用されていた基礎となる現在の入力とに基づき、スコアの各ビンに対応する様々な音声認識結果に対し、現在の精度率を識別する。コントローラ148は、結果セット各々に対するビンを異なる音声認識エンジンから分離する「エッジ」周囲の複数の所定の数値窓内で、信頼度スコアのクラスタリング演算を実施し、各エッジ信頼度スコア値に対応する平均精度スコアを識別する。「エッジ」信頼度スコアは、各音声認識エンジンの信頼度スコア範囲に沿って均一に分布しており、第1の音声認識エンジンの信頼度スコアを類似の精度率を有する他の音声認識エンジンの信頼度スコアにマッピングする線形回帰を実施するために、所定数の比較ポイントを提供する。コントローラ148は、各エッジスコアについて識別された精度データを使用して線形回帰マッピングを実施し、これによってコントローラ148は、第1の音声認識エンジンから得られた信頼度スコアを、第2の音声認識エンジンから得られた等価の信頼度スコアに対応する他の信頼度スコア値に変換することができる。第1の音声認識エンジンから得られた一方の信頼度スコアから、他の音声認識から得られた他方の信頼度スコアへのマッピングは、スコアアライメントプロセスとも呼ばれ、一部の実施形態によれば、コントローラ148は、第1の音声認識エンジンから得られた信頼度スコアと第2の音声認識エンジンとのアライメントを、次式を用いて決定する。
x’=e’+((x−e)/(ei+1−e))(e’i+1−e’
ただし、xは、第1の音声認識エンジンから得られたスコアであり、x’は、第2の音声認識エンジンの信頼度スコア範囲内のxの等価値であり、値e及びei+1は、第1の音声認識エンジンに対する値xに最も近い種々のエッジ値に対し推定された精度スコア(例えば、信頼度スコア22周囲のエッジ値20及び25に対し推定された精度スコア)に対応し、さらに値e’及びe’i+1は、第2の音声認識エンジンに対する同じ相対的エッジ値において推定された精度スコアに対応する。
一部の実施形態によれば、コントローラ148は、線形回帰の結果をルックアップテーブル又は他の適切なデータ構造としてメモリ160に記憶し、これによって比較のたびに線形回帰を生成しなおす必要なく、種々の音声認識エンジン162の間において信頼度スコアの効率的な正規化が可能となる。
図2を再び参照すると、これに続いてプロセス200によればコントローラ148は、自動システムを制御するためのユーザからの入力として、最も高くランク付けされた選択された音声認識結果を使用する(ブロック236)。図1の車載情報システム100によれば、ユーザからの音声入力に応答して車両のナビゲーション動作を実施するために、コントローラ148は様々なシステムを動作させ、それらのシステムには、例えば、GPS152を使用する車両ナビゲーションシステム、ワイヤレスネットワークデバイス154、及び、LCDディスプレイ124又はHUD120が含まれている。他の構成によれば、コントローラ148は、音声命令に応答しオーディオ出力デバイス132を介して音楽を再生する。さらに他の構成によれば、システム100は、ユーザからの音声入力に基づきハンズフリーで電話をかけたりテキストメッセージを送信したりするために、スマートフォン170又はネットワーク接続された他のデバイスを使用する。図1は、車載情報システムの実施形態を示しているが、他の実施形態によれば、オーディオ入力データを使用して様々なハードウェア構成要素及びソフトウェアアプリケーションの動作を制御する自動システムが採用される。
自明のとおり、これまで開示してきた特徴及び機能並びにその他の特徴及び機能の変形又はそれらの代替案を所望のように組み合わせて、さらに他の多くの種々のシステム、アプリケーション又は方法を実現することができる。現時点においては予見することができない又は予期されない様々な代替案、修正、変形又は改善を、後から当業者が行うことができ、それらも以下の特許請求の範囲に含まれるものとする。

Claims (18)

  1. 自動システムにおける音声認識のための方法であって、
    オーディオ入力デバイスにより、ユーザからの音声入力に対応するオーディオ入力データを生成すること、
    コントローラにより、第1の汎用音声認識エンジンを用いて、前記オーディオ入力データに対応する第1の複数の候補音声認識結果を生成すること、
    前記コントローラにより、第1のドメイン固有音声認識エンジンを用いて、前記オーディオ入力データに対応する第2の複数の候補音声認識結果を生成すること、
    前記コントローラにより、第3の複数の候補音声認識結果を生成すること、ただし、当該第3の複数の候補音声認識結果における各候補音声認識結果は、前記第1の複数の候補音声認識結果のうちの1つの結果中に含まれる複数の単語と、前記第2の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも1つの単語とを含み、
    前記コントローラにより、最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて少なくとも前記第3の複数の候補音声認識結果をランク付けすること、及び、
    前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を前記ユーザからの入力として用いて、前記自動システムを動作させること
    を包含する、
    自動システムにおける音声認識のための方法。
  2. 前記第3の複数の候補音声認識結果において少なくとも1つの候補音声認識結果を生成することはさらに、
    前記コントローラにより、前記第1の複数の候補音声認識結果における第1の候補音声認識結果の第1の複数の単語において第1の単語を識別すること、ただし、当該第1の単語は、前記第2の複数の候補音声認識結果における第2の候補音声認識結果中の第2の複数の単語において、前記第1の単語とは異なる第2の単語に対応し、
    前記コントローラにより、前記第3の複数の候補音声認識結果のために前記候補音声認識結果を生成すること、ただし、当該候補音声認識結果は、前記第1の候補音声認識結果からの前記第1の複数の単語を、前記第1の候補音声認識結果からの前記第1の単語を置き換える前記第2の候補音声認識結果からの前記第2の単語と共に含む、
    を包含する、
    請求項1に記載の方法。
  3. さらに、
    前記コントローラにより、前記第2の候補音声認識結果中の前記第2の複数の単語を、前記第1の複数の単語にも存在する前記第2の複数の単語における少なくとも1つの単語のポジションに基づき、前記第1の候補音声認識結果中の前記第1の複数の単語とアライメントすること、及び、
    前記コントローラにより、前記第1の複数の音声認識結果における前記第1の候補音声認識結果の前記第1の複数の単語において前記第1の単語を識別すること、ただし、前記第1の単語は、前記第2の複数の単語とアライメントされた前記第1の複数の単語における1つの単語ポジションにおいて、第2の候補音声認識結果中の前記第2の複数の単語における前記第2の単語に対応する、
    を包含する、
    請求項2に記載の方法。
  4. 前記ランク付けすることはさらに、
    前記コントローラにより、前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果から選択された複数の候補音声認識結果ペア間において、ペアワイズランキングプロセスを用いたランキングスコアに基づき、前記最も高くランク付けされた候補音声認識結果を識別すること
    を包含し、各候補音声認識結果ペアをランク付けすることはさらに、
    前記コントローラにより、前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果における第1の候補音声認識結果の第1の単語誤り率を推定すること、
    前記コントローラにより、前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果における第2の候補音声認識結果の第2の単語誤り率を推定すること、
    前記コントローラにより、前記第1の単語誤り率が前記第2の単語誤り率よりも低いことに応答して、前記第1の候補音声認識結果に関連づけられたランキングスコアを増分すること、及び、
    前記コントローラにより、前記第1の単語誤り率が前記第2の単語誤り率よりも高いことに応答して、前記第2の候補音声認識結果に関連づけられた他のランキングスコアを増分すること
    を包含する、
    請求項1に記載の方法。
  5. さらに、
    前記コントローラにより、メモリに記憶された複数の所定のトリガペアを参照して、前記第1の候補音声認識結果内で2つの所定のトリガ単語を含む、少なくとも1つのトリガペアに対応する特徴を含む第1の特徴ベクトルを生成すること、
    前記コントローラにより、前記複数の所定のトリガペアを参照して、前記第2の候補音声認識結果内で2つの所定のトリガ単語を含む、少なくとも1つのトリガペアに対応する特徴を含む第2の特徴ベクトルを生成すること、
    前記コントローラにより、前記第1の特徴ベクトルと前記第2の特徴ベクトルとの間の差に基づき、第3の特徴ベクトルを生成すること、及び、
    前記コントローラにより、ペアワイズランカーを用いて前記第3の特徴ベクトルに基づき、前記第1の候補音声認識結果における前記第1の単語誤り率と、前記第2の候補音声認識結果における前記第2の単語誤り率とを推定すること
    を包含する、
    請求項4に記載の方法。
  6. さらに、
    前記コントローラにより、前記第1の候補音声認識結果中の少なくとも1つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第1の特徴ベクトルを生成すること、
    前記コントローラにより、前記第2の候補音声認識結果中の少なくとも1つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第2の特徴ベクトルを生成すること、
    前記コントローラにより、前記第1の特徴ベクトルと前記第2の特徴ベクトルとの間の差に基づき第3の特徴ベクトルを生成すること、及び、
    前記コントローラにより、ペアワイズランカーを用いて前記第3の特徴ベクトルに基づき、前記第1の候補音声認識結果における前記第1の単語誤り率と、前記第2の候補音声認識結果における前記第2の単語誤り率とを推定すること
    を包含する、
    請求項4に記載の方法。
  7. 前記ランク付けすることはさらに、
    前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を、前記第3の複数の候補音声認識結果において前記最高ランキングスコアを有する1つの候補音声認識結果として識別すること、ただし、当該識別を、前記1つの候補音声認識結果の信頼度スコアが、前記第3の複数の候補音声認識結果において最高信頼度スコアを有する他の候補音声認識結果の所定の閾値内にあることに応答して行い、
    前記コントローラにより、前記第3の複数の候補音声認識結果において前記最高信頼度スコアを有する前記他の候補音声認識結果を、前記最も高くランク付けされた候補音声認識結果として識別すること、ただし、当該識別を、前記最高信頼度スコアが前記最高ランキングスコアを有する前記1つの候補音声認識結果の前記信頼度スコアを、前記所定の閾値を超えた大きさで上回っていることに応答して行う、
    を包含する、
    請求項4に記載の方法。
  8. 前記ランク付けすることはさらに、
    前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を、前記第3の複数の候補音声認識結果において前記最高ランキングスコアを有する1つの候補音声認識結果として識別すること
    を包含する、
    請求項4に記載の方法。
  9. 前記ランク付けすることはさらに、
    前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を識別するために前記ペアワイズランカーを用いて、前記第1の複数の候補音声認識結果と前記第3の複数の候補音声認識結果とをランク付けすること
    を包含する、
    請求項1に記載の方法。
  10. 音声入力制御を有する自動システムであって、
    ユーザからの音声入力に対応するオーディオ入力データを生成するように構成されたオーディオ入力デバイスと、前記オーディオ入力デバイス及びメモリに動作可能に接続されたコントローラとを備えており、前記コントローラは、
    前記オーディオ入力デバイスから前記オーディオ入力データを受け取り、
    第1の汎用音声認識エンジンを用いて、前記オーディオ入力データに対応する第1の複数の候補音声認識結果を生成し、
    第1のドメイン固有音声認識エンジンを用いて、前記オーディオ入力データに対応する第2の複数の候補音声認識結果を生成し、
    第3の複数の候補音声認識結果を生成し、ただし、当該第3の複数の候補音声認識結果における各候補音声認識結果は、前記第1の複数の候補音声認識結果のうちの1つの結果中に含まれる複数の単語と、前記第2の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも1つの単語とを含み、
    最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて少なくとも前記第3の複数の候補音声認識結果をランク付けし、
    前記最も高くランク付けされた候補音声認識結果を前記ユーザからの入力として用いて、当該自動システムを動作させる
    ように構成されている、
    音声入力制御を備えた自動システム。
  11. 前記コントローラはさらに、
    前記第1の複数の候補音声認識結果における第1の候補音声認識結果の第1の複数の単語において第1の単語を識別し、ただし、当該第1の単語は、前記第2の複数の候補音声認識結果における第2の候補音声認識結果中の第2の複数の単語において、前記第1の単語とは異なる第2の単語に対応し、
    前記第3の複数の候補音声認識結果のために前記候補音声認識結果を生成し、ただし、当該候補音声認識結果は、前記第1の候補音声認識結果からの前記第1の複数の単語を、前記第1の候補音声認識結果からの前記第1の単語を置き換える前記第2の候補音声認識結果からの前記第2の単語と共に含む、
    ように構成されている、
    請求項10に記載の自動システム。
  12. 前記コントローラはさらに、
    前記第2の候補音声認識結果中の前記第2の複数の単語を、前記第1の複数の単語にも存在する前記第2の複数の単語における少なくとも1つの単語のポジションに基づき、前記第1の候補音声認識結果中の前記第1の複数の単語とアライメントし、
    前記第1の複数の候補音声認識結果における前記第1の候補音声認識結果の前記第1の複数の単語において前記第1の単語を識別する、ただし、前記第1の単語は、前記第2の複数の単語とアライメントされた前記第1の複数の単語における1つの単語ポジションにおいて、第2の候補音声認識結果中の前記第2の複数の単語における前記第2の単語に対応する、
    ように構成されている、
    請求項11に記載の自動システム。
  13. 前記コントローラはさらに、
    前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果から選択された複数の候補音声認識結果ペア間において、ペアワイズランキングプロセスを用いたランキングスコアに基づき、前記最も高くランク付けされた候補音声認識結果を識別する
    ように構成されており、各候補音声認識結果ペアをランク付けすることはさらに、
    前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果における第1の候補音声認識結果の第1の単語誤り率を推定し、
    前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果における第2の候補音声認識結果の第2の単語誤り率を推定し、
    前記コントローラにより、前記第1の単語誤り率が前記第2の単語誤り率よりも低いことに応答して、前記第1の候補音声認識結果に関連づけられたランキングスコアを増分し、
    前記第1の単語誤り率が前記第2の単語誤り率よりも高いことに応答して、前記第2の候補音声認識結果に関連づけられた他のランキングスコアを増分する
    ように、前記コントローラが構成されていることを包含する、
    請求項10に記載の自動システム。
  14. 前記コントローラはさらに、
    前記メモリに記憶された複数の所定のトリガペアを参照して、前記第1の候補音声認識結果内で2つの所定のトリガ単語を含む、少なくとも1つのトリガペアに対応する特徴を含む第1の特徴ベクトルを生成し、
    前記複数の所定のトリガペアを参照して、前記第2の候補音声認識結果内で2つの所定のトリガ単語を含む、少なくとも1つのトリガペアに対応する特徴を含む第2の特徴ベクトルを生成し、
    前記第1の特徴ベクトルと前記第2の特徴ベクトルとの間の差に基づき、第3の特徴ベクトルを生成し、
    ペアワイズランカーを用いて前記第3の特徴ベクトルに基づき、前記第1の候補音声認識結果における前記第1の単語誤り率と、前記第2の候補音声認識結果における前記第2の単語誤り率とを推定する
    ように構成されている、
    請求項13に記載の自動システム。
  15. 前記コントローラはさらに、
    前記第1の候補音声認識結果中の少なくとも1つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第1の特徴ベクトルを生成し、
    前記第2の候補音声認識結果中の少なくとも1つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第2の特徴ベクトルを生成し、
    前記第1の特徴ベクトルと前記第2の特徴ベクトルとの間の差に基づき第3の特徴ベクトルを生成し、
    ペアワイズランカーを用いて前記第3の特徴ベクトルに基づき、前記第1の候補音声認識結果における前記第1の単語誤り率と、前記第2の候補音声認識結果における前記第2の単語誤り率とを推定する
    ように構成されている、
    請求項13に記載の自動システム。
  16. 前記コントローラはさらに、
    前記最も高くランク付けされた候補音声認識結果を、前記第3の複数の候補音声認識結果において前記最高ランキングスコアを有する1つの候補音声認識結果として識別し、ただし、当該識別を、前記1つの候補音声認識結果の信頼度スコアが、前記第3の複数の候補音声認識結果において最高信頼度スコアを有する他の候補音声認識結果の所定の閾値内にあることに応答して行い、
    前記第3の複数の候補音声認識結果において前記最高信頼度スコアを有する前記他の候補音声認識結果を、前記最も高くランク付けされた候補音声認識結果として識別し、ただし、当該識別を、前記最高信頼度スコアが前記最高ランキングスコアを有する前記1つの候補音声認識結果の前記信頼度スコアを、前記所定の閾値を超えた大きさで上回っていることに応答して行う、
    ように構成されている、
    請求項13に記載の自動システム。
  17. 前記コントローラはさらに、
    前記最も高くランク付けされた候補音声認識結果を、前記第3の複数の音声認識結果において前記最高ランキングスコアを有する1つの候補音声認識結果として識別する
    ように構成されている、
    請求項13に記載の自動システム。
  18. 前記コントローラはさらに、
    前記最も高くランク付けされた候補音声認識結果を識別するために前記ペアワイズランカーを用いて、前記第1の複数の候補音声認識結果と前記第3の複数の候補音声認識結果とをランク付けする
    ように構成されている、
    請求項10に記載の自動システム。
JP2019517330A 2016-09-30 2017-09-14 音声認識のためのシステム及び方法 Active JP6869339B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/281,973 US9959861B2 (en) 2016-09-30 2016-09-30 System and method for speech recognition
US15/281,973 2016-09-30
PCT/EP2017/073162 WO2018059957A1 (en) 2016-09-30 2017-09-14 System and method for speech recognition

Publications (2)

Publication Number Publication Date
JP2019535034A true JP2019535034A (ja) 2019-12-05
JP6869339B2 JP6869339B2 (ja) 2021-05-12

Family

ID=59966716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019517330A Active JP6869339B2 (ja) 2016-09-30 2017-09-14 音声認識のためのシステム及び方法

Country Status (5)

Country Link
US (1) US9959861B2 (ja)
JP (1) JP6869339B2 (ja)
CN (1) CN109791767B (ja)
DE (1) DE112017004374B4 (ja)
WO (1) WO2018059957A1 (ja)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
JP6682007B2 (ja) * 2016-11-11 2020-04-15 旭化成株式会社 電子機器、電子機器の制御方法及び電子機器の制御プログラム
US10455328B2 (en) * 2017-07-14 2019-10-22 Hand Held Products, Inc. Adjustable microphone headset
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10769210B2 (en) 2017-09-29 2020-09-08 Rovi Guides, Inc. Recommending results in multiple languages for search queries based on user profile
US10747817B2 (en) * 2017-09-29 2020-08-18 Rovi Guides, Inc. Recommending language models for search queries based on user profile
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10395647B2 (en) * 2017-10-26 2019-08-27 Harman International Industries, Incorporated System and method for natural language processing
US20190197549A1 (en) * 2017-12-21 2019-06-27 Paypal, Inc. Robust features generation architecture for fraud modeling
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
JP7070653B2 (ja) * 2018-02-21 2022-05-18 日本電信電話株式会社 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
US11676062B2 (en) * 2018-03-06 2023-06-13 Samsung Electronics Co., Ltd. Dynamically evolving hybrid personalized artificial intelligence system
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
CN110689881B (zh) * 2018-06-20 2022-07-12 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、计算机设备和存储介质
US10825451B1 (en) * 2018-06-25 2020-11-03 Amazon Technologies, Inc. Wakeword detection
US10762896B1 (en) 2018-06-25 2020-09-01 Amazon Technologies, Inc. Wakeword detection
EP3830823B1 (en) * 2018-07-27 2022-04-27 Dolby Laboratories Licensing Corporation Forced gap insertion for pervasive listening
CN111194463A (zh) * 2018-08-27 2020-05-22 北京嘀嘀无限科技发展有限公司 用于在移动设备上显示目的地的人工智能系统和方法
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
JP7009338B2 (ja) * 2018-09-20 2022-01-25 Tvs Regza株式会社 情報処理装置、情報処理システム、および映像装置
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10325597B1 (en) * 2018-10-08 2019-06-18 Sorenson Ip Holdings, Llc Transcription of communications
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109599098A (zh) * 2018-11-01 2019-04-09 百度在线网络技术(北京)有限公司 音频处理方法和装置
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11380315B2 (en) * 2019-03-09 2022-07-05 Cisco Technology, Inc. Characterizing accuracy of ensemble models for automatic speech recognition by determining a predetermined number of multiple ASR engines based on their historical performance
US11024315B2 (en) * 2019-03-09 2021-06-01 Cisco Technology, Inc. Characterizing accuracy of ensemble models for automatic speech recognition
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation
RU2731334C1 (ru) * 2019-03-25 2020-09-01 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для формирования текстового представления фрагмента устной речи пользователя
CN110148416B (zh) * 2019-04-23 2024-03-15 腾讯科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11107475B2 (en) * 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response
US11615785B2 (en) * 2019-05-10 2023-03-28 Robert Bosch Gmbh Speech recognition using natural language understanding related knowledge via deep feedforward neural networks
JP7173327B2 (ja) * 2019-06-07 2022-11-16 日本電信電話株式会社 学習装置、音声認識装置、それらの方法、およびプログラム
WO2020256184A1 (ko) * 2019-06-20 2020-12-24 엘지전자 주식회사 디스플레이 장치
WO2021002493A1 (ko) * 2019-07-01 2021-01-07 엘지전자 주식회사 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템
US11189264B2 (en) * 2019-07-08 2021-11-30 Google Llc Speech recognition hypothesis generation according to previous occurrences of hypotheses terms and/or contextual data
CN110491383B (zh) * 2019-09-25 2022-02-18 北京声智科技有限公司 一种语音交互方法、装置、系统、存储介质及处理器
CN110675871B (zh) * 2019-09-25 2021-03-05 北京蓦然认知科技有限公司 一种语音识别方法及装置
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11437027B1 (en) * 2019-12-04 2022-09-06 Amazon Technologies, Inc. Alternate natural language input generation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11626106B1 (en) * 2020-02-25 2023-04-11 Amazon Technologies, Inc. Error attribution in natural language processing systems
KR20230010624A (ko) * 2020-03-10 2023-01-19 밋카이, 인크. 다중 언어, 다중 턴, 다중 도메인 가상 어시스턴트를 강화하기 위한 병렬 가설적 추론
US11995561B2 (en) 2020-03-17 2024-05-28 MeetKai, Inc. Universal client API for AI services
US11991253B2 (en) 2020-03-17 2024-05-21 MeetKai, Inc. Intelligent layer to power cross platform, edge-cloud hybrid artificial intelligence services
CN111554276B (zh) * 2020-05-15 2023-11-03 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及计算机可读存储介质
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN111651599B (zh) * 2020-05-29 2023-05-26 北京搜狗科技发展有限公司 一种语音识别候选结果的排序方法及装置
CN111883122B (zh) * 2020-07-22 2023-10-27 海尔优家智能科技(北京)有限公司 语音识别方法及装置、存储介质、电子设备
US11921712B2 (en) 2020-10-05 2024-03-05 MeetKai, Inc. System and method for automatically generating question and query pairs
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11532312B2 (en) 2020-12-15 2022-12-20 Microsoft Technology Licensing, Llc User-perceived latency while maintaining accuracy
KR20220099003A (ko) * 2021-01-05 2022-07-12 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN112699242A (zh) * 2021-01-11 2021-04-23 大连东软信息学院 一种中文文本作者识别方法
US11922943B1 (en) * 2021-01-26 2024-03-05 Wells Fargo Bank, N.A. KPI-threshold selection for audio-transcription models
KR102486120B1 (ko) * 2022-10-13 2023-01-09 (주)액션파워 음성 신호와 연관된 컨텐츠를 결정하는 방법
US11960668B1 (en) 2022-11-10 2024-04-16 Honeywell International Inc. Cursor management methods and systems for recovery from incomplete interactions
US11954325B1 (en) 2023-04-05 2024-04-09 Honeywell International Inc. Methods and systems for assigning text entry components to cursors

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227129A (ja) * 2010-04-15 2011-11-10 Nec Corp 音声認識システム、データ処理装置、音声認識方法およびプログラム
JP2011242613A (ja) * 2010-05-19 2011-12-01 Yahoo Japan Corp 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
US20140337032A1 (en) * 2013-05-13 2014-11-13 Google Inc. Multiple Recognizer Speech Recognition
WO2016013503A1 (ja) * 2014-07-23 2016-01-28 三菱電機株式会社 音声認識装置及び音声認識方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1246229A (en) * 1985-05-29 1988-12-06 Lalit R. Bahl Apparatus and method for producing a list of likely candidate words corresponding to a spoken input
US6006182A (en) * 1997-09-22 1999-12-21 Northern Telecom Limited Speech recognition rejection method using generalized additive models
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
TWI245259B (en) * 2002-12-20 2005-12-11 Ibm Sensor based speech recognizer selection, adaptation and combination
US7805299B2 (en) * 2004-03-01 2010-09-28 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
CN101082836A (zh) * 2007-06-29 2007-12-05 华中科技大学 一种整合语音输入和手写输入功能的汉字输入系统
CN101093478B (zh) * 2007-07-25 2010-06-02 中国科学院计算技术研究所 一种根据实体的汉语简称识别汉语全称的方法及系统
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
US8126839B2 (en) * 2008-06-19 2012-02-28 Yahoo! Inc. Methods and apparatuses for adapting a ranking function of a search engine for use with a specific domain
JP5530729B2 (ja) * 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置
US8271408B2 (en) * 2009-10-22 2012-09-18 Yahoo! Inc. Pairwise ranking-based classifier
US9183843B2 (en) * 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9384734B1 (en) * 2012-02-24 2016-07-05 Google Inc. Real-time audio recognition using multiple recognizers
US9129591B2 (en) * 2012-03-08 2015-09-08 Google Inc. Recognizing speech in multiple languages
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US10282419B2 (en) * 2012-12-12 2019-05-07 Nuance Communications, Inc. Multi-domain natural language processing architecture
US9477753B2 (en) * 2013-03-12 2016-10-25 International Business Machines Corporation Classifier-based system combination for spoken term detection
CN103247291B (zh) * 2013-05-07 2016-01-13 华为终端有限公司 一种语音识别设备的更新方法、装置及系统
DE112013001772B4 (de) * 2013-11-29 2020-02-13 Mitsubishi Electric Corporation Spracherkennungssystem
US20150325236A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors
US10108608B2 (en) * 2014-06-12 2018-10-23 Microsoft Technology Licensing, Llc Dialog state tracking using web-style ranking and multiple language understanding engines
KR101581816B1 (ko) * 2014-10-14 2016-01-05 서강대학교산학협력단 기계학습을 이용한 음성인식방법
JP6363478B2 (ja) * 2014-11-21 2018-07-25 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム
KR102380833B1 (ko) 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10789539B2 (en) * 2015-12-31 2020-09-29 Nuance Communications, Inc. Probabilistic ranking for natural language understanding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227129A (ja) * 2010-04-15 2011-11-10 Nec Corp 音声認識システム、データ処理装置、音声認識方法およびプログラム
JP2011242613A (ja) * 2010-05-19 2011-12-01 Yahoo Japan Corp 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
US20140337032A1 (en) * 2013-05-13 2014-11-13 Google Inc. Multiple Recognizer Speech Recognition
WO2016013503A1 (ja) * 2014-07-23 2016-01-28 三菱電機株式会社 音声認識装置及び音声認識方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STANLEY JUNGKYU CHOI ET AL.: ""Utilizing Multiple Speech Recognizers to Improve Spoken Language Understanding Performance"", THE 18TH IEEE INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS (ISCE 2014), JPN6020023514, 22 June 2014 (2014-06-22), ISSN: 0004299413 *

Also Published As

Publication number Publication date
WO2018059957A1 (en) 2018-04-05
US9959861B2 (en) 2018-05-01
CN109791767A (zh) 2019-05-21
DE112017004374B4 (de) 2022-10-13
CN109791767B (zh) 2023-09-05
US20180096678A1 (en) 2018-04-05
DE112017004374T5 (de) 2019-06-06
JP6869339B2 (ja) 2021-05-12

Similar Documents

Publication Publication Date Title
JP6869339B2 (ja) 音声認識のためのシステム及び方法
CN109923608B (zh) 利用神经网络对混合语音识别结果进行评级的系统和方法
JP6852006B2 (ja) ドメイン曖昧性除去を含む音声対応システム
US11615785B2 (en) Speech recognition using natural language understanding related knowledge via deep feedforward neural networks
US11450313B2 (en) Determining phonetic relationships
US8195459B1 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
US9715877B2 (en) Systems and methods for a navigation system utilizing dictation and partial match search
JP2022531524A (ja) オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成
US20180357269A1 (en) Address Book Management Apparatus Using Speech Recognition, Vehicle, System and Method Thereof
Seltzer et al. In-car media search
US10546580B2 (en) Systems and methods for determining correct pronunciation of dictated words
WO2019236745A1 (en) Temporary account association with voice-enabled devices
US11355114B2 (en) Agent apparatus, agent apparatus control method, and storage medium
JP7274376B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US20240013782A1 (en) History-Based ASR Mistake Corrections
US20200321006A1 (en) Agent apparatus, agent apparatus control method, and storage medium
Dunnachie et al. Filler models for automatic speech recognition created from hidden Markov models using the K-Means algorithm
Ito et al. A spoken dialog system based on automatically-generated example database

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200708

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210413

R150 Certificate of patent or registration of utility model

Ref document number: 6869339

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250