JP6965331B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP6965331B2
JP6965331B2 JP2019227504A JP2019227504A JP6965331B2 JP 6965331 B2 JP6965331 B2 JP 6965331B2 JP 2019227504 A JP2019227504 A JP 2019227504A JP 2019227504 A JP2019227504 A JP 2019227504A JP 6965331 B2 JP6965331 B2 JP 6965331B2
Authority
JP
Japan
Prior art keywords
voice input
contexts
user
current voice
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019227504A
Other languages
English (en)
Other versions
JP2020042313A (ja
Inventor
ペタル・アレクシック
ペドロ・ジェイ・モレノ・メンジバル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2020042313A publication Critical patent/JP2020042313A/ja
Priority to JP2021137163A priority Critical patent/JP2021182168A/ja
Application granted granted Critical
Publication of JP6965331B2 publication Critical patent/JP6965331B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本明細書は音声認識に関する。
従来の音声認識システムは、ユーザからの音声入力をテキスト出力に変換することを目的としている。テキスト出力は、たとえば、検索クエリ、コマンド、文書処理入力などを含む様々な目的に使用することができる。一般的な音声検索システムにおいて、音声インターフェースは、ユーザの音声入力を受信し、この音声入力を音声認識エンジンに与える。音声認識エンジンは、音声入力をテキスト検索クエリに変換する。音声検索システムは次いで、テキスト検索クエリを検索エンジンにサブミットして1つまたは複数の検索結果を取得する。
概して、本明細書において説明する主題の1つの斬新な態様は、音声入力を符号化するデータを受信するアクションと、音声入力に関するトランスクリプションを判定するアクションであって、音声入力の複数のセグメントについて、音声入力の第1のセグメントに関する第1の候補トランスクリプションを取得するアクションと、第1の候補トランスクリプションに関連する1つまたは複数のコンテキストを判定するアクションと、1つまたは複数のコンテキストの各々に関するそれぞれの重みを調整するアクションと、調整された重みに部分的に基づいて音声入力の第2のセグメントに関する第2の候補トランスクリプションを判定するアクションとを含む、音声入力に関するトランスクリプションを判定するアクションと、音声入力の複数のセグメントのトランスクリプションを出力のために提供するアクションとを含む方法において具現化することができる。本明細書において説明する方法は、コンピュータによって実施される方法として具現化されてもよい。この態様の他の実施形態は、各々が方法のアクションを実行するように構成された、対応するコンピュータシステム、装置、および1つまたは複数のコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。1つまたは複数のコンピュータのシステムが特定の動作またはアクションを実行するように構成されることは、動作時にシステムにこれらの動作またはアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せがシステム上にインストールされることを意味する。1つまたは複数のコンピュータプログラムが特定の動作またはアクションを実行するように構成されることは、1つまたは複数のプログラムが、データ処理装置によって実行されたときに、装置にこれらの動作またはアクションを実行させる命令を含むことを意味する。
本明細書において説明する主題の斬新な別の態様は、1つまたは複数のコンピュータによって実行可能な命令を含むソフトウェアを記憶するコンピュータ可読媒体であって、命令が、そのような実行時に、1つまたは複数のコンピュータに動作を実行させ、動作が、音声入力を符号化するデータを受信する動作と、音声入力に関するトランスクリプションを判定する動作であって、音声入力の複数のセグメントについて、音声入力の第1のセグメントに関する第1の候補トランスクリプションを取得する動作と、第1の候補トランスクリプションに関連する1つまたは複数のコンテキストを判定する動作と、1つまたは複数のコンテキストの各々に関するそれぞれの重みを調整する動作と、調整された重みに部分的に基づいて音声入力の第2のセグメントに関する第2の候補トランスクリプションを判定する動作とを含む、音声入力に関するトランスクリプションを判定する動作と、音声入力の複数のセグメントのトランスクリプションを出力のために提供する動作とを含むコンピュータ可読媒体において具現化することができる。
上記の実施形態および他の実施形態の各々は任意に、以下の特徴のうちの1つまたは複数を単独で含むかあるいは任意に組み合わせて含むことができる。たとえば、一実施形態は、以下の特徴のすべてを組み合わせて含む。この方法は、音声入力の第1のセグメントに関する第1の候補トランスクリプションを取得するステップであって、音声入力の第1のセグメントが安定性基準を満たすと判定するステップと、音声入力の第1のセグメントが安定性基準を満たすと判定したことに応答して、音声入力の第1のセグメントに関する第1の候補トランスクリプションを取得するステップとを含む。安定性基準は、音声入力の第1のセグメントの1つまたは複数のセマンティック特性を含む。安定性基準は、音声入力の第1のセグメントの後に生じる時間遅延を含む。音声入力の第2のセグメントは、音声入力の第1のセグメントの後に生じる。1つまたは複数のコンテキストは、ユーザデバイスから受信される。1つまたは複数のコンテキストは、ユーザの地理的位置、ユーザの検索履歴、ユーザの関心、またはユーザの活動を含むデータを含む。この方法は、複数のコンテキストに関する複数のスコアを記憶するステップと、1つまたは複数のコンテキストの各々に関するそれぞれの重みを調整したことに応答して、1つまたは複数のコンテキストに関する調整されたスコアを更新するステップとを含む。この方法は、検索クエリとしての出力を、たとえば検索エンジンに与えるステップをさらに含み、この場合、検索エンジンは、検索クエリに応答して、1つまたは複数の検索結果をユーザデバイスに与えてもよい。第1の候補トランスクリプションは、ワード、サブワード、またはワードのグループを含む。
本明細書において説明する主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するように実施することができる。従来の音声認識システムと比較して、音声認識システムは、音声入力のセグメントに基づいてより正確なテキスト検索クエリを提供することができる。このシステムは、音声入力のセグメントに基づいてコンテキストに関する重みを調整し、調整された重みに部分的に基づいて音声入力の以後のセグメントのトランスクリプションを判定するので、認識性能を動的に改善することができる。したがって、システムは、音声認識の精度を向上させることができる。このように精度が向上することによって、ユーザが音声認識システムによる処理のために音声入力を提供するプロセスを繰り返すことが必要になる可能性が低くなり、それによって、音声認識システムを他の音声入力の処理に利用することが可能になる。
本明細書の主題の1つまたは複数の実施形態の詳細が、添付の図面および以下の説明に記載されている。この主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになろう。各態様および実装形態を組み合わせることができ、ある態様または実装形態の文脈において説明する特徴を他の態様または実装形態の文脈において実現できることを諒解されたい。
例示的な音声認識システムの概要を示す図である。 例示的なコンテキストを示す図である。 安定性基準が満たされると判定するための例示的なプロセスを示す図である。 音声入力のトランスクリプションを提供するための例示的な方法のフローチャートである。 音声入力に関するトランスクリプションを判定するための例示的な方法のフローチャートである。
様々な図面における同じ参照記号は同じ要素を示す。
図1は、例示的な音声認識システム100の概要を示す図である。音声認識システム100は、ユーザ10からの音声入力110をユーザデバイス120から受信し、音声入力110のトランスクリプションを判定し、音声入力110のトランスクリプションを出力として提供するようにプログラムされた1つまたは複数のコンピュータを含む。図1に示す例では、出力は、検索クエリ150に応答して検索結果170を取得するために検索エンジン160に与えられる検索クエリ150であってもよい。1つまたは複数の検索結果170は次いで、ユーザデバイス120に与えられる。音声認識システム100は、たとえば、サーバを含む1つまたは複数のコンピュータあるいはユーザデバイス上に実装することができる。
音声認識システム100は、1つまたは複数のネットワーク180を介してユーザデバイス120と通信する発話認識エンジン140を含む。1つまたは複数のネットワーク180は、ワイヤレスセルラーネットワーク、ワイヤレスローカルエリアネットワーク(WLAN)またはWi-Fiネットワーク、ワイヤードイーサネット(登録商標)ネットワーク、その他のワイヤードネットワーク、またはそれらの他の適切な組合せを含む音声ネットワークおよび/またはコンピュータネットワークであってもよい。ユーザデバイス120は、限定はしないが、1つまたは複数のプロセッサとコンピュータ可読媒体とを含むモバイルフォン、スマートフォン、タブレットコンピュータ、音楽プレーヤ、電子書籍リーダー、ラップトップまたはデスクトップコンピュータ、PDA、またはその他のハンドヘルドデバイスもしくはモバイルデバイスを含む任意の適切な種類のコンピューティングデバイスであってもよい。
ユーザデバイス120は、ユーザ10から音声入力110を受信するように構成される。ユーザデバイス120は、たとえば、音響電気トランスジューサまたはセンサ(たとえば、マイクロフォン)を含むことができ、あるいはそれに結合することができる。ユーザ10が音声入力110に入力したことに応答して、音声入力を発話認識エンジン140にサブミットすることができる。(一般に、このことは、音声入力を表現するかまたは符号化するデータを発話認識エンジン140にサブミットすることによって行われてもよい。発話認識エンジン140は、データを処理して、受信されたデータから音声入力を抽出することができる。)
発話認識エンジン140は、音声入力を順次認識することができ、たとえば、音声入力110の第1の部分111を認識することができ、次いで、音声入力110の第2の部分112を認識することができる。音声入力110の1つまたは複数の部分が、特定の安定性基準に基づいて音声入力110の個々のセグメントとして認識されてもよい。1つの部分がワードを含んでもよく、サブワードを含んでもよく、あるいはワードのグループを含んでもよい。いくつかの実装形態では、音声入力110の1つまたは複数のセグメントは、以下により詳細に説明するように1つまたは複数のコンテキストを調整するのに使用することができる中間認識結果を提供することができる。
全体にわたって例示のために検索クエリの例が使用されるが、音声入力110は、音声ベースの命令、検索エンジンクエリターム、ディクテーション、ダイアログシステム、あるいはトランスクライブされた発話を使用するかまたはトランスクライブされた発話を使用してアクションを実行するソフトウェアアプリケーションを起動する任意の他の入力を含む任意の種類の音声通信を表現することができる。
発話認識エンジン140は、音声入力110を受信し処理するように構成された音声認識システム100のソフトウェア構成要素であってもよい。図1に示す例示的なシステムでは、発話認識エンジン140は、音声入力110を検索エンジン160に与えられるテキスト検索クエリ150に変換する。発話認識エンジン140は、音声デコーダ142と、コンテキストモジュール144と、コンテキスト調整モジュール146とを含む。音声デコーダ142、コンテキストモジュール144、およびコンテキスト調整モジュール146は、音声認識システム100のソフトウェア構成要素であってもよい。
発話認識エンジン140が音声入力110を受信すると、音声デコーダ142は音声入力110に関するトランスクリプションを判定する。音声デコーダ142は次いで、音声入力110に関するトランスクリプションを出力として、たとえば、検索エンジン160に与えるべき検索クエリ150として提供する。
音声デコーダ142は、言語モデルを使用して音声入力110に関する候補トランスクリプションを生成する。この言語モデルは、ワードまたはワードのシーケンスに関連する確率値を含む。たとえば、言語モデルはNグラムモデルであってもよい。音声デコーダ142が音声入力を処理するにつれて中間認識結果を決定することができる。中間認識結果の各々は、音声入力110のトランスクリプションの安定したセグメントに対応する。トランスクリプションの安定したセグメントを判定するための安定性基準について、以下に図3に関して詳細に説明する。
音声デコーダ142は、安定した各セグメントをコンテキスト調整モジュール146に与える。コンテキスト調整モジュール146は、コンテキストモジュール144からの関連するコンテキストを特定する。特定された各コンテキストは重みに関連付けられてもよい。最初に、様々な基準に従って、たとえば、コンテキストのポピュラリティ、コンテキストの時間的な近さ(すなわち、特定のコンテキストが最近の期間において積極的に使用されるかどうか)、またはコンテキストの最近の使用状況もしくはグローバルな使用状況に基づいて、コンテキストごとの基準重みが指定されてもよい。基準重みは、ユーザ入力が特定のコンテキストに関連付けられる可能性に基づいて初期バイアスを作成することができる。コンテキスト調整モジュール146は、関連するコンテキストを特定した後、音声デコーダ142によって与えられた1つまたは複数の安定したセグメントに基づいてコンテキストに対する重みを調整する。重みは、音声入力のトランスクリプションが特定のコンテキストに関連付けられる範囲を示すように調整することができる。
コンテキストモジュール144は、コンテキスト148およびコンテキスト148に関連付けられた重みを記憶する。コンテキストモジュール144は、コンピューティングデバイスにユーザデバイス120から1つまたは複数のコンテキスト148を受信させるように構成された発話認識エンジン140のソフトウェア構成要素であってもよい。発話認識エンジン140は、受信されたコンテキスト148をコンテキストモジュール144に記憶するように構成されてもよい。いくつかの例では、コンテキストモジュール144は、ユーザ10向けにカスタマイズされた1つまたは複数のコンテキスト148を生成するように構成することができる。発話認識エンジン140は、生成されたコンテキスト148をコンテキストモジュール144に記憶するように構成されてもよい。
コンテキスト148は、たとえば、(1)繰り返される音声入力間の時間間隔、ユーザデバイスのスクリーンの近くの前方カメラからの視線の移動を反映する視線追跡情報などのユーザ活動を表すデータ、(2)使用されるモバイルアプリケーションの種類、ユーザの位置、使用されるデバイスの種類、または現在の時間など、音声入力が発行される環境を表すデータ、(3)検索エンジンにサブミットされた以前の音声検索クエリ、(4)検索エンジンへのコマンド、要求、または検索クエリなど、発話認識エンジンにサブミットされた音声入力の種類を表すデータ、(5)エンティティ、たとえば、特定の範疇のメンバー、場所の名称などを含んでもよい。コンテキストは、たとえば、以前の検索クエリ、ユーザ情報、エンティティデータベースなどから形成することができる。
図2は、例示的なコンテキストを示す図である。発話認識エンジンは、「テニス選手」に関連するコンテキスト210、および「バスケットボール選手」に関連するコンテキスト220をコンテキストモジュール、たとえばコンテキストモジュール144に記憶するように構成される。コンテキスト210は、特定のテニス選手、たとえば、「Roger Federer」、「Rafael Nadal」、および「Novak Djokovic」に対応するエンティティを含む。コンテキスト220は、特定のバスケットボール選手、たとえば、「Roger Bederer」、「Rafael Madall」、および「Novak Jocovich」に対応するエンティティを含む。
コンテキストモジュール144は、コンテキスト210、220に関する重みを記憶するように構成されてもよい。これらの重みは、音声入力の1つまたは複数のトランスクリプションがコンテキスト210、220に関連付けられる範囲を示してもよい。コンテキスト調整モジュール146は、コンテキスト210、220を特定すると、コンテキスト210、220に関連付けられた重みも特定する。
音声デコーダ142は、音声入力110の第1のセグメント111に関する「how many wins does tennis player」という第1の候補トランスクリプションを取得すると、第1のセグメント111に関する第1の候補トランスクリプションをコンテキスト調整モジュール146に与える。コンテキスト調整モジュール146は、コンテキストモジュール144からの関連するコンテキストとしてのコンテキスト210、220、およびコンテキスト210、220に関連付けられた重みを特定する。次いで、コンテキスト調整モジュール146は、音声入力110の第1のセグメント111に関する第1の候補トランスクリプションに基づいてコンテキスト210、220に関するそれぞれの重みを調整するように構成される。特に、コンテキスト調整モジュール146は、音声入力110の以後のセグメントを認識する際に使用できるようにコンテキスト210、220に関するそれぞれの重みを調整することができる。
それぞれのコンテキストに関する基準重みは最初、たとえば、テニスに対するバスケットボールに関する音声入力の履歴ポピュラリティに起因して、音声認識をより重い初期重みを有するバスケットボールのコンテキストに偏らせている場合がある。しかし、音声認識は、中間認識結果に基づいて調整され、テニスのコンテキストの方に偏らされる場合がある。この例では、「how many wins does tennis player」という音声入力110の第1の候補トランスクリプションは「テニス選手(tennis player)」というタームを含む。コンテキスト調整モジュール146は、第1の候補トランスクリプションの「テニス選手」というタームに基づいて、コンテキストのうちの1つまたは複数に関する重みを調整するように構成されてもよい。たとえば、コンテキスト調整モジュール146は、コンテキスト210に関する重みを、たとえば「10」から「90」にブーストすることができ、コンテキスト220に関する重みを、たとえば「90」から「10」にデクリメントすることができ、あるいは重みをブーストすることとデクリメントすることの組合せを実行することができる。
音声デコーダ142は、調整された重みに部分的に基づいて音声入力110の第2のセグメント112に関する第2の候補トランスクリプションを判定するように構成されてもよい。発話認識エンジン140は、コンテキストに関するそれぞれの重みを調整したことに応答して、コンテキストモジュール144におけるコンテキスト210、220に関する調整された重みを更新するように構成されてもよい。上記の例では、音声デコーダ142は、音声入力110の第2のセグメント112の第2の候補トランスクリプションを判定する場合、調整された重みに基づいてコンテキスト220よりも重い重みをコンテキスト210に与えてもよい。音声デコーダ142は、コンテキスト210への重みに基づいて、「Roger Federer」を音声入力110の第2のセグメント112に関する第2の候補トランスクリプションとして判定してもよい。
これに対して、コンテキスト調整モジュール146が第1のセグメント111に関する第1の候補トランスクリプションに基づいてコンテキスト210、220に関する重みを調整しない場合、音声デコーダ142は、コンテキストモジュール144に記憶されたコンテキスト210、220に関する基準重みに基づいて第2のセグメント112に関する第2の候補トランスクリプションを判定する場合がある。コンテキスト210の重みがコンテキスト220の重みよりも重い場合、音声デコーダは、「Roger Bederer」などのバスケットボール選手の名前を第2のセグメント112に関する第2の候補トランスクリプションとして判定する場合がある。したがって、音声デコーダ142は誤った認識結果を提供することがある。
音声デコーダ142は、音声入力110のトランスクリプション全体を取得した後、音声入力110のトランスクリプションを出力のために提供してもよい。出力は、ユーザデバイスに直接提供することもでき、あるいはさらなる処理に使用することもできる。たとえば、図1では、出力認識がテキスト検索クエリ150として使用される。たとえば、音声デコーダ142は、「Roger Federer」を音声入力110の第2のセグメント112に関する第2の候補トランスクリプションとして判定したときに、「how many wins does tennis player Roger Federer have?」というトランスクリプション全体を検索クエリ150として検索エンジン160に出力してもよい。
検索エンジン160は、検索クエリ150を使用して検索を実行する。検索エンジン160は、音声認識システム100に結合されたウェブ検索エンジンを含んでもよい。検索エンジン160は、検索クエリ150に応答して1つまたは複数の検索結果170を決定してもよい。検索エンジン160は、検索結果170をユーザデバイス120に与える。ユーザデバイス120は、検索結果170をユーザ10に提示するためのディスプレイインターフェースを含むことができる。いくつかの例では、ユーザデバイス120は、検索結果170をユーザ10に提示するためのオーディオインターフェースを含むことができる。
図3は、所与のセグメントについて安定性基準が満たされると判定するための例示的なプロセスを示す図である。音声デコーダ142は、音声入力110のこの部分が安定性基準を満たすと判定するように構成される。
音声デコーダ142は、音声入力310の部分311を受信したときに、音声入力310の部分311が安定性基準を満たすかどうかを判定するように構成されてもよい。安定性基準は、この部分がさらなる音声認識によって変更されやすいか否かを示す。
安定性基準は、1つまたは複数のセマンティック特性を含んでもよい。意味的に音声入力の一部の後にあるワードが続くことが予期される場合、音声デコーダ142は、その部分が安定性基準を満たさないと判定することができる。たとえば、音声デコーダ142は、音声入力310の部分311を受信したときに、意味的に部分311の後にあるワードが続くことが予期されると判定してもよい。音声デコーダ142は次いで、部分311が安定性基準を満たさないと判定する。いくつかの実装形態では、音声デコーダ142は、音声入力の一部として「mine」を受信したときに、意味的に「mine」という部分の後にあるワードが続くことは予期されないと判定してもよい。音声デコーダ142は次いで、「mine」という部分がセグメントに関する安定性基準を満たすと判定することができる。音声デコーダ142は、セグメントをコンテキスト調整モジュール146に与えてコンテキストに関する重みを調整してもよい。
音声デコーダ142はまた、意味的にある部分の後に別のサブワードが続くことが予期される場合にこの部分は安定性基準を満たさないと判定してもよい。たとえば、音声デコーダ142は、「play」を音声入力310の部分312として受信したときに、意味的に部分312の後には「play-er」、「play-ground」、および「play-off」などのサブワードが続くことができるので意味的に部分312の後にあるワードが続くことが予期されると判定してもよい。音声デコーダ142は次いで、部分311が安定性基準を満たさないと判定する。いくつかの実装形態では、音声デコーダ142は、「player」を音声入力の一部として受信したときに、意味的に「player」という部分の後にあるワードが続くことは予期されないと判定してもよい。音声デコーダ142は次いで、「player」という部分がセグメントに関する安定性基準を満たすと判定することができる。音声デコーダ142は、セグメントをコンテキスト調整モジュール146に与えてコンテキストに関する重みを調整してもよい。
いくつかの実装形態では、安定性基準は、音声入力310の一部の後に生じる時間遅延を含んでもよい。音声デコーダ142は、音声入力310のこの部分の後の時間遅延がしきい値遅延値を満たす持続時間を有する場合に、音声入力310のこの部分が安定性基準を満たすと判定することができる。音声デコーダ142は、音声入力310のこの部分を受信したときに、この部分が受信された瞬間から音声入力310の後続の部分が受信される瞬間までの時間遅延を測定してもよい。音声デコーダ142は、時間遅延がしきい値遅延値を超える場合にこの部分が安定性基準を満たすと判定することができる。
図4は、受信された音声入力に関するトランスクリプションを判定するための例示的な方法400のフローチャートである。説明の都合上、方法400については、方法400を実行するシステムに関して説明する。
このシステムは、受信された音声入力をそれが発話された順序で処理し(410)、音声入力の一部を第1のセグメントとして判定する。システムは、音声入力の第1のセグメントに関する第1の候補トランスクリプションを取得する(420)。システムは、第1のセグメントに関する第1の候補トランスクリプションを取得する場合、音声入力の第1のセグメントが安定性基準を満たすかどうかを判定してもよい。音声入力の第1のセグメントが安定性基準を満たす場合、システムは、第1のセグメントに関する第1の候補トランスクリプションを取得してもよい。音声入力の第1のセグメントが安定性基準を満たさない場合、システムは、第1の候補トランスクリプションを取得しなくてもよい。次いで、システムは、音声入力の1つまたは複数の部分を受信し、音声入力の新しい第1のセグメントを認識して、音声入力の新しい第1のセグメントが安定性基準を満たすかどうかを判定してもよい。システムは、図3によって上記において説明したように、プロセス300を使用して、音声入力の第1のセグメントが安定性基準を満たすと判定してもよい。
システムは、コンテキストの集合から第1のセグメントに関連する1つまたは複数のコンテキストを判定する(430)。第1のセグメントに関連する特定のコンテキストは、第1のセグメントによって与えられるコンテキストにも基づいて判定することができる。たとえば、第1のセグメントの特定のキーワードを特定のコンテキストに関連するキーワードとして特定することができる。再び図2を参照するとわかるように、システムは、「テニス選手」に関連するコンテキストおよび「バスケットボール選手」に関連するコンテキストを特定してもよい。テニス選手コンテキストは、「Roger Federer」、「Rafael Nadal」、および「Novak Djokovic」などのキーワードに関連付けることができる。バスケットボール選手コンテキストは、「Roger Bederer」、「Rafael Madall」、および「Novak Jocovich」などのキーワードに関連付けることができる。システムは、各コンテキストに関する重みを記憶するように構成されてもよい。システムは、コンテキストを特定したときに、コンテキストに関するそれぞれの重みを特定してもよい。コンテキストに関するそれぞれの重みは、音声入力の1つまたは複数のトランスクリプションがコンテキストに関連付けられる範囲を示す。
システムは、1つまたは複数のコンテキストの各々に関するそれぞれの重みを調整する(440)。システムは、音声入力の第1の候補トランスクリプションに基づいて各コンテキストに関するそれぞれの重みを調整してもよい。たとえば、音声入力の「how many wins does tennis player」という第1の候補トランスクリプションは、「テニス選手(tennis player)」というタームを含む。システムは、第1の候補トランスクリプションの「テニス選手」というタームに基づいて、コンテキストに関する重みを調整するように構成されてもよい。たとえば、システムは、コンテキストに関する重みを、たとえば「10」から「90」にブーストすることができ、コンテキストに関する重みを、たとえば「90」から「10」にデクリメントすることができ、あるいは重みをブーストすることとデクリメントすることの組合せを実行することができる。
いくつかの実装形態では、最も関連性の高いコンテキストの重みのみが調整され(たとえば、大きくされ)、一方、他のすべてのコンテキストが一定に維持される。いくつかの他の実装形態では、他のすべてのコンテキストがデクリメントされ、一方、大部分の関連するコンテキストが一定に維持される。さらに、この2つを任意に適切に組み合わせて実行することができる。たとえば、関連するコンテキストを、別のコンテキストがデクリメントされる量とは異なる量だけ増大させてもよい。
システムは、調整された重みに部分的に基づいて音声入力の第2のセグメントに関する第2の候補トランスクリプションを判定する(450)。システムは、コンテキストに関するそれぞれの重みを調整したことに応答して、コンテキストに関する調整された重みを更新してもよい。たとえば、システムは、調整された重みに基づいて、第1のセグメントに対する関連性が第2のコンテキストよりも高いコンテキストとして特定された第1のコンテキストにより重い重みを与えてもよい。音声デコーダは、調整された重み付けられたコンテキストに基づいて、音声入力の第2のセグメントに関する第2の候補トランスクリプションを判定してもよい。このプロセスは、認識すべき音声入力のさらなる部分がなくなるまで継続する。
図5は、音声検索を行うための例示的な方法500のフローチャートである。説明の都合上、方法500については、方法500を実行するシステムに関して説明する。
システムは音声入力を受信する(510)。システムは、ユーザから音声入力を受信するように構成されてもよい。システムは、ユーザが発話している間音声入力の各セグメントをリアルタイムに受信することができる。
システムは、音声入力を受信すると、その音声入力に関するトランスクリプションを判定する(520)。システムは、たとえば図4に関して上記において説明したようにトランスクリプションを判定してもよい。システムは、音声入力のトランスクリプション全体を判定した後、この音声入力のトランスクリプションを出力のために提供する(530)。システムは、この出力をテキスト検索クエリとして提供してもよい。システムは、テキスト検索クエリを使用して検索を実行し、検索結果を取得することができる。システムは、検索結果をユーザに与えてもよい。いくつかの実装形態では、システムは、検索結果をユーザに提示するためのディスプレイインターフェースを提供することができる。他の実装形態では、システムは、検索結果をユーザに提示するためのオーディオインターフェースを提供することができる。
本明細書において説明する主題および動作の実施形態は、デジタル電子回路として実装することもでき、あるいは本明細書において開示する構造およびその構造均等物、またはそれらの1つまたは複数の組合せを含むコンピュータソフトウェア、ファームウェア、またはハードウェアとして実行することもできる。本明細書において説明する主題の実施形態は、1つまたは複数のコンピュータプログラムとして実装することができ、すなわち、データ処理装置によって実行されるコンピュータ記憶媒体上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールまたはデータ処理装置の動作を制御するためにコンピュータ記憶媒体上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装することができる。代替または追加として、プログラム命令は、適切なレシーバ装置に送信されデータ処理装置によって実行されるように情報を符号化するために生成される人工的に生成される伝搬信号、たとえば、機械によって生成される電気信号、光信号、または電磁信号上に符号化することができる。コンピュータ記憶媒体は、コンピュータ可読記憶デバイス、コンピュータ可読記憶基板、ランダムまたはシリアルアクセスメモリアレイまたはデバイス、あるいはそれらのうちの1つまたは複数の組合せであってもよく、あるいはそれらに含めることもできる。さらに、コンピュータ記憶媒体は、伝搬信号ではなく、人工的に生成される伝搬信号において符号化されるコンピュータプログラム命令の送信元または送信先であってもよい。コンピュータ記憶媒体は、1つまたは複数の別個の物理的構成要素または媒体、たとえば、複数のCD、ディスク、またはその他の記憶デバイスであってもよく、あるいはそれらに含めることもできる。
本明細書において説明する動作は、1つまたは複数のコンピュータ可読記憶デバイス上に記憶されたデータまたは他の送信元から受信されたデータに対してデータ処理装置によって実行される動作として実現することができる。
「データ処理装置」という用語は、一例としてプログラム可能な処理ユニット、コンピュータ、チップ上のシステム、パーソナルコンピュータシステム、デスクトップコンピュータ、ラップトップ、ノートブック、ネットブックコンピュータ、メインフレームコンピュータシステム、ハンドヘルドコンピュータ、ワークステーション、ネットワークコンピュータ、アプリケーションサーバ、記憶デバイス、またはカメラ、カムコーダ、セットトップボックス、モバイルデバイス、ビデオゲームコンソール、ハンドヘルドビデオゲームデバイスなどの家庭用電子機器、またはスイッチ、モデム、ルータなどの周辺デバイス、または一般的に任意の種類のコンピューティングデバイスもしくは電子デバイス、あるいはそれらの複数または組合せを含む、データを処理するためのあらゆる種類の装置、デバイス、および機械を包含する。この装置は、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含むことができる。この装置は、ハードウェアに加えて、当該コンピュータプログラム用の実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、またはそれらののうち1つまたは複数の組合せを構成するコードを含むこともできる。この装置および実行環境は、ウェブサービス、分散コンピューティングインフラストラクチャおよびグリッドコンピューティングインフラストラクチャなどの様々な異なるコンピューティングモデルインフラストラクチャを実現することができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られる)は、コンパイル言語またはインタプリタ言語、宣言言語または手続き言語を含む任意の形態のプログラミング言語で書くことができ、スタンドアロンプログラムとして、あるいはモジュール、構成要素、サブルーチン、オブジェクト、またはコンピューティング環境において使用するのに適した他のユニットとして、任意の形態で展開することができる。コンピュータプログラムは、必要ではないが、ファイルシステム内のファイルに対応することができる。プログラムは、他のプログラムまたはデータ(たとえば、マークアップ言語ドキュメントに記憶された1つまたは複数のスクリプト)を保持するファイルの一部に記憶することも、当該プログラム専用の単一のファイルに記憶することも、あるいは複数の協調的なファイル(たとえば、1つまたは複数のモジュール、サブプログラム、またはコードの各部を記憶するファイル)に記憶することもできる。コンピュータプログラムは、1つのコンピュータ上で実行されるように展開することもでき、あるいは1つのサイトに配置された複数のコンピュータまたは複数のサイトにわたって分散され通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することもできる。
本明細書において説明するプロセスおよび論理フローは、1つまたは複数のコンピュータプログラムを実行し、入力データを処理して出力を生成することによってアクションを実行する1つまたは複数のプログラム可能な処理ユニットによって実行することができる。プロセスおよび論理フローを専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行することもでき、装置を専用論理回路として実装することもできる。
コンピュータプログラムを実行するのに適した処理ユニットは、一例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数の処理ユニットを含む。一般に、処理ユニットは、読取り専用メモリまたはランダムアクセスメモリあるいはその両方から命令およびデータを受信する。コンピュータの基本的な要素は、命令に従ってアクションを実行するための処理ユニットと、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気ディスク、磁気光ディスク、または光ディスクを含むか、あるいはそのような大容量記憶デバイスからデータを受信するか、それにデータを転送するか、あるいはその両方を行うように動作可能に結合される。しかし、コンピュータはそのようなデバイスを有する必要がない。さらに、コンピュータは、別のデバイス、たとえば、モバイル電話、携帯情報端末(PDA)、モバイルオーディオプレーヤまたはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)レシーバ、ネットワークルーティングデバイス、またはポータブル記憶デバイス(たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ)などに埋め込むことができる。コンピュータプログラム命令およびデータを記憶するのに適したデバイスは、すべての形態の非揮発性メモリ、一例として半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、ならびに磁気ディスク、たとえば、内部ハードディスクまたは取外し可能なディスク、光磁気ディスク、ならびにCD-ROMディスクおよびDVD-ROMディスクを含む、メディアデバイスおよびメモリデバイスを含む。処理ユニットおよびメモリは、専用論理回路によって補助することもでき、あるいは専用論理回路に組み込むこともできる。
本明細書において説明する主題の実施形態は、ユーザとの相互作用を可能にするために、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、ならびにユーザがコンピュータに入力を与えることができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールを有するコンピュータ上で実施することができる。他の種類のデバイスを使用してユーザとの相互作用を実現することもでき、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックであってもよく、ユーザからの入力は、音響入力、発話入力、または触覚的入力を含む任意の形態で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送り、そのデバイスからドキュメントを受信することによってユーザと相互作用することができ、たとえば、ウェブブラウザから受信された要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送ることによってユーザと相互作用することができる。
本明細書において説明する主題の実施形態は、たとえば、データサーバとしてのバックエンド構成要素を含むか、あるいはミドルウェア構成要素、たとえば、アプリケーションサーバを含むか、あるいはフロントエンド構成要素、たとえば、ユーザが本明細書において説明する主題の実装形態と相互作用するのを可能にするグラフィカルユーザインターフェースもしくはウェブブラウザ、またはルーティングデバイス、たとえば、ネットワークルータを有するクライアントコンピュータを含むか、あるいは1つまたは複数のそのようなバックエンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムにおいて実施することができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信、たとえば、通信ネットワークによって相互接続することができる。通信ネットワークの例には、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、インターネットワーク(たとえば、インターネット)、およびピアツーピアネットワーク(たとえば、アドホックピアツーピアネットワーク)が含まれる。
コンピューティングシステムはクライアントとサーバとを含むことができる。クライアントとサーバは、一般に互いに離れており、通常、通信ネットワークを介して相互作用する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。いくつかの実施形態では、サーバが(たとえば、クライアントデバイスと相互作用するユーザにデータを表示し、このユーザからユーザ入力を受信することを目的として)クライアントデバイスにデータ(たとえば、HTMLページ)を送信する。クライアントデバイスにおいて生成されたデータ(たとえば、ユーザの相互作用の結果)をクライアントデバイスからサーバにおいて受信することができる。
1つまたは複数のコンピュータのシステムは、動作時にシステムに特定のアクションを実行させるシステム上にインストールされたソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せを有することによって、それらのアクションを実行するように構成することができる。1つまたは複数のコンピュータプログラムは、データ処理装置によって実行されたときに装置にアクションを実行させる命令を含むことによって特定のアクションを実行するように構成することができる。
本明細書は多数の特定の実装形態詳細情報を含むが、これらは任意の発明または請求可能なものの範囲に対する制限として解釈されるべきではなく、特定の発明の特定の実施形態に固有の特徴の説明として解釈されるべきである。本明細書において別々の実施形態の文脈で説明した特定の特徴を単一の実施形態において組み合わせて実施することもできる。逆に、単一の実施形態の文脈において説明した様々な特徴を複数の実施形態において別々に実施することもでき、あるいは任意に適切に部分的に組み合わせて実施することもできる。さらに、上記では各特徴が特定の組合せにおいて作用するものとして記載され、場合によっては最初はそのようなものとして請求されることがあるが、請求された組合せにおける1つまたは複数の特徴を場合によっては組合せから削除することができ、請求された組合せを部分的組合せまたは部分的組合せの変形例の対象とすることができる。
同様に、動作は図面において特定の順序で示されているが、このことは、そのような動作を図示された特定の順序で実行するかまたは番号通りに実行する必要があると理解されるべきではなく、所望の結果を実現するためにすべての図示された動作を実行する必要があると理解されるべきではない。いくつかの状況では、マルチタスキングおよび並列処理が有利である場合がある。さらに、上述の実施形態における様々なシステム構成要素の分離は、すべての実施形態においてそのような分離が必要であると理解されるべきではなく、一般に、上述のプログラム構成要素およびシステムを単一のソフトウェア製品として一体化することもでき、あるいは複数のソフトウェア製品としてパッケージングすることもできると理解されるべきである。
以上、主題の特定の実施形態について説明した。他の実施形態も特許請求の範囲内である。場合によっては、特許請求の範囲に記載されたアクションを異なる順序で実行することができ、それでも所望の結果を実現することができる。さらに、添付の図に示されているプロセスは、所望の結果を実現するうえで、必ずしも図示の特定の順序を必要とせず、また番号通りである必要はない。いくつかの実装形態では、マルチタスキングおよび並列処理が有利である場合がある。したがって、他の実施形態も以下の特許請求の範囲内である。
10 ユーザ
100 音声認識システム
110 音声入力
111 第1の部分
112 第2の部分
120 ユーザデバイス
140 発話認識エンジン
142 音声デコーダ
144 コンテキストモジュール
146 コンテキスト調整モジュール
148 コンテキスト
150 検索クエリ
160 検索エンジン
170 検索結果
180 ネットワーク
210 コンテキスト
220 コンテキスト
310 音声入力
311 部分
312 部分

Claims (16)

  1. ユーザから現在の音声入力を、自動発話認識(ASR)システムにおいて受信するステップであって、前記現在の音声入力が少なくとも2つのコンテキストに関連付けられ、前記少なくとも2つのコンテキストの各コンテキストが、前記音声入力がそれぞれのコンテキストに関連付けられる可能性を示すそれぞれの重みを有する、ステップと、
    前記ユーザからの前記現在の音声入力の中間認識結果を、前記ASRシステムによって生成するステップと、
    前記中間認識結果に基づいて前記少なくとも2つのコンテキストの前記それぞれの重みを、前記ASRシステムによって調整するステップであって、前記中間認識結果に基づいて前記少なくとも2つのコンテキストの前記それぞれの重みを調整するステップが、
    前記中間認識結果中の特定のキーワードを識別することによって、前記少なくとも2つのコンテキストのうちの最も関連性の高い1つのコンテキストを決定するステップと、
    前記少なくとも2つのコンテキストのうちの前記最も関連性の高い1つのコンテキストの重みを大きくするステップとを含む、ステップと、
    言語モデルを使用して前記現在の音声入力を、前記ASRシステムによってトランスクライブするステップであって、前記言語モデルが前記調整された重みに基づいて前記少なくとも2つのコンテキストのうちの1つの方に前記音声入力のトランスクリプションを偏らせる、ステップと
    を含む方法。
  2. 前記言語モデルがNグラムモデルを含む、請求項1に記載の方法。
  3. 前記現在の音声入力に関連付けられる前記少なくとも2つのコンテキストの前記それぞれの重みを調整するステップが、前記少なくとも2つのコンテキストのうちの少なくとも1つに対するそれぞれの基準重みをブーストするステップを含む、請求項1に記載の方法。
  4. 前記ユーザからの前記現在の音声入力が、前記現在の音声入力の前記トランスクリプションを使用してアクションを実行するためにソフトウェアアプリケーションを起動するように構成される、請求項1に記載の方法。
  5. 前記ユーザと相互作用するダイアログシステムに前記現在の音声入力の前記トランスクリプションを与えるステップをさらに含む、請求項1に記載の方法。
  6. 前記現在の音声入力に関連付けられる前記少なくとも2つのコンテキストのうちの少なくとも1つが、前記現在の音声入力の過去の期間内の前記ユーザからの1つまたは複数の以前の音声入力に基づく、請求項1に記載の方法。
  7. 前記少なくとも2つのコンテキストのうちの少なくとも1つが、特定のカテゴリに関連付けられる、名前を有するエンティティを含む、請求項1に記載の方法。
  8. 前記ASRシステムは、前記ユーザに関連付けられるコンピューティングデバイスと通信するサーバ上にあり、前記コンピューティングデバイスが、前記ユーザによって発話された現在の音声入力を取得するとともに、前記ASRシステムに取得された音声入力を送信するように構成される、請求項1に記載の方法。
  9. 自動発話認識(ASR)システムであって、
    データ処理ハードウェアと、
    前記データ処理ハードウェアと通信し、前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに動作を実行させる命令を格納するメモリハードウェアとを備え、前記動作は、
    ユーザから現在の音声入力を受信する動作であって、前記現在の音声入力が少なくとも2つのコンテキストに関連付けられ、前記少なくとも2つのコンテキストの各コンテキストが、前記音声入力がそれぞれのコンテキストに関連付けられる可能性を示すそれぞれの重みを有する、動作と、
    前記ユーザからの前記現在の音声入力の中間認識結果を生成する動作と、
    前記中間認識結果に基づいて前記少なくとも2つのコンテキストの前記それぞれの重みを調整する動作であって、前記中間認識結果に基づいて前記少なくとも2つのコンテキストの前記それぞれの重みを調整する動作が、
    前記中間認識結果中の特定のキーワードを識別することによって、前記少なくとも2つのコンテキストのうちの最も関連性の高い1つのコンテキストを決定する動作と、
    前記少なくとも2つのコンテキストのうちの前記最も関連性の高い1つのコンテキストの重みを大きくする動作とを含む、動作と、
    言語モデルを使用して前記現在の音声入力をトランスクライブする動作であって、前記言語モデルが前記調整された重みに基づいて前記少なくとも2つのコンテキストのうちの1つの方に前記音声入力のトランスクリプションを偏らせる、動作とを含む、ASRシステム。
  10. 前記言語モデルがNグラムモデルを含む、請求項9に記載のASRシステム。
  11. 前記現在の音声入力に関連付けられる前記少なくとも2つのコンテキストの前記それぞれの重みを調整する動作が、前記少なくとも2つのコンテキストのうちの少なくとも1つに対するそれぞれの基準重みをブーストする動作を含む、請求項10に記載のASRシステム。
  12. 前記ユーザからの前記現在の音声入力が、前記現在の音声入力の前記トランスクリプションを使用してアクションを実行するためにソフトウェアアプリケーションを起動するように構成される、請求項9に記載のASRシステム。
  13. 前記ユーザと相互作用するダイアログシステムに前記現在の音声入力の前記トランスクリプションを与える動作をさらに含む、請求項9に記載のASRシステム。
  14. 前記現在の音声入力に関連付けられる前記少なくとも2つのコンテキストのうちの少なくとも1つが、前記現在の音声入力の過去の期間内の前記ユーザからの1つまたは複数の以前の音声入力に基づく、請求項9に記載のASRシステム。
  15. 前記少なくとも2つのコンテキストのうちの少なくとも1つが、特定のカテゴリに関連付けられる、名前を有するエンティティを含む、請求項9に記載のASRシステム。
  16. 前記データ処理ハードウェアおよび前記メモリハードウェアが、前記ユーザに関連付けられるコンピューティングデバイスと通信するサーバ上にあり、前記コンピューティングデバイスが、前記ユーザによって発話された現在の音声入力を取得するとともに、前記ASRシステムに前記現在の音声入力を送信するように構成される、請求項9に記載のASRシステム。
JP2019227504A 2016-01-06 2019-12-17 音声認識システム Active JP6965331B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021137163A JP2021182168A (ja) 2016-01-06 2021-08-25 音声認識システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/989,642 US10049666B2 (en) 2016-01-06 2016-01-06 Voice recognition system
US14/989,642 2016-01-06
JP2018534820A JP6637604B2 (ja) 2016-01-06 2016-11-30 音声認識システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018534820A Division JP6637604B2 (ja) 2016-01-06 2016-11-30 音声認識システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021137163A Division JP2021182168A (ja) 2016-01-06 2021-08-25 音声認識システム

Publications (2)

Publication Number Publication Date
JP2020042313A JP2020042313A (ja) 2020-03-19
JP6965331B2 true JP6965331B2 (ja) 2021-11-10

Family

ID=57589199

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2018534820A Active JP6637604B2 (ja) 2016-01-06 2016-11-30 音声認識システム
JP2019227504A Active JP6965331B2 (ja) 2016-01-06 2019-12-17 音声認識システム
JP2021137163A Pending JP2021182168A (ja) 2016-01-06 2021-08-25 音声認識システム
JP2023084794A Pending JP2023099706A (ja) 2016-01-06 2023-05-23 音声認識システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018534820A Active JP6637604B2 (ja) 2016-01-06 2016-11-30 音声認識システム

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2021137163A Pending JP2021182168A (ja) 2016-01-06 2021-08-25 音声認識システム
JP2023084794A Pending JP2023099706A (ja) 2016-01-06 2023-05-23 音声認識システム

Country Status (7)

Country Link
US (5) US10049666B2 (ja)
EP (2) EP3822965A1 (ja)
JP (4) JP6637604B2 (ja)
KR (2) KR102268087B1 (ja)
CN (2) CN112992146A (ja)
DE (2) DE102016125831B4 (ja)
WO (1) WO2017119965A1 (ja)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN108447471B (zh) * 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
CN107644095A (zh) * 2017-09-28 2018-01-30 百度在线网络技术(北京)有限公司 用于搜索信息的方法和装置
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
CN108182943B (zh) * 2017-12-29 2021-03-26 北京奇艺世纪科技有限公司 一种智能设备控制方法、装置及智能设备
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10629205B2 (en) * 2018-06-12 2020-04-21 International Business Machines Corporation Identifying an accurate transcription from probabilistic inputs
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11627012B2 (en) 2018-10-09 2023-04-11 NewTekSol, LLC Home automation management system
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
EP4276816A3 (en) * 2018-11-30 2024-03-06 Google LLC Speech processing
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
WO2021040092A1 (ko) 2019-08-29 2021-03-04 엘지전자 주식회사 음성 인식 서비스 제공 방법 및 장치
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11610588B1 (en) * 2019-10-28 2023-03-21 Meta Platforms, Inc. Generating contextually relevant text transcripts of voice recordings within a message thread
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6444211B2 (en) 1991-04-03 2002-09-03 Connaught Laboratories, Inc. Purification of a pertussis outer membrane protein
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5986650A (en) 1996-07-03 1999-11-16 News America Publications, Inc. Electronic television program guide schedule system and method with scan feature
US6418431B1 (en) 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6360201B1 (en) * 1999-06-08 2002-03-19 International Business Machines Corp. Method and apparatus for activating and deactivating auxiliary topic libraries in a speech dictation system
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US20020157116A1 (en) * 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
AU2003278431A1 (en) * 2002-11-22 2004-06-18 Koninklijke Philips Electronics N.V. Speech recognition device and method
KR20040055417A (ko) * 2002-12-21 2004-06-26 한국전자통신연구원 대화체 연속음성인식 장치 및 방법
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法
JP2006050568A (ja) 2004-07-06 2006-02-16 Ricoh Co Ltd 画像処理装置、プログラム及び画像処理方法
US7433819B2 (en) * 2004-09-10 2008-10-07 Scientific Learning Corporation Assessing fluency based on elapsed time
US7195999B2 (en) 2005-07-07 2007-03-27 Micron Technology, Inc. Metal-substituted transistor gates
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
EP2050456A4 (en) 2006-08-09 2013-01-23 Mitsubishi Tanabe Pharma Corp COMPRESSED
CN101266793B (zh) 2007-03-14 2011-02-02 财团法人工业技术研究院 通过对话回合间上下文关系来减少辨识错误的装置与方法
US8788267B2 (en) * 2009-09-10 2014-07-22 Mitsubishi Electric Research Laboratories, Inc. Multi-purpose contextual control
TWI403663B (zh) 2010-07-20 2013-08-01 Foxsemicon Integrated Tech Inc Led發光裝置
US8417530B1 (en) 2010-08-20 2013-04-09 Google Inc. Accent-influenced search results
IL209008A (en) * 2010-10-31 2015-09-24 Verint Systems Ltd A system and method for analyzing ip traffic of targets
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US8650031B1 (en) * 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
CA2791277C (en) * 2011-09-30 2019-01-15 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9256396B2 (en) * 2011-10-10 2016-02-09 Microsoft Technology Licensing, Llc Speech recognition for context switching
US8909512B2 (en) * 2011-11-01 2014-12-09 Google Inc. Enhanced stability prediction for incrementally generated speech recognition hypotheses based on an age of a hypothesis
US9152223B2 (en) 2011-11-04 2015-10-06 International Business Machines Corporation Mobile device with multiple security domains
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8515750B1 (en) 2012-06-05 2013-08-20 Google Inc. Realtime acoustic adaptation using stability measures
US9043205B2 (en) 2012-06-21 2015-05-26 Google Inc. Dynamic language model
US20140011465A1 (en) 2012-07-05 2014-01-09 Delphi Technologies, Inc. Molded conductive plastic antenna
US9380833B2 (en) 2012-07-12 2016-07-05 Diana Irving Shoe insert
US8880398B1 (en) 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
WO2014039106A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
US20140122069A1 (en) * 2012-10-30 2014-05-01 International Business Machines Corporation Automatic Speech Recognition Accuracy Improvement Through Utilization of Context Analysis
EP2912567A4 (en) * 2012-12-11 2016-05-18 Nuance Communications Inc SYSTEM AND METHODS FOR VIRTUAL AGENT RECOMMENDATION FOR MULTIPLE PEOPLE
CN103871424A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN103064936B (zh) * 2012-12-24 2018-03-30 北京百度网讯科技有限公司 一种基于语音输入的图像信息提取分析方法及装置
JP2014240940A (ja) * 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
US20150005801A1 (en) 2013-06-27 2015-01-01 Covidien Lp Microcatheter system
PL3033819T3 (pl) 2013-08-15 2019-07-31 Fontem Holdings 4 B.V. Sposób, system i urządzenie do bezprzełącznikowego wykrywania i ładowania
EP2862164B1 (en) * 2013-08-23 2017-05-31 Nuance Communications, Inc. Multiple pass automatic speech recognition
US10565984B2 (en) 2013-11-15 2020-02-18 Intel Corporation System and method for maintaining speech recognition dynamic dictionary
EP3107274B1 (en) * 2014-02-13 2020-12-16 Nec Corporation Communication device, communication system, and communication method
US9679558B2 (en) * 2014-05-15 2017-06-13 Microsoft Technology Licensing, Llc Language modeling for conversational understanding domains using semantic web resources
US20150340024A1 (en) * 2014-05-23 2015-11-26 Google Inc. Language Modeling Using Entities
US20160018085A1 (en) 2014-07-18 2016-01-21 Soraa, Inc. Compound light control lens field
US10628483B1 (en) * 2014-08-07 2020-04-21 Amazon Technologies, Inc. Entity resolution with ranking
US9552816B2 (en) * 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US9805713B2 (en) * 2015-03-13 2017-10-31 Google Inc. Addressing missing features in models
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10491967B1 (en) * 2015-12-21 2019-11-26 Amazon Technologies, Inc. Integrating a live streaming video service with external computing systems
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system

Also Published As

Publication number Publication date
KR102150509B1 (ko) 2020-09-01
CN112992146A (zh) 2021-06-18
WO2017119965A1 (en) 2017-07-13
EP3378061B1 (en) 2021-01-06
DE102016125831A1 (de) 2017-07-06
DE102016125831B4 (de) 2022-02-03
EP3822965A1 (en) 2021-05-19
US11410660B2 (en) 2022-08-09
JP2023099706A (ja) 2023-07-13
US20190214012A1 (en) 2019-07-11
KR20200103876A (ko) 2020-09-02
JP2019504358A (ja) 2019-02-14
JP2020042313A (ja) 2020-03-19
US11996103B2 (en) 2024-05-28
KR102268087B1 (ko) 2021-06-22
US10643617B2 (en) 2020-05-05
US20200227046A1 (en) 2020-07-16
US20220343915A1 (en) 2022-10-27
US20170193999A1 (en) 2017-07-06
DE202016008203U1 (de) 2017-04-27
JP2021182168A (ja) 2021-11-25
EP3378061A1 (en) 2018-09-26
US10049666B2 (en) 2018-08-14
US10269354B2 (en) 2019-04-23
CN107039040A (zh) 2017-08-11
CN107039040B (zh) 2021-02-12
US20180190293A1 (en) 2018-07-05
JP6637604B2 (ja) 2020-01-29
KR20180091056A (ko) 2018-08-14

Similar Documents

Publication Publication Date Title
JP6965331B2 (ja) 音声認識システム
US11398236B2 (en) Intent-specific automatic speech recognition result generation
JP6535349B2 (ja) 以前の対話行為を使用する自然言語処理における文脈解釈
US10964312B2 (en) Generation of predictive natural language processing models
US8417530B1 (en) Accent-influenced search results
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
US20130132079A1 (en) Interactive speech recognition
US9922650B1 (en) Intent-specific automatic speech recognition result generation
US10152298B1 (en) Confidence estimation based on frequency
US11289075B1 (en) Routing of natural language inputs to speech processing applications
US20170200455A1 (en) Suggested query constructor for voice actions
US11043215B2 (en) Method and system for generating textual representation of user spoken utterance
US11756538B1 (en) Lower latency speech processing
US20240185842A1 (en) Interactive decoding of words from phoneme score distributions
US11380308B1 (en) Natural language processing
US11893994B1 (en) Processing optimization using machine learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210825

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210825

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210906

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211020

R150 Certificate of patent or registration of utility model

Ref document number: 6965331

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150