JP2021530749A - 自動音声認識のためのコンテキスト非正規化 - Google Patents
自動音声認識のためのコンテキスト非正規化 Download PDFInfo
- Publication number
- JP2021530749A JP2021530749A JP2021517614A JP2021517614A JP2021530749A JP 2021530749 A JP2021530749 A JP 2021530749A JP 2021517614 A JP2021517614 A JP 2021517614A JP 2021517614 A JP2021517614 A JP 2021517614A JP 2021530749 A JP2021530749 A JP 2021530749A
- Authority
- JP
- Japan
- Prior art keywords
- denormalizers
- denormalizer
- list
- voice input
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims description 39
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 241000950638 Symphysodon discus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000009125 cardiac resynchronization therapy Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- HOQADATXFBOEGG-UHFFFAOYSA-N isofenphos Chemical compound CCOP(=S)(NC(C)C)OC1=CC=CC=C1C(=O)OC(C)C HOQADATXFBOEGG-UHFFFAOYSA-N 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
自動音声認識(ASR)システムでの複数の非正規化器の使用は、文法的に正しく、可読性について最適化されたテキストを出力するために最重要である。ASRモジュールは、テキストはすべての句読点が削除され、大文字は含まず、すべての数字は言語化されたテキストを含む(例えば、「177」ではなく「百七十七(one−hundred and seventy−seven)」)といった、「正規化」されたテキストのコーパスでトレーニングされる。結果として、トレーニングされたASRモジュールは、推論中、発話を受信すると、最初に、「正規化された」テキストを示す未処理の音声認識結果(例えば、未処理の転写)を生成する。可読性のために最適化された転写をユーザに提供するために、ASRモジュールは、複数の非正規化器からなるリストを使用して、未処理の音声認識結果を可読性をより高めた形式に変換する。ここで、非正規化器からなるセットの最初の非正規化器は、未処理の音声認識結果を受け取り、以降の各非正規化子は、複数の非正規化器からなるセット内の前の非正規化器の対応する出力を入力として受け取る。各非正規化器は、テキストの入力に対して非正規化のいくつかの態様を実行する、対応する非正規化規則または非正規化モデルに関連付けられている。例えば、大文字化非正規化規則は、「メッセージをジョンに送信する(send a message to john)」というフレーズを「メッセージをジョンに送信する(Send a message to John)」に変換してもよく、言語化非正規化規則は、すべての言語化されたテキスト(例えば「六十五(sixty−five)」)を書面形式(例えば、「65」)に変換し、非明示的句読点非正規化規則は、句読点記号を追加し(例えば、「ありがとうございます先生(thank you sir)」を「ありがとうございます、先生(thank you, sir)」に変換する)、明示的句読点非正規化規則は、句読点記号を生成し(例えば、ありがとう感嘆符を「ありがとう!」に変換する)、翻字非正規化器は、テキストを対応する字に翻字し、表意文字的非正規化器は、対応するテキスト(例えば、「:)」)から表意文字(例えば、スマイリーフェイスの絵文字)を生成し、不快単語非正規化器は、不快な単語中の1つ以上の文字を星、アスタリスク、および/または他の字で置き換えることによって、不快な単語を覆い隠す。
Claims (30)
- 自動音声認識(ASR)モジュール(300)のデータ処理ハードウェア(710)において、ユーザからの音声入力(104)を受信することであって、前記ASRモジュール(300)は、前記ASRモジュール(300)によって生成された正規化されたテキストの非正規化に適用するための複数の非正規化器からなる事前定義されたセット(350)を含む、受信することと、
前記データ処理ハードウェア(710)によって、前記音声入力(104)に関連付けられているコンテキストメタデータ(110)を取得することと、
前記データ処理ハードウェア(710)によって、前記音声入力(104)に対応する未処理の音声認識結果(312)を生成することであって、生成された前記未処理の音声認識結果(312)は正規化されたテキストを含む、生成することと、
前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)に基づいて、前記データ処理ハードウェア(710)によって、生成された前記未処理の音声認識結果(312)に適用する1つまたは複数の非正規化器(352)からなるリストを選択することと、
前記データ処理ハードウェア(710)によって、生成された前記未処理の音声認識結果(312)に順に前記1つまたは複数の非正規化器(352)からなる前記リストを適用することにより、生成された前記未処理の音声認識結果(312)を非正規化されたテキスト(322)へと非正規化することと、
を含む方法(600)。 - 前記音声入力(104)を受信することは、前記ユーザに関連付けられているユーザデバイス(200)から前記音声入力(104)に対応するオーディオデータ(103)を受信することを含み、
前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を取得することは、前記音声入力(104)の前記オーディオデータ(103)が受信されたときに、前記ユーザデバイス(200)から前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を受信することを含む、
請求項1に記載の方法(600)。 - 前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を取得することは、
前記音声入力(104)が受信されたときに、前記ユーザに関連付けられているユーザ識別子(12)を受信することと、
前記ユーザ識別子(12)を使用して、前記データ処理ハードウェア(710)と通信するメモリハードウェア(146、206)から前記コンテキストメタデータ(110)を取り出すことと、を含む、
請求項1または2に記載の方法(600)。 - 前記コンテキストメタデータ(110)は、前記音声入力(104)に関連付けられている音声認識カテゴリと、前記ユーザに関連付けられているユーザデバイス(200)で稼働しているアプリケーションと、前記音声入力(104)が受信された時の前記ユーザの場所と、前記ユーザを識別するユーザ識別子(12)と、前記ユーザに関連付けられている人口統計情報と、テキストの非正規化についてのユーザ嗜好と、のうちの少なくとも1つを含む、
請求項1から3のいずれか一項に記載の方法(600)。 - 前記1つまたは複数の非正規化器(352)からなる前記リストを選択することは、複数の非正規化器からなる前記事前定義されたセット(350)により複数の非正規化器からなるデフォルトリスト(348)を変更することを含み、該変更することは、複数の非正規化器からなる前記デフォルトリスト(348)から1つまたは複数の非正規化器(352)を除去することと、複数の非正規化器からなる前記事前定義されたセット(350)からの1つまたは複数の非正規化器(352)を複数の非正規化器からなる前記デフォルトリスト(348)に追加することと、のうちの少なくとも1つによって行われる、
請求項1から4のいずれか一項に記載の方法(600)。 - 前記データ処理ハードウェア(710)によって、前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)をコンテキストサーバ(400)に提供することであって、前記コンテキストサーバ(400)は、前記コンテキストメタデータ(110)に基づいて、生成された前記未処理の音声認識結果(312)を前記非正規化されたテキスト(322)へと非正規化するための非正規化命令(410)を生成するように構成されている、提供することと、
前記データ処理ハードウェア(710)において、前記コンテキストサーバ(400)から前記非正規化命令(410)を受信することと、をさらに含み、
前記1つまたは複数の非正規化器(352)からなる前記リストを選択することは、前記コンテキストサーバ(400)から受信した前記非正規化命令(410)を使用して、前記1つまたは複数の非正規化器(352)からなる前記リストを選択することを含む、
請求項1から5のいずれか一項に記載の方法(600)。 - 前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を前記コンテキストサーバ(400)に提供することは、前記音声入力(104)または前記音声入力(104)に関連付けられているオーディオデータ(103)を前記コンテキストサーバ(400)に提供することなく、前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を前記コンテキストサーバ(400)に提供することを含む、
請求項6に記載の方法(600)。 - 前記非正規化命令(410)は、
複数の非正規化器からなるデフォルトリスト(348)の開始位置に先頭追加する新たな非正規化器を識別する先頭追加非正規化器命令であって、複数の非正規化器からなる前記デフォルトリスト(348)は、前記コンテキストメタデータ(110)がない場合に、生成された前記未処理の音声認識結果(312)に順に適用するための複数の非正規化器からなる前記事前定義されたセット(350)の一部を含む、先頭追加非正規化器命令と、
複数の非正規化器からなる前記デフォルトリスト(348)の終了位置に後尾追加する新たな非正規化器を識別する後尾追加非正規化器命令と、
複数の非正規化器からなる前記デフォルトリスト(348)から除去される既存の非正規化器を識別する除去非正規化器命令と、
複数の非正規化器からなる前記デフォルトリスト(348)において既存の非正規化器を置き換えるために、新たな非正規化器を識別する置換非正規化器命令と、
複数の非正規化器からなる前記デフォルトリスト(348)に追加する新たな非正規化器を識別し、前記新たな非正規化器に先行または後続する、複数の非正規化器からなる前記デフォルトリスト(348)における既存の非正規化器を識別する追加非正規化器命令と、を含む命令のうちの1つまたは複数の命令を含む、
請求項6または7に記載の方法(600)。 - 前記非正規化命令(410)は、複数の非正規化器からなるデフォルトリスト(348)を複数の非正規化器(352)からなる新たなリストで上書きする上書き命令を含み、複数の非正規化器(352)からなる前記新たなリストは、前記1つまたは複数の非正規化器(352)からなる前記選択されたリストを含む、
請求項6から8のいずれか一項に記載の方法(600)。 - 前記コンテキストサーバ(400)は、
前記ASRモジュール(300)のクライアントに固有の1つまたは複数のカスタマイズの非正規化規則(402)を受信することと、
前記クライアントに固有の前記1つまたは複数のカスタマイズの非正規化規則(402)に基づいてカスタマイズの非正規化器をコンパイルすることと、を行うように構成されている、
請求項6から9のいずれか一項に記載の方法(600)。 - 前記1つまたは複数の非正規化器(352)からなる前記選択されたリストを使用することにより、生成された前記未処理の音声認識結果(312)を前記非正規化されたテキスト(322)へと非正規化することは、
対応するキー(344)を使用して、前記データ処理ハードウェア(710)と通信するメモリハードウェア(146、206)から前記1つまたは複数の非正規化器(352)からなる前記選択されたリストにおける各非正規化器を取り出すことと、
前記メモリハードウェア(146、206)から取り出された前記1つまたは複数の非正規化器(352)からなる前記選択されたリストにおける各非正規化器を、生成された前記未処理の音声認識結果(312)に順に適用することと、を含む、
請求項1から10のいずれか一項に記載の方法(600)。 - 前記メモリハードウェア(146、206)は前記ASRモジュール(300)にある、
請求項11に記載の方法(600)。 - 前記メモリハードウェア(146、206)は、前記ASRモジュール(300)から離れて配置されたリポジトリ(440)を含む、
請求項11または12に記載の方法(600)。 - 生成された前記未処理の音声認識結果(312)を前記非正規化されたテキスト(322)へと非正規化した後、前記非正規化されたテキスト(322)を前記ASRモジュール(300)からクライアントデバイス(200)に送信し、前記非正規化されたテキスト(322)は前記クライアントデバイス(200)によって受信されたとき、前記クライアントデバイス(200)に、前記クライアントデバイス(200)の表示画面(212)に前記非正規化されたテキスト(322)を表示させるように構成されていることをさらに含む、
請求項1から13のいずれか一項に記載の方法(600)。 - 前記非正規化されたテキスト(322)を前記ASRモジュール(300)から送信することは、前記非正規化されたテキスト(322)を前記クライアントデバイス(200)にリアルタイムでストリーミングすることを含む、
請求項14に記載の方法(600)。 - 自動音声認識(ASR)モジュール(300)のデータ処理ハードウェア(710)であって、前記ASRモジュール(300)は、前記ASRモジュール(300)によって生成された正規化されたテキストの非正規化に適用するための複数の非正規化器からなる事前定義されたセット(350)を含む、データ処理ハードウェア(710)と、
命令を記憶するとともに前記データ処理ハードウェア(710)と通信する前記ASRモジュール(300)のメモリハードウェア(146、206)と、を含み、前記命令は、前記データ処理ハードウェア(710)によって実行されるとき、前記データ処理ハードウェア(710)に、
ユーザからの音声入力(104)を受信することと、
前記音声入力(104)に関連付けられているコンテキストメタデータ(110)を取得することと、
前記音声入力(104)に対応する未処理の音声認識結果(312)を生成することであって、生成された前記未処理の音声認識結果(312)は正規化されたテキストを含む、生成することと、
前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)に基づいて、生成された前記未処理の音声認識結果(312)に適用する1つまたは複数の非正規化器(352)からなるリストを選択することと、
生成された前記未処理の音声認識結果(312)に順に前記1つまたは複数の非正規化器(352)からなる前記リストを適用することにより、生成された前記未処理の音声認識結果(312)を非正規化されたテキスト(322)へと非正規化することと、を含む動作を実行させる、
システム(100)。 - 前記音声入力(104)を受信することは、前記ユーザに関連付けられているユーザデバイス(200)から前記音声入力(104)に対応するオーディオデータ(103)を受信することを含み、
前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を取得することは、前記音声入力(104)の前記オーディオデータ(103)が受信されたときに、前記ユーザデバイス(200)から前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を受信することを含む、
請求項16に記載のシステム(100)。 - 前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を取得することは、
前記音声入力(104)が受信されたときに、前記ユーザに関連付けられているユーザ識別子(12)を受信することと、
前記ユーザ識別子(12)を使用して、前記メモリハードウェア(146、206)から前記コンテキストメタデータ(110)を取り出すことと、を含む、
請求項16または17に記載のシステム(100)。 - 前記コンテキストメタデータ(110)は、前記音声入力(104)に関連付けられている音声認識カテゴリと、前記ユーザに関連付けられているユーザデバイス(200)で稼働しているアプリケーションと、前記音声入力(104)が受信された時の前記ユーザの場所と、前記ユーザを識別するユーザ識別子(12)と、前記ユーザに関連付けられている人口統計情報と、テキストの非正規化についてのユーザ嗜好と、のうちの少なくとも1つを含む、
請求項16から18のいずれか一項に記載のシステム(100)。 - 前記1つまたは複数の非正規化器(352)からなる前記リストを選択することは、複数の非正規化器からなる前記事前定義されたセット(350)により複数の非正規化器からなるデフォルトリスト(348)を変更することを含み、該変更することは、複数の非正規化器からなる前記デフォルトリスト(348)から1つまたは複数の非正規化器(352)を除去することと、複数の非正規化器からなる前記事前定義されたセット(350)からの1つまたは複数の非正規化器(352)を複数の非正規化器からなる前記デフォルトリスト(348)に追加することと、のうちの少なくとも1つによって行われる、
請求項16から19のいずれか一項に記載のシステム(100)。 - 前記動作は、
前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)をコンテキストサーバ(400)に提供することであって、前記コンテキストサーバ(400)は、前記コンテキストメタデータ(110)に基づいて、生成された前記未処理の音声認識結果(312)を前記非正規化されたテキスト(322)へと非正規化するための非正規化命令(410)を生成するように構成されている、提供することと、
前記コンテキストサーバ(400)から前記非正規化命令(410)を受信することと、をさらに含み、
前記1つまたは複数の非正規化器(352)からなる前記リストを選択することは、前記コンテキストサーバ(400)から受信した前記非正規化命令(410)を使用して、前記1つまたは複数の非正規化器(352)からなる前記リストを選択することを含む、
請求項16から20のいずれか一項に記載のシステム(100)。 - 前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を前記コンテキストサーバ(400)に提供することは、前記音声入力(104)または前記音声入力(104)に関連付けられているオーディオデータ(103)を前記コンテキストサーバ(400)に提供することなく、前記音声入力(104)に関連付けられている前記コンテキストメタデータ(110)を前記コンテキストサーバ(400)に提供することを含む、
請求項21に記載のシステム(100)。 - 前記非正規化命令(410)は、
複数の非正規化器からなるデフォルトリスト(348)の開始位置に先頭追加する新たな非正規化器を識別する先頭追加非正規化器命令であって、複数の非正規化器からなる前記デフォルトリスト(348)は、前記コンテキストメタデータ(110)がない場合に、生成された前記未処理の音声認識結果(312)に順に適用するための複数の非正規化器からなる前記事前定義されたセット(350)の一部を含む、先頭追加非正規化器命令と、
複数の非正規化器からなる前記デフォルトリスト(348)の終了位置に後尾追加する新たな非正規化器を識別する後尾追加非正規化器命令と、
複数の非正規化器からなる前記デフォルトリスト(348)から除去される既存の非正規化器を識別する除去非正規化器命令と、
複数の非正規化器からなる前記デフォルトリスト(348)において既存の非正規化器を置き換えるために、新たな非正規化器を識別する置換非正規化器命令と、
複数の非正規化器からなる前記デフォルトリスト(348)に追加する新たな非正規化器を識別し、前記新たな非正規化器に先行または後続する、複数の非正規化器からなる前記デフォルトリスト(348)における既存の非正規化器を識別する追加非正規化器命令と、を含む命令のうちの1つまたは複数の命令を含む、
請求項21または22に記載のシステム(100)。 - 前記非正規化命令(410)は、複数の非正規化器からなるデフォルトリスト(348)を複数の非正規化器(352)からなる新たなリストで上書きする上書き命令を含み、複数の非正規化器(352)からなる前記新たなリストは、前記1つまたは複数の非正規化器(352)からなる前記選択されたリストを含む、
請求項21から23のいずれか一項に記載のシステム(100)。 - 前記コンテキストサーバ(400)は、
前記ASRモジュール(300)のクライアントに固有の1つまたは複数のカスタマイズの非正規化規則(402)を受信することと、
前記クライアントに固有の前記1つまたは複数のカスタマイズの非正規化規則(402)に基づいてカスタマイズの非正規化器をコンパイルすることと、を行うように構成されている、
請求項21から24のいずれか一項に記載のシステム(100)。 - 前記1つまたは複数の非正規化器(352)からなる前記選択されたリストを使用することにより、生成された前記未処理の音声認識結果(312)を前記非正規化されたテキスト(322)へと非正規化することは、
対応するキー(344)を使用して、前記メモリハードウェア(146、206)から前記1つまたは複数の非正規化器(352)からなる前記選択されたリストにおける各非正規化器を取り出すことと、
前記メモリハードウェア(146、206)から取り出された前記1つまたは複数の非正規化器(352)からなる前記選択されたリストにおける各非正規化器を、生成された前記未処理の音声認識結果(312)に順に適用することと、を含む、
請求項16から25のいずれか一項に記載のシステム(100)。 - 前記メモリハードウェア(146、206)は前記ASRモジュール(300)にある、
請求項26に記載のシステム(100)。 - 前記メモリハードウェア(146、206)は、前記ASRモジュール(300)から離れて配置されたリポジトリ(440)を含む、
請求項26または27に記載のシステム(100)。 - 前記動作は、生成された前記未処理の音声認識結果(312)を前記非正規化されたテキスト(322)へと非正規化した後、前記非正規化されたテキスト(322)を前記ASRモジュール(300)からクライアントデバイス(200)に送信し、前記非正規化されたテキスト(322)は前記クライアントデバイス(200)によって受信されたとき、前記クライアントデバイス(200)に、前記クライアントデバイス(200)の表示画面(212)に前記非正規化されたテキスト(322)を表示させるように構成されていることをさらに含む、
請求項16から28のいずれか一項に記載のシステム(100)。 - 前記非正規化されたテキスト(322)を前記ASRモジュール(300)から送信することは、前記非正規化されたテキスト(322)を前記クライアントデバイス(200)にリアルタイムでストリーミングすることを含む、
請求項29に記載のシステム(100)。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021153776A JP7230145B2 (ja) | 2018-11-16 | 2021-09-22 | 自動音声認識のためのコンテキスト非正規化 |
JP2023021326A JP7488382B2 (ja) | 2018-11-16 | 2023-02-15 | 自動音声認識のためのコンテキスト非正規化 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/192,953 | 2018-11-16 | ||
US16/192,953 US10789955B2 (en) | 2018-11-16 | 2018-11-16 | Contextual denormalization for automatic speech recognition |
PCT/US2019/049401 WO2020101789A1 (en) | 2018-11-16 | 2019-09-03 | Contextual denormalization for automatic speech recognition |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021153776A Division JP7230145B2 (ja) | 2018-11-16 | 2021-09-22 | 自動音声認識のためのコンテキスト非正規化 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6950116B1 JP6950116B1 (ja) | 2021-10-13 |
JP2021530749A true JP2021530749A (ja) | 2021-11-11 |
Family
ID=67998715
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021517614A Active JP6950116B1 (ja) | 2018-11-16 | 2019-09-03 | 自動音声認識のためのコンテキスト非正規化 |
JP2021153776A Active JP7230145B2 (ja) | 2018-11-16 | 2021-09-22 | 自動音声認識のためのコンテキスト非正規化 |
JP2023021326A Active JP7488382B2 (ja) | 2018-11-16 | 2023-02-15 | 自動音声認識のためのコンテキスト非正規化 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021153776A Active JP7230145B2 (ja) | 2018-11-16 | 2021-09-22 | 自動音声認識のためのコンテキスト非正規化 |
JP2023021326A Active JP7488382B2 (ja) | 2018-11-16 | 2023-02-15 | 自動音声認識のためのコンテキスト非正規化 |
Country Status (5)
Country | Link |
---|---|
US (3) | US10789955B2 (ja) |
EP (2) | EP4375871A3 (ja) |
JP (3) | JP6950116B1 (ja) |
KR (1) | KR20210046755A (ja) |
WO (1) | WO2020101789A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10789955B2 (en) * | 2018-11-16 | 2020-09-29 | Google Llc | Contextual denormalization for automatic speech recognition |
US11941345B2 (en) * | 2021-10-26 | 2024-03-26 | Grammarly, Inc. | Voice instructed machine authoring of electronic documents |
CN114185511A (zh) * | 2021-11-29 | 2022-03-15 | 北京百度网讯科技有限公司 | 一种音频数据处理方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001519043A (ja) * | 1997-04-03 | 2001-10-16 | マイクロソフト コーポレイション | コンテキスト・フリー・グラマーを使用するテキスト正規化 |
JP2005346252A (ja) * | 2004-06-01 | 2005-12-15 | Nec Corp | 情報伝達システムおよび情報伝達方法 |
JP2016129051A (ja) * | 2011-10-06 | 2016-07-14 | グーグル インコーポレイテッド | ネットワークベースのカスタム辞書、自動修正およびテキスト入力嗜好 |
WO2018043138A1 (ja) * | 2016-08-31 | 2018-03-08 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000181485A (ja) | 1998-12-14 | 2000-06-30 | Toyota Motor Corp | 音声認識装置及び方法 |
JP3232289B2 (ja) | 1999-08-30 | 2001-11-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 記号挿入装置およびその方法 |
CN101034390A (zh) | 2006-03-10 | 2007-09-12 | 日电(中国)有限公司 | 用于语言模型切换和自适应的装置和方法 |
US20090157385A1 (en) | 2007-12-14 | 2009-06-18 | Nokia Corporation | Inverse Text Normalization |
US8364487B2 (en) * | 2008-10-21 | 2013-01-29 | Microsoft Corporation | Speech recognition system with display information |
US9135231B1 (en) | 2012-10-04 | 2015-09-15 | Google Inc. | Training punctuation models |
US9460088B1 (en) | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
US9672202B2 (en) | 2014-03-20 | 2017-06-06 | Microsoft Technology Licensing, Llc | Context-aware re-formating of an input |
US10896681B2 (en) | 2015-12-29 | 2021-01-19 | Google Llc | Speech recognition with selective use of dynamic language models |
US10789955B2 (en) * | 2018-11-16 | 2020-09-29 | Google Llc | Contextual denormalization for automatic speech recognition |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
-
2018
- 2018-11-16 US US16/192,953 patent/US10789955B2/en active Active
-
2019
- 2019-09-03 WO PCT/US2019/049401 patent/WO2020101789A1/en unknown
- 2019-09-03 EP EP24170370.1A patent/EP4375871A3/en active Pending
- 2019-09-03 EP EP19772905.6A patent/EP3821428B1/en active Active
- 2019-09-03 JP JP2021517614A patent/JP6950116B1/ja active Active
- 2019-09-03 KR KR1020217008812A patent/KR20210046755A/ko active IP Right Grant
-
2020
- 2020-09-01 US US17/009,494 patent/US11282525B2/en active Active
-
2021
- 2021-09-22 JP JP2021153776A patent/JP7230145B2/ja active Active
-
2022
- 2022-02-28 US US17/652,923 patent/US11676607B2/en active Active
-
2023
- 2023-02-15 JP JP2023021326A patent/JP7488382B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001519043A (ja) * | 1997-04-03 | 2001-10-16 | マイクロソフト コーポレイション | コンテキスト・フリー・グラマーを使用するテキスト正規化 |
JP2005346252A (ja) * | 2004-06-01 | 2005-12-15 | Nec Corp | 情報伝達システムおよび情報伝達方法 |
JP2016129051A (ja) * | 2011-10-06 | 2016-07-14 | グーグル インコーポレイテッド | ネットワークベースのカスタム辞書、自動修正およびテキスト入力嗜好 |
WO2018043138A1 (ja) * | 2016-08-31 | 2018-03-08 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP4375871A2 (en) | 2024-05-29 |
JP7230145B2 (ja) | 2023-02-28 |
US11676607B2 (en) | 2023-06-13 |
WO2020101789A1 (en) | 2020-05-22 |
US20220277749A1 (en) | 2022-09-01 |
US20200402512A1 (en) | 2020-12-24 |
US10789955B2 (en) | 2020-09-29 |
EP4375871A3 (en) | 2024-07-17 |
US11282525B2 (en) | 2022-03-22 |
EP3821428A1 (en) | 2021-05-19 |
JP2023053332A (ja) | 2023-04-12 |
US20200160865A1 (en) | 2020-05-21 |
CN112673424A (zh) | 2021-04-16 |
JP7488382B2 (ja) | 2024-05-21 |
JP2021193464A (ja) | 2021-12-23 |
JP6950116B1 (ja) | 2021-10-13 |
KR20210046755A (ko) | 2021-04-28 |
EP3821428B1 (en) | 2024-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7488382B2 (ja) | 自動音声認識のためのコンテキスト非正規化 | |
KR102439740B1 (ko) | 제작자 제공 콘텐츠 기반 인터랙티브 대화 애플리케이션 테일링 | |
KR102178738B1 (ko) | 적절한 에이전트의 자동화된 어시스턴트 호출 | |
US9317501B2 (en) | Data security system for natural language translation | |
KR20190139966A (ko) | 선택가능한 그래픽 엘리먼트를 통해 자동화된 에이전트로 대화를 초기화하기 | |
KR102345615B1 (ko) | 사용자 구성의 맞춤형 인터렉티브 대화 애플리케이션 | |
US20200394258A1 (en) | Generation of edited transcription for speech audio | |
KR20220028128A (ko) | 화자 종속 음성 모델(들)을 사용한 화자 인식 | |
US12061861B2 (en) | Custom display post processing in speech recognition | |
CN112673424B (zh) | 用于自动语音识别的场境去规范化 | |
JP2004334207A (ja) | 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助 | |
Bisser et al. | Introduction to the microsoft conversational ai platform | |
KR20240101711A (ko) | 긴 형식의 텍스트 문서에 대한 자동화된 텍스트-음성 변환 발음 편집 | |
US20240029712A1 (en) | Speech recognition using cadence patterns | |
US20230281396A1 (en) | Message mapping and combination for intent classification | |
US20240161734A1 (en) | System and method for translation of streaming encrypted content | |
Jeevitha et al. | A study on innovative trends in multimedia library using speech enabled softwares | |
JP2014098870A (ja) | 言語モデル作成装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210329 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210329 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210901 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210922 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6950116 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |