JP7400112B2 - 自動音声認識のための英数字列のバイアス付加 - Google Patents
自動音声認識のための英数字列のバイアス付加 Download PDFInfo
- Publication number
- JP7400112B2 JP7400112B2 JP2022543558A JP2022543558A JP7400112B2 JP 7400112 B2 JP7400112 B2 JP 7400112B2 JP 2022543558 A JP2022543558 A JP 2022543558A JP 2022543558 A JP2022543558 A JP 2022543558A JP 7400112 B2 JP7400112 B2 JP 7400112B2
- Authority
- JP
- Japan
- Prior art keywords
- contextual
- finite state
- generating
- alphanumeric
- fst
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 84
- 238000012549 training Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 239000000470 constituent Substances 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 22
- 238000012048 forced swim test Methods 0.000 description 20
- 230000003993 interaction Effects 0.000 description 17
- 230000015654 memory Effects 0.000 description 10
- 230000007704 transition Effects 0.000 description 9
- 230000001186 cumulative effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 125000002015 acyclic group Chemical group 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000010006 flight Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012812 general test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Circuits Of Receivers In General (AREA)
Description
めにFSTエンジンを使用して処理され得る。温度の文脈的バイアス付加FSTは、1桁または2桁の予想される長さ、最初の数字文字に2番目の数字文字が続く予想される構造、および値の予想される範囲(たとえば、50から90までの間の予想される範囲)を持ち得る。一部の実装において、FSTエンジンは、文脈情報に関連する複数の文脈的バイアス付加FSTを選択することができる。たとえば、FSTエンジンは、華氏温度の文脈的バイアス付加FSTおよび摂氏温度の文脈的バイアス付加FSTを選択することができる。華氏温度の文脈的バイアス付加FSTは、華氏温度の予想される範囲を持つことができ、一方、摂氏の文脈的バイアス付加FSTは、摂氏温度の別個の予想される範囲を持つことができる。
れており、遠隔にあるコンピューティングデバイスに実装される場合がある(たとえば、すべてまたは態様は、「クラウドに」実装される場合がある)。それらの実装の一部において、自動化されたアシスタントのそれらの態様は、ローカルエリアネットワーク(LAN)および/または広域ネットワーク(WAN)(たとえば、インターネット)などの1つまたは複数のネットワークを介してコンピューティングデバイスと通信する場合がある。
その他のアプリケーション独自のインスタンスを含み得る。
102 オーディオデータ
104 文脈エンジン
106 追加情報
108 文脈情報
110 FSTエンジン
112 文脈的FST
114 ASRモデル
115 ASRエンジン
116 テキスト認識候補
118 ASRエンジンのビームサーチ部
150 環境
152 クライアントデバイス
154 ASRエンジン
156 文脈的FST生成エンジン
200 英数字文法FST
300 重み付けされていないワードピースに基づくアクセプタ文法
400 ファクタードFST
500 文脈的バイアス付加FST
600 プロセス
700 プロセス
800 自動化されたアシスタント
802 クライアントコンピューティングデバイス
804 自動化されたアシスタントクライアント
806 ローカルエンジン
808 ローカルエリアおよび/または広域ネットワーク
810 クラウドに基づく自動化されたアシスタント構成要素
812 クラウドに基づくTTSモジュール
814 クラウドに基づくSTTモジュール
816 自然言語プロセッサ
910 コンピューティングデバイス
912 バスサブシステム
914 プロセッサ
916 ネットワークインターフェースサブシステム
920 ユーザインターフェース出力デバイス
922 ユーザインターフェース入力デバイス
924 ストレージサブシステム
925 メモリサブシステム
926 ファイルストレージサブシステム
930 主ランダムアクセスメモリ(「RAM」)
932 読み出し専用メモリ(「ROM」)
Claims (18)
自動音声認識(「ASR」)エンジンを使用して、英数字列を含む口で言われた発話をキャプチャするオーディオデータのテキスト表現を生成するステップを含み、前記ASRエンジンを使用して、前記英数字列を含む前記口で言われた発話をキャプチャする前記オーディオデータの前記テキスト表現を生成するステップが、
前記英数字列に関する文脈情報を決定すること、
前記文脈情報に基づいて、前記英数字列のための1つまたは複数の文脈的有限状態トランスデューサを選択すること、
前記ASRエンジンのASRモデル部を使用して前記オーディオデータを処理することに基づいて、前記口で言われた発話の1組の認識候補を生成すること、ならびに
前記口で言われた発話の前記テキスト表現を生成することであって、前記テキスト表現が、前記英数字列を含み、前記テキスト表現を生成することが、前記生成された1組の認識候補および前記1つまたは複数の選択された文脈的有限状態トランスデューサに基づく、生成することを含む、方法。
前記1つまたは複数の文脈的有限状態トランスデューサを使用して前記ASRエンジンの前記ビームサーチ部を修正することを含む請求項2に記載の方法。
前記1つまたは複数の文脈的有限状態トランスデューサを使用して前記ASRエンジンの前記ビームサーチ部をシャロウフュージョンによって修正することを含む請求項3に記載の方法。
前記1組の認識候補中の各認識候補に関する対応する確率測度を決定することと、
前記1つまたは複数の文脈的有限状態トランスデューサを使用して修正された前記ASRエンジンの前記ビームサーチ部を使用して前記対応する確率測度を修正することと、
認識候補に関する前記対応する確率測度が1つまたは複数の条件を満たすと判定することに基づいて、前記1組の認識候補から前記認識候補を選択することと、
前記選択された認識候補に基づいて、前記口で言われた発話の前記テキスト表現を生成することとをさらに含む請求項4に記載の方法。
前記オーディオデータの1つまたは複数の認識された語に基づいて前記英数字列に関する前記文脈情報を生成することであって、前記1つまたは複数の認識された語が、前記英数字列以外である、生成することを含む請求項1から6のいずれか一項に記載の方法。
前記レンダリングされたシステムプロンプトに対する少なくとも1つの予測された応答に基づいて前記文脈情報を決定することを含む請求項1から7のいずれか一項に記載の方法。
英数字列に対応する英数字文法有限状態トランスデューサを選択することと、
ワードピースを構成書記素にマッピングするスペラ有限状態トランスデューサを選択することと、
前記英数字文法有限状態トランスデューサおよび前記スペラ有限状態トランスデューサに基づいて、重み付けされていないワードピースに基づくアクセプタ文法を生成することとを含む請求項1から8のいずれか一項に記載の方法。
因子演算を使用して前記重み付けされていないワードピースに基づくアクセプタ文法を処理することに基づいてファクタード有限状態トランスデューサを生成することと、
前記重み付けされていないワードピースに基づくアクセプタ文法の各弧に一定の重みを適用することに基づいて、前記所与の文脈的有限状態トランスデューサを生成することとをさらに含む請求項9に記載の方法。
自動音声認識中に口で言われた発話の英数字列の認識候補の1つまたは複数の確率を修正するのに使用するための文脈的有限状態トランスデューサを生成するステップを含み、前記文脈的有限状態トランスデューサを生成するステップが、
前記英数字列に対応する英数字文法有限状態トランスデューサを選択すること、
ワードピースを構成書記素にマッピングするスペラ有限状態トランスデューサを選択すること、
前記英数字文法有限状態トランスデューサおよび前記スペラ有限状態トランスデューサに基づいて、重み付けされていないワードピースに基づくアクセプタ文法を生成すること、
因子演算を使用して前記重み付けされていないワードピースに基づくアクセプタ文法を処理することに基づいてファクタード有限状態トランスデューサを生成すること、ならびに
前記重み付けされていないワードピースに基づくアクセプタ文法の各弧に一定の重みを適用することに基づいて、前記文脈的有限状態トランスデューサを生成することを含む、方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2020/014141 WO2021145893A1 (en) | 2020-01-17 | 2020-01-17 | Alphanumeric sequence biasing for automatic speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023511091A JP2023511091A (ja) | 2023-03-16 |
JP7400112B2 true JP7400112B2 (ja) | 2023-12-18 |
Family
ID=69724068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022543558A Active JP7400112B2 (ja) | 2020-01-17 | 2020-01-17 | 自動音声認識のための英数字列のバイアス付加 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11942091B2 (ja) |
EP (1) | EP4073789B1 (ja) |
JP (1) | JP7400112B2 (ja) |
KR (1) | KR20220128397A (ja) |
CN (1) | CN114981885A (ja) |
WO (1) | WO2021145893A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11455467B2 (en) * | 2020-01-30 | 2022-09-27 | Tencent America LLC | Relation extraction using full dependency forests |
US11893983B2 (en) * | 2021-06-23 | 2024-02-06 | International Business Machines Corporation | Adding words to a prefix tree for improving speech recognition |
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
CN118016058A (zh) * | 2022-11-10 | 2024-05-10 | 脸萌有限公司 | 语音识别方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000267691A (ja) | 1999-03-19 | 2000-09-29 | Meidensha Corp | 音声認識システムにおける認識辞書選択方法 |
US8972243B1 (en) | 2012-11-20 | 2015-03-03 | Amazon Technologies, Inc. | Parse information encoding in a finite state transducer |
JP2017219769A (ja) | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US10176802B1 (en) | 2016-03-21 | 2019-01-08 | Amazon Technologies, Inc. | Lattice encoding using recurrent neural networks |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4645708B2 (ja) | 2008-09-10 | 2011-03-09 | 株式会社デンソー | コード認識装置および経路探索装置 |
US9817813B2 (en) * | 2014-01-08 | 2017-11-14 | Genesys Telecommunications Laboratories, Inc. | Generalized phrases in automatic speech recognition systems |
US9971765B2 (en) | 2014-05-13 | 2018-05-15 | Nuance Communications, Inc. | Revising language model scores based on semantic class hypotheses |
US9460713B1 (en) | 2015-03-30 | 2016-10-04 | Google Inc. | Language model biasing modulation |
JP6941494B2 (ja) | 2017-07-18 | 2021-09-29 | 日本放送協会 | エンドツーエンド日本語音声認識モデル学習装置およびプログラム |
US11232799B1 (en) * | 2018-10-31 | 2022-01-25 | Amazon Technologies, Inc. | Speech recognition routing in a provider network |
CN117935785A (zh) * | 2019-05-03 | 2024-04-26 | 谷歌有限责任公司 | 用于在端到端模型中跨语言语音识别的基于音素的场境化 |
JP7417634B2 (ja) * | 2019-05-10 | 2024-01-18 | グーグル エルエルシー | 音声認識のためのエンドツーエンドモデルでコンテキスト情報を使用すること |
US11328712B2 (en) * | 2019-08-02 | 2022-05-10 | International Business Machines Corporation | Domain specific correction of output from automatic speech recognition |
-
2020
- 2020-01-17 US US17/251,465 patent/US11942091B2/en active Active
- 2020-01-17 JP JP2022543558A patent/JP7400112B2/ja active Active
- 2020-01-17 EP EP20707891.6A patent/EP4073789B1/en active Active
- 2020-01-17 WO PCT/US2020/014141 patent/WO2021145893A1/en unknown
- 2020-01-17 CN CN202080093228.3A patent/CN114981885A/zh active Pending
- 2020-01-17 KR KR1020227027865A patent/KR20220128397A/ko unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000267691A (ja) | 1999-03-19 | 2000-09-29 | Meidensha Corp | 音声認識システムにおける認識辞書選択方法 |
US8972243B1 (en) | 2012-11-20 | 2015-03-03 | Amazon Technologies, Inc. | Parse information encoding in a finite state transducer |
US10176802B1 (en) | 2016-03-21 | 2019-01-08 | Amazon Technologies, Inc. | Lattice encoding using recurrent neural networks |
JP2017219769A (ja) | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20220013126A1 (en) | 2022-01-13 |
KR20220128397A (ko) | 2022-09-20 |
EP4073789A1 (en) | 2022-10-19 |
JP2023511091A (ja) | 2023-03-16 |
WO2021145893A1 (en) | 2021-07-22 |
CN114981885A (zh) | 2022-08-30 |
EP4073789B1 (en) | 2023-11-08 |
US11942091B2 (en) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021202694B2 (en) | Facilitating end-to-end communications with automated assistants in multiple languages | |
KR102596446B1 (ko) | 모바일 디바이스들에서의 모달리티 학습 | |
US11797772B2 (en) | Word lattice augmentation for automatic speech recognition | |
US10192545B2 (en) | Language modeling based on spoken and unspeakable corpuses | |
JP7400112B2 (ja) | 自動音声認識のための英数字列のバイアス付加 | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
JP7104247B2 (ja) | オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成 | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
US9594744B2 (en) | Speech transcription including written text | |
JP2014145842A (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
CN115735248A (zh) | 在话音机器人和人类之间的对应对话期间解析唯一个人标识符 | |
US20240233732A1 (en) | Alphanumeric sequence biasing for automatic speech recognition | |
US20230252995A1 (en) | Altering a candidate text representation, of spoken input, based on further spoken input | |
JP2023007014A (ja) | 応答システム、応答方法、および応答プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220901 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7400112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |