JP2022110098A - 音声処理 - Google Patents
音声処理 Download PDFInfo
- Publication number
- JP2022110098A JP2022110098A JP2022081300A JP2022081300A JP2022110098A JP 2022110098 A JP2022110098 A JP 2022110098A JP 2022081300 A JP2022081300 A JP 2022081300A JP 2022081300 A JP2022081300 A JP 2022081300A JP 2022110098 A JP2022110098 A JP 2022110098A
- Authority
- JP
- Japan
- Prior art keywords
- language
- language model
- transcript
- domain
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Abstract
Description
図1は、翻訳された訓練データ110を使用して、特定のドメインにおける使用のために言語モデル105にバイアスをかける例示的なシステム100を示す。つまり、以下でより詳細に説明するように、システム100は、翻訳された訓練データ110を調べて、特定のドメインで話者が使用する可能性のある一般的な単語および句を特定する。システム100は、一般的な単語および句を優先するよう言語モデルにバイアスをかける。
ac(cはセディーユ付き)」、「yani(iはドットなし)yor」等のn-gram175および他のn-gramを認識しやすくしてよい。いくつかの実装においては、言語モデルアダプタ160は、トルコ語書き起こし110におけるn-gramの出現頻度に従ってトルコ語言語モデル170を適合させてよい。例えば、「hava nasi(iはドットなし)l?」が「sesi ac(cはセディーユ付き)」よりも頻繁にトルコ語書き起こし110において出現する場合、言語モデルアダプタ160はトルコ語言語モデル170を「sesi ac(cはセディーユ付き)」よりも「hava nasi(iはドットなし)l」に偏らせてよい。いくつかの実装においては、言語モデルアダプタ160は、トルコ語言語モデル170を各n-gram175の別の用語に偏らせてよい。例えば、言語モデルアダプタ160は、「hava」と「nasi(iはドットなし)l」の両方に偏らせてよい。いくつかの場合においては、言語モデルアダプタ160は、個別の「hava」および「nasi(iはドットなし)l」よりも「hava nasi(iはドットなし)l」に偏らせてよい。
| 6 | 7 | 8 | 9)という表記を使用して、0、1、2、3、4、5、6、7、8、9、または0として数字を定義してよい。アラーム文法は、$TIME =
$DIGIT $DIGIT : $DIGIT $DIGIT (am | pm)という表記を使用して時間を定義してよい。表記は、2桁の後にコロンが続き、2桁が続き、その後に「am」または「pm」を含む時間を示す。アラーム文法は、$MODE = (alarm | timer)という表記を使用して、アラームのモードを定義してよい。表記は、アラームがアラームモードかタイマーモードかを示す。最後に、アラーム文法は、アラーム構文を$ALARM = set $MODE for $TIMEとして定義してよい。アラーム構文は、ユーザが「午前6:00にアラームを設定」または「20:00にタイマーを設定」と言うことが可能であることを示す。音声認識システムは、文法を使用して発話または入力されたコマンドの書き起こしを解析し、装置が実行する動作を特定する。
trafikoa」が0.3の重みを有し、「$LOCATION jarraibideak」が0.5の重みを有する場合、言語モデルアダプタ234は、バスク語言語モデル210にバイアスをかけて、発話を受信した際にバスク語言語モデル210が、類似して聞こえる書き起こしよりも「etxerako jarraibideak」を選択する可能性をより高くしてよい。バスク語言語モデル210は、発話を受信した際に、類似して聞こえる書き起こしよりも「egungo trafikoa」を選択する可能性がまだ高くてよいが、バスク語言語モデル210のバイアスは「etxerako jarraibideak」より低くてもよい。いくつかの実装においては、言語モデルアダプタ234は、バスク語言語モデル210を各加重文法230の別の用語に偏らせてよい。例えば、言語モデルアダプタ234は、「egungo trafikoa」、「trafikoa」、および「egungo」に偏らせてよい。いくつかの場合においては、言語モデルアダプタ234は、個別の「trafikoa」および「egungo」よりも「egungo trafikoa」に偏らせてよい。いくつかの実装においては、加重文法230に含まれるより重く加重された文法に「trafikoa」が現れ得るので、言語モデルアダプタ234は、「trafikoa」を「egungo」よりも大きく偏るn-gramとして識別してよい。
Claims (20)
- データ処理ハードウェア上で実行されたときに前記データ処理ハードウェアに動作を実行させるコンピュータが実行する方法であって、前記動作は、
特定のドメインで動作するコンピューティング装置によって受信された起点言語における発話の書き起こしを受信する、発話書き起こし受信工程と、
前記起点言語における発話の受信した前記書き起こしを使用して、前記特定のドメインで動作するデジタルアシスタントのシステムによる使用のため、目的言語の音声認識装置を適合することで、前記音声認識装置が前記特定のドメインに関し識別された一般的な単語または句を含む書き起こしを生成する尤度を上げる工程であって、前記デジタルアシスタントのシステムは前記目的言語の訓練データにアクセスを有さない、工程と、
前記目的言語におけるユーザによって話された発話に対応する音声データを受信する工程であって、前記発話は、前記特定のドメインで動作する前記デジタルアシスタントに向けられている、工程と、
適合された前記音声認識装置を使用して前記ユーザによって話された前記発話の書き起こしを前記目的言語で生成する、発話書き起こし生成工程と、を含む方法。 - 前記動作は、
前記発話の前記書き起こしの翻訳書き起こしを前記目的言語で生成する工程と、
前記翻訳書き起こしから、前記特定のドメインに関する前記一般的な単語または句を識別する工程と、をさらに含む請求項1に記載の方法。 - 前記一般的な単語または句を識別する工程は、
前記翻訳書き起こしに現れるn-gramおよび各n-gramの出現頻度を識別する工程と、
出現頻度閾値を超えて前記翻訳書き起こしに現れる前記n-gramの一部を識別する工程と、を含む、請求項2に記載の方法。 - 前記動作は、
前記n-gramの前記一部における各n-gramに対して、前記n-gramの前記出現頻度および前記出現頻度閾値間の大幅な差異に基づき、前記n-gramの前記一部を言語モデルが選択する尤度を大幅に上げる工程を含む、請求項3に記載の方法。 - 前記動作は、
前記ドメイン以外のドメインで動作する前記コンピューティング装置によって受信されかつ前記起点言語の追加的な発話の追加的な書き起こしを受信する工程と、
前記追加的な書き起こしの追加的な翻訳書き起こしを生成する工程と、
前記追加的な翻訳書き起こしよりも前記翻訳書き起こしにおいてより高い出現頻度を有する単語または句を識別する工程と、をさらに含み、
前記音声認識装置を適合する工程は、
前記追加的な翻訳書き起こしよりも前記翻訳書き起こしにおいてより高い出現頻度を有する単語または句を言語モデルが選択する尤度を上げることによって、前記目的言語の前記言語モデルにバイアスをかける工程を含む請求項2に記載の方法。 - 前記動作は、前記目的言語の文法を受信する工程をさらに含み、
前記音声認識装置を適合する工程は、
前記翻訳書き起こしから識別された前記単語または句を含む文法を言語モデルが選択する尤度を上げることによって、前記目的言語の前記言語モデルにバイアスをかける工程を含む請求項2に記載の方法。 - 前記目的言語の前記音声認識装置は、前記目的言語の言語モデルおよび音響モデルを含み、
前記音声認識装置を適合する工程は、
前記特定のドメインに関し識別された前記一般的な単語または句を前記言語モデルが選択する尤度を上げることによって、前記目的言語の前記言語モデルにバイアスをかける工程を含む、請求項1に記載の方法。 - 前記発話書き起こし生成工程は、
音響モデルを使用して、前記目的言語における前記ユーザによって話された前記発話の音素を識別する工程と、
バイアスをかけられた前記言語モデルを使用して、前記発話の識別された前記音素に基づいて、前記発話の前記書き起こしを生成する工程と、を含む、請求項6に記載の方法。 - 前記目的言語の前記言語モデルは、一般的な言語モデルを含み、
前記目的言語のバイアスをかけられた前記言語モデルは、前記特定のドメインで動作する前記デジタルアシスタントのシステムに特定の言語モデルを含む、請求項6に記載の方法。 - 前記データ処理ハードウェアは、ユーザ装置またはサーバ上にある、請求項1に記載の方法。
- データ処理ハードウェアと、前記データ処理ハードウェア上で実行されたときに前記データ処理ハードウェアに動作を実行させる命令を記憶するメモリハードウェアと、を備えるシステムであって、前記動作は、
特定のドメインで動作するコンピューティング装置によって受信された起点言語における発話の書き起こしを受信する、発話書き起こし受信工程と、
前記起点言語における発話の受信した前記書き起こしを使用して、前記特定のドメインで動作するデジタルアシスタントのシステムによる使用のため、目的言語の音声認識装置を適合することで、前記音声認識装置が前記特定のドメインに関し識別された一般的な単語または句を含む書き起こしを生成する尤度を上げる工程であって、前記デジタルアシスタントのシステムは前記目的言語の訓練データにアクセスを有さない、工程と、
前記目的言語におけるユーザによって話された発話に対応する音声データを受信する工程であって、前記発話は、前記特定のドメインで動作する前記デジタルアシスタントに向けられている、工程と、
適合された前記音声認識装置を使用して前記ユーザによって話された前記発話の書き起こしを前記目的言語で生成する、発話書き起こし生成工程と、を含むシステム。 - 前記動作は、
前記発話の前記書き起こしの翻訳書き起こしを前記目的言語で生成する工程と、
前記翻訳書き起こしから、前記特定のドメインに関する前記一般的な単語または句を識別する工程と、をさらに含む請求項11に記載のシステム。 - 前記一般的な単語または句を識別する工程は、
前記翻訳書き起こしに現れるn-gramおよび各n-gramの出現頻度を識別する工程と、
出現頻度閾値を超えて前記翻訳書き起こしに現れる前記n-gramの一部を識別する工程と、を含む、請求項12に記載のシステム。 - 前記動作は、
前記n-gramの前記一部における各n-gramに対して、前記n-gramの前記出現頻度および前記出現頻度閾値間の大幅な差異に基づき、前記n-gramの前記一部を言語モデルが選択する尤度を大幅に上げる工程を含む、請求項13に記載のシステム。 - 前記動作は、
前記ドメイン以外のドメインで動作する前記コンピューティング装置によって受信されかつ前記起点言語の追加的な発話の追加的な書き起こしを受信する工程と、
前記追加的な書き起こしの追加的な翻訳書き起こしを生成する工程と、
前記追加的な翻訳書き起こしよりも前記翻訳書き起こしにおいてより高い出現頻度を有する単語または句を識別する工程と、をさらに含み、
前記音声認識装置を適合する工程は、
前記追加的な翻訳書き起こしよりも前記翻訳書き起こしにおいてより高い出現頻度を有する単語または句を言語モデルが選択する尤度を上げることによって、前記目的言語の前記言語モデルにバイアスをかける工程を含む請求項12に記載のシステム。 - 前記動作は、前記目的言語の文法を受信する工程をさらに含み、
前記音声認識装置を適合する工程は、
前記翻訳書き起こしから識別された前記単語または句を含む文法を言語モデルが選択する尤度を上げることによって、前記目的言語の前記言語モデルにバイアスをかける工程を含む請求項12に記載のシステム。 - 前記目的言語の前記音声認識装置は、前記目的言語の言語モデルおよび音響モデルを含み、
前記音声認識装置を適合する工程は、
前記特定のドメインに関し識別された前記一般的な単語または句を前記言語モデルが選択する尤度を上げることによって、前記目的言語の前記言語モデルにバイアスをかける工程を含む、請求項11に記載のシステム。 - 前記発話書き起こし生成工程は、
音響モデルを使用して、前記目的言語における前記ユーザによって話された前記発話の音素を識別する工程と、
バイアスをかけられた前記言語モデルを使用して、前記発話の識別された前記音素に基づいて、前記発話の前記書き起こしを生成する工程と、を含む、請求項16に記載のシステム。 - 前記目的言語の前記言語モデルは、一般的な言語モデルを含み、
前記目的言語のバイアスをかけられた前記言語モデルは、前記特定のドメインで動作する前記デジタルアシスタントのシステムに特定の言語モデルを含む、請求項16に記載のシステム。 - 前記データ処理ハードウェアは、ユーザ装置またはサーバ上にある、請求項11に記載のシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862773361P | 2018-11-30 | 2018-11-30 | |
US62/773,361 | 2018-11-30 | ||
PCT/US2019/063272 WO2020112789A1 (en) | 2018-11-30 | 2019-11-26 | Speech processing |
JP2021530940A JP7077487B2 (ja) | 2018-11-30 | 2019-11-26 | 音声処理 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021530940A Division JP7077487B2 (ja) | 2018-11-30 | 2019-11-26 | 音声処理 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022110098A true JP2022110098A (ja) | 2022-07-28 |
JP7305844B2 JP7305844B2 (ja) | 2023-07-10 |
Family
ID=68919792
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021530940A Active JP7077487B2 (ja) | 2018-11-30 | 2019-11-26 | 音声処理 |
JP2022081300A Active JP7305844B2 (ja) | 2018-11-30 | 2022-05-18 | 音声処理 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021530940A Active JP7077487B2 (ja) | 2018-11-30 | 2019-11-26 | 音声処理 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11138968B2 (ja) |
EP (2) | EP3867901B1 (ja) |
JP (2) | JP7077487B2 (ja) |
KR (1) | KR20210083331A (ja) |
CN (1) | CN113168830A (ja) |
WO (1) | WO2020112789A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020112789A1 (en) * | 2018-11-30 | 2020-06-04 | Google Llc | Speech processing |
US11074908B2 (en) * | 2019-03-29 | 2021-07-27 | Nuance Communications, Inc. | System and method for aligning ASR model weights with NLU concepts |
US11341340B2 (en) * | 2019-10-01 | 2022-05-24 | Google Llc | Neural machine translation adaptation |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1102719A (zh) * | 1993-11-06 | 1995-05-17 | 亨利·C·尤恩 | 键控语言翻译机 |
JP3850742B2 (ja) | 2002-02-22 | 2006-11-29 | 株式会社国際電気通信基礎技術研究所 | 言語モデルの適応化方法 |
JP3920812B2 (ja) * | 2003-05-27 | 2007-05-30 | 株式会社東芝 | コミュニケーション支援装置、支援方法、及び支援プログラム |
WO2006059451A1 (ja) * | 2004-11-30 | 2006-06-08 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置 |
US8898052B2 (en) * | 2006-05-22 | 2014-11-25 | Facebook, Inc. | Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer |
US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
WO2009129315A1 (en) * | 2008-04-15 | 2009-10-22 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
WO2010061507A1 (ja) * | 2008-11-28 | 2010-06-03 | 日本電気株式会社 | 言語モデル作成装置 |
US8527270B2 (en) * | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
US9576570B2 (en) * | 2010-07-30 | 2017-02-21 | Sri International | Method and apparatus for adding new vocabulary to interactive translation and dialogue systems |
US8798984B2 (en) * | 2011-04-27 | 2014-08-05 | Xerox Corporation | Method and system for confidence-weighted learning of factored discriminative language models |
US9043205B2 (en) * | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
US9058805B2 (en) * | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
US10290299B2 (en) | 2014-07-17 | 2019-05-14 | Microsoft Technology Licensing, Llc | Speech recognition using a foreign word grammar |
CN104714943A (zh) * | 2015-03-26 | 2015-06-17 | 百度在线网络技术(北京)有限公司 | 翻译方法及系统 |
US9704483B2 (en) * | 2015-07-28 | 2017-07-11 | Google Inc. | Collaborative language model biasing |
JP6568429B2 (ja) * | 2015-08-27 | 2019-08-28 | 日本放送協会 | 発音系列拡張装置およびそのプログラム |
US10049666B2 (en) * | 2016-01-06 | 2018-08-14 | Google Llc | Voice recognition system |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10347245B2 (en) | 2016-12-23 | 2019-07-09 | Soundhound, Inc. | Natural language grammar enablement by speech characterization |
US11087098B2 (en) * | 2018-09-18 | 2021-08-10 | Sap Se | Computer systems for classifying multilingual text |
WO2020112789A1 (en) * | 2018-11-30 | 2020-06-04 | Google Llc | Speech processing |
-
2019
- 2019-11-26 WO PCT/US2019/063272 patent/WO2020112789A1/en unknown
- 2019-11-26 EP EP19821483.5A patent/EP3867901B1/en active Active
- 2019-11-26 US US16/696,111 patent/US11138968B2/en active Active
- 2019-11-26 EP EP23200212.1A patent/EP4276816A3/en active Pending
- 2019-11-26 JP JP2021530940A patent/JP7077487B2/ja active Active
- 2019-11-26 CN CN201980078166.6A patent/CN113168830A/zh active Pending
- 2019-11-26 KR KR1020217016466A patent/KR20210083331A/ko unknown
-
2021
- 2021-09-09 US US17/447,282 patent/US11676577B2/en active Active
-
2022
- 2022-05-18 JP JP2022081300A patent/JP7305844B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP4276816A2 (en) | 2023-11-15 |
KR20210083331A (ko) | 2021-07-06 |
US20210398519A1 (en) | 2021-12-23 |
CN113168830A (zh) | 2021-07-23 |
US11138968B2 (en) | 2021-10-05 |
JP2022510280A (ja) | 2022-01-26 |
US11676577B2 (en) | 2023-06-13 |
US20200175963A1 (en) | 2020-06-04 |
JP7077487B2 (ja) | 2022-05-30 |
JP7305844B2 (ja) | 2023-07-10 |
EP4276816A3 (en) | 2024-03-06 |
EP3867901B1 (en) | 2023-10-04 |
EP3867901A1 (en) | 2021-08-25 |
WO2020112789A1 (en) | 2020-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11804218B2 (en) | Scalable dynamic class language modeling | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
US9449599B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
JP7305844B2 (ja) | 音声処理 | |
US8566076B2 (en) | System and method for applying bridging models for robust and efficient speech to speech translation | |
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
US20220383862A1 (en) | Cross-lingual speech recognition | |
WO2018009351A1 (en) | Follow-up voice query prediction | |
US20180322117A1 (en) | Contextual language translation | |
US9135912B1 (en) | Updating phonetic dictionaries | |
EP3005152B1 (en) | Systems and methods for adaptive proper name entity recognition and understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220518 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230628 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7305844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |