JP2022526876A - モデルをトレーニングするためのトレーニング・データ修正 - Google Patents
モデルをトレーニングするためのトレーニング・データ修正 Download PDFInfo
- Publication number
- JP2022526876A JP2022526876A JP2021541057A JP2021541057A JP2022526876A JP 2022526876 A JP2022526876 A JP 2022526876A JP 2021541057 A JP2021541057 A JP 2021541057A JP 2021541057 A JP2021541057 A JP 2021541057A JP 2022526876 A JP2022526876 A JP 2022526876A
- Authority
- JP
- Japan
- Prior art keywords
- model
- rescoring
- training
- computer
- history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 185
- 238000012986 modification Methods 0.000 title description 31
- 230000004048 modification Effects 0.000 title description 31
- 238000000034 method Methods 0.000 claims abstract description 123
- 230000008569 process Effects 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 39
- 230000015654 memory Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 238000013519 translation Methods 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 20
- 230000002441 reversible effect Effects 0.000 description 11
- 230000002411 adverse Effects 0.000 description 10
- 238000012937 correction Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 230000000052 comparative effect Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000036992 cognitive tasks Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
Claims (25)
- モデルをトレーニングするためのコンピュータ実装方法であって、
前記モデルに対し要素のトレーニング・シーケンスを取得することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する、前記取得することと、
前記トレーニング・シーケンスを複数の部分に分割することと、
前記予測の前記方向に応じて前記複数の前記部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成することと、
前記修正済みトレーニング・データを使用して前記モデルをトレーニングすることと
を含む、方法。 - 前記モデルが、認識プロセスの仮説として取得された1つまたは複数の入力シーケンスを再スコアリングするために使用される、請求項1に記載の方法。
- 前記モデルがリカレント型ニューラル・ネットワーク言語モデルを含み、前記要素の前記トレーニング・シーケンスが複数の単語を含むトレーニング文を含み、前記認識プロセスが音声認識を含み、前記音声認識から出力された結果が、前記モデルを使用して前記仮説として再スコアリングされる、請求項2に記載の方法。
- 前記認識プロセスが、音声認識、機械翻訳、品詞タグ付け、構文解析、光学文字認識、手書き認識、画像キャプション、および動画キャプションから成る群から選択される、請求項2に記載の方法。
- 前記モデルを使用して各入力シーケンスを再スコアリングする際に、前記入力シーケンス内の1つの入力要素についての前記認識プロセスの信頼度に関する条件が満たされていることに応答して、前記履歴の少なくとも一部が破棄される、請求項2に記載の方法。
- 前記モデルが、前記履歴を表す隠れ状態を有し、前記モデルの前記隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、前記履歴が破棄され、前記再スコアリングが、前記条件を満たす前記入力要素に応答して再開される、請求項5に記載の方法。
- 前記方法が、前記1つの部分の境界に所定の記号を追加することをさらに含み、前記修正済みトレーニング・データが、前記1つの部分と前記所定の記号とを含む、請求項1に記載の方法。
- 前記所定の記号が、前記予測の前記方向に応じてシーケンスの先頭またはシーケンスの末尾を表す、請求項7に記載の方法。
- 前記所定の記号が認識のエラーの発生を表し、前記モデルが前記所定の記号に対応する追加のトークンを有する、請求項7に記載の方法。
- 前記予測の前記方向が順方向であり、前記複数の前記部分のうちの後半部分が前記1つの部分として選択され、前記境界が前記後半部分の先頭である、請求項7に記載の方法。
- 前記予測の前記方向が逆方向であり、前記複数の前記部分のうちの前半部分が前記1つの部分として選択され、前記境界が前記前半部分の末尾である、請求項7に記載の方法。
- 前記トレーニング・シーケンスが、ランダムにまたは統計的に決定された位置で分割される、請求項1に記載の方法。
- 認識プロセスの仮説として取得された入力シーケンスを再スコアリングするためのコンピュータ実装方法であって、
前記仮説を再スコアリングするためのモデルを準備することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、再スコアリングの方向を有する、前記準備することと、
前記方向に従って前記入力シーケンスを前記モデルに送り込むことと、
前記入力シーケンス内の1つの入力要素についての前記認識プロセスの信頼度に関する条件が満たされていることに応答して、前記履歴の少なくとも一部を破棄することと、
前記入力シーケンスを再スコアリングした結果を出力することと
を含む、方法。 - 前記モデルが、前記履歴を表す隠れ状態を有し、前記モデルの前記隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、前記履歴が破棄され、前記再スコアリングが、前記条件を満たす前記入力要素に応答して再開される、請求項13に記載の方法。
- 前記モデルが、
要素のトレーニング・シーケンスを取得することと、
前記トレーニング・シーケンスを複数の部分に分割することと、
前記再スコアリングの前記方向に応じて前記複数の前記部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成することと、
前記修正済みトレーニング・データを使用して前記モデルをトレーニングすることと
によって構築される、請求項13に記載の方法。 - 前記モデルが、前記認識プロセスのエラーを表す追加のトークンを有する、請求項13に記載の方法。
- プログラム命令を実行することによってモデルをトレーニングするためのコンピュータ・システムであって、
前記プログラム命令を格納するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理ユニットとを備え、前記処理ユニットが、
前記モデルの要素のトレーニング・シーケンスを取得することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する、前記取得することを行い、
前記トレーニング・シーケンスを複数の部分に分割し、
前記予測の前記方向に応じて前記複数の前記部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成し、
前記修正済みトレーニング・データを使用して前記モデルをトレーニングするように構成される、
コンピュータ・システム。 - 前記モデルが、認識プロセスの仮説として取得された1つまたは複数の入力シーケンスを再スコアリングするために使用される、請求項17に記載のコンピュータ・システム。
- 前記処理ユニットが、前記1つの部分の境界に所定の記号を追加するように構成され、前記修正済みトレーニング・データが、前記1つの部分と前記所定の記号とを含む、請求項17に記載のコンピュータ・システム。
- プログラム命令を実行することによって、認識プロセスの仮説として取得された入力シーケンスを再スコアリングするためのコンピュータ・システムであって、
前記プログラム命令を格納するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理ユニットとを含み、前記処理ユニットが、
前記仮説を再スコアリングするためのモデルを準備することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、再スコアリングの方向を有する、前記準備することを行い、
前記方向に従って前記入力シーケンスを前記モデルに送り込み、
前記入力シーケンス内の1つの入力要素についての前記認識プロセスの信頼度に関する条件が満たされていることに応答して、前記履歴の少なくとも一部を破棄し、
前記入力シーケンスを再スコアリングした結果を出力するように構成される、
コンピュータ・システム。 - 前記モデルが、前記履歴を表す隠れ状態を有し、前記モデルの前記隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、前記履歴が破棄され、前記再スコアリングが、前記条件を満たす前記入力要素に応答して再開される、請求項20に記載のコンピュータ・システム。
- モデルをトレーニングするためのコンピュータ・プログラム製品であって、
プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、
前記モデルの要素のトレーニング・シーケンスを取得することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する、前記取得することと、
前記トレーニング・シーケンスを複数の部分に分割することと、
前記予測の前記方向に応じて前記複数の前記部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成することと、
前記修正済みトレーニング・データを使用して前記モデルをトレーニングすることと
を含むコンピュータ実装方法をコンピュータに実行させるように前記コンピュータによって実行可能である、コンピュータ・プログラム製品。 - 前記モデルが、認識プロセスの仮説として取得された1つまたは複数の入力シーケンスを再スコアリングするために使用される、請求項22に記載のコンピュータ・プログラム製品。
- 前記方法が、前記1つの部分の境界に所定の記号を追加することをさらに含み、前記修正済みトレーニング・データが、前記1つの部分と前記所定の記号とを含む、請求項22に記載のコンピュータ・プログラム製品。
- 認識プロセスから取得された入力シーケンスを再スコアリングするためのコンピュータ・プログラム製品であって、
プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、請求項13に記載の方法をコンピュータに実行させるように前記コンピュータによって実行可能である、コンピュータ・プログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/381,426 US11011156B2 (en) | 2019-04-11 | 2019-04-11 | Training data modification for training model |
US16/381,426 | 2019-04-11 | ||
PCT/IB2020/052690 WO2020208449A1 (en) | 2019-04-11 | 2020-03-23 | Training data modification for training model |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022526876A true JP2022526876A (ja) | 2022-05-27 |
JPWO2020208449A5 JPWO2020208449A5 (ja) | 2022-08-17 |
JP7368479B2 JP7368479B2 (ja) | 2023-10-24 |
Family
ID=72748448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021541057A Active JP7368479B2 (ja) | 2019-04-11 | 2020-03-23 | モデルをトレーニングするためのトレーニング・データ修正 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11011156B2 (ja) |
JP (1) | JP7368479B2 (ja) |
CN (1) | CN113574545A (ja) |
DE (1) | DE112020001853T5 (ja) |
WO (1) | WO2020208449A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112466285B (zh) * | 2020-12-23 | 2022-01-28 | 北京百度网讯科技有限公司 | 离线语音识别方法、装置、电子设备及存储介质 |
US11893983B2 (en) * | 2021-06-23 | 2024-02-06 | International Business Machines Corporation | Adding words to a prefix tree for improving speech recognition |
US20230237989A1 (en) * | 2022-01-21 | 2023-07-27 | International Business Machines Corporation | External language model information integrated into neural transducer model |
TWI816500B (zh) * | 2022-08-03 | 2023-09-21 | 和碩聯合科技股份有限公司 | 應用於模型再訓練之圖片選取方法 |
CN117174084B (zh) * | 2023-11-02 | 2024-05-31 | 摩尔线程智能科技(北京)有限责任公司 | 一种训练数据构建方法及装置、电子设备和存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259176A (ja) | 1999-03-08 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびその記録媒体 |
US20040186714A1 (en) | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
US8644611B2 (en) | 2009-06-03 | 2014-02-04 | Raytheon Bbn Technologies Corp. | Segmental rescoring in text recognition |
US9280969B2 (en) | 2009-06-10 | 2016-03-08 | Microsoft Technology Licensing, Llc | Model training for automatic speech recognition from imperfect transcription data |
US8494850B2 (en) * | 2011-06-30 | 2013-07-23 | Google Inc. | Speech recognition using variable-length context |
EP2893435B1 (en) | 2012-09-07 | 2019-05-08 | Carnegie Mellon University | Methods for hybrid gpu/cpu data processing |
GB201216099D0 (en) | 2012-09-10 | 2012-10-24 | Protean Electric Ltd | Capacitor |
US9484023B2 (en) | 2013-02-22 | 2016-11-01 | International Business Machines Corporation | Conversion of non-back-off language models for efficient speech decoding |
KR102167719B1 (ko) | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
JP6461308B2 (ja) | 2015-04-16 | 2019-01-30 | 三菱電機株式会社 | 音声認識装置およびリスコアリング装置 |
US10332509B2 (en) | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
US20170154258A1 (en) | 2015-11-30 | 2017-06-01 | National Institute Of Information And Communications Technology | Joint estimation method and method of training sequence-to-sequence model therefor |
KR102072235B1 (ko) | 2016-12-08 | 2020-02-03 | 한국전자통신연구원 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
US10762417B2 (en) * | 2017-02-10 | 2020-09-01 | Synaptics Incorporated | Efficient connectionist temporal classification for binary classification |
US11113599B2 (en) | 2017-06-22 | 2021-09-07 | Adobe Inc. | Image captioning utilizing semantic text modeling and adversarial learning |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
-
2019
- 2019-04-11 US US16/381,426 patent/US11011156B2/en active Active
-
2020
- 2020-03-23 CN CN202080021879.1A patent/CN113574545A/zh active Pending
- 2020-03-23 DE DE112020001853.9T patent/DE112020001853T5/de active Pending
- 2020-03-23 JP JP2021541057A patent/JP7368479B2/ja active Active
- 2020-03-23 WO PCT/IB2020/052690 patent/WO2020208449A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
DE112020001853T5 (de) | 2022-01-13 |
JP7368479B2 (ja) | 2023-10-24 |
US20200327881A1 (en) | 2020-10-15 |
US11011156B2 (en) | 2021-05-18 |
WO2020208449A1 (en) | 2020-10-15 |
CN113574545A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6818941B2 (ja) | 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム | |
JP6827548B2 (ja) | 音声認識システム及び音声認識の方法 | |
JP7368479B2 (ja) | モデルをトレーニングするためのトレーニング・データ修正 | |
US10431210B1 (en) | Implementing a whole sentence recurrent neural network language model for natural language processing | |
US9934778B2 (en) | Conversion of non-back-off language models for efficient speech decoding | |
US10019438B2 (en) | External word embedding neural network language models | |
US9292487B1 (en) | Discriminative language model pruning | |
IE20170201A1 (en) | Neural machine translation systems | |
JP2021501376A (ja) | 音声認識システム | |
US10360904B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN117043859A (zh) | 查找表循环语言模型 | |
US20220310097A1 (en) | Reducing Streaming ASR Model Delay With Self Alignment | |
US20220122586A1 (en) | Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization | |
KR102519618B1 (ko) | 단대단 신경망 번역 시스템 및 그 방법 | |
CN118076997A (zh) | 用于罕见词语音辨识的大规模语言模型数据选择 | |
US20230343332A1 (en) | Joint Segmenting and Automatic Speech Recognition | |
US20240013777A1 (en) | Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition | |
Liu et al. | Evaluating Modeling Units and Sub-word Features in Language Models for Turkish ASR | |
WO2023205367A1 (en) | Joint segmenting and automatic speech recognition | |
Zenkel | Character Based Language Modeling and Applications in Speech Recognition | |
JP2014153458A (ja) | フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム | |
Abdelbaqy | Robotic Speech Recognition System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220808 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220824 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7368479 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |