JP2022037862A - テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体 - Google Patents
テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2022037862A JP2022037862A JP2021028194A JP2021028194A JP2022037862A JP 2022037862 A JP2022037862 A JP 2022037862A JP 2021028194 A JP2021028194 A JP 2021028194A JP 2021028194 A JP2021028194 A JP 2021028194A JP 2022037862 A JP2022037862 A JP 2022037862A
- Authority
- JP
- Japan
- Prior art keywords
- model
- language
- language understanding
- speech
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000013016 learning Effects 0.000 title claims abstract description 76
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 20
- 230000001755 vocal effect Effects 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004821 distillation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000010978 jasper Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Engineering & Computer Science (AREA)
- Machine Translation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
Abstract
Description
(b)βt=exp(1-t)
(c)βt=0.1×max(0,|t-μ|/(0.5×μ)+1)・・・(5)
210:音声認識モジュール
220:意図学習モジュール
230:縦断型モジュール
240:自然言語処理モジュール
Claims (20)
- コンピュータシステムが実行する方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記方法は、
前記少なくとも1つのプロセッサにより、音声認識モデルと自然言語理解モデルが連結された縦断型構造の音声言語理解(spoken language understanding)モデルを学習する段階
を含み、
前記学習する段階は、
テキスト基盤の事前学習された言語モデルを利用したクロスモーダル知識蒸留(cross-modal knowledge distillation)によって前記音声言語理解モデルを学習することを特徴とする、方法。 - 前記学習する段階は、
前記音声言語理解モデルの出力確率を前記言語モデルの出力確率と合わせる方式により、前記言語モデルの知識を前記音声言語理解モデルに蒸留すること
を特徴とする、請求項1に記載の方法。 - 前記音声認識モデルは、与えられた音声の特定の単語の連続する確率を出力し、
前記自然言語理解モデルは、前記確率を入力として前記音声に対する意図を抽出し、
前記音声言語理解モデルは、前記音声を入力として前記音声に対する意図を抽出すること
を特徴とする、請求項1~2のうちのいずれか一項に記載の方法。 - 前記学習する段階は、
前記音声言語理解モデルの学習に使用される損失関数に、前記音声言語理解モデルの出力確率と前記言語モデルの出力確率の平均二乗誤差(MSE)または平均絶対誤差(MAE)を反映する段階
を含む、請求項1~3のうちのいずれか一項に記載の方法。 - 前記学習する段階は、
前記音声言語理解モデルの予測値と応答ラベルの間の第1損失関数、および前記音声言語理解モデルの予測値と前記言語モデルの間の第2損失関数に基づいて前記音声言語理解モデルを学習すること
を特徴とする、請求項1~4のうちのいずれか一項に記載の方法。 - 前記学習する段階は、
前記言語モデルとして文章全体に対する共通トークンを使用する第1モデル、および前記共通トークンとともに各ワード別に個別トークンを使用する第2モデルのうちの少なくとも1つを利用して前記音声言語理解モデルを学習すること
を特徴とする、請求項1~5のうちのいずれか一項に記載の方法。 - 前記学習する段階は、
前記第1モデルと前記第2モデルの損失を混合するハイブリッド構造の場合、前記第1モデルと前記第2モデルの損失の割合をスケジューリングする段階
を含む、請求項6に記載の方法。 - 前記スケジューリングする段階は、
バッチ(batch)あたりの学習意図エラー率にしたがい、前記第1モデルと前記第2モデルの損失の割合を調節すること
を特徴とする、請求項7に記載の方法。 - 前記スケジューリングする段階は、
指数関数的減衰(exponential decay)でエポック(epoch)にしたがい、前記第1モデルと前記第2モデルの損失の割合を調節すること
を特徴とする、請求項7に記載の方法。 - 前記スケジューリングする段階は、
トライアングルスケジューリング(triangular scheduling)により、前記第1モデルと前記第2モデルの損失の割合を調節すること
を特徴とする、請求項7に記載の方法。 - 請求項1~10のうちのいずれか一項に記載の方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
- コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
音声認識モデルと自然言語理解モデルが連結された縦断型構造の音声言語理解モデルを学習するものであって、
テキスト基盤の事前学習された言語モデルを利用したクロスモーダル知識蒸留によって前記音声言語理解モデルを学習すること
を特徴とする、コンピュータシステム。 - 前記音声認識モデルは、与えられた音声の特定の単語の連続する確率を出力し、
前記自然言語理解モデルは、前記確率を入力として前記音声に対する意図を抽出し、
前記音声言語理解モデルは、前記音声を入力として前記音声に対する意図を抽出して、
前記少なくとも1つのプロセッサは、
前記音声言語理解モデルの出力確率を前記言語モデルの出力確率と合わせる方式により、前記言語モデルの知識を前記音声言語理解モデルに蒸留すること
を特徴とする、請求項12に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
前記音声言語理解モデルの学習に使用される損失関数に、前記音声言語理解モデルの出力確率と前記言語モデルの出力確率の平均二乗誤差(MSE)または平均絶対誤差(MAE)を反映すること
を特徴とする、請求項12~13のうちのいずれか一項に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
前記音声言語理解モデルの予測値と応答ラベルの間の第1損失関数、および前記音声言語理解モデルの予測値と前記言語モデルの間の第2損失関数に基づいて前記音声言語理解モデルを学習すること
を特徴とする、請求項12~14のうちのいずれか一項に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
前記言語モデルとして文章全体に対する共通トークンを使用する第1モデル、および前記共通トークンとともに各ワード別に個別トークンを使用する第2モデルのうちの少なくとも1つを利用して前記音声言語理解モデルを学習すること
を特徴とする、請求項12~15のうちのいずれか一項に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
前記第1モデルと前記第2モデルの損失を混合するハイブリッド構造の場合、前記第1モデルと前記第2モデルの損失の割合をスケジューリングすること
を特徴とする、請求項16に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
バッチあたりの学習意図エラー率にしたがい、前記第1モデルと前記第2モデルの損失の割合を調節すること
を特徴とする、請求項17に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
指数関数的減衰でエポックにしたがい、前記第1モデルと前記第2モデルの損失の割合を調節すること
を特徴とする、請求項17に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
トライアングルスケジューリングにより、前記第1モデルと前記第2モデルの損失の割合を調節すること
を特徴とする、請求項17に記載のコンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0106719 | 2020-08-25 | ||
KR1020200106719A KR102368064B1 (ko) | 2020-08-25 | 2020-08-25 | 텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022037862A true JP2022037862A (ja) | 2022-03-09 |
JP7190146B2 JP7190146B2 (ja) | 2022-12-15 |
Family
ID=80490092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021028194A Active JP7190146B2 (ja) | 2020-08-25 | 2021-02-25 | テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7190146B2 (ja) |
KR (1) | KR102368064B1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102441854B1 (ko) * | 2020-11-20 | 2022-09-13 | 네이버 주식회사 | 범용적인 감정 분석 서비스를 위한 방법 및 장치 |
KR102542220B1 (ko) | 2022-09-19 | 2023-06-13 | 아주대학교 산학협력단 | 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017040919A (ja) * | 2015-08-20 | 2017-02-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識装置、音声認識方法及び音声認識システム |
US20190333500A1 (en) * | 2018-04-30 | 2019-10-31 | Hyundai Motor Company | Spoken language understanding apparatus and spoken language understanding method using the same |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200045128A (ko) * | 2018-10-22 | 2020-05-04 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
-
2020
- 2020-08-25 KR KR1020200106719A patent/KR102368064B1/ko active IP Right Grant
-
2021
- 2021-02-25 JP JP2021028194A patent/JP7190146B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017040919A (ja) * | 2015-08-20 | 2017-02-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識装置、音声認識方法及び音声認識システム |
US20190333500A1 (en) * | 2018-04-30 | 2019-10-31 | Hyundai Motor Company | Spoken language understanding apparatus and spoken language understanding method using the same |
Non-Patent Citations (1)
Title |
---|
増村亮 他: ""音声言語処理における深層学習"", 日本音響学会誌, vol. 73, no. 1, JPN6022012111, 25 December 2016 (2016-12-25), pages 39 - 46, ISSN: 0004744798 * |
Also Published As
Publication number | Publication date |
---|---|
KR102368064B1 (ko) | 2022-02-25 |
JP7190146B2 (ja) | 2022-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
US20210295858A1 (en) | Synthesizing speech from text using neural networks | |
JP7066349B2 (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
CN110556100B (zh) | 端到端语音识别模型的训练方法及系统 | |
US8374881B2 (en) | System and method for enriching spoken language translation with dialog acts | |
WO2022188734A1 (zh) | 一种语音合成方法、装置以及可读存储介质 | |
BR112019004524B1 (pt) | Sistema de redes neurais, um ou mais meios de armazenamento legíveis por computador não transitório e método para gerar autorregressivamente uma sequência de saída de dados de áudio | |
CN115516552A (zh) | 使用未说出的文本和语音合成的语音识别 | |
KR20210043995A (ko) | 모델 학습 방법 및 장치, 및 시퀀스 인식 방법 | |
Kheddar et al. | Deep transfer learning for automatic speech recognition: Towards better generalization | |
You et al. | Towards data distillation for end-to-end spoken conversational question answering | |
JP2023544336A (ja) | 多言語発話認識フレームワークのためのシステム及び方法 | |
JP2022037862A (ja) | テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体 | |
US20230087916A1 (en) | Transforming text data into acoustic feature | |
JP2020154076A (ja) | 推論器、学習方法および学習プログラム | |
JP2024513778A (ja) | 自己適応型蒸留 | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
Radzikowski et al. | Dual supervised learning for non-native speech recognition | |
Kumar et al. | Leveraging linguistic context in dyadic interactions to improve automatic speech recognition for children | |
JP2023084085A (ja) | 音声認識のためのシステムおよび方法 | |
CN112668317A (zh) | 用于确定输出词法单元的方法和设备 | |
Kheddar et al. | Automatic speech recognition using advanced deep learning approaches: A survey | |
CN113823259A (zh) | 将文本数据转换为音素序列的方法及设备 | |
Makashova | SPEECH SYNTHESIS AND RECOGNITION FOR A LOW-RESOURCE LANGUAGE Connecting TTS and ASR for mutual benefit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210225 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210414 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7190146 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |