JP7190146B2 - テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体 - Google Patents
テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP7190146B2 JP7190146B2 JP2021028194A JP2021028194A JP7190146B2 JP 7190146 B2 JP7190146 B2 JP 7190146B2 JP 2021028194 A JP2021028194 A JP 2021028194A JP 2021028194 A JP2021028194 A JP 2021028194A JP 7190146 B2 JP7190146 B2 JP 7190146B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- language understanding
- spoken language
- speech
- computer system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 57
- 230000006870 function Effects 0.000 claims description 20
- 238000013140 knowledge distillation Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000004821 distillation Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 239000010978 jasper Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Artificial Intelligence (AREA)
Description
(b)βt=exp(1-t)
(c)βt=0.1×max(0,|t-μ|/(0.5×μ)+1)・・・(5)
210:音声認識モジュール
220:意図学習モジュール
230:縦断型モジュール
240:自然言語処理モジュール
Claims (13)
- コンピュータシステムが実行する方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記方法は、
前記少なくとも1つのプロセッサにより、音声を入力として受け取り、音声認識結果の確率値を出力するように予め学習された音声認識モデルと、前記音声認識モデルが出力した前記音声認識結果の確率値を入力として受け取り、前記音声の意図を推測する自然言語理解モデルを連結して学習することによって、入力される音声に対してその意図をすぐ推測するように構成される縦断型(end-to-end)音声言語理解(spoken language understanding)モデルを生成する段階
を含み、
前記音声言語理解モデルは、
テキストの入力に対してその意図を推測するように構成される予め学習された言語モデルを利用するクロスモーダル知識蒸留(cross-modal knowledge distillation)方法によって学習され、前記言語モデルによって出力される確率と、前記音声言語理解モデルによって出力される確率との差が減少するように学習されることを特徴とする、方法。 - 前記生成する段階は、
前記音声言語理解モデルの学習に使用される損失関数に、前記音声言語理解モデルが出力した意図の確率と前記言語モデルが出力した意図の確率の平均二乗誤差(MSE)または平均絶対誤差(MAE)を反映する段階
を含む、請求項1に記載の方法。 - 前記音声言語理解モデルは、
前記音声言語理解モデルによる予測の結果値と応答ラベルとの間のクロスエントロピーを示す第1損失関数、および前記音声言語理解モデルによる予測の結果値と前記言語モデルによる予測の結果との間の損失を示す第2損失関数に基づいて学習されること
を特徴とする、請求項1~2のうちのいずれか一項に記載の方法。 - 前記音声言語理解モデルは、
前記言語モデルとして教師モデルである第1モデル、および第1モデルに比べて相対的により正確な予測の結果を出力する教授モデルである第2モデルのうちの少なくとも1つを利用して学習されること
を特徴とする、請求項1~3のうちのいずれか一項に記載の方法。 - 前記音声言語理解モデルは、
前記第1モデルと前記第2モデルの損失を混合するハイブリッド構造を利用して学習され、前記第1モデルと前記第2モデルの損失の割合がスケジューリングされること
を特徴とする、請求項4に記載の方法。 - 前記スケジューリングは、
前記第1モデルと前記第2モデルの損失の割合を動的に調節し、学習される前記音声言語理解モデルの予測の精度が高くなるほど、前記第2モデルの加重値が大きくなるものであること
を特徴とする、請求項5に記載の方法。 - 請求項1~6のうちのいずれか一項に記載の方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
- コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
音声を入力として受け取り、音声認識結果の確率値を出力するように予め学習された音声認識モデルと、前記音声認識モデルが出力した前記音声認識結果の確率値を入力として受け取り、前記音声の意図を推測する自然言語理解モデルを連結して学習することによって、入力される音声に対してその意図をすぐ推測するように構成される縦断型(end-to-end)音声言語理解モデルを生成するものであって、
前記音声言語理解モデルは、テキストの入力に対してその意図を推測するように構成される予め学習された言語モデルを利用するクロスモーダル知識蒸留方法によって学習され、前記言語モデルによって出力される確率と、前記音声言語理解モデルによって出力される確率との差が減少するように学習されること
を特徴とする、コンピュータシステム。 - 前記少なくとも1つのプロセッサは、
前記音声言語理解モデルの学習に使用される損失関数に、前記音声言語理解モデルが出力した意図の確率と前記言語モデルが出力した意図の確率の平均二乗誤差(MSE)または平均絶対誤差(MAE)を反映すること
を特徴とする、請求項8に記載のコンピュータシステム。 - 前記音声言語理解モデルは、
前記音声言語理解モデルによる予測の結果値と応答ラベルとの間のクロスエントロピーを示す第1損失関数、および前記音声言語理解モデルによる予測の結果値と前記言語モデルによる予測の結果との間の損失を示す第2損失関数に基づいて学習されること
を特徴とする、請求項8~9のうちのいずれか一項に記載のコンピュータシステム。 - 前記音声言語理解モデルは、
前記言語モデルとして教師モデルである第1モデル、および第1モデルに比べて相対的により正確な予測の結果を出力する教授モデルである第2モデルのうちの少なくとも1つを利用して学習されること
を特徴とする、請求項8~10のうちのいずれか一項に記載のコンピュータシステム。 - 前記音声言語理解モデルは、
前記第1モデルと前記第2モデルの損失を混合するハイブリッド構造を利用して学習され、前記第1モデルと前記第2モデルの損失の割合がスケジューリングされること
を特徴とする、請求項11に記載のコンピュータシステム。 - 前記スケジューリングは、
前記第1モデルと前記第2モデルの損失の割合を動的に調節し、学習される前記音声言語理解モデルの予測の精度が高くなるほど、前記第2モデルの加重値が大きくなるものであること
を特徴とする、請求項12に記載のコンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0106719 | 2020-08-25 | ||
KR1020200106719A KR102368064B1 (ko) | 2020-08-25 | 2020-08-25 | 텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022037862A JP2022037862A (ja) | 2022-03-09 |
JP7190146B2 true JP7190146B2 (ja) | 2022-12-15 |
Family
ID=80490092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021028194A Active JP7190146B2 (ja) | 2020-08-25 | 2021-02-25 | テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7190146B2 (ja) |
KR (1) | KR102368064B1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102441854B1 (ko) * | 2020-11-20 | 2022-09-13 | 네이버 주식회사 | 범용적인 감정 분석 서비스를 위한 방법 및 장치 |
KR102542220B1 (ko) | 2022-09-19 | 2023-06-13 | 아주대학교 산학협력단 | 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017040919A (ja) | 2015-08-20 | 2017-02-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識装置、音声認識方法及び音声認識システム |
US20190333500A1 (en) | 2018-04-30 | 2019-10-31 | Hyundai Motor Company | Spoken language understanding apparatus and spoken language understanding method using the same |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200045128A (ko) * | 2018-10-22 | 2020-05-04 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
-
2020
- 2020-08-25 KR KR1020200106719A patent/KR102368064B1/ko active IP Right Grant
-
2021
- 2021-02-25 JP JP2021028194A patent/JP7190146B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017040919A (ja) | 2015-08-20 | 2017-02-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識装置、音声認識方法及び音声認識システム |
US20190333500A1 (en) | 2018-04-30 | 2019-10-31 | Hyundai Motor Company | Spoken language understanding apparatus and spoken language understanding method using the same |
Non-Patent Citations (1)
Title |
---|
増村亮 他,"音声言語処理における深層学習",日本音響学会誌,2016年12月25日,Vol.73, No.1,pp.39-46 |
Also Published As
Publication number | Publication date |
---|---|
JP2022037862A (ja) | 2022-03-09 |
KR102368064B1 (ko) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11862142B2 (en) | End-to-end text-to-speech conversion | |
US20210295858A1 (en) | Synthesizing speech from text using neural networks | |
JP7066349B2 (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
US11093813B2 (en) | Answer to question neural networks | |
WO2019200923A1 (zh) | 基于拼音的语义识别方法、装置以及人机对话系统 | |
US11030997B2 (en) | Slim embedding layers for recurrent neural language models | |
US10867599B2 (en) | Determining state of automated assistant dialog | |
US8374881B2 (en) | System and method for enriching spoken language translation with dialog acts | |
WO2022188734A1 (zh) | 一种语音合成方法、装置以及可读存储介质 | |
JP7170920B2 (ja) | トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法 | |
JP7257593B2 (ja) | 区別可能な言語音を生成するための音声合成のトレーニング | |
JP7190146B2 (ja) | テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体 | |
WO2023020262A1 (en) | Integrating dialog history into end-to-end spoken language understanding systems | |
CN115362497A (zh) | 具有延迟阈值的序列到序列语音识别 | |
CN116250038A (zh) | 变换器换能器:一种统一流式和非流式语音识别的模型 | |
Radzikowski et al. | Dual supervised learning for non-native speech recognition | |
JP2024513778A (ja) | 自己適応型蒸留 | |
CN116229946A (zh) | 用于语音识别的系统和方法 | |
CN112668317A (zh) | 用于确定输出词法单元的方法和设备 | |
KR20210028041A (ko) | 전자 장치 및 그 제어 방법 | |
Kheddar et al. | Automatic speech recognition using advanced deep learning approaches: A survey | |
US11830476B1 (en) | Learned condition text-to-speech synthesis | |
Vaněk et al. | Recurrent DNNs and its ensembles on the TIMIT phone recognition task | |
RU2808582C2 (ru) | Способ и система для распознавания речевого фрагмента пользователя | |
US20230206910A1 (en) | Method and system for recognizing a user utterance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210225 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210414 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7190146 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |