JP2020030403A - ディープラーニング生成モデルとマルチモーダル分布を利用してマルチターン会話応答を生成する方法およびシステム - Google Patents
ディープラーニング生成モデルとマルチモーダル分布を利用してマルチターン会話応答を生成する方法およびシステム Download PDFInfo
- Publication number
- JP2020030403A JP2020030403A JP2019099323A JP2019099323A JP2020030403A JP 2020030403 A JP2020030403 A JP 2020030403A JP 2019099323 A JP2019099323 A JP 2019099323A JP 2019099323 A JP2019099323 A JP 2019099323A JP 2020030403 A JP2020030403 A JP 2020030403A
- Authority
- JP
- Japan
- Prior art keywords
- conversation
- response
- learning
- distribution
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004044 response Effects 0.000 title claims abstract description 96
- 238000009826 distribution Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002452 interceptive effect Effects 0.000 title abstract 4
- 238000013135 deep learning Methods 0.000 title description 3
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 23
- 230000001419 dependent effect Effects 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000001149 cognitive effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000028252 learning or memory Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Description
d=[u1,...,uk]がk件の発話(utterance)に対する会話発話(dialogue utterance)を示すとする。ここで、ui=[w1,...,w|ui|]は1つの発話を示し、wnはui内のn番目の単語(word)を示す。
既存のVAE会話モデルは、潜在変数zが正規分布のように単純な事前分布によるものと仮定する。しかし、実際の応答の潜在空間はより複雑であり、単純な分布で推定することは難しい。これは、しばしば事後崩壊の問題を引き起こす。
条件付き敵対的オートエンコーダ(AAE)アーキテクチャにおいて、事前分布が正規分布であることは一般的な適用である。しかし、大概の応答は、同等な可能性がある多数の状況、トピック、および感情を反映するマルチモーダル性質(multimodal nature)を有する。正規分布を有するランダムノイズは、ガウス分布のシングルモーダル性質に基づいて生成器がシングル基本モード(sigle dominant mode)によって潜在空間を生成するように制限してよい。結果的に、生成された応答は、単純なプロトタイプによることもある。
本発明に係るDialogWAE会話モデルの詳細な学習手順の一例は、図6に示したアルゴリズム1のとおりである。
110:ユーザ
210:外部サーバ
Claims (15)
- コンピュータシステムが実行する会話応答生成方法であって、
過去の発話を含む会話文脈に対して潜在変数空間内で敵対的生成ネットワーク(GAN)を学習させることによってデータ分布をモデリングした会話モデルを学習する段階、および
前記会話モデルによって前記データ分布からサンプリングされた潜在変数を利用して会話応答を生成する段階
を含む、会話応答生成方法。 - 前記学習する段階は、
順伝播型ニューラルネットワーク(FFNN)を利用して潜在変数に対する事前分布と事後分布をモデリングする段階を含む、
請求項1に記載の会話応答生成方法。 - 前記学習する段階は、
ニューラルネットワークを利用して文脈−依存ランダムノイズを潜在変数に対するサンプルに変換することによって、潜在変数に対する事前分布と事後分布をモデリングする段階を含む、
請求項1に記載の会話応答生成方法。 - 前記会話モデルは、前記事前分布と前記事後分布のダイバージェンスを最小化しながら、潜在変数から再構成された応答のログ確率を最大化する、
請求項3に記載の会話応答生成方法。 - 前記学習する段階は、
事前サンプルと事後サンプルとを区別する敵対的識別器を利用して潜在変数に対する事前分布と事後分布を対応させる段階
を含む、請求項3に記載の会話応答生成方法。 - 前記文脈−依存ランダムノイズは、順伝播型ニューラルネットワーク(FFNN)である事前ネットワークと認知ネットワークそれぞれによって前記会話文脈から計算される正規分布から導き出される、
請求項3に記載の会話応答生成方法。 - 前記生成する段階は、
前記ニューラルネットワークによって前記文脈−依存ランダムノイズから潜在変数のサンプルを生成した後、生成された潜在変数を前記会話応答としてデコードする段階
を含む、請求項3に記載の会話応答生成方法。 - 前記学習する段階は、
混合ガウス事前ネットワークを利用してランダムノイズをサンプリングすることによってマルチモーダル応答を学習する段階
を含む、請求項1に記載の会話応答生成方法。 - 前記マルチモーダル応答を学習する段階は、
1つ以上のモードを有するガウス分布からマルチモードをキャプチャし、前記潜在変数空間でマルチモーダル応答を学習する、
請求項8に記載の会話応答生成方法。 - コンピュータと結合して請求項1乃至9のいずれか一項に記載の会話応答生成方法をコンピュータに実行させる、コンピュータプログラム。
- 請求項1乃至9のいずれか一項に記載の会話応答生成方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
- コンピュータシステムであって、
メモリ、および
前記メモリに通信可能に接続され、前記メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
過去の発話を含む会話文脈に対して潜在変数空間内でGANを学習させることによってデータ分布をモデリングした会話モデルを学習し、
前記会話モデルによって前記データ分布からサンプリングされた潜在変数を利用して会話応答を生成する、
コンピュータシステム。 - 前記少なくとも1つのプロセッサは、
FFNNを利用して潜在変数に対する事前分布と事後分布をモデリングする、
請求項12に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
ニューラルネットワークを利用して文脈−依存ランダムノイズを潜在変数に対するサンプルに変換することによって潜在変数に対する事前分布と事後分布をモデリングする、
請求項12に記載のコンピュータシステム。 - 前記少なくとも1つのプロセッサは、
混合ガウス事前ネットワークを利用してランダムノイズをサンプリングすることによってマルチモーダル応答を学習する、
請求項12に記載のコンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0099404 | 2018-08-24 | ||
KR1020180099404A KR102204979B1 (ko) | 2018-08-24 | 2018-08-24 | 딥러닝 생성모델과 다중모달 분포를 이용하여 멀티턴 대화 응답을 생성하는 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020030403A true JP2020030403A (ja) | 2020-02-27 |
JP6797240B2 JP6797240B2 (ja) | 2020-12-09 |
Family
ID=69624322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019099323A Active JP6797240B2 (ja) | 2018-08-24 | 2019-05-28 | ディープラーニング生成モデルとマルチモーダル分布を利用してマルチターン会話応答を生成する方法およびシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6797240B2 (ja) |
KR (1) | KR102204979B1 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020103914A (ja) * | 2020-02-26 | 2020-07-09 | 株式会社三洋物産 | 遊技機 |
CN111797220A (zh) * | 2020-07-30 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 对话生成方法、装置、计算机设备和存储介质 |
CN112270199A (zh) * | 2020-11-03 | 2021-01-26 | 辽宁工程技术大学 | 基于CGAN方法的个性化语义空间关键字Top-K查询方法 |
JP2021108094A (ja) * | 2019-12-27 | 2021-07-29 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 対話モデルを生成するための方法及び装置 |
CN113222147A (zh) * | 2021-05-11 | 2021-08-06 | 北华航天工业学院 | 一种条件双对抗学习推理模型的构建方法 |
JP2023508062A (ja) * | 2020-05-25 | 2023-02-28 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 対話モデルの訓練方法、装置、コンピュータ機器及びプログラム |
CN116146515A (zh) * | 2022-11-15 | 2023-05-23 | 安徽智质工程技术有限公司 | 一种水泥厂离心风机设备异常检测方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022114324A1 (ko) * | 2020-11-30 | 2022-06-02 | 한국과학기술원 | 자연어를 기반으로 비디오를 생성하는 장치 및 방법 |
KR102372642B1 (ko) * | 2021-01-27 | 2022-03-08 | 아주대학교산학협력단 | 자동 응답 생성 방법 및 장치 |
US11736423B2 (en) | 2021-05-04 | 2023-08-22 | International Business Machines Corporation | Automated conversational response generation |
KR102452814B1 (ko) * | 2021-10-15 | 2022-10-07 | 한국기술교육대학교 산학협력단 | 문서 내 현안 분석 및 추출하기 위한 방법 |
CN114359360B (zh) * | 2022-03-17 | 2022-06-10 | 成都信息工程大学 | 一种基于对抗的双向一致性约束医学图像配准算法 |
CN117689026A (zh) * | 2023-12-12 | 2024-03-12 | 山东浪潮科学研究院有限公司 | 一种生成式的聊天对话方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101745808B1 (ko) * | 2015-12-31 | 2017-06-28 | 엔에이치엔엔터테인먼트 주식회사 | 서버측 로직의 모듈화를 위한 모듈 처리 방법 및 시스템 |
KR101797856B1 (ko) * | 2016-02-24 | 2017-11-15 | 라인 가부시키가이샤 | 메신저 서비스를 이용한 인공지능 학습 방법 및 시스템, 그리고 인공지능을 이용한 답변 중계 방법 및 시스템 |
KR20180052347A (ko) * | 2016-11-10 | 2018-05-18 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
-
2018
- 2018-08-24 KR KR1020180099404A patent/KR102204979B1/ko active IP Right Grant
-
2019
- 2019-05-28 JP JP2019099323A patent/JP6797240B2/ja active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021108094A (ja) * | 2019-12-27 | 2021-07-29 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 対話モデルを生成するための方法及び装置 |
US11537798B2 (en) | 2019-12-27 | 2022-12-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating dialogue model |
JP7208952B2 (ja) | 2019-12-27 | 2023-01-19 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 対話モデルを生成するための方法及び装置 |
JP2020103914A (ja) * | 2020-02-26 | 2020-07-09 | 株式会社三洋物産 | 遊技機 |
JP2023508062A (ja) * | 2020-05-25 | 2023-02-28 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 対話モデルの訓練方法、装置、コンピュータ機器及びプログラム |
JP7431977B2 (ja) | 2020-05-25 | 2024-02-15 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 対話モデルの訓練方法、装置、コンピュータ機器及びプログラム |
CN111797220A (zh) * | 2020-07-30 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 对话生成方法、装置、计算机设备和存储介质 |
CN111797220B (zh) * | 2020-07-30 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 对话生成方法、装置、计算机设备和存储介质 |
CN112270199A (zh) * | 2020-11-03 | 2021-01-26 | 辽宁工程技术大学 | 基于CGAN方法的个性化语义空间关键字Top-K查询方法 |
CN113222147A (zh) * | 2021-05-11 | 2021-08-06 | 北华航天工业学院 | 一种条件双对抗学习推理模型的构建方法 |
CN113222147B (zh) * | 2021-05-11 | 2024-02-13 | 北华航天工业学院 | 一种条件双对抗学习推理模型的构建方法 |
CN116146515A (zh) * | 2022-11-15 | 2023-05-23 | 安徽智质工程技术有限公司 | 一种水泥厂离心风机设备异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102204979B1 (ko) | 2021-01-19 |
KR20200023049A (ko) | 2020-03-04 |
JP6797240B2 (ja) | 2020-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102204979B1 (ko) | 딥러닝 생성모델과 다중모달 분포를 이용하여 멀티턴 대화 응답을 생성하는 방법 및 시스템 | |
EP3525205B1 (en) | Electronic device and method of performing function of electronic device | |
JP6828001B2 (ja) | 音声ウェイクアップ方法及び装置 | |
KR101949497B1 (ko) | 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템 | |
Sriram et al. | Robust speech recognition using generative adversarial networks | |
KR102034255B1 (ko) | 사람-기계 간 감정 대화를 위한 방법 및 시스템 | |
JP6728319B2 (ja) | 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム | |
CN108885870A (zh) | 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法 | |
JP2018194832A (ja) | 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム | |
CN112489621B (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
JP2019012506A (ja) | 機械の自動活性のための方法及びシステム | |
KR20210042523A (ko) | 전자 장치 및 이의 제어 방법 | |
US20240321264A1 (en) | Automatic speech recognition | |
CN115688937A (zh) | 一种模型训练方法及其装置 | |
CN117520498A (zh) | 基于虚拟数字人交互处理方法、系统、终端、设备及介质 | |
KR20190021088A (ko) | 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
CN115101075B (zh) | 一种语音识别的方法以及相关装置 | |
KR20190018666A (ko) | 기계의 자동 활성을 위한 방법 및 시스템 | |
KR20230141932A (ko) | 적응형 시각적 스피치 인식 | |
US11743588B1 (en) | Object selection in computer vision | |
Jeong et al. | A computer remote control system based on speech recognition technologies of mobile devices and wireless communication technologies | |
US12112752B1 (en) | Cohort determination in natural language processing | |
CN116978362A (zh) | 槽位预测模型的训练与预测方法、装置、设备及存储介质 | |
Christina et al. | Powerpoint Controller using Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190528 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20190604 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6797240 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |