CN111061847A - 对话生成及语料扩充方法、装置、计算机设备和存储介质 - Google Patents
对话生成及语料扩充方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111061847A CN111061847A CN201911158777.XA CN201911158777A CN111061847A CN 111061847 A CN111061847 A CN 111061847A CN 201911158777 A CN201911158777 A CN 201911158777A CN 111061847 A CN111061847 A CN 111061847A
- Authority
- CN
- China
- Prior art keywords
- text
- question
- vector
- initial
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 266
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000006243 chemical reaction Methods 0.000 claims abstract description 47
- 230000004044 response Effects 0.000 claims abstract description 17
- 230000006399 behavior Effects 0.000 claims description 74
- 238000012545 processing Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 25
- 238000013519 translation Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013550 semantic technology Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种对话生成及语料扩充方法、装置、计算机设备和存储介质。所述对话生成方法包括:获取当前问题文本,当前问题文本根据用户当前输入问题得到;将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量的转换得到;根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。采用本方法能够扩充样本数量、增强样本可用性,且能够利于提升对话质量。
Description
技术领域
本申请涉及电力技术领域,特别是涉及一种对话生成及语料扩充方法、装置、计算机设备和存储介质。
背景技术
随着电力技术的发展,以及电力行业业务和数据量逐步增长,电力企业内部产生了大量需要交互的业务场景,例如,运营管控智能助理、智能客服等。其中,通过自然语言理解与机器进行信息交互以实现业务需求和数据调用的过程,具有重要的研究意义与应用价值。
自然语言处理与人机对话是语音语义技术的主要组成部分,集成各类语义分析的算法,是人工智能研究的重点支撑应用之一。而人机对话系统中的中对话管理模块是整个系统的控制核心。对话管理有两个作用:对话状态跟踪器维护系统的对话状态,对话策略决定在当前状态上应该选择什么动作,对话策略是一个从置信对话状态到对话动作的映射函数。其本质是根据自然语言理解的内容以及当前的对话状态决定下一步的最优行动,辅助用户实现其任务执行的目的。对话管理模块的智能水平对于整体对话系统的质量具有决定性的作用。
人机对话系统的效果依赖于标注数据的质量和规模,但在企业智能助理等特定场景应用中,对话管理模块在启动阶段需要的语料库是缺乏的,容易导致模型的泛化能力不足,从而难以达到良好的训练效果。对于垂直领域而言,大规模的收集对话数据是非常困难的,在数据量不足时无法达到满意的意图识别与填槽精度,这些都会影响对话质量。
发明内容
基于此,有必要针对上述技术问题,提供一种能够扩充样本数量、增强样本可用性,且能够利于提升对话质量的对话生成及语料扩充方法、装置、计算机设备和存储介质。
一种对话生成方法,该方法包括:
获取当前问题文本,当前问题文本根据用户当前输入问题得到;
将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量的转换得到;
根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。
在其中一个实施例中,上述的对话生成模型的训练过程包括:
获取初始问题文本,初始问题文本对应有用户意图;
对初始问题文本进行文本向量化处理,得到初始问题词语向量;
对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;
对问题文本向量标注答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定;
通过标注有答案文本的问题文本向量,对待训练模型进行训练,得到对话生成模型。
在其中一个实施例中,上述的采用机器翻译原理对初步数据增强结果进行文本向量化处理,包括:
将初步数据增强结果输入二次数据增强模型,得到初次问题文本向量;
将初次问题文本向量输入二次数据增强模型,得到二次数据增强结果。
在其中一个实施例中,上述的二次数据增强模型采用第一编码-注意力-解码模型,第一采用编码-注意力-解码模型的编码层和解码层均采用GRU模型;
和/或
待训练模型采用第二编码-注意力-解码模型,第二编码-注意力-解码模型的编码层和解码层均采用双向RNN-BiLSTM模型。
在其中一个实施例中,上述的获取初始问题文本,包括:
获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图,优选地,从系统日志中获取用户对话任务;
根据用户操作行为信息,获取用户行为信息对应的初始问题文本。
一种语料扩充方法,该方法包括:
获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图;
根据用户操作行为信息,获取用户行为信息对应的初始问题文本;
对初始问题文本进行文本向量化处理,得到初始问题词语向量;
对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;
关联问题文本向量与答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定,问题文本向量与答案文本关联构成扩充后的问答语料数据。
一种对话生成装置,该装置包括:
第一获取模块,用于获取当前问题文本,当前问题文本根据用户当前输入问题得到;
处理模块,用于将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量转换得到;
响应模块,用于根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。
一种语料扩充装置,该装置包括:
第二获取模块,用于获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图,根据用户操作行为信息,获取用户行为信息对应的初始问题文本;
向量化处理模块,用于对初始问题文本进行文本向量化处理,得到初始问题词语向量;
数据增强模块,用于对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;
关联模块,用于关联问题文本向量与答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定,问题文本向量与答案文本关联构成扩充后的问答语料数据。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取当前问题文本,当前问题文本根据用户当前输入问题得到;
将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量的转换得到;
根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图;
根据用户操作行为信息,获取用户行为信息对应的初始问题文本;
对初始问题文本进行文本向量化处理,得到初始问题词语向量;
对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;
关联问题文本向量与答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定,问题文本向量与答案文本关联构成扩充后的问答语料数据。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取当前问题文本,当前问题文本根据用户当前输入问题得到;
将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量的转换得到;
根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图;
根据用户操作行为信息,获取用户行为信息对应的初始问题文本;
对初始问题文本进行文本向量化处理,得到初始问题词语向量;
对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;
关联问题文本向量与答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定,问题文本向量与答案文本关联构成扩充后的问答语料数据。
由以上技术方案可见,本申请实施例不但对初始问题文本进行了同义词转换和/或句式改写,还对同义词转换和/或句式改写得到的初步数据增强结果进行了词语向量向语义向量的转换,如此,不但扩充了样本数量,而且增强了样本的可用性;解决了目前面向企业应用的对话管理系统样本不足、标注数据少、深度学习模型泛化能力不足等问题。基于此数据增强处理后的数据训练得到的对话生成模型,在用于对话生成时,有利于提升对话质量。
附图说明
图1为一个实施例中对话生成方法和语料扩充方法的应用环境图;
图2为一个实施例中对话生成方法的流程示意图;
图3为一个实施例中对话生成模型的训练过程的流程示意图;
图4为一个实施例中文本向量化步骤的流程示意图;
图5为一个实施例中获取初始问题文本步骤的流程示意图;
图6为一个实施例中语料扩充方法的流程示意图;
图7为一个实施例中对话生成装置的结构框图;
图8为一个实施例中语料扩充装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或者”的关系。
本申请提供的对话生成方法和语料扩充方法,可以应用于如图1所示的应用环境中。该应用环境中包括终端102、服务器106、数据库设备106和网络108,终端102、服务器104和数据库设备106之间均可以通过网络108实现可通信的连接。该终端102、服务器106、数据库设备106和网络108构成的网络系统可以是基于互联网,也可以基于局域网,还可以基于互联网和局域网的组合网,在此不做赘述。
终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。数据库设备106包括多个数据库或者数据库集群,可以用于存储电力系统日志数据或者初始问题文本。网络108用于实现终端102与服务器104、服务器104与数据库设备106等之间的网络连接,可以包括多种类型的有线或无线网络。网络108可以包括互联网、局域网(“LAN”)、广域网(“WAN”)、内部网、移动电话网络、虚拟专用网(VPN)、蜂窝式或其它移动通信网络、蓝牙、NFC或其任何组合。网络108进行数据传输时也会基于相应的通讯协议,例如网页浏览器接收网页相应的业务代码时会基于HTTP通讯协议,移动应用程序接收的业务代码时可以基于Websocket通讯协议。
在具体实现时,服务器104可以从数据库设备106获取初始问题文本,或者根据从数据库设备106获取的用户对话任务内容获取初始问题文本,对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量的转换得到问题文本向量,根据该问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到对话生成模型。终端102向服务器104发送当前问题文本,服务器104将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,并根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。需要说明的是,本申请实施例中对话生成方法和语料扩充方法可以应用于服务器,也可以应用于终端或者其他计算机设备。此外,进行语料扩充以及模型训练的计算机设备和进行对话生成的计算机设备可以是同一计算机设备,也可以是不同的计算机设备。
在一个实施例中,如图2所示,提供了一种对话生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取当前问题文本,当前问题文本根据用户当前输入问题得到。
其中,用户输入问题的方式可以是文本输入(例如,编辑文字),也可以是语音输入。如果是文本输入,可以是终端将文本输入内容发送给服务器,服务器将接收到的文本输入内容作为当前问题文本。如果是语音输入,可以是终端识别语音输入内容,将语音识别结果发送给服务器,服务器将接收到的语音识别结果作为当前问题文本,也可以是终端将语音输入内容发送给服务器,由服务器进行语音识别,服务器将语音识别得到的语音识别结果作为当前问题文本。
步骤204,将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,问题文本向量通过对初始问题文本进行文本向量化处理,以及同义词转换和/或句式改写得到;
具体地,服务器对初始问题文本进行文本向量化处理后,再进行两次数据加强,这两次数据加强分别为初步数据增强和二次数据增强。其中,初步数据增强是指对初始问题文本进行同义词转换和/或句式改写。通过同义词转换和/或句式改写可以增加问题文本的数量。经过初步数据增强的问题文本再进行词语向量向语义向量的转换,可以得到规范化、维度合适的问题文本向量,问题文本向量的可用性提高,向量空间的维度降低,从而也提高了样本在模型训练中的可用性。
其中,文本向量化处理可以通过调用word2vec模型实现,word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学的词文本。
步骤206,根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。
具体地,服务器可以直接将目标答案文本传输给终端,由终端输出目标答案文本或者目标答案文本对应的语音,也可以是将目标答案文本按照预设的处理策略处理后再传输给终端。处理策略可以是添加、替换或者删除部分文本内容。此外,服务器也可以是在将目标答案文本或者按照预设的处理策略处理的目标答案文本转换成语音后再发送给终端。
上述实施例的对话生成方法中,是获取当前问题文本,该当前问题文本根据用户当前输入问题得到,将该当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,该对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,该问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量的转换得到,根据该目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。本实施例中,在对话生成模型训练前,对初始问题文本进行了两步的数据增强,不但扩充了样本数量,而且增强了样本的可用性,能够解决目前面向企业应用的对话管理系统样本不足、标注数据少、深度学习模型泛化能力不足的问题,提升模型的泛化能力,进而实现了由小样本数据进行对话生成。
在其中一个实施例中,上述的对话生成模型的训练过程,可以包括如下步骤:
步骤302,获取初始问题文本,初始问题文本对应有用户意图。
这里,初始问题文本是进行数据增强前的问题文本。
步骤304,对所述初始问题文本进行文本向量化处理,得到初始问题词语向量。
具体地,可以将初始问题文本经word2vec模型转换为向量的形式,得到初始问题词语向量;
步骤306,对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果。
具体地,可以从初始问题词语向量随机选一个或者多个词语,用这一个或者多个词语的同义词对应替换这一个或者多个词语,得到一个或者多个新的问题文本,如此可以增加问题文本的数量。例如,可以将文本“我特别喜欢这部电影”改为“我非常喜欢这个影片”,这样文本仍具有相同的含义,或者,将文本“我想订18:00的会议室”改为“我想订下午6点的会议室”。也可以对初始问题文本进行句式改写,得到一个或者多个新的问题文本,句式改写的方式可以但不限于是增加修饰词语、删除修饰词语、陈述句与反问句互换、直接陈述和间接陈述互换或者陈述句与双重否定互换等等。
本实施例中通过对初始问题词语向量进行同义词转换和/或句式改写,可以增加问题文本的数量。
步骤308,采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量。
本实施例中,借助机器翻译原理,将输入的文本数据形成的embedding向量,也就是文本向量化处理结果,进行同义词转换和/或句式改写后,再进行词语向量向语义向量转换,以使初步数据增强结果转换成有语义信息的问题文本向量,使词与词之间的关系可以度量,并且通过降低词向量的维度来降低神经网络计算复杂度,使意图识别的准确率得到提高。
步骤310,对问题文本向量标注答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定。
具体地,可以预先建立用户意图和答案文本的对应关系,在需要为问题文本向量标注答案文本时,先确定出得到问题文本向量的初始问题文本对应的用户意图,再根据该对应关系查询与确定出的用户意图对应的答案文本,为问题文本向量标注该答案文本。
步骤312,通过标注有答案文本的问题文本向量,对待训练模型进行训练,得到对话生成模型。
这里,待训练模型一般为带有注意力模型(attention)的深度学习(seq2seq)模型,即attention-seq2seq模型。
本实施例中,不但对初始问题文本进行了同义词转换和/或句式改写,还对得到的初步数据增强结果进行了词语向量向语义向量的转换,如此,不但扩充了样本数量,而且增强了样本的可用性。同时,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定,快捷而且准确。
在其中一个实施例中,上述的采用机器翻译原理对初步数据增强结果进行文本向量化处理,可以包括如下步骤:
步骤402,将初步数据增强结果输入二次数据增强模型,得到初次问题文本向量。
这里,二次数据增强模型用于将问题文本的词语向量转换成问题文本的语义向量。
步骤404,将初次问题文本向量输入二次数据增强模型,得到二次数据增强结果。
本实施例中,采用两次的二次数据增强操作,可以进一步提高输出的问题文本向量的质量。
在其中一个实施例中,该二次数据增强模型采用第一编码-注意力-解码模型,第一采用编码-注意力-解码模型的编码层和解码层均采用GRU(Gated Recurrent Unit,门控循环单元)模型。该第一编码-注意力-解码模型为带Attention机制的Encoder-Decoder(编解码)模型。由于Encoder-Decoder模型虽然经典,但其局限性也十分明显。语义向量在该模型的编码器和解码器中的作用就好比是一座桥梁,两者之间的联系全靠它。语义向量是一个固定的向量,这就造成其携带的输入序列数据并不完整以及先输入的数据很容易被后输入的数据所覆盖,让解码器解码出的数据与预想的数据出现较大偏差。如果输入的序列越长,解码器解码出来的数据和预想数据产生的偏差将会越大。为了解决解码器解码偏差较大的问题,本实施例方案使用Attention Model(注意力模型)。Attention Model在输出数据时会产生一个注意力范围,从产生的这个范围中知道输入序列的哪个部分需要进行关注,根据关注的数据来产生下一个输出,之后一直不断重复上述步骤直到输出所有数据。引入Attention机制,可以提高输出的问题文本向量的质量。
具体地,Encoder:使用GRU模型进行问题文本生成;
qi=GRU(xi,qi-1) (1)
其中,i表示序列里第i个文字,x表示文本数据的初始文本向量,q代表编码层输出的隐藏层状态。
Attention:利用Attention机制;
其中,a表示注意力向量,aij是注意力向量中的第i行第j列的元素,c是最终输出的文本语义向量。
Decoder:
sj=GRU(yj-1,sj-1,cj) (3)
其中,s表示解码出来的问题文本向量,y表示解码层输出的隐藏层状态。
在其中一个实施例中,上述的待训练模型采用第二编码-注意力-解码模型,第二编码-注意力-解码模型的编码层和解码层均采用双向RNN(Recurrent Neural Networks,循环神经网络)–BiLSTM(双向长短记忆网络)模型。
其中,待训练模型包括两个模块,即Encoder模块和Decoder模块,具体结构如下:
Encoder模块:
Decoder模块:
每个时刻的输出由三个要素决定,当前时刻(即第i个时刻)的隐状态si,attention层计算出来的中间语义向量ci,上一时刻(即第i-1个时刻)的输出:yi-1。
其中:
si=f(si-1,yi-1,ci) (5)
si表示解码器(decoder)第i个时刻的隐藏状态,hi表示编码器(encoder)在第i个时刻的隐藏状态。条件概率与每个目标输出yi相对应的内容向量ci有关。
其中,ci表示输入序列全部隐藏状态的加权和;αij代表权重参数,αij不是固定值,而是由神经网络训练得到。将隐藏向量序列按权重相加,表示在生成第j个输出的时候的注意力分配是不同的。αij的值越高,表示第i个输出在第j个输入上分配的注意力越多,在生成第i个输出的时候受第j个输入的影响也就越大。
这意味着在生成每个单词yi的时候,原先都是相同的中间语义表示c,会替换成根据当前生成单词而不断变化的ci,即由固定的中间语义表示c换成了根据当前输出单词来调整成加入注意力模型的变化的ci。
eij=α(si-1,hj) (8)
si-1先跟每个h分别计算得到一个数值,然后使用softmax函数得到第i个时刻的输出在Tx个输入隐藏状态中的注意力分配向量。这个分配向量也就是计算ci的权重。
在其中一个实施例中,上述的待训练模型的目标函数定义为:
其中,yi表示第i个时刻的输出文本,xi为第i个时刻的输入文本,即通过调整神经网络参数来最大化固定输入文本序列的情况下输出文本为目标文本序列的概率。在模型当中涉及到的各个参数,均由SGD(随机梯度下降)算法进行优化。
在其中一个实施例中,上述的获取初始问题文本,可以包括如下步骤:
步骤502,获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图。
这里,用户操作行为信息具体可以包括控件点击行为信息和搜索行为信息等。具体地,可以从系统日志中获取对话任务内容。
步骤504,根据用户操作行为信息,获取用户行为信息对应的初始问题文本。
具体地,可以从小样本文本数据中,获取用户行为信息对应的初始问题文本。在获得初始问题文本后,还可以建立初始问题文本和用户意图的对应关系。
本实施例中,基于用户对话任务内容获取初始问题文本,可以使得初始问题文本与实际的对话场景更加匹配,进而提升所训练处的对话生成模型的质量。
为了便于理解本申请方案,以下通过一个实施例进行详细说明。
1)小样本数据获取和数据处理。
从一个现实中的电力企业信息域运营管控平台获取线上对话数据,用户会向平台提交多种不同的对话任务,和多种不同的意图(类别),但是每种意图只有极少数的标注数据(样本)。将数据集划分为训练集与测试集,并且使得两个集合的标签没有交叉。将文本数据经过word2vec转换为向量。以下举例说明:
原始用户任务内容参见表1。
表1
用户操作行为信息 | 用户意图 |
点击“投资情况”按钮 | 查询投资指标 |
搜索“投资情况” | 查询投资指标 |
点击“人力资源监控”看板 | 跳转至人力资源看板 |
…… | …… |
经word2vec处理后生成问题文本向量,需要说明的是,表2中的问题文本向量是以向量形式计算,这里只是以文本形式举例说明。数据增强处理后生成问题文本向量参见表2。
表2
用户操作行为信息 | 问题文本向量 |
点击“投资情况”按钮 | 我要查询投资情况 |
点击“投资情况”按钮 | 如何得到投资情况 |
搜索“投资情况” | 投资的情况怎么查询 |
点击“人力资源监控”看板 | 我想要跳转人力资源看板 |
点击“人力资源监控”看板 | 人力资源看板在哪里看 |
….. | ……. |
通过训练神经网络(attention-seq2seq模型),目的是实现系统自动回复,例如,如表3所示,对应的输入会得到对应的输出。
表3
以下对数据增强以及模型训练的过程进行详细阐述。
2)对小样本数据进行数据增强处理,扩充样本数量,增强样本可用性
2-1、初步数据增强:
使用同义词替换或者句式改写方法进行初步数据增强。随机选一些词并用它们的同义词来替换这些词,或者进行句式改写,如此,可以扩充问题样本的数量。
2-2、二次数据增强:
借助机器翻译原理,对输入的文本数据(初步数据增强得到的文本数据)进行词语向量向语义向量转换,使词与词之间的关系可以度量,并且通过降低词向量的维度来降低神经网络计算复杂度,使意图识别的准确率得到提高。在本过程中,对输入的文本数据进行两次上述公式(1)-公式(3)对应的操作,最终输出源文本语言数据,即上述的问题文本向量。
3)构建attention-seq2seq模型。
一般的seq2seq模型,通过Encoder将输入语句进行编码得到固定长度的文本向量,这个过程实际上是一个信息有损压缩的过程,即编码器里所有的信息都要压缩在一个文本向量,随后再将文本向量传给Decoder进行输出结果的生成,在Decoder端生成每个文本时,均参考来自Encoder端相同的文本向量,这种方式相对不够灵活。因此,一种更好的方式就是引入Attention机制,给予当前待处理的文本更多的权重。attention模型不要求编码器将所有输入信息都编码进一个固定长度的向量之中,编码器需要将输入编码成一个向量的序列,而在解码的时候,每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。所以在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息,使得对不同文本进行处理时会对源文本有不同的侧重。引入attention机制可以提高输出文本的质量和准确性,避免对不同输入产生统一回答的情况。
本实施例中的attention-seq2seq模型包括上述的Encoder模块和Decoder模块,详见上述描述,在此不予赘述。
4)构建目标函数。
这里,目标函数如上述的公式(8)所示。
5)进行基于epoch的训练(即基于“每次输入全部标注数据”的训练),完成神经网络构建。
具体地,基于epoch训练模型,在每个训练epoch过程中对模型进行更新。一个epoch等于使用训练集中的全部样本正向反向训练一次。
本实施例中,从企业系统中提取小样本数据并通过数据增强的方式构建文本向量,通过训练基于attention-seq2seq模型的深度学习神经网络,得到对话生成模型,对话生成模型得到后,对于用户输入的问题,可以通过向量化后输入到模型中,通过对话生成模型的attention层来得到当前问题文本的语义向量,之后输入到解码层中来输出答案文本,从而实现对每个输入语句生成一个输出语句的“对话”(sequence to sequence)。生成的对话即根据用户的输入文本(例:我想查看XX指标)识别其含义(显示XX指标),并输出答案文本(正在为您提供XX指标)。
在其中一个实施例中,根据上述的对话生成方法,还提供一种语料扩充方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤602,获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图;
步骤604,根据用户操作行为信息,获取用户行为信息对应的初始问题文本;
步骤606,对初始问题文本进行文本向量化处理,得到初始问题词语向量;
步骤608,对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
步骤610,采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;
步骤612,关联问题文本向量与答案文本,答案文本根据得到所述问题文本向量的初始问题文本对应的用户意图确定,应答数据与所述答案文本关联构成扩充后的问答语料数据。
具体地,也可以是关联问题文本向量对应的问题文本与答案文本。
上述实施例的语料扩充方法中,是获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图,根据用户操作行为信息,获取用户行为信息对应的初始问题文本,对初始问题文本进行文本向量化处理,得到初始问题词语向量,对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果,采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量,关联该问题文本向量与答案文本,答案文本根据得到所述问题文本向量的初始问题文本对应的用户意图确定,应答数据与所述答案文本关联构成扩充后的问答语料数据。本实施例中,对初始问题文本进行了两步的数据增强,不但扩充了样本数量,而且增强了样本的可用性,能够解决目前面向企业应用的对话管理系统样本不足、标注数据少、深度学习模型泛化能力不足的问题,提升模型的泛化能力。
关于语料扩充方法的具体限定可以参见上文中对于对话生成方法的限定,在此不再赘述。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种对话生成装置,包括:第一获取模块702、处理模块704和响应模块706,其中:
第一获取模块702,用于获取当前问题文本,当前问题文本根据用户当前输入问题得到。
处理模块704,用用于将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量转换得到。
响应模块706,用于根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。
在其中一个实施例中,对话生成装置还可以包括训练模块(图中未示出),训练模块用于获取初始问题文本,初始问题文本对应有用户意图,对初始问题文本进行文本向量化处理,得到初始问题词语向量,对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果,采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量,对问题文本向量标注答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定,通过标注有答案文本的问题文本向量,对待训练模型进行训练,得到对话生成模型。
在其中一个实施例中,训练模块可以将初步数据增强结果输入二次数据增强模型,得到初次问题文本向量,将初次问题文本向量输入二次数据增强模型,得到二次数据增强结果。
在其中一个实施例中,上述的二次数据增强模型采用第一编码-注意力-解码模型,第一采用编码-注意力-解码模型的编码层和解码层均采用GRU模型;和/或,上述的待训练模型采用第二编码-注意力-解码模型,第二编码-注意力-解码模型的编码层和解码层均采用双向RNN-BiLSTM模型。
在其中一个实施例中,训练模块可以获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图;根据用户操作行为信息,获取用户行为信息对应的初始问题文本。
在其中一个实施例中,训练模块可以从系统日志中获取用户对话任务;
在一个实施例中,如图8所示,提供了一种语料扩充装置,包括:第二获取模块802、向量化处理模块804、数据增强模块806和关联模块808,其中:
第二获取模块802,用于获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图,根据用户操作行为信息,获取用户行为信息对应的初始问题文本;
向量化处理模块804,用于对初始问题文本进行文本向量化处理,得到初始问题词语向量;
数据增强模块806,用于对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;
关联模块808,用于关联问题文本向量与答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定,问题文本向量与答案文本关联构成扩充后的问答语料数据。
关于对话生成装置的具体限定可以参见上文中对于对话生成方法的限定,在此不再赘述。关于语料扩充装置的具体限定可以参见上文中对于语料扩充方法的限定或者上文中对于对话生成方法的限定,在此不再赘述。上述对话生成装置和语料扩充装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对话生成方法或者一种语料扩充方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取当前问题文本,当前问题文本根据用户当前输入问题得到;将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量的转换得到;根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:获取初始问题文本,初始问题文本对应有用户意图;对初始问题文本进行文本向量化处理,得到初始问题词语向量;对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;对问题文本向量标注答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定;通过标注有答案文本的问题文本向量,对待训练模型进行训练,得到对话生成模型。
在其中一个实施例中,处理器执行计算机程序实现上述的采用机器翻译原理对初步数据增强结果进行文本向量化的步骤时,具体实现以下步骤:将初步数据增强结果输入二次数据增强模型,得到初次问题文本向量;将初次问题文本向量输入二次数据增强模型,得到二次数据增强结果。
在其中一个实施例中,处理器执行计算机程序实现上述的获取初始问题文本的步骤时,具体实现以下步骤:获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图,优选地,从系统日志中获取用户对话任务;根据用户操作行为信息,获取用户行为信息对应的初始问题文本。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图;根据用户操作行为信息,获取用户行为信息对应的初始问题文本;对初始问题文本进行文本向量化处理,得到初始问题词语向量;对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;关联问题文本向量与答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定,问题文本向量与答案文本关联构成扩充后的问答语料数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取当前问题文本,当前问题文本根据用户当前输入问题得到;将当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,对话生成模型根据问题文本向量以及问题文本向量的答案文本作为模型训练样本训练得到,问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量的转换得到;根据目标答案文本响应输入问题,输入问题和对输入问题的响应为所生成的对话。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取初始问题文本,初始问题文本对应有用户意图;对初始问题文本进行文本向量化处理,得到初始问题词语向量;对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;对问题文本向量标注答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定;通过标注有答案文本的问题文本向量,对待训练模型进行训练,得到对话生成模型。
在其中一个实施例中,计算机程序被处理器执行实现上述的采用机器翻译原理对初步数据增强结果进行文本向量化的步骤时,具体实现以下步骤:将初步数据增强结果输入二次数据增强模型,得到初次问题文本向量;将初次问题文本向量输入二次数据增强模型,得到二次数据增强结果。
在其中一个实施例中,计算机程序被处理器执行实现上述的获取初始问题文本的步骤时,具体实现以下步骤:获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图,优选地,从系统日志中获取用户对话任务;根据用户操作行为信息,获取用户行为信息对应的初始问题文本。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取用户对话任务内容,用户对话任务内容包括用户操作行为信息以及与用户操作行为信息对应的用户意图;根据用户操作行为信息,获取用户行为信息对应的初始问题文本;对初始问题文本进行文本向量化处理,得到初始问题词语向量;对初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;采用机器翻译原理对初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,二次数据增强结果包括问题文本向量;关联问题文本向量与答案文本,答案文本根据得到问题文本向量的初始问题文本对应的用户意图确定,问题文本向量与答案文本关联构成扩充后的问答语料数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种对话生成方法,所述方法包括:
获取当前问题文本,所述当前问题文本根据用户当前输入问题得到;
将所述当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,所述对话生成模型根据问题文本向量以及所述问题文本向量的答案文本作为模型训练样本训练得到,所述问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量的转换得到;
根据所述目标答案文本响应所述输入问题,所述输入问题和对所述输入问题的响应为所生成的对话。
2.根据权利要求1所述的方法,其特征在于,所述对话生成模型的训练过程包括:
获取初始问题文本,所述初始问题文本对应有用户意图;
对所述初始问题文本进行文本向量化处理,得到初始问题词语向量;
对所述初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
采用机器翻译原理对所述初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,所述二次数据增强结果包括问题文本向量;
对所述问题文本向量标注答案文本,所述答案文本根据得到所述问题文本向量的初始问题文本对应的用户意图确定;
通过标注有所述答案文本的所述问题文本向量,对待训练模型进行训练,得到所述对话生成模型。
3.根据权利要求2所述的方法,其特征在于,所述采用机器翻译原理对所述初步数据增强结果进行词语向量向语义向量转换,包括:
将所述初步数据增强结果输入二次数据增强模型,得到初次问题文本向量;
将所述初次问题文本向量输入所述二次数据增强模型,得到所述二次数据增强结果。
4.根据权利要求3所述的方法,其特征在于,所述二次数据增强模型采用第一编码-注意力-解码模型,所述第一采用编码-注意力-解码模型的编码层和解码层均采用GRU模型;
和/或
所述待训练模型采用第二编码-注意力-解码模型,所述第二编码-注意力-解码模型的编码层和解码层均采用双向RNN-BiLSTM模型。
5.根据权利要求2-4任意一项所述的方法,其特征在于,所述获取初始问题文本,包括:
获取用户对话任务内容,所述用户对话任务内容包括用户操作行为信息以及与所述用户操作行为信息对应的用户意图,优选地,从系统日志中获取所述用户对话任务;
根据所述用户操作行为信息,获取所述用户行为信息对应的初始问题文本。
6.一种语料扩充方法,其特征在于,包括:
获取用户对话任务内容,所述用户对话任务内容包括用户操作行为信息以及与所述用户操作行为信息对应的用户意图;
根据所述用户操作行为信息,获取所述用户行为信息对应的初始问题文本;
对所述初始问题文本进行文本向量化处理,得到初始问题词语向量;
对所述初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
采用机器翻译原理对所述初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,所述二次数据增强结果包括问题文本向量;
关联所述问题文本向量与答案文本,所述答案文本根据得到所述问题文本向量的初始问题文本对应的用户意图确定,所述问题文本向量与所述答案文本关联构成扩充后的问答语料数据。
7.一种对话生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取当前问题文本,所述当前问题文本根据用户当前输入问题得到;
处理模块,用于将所述当前问题文本进行文本向量化处理后输入预先创建的对话生成模型,得到目标答案文本,所述对话生成模型根据问题文本向量以及所述问题文本向量的答案文本作为模型训练样本训练得到,所述问题文本向量通过对初始问题文本进行文本向量化处理,同义词转换和/或句式改写,以及词语向量向语义向量转换得到;
响应模块,用于根据所述目标答案文本响应所述输入问题,所述输入问题和对所述输入问题的响应为所生成的对话。
8.一种语料扩充装置,其特征在于,所述装置包括:
第二获取模块,用于获取用户对话任务内容,所述用户对话任务内容包括用户操作行为信息以及与所述用户操作行为信息对应的用户意图,根据所述用户操作行为信息,获取所述用户行为信息对应的初始问题文本;
向量化处理模块,用于对所述初始问题文本进行文本向量化处理,得到初始问题词语向量;
数据增强模块,用于对所述初始问题词语向量进行同义词转换和/或句式改写,得到初步数据增强结果;
采用机器翻译原理对所述初步数据增强结果进行词语向量向语义向量转换,得到二次数据增强结果,所述二次数据增强结果包括问题文本向量;
关联模块,用于关联所述问题文本向量与答案文本,所述答案文本根据得到所述问题文本向量的初始问题文本对应的用户意图确定,所述问题文本向量与所述答案文本关联构成扩充后的问答语料数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911158777.XA CN111061847A (zh) | 2019-11-22 | 2019-11-22 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911158777.XA CN111061847A (zh) | 2019-11-22 | 2019-11-22 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111061847A true CN111061847A (zh) | 2020-04-24 |
Family
ID=70298134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911158777.XA Pending CN111061847A (zh) | 2019-11-22 | 2019-11-22 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061847A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339309A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种用户意图的语料扩展方法和系统 |
CN111695356A (zh) * | 2020-05-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 同义语料生成方法、装置、计算机系统及可读存储介质 |
CN111723550A (zh) * | 2020-06-17 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 语句改写方法、装置、电子设备以及计算机存储介质 |
CN111814451A (zh) * | 2020-05-21 | 2020-10-23 | 北京嘀嘀无限科技发展有限公司 | 文本处理方法、装置、设备和存储介质 |
CN111831788A (zh) * | 2020-06-16 | 2020-10-27 | 国网江苏省电力有限公司信息通信分公司 | 一种电力语料标记模型构建方法及系统 |
CN111859987A (zh) * | 2020-07-28 | 2020-10-30 | 网易(杭州)网络有限公司 | 文本处理方法、目标任务模型的训练方法和装置 |
CN111899738A (zh) * | 2020-07-29 | 2020-11-06 | 北京嘀嘀无限科技发展有限公司 | 对话生成方法、装置及存储介质 |
CN112417118A (zh) * | 2020-11-19 | 2021-02-26 | 上海交通大学 | 一种基于标记文本和神经网络的对话生成方法 |
CN112488164A (zh) * | 2020-11-18 | 2021-03-12 | 广东电力信息科技有限公司 | 一种任务型对话文本增强系统 |
CN112562678A (zh) * | 2020-11-26 | 2021-03-26 | 携程计算机技术(上海)有限公司 | 基于客服录音的智能对话方法、系统、设备及存储介质 |
CN112667780A (zh) * | 2020-12-31 | 2021-04-16 | 上海众源网络有限公司 | 一种评论信息的生成方法、装置、电子设备及存储介质 |
CN112766319A (zh) * | 2020-12-31 | 2021-05-07 | 平安科技(深圳)有限公司 | 对话意图识别模型训练方法、装置、计算机设备及介质 |
CN112988948A (zh) * | 2021-02-05 | 2021-06-18 | 支付宝(杭州)信息技术有限公司 | 业务处理方法以及装置 |
CN113434650A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 问答对扩展方法、装置、电子设备及可读存储介质 |
CN113704431A (zh) * | 2021-08-31 | 2021-11-26 | 平安普惠企业管理有限公司 | 意图识别的样本数据增强方法、装置、计算机设备及介质 |
CN113901207A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
CN114328848A (zh) * | 2022-03-16 | 2022-04-12 | 北京金山数字娱乐科技有限公司 | 文本处理方法及装置 |
CN114818693A (zh) * | 2022-03-28 | 2022-07-29 | 平安科技(深圳)有限公司 | 一种语料匹配的方法、装置、计算机设备及存储介质 |
CN115470781A (zh) * | 2022-11-01 | 2022-12-13 | 北京红棉小冰科技有限公司 | 语料生成方法、装置和电子设备 |
CN115617975A (zh) * | 2022-12-20 | 2023-01-17 | 国家电网有限公司客户服务中心 | 针对少样本多轮对话的意图识别方法及装置 |
CN116578731A (zh) * | 2023-07-05 | 2023-08-11 | 之江实验室 | 多媒体信息处理方法、系统、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933652A (zh) * | 2019-01-17 | 2019-06-25 | 深圳壹账通智能科技有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN110188182A (zh) * | 2019-05-31 | 2019-08-30 | 中国科学院深圳先进技术研究院 | 模型训练方法、对话生成方法、装置、设备及介质 |
-
2019
- 2019-11-22 CN CN201911158777.XA patent/CN111061847A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933652A (zh) * | 2019-01-17 | 2019-06-25 | 深圳壹账通智能科技有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN110188182A (zh) * | 2019-05-31 | 2019-08-30 | 中国科学院深圳先进技术研究院 | 模型训练方法、对话生成方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
朱龙霞: "面向中文问答系统问题分析与答案抽取方法研究" * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814451A (zh) * | 2020-05-21 | 2020-10-23 | 北京嘀嘀无限科技发展有限公司 | 文本处理方法、装置、设备和存储介质 |
CN111339309A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种用户意图的语料扩展方法和系统 |
CN111339309B (zh) * | 2020-05-22 | 2020-09-04 | 支付宝(杭州)信息技术有限公司 | 一种用户意图的语料扩展方法和系统 |
CN111695356A (zh) * | 2020-05-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 同义语料生成方法、装置、计算机系统及可读存储介质 |
CN111831788A (zh) * | 2020-06-16 | 2020-10-27 | 国网江苏省电力有限公司信息通信分公司 | 一种电力语料标记模型构建方法及系统 |
CN111723550A (zh) * | 2020-06-17 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 语句改写方法、装置、电子设备以及计算机存储介质 |
CN111859987A (zh) * | 2020-07-28 | 2020-10-30 | 网易(杭州)网络有限公司 | 文本处理方法、目标任务模型的训练方法和装置 |
CN111859987B (zh) * | 2020-07-28 | 2024-05-17 | 网易(杭州)网络有限公司 | 文本处理方法、目标任务模型的训练方法和装置 |
CN111899738A (zh) * | 2020-07-29 | 2020-11-06 | 北京嘀嘀无限科技发展有限公司 | 对话生成方法、装置及存储介质 |
CN112488164A (zh) * | 2020-11-18 | 2021-03-12 | 广东电力信息科技有限公司 | 一种任务型对话文本增强系统 |
CN112417118A (zh) * | 2020-11-19 | 2021-02-26 | 上海交通大学 | 一种基于标记文本和神经网络的对话生成方法 |
CN112417118B (zh) * | 2020-11-19 | 2023-04-07 | 上海交通大学 | 一种基于标记文本和神经网络的对话生成方法 |
CN112562678A (zh) * | 2020-11-26 | 2021-03-26 | 携程计算机技术(上海)有限公司 | 基于客服录音的智能对话方法、系统、设备及存储介质 |
CN112667780A (zh) * | 2020-12-31 | 2021-04-16 | 上海众源网络有限公司 | 一种评论信息的生成方法、装置、电子设备及存储介质 |
CN112766319A (zh) * | 2020-12-31 | 2021-05-07 | 平安科技(深圳)有限公司 | 对话意图识别模型训练方法、装置、计算机设备及介质 |
CN112988948A (zh) * | 2021-02-05 | 2021-06-18 | 支付宝(杭州)信息技术有限公司 | 业务处理方法以及装置 |
CN112988948B (zh) * | 2021-02-05 | 2023-09-19 | 蚂蚁胜信(上海)信息技术有限公司 | 业务处理方法以及装置 |
CN113434650A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 问答对扩展方法、装置、电子设备及可读存储介质 |
CN113434650B (zh) * | 2021-06-29 | 2023-11-14 | 平安科技(深圳)有限公司 | 问答对扩展方法、装置、电子设备及可读存储介质 |
CN113704431A (zh) * | 2021-08-31 | 2021-11-26 | 平安普惠企业管理有限公司 | 意图识别的样本数据增强方法、装置、计算机设备及介质 |
CN113901207A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
CN113901207B (zh) * | 2021-09-15 | 2024-04-26 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
CN114328848A (zh) * | 2022-03-16 | 2022-04-12 | 北京金山数字娱乐科技有限公司 | 文本处理方法及装置 |
CN114818693A (zh) * | 2022-03-28 | 2022-07-29 | 平安科技(深圳)有限公司 | 一种语料匹配的方法、装置、计算机设备及存储介质 |
CN115470781A (zh) * | 2022-11-01 | 2022-12-13 | 北京红棉小冰科技有限公司 | 语料生成方法、装置和电子设备 |
CN115470781B (zh) * | 2022-11-01 | 2023-03-14 | 北京红棉小冰科技有限公司 | 语料生成方法、装置和电子设备 |
CN115617975A (zh) * | 2022-12-20 | 2023-01-17 | 国家电网有限公司客户服务中心 | 针对少样本多轮对话的意图识别方法及装置 |
CN116578731A (zh) * | 2023-07-05 | 2023-08-11 | 之江实验室 | 多媒体信息处理方法、系统、计算机设备和存储介质 |
CN116578731B (zh) * | 2023-07-05 | 2023-09-29 | 之江实验室 | 多媒体信息处理方法、系统、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061847A (zh) | 对话生成及语料扩充方法、装置、计算机设备和存储介质 | |
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
WO2022095682A1 (zh) | 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品 | |
CN111368993B (zh) | 一种数据处理方法及相关设备 | |
CN112257858A (zh) | 一种模型压缩方法及装置 | |
CN109710953B (zh) | 一种翻译方法及装置、计算设备、存储介质和芯片 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
Zheng et al. | Design of a modified transformer architecture based on relative position coding | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 | |
CN112307168A (zh) | 基于人工智能的问诊会话处理方法、装置和计算机设备 | |
WO2021169364A1 (zh) | 分析语义情感的方法、装置、设备及存储介质 | |
KR20210106398A (ko) | 세션 추천 방법, 장치 및 기기 | |
WO2024022354A1 (zh) | 结合rpa及ai实现ia的对象推荐方法、装置及存储介质 | |
CN112766319A (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
WO2020108545A1 (zh) | 语句处理方法、语句解码方法、装置、存储介质及设备 | |
WO2023231513A1 (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
CN113094475A (zh) | 一种基于上下文注意流的对话意图识别系统及方法 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN110955765A (zh) | 智能助理的语料构建方法、装置、计算机设备和存储介质 | |
CN112837673B (zh) | 基于人工智能的语音合成方法、装置、计算机设备和介质 | |
CN113343711B (zh) | 工单生成方法、装置、设备及存储介质 | |
CN113342343B (zh) | 基于多跳推理机制的代码摘要生成方法及系统 | |
CN112732884A (zh) | 目标回答语句生成方法、装置、计算机设备和存储介质 | |
CN111797220A (zh) | 对话生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200424 |