CN111382249A - 聊天语料的清洗方法、装置、计算机设备和存储介质 - Google Patents
聊天语料的清洗方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111382249A CN111382249A CN201811642348.5A CN201811642348A CN111382249A CN 111382249 A CN111382249 A CN 111382249A CN 201811642348 A CN201811642348 A CN 201811642348A CN 111382249 A CN111382249 A CN 111382249A
- Authority
- CN
- China
- Prior art keywords
- corpus
- chat
- chat corpus
- preset
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种聊天语料的清洗方法、装置、计算机设备及存储介质,包括:获取聊天语料,所述聊天语料包括问语料和答语料;对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;根据所述目标匹配分值对所述聊天语料进行清洗。通过上述方式,能够自动对聊天语料进行清洗,提高聊天语料的质量,从而提高后续模型训练的准确性。
Description
技术领域
本发明涉及计算机技术领域和深度学习技术领域,尤其涉及一种聊天语料的清洗方法、装置、计算机设备和存储介质。
背景技术
智能机器人聊天一直是人工领域的主要研究方向,如何通过深度学习等方法使得智能聊天机器人像人一样自如的进行聊天,例如,在产品售后部门中作为智能客服。在目前的智能聊天机器人的训练过程中,不管是检索式还是生成式,均需要闲聊语料来机器人进行训练。
对智能聊天机器人进行问答训练需要大量的闲聊语料,目前大量的闲聊语料来自于网上的开源材料,但是这些闲聊语料普遍存在质量不高的情况,需要对这些闲聊语料进行清洗。而采用人工筛选的方式需要专业的人员对闲聊语料进行标注,不仅耗费人力、效率低下,还可能因为标注人员的水平和理解的不同导致结果的准确性不足,从而导致最终训练语料的质量不高。
发明内容
基于此,有必要针对上述问题,提出一种对聊天语料清洗效率高的聊天语料的清洗方法、装置、计算机设备和存储介质。
在本发明的第一方面,提供了一种聊天语料的清洗方法,所述方法包括:
获取聊天语料,所述聊天语料包括问语料和答语料;
对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
根据所述目标匹配分值对所述聊天语料进行清洗。
在本发明的第二方面,还提供了一种聊天语料的清洗装置,包括:
聊天语料获取模块,用于获取聊天语料,所述聊天语料包括问语料和答语料;
聊天语料处理模块,用于对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
模型计算模块,用于将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
语料清洗模块,用于根据所述目标匹配分值对所述聊天语料进行清洗。
在本发明的第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取聊天语料,所述聊天语料包括问语料和答语料;
对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
根据所述目标匹配分值对所述聊天语料进行清洗。
在本发明的第四方面,提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取聊天语料,所述聊天语料包括问语料和答语料;
对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
根据所述目标匹配分值对所述聊天语料进行清洗。
实施本发明实施例,将具有如下有益效果:
本发明提出了一种聊天语料的清洗方法、装置、计算机设备和存储介质,首先获取待清洗的聊天语料,每一条聊天语料包含了对应的问题和回复,对问题、回复对应的语料进行处理,分别转换成对应的词向量以及字向量,然后根据训练好的聊天语料匹配模型计算问题、回复对应的目标匹配分值,从而来判断当前聊天语料之间是否是匹配的,是否需要进行清洗。也就是说,对于原始获取的聊天语料,可以根据聊天语料匹配模型进行自动的清洗,不再需要人工逐条聊天语料进行标注,省去了大量的人工操作时间,在一定程度上减少了成本花销。并且,采用上述聊天语料的清洗方法,避免了人工操作的认为错误,也在一定程度上提高了聊天语料清洗的准确性。
进一步的,在本实施例中,在对聊天语料匹配模型进行训练以及计算聊天语料之间的目标匹配分值的过程中,同时考虑了聊天语料对应的词向量和自向量,在最大程度上保留了词向量与字向量的特征,提高了在聊天语料匹配模型中特征提取的有效性,从而提高了聊天语料清晰的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中聊天语料的清洗方法的实现流程示意图;
图2为一个实施例中聊天语料的清洗方法的实现流程示意图;
图3为一个实施例中聊天语料匹配模型训练的实现流程示意图;
图4为一个实施例中问答对语料构建示意图;
图5为一个实施例中聊天语料匹配模型示意图;
图6为一个实施例中聊天语料的清洗方法的实现流程示意图;
图7为一个实施例中聊天语料的清洗装置的结构框图;
图8为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在一个实施例中,提供了一种聊天语料的清洗方法,本发明实施例所述的聊天语料的清洗方法的执行主体可以是服务器,当然本发明实施例所述的聊天语料的清洗方法的执行主体还可以是其他终端设备,例如,机器人设备。
具体的,如图1所示,上述聊天语料的清洗方法包括如下步骤:
步骤S102:获取聊天语料,所述聊天语料包括问语料和答语料。
聊天语料为从网络或其他途径获取的未经清洗的闲聊语料,其中,每条聊天语料包括一个问句(问语料)和一个答句(答语料)。例如,相应的聊天语料为若干个问答对,如(问题1,回复1),(问题2,回复2),……
需要说明的是,在本实施例中,在对聊天语料进行具体的清洗之前,还需要对聊天语料进行预处理,主要是针对原始的聊天语料中可能存在的不规范性,如,去掉反复重复的标点符号(如,一个问句后出现大量的问号,在这种情况下,仅保留其中的一个),再例如,去掉含有包情包的聊天语料,去掉聊天语料中含有的空格,过滤到敏感信息(如政治敏感词及色情暴力等词)。也就是说,经过针对聊天语料的预处理之后,可以去掉部分质量不高的聊天语料,提高后续聊天语料清洗的效率和准确性。
进一步的,在本实施例中,对聊天语料还需要进一步的改写,例如,去标点、取空格、英文大小写转换、去停用词等,以去掉对语义理解无关的字符,避免对后续聊天语料的清洗过程的准确性的影响。
步骤S104:对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量。
在本实施例中,对聊天语料进行处理获取对应的词向量或字向量的过程中,既需要获取与聊天语料对应的词向量,也需要获取与聊天语料对应的字向量,在后续的模型匹配计算的过程中,既考虑词向量的特性,也保留字向量的特性,从而提高聊天语料清洗的准确性。
具体的,获取与聊天语料对应的词向量的过程具体如下:对聊天语料中的问语料或答语料进行分词处理,然后对于已经分词处理完毕的聊天语料,进一步的将每一个词转换成对应的词向量。
其中,采用随机初始化词向量的方式正态分布随机初始化为300维的向量,然后根据分词结果将每一个切割的词转换成对应的300维的词向量。
获取聊天语料对应的字向量的过程具体如下:对聊天语料中的问语料和答语料按字进行切割(如果是英文,按照字符进行切割),然后将每一个字/字符转换成对应的字向量。
其中,采用随机初始化字向量的方式正态分布随机初始化为300维的向量,然后将每一个切割的字或字符转换成对应的300维的字向量。
在本实施例中,因为中文、英文或者长度的问题,可能导致不同的词向量或字向量的长度不一致,为了后续向量或矩阵计算的方便,在本实施例中,还需要按照预设的长度阈值对相应的词向量和字向量进行长度的改写。即,按照预设的长度阈值,对所有的词向量或字向量进行截断或补齐操作。例如,设定一个用户咨询问题的最大长度,利用该长度值对聊天语料对应的词向量和字向量进行截断或补齐操作,对聊天语料进行规范化处理,得到规范化之后的问语料(对应的词向量、字向量)以及答语料(对应的词向量、字向量)。
在一个具体的实施例中,令q1w,q2w为聊天语料中的问语料和问语料对应的词向量,q1c,q2c为聊天语料中的问语料和问语料对应的字向量,即:
q1w=(x1w,x2w,x3w,...,xmw)
q2w=(y1w,y2w,y3w,...,ynw)
q1c=(x1c,x2c,x3c,...,xpc)
q2c=(y1c,y2c,y3c,...,yqc)
其中m、n为问语料和问语料的词向量长度,此处m=n,p、q为问语料和问语料的字向量的长度,此处p=q。
步骤S106:将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值。
步骤S108:根据所述目标匹配分值对所述聊天语料进行清洗。
在本实施例中,聊天语料匹配模型为根据深度学习模型构建的对聊天语料之间是否匹配进行评估预测的模型,输入为聊天语料中的问语料对应的词/字向量、答语料对应的词词/字向量,输出为该问语料与答语料之间的目标匹配分值。
在本步骤中,获取聊天语料对应的目标匹配分值之后,即可根据该目标匹配分值进行清洗。例如,如图2所示,在目标匹配分值大于或等于预设的匹配阈值的情况下,确定聊天语料需要进行保留,反之,在目标匹配分值小于预设的匹配阈值的情况下,确定将该聊天语料丢弃。
具体的,在一个具体的实施例中,通过聊天语料匹配模型获取聊天语料对应的目标匹配分值的过程具体如下:
步骤S1062:按照预设的叉乘函数分别对所述聊天语料对应的词向量和字向量进行叉乘处理,根据预设的映射函数获取叉乘处理结果的预设数量的映射向量,所述映射向量包括映射词向量和映射字向量;按照预设的融合算法对所述映射词向量和映射字向量进行融合处理,对融合后的结果进行特征提取,获取与所述聊天语料对应的第一目标匹配分值;
步骤S1064:分别对所述聊天语料对应的词向量和字向量进行特征提取,按照预设的融合算法对特征提取后的词向量和字向量进行融合操作,将融合结果输入预设的投影层,获取与所述聊天语料对应的第二目标匹配分值;
步骤S1066:按照预设的匹配拼接算法,根据所述第一目标匹配分值和所述第二目标匹配分值,计算与所述聊天语料对应的目标匹配分值。
具体的,步骤S1062中:
其中,为对q1w,q2w进行叉乘处理,relu为预设的激活函数进行激活,f表示映射函数(Mapping函数),在这里Mapping函数为挑选出叉乘之后的前K个值(TopK,例如,K=10或K=30)。从而获取相应的词向量/字向量进行叉乘处理之后获取出关键的前K个值,且输入问题也转换成固定长度的问题或回复。
然后将TopK后词向量和字向量进行合并和融合,即为:
在将词向量与字向量融合之后,对融合的结果进行特征提取:
z(l)=relu(W(l-1)z(l-1)+b(l-1)),l=1,2,...,L
其中,W(l-1)、b(l-1)为投影中对应层的权重参数矩阵及偏置向量,是通过模型训练得到的;并且,通过预设的激活函数进行激活,输出即为与所述聊天语料对应的第一目标匹配分值。
步骤S1064中:
首先对聊天语料对应的词向量、字向量进行特征提取:
gw=relu(Uq1w+bw)
gv=relu(Vq1v+bv)
其中U、V分别为词向量及字向量的权重矩阵,bw、bv为词向量及字向量的偏置向量,并且采用激活函数relu进行激活。
在激活之后,按照预设的融合算法对特征提取后的词向量和字向量进行融合操作:
在融合之后对融合结果进行投影:
h=relu(W(h)g+b(h))
其中,W(h)、b(h)为投影层的权重矩阵及偏置向量。
也即,将融合结果输入一个投影层(project层),输出即为与所述聊天语料对应的第二目标匹配分值。
在步骤S1062及S1064中,获取到了与聊天语料对应的第一目标匹配分值z(l)和第二目标匹配分值h,然后即可根据第一目标匹配分值和第二目标匹配分值计算整体的目标匹配分值e。
具体的,在步骤S1066中,按照预设的匹配拼接算法,根据所述第一目标匹配分值和所述第二目标匹配分值,计算与所述聊天语料对应的目标匹配分值;也即,根据公式
计算步骤S102中的聊天语料对应的目标匹配分值e。
在本实施例中,可以根据过滤的程度或次数的不同,设定不同的匹配阈值,例如,第一次过滤情况下,可以将匹配阈值设置为0.5,在经过多次清洗之后,可以将匹配阈值逐步提高,将最后一次或最终的清洗过程中的匹配阈值设置为0.9。
进一步的,在本实施例中,还需要对上述聊天语料匹配模型进行模型训练、验证,然后再进行具体的聊天语料的清洗。
在一个具体的实施例中,如图3所示,上述聊天语料的清洗方法还包括如下步骤:
步骤S202:获取训练语料,根据所述训练语料构建问答对语料;
步骤S204:根据所述问答对语料对预设的聊天语料匹配模型进行训练,获取训练完成的聊天语料匹配模型。
训练语料为获取到的闲聊语料之后经过预处理之后的聊天语料,与前述聊天语料可以为同一语料。在本实施例中,在获取到训练语料之后,构建相应的问答对语料,该问答对语料为符合聊天语料匹配模型训练数据的形式。
具体的,通过以下方式构建正负样本对。如问题1-回复1,问题2-回复2,问题3-回复3,以上三条闲聊语料,可构成6个问答对,具体可如图4所示,为:(问题1,回复1,回复2)、(问题1,回复1,回复3)、(问题2,回复2,回复1)、(问题2,回复2,回复3)、(问题3,回复3,回复1)、(问题3,回复3,回复2)等问答对语料,其中(问题1,回复1,回复2)该问答对表示为问题1与回复1的匹配度比问题1与回复2的匹配度高。
进一步的,在本实施例中,在构建训练语料时,根据8:1:1的比例构建训练样本、验证样本、测试样本,从而完成整个聊天语料匹配模型的训练。
也就是说,上述问答对语料包括训练问语料、第一答语料和第二答语料;则对应的转换成词向量和字向量的方式与前述步骤S102-S108一致,则相应的词向量包括问语料词向量、第一答语料词向量、第二答语料词向量,相应的字向量包括问语料字向量、第一答语料字向量、第二答语料字向量。
将构建完成的训练语料对应的问答对语料,输入如图5所示的聊天语料匹配模型中,并获取与所述问语料、第一答语料对应的第一评估分值和与问语料、第二答语料匹配的第二评估分值。然后将第一评估分值、第二评估分值与真实结果(第一评估分值大于第二评估分值)进行比对,从而完成对于模型的训练。
具体的,具体的聊天语料匹配模型的计算过程如下:
令q1w为聊天语料中的问语料对应的词向量,q2w为聊天语料中的第一答语料对应的词向量,q3w为聊天语料中的第一答语料对应的词向量;q1c为聊天语料中的问语料对应的字向量,q2c为聊天语料中的第一答语料对应的字向量,q3c为聊天语料中的第一答语料对应的字向量。
在对聊天语料匹配模型进行训练的过程中,分别计算与所述问语料、第一答语料对应的第一评估分值e(q1,q2)和与问语料、第二答语料匹配的第二评估分值e(q1,q3)。
然后按照预设的损失函数计算损失值L,具体可以使用hinge-loss损失函数:
L(q1,q2,q3;Θ)=max(0,margin-s(q1,q2)+s(q1,q3))
其中margin为正反间样本相似间距(本实施例中可以将margin设为1),e(q1,q2)表示q1,q2输入到聊天语料匹配模型计算的结果值,e(q1,q3)为将q1,q3输入到聊天语料匹配模型计算的结果值,Θ为当前的给定参数。
根据损失值进行梯度更新,即可完成模型的训练,为了加快模型训练的速度我们选用了Adam算法来完成梯度的更新。最后,保存模型以及其中的参数,并对模型进行更新。
需要说明的是,在第一次模型训练时,其中的参数的具体值可以采用初始值,例如,可以是通过正态分布随机初始化的参数进行计算,并且,在每一轮模型训练完毕之后,对模型中的参数进行更新和迭代,以进行下一步的聊天语料的清洗,即执行前述步骤S102-S108。
在一个具体的实施例中,在通过步骤S202-S204对聊天语料匹配模型完成训练之后,即可根据该聊天语料匹配模型对聊天语料进行清洗,并且,对于经过第一轮清洗之后的聊天语料,可以进一步的作为聊天语料匹配模型的训练语料,并对聊天语料匹配模型再进行一轮模型训练,再据此对聊天语料进行再次的清洗。并且,在此循环过程中,不断的减少匹配阈值,例如,第一次清洗过程中,匹配阈值取0.5,并按照匹配阈值为0.5、0.6、0.7、0.8、0.9逐步进行过滤,完成最终的清洗工作,并将最后一轮聊天语料经过聊天语料匹配模型输出的目标匹配分值与0.9进行相比,在目标匹配分值大于或等于0.9的情况下,保留相应的聊天语料,否则,将相应的聊天语料进行过滤。具体可参考图6所示。
在本实施例中,经过聊天语料匹配模型的不断的训练、语料清洗的循环,通过反复操作进行无监督的清洗聊天语料,大量的节省了人工清洗聊天语料的时间,并且能保证聊天语料清洗之后的质量,提高了后续对智能聊天机器人进行训练的准确性。
如图7所示,提供了一种聊天语料的清洗装置,具体包括:
聊天语料获取模块102,用于获取聊天语料,所述聊天语料包括问语料和答语料;
聊天语料处理模块104,用于对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
模型计算模块106,用于将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
语料清洗模块108,用于根据所述目标匹配分值对所述聊天语料进行清洗。
上述聊天语料的清洗装置,首先获取待清洗的聊天语料,每一条聊天语料包含了对应的问题和回复,对问题、回复对应的语料进行处理,分别转换成对应的词向量以及字向量,然后根据训练好的聊天语料匹配模型计算问题、回复对应的目标匹配分值,从而来判断当前聊天语料之间是否是匹配的,是否需要进行清洗。也就是说,对于原始获取的聊天语料,可以根据聊天语料匹配模型进行自动的清洗,不再需要人工逐条聊天语料进行标注,省去了大量的人工操作时间,在一定程度上减少了成本花销。并且,采用上述聊天语料的清洗方法,避免了人工操作的认为错误,也在一定程度上提高了聊天语料清洗的准确性。
进一步的,在本实施例中,在对聊天语料匹配模型进行训练以及计算聊天语料之间的目标匹配分值的过程中,同时考虑了聊天语料对应的词向量和自向量,在最大程度上保留了词向量与字向量的特征,提高了在聊天语料匹配模型中特征提取的有效性,从而提高了聊天语料清晰的准确性。
在其中一个实施例中,模型计算模块106还用于:按照预设的叉乘函数分别对所述聊天语料对应的词向量和字向量进行叉乘处理,根据预设的映射函数获取叉乘处理结果的预设数量的映射向量,所述映射向量包括映射词向量和映射字向量;按照预设的融合算法对所述映射词向量和映射字向量进行融合处理,对融合后的结果进行特征提取,获取与所述聊天语料对应的第一目标匹配分值;分别对所述聊天语料对应的词向量和字向量进行特征提取,按照预设的融合算法对特征提取后的词向量和字向量进行融合操作,将融合结果输入预设的投影层,获取与所述聊天语料对应的第二目标匹配分值;按照预设的匹配拼接算法,根据所述第一目标匹配分值和所述第二目标匹配分值,计算与所述聊天语料对应的目标匹配分值。
在其中一个实施例中,如图7所示,上述装置还包括向量改写模块110,用于按照预设的第一长度阈值对所述词向量进行长度改写;按照预设的第二长度阈值对所述字向量进行长度改写。
在其中一个实施例中,语料清洗模块108还用于判断所述目标匹配分值是否大于或等于预设的匹配阈值;在所述目标匹配分值小于所述匹配阈值的情况下,对所述聊天语料进行清洗。
在其中一个实施例中,如图7所示,聊天语料的清洗装置还包括模型训练模块112,用于:
获取训练语料,根据所述训练语料构建问答对语料;
根据所述问答对语料对预设的聊天语料匹配模型进行训练,获取训练完成的聊天语料匹配模型。
在其中一个实施例中,所述问答对语料包括训练问语料、第一答语料和第二答语料;所述词向量包括问语料词向量、第一答语料词向量、第二答语料词向量;模型训练模块112还用于根据预设的聊天语料匹配模型对所述问答对语料进行评估预测,得到与所述训练问语料、第一训练答语料对应的第一评估分值和与训练问语料、第二训练答语料匹配的第二评估分值;按照预设的损失函数以所述第一评估分值、第二评估分值为输入,输出对应的损失值;按照预设的迭代算法对所述损失值进行更新迭代,并对所述聊天语料匹配模型进行更新。
在其中一个实施例中,模型训练模块112还用于以所述清洗完成的聊天语料作为训练语料,对所述聊天语料匹配模型进行训练,获取所述训练完成的聊天语料匹配模型。
图8示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是服务器,也可以是机器人。如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现聊天语料的清洗方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行聊天语料的清洗方法。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的聊天语料的清洗方法可以实现为一种计算机程序的形式,计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成聊天语料的清洗装置的各个程序模板。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取聊天语料,所述聊天语料包括问语料和答语料;
对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
根据所述目标匹配分值对所述聊天语料进行清洗。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取聊天语料,所述聊天语料包括问语料和答语料;
对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
根据所述目标匹配分值对所述聊天语料进行清洗。
需要说明的是,上述聊天语料的清洗方法、聊天语料的清洗装置、计算机设备及计算机可读存储介质属于一个总的发明构思,聊天语料的清洗方法、聊天语料的清洗装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种聊天语料的清洗方法,其特征在于,所述方法包括:
获取聊天语料,所述聊天语料包括问语料和答语料;
对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
根据所述目标匹配分值对所述聊天语料进行清洗。
2.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值,还包括:
按照预设的叉乘函数分别对所述聊天语料对应的词向量和字向量进行叉乘处理,根据预设的映射函数获取叉乘处理结果的预设数量的映射向量,所述映射向量包括映射词向量和映射字向量;按照预设的融合算法对所述映射词向量和映射字向量进行融合处理,对融合后的结果进行特征提取,获取与所述聊天语料对应的第一目标匹配分值;
分别对所述聊天语料对应的词向量和字向量进行特征提取,按照预设的融合算法对特征提取后的词向量和字向量进行融合操作,将融合结果输入预设的投影层,获取与所述聊天语料对应的第二目标匹配分值;
按照预设的匹配拼接算法,根据所述第一目标匹配分值和所述第二目标匹配分值,计算与所述聊天语料对应的目标匹配分值。
3.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量之后,还包括:
按照预设的第一长度阈值对所述词向量进行长度改写;
按照预设的第二长度阈值对所述字向量进行长度改写。
4.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述根据所述目标匹配分值对所述聊天语料进行清洗,还包括:
判断所述目标匹配分值是否大于或等于预设的匹配阈值;
在所述目标匹配分值小于所述匹配阈值的情况下,对所述聊天语料进行清洗。
5.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述方法还包括:
获取训练语料,根据所述训练语料构建问答对语料;
根据所述问答对语料对预设的聊天语料匹配模型进行训练,获取训练完成的聊天语料匹配模型。
6.根据权利要求5所述的聊天语料的清洗方法,其特征在于,所述问答对语料包括训练问语料、第一训练答语料和第二训练答语料;
所述根据所述问答对语料对预设的聊天语料匹配模型进行训练,还包括:
根据预设的聊天语料匹配模型对所述问答对语料进行评估预测,得到与所述训练问语料、第一训练答语料对应的第一评估分值和与训练问语料、第二训练答语料匹配的第二评估分值;
按照预设的损失函数以所述第一评估分值、第二评估分值为输入,输出对应的损失值;
按照预设的迭代算法对所述损失值进行更新迭代,并对所述聊天语料匹配模型进行更新。
7.根据权利要求5所述的聊天语料的清洗方法,其特征在于,所述根据所述目标匹配分值对所述聊天语料进行清洗之后,还包括:
以所述清洗完成的聊天语料作为训练语料,对所述聊天语料匹配模型进行训练,获取所述训练完成的聊天语料匹配模型。
8.一种聊天语料的清洗装置,其特征在于,所述装置包括:
聊天语料获取模块,用于获取聊天语料,所述聊天语料包括问语料和答语料;
聊天语料处理模块,用于对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
模型计算模块,用于将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
语料清洗模块,用于根据所述目标匹配分值对所述聊天语料进行清洗。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述聊天语料的清洗方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述聊天语料的清洗方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642348.5A CN111382249B (zh) | 2018-12-29 | 2018-12-29 | 聊天语料的清洗方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642348.5A CN111382249B (zh) | 2018-12-29 | 2018-12-29 | 聊天语料的清洗方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382249A true CN111382249A (zh) | 2020-07-07 |
CN111382249B CN111382249B (zh) | 2023-10-10 |
Family
ID=71218377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811642348.5A Active CN111382249B (zh) | 2018-12-29 | 2018-12-29 | 聊天语料的清洗方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382249B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423284A (zh) * | 2017-06-14 | 2017-12-01 | 中国科学院自动化研究所 | 融合中文单词内部结构信息的句子表示的构建方法及系统 |
CN107679234A (zh) * | 2017-10-24 | 2018-02-09 | 上海携程国际旅行社有限公司 | 客服信息提供方法、装置、电子设备、存储介质 |
US20180089584A1 (en) * | 2016-09-28 | 2018-03-29 | International Business Machines Corporation | System and method for enhanced chatflow application |
CN108132931A (zh) * | 2018-01-12 | 2018-06-08 | 北京神州泰岳软件股份有限公司 | 一种文本语义匹配的方法及装置 |
CN108170853A (zh) * | 2018-01-19 | 2018-06-15 | 广东惠禾科技发展有限公司 | 一种聊天语料自清洗方法、装置和用户终端 |
EP3376400A1 (en) * | 2017-03-14 | 2018-09-19 | Fujitsu Limited | Dynamic context adjustment in language models |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108845990A (zh) * | 2018-06-12 | 2018-11-20 | 北京慧闻科技发展有限公司 | 基于双向注意力机制的答案选择方法、装置和电子设备 |
-
2018
- 2018-12-29 CN CN201811642348.5A patent/CN111382249B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180089584A1 (en) * | 2016-09-28 | 2018-03-29 | International Business Machines Corporation | System and method for enhanced chatflow application |
EP3376400A1 (en) * | 2017-03-14 | 2018-09-19 | Fujitsu Limited | Dynamic context adjustment in language models |
CN107423284A (zh) * | 2017-06-14 | 2017-12-01 | 中国科学院自动化研究所 | 融合中文单词内部结构信息的句子表示的构建方法及系统 |
CN107679234A (zh) * | 2017-10-24 | 2018-02-09 | 上海携程国际旅行社有限公司 | 客服信息提供方法、装置、电子设备、存储介质 |
CN108132931A (zh) * | 2018-01-12 | 2018-06-08 | 北京神州泰岳软件股份有限公司 | 一种文本语义匹配的方法及装置 |
CN108170853A (zh) * | 2018-01-19 | 2018-06-15 | 广东惠禾科技发展有限公司 | 一种聊天语料自清洗方法、装置和用户终端 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108845990A (zh) * | 2018-06-12 | 2018-11-20 | 北京慧闻科技发展有限公司 | 基于双向注意力机制的答案选择方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111382249B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102304673B1 (ko) | 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체 | |
CN111163359B (zh) | 弹幕生成方法、装置和计算机可读存储介质 | |
CN110222178B (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN109582956B (zh) | 应用于句子嵌入的文本表示方法和装置 | |
US11941366B2 (en) | Context-based multi-turn dialogue method and storage medium | |
CN110717514A (zh) | 会话意图识别方法、装置、计算机设备和存储介质 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN110598779A (zh) | 摘要描述生成方法、装置、计算机设备和存储介质 | |
CN110717023B (zh) | 面试回答文本的分类方法及装置、电子设备、存储介质 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN110728182B (zh) | 基于ai面试系统的面试方法、装置和计算机设备 | |
CN112131888A (zh) | 分析语义情感的方法、装置、设备及存储介质 | |
CN114492423A (zh) | 基于特征融合及筛选的虚假评论检测方法、系统及介质 | |
CN111462751A (zh) | 解码语音数据的方法、装置、计算机设备和存储介质 | |
CN110689359A (zh) | 对模型进行动态更新的方法及装置 | |
WO2019227629A1 (zh) | 文本信息的生成方法、装置、计算机设备及存储介质 | |
CN112347245A (zh) | 面向投融资领域机构的观点挖掘方法、装置和电子设备 | |
CN111680501B (zh) | 基于深度学习的问询信息识别方法、装置及存储介质 | |
WO2020133358A1 (zh) | 聊天语料的清洗方法、装置、计算机设备和存储介质 | |
CN113283488A (zh) | 一种基于学习行为的认知诊断方法及系统 | |
CN117454020A (zh) | 基于图卷积神经网络的在线社交网络用户表示方法及装置 | |
CN115617974B (zh) | 一种对话处理方法、装置、设备及存储介质 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
WO2020133470A1 (zh) | 聊天语料的清洗方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |