CN116522939A - 数据处理方法、装置及设备 - Google Patents
数据处理方法、装置及设备 Download PDFInfo
- Publication number
- CN116522939A CN116522939A CN202310466522.XA CN202310466522A CN116522939A CN 116522939 A CN116522939 A CN 116522939A CN 202310466522 A CN202310466522 A CN 202310466522A CN 116522939 A CN116522939 A CN 116522939A
- Authority
- CN
- China
- Prior art keywords
- sample
- target
- text data
- entity type
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 237
- 239000013598 vector Substances 0.000 claims abstract description 150
- 238000012549 training Methods 0.000 claims abstract description 117
- 238000000034 method Methods 0.000 claims abstract description 97
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims description 59
- 230000003993 interaction Effects 0.000 claims description 14
- 230000001960 triggered effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 11
- 238000012546 transfer Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 238000009411 base construction Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供了多种数据处理方法、装置及设备,其中一种方法包括:通过目标模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值,对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量,基于由第二样本对应的语义向量构建的正样本对和负样本对,确定第二损失值,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。
Description
技术领域
本文件涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
命名实体识别在自然语言处理领域中占据十分重要的位置,如在问答系统、知识库构建等应用场景中,可以通过构建实体识别模型,对自然语言文本中包含的实体进行识别,以通过识别出的实体确定对应的问答策略或构建对应的知识库等。
可以通过人工达标的方式确定用于训练实体识别模型的样本数据对应的标签,但是,由于人工标注的标签的准确性差,通过该样本数据训练得到的实体识别模型的实体识别的准确性差,因此,需要一种能够提高命名实体识别准确性的方案。
发明内容
本说明书实施例的目的是提供一种能够提高命名实体识别准确性的方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
第一方面,本说明书实施例提供的一种数据处理方法,包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
第二方面,本说明书实施例提供的一种数据处理方法,包括:在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;将所述目标文本数据输入所述训练后的目标模型,得到所述目标文本数据对应的预测实体类型;基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;其中,所述目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
第三方面,本说明书实施例提供了一种数据处理装置,所述装置包括:第一获取模块,用于获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;样本划分模块,用于基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;第一处理模块,用于对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;第一确定模块,用于基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;第二确定模块,用于基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
第四方面,本说明书实施例提供了一种数据处理装置,所述装置包括:数据获取模块,用于在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;类型确定模块,用于将所述目标文本数据输入所述训练后的目标模型,得到所述目标文本数据对应的预测实体类型;话术确定模块,用于基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;其中,所述目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
第五方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
第六方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;将所述目标文本数据输入所述训练后的目标模型,得到所述目标文本数据对应的预测实体类型;基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;其中,所述目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
第七方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
第八方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;将所述目标文本数据输入所述训练后的目标模型,得到所述目标文本数据对应的预测实体类型;基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;其中,所述目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种数据处理系统的示意图;
图2A为本说明书一种数据处理方法实施例的流程图;
图2B为本说明书一种数据处理方法的处理过程示意图;
图3为本说明书一种目标模型的处理过程示意图;
图4为本说明书一种正样本对和负样本对的构建过程示意图;
图5为本说明书一种数据处理方法的处理过程示意图;
图6为本说明书又一种目标模型的处理过程示意图;
图7为本说明书又一种正样本对和负样本对的构建过程示意图;
图8为本说明书一种目标模型的训练过程的示意图;
图9A为本说明书又一种数据处理方法实施例的流程图;
图9B为本说明书又一种数据处理方法的处理过程示意图;
图10为本说明书一种目标信息的示意图;
图11为本说明书另一种数据处理装置实施例的结构示意图;
图12为本说明书另一种数据处理装置实施例的结构示意图;
图13为本说明书一种数据处理设备的结构示意图。
具体实施方式
本说明书实施例提供一种数据处理方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书的技术方案,可以应用于数据处理系统中,如图1所示,该数据处理系统中可以有终端设备和服务器,其中,服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,终端设备可以如个人计算机等设备,也可以如手机、平板电脑等移动终端设备。
其中,数据处理系统中可以包括n个终端设备和m个服务器,n和m为大于等于1的正整数,终端设备可以用于采集数据样本,例如,终端设备可以针对不同应用场景,获取对应的数据样本,如,针对问答系统,终端设备可以采集用户针对话术的反馈信息作为数据样本,针对预设业务的知识库构建场景,终端设备可以采集与预设业务对应的业务数据(如执行预设业务所需的数据)作为数据样本等。
终端设备可以将采集的数据样本发送给数据处理系统中的任意服务端,服务端可以对接收到的数据样本进行预处理,将预处理后的数据样本作为文本数据样本进行存储。其中,预处理操作可以包括文本转换预处理(即将音频数据转换为文本数据等)、文本格式转换处理(如将英文文本转换为中文文本等)等。
此外,终端设备还可以将采集的数据样本,基于数据样本对应的应用场景,将数据样本发送给对应的服务端。例如,假设数据处理系统中服务端1和服务端2用于处理问答业务,服务端3和服务端4用于处理知识库构建业务,那么,终端设备可以将采集到的问答场景下的数据样本发送给服务端1和服务端2,将采集到的知识库构建场景下的数据样本发送给服务端3和服务端4。
这样,服务端在接收到针对目标模型的训练指令的情况下,可以基于存储的文本数据样本对目标模型进行训练。
另外,数据处理系统中可以有中心服务端(如服务端1),中心服务端用于在到达模型训练周期时,基于其他服务端(如服务端2和服务端3)发送的文本数据样本对待训练的目标模型进行训练,并在得到训练后的目标模型后,将训练后的目标模型的模型参数返回给对应的服务端。这样,数据处理系统中的其他服务端可以不中断的为用户提供业务服务,同时,中心服务端可以基于模型训练周期对目标模型进行更新升级。
由于服务端获取到的文本数据样本中可能存在噪声,即获取的文本数据样本包含的词对应的实体类型标签的可信度无法保证,因此,为提高模型训练的准确性,以提高命名实体识别的准确性,可以在模型训练过程中,基于预测实体类型和实体类型标签,将文本数据样本包含的词划分为可信的第一样本和包含噪声的第二样本。针对包含噪声的第二样本不会简单地将其丢弃,而是通过构建正样本对和负样本对的方式,充分利用第二样本中所蕴含的信息,让目标模型取得更好的表现。最终,通过第一样本和第二样本,提高命名实体识别的效果。
基于上述数据处理系统结构可以实现下述实施例中的数据处理方法。
实施例一
如图2A和图2B所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务端,服务端可以是服务器,其中,服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S202中,获取用于训练目标模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,并通过目标模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型。
其中,文本数据样本包含的词对应的实体类型标签可以用于标识实体的类型,可以通过人工标注的方式确定的文本数据样本包含的词对应的实体类型标签,例如,实体类型标签可以包括人名、地名、机构名、专有名词等,目标模型可以是基于预设神经网络算法构建的用于对实体类型进行识别的模型。
在实施中,命名实体识别在自然语言处理领域中占据十分重要的位置,如在问答系统、知识库构建等应用场景中,可以通过构建实体识别模型,对自然语言文本中包含的实体进行识别,以通过识别出的实体确定对应的问答策略或构建对应的知识库等。可以通过人工达标的方式确定用于训练实体识别模型的样本数据对应的标签,但是,由于人工标注的标签的准确性差,通过该样本数据训练得到的实体识别模型的实体识别的准确性差,因此,需要一种能够提高命名实体识别准确性的方案。为此,本说明书实施例提供一种可以解决上述问题的技术方案,具体可以参见下述内容。
以目标模型为用于在问答场景中,基于用户输入的反馈信息确定对应的话术的模型为例,服务端可以获取基于终端设备在模型训练周期内采集的用户反馈信息,确定用于训练目标模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签。
如图3所示,服务端可以将文本数据样本(即“ABCD”)输入目标模型,得到文本数据样本包含的词对应的预测实体类型,即A对应的预测实体类型可以为实体类型1、B对应的预测实体类型可以为实体类型2、C对应的预测实体类型可以为实体类型2、D对应的预测实体类型可以为实体类型3。
在S204中,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值。
在实施中,可以将词对应的预测实体类型和实体类型标签相同的词,确定为第一样本,将词对应的预测实体类型和实体类型标签不同的词,确定为包含噪声的第二样本。例如,若A对应的预测实体类型可以为实体类型2、B对应的预测实体类型可以为实体类型2、C对应的预测实体类型可以为实体类型2、D对应的预测实体类型可以为实体类型1,那么,可以将文本数据样本中的A和D确定为包含噪声的第二样本,将B和C确定为第一样本。
服务端可以基于第一损失函数、第一样本对应的预测实体类型和实体类型标签,确定第一损失值,其中,第一损失函数可以为广义交叉熵(GCE Generalized CrossEntropy Loss,GCE)损失函数等。
在S206中,对第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量。
在实施中,服务端可以基于预设增强算法,对第二样本进行样本增强处理,其中,预设数据增强算法可以有多种,例如,数据增强算法可以包括CutMix、Mixup等,CutMix算法是通过将一个第二样本中少量的特征替换为另一个第二样本中对应位置的特征,Mixup算法是通过对一个第二样本和另一个第二样本中每个对应特征加权求和,以得到增强后的样本。可以根据实际应用场景的不同,选取不同的数据增强算法,本说明书实施例对此不做具体限定。
服务端可以将增强处理得到的第二样本输入目标模型,目标模型可以对增强处理得到的第二样本进行语义提取处理,得到增强处理得到的第二样本对应的语义向量,即第二样本对应的语义向量。
在S208中,基于第二样本对应的语义向量构建正样本对和负样本对,并基于正样本对和负样本对,确定第二损失值。
在实施中,可以将基于相同第二样本得到的多个增强处理得到的第二样本对应的语义向量,确定为正样本对,基于不同第二样本得到的多个增强处理得到的第二样本对应的语义向量,确定为负样本对。
例如,如图4所示,可以基于CutMix算法对第二样本1、第二样本2、第二样本3和第二样本4进行样本增强处理,即可以将第二样本1中少量的特征替换为第二样本2中对应位置的特征,得到增强处理得到的第二样本1,将第二样本1中少量的特征替换为第二样本3中对应位置的特征,得到增强处理得到的第二样本2,将第二样本4中少量的特征替换为第二样本3中对应位置的特征,得到增强处理得到的第二样本3。
这样,由于增强处理得到的第二样本1和增强处理得到的第二样本2都是对第二样本1进行样本增强处理得到的样本,因此,可以将增强处理得到的第二样本1和增强处理得到的第二样本2确定为正样本对,同样的,由于增强处理得到的第二样本2是对第二样本1进行增强处理得到的样本,而增强处理得到的第二样本3是对第二样本4进行增强处理得到的样本,因此,可以将增强处理得到的第二样本2和增强处理得到的第二样本3确定为负样本对。
上述正样本对和负样本对的构建方法是一种可选地、可实现的构建方法,在实际应用场景中,还可以有多种不同的构建方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
服务端可以基于第二损失函数,正样本对和负样本对,确定第二损失值,其中,第二损失函数可以为对比损失函数(infoNCE loss)。
在S210中,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。
在实施中,可以将第一损失值和第二损失值的和值,确定为目标模型对应的目标损失值,或者,服务端还可以基于目标模型对应的应用场景,确定对应的预设权重,在基于预设权重、第一损失值和第二损失值,确定目标模型对应的目标损失值。
其中,预设权重用于调节第一损失值和第二损失值的比重,以使训练后的目标模型满足应用场景的使用需求,预设权重可以基于文本数据样本包含的噪声数据的量级、目标模型筛选噪声数据的能力、文本数据样本本身的实体识别难度等因素确定,可以在对目标模型进行迭代训练时进行调节。
服务端在基于目标损失值确定目标模型未收敛的情况下,可以基于文本数据样本继续对目标模型进行训练,直到目标模型收敛,得到训练后的目标模型。
本说明书实施例提供一种数据处理方法,获取用于训练目标模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,并通过目标模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值,对第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量,基于第二样本对应的语义向量构建正样本对和负样本对,并基于正样本对和负样本对,确定第二损失值,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。这样,基于包含噪声的第二样本构建正样对比和负样本对,在基于正样本对和负样本对确定第二损失值,可以充分利用噪声数据蕴含的信息,提高目标模型的训练效果,另外,通过词级别的训练过程,可以很好的适配命名实体识别任务,且由于词级别的任务导致了第一样本和第二样本可能会混合在一个句子中,没办法通过数据采样来进行划分,因此,在对目标模型的训练过程,可以通过第一损失值和第二损失值对这两类样本进行混合训练,即在学习过程中可以兼顾这两类样本,优化目标模型的训练效果,提高目标模型的命名实体识别准确性。
实施例二
如图5所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务端,服务端可以是服务器,其中,服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S202中,获取用于训练目标模型的文本数据样本。
在S502中,基于预设数据库对文本数据样本中包含的词进行匹配处理,并将预设数据库中与文本数据样本包含的词相匹配的词对应的实体类型标签,确定为文本数据样本包含的词对应的实体类型标签。
在实施中,可以通过远程监督的方式,确定文本数据包含的词对应的实体类型标签,如远程监督方法可以通过在现有的知识库、词典等数据库中进行搜索与无标签数据匹配的词,并基于匹配结果确定无标签数据对应的实体类型标签,从而可以不依赖于人工标注而获得大量有标数据。
然而,与固定词典或知识库等预设数据库进行匹配,确定文本数据样本包含的词对应的实体类型标签通常带有大量噪声,这种噪声可能是词典或知识库等预设数据库没有涵盖所有的实体所造成的,也可能是词语本身属于不同实体类型,但通过固定匹配的方法无法区分造成的。
在S504中,通过目标模型对文本数据样本包含的词进行向量提取处理,得到文本数据样本包含的词对应的嵌入向量。
在S506中,通过目标模型对文本数据样本包含的词对应的嵌入向量进行语义提取处理,得到文本数据样本包含的词对应的语义向量。
在S508中,通过目标模型对文本数据样本包含的词对应的语义向量进行类型识别处理,得到文本数据样本包含的词对应的预测实体类型。
在实施中,如图6所示,目标模型可以包括嵌入层(Embedding Layer)、语义提取层和类型识别层,嵌入层用于进行向量提取处理,得到嵌入向量,语义提取层用于对嵌入向量进行语义提取处理,得到语义向量,最后,类型识别层用于对语义向量进行类别识别处理,得到预测实体类型。其中,语义提取层可以用于对实体进行识别,类型识别层用于对识别出的实体进行类型划分,即确定识别出的实体对应的预测实体类型。
其中,嵌入层和语义提取层可以是基于语言表征模型(Bidirectional EncoderRepresentation from Transformers,BERT)构建。
服务端可以将文本数据样本输入目标模型,目标模型的嵌入层可以对文本数据样本包包含的词进行向量提取处理,得到文本数据样本包含的词对应的嵌入向量(embedding),再通过目标模型的语义提取层对文本数据样本包含的词对应的嵌入向量进行语义提取处理,得到文本数据样本包含的词对应的语义向量(token),最后,通过类型识别层对token进行类型识别处理,得到文本数据样本包含的词对应的预测实体类型。
在S510中,基于文本数据样本包含的词对应的预测实体类型和实体类型标签匹配的词,构建第一样本,并基于文本数据样本包含的词对应预测实体类型和实体类型标签不匹配的词,构建包含噪声的第二样本。
在S204中,基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值。
在实施中,服务端可以基于交叉熵损失函数、第一样本对应的预测实体类型和实体类型标签,确定第一损失值。
在S512中,通过目标模型对第二样本进行向量提取处理,得到第二样本对应的嵌入向量。
在S514中,对第二样本对应的嵌入向量进行样本增强处理,并通过目标模型对增强处理得到的嵌入向量进行语义提取处理,得到第二样本对应的语义向量。
在实施中,服务端可以基于第一方向和预设扰动量对第二样本对应的嵌入向量进行样本增强处理,并基于第二方向和所述预设扰动量对第二样本对应的嵌入向量进行样本增强处理,其中,第二方向与第一方向为相反方向。即服务端可以在相反方向上对第二样本对应的嵌入向量增加相同的预设扰动量,以得到两个增强处理得到的嵌入向量,在通过目标模型的语义提取层对增强处理得到的嵌入向量进行语义提取处理,可以得到第二样本对应的语义向量。
在S208中,基于第二样本对应的语义向量构建正样本对和负样本对,并基于正样本对和负样本对,确定第二损失值。
其中,正样本对中包含的语义向量对应的样本增强处理前的第二样本相同,负样本对中包含的语义向量对应的样本增强处理前的第二样本不同。
在实施中,如图7所示,假设第二样本包括第二样本1和第二样本2,将第二样本输入目标模型的嵌入层,可以得到第二样本1对应的嵌入向量1,第二样本2对应的嵌入向量2。服务端可以分别对嵌入向量1和嵌入向量2进行样本增强处理,得到嵌入向量1对应的嵌入向量1-1和嵌入向量1-2,嵌入向量2对应的嵌入向量2-1和嵌入向量2-2。
服务端可以将增强处理得到的嵌入向量输入语义提取层,得到第二样本对应的语义向量,即语义向量1、语义向量2、语义向量3和语义向量4。由于语义向量1和语义向量2是由相同的数据源得到,因此,可以将语义向量1和语义向量2确定为正样本对,即正样本对中包含的语义向量对应的样本增强处理前的第二样本相同。同样的,由于语义向量2和语义向量3是由不同的数据源得到,因此,可以将语义向量2和语义向量3确定为负样本对,即负样本对中包含的语义向量对应的样本增强处理前的第二样本不同。
在S210中,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。
在实施中,如图8所示,服务端可以基于远程监督的方式,通过外部字典或知识库等预设数据库给无标数据(即文本数据样本)进行打标(即获取文本数据样本对应的实体类型标签),生成包含带噪声的文本数据样本的远程监督数据集。在通过词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于交叉熵损失函数对第一样本进行处理,基于对比损失对第二样本进行处理,在目标模型未收敛的情况下,继续基于带噪声的文本数据样本(即通过远程监督对文本数据样本进行打标后得到的文本数据样本)对目标模型进行迭代训练,直到目标模型收敛,得到训练后的目标模型。
对于远程监督数据集中包含的噪声,需要使用对噪声鲁棒的训练方法对目标模型进行训练,否则目标模型将会受到远程监督带来的噪声的极大干扰,导致效果较差,因此,在基于文本数据样本以及对应的实体类型标签对目标模型进行带噪训练时,对目标模型的带噪训练的核心是如何让目标模型在训练过程中对噪声鲁棒并逐渐剔除噪声数据。
目标模型在迭代训练的过程中,每次迭代结束后,目标模型都会在全量数据上进行预测,预测实体类型和实体类型标签相近的可以被认为是可信数据(即第一样本),而预测实体类型和实体类型标签差距很大的可以被认为是不可信数据(即包含噪声的第二样本),下一轮迭代中将不再使用这些不可信数据的标签,因此它们可以被视作无标数据。
通过上述数据筛选,可以将文本数据样本划分为第一样本和包含噪声的第二样本这两个部分。由于第二样本的实体类型标签是不可信的,因此可以丢弃掉这部分数据的标签,把它变为无标数据。但无标数据中也蕴含着有用的信息,如果能在模型训练中用到这部分信息就能更好地提升目标模型的识别效果。
对于标签不可信的第二样本,在最终层计算交叉熵损失时会忽略这些第二样本,但在嵌入层的输出中,可以对标签不可信的第二样本在随机方向上施加正反两个扰动,产生出该词向量的两个副本(即增强处理得到的第二样本)。这两个副本在词向量空间中并不能反向映射到任何一个词表中的词语,但词向量在语义空间中的语义信息应该具有连续性,因此,可以认为这两个副本对应的词向量均有和原始词向量相近的语义。此时,虽然第二样本的标签是不可信的,但可以认为两个副本的标签应该是一致的。因此,这两个副本对应的词向量经过目标模型后,产生的表示向量应该尽可能接近,通过这种方式就可以构建出该框架下对比学习的正样本对。而来自不同第二样本的副本对应的词向量标签不同的可能性较大,所以,可以让它们的表示向量尽可能远离,因此除了同源的两个副本互为正样本之外,训练过程中一个batch内的不同源的两个副本都互为负样本。这样,如图8所示,就可以通过对比损失函数确定第二损失值,在命名实体识别中,将属于同种类别的实体的语义向量的表示尽可能相近,不属于同种类别的实体的语义向量的表示尽可能远离。
在对目标模型进行迭代训练的过程中,如图8所示,在标签可信的第一样本上通过交叉熵损失进行训练学习,在标签不可信的包含噪声的第二样本上通过对比损失进行训练学习,且这两部分学习过程不是割裂分离的,而是同时进行的,即在每个batch中都同时存在标签可信的第一样本和标签不确定性较高的第二样本。
在对目标模型的训练过程中,并不能通过把第一样本和第二样本划归到不同batch从而在不同的batch中应用不同的损失函数进行处理,由于目标模型是词级别的实体识别模型,且针对文本数据样本的划分也是词级别的,即文本数据样本中同一个句子中可能包含标签可信的第一样本,也可以能包含有噪声的第二样本。因此,可以通过预设权重、第一损失值和第二损失值,确定目标模型的目标损失值。
本说明书实施例提供一种数据处理方法,获取用于训练目标模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,并通过目标模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值,对第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量,基于第二样本对应的语义向量构建正样本对和负样本对,并基于正样本对和负样本对,确定第二损失值,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。这样,基于包含噪声的第二样本构建正样对比和负样本对,在基于正样本对和负样本对确定第二损失值,可以充分利用噪声数据蕴含的信息,提高目标模型的训练效果,另外,通过词级别的训练过程,可以很好的适配命名实体识别任务,且由于词级别的任务导致了第一样本和第二样本可能会混合在一个句子中,没办法通过数据采样来进行划分,因此,在对目标模型的训练过程,可以通过第一损失值和第二损失值对这两类样本进行混合训练,即在学习过程中可以兼顾这两类样本,优化目标模型的训练效果,提高目标模型的命名实体识别准确性。
实施例三
如图9A和图9B所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务端,服务端可以是服务器或终端设备,其中,服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,终端设备可以如个人计算机等设备,也可以如手机、平板电脑等移动终端设备。该方法具体可以包括以下步骤:
在S902中,在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据。
其中,目标信息包括目标用户触发执行目标业务所需的信息,和/或目标用户针对触发执行目标业务的交互信息。目标业务可以是任意涉及用户隐私、财产安全等业务,例如,目标业务可以是资源转移业务、隐私信息更新业务(如修改登录密码、新增用户信息等)等,假设目标业务为资源转移业务,目标信息可以包括目标用户触发执行资源转移业务所需的身份验证信息,和/或目标用户针对触发执行资源转移业务的交互信息,交互信息具体可以包括目标用户针对如“是否和资源转移对象是网上认识的?”等话术的反馈信息。
在实施中,以目标业务为终端设备中安装的资源管理应用程序中的资源转移业务为例,目标用户可以触发启动资源管理应用程序,并在该资源管理应用程序中触发执行资源转移业务。终端设备可以获取目标用户触发执行该资源转移业务所需的信息(如目标用户的身份验证信息等),并将该信息作为目标信息。
此外,终端设备在检测到目标用户触发执行目标业务的情况下,还可以输出预设提示信息,并接收目标用户针对预设提示信息输入的反馈信息,终端设备可以将预设提示信息以及目标用户针对预设提示信息输入的反馈信息确定为目标信息。
例如,如图10所示,终端设备在检测到目标用户触发执行资源转移业务的情况下,可以显示带有预设提示信息(即提示信息Q1、提示信息Q2)的提示页面,并可以接收目标用户针对该预设提示信息在提示页面输入的反馈信息。电子设备可以将提示信息Q1、提示信息Q2、反馈信息A1和反馈信息A2确定为目标信息。
终端设备可以将采集的目标信息发送给服务端,服务端可以基于获取的目标信息,确定待识别的目标文本数据。由于终端设备采集的目标信息中可能包括音频数据、图片数据、网页数据、视频数据等,因此,服务端可以对目标信息进行文本转换处理,得到目标文本数据。
在S904中,将目标文本数据输入训练后的目标模型,得到目标文本数据对应的预测实体类型。
其中,目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,并通过目标模型对所述文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值,对第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量,基于第二样本对应的语义向量构建正样本对和负样本对,并基于正样本对和负样本对,确定第二损失值,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。
在实施中,服务端可以基于上述实施例一或实施例二中的训练过程对目标模型进行训练,得到训练后的目标模型,并将目标文本数据输入训练后的目标模型,得到目标文本数据包含的词对应的预测实体类型。
此外,服务端还可以接收中心服务端基于上述实施例一或实施例二中的训练过程对目标模型进行训练后,得到的训练后的目标模型的模型参数,并基于模型参数,对本地的目标模型进行模型更新。
在S906中,基于目标文本数据对应的预测实体类型,确定候选话术中与目标用户触发执行目标业务匹配的目标话术,并输出目标话术。
其中,候选话术可以用于在与目标用户的交互过程中,获取目标用户针对目标业务的反馈信息,反馈信息可以是任意文字信息、语音信息等。
在实施中,服务端可以基于目标文本数据包含的词对应的预测实体类型,确定候选话术中与目标用户触发执行目标业务匹配的目标话术,并输出目标话术。
例如,假设目标文本数据包含的词对应的预测实体类型包括人名类型、机构名类型,那么,服务端可以获取人名类型对应的词,以及机构名类型对应的词,并基于获取到的词从候选话术中确定对应的目标话术。
上述目标话术的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不作具体限定。
本说明书实施例提供一种数据处理方法,在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,目标信息包括目标用户触发执行目标业务所需的信息,和/或目标用户针对触发执行目标业务的交互信息,将目标文本数据输入训练后的目标模型,得到目标文本数据对应的预测实体类型,基于目标文本数据对应的预测实体类型,确定候选话术中与目标用户触发执行目标业务匹配的目标话术,并输出所述目标话术,其中,目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,并通过目标模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值,对第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量,基于第二样本对应的语义向量构建正样本对和负样本对,并基于正样本对和负样本对,确定第二损失值,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。这样,在对目标模型训练的过程中,可以基于包含噪声的第二样本构建正样对比和负样本对,在基于正样本对和负样本对确定第二损失值,以充分利用噪声数据蕴含的信息,提高目标模型的训练效果,另外,通过词级别的训练过程,可以很好的适配命名实体识别任务,且由于词级别的任务导致了第一样本和第二样本可能会混合在一个句子中,没办法通过数据采样来进行划分,因此,在对目标模型的训练过程,可以通过第一损失值和第二损失值对这两类样本进行混合训练,即在学习过程中可以兼顾这两类样本,优化目标模型的训练效果,提高目标模型的命名实体识别准确性,进而通过训练后的目标模型,可以准确的对目标文本数据进行实体识别,以提高目标话术的确定准确性。
实施例四
以上为本说明书实施例提供的数据处理方法,基于同样的思路,本说明书实施例还提供一种数据处理装置,如图11所示。
该数据处理装置包括:第一获取模块1101、样本划分模块1102、第一处理模块1103、第一确定模块1104和第二确定模块1105,其中:
第一获取模块1101,用于获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;
样本划分模块1102,用于基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;
增强处理模块1103,用于对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;
第一确定模块1104,用于基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;
第二确定模块1105,用于基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
本说明书实施例中,所述第一获取模块1101,用于:
基于预设数据库对所述文本数据样本中包含的词进行匹配处理,并将所述预设数据库中与所述文本数据样本包含的词相匹配的词对应的实体类型标签,确定为所述文本数据样本包含的词对应的实体类型标签。
本说明书实施例中,所述第一获取模块1101,用于:
通过所述目标模型对所述文本数据样本包含的词进行向量提取处理,得到所述文本数据样本包含的词对应的嵌入向量;
通过所述目标模型对所述文本数据样本包含的词对应的嵌入向量进行语义提取处理,得到所述文本数据样本包含的词对应的语义向量;
通过所述目标模型对所述文本数据样本包含的词对应的语义向量进行类型识别处理,得到所述文本数据样本包含的词对应的预测实体类型。
本说明书实施例中,所述样本划分模块1102,用于:
基于所述文本数据样本包含的词对应的预测实体类型和实体类型标签匹配的词,构建所述第一样本,并基于所述文本数据样本包含的词对应预测实体类型和实体类型标签不匹配的词,构建所述包含噪声的第二样本。
本说明书实施例中,所述增强处理模块1103,用于:
通过所述目标模型对所述第二样本进行向量提取处理,得到所述第二样本对应的嵌入向量;
对所述第二样本对应的嵌入向量进行样本增强处理,并通过所述目标模型对增强处理得到的嵌入向量进行语义提取处理,得到所述第二样本对应的语义向量。
本说明书实施例中,所述增强处理模块1103,用于:
基于第一方向和预设扰动量对所述第二样本对应的嵌入向量进行样本增强处理,并基于第二方向和所述预设扰动量对所述第二样本对应的嵌入向量进行样本增强处理,所述第二方向与所述第一方向为相反方向。
本说明书实施例中,所述正样本对中包含的语义向量对应的样本增强处理前的第二样本相同,所述负样本对中包含的语义向量对应的样本增强处理前的第二样本不同。
本说明书实施例提供一种数据处理装置,获取用于训练目标模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,并通过目标模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值,对第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量,基于第二样本对应的语义向量构建正样本对和负样本对,并基于正样本对和负样本对,确定第二损失值,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。这样,基于包含噪声的第二样本构建正样对比和负样本对,在基于正样本对和负样本对确定第二损失值,可以充分利用噪声数据蕴含的信息,提高目标模型的训练效果,另外,通过词级别的训练过程,可以很好的适配命名实体识别任务,且由于词级别的任务导致了第一样本和第二样本可能会混合在一个句子中,没办法通过数据采样来进行划分,因此,在对目标模型的训练过程,可以通过第一损失值和第二损失值对这两类样本进行混合训练,即在学习过程中可以兼顾这两类样本,优化目标模型的训练效果,提高目标模型的命名实体识别准确性。
实施例五
基于同样的思路,本说明书实施例还提供一种数据处理装置,如图12所示。
该数据处理装置包括:数据获取模块1201、类型确定模块1202和话术确定模块1203,其中:
数据获取模块1201,用于在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
类型确定模块1202,用于将所述目标文本数据输入所述训练后的目标模型,得到所述目标文本数据对应的预测实体类型;
话术确定模块1203,用于基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
本说明书实施例提供一种数据处理装置,在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,目标信息包括目标用户触发执行目标业务所需的信息,和/或目标用户针对触发执行目标业务的交互信息,将目标文本数据输入训练后的目标模型,得到目标文本数据对应的预测实体类型,基于目标文本数据对应的预测实体类型,确定候选话术中与目标用户触发执行目标业务匹配的目标话术,并输出所述目标话术,其中,目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,并通过目标模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值,对第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量,基于第二样本对应的语义向量构建正样本对和负样本对,并基于正样本对和负样本对,确定第二损失值,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。这样,在对目标模型训练的过程中,可以基于包含噪声的第二样本构建正样对比和负样本对,在基于正样本对和负样本对确定第二损失值,以充分利用噪声数据蕴含的信息,提高目标模型的训练效果,另外,通过词级别的训练过程,可以很好的适配命名实体识别任务,且由于词级别的任务导致了第一样本和第二样本可能会混合在一个句子中,没办法通过数据采样来进行划分,因此,在对目标模型的训练过程,可以通过第一损失值和第二损失值对这两类样本进行混合训练,即在学习过程中可以兼顾这两类样本,优化目标模型的训练效果,提高目标模型的命名实体识别准确性,进而通过训练后的目标模型,可以准确的对目标文本数据进行实体识别,以提高目标话术的确定准确性。
实施例六
基于同样的思路,本说明书实施例还提供一种数据处理设备,如图13所示。
数据处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1301和存储器1302,存储器1302中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1302可以是短暂存储或持久存储。存储在存储器1302的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据处理设备中的一系列计算机可执行指令。更进一步地,处理器1301可以设置为与存储器1302通信,在数据处理设备上执行存储器1302中的一系列计算机可执行指令。数据处理设备还可以包括一个或一个以上电源1303,一个或一个以上有线或无线网络接口1304,一个或一个以上输入输出接口1305,一个或一个以上键盘1306。
具体在本实施例中,数据处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;
基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;
对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;
基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;
基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
另外,经配置以由一个或者一个以上处理器执行该一个或者一个以上程序还包含用于进行以下计算机可执行指令:
在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
将所述目标文本数据输入所述训练后的目标模型,得到所述目标文本数据对应的预测实体类型;
基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供一种数据处理设备,基于包含噪声的第二样本构建正样对比和负样本对,在基于正样本对和负样本对确定第二损失值,可以充分利用噪声数据蕴含的信息,提高目标模型的训练效果,另外,通过词级别的训练过程,可以很好的适配命名实体识别任务,且由于词级别的任务导致了第一样本和第二样本可能会混合在一个句子中,没办法通过数据采样来进行划分,因此,在对目标模型的训练过程,可以通过第一损失值和第二损失值对这两类样本进行混合训练,即在学习过程中可以兼顾这两类样本,优化目标模型的训练效果,提高目标模型的命名实体识别准确性。
实施例七
本说明书实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书实施例提供一种计算机可读存储介质,基于包含噪声的第二样本构建正样对比和负样本对,在基于正样本对和负样本对确定第二损失值,可以充分利用噪声数据蕴含的信息,提高目标模型的训练效果,另外,通过词级别的训练过程,可以很好的适配命名实体识别任务,且由于词级别的任务导致了第一样本和第二样本可能会混合在一个句子中,没办法通过数据采样来进行划分,因此,在对目标模型的训练过程,可以通过第一损失值和第二损失值对这两类样本进行混合训练,即在学习过程中可以兼顾这两类样本,优化目标模型的训练效果,提高目标模型的命名实体识别准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (12)
1.一种数据处理方法,包括:
获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;
基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;
对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;
基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;
基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
2.根据权利要求1所述的方法,所述获取所述文本数据样本包含的词对应的实体类型标签,包括:
基于预设数据库对所述文本数据样本中包含的词进行匹配处理,并将所述预设数据库中与所述文本数据样本包含的词相匹配的词对应的实体类型标签,确定为所述文本数据样本包含的词对应的实体类型标签。
3.根据权利要求2所述的方法,所述通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型,包括:
通过所述目标模型对所述文本数据样本包含的词进行向量提取处理,得到所述文本数据样本包含的词对应的嵌入向量;
通过所述目标模型对所述文本数据样本包含的词对应的嵌入向量进行语义提取处理,得到所述文本数据样本包含的词对应的语义向量;
通过所述目标模型对所述文本数据样本包含的词对应的语义向量进行类型识别处理,得到所述文本数据样本包含的词对应的预测实体类型。
4.根据权利要求3所述的方法,所述基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本划分为第一样本和包含噪声的第二样本,包括:
基于所述文本数据样本包含的词对应的预测实体类型和实体类型标签匹配的词,构建所述第一样本,并基于所述文本数据样本包含的词对应预测实体类型和实体类型标签不匹配的词,构建所述包含噪声的第二样本。
5.根据权利要求4所述的方法,所述对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量,包括:
通过所述目标模型对所述第二样本进行向量提取处理,得到所述第二样本对应的嵌入向量;
对所述第二样本对应的嵌入向量进行样本增强处理,并通过所述目标模型对增强处理得到的嵌入向量进行语义提取处理,得到所述第二样本对应的语义向量。
6.根据权利要求5所述的方法,所述对所述第二样本对应的嵌入向量进行样本增强处理,包括:
基于第一方向和预设扰动量对所述第二样本对应的嵌入向量进行样本增强处理,并基于第二方向和所述预设扰动量对所述第二样本对应的嵌入向量进行样本增强处理,所述第二方向与所述第一方向为相反方向。
7.根据权利要求6所述的方法,所述正样本对中包含的语义向量对应的样本增强处理前的第二样本相同,所述负样本对中包含的语义向量对应的样本增强处理前的第二样本不同。
8.一种数据处理方法,包括:
在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
将所述目标文本数据输入所述训练后的目标模型,得到所述目标文本数据对应的预测实体类型;
基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
9.一种数据处理装置,包括:
第一获取模块,用于获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;
样本划分模块,用于基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;
第一处理模块,用于对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;
第一确定模块,用于基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;
第二确定模块,用于基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
10.一种数据处理装置,包括:
数据获取模块,用于在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
类型确定模块,用于将所述目标文本数据输入所述训练后的目标模型,得到所述目标文本数据对应的预测实体类型;
话术确定模块,用于基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
11.一种数据处理设备,所述数据处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;
基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;
对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;
基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;
基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
12.一种数据处理设备,所述数据处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
将所述目标文本数据输入所述训练后的目标模型,得到所述目标文本数据对应的预测实体类型;
基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述目标模型的训练过程包括:获取用于训练目标模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签,并通过所述目标模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的预测实体类型;基于所述词对应的预测实体类型和实体类型标签,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于所述第一样本对应的预测实体类型和实体类型标签,确定第一损失值;对所述第二样本进行样本增强处理,并对增强处理得到的第二样本进行语义提取处理,得到所述第二样本对应的语义向量;基于所述第二样本对应的语义向量构建正样本对和负样本对,并基于所述正样本对和负样本对,确定第二损失值;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310466522.XA CN116522939A (zh) | 2023-04-26 | 2023-04-26 | 数据处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310466522.XA CN116522939A (zh) | 2023-04-26 | 2023-04-26 | 数据处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116522939A true CN116522939A (zh) | 2023-08-01 |
Family
ID=87389716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310466522.XA Pending CN116522939A (zh) | 2023-04-26 | 2023-04-26 | 数据处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522939A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035424A (zh) * | 2024-04-11 | 2024-05-14 | 四川大学 | 一种代码搜索方法、装置、电子设备及存储介质 |
-
2023
- 2023-04-26 CN CN202310466522.XA patent/CN116522939A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035424A (zh) * | 2024-04-11 | 2024-05-14 | 四川大学 | 一种代码搜索方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032730B (zh) | 一种文本数据的处理方法、装置和设备 | |
CN111428042A (zh) | 对话服务中的实体级澄清 | |
CN114596845A (zh) | 语音识别模型的训练方法、语音识别方法及装置 | |
CN116522939A (zh) | 数据处理方法、装置及设备 | |
CN112380876A (zh) | 基于多语言机器翻译模型的翻译方法、装置、设备和介质 | |
CN116757208A (zh) | 数据处理方法、装置及设备 | |
CN111538925B (zh) | 统一资源定位符url指纹特征的提取方法及装置 | |
Liu et al. | Personalized Natural Language Understanding. | |
CN116186231A (zh) | 一种回复文本的生成方法、装置、存储介质及电子设备 | |
CN115221523B (zh) | 数据处理方法、装置及设备 | |
CN111353035B (zh) | 人机对话方法、装置、可读存储介质及电子设备 | |
CN114429629A (zh) | 图像处理方法、装置、可读存储介质及电子设备 | |
CN113553849A (zh) | 模型训练方法、识别方法、装置、电子设备和计算机存储介质 | |
CN115859975B (zh) | 数据处理方法、装置及设备 | |
CN116501852B (zh) | 一种可控对话模型训练方法、装置、存储介质及电子设备 | |
CN117392694B (zh) | 数据处理方法、装置及设备 | |
CN115423485B (zh) | 数据处理方法、装置及设备 | |
CN114817469B (zh) | 文本增强方法、文本增强模型的训练方法及装置 | |
CN117079646B (zh) | 一种语音识别模型的训练方法、装置、设备及存储介质 | |
CN116701624A (zh) | 数据处理方法、装置及设备 | |
CN116541509A (zh) | 数据处理方法、装置及设备 | |
CN117494663A (zh) | 文本处理方法及装置 | |
CN117828360A (zh) | 一种模型训练、代码生成方法、装置、存储介质及设备 | |
CN117951514A (zh) | 数据整合方法、装置及设备 | |
CN116543759A (zh) | 语音识别处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |