CN114756677B - 样本生成方法、文本分类模型的训练方法及文本分类方法 - Google Patents
样本生成方法、文本分类模型的训练方法及文本分类方法 Download PDFInfo
- Publication number
- CN114756677B CN114756677B CN202210276671.5A CN202210276671A CN114756677B CN 114756677 B CN114756677 B CN 114756677B CN 202210276671 A CN202210276671 A CN 202210276671A CN 114756677 B CN114756677 B CN 114756677B
- Authority
- CN
- China
- Prior art keywords
- data
- text
- annotation data
- annotation
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 161
- 238000000034 method Methods 0.000 title claims abstract description 149
- 238000013145 classification model Methods 0.000 title claims abstract description 124
- 238000002372 labelling Methods 0.000 claims abstract description 346
- 239000013598 vector Substances 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000003860 storage Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 241000220225 Malus Species 0.000 description 3
- 241000220324 Pyrus Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 235000014443 Pyrus communis Nutrition 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 235000021017 pears Nutrition 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了样本生成方法、文本分类模型的训练方法及文本分类方法,其中,样本生成方法包括:获取包含多个标注数据的标注数据集,将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与所述第一标注数据对应的正样本,将第二数据子集中与所述第一标注数据之间的文本距离小于所述预设距离阈值的标注数据,确定为与所述第一标注数据对应的负样本,基于上述方法获取所述标注数据集中每个标注数据对应的正样本和负样本,并基于所述标注数据、与所述标注数据对应的正样本以及与所述标注数据对应的负样本,得到训练样本数据集。通过上述方法,可以提高用于训练文本分类模型的训练样本数据集的准确性。
Description
技术领域
本文件涉及人工智能技术领域,尤其涉及样本生成方法、文本分类模型的训练方法及文本分类方法。
背景技术
随着计算机技术的飞速发展,文本匹配技术得到较为广泛的应用,如在信息检索、问答系统及对话系统等应用场景,可以通过文本匹配技术根据搜索文本查询到对应的文本,以为用户提供对应的服务。
通常,通过数据增强的方式构建训练样本数据集,易引入噪声数据,造成数据污染,这就会导致基于该训练样本数据集训练得到的文本分类模型的分类效果差,基于此,需要提供一种构建用于提高文本分类模型的准确性的训练样本数据集的技术方案。
发明内容
本说明书实施例的目的是提供一种构建用于提高文本分类模型的准确性的训练样本数据集的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种样本生成方法,所述方法包括:
获取包含多个标注数据的标注数据集,所述标注数据包括对应的目标类别,所述标注数据对应的目标类别由所述标注数据的语义信息确定;
将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与所述第一标注数据对应的正样本,所述第一标注数据为所述标注数据集中的任意一条标注数据,所述第一数据子集由所述标注数据集中与所述第一标注数据的目标类别相同的标注数据构成;
将第二数据子集中与所述第一标注数据之间的文本距离小于所述预设距离阈值的标注数据,确定为与所述第一标注数据对应的负样本,所述第二数据子集由所述标注数据集中与所述第一标注数据的目标类别不同的标注数据构成;
基于上述方法获取所述标注数据集中每个标注数据对应的正样本和负样本,并基于所述标注数据、与所述标注数据对应的正样本以及与所述标注数据对应的负样本,得到训练样本数据集,所述训练样本数据集用于对预设文本分类模型进行训练。
本说明书实施例提供的一种文本分类模型的训练方法,包括:
将标注数据集输入预设文本分类模型进行模型训练,得到训练后的文本分类模型;
其中,所述标注数据集根据本说明书实施例提供的样本生成方法得到的。
本说明书实施例提供的一种文本分类方法,包括:
接收目标文本的相似文本检索请求;
获取与所述目标文本对应的候选文本;
将所述目标文本和所述候选文本输入预先训练的文本分类模型,得到所述目标文本和所述候选文本的文本类别;
将所述候选文本中与所述目标文本的文本类别相同的文本,确定为所述相似文本检索请求对应的检索结果;
其中,所述预先训练的文本分类模型根据本说明书实施例提供的文本分类模型的训练方法得到的。
本说明书实施例提供的一种样本生成装置,所述装置包括:
数据获取模块,被配置为获取包含多个标注数据的标注数据集,所述标注数据包括对应的目标类别,所述标注数据对应的目标类别由所述标注数据的语义信息确定;
第一确定模块,被配置为将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与所述第一标注数据对应的正样本,所述第一标注数据为所述标注数据集中的任意一条标注数据,所述第一数据子集由所述标注数据集中与所述第一标注数据的目标类别相同的标注数据构成;
第二确定模块,被配置为将第二数据子集中与所述第一标注数据之间的文本距离小于所述预设距离阈值的标注数据,确定为与所述第一标注数据对应的负样本,所述第二数据子集由所述标注数据集中与所述第一标注数据的目标类别不同的标注数据构成;
样本构建模块,被配置为基于上述方法获取所述标注数据集中每个标注数据对应的正样本和负样本,并基于所述标注数据、与所述标注数据对应的正样本以及与所述标注数据对应的负样本,得到训练样本数据集,所述训练样本数据集用于对预设文本分类模型进行训练。
本说明书实施例提供的一种文本分类模型的训练装置,所述装置包括:
模型训练模块,被配置为将标注数据集输入预设文本分类模型进行模型训练,得到训练后的文本分类模型;
其中,所述标注数据集根据本说明书实施例提供的样本生成方法得到的。
本说明书实施例提供的文本分类装置,所述装置包括:
请求接收模块,被配置为接收目标文本的相似文本检索请求;
文本获取模块,被配置为获取与所述目标文本对应的候选文本;
类别确定模块,被配置为将所述目标文本和所述候选文本输入预先训练的文本分类模型,得到所述目标文本和所述候选文本的文本类别;
结果确定模块,被配置为将所述候选文本中与所述目标文本的文本类别相同的文本,确定为所述相似文本检索请求对应的检索结果;
其中,所述预先训练的文本分类模型根据本说明书实施例提供的文本分类模型的训练方法得到的。
本说明书实施例提供的一种样本生成设备,所述样本生成设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取包含多个标注数据的标注数据集,所述标注数据包括对应的目标类别,所述标注数据对应的目标类别由所述标注数据的语义信息确定;
将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与所述第一标注数据对应的正样本,所述第一标注数据为所述标注数据集中的任意一条标注数据,所述第一数据子集由所述标注数据集中与所述第一标注数据的目标类别相同的标注数据构成;
将第二数据子集中与所述第一标注数据之间的文本距离小于所述预设距离阈值的标注数据,确定为与所述第一标注数据对应的负样本,所述第二数据子集由所述标注数据集中与所述第一标注数据的目标类别不同的标注数据构成;
基于上述方法获取所述标注数据集中每个标注数据对应的正样本和负样本,并基于所述标注数据、与所述标注数据对应的正样本以及与所述标注数据对应的负样本,得到训练样本数据集,所述训练样本数据集用于对预设文本分类模型进行训练。
本说明书实施例提供的一种文本分类模型的训练设备,所述文本分类模型的训练设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
将标注数据集输入预设文本分类模型进行模型训练,得到训练后的文本分类模型;
其中,所述标注数据集根据本说明书实施例提供的样本生成方法得到的。
本说明书实施例提供的一种文本分类设备,所述文本分类设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:接收目标文本的相似文本检索请求;
获取与所述目标文本对应的候选文本;
将所述目标文本和所述候选文本输入预先训练的文本分类模型,得到所述目标文本和所述候选文本的文本类别;
将所述候选文本中与所述目标文本的文本类别相同的文本,确定为所述相似文本检索请求对应的检索结果;
其中,所述预先训练的文本分类模型根据本说明书实施例提供的文本分类模型的训练方法得到的。
本说明书提供的上述技术方案,由于训练样本数据集是由标注数据集中的标注数据得到,因而可以避免在构建训练样本数据集时引入噪声数据,另外,可以通过标注数据对应的目标类别,确定标注数据与确定的正样本之间的语义信息相同,标注数据与确定的负样本之间的语义信息不同,在通过文本距离,使得标注数据与确定的正样本之间的文本距离不小于预设距离阈值,使得标注数据与确定的负样本之间的文本距离小于预设距离阈值,即使得标注数据与确定的正样本之间的文本相似度较低,与确定的负样本之间的文本相似度较高,这样,得到了难正样本(是指文本之间,文本不相似,但语义或标签相同,互为难正样本)和难负样本(是指文本之间,文本相似,但语义或标签不相同,互为难负样本),通过该训练样本数据集对文本分类模型进行训练,就可以提高文本分类模型对难正样本以及难负样本的分类效果,即可以提高文本分类模型的准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种样本生成方法实施例;
图2为本说明书又一种样本生成方法实施例;
图3为本说明书又一种样本生成方法实施例;
图4为本说明书一种文本分类模型的训练方法实施例;
图5为本说明书又一种文本分类模型的训练方法实施例;
图6为本说明书一种文本分类方法实施例;
图7为本说明书一种样本生成系统架构示意图;
图8为本说明书一种目标文件的获取过程的示意图;
图9为本说明书一种样本生成装置实施例;
图10为本说明书一种文本分类模型的训练装置实施例;
图11为本说明书一种文本分类装置实施例;
图12为本说明书一种设备实施例。
具体实施方式
本说明书实施例提供样本生成方法、文本分类模型的训练方法及文本分类方法。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
在相关技术中,为提高文本匹配的准确性,可以通过数据增强的方式构建训练样本数据集,以对文本分类模型进行训练,并通过训练得到的文本分类模型为用户提供文本匹配服务。例如,可以通过同义词替换、随机插入、随机交换、随机删除等方式构建训练样本数据集,其中,同义词替换可以是在样本数据中随机选取若干个非停用词,并将每个非停用词替换为对应的同义词,以得到新的样本数据;随机插入可以是在样本数据中任意确定一个非停用词,并选取该非停用词的同义词,将选取的同义词插入该样本数据的任意位置,并重复若干次,以得到新的样本数据;随机交换可以是选取样本数据中的任意两个词,并交换这两个词的位置,并重复若干次,以得到新的样本数据;随机删除可以是获取样本数据中每次词的概率值,并随机删除概率值为预定概率值的词,将删除后的样本数据作为新的样本数据。
但是,通过上述数据增强的方式构建训练样本数据集,易引入噪声数据,造成数据污染,且通过数据增强的方式不易对样本数据的语义进行控制,即得到的训练样本数据集中,可能包括语义差距较大但文本类别相同的多个样本数据,例如,上述随机删除的方式得到的新的样本数据可能与原样本数据的语义差距较大,如果用该训练样本数据集对文本分类模型进行训练,就会使得训练得到的文本分类模型的分类效果和泛化效果差,基于此,需要提供一种构建用于提高文本分类模型的准确性的训练样本数据集的技术方案。
本技术方案中由于训练样本数据集是由标注数据集中的标注数据得到,因而可以避免在构建训练样本数据集时引入噪声数据,另外,可以通过标注数据对应的目标类别,确定标注数据与确定的正样本之间的语义信息相同,标注数据与确定的负样本之间的语义信息不同,再通过文本距离,使得标注数据与确定的正样本之间的文本距离不小于预设距离阈值,使得标注数据与确定的负样本之间的文本距离小于预设距离阈值,即使得标注数据与确定的正样本之间的文本相似度较低,与确定的负样本之间的文本相似度较高,这样,可以避免通过数据增强等方式构建训练样本数据集存在的数据语义不可控的问题,且通过增加难负样本和难正样本作为模型训练样本,可以提高训练样本数据集中数据的语义准确性,通过该训练样本数据集对文本分类模型进行训练,就可以提高文本分类模型的分类效果,即可以提高文本分类模型的准确性。
如图1所示,本说明书实施例提供一种样本生成方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的一个服务器,也可以是由多个不同的服务器构成的服务器集群,该服务器可以是提供训练样本数据集的构建服务的服务器等,具体可以根据实际情况设定。该方法可以应用于训练样本数据集的构建处理中。
该方法具体可以包括以下步骤:
在步骤S102中,获取包含多个标注数据的标注数据集。
其中,标注数据可以是已标注类别的任意文本数据,标注数据包括对应的目标类别,标注数据对应的目标类别可以由标注数据的语义信息确定,例如,标注数据可以是目标类别为体育类的新闻数据。
在实施中,随着计算机技术的飞速发展,文本匹配技术得到较为广泛的应用,如在信息检索、问答系统及对话系统等应用场景,可以通过文本匹配技术根据搜索文本查询到对应的文本,以为用户提供对应的服务。为构建用于提高文本分类模型的准确性的训练样本数据集,本说明书实施例提供一种可实现的处理方式,具体可以包括以下内容:
服务器可以获取包含多个标注数据的标注数据集,其中,标注数据集中的标注数据可以是预设数据更新周期内获取的标注数据,如近1个月、近3个月的标注数据。
服务器可以获取标注数据对应的目标类别,例如,服务器可以从多个数据源获取近1个月的新闻数据,并根据新闻数据的语义信息,对新闻数据进行标注,以得到标注数据及对应的目标类别,标注数据对应的目标类别可以是体育类、政治类、娱乐类等。
标注数据对应的目标类别的确定方法可以有多种,可以根据实际应用场景的不同而有所不同,例如,可以通过人工标注的方式确定标注数据对应的目标类别,除此之外,还可以有多种不同的确定方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
此外,标注数据的目标类别也可以有多种,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
在步骤S104中,将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与第一标注数据对应的正样本。
其中,第一标注数据为标注数据集中的任意一条标注数据,第一数据子集由标注数据集中与第一标注数据的目标类别相同的标注数据构成。
在实施中,服务器可以根据第一标注数据的目标类别,从标注数据集中选取出与该目标类别对应的标注数据,并由选取出的标注数据构建第一数据子集。在分别计算第一数据子集中每个标注数据与第一标注数据之间的文本距离,并将文本距离不小于预设距离阈值的标注数据,确定为与第一标注数据对应的正样本。
其中,文本距离可以用于确定标注数据之间的文本相似度,即文本距离越大,标注数据之间的文本相似度越低,文本距离越小,标注数据之间的文本相似度越高。
标注数据(即第一标注数据和第一数据子集中的标注数据)之间的文本距离的确定方法可以有多种,例如,可以基于预设文本距离计算方法确定第一数据子集中每个标注数据与第一标注数据之间的文本距离,具体如,可以基于预先训练的文本距离计算模型,确定标注数据之间的文本距离,文本距离计算模型可以是基于历史标注数据对由预设深度学习算法构建的模型进行训练得到的模型,或者,还可以将标注数据之间的欧式距离、曼哈顿距离、余弦距离中的一个或多个,确定为标注数据之间的文本距离。
这样,第一标注数据与对应的正样本之间的目标类别相同,文本距离不小于预设距离阈值,即第一标注数据与对应的正样本之间的语义信息的相似度较高、文本相似度较低,这样的正样本可以认为是第一标注数据的难正样本。
在步骤S106中,将第二数据子集中与第一标注数据之间的文本距离小于预设距离阈值的标注数据,确定为与第一标注数据对应的负样本。
其中,第二数据子集由标注数据集中与第一标注数据的目标类别不同的标注数据构成。
在实施中,服务器可以根据第一标注数据的目标类别,从标注数据集中选取出与该目标类别不同的标注数据,并由选取出的标注数据构建第二数据子集。例如,假设标注数据集中包含3个目标类别的标注数据,若第一标注数据对应目标类别1,则可以从标注数据集中选取目标类别2和目标类别3对应的若干标注数据,并由选取出的标注数据构建第二数据子集,具体如,可以从标注数据集中选取目标类别2对应的3个标注数据,以及目标类别3对应的3个标注数据,并由选取出的这6个标注数据,构建第二数据子集。
上述第二数据子集的构建方法是一种可选地、可实现的构建方法,在实际应用场景中,还可以有多种不同的构建方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不作具体限定。
服务器在构建第二数据子集后,可以分别计算第二数据子集中每个标注数据与第一标注数据之间的文本距离,并将文本距离不小于预设距离阈值的标注数据,确定为与第一标注数据对应的负样本。文本距离的确定方法可以参见上述步骤S106中的相关内容,在此不再赘述。
这样,第一标注数据与对应的负样本之间的目标类别不同,文本距离小于预设距离阈值,即第一标注数据与对应的负样本之间的语义信息的相似度较低、文本相似度较高,这样的负样本可以认为是第一标注数据的难负样本。
在步骤S108中,基于上述方法获取标注数据集中每个标注数据对应的正样本和负样本,并基于标注数据、与标注数据对应的正样本以及与标注数据对应的负样本,得到训练样本数据集。
其中,训练样本数据集可以用于对预设文本分类模型进行训练。
在实施中,可以基于上述步骤S106~S108,获取标注数据集中每个标注样本数据对应的正样本和负样本,即将标注数据集中的每个标注数据设置为第一标注数据。服务器在确定标注数据集中每个标注数据对应的正样本和负样本后,可以基于标注数据、与标注数据对应的正样本以及与标注数据对应的负样本,得到训练样本数据集,得到的训练样本数据集可以用于对预设文本分类模型进行训练。由于训练样本数据集是由标注数据集中的标注数据得到,因而也可以避免通过数据增强的方式构建训练样本数据集时引入噪声数据的问题,且标注数据与确定的正样本之间的语义相似度较高,与确定的负样本之间的语义相似度较低,标注数据与确定的正样本之间的文本相似度较低,与确定的负样本之间的文本相似度较高,这样,可以避免通过数据增强等方式构建训练样本数据集存在的数据语义不可控的问题,即可以提高训练样本数据集中数据的语义准确性,通过该训练样本数据集对文本分类模型进行训练,就可以提高文本分类模型的分类效果,即可以提高文本分类模型的准确性,另外,还可以提高针对文本相似但语义不同的文本类别的分类效果。
本说明书一个或多个实施例中,服务器在获取标注数据及对应的目标类别之前,服务器可以对待筛选的多个标注数据进行筛选处理,以得到标注数据集中的标注数据,相应的,如图2所示,还可以执行下述步骤S202~S212的处理。
在步骤S202中,获取待筛选的已标注类别的多个标注数据。
其中,待筛选的多个标注数据,待筛选的多个标注数据可以是预设数据获取周期(如近1周、近3个月等)获取的任意文本数据,可以通过人工标注的方式,确定待筛选的标注数据的类别,也可以通过数据标注模型确定待筛选的标注数据的类别。
在实施中,服务器可以获取近1个月已标注类别的标注数据。
在步骤S204中,选取每个类别对应的第三标注数据,得到每个类别对应的种子点。
在实施中,服务器可以从每个类别中选取一个或多个第三标注数据。
在步骤S206中,基于每个类别对应的种子点及预设聚类算法,对待筛选的多个标注数据进行聚类处理,得到多个不同类别的标注数据集。
其中,预设聚类算法可以是K-means算法、K-means++算法等。
在实施中,由于待筛选的多个标注数据的类别可能是人工标注确定的类别,因而,待筛选的标注数据的类别可能存在类别不准确的问题,因而,可以对待筛选的多个标注数据再次进行分类,以提高标注数据的类别的准确性,为提高分类效率,可以从每个类别中选取第三标注数据作为种子点,再通过种子点对待筛选的多个标注数据进行聚类处理。
例如,假设待筛选的多个标注数据有100个,对应10个类别,可以从每个类别中选取出1个第三标注数据,再将选取的这10个第三标注数据作为种子点,基于预设聚类算法,对剩下的待筛选的90个标注数据进行聚类处理,以得到10个不同类别的标注数据集。
此外,为提高聚类处理的准确性,可以基于待筛选的多个标注数据的语义信息,从每个类别中选取第三标注数据,例如,可以根据相同类别中每两个标注数据之间的语义相似度,选取该类别对应的第三标注数据,具体如,假设类别1中包含3个标注数据,每两个标注数据之间的相似度可以如下表1所示。
表1
标注数据1 | 标注数据2 | 标注数据3 | 语义相似度均值 | |
标注数据1 | - | 80% | 70% | 75% |
标注数据2 | 80% | - | 50% | 65% |
标注数据3 | 70% | 50% | - | 60% |
由上表1可见,标注数据1的语义相似度均值大于标注数据2和标注数据3的语义相似度均值,因此,可以认为标注数据1的语义信息相较于标注数据2和标注数据3,更符合类别1,因而,可以将标注数据1确定为类别1对应的第三标注数据。
上述第三标注数据的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
在步骤S208中,基于待筛选的多个标注数据的语义信息,确定每个类别标注数据集内的每两个标注数据之间的第一向量距离,及确定每一类别标注数据集内的每个标注数据和任意不同类别标注数据集内的每个标注数据之间的第二向量距离。
在实施中,标注数据之间的向量距离(即第一向量距离或第二向量距离)可以是基于标注数据之间的语义信息和预设语义距离算法确定的,其中,预设语义距离算法可以是欧式距离算法、曼哈顿算法、余弦相似度算法等,预设语义距离算法可以有多种,可以根据实际应用场景的不同选取不同的语义距离算法,本说明书实施例对此不做具体限定。
在步骤S210中,基于第一向量距离和第二向量距离,对多个不同类别的标注数据集中的标注数据进行筛选处理,得到标注数据集。
在实施中,由于第一向量距离是类别相同的两个标注数据(即同一标注数据集内的两个标注数据)之间的距离,而第二向量距离是类别不同的两个标注数据(即不同标注数据集内的两个标注数据)之间的距离,因此,第一向量距离越小,则表明相同类别的两个标注数据之间的语义相似度越小,第二向量距离越大,则表明不同类别的两个标注数据之间的语义相似度越大。
所以,可以将第一向量距离小于第一预设向量距离,和/或第二向量距离大于第二预设向量距离的标注数据从对应的标注数据集中剔除,以使筛选处理后的标注数据集中相同类型的任意两个标注数据之间的语义相似度较高,与其他标注数据集中的标注数据的语义相似度较低。例如,假设标注数据集1中有标注数据1、标注数据2以及标注数据3,标注数据集2中有标注数据4,若标注数据2和标注数据1之间的第一向量距离1不小于第一预设向量距离,且标注数据2和标注数据3之间的第一向量距离2也不小于第一预设向量距离,但标注数据2与标注数据4之间的第二向量距离大于第二预设向量距离,则可以将标注数据2从标注数据集1中剔除,再将筛选后的标注数据集1和标注数据集2中的标注数据,作为标注数据集,即得到的标注数据集中包含标注数据1、标注数据3和标注数据4。
上述基于第一向量距离和第二向量距离,对不同类别的标注数据集中的标注数据进行筛选处理的方法是一种可选地、可实现的筛选方法,在实际应用场景中,还可以有多种不同的筛选方法,例如,可以获取待筛选的标注数据与同一标注数据集中的标注数据之间的第一向量距离的均值是否小于第一预设向量距离,以及待筛选的标注数据与不同标注数据集中的标注数据之间的第二向量距离的均值是否大于第二预设向量距离等,对标注数据集中的标注数据进行筛选处理,具体的筛选处理方法可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
此外,标注数据的目标类别可以是聚类处理后得到的标注数据集对应的类别,该类别可以与已标注类别不同,例如,上述标注数据1的已标注类别可以为体育类,在对多个标注数据进行聚类处理后,标注数据1对应的标注数据集1的类别可以为娱乐类,则该标注数据1的目标类别可以是娱乐类。这样,可以使得到的标注数据集中的标注数据的目标类别与标注数据的语义信息的匹配度高,即可以提高标注数据集中的标注数据的目标类别的准确性。同时,通过对待筛选的多个标注数据进行筛选处理,可以使类别相同的标注数据的语义信息的相似度较高,类别不同的标注数据的语义信息的相似度较低,以提高标注数据的正样本和负样本的确定准确性。
本说明书一个或多个实施例中,服务器在获取标注数据集中的标注数据之前,服务器还可以通过预先训练的类型预测模型,确定标注数据集中的标注数据,相应的,如图3所示,还可以执行下述步骤S302~S306的处理。
在步骤S302中,获取待筛选的已标注类别的多个标注数据。
在步骤S304中,将待筛选的多个标注数据集输入预先训练的类型预测模型,得到每个标注数据对应的预测类别。
其中,类型预测模型可以是基于历史标注数据对由预设机器学习算法构建的模型进行训练得到,例如,类型预测模型可以是基于逻辑回归(Logistic Regression,LR)算法构建的模型,LR算法简单、高效、易于并行在线学习,或者,类型预测模型也可以是TextCNN模型,用于根据词向量确定一个二维句子矩阵,然后选择不同的过滤器进行卷积操作得到多个feature map,再对每个feature map进行最大池化操作,进而将其拼接起来,最后经过softmax全联接层进行分类处理,TextCNN模型的网络结构简,模型参数少,计算量少,训练速度快,又或者,类型预测模型也可以是基于长短期记忆网络(Long short-term memory,LSTM)构建的模型,LSTM是一种时间循环神经网络,是为了解决一般循环神经网络存在的长期依赖问题而设计的,能够在更长的序列中有更好的表现,又或者,类型预测模型也可以是基于双向编码器(Bidirectional Encoder Representations from Transformers,BERT)构建的模型,该模型包括两个阶段:1、预训练阶段,用于训练类型预测模型;2、微调阶段,在类型预测模型基础上进行微调训练。
在实施中,可以将历史标注数据基于预设分配比例(如预设分配比例可以是8:2)划分为训练集和验证集,通过训练集中的历史标注数据对类型预测模型进行训练,再通过验证集中的历史标注数据进行模型调优,最后,可以将待筛选的多个标注数据输入训练得到的类型预测模型,得到待筛选的多个标注数据对应的预测类别。
其中,待筛选的多个标注数据可以是当前数据更新周期内获取的标注数据,历史标注数据可以是前一数据更新周期内获取的标注数据。
或者,服务器还可以将获取的待筛选的多个标注数据中的n%个标注数据作为用于训练类型预测模型的标注数据,即可以基于待筛选的多个标注数据中的n%个标注数据和历史标注数据对类型预测模型进行训练。
在步骤S306中,将已标注类别和预测类别不匹配的标注数据确定为标注数据集中的标注数据。
在实施中,若待筛选的标注数据的已标注类别和预测类别不同,如待筛选的标注数据的已标注类别可以是由人工标注的体育类,预测类别可以是类型预测模型基于标注数据的语义信息确定的娱乐类,则可以表明该待筛选的标注数据是难以基于语义信息确定类别的标注数据,因此,可以将已标注类别与预测类别不匹配的标注数据,确定为标注数据集中的标注数据,以通过难以确定类别的标注数据构建的训练样本数据集,对预设文本分类模型进行训练,提高预设文本分类模型的模型效果。
其中,标注数据的目标类别可以是已标注类别,也可以是预测类别,可以根据实际应用场景而有所不同,本说明书实施例对此不作具体限定。
本说明书一个或多个实施例中,服务器在确定与第一标注数据对应的正样本或者负样本之前,可以确定第一标注数据与其他标注数据的文本距离,相应的,文本距离的计算方法包括下述步骤A1~A2的处理:
在步骤A1中,对第一标注数据和第二标注数据进行分词处理,并根据分词处理结果确定第一标注数据包含的词的数量以及第二标注数据包含的词的数量。
其中,第二标注数据可以为标注数据集中与第一标注数据不同的任意一个标注数据。
在实施中,可以基于预设分词处理算法,对第一标注数据和第二标注数据进行分词处理,其中,预设分词处理算法可以是基于字符串匹配的分词处理算法(如正向最大匹配算法、你想最大匹配算法、双向最大匹配算法等)、基于理解的分词处理算法以及基于统计的分词处理算法(隐马尔可夫算法、N-gram算法等)等,服务器也可以通过jieba、pyltp、HanLP等分词处理工具,对第一标注数据和第二标注数据进行分词处理。
在对第一标注数据和第二标注数据进行分词处理后,服务器可以根据分词处理结果确定第一标注数据包含的词的数量以及第二标注数据包含的词的数量。
其中,每个标注数据包含的词可以包括单字、停用词或由多个字组成的词语等,例如,第一标注数据可以是“我今天买了一袋苹果和两袋梨”,对该第一标注数据进行分词处理后得到的分词处理结果可以为:“我”、“今天”、“买”、“了”、“一袋”、“苹果”、“和”、“两袋”、“梨”,即第一标注数据包含的词的数量为9;第二标注数据可以是“你今天去哪里了”,对该第二标注数据进行分词处理后得到的分词处理结果可以为:“你”、“今天”、“去”、“哪里”、“了”,即第二标注数据包含的词的数量为5。
在步骤A2中,基于第一标注数据包含的词的数量、第二标注数据包含的词的数量、第一标注数据和第二标注数据的相同词的数量确定每个第二标注数据与第一标注数据之间的文本距离。
在实施中,可以将第一标注数据和第二标注数据的相同词的数量与第一标注数据包含的词的数量和第二标注数据包含的词的数量的和的比值,作为第一标注数据与第一标注数据之间的文本距离。
例如,以上述第一标注数据和第二标注数据为例,第一标注数据包含的词的数量为9,第二标注数据包含的词的数量为5,第一标注数据和第二标注数据的相同词为“今天”和“了”,即第一标注数据和第二标注数据的相同词的数量为2,因此,该第一标注数据与第一标注数据之间的文本距离可以为2/(9+5)=0.14。
上述第一标注数据与第一标注数据之间的文本距离的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,以下在提供一种文本距离的计算方法,参见下述步骤B1的处理
在步骤B1中,基于第一标注数据包含的词的数量、第二标注数据包含的词的数量、第一标注数据包含的单字的数量、第二标注数据包含的单字的数量、第一标注数据和第二标注数据的相同词的数量以及第一标注数据和第二标注数据的相同单字的数量,计算每个第二标注数据与第一标注数据之间的文本距离。
其中,单字可以为不能组成词语的字,如我、你等人称代词。
在实施中,可以将第一标注数据包含的词的数量、第二标注数据包含的词的数量、第一标注数据包含的单字的数量、第二标注数据包含的单字的数量、第一标注数据和第二标注数据的相同词的数量、第一标注数据和第二标注数据的相同单字的数量,以及第一标注数据和第二标注数据包含的停用词的数量,代入公式
得到第二标注数据与第一标注数据之间的文本距离,其中,为第一标注数据A与第二标注数据B之间的文本距离,LAB为第一标注数据A和第二标注数据B的相同词的数量,LA为第一标注数据A包含的词的数量,LB为第二标注数据B包含的词的数量,lA为第一标注数据A包含的单字的数量,lB第二标注数据B包含的单字的数量,lAB为第一标注数据A和第二标注数据B的相同单字的数量,Lstop(AB)为第一标注数据A和第二标注数据B包含的停用词的数量。其中,可以通过预设停用词典确定第一标注数据和第二标注数据包含的停用词,停用词可以是语气助词、副词、介词、连接词等,通常停用词本身并无明确的意义。
以上述步骤A1中的第一标注数据和第二标注数据为例,第一标注数据中包含的词可以是除单字和停用词之外的词,即第一标注数据中包含的词可以是“今天”、“买”、“一袋”、“苹果”、“两袋”、“梨”,第一标注数据中包含的单字可以是“我”,第一标注数据中包含的停用词可以是“了”、“和”。第二标注数据中包含的词可以是“今天”、“去”、“哪里”,第二标注数据中包含的单字可以是“你”,第二标注数据中包含的停用词可以是“了”,如下表2所示。
表2
可见,,第一标注数据和第二标注数据之间的相同词的数量为1,第一标注数据包含的词的数量为6,第二标注数据包含的词的数量为3,第一标注数据包含的单字的数量为1,第二标注数据包含的单字的数量为1,第一标注数据和第二标注数据的相同单字的数量为0,第一标注数据和第二标注数据包含的停用词的数量为2,因此,第一标注数据和第二标注数据之间的文本距离为(1-0)/(6+3-1-1-2)=0.2。
如图4所示,本说明书实施例还提供一种文本分类模型的训练方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的一个服务器,也可以是由多个不同的服务器构成的服务器集群,该服务器可以是提供文本分类模型的训练服务的服务器等,具体可以根据实际情况设定。该方法可以应用于训练文本分类模型的处理中。
在步骤S402中,将标注数据集输入预设文本分类模型进行模型训练,得到训练后的文本分类模型。
其中,标注数据集可以根据本说明书实施例提供的上述样本生成方法得到的,文本分类模型可以是基于预设机器学习算法构建的用于对文本进行分类处理的模型。
本说明书一个或多个实施例中,上述步骤S402中对预设文本分类模型的训练方式可以多种多样,以下提供一种可选的处理方式,如图5所示,具体可以包括以下步骤S4022~S4026的处理。
在步骤S4022中,获取与预设文本分类模型对应的样本数量需求。
其中,样本数量需求可以根据预设文本分类模型的实际应用场景的不同选取设置不同的样本数量需求,例如,若预设文本分类模型应用于业务量较大、准确度要求较低的场景,则对应的样本数量需求可以较大,样本数量需求的确定方法可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
在步骤S4024中,基于样本数量需求和训练样本数据集,从第三数据子集中选取第一训练样本。
其中,第三数据子集可以由标注数据集中除训练样本数据集以外的标注数据构成。
在实施中,假设样本数量需求为训练样本数据集中选取的标注数据与第三数据子集中选取的标注数据的数量比例为1:1,则可以根据训练样本数据集中标注数据的数量,从第三数据子集中随机选取对应数量的第一训练样本。
上述第一训练样本的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不做具体限定。
在步骤S4026中,基于去重处理得到的训练样本数据集中的标注数据以及对应的目标类别,第一训练样本以及对应的目标类别,对预设文本分类模型进行训练,得到训练后的文本分类模型。
在实施中,可以对训练样本数据集中的标注数据进行去重处理,例如,假设标注数据集中包含标注数据1、标注数据2和标注数据3,若确定标注数据2为标注数据1的正样本,则得到的训练样本数据集中,可能存在两个标注数据1和标注数据2,因此,需要对训练样本数据集中的标注数据进行去重处理。
若预设文本分类模型对应的样本数量需求大于训练样本数据集中的标注数据的数量,以及第三数据子集中标注数据的数量,则还可以从标注数据集中随机选取预定数量的标注数据作为第二训练样本,并基于去重处理得到的训练样本数据集中的标注数据以及对应的目标类别,第一训练样本以及对应的目标类别,以及第二训练样本及对应的目标类别,对预设文本分类模型进行训练,得到训练后的文本分类模型。
如图6所示,本说明书实施例还提供一种文本分类方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的一个服务器,也可以是由多个不同的服务器构成的服务器集群,该服务器可以是提供文本分类服务的服务器等,具体可以根据实际情况设定。该方法可以应用于文本分类处理中。
在步骤S502中,接收目标文本的相似文本检索请求。
其中,目标文本可以是用户在信息检索系统、问答系统等查询系统中输入的检索文本(或对检索语音进行文本转换处理得到的检索文本)。
在实施中,例如,用户可以在信息检索系统中输入检索文本(即目标文本),以查询与该检索文本相关的文本,即服务器可以接收针对目标文本的相似文本检索请求。
在步骤S504中,获取与目标文本对应的候选文本。
在实施中,服务器可以将预先存储的文本确定为与目标文本对应的候选文本,或者,服务器还可以根据目标文本的属性,从预先存储的文本中选取与目标文本对应的候选文本,例如,假设目标文本为作者A在时间B于刊物C发表的一篇论文,则可以根据作者A、时间B以及刊物C,从预先存储的文本中选取对应的候选文本,如可以获取作者A已发表的论文、时间B发表的论文,以及刊物C刊印的论文中的一个或多个作为与目标文本对应的候选文本。
上述目标文本对应的候选文本的确定方法是一种可选地、可实现的确定方法,除此之外还可以有多种不同的确定方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不作具体限定。
在步骤S506中,将目标文本和候选文本输入预先训练的文本分类模型,得到目标文本和候选文本的文本类别。
其中,预先训练的文本分类模型可以根据本说明书实施例提供的文本分类模型的训练方法得到的。
在步骤S508中,将候选文本中与目标文本的文本类别相同的文本,确定为相似文本检索请求对应的检索结果。
在实施中,由于文本分类模型是基于训练样本数据集进行训练得到,因而文本分类模型的分类准确性高,由该文本分类模型,可以准确的获取候选文本以及目标文本的文本类别,并根据候选文本中与目标文本的文本类别,确定与目标文本相似的文本,以反馈给用户,提高用户体验。
以下通过具体的应用场景对上述样本生成进行详细说明,该场景可以包括:文本检索、智能问答等场景进行说明,具体可以包括以下内容:
如图7所示,本说明书实施例中的样本生成方法对应的系统架构中可以包括服务器701和一个或多个终端设备702,服务器701与每个终端设备702之间通信连接,终端设备702可以为手机、平板电脑等移动终端设备,还可以如笔记本电脑等终端设备。终端设备702可以向服务器701发送针对目标文本的相似文本检索请求,服务器701通过预先设定的处理机制对终端设备802的相关信息进行检测后,确定该终端设备702能够与服务器701建立连接后,可以与终端设备702建立连接并进行对应的数据处理等操作。
以标注数据为论文数据为例,服务器可以基于数据更新周期获取已标注类别(如通信类、医学类、化学类等)的论文数据作为标注数据,服务器可以将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与第一标注数据对应的正样本,第一标注数据为标注数据集中的任意一条标注数据,第一数据子集由标注数据集中与第一标注数据的目标类别相同的标注数据构成,在将第二数据子集中与第一标注数据之间的文本距离小于预设距离阈值的标注数据,确定为与第一标注数据对应的负样本,第二数据子集由标注数据集中与第一标注数据的目标类别不同的标注数据构成,服务器可以基于上述方法获取标注数据集中每个标注数据对应的正样本和负样本,并基于标注数据、与标注数据对应的正样本以及与标注数据对应的负样本,得到训练样本数据集。
服务器可以获取与预设文本分类模型对应的样本数量需求,基于样本数量需求和训练样本数据集,从第三数据子集中选取第一训练样本,第三数据子集可以由标注数据集中除训练样本数据集以外的标注数据构成,再基于去重处理得到的训练样本数据集中的标注数据以及对应的目标类别,第一训练样本以及对应的目标类别,对预设文本分类模型进行训练,得到训练后的文本分类模型。
如图8所示,用户可以在终端设备中输入目标文本,其中,目标文本可以是用户输入的标题、摘要以及正文中的一个或多个,终端设备在接收到用户在检索控件上的点击指令后,可以将用户输入的目标文本发送给服务器,另外,用户还可以输入针对数据源的选择指令。
服务器在接收到终端设备发送的目标文本后,可以获取与目标文本对应的候选文本,例如,若目标文本中包含标题,则服务器可以基于标题从预先存储的论文数据中选取与标题与目标文本的标题的相似度大于预设相似度阈值的论文数据,作为与目标文本对应的候选文本。另外,若服务器还接收到针对目标文本的数据源的选择指令,则可以根据选择指令确定对应的数据源,并从对应的数据源中选取与目标文本对应的候选文本。
服务器可以将目标文本和候选文本输入上述训练后的文本分类模型,以得到目标文本和候选文本的文本类别,在将与目标文本的文本类别相同的一个或多个候选文本,确定为相似文本检索请求对应的检索结果,并返回给终端设备进行展示。另外,若存在多个与目标文本的文本类别相同的候选文本,则可以根据目标文本与候选文本之间标题或摘要的相似度,确定候选文本的展示顺序。终端设备可以根据服务器确定的展示顺序,展示服务器发送的检索结果。
由于训练样本数据集是由标注数据集中的标注数据得到,因而可以避免在构建训练样本数据集时引入噪声数据,另外,可以通过标注数据对应的目标类别,确定标注数据与确定的正样本之间的语义信息相同,标注数据与确定的负样本之间的语义信息不同,在通过文本距离,使得标注数据与确定的正样本之间的文本距离不小于预设距离阈值,使得标注数据与确定的负样本之间的文本距离小于预设距离阈值,即使得标注数据与确定的正样本之间的文本相似度较低,与确定的负样本之间的文本相似度较高,这样,可以避免通过数据增强等方式构建训练样本数据集存在的数据语义不可控的问题,即可以提高训练样本数据集中数据的语义准确性,通过该训练样本数据集对文本分类模型进行训练,就可以提高文本分类模型的分类效果,即可以提高文本分类模型的准确性。
以上为本说明书实施例提供的样本生成方法,基于同样的思路,如图9所示,本说明书实施例还提供一种样本生成装置,用于构建用于提高文本分类模型的准确性的训练样本数据集,该装置的具体实施方式可以参见样本生成方法的相关内容,为避免赘述,此处不再重复说明。
以上为本说明书实施例提供的文本分类模型的训练方法,基于同样的思路,如图10所示,本说明书实施例还提供一种文本分类模型的训练装置,用于基于构建的用于提高文本分类模型的准确性的训练样本数据集,对文本分类模型进行训练,该装置的具体实施方式可以参见文本分类模型的训练方法的相关内容,为避免赘述,此处不再重复说明。
以上为本说明书实施例提供的文本分类方法,基于同样的思路,如图11所示,本说明书实施例还提供一种文本分类装置,用于基于预先训练的文本分类模型进行文本分类处理,该装置的具体实施方式可以参见文本分类方法的相关内容,为避免赘述,此处不再重复说明。
对应上述实施例提供的样本生成方法,基于相同的技术构思,本说明书实施例还提供了一种样本生成设备,该样本生成设备用于执行上述的样本生成方法,图12为实现本说明书各个实施例的一种样本生成设备的硬件结构示意图,图12所示的样本生成设备120包括但不限于:射频单元121、网络模块122、音频输出单元123、输入单元124、传感器125、用户输入单元126、接口单元127、存储器128、处理器129、以及电源1210等部件。本领域技术人员可以理解,图12中示出的样本生成设备结构并不构成对样本生成设备的限定,样本生成设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,处理器129,用于获取包含多个标注数据的标注数据集,所述标注数据包括对应的目标类别,所述标注数据对应的目标类别由所述标注数据的语义信息确定;
处理器129,用于将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与所述第一标注数据对应的正样本,所述第一标注数据为所述标注数据集中的任意一条标注数据,所述第一数据子集由所述标注数据集中与所述第一标注数据的目标类别相同的标注数据构成;
处理器129,还用于将第二数据子集中与所述第一标注数据之间的文本距离小于所述预设距离阈值的标注数据,确定为与所述第一标注数据对应的负样本,所述第二数据子集由所述标注数据集中与所述第一标注数据的目标类别不同的标注数据构成;
处理器129,还用于基于上述方法获取所述标注数据集中每个标注数据对应的正样本和负样本,并基于所述标注数据、与所述标注数据对应的正样本以及与所述标注数据对应的负样本,得到训练样本数据集,所述训练样本数据集用于对预设文本分类模型进行训练。
本说明书实施例中,处理器129,还用于:
对所述第一标注数据和第二标注数据进行分词处理,并根据分词处理结果确定所述第一标注数据包含的词的数量以及所述第二标注数据包含的词的数量,所述第二标注数据为所述标注数据集中与所述第一标注数据不同的任意一个标注数据;
基于所述第一标注数据包含的词的数量、所述第二标注数据包含的词的数量、所述第一标注数据和所述第二标注数据的相同词的数量确定每个所述第二标注数据与所述第一标注数据之间的文本距离。
本说明书实施例中,处理器129,还用于:
基于所述第一标注数据包含的词的数量、所述第二标注数据包含的词的数量、所述第一标注数据包含的单字的数量、所述第二标注数据包含的单字的数量、所述第一标注数据和所述第二标注数据的相同词的数量以及所述第一标注数据和所述第二标注数据的相同单字的数量,计算每个所述第二标注数据与所述第一标注数据之间的文本距离。
本说明书实施例中,处理器129,还用于:
获取待筛选的已标注类别的多个标注数据;
选取每个类别对应的第三标注数据,得到每个类别对应的种子点;
基于所述每个类别对应的种子点及预设聚类算法,对所述待筛选的多个标注数据进行聚类处理,得到多个不同类别的标注数据集;
基于所述待筛选的多个标注数据的语义信息,确定每个类别标注数据集内的每两个标注数据之间的第一向量距离,及确定每一类别标注数据集内的每个标注数据和任意不同类别标注数据集内的每个标注数据之间的第二向量距离;
基于所述第一向量距离和所述第二向量距离,对所述多个不同类别的标注数据集中的标注数据进行筛选处理,得到所述标注数据集。
本说明书实施例中,处理器129,还用于:
获取待筛选的已标注类别的多个标注数据;
将所述待筛选的多个标注数据输入预先训练的类型预测模型,得到所述待筛选的每个标注数据对应的预测类别;
将已标注类别和预测类别不匹配的标注数据确定为所述标注数据集中的标注数据。
需要说明的是,本说明书实施例提供的样本生成设备120能够实现上述样本生成方法实施例中样本生成设备实现的各个过程,为避免重复,这里不再赘述。
对应上述实施例提供的文本分类模型的训练方法,基于相同的技术构思,本说明书实施例还提供了一种文本分类模型的训练设备,该文本分类模型的训练设备用于执行上述的文本分类模型的训练方法,图12为实现本说明书各个实施例的一种文本分类模型的训练设备的硬件结构示意图,图12所示的文本分类模型的训练设备120包括但不限于:射频单元121、网络模块122、音频输出单元123、输入单元124、传感器125、用户输入单元126、接口单元127、存储器128、处理器129、以及电源1210等部件。本领域技术人员可以理解,图12中示出的文本分类模型的训练结构并不构成对文本分类模型的训练设备的限定,文本分类模型的训练设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本说明书实施例中,处理器129,还用于将标注数据集输入预设文本分类模型进行模型训练,得到训练后的文本分类模型。
本说明书实施例中,处理器129,还用于:
获取与预设文本分类模型对应的样本数量需求;
基于所述样本数量需求和所述训练样本数据集,从第三数据子集中选取第一训练样本,所述第三数据子集由所述标注数据集中除所述训练样本数据集以外的标注数据构成;
基于去重处理得到的训练样本数据集中的标注数据以及对应的目标类别,所述第一训练样本以及对应的目标类别,对所述预设文本分类模型进行训练,得到所述训练后的文本分类模型。
需要说明的是,本说明书实施例提供的文本分类模型的训练设备120能够实现上述文本分类模型的训练方法实施例中文本分类模型的训练设备实现的各个过程,为避免重复,这里不再赘述。
对应上述实施例提供的文本分类方法,基于相同的技术构思,本说明书实施例还提供了一种文本分类设备,该文文本分类设备用于执行上述的文本分类方法,图12为实现本说明书各个实施例的一种文本分类设备的硬件结构示意图,图12所示的文本分类设备120包括但不限于:射频单元121、网络模块122、音频输出单元123、输入单元124、传感器125、用户输入单元126、接口单元127、存储器128、处理器129、以及电源1210等部件。本领域技术人员可以理解,图12中示出的文本分类结构并不构成对文本分类设备的限定,文本分类设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本说明书实施例中,处理器129还用于:
接收目标文本的相似文本检索请求;
获取与所述目标文本对应的候选文本;
将所述目标文本和所述候选文本输入预先训练的文本分类模型,得到所述目标文本和所述候选文本的文本类别;
将所述候选文本中与所述目标文本的文本类别相同的文本,确定为所述相似文本检索请求对应的检索结果;
其中,所述预先训练的文本分类模型根据权利要求6至7任一项所述的文本分类模型的训练方法得到的。
需要说明的是,本说明书实施例提供的文本分类设备120能够实现上述样本生成方法实施例中文本分类设备实现的各个过程,为避免重复,这里不再赘述。
本说明书实施例中的样本生成设备,通过获取包含多个标注数据的标注数据集,标注数据包括对应的目标类别,标注数据对应的目标类别由标注数据的语义信息确定,将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与第一标注数据对应的正样本,第一标注数据为标注数据集中的任意一条标注数据,第一数据子集由标注数据集中与第一标注数据的目标类别相同的标注数据构成,将第二数据子集中与第一标注数据之间的文本距离小于预设距离阈值的标注数据,确定为与第一标注数据对应的负样本,第二数据子集由标注数据集中与第一标注数据的目标类别不同的标注数据构成,基于上述方法获取标注数据集中每个标注数据对应的正样本和负样本,并基于标注数据、与标注数据对应的正样本以及与标注数据对应的负样本,得到训练样本数据集,训练样本数据集用于对预设文本分类模型进行训练,这样,由于训练样本数据集是由标注数据集中的标注数据得到,因而可以避免在构建训练样本数据集时引入噪声数据,另外,可以通过标注数据对应的目标类别,确定标注数据与确定的正样本之间的语义信息相同,标注数据与确定的负样本之间的语义信息不同,在通过文本距离,使得标注数据与确定的正样本之间的文本距离不小于预设距离阈值,使得标注数据与确定的负样本之间的文本距离小于预设距离阈值,即使得标注数据与确定的正样本之间的文本相似度较低,与确定的负样本之间的文本相似度较高,这样,可以避免通过数据增强等方式构建训练样本数据集存在的数据语义不可控的问题,即可以提高训练样本数据集中数据的语义准确性,通过该训练样本数据集对文本分类模型进行训练,就可以提高文本分类模型的分类效果,即可以提高文本分类模型的准确性。
应理解的是,本说明书实施例中,射频单元121可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自上游设备的下行数据接收后,给处理器129处理;另外,将上行的数据发送给上游设备。通常,射频单元121包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元121还可以通过无线通信系统与网络和其他设备通信。
样本生成设备通过网络模块122为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元123可以将射频单元121或网络模块122接收的或者在存储器129中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元123还可以提供与移动终端120执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元123包括扬声器、蜂鸣器以及受话器等。
输入单元124用于接收音频或视频信号。输入单元124可以包括图形处理器(Graphics Processing Unit,GPU)1241和麦克风1242,图形处理器1241对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元126上。经图形处理器1241处理后的图像帧可以存储在存储器129(或其它存储介质)中或者经由射频单元121或网络模块122进行发送。麦克风1242可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元121发送到移动通信基站的格式输出。
接口单元127为外部装置与设备120连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元127可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端120内的一个或多个元件或者可以用于在移动终端120和外部装置之间传输数据。
存储器128可用于存储软件程序以及各种数据。存储器128可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器128可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器129是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器128内的软件程序和/或模块,以及调用存储在存储器128内的数据,执行设备的各种功能和处理数据,从而对设备进行整体监控。处理器129可包括一个或多个处理单元;优选的,处理器129可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器129中。
设备120还可以包括给各个部件供电的电源1210(比如电池),优选的,电源1210可以通过电源管理系统与处理器129逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,设备120包括一些未示出的功能模块,在此不再赘述。
优选的,本说明书实施例还提供一种样本生成设备,包括处理器129,存储器128,存储在存储器128上并可在所述处理器129上运行的计算机程序,该计算机程序被处理器129执行时实现上述样本生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
进一步地,基于上述图1到图8所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取包含多个标注数据的标注数据集,所述标注数据包括对应的目标类别,所述标注数据对应的目标类别由所述标注数据的语义信息确定;
将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与所述第一标注数据对应的正样本,所述第一标注数据为所述标注数据集中的任意一条标注数据,所述第一数据子集由所述标注数据集中与所述第一标注数据的目标类别相同的标注数据构成;
将第二数据子集中与所述第一标注数据之间的文本距离小于所述预设距离阈值的标注数据,确定为与所述第一标注数据对应的负样本,所述第二数据子集由所述标注数据集中与所述第一标注数据的目标类别不同的标注数据构成;
基于上述方法获取所述标注数据集中每个标注数据对应的正样本和负样本,并基于所述标注数据、与所述标注数据对应的正样本以及与所述标注数据对应的负样本,得到训练样本数据集,所述训练样本数据集用于对预设文本分类模型进行训练。
此外,该存储介质存储的计算机可执行指令信息在被处理器执行时,还可以实现以下流程:
将标注数据集输入预设文本分类模型进行模型训练,得到训练后的文本分类模型;
其中,所述标注数据集根据上述样本生成方法得到的。
另外,该存储介质存储的计算机可执行指令信息在被处理器执行时,还可以实现以下流程:
接收目标文本的相似文本检索请求;
获取与所述目标文本对应的候选文本;
将所述目标文本和所述候选文本输入预先训练的文本分类模型,得到所述目标文本和所述候选文本的文本类别;
将所述候选文本中与所述目标文本的文本类别相同的文本,确定为所述相似文本检索请求对应的检索结果;
其中,所述预先训练的文本分类模型根据上述文本分类模型的训练方法得到的。
本说明书实施例提供一种存储介质,通过获取包含多个标注数据的标注数据集,标注数据包括对应的目标类别,标注数据对应的目标类别由标注数据的语义信息确定,将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与第一标注数据对应的正样本,第一标注数据为标注数据集中的任意一条标注数据,第一数据子集由标注数据集中与第一标注数据的目标类别相同的标注数据构成,将第二数据子集中与第一标注数据之间的文本距离小于预设距离阈值的标注数据,确定为与第一标注数据对应的负样本,第二数据子集由标注数据集中与第一标注数据的目标类别不同的标注数据构成,基于上述方法获取标注数据集中每个标注数据对应的正样本和负样本,并基于标注数据、与标注数据对应的正样本以及与标注数据对应的负样本,得到训练样本数据集,训练样本数据集用于对预设文本分类模型进行训练,这样,由于训练样本数据集是由标注数据集中的标注数据构建,因而可以避免在构建训练样本数据集时引入噪声数据,另外,可以通过标注数据对应的目标类别,确定标注数据与确定的正样本之间的语义信息相同,标注数据与确定的负样本之间的语义信息不同,在通过文本距离,使得标注数据与确定的正样本之间的文本距离不小于预设距离阈值,使得标注数据与确定的负样本之间的文本距离小于预设距离阈值,即使得标注数据与确定的正样本之间的文本相似度较低,与确定的负样本之间的文本相似度较高,这样,可以避免通过数据增强等方式构建训练样本数据集存在的数据语义不可控的问题,即可以提高训练样本数据集中数据的语义准确性,通过该训练样本数据集对文本分类模型进行训练,就可以提高文本分类模型的分类效果,即可以提高文本分类模型的准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (11)
1.一种样本生成方法,所述方法包括:
获取包含多个标注数据的标注数据集,所述标注数据包括对应的目标类别,所述标注数据对应的目标类别由所述标注数据的语义信息确定;
将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与所述第一标注数据对应的正样本,所述第一标注数据为所述标注数据集中任意一条标注数据,所述第一数据子集由所述标注数据集中与所述第一标注数据的目标类别相同的标注数据构成;
将第二数据子集中与所述第一标注数据之间的文本距离小于所述预设距离阈值的标注数据,确定为与所述第一标注数据对应的负样本,所述第二数据子集由所述标注数据集中与所述第一标注数据的目标类别不同的标注数据构成;
基于上述方法获取所述标注数据集中每个标注数据对应的正样本和负样本,并基于所述标注数据、与所述标注数据对应的正样本以及与所述标注数据对应的负样本,得到训练样本数据集。
2.根据权利要求1所述的方法,所述方法还包括:
所述文本距离的计算方法包括:
对所述第一标注数据和第二标注数据进行分词处理,并根据分词处理结果确定所述第一标注数据包含的词的数量以及所述第二标注数据包含的词的数量,所述第二标注数据为所述标注数据集中与所述第一标注数据不同的任意一个标注数据;
基于所述第一标注数据包含的词的数量、所述第二标注数据包含的词的数量、所述第一标注数据和所述第二标注数据的相同词的数量确定每个所述第二标注数据与所述第一标注数据之间的文本距离。
3.根据权利要求2所述的方法,所述方法还包括:
所述文本距离的计算方法还包括:
基于所述第一标注数据包含的词的数量、所述第二标注数据包含的词的数量、所述第一标注数据包含的单字的数量、所述第二标注数据包含的单字的数量、所述第一标注数据和所述第二标注数据的相同词的数量以及所述第一标注数据和所述第二标注数据的相同单字的数量,计算每个所述第二标注数据与所述第一标注数据之间的文本距离。
4.根据权利要求1所述的方法,所述获取包含多个标注数据的标注数据集之前,包括:
获取待筛选的已标注类别的多个标注数据;
选取每个类别对应的第三标注数据,得到每个类别对应的种子点;
基于所述每个类别对应的种子点及预设聚类算法,对所述待筛选的多个标注数据进行聚类处理,得到多个不同类别的标注数据集;
基于所述待筛选的多个标注数据的语义信息,确定每个类别标注数据集内的每两个标注数据之间的第一向量距离,及确定每一类别标注数据集内的每个标注数据和任意不同类别标注数据集内的每个标注数据之间的第二向量距离;
基于所述第一向量距离和所述第二向量距离,对所述多个不同类别的标注数据集中的标注数据进行筛选处理,得到所述标注数据集。
5.根据权利要求1所述的方法,所述获取包含多个标注数据的标注数据集之前,包括:
获取待筛选的已标注类别的多个标注数据;
将所述待筛选的多个标注数据输入预先训练的类型预测模型,得到所述待筛选的每个标注数据对应的预测类别;
将已标注类别和预测类别不匹配的标注数据确定为所述标注数据集中的标注数据。
6.一种文本分类模型的训练方法,包括:
将标注数据集输入预设文本分类模型进行模型训练,得到训练后的文本分类模型;
其中,所述标注数据集根据权利要求1至5任一项所述的样本生成方法得到的。
7.一种文本分类方法,其特征在于,包括:
接收目标文本的相似文本检索请求;
获取与所述目标文本对应的候选文本;
将所述目标文本和所述候选文本输入预先训练的文本分类模型,得到所述目标文本和所述候选文本的文本类别;
将所述候选文本中与所述目标文本的文本类别相同的文本,确定为所述相似文本检索请求对应的检索结果;
其中,所述预先训练的文本分类模型根据权利要求6所述的文本分类模型的训练方法得到的。
8.一种样本生成装置,所述装置包括:
数据获取模块,被配置为获取包含多个标注数据的标注数据集,所述标注数据对应的目标类别,所述标注数据对应的目标类别由所述标注数据的语义信息确定;
第一确定模块,被配置为将第一数据子集中与第一标注数据之间的文本距离不小于预设距离阈值的标注数据,确定为与所述第一标注数据对应的正样本,所述第一标注数据为所述标注数据集中的任意一条标注数据,所述第一数据子集由所述标注数据集中与所述第一标注数据的目标类别相同的标注数据构成;
第二确定模块,被配置为将第二数据子集中与所述第一标注数据之间的文本距离小于所述预设距离阈值的标注数据,确定为与所述第一标注数据对应的负样本,所述第二数据子集由所述标注数据集中与所述第一标注数据的目标类别不同的标注数据构成;
样本构建模块,被配置为基于上述模块获取所述标注数据集中每个标注数据对应的正样本和负样本,并基于所述标注数据、与所述标注数据对应的正样本以及与所述标注数据对应的负样本,得到训练样本数据集,所述训练样本数据集用于对预设文本分类模型进行训练。
9.一种文本分类装置,所述装置包括:
请求接收模块,被配置为接收目标文本的相似文本检索请求;
文本获取模块,被配置为获取与所述目标文本对应的候选文本;
类别确定模块,被配置为将所述目标文本和所述候选文本输入预先训练的文本分类模型,得到所述目标文本和所述候选文本的文本类别;
结果确定模块,被配置为将所述候选文本中与所述目标文本的文本类别相同的文本,确定为所述相似文本检索请求对应的检索结果;
其中,所述预先训练的文本分类模型根据权利要求6所述的文本分类模型的训练方法得到的。
10.一种样本生成设备,所述样本生成设备包括:
处理器;以及
存储器;
一个或多个程序;
其中所述一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个程序配置用于执行如权利要求1至7任一项所述的方法。
11.一种存储介质,所述存储介质用于存储计算机可执行指令,所述计算机可执行指令可被处理器调用执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210276671.5A CN114756677B (zh) | 2022-03-21 | 2022-03-21 | 样本生成方法、文本分类模型的训练方法及文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210276671.5A CN114756677B (zh) | 2022-03-21 | 2022-03-21 | 样本生成方法、文本分类模型的训练方法及文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114756677A CN114756677A (zh) | 2022-07-15 |
CN114756677B true CN114756677B (zh) | 2023-07-25 |
Family
ID=82327662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210276671.5A Active CN114756677B (zh) | 2022-03-21 | 2022-03-21 | 样本生成方法、文本分类模型的训练方法及文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114756677B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062607B (zh) * | 2022-08-17 | 2022-11-11 | 杭州火石数智科技有限公司 | 对比学习的样本构造方法、装置、计算机设备及存储介质 |
CN115658903B (zh) * | 2022-11-01 | 2023-09-05 | 百度在线网络技术(北京)有限公司 | 文本分类方法、模型训练方法、相关装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232384A (zh) * | 2020-09-27 | 2021-01-15 | 北京迈格威科技有限公司 | 模型训练方法、图像特征提取方法、目标检测方法和装置 |
CN112560912A (zh) * | 2020-12-03 | 2021-03-26 | 北京百度网讯科技有限公司 | 分类模型的训练方法、装置、电子设备和存储介质 |
CN112560463A (zh) * | 2020-12-15 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 文本多标注方法、装置、设备及存储介质 |
WO2021142532A1 (en) * | 2020-01-14 | 2021-07-22 | Halterix Corporation | Activity recognition with deep embeddings |
CN113656699A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 用户特征向量确定方法、相关设备及介质 |
CN113837370A (zh) * | 2021-10-20 | 2021-12-24 | 北京房江湖科技有限公司 | 用于训练基于对比学习的模型的方法和装置 |
CN114064845A (zh) * | 2020-07-31 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 关系表示模型的训练方法、装置及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839154B2 (en) * | 2017-05-10 | 2020-11-17 | Oracle International Corporation | Enabling chatbots by detecting and supporting affective argumentation |
CN107609461A (zh) * | 2017-07-19 | 2018-01-19 | 阿里巴巴集团控股有限公司 | 模型的训练方法、数据相似度的确定方法、装置及设备 |
US10896385B2 (en) * | 2017-07-27 | 2021-01-19 | Logmein, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
-
2022
- 2022-03-21 CN CN202210276671.5A patent/CN114756677B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021142532A1 (en) * | 2020-01-14 | 2021-07-22 | Halterix Corporation | Activity recognition with deep embeddings |
CN114064845A (zh) * | 2020-07-31 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 关系表示模型的训练方法、装置及电子设备 |
CN112232384A (zh) * | 2020-09-27 | 2021-01-15 | 北京迈格威科技有限公司 | 模型训练方法、图像特征提取方法、目标检测方法和装置 |
CN112560912A (zh) * | 2020-12-03 | 2021-03-26 | 北京百度网讯科技有限公司 | 分类模型的训练方法、装置、电子设备和存储介质 |
CN112560463A (zh) * | 2020-12-15 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 文本多标注方法、装置、设备及存储介质 |
CN113656699A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 用户特征向量确定方法、相关设备及介质 |
CN113837370A (zh) * | 2021-10-20 | 2021-12-24 | 北京房江湖科技有限公司 | 用于训练基于对比学习的模型的方法和装置 |
Non-Patent Citations (5)
Title |
---|
String similarity algorithms for a ticket classification system;Malgorzata Pikies等;2019 6th International Conference on Control, Decision and Information Technologies (CoDIT);36-41 * |
基于优化样本分布抽样集成学习的半监督文本分类方法研究;徐禹洪;黄沛杰;;中文信息学报(06);184-193 * |
基于语义分割的食品标签文本检测;田萱;王子亚;王建新;;农业机械学报(08);343-350 * |
基于跨模态交互的图像文本匹配方法;刁海文;中国优秀硕士学位论文全文数据库信息科技辑(第1期);I138-1405 * |
基于跨模态关联分析的信息检索研究;邓一姣;中国优秀硕士学位论文全文数据库信息科技辑(第7期);I138-1450 * |
Also Published As
Publication number | Publication date |
---|---|
CN114756677A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200019609A1 (en) | Suggesting a response to a message by selecting a template using a neural network | |
US10654380B2 (en) | Query rewriting and interactive inquiry framework | |
US10394956B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN114756677B (zh) | 样本生成方法、文本分类模型的训练方法及文本分类方法 | |
JP2020518861A (ja) | 音声認識方法、装置、デバイス、及び記憶媒体 | |
CN108416032B (zh) | 一种文本分类方法、装置及存储介质 | |
US11899675B2 (en) | Machine reading comprehension system for answering queries related to a document | |
US11875125B2 (en) | System and method for designing artificial intelligence (AI) based hierarchical multi-conversation system | |
CN113627447A (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN112101042B (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN113128557B (zh) | 基于胶囊网络融合模型的新闻文本分类方法、系统及介质 | |
JP7488871B2 (ja) | 対話推薦方法、装置、電子機器、記憶媒体ならびにコンピュータプログラム | |
CN108268637A (zh) | 一种智能语音矫正识别方法、装置和用户终端 | |
CN111324700A (zh) | 资源召回方法、装置、电子设备及计算机可读存储介质 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN116821781A (zh) | 分类模型的训练方法、文本分析方法及相关设备 | |
CN117474084B (zh) | 预训练模型与下游序列任务双向迭代方法、设备及介质 | |
CN114298007A (zh) | 一种文本相似度确定方法、装置、设备及介质 | |
CN113505196A (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
CN116881462A (zh) | 文本数据处理、文本表示、文本聚类的方法及设备 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN111222011B (zh) | 一种视频向量确定方法和装置 | |
CN113704466A (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN111159339A (zh) | 一种文本匹配处理方法和装置 | |
CN117573849B (zh) | 一种知识图谱多跳问答方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |