CN112800226A - 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 - Google Patents
用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 Download PDFInfo
- Publication number
- CN112800226A CN112800226A CN202110123014.2A CN202110123014A CN112800226A CN 112800226 A CN112800226 A CN 112800226A CN 202110123014 A CN202110123014 A CN 202110123014A CN 112800226 A CN112800226 A CN 112800226A
- Authority
- CN
- China
- Prior art keywords
- text
- type
- sample
- obtaining
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013145 classification model Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及深度学习技术领域,公开一种用于获取文本分类模型的方法,包括:获取样本文本;获取样本文本对应的文本类型关键词和样本文本对应的文本关键词;获取文本类型关键词和文本关键词的第一相似度;根据第一相似度为样本文本生成伪标签;利用带有伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型。本方案不需要对文本的类别进行大量人工标注,节省了人力成本,从而提高了获取文本分类模型的效率。本申请还公开一种用于获取文本分类模型的装置及设备、用于文本分类的方法、装置及设备。
Description
技术领域
本申请涉及深度学习技术领域,例如涉及一种用于获取文本分类模型的方法、用于文本分类的方法、装置及设备。
背景技术
近年来,随着互联网技术的高速发展,海量的网络数据源源不断地生成,而在信息存储中,文本是应用最广泛的形式,海量的信息以文本的方式存储。因此,如何进行文本分类成为了一个重要研究方向。随着深度神经网络快速发展,基于深度网络的有监督方法成为文本分类的主流方法,该方法依据历史数据的潜在特征学习分类,往往使用人工预先标记数据作为训练数据。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:现有技术在进行文本分类模型训练时,采用人工标注样本,样本标注的效率非常低。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种用于获取文本分类模型的方法、装置及设备,使得获取文本分类模型的效率更高。
在一些实施例中,所述文本分类模型获取方法包括:获取样本文本;获取所述样本文本对应的文本类型关键词和所述样本文本对应的文本关键词;获取所述文本类型关键词和所述文本关键词的第一相似度;根据所述第一相似度为所述样本文本生成伪标签;利用带有所述伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型。
在一些实施例中,所述用于获取文本分类模型的装置包括:第一处理器和存储有程序指令的第一存储器,所述第一处理器被配置为在执行所述程序指令时,执行上述的用于获取文本分类模型的方法。
在一些实施例中,所述设备包括上述的用于获取文本分类模型的装置。
本公开实施例提供的用于获取文本分类模型的方法、装置及设备,可以实现以下技术效果:通过样本文本对应的文本类型关键词和样本文本对应的文本关键词,获取文本类型关键词和文本关键词的第一相似度,并根据第一相似度为样本文本生成伪标签,利用带有伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型。本方案不需要对文本的类别进行大量人工标注,节省了人力成本,从而提高了获取文本分类模型的效率。
本公开实施例提供了一种用于文本分类的方法、装置及设备,使得文本分类的效率更高。
在一些实施例中,所述文本分类方法包括:获取待分类文本;将所述待分类文本输入如上述的文本分类模型,获得所述待分类文本的第二分类结果。
在一些实施例中,所述用于文本分类的装置包括:第二处理器和存储有程序指令的第二存储器,所述第二处理器被配置为在执行所述程序指令时,执行上述的用于文本分类的方法。
在一些实施例中,所述设备包括上述的用于文本分类的装置。
本公开实施例提供的用于文本分类的方法、装置及设备,可以实现以下技术效果:通过获取待分类文本,将待分类文本输入文本分类模型,获得所述待分类文本的第二分类结果,本方案不需要对文本的类别进行大量人工标注,节省了人力成本,从而提高了文本分类的效率。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个用于获取文本分类模型的方法的示意图;
图2是本公开实施例提供的一个用于文本分类的方法的示意图;
图3是本公开实施例提供的一个用于获取文本分类模型的装置的示意图;
图4是本公开实施例提供的一个用于文本分类的装置的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。
本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
结合图1所示,本公开实施例提供一种用于获取文本分类模型的方法,包括:
步骤S101,获取样本文本。
步骤S102,获取样本文本对应的文本类型关键词和样本文本对应的文本关键词。
步骤S103,获取文本类型关键词和文本关键词的第一相似度。
步骤S104,根据第一相似度为样本文本生成伪标签。
步骤S105,利用带有伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型。
采用本公开实施例提供的用于获取文本分类模型的方法,通过样本文本对应的文本类型关键词和样本文本对应的文本关键词,获取文本类型关键词和文本关键词的第一相似度,并根据第一相似度为样本文本生成伪标签,利用带有伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型。不需要对文本的类别进行大量人工标注,节省了人力成本,从而提高了文本分类的效率。
可选地,获取样本文本对应的文本关键词,包括:对样本文本进行预处理,获得样本文本对应的文本关键词。可选地,对样本文本进行预处理包括:删除样本文本中的停用词、标点、高频词和不常见的词。可选地,将样本文本中逆文档频率小于第一设定阈值所对应的词确定为不常见的词。可选地,将样本文本中逆文档频率大于第二设定阈值所对应的词确定为高频词。可选地,通过逆文档频率算法进行计算,获得样本文本中每个词的逆文档频率。
可选地,获取样本文本对应的文本类型关键词,包括:获取样本文本对应的文本类型备选词;根据文本类型备选词获取样本文本对应的文本类型关键词。
可选地,获取样本文本对应的文本类型备选词,包括:在预设的文本类型备选词库中选取样本文本对应的文本类型备选词;其中,预设的文本类型备选词库中存储有样本文本和文本类型备选词之间的对应关系。
可选地,根据文本类型备选词获取样本文本对应的文本类型关键词,包括:对文本类型备选词进行扩展,获得文本类型词集合;在文本类型词集合中确定出样本文本对应的文本类型关键词。
可选地,对文本类型备选词进行扩展,获得文本类型词集合,包括:获取文本类型备选词的语义;根据文本类型备选词的语义对文本类型备选词进行扩展,获得文本类型词集合。这样,由于不同语境下文本类型备选词具有不同的语义,通过获取文本类型备选词的语义,从而对同一文本类型备选词在不同语境下的语义进行区分,解决了文本类型备选词依赖文本的上下文语境的问题。
可选地,利用预训练语言模型BERT获取文本类型备选词的上下文表征向量。
可选地,利用自动化聚类算法将文本类型备选词进行聚类获取文本类型备选词的语义。可选地,自动化聚类算法为K-means聚类算法。
在一些实施例中,利用预训练语言模型BERT获取文本类型备选词的上下文表征向量;利用K-means聚类算法将n个文本类型备选词的上下文表征向量划分为K类,对每一类随机选取一个文本类型备选词的上下文表征向量作为聚类中心,计算各聚类中心之间的第二相似度;若存在任意两个聚类中心之间的第二相似度大于第三设定阈值μ,则重新选取聚类中心,直至所有聚类中心之间的第二相似度均小于第三设定阈值μ;此时,将作为聚类中心的文本类型备选词的含义赋值给该聚类下的每一个文本类型备选词。
可选地,在K-means聚类算法的参数设置过程中,通过计算获取各聚类中心之间的第二相似度;其中,simcos(cα,cβ)为第α个聚类中心和第β个聚类中心之间的第二相似度;cα为第α个聚类中心的上下文表征向量,cβ为第β个聚类中心的上下文表征向量。
可选地,聚类中心的个数与文本类型备选词的语义个数相同。
可选地,通过计算获得聚类中心的个数K;其中,K为聚类中心的个数,simcos(cα,cβ)为第α个聚类中心和第β个聚类中心之间的第二相似度,μ为第三设定阈值。可选地,根据第三设定阈值μ确定聚类中心的个数K。可选地,在任意两个聚类中心之间的第二相似度均小于μ的情况下,获得此时聚类中心的个数K。
可选地,通过计算获得各聚类中心下的各文本类型备选词s′之间的相似度的均值;其中,为聚类中心c下第q个文本类型备选词和聚类中心c下第p个文本类型备选词之间的相似度。可选地,通过计算μ=average{μ(s′)}获得各聚类中心下的各文本类型备选词s′之间的相似度均值的均值。可选地,将各聚类中心下的所有文本类型备选词s′之间的相似度均值的均值μ确定为第三设定阈值。
可选地,对文本类型备选词的语义进行筛选,舍弃不符合预设的分类场景文本类型备选词的语义。
这样,根据文本类型备选词获取样本文本对应的文本类型关键词,并筛选掉不符合预设的分类场景的语义,使得样本文本对应的文本类型关键词与用户指定的文本类型备选词的语义有关,同时,使得确定出的每类文本类型备选词只有一个解释,解决了文本的语义歧义的问题。
可选地,根据文本类型备选词的语义对文本类型备选词进行扩展,获得文本类型词集合,包括:利用WordNet根据文本类型备选词的语义对文本类型备选词进行扩展,获取文本类型备选词的同义词和近义词,将文本类型备选词、文本类型备选词的同义词和文本类型备选词的近义词加入文本类型词集合S。
可选地,根据文本类型备选词的语义对文本类型备选词进行扩展,获得文本类型词集合,包括:利用Gensim对预设的领域词库中的词训练Word2vec,获得词向量,根据文本类型备选词的语义利用词向量获取各预设的领域词库中的词与文本类型备选词之间的余弦相似度,将余弦相似度大于第四设定阈值所对应的预设的领域词库中的词加入文本类型词集合S,并对文本类型词集合进行去重操作。
可选地,在文本类型词集合中确定出样本文本对应的文本类型关键词,包括:将文本类型词集合中满足第二预设条件的词确定为样本文本对应的文本类型关键词。
可选地,将文本类型词集合S中的词确定为文本类型词s″。
可选地,文本类型词集合中满足第二预设条件的词,包括:文本类型词集合中第二词频大于第五设定阈值的文本类型词。
可选地,在预设的语料库中匹配出文本类型词对应的第二词频;预设的语料库中存储有文本类型词与第二词频的对应关系。可选地,将第二词频大于第五设定阈值的文本类型词确定为样本文本对应的文本类型关键词。
可选地,在文本类型词集合中确定出样本文本对应的文本类型关键词,包括:将文本类型词集合中满足第二预设条件的词按照从大到小的顺序进行排序,将排名前设定名次的文本类型词确定为样本文本对应的文本类型关键词。
可选地,通过将第二词频tf(s″,D)大于第五设定阈值δ的文本类型词按照从大到小的顺序进行排序,获得满足第二预设条件且排序后的文本类型词集合S′;其中,tf(s″,D)为文本类型词集合S中文本类型词s″在预设的语料库D中对应的第二词频,S′为满足第二预设条件且排序后的文本类型词集合,δ为第五设定阈值。
可选地,将满足第二预设条件且排序后的文本类型词集合S′中排名前设定名次的文本类型词确定为样本文本对应的文本类型关键词。
这样,通过第二词频在文本类型词集合中确定出样本文本对应的文本类型关键词,能够筛选掉不常见的文本类型词,同时避免不能够代表文本类别的文本类型词影响文本分类模型的准确度。
可选地,获取文本类型关键词和文本关键词的第一相似度,包括:通过计算获得文本类型关键词和文本关键词的第一相似度;其中,si为第i个文本类型关键词,dj为第j个文本关键词,sim(si,dj)为第i个文本类型关键词与第j个文本关键词之间的第一相似度。
可选地,根据第一相似度为样本文本生成伪标签,包括:获取文本类型关键词在样本文本中的第一词频;根据第一词频和第一相似度进行计算,获得计算结果;将满足第一预设条件的计算结果所对应的文本类型关键词确定为样本文本的伪标签。这样,根据第一词频和第一相似度为样本文本生成伪标签,修正了仅依赖词频进行伪标签分类的偏差,提高了伪标签分类的准确性,从而使后续训练出的文本分类模型更准确。
可选地,通过计算获得计算结果,即第一词频与第一相似度的加权和A;其中,A为第一词频与第一相似度的加权和,wtf为词频权重,wsim为相似度权重,tf(si,d)为第i个文本类型关键词在样本文本d中的第一词频,sim(si,dj)为第i个文本类型关键词与第j个文本关键词之间的第一相似度。
可选地,满足第一预设条件的计算结果,包括:各第一词频与第一相似度的加权和中的最大值。可选地,将最大的加权和所对应的文本类型关键词确定为样本文本的伪标签。
可选地,通过计算获得样本文本的伪标签,即将最大的加权和所对应的文本类型关键词确定为样本文本的伪标签;其中,wtf为词频权重,wsim为相似度权重,tf(si,d)为第i个文本类型关键词在样本文本d中的第一词频,sim(si,dj)为第i个文本类型关键词与第j个文本关键词之间的第一相似度,T为文本类型关键词集合。
可选地,利用带有伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型,包括:利用带有伪标签的样本文本对TextCNN神经网络模型进行训练,获得文本分类模型。
在一些实施例中,TextCNN神经网络模型包括:卷积层、池化层和全连接层;由于中文文本的词单元为2至4个字,因此在卷积层分别采用2×2,3×3,4×4的卷积核来卷积,利用不同尺度卷积核的TextCNN捕获中文文本的特征,提高了文本的表征能力。
可选地,获得文本分类模型后,还包括:获取测试文本,将测试文本输入文本分类模型,获得测试文本的第一分类结果;将满足第三预设条件的第一分类结果所对应的测试文本确定为训练文本,利用训练文本及其对应的第二文本类别关键词对文本分类模型进行训练。这样,通过将满足第三预设条件的第一分类结果所对应的测试文本确定为训练文本,利用训练文本及其对应的第二文本类别关键词对文本分类模型进行训练,能够迭代训练文本分类模型,进而提高模型文本分类的性能。
可选地,获取第一分类结果所对应的置信度。可选地,将满足第三预设条件的第一分类结果所对应的测试文本确定为训练文本,包括:将置信度大于第六设定阈值的第一分类结果所对应的测试文本确定为训练文本。在一些实施例中,测试文本1的第一分类结果为类别C,其置信度为0.9;测试文本2的第一分类结果也为类别C,其置信度为0.6;在置信度阈值为0.8的情况下,将测试文本1确定为训练文本,测试文本2则继续作为测试文本。
结合图2所示,本公开实施例提供一种用于文本分类的方法,其特征在于,包括:
步骤S201,获取待分类文本。
步骤S202,将待分类文本输入文本分类模型,获得待分类文本的第二分类结果。
采用本公开实施例提供用于文本分类的方法,通过获取待分类文本,将待分类文本输入文本分类模型,获得待分类文本的第二分类结果,本方案不需要对文本的类别进行大量人工标注,节省了人力成本,从而提高了文本分类的效率。
结合图3所示,本公开实施例提供一种用于获取文本分类模型的装置,包括第一处理器(processor)100和存储有第一程序指令的第一存储器(memory)101。可选地,该装置还可以包括第一通信接口(Communication Interface)102和第一总线103。其中,第一处理器100、第一通信接口102、第一存储器101可以通过第一总线103完成相互间的通信。第一通信接口102可以用于信息传输。第一处理器100可以调用第一存储器101中的第一程序指令,以执行上述实施例的用于获取文本分类模型的方法。
此外,上述的第一存储器101中的第一程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
第一存储器101作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。第一处理器100通过运行存储在第一存储器101中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于获取文本分类模型的方法。
第一存储器101可包括第一存储程序区和第一存储数据区,其中,第一存储程序区可存储第一操作系统、至少一个功能所需的第一应用程序;第一存储数据区可存储根据终端设备的使用所创建的数据等。此外,第一存储器101可以包括高速随机存取存储器,还可以包括非易失性存储器。
采用本公开实施例提供的用于获取文本分类模型的装置,通过样本文本对应的文本类型关键词和样本文本对应的文本关键词,获取文本类型关键词和文本关键词的第一相似度,并根据第一相似度为样本文本生成伪标签,利用带有伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型。本方案不需要对文本的类别进行大量人工标注,节省了人力成本,从而提高了获取文本分类模型的效率。
本公开实施例提供了一种设备,包含上述的用于获取文本分类模型的装置。
可选地,设备包括:计算机、服务器等。
该设备通过样本文本对应的文本类型关键词和样本文本对应的文本关键词,获取文本类型关键词和文本关键词的第一相似度,并根据第一相似度为样本文本生成伪标签,利用带有伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型。本方案不需要对文本的类别进行大量人工标注,节省了人力成本,从而提高了获取文本分类模型的效率。
本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述用于获取文本分类模型的方法。
本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于获取文本分类模型的方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
结合图4所示,本公开实施例提供一种用于文本分类的装置,包括第二处理器(processor)200和存储有第二程序指令的第二存储器(memory)201。可选地,该装置还可以包括第二通信接口(Communication Interface)202和第二总线203。其中,第二处理器200、第二通信接口202、第二存储器201可以通过第二总线203完成相互间的通信。第二通信接口202可以用于信息传输。第二处理器200可以调用第二存储器201中的第二程序指令,以执行上述实施例的用于文本分类的方法。
此外,上述的第二存储器201中的第二程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
第二存储器201作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。第二处理器200通过运行存储在第二存储器201中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于文本分类的方法。
第二存储器201可包括第二存储程序区和第二存储数据区,其中,第二存储程序区可存储第二操作系统、至少一个功能所需的第二应用程序;第二存储数据区可存储根据终端设备的使用所创建的数据等。此外,第二存储器201可以包括高速随机存取存储器,还可以包括非易失性存储器。
采用本公开实施例提供用于文本分类的装置,通过获取待分类文本,将待分类文本输入文本分类模型,获得所述待分类文本的第二分类结果,本方案不需要对文本的类别进行大量人工标注,节省了人力成本,从而提高了文本分类的效率。
本公开实施例提供了一种设备,包含上述的用于文本分类的装置。
可选地,设备包括:计算机、服务器等。
该设备通过获取待分类文本,将待分类文本输入文本分类模型,获得所述待分类文本的第二分类结果,本方案不需要对文本的类别进行大量人工标注,节省了人力成本,从而提高了文本分类的效率。
本公开实施例提供了另一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令设置为执行上述用于文本分类的方法。
本公开实施例提供了另一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括第二程序指令,当第二程序指令被计算机执行时,使计算机执行上述用于文本分类的方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (12)
1.一种用于获取文本分类模型的方法,其特征在于,包括:
获取样本文本;
获取所述样本文本对应的文本类型关键词和所述样本文本对应的文本关键词;
获取所述文本类型关键词和所述文本关键词的第一相似度;
根据所述第一相似度为所述样本文本生成伪标签;
利用带有所述伪标签的样本文本对预设的神经网络模型进行训练,获得文本分类模型。
2.根据权利要求1所述的方法,其特征在于,获取所述样本文本对应的文本类型关键词,包括:
获取所述样本文本对应的文本类型备选词;
根据所述文本类型备选词获取所述样本文本对应的文本类型关键词。
3.根据权利要求2所述的方法,其特征在于,根据所述文本类型备选词获取所述样本文本对应的文本类型关键词,包括:
对所述文本类型备选词进行扩展,获得文本类型词集合;
在所述文本类型词集合中确定出所述样本文本对应的文本类型关键词。
4.根据权利要求3所述的方法,其特征在于,对所述文本类型备选词进行扩展,获得文本类型词集合,包括:
获取所述文本类型备选词的语义;
根据所述语义对所述文本类型备选词进行扩展,获得文本类型词集合。
5.根据权利要求3所述的方法,其特征在于,在所述文本类型词集合中确定出所述样本文本对应的文本类型关键词,包括:
将所述文本类型词集合中满足第二预设条件的词确定为所述样本文本对应的文本类型关键词。
6.根据权利要求1所述的方法,其特征在于,根据所述第一相似度为所述样本文本生成伪标签,包括:
获取所述文本类型关键词在所述样本文本中的第一词频;
根据所述第一词频和所述第一相似度进行计算,获得计算结果;
将满足第一预设条件的计算结果所对应的文本类型关键词确定为所述样本文本的伪标签。
7.根据权利要求1至6任一项所述的方法,其特征在于,获得文本分类模型后,还包括:
获取测试文本,将所述测试文本输入所述文本分类模型,获得所述测试文本的第一分类结果;
将满足第三预设条件的第一分类结果所对应的测试文本确定为训练文本,利用所述训练文本及其对应的第二文本类别关键词对所述文本分类模型进行训练。
8.一种用于文本分类的方法,其特征在于,包括:
获取待分类文本;
将所述待分类文本输入如权利要求1至7任一项所述的文本分类模型,获得所述待分类文本的第二分类结果。
9.一种用于获取文本分类模型的装置,包括第一处理器和存储有程序指令的第一存储器,其特征在于,所述第一处理器被配置为在执行所述程序指令时,执行如权利要求1至7任一项所述的用于获取文本分类模型的方法。
10.一种用于文本分类的装置,包括第二处理器和存储有程序指令的第二存储器,其特征在于,所述第二处理器被配置为在执行所述程序指令时,执行如权利要求8所述的用于文本分类的方法。
11.一种设备,其特征在于,包括如权利要求9所述的用于训练文本分类模型的装置。
12.一种设备,其特征在于,包括如权利要求10所述的用于文本分类的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110123014.2A CN112800226A (zh) | 2021-01-29 | 2021-01-29 | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110123014.2A CN112800226A (zh) | 2021-01-29 | 2021-01-29 | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800226A true CN112800226A (zh) | 2021-05-14 |
Family
ID=75812667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110123014.2A Pending CN112800226A (zh) | 2021-01-29 | 2021-01-29 | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800226A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239675A (zh) * | 2021-06-07 | 2021-08-10 | 支付宝(杭州)信息技术有限公司 | 文本处理方法及装置 |
CN113761192A (zh) * | 2021-05-18 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 文本处理方法、文本处理装置及文本处理设备 |
CN116663537A (zh) * | 2023-07-26 | 2023-08-29 | 中信联合云科技有限责任公司 | 基于大数据分析的选题策划信息处理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN106649274A (zh) * | 2016-12-27 | 2017-05-10 | 东华互联宜家数据服务有限公司 | 文本内容标签标记方法以及装置 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
CN110580292A (zh) * | 2019-08-28 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 一种文本标签生成方法、装置和计算机可读存储介质 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN110674319A (zh) * | 2019-08-15 | 2020-01-10 | 中国平安财产保险股份有限公司 | 标签确定方法、装置、计算机设备及存储介质 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110889443A (zh) * | 2019-11-21 | 2020-03-17 | 成都数联铭品科技有限公司 | 无监督文本分类系统及方法 |
-
2021
- 2021-01-29 CN CN202110123014.2A patent/CN112800226A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN106649274A (zh) * | 2016-12-27 | 2017-05-10 | 东华互联宜家数据服务有限公司 | 文本内容标签标记方法以及装置 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
CN110674319A (zh) * | 2019-08-15 | 2020-01-10 | 中国平安财产保险股份有限公司 | 标签确定方法、装置、计算机设备及存储介质 |
CN110580292A (zh) * | 2019-08-28 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 一种文本标签生成方法、装置和计算机可读存储介质 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110889443A (zh) * | 2019-11-21 | 2020-03-17 | 成都数联铭品科技有限公司 | 无监督文本分类系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761192A (zh) * | 2021-05-18 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 文本处理方法、文本处理装置及文本处理设备 |
CN113761192B (zh) * | 2021-05-18 | 2024-05-28 | 腾讯云计算(北京)有限责任公司 | 文本处理方法、文本处理装置及文本处理设备 |
CN113239675A (zh) * | 2021-06-07 | 2021-08-10 | 支付宝(杭州)信息技术有限公司 | 文本处理方法及装置 |
CN116663537A (zh) * | 2023-07-26 | 2023-08-29 | 中信联合云科技有限责任公司 | 基于大数据分析的选题策划信息处理方法及系统 |
CN116663537B (zh) * | 2023-07-26 | 2023-11-03 | 中信联合云科技有限责任公司 | 基于大数据分析的选题策划信息处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN108399228B (zh) | 文章分类方法、装置、计算机设备及存储介质 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
KR101999152B1 (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN112800226A (zh) | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 | |
CN108874996B (zh) | 网站分类方法及装置 | |
CN111382248B (zh) | 一种问题回复方法、装置、存储介质及终端设备 | |
US20210272013A1 (en) | Concept modeling system | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN111914159A (zh) | 一种信息推荐方法及终端 | |
CN113961666A (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN115935983A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN112364169B (zh) | 基于nlp的wifi识别方法、电子设备和介质 | |
CN112307210B (zh) | 一种文档标签预测方法、系统、介质及电子器件 | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
EP4127957A1 (en) | Methods and systems for searching and retrieving information | |
CN116089616A (zh) | 主题文本获取方法、装置、设备及存储介质 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN112579774B (zh) | 模型训练方法、模型训练装置及终端设备 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN111753199B (zh) | 用户画像构建方法及设备、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |