CN112182217A - 多标签文本类别的识别方法、装置、设备和存储介质 - Google Patents
多标签文本类别的识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN112182217A CN112182217A CN202011045815.3A CN202011045815A CN112182217A CN 112182217 A CN112182217 A CN 112182217A CN 202011045815 A CN202011045815 A CN 202011045815A CN 112182217 A CN112182217 A CN 112182217A
- Authority
- CN
- China
- Prior art keywords
- text
- recognized
- current
- label
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 138
- 238000005457 optimization Methods 0.000 claims description 80
- 238000012549 training Methods 0.000 claims description 72
- 238000012360 testing method Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种多标签文本类别的识别方法、装置、设备和存储介质,方法,包括若获取到待识别文本,提取所述待识别文本的词向量和所述待识别文本的句向量;将所述待识别文本的词向量和所述待识别文本的句向量进行拼接,得到所述待识别文本的全局向量;提取所述待识别文本的全局向量对应的所述待识别文本的特征向量;基于预先训练的文本类别判决模型,计算所述待识别文本的特征向量相对于每个分类标签的概率;根据所述待识别文本相对于每个分类标签的概率,确定所述待识别文本的类别。采用本发明的技术方案,能够减少分类错误的现象,提高文本分类结果的准确性。
Description
技术领域
本发明涉及文本分类技术领域,尤其涉及一种多标签文本类别的识别方法、装置、设备和存储介质。
背景技术
分类技术作为一种数据分析挖掘的形式,它可以抽取能够描述重要数据集合的模型,用于预测数据对象的类别。而根据分类预测后的样本类别标签个数不同,分类问题又可分为单标签分类问题和多标签分类问题。多标签分类的目的是预测与多个类相关联的示例中,某些标签是否与此示例存在关联。
目前,多标签学习算法大体上可以分为两个流派:一类是问题转化的方法,另一类是算法适应的方法。第一组方法是算法独立的。它们将多标签的分类任务转换为一个或多个单标签分类、回归或标签排序任务。通过把多标签学习问题转化为其他学习场景来解决多标签学习问题。代表性的算法包括Binary Relevance(BR)、Classifier Chain(CC),这些算法将多标签学习任务转化为二元分类任务,Calibrated Label Ranking将多标签学习任务转换为标签排序任务的二阶方法校准标签排序,以及Random k-labelsets将多标签任务转化为多类分类任务。第二组方法扩展了特定的学习算法,直接处理多标签数据。这类算法通过改造常用的学习算法来直接处理多标签数据,进而解决多标签学习问题。常见的算法决策树、支持向量机、神经网络、贝叶斯、boosting等算法都可以得到应用。代表性算法包括ML-kNN适应懒惰学习算法,ML-DT适应决策树算法,Rank-SVM适应不同的核心技术,以及CML适应信息论算法。
但是,上述算法中,在提取文本的特征时,考虑的仅是单个字或词对分类结果的影响,不涉及句子之间和上下文意思的理解,导致在进行分类时,易出现分类错误的现象,降低了分类结果准确性。
发明内容
有鉴于此,本发明的目的在于提出一种多标签文本类别的识别方法、装置、设备和存储介质,以解决现有技术中对多标签文本分类时易出现分类错误的现象,分类结果准确性较低的问题。
基于上述目的,本发明提供了一种多标签文本类别的识别方法,包括:
若获取到待识别文本,提取所述待识别文本的词向量和所述待识别文本的句向量;
将所述待识别文本的词向量和所述待识别文本的句向量进行拼接,得到所述待识别文本的全局向量;
提取所述待识别文本的全局向量对应的所述待识别文本的特征向量;
基于预先训练的文本类别判决模型,计算所述待识别文本的特征向量相对于每个分类标签的概率;
根据所述待识别文本相对于每个分类标签的概率,确定所述待识别文本的类别。
进一步地,上述所述多标签文本类别的识别方法中,所述文本类别判决模型的训练过程包括以下步骤:
提取训练文本的词向量和训练文本的句向量;
将所述训练文本的词向量和所述训练文本的句向量进行拼接,得到所述训练文本的的全局向量;
提取所述训练文本的全局向量对应的所述训练文本的特征向量;
基于所述训练文本的特征向量对当前判决模型进行训练,得到当前优化判决模型;所述当前判决模型预训练模型或上一次训练后得到的上一优化判决模型;
利用测试文本对所述当前优化模型进行测试,得到当前测试结果;
若所述当前测试结果表示满足预设的评价指标,将所述当前优化模型作为所述文本类别识别模型;
若所述当前测试结果表示不满足预设的评价指标,进行下一次训练,直到下一次测试结果表示满足预设达标条件。
进一步地,上述所述多标签文本类别的识别方法中,所述待识别文本为医学术语;
所述训练文本为标准医学术语;所述标准医学术语为医学文献中的术语;
所述测试文本为标注医学术语;所述标注医学术语为带有标注的实际临床数据。
进一步地,上述所述多标签文本类别的识别方法中,利用测试文本对所述当前优化模型进行测试,得到当前测试结果之后,还包括:
根据所述当前测试结果,确定所述当前优化模型的精确率和所述当前优化模型召回率;
对所述当前优化模型的精确率和所述当前优化模型召回率进行平均处理,得到所述当前优化模型的f1值;
计算所述f1值对应的宏平均值和微平均值;
根据所述宏平均值和微平均值,确定所述当前优化模型的打分值;
若所述当前优化模型的打分值大于预设阈值,确定所述当前测试结果表示满足预设的评价指标;
若所述当前优化模型的打分值小于或者等于预设阈值,确定所述当前测试结果表示不满足预设的评价指标。
进一步地,上述所述多标签文本类别的识别方法中,对所述当前优化模型的精确率和所述当前优化模型召回率进行平均处理的计算式为:
其中,f1为所述当前优化模型的精确率和所述当前优化模型召回率的平均值,TP表示真正率,FP表示假正率,FNN表示假负率,p表示精确率,r表示召回率;
所述宏平均值的计算式为:
其中,f1macro为宏平均值,n表示标签的个数;
所述微平均值的计算式为:
其中,pmicro为精确率的微平均值,rmicro为召回率的微平均值,f1micro为f1的微平均值。
进一步地,上述所述多标签文本类别的识别方法中,确定所述当前优化模型的打分值的计算式为:
其中,score为当前优化模型的打分值。
进一步地,上述所述多标签文本类别的识别方法中,根据所述待识别文本相对于每个分类标签的概率,确定所述待识别文本的类别,包括:
若存在大于预设基准概率的分类标签,确定大于预设概率的分类标签对应的类别作为所述待识别文本的类别;
若不存在大于预设基准概率的分类标签,选择概率最大的标签对应的类别作为所述待识别文本的类别。
本发明还提供一种多标签文本类别的识别装置,包括:
提取模块,用于若获取到待识别文本,提取所述待识别文本的词向量和所述待识别文本的句向量;将所述待识别文本的词向量和所述待识别文本的句向量进行拼接,得到所述待识别文本的全局向量;以及,提取所述待识别文本的全局向量对应的所述待识别文本的特征向量;
计算模块,用于基于预先训练的文本类别判决模型,计算所述待识别文本的特征向量相对于每个分类标签的概率;
确定模块,用于根据所述待识别文本相对于每个分类标签的概率,确定所述待识别文本的类别。
本发明还提供一种多标签文本类别的识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的多标签文本类别的识别方法。
本发明还提供一种存储介质,其上存储有计算机程序,所述计算机程序被控制器执行时实现如上任一项所述的多标签文本类别的识别方法。
从上面所述可以看出,本发明提供的多标签文本类别的识别方法、装置、设备和存储介质,通过提取获取的待识别文本的词向量和句向量,并将所述词向量和所述句向量进行拼接,得到所述待识别文本的全局向量后,再提取所述全局向量对应的特征向量,实现了计算待识别文本中每个单词与句子中所有单词的相关关系,从而能抽取出句子序列全局上下文信息的特征向量,这样,在基于预先训练的文本类别判决模型,能够较精准地计算出所述特征向量相对于每个分类标签的概率,以便根据所述待识别文本相对于每个分类标签的概率,精准地确定所述待识别文本的类别,减少分类错误的现象。采用本发明的技术方案,能够提高文本分类结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多标签文本类别的识别方法实施例的流程图;
图2为本发明的多标签文本类别的识别装置实施例的结构示意图;
图3为本发明的多标签文本类别的识别设备实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
图1为本发明多标签文本类别的识别方法实施例的流程图,如图1所示,本实施例的多标签文本类别的识别方法,具体可以包括:
101、若获取到待识别文本,提取待识别文本的词向量和待识别文本的句向量;
BERT(Bidirectional Encoder Representation from Transformers,Transformer)预训练模型:BERT预训练模型利用masked model实现了语言模型的双向性,证明了双向性对语言表示预训练的重要性。BERT预训练模型是真正意义上的双向语言模型,每个词可以同时利用该词的上下文信息。BERT预训练模型是一个微调模型,在sentence-level和tokenlevel自然语言任务都达到了最好效果。证明了pre-trainedrepresentations可以缓解了不同任务对特殊模型结构的设计需求。BERT在11个自然语言处理任务上达到了最好效果。并在BERT的extensive ablations证明了“BERT的双向性”是一个重要的创新。BERT预训练模型实现了文本到动态字向量的转化,增强了文本向量的语义信息,从而具有强大的字和句子的语义表示功能。
因此,本实施例中,在获取到待识别文本后,可以利用BERT预训练模型提取待识别文本的词向量和待识别文本的句向量。其中,本实施例优选为应用在医学领域,待识别文本优选为医学术语。
例如,首先获得待识别文本的bert词向量,然后接入全局平均池化层,获得平均bert词向量。可以从bert的输出层中抽取符号[CLS]对应的向量,即为bert句向量,其中,[CLS]标签是指:BERT预训练模型在分词中所添加的分类标签。
102、将待识别文本的词向量和待识别文本的句向量进行拼接,得到待识别文本的全局向量;
在提取到待识别文本的词向量和待识别文本的句向量后,可以将待识别文本的词向量和待识别文本的句向量进行拼接,得到待识别文本的全局向量。例如,待识别文本的词向量和待识别文本的句向量均为3维向量,进行拼接后,可以得到6维向量。
103、提取待识别文本的全局向量对应的待识别文本的特征向量;
在获取到待识别文本的全局向量后,可以提取待识别文本的全局向量对应的待识别文本的特征向量,这样,即可得到待识别文本中每个单词与句子中所有单词的相关关系,从而能抽取出句子序列全局上下文信息的特征向量。
104、基于预先训练的文本类别判决模型,计算待识别文本的特征向量相对于每个分类标签的概率;
在提取待识别文本的特征向量后,可以将待识别文本的特征向量输入预先训练的文本类别判决模型,从而计算待识别文本的特征向量相对于每个分类标签的概率。例如,可以基于预先训练的文本类别判决模型中的sigmoid激活函数得到待识别文本的特征向量相对于每个分类标签的概率。
在一个具体实现过程中,文本类别判决模型的训练过程包括以下步骤:
(1)、提取训练文本的词向量和训练文本的句向量;
本实施例中,待识别文本为医学术语,可以选取标准医学术语作为训练文本,其中,该标准医学术语为医学文献中的术语。选取标注医学术语为测试文本;该标注医学术语为带有标注的实际临床数据。
本实施例中,可以提取训练文本的词向量和训练文本的句向量,该过程与步骤101的实现过程相同,详细请参考上述相关记载,在此不再赘述。
(2)、将训练文本的词向量和训练文本的句向量进行拼接,得到训练文本的的全局向量;
该过程与步骤102的实现过程相同,详细请参考上述相关记载,在此不再赘述。
(3)、提取训练文本的全局向量对应的训练文本的特征向量;
该过程与步骤103的实现过程相同,详细请参考上述相关记载,在此不再赘述。
(4)、基于训练文本的特征向量对当前判决模型进行训练,得到当前优化判决模型;当前判决模型预训练模型或上一次训练后得到的上一优化判决模型;
在得到训练文本的特征向量后,可以对当前判决模型进行训练,得到当前优化判决模型;当前判决模型预训练模型或上一次训练后得到的上一优化判决模型。
(5)、利用测试文本对当前优化模型进行测试,得到当前测试结果;
在得到当前优化模型后,可以将测试文本输入该当前优化模型,进行测试,并得到当前测试结果。
(6)、检测当前测试结果是否满足预设的评价指标,若是,执行(7),若否,返回(1);
具体地,可以根据得到的当前测试结果,确定当前优化模型的精确率和当前优化模型召回率;对当前优化模型的精确率和当前优化模型召回率进行平均处理,得到当前优化模型的f1值;计算f1值对应的宏平均值和微平均值;根据f1的宏平均值和f1的微平均值,确定当前优化模型的打分值;若当前优化模型的打分值大于预设阈值,确定当前测试结果表示满足预设的评价指标;若当前优化模型的打分值小于或者等于预设阈值,确定当前测试结果表示不满足预设的评价指标。
本实施例中,对当前优化模型的精确率和当前优化模型召回率进行平均处理的计算式为:
其中,f1为当前优化模型的精确率和当前优化模型召回率的平均值,TP表示真正率,FP表示假正率,FNN表示假负率,p表示精确率,r表示召回率;
宏平均值的计算式为:
其中,f1macro为宏平均值,n表示标签的个数;
微平均值的计算式为:
其中,pmicro为精确率的微平均值,rmicro为召回率的微平均值,f1micro为f1的微平均值。
确定当前优化模型的打分值的计算式为:
其中,score为当前优化模型的打分值。
(7)、将当前优化模型作为文本类别识别模型;
若当前测试结果表示满足预设的评价指标,将当前优化模型作为文本类别识别模型,完成训练。
105、根据待识别文本相对于每个分类标签的概率,确定待识别文本的类别。
在一个具体实现过程中,可以预先设置一个基准概率,将待识别文本相对于每个分类标签的概率分别与预设基准概率进行比较,若存在大于预设基准概率的分类标签,确定大于预设概率的分类标签对应的类别作为所述待识别文本的类别;因为有可能有多个大于预设基准概率的分类标签,所以有可能存在多个被预测的标签。若不存在大于预设基准概率的分类标签,选择概率最大的标签对应的类别作为所述待识别文本的类别。
本实施例的多标签文本类别的识别方法,通过提取获取的待识别文本的词向量和句向量,并将所述词向量和所述句向量进行拼接,得到所述待识别文本的全局向量后,再提取所述全局向量对应的特征向量,实现了计算待识别文本中每个单词与句子中所有单词的相关关系,从而能抽取出句子序列全局上下文信息的特征向量,这样,在基于预先训练的文本类别判决模型,能够较精准地计算出所述特征向量相对于每个分类标签的概率,以便根据所述待识别文本相对于每个分类标签的概率,精准地确定所述待识别文本的类别,减少分类错误的现象。采用本发明的技术方案,能够提高文本分类结果的准确性。
需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成的方法。
图2为本发明的多标签文本类别的识别装置实施例的结构示意图,入土所示,本实施例的多标签文本类别的识别装置可以包括提取模块201、计算模块202和确定模块203。
提取模块201,用于若获取到待识别文本,提取待识别文本的词向量和待识别文本的句向量;将待识别文本的词向量和待识别文本的句向量进行拼接,得到待识别文本的全局向量;以及,提取待识别文本的全局向量对应的待识别文本的特征向量;
计算模块202,用于基于预先训练的文本类别判决模型,计算待识别文本的特征向量相对于每个分类标签的概率;
在一个具体实现过程中,文本类别判决模型的训练过程包括以下步骤:
(1)、提取训练文本的词向量和训练文本的句向量;
本实施例中,待识别文本为医学术语,可以选取标准医学术语作为训练文本,其中,该标准医学术语为医学文献中的术语。选取标注医学术语为测试文本;该标注医学术语为带有标注的实际临床数据。
本实施例中,可以提取训练文本的词向量和训练文本的句向量,该过程与步骤100的实现过程相同,详细请参考上述相关记载,在此不再赘述。
(2)、将训练文本的词向量和训练文本的句向量进行拼接,得到训练文本的的全局向量;
该过程与步骤101的实现过程相同,详细请参考上述相关记载,在此不再赘述。
(3)、提取训练文本的全局向量对应的训练文本的特征向量;
该过程与步骤102的实现过程相同,详细请参考上述相关记载,在此不再赘述。
(4)、基于训练文本的特征向量对当前判决模型进行训练,得到当前优化判决模型;当前判决模型预训练模型或上一次训练后得到的上一优化判决模型;
在得到训练文本的特征向量后,可以对当前判决模型进行训练,得到当前优化判决模型;当前判决模型预训练模型或上一次训练后得到的上一优化判决模型。
(5)、利用测试文本对当前优化模型进行测试,得到当前测试结果;
在得到当前优化模型后,可以将测试文本输入该当前优化模型,进行测试,并得到当前测试结果。
(6)、检测当前测试结果是否满足预设的评价指标,若是,执行(7),若否,返回(1);
具体地,可以根据得到的当前测试结果,确定当前优化模型的精确率和当前优化模型召回率;对当前优化模型的精确率和当前优化模型召回率进行平均处理,得到当前优化模型的f1值;计算f1值对应的宏平均值和微平均值;根据f1的宏平均值和f1的微平均值,确定当前优化模型的打分值;若当前优化模型的打分值大于预设阈值,确定当前测试结果表示满足预设的评价指标;若当前优化模型的打分值小于或者等于预设阈值,确定当前测试结果表示不满足预设的评价指标。
本实施例中,对当前优化模型的精确率和当前优化模型召回率进行平均处理的计算式为:
其中,f1为当前优化模型的精确率和当前优化模型召回率的平均值,TP表示真正率,FP表示假正率,FNN表示假负率,p表示精确率,r表示召回率;
宏平均值的计算式为:
其中,f1macro为宏平均值,n表示标签的个数;
微平均值的计算式为:
其中,pmicro为精确率的微平均值,rmicro为召回率的微平均值,f1micro为f1的微平均值。
确定当前优化模型的打分值的计算式为:
其中,score为当前优化模型的打分值。
(7)、将当前优化模型作为文本类别识别模型;
若当前测试结果表示满足预设的评价指标,将当前优化模型作为文本类别识别模型,完成训练。
确定模块203,用于根据待识别文本相对于每个分类标签的概率,确定待识别文本的类别。
具体地,若存在大于预设基准概率的分类标签,确定大于预设概率的分类标签对应的类别作为所述待识别文本的类别;若不存在大于预设基准概率的分类标签,选择概率最大的标签对应的类别作为所述待识别文本的类别。
本实施例的具体实现方案可以参见前述实施例记载的远程医疗实体链接的方法及方法实施例中的相关说明,此处不再赘述。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图3为本发明的多标签文本类别的识别设备实施例的结构示意图,如图3所示,本实施例的通行设备可以包括:处理器1010和存储器1020。本领域技术人员可知的,该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本发明还提供一种存储介质,其特征在于,所述存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述实施例的多标签文本类别的识别方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多标签文本类别的识别方法,其特征在于,包括:
若获取到待识别文本,提取所述待识别文本的词向量和所述待识别文本的句向量;
将所述待识别文本的词向量和所述待识别文本的句向量进行拼接,得到所述待识别文本的全局向量;
提取所述待识别文本的全局向量对应的所述待识别文本的特征向量;
基于预先训练的文本类别判决模型,计算所述待识别文本的特征向量相对于每个分类标签的概率;
根据所述待识别文本相对于每个分类标签的概率,确定所述待识别文本的类别。
2.根据权利要求1所述多标签文本类别的识别方法,其特征在于,所述文本类别判决模型的训练过程包括以下步骤:
提取训练文本的词向量和训练文本的句向量;
将所述训练文本的词向量和所述训练文本的句向量进行拼接,得到所述训练文本的的全局向量;
提取所述训练文本的全局向量对应的所述训练文本的特征向量;
基于所述训练文本的特征向量对当前判决模型进行训练,得到当前优化判决模型;所述当前判决模型预训练模型或上一次训练后得到的上一优化判决模型;
利用测试文本对所述当前优化模型进行测试,得到当前测试结果;
若所述当前测试结果表示满足预设的评价指标,将所述当前优化模型作为所述文本类别识别模型;
若所述当前测试结果表示不满足预设的评价指标,进行下一次训练,直到下一次测试结果表示满足预设达标条件。
3.根据权利要求2所述多标签文本类别的识别方法,其特征在于,所述待识别文本为医学术语;
所述训练文本为标准医学术语;所述标准医学术语为医学文献中的术语;
所述测试文本为标注医学术语;所述标注医学术语为带有标注的实际临床数据。
4.根据权利要求2所述多标签文本类别的识别方法,其特征在于,利用测试文本对所述当前优化模型进行测试,得到当前测试结果之后,还包括:
根据所述当前测试结果,确定所述当前优化模型的精确率和所述当前优化模型召回率;
对所述当前优化模型的精确率和所述当前优化模型召回率进行平均处理,得到所述当前优化模型的f1值;
计算所述f1值对应的宏平均值和微平均值;
根据所述宏平均值和微平均值,确定所述当前优化模型的打分值;
若所述当前优化模型的打分值大于预设阈值,确定所述当前测试结果表示满足预设的评价指标;
若所述当前优化模型的打分值小于或者等于预设阈值,确定所述当前测试结果表示不满足预设的评价指标。
7.根据权利要求1所述多标签文本类别的识别方法,其特征在于,根据所述待识别文本相对于每个分类标签的概率,确定所述待识别文本的类别,包括:
若存在大于预设基准概率的分类标签,确定大于预设概率的分类标签对应的类别作为所述待识别文本的类别;
若不存在大于预设基准概率的分类标签,选择概率最大的标签对应的类别作为所述待识别文本的类别。
8.一种多标签文本类别的识别装置,其特征在于,包括:
提取模块,用于若获取到待识别文本,提取所述待识别文本的词向量和所述待识别文本的句向量;将所述待识别文本的词向量和所述待识别文本的句向量进行拼接,得到所述待识别文本的全局向量;以及,提取所述待识别文本的全局向量对应的所述待识别文本的特征向量;
计算模块,用于基于预先训练的文本类别判决模型,计算所述待识别文本的特征向量相对于每个分类标签的概率;
确定模块,用于根据所述待识别文本相对于每个分类标签的概率,确定所述待识别文本的类别。
9.一种多标签文本类别的识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的多标签文本类别的识别方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被控制器执行时实现如权利要求1至7中任一项所述的多标签文本类别的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011045815.3A CN112182217B (zh) | 2020-09-28 | 多标签文本类别的识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011045815.3A CN112182217B (zh) | 2020-09-28 | 多标签文本类别的识别方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182217A true CN112182217A (zh) | 2021-01-05 |
CN112182217B CN112182217B (zh) | 2024-07-12 |
Family
ID=
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157788A (zh) * | 2021-04-13 | 2021-07-23 | 福州外语外贸学院 | 大数据挖掘方法及系统 |
CN113297360A (zh) * | 2021-04-29 | 2021-08-24 | 天津汇智星源信息技术有限公司 | 基于弱监督学习和联合学习机制的法律问答方法及设备 |
CN113657092A (zh) * | 2021-06-30 | 2021-11-16 | 北京声智科技有限公司 | 识别标签的方法、装置、设备以及介质 |
CN114138972A (zh) * | 2021-11-30 | 2022-03-04 | 深圳集智数字科技有限公司 | 文本类别的识别方法及装置 |
WO2023045184A1 (zh) * | 2021-09-26 | 2023-03-30 | 平安科技(深圳)有限公司 | 一种文本类别识别方法、装置、计算机设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965819A (zh) * | 2015-07-12 | 2015-10-07 | 大连理工大学 | 一种基于句法词向量的生物医学事件触发词识别方法 |
CN108960073A (zh) * | 2018-06-05 | 2018-12-07 | 大连理工大学 | 面向生物医学文献的跨模态图像模式识别方法 |
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965819A (zh) * | 2015-07-12 | 2015-10-07 | 大连理工大学 | 一种基于句法词向量的生物医学事件触发词识别方法 |
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN108960073A (zh) * | 2018-06-05 | 2018-12-07 | 大连理工大学 | 面向生物医学文献的跨模态图像模式识别方法 |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157788A (zh) * | 2021-04-13 | 2021-07-23 | 福州外语外贸学院 | 大数据挖掘方法及系统 |
CN113157788B (zh) * | 2021-04-13 | 2024-02-13 | 福州外语外贸学院 | 大数据挖掘方法及系统 |
CN113297360A (zh) * | 2021-04-29 | 2021-08-24 | 天津汇智星源信息技术有限公司 | 基于弱监督学习和联合学习机制的法律问答方法及设备 |
CN113657092A (zh) * | 2021-06-30 | 2021-11-16 | 北京声智科技有限公司 | 识别标签的方法、装置、设备以及介质 |
WO2023045184A1 (zh) * | 2021-09-26 | 2023-03-30 | 平安科技(深圳)有限公司 | 一种文本类别识别方法、装置、计算机设备及介质 |
CN114138972A (zh) * | 2021-11-30 | 2022-03-04 | 深圳集智数字科技有限公司 | 文本类别的识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632225B (zh) | 基于案事件知识图谱的语义搜索方法、装置和电子设备 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN111611797B (zh) | 基于Albert模型的预测数据标注的方法、装置及设备 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
US11966455B2 (en) | Text partitioning method, text classifying method, apparatus, device and storage medium | |
CN112598067A (zh) | 事件的情感分类方法、装置、电子设备及存储介质 | |
CN112417093B (zh) | 一种模型训练的方法及装置 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN113221555A (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN111079432A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN110728147B (zh) | 一种模型训练方法及命名实体识别方法 | |
CN111401062A (zh) | 文本的风险识别方法、装置及设备 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN114782054A (zh) | 基于深度学习算法的客服服务质量检测方法及相关设备 | |
CN113255328A (zh) | 语言模型的训练方法及应用方法 | |
CN115344699A (zh) | 文本分类模型的训练方法、装置、计算机设备及介质 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN114090792A (zh) | 基于对比学习的文档关系抽取方法及其相关设备 | |
CN115168575A (zh) | 应用于审计领域的主语补全方法及相关设备 | |
CN113688243B (zh) | 语句中实体的标注方法、装置、设备以及存储介质 | |
CN112182217B (zh) | 多标签文本类别的识别方法、装置、设备和存储介质 | |
CN114358011A (zh) | 命名实体提取方法与装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |