CN112182217A

CN112182217A - 多标签文本类别的识别方法、装置、设备和存储介质

Info

Publication number: CN112182217A
Application number: CN202011045815.3A
Authority: CN
Inventors: 史亚飞
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-05
Anticipated expiration: 2040-09-28

Abstract

本发明提供一种多标签文本类别的识别方法、装置、设备和存储介质，方法，包括若获取到待识别文本，提取所述待识别文本的词向量和所述待识别文本的句向量；将所述待识别文本的词向量和所述待识别文本的句向量进行拼接，得到所述待识别文本的全局向量；提取所述待识别文本的全局向量对应的所述待识别文本的特征向量；基于预先训练的文本类别判决模型，计算所述待识别文本的特征向量相对于每个分类标签的概率；根据所述待识别文本相对于每个分类标签的概率，确定所述待识别文本的类别。采用本发明的技术方案，能够减少分类错误的现象，提高文本分类结果的准确性。

Description

多标签文本类别的识别方法、装置、设备和存储介质

技术领域

本发明涉及文本分类技术领域，尤其涉及一种多标签文本类别的识别方法、装置、设备和存储介质。

背景技术

分类技术作为一种数据分析挖掘的形式，它可以抽取能够描述重要数据集合的模型，用于预测数据对象的类别。而根据分类预测后的样本类别标签个数不同，分类问题又可分为单标签分类问题和多标签分类问题。多标签分类的目的是预测与多个类相关联的示例中，某些标签是否与此示例存在关联。

目前，多标签学习算法大体上可以分为两个流派：一类是问题转化的方法，另一类是算法适应的方法。第一组方法是算法独立的。它们将多标签的分类任务转换为一个或多个单标签分类、回归或标签排序任务。通过把多标签学习问题转化为其他学习场景来解决多标签学习问题。代表性的算法包括Binary Relevance(BR)、Classifier Chain(CC)，这些算法将多标签学习任务转化为二元分类任务，Calibrated Label Ranking将多标签学习任务转换为标签排序任务的二阶方法校准标签排序，以及Random k-labelsets将多标签任务转化为多类分类任务。第二组方法扩展了特定的学习算法，直接处理多标签数据。这类算法通过改造常用的学习算法来直接处理多标签数据，进而解决多标签学习问题。常见的算法决策树、支持向量机、神经网络、贝叶斯、boosting等算法都可以得到应用。代表性算法包括ML-kNN适应懒惰学习算法，ML-DT适应决策树算法，Rank-SVM适应不同的核心技术，以及CML适应信息论算法。

但是，上述算法中，在提取文本的特征时，考虑的仅是单个字或词对分类结果的影响，不涉及句子之间和上下文意思的理解，导致在进行分类时，易出现分类错误的现象，降低了分类结果准确性。

发明内容

有鉴于此，本发明的目的在于提出一种多标签文本类别的识别方法、装置、设备和存储介质，以解决现有技术中对多标签文本分类时易出现分类错误的现象，分类结果准确性较低的问题。

基于上述目的，本发明提供了一种多标签文本类别的识别方法，包括：

若获取到待识别文本，提取所述待识别文本的词向量和所述待识别文本的句向量；

将所述待识别文本的词向量和所述待识别文本的句向量进行拼接，得到所述待识别文本的全局向量；

提取所述待识别文本的全局向量对应的所述待识别文本的特征向量；

基于预先训练的文本类别判决模型，计算所述待识别文本的特征向量相对于每个分类标签的概率；

根据所述待识别文本相对于每个分类标签的概率，确定所述待识别文本的类别。

进一步地，上述所述多标签文本类别的识别方法中，所述文本类别判决模型的训练过程包括以下步骤：

提取训练文本的词向量和训练文本的句向量；

将所述训练文本的词向量和所述训练文本的句向量进行拼接，得到所述训练文本的的全局向量；

提取所述训练文本的全局向量对应的所述训练文本的特征向量；

基于所述训练文本的特征向量对当前判决模型进行训练，得到当前优化判决模型；所述当前判决模型预训练模型或上一次训练后得到的上一优化判决模型；

利用测试文本对所述当前优化模型进行测试，得到当前测试结果；

若所述当前测试结果表示满足预设的评价指标，将所述当前优化模型作为所述文本类别识别模型；

若所述当前测试结果表示不满足预设的评价指标，进行下一次训练，直到下一次测试结果表示满足预设达标条件。

进一步地，上述所述多标签文本类别的识别方法中，所述待识别文本为医学术语；

所述训练文本为标准医学术语；所述标准医学术语为医学文献中的术语；

所述测试文本为标注医学术语；所述标注医学术语为带有标注的实际临床数据。

进一步地，上述所述多标签文本类别的识别方法中，利用测试文本对所述当前优化模型进行测试，得到当前测试结果之后，还包括：

根据所述当前测试结果，确定所述当前优化模型的精确率和所述当前优化模型召回率；

对所述当前优化模型的精确率和所述当前优化模型召回率进行平均处理，得到所述当前优化模型的f1值；

计算所述f1值对应的宏平均值和微平均值；

根据所述宏平均值和微平均值，确定所述当前优化模型的打分值；

若所述当前优化模型的打分值大于预设阈值，确定所述当前测试结果表示满足预设的评价指标；

若所述当前优化模型的打分值小于或者等于预设阈值，确定所述当前测试结果表示不满足预设的评价指标。

进一步地，上述所述多标签文本类别的识别方法中，对所述当前优化模型的精确率和所述当前优化模型召回率进行平均处理的计算式为：

其中，

其中，f1为所述当前优化模型的精确率和所述当前优化模型召回率的平均值，TP表示真正率，FP表示假正率，FNN表示假负率，p表示精确率，r表示召回率；

所述宏平均值的计算式为：

其中，f1_macro为宏平均值，n表示标签的个数；

所述微平均值的计算式为：

其中，p_micro为精确率的微平均值，r_micro为召回率的微平均值，f1_micro为f1的微平均值。

进一步地，上述所述多标签文本类别的识别方法中，确定所述当前优化模型的打分值的计算式为：

其中，score为当前优化模型的打分值。

进一步地，上述所述多标签文本类别的识别方法中，根据所述待识别文本相对于每个分类标签的概率，确定所述待识别文本的类别，包括：

若存在大于预设基准概率的分类标签，确定大于预设概率的分类标签对应的类别作为所述待识别文本的类别；

若不存在大于预设基准概率的分类标签，选择概率最大的标签对应的类别作为所述待识别文本的类别。

本发明还提供一种多标签文本类别的识别装置，包括：

提取模块，用于若获取到待识别文本，提取所述待识别文本的词向量和所述待识别文本的句向量；将所述待识别文本的词向量和所述待识别文本的句向量进行拼接，得到所述待识别文本的全局向量；以及，提取所述待识别文本的全局向量对应的所述待识别文本的特征向量；

计算模块，用于基于预先训练的文本类别判决模型，计算所述待识别文本的特征向量相对于每个分类标签的概率；

确定模块，用于根据所述待识别文本相对于每个分类标签的概率，确定所述待识别文本的类别。

本发明还提供一种多标签文本类别的识别设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的多标签文本类别的识别方法。

本发明还提供一种存储介质，其上存储有计算机程序，所述计算机程序被控制器执行时实现如上任一项所述的多标签文本类别的识别方法。

从上面所述可以看出，本发明提供的多标签文本类别的识别方法、装置、设备和存储介质，通过提取获取的待识别文本的词向量和句向量，并将所述词向量和所述句向量进行拼接，得到所述待识别文本的全局向量后，再提取所述全局向量对应的特征向量，实现了计算待识别文本中每个单词与句子中所有单词的相关关系，从而能抽取出句子序列全局上下文信息的特征向量，这样，在基于预先训练的文本类别判决模型，能够较精准地计算出所述特征向量相对于每个分类标签的概率，以便根据所述待识别文本相对于每个分类标签的概率，精准地确定所述待识别文本的类别，减少分类错误的现象。采用本发明的技术方案，能够提高文本分类结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多标签文本类别的识别方法实施例的流程图；

图2为本发明的多标签文本类别的识别装置实施例的结构示意图；

图3为本发明的多标签文本类别的识别设备实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1为本发明多标签文本类别的识别方法实施例的流程图，如图1所示，本实施例的多标签文本类别的识别方法，具体可以包括：

101、若获取到待识别文本，提取待识别文本的词向量和待识别文本的句向量；

BERT(Bidirectional Encoder Representation from Transformers，Transformer)预训练模型：BERT预训练模型利用masked model实现了语言模型的双向性，证明了双向性对语言表示预训练的重要性。BERT预训练模型是真正意义上的双向语言模型，每个词可以同时利用该词的上下文信息。BERT预训练模型是一个微调模型，在sentence-level和tokenlevel自然语言任务都达到了最好效果。证明了pre-trainedrepresentations可以缓解了不同任务对特殊模型结构的设计需求。BERT在11个自然语言处理任务上达到了最好效果。并在BERT的extensive ablations证明了“BERT的双向性”是一个重要的创新。BERT预训练模型实现了文本到动态字向量的转化，增强了文本向量的语义信息，从而具有强大的字和句子的语义表示功能。

因此，本实施例中，在获取到待识别文本后，可以利用BERT预训练模型提取待识别文本的词向量和待识别文本的句向量。其中，本实施例优选为应用在医学领域，待识别文本优选为医学术语。

例如，首先获得待识别文本的bert词向量，然后接入全局平均池化层，获得平均bert词向量。可以从bert的输出层中抽取符号[CLS]对应的向量，即为bert句向量，其中，[CLS]标签是指：BERT预训练模型在分词中所添加的分类标签。

102、将待识别文本的词向量和待识别文本的句向量进行拼接，得到待识别文本的全局向量；

在提取到待识别文本的词向量和待识别文本的句向量后，可以将待识别文本的词向量和待识别文本的句向量进行拼接，得到待识别文本的全局向量。例如，待识别文本的词向量和待识别文本的句向量均为3维向量，进行拼接后，可以得到6维向量。

103、提取待识别文本的全局向量对应的待识别文本的特征向量；

在获取到待识别文本的全局向量后，可以提取待识别文本的全局向量对应的待识别文本的特征向量，这样，即可得到待识别文本中每个单词与句子中所有单词的相关关系，从而能抽取出句子序列全局上下文信息的特征向量。

104、基于预先训练的文本类别判决模型，计算待识别文本的特征向量相对于每个分类标签的概率；

在提取待识别文本的特征向量后，可以将待识别文本的特征向量输入预先训练的文本类别判决模型，从而计算待识别文本的特征向量相对于每个分类标签的概率。例如，可以基于预先训练的文本类别判决模型中的sigmoid激活函数得到待识别文本的特征向量相对于每个分类标签的概率。

在一个具体实现过程中，文本类别判决模型的训练过程包括以下步骤：

(1)、提取训练文本的词向量和训练文本的句向量；

本实施例中，待识别文本为医学术语，可以选取标准医学术语作为训练文本，其中，该标准医学术语为医学文献中的术语。选取标注医学术语为测试文本；该标注医学术语为带有标注的实际临床数据。

本实施例中，可以提取训练文本的词向量和训练文本的句向量，该过程与步骤101的实现过程相同，详细请参考上述相关记载，在此不再赘述。

(2)、将训练文本的词向量和训练文本的句向量进行拼接，得到训练文本的的全局向量；

该过程与步骤102的实现过程相同，详细请参考上述相关记载，在此不再赘述。

(3)、提取训练文本的全局向量对应的训练文本的特征向量；

该过程与步骤103的实现过程相同，详细请参考上述相关记载，在此不再赘述。

(4)、基于训练文本的特征向量对当前判决模型进行训练，得到当前优化判决模型；当前判决模型预训练模型或上一次训练后得到的上一优化判决模型；

在得到训练文本的特征向量后，可以对当前判决模型进行训练，得到当前优化判决模型；当前判决模型预训练模型或上一次训练后得到的上一优化判决模型。

(5)、利用测试文本对当前优化模型进行测试，得到当前测试结果；

在得到当前优化模型后，可以将测试文本输入该当前优化模型，进行测试，并得到当前测试结果。

(6)、检测当前测试结果是否满足预设的评价指标，若是，执行(7)，若否，返回(1)；

具体地，可以根据得到的当前测试结果，确定当前优化模型的精确率和当前优化模型召回率；对当前优化模型的精确率和当前优化模型召回率进行平均处理，得到当前优化模型的f1值；计算f1值对应的宏平均值和微平均值；根据f1的宏平均值和f1的微平均值，确定当前优化模型的打分值；若当前优化模型的打分值大于预设阈值，确定当前测试结果表示满足预设的评价指标；若当前优化模型的打分值小于或者等于预设阈值，确定当前测试结果表示不满足预设的评价指标。

本实施例中，对当前优化模型的精确率和当前优化模型召回率进行平均处理的计算式为：

其中，

其中，f1为当前优化模型的精确率和当前优化模型召回率的平均值，TP表示真正率，FP表示假正率，FNN表示假负率，p表示精确率，r表示召回率；

宏平均值的计算式为：

其中，f1_macro为宏平均值，n表示标签的个数；

微平均值的计算式为：

确定当前优化模型的打分值的计算式为：

其中，score为当前优化模型的打分值。

(7)、将当前优化模型作为文本类别识别模型；

若当前测试结果表示满足预设的评价指标，将当前优化模型作为文本类别识别模型，完成训练。

105、根据待识别文本相对于每个分类标签的概率，确定待识别文本的类别。

在一个具体实现过程中，可以预先设置一个基准概率，将待识别文本相对于每个分类标签的概率分别与预设基准概率进行比较，若存在大于预设基准概率的分类标签，确定大于预设概率的分类标签对应的类别作为所述待识别文本的类别；因为有可能有多个大于预设基准概率的分类标签，所以有可能存在多个被预测的标签。若不存在大于预设基准概率的分类标签，选择概率最大的标签对应的类别作为所述待识别文本的类别。

本实施例的多标签文本类别的识别方法，通过提取获取的待识别文本的词向量和句向量，并将所述词向量和所述句向量进行拼接，得到所述待识别文本的全局向量后，再提取所述全局向量对应的特征向量，实现了计算待识别文本中每个单词与句子中所有单词的相关关系，从而能抽取出句子序列全局上下文信息的特征向量，这样，在基于预先训练的文本类别判决模型，能够较精准地计算出所述特征向量相对于每个分类标签的概率，以便根据所述待识别文本相对于每个分类标签的概率，精准地确定所述待识别文本的类别，减少分类错误的现象。采用本发明的技术方案，能够提高文本分类结果的准确性。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图2为本发明的多标签文本类别的识别装置实施例的结构示意图，入土所示，本实施例的多标签文本类别的识别装置可以包括提取模块201、计算模块202和确定模块203。

提取模块201，用于若获取到待识别文本，提取待识别文本的词向量和待识别文本的句向量；将待识别文本的词向量和待识别文本的句向量进行拼接，得到待识别文本的全局向量；以及，提取待识别文本的全局向量对应的待识别文本的特征向量；

计算模块202，用于基于预先训练的文本类别判决模型，计算待识别文本的特征向量相对于每个分类标签的概率；

(1)、提取训练文本的词向量和训练文本的句向量；

本实施例中，可以提取训练文本的词向量和训练文本的句向量，该过程与步骤100的实现过程相同，详细请参考上述相关记载，在此不再赘述。

该过程与步骤101的实现过程相同，详细请参考上述相关记载，在此不再赘述。

(3)、提取训练文本的全局向量对应的训练文本的特征向量；

其中，

宏平均值的计算式为：

其中，f1_macro为宏平均值，n表示标签的个数；

微平均值的计算式为：

确定当前优化模型的打分值的计算式为：

其中，score为当前优化模型的打分值。

(7)、将当前优化模型作为文本类别识别模型；

确定模块203，用于根据待识别文本相对于每个分类标签的概率，确定待识别文本的类别。

具体地，若存在大于预设基准概率的分类标签，确定大于预设概率的分类标签对应的类别作为所述待识别文本的类别；若不存在大于预设基准概率的分类标签，选择概率最大的标签对应的类别作为所述待识别文本的类别。

本实施例的具体实现方案可以参见前述实施例记载的远程医疗实体链接的方法及方法实施例中的相关说明，此处不再赘述。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图3为本发明的多标签文本类别的识别设备实施例的结构示意图，如图3所示，本实施例的通行设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种存储介质，其特征在于，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述实施例的多标签文本类别的识别方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。