CN109948160B - 短文本分类方法及装置 - Google Patents

短文本分类方法及装置 Download PDF

Info

Publication number
CN109948160B
CN109948160B CN201910199607.XA CN201910199607A CN109948160B CN 109948160 B CN109948160 B CN 109948160B CN 201910199607 A CN201910199607 A CN 201910199607A CN 109948160 B CN109948160 B CN 109948160B
Authority
CN
China
Prior art keywords
label
short text
text sample
positive
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910199607.XA
Other languages
English (en)
Other versions
CN109948160A (zh
Inventor
熊杰
黄波
李大任
谢勤也
薛娇
刘奕志
周源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhizhe Sihai Beijing Technology Co Ltd
Original Assignee
Zhizhe Sihai Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhizhe Sihai Beijing Technology Co Ltd filed Critical Zhizhe Sihai Beijing Technology Co Ltd
Priority to CN201910199607.XA priority Critical patent/CN109948160B/zh
Publication of CN109948160A publication Critical patent/CN109948160A/zh
Application granted granted Critical
Publication of CN109948160B publication Critical patent/CN109948160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开一种短文本分类方法及装置,能提高短文本标签分类的效果。方法包括:对待处理的短文本进行标签分类以得到第一标签分类结果;通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果,其中所述第二标签分类结果被包括于所述第一标签分类结果的子集中。

Description

短文本分类方法及装置
技术领域
本发明实施例涉及数据处理技术领域,具体涉及一种短文本分类方法及装置。
背景技术
在知乎的业务中,需要对用户提问的问题绑定若干话题。提问的问题是一段短文本(通常是指长度比较短,一般不超过160个字符的文本形式,如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等),话题是一个标签,话题绑定是从标签语料库中选择一个标签子集的过程。随着数据的积累,目前标签语料库已经达到二十万的规模。因此,话题绑定是一个短文本极限多标签分类(Short-text Extreme Multi-labelClassification,SXMC)问题。
现有的标签分类方法主要包括基于One-vs.-Rest(OVR)方法和基于深度学习的方法。其中,基于OVR方法采用基本的机器学习模型来进行分类,通过机器学习模型的分类器输出待分类的文本属于各个分类器对应标签的概率,选择概率最大的前K(K为整数)个分类器对应的标签作为最终的分类结果,当将该方法应用于SXMC问题时,需要在模型中构建所有的标签对应的分类器,模型规模庞大。基于深度学习的方法采用神经网络模型对短文本所属的标签进行预测,当将该方法应用于SXMC问题时,端到端的神经网络模型结构会变得更为复杂。另外知乎的标签语料库涵盖了几乎所有顶级领域及其细分子域,但是其中70%的标签关注者数量小于10。所以,知乎标签语料库存在标签规模大、标签粒度不一以及长尾分布效应显著的问题,当这两种分类方法应用在知乎的业务中时,会使模型难以得到充分训练,训练后的模型的预测效果较差。
发明内容
针对现有技术存在的不足和缺陷,本发明实施例提供一种短文本分类方法及装置。
一方面,本发明实施例提出一种短文本分类方法,包括:
对待处理的短文本进行标签分类以得到第一标签分类结果;
通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果,其中所述第二标签分类结果被包括于所述第一标签分类结果的子集中。
可选地,所述对待处理的短文本进行标签分类以得到第一标签分类结果,包括:
利用自然语言处理算法对待处理的短文本进行标签分类以得到第一中间标签分类结果;
通过查询预设的分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,并将所述与所述待处理的短文本的分词结果中分词相关的至少一个标签作为第二中间标签分类结果;
将所述第一中间标签分类结果和第二中间标签分类结果做并集以得到所述第一标签分类结果。
可选地,所述通过查询预设的分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,包括:
通过查询预设的分词-标签-相关度值的对应关系,得到所述待处理的短文本的分词结果中每一个分词对应的至少一个标签,将所述待处理的短文本的分词结果中各个分词对应的标签做并集以得到所述与所述待处理的短文本的分词结果中分词相关的至少一个标签,其中,所述每一个分词对应的标签为与该分词之间的相关度值最大的前第一数量个标签中的标签。
可选地,在所述通过查询预设的分词-标签-相关度值的对应关系,得到所述待处理的短文本的分词结果中每一个分词对应的至少一个标签之前,还包括:
构建所述分词-标签-相关度值的对应关系。
可选地,所述构建所述分词-标签-相关度值的对应关系,包括:
对于第一短文本样本集中的每一个短文本样本,对该短文本样本进行分词以得到该短文本样本的分词结果,生成该短文本样本的分词结果中每一个分词与预设的第一标签库中每一个标签对应的(分词,标签)对,并计算所述(分词,标签)对的点互信息值;
对于所述每一个短文本样本和所述每一个标签,删除该标签与该短文本样本的分词结果中各个分词对应的(分词,标签)对中除点互信息值最大的(分词,标签)对外的(分词,标签)对,并计算剩余的(分词,标签)对的点互信息值,根据所述剩余的(分词,标签)对的点互信息值得到所述预设的分词-标签-相关度值的对应关系,其中,所述预设的分词-标签-相关度值的对应关系中每一个相关度值为对应的(分词,标签)对的点互信息值。
可选地,在所述通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果之前,还包括:
构建所述标签分类模型;
对于第二短文本样本集中的每一个短文本样本,生成该短文本样本的正标签和负标签;
利用所述第二短文本样本集、所述正标签和所述负标签训练所述标签分类模型以得到所述预先训练好的标签分类模型。
可选地,所述生成该短文本样本的正标签和负标签,包括:
对该短文本样本进行标签分类以得到该短文本样本的标签分类结果,将该短文本样本的标签分类结果作为该短文本样本的正标签,并生成该短文本样本的每一个正标签对应的负标签,将该短文本样本的各个正标签对应的负标签作为该短文本样本的负标签。
可选地,所述生成该短文本样本的每一个正标签对应的负标签,包括:
构建预设的标签语料库中标签的有向无环图;
根据所述有向无环图生成该短文本样本的每一个正标签对应的负标签。
可选地,所述根据所述有向无环图生成该短文本样本的每一个正标签对应的负标签,包括:
对于该短文本样本的每一个正标签,在根据所述有向无环图判断获知该正标签不是叶子结点且该正标签的子结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该子结点作为该正标签对应的一个负标签;和/或
对于该短文本样本的每一个正标签,在根据所述有向无环图判断获知该正标签有兄弟叶子结点且该正标签的兄弟结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该兄弟结点作为该正标签对应的一个负标签,其中,该负标签集合的初始值为空集。
可选地,所述生成该短文本样本的每一个正标签对应的负标签,包括:
采用随机标签采样方法生成该短文本样本的每一个正标签对应的负标签。
可选地,所述采用随机标签采样方法生成该短文本样本的每一个正标签对应的负标签,包括:
对于该短文本样本的每一个正标签,进行随机标签采样,在判断获知采样得到的标签中不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该采样得到的标签作为该正标签对应的负标签,其中,该负标签集合的初始值为空集。
可选地,所述标签分类模型包括:依次连接的输入层、嵌入层、隐藏层和输出层;其中,
在每一次训练的过程中,所述输入层输入所述第二短文本样本集中一个短文本样本的分词结果、该短文本样本的正标签以及该短文本样本的负标签至所述嵌入层;
所述嵌入层输出所述输入层输入的分词结果中各个分词的向量表示、所述输入层输入的正标签的向量表示以及所述输入层输入的负标签的向量表示至所述隐藏层;
所述隐藏层输出该短文本样本与该短文本样本的每一个正标签之间的距离以及该短文本样本与该短文本样本的每一个负标签之间的距离至所述输出层;
所述输出层输出该短文本样本的各个正标签、各个负标签分别与该短文本样本的距离相关度分数,其中,所述距离相关度分数根据对应的距离计算。
可选地,所述距离基于注意力机制计算。
另一方面,本发明实施例提出一种短文本分类装置,包括:
第一分类单元,用于对待处理的短文本进行标签分类以得到第一标签分类结果;
第二分类单元,用于通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果,其中所述第二标签分类结果被包括于所述第一标签分类结果的子集中。
可选地,所述第一分类单元,包括:
第一分类子单元,用于利用自然语言处理算法对待处理的短文本进行标签分类以得到第一中间标签分类结果;
第二分类子单元,用于通过查询预设的分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,并将所述与所述待处理的短文本的分词结果中分词相关的至少一个标签作为第二中间标签分类结果;
第三分类子单元,用于将所述第一中间标签分类结果和第二中间标签分类结果做并集以得到所述第一标签分类结果。
可选地,所述第二分类子单元,具体用于:
通过查询预设的分词-标签-相关度值的对应关系,得到所述待处理的短文本的分词结果中每一个分词对应的至少一个标签,将所述待处理的短文本的分词结果中各个分词对应的标签做并集以得到所述与所述待处理的短文本的分词结果中分词相关的至少一个标签,其中,所述每一个分词对应的标签为与该分词之间的相关度值最大的前第一数量个标签中的标签。
可选地,所述装置还包括:
第一构建子单元,用于在所述第二分类子单元工作之前,构建所述分词-标签-相关度值的对应关系。
可选地,所述第一构建子单元,包括:
计算模块,用于对于第一短文本样本集中的每一个短文本样本,对该短文本样本进行分词以得到该短文本样本的分词结果,生成该短文本样本的分词结果中每一个分词与预设的第一标签库中每一个标签对应的(分词,标签)对,并计算所述(分词,标签)对的点互信息值;
生成模块,用于对于所述每一个短文本样本和所述每一个标签,删除该标签与该短文本样本的分词结果中各个分词对应的(分词,标签)对中除点互信息值最大的(分词,标签)对外的(分词,标签)对,并计算剩余的(分词,标签)对的点互信息值,根据所述剩余的(分词,标签)对的点互信息值得到所述预设的分词-标签-相关度值的对应关系,其中,所述预设的分词-标签-相关度值的对应关系中每一个相关度值为对应的(分词,标签)对的点互信息值。
可选地,所述装置还包括:
构建单元,用于在所述第二分类单元工作之前,构建所述标签分类模型;
生成单元,用于对于第二短文本样本集中的每一个短文本样本,生成该短文本样本的正标签和负标签;
训练单元,用于利用所述第二短文本样本集、所述正标签和所述负标签训练所述标签分类模型以得到所述预先训练好的标签分类模型。
可选地,所述生成单元,具体用于:
对该短文本样本进行标签分类以得到该短文本样本的标签分类结果,将该短文本样本的标签分类结果作为该短文本样本的正标签,并生成该短文本样本的每一个正标签对应的负标签,将该短文本样本的各个正标签对应的负标签作为该短文本样本的负标签。
可选地,所述生成单元,包括:
第二构建子单元,用于构建预设的标签语料库中标签的有向无环图;
生成子单元,用于根据所述有向无环图生成该短文本样本的每一个正标签对应的负标签。
可选地,所述生成子单元,具体用于:
对于该短文本样本的每一个正标签,在根据所述有向无环图判断获知该正标签不是叶子结点且该正标签的子结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该子结点作为该正标签对应的一个负标签;和/或
对于该短文本样本的每一个正标签,在根据所述有向无环图判断获知该正标签有兄弟叶子结点且该正标签的兄弟结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该兄弟结点作为该正标签对应的一个负标签,其中,该负标签集合的初始值为空集。
可选地,所述生成单元,具体用于:
采用随机标签采样方法生成该短文本样本的每一个正标签对应的负标签。
可选地,所述生成单元,具体用于:
对于该短文本样本的每一个正标签,进行随机标签采样,在判断获知采样得到的标签中不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该采样得到的标签作为该正标签对应的负标签,其中,该负标签集合的初始值为空集。
可选地,所述标签分类模型包括:依次连接的输入层、嵌入层、隐藏层和输出层;其中,
在每一次训练的过程中,所述输入层输入所述第二短文本样本集中一个短文本样本的分词结果、该短文本样本的正标签以及该短文本样本的各个正标签对应的负标签至所述嵌入层;
所述嵌入层输出所述输入层输入的分词结果中各个分词的向量表示、所述输入层输入的正标签的向量表示以及所述输入层输入的负标签的向量表示至所述隐藏层;
所述隐藏层输出该短文本样本与该短文本样本的每一个正标签之间的距离以及该短文本样本与该短文本样本的每一个负标签之间的距离至所述输出层;
所述输出层输出该短文本样本的各个正标签、各个负标签分别与该短文本样本的距离相关度分数,其中,所述距离相关度分数根据所述距离计算。
可选地,所述距离基于注意力机制计算。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序;
所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。
本发明实施例提供的短文本分类方法及装置,首先对待处理的短文本进行初步的标签分类,然后利用标签分类模型从初步的标签分类结果中筛选出短文本标签分类的目标结果,相较于现有技术,具有如下有益效果:
(1)相较于现有的OVR方法,本发明实施例只需要对初步的标签分类结果进行识别,不需要训练与标签语料库中标签数量相同的分类器,从而使得标签分类模型规模较小;相较于现有的基于深度学习的方法,本发明实施例中使用的标签分类模型的输入为初步的标签分类结果,标签分类模型不再是端到端的模型,结构更为简单:即本发明实施例的标签分类占用的资源较少,效率更高;
(2)通过初步筛选分类标签再应用标签分类模型进行再次筛选的方式相较于直接应用未能得到充分训练的模型进行标签分类的OVR方法和基于深度学习的方法,标签分类的准确性更高。
附图说明
图1为本发明短文本分类方法一实施例的流程示意图;
图2为图1中S10一实施例的流程示意图;
图3为本发明短文本分类方法另一实施例的部分流程示意图;
图4为本发明短文本分类方法又一实施例的流程示意图;
图5为本发明短文本分类方法又一实施例的部分流程示意图;
图6为图5中S51一实施例的流程示意图;
图7为本发明短文本分类装置一实施例的结构示意图;
图8为图7所示的第一分类单元70一实施例的结构示意图;
图9为图7所示的第一分类单元70另一实施例的结构示意图;
图10为本发明短文本分类装置另一实施例的结构示意图;
图11为图10所示的生成单元101一实施例的结构示意图;
图12为图11所示的生成子单元111一实施例的结构示意图;
图13为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
参看图1,本实施例公开一种短文本分类方法,包括:
S10、对待处理的短文本进行标签分类以得到第一标签分类结果;
S11、通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果,其中所述第二标签分类结果被包括于所述第一标签分类结果的子集中。
本实施例中,步骤S10的标签分类过程具体可以为利用标签语料库中的标签对所述待处理的短文本进行标签分类以得到第一标签分类结果,第一标签分类结果是从标签语料库中筛选出的一部分标签,在筛选出第一标签分类结果后,需要从第一标签分类结果中筛选出第二标签分类结果,该第二标签分类结果即为待处理的短文本标签分类的目标结果。
本发明实施例提供的短文本分类方法,首先对待处理的短文本进行初步的标签分类,然后利用标签分类模型从初步的标签分类结果中筛选出短文本标签分类的目标结果,相较于现有技术,具有如下有益效果:(1)相较于现有的OVR方法,本发明实施例只需要对初步的标签分类结果进行识别,不需要训练与标签语料库中标签数量相同的分类器,从而使得标签分类模型规模较小;相较于现有的基于深度学习的方法,本发明实施例中使用的标签分类模型的输入为初步的标签分类结果,标签分类模型不再是端到端的模型,结构更为简单:即本发明实施例的标签分类占用的资源较少,效率更高;(2)通过初步筛选分类标签再应用标签分类模型进行再次筛选的方式相较于直接应用未能得到充分训练的模型进行标签分类的OVR方法和基于深度学习的方法,标签分类的准确性更高。
图2为图1中S10一实施例的流程示意图,参看图2,在前述方法实施例的基础上,所述S10,可以包括:
S20、利用自然语言处理算法对待处理的短文本进行标签分类以得到第一中间标签分类结果;
S21、通过查询预设的分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,并将所述与所述待处理的短文本的分词结果中分词相关的至少一个标签作为第二中间标签分类结果;
S22、将所述第一中间标签分类结果和第二中间标签分类结果做并集以得到所述第一标签分类结果。
本实施例中,步骤S20具体可以使用AC多模匹配算法对所述待处理的短文本进行标签分类以得到第一中间标签分类结果,具体过程可以为:将所述待处理的短文本输入预先构建的AC匹配自动机,将AC匹配自动机的输出作为所述第一中间标签分类结果。在构建AC匹配自动机时,可以利用标签语料库中所有标签及对应的属性形成的(标签,属性)对构建AC匹配自动机。所述分词-标签-相关度值的对应关系包括至少一个(分词,标签,相关度值)三元组对应的对应关系。通过查询所述分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,指的是将所述待处理的短文本的分词结果中分词对应的标签中对应的相关度值较大的至少一个标签作为目的标签。本实施例中,首先利用自然语言处理算法进行标签分类以得到第一中间标签分类结果,然后通过查询预设的分词-标签-相关度值的对应关系,得到第二中间标签分类结果,最后将所述第一中间标签分类结果和第二中间标签分类结果做并集以得到所述第一标签分类结果,通过此过程得到的第一标签分类结果所包含的标签更为全面、准确,从而便于准确确定出第二标签分类结果。
在前述方法实施例的基础上,所述通过查询预设的分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,可以包括:
通过查询预设的分词-标签-相关度值的对应关系,得到所述待处理的短文本的分词结果中每一个分词对应的至少一个标签,将所述待处理的短文本的分词结果中各个分词对应的标签做并集以得到所述与所述待处理的短文本的分词结果中分词相关的至少一个标签,其中,所述每一个分词对应的标签为与该分词之间的相关度值最大的前第一数量个标签中的标签。
本实施例中,需要针对所述待处理的短文本的分词结果中每一个分词,通过查询所述分词-标签-相关度值的对应关系,得到该分词对应的至少一个标签,然后将各个分词对应的标签做并集即可得到与所述待处理的短文本的分词结果中分词相关的至少一个标签。而对于每一个分词,该分词对应的至少一个标签为根据所述分词-标签-相关度值的对应关系确定的该分词对应的所有标签中与该分词之间的相关度值最大的前第一数量个标签中的至少一个标签,具体可以为所述前第一数量个标签中的前至少一个标签。第一数量可以根据需要设置,此处不再赘述。
在前述方法实施例的基础上,在所述通过查询预设的分词-标签-相关度值的对应关系,得到所述待处理的短文本的分词结果中每一个分词对应的至少一个标签之前,还可以包括:
构建所述分词-标签-相关度值的对应关系。
本实施例中,可以理解的是,为了得到较为准确的第二中间标签分类结果,所述分词-标签-相关度值的对应关系中的分词需要尽量涵盖对短文本分词所能得到的所有分词,而标签需要尽量涵盖所有的分词标签。
图3为本发明短文本分类方法另一实施例的部分流程示意图,参看图3,在前述方法实施例的基础上,所述构建所述分词-标签-相关度值的对应关系,可以包括:
S30、对于第一短文本样本集中的每一个短文本样本,对该短文本样本进行分词以得到该短文本样本的分词结果,生成该短文本样本的分词结果中每一个分词与预设的第一标签库中每一个标签对应的(分词,标签)对,并计算所述(分词,标签)对的点互信息值;
S31、对于所述每一个短文本样本和所述每一个标签,删除该标签与该短文本样本的分词结果中各个分词对应的(分词,标签)对中除点互信息值最大的(分词,标签)对外的(分词,标签)对,并计算剩余的(分词,标签)对的点互信息值,根据所述剩余的(分词,标签)对的点互信息值得到所述预设的分词-标签-相关度值的对应关系,其中,所述预设的分词-标签-相关度值的对应关系中每一个相关度值为对应的(分词,标签)对的点互信息值。
本实施例中,通过保留点互信息值最大的(分词,标签)对来构建分词-标签-相关度值的对应关系,使得通过查询分词-标签-相关度值的对应关系得到的第二中间标签分类结果中的标签为与短文本的相关度较高的标签,便于借助于标签分类模型从第二中间标签分类结果中筛选出更为准确的目的标签。
(分词M,标签N)对的点互信息值可以为分词M出现的概率与标签N出现的概率的乘积,与(分词M,标签N)对出现的概率的比值。分词M出现的概率为第一短文本样本集中的所有短文本样本的分词结果中分词M出现的次数与该分词结果中各个分词出现的总次数的比值。标签N出现的概率和(分词M,标签N)对出现的概率均与分词M出现的概率的计算方法一致,此处不再赘述。
构建分词-标签-相关度值的对应关系的过程可以离线进行,以保证第二中间标签分类结果的计算效率,继而保证待处理的短文本的标签分类效率。
本实施例中,第一标签分类结果的计算过程和步骤S11解耦,便于优化。第一标签分类结果中的标签数量大概可以为数十个,即标签分类模型只需要对这数十个标签进行分类,相较于需要对标签语料库中每一个标签进行识别的现有技术,本实施例中需要构建的标签分类模型规模、复杂度较小,一定程度上解决了长尾问题,提高了标签分类的效率和准确率。
图4为本发明短文本分类方法又一实施例的流程示意图,参看图4,在前述方法实施例的基础上,在所述通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果之前,还可以包括:
S40、构建所述标签分类模型;
S41、对于第二短文本样本集中的每一个短文本样本,生成该短文本样本的正标签和负标签;
S42、利用所述第二短文本样本集、所述正标签和所述负标签训练所述标签分类模型以得到所述预先训练好的标签分类模型。
本实施例中,第一短文本样本集和第二短文本样本集可以是相同的样本集,也可以是不相同的样本集。利用采样得到的正标签和负标签能够训练得到性能更好的标签分类模型,便于提高待处理的短文本的标签分类的准确度。
在前述方法实施例的基础上,所述生成该短文本样本的正标签和负标签,可以包括:
对该短文本样本进行标签分类以得到该短文本样本的标签分类结果,将该短文本样本的标签分类结果作为该短文本样本的正标签,并生成该短文本样本的每一个正标签对应的负标签,将该短文本样本的各个正标签对应的负标签作为该短文本样本的负标签。
本实施例中,可以理解的是,对于该短文本样本的每一个正标签,均需要生成该正标签对应的负标签,则该短文本样本的各个正标签对应的各个负标签即为该短文本样本的负标签。
图5为本发明短文本分类方法又一实施例的部分流程示意图,参看图5,在前述方法实施例的基础上,所述生成该短文本样本的每一个正标签对应的负标签,可以包括:
S50、构建预设的标签语料库中标签的有向无环图;
S51、根据所述有向无环图生成该短文本样本的每一个正标签对应的负标签。
本实施例中,在生成正标签对应的负标签之前,需要预先根据标签语料库构建标签的有向无环图,构建过程为现有技术,此处不再赘述。
图6为图5中S51一实施例的流程示意图,参看图6,在前述方法实施例的基础上,所述S51,可以包括:
S60、对于该短文本样本的每一个正标签,在根据所述有向无环图判断获知该正标签不是叶子结点且该正标签的子结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该子结点作为该正标签对应的一个负标签;和/或
S61、对于该短文本样本的每一个正标签,在根据所述有向无环图判断获知该正标签有兄弟叶子结点且该正标签的兄弟结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该兄弟结点作为该正标签对应的一个负标签,其中,该负标签集合的初始值为空集。
本实施例中,对于某一个正标签,可以按照步骤S60所述的采样方法进行负采样,也可以按照步骤S61所述的采样方法进行负采样,还可以同时按照步骤S60和步骤S61所述的采样方法进行负采样。
比如,按照步骤S60所述的采样方法对某一个正标签进行负采样的过程可以为:根据标签的有向无环图判断该正标签是否是叶子结点,若不是叶子结点,则对于该正标签的每一个子结点,判断该子结点是否属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合,若该子结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合,则将该子结点加入到该负标签集合。在该负采样过程中,如果该正标签是叶子结点,则停止对该正标签进行负采样,或者如果该子结点属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合的并集,则不将该子结点加入到该负标签集合。
按照步骤S61所述的采样方法对某一个正标签进行负采样的过程可以为:根据标签的有向无环图判断该正标签是否有兄弟结点,若有兄弟结点,则对于该正标签的每一个兄弟结点,判断该兄弟结点是否属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合,若该兄弟结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合,则将该兄弟结点加入到该负标签集合。在该负采样过程中,如果该正标签没有兄弟结点,则停止对该正标签进行负采样,或者如果该兄弟结点属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合的并集,则不将该兄弟结点加入到该负标签集合。
在具体的实施例中,步骤S60和步骤S61的采样方法的采样数量可以根据需要设置,比如可以设置对某一个正标签,按步骤S60的采样方法采样5个负标签,按步骤S61的采样方法再采样5个负标签。
本实施例中,利用标签之间的关系进行负采样,考虑了标签之间的结构,能保证负采样的效率和准确度。
在前述方法实施例的基础上,所述生成该短文本样本的每一个正标签对应的负标签,可以包括:
采用随机标签采样方法生成该短文本样本的每一个正标签对应的负标签。
在前述方法实施例的基础上,所述采用随机标签采样方法生成该短文本样本的每一个正标签对应的负标签,可以包括:
对于该短文本样本的每一个正标签,进行随机标签采样,在判断获知采样得到的标签中不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该采样得到的标签作为该正标签对应的负标签,其中,该负标签集合的初始值为空集。
本实施例中的负标签采样采用随机采样方法,可以使用该方法进行负标签采样,也可以将该方法和上一实施例所述的采样方法相结合进行负标签采样。具体来说,比如某一个正标签使用上一实施例所述的采样方法未采样出负标签,则可以对该正标签使用本实施例所述的随机采样方法采样出负标签。再比如对某一个正标签使用上一实施例所述的采样方法和本实施例所述的随机采样方法分别采样出部分负标签,将使用该两种方法采样出的负标签的集合作为对该正标签进行负采样的目标结果。
在前述方法实施例的基础上,所述标签分类模型可以包括:依次连接的输入层、嵌入层、隐藏层和输出层;其中,
在每一次训练的过程中,所述输入层输入所述第二短文本样本集中一个短文本样本的分词结果、该短文本样本的正标签以及该短文本样本的负标签至所述嵌入层;
所述嵌入层输出所述输入层输入的分词结果中各个分词的向量表示、所述输入层输入的正标签的向量表示以及所述输入层输入的负标签的向量表示至所述隐藏层;
所述隐藏层输出该短文本样本与该短文本样本的每一个正标签之间的距离以及该短文本样本与该短文本样本的每一个负标签之间的距离至所述输出层;
所述输出层输出该短文本样本的各个正标签、各个负标签分别与该短文本样本的距离相关度分数,其中,所述距离相关度分数根据对应的距离计算。
本实施例中,需要说明的是,所述嵌入层输出的向量表示为数字标识的向量表示。比如,对于分词“明朝”,可以使用一个数字来唯一标识,则该分词“明朝”的向量表示可以为唯一标识它的数字的二进制标识,具体该二进制表示的长度可以根据需要设置,比如可以设置为256。对于所述隐藏层,其需要计算训练的短文本样本与该短文本样本的每一个正标签之间的距离以及该短文本样本与该短文本样本的每一个负标签之间的距离。举例来说,对于第i个短文本样本和该第i个短文本样本的第p个正标签,可以计算该第i个短文本样本的向量表示和该第p个正标签的潜在表示之间的距离,将该第i个短文本样本的向量表示和该第p个正标签的潜在表示之间的距离作为该第i个短文本样本和该第p个正标签之间的距离。而对于该第i个短文本样本的向量表示,可以先将该第i个短文本样本的分词结果中各个分词输入双向长短期记忆网络LSTM,得到每个分词的隐向量,然后对该第i个短文本样本的分词的隐向量进行加权求和,得到该第i个短文本样本的向量表示,其中,加权求和的权重可以基于注意力机制计算。该第i个短文本样本的第j个分词对应的权重αij的计算公式为
Figure BDA0001996941520000191
其中,sij=uT×tanh(W×hij+b),W、u和b为需要进行训练的参数,hij为该第i个短文本样本的第j个分词的隐向量。该第p个正标签的潜在表示可以为将该第p个正标签的向量表示输入全连接网络得到的输出结果。该短文本样本与该短文本样本的负标签之间的距离的计算方法,与该短文本样本与该短文本样本的正标签之间的距离的计算方法一致,所不同的是负标签的潜在表示是将负标签的向量表示输入参数与正标签对应的全连接网络相同而结构与正标签对应的全连接网络对称的全连接网络得到的输出结果。一个短文本样本的正标签为与该短文本样本相关的标签,负标签为与该短文本样本不相关的标签。
所述输出层可以采用Triplet Loss作为损失函数,最终的训练目标是最小化该损失函数。
标签与短文本样本的距离相关度分数具体可以使用标签与短文本样本之间的距离进行量化,也可以使用标签与短文本样本之间的距离的归一化值进行量化。
在利用训练好的标签分类模型进行分类时,将第一标签分类结果作为正标签,不需要计算第一标签分类结果对应的负标签。将待处理的短文本和第一标签分类结果输入标签分类模型,得到待处理的短文本与第一标签分类结果中各个标签的距离相关度分数,可以从第一标签分类结果中选择较大距离相关度分数对应的标签作为第二标签分类结果。具体地,第二标签分类结果可以为标签分类模型的输出结果中对应的距离相关度分数最大的多个标签中的至少一个。可以理解的是,短文本的分词结果中的分词顺序影响着文本的含义,继而影响着短文本的标签分类效果。而本实施例所述的标签分类模型使用的LSTM能够处理分词顺序,因而能保证标签分类的准确度。
参看图7,本实施例公开一种短文本分类装置,包括:
第一分类单元70,用于对待处理的短文本进行标签分类以得到第一标签分类结果;
第二分类单元71,用于通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果,其中所述第二标签分类结果被包括于所述第一标签分类结果的子集中。
具体地,所述第一分类单元70对待处理的短文本进行标签分类以得到第一标签分类结果;所述第二分类单元71通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果。
本发明实施例提供的短文本分类装置,首先对待处理的短文本进行初步的标签分类,然后利用标签分类模型从初步的标签分类结果中筛选出短文本标签分类的目标结果,相较于现有技术,具有如下有益效果:(1)相较于现有的OVR方法,本发明实施例只需要对初步的标签分类结果进行识别,不需要训练与标签语料库中标签数量相同的分类器,从而使得标签分类模型规模较小;相较于现有的基于深度学习的方法,本发明实施例中使用的标签分类模型的输入为初步的标签分类结果,标签分类模型不再是端到端的模型,结构更为简单:即本发明实施例的标签分类占用的资源较少,效率更高;(2)通过初步筛选分类标签再应用标签分类模型进行再次筛选的方式相较于直接应用未能得到充分训练的模型进行标签分类的OVR方法和基于深度学习的方法,标签分类的准确性更高。
图8为图7所示的第一分类单元70一实施例的结构示意图,参看图8,在前述装置实施例的基础上,所述第一分类单元70,可以包括:
第一分类子单元80,用于利用自然语言处理算法对待处理的短文本进行标签分类以得到第一中间标签分类结果;
第二分类子单元81,用于通过查询预设的分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,并将所述与所述待处理的短文本的分词结果中分词相关的至少一个标签作为第二中间标签分类结果;
第三分类子单元82,用于将所述第一中间标签分类结果和第二中间标签分类结果做并集以得到所述第一标签分类结果。
本实施例中,第一分类子单元80具体可以使用AC多模匹配算法对所述待处理的短文本进行标签分类,得到第一中间标签分类结果,具体过程可以为:将所述待处理的短文本输入预先构建的AC匹配自动机,将AC匹配自动机的输出作为所述第一中间标签分类结果。在构建AC匹配自动机时,可以利用标签语料库中所有标签及对应的属性形成的(标签,属性)对构建AC匹配自动机。所述分词-标签-相关度值的对应关系包括至少一个(分词,标签,相关度值)三元组对应的对应关系。通过查询所述分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,指的是将所述待处理的短文本的分词结果中分词对应的标签中对应的相关度值较大的至少一个标签作为目的标签。本实施例中,首先利用自然语言处理算法进行标签分类,得到第一中间标签分类结果,然后通过查询预设的分词-标签-相关度值的对应关系,得到第二中间标签分类结果,最后将所述第一中间标签分类结果和第二中间标签分类结果做并集,得到所述第一标签分类结果,通过此过程得到的第一标签分类结果所包含的标签更为全面、准确,从而便于准确确定出第二标签分类结果。
在前述装置实施例的基础上,所述第二分类子单元,具体可以用于:
通过查询预设的分词-标签-相关度值的对应关系,得到所述待处理的短文本的分词结果中每一个分词对应的至少一个标签,将所述待处理的短文本的分词结果中各个分词对应的标签做并集以得到所述与所述待处理的短文本的分词结果中分词相关的至少一个标签,其中,所述每一个分词对应的标签为与该分词之间的相关度值最大的前第一数量个标签中的标签。
本实施例中,需要针对所述待处理的短文本的分词结果中每一个分词,通过查询所述分词-标签-相关度值的对应关系,得到该分词对应的至少一个标签,然后将各个分词对应的标签做并集即可得到与所述待处理的短文本的分词结果中分词相关的至少一个标签。而对于每一个分词,该分词对应的至少一个标签为根据所述分词-标签-相关度值的对应关系确定的该分词对应的所有标签中与该分词之间的相关度值最大的前第一数量个标签中的至少一个标签,具体可以为所述前第一数量个标签中的前至少一个标签。第一数量可以根据需要设置,此处不再赘述。
在前述装置实施例的基础上,所述装置还可以包括:
第一构建子单元,用于在所述第二分类子单元工作之前,构建所述分词-标签-相关度值的对应关系。
本实施例中,可以理解的是,为了得到较为准确的第二中间标签分类结果,所述分词-标签-相关度值的对应关系中的分词需要尽量涵盖对短文本分词所能得到的所有分词,而标签需要尽量涵盖所有的分词标签。
图9为图7所示的第一分类单元70另一实施例的结构示意图,参看图9,在前述装置实施例的基础上,所述第一构建子单元,可以包括:
计算模块90,用于对于第一短文本样本集中的每一个短文本样本,对该短文本样本进行分词以得到该短文本样本的分词结果,生成该短文本样本的分词结果中每一个分词与预设的第一标签库中每一个标签对应的(分词,标签)对,并计算所述(分词,标签)对的点互信息值;
生成模块91,用于对于所述每一个短文本样本和所述每一个标签,删除该标签与该短文本样本的分词结果中各个分词对应的(分词,标签)对中除点互信息值最大的(分词,标签)对外的(分词,标签)对,并计算剩余的(分词,标签)对的点互信息值,根据所述剩余的(分词,标签)对的点互信息值得到所述预设的分词-标签-相关度值的对应关系,其中,所述预设的分词-标签-相关度值的对应关系中每一个相关度值为对应的(分词,标签)对的点互信息值。
本实施例中,通过保留点互信息值最大的(分词,标签)对来构建分词-标签-相关度值的对应关系,使得通过查询分词-标签-相关度值的对应关系得到的第二中间标签分类结果中的标签为与短文本的相关度较高的标签,便于借助于标签分类模型从第二中间标签分类结果中筛选出更为准确的目的标签。
(分词M,标签N)对的点互信息值可以为分词M出现的概率与标签N出现的概率的乘积,与(分词M,标签N)对出现的概率的比值。分词M出现的概率为第一短文本样本集中的所有短文本样本的分词结果中分词M出现的次数与该分词结果中各个分词出现的总次数的比值。标签N出现的概率和(分词M,标签N)对出现的概率均与分词M出现的概率的计算方法一致,此处不再赘述。
构建分词-标签-相关度值的对应关系的过程可以离线进行,以保证第二中间标签分类结果的计算效率,继而保证待处理的短文本的标签分类效率。
本实施例中,第一标签分类结果的计算过程和第二标签分类结果的计算过程解耦,便于优化。第一标签分类结果中的标签数量大概可以为数十个,即标签分类模型只需要对这数十个标签进行分类,相较于需要对标签语料库中每一个标签进行识别的现有技术,本实施例中需要构建的标签分类模型规模、复杂度较小,一定程度上解决了长尾问题,提高了标签分类的效率和准确率。
图10为本发明短文本分类装置另一实施例的结构示意图,参看图10,在前述装置实施例的基础上,所述装置还可以包括:
构建单元,100,用于在所述第二分类单元工作之前,构建所述标签分类模型;
生成单元101,用于对于第二短文本样本集中的每一个短文本样本,生成该短文本样本的正标签和负标签;
训练单元102,用于利用所述第二短文本样本集、所述正标签和所述负标签训练所述标签分类模型以得到所述预先训练好的标签分类模型。
本实施例中,第一短文本样本集和第二短文本样本集可以是相同的样本集,也可以是不相同的样本集。利用采样得到的正标签和负标签能够训练得到性能更好的标签分类模型,便于提高待处理的短文本的标签分类的准确度。
在前述装置实施例的基础上,所述生成单元,具体可以用于:
对该短文本样本进行标签分类以得到该短文本样本的标签分类结果,将该短文本样本的标签分类结果作为该短文本样本的正标签,并生成该短文本样本的每一个正标签对应的负标签,将该短文本样本的各个正标签对应的负标签作为该短文本样本的负标签。
本实施例中,可以理解的是,对于该短文本样本的每一个正标签,均需要生成该正标签对应的负标签,则该短文本样本的各个正标签对应的各个负标签即为该短文本样本的负标签。
图11为图10所示的生成单元101一实施例的结构示意图,参看图11,在前述装置实施例的基础上,所述生成单元101,可以包括:
第二构建子单元110,用于构建预设的标签语料库中标签的有向无环图;
生成子单元111,用于根据所述有向无环图生成该短文本样本的每一个正标签对应的负标签。
本实施例中,在生成正标签对应的负标签之前,需要预先根据标签语料库构建标签的有向无环图,构建过程为现有技术,此处不再赘述。
图12为图11所示的生成子单元111一实施例的结构示意图,参看图12,在前述装置实施例的基础上,所述生成子单元111,可以包括:
第一生成模块120,用于对于该短文本样本的每一个正标签,在根据所述有向无环图判断获知该正标签不是叶子结点且该正标签的子结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该子结点作为该正标签对应的一个负标签;和/或
第二生成模块121,用于对于该短文本样本的每一个正标签,在根据所述有向无环图判断获知该正标签有兄弟叶子结点且该正标签的兄弟结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该兄弟结点作为该正标签对应的一个负标签,其中,该负标签集合的初始值为空集。
本实施例中,对于某一个正标签,可以按照第一生成模块120所述的采样过程进行负采样,也可以按照第二生成模块121所述的采样过程进行负采样,还可以同时按照第一生成模块120和第二生成模块121所述的采样方法进行负采样。
比如,按照第一生成模块120所述的采样过程对某一个正标签进行负采样的过程可以为:根据标签的有向无环图判断该正标签是否是叶子结点,若不是叶子结点,则对于该正标签的每一个子结点,判断该子结点是否属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合,若该子结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合,则将该子结点加入到该负标签集合。在该负采样过程中,如果该正标签是叶子结点,则停止对该正标签进行负采样,或者如果该子结点属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合的并集,则不将该子结点加入到该负标签集合。
按照第二生成模块121所述的采样过程对某一个正标签进行负采样的过程可以为:根据标签的有向无环图判断该正标签是否有兄弟结点,若有兄弟结点,则对于该正标签的每一个兄弟结点,判断该兄弟结点是否属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合,若该兄弟结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合,则将该兄弟结点加入到该负标签集合。在该负采样过程中,如果该正标签没有兄弟结点,则停止对该正标签进行负采样,或者如果该兄弟结点属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合的并集,则不将该兄弟结点加入到该负标签集合。
在具体的实施例中,第一生成模块120和第二生成模块121的采样过程的采样数量可以根据需要设置,比如可以设置对某一个正标签,按第一生成模块120的采样过程采样5个负标签,按第二生成模块121的采样过程再采样5个负标签。
本实施例中,利用标签之间的关系进行负采样,考虑了标签之间的结构,能保证负采样的效率和准确度。
在前述装置实施例的基础上,所述生成单元,具体可以用于:
采用随机标签采样方法生成该短文本样本的每一个正标签对应的负标签。
在前述装置实施例的基础上,所述生成单元,具体可以用于:
对于该短文本样本的每一个正标签,进行随机标签采样,在判断获知采样得到的标签中不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该采样得到的标签作为该正标签对应的负标签,其中,该负标签集合的初始值为空集。
本实施例中的负标签采样采用随机采样方法,可以使用该方法进行负标签采样,也可以将该方法和上一实施例所述的采样方法相结合进行负标签采样。具体来说,比如某一个正标签使用上一实施例所述的采样方法未采样出负标签,则可以对该正标签使用本实施例所述的随机采样方法采样出负标签。再比如对某一个正标签使用上一实施例所述的采样方法和本实施例所述的随机采样方法分别采样出部分负标签,将使用该两种方法采样出的负标签的集合作为对该正标签进行负采样的目标结果。
在前述装置实施例的基础上,所述标签分类模型可以包括:依次连接的输入层、嵌入层、隐藏层和输出层;其中,
在每一次训练的过程中,所述输入层输入所述第二短文本样本集中一个短文本样本的分词结果、该短文本样本的正标签以及该短文本样本的各个正标签对应的负标签至所述嵌入层;
所述嵌入层输出所述输入层输入的分词结果中各个分词的向量表示、所述输入层输入的正标签的向量表示以及所述输入层输入的负标签的向量表示至所述隐藏层;
所述隐藏层输出该短文本样本与该短文本样本的每一个正标签之间的距离以及该短文本样本与该短文本样本的每一个负标签之间的距离至所述输出层;
所述输出层输出该短文本样本的各个正标签、各个负标签分别与该短文本样本的距离相关度分数,其中,所述距离相关度分数根据所述距离计算。
本实施例中,需要说明的是,所述嵌入层输出的向量表示为数字标识的向量表示。比如,对于分词“明朝”,可以使用一个数字来唯一标识,则该分词“明朝”的向量表示可以为唯一标识它的数字的二进制标识,具体该二进制表示的长度可以根据需要设置,比如可以设置为256。对于所述隐藏层,其需要计算训练的短文本样本与该短文本样本的每一个正标签之间的距离以及该短文本样本与该短文本样本的每一个负标签之间的距离。举例来说,对于第i个短文本样本和该第i个短文本样本的第p个正标签,可以计算该第i个短文本样本的向量表示和该第p个正标签的潜在表示之间的距离,将该第i个短文本样本的向量表示和该第p个正标签的潜在表示之间的距离作为该第i个短文本样本和该第p个正标签之间的距离。而对于该第i个短文本样本的向量表示,可以先将该第i个短文本样本的分词结果中各个分词输入双向长短期记忆网络LSTM,得到每个分词的隐向量,然后对该第i个短文本样本的分词的隐向量进行加权求和,得到该第i个短文本样本的向量表示,其中,加权求和的权重可以基于注意力机制计算。该第i个短文本样本的第j个分词对应的权重αij的计算公式为
Figure BDA0001996941520000291
其中,sij=uT×tanh(W×hij+b),W、u和b为需要进行训练的参数,hij为该第i个短文本样本的第j个分词的隐向量。该第p个正标签的潜在表示可以为将该第p个正标签的向量表示输入全连接网络得到的输出结果。该短文本样本与该短文本样本的负标签之间的距离的计算方法,与该短文本样本与该短文本样本的正标签之间的距离的计算方法一致,所不同的是负标签的潜在表示是将负标签的向量表示输入参数与正标签对应的全连接网络相同而结构与正标签对应的全连接网络对称的全连接网络得到的输出结果。一个短文本样本的正标签为与该短文本样本相关的标签,负标签为与该短文本样本不相关的标签。
所述输出层可以采用Triplet Loss作为损失函数,最终的训练目标是最小化该损失函数。
标签与短文本样本的距离相关度分数具体可以使用标签与短文本样本之间的距离进行量化,也可以使用标签与短文本样本之间的距离的归一化值进行量化。
在利用训练好的标签分类模型进行分类时,将第一标签分类结果作为正标签,不需要计算第一标签分类结果对应的负标签。将待处理的短文本和第一标签分类结果输入标签分类模型,得到待处理的短文本与第一标签分类结果中各个标签的距离相关度分数,可以从第一标签分类结果中选择较大距离相关度分数对应的标签作为第二标签分类结果。具体地,第二标签分类结果可以为标签分类模型的输出结果中对应的距离相关度分数最大的多个标签中的至少一个。可以理解的是,短文本的分词结果中的分词顺序影响着文本的含义,继而影响着短文本的标签分类效果。而本实施例所述的标签分类模型使用的LSTM能够处理分词顺序,因而能保证标签分类的准确度。
图13示出了本发明实施例提供的一种电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器130、存储器131、总线132及存储在存储器131上并可在处理器130上运行的计算机程序;
其中,所述处理器130,存储器131通过所述总线132完成相互间的通信;
所述处理器130执行所述计算机程序时实现上述各方法实施例所提供的方法,例如包括:对待处理的短文本进行标签分类以得到第一标签分类结果;通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果,其中所述第二标签分类结果被包括于所述第一标签分类结果的子集中。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例所提供的方法,例如包括:对待处理的短文本进行标签分类以得到第一标签分类结果;通过将所述待处理的短文本和所述第一标签分类结果输入预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果,其中所述第二标签分类结果被包括于所述第一标签分类结果的子集中。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (22)

1.一种短文本分类方法,其特征在于,包括:
构建标签分类模型;
对于第二短文本样本集中的每一个短文本样本,生成该短文本样本的正标签和负标签;
利用所述第二短文本样本集、所述正标签和所述负标签训练所述标签分类模型以得到预先训练好的标签分类模型;
对待处理的短文本进行标签分类以得到第一标签分类结果;其中,所述对待处理的短文本进行标签分类以得到第一标签分类结果,包括:利用自然语言处理算法对待处理的短文本进行标签分类以得到第一中间标签分类结果;通过查询预设的分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,并将所述与所述待处理的短文本的分词结果中分词相关的至少一个标签作为第二中间标签分类结果;将所述第一中间标签分类结果和第二中间标签分类结果做并集以得到所述第一标签分类结果;
通过将所述待处理的短文本和所述第一标签分类结果输入所述预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果,其中所述第二标签分类结果被包括于所述第一标签分类结果的子集中;
其中,所述生成该短文本样本的正标签和负标签,包括:根据有向无环图生成该短文本样本的每一个正标签对应的负标签;将该短文本样本的各个正标签对应的负标签作为该短文本样本的负标签;所述根据有向无环图生成该短文本样本的每一个正标签对应的负标签,包括:
对于该短文本样本的每一个正标签,在根据有向无环图判断获知该正标签不是叶子结点且该正标签的子结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该子结点作为该正标签对应的一个负标签;或
对于该短文本样本的每一个正标签,在根据有向无环图判断获知该正标签有兄弟叶子结点且该正标签的兄弟结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该兄弟结点作为该正标签对应的一个负标签,其中,该负标签集合的初始值为空集。
2.根据权利要求1所述的方法,其特征在于,所述通过查询预设的分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,包括:
通过查询预设的分词-标签-相关度值的对应关系,得到所述待处理的短文本的分词结果中每一个分词对应的至少一个标签,将所述待处理的短文本的分词结果中各个分词对应的标签做并集以得到所述与所述待处理的短文本的分词结果中分词相关的至少一个标签,其中,所述每一个分词对应的标签为与该分词之间的相关度值最大的前第一数量个标签中的标签。
3.根据权利要求2所述的方法,其特征在于,在所述通过查询预设的分词-标签-相关度值的对应关系,得到所述待处理的短文本的分词结果中每一个分词对应的至少一个标签之前,还包括:
构建所述分词-标签-相关度值的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述构建所述分词-标签-相关度值的对应关系,包括:
对于第一短文本样本集中的每一个短文本样本,对该短文本样本进行分词以得到该短文本样本的分词结果,生成该短文本样本的分词结果中每一个分词与预设的第一标签库中每一个标签对应的(分词,标签)对,并计算所述(分词,标签)对的点互信息值;
对于所述每一个短文本样本和所述每一个标签,删除该标签与该短文本样本的分词结果中各个分词对应的(分词,标签)对中除点互信息值最大的(分词,标签)对外的(分词,标签)对,并计算剩余的(分词,标签)对的点互信息值,根据所述剩余的(分词,标签)对的点互信息值得到所述预设的分词-标签-相关度值的对应关系,其中,所述预设的分词-标签-相关度值的对应关系中每一个相关度值为对应的(分词,标签)对的点互信息值。
5.根据权利要求1所述的方法,其特征在于,所述生成该短文本样本的正标签和负标签,还包括:
对该短文本样本进行标签分类以得到该短文本样本的标签分类结果,将该短文本样本的标签分类结果作为该短文本样本的正标签。
6.根据权利要求1所述的方法,其特征在于,所述根据有向无环图生成该短文本样本的每一个正标签对应的负标签之前,包括:构建预设的标签语料库中标签的有向无环图。
7.根据权利要求1所述的方法,其特征在于,所述生成该短文本样本的正标签和负标签,还包括:
采用随机标签采样方法生成该短文本样本的每一个正标签对应的负标签。
8.根据权利要求7所述的方法,其特征在于,所述采用随机标签采样方法生成该短文本样本的每一个正标签对应的负标签,包括:
对于该短文本样本的每一个正标签,进行随机标签采样,在判断获知采样得到的标签中不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该采样得到的标签作为该正标签对应的负标签,其中,该负标签集合的初始值为空集。
9.根据权利要求1所述的方法,其特征在于,所述标签分类模型包括:依次连接的输入层、嵌入层、隐藏层和输出层;其中,
在每一次训练的过程中,所述输入层输入所述第二短文本样本集中一个短文本样本的分词结果、该短文本样本的正标签以及该短文本样本的负标签至所述嵌入层;
所述嵌入层输出所述输入层输入的分词结果中各个分词的向量表示、所述输入层输入的正标签的向量表示以及所述输入层输入的负标签的向量表示至所述隐藏层;
所述隐藏层输出该短文本样本与该短文本样本的每一个正标签之间的距离以及该短文本样本与该短文本样本的每一个负标签之间的距离至所述输出层;
所述输出层输出该短文本样本的各个正标签、各个负标签分别与该短文本样本的距离相关度分数,其中,所述距离相关度分数根据对应的距离计算。
10.根据权利要求9所述的方法,其特征在于,所述距离基于注意力机制计算。
11.一种短文本分类装置,其特征在于,包括:
构建单元,用于构建标签分类模型;
生成单元,用于对于第二短文本样本集中的每一个短文本样本,生成该短文本样本的正标签和负标签;
训练单元,用于利用所述第二短文本样本集、所述正标签和所述负标签训练所述标签分类模型以得到预先训练好的标签分类模型;
第一分类单元,用于对待处理的短文本进行标签分类以得到第一标签分类结果;所述第一分类单元,包括:第一分类子单元,用于利用自然语言处理算法对待处理的短文本进行标签分类以得到第一中间标签分类结果;第二分类子单元,用于通过查询预设的分词-标签-相关度值的对应关系,得到与所述待处理的短文本的分词结果中分词相关的至少一个标签,并将所述与所述待处理的短文本的分词结果中分词相关的至少一个标签作为第二中间标签分类结果;第三分类子单元,用于将所述第一中间标签分类结果和第二中间标签分类结果做并集以得到所述第一标签分类结果;
第二分类单元,用于通过将所述待处理的短文本和所述第一标签分类结果输入所述预先训练好的标签分类模型,得到第二标签分类结果,并选择所述第二标签分类结果为所述待处理的短文本标签分类的目标结果,其中所述第二标签分类结果被包括于所述第一标签分类结果的子集中;
其中,所述生成单元,具体用于:生成该短文本样本的每一个正标签对应的负标签;将该短文本样本的各个正标签对应的负标签作为该短文本样本的负标签;所述生成单元包括生成子单元,所述生成子单元,用于根据有向无环图生成该短文本样本的每一个正标签对应的负标签;所述生成子单元,具体用于:
对于该短文本样本的每一个正标签,在根据有向无环图判断获知该正标签不是叶子结点且该正标签的子结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该子结点作为该正标签对应的一个负标签;或
对于该短文本样本的每一个正标签,在根据有向无环图判断获知该正标签有兄弟叶子结点且该正标签的兄弟结点不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该兄弟结点作为该正标签对应的一个负标签,其中,该负标签集合的初始值为空集。
12.根据权利要求11所述的装置,其特征在于,所述第二分类子单元,具体用于:
通过查询预设的分词-标签-相关度值的对应关系,得到所述待处理的短文本的分词结果中每一个分词对应的至少一个标签,将所述待处理的短文本的分词结果中各个分词对应的标签做并集以得到所述与所述待处理的短文本的分词结果中分词相关的至少一个标签,其中,所述每一个分词对应的标签为与该分词之间的相关度值最大的前第一数量个标签中的标签。
13.根据权利要求12所述的装置,其特征在于,还包括:
第一构建子单元,用于在所述第二分类子单元工作之前,构建所述分词-标签-相关度值的对应关系。
14.根据权利要求13所述的装置,其特征在于,所述第一构建子单元,包括:
计算模块,用于对于第一短文本样本集中的每一个短文本样本,对该短文本样本进行分词以得到该短文本样本的分词结果,生成该短文本样本的分词结果中每一个分词与预设的第一标签库中每一个标签对应的(分词,标签)对,并计算所述(分词,标签)对的点互信息值;
生成模块,用于对于所述每一个短文本样本和所述每一个标签,删除该标签与该短文本样本的分词结果中各个分词对应的(分词,标签)对中除点互信息值最大的(分词,标签)对外的(分词,标签)对,并计算剩余的(分词,标签)对的点互信息值,根据所述剩余的(分词,标签)对的点互信息值得到所述预设的分词-标签-相关度值的对应关系,其中,所述预设的分词-标签-相关度值的对应关系中每一个相关度值为对应的(分词,标签)对的点互信息值。
15.根据权利要求11所述的装置,其特征在于,所述生成单元,具体用于:
对该短文本样本进行标签分类以得到该短文本样本的标签分类结果,将该短文本样本的标签分类结果作为该短文本样本的正标签。
16.根据权利要求11所述的装置,其特征在于,所述生成单元,还包括:
第二构建子单元,用于在所述根据所述有向无环图生成该短文本样本的每一个正标签对应的负标签之前,构建预设的标签语料库中标签的有向无环图。
17.根据权利要求11所述的装置,其特征在于,所述生成单元,具体用于:
采用随机标签采样方法生成该短文本样本的每一个正标签对应的负标签。
18.根据权利要求17所述的装置,其特征在于,所述生成单元,具体用于:
对于该短文本样本的每一个正标签,进行随机标签采样,在判断获知采样得到的标签中不属于该短文本样本的正标签对应的正标签集合和该短文本样本的负标签对应的负标签集合时,将该采样得到的标签作为该正标签对应的负标签,其中,该负标签集合的初始值为空集。
19.根据权利要求11所述的装置,其特征在于,所述标签分类模型包括:依次连接的输入层、嵌入层、隐藏层和输出层;其中,
在每一次训练的过程中,所述输入层输入所述第二短文本样本集中一个短文本样本的分词结果、该短文本样本的正标签以及该短文本样本的各个正标签对应的负标签至所述嵌入层;
所述嵌入层输出所述输入层输入的分词结果中各个分词的向量表示、所述输入层输入的正标签的向量表示以及所述输入层输入的负标签的向量表示至所述隐藏层;
所述隐藏层输出该短文本样本与该短文本样本的每一个正标签之间的距离以及该短文本样本与该短文本样本的每一个负标签之间的距离至所述输出层;
所述输出层输出该短文本样本的各个正标签、各个负标签分别与该短文本样本的距离相关度分数,其中,所述距离相关度分数根据所述距离计算。
20.根据权利要求19所述的装置,其特征在于,所述距离基于注意力机制计算。
21.一种电子设备,其特征在于,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序;
所述处理器执行所述计算机程序时实现如权利要求1-10中任一项所述的方法。
22.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
CN201910199607.XA 2019-03-15 2019-03-15 短文本分类方法及装置 Active CN109948160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910199607.XA CN109948160B (zh) 2019-03-15 2019-03-15 短文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910199607.XA CN109948160B (zh) 2019-03-15 2019-03-15 短文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN109948160A CN109948160A (zh) 2019-06-28
CN109948160B true CN109948160B (zh) 2023-04-18

Family

ID=67010150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910199607.XA Active CN109948160B (zh) 2019-03-15 2019-03-15 短文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN109948160B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727695B (zh) * 2019-09-29 2022-05-03 浙江大学 面向新型供电城轨列车数据运维的自然语言查询解析方法
CN111177412B (zh) * 2019-12-30 2023-03-31 成都信息工程大学 公共标识语双语平行语料库系统
CN113344031B (zh) * 2021-05-13 2022-12-27 清华大学 一种文本分类方法
CN113177102B (zh) * 2021-06-30 2021-08-24 智者四海(北京)技术有限公司 文本分类方法、装置、计算设备和计算机可读介质
CN113486178B (zh) * 2021-07-12 2023-12-01 恒安嘉新(北京)科技股份公司 文本识别模型训练方法、文本识别方法、装置以及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875934A (zh) * 2018-05-28 2018-11-23 北京旷视科技有限公司 一种神经网络的训练方法、装置、系统及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856050B2 (en) * 2011-01-13 2014-10-07 International Business Machines Corporation System and method for domain adaption with partial observation
CN106156204B (zh) * 2015-04-23 2020-05-29 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN108920694B (zh) * 2018-07-13 2020-08-28 鼎富智能科技有限公司 一种短文本多标签分类方法及装置
CN109255025A (zh) * 2018-08-01 2019-01-22 华中科技大学鄂州工业技术研究院 一种短文本分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875934A (zh) * 2018-05-28 2018-11-23 北京旷视科技有限公司 一种神经网络的训练方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN109948160A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109948160B (zh) 短文本分类方法及装置
CN108182295B (zh) 一种企业知识图谱属性抽取方法及系统
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110097085B (zh) 歌词文本生成方法、训练方法、装置、服务器及存储介质
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN110580335A (zh) 用户意图的确定方法及装置
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN111222305A (zh) 一种信息结构化方法和装置
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN115617974B (zh) 一种对话处理方法、装置、设备及存储介质
CN113312445B (zh) 数据处理方法、模型构建方法、分类方法及计算设备
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN114970666A (zh) 一种口语处理方法、装置、电子设备及存储介质
CN113886543A (zh) 生成意图识别模型的方法、装置、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant