CN109992646B - 文本标签的提取方法和装置 - Google Patents

文本标签的提取方法和装置 Download PDF

Info

Publication number
CN109992646B
CN109992646B CN201910252112.9A CN201910252112A CN109992646B CN 109992646 B CN109992646 B CN 109992646B CN 201910252112 A CN201910252112 A CN 201910252112A CN 109992646 B CN109992646 B CN 109992646B
Authority
CN
China
Prior art keywords
keyword
text
target
vector
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910252112.9A
Other languages
English (en)
Other versions
CN109992646A (zh
Inventor
邓文超
郑茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910252112.9A priority Critical patent/CN109992646B/zh
Publication of CN109992646A publication Critical patent/CN109992646A/zh
Application granted granted Critical
Publication of CN109992646B publication Critical patent/CN109992646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本标签的提取方法和装置。其中,该方法包括:对待处理的目标文本进行预处理,获得第一关键词集;对上述第一关键词集中的对象关键词进行特征提取,获得上述对象关键词所对应的特征集;将上述对象关键词所对应的特征集输入决策树模型,得到与上述对象关键词对应的分类结果,其中,上述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;根据上述对象关键词的上述分类结果,确定与上述目标文本相匹配的目标标签。本发明解决了文本标签提取准确度低的技术问题。

Description

文本标签的提取方法和装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本标签的提取方法和装置。
背景技术
在相关技术中,为了向用户推送其所需的文本,往往需要根据文本的标签进行匹配。以新闻文本为例,在向用户推送新闻时,为了满足用户的阅读兴趣,需要根据文本的标签选择用户感兴趣的新闻文本,从而向用户推送相关的新闻文本。这里,文本标签的提取是否准确直接影响了后续的推送文本是否符合用户兴趣。
在现有技术中,只是对文本简单的通过词频(Term Frequency,简称TF)的计算每个词的词频,判断各个候选标签的词频是否超过设定的阈值,如果超过阈值,则认为这个候选标签是新闻的标签,否则不是新闻的标签。这样的方法明显忽略了每个候选标签与整篇文章的关系,无法解决候选标签在文本出现次数较少,但对于文本而言很重要应该提取为标签的情况。同时也无法解决部分文本中出现次数较多但不应该提取为标签的情况。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本标签的提取方法和装置,以至少解决文本标签提取准确度低的技术问题。
根据本发明实施例的一个方面,提供了一种文本标签的提取方法,包括:对待处理的目标文本进行预处理,获得第一关键词集;对上述第一关键词集中的对象关键词进行特征提取,获得上述对象关键词所对应的特征集;将上述对象关键词所对应的特征集输入决策树模型,得到与上述对象关键词对应的分类结果,其中,上述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;根据上述对象关键词的上述分类结果,确定与上述目标文本相匹配的目标标签。
根据本发明实施例的另一方面,还提供了一种文本标签的提取装置,包括:处理模块,用于对待处理的目标文本进行预处理,获得第一关键词集;提取模块,用于对上述第一关键词集中的对象关键词进行特征提取,获得上述对象关键词所对应的特征集;分类模块,用于将上述对象关键词所对应的特征集输入决策树模型,得到与上述对象关键词对应的分类结果,其中,上述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;确定模块,用于根据上述对象关键词的上述分类结果,确定与上述目标文本相匹配的目标标签。
在本发明实施例中,采用对预处理后的关键词集中的对象关键词进行特征提取,将提取到的特征集输入决策树模型,得到分类结果的方式,通过根据分类结果确定文本的标签,达到了提取文本标签的目的,从而实现了提高文本标签提取准确度的技术效果,进而解决了文本标签提取准确度低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文本标签的提取方法的硬件环境的示意图;
图2是根据本发明实施例的一种文本标签的提取方法的示意图;
图3是根据本发明实施例的另一种文本标签的提取方法的示意图;
图4是根据本发明实施例的又一种文本标签的提取方法的示意图;
图5是根据本发明实施例的又一种文本标签的提取方法的示意图;
图6是根据本发明实施例的一种文本标签的提取方法的应用场景的示意图;
图7是根据本发明实施例的客户端与服务器的交互示意图;
图8是根据本发明实施例的又一种文本标签的提取方法的示意图;
图9是根据本发明实施例的一种文本标签的提取装置的示意图;
图10是根据本发明实施例的电子装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种文本标签的提取方法,可选地,作为一种可选的实施方式,上述提取方法可以但不限于应用于如图1所示的硬件环境中。为了便于说明,本发明实施例中以文本中为新闻文本进行举例说明。假设用户设备102中安装有使用账号登录的新闻客户端,该客户端为用户对象A提供相应的服务。如步骤S102,用户设备102中的显示器108用于呈现上述客户端的界面,处理器106用于获取上述待处理的账号的新闻推送请求。而存储器104用于存储在客户端中执行操作所产生的操作数据。然后,如步骤S102-S104,用户设备102发送新闻推送请求,通过网络110发送给服务器112。服务器112通过处理引擎116调用数据库114中的与新闻文本相匹配的标签和与发送新闻推送请求的目标账号相匹配的兴趣标签,根据新闻的标签和兴趣标签,获得相匹配的新闻,并执行步骤S108向用户设备102发送新闻文本。这里,根据步骤S106,对待处理的目标文本进行预处理,获得第一关键词集;对第一关键词集中的对象关键词进行特征提取,获得对象关键词所对应的特征集;将对象关键词所对应的特征集输入决策树模型,得到与对象关键词对应的分类结果,其中,决策树模型用于根据输入的关键词的特征集,对关键词进行分类;根据对象关键词的分类结果,确定与目标文本相匹配的目标标签,从而获得与新闻文本相匹配的标签。
可以理解的是,当将新闻文本存储至服务器112的数据库114中时,也就是在服务器112首次获取到新闻时,便可执行步骤S106,获得该新闻的标签,从而便于后续接收到新闻推送请求时,直接根据已获得的标签和用户的兴趣标签进行新闻的匹配和推送。当然理解的是,上述步骤S106也可以由另一用于处理新闻文本的处理服务器执行,处理服务器用于新闻文本的标签提取,并将新闻文本和与新闻文本相匹配的标签存储至服务器112的数据库114中。
可选地,上述用户设备102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述文本标签的提取方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述获取、处理、输出等操作集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
可以理解的是,本发明实施例的文本标签的提取方法涉及人工智能(ArtificialIntelligence,简称AI)中自然语言处理(Natural Language Processing简称NLP)领域,通过采用上述文本标签的提取方法能够对复杂、大量、丰富的文本数据进行处理,从而得到文本的标签。
可选地,作为一种可选的实施方式,如图2所示,该文本标签的提取方法包括:
步骤S202,对待处理的目标文本进行预处理,获得第一关键词集。
这里,在本发明实施例中,目标文本可以是新闻文本,也可以是期刊文本、学术文章、散文、报告等。当目标文本为新闻文本时,可以通过本发明实施例的文本标签的提取方法提取获得该文本的目标标签,从而便于根据目标标签和用户的兴趣标签进行新闻的筛选和推送。当文本为期刊文本、学术文章、散文或报告等时,可以通过本发明实施例的文本标签的提取方法提取获得该文本的目标标签,该目标标签可以作为该文本的关键词,用于根据用户检索时的检索关键词和文本的关键词进行匹配,从而进行文本的筛选和推送。当然可以理解的是,上述仅为举例说明,本发明实施例并不对文本的类型和提取到的目标标签的作用进行限定。
这里,第一关键词集中包括至少一个对象关键词。当然,这里的对象关键词也可以被视为一种候选标签。
步骤S204,对第一关键词集中的对象关键词进行特征提取,获得对象关键词所对应的特征集。
这里,对象关键词可以具有一个或多个特征。在本发明可选实施例中,关键词的特征可以包括但不限于如表1所示的:词频、逆文本频率(Inverse Document Frequency,简称IDF)、词频-逆文本频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)、标题相似度titleSim、正文相似度bodySim、是否在标题中in_title、是否在TAG库中is_white。其中TAG库可以是预先设置的存储有多个关键词的语料库。由于其存储有人工筛选标注的优质关键词,故也可以称为优质TAG库,相应的is_white也就可以表述为是否在优质TAG库中。在本发明可选实施例中,对第一关键词集中的对象关键词进行特征提取的步骤中,所提取的特征可以是上述特征中的至少一个。
表1:
特征 解释
tf 词频
idf 逆文本频率
tfidf 词频-逆文本频率
titleSim 标题相似度
bodySim 正文相似度
in_title 是否在标题中
is_white 是否在TAG库
需要注意的是,除示例的特征外,还可以有很多其他设计的特征,在此不再一一介绍。通过对这些人工设计的特征的提取,完成步骤S204和决策树模型的训练。
可以理解的是,由于后续步骤S206中需要将对象关键词的特征集输入决策树模型中。为了提高决策树模型的准确度,所提取的特征与训练上述决策树模型时所采用的特征一致。
下面对逆文本频率idf和词频-逆文本频率tf-idf的获取进行举例说明。
其中,idf可以根据公式
Figure BDA0002012644780000061
计算获得第i个词的idf值,其中|D|为文本库中的文本总数,D指文本库,|{j:ti∈dj}|为第i个词出现的文本数,dj为第j篇文档,ti为第i个词。
tf-idf可以根据公式
tfidfi,j=tfi,j*idfi (2)
计算获得第i个词在第j篇文本中的tf-idf值,其中tfi,j为第i个词在第j篇文本中的词频,idfi为第i个词的idf值。
步骤S206,将对象关键词所对应的特征集输入决策树模型,得到与对象关键词对应的分类结果,其中,决策树模型用于根据输入的关键词的特征集,对关键词进行分类。
这里的决策树模型可以是利用多个样本关键词进行训练,所得到的用于对关键词进行分类的模型。
这里,决策树模型可以根据输入的特征集中的特征,获得分类结果,该分类结果包括:该特征集所对应的对象关键词属于目标文本的标签的第一分类结果和该特征集所对应的对象关键词不属于目标文本的标签的第二分类结果。也就是,本发明实施例通过该决策树模型将对象关键词分为属于文本标签的第一类和不属于文本标签的第二类。
步骤S208,根据对象关键词的分类结果,确定与目标文本相匹配的目标标签。
在本发明实施例中,对预处理后的第一关键词集中的对象关键词进行特征提取,避免了现有技术中仅根据单一特征进行关键词提取时所造成的提取不准确的问题。并且,将提取到的特征集输入决策树模型,得到分类结果的方式,通过根据分类结果确定文本的标签,达到了提取文本标签的目的。这里,通过采用决策树模型,提高了文本标签提取准确度。
参见图3,在本发明可选实施例中,上述步骤202,可以包括:
步骤S302,对目标文本进行分词处理,获得关键词序列。
这里,分词处理是将正常的语言描述切分为一个个单独的词。进行分词处理时并不会改变目标文本中词组的排序,每一个分词处理后的词构成了关键词序列中的一个第一关键词。
步骤S304,根据第一关键词表对在关键词序列中的连续N个第一关键词进行合并,得到第二关键词集。
这里,在本发明可选实施例中,步骤304可以具体包括:
步骤S1,比对连续N个第一关键词进行合并后的第二关键词与第一关键词表,其中第一关键词表中记录有预先存储的词组。
这里,N为大于等于2的正整数。
步骤S2,在第二关键词与所述第一关键词表中的关键词相匹配的情况下,将上述连续N个第一关键词进行合并,获得上述第二关键词。
这里,由于经过步骤S1的分词处理后可能将词分的过碎,例如物理学家,分割为了物理和学家。此时为了使得后续用于提取特征时的关键词更加符合语义,同时减少后续提取特征时的关键词的数量,可以进行合并处理。这里,由于是连续N个第一关键词与第一关键词表进行对比,故而可以根据第一关键词表中由第一数量组成的词确定N的最大值,从而减少合并时的计算量。这里的第一数量为第一关键词表中每个关键词中词组数量的最大值。例如,第一关键词表中的由最多个词组成的关键词为中华人民共和国,该词在进行步骤S1的分词处理时,可能被分为中华、人民、共和、国,此时N的最大值可以选为4。
步骤S3,根据上述第二关键词和未进行合并的第一关键词,获得第二关键词集。
这里,在步骤S304中对关键词进行了合并处理,也就是在给定的第一关键词表下把分词后过碎的词合并为一个词,以解决部分情况下标签被错误切分的情况。如把“物理”“学家”合并为“物理学家”。这里,在步骤S304中,还可以包括命名实体合并、书名号内部词语合并等。例如,将命名实体和书名号等添加至第一关键词表。当然,由于后续特征的提取时可能会考虑是否在TAG库is_white的特征,故而也可以将TAG库中预先配置的词添加至第一关键词表中,从而更好的对词组进行合并。
通过合并处理,使得合并后的第二关键词更加贴合目标文本的语义。同时也减少了后续进行特征提取所需处理的关键词,提高了处理效率。
步骤S306,比对第二关键词集和第二关键词表,其中,第二关键词表用于过滤第二关键词集中的关键词。
这里,通过步骤S306进行过滤处理,可以将第二关键词集中的低质量词过滤掉,如“了”、“的”等常用过滤词。第二关键词表可以是经人工整理获得的,在第二关键词表中的关键词不会出现在后续特征提取,所以不会被提取为文本的标签。
步骤S308,将第二关键词集中未存在于第二关键词表中的第二关键词,确定为第一关键词集中的对象关键词。
这里,将经过步骤S306过滤处理后剩余的关键词确定为第一关键词集中的对象关键词,以便进行后续步骤S204,进行特征提取。这里,通过上述预处理的步骤,从目标本文中以段落分割的文字中提取出关键词,且通过预处理对关键词进行了合并、过滤等,使得后续待提取特征的关键词减少,且获得的关键词更加符合语义,同时能够减少后续的特征提取的处理量。
当然理解的是,上述实施例仅为步骤S202中进行预处理的一个可选实施例,对目标文本进行预处理,还可以包括:词性标注和命名实体识别等。其中词性标注指的是对分词后的词序列识别出每个词的词性,如名词、形容词、副词等。而命名实体识别指的是识别出文本分词序列中的人名、地名和机构名。这里的命名实体识别可以是根据预先配置的识别表进行对比识别。
可以理解的是,本发明实施例的分词、词性标注、命名实体识别也可以采用自然语言处理NLP中的条件随机场(Conditional Random Field,简称CRF)模型进行处理。当然也可以使用基于深度学习方法的自然语言处理任务中的长短期记忆网络(Long Short-TermMemory,简称LSTM)模型或者条件随机场-长短期记忆网络(Long Short-Term Memory-Conditional Random Field,简称LSTM-CRF)模型等。
以命名实体识别为例,主要识别文本中的人名、地名、机构名。输入通常为文本分词后的结果,常用的输出BIO体系为:
B:实体短语的开头;
I:实体短语的中间;
O:不是实体短语;
PER:人名;
LOC:地名;
ORG:机构名;
因此组合输出有O、B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG。
下面以对“著名天体物理学家:马斯克比乔布斯、贝索斯更重要”进行预处理为例,进行说明。
首先,将“著名天体物理学家:马斯克比乔布斯、贝索斯更重要”进行分词处理,获得“著名”、“天体”、“物理”、“学家”、“:”、“马斯克”、“比”、“乔布斯”、“、”、“贝索斯”、“更”、“重要”。进而可以进行词性标注、命名实体识别。如表2中给出了“著名天体物理学家:马斯克比乔布斯、贝索斯更重要”的分词、词性标注、命名实体识别结果。其中词性标注中的A为形容词、N为名词、W为标点符号、P为介词、D为副词。命名实体识别中的PER为人名。
表2:
Figure BDA0002012644780000101
还可以进行合并处理,将“物理学家”合并为“物理学家”。
还可以进行过滤处理,将“比”“更”和标点等词过滤,还可以将形容词过滤。这里的将形容词过滤可以根据词性标注后确定的形容词,也可以是在用于过滤的第二关键词表中预设配置形容词。最后获得预处理后的第一关键词集:天体、物理学家、马斯克、乔布斯、贝索斯。
在本发明实施例中,在对象关键词的特征集中包括标题相似度的情况下,上述步骤S204中的对第一关键词集中的对象关键词进行特征提取的步骤可以包括:
步骤S1,获取目标文本所对应的标题的标题向量及对象关键词的向量,其中,标题向量根据对标题进行分词处理得到的至少一个第一目标词组确定;
步骤S2,根据标题向量和对象关键词的向量,获得对象关键词的标题相似度,其中,标题相似度用于指示对象关键词与标题之间的相似度。
这里,标题相似度为衡量关键词与新闻标题的相似度,可以采用对象关键词的向量表示和标题的向量表示的余弦相似度来衡量。通过考虑标题相似度可以使得提取的标签更加符合目标文本的语义,提高了标签提取的准确度。
在本发明可选实施例中,在获取目标文本所对应的标题的标题向量及对象关键词的向量之前,上述方法还可以包括:
通过对每一个第一目标词组的向量进行加权平均,获得目标文本的标题向量,其中每一个第一目标词组的向量的权重通过关键词提取算法获得。
此时可以根据公式
Figure BDA0002012644780000111
计算获得标题向量,其中,wordEmbi为第i个词的word embedding向量表示,wi为通过关键词提取算法textrank得到的第i个词的权重,n为文本标题中包含的单词数。
可以理解的是,上述每一个第一目标词组的向量的权重也可以是预先设定的。在本发明一个可选实施例中,将每一个第一目标词组的向量的权重均设置为1,此时也就是加和平均。
此时可以根据公式
Figure BDA0002012644780000121
计算获得标题向量,其中,wordEmbi为第i个词的word embedding向量表示,n为文本标题中包含的单词数。
在本发明实施例中,在对象关键词的特征集中包括正文相似度的情况下,上述步骤S204中的对第一关键词集中的对象关键词进行特征提取的步骤可以包括:
步骤S1,获取目标文本的正文向量及对象关键词的向量,其中,正文向量根据对目标文本进行分词处理得到的至少一个第二目标词组确定;
步骤S2,根据正文向量和对象关键词的向量,获得对象关键词的正文相似度,其中,正文相似度用于指示对象关键词与目标文本之间的相似度。
这里,正文相似度为衡量关键词与新闻正文的相似度,可以采用对象关键词的向量表示和正文的向量表示的余弦相似度来衡量。通过考虑正文相似度可以使得提取的标签更加符合目标文本的语义,提高了标签提取的准确度。
与上述标题相似度类似的,在本发明可选实施例中,在获取目标文本所对应的正文的标题向量及对象关键词的向量之前,上述方法还可以包括:
通过对每一个第二目标词组的向量进行加权平均,获得正文文本的正文向量,其中每一个第二目标词组的向量的权重通过关键词提取算法获得。
此时可以根据公式
Figure BDA0002012644780000122
计算获得正文向量,其中,wordEmbi为第i个词的word embedding向量表示,wi为通过关键词提取算法textrank得到的第i个词的权重,m为文本正文中包含的单词数。
可以理解的是,上述每一个第二目标词组的向量的权重也可以是预先设定的。在本发明一个实施例中,将每一个第二目标词组的向量的权重均设置为1,此时也就是加和平均。
此时可以根据公式
Figure BDA0002012644780000131
计算获得正文向量,其中,wordEmbi为第i个词的word embedding向量表示,m为文本正文中包含的单词数。
对于上述对象关键词的特征集中包括标题相识度或者正文相似度的情况下,可以是通过向量识别模型,对于上述中的对象关键词的向量、第一目标词组的向量、第二目标词组的向量进行获取。
具体的,在获取目标文本的正文向量及对象关键词的向量,或者获取目标文本的正文向量及对象关键词的向量的步骤之前,上述方法还可以包括:
步骤S1,获取多个训练样本,其中每一个训练样本中的每一个词语的向量已知;
步骤S2,获取上述训练样本中的每一个词语的向量,对初始识别模型进行训练,获得训练后的识别模型,将训练后的识别模型确定为向量识别模型。
这里的向量识别模型可以是词向量计算模型word2vec。
在本发明的实施例中,使用了决策树模型,这里的决策树模型可以是梯度决策提升树(Gradient Boosting Decision Tree,简称GBDT)模型。
GBDT其根本原理是通过多棵决策树组成,并且用构建的所有决策树的结论累加起来作为最终答案。决策树通常分为分类树和回归树,其中分类树的输出为给定样本的类别,比如男/女,老人/孩子。而回归树的输出为预测一个实数值,比如温度、股票价格等。
GBDT也是一种boosting的方法,是一种将弱学习器提升为强学习器的算法。它先通过初始的数据集训练得到一个基学习器,再通过基学习器的结果来调整数据集的分布,通过对基学习器预测错误的数据更加关注来训练下一个基学习器。通过这样迭代的训练直到达到一定的学习器规模后,对所有学习器的结果进行加权,即得到了所谓强学习器的结果,也就是整个模型的预测结果。GBDT则是以决策树为基础模型的boosting算法。
对于决策树模型的构建,本发明提供如下可选实施例。在该可选实施例中,在步骤S202之前,上述方法还可以包括:
步骤S1,获取多个样本文本,其中样本文本包括:属于样本文本的标签的第一词组和不属于样本文本的标签的第二词组,第一词组和第二词组所对应的特征集已知;
步骤S2,根据第一词组和第二词组所对应的特征集,训练获得初始决策模型;
步骤S3,根据初始决策模型的损失函数的负梯度,拟合获得第二决策模型;
步骤S4,通过对第二决策模型的损失函数的负梯度进行迭代拟合,构建决策树模型。
具体的,构建的决策树模型是梯度提升决策树模型,梯度提升决策树体现为在学习器的不断迭代中使用损失函数的负梯度去拟合。如前一轮学习器为ft-1(x),而损失函数为L(y,ft-1(x)),那么当前轮迭代的,目的为构建一个弱学习器ht(x),使得当前轮的损失L(y,ft(x))最小。其中当前轮损失如下公式所示。
L(y,ft(x))=L(y,ft-1(x)+ht(x))(7)
其中,ft-1(x)为前一轮学习器,ht(x)为当前轮迭代的弱学习器,y为模型训练时的输出,x为模型训练时的输入,ft(x)为当前轮学习器,L为当前轮的损失。
梯度提升决策树利用损失函数的负梯度来拟合当前轮损失函数,从而拟合一个决策树。损失函数的负梯度表示如下公式所示。
Figure BDA0002012644780000141
其中,ft-1(x)为前一轮学习器,ft(x)为当前轮学习器,rti为当前轮的梯度,yi为每棵决策树的期望值,f(xi)为每棵决策树的实际值,L(yi,f(xi))为每棵决策树的损失。
具体的,GBDT的算法流程可以如下:步骤S1,构建初始化弱学习器;步骤S2,从1到T次进行迭代,其中包括:步骤S21,对于样本j从1到J,计算负梯度;步骤S22,利用负梯度拟合一棵新的决策树;步骤S23,更新学习器。步骤S3,根据更新后的学习器,得到强学习器。这里,获得的强学习器也就是训练后的决策树模型。
通过上述算法流程即可完整的通过训练数据来训练GBDT模型。在本发明实施例中,训练数据包含原始文本及每篇文本对应的正负例,其中正例为该文本的标签,负例为出现在文本中但不是标签的词。通过这样的数据完成训练得到模型后,在使用时即对每一个关键词提取特征完成分类即可。
通过上述决策树模型可以根据输入的特征集对关键词进行分类,且根据训练后的决策树模型可以提高分类的准确度。
可选地,在本实施例中,上述决策树模型可以但不限于为一组分类和回归树(classification and regression trees,简称为CART),是一组决策树的算法耦合。上述决策树可以但不限于是一系列条件耦合的逻辑决策路径。通常情况下,往往需要把多决策树的预测结果综合起来,得到集成树模型。需要说明的是,上述决策树模型可以包括但不限于以下之一:逻辑回归(Logistic Regression,简称LR)模型、梯度提升树(GradientBoosting Decision Tree,简称GBDT)模型、轻量梯度增强机(Light Gradient BoostingMachine,简称Light GBM)支持向量机(Support Vector Machine,简称SVM)模型,也可以包括基于深度学习的分类模型中的深度神经网络(Deep Neural Network,简称DNN)模型、卷积神经网络(Convolutional Neural Network,简称CNN)模型等。
此外,上述目标集成树模型的训练过程可以包括但不限于为离线模型训练,也可以但不限于为在线模型训练。其中,上述离线训练可以包括但不限于数据筛选和清洗、特征抽取、模型训练和模型优化等环节;上述在线训练可以但不限于是通过模型部署实现的,该在线训练过程可以包括但不限于对需要预估的数据进行特征抽取,再采用离线训练进行预估,得到预估值以应用于实际场景中。
需要说明的是,上述用于离线训练的模型,可以包括但不限于学习引擎中加载的lightGBM算法选型,也可以根据具体其他应用场景采用GBDT等集成树模型或者深度学习模型进行特征衍生再进行LR算法训练,同样也可以直接使用其他集成树模型、LR模型、深度学习模型进行训练。上述用于在线训练的模型,可以包括但不限于部署模型文件、刷入缓存特征的线上部署方式,也可以根据具体场景选择采用离线计算全盘用户模型分、直接将模型分输入缓存的线上部署方式。对目标集成树模型进行的机器学习过程可以包括无监督学习和有监督学习,例如,如图4所示在本实施例中可以采用有监督机器学习的方式来训练集成树模型。
为了便于后续对提取到目标标签的目标文本进行后续处理,在本发明可选实施例中,在上述步骤S208之后,上述方法还可以包括:
将目标文本和与目标文本相匹配的目标标签存储至服务器的数据库中,其中服务器用于根据与文本相匹配的标签向目标账号推送文本。
这里,将处理后的目标文本和对应的目标标签存储至服务器的数据库中,以便于服务器根据待推送的目标账号的兴趣标签和文本的标签,匹配文本,实现将文本推送至目标账号。
下面结合图5至图7,以推送服务器74用于接收客户端72发送的新闻推送请求,并向客户端72推送新闻,标签服务器76用于执行上述标签提取方法,对新闻进行标签提取为例进行举例说明。当然可以理解的是,这里发出新闻推送请求的执行主体并不仅限于新闻客户端,还可以是内容交互平台或页面浏览等。这里的推送服务器和标签服务器的功能也可以由一个服务器执行。
参见图6和图7,在用户通过移动终端上的客户端72浏览新闻时进行刷新操作的情况下,可视为用户需要阅读新的新闻,此时客户端72根据该刷新操作,执行步骤S704,向推送服务器发送新闻推送请求。该新闻推送请求中携带有登录该客户端72的目标用户的账号信息。
推送服务器接收到新闻推送请求时,通过账号信息获取与该账号信息相关联的兴趣标签集。这里,兴趣标签集可以是通过该账号信息所对应的历史点击的文章的标签通过加权获得的兴趣标签的集合。
推送服务器通过将兴趣标签转换为向量表示,如[u_t1,u_t2,u_t3,……,u_tn],其中u_t为用户的在每个文章标签ID上对应的兴趣权重。并获取推送服务器的数据库中的新闻文本的新闻标签集,并获得新闻标签集中的标签的向量表示,如[t1,t2,t3,……,tn],其中每个t为标签所对应的ID,如“中国”的ID为15887,每个标签对应的ID唯一,可以理解的,该ID是可以根据需要进行设定和修改的,本发明所提供的仅为可选实施例。
可以理解的是,推送服务器74中的新闻文本和与新闻文本相对应的标签是由标签服务器76执行上述标签的提取方法后发生至推送服务器74的。这里的标签服务器76接收到新闻文本时,执行上述标签的提取方法,获得新闻文本的目标标签,并执行步骤S702,将新闻文本和与新闻文本相匹配的目标标签存储至推荐服务器74的数据库中。上述中的推荐服务器所获取的新闻标签集也就是上述新闻文本所对应的目标标签的集合。
参见图5,推送服务器通过将用户的兴趣标签的向量和新闻标签的向量输入至推荐模型中,获得推荐结果,该推荐结果为用户对标签是向量所对应的新闻文本的点击概率值,根据推荐结果获得相匹配的新闻文本。
继续参见图7,推送服务器获得相匹配的新闻文本后,执行步骤S706,发送新闻文本,该新闻文本为根据用户兴趣标签和新闻的标签进行匹配后获得的新闻文本。这里的推荐模型可以是逻辑回归(Logistics Regressive,简称LR)模型,通过使用用户线上的真实对文章的点击、不点击作为训练数据进行训练获得。
这里,由于推送服务器74的数据库中往往存储了大量的新闻文本,在进行推送时,可以通过预先制定的筛选策略获得其中预设数量的新闻文本,比如从1000万篇可推荐的文章中筛选出1000篇。然后针对这个用户与1000篇的每一篇文章计算得到一个分数,最终得到1000个分数,然后通过一定的排序和筛选算法选出合适的文章推给用户。这里的筛选策略可以是根据文章的类别或者日期等进行筛选,这样的筛选也可以是随机的。
下面结合图8,对本发明一个可选实施例的进行说明。
上述标签的提取方法还可以包括:
步骤S802,接收请求对目标文本进行标签提取的处理请求;这里,可以根据该处理请求中携带的目标文本的存储地址获取目标文本,也可以是该处理请求中携带有待处理的目标文本。
步骤S804,对待处理的目标文本进行预处理,获得第一关键词集;在该步骤中实现了对目标文本的预处理,同时根据处理后关键词生成了对象关键词,获得了第一关键词集。这里的预处理可以包括对于目标文本的分词、词性标注、命名实体识别、优质标签合并、停用词过滤等。
步骤S806,对第一关键词集中的对象关键词进行特征提取,获得对象关键词所对应的特征集;这里,对每个对象关键词进行特征提取,如词频、标题相似度、正文相似度等。
对每一个对象关键词的特征集分别执行步骤S808,将对象关键词所对应的特征集输入决策树模型,得到与对象关键词对应的分类结果;和步骤S810,根据对象关键词的分类结果,确定与目标文本相匹配的目标标签;
通过上述步骤得到了目标文本的目标标签,当然该目标标签的数量可以是至少一个。这里,对对象关键词逐个使用决策树模型来进行分类,预测每个对象关键词是否为该文本的标签。
还可以包括:步骤S812,返回结果,该结果包括:目标文本相匹配的目标标签。
本发明实施例的标签提取方法相比现有的技术方法不仅考虑了词汇级别的信息,如TF、TF-IDF等,同时也考虑了对象关键词(也就是候选的标签)与目标文本的相关性,如标题相似度、正文相似度等,更深入的考虑了候选标签与文本的语义层面特征。通过使用如梯度提升决策树等决策树模型更好的对文本提取标签集,很好的解决了传统方法在许多文本标签提取中存在的错误。
在对本发明实施例的标签提取方法的评测中,进行了离线评估和在线评估。离线评估中随机抽取了一部分文章,同时给出传统方法和本发明实施例的方法的标签结果,采用多个人工盲标的方式去对标签结果标注。通过在准确率、召回率、F1值等评估指标上的计算可以得到本发明实施例的方法明显优于传统方法。在线评估过程中,提供采用推荐侧灰度实验的方法,通过上述标签提取方法提取获得的标签,在用于推荐时,相比传统标签提取算法使得文本标签提取的更加精准,在实验验证时发现离线人工评估、在线点击率、浏览时长等指标上均有明显的提升。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例,还提供了一种用于实施上述文本标签的提取方法的文本标签的提取装置,如图9所示,该装置包括:
处理模块902,用于对待处理的目标文本进行预处理,获得第一关键词集;
这里,第一关键词集中包括至少一个对象关键词。当然,这里的对象关键词也可以被视为一种候选标签。
提取模块904,用于对上述第一关键词集中的对象关键词进行特征提取,获得上述对象关键词所对应的特征集;
这里,对象关键词可以具有一个或多个特征。在本发明可选实施例中,关键词的特征可以包括但不限于:词频、逆文本频率(Inverse Document Frequency,简称IDF)、词频-逆文本频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)、标题相似度titleSim、正文相似度bodySim、是否在标题中in_title、是否在TAG库中is_white。其中TAG库可以是预先设置的存储有多个关键词的语料库。由于其存储有人工筛选标注的优质关键词,故也可以称为优质TAG库,相应的is_white也就可以表述为是否在优质TAG库中。在本发明可选实施例中,对第一关键词集中的对象关键词进行特征提取的步骤中,所提取的特征可以是上述特征中的至少一个。
分类模块906,用于将上述对象关键词所对应的特征集输入决策树模型,得到与上述对象关键词对应的分类结果,其中,上述决策树模型用于根据输入的关键词的特征集,对关键词进行分类。
这里的决策树模型可以是利用多个样本关键词进行训练,所得到的用于对关键词进行分类的模型。
这里,决策树模型可以根据输入的特征集中的特征,获得分类结果,该分类结果包括:该特征集所对应的对象关键词属于目标文本的标签的第一分类结果和该特征集所对应的对象关键词不属于目标文本的标签的第二分类结果。也就是,本发明实施例通过该决策树模型将对象关键词分为属于文本标签的第一类和不属于文本标签的第二类。
确定模块908,用于根据上述对象关键词的上述分类结果,确定与上述目标文本相匹配的目标标签。
这里,决策树模型可以根据输入的特征集中的特征,获得分类结果,该分类结果包括:该特征集所对应的对象关键词属于目标文本的标签的第一分类结果和该特征集所对应的对象关键词不属于目标文本的标签的第二分类结果。也就是,本发明实施例通过该决策树模型将对象关键词分为属于文本标签的第一类和不属于文本标签的第二类。
可以理解的,本发明实施例中的文本标签的提取装置具有上述文本标签的提取方法实施例相应的有益效果,两者可以相互参考。
可选的,上述处理模块902可以包括:
分词单元,用于对上述目标文本进行分词处理,获得关键词序列;
这里,分词处理是将正常的语言描述切分为一个个单独的词。进行分词处理时并不会改变目标文本中词组的排序,每一个分词处理后的词构成了关键词序列中的一个第一关键词。
合并单元,用于根据第一关键词表对在上述关键词序列中的连续N个第一关键词进行合并,得到第二关键词集;
这里,在本发明可选实施例中,合并单元可以具体用于:
比对连续N个第一关键词进行合并后的第二关键词与第一关键词表,其中第一关键词表中记录有预先存储的词组;
这里,N为大于等于2的正整数。
在第二关键词与所述第一关键词表中的关键词相匹配的情况下,将上述连续N个第一关键词进行合并,获得上述第二关键词;
这里,由于经过分词处理后可能将词分的过碎,例如物理学家,分割为了物理和学家。此时为了使得后续用于提取特征时的关键词更加符合语义,同时减少后续提取特征时的关键词的数量,可以进行合并处理。这里,由于是连续N个第一关键词与第一关键词表进行对比,故而可以根据第一关键词表中由第一数量组成的词确定N的最大值,从而减少合并时的计算量。这里的第一数量为第一关键词表中每个关键词中词组数量的最大值。
根据上述第二关键词和未进行合并的第一关键词,获得第二关键词集。
这里,对关键词进行了合并处理,也就是在给定的第一关键词表下把分词后过碎的词合并为一个词,以解决部分情况下标签被错误切分的情况。
通过合并处理,使得合并后的第二关键词更加贴合目标文本的语义。同时也减少了后续进行特征提取所需处理的关键词,提高了处理效率。
过滤单元,用于比对上述第二关键词集和第二关键词表,其中,上述第二关键词表用于过滤上述第二关键词集中的关键词;
这里,通过过滤单元进行过滤处理,可以将第二关键词集中的低质量词过滤掉,如“了”、“的”等常用过滤词。第二关键词表可以是经人工整理获得的,在第二关键词表中的关键词不会出现在后续特征提取,所以不会被提取为文本的标签。
确定单元,用于将上述第二关键词集中未存在于上述第二关键词表中的第二关键词,确定为上述第一关键词集中的上述对象关键词。
这里,将经过过滤单元过滤处理后剩余的关键词确定为第一关键词集中的对象关键词,以便进行后续进行特征提取。
当然理解的是,上述实施例仅为处理模块902的一个可选实施例,处理模块902对目标文本进行预处理,还可以具体用于:词性标注和命名实体识别等。其中词性标注指的是对分词后的词序列识别出每个词的词性,如名词、形容词、副词等。而命名实体识别指的是识别出文本分词序列中的人名、地名和机构名。这里的命名实体识别可以是根据预先配置的识别表进行对比识别。
可选的,在上述对象关键词的特征集中包括标题相似度的情况下,上述提取模块904可以包括:
第一获取单元,用于获取上述目标文本所对应的标题的标题向量及上述对象关键词的向量,其中,上述标题向量根据对上述标题进行分词处理得到的至少一个第一目标词组确定;
第二获取单元,用于根据上述标题向量和上述对象关键词的向量,获得上述对象关键词的标题相似度,其中,上述标题相似度用于指示上述对象关键词与上述标题之间的相似度。
这里,标题相似度为衡量关键词与新闻标题的相似度,可以采用对象关键词的向量表示和标题的向量表示的余弦相似度来衡量。通过考虑标题相似度可以使得提取的标签更加符合语义,提高了标签提取的准确度。
可选的,上述提取模块904还可以包括:
第三获取单元,用于通过对每一个上述第一目标词组的向量进行加权平均,获得上述目标文本的标题向量,其中每一个上述第一目标词组的向量的权重通过关键词提取算法获得。
此时可以根据公式
Figure BDA0002012644780000231
计算获得标题向量,其中,wordEmbi为第i个词的word embedding向量表示,wi为通过关键词提取算法textrank得到的第i个词的权重,n为文本标题中包含的单词数。
可以理解的是,上述每一个第一目标词组的向量的权重也可以是预先设定的。在本发明一个可选实施例中,将每一个第一目标词组的向量的权重均设置为1,此时也就是加和平均。
此时可以根据公式
Figure BDA0002012644780000232
计算获得标题向量,其中,wordEmbi为第i个词的word embedding向量表示,n为文本标题中包含的单词数。
可选的,在上述对象关键词的特征集中包括正文相似度的情况下,上述提取模块904可以包括:
第四获取单元,用于获取上述目标文本的正文向量及上述对象关键词的向量,其中,上述正文向量根据对上述目标文本进行分词处理得到的至少一个第二目标词组确定;
第五获取单元,用于根据上述正文向量和上述对象关键词的向量,获得上述对象关键词的正文相似度,其中,上述正文相似度用于指示上述对象关键词与上述目标文本之间的相似度。
这里,正文相似度为衡量关键词与新闻正文的相似度,可以采用对象关键词的向量表示和正文的向量表示的余弦相似度来衡量。通过考虑正文相似度可以使得提取的标签更加符合语义,提高了标签提取的准确度。
在本发明可选实施例中,上述装置还可以包括:
第六获取单元,用于通过对每一个第二目标词组的向量进行加权平均,获得正文文本的正文向量,其中每一个第二目标词组的向量的权重通过关键词提取算法获得。
此时可以根据公式
Figure BDA0002012644780000241
计算获得正文向量,其中,wordEmbi为第i个词的word embedding向量表示,wi为通过关键词提取算法textrank得到的第i个词的权重,m为文本正文中包含的单词数。
可以理解的是,上述每一个第二目标词组的向量的权重也可以是预先设定的。在本发明一个实施例中,将每一个第二目标词组的向量的权重均设置为1,此时也就是加和平均。
此时可以根据公式
Figure BDA0002012644780000251
计算获得正文向量,其中,wordEmbi为第i个词的word embedding向量表示,m为文本正文中包含的单词数。
对于上述对象关键词的特征集中包括标题相识度或者正文相似度的情况下,可以是通过向量识别模型,对于上述中的对象关键词的向量、第一目标词组的向量、第二目标词组的向量进行获取。
具体的,上述装置还可以包括:
第七获取单元,用于获取多个训练样本,其中每一个训练样本中的每一个词语的向量已知;
训练单元,用于获取上述训练样本中的每一个词语的向量,对初始识别模型进行训练,获得训练后的识别模型,将训练后的识别模型确定为向量识别模型。
这里的向量识别模型可以是词向量计算模型word2vec。
在本发明的实施例中,使用了决策树模型,这里的决策树模型可以是梯度决策提升树(Gradient Boosting Decision Tree,简称GBDT)模型。
GBDT其根本原理是通过多棵决策树组成,并且用构建的所有决策树的结论累加起来作为最终答案。决策树通常分为分类树和回归树,其中分类树的输出为给定样本的类别,比如男/女,老人/孩子。而回归树的输出为预测一个实数值,比如温度、股票价格等。
GBDT也是一种boosting的方法,是一种将弱学习器提升为强学习器的算法。它先通过初始的数据集训练得到一个基学习器,再通过基学习器的结果来调整数据集的分布,通过对基学习器预测错误的数据更加关注来训练下一个基学习器。通过这样迭代的训练直到达到一定的学习器规模后,对所有学习器的结果进行加权,即得到了所谓强学习器的结果,也就是整个模型的预测结果。GBDT则是以决策树为基础模型的boosting算法。
对于决策树模型的构建,可选的,上述装置还包括:
获取模块,用于获取多个样本文本,其中上述样本文本包括:属于上述样本文本的标签的第一词组和不属于上述样本文本的标签的第二词组,上述第一词组和上述第二词组所对应的特征集已知;
训练模块,用于根据上述第一词组和上述第二词组所对应的特征集,训练获得初始决策模型;
拟合模块,用于根据上述初始决策模型的损失函数的负梯度,拟合获得第二决策模型;
构建模块,用于通过对上述第二决策模型的损失函数的负梯度进行迭代拟合,构建上述决策树模型。
具体的,构建的决策树模型是梯度提升决策树模型,梯度提升决策树体现为在学习器的不断迭代中使用损失函数的负梯度去拟合。如前一轮学习器为ft-1(x),而损失函数为L(y,ft-1(x)),那么当前轮迭代的,目的为构建一个弱学习器ht(x),使得当前轮的损失L(y,ft(x))最小。其中当前轮损失如下公式所示。
L(y,ft(x))=L(y,ft-1(x)+ht(x)) (14)
其中,ft-1(x)为前一轮学习器,ht(x)为当前轮迭代的弱学习器,y为模型训练时的输出,x为模型训练时的输入,ft(x)为当前轮学习器,L为当前轮的损失。
梯度提升决策树利用损失函数的负梯度来拟合当前轮损失函数,从而拟合一个决策树。损失函数的负梯度表示如下公式所示。
Figure BDA0002012644780000261
其中,ft-1(x)为前一轮学习器,ft(x)为当前轮学习器,rti为当前轮的梯度,yi为每棵决策树的期望值,f(xi)为每棵决策树的实际值,L(yi,f(xi))为每棵决策树的损失。
具体的,GBDT的算法流程可以如下:S1,构建初始化弱学习器;S2,从1到T次进行迭代,其中包括:S21,对于样本j从1到J,计算负梯度;S22,利用负梯度拟合一棵新的决策树;S23,更新学习器。S3,根据更新后的学习器,得到强学习器。这里,获得的强学习器也就是训练后的决策树模型。
通过上述算法流程即可完整的通过训练数据来训练GBDT模型。在本发明实施例中,训练数据包含原始文本及每篇文本对应的正负例,其中正例为该文本的标签,负例为出现在文本中但不是标签的词。通过这样的数据完成训练得到模型后,在使用时即对每一个关键词提取特征完成分类即可。
可选的,上述装置还包括:
存储模块,用于将上述目标文本和与上述目标文本相匹配的上述目标标签存储至服务器的数据库中,其中上述服务器用于根据与文本相匹配的标签向目标账号推送上述文本。
这里,将处理后的目标文本和对应的目标标签存储至服务器的数据库中,以便于服务器根据待推送的目标账号的兴趣标签和文本的标签,匹配文本,实现将文本推送至目标账号。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
根据本发明实施例的又一个方面,还提供了一种用于实施上述文本标签的提取方法的电子装置,如图10所示,该电子装置包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对待处理的目标文本进行预处理,获得第一关键词集;
S2,对上述第一关键词集中的对象关键词进行特征提取,获得上述对象关键词所对应的特征集;
S3,将上述对象关键词所对应的特征集输入决策树模型,得到与上述对象关键词对应的分类结果,其中,上述决策树模型用于根据输入的关键词的特征集,对关键词进行分类。这里的决策树模型可以是利用多个样本关键词进行训练,所得到的用于对关键词进行分类的模型。
S4,根据上述对象关键词的所述分类结果,确定与上述目标文本相匹配的目标标签。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置也可以是服务器、以及移动互联网设备(MobileInternetDevices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的文本标签的提取方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本标签的提取方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于存储待处理的目标文本和与所述目标文本相匹配的目标标签。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述文本标签的提取装置中的处理模块902、提取模块904、分类模块906及确定模块908。此外,还可以包括但不限于上述文本标签的提取装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(NetworkInterfaceController,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1008,用于显示上述待处理的目标文本和目标标签;和连接总线1010,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,对待处理的目标文本进行预处理,获得第一关键词集;
S2,对上述第一关键词集中的对象关键词进行特征提取,获得上述对象关键词所对应的特征集;
S3,将上述对象关键词所对应的特征集输入决策树模型,得到与上述对象关键词对应的分类结果,其中,上述决策树模型用于根据输入的关键词的特征集,对关键词进行分类。这里上述决策树模型可以是利用多个样本关键词进行训练,所得到的用于对关键词进行分类的模型。
S4,根据上述对象关键词的上述分类结果,确定与上述目标文本相匹配的目标标签。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-OnlyMemory,ROM)、随机存取器(RandomAccessMemory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种文本标签的提取方法,其特征在于,包括:
对待处理的目标文本进行预处理,获得第一关键词集;
对所述第一关键词集中的对象关键词进行特征提取,获得所述对象关键词所对应的特征集;
将所述对象关键词所对应的特征集输入决策树模型,得到与所述对象关键词对应的分类结果,其中,所述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;
根据所述对象关键词的所述分类结果,确定与所述目标文本相匹配的目标标签;
对待处理的目标文本进行预处理,获得第一关键词集,包括:
对所述目标文本进行分词处理,获得关键词序列;
比对连续N个所述第一关键词进行合并后的第二关键词与第一关键词表,其中第一关键词表中记录有预先存储的词组;
在第二关键词与所述第一关键词表中的关键词相匹配的情况下,将所述连续N个第一关键词进行合并,获得所述第二关键词
根据所述第二关键词和未进行合并的第一关键词,获得第二关键词集;
比对所述第二关键词集和第二关键词表,其中,所述第二关键词表用于过滤所述第二关键词集中的关键词;
将所述第二关键词集中未存在于所述第二关键词表中的第二关键词,确定为所述第一关键词集中的所述对象关键词。
2.根据权利要求1所述的方法,其特征在于,在所述对象关键词的特征集中包括标题相似度的情况下,对所述第一关键词集中的对象关键词进行特征提取的步骤包括:
获取所述目标文本所对应的标题的标题向量及所述对象关键词的向量,其中,所述标题向量根据对所述标题进行分词处理得到的至少一个第一目标词组确定;
根据所述标题向量和所述对象关键词的向量,获得所述对象关键词的标题相似度,其中,所述标题相似度用于指示所述对象关键词与所述标题之间的相似度。
3.根据权利要求2所述的方法,其特征在于,在所述获取所述目标文本所对应的标题的标题向量及所述对象关键词的向量之前,所述方法还包括:
通过对每一个所述第一目标词组的向量进行加权平均,获得所述目标文本的标题向量,其中每一个所述第一目标词组的向量的权重通过关键词提取算法获得。
4.根据权利要求1所述的方法,其特征在于,在所述对象关键词的特征集中包括正文相似度的情况下,对所述第一关键词集中的对象关键词进行特征提取的步骤包括:
获取所述目标文本的正文向量及所述对象关键词的向量,其中,所述正文向量根据对所述目标文本进行分词处理得到的至少一个第二目标词组确定;
根据所述正文向量和所述对象关键词的向量,获得所述对象关键词的正文相似度,其中,所述正文相似度用于指示所述对象关键词与所述目标文本之间的相似度。
5.根据权利要求1所述的方法,其特征在于,在所述对待处理的目标文本进行预处理,获得第一关键词集之前,所述方法还包括:
获取多个样本文本,其中所述样本文本包括:属于所述样本文本的标签的第一词组和不属于所述样本文本的标签的第二词组,所述第一词组和所述第二词组所对应的特征集已知;
根据所述第一词组和所述第二词组所对应的特征集,训练获得初始决策模型;
根据所述初始决策模型的损失函数的负梯度,拟合获得第二决策模型;
通过对所述第二决策模型的损失函数的负梯度进行迭代拟合,构建所述决策树模型。
6.根据权利要求1至5任一项所述的方法,其特征在于,在根据所述对象关键词的所述分类结果,确定与所述目标文本相匹配的目标标签之后,所述方法还包括:
将所述目标文本和与所述目标文本相匹配的所述目标标签存储至服务器的数据库中,其中所述服务器用于根据与文本相匹配的标签向目标账号推送所述文本。
7.一种文本标签的提取装置,其特征在于,包括:
处理模块,用于对待处理的目标文本进行预处理,获得第一关键词集;
提取模块,用于对所述第一关键词集中的对象关键词进行特征提取,获得所述对象关键词所对应的特征集;
分类模块,用于将所述对象关键词所对应的特征集输入决策树模型,得到与所述对象关键词对应的分类结果,其中,所述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;
确定模块,用于根据所述对象关键词的所述分类结果,确定与所述目标文本相匹配的目标标签;
所述处理模块包括:
分词单元,用于对所述目标文本进行分词处理,获得关键词序列;
合并单元,用于比对连续N个所述第一关键词进行合并后的第二关键词与第一关键词表,其中第一关键词表中记录有预先存储的词组;在第二关键词与所述第一关键词表中的关键词相匹配的情况下,将所述连续N个第一关键词进行合并,获得所述第二关键词;根据所述第二关键词和未进行合并的第一关键词,获得第二关键词集;
过滤单元,用于比对所述第二关键词集和第二关键词表,其中,所述第二关键词表用于过滤所述第二关键词集中的关键词;
确定单元,用于将所述第二关键词集中未存在于所述第二关键词表中的第二关键词,确定为所述第一关键词集中的所述对象关键词。
8.根据权利要求7所述的装置,其特征在于,在所述对象关键词的特征集中包括标题相似度的情况下,所述提取模块包括:
第一获取单元,用于获取所述目标文本所对应的标题的标题向量及所述对象关键词的向量,其中,所述标题向量根据对所述标题进行分词处理得到的至少一个第一目标词组确定;
第二获取单元,用于根据所述标题向量和所述对象关键词的向量,获得所述对象关键词的标题相似度,其中,所述标题相似度用于指示所述对象关键词与所述标题之间的相似度。
9.根据权利要求8所述的装置,其特征在于,所述提取模块还包括:
第三获取单元,用于通过对每一个所述第一目标词组的向量进行加权平均,获得所述目标文本的标题向量,其中每一个所述第一目标词组的向量的权重通过关键词提取算法获得。
10.根据权利要求7所述的装置,其特征在于,在所述对象关键词的特征集中包括正文相似度的情况下,所述提取模块包括:
第四获取单元,用于获取所述目标文本的正文向量及所述对象关键词的向量,其中,所述正文向量根据对所述目标文本进行分词处理得到的至少一个第二目标词组确定;
第五获取单元,用于根据所述正文向量和所述对象关键词的向量,获得所述对象关键词的正文相似度,其中,所述正文相似度用于指示所述对象关键词与所述目标文本之间的相似度。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取多个样本文本,其中所述样本文本包括:属于所述样本文本的标签的第一词组和不属于所述样本文本的标签的第二词组,所述第一词组和所述第二词组所对应的特征集已知;
训练模块,用于根据所述第一词组和所述第二词组所对应的特征集,训练获得初始决策模型;
拟合模块,用于根据所述初始决策模型的损失函数的负梯度,拟合获得第二决策模型;
构建模块,用于通过对所述第二决策模型的损失函数的负梯度进行迭代拟合,构建所述决策树模型。
12.根据权利要求7至11任一项所述的装置,其特征在于,所述装置还包括:
存储模块,用于将所述目标文本和与所述目标文本相匹配的所述目标标签存储至服务器的数据库中,其中所述服务器用于根据与文本相匹配的标签向目标账号推送所述文本。
13.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序可被终端设备或计算机运行时执行所述权利要求1至7任一项中所述的方法。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
CN201910252112.9A 2019-03-29 2019-03-29 文本标签的提取方法和装置 Active CN109992646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910252112.9A CN109992646B (zh) 2019-03-29 2019-03-29 文本标签的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910252112.9A CN109992646B (zh) 2019-03-29 2019-03-29 文本标签的提取方法和装置

Publications (2)

Publication Number Publication Date
CN109992646A CN109992646A (zh) 2019-07-09
CN109992646B true CN109992646B (zh) 2021-03-26

Family

ID=67132010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910252112.9A Active CN109992646B (zh) 2019-03-29 2019-03-29 文本标签的提取方法和装置

Country Status (1)

Country Link
CN (1) CN109992646B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570025A (zh) * 2019-08-20 2019-12-13 精硕科技(北京)股份有限公司 一种微信文章真实阅读率的预测方法、装置及设备
CN110782002B (zh) * 2019-09-12 2022-04-05 成都四方伟业软件股份有限公司 一种lstm神经网络训练方法及装置
CN110728138A (zh) * 2019-09-25 2020-01-24 杜泽壮 新闻文本识别的方法、装置以及存储介质
CN111125332B (zh) * 2019-12-20 2023-07-21 东软集团股份有限公司 计算词的tf-idf值的方法、装置、设备及存储介质
CN111027306A (zh) * 2019-12-23 2020-04-17 园宝科技(武汉)有限公司 一种基于关键词抽取和词移距离的知识产权匹配技术
CN113076756A (zh) * 2020-01-06 2021-07-06 北京沃东天骏信息技术有限公司 一种文本生成方法和装置
CN112100363A (zh) * 2020-09-22 2020-12-18 上海蜜度信息技术有限公司 一种基于关键词的文本信息精准匹配方法、系统、存储介质、终端
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN112380875A (zh) * 2020-11-18 2021-02-19 杭州大搜车汽车服务有限公司 对话标签跟踪方法、装置、电子装置及存储介质
CN112579738A (zh) * 2020-12-23 2021-03-30 广州博冠信息科技有限公司 目标对象的标签处理方法、装置、设备及存储介质
CN113822013B (zh) * 2021-03-08 2024-04-05 京东科技控股股份有限公司 用于文本数据的标注方法、装置、计算机设备及存储介质
CN113673229B (zh) * 2021-08-23 2024-04-05 广东电网有限责任公司 一种电力营销数据交互方法、系统及存储介质
CN114117237A (zh) * 2021-12-08 2022-03-01 中国科学院计算机网络信息中心 一种文章推荐方法及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN106776571A (zh) * 2016-12-27 2017-05-31 北京奇虎科技有限公司 一种标签的生成方法及装置
CN107861944A (zh) * 2017-10-24 2018-03-30 广东亿迅科技有限公司 一种基于Word2Vec的文本标签提取方法及装置
CN108491463A (zh) * 2018-03-05 2018-09-04 科大讯飞股份有限公司 标签确定方法及装置
CN109063185A (zh) * 2018-08-27 2018-12-21 电子科技大学 面向事件检测的社交网络短文本数据过滤方法
CN109165380A (zh) * 2018-07-26 2019-01-08 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN106776571A (zh) * 2016-12-27 2017-05-31 北京奇虎科技有限公司 一种标签的生成方法及装置
CN107861944A (zh) * 2017-10-24 2018-03-30 广东亿迅科技有限公司 一种基于Word2Vec的文本标签提取方法及装置
CN108491463A (zh) * 2018-03-05 2018-09-04 科大讯飞股份有限公司 标签确定方法及装置
CN109165380A (zh) * 2018-07-26 2019-01-08 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN109063185A (zh) * 2018-08-27 2018-12-21 电子科技大学 面向事件检测的社交网络短文本数据过滤方法

Also Published As

Publication number Publication date
CN109992646A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN109992646B (zh) 文本标签的提取方法和装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
US11321671B2 (en) Job skill taxonomy
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111737560B (zh) 内容搜索方法、领域预测模型训练方法、装置及存储介质
CN109829045A (zh) 一种问答方法和装置
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN112948676A (zh) 文本特征提取模型的训练方法、文本推荐方法及装置
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
CN113032556A (zh) 一种基于自然语言处理形成用户画像的方法
CN115329207B (zh) 智能销售信息推荐方法及系统
CN115827990A (zh) 搜索方法及装置
WO2019192122A1 (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN113254623B (zh) 数据处理方法、装置、服务器、介质及产品
CN113688633A (zh) 一种提纲确定方法及装置
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN110851560B (zh) 信息检索方法、装置及设备
CN113792131A (zh) 一种关键词的提取方法、装置、电子设备及存储介质
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221201

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518100

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.