CN111563361A - 文本标签的提取方法及装置、存储介质 - Google Patents

文本标签的提取方法及装置、存储介质 Download PDF

Info

Publication number
CN111563361A
CN111563361A CN202010248614.7A CN202010248614A CN111563361A CN 111563361 A CN111563361 A CN 111563361A CN 202010248614 A CN202010248614 A CN 202010248614A CN 111563361 A CN111563361 A CN 111563361A
Authority
CN
China
Prior art keywords
candidate
tag
target
text
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010248614.7A
Other languages
English (en)
Other versions
CN111563361B (zh
Inventor
毛晶晶
陈渊
淳刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010248614.7A priority Critical patent/CN111563361B/zh
Priority claimed from CN202010248614.7A external-priority patent/CN111563361B/zh
Publication of CN111563361A publication Critical patent/CN111563361A/zh
Application granted granted Critical
Publication of CN111563361B publication Critical patent/CN111563361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Abstract

本公开是关于一种文本标签的提取方法及装置、存储介质。该方法包括:对目标文本进行预处理获得所述目标文本的候选标签集;对所述候选标签集中的候选标签进行特征提取,获得所述候选标签的特征集;其中,所述特征集包括:至少两个描述所述候选标签的特征;基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签。通过本公开实施例,能够提高文本标签的提取精确度。

Description

文本标签的提取方法及装置、存储介质
技术领域
本公开涉及自然语言处理领域,尤其涉及一种文本标签的提取方法及装置、存储介质。
背景技术
随着网络时代信息例如科技文献、社交推文和网页等呈几何级数的不断增长,对规模庞大的文本数据进行分析和挖掘成为当前备受关注的领域,其中如何有效表示文本信息成为了自然语言处理领域研究的基础和热点问题。
在实际表示文本中,文本标签是比文本摘要更加精炼的词或者短语,现有的通常用文本标签来表示文本信息以及用户感兴趣的词或者短语,能够有助于用户迅速理解文本内容以及通过文本标签对文本进行分类和推荐。因此,文本标签的提取精准程度直接影响者推荐或者搜索的最终效果。
发明内容
本公开提供一种文本标签的提取方法及装置、存储介质。
根据本公开实施例的第一方面,提供一种文本标签的提取方法,包括:
对目标文本进行预处理获得所述目标文本的候选标签集;
对所述候选标签集中的候选标签进行特征提取,获得所述候选标签的特征集;其中,所述特征集包括:至少两个描述所述候选标签的特征;
基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签。
在一些实施例中,所述基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签,包括:
将各所述候选标签的所述特征集输入排列学习模型,得到各所述候选标签的打分值;
基于各所述候选标签的所述打分值,从所述候选标签中选择一个或多个确定为所述目标文本的目标标签。
在一些实施例中,所述基于各所述候选标签的所述打分值,从所述候选标签中选择一个或多个确定为所述目标文本的目标标签,包括:
对各所述候选标签的所述打分值进行归一化处理,得到归一化打分结果;
选择所述归一化打分结果大于打分阈值的一个或多个所述候选标签,确定为所述目标文本的目标标签。
在一些实施例中,所述选择所述归一化打分结果大于打分阈值的一个或多个所述候选标签,确定为所述目标文本的目标标签,还包括:
当所述归一化打分结果大于所述打分阈值,且所述候选标签个数大于个数阈值N时,从所述归一化打分结果大于所述打分阈值的候选标签中,选择所述归一化打分最高的N个所述候选标签确定为所述目标标签。
在一些实施例中,所述方法还包括:
获取至少两个样本文本的正确标签的第一特征对;
获取所述至少两个样本文本的错误标签的第二特征对;
将所述第一特征对和所述第二特征对输入到排序训练模型中,训练得到所述排列学习模型;其中,所述排列学习模型对所述正确标签进行打分的打分结果,大于所述排列学习模型对所述错误标签进行打分的打分结果。
在一些实施例中,所述排序训练模型为通过梯度模型对损失模型进行优化形成的模型。
在一些实施例中,所述特征集中的特征包括以下至少之一:
所述候选标签与所述目标文本之间的相似度;
所述候选标签所对应词的词性指示;
所述候选标签所对应词出现在所述目标文本中的位置;
所述候选标签所对应词在所述目标文本中的出现频次;
所述目标文本的关键词中是否包含所述候选标签;
所述目标文本的扩展关键词中是否包含所述候选标签;
所述候选标签所对应词的长度;
所述候选标签所对应词的逆文本词频。
根据本公开实施例的第二方面,提供一种文本标签的提取装置,所述装置包括:
预处理模块,配置为对目标文本进行预处理获得所述目标文本的候选标签集;
提取模块,配置为对所述候选标签集中的候选标签进行特征提取,获得所述候选标签的特征集;其中,所述特征集包括:至少两个描述所述候选标签的特征;
确定模块,配置为基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签。
在一些实施例中,所述确定模块包括:
输入模块,配置为将各所述候选标签的所述特征集输入排列学习模型,得到各所述候选标签的打分值;
第一选择模块,配置为基于各所述候选标签的所述打分值,从所述候选标签中选择一个或多个确定为所述目标文本的目标标签。
在一些实施例中,所述第一选择模块包括:
处理模块,配置为对各所述候选标签的所述打分值进行归一化处理,得到归一化打分结果;
第二选择模块,配置为选择所述归一化打分结果大于打分阈值的一个或多个所述候选标签,确定为所述目标文本的目标标签。
在一些实施例中,所述第二选择模块,还配置为当所述归一化打分结果大于所述打分阈值,且所述候选标签个数大于个数阈值N时,从所述归一化打分结果大于所述打分阈值的候选标签中,选择所述归一化打分最高的N个所述候选标签确定为所述目标标签。
在一些实施例中,所述装置还包括:
第一获取模块,配置为获取至少两个样本文本的正确标签的第一特征对;
第二获取模块,配置为获取所述至少两个样本文本的错误标签的第二特征对;
训练模块,配置为将所述第一特征对和所述第二特征对输入到排序训练模型中,训练得到所述排列学习模型;其中,所述排列学习模型对所述正确标签进行打分的打分结果,大于所述排列学习模型对所述错误标签进行打分的打分结果。
在一些实施例中,所述排序训练模型为通过梯度模型对损失模型进行优化形成的模型。
在一些实施例中,所述特征集中的特征包括以下至少之一:
所述候选标签与所述目标文本之间的相似度;
所述候选标签所对应词的词性指示;
所述候选标签所对应词出现在所述目标文本中的位置;
所述候选标签所对应词在所述目标文本中的出现频次;
所述目标文本的关键词中是否包含所述候选标签;
所述目标文本的扩展关键词中是否包含所述候选标签;
所述候选标签所对应词的长度;
所述候选标签所对应词的逆文本词频。
根据本公开实施例的第三方面,提供一种文本标签的提取装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如上述第一方面中所述的文本标签的提取方法。
根据本公开实施例的第四方面,提供一种存储介质,包括:
当所述存储介质中的指令由处理器执行时,使得处理器能够执行如上述第一方面中所述的文本标签的提取方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例基于候选标签的特征集中的至少两个描述候选标签的特征,来从候选标签中选择目标标签,一方面能够通过描述候选标签的特征对候选标签进行判断,能够实现确定目标标签的目的,另一方面,本公开实施例并不是通过单一的特征来判断,而是基于至少两个特征共同来判断该候选标签是否为目标标签,能够提高确定目标标签的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本公开实施例示出的一种文本标签的提取方法流程图一。
图2是本公开实施例示出的一种文本标签的提取方法流程图二。
图3是本公开实施例示出的一种文本标签的提取方法流程图三。
图4是本公开实施例示出的一种文本标签的提取方法流程图四。
图5是本公开实施例示出的一种文本标签的提取方法流程图五。
图6是本公开实施例示出的一种文本标签的提取装置图一。
图7是本公开实施例示出的一种文本标签的提取装置图二。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是本公开实施例示出的一种文本标签的提取方法流程图一,如图1所示,文本标签的提取方法包括以下步骤:
S11、对目标文本进行预处理获得目标文本的候选标签集;
S12、对候选标签集中的候选标签进行特征提取,获得候选标签的特征集;其中,特征集包括:至少两个描述候选标签的特征;
S13、基于候选标签的特征集,确定与目标文本相匹配的目标标签。
上述目标文本包括新闻文本、期刊文本、学术文本、散文或者报告等。示例性地,当目标文本为新闻文本时,可以通过本公开实施例提供的文本标签的提取方法确定该新闻文本的目标标签,进而能够通过该目标标签自动地对其他新闻文本进行筛选,向用户推荐感兴趣的新闻。
本公开实施例中,对目标文本进行预处理包括:对目标文本进行分词处理,得到分词后的词组;对分词后的词组进行过滤,得到过滤后的词组;将过滤后的词组与标签库中的标签进行匹配,得到目标文本的候选标签集。
上述分词处理包括:按照文本的语法结构,将目标文本中的语言分为一个一个单独的词,或者,直接按照从最小切分粒度到最大切分粒度,将目标文本中所包含字词切分单个的字、词或短语。例如,“生物学家正在做生物实验”,其分词后的词组为“生物学家、正在、做和实验”;“网商银行是蚂蚁金服的最重要产品”,其分词后的词组为“网商银行、是、蚂蚁金服、的、最重要、产品”。
上述对分词后的词组进行过滤包括:去除所述目标文本中预定类型的词,此预定类型的词包含但不限于:无实际含义的虚词和/或表情符号等。例如,去掉分词后的词组中的停用词,该停用词包括但不限于语气组词、副词、介词或者连接词。例如,当分词后的词组为“网商银行、是、蚂蚁金服、的、最重要、产品”,对应的过滤后的词组为“网商银行、蚂蚁金服、产品”。如此,通过对分词后的词组进行过滤能够降低目标文本的噪音。
上述标签库可以为目前存在的人工维护的标签库。需要说明的是,人工维护的标签库可以包含多个标签库,例如100万的标签库。本公开实施例可以从该多个标签库中选择与过滤后的词组中的各个词相匹配的多个标签作为候选标签集。
本公开实施例中,特征集可以包括至少两个描述候选标签的特征,该特征包括但不限于逆文本词频(Inverse Document Frequency,TDF)、目标文本与候选标签的相似度和文本排序(TextRank)值。
当特征为目标文本与候选标签的相似度中的目标文本的标题与候选标签的相似度时,对候选标签集中的候选标签进行特征提取,包括:对标题进行分词处理,得到第一词组;对第一词组的词向量进行加权处理,得到目标文本的标题的特征向量;基于标题的特征向量、候选标签和余弦相似度模型,确定目标文本的标题与候选标签的相似度。
示例性地,可以通过公式(1)获取目标文本的标题的特征向量Vtitle,其中,Vi为第一词组中第i个词的词向量,n为第一词组的词总数。
Figure BDA0002434699990000061
当特征为目标文本与候选标签的相似度中的目标文本的正文与候选标签的相似度时,对候选标签集中的候选标签进行特征提取,包括:对正文进行分词处理,得到第二词组;对第二词组的词向量进行加权处理,得到目标文本的正文的特征向量;基于正文的特征向量、候选标签和余弦相似度模型,确定目标文本的正文与候选标签的相似度。
示例性地,可以通过公式(2)获取目标文本的正文的特征向量Vbody,其中,Vj为第二词组中第j个词的词向量,m为第二词组的词总数。
Figure BDA0002434699990000062
当特征为逆文本词频时,对候选标签集中的候选标签进行特征提取,包括:获取文本库的文本数;获取文本库中包含候选标签的文本数;基于文本库的文本数和包含候选标签的文本数,确定逆文本词频。
示例性地,可以通过公式(3)获取逆文本词频IDFt,其中,文本集合为Ω,N为文本集合中全部文本数,Nt为包含候选标签的文本数。
Figure BDA0002434699990000063
当特征为文本排序TextRank值时,通过公式(4)对候选标签集中的候选标签进行特性提取,得到TextRank值。
其中,假设候选标签中指定词性的词语组成的目标文本表示为Doc={w1,w2,w3…wn},词语w1,w2,w3…wn可以视为一个节点。设定窗口大小为k,其中,w1,w2…wk,w2,w3…wk+1,w3,w4…wk+2等都是一个窗口。在一个窗口中的任两个词语对应的节点之间存在一个无向无权的边,TR(Vi)表示节点Vi的TextRank值,TR(Vj)表示节点Vj的TextRank值,d表示阻尼系数,一般设置为0.85;ln(Vi)为节点的前驱节点集合;Out(Vj)为节点的后继结点集合,Vi为第i个前驱节点,Vj为第j个后继结点,该后前驱节点为目标文本中的节点,该后继结点为链接到目标文本中的结点,wji和wjk分别为边的权重,wji是句子之间的相似度,wjk可以视为1。
Figure BDA0002434699990000071
本公开实施例中,在获取候选标签的特征集后,可以基于特征集确定与目标文本相匹配的目标标签。该特征集中的特征是用于描述候选标签的,其可以为评价各候选标签的各项指标,进而通过综合该各项指标就可以确定出该候选标签是否为目标标签。
需要说明的是,由于候选标签出现在目标文本中的频次、位置、候选标签的词性以及候选标签与目标文本的相似度等均能够描述候选标签,且都能够影响候选标签能否成为目标标签。因此,本公开实施例中可以将候选标签出现在目标文本中的频次(例如:候选标签的词频、逆词频等)、位置(例如:候选标签是否在文章标题中、候选标签第一次在文章中出现的位置、候选标签最后一次在文章中出现的位置、候选标签第一次在正文中出现的位置/句子数、候选标签最后一次在正文中出现的位置/句子数等)、候选标签的词性以及候选标签与目标文本的相似度作为该候选标签的特征,并通过该多个候选标签的特征组成的特征集来确定候选标签是否为目标标签。如此,基于多个特征评价候选标签,能够更加准确的确定该候选标签是否为目标标签。
现有的文本标签提取主要包括:无监督的从文本中提取标签和有监督的从文本中提取标签。在无监督的从文本中提取标签的过程中,通常为通过统计词频-逆词频提取标签、通过词图模型提取标签或者基于主题模型提取标签。例如,通过统计词频-逆词频提取标签的思想是:如果某个词语或短语在一文本中出现的频率高,并且在其他文本中很少出现,则认为此词语或短语能够很好的概括这文本的内容。现有的无监督从文本中提取标签的过程虽然简单,但在实际应用中,仅仅是基于单一的特征提取标签,例如,词频-逆词频提取标签是一种试图抑制噪声的加权方式,本身倾向于文本中频率小的词,且该提取标签的方式仅仅依赖预料库中的文本数来确定标签,因此,通过现有的无监督方式提取标签存在精度不高的问题。
在有监督的从文本中提取标签的过程中,通常为将标签抽取看作是二分类问题,进而可以通过朴素贝叶斯、决策树、支持向量机等方式判断文本中的词语或者短语不能作为标签。该过程是直接对文本中的候选标签进行分类,并没有基于多个候选标签的特征进行分类,也存在精度不高的问题。
基于此,本公开实施例基于候选标签的特征集中的至少两个描述候选标签的特征,来从候选标签中选择目标标签,能够基于更多特征来确定该候选标签是否为目标标签,进而使得确定的目标标签能够更加准确。
在一些实施例中,如图2所示,基于候选标签的特征集,确定与目标文本相匹配的目标标签,即步骤13,包括:
S13a、将各候选标签的特征集输入排列学习模型,得到各候选标签的打分值;
S13b、基于各候选标签的打分值,从候选标签中选择一个或多个确定为目标文本的目标标签。
本公开实施例中,排列学习模型为通过样本文本和排列训练模型训练得到的模型,该排列训练模型包括LambdaMART模型、梯度决策提升树(Gradient Boosting DecisionTree,GBDT)模型、利用轻量梯度增强机支持向量机模型、基于深度学习的分类模型中的深度神经网络模型或者卷积神经网络模型,本公开实施例不作限制。
以LambdaMART模型为例,LambdaMART模型可以由两部分组成,一部分是利用多重累加回归树(MART),即梯度决策提升树(Gradient Boosting Decision Tree,GBDT)作为底层训练模型,另一部分是将Lambda作为GBDT求解过程使用的梯度,其中,Lambda为量化一个待排序的候选标签在下一次迭代时应该调整的方向和强度。
需要说明的是,由于Lambda输入的是候选标签对,且计算中涉及的损失函数是评估候选标签对排序结果的预测精度和真实精度之间的差异,追求的是候选标签对中不正确的排序结果尽量少。因此,利用LambdaMART模型训练得到的排列学习模型对候选标签进行打分,能够考虑候选标签集中两个候选标签之间的相对关系,提高了文本标签的提取准确度。
在一种实施例中,如图3所示,方法还包括:
S15、获取至少两个样本文本的正确标签的第一特征对;
S16、获取至少两个样本文本的错误标签的第二特征对;
S17、将所述第一特征对和所述第二特征对输入到排序训练模型中,训练得到所述排列学习模型;其中,所述排列学习模型对所述正确标签进行打分的打分结果,大于所述排列学习模型对所述错误标签进行打分的打分结果。
上述错误标签可为正确标签以外的标签。错误标签可为任意一个或多个出现在样本文本但是并不能够标注样本文本的字词组成的。错误标签的特征集可为根据错误标签所对应字词在样本文本中的出现频次、位置、与标题和/或正文的相似度,或者IDF等各种特征组成。
本公开实施例中,获取至少两个样本文本的正确标签和错误标签,该获取过程可以是通过人工提取标签的方式,将能够精确反映样本文本的标签作为正确标签,将不能精确反映样本文本的标签作为错误标签,如此,通过该正确标签的特征集和错误标签的特征集训练得到的排列学习模型,能够得到更加精确的打分值,进而能够依据排列歇息模型的打分结果从候选标签和智能该选择出目标标签,使得文本标签的提取更加精确。
在一些实施例中,排序训练模型为通过梯度模型对损失模型进行优化形成的模型。
本公开实施例中,排序训练模型可为LambdaMART模型。在LambdaMART模型中,上述损失模型为可以通过公式(5a)表示,其中,Pij为集合中i排在j前面的概率。
Figure BDA0002434699990000092
上述梯度模型可以通过公式(5b)表示,其中,λi为索引对{i,j}的集合,λij为索引对{i,j}的梯度,i为集合中索引对的行号,j为集合中索引对的列号。
Figure BDA0002434699990000091
示例性地,集合I={{1,2},{2,3},{1,3}},则λ1=λ1213,λ2=λ2312,λ3=-λ2313
相对于现有的词频-逆词频方式通过公式(6)对候选标签进行打分,本公开实施例并不是仅仅根据本身的特征来乘积得到打分值,而是考虑到两个特征之间的关系,通过输入排列学习模型对特征集中的各特征进行综合分析才能得到打分值,如此能够提高文本标签的提取准确度。
St=TFt*IDFt (6)
其中,St为词频-逆词频方式对应的打分值,TFt为候选词出现在目标文本中的频率,逆文本词频IDFt
本公开实施例中,在获取候选标签集中的各标签的打分值后,可以直接依据打分值从候选标签集中选择一个或多个候选标签作为目标标签。在一些实施例中,如图4所示,基于各候选标签的打分值,从候选标签中选择一个或多个确定为目标文本的目标标签,即步骤S13b,包括:
S13b1、对各候选标签的打分值进行归一化处理,得到归一化打分结果;
S13b2、选择归一化打分结果大于打分阈值的一个或多个候选标签,确定为目标文本的目标标签。
本公开实施例中,归一化处理是将各候选标签的打分值变为0到1之间的小数。对各候选标签的打分值进行归一化处理,得到归一化打分结果,包括:获取各候选标签中最高打分值和最低打分值,基于该最高打分值和最低打分值,确定各候选标签的归一化打分结果。
示例性地,可以通过公式(7)或公式(8)获取各候选标签的归一化打分结果x',其中,x为各候选标签的打分值,xmin为最低打分值,xmax为最高打分值。
Figure BDA0002434699990000101
Figure BDA0002434699990000102
本公开实施例中,在得到各候选标签的归一化打分结果后,可以将高于打分阈值的归一化打分结果对应的候选标签作为该目标文本的目标标签。
示例性地,该打分阈值可以依据实际提取标签的精确需求进行设置,例如,该打分阈值可以设置为0.65或者0.75等,本公开实施例不作限制。
在一些实施例中,如图5所示,选择归一化打分结果大于打分阈值的一个或多个候选标签,确定为目标文本的目标标签,即S13b3,还包括:
S13b3、当归一化打分结果大于打分阈值,且候选标签个数大于个数阈值N时,从归一化打分结果大于打分阈值的候选标签中,选择归一化打分最高的N个候选标签确定为目标标签。
本公开实施例中,将归一化打分结果大于打分阈值的多个候选标签确定为目标文本的目标标签的过程中,可能会得到太多的目标标签,进而存在推送效率低或者篇幅数少等问题,因此,本公开实施例提出需要限制目标标签的个数,即将归一化打分结果大于打分阈值的候选标签个数与个数阈值进行比较,选取得到的目标标签的个数等于个数阈值。
示例性地,个数阈值N为正整数,该N可以根据实际需求进行设置,例如,可以设置为5或8,本公开实施例不作限制。
本公开实施例中,选择归一化打分最高的N个候选标签的过程可以包括对大于打分阈值的打分结果进行降低排列,依次选取前N个候选标签。
需要说明的是,归一化打分结果越高,说明该归一化打分结果对应的候选标签能够更好的反映该目标文本。因此,本公开实施例选择归一化打分最高的N个候选标签确定为目标标签。如此,一方面能够精简目标标签的个数,能够提高基于目标标签进行分类或者推荐的效率,另一方面选取最高的N各候选标签确定为目标标签,能够提高目标标签的选取精度。
示例性地,假设随机抽取1000个文本,经过本公开实施例提供的文本标签提取、无监督学习提取标签以及人工提取标签,该三种方式对上述1000个文本进行标签抽取,如表1,可得本公开实施例提供的文本标签提取在招回率、精度以及综合评分上均优于现有的无监督学习提取标签。
表1
方式 召回率 精确率 综合评分
无监督学习的文本标签提取 0.61 0.55 0.58
本公开实施例的文本标签提取 0.80 0.75 0.77
在一些实施例中,特征集中的特征包括以下至少之一:
候选标签与目标文本之间的相似度;
候选标签所对应词的词性指示;
候选标签所对应词出现在目标文本中的位置;
候选标签所对应词在目标文本中的出现频次;
目标文本的关键词中是否包含候选标签;
目标文本的扩展关键词中是否包含候选标签;
候选标签所对应词的长度;
候选标签所对应词的逆文本词频。
上述候选标签与目标文本之间的相似度包括:候选标签与目标文本的标题之间的相似度、候选标签与目标文本的正文之间的相似度、候选标签与目标文本的一级分类之间的相似度、候选标签与目标文本的一级分类之间的相似度和候选标签与目标文本的二级分类之间的相似度。
上述候选标签所对应词出现在目标文本中的位置包括:候选标签最后一次在目标文本中出现的位置和候选标签第一次在目标文本中出现的位置。
需要说明的是,本公开实施例的特征集除了包括上述特征以外,还可以包括:候选标签对应的词在目标文本的标题中、候选标签对应的词在目标文本中出现的词频、TextRank值、候选标签第一次在目标文本中出现的句子数、候选标签最后一次在文档中出现的句子数。示例性地,本公开实施例从候选标签中提取的特征如表2。
表2
特征 解释
TFIDF 词频-逆文本频率
TEXTRANK TextRank值
IN_TITLE 是否在文章标题中
FIRST_POS 第一次在文档中出现的位置
TERM_FREQ 词频
TERM_LENGTH 标签长度
TITLE_SIMILAR 标签词向量与标题向量的相似度
IS_ENTITY 是否是实体词
LAST_POS 最后一次在文档中出现的位置
NORMAL_FIRST_POS 第一次在文档中出现的位置/句子数
NORMAL_LAST_POS 最后一次在文档中出现的位置/句子数
BODY_SIM 标签词向量与正文向量的相似度
IDF 逆文本词频
IN_KEYWORDS 是否在文档的关键词中
IN_EXT_KEYWORDS 是否在文档的扩展关键词中
CAT_SIM 标签词向量与文档一级分类向量的相似度
SUB_CAT_SIM 标签词向量与文档二级分类向量的相似度
本公开实施例可以通过上述17种特征构成的特征集,以及排列学习模型来确定候选标签是否为目标标签,如此,有更多的特征供排列学习模型对候选标签进行打分,能够提高标签提取的准确度。
图6是根据一示例性实施例示出的一种文本标签的提取装置图。参照图6,该文本标签的提取装置包括预处理模块1001,提取模块1002和确定模块1003,其中,
预处理模块1001,配置为对目标文本进行预处理获得所述目标文本的候选标签集;
所述提取模块1002,配置为对所述候选标签集中的候选标签进行特征提取,获得所述候选标签的特征集;其中,所述特征集包括:至少两个描述所述候选标签的特征;
所述确定模块1003,配置为基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签。
在一些实施例中,所述确定模块包括:
输入模块,配置为将各所述候选标签的所述特征集输入排列学习模型,得到各所述候选标签的打分值;
第一选择模块,配置为基于各所述候选标签的所述打分值,从所述候选标签中选择一个或多个确定为所述目标文本的目标标签。
在一些实施例中,所述第一选择模块包括:
处理模块,配置为对各所述候选标签的所述打分值进行归一化处理,得到归一化打分结果;
第二选择模块,配置为选择所述归一化打分结果大于打分阈值的一个或多个所述候选标签,确定为所述目标文本的目标标签。
在一些实施例中,所述第二选择模块,还配置为当所述归一化打分结果大于所述打分阈值,且所述候选标签个数大于个数阈值N时,从所述归一化打分结果大于所述打分阈值的候选标签中,选择所述归一化打分最高的N个所述候选标签确定为所述目标标签。
在一些实施例中,所述装置还包括:
第一获取模块,配置为获取至少两个样本文本的正确标签的第一特征对;
第二获取模块,配置为获取所述至少两个样本文本的错误标签的第二特征对;
训练模块,配置为将所述第一特征对和所述第二特征对输入到排序训练模型中,训练得到所述排列学习模型;其中,所述排列学习模型对所述正确标签进行打分的打分结果,大于所述排列学习模型对所述错误标签进行打分的打分结果。
在一些实施例中,所述排序训练模型为通过梯度模型对损失模型进行优化形成的模型。
在一些实施例中,所述特征集中的特征包括以下至少之一:
所述候选标签与所述目标文本之间的相似度;
所述候选标签所对应词的词性指示;
所述候选标签所对应词出现在所述目标文本中的位置;
所述候选标签所对应词在所述目标文本中的出现频次;
所述目标文本的关键词中是否包含所述候选标签;
所述目标文本的扩展关键词中是否包含所述候选标签;
所述候选标签所对应词的长度;
所述候选标签所对应词的逆文本词频。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是本公开实施例示出的一种文本标签的提取装置图二。例如,装置1900可以被提供为一服务器。参照图7,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述一种或多种实施例的文本标签的提取方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (16)

1.一种文本标签的提取方法,其特征在于,所述方法包括:
对目标文本进行预处理获得所述目标文本的候选标签集;
对所述候选标签集中的候选标签进行特征提取,获得所述候选标签的特征集;其中,所述特征集包括:至少两个描述所述候选标签的特征;
基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签。
2.根据权利要求1所述的方法,其特征在于,所述基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签,包括:
将各所述候选标签的所述特征集输入排列学习模型,得到各所述候选标签的打分值;
基于各所述候选标签的所述打分值,从所述候选标签中选择一个或多个确定为所述目标文本的目标标签。
3.根据权利要求2所述的方法,其特征在于,所述基于各所述候选标签的所述打分值,从所述候选标签中选择一个或多个确定为所述目标文本的目标标签,包括:
对各所述候选标签的所述打分值进行归一化处理,得到归一化打分结果;
选择所述归一化打分结果大于打分阈值的一个或多个所述候选标签,确定为所述目标文本的目标标签。
4.根据权利要求3所述的方法,其特征在于,所述选择所述归一化打分结果大于打分阈值的一个或多个所述候选标签,确定为所述目标文本的目标标签,还包括:
当所述归一化打分结果大于所述打分阈值,且所述候选标签个数大于个数阈值N时,从所述归一化打分结果大于所述打分阈值的候选标签中,选择所述归一化打分最高的N个所述候选标签确定为所述目标标签。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取至少两个样本文本的正确标签的第一特征对;
获取所述至少两个样本文本的错误标签的第二特征对;
将所述第一特征对和所述第二特征对输入到排序训练模型中,训练得到所述排列学习模型;其中,所述排列学习模型对所述正确标签进行打分的打分结果,大于所述排列学习模型对所述错误标签进行打分的打分结果。
6.根据权利要求5所述的方法,其特征在于,所述排序训练模型为通过梯度模型对损失模型进行优化形成的模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述特征集中的特征包括以下至少之一:
所述候选标签与所述目标文本之间的相似度;
所述候选标签所对应词的词性指示;
所述候选标签所对应词出现在所述目标文本中的位置;
所述候选标签所对应词在所述目标文本中的出现频次;
所述目标文本的关键词中是否包含所述候选标签;
所述目标文本的扩展关键词中是否包含所述候选标签;
所述候选标签所对应词的长度;
所述候选标签所对应词的逆文本词频。
8.一种文本标签的提取装置,其特征在于,所述装置包括:
预处理模块,配置为对目标文本进行预处理获得所述目标文本的候选标签集;
提取模块,配置为对所述候选标签集中的候选标签进行特征提取,获得所述候选标签的特征集;其中,所述特征集包括:至少两个描述所述候选标签的特征;
确定模块,配置为基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签。
9.根据权利要求8所述的装置,其特征在于,所述确定模块包括:
输入模块,配置为将各所述候选标签的所述特征集输入排列学习模型,得到各所述候选标签的打分值;
第一选择模块,配置为基于各所述候选标签的所述打分值,从所述候选标签中选择一个或多个确定为所述目标文本的目标标签。
10.根据权利要求9所述的装置,其特征在于,所述第一选择模块包括:
处理模块,配置为对各所述候选标签的所述打分值进行归一化处理,得到归一化打分结果;
第二选择模块,配置为选择所述归一化打分结果大于打分阈值的一个或多个所述候选标签,确定为所述目标文本的目标标签。
11.根据权利要求10所述的装置,其特征在于,所述第二选择模块,还配置为当所述归一化打分结果大于所述打分阈值,且所述候选标签个数大于个数阈值N时,从所述归一化打分结果大于所述打分阈值的候选标签中,选择所述归一化打分最高的N个所述候选标签确定为所述目标标签。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第一获取模块,配置为获取至少两个样本文本的正确标签的第一特征对;
第二获取模块,配置为获取所述至少两个样本文本的错误标签的第二特征对;
训练模块,配置为将所述第一特征对和所述第二特征对输入到排序训练模型中,训练得到所述排列学习模型;其中,所述排列学习模型对所述正确标签进行打分的打分结果,大于所述排列学习模型对所述错误标签进行打分的打分结果。
13.根据权利要求12所述的装置,其特征在于,所述排序训练模型为通过梯度模型对损失模型进行优化形成的模型。
14.根据权利要求8至13任一项所述的装置,其特征在于,所述特征集中的特征包括以下至少之一:
所述候选标签与所述目标文本之间的相似度;
所述候选标签所对应词的词性指示;
所述候选标签所对应词出现在所述目标文本中的位置;
所述候选标签所对应词在所述目标文本中的出现频次;
所述目标文本的关键词中是否包含所述候选标签;
所述目标文本的扩展关键词中是否包含所述候选标签;
所述候选标签所对应词的长度;
所述候选标签所对应词的逆文本词频。
15.一种文本标签的提取装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1至7中任一项所述的文本标签的提取方法。
16.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行如权利要求1至7中任一项所述的文本标签的提取方法。
CN202010248614.7A 2020-04-01 文本标签的提取方法及装置、存储介质 Active CN111563361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010248614.7A CN111563361B (zh) 2020-04-01 文本标签的提取方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010248614.7A CN111563361B (zh) 2020-04-01 文本标签的提取方法及装置、存储介质

Publications (2)

Publication Number Publication Date
CN111563361A true CN111563361A (zh) 2020-08-21
CN111563361B CN111563361B (zh) 2024-05-14

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446204A (zh) * 2020-12-07 2021-03-05 北京明略软件系统有限公司 一种文档标签的确定方法、系统及计算机设备
CN114357990A (zh) * 2022-03-18 2022-04-15 北京创新乐知网络技术有限公司 文本数据标注方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN109710916A (zh) * 2018-11-02 2019-05-03 武汉斗鱼网络科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109992646A (zh) * 2019-03-29 2019-07-09 腾讯科技(深圳)有限公司 文本标签的提取方法和装置
CN110674319A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 标签确定方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN109710916A (zh) * 2018-11-02 2019-05-03 武汉斗鱼网络科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109992646A (zh) * 2019-03-29 2019-07-09 腾讯科技(深圳)有限公司 文本标签的提取方法和装置
CN110674319A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 标签确定方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446204A (zh) * 2020-12-07 2021-03-05 北京明略软件系统有限公司 一种文档标签的确定方法、系统及计算机设备
CN114357990A (zh) * 2022-03-18 2022-04-15 北京创新乐知网络技术有限公司 文本数据标注方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN108073568B (zh) 关键词提取方法和装置
CN109960756B (zh) 新闻事件信息归纳方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN108287848B (zh) 用于语义解析的方法和系统
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Sivanantham Sentiment analysis on social media for emotional prediction during COVID‐19 pandemic using efficient machine learning approach
Mounika et al. Design of book recommendation system using sentiment analysis
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN112862569B (zh) 基于图像和文本多模态数据的产品外观风格评价方法和系统
Manojkumar et al. An experimental investigation on unsupervised text summarization for customer reviews
CN109299007A (zh) 一种缺陷修复者自动推荐方法
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
Villegas et al. Vector-based word representations for sentiment analysis: a comparative study
CN114742062B (zh) 文本关键词提取处理方法及系统
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Zadgaonkar et al. An Approach for Analyzing Unstructured Text Data Using Topic Modeling Techniques for Efficient Information Extraction
Nguyen et al. A model of convolutional neural network combined with external knowledge to measure the question similarity for community question answering systems
CN111563361B (zh) 文本标签的提取方法及装置、存储介质
CN111563361A (zh) 文本标签的提取方法及装置、存储介质
Dziczkowski et al. An autonomous system designed for automatic detection and rating of film reviews
Dziczkowski et al. RRSS-rating reviews support system purpose built for movies recommendation
CN113590755A (zh) 词权重的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant