CN112256832B - 一种标签的提取方法、装置、设备及可读存储介质 - Google Patents

一种标签的提取方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112256832B
CN112256832B CN202011146256.5A CN202011146256A CN112256832B CN 112256832 B CN112256832 B CN 112256832B CN 202011146256 A CN202011146256 A CN 202011146256A CN 112256832 B CN112256832 B CN 112256832B
Authority
CN
China
Prior art keywords
word
candidate word
text
weight value
target candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011146256.5A
Other languages
English (en)
Other versions
CN112256832A (zh
Inventor
陈扬
陆惠国
陆争辉
顾文斌
祝志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hengsheng Juyuan Data Service Co ltd
Original Assignee
Shanghai Hengsheng Juyuan Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hengsheng Juyuan Data Service Co ltd filed Critical Shanghai Hengsheng Juyuan Data Service Co ltd
Priority to CN202011146256.5A priority Critical patent/CN112256832B/zh
Publication of CN112256832A publication Critical patent/CN112256832A/zh
Application granted granted Critical
Publication of CN112256832B publication Critical patent/CN112256832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种标签的提取方法、装置、设备及可读存储介质,对获取的文本进行处理,得到候选词集合。依据参数,计算候选词的初始权重值,依据初始权重值和预设的权重迭代算法,计算候选词集合中的词的第一权重值。依据第一权重值以及调整系数,确定候选词集合中的词的第二权重值,依据第二权重值,从候选词集合中选择文本的标签。目标候选词的参数至少包括目标候选词的词频、目标候选词的词长和/或目标候选词的词跨度,目标候选词的调整系数包括第一调整系数和/或第二调整系数,可见,本方法结合了词长、词跨度和调整系数,而非仅有词频,不仅能够降低对于词频的依赖程度,更能从多个维度获取权重,从而提高标签提取的准确性。

Description

一种标签的提取方法、装置、设备及可读存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种标签的提取方法、装置、设备及可读存储介质。
背景技术
文本的标签是能够表达文本核心内容的词语,该词语有助于对文本进行简单的描述和分类,例如,在新闻资讯领域中,文本资讯数据具有数量大,内容鱼目混杂、难以精确推送、读者阅读困难等难点,资讯文本的标签有助于文本资讯的内容分类、汇集、检索以及后续的个性化推荐,但是,现有的标签提取算法,提取的标签的准确性不高,即标签不能表示文本的核心内容。
发明内容
申请人在研究的过程中发现,现有的标签的提取方法,过度依赖词频这一个因素,所以,提取的标签准确性不高。
有鉴于此,本申请提供了一种标签的提取方法、装置、设备及可读存储介质,用于提高标签的准确性,如下:
一种标签的提取方法,包括:
获取文本;
对所述文本进行处理,得到候选词集合,所述处理至少包括分词处理;
依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;
依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;
依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;
依据所述第二权重值,从所述候选词集合中选择所述文本的标签。
可选地,获取文本包括:
对原始文本进行清洗,得到所述文本,所述清洗包括:去除预设类型的字符、将字符转换为预设格式中的至少一项。
可选地,处理还包括:
在所述分词处理之前,删除所述文本中的预设类型的内容。
可选地,处理还包括:
在所述分词处理之前,检测目标字符,所述目标字符为所述文本中处于预设位置的字符;
在所述文本中所述目标字符的前或后相邻位置,将所述目标字符复制N倍,所述N依据所述预设位置预先设置。
可选地,处理还包括:
在所述分词处理之后,对所述分词处理的结果进行词清洗,所述词清洗包括将相同含义的词统一表述。
可选地,词清洗还包括:
去除预设的停用词和/或无效词。
可选地,依据所述第二权重值,从所述候选词集合中选择所述文本的标签,包括:
将所述第二权重值基于预设规则进行归一化,得到归一化的权重值,所述预设规则包括:
将预设规则函数的函数曲线沿水平轴向右平移0.5个单位,并且将所述函数曲线在竖直轴上的值乘以2;
依据所述归一化的权重值,从所述候选词集合中选择所述文本的标签。
一种标签的提取装置,包括:
文本获取单元,用于获取文本;
文本处理单元,用于对所述文本进行处理,得到候选词集合,所述处理至少包括分词处理;
初始权重计算单元,用于依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;
第一权重值计算单元,用于依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;
第二权重值计算单元,用于依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;
文本标签确定单元,用于依据所述第二权重值,从所述候选词集合中选择所述文本的标签。
一种标签的提取设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的标签的提取方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现如上所述的标签的提取方法的各个步骤。
由上述技术方案可以看出,本申请实施例提供的标签的提取方法、装置、设备及可读存储介质,对获取的文本进行处理,得到候选词集合。依据参数,计算候选词的初始权重值,依据初始权重值和预设的权重迭代算法,计算候选词集合中的词的第一权重值。依据第一权重值以及调整系数,确定候选词集合中的词的第二权重值,依据第二权重值,从候选词集合中选择文本的标签。目标候选词(候选词集合中的任意一个词)的参数至少包括目标候选词的词频、目标候选词的词长和/或目标候选词的词跨度,目标候选词的调整系数包括第一调整系数和/或第二调整系数,可见,本方法结合了词长、词跨度和调整系数,而非仅有词频,不仅能够降低对于词频的依赖程度,更能从多个维度获取权重,从而提高标签提取的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种标签的提取方法的具体实施方式的流程示意图;
图2为本申请实施例提供的一种优化后sigmoid函数的曲线示意图;
图3为本申请实施例提供的一种标签的提取方法的流程示意图;
图4为本申请实施例提供的一种标签的提取装置的结构示意图;
图5为本申请实施例提供的一种标签的提取设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的标签的提取方法应用但不限于对文本中的标签提取的场景,包括但不限于在新闻资讯领域中,需要对资讯进行标签提取,以确定能够表达资讯核心内容的词语。图1示例了本申请实施例提供的一种标签的提取方法的具体实施方式,如图1所示,本方法具体可以包括S101~S111。
S101、对原始文本进行清洗,得到文本。
本实施例中,原始文本为待进行文本提取的文本,例如,一篇资讯文章。对原始文本进行清洗的过程具体可以包括1或2中至少一项:
1、去除预设类型的字符,预设类型的字符包括但不限于结构化字符,例如HTML标签。
2、将字符转换为预设格式。
本实施例中,将字符转换为预设格式的过程包括但不限于:将英文字符统一转换为大写英文字符或小写英文字符、将全角字符转换为半角字符、和将繁体字符转换为简体字符。
需要说明的是,对原始文本进行清洗的过程不限于以上1和2,还可以包括其他的清洗过程,具体可参见现有技术。
进一步需要说明的是,本步骤属于本申请实施例提供的标签的提取方法中获取文本的一种可选的方法,本实施例中,通过对原始文本进行清洗获取文本,能够避免由于字符格式或类型不统一对标签提取的干扰。
S102、删除文本中的预设类型的内容。
本实施例中,预设类型的内容可以依据原始文本所属领域预先设置,以原始文本为资讯文章为例,预设类型的内容包括但不限于版权和媒体报讯,例如新闻版权方名称。
本实施例中,首先检测文本中的预设类型的内容,进一步将检测到的预设类型的内容删除。需要说明的是,检测预设类型的内容的方法可以为:正则匹配方法,或者文本匹配方法,具体可以参见现有技术。
例如,经过清洗后的文本(为便于描述,记为文本W1)内容如下:
“新浪财经讯4月13日消息,早盘指数低开低走,随后弱势盘整。盘面上,RCS板块低位盘拉升,水泥、农药板块表现强势,种植板块则持续杀跌。总体上,资金观望情绪再起,赚钱效应转差,炸板率较高。截止发稿,沪指报2782.33点,跌0.50%;创指报1921.33点,跌1.43%。”
通过正则匹配方法对文本W1进行检测,确定“新浪财经讯”属于预设类型的内容,因此,对“新浪财经讯”进行删除。
S103、检测目标字符,并在文本中目标字符的前或后相邻位置,将目标字符复制N倍。
本实施例中,目标字符为文本中处于预设位置的字符,预设位置包括但不限于文本的标题位置、文首位置、和文末位置。需要说明的是,预设位置还可以包括文本中的其他位置,本实施例对此不做限定。
本实施例中,可选的一种检测预设位置的字符的方法可以为检测文本中的换行符,按照换行符的位置,确定目标字符。具体可参照现有技术。
本实施例中,N依据预设位置预先设置,例如,预设位置为标题位置,则N预设为5,预设位置为文首位置,则N预设为2,预设位置为文末位置,则N预设为2。
以目标字符为处于文首位置的字符,N预设为2为例,将文首位置的字符在目标字符中第一个字符所在位置之前的位置,将目标字符复制2倍。
S104、对文本进行分词处理。
本实施例中,分词处理的方法包括多种,例如,利用预设的分词模型对文本进行分词,得到候选词集合,其中,分词模型可以预先根据文本所属领域进行训练,以得到更好的分词效果,具体可以参见现有技术。
本实施例以对文本W2中的“恒生电子(600570.SH)宣布收购广州安正软件股份有限公司(以下称“安正软件”)”为例,经过分词处理后得到的结果包括:“恒生电子”、“600570.SH”、“宣布”、“收购”、“广州安正软件股份有限公司”、“以下”、“称”、和“安正软件”。
S105、将分词处理的结果中相同含义的词统一表述。
本实施例中,依据预先配置的同义词词典,将分词处理的结果中相同含义的词统一表述。需要说明的是,同义词词典中包括词和至少一个与该词相同含义的词的对应关系,可以根据初始文本所属的领域进行预设。
接上例,分词处理后得到的结果包括的“恒生电子”和“600570.SH”为相同含义的词,则,将“恒生电子”和“600570.SH”统一表述为“恒生电子”,也即将“600570.SH”替换为“恒生电子”。
S106、去除分词处理的结果中的预设的停用词和无效词。
本实施例中,停用词和无效词可以根据实际应用进行预设,例如,停用词包括但不限于感叹词(例如“哎呀”或“哎呦”等)、口语用词(例如“罢了”或“好吧”等)、出现频率较高的动词(例如“按照”或“依据”等),无效词为依据词性确定的没有意义的词,可以包括但不限于助词(例如“啊”“的”、或“了”等)、副词(例如“很”、或“十分”等)、介词(例如“那么”或“所以”等)、或连接词(例如“和”、或“或”等)。本实施例仅以中文字符中的无效词和停用词为例,在实际应用中,预设的停用词和无效词中,可以包括任意语种的词。
需要说明的是,上述S102~S106为对文本进行处理的过程,经过处理后,得到候选词的集合(也可以简称为候选词集合)。候选词的集合中的词称为候选词。
进一步需要说明的是,S102、S103、S105或S106中任一项为可选的步骤,S102和S103为在分词处理之前,对文本进行的预处理过程,S102通过删除文本中的预设类型的内容能够降低预设类型的内容对标签提取的干扰。S103复制预设位置的字符,能够提高预设位置的字符的权重,并且,本实施例不限定S102和S103的顺序。S105和S106为对分词处理的结果进行词清理的过程,S105将分词处理的结果中相同含义的词统一表述,能够避免相同含义的词的分散性,S106去除分词处理的结果中的预设的停用词和无效词,能够排除无意义的词对权重计算结果的干扰,并且本实施例不限定S105和S106的顺序。
S107、依据参数,计算候选词的初始权重值。
本实施例以对候选词的集合中任意一个词(记为目标候选词)为例,对候选词的初始权重值的计算方法进行介绍。
具体地,目标候选词的参数至少包括目标候选词的词频、目标候选词的词长和目标候选词的词跨度,其中,目标候选词的词跨度为目标候选词在文本中,按照文本顺序,首次出现的位置与末次出现的位置之间的文本长度。
本实施例中,计算目标候选词的初始权重值的方法可以参见公式(1),如下:
公式(1)中:
Weight(qi)为目标候选词qi的初始权重值,其中,i∈[1,n],n为候选词的个数。
Fi为目标候选词qi的词频,也即目标候选词qi在文本中的出现频率。
k1为第一预设参数,用于控制词频结果在词频饱和度中的上升速度,第一预设参数的值越小则饱和度变化越快,第一预设参数的值越大则饱和度变化越慢,可选地,第一预设参数的默认值为1.2。
b为第二预设参数,用于控制字段长归一值所起的作用,第二预设参数为0.0时,会禁用归一化,第二预设参数为1.0时,会启用完全归一化。可选地,第二预设参数的默认值为0.75。
Si为目标候选词qi的词长,也即目标候选词qi中包括的字符个数。
avgSi为候选词的平均词长。
Spani为目标候选词qi的词跨度,即目标候选词qi在文本中第一次出现的位置和目标候选词qi在文本中最后一次出现的位置之间的字符个数。
Length为文本的长度,即文本中包括的字符的个数。
IDF(qi)为目标候选词qi的逆文档频率,用于指示目标候选词qi的常见程度,IDF(qi)与目标候选词qi的常见程度成反比。
本实施例中,IDF(qi)的计算方法可以参见公式(2),如下:
公式(2)中:
D为预设的语料库中的文件总数。
1+di为预设的语料库中包括目标候选词qi的文件的数目。
需要说明的是,公式(1)所示的计算目标候选词的初始权重值的方法仅为可选的一种,其中,目标候选词的参数至少包括目标候选词的词频、目标候选词的词长和目标候选词的词跨度,也即,本实施例综合考虑目标候选词的词频、目标候选词的词长和目标候选词的词跨度对于目标候选词的初始权重值的影响。
S108、依据初始权重值和预设的权重迭代算法,计算候选词集合中的词的第一权重值。
具体地,依据文本中的语句顺序,对每一候选词建立预设大小的投票窗口,例如,预设大小可以为5。
本实施例中,预设的权重迭代算法可以包括多种,以TextRank算法为例,对,计算候选词集合中的词的第一权重值的方法进行介绍:
A1、建立投票窗口,投票窗口的大小根据实际需求预设,用于限定目标候选词投票的范围,目标候选词对投票窗口的大小指示的范围内的其他词进行投票,得到目标候选词的投票集合,其中,目标候选词的投票集合中包括在候选词集合中与目标候选词的距离符合投票窗口的大小指示的范围的词。A2、采用TextRank算法对候选词集合中的词的第一权重值进行迭代计算,计算第一权重值的方法可以参见公式(3)。
公式(3)中:
W(vi)为候选词中任意词vi的第一权重值,W(vi)的初始值为公式(1)计算得到的vi的初始权重值。
W(vj)为目标候选词vi的投票集合中的词vj的第一权重值。
vj∈In(vi)表示:vj为vi的投票集合中的任一词,vk∈out(vj)表示vk为vj投票集合中的任一词。
本实施例中,候选集合中的任一词,与该词的投票集合中的任一词的关联系数为1。
wji表示vj与vi关联系数,表示vj与vi的关系,wji=1。
wjk表示vj与vk关联系数,表示vj与vk的关系,wjk=1。需要说明的是,的值等于投票窗口的大小。
d为预设的阻尼系数,可选地,值为0.85。
需要说明的是,本实施例依据公式(3)迭代计算每一候选词的第一权重值,直至第一权重值达到收敛,得到每一候选词的正实数的第一权重值。本实施例中,判断第一权重值是否达到收敛的方法为:若第一权重值小于预设的极限值,则确定达到收敛,预设的极限值指示第一权重值的误差率,可选的,预设的极限值取值为0.001。
S109、依据第一权重值以及调整系数,确定候选词集合中的词的第二权重值。
本实施例中,调整系数包括第一调整系数和第二调整系数。
本实施例中,目标候选词的第一调整系数依据目标候选词指示的领域预先设置,例如,默认第一调整系数设置为1,当目标候选词指示的领域为股票实体,则将目标候选词的第一调整系数设置为1.1。目标候选词的第二调整系数依据目标候选词指示的对象预先设置,例如,默认第二调整系数设置为1,当目标候选词指示的对象为公司机构,则将的目标候选词的第二调整系数设置为1.1。
以目标候选词qi为例,计算定候选词集合中的词的第二权重值的方法可以参照公式(4)。
Ti=We*Wn*S(vi) (4)
公式(4)中:
Ti为目标候选词qi的第二权重值。
We为目标候选词qi的第一调整系数。
Wn为目标候选词qi的第二调整系数。
S(vi)为目标候选词qi的第一权重值。
S110、将第二权重值基于预设规则进行归一化,得到归一化的权重值。
本实施例中,预设规则可以包括:将预设规则函数的函数曲线沿水平轴(X轴)向右平移0.5个单位,并且将函数曲线在竖直轴上的值乘以2。
可以理解的是,将预设规则函数的函数曲线沿水平轴向右平移0.5个单位后,函数曲线与X轴的交点平移至原点,将函数曲线在Y轴上的值乘以2后,函数曲线在Y方向的幅值增大为原函数曲线的两倍。综上,函数曲线的Y轴取值范围为[0,1),并且,当X轴取值为0时,Y轴取值为0。
其中,预设规则函数为sigmoid函数,则预设规则为对sigmoid函数进行优化的过程。
本实施例中,优化后的sigmoid函数对第一权重值进行归一化,优化后的sigmoid函数可以参见公式(5)。
公式(5)中:
Weighti为目标候选词qi归一化后的权重值。
Ti为目标候选词qi的第二权重值。
图2示例了公式(5)所示的优化后的sigmoid函数曲线中,目标候选词归一化的权重值(即Y轴的值)随目标候选词的第二权重值(即X轴的值)的变化趋势。如图2所示,优化后的sigmoid函数在正实数的X轴范围内,使Y值范围保持在[0,1)之间,并且X轴会随着第二权重值增大,Y轴的变化率逐渐变小,这样会使当第二权重值都在比较大的水平,但是大小差别特别大时,归一化后的权重相差并不大,而且基于优化后的sigmoid函数进行归一化,比min-max标准化更能够给第二权重值小于中位数的词赋予合理的权重值。
S111、依据归一化的权重值,从候选词集合中选择文本的标签。
本实施例中,对候选词集合中的词按照归一化的权重值从大到小排序,选择预设数量的候选词作为文本的标签。
从上述技术方案可知,本申请实施例提供的标签的提取方法,与现有技术相比,至少具有如下几点的有益效果。
第一、候选词集合中的词的初始权重值依据参数进行计算,其中,候选词集合中的任意一个词为目标候选词,目标候选词的参数至少包括目标候选词的词频、目标候选词的词长和目标候选词的词跨度。目标候选词的词跨度为目标候选词在文本中,按照文本顺序,首次出现的位置与末次出现的位置之间的文本长度。避免了现有技术中,计算初始权重值时只考虑词频的影响,导致的初始权重值准确性低,从而提高了标签的提取的准确性。
例如,采用传统的TF*IDF相关性算法计算词的初始权重值时,始权重值时只考虑词频的影响,词频相关性只会一直增加,没有饱和点,这会导致词频的影响过于绝对化,初始权重值的计算过程中,词频占据了绝对的优势,导致依据初始权重值和预设的权重迭代算法计算词的第一权重值时,加大高频的词的权重。
可见,本方法中可以消除极高频的词对其他词的权重值的影响,避免出现极端权重值的情况(例如权重值为0.99或0.05),有利于降低个别词对提取结果的影响,提高预设的迭代算法提取第一权重值的准确性,进一步,提高标签提取的准确性。
第二、本方法依据第一权重值以及调整系数,确定候选词集合中的词的第二权重值,调整系数包括第一调整系数和第二调整系数,目标候选词的第一调整系数依据目标候选词指示的领域预先设置,目标候选词的第二调整系数依据目标候选词指示的对象预先设置。根据目标候选词指示的对象和领域调整目标候选词的第一权重值,与现有技术相比,提高标签的提取方法的灵活性,针对于特定领域或对象的目标候选词的权重值的计算准确性高,从而提高了标签的准确性。
例如,现有技术中,对于指示定制化的领域或对象的目标候选词,不能提升权重,导致的标签的提取过程过于刻板,不利于针对垂直领域的个性化。本方法可以依据目标候选词指示的领域预先设置目标候选词的第一调整值为大于1的数值,或依据目标候选词指示的对象预先设置目标候选词的第一调整值为大于1的数值由此,提高目标候选词的第一权重值。
第三、在分词处理之前,删除文本中的预设类型的内容能够降低预设类型的内容对标签提取的干扰。
进一步,复制预设位置的字符,能够提高预设位置的字符的权重。
第四、在分词处理之后,将分词处理的结果中相同含义的词统一表述,能够避免相同含义的词的分散性。
例如,候选词集合中的词“恒生公司”、“600570”、以及“恒生电子”在文本中均代表杭州恒生电子股份有限公司这个实体,现有技术中,权重分布为:“恒生电子”的权重值为0.619、“600570”的权重值为0.457、“恒生公司”的权重值为0.492,本方法将“恒生公司”、“600570”、以及“恒生电子”统一表述为“恒生电子”,权重分布为:“恒生电子”的权重值为0.816。
显然,本方法将分词处理的结果中相同含义的词统一表述之后,候选词集合中词的聚集性和词的权重值都有更大的提升。
进一步,去除分词处理的结果中的预设的停用词和无效词,能够排除无意义的词对权重计算结果的干扰。
第五、本方法将第二权重值基于预设规则进行归一化,得到归一化的权重值并依据归一化的权重值提取标签,避免出现权重值的分布极端的现象,能够给权重值小于中位数的词赋予合理的权重值,而且使候选词的权重值不受其他词的影响。
进一步,使用优化后的sigmoid函数进行归一化避免由于标签数据的变化而重新计算,对第二权重值的要求低,例如,z-score标准化要求词的权重值的分布近似为高斯分布,否则将导致效果差。本方法提供的利用优化后sigmoid函数对第二权重值进行归一化,对权重值的要求低,归一效果好。
需要说明的是,图1示例了本申请实施例提供的一种标签的提取的具体实施方式,本方法还包括其他的具体实施方式,例如,S110~S111为依据第二权重值,从候选词集合中选择文本的标签的一种具体实施方式,本实施例还可以直接按照第二权重值,选择第二权重值高的词作为文本标签。因此,本实施例将标签的提取方法概括总结为图3所示的流程,具体可以包括:
S301、获取文本。
本实施例中,获取文本的方法可以包括多种,例如直接将原始文本作为文本,或对原始文本进行清洗,得到文本。对原始文本进行清洗的方法可以参见S101。
S302、对文本进行处理,得到候选词集合。
本实施例中,对文本进行处理的过程至少包括分词处理。分词处理的方法可以参见上述S104。
需要说明的是,对文本进行处理的过程还可以包括:删除文本中的预设类型的内容、检测目标字符,并在文本中目标字符的前或后相邻位置,将目标字符复制N倍、将分词处理的结果中相同含义的词统一表述、或者去除分词处理的结果中的预设的停用词和无效词,中的至少一项。
需要说明的是,具体处理方法可以参见上述S102~S106。
S303、依据参数,计算候选词的初始权重值。
本实施例中,目标候选词为候选词集合中的任意一个词,目标候选词的参数至少包括目标候选词的词频、目标候选词的词长和/或目标候选词的词跨度,目标候选词的词跨度为目标候选词在文本中,按照文本顺序,首次出现的位置与末次出现的位置之间的文本长度。
可选的一种依据参数,计算候选词的初始权重值的方法为依据目标候选词的词频、目标候选词的词长和目标候选词的词跨度,计算目标候选词的初始权重值,具体的计算方法可以参见上述S107。
需要说明的是,还包括其他的依据参数,计算候选词的初始权重值的方法,例如,依据目标候选词的词频和目标候选词的词长,计算目标候选词的初始权重值,对此本实施例不做限定。
S304、依据初始权重值和预设的权重迭代算法,计算候选词集合中的词的第一权重值。
本实施例中,预设的权重迭代算法可以包括多种,例如,TextRank算法。依据初始权重值和TextRank算法,计算候选词集合中的词的第一权重值的方法可以参见上述S108。
需要说明的是,还可以利用其他的权重迭代算法,计算候选词集合中的词的第一权重值,本实施例对此不做赘述。
S305、依据第一权重值以及调整系数,确定候选词集合中的词的第二权重值。
本实施例中,调整系数包括第一调整系数和第二调整系数。
本实施例中,目标候选词的第一调整系数依据目标候选词指示的领域预先设置,例如,默认第一调整系数设置为1,当目标候选词指示的领域为股票实体,则将的目标候选词的第一调整系数设置为1.1。目标候选词的第二调整系数依据目标候选词指示的对象预先设置,例如,默认第二调整系数设置为1,当目标候选词指示的对象为公司机构,则将的目标候选词的第二调整系数设置为1.1。
需要说明的是,确定候选词集合中的词的第二权重值的具体实现方式可以参见S109。
S306、依据第二权重值,从候选词集合中选择文本的标签。
本实施例中,目标候选词第二权重值的大小能够表征目标候选词在文本中的代表性,第二权重值越大,则表示目标候选词的代表性越大,依据第二权重值,从候选词集合中选择文本的标签的方法可以包括多种。
例如,将第二权重值基于预设规则进行归一化,得到归一化的权重值,并依据归一化的权重值,从候选词集合中选择文本的标签,具体可以参见S110~S111。
再例如,对候选词集合中的词按照第二权重值从大到小排序,选择预设数量的候选词作为文本的标签。
需要说明的是,本实施例对于依据第二权重值,从候选词集合中选择文本的标签的具体实现方法不做限定。
从上述技术方案可以看出,本申请实施例提供的标签的提取方法,对获取的文本进行处理,得到候选词集合。依据参数,计算候选词的初始权重值,依据初始权重值和预设的权重迭代算法,计算候选词集合中的词的第一权重值。依据第一权重值以及调整系数,确定候选词集合中的词的第二权重值,依据第二权重值,从候选词集合中选择文本的标签。由于,目标候选词(候选词集合中的任意一个词)的参数至少包括目标候选词的词频、目标候选词的词长和/或目标候选词的词跨度,目标候选词的词跨度为目标候选词在文本中,按照文本顺序,首次出现的位置与末次出现的位置之间的文本长度。目标候选词的调整系数包括第一调整系数和/或第二调整系数,目标候选词的第一调整系数依据目标候选词指示的领域预先设置,目标候选词的第二调整系数依据目标候选词指示的对象预先设置。可见,本申请实施例提供的标签的提取方法结合了词长、词跨度和调整系数,考虑的因素更多,而非仅有词频,因此,不仅能够降低对于词频的依赖程度,更能从多个维度获取权重,从而提高标签提取的准确性。
图4示出了本申请实施例提供的一种标签的提取装置的结构示意图,如图4所示,该装置可以包括:
文本获取单元401,用于获取文本;
文本处理单元402,用于对所述文本进行处理,得到候选词集合,所述处理至少包括分词处理;
初始权重计算单元403,用于依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;
第一权重值计算单元404,用于依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;
第二权重值计算单元405,用于依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;
文本标签确定单元406,用于依据所述第二权重值,从所述候选词集合中选择所述文本的标签。
可选地,文本获取单元用于获取文本,包括:文本获取单元具体用于:
对原始文本进行清洗,得到所述文本,所述清洗包括:去除预设类型的字符、将字符转换为预设格式中的至少一项。
可选地,文本处理单元用于对文本进行处理,得到候选词集合,还包括:文本处理单元具体用于:
在所述分词处理之前,删除所述文本中的预设类型的内容。
可选地,文本处理单元用于对文本进行处理,得到候选词集合,还包括:文本处理单元具体用于:
在所述分词处理之前,检测目标字符,所述目标字符为所述文本中处于预设位置的字符;
在所述文本中所述目标字符的前或后相邻位置,将所述目标字符复制N倍,所述N依据所述预设位置预先设置。
可选地,文本处理单元用于对文本进行处理,得到候选词集合,还包括:文本处理单元具体用于:
在所述分词处理之后,对所述分词处理的结果进行词清洗,所述词清洗包括将相同含义的词统一表述。
文本处理单元用于在所述分词处理之后,对所述分词处理的结果进行词清洗去除预设的停用词和/或无效词,还包括:去除预设的停用词和/或无效词。
可选地,文本标签确定单元用于依据所述第二权重值,从所述候选词集合中选择所述文本的标签,包括:文本标签确定单元具体用于:
将所述第二权重值基于预设规则进行归一化,得到归一化的权重值,所述预设规则包括:
将预设规则函数的函数曲线沿水平轴向右平移0.5个单位,并且将所述函数曲线在竖直轴上的值乘以2;
依据所述归一化的权重值,从所述候选词集合中选择所述文本的标签。
图5示出了该标签的提取设备的结构示意图,该设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504;
在本申请实施例中,处理器501、通信接口502、存储器503、通信总线504的数量为至少一个,且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
处理器501可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器503可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可执行存储器存储的程序,实现本申请实施例提供的标签的提取方法,如下:
获取文本;
对所述文本进行处理,得到候选词集合,所述处理至少包括分词处理;
依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;
依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;
依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;
依据所述第二权重值,从所述候选词集合中选择所述文本的标签。
可选地,获取文本包括:
对原始文本进行清洗,得到所述文本,所述清洗包括:去除预设类型的字符、将字符转换为预设格式中的至少一项。
可选地,处理还包括:
在所述分词处理之前,删除所述文本中的预设类型的内容。
可选地,处理还包括:
在所述分词处理之前,检测目标字符,所述目标字符为所述文本中处于预设位置的字符;
在所述文本中所述目标字符的前或后相邻位置,将所述目标字符复制N倍,所述N依据所述预设位置预先设置。
可选地,处理还包括:
在所述分词处理之后,对所述分词处理的结果进行词清洗,所述词清洗包括将相同含义的词统一表述。
可选地,词清洗还包括:
去除预设的停用词和/或无效词。
可选地,依据所述第二权重值,从所述候选词集合中选择所述文本的标签,包括:
将所述第二权重值基于预设规则进行归一化,得到归一化的权重值,所述预设规则包括:
将预设规则函数的函数曲线沿水平轴向右平移0.5个单位,并且将所述函数曲线在竖直轴上的值乘以2;
依据所述归一化的权重值,从所述候选词集合中选择所述文本的标签。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现本申请实施例提供的标签的提取方法,如下:
获取文本;
对所述文本进行处理,得到候选词集合,所述处理至少包括分词处理;
依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;
依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;
依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;
依据所述第二权重值,从所述候选词集合中选择所述文本的标签。
可选地,获取文本包括:
对原始文本进行清洗,得到所述文本,所述清洗包括:去除预设类型的字符、将字符转换为预设格式中的至少一项。
可选地,处理还包括:
在所述分词处理之前,删除所述文本中的预设类型的内容。
可选地,处理还包括:
在所述分词处理之前,检测目标字符,所述目标字符为所述文本中处于预设位置的字符;
在所述文本中所述目标字符的前或后相邻位置,将所述目标字符复制N倍,所述N依据所述预设位置预先设置。
可选地,处理还包括:
在所述分词处理之后,对所述分词处理的结果进行词清洗,所述词清洗包括将相同含义的词统一表述。
可选地,词清洗还包括:
去除预设的停用词和/或无效词。
可选地,依据所述第二权重值,从所述候选词集合中选择所述文本的标签,包括:
将所述第二权重值基于预设规则进行归一化,得到归一化的权重值,所述预设规则包括:
将预设规则函数的函数曲线沿水平轴向右平移0.5个单位,并且将所述函数曲线在竖直轴上的值乘以2;
依据所述归一化的权重值,从所述候选词集合中选择所述文本的标签。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种标签的提取方法,其特征在于,包括:
获取文本;
对所述文本进行处理,得到候选词的集合,所述处理至少包括分词处理;
依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;
依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;
依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;
依据所述第二权重值,从所述候选词集合中选择所述文本的标签。
2.根据权利要求1所述的方法,其特征在于,所述获取文本,包括:
对原始文本进行清洗,得到所述文本,所述清洗包括:去除预设类型的字符、将字符转换为预设格式中的至少一项。
3.根据权利要求1所述的方法,其特征在于,所述处理还包括:
在所述分词处理之前,删除所述文本中的预设类型的内容。
4.根据权利要求1或3所述的方法,其特征在于,所述处理还包括:
在所述分词处理之前,检测目标字符,所述目标字符为所述文本中处于预设位置的字符;
在所述文本中所述目标字符的前或后相邻位置,将所述目标字符复制N倍,所述N依据所述预设位置预先设置。
5.根据权利要求1所述的方法,其特征在于,所述处理还包括:
在所述分词处理之后,对所述分词处理的结果进行词清洗,所述词清洗包括将相同含义的词统一表述。
6.根据权利要求5所述的方法,其特征在于,所述词清洗还包括:
去除预设的停用词和/或无效词。
7.根据权利要求1所述的方法,其特征在于,所述依据所述第二权重值,从所述候选词集合中选择所述文本的标签,包括:
将所述第二权重值基于预设规则进行归一化,得到归一化的权重值,所述预设规则包括:
将预设规则函数的函数曲线沿水平轴向右平移0.5个单位,并且将所述函数曲线在竖直轴上的值乘以2;
依据所述归一化的权重值,从所述候选词集合中选择所述文本的标签。
8.一种标签的提取装置,其特征在于,包括:
文本获取单元,用于获取文本;
文本处理单元,用于对所述文本进行处理,得到候选词集合,所述处理至少包括分词处理;
初始权重计算单元,用于依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;
第一权重值计算单元,用于依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;
第二权重值计算单元,用于依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;
文本标签确定单元,用于依据所述第二权重值,从所述候选词集合中选择所述文本的标签。
9.一种标签的提取设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的标签的提取方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的标签的提取方法的各个步骤。
CN202011146256.5A 2020-10-23 2020-10-23 一种标签的提取方法、装置、设备及可读存储介质 Active CN112256832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011146256.5A CN112256832B (zh) 2020-10-23 2020-10-23 一种标签的提取方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011146256.5A CN112256832B (zh) 2020-10-23 2020-10-23 一种标签的提取方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112256832A CN112256832A (zh) 2021-01-22
CN112256832B true CN112256832B (zh) 2024-01-26

Family

ID=74263201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011146256.5A Active CN112256832B (zh) 2020-10-23 2020-10-23 一种标签的提取方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112256832B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159912A (zh) * 2015-07-06 2015-12-16 无锡天脉聚源传媒科技有限公司 一种不同词之间的相关程度处理方法和装置
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法
CN110232183A (zh) * 2018-12-07 2019-09-13 腾讯科技(深圳)有限公司 关键词提取模型训练方法、关键词提取方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159912A (zh) * 2015-07-06 2015-12-16 无锡天脉聚源传媒科技有限公司 一种不同词之间的相关程度处理方法和装置
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法
CN110232183A (zh) * 2018-12-07 2019-09-13 腾讯科技(深圳)有限公司 关键词提取模型训练方法、关键词提取方法、装置及存储介质

Also Published As

Publication number Publication date
CN112256832A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
US9483460B2 (en) Automated formation of specialized dictionaries
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN109190110A (zh) 一种命名实体识别模型的训练方法、系统及电子设备
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN117688163A (zh) 基于指令微调和检索增强生成的在线智能问答方法及装置
CN114528827A (zh) 一种面向文本的对抗样本生成方法、系统、设备及终端
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113239268A (zh) 一种商品推荐方法、装置及系统
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
EP4089568A1 (en) Cascade pooling for natural language document processing
CN113191145B (zh) 关键词的处理方法、装置、电子设备和介质
CN111523311B (zh) 一种搜索意图识别方法及装置
CN110489759B (zh) 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN112256832B (zh) 一种标签的提取方法、装置、设备及可读存储介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN111639189A (zh) 一种基于文本内容特征的文本图构建方法
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
Vishwanath et al. Deep reader: Information extraction from document images via relation extraction and natural language
CN111428510B (zh) 一种基于口碑的p2p平台风险分析方法
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法
CN114329206A (zh) 标题生成方法和装置、电子设备、计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant