CN109710916A - 一种标签提取方法、装置、电子设备及存储介质 - Google Patents

一种标签提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109710916A
CN109710916A CN201811300294.4A CN201811300294A CN109710916A CN 109710916 A CN109710916 A CN 109710916A CN 201811300294 A CN201811300294 A CN 201811300294A CN 109710916 A CN109710916 A CN 109710916A
Authority
CN
China
Prior art keywords
text
processed
weight
feature words
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811300294.4A
Other languages
English (en)
Other versions
CN109710916B (zh
Inventor
徐乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Caimeng Technology Co ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201811300294.4A priority Critical patent/CN109710916B/zh
Publication of CN109710916A publication Critical patent/CN109710916A/zh
Application granted granted Critical
Publication of CN109710916B publication Critical patent/CN109710916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种标签提取方法、装置、电子设备及存储介质,所述方法包括:基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理,并确定所述待处理文本的特征词集合;利用改进的词频逆文本频率TF‑IDF算法计算所述特征词集合中每个特征词的权重;按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的候选标签集;基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签。通过采用上述技术方案,实现了对文本标签的高效、准确提取。

Description

一种标签提取方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种标签提取方法、装 置、设备及介质。
背景技术
目前,基于iOS平台或者基于Android平台的直播间应用程序发展迅速,深 受用户喜爱。弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表 达方式,通过弹幕可以实现观众与主播之间的互动,有助于营造良好的直播氛 围。
在基于文本的应用中,很多时候需要从文本中提取出能够描述文本内容的 词语,该词语被称为文本的标签,它能够对文本的内容进行简单的描述和分类, 以便于检索和分享。在机器人会话领域中,通常需要从海量的弹幕文本中提取 出核心的会话场景,并得到对应场景的标签,以便于后续对弹幕文本内容进行 总结、分析等操作。因此,开发一种高效的标签提取方法显得非常有必要。
发明内容
本发明实施例提供一种标签提取方法、装置、设备及介质,通过所述方法 可实现有效提取文本的标签。
为实现上述目的,本发明实施例采用如下技术方案:
第一方面,本发明实施例提供了一种标签提取方法,所述方法包括:
基于预先训练好的HMM(Hidden Markov Model,隐马尔可夫模型)对待处 理文本进行分词处理,并确定所述待处理文本的特征词集合;
利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词 的权重;
按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的 候选标签集;
基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目 标标签。
进一步的,所述预先训练好的隐马尔可夫模型HMM基于特定领域的语料库 进行训练得到。
进一步的,所述利用改进的词频逆文本频率TF-IDF算法计算所述特征词集 合中每个特征词的权重,包括:
按照如下公式计算所述特征词集合中每个特征词的权重:
其中,wordij表示特征词wij的权重,wij表示待处理文本集中第i篇文本中 的第j个特征词,wkj表示待处理文本集中第k篇文本中的第j个特征词,表 示特征词wij在第i篇文本中出现的次数,表示特征词wkj在第k篇文本中出 现的次数,N表示待处理文本集中文本的总数,表示待处理文本集中包含 特征词wij的文本总数,表示待处理文本集中包含特征词wkj的文本总数。
进一步的,所述按照设定规则对所述每个特征词的权重进行调整,包括:
按照如下公式对所述每个特征词的权重进行调整:
wordhij=wordij*tf(wij)
其中,wordhij表示调整后的特征词wij的权重,wordij表示调整前特征词wij的权重,tf(wij)表示特征词wij的词频;
基于调整后的特征词权重对所述特征词集合的特征词排序;
依据排序从高到低的顺序选取设定数量的特征词作为所述待处理文本的候 选标签集。
进一步的,所述基于TextRank算法对所述候选标签集进行筛选,确定所述 待处理文本的目标标签,包括:
根据所述候选标签集中的特征词在所述待处理文本中的位置关系生成文本 图模型;
基于所述文本图模型利用TextRank算法对所述候选标签集进行筛选,确定 所述待处理文本的目标标签;
其中,所述候选标签集中的每个特征词对应所述文本图模型中的一个节点, 在待处理文本中与当前特征词左相邻的特征词组成当前特征词节点的前驱节点 集合,在待处理文本中与当前特征词右相邻的特征词组成当前特征词节点的后 驱节点集合。
进一步的,所述基于所述文本图模型利用TextRank算法对所述候选标签集 进行筛选,确定所述待处理文本的目标标签,包括:
按照如下公式迭代所述文本图模型中各节点的权重,直到各节点的权重收 敛至预设范围:
其中,WS(Vi)表示节点Vi的权重,WS(Vj)表示节点Vj的权重,d为阻尼系数, Wji表示节点Vj指向节点Vi的边的权重,Wji的初始值为节点Vi对应的特征词的权 重,Wjk表示节点Vj指向节点Vk的边的权重,Wjk的初始值为节点Vj对应的特征词 的权重,In(Vi)表示节点Vi的前驱节点集合,Out(Vj)表示节点Vj的后驱节点集合。
进一步的,对所述候选标签集进行筛选,确定所述待处理文本的目标标签, 包括:
基于各节点的权重大小选择设定数量的节点,并将所述设定数量的节点对 应的特征词作为所述待处理文本的目标标签。
第二方面,本发明实施例提供了一种标签提取装置,所述装置包括:
分词模块,用于基于预先训练好的隐马尔可夫模型HMM对待处理文本进行 分词处理,并确定所述待处理文本的特征词集合;
权重计算模块,用于利用改进的词频逆文本频率TF-IDF算法计算所述特征 词集合中每个特征词的权重;
候选标签集获取模块,用于按照设定规则对所述每个特征词的权重进行调 整,获取所述待处理文本的候选标签集;
标签提取模块,用于基于TextRank算法对所述候选标签集进行筛选,确定 所述待处理文本的目标标签。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存 储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机 程序时实现如上述第一方面所述的标签提取方法。
第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质, 所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的标 签提取方法。
本发明实施例提供的一种标签提取方法,通过基于预先训练好的隐马尔可 夫模型HMM对待处理文本进行分词处理,并确定所述待处理文本的特征词集合; 利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权 重;按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的 候选标签集;基于TextRank算法对所述候选标签集进行筛选,确定所述待处理 文本的目标标签的技术手段,实现了有效提取文本标签的目的。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描 述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的 前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1为本发明实施例一提供的一种标签提取方法流程示意图;
图2本发明实施例一提供的一种文本图模型示意图;
图3为本发明实施例二提供的一种标签提取装置结构示意图;
图4为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚, 下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描 述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实 施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例一提供的一种标签提取方法流程示意图。本实施例公 开的标签提取方法适用于对海量弹幕进行标签提取的情况。所述标签提取方法 可以由标签提取装置来执行,该装置可由软件和/或硬件实现,并一般集成在终 端中,例如服务器等。具体参见图1所示,标签提取方法包括如下步骤:
步骤110、基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处 理,并确定所述待处理文本的特征词集合。
其中,所述隐马尔可夫模型HMM是一种统计模型,用来描述一个含有隐含未 知参数的马尔可夫过程,隐马尔可夫模型是马尔可夫链的一种,它的状态不能 直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率 密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的 状态序列产生,一般被应用于中文分词及词性标注中。所述预先训练好的隐马 尔可夫模型HMM基于特定领域的语料库进行训练得到。为了提高隐马尔可夫模 型HMM的分词准确度,在实际工程中,通常在将隐马尔可夫模型HMM应用于文 本分词之前会基于待分词文本所属技术领域内的分词语料对所述隐马尔可夫模 型HMM进行训练,以使其记忆更多的特殊的分词结构。例如在对直播间的弹幕 文本进行分词之前,通常会基于该直播间的直播内容主题收集该主题下的分词 语料对所述隐马尔可夫模型HMM进行预先训练。假设直播间A的直播内容主题 为游戏,如“王者荣耀”,对应的分词语料可以为:四倍和全息怎么换的,点击 背包里面的装备,把四倍拖过去就行{四倍/名词 全息/名词 怎么/副词 换/动 词 点击/动词 背包/名词 装备/名词 四倍/名词拖过去/动词},或者为:主播 真是野区霸主{主播/名词 真是/副词 野区/名词 霸主/名词}。对隐马尔可夫模 型HMM进行训练的过程实质是让模型通过对分词预料的学习来获得模型参数的 过程。隐马尔可夫模型HMM的参数可概括为由三个矩阵构成,分别为:
初始状态概率矩阵A:
其中:Ai表示整个语料库中的第i聚哈,wi1表 示第i句话的第一个词的词性个数,m表示整个语料库的句子数,Rm*1表示矩阵 A为m*1维的矩阵;
隐含状态转移矩阵B:
其中,m表示整个语料库的句子数,n表示整个语 料的词性数,wtagij表示一个句子中相邻的两个词性转移的次数,i,j∈n,Rn*n表 示矩阵B是一个n*n维的正方形矩阵;
观测状态转移概率矩阵C:
其中:ki表示语料库中的第i个词,g表示语料库中词的总数,mi表示第i 个词在整个语料库出现的总次数,tagj表示第j个词性,wtagj表示当前词属于 词性tagj的次数,h表示语料库中词的词性的总数,该公式含义为词属于单个词 性的概率,该值通过当前词属于各个词性的个数除以当前词在整个语料库中出 现的次数计算得出。
假设待处理文本为“A=我想去北京读大学”和“B=北京的大学真好玩”, 利用训练好的隐马尔可夫HMM分词模型对所述待处理文本进行分词,得到所述 待处理文本的分词分别为“A=我 想去 北京 读 大学”,“B=北京 的 大学 真 好玩”,所述待处理文本的特征词集合为{我 想去 北京 读 大学 的 真 好玩}。
步骤120、利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中 每个特征词的权重。
具体的,按照如下公式计算所述特征词集合中每个特征词的权重:
其中,wordij表示特征词wij的权重,wij表示待处理文本集中第i篇文本中 的第j个特征词,wkj表示待处理文本集中第k篇文本中的第j个特征词,表 示特征词wij在第i篇文本中出现的次数,表示特征词wkj在第k篇文本中出 现的次数,N表示待处理文本集中文本的总数,表示待处理文本集中包含 特征词wij的文本总数,表示待处理文本集中包含特征词wkj的文本总数。
步骤130、按照设定规则对所述每个特征词的权重进行调整,获取所述待处 理文本的候选标签集。
具体的,按照如下公式对所述每个特征词的权重进行调整:
wordhij=wordij*tf(wij) (3)
其中,wordhij表示调整后的特征词wij的权重,wordij表示调整前特征词wij的权重,即上述公式(2)的计算结果,tf(wij)表示特征词wij的词频,通过特征 词wij在待处理文本中出现的次数除以待处理文本特征词的总数获得。
对所述每个特征词的权重进行调整的目的是适当调大每个特征词的权重, 以适应后续的TextRank算法完成待处理文本标签的提取。
基于调整后的特征词权重对所述特征词集合的特征词排序;
依据排序从高到低的顺序选取设定数量的特征词作为所述待处理文本的候 选标签集。
假设待处理文本的特征词集合为{我想去北京读大学的真好玩},通 过上述公式(2)计算得到所述待处理文本的特征词集合中对应的每个特征词的 权重为{0.7 0 0.70.6 0.7 0 0 0},通过上述公式(3)对各特征词的权重进 行调整后得到调整后的权重为{0.7 0 1.4 0.6 1.4 0 0 0};依据每个特征词调 整后的权重大小选取设定数量的特征词作为所述待处理文本的候选标签集,本 实施例以所述设定数量为4为例,则针对所述待处理文本“A=我想去北京读大 学和B=北京的大学真好玩”的候选标签集为{北京 大学 我读}。
步骤140、基于TextRank算法对所述候选标签集进行筛选,确定所述待处 理文本的目标标签。
示例性的,所述基于TextRank算法对所述候选标签集进行筛选,确定所述 待处理文本的目标标签,包括:
根据所述候选标签集中的特征词在所述待处理文本中的位置关系生成文本 图模型;
基于所述文本图模型利用TextRank算法对所述候选标签集进行筛选,确定 所述待处理文本的目标标签;
其中,所述候选标签集中的每个特征词对应所述文本图模型中的一个节点, 在待处理文本中与当前特征词左相邻的特征词组成当前特征词节点的前驱节点 集合,在待处理文本中与当前特征词右相邻的特征词组成当前特征词节点的后 驱节点集合。
具体的,参见图2所示的文本图模型示意图,继续延用上述举例,待处理 文本“A=我想去北京读大学和B=北京的大学真好玩”的候选标签集为{北京 大 学 我 读}”,所述候选标签集中的每个特征词对应图2所示的文本图模型中 的一个节点。对于特征词“北京”,结合“北京”在待处理文本A和B中的位 置,可知候选标签集中的特征词“我”在特征词“北京”的前面出现过,即特 征词“我”与特征词“北京”左相邻,特征词“北京”与特征词“我”右相邻, 故将特征词“北京”与特征词“我”之间连上一条线,且线的方向由特征词“我” 指向特征词“北京”,也就是说节点“我”是节点“北京”的前驱节点,节点 “北京”是节点“我”的后驱节点。同样的原理,特征词“北京”与特征词“读” 之间有连线,且连线的方向由特征词“北京”指向特征词“读”;特征词“北 京”与特征词“大学”之间有连线,且连线的方向由特征词“北京”指向特征 词“大学”;特征词“读”与特征词“大学”之间有连线,且连线的方向由特征词“读”指向特征词“大学”,最终形成如图2所示的文本图模型。
进一步的,所述基于所述文本图模型利用TextRank算法对所述候选标签集 进行筛选,确定所述待处理文本的目标标签,包括:
按照如下公式迭代所述文本图模型中各节点的权重,直到各节点的权重收 敛至预设范围:
其中,WS(Vi)表示节点Vi的权重,WS(Vj)表示节点Vj的权重,d为阻尼系数, Wji表示节点Vj指向节点Vi的边的权重,Wji的初始值为节点Vi对应的特征词的权 重,Wjk表示节点Vj指向节点Vk的边的权重,Wjk的初始值为节点Vj对应的特征词 的权重,In(Vi)表示节点Vi的前驱节点集合,Out(Vj)表示节点Vj的后驱节点集合。
进一步的,对所述候选标签集进行筛选,确定所述待处理文本的目标标签, 包括:
基于各节点的权重大小选择设定数量的节点,并将所述设定数量的节点对 应的特征词作为所述待处理文本的目标标签。
假设通过上述公式(4)基于候选标签集{北京大学我读}对应的权重 {1.4 1.40.7 0.6}进行迭代得到各节点的收敛权重分别为北京:1.2;大学: 0.6;我:0.8;读:1.3;若最终需要选取两个节点作为所述待处理文本对应的 标签,则标签提取结果为:读和北京。
本实施例提供的一种标签提取方法,通过基于预先训练好的隐马尔可夫模 型HMM对待处理文本进行分词处理,并确定所述待处理文本的特征词集合;利 用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权 重;按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的 候选标签集;基于TextRank算法对所述候选标签集进行筛选,确定所述待处理 文本的目标标签的技术手段,实现了有效提取文本标签的目的。
实施例二
图4为本发明实施例二提供的一种标签提取装置的结构示意图。参见图4 所示,所述装置包括:分词模块310、权重计算模块320、候选标签集获取模块 330和标签提取模块340;
其中,分词模块310,用于基于预先训练好的隐马尔可夫模型HMM对待处理 文本进行分词处理,并确定所述待处理文本的特征词集合;
权重计算模块320,用于利用改进的词频逆文本频率TF-IDF算法计算所述 特征词集合中每个特征词的权重;
候选标签集获取模块330,用于按照设定规则对所述每个特征词的权重进行 调整,获取所述待处理文本的候选标签集;
标签提取模块340,用于基于TextRank算法对所述候选标签集进行筛选, 确定所述待处理文本的目标标签。
进一步的,所述预先训练好的隐马尔可夫模型HMM基于特定领域的语料库 进行训练得到。
示例性的,所述权重计算模块320具体用于:
按照如下公式计算所述特征词集合中每个特征词的权重:
其中,wordij表示特征词wij的权重,wij表示待处理文本集中第i篇文本中 的第j个特征词,wkj表示待处理文本集中第k篇文本中的第j个特征词,表 示特征词wij在第i篇文本中出现的次数,表示特征词wkj在第k篇文本中出 现的次数,N表示待处理文本集中文本的总数,表示待处理文本集中包含 特征词wij的文本总数,表示待处理文本集中包含特征词wkj的文本总数。
示例性的,所述候选标签集获取模块330具体包括:
调整单元,用于按照如下公式对所述每个特征词的权重进行调整:
wordhij=wordij*tf(wij)
其中,wordhij表示调整后的特征词wij的权重,wordij表示调整前特征词wij的权重,tf(wij)表示特征词wij的词频;
排序单元,用于基于调整后的特征词权重对所述特征词集合的特征词排序;
选取单元,用于依据排序从高到低的顺序选取设定数量的特征词作为所述 待处理文本的候选标签集。
示例性的,所述标签提取模块340包括:
生成单元,用于根据所述候选标签集中的特征词在所述待处理文本中的位 置关系生成文本图模型;
筛选单元,用于基于所述文本图模型利用TextRank算法对所述候选标签集 进行筛选,确定所述待处理文本的目标标签;
其中,所述候选标签集中的每个特征词对应所述文本图模型中的一个节点, 在待处理文本中与当前特征词左相邻的特征词组成当前特征词节点的前驱节点 集合,在待处理文本中与当前特征词右相邻的特征词组成当前特征词节点的后 驱节点集合。
进一步的,所述筛选单元具体用于:
按照如下公式迭代所述文本图模型中各节点的权重,直到各节点的权重收 敛至预设范围:
其中,WS(Vi)表示节点Vi的权重,WS(Vj)表示节点Vj的权重,d为阻尼系数, Wji表示节点Vj指向节点Vi的边的权重,Wji的初始值为节点Vi对应的特征词的权 重,Wjk表示节点Vj指向节点Vk的边的权重,Wjk的初始值为节点Vj对应的特征词 的权重,In(Vi)表示节点Vi的前驱节点集合,Out(Vj)表示节点Vj的后驱节点集合;
基于各节点的权重大小选择设定数量的节点,并将所述设定数量的节点对 应的特征词作为所述待处理文本的目标标签。
本实施例提供的标签提取装置,通过基于预先训练好的隐马尔可夫模型 HMM对待处理文本进行分词处理,并确定所述待处理文本的特征词集合;利用改 进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重;按 照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的候选标 签集;基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的 目标标签的技术手段,实现了有效提取文本标签的目的。
实施例三
图4为本发明实施例三提供的一种电子设备的结构示意图。如图4所示, 该电子设备包括:处理器670、存储器671及存储在存储器671上并可在处理器 670上运行的计算机程序;其中,处理器670的数量可以是一个或多个,图4中 以一个处理器670为例;处理器670执行所述计算机程序时实现如上述实施例 一中所述的标签提取方法。如图4所示,所述电子设备还可以包括输入装置672 和输出装置673。处理器670、存储器671、输入装置672和输出装置673可以 通过总线或其他方式连接,图4中以通过总线连接为例。
存储器671作为一种计算机可读存储介质,可用于存储软件程序、计算机 可执行程序以及模块,如本发明实施例中标签提取方法装置/模块(例如,标签 提取装置中的分词模块310、权重计算模块320、候选标签集获取模块330和标 签提取模块340等)。处理器670通过运行存储在存储器671中的软件程序、 指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述 的标签提取方法。
存储器671可主要包括存储程序区和存储数据区,其中,存储程序区可存 储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使 用所创建的数据等。此外,存储器671可以包括高速随机存取存储器,还可以 包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失 性固态存储器件。在一些实例中,存储器671可进一步包括相对于处理器670 远程设置的存储器,这些远程存储器可以通过网络连接至电子设备/存储介质。 上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其 组合。
输入装置672可用于接收输入的数字或字符信息,以及产生与电子设备的 用户设置以及功能控制有关的键信号输入。输出装置673可包括显示屏等显示 设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算 机可执行指令在由计算机处理器执行时用于执行一种标签提取方法,该方法包 括:
基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理,并确 定所述待处理文本的特征词集合;
利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词 的权重;
按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的 候选标签集;
基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目 标标签。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其 计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例 所提供的标签提取方法的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、 闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以 是个人计算机,存储介质,或者网络设备等)执行本发明各个实施例所述的。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员 会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进 行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽 然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以 上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种标签提取方法,其特征在于,包括:
基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理,并确定所述待处理文本的特征词集合;
利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重;
按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的候选标签集;
基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签。
2.根据权利要求1所述的方法,其特征在于,所述预先训练好的隐马尔可夫模型HMM基于特定领域的语料库进行训练得到。
3.根据权利要求1所述的方法,其特征在于,所述利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重,包括:
按照如下公式计算所述特征词集合中每个特征词的权重:
其中,wordij表示特征词wij的权重,wij表示待处理文本集中第i篇文本中的第j个特征词,wkj表示待处理文本集中第k篇文本中的第j个特征词,表示特征词wij在第i篇文本中出现的次数,表示特征词wkj在第k篇文本中出现的次数,N表示待处理文本集中文本的总数,表示待处理文本集中包含特征词wij的文本总数,表示待处理文本集中包含特征词wkj的文本总数。
4.根据权利要求3所述的方法,其特征在于,所述按照设定规则对所述每个特征词的权重进行调整,包括:
按照如下公式对所述每个特征词的权重进行调整:
wordhij=wordij*tf(wij)
其中,wordhij表示调整后的特征词wij的权重,wordij表示调整前特征词wij的权重,tf(wij)表示特征词wij的词频;
基于调整后的特征词权重对所述特征词集合的特征词排序;
依据排序从高到低的顺序选取设定数量的特征词作为所述待处理文本的候选标签集。
5.根据权利要求4所述的方法,其特征在于,所述基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签,包括:
根据所述候选标签集中的特征词在所述待处理文本中的位置关系生成文本图模型;
基于所述文本图模型利用TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签;
其中,所述候选标签集中的每个特征词对应所述文本图模型中的一个节点,在待处理文本中与当前特征词左相邻的特征词组成当前特征词节点的前驱节点集合,在待处理文本中与当前特征词右相邻的特征词组成当前特征词节点的后驱节点集合。
6.根据权利要求5所述的方法,其特征在于,所述基于所述文本图模型利用TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签,包括:
按照如下公式迭代所述文本图模型中各节点的权重,直到各节点的权重收敛至预设范围:
其中,WS(Vi)表示节点Vi的权重,WS(Vj)表示节点Vj的权重,d为阻尼系数,Wji表示节点Vj指向节点Vi的边的权重,Wji的初始值为节点Vi对应的特征词的权重,Wjk表示节点Vj指向节点Vk的边的权重,Wjk的初始值为节点Vj对应的特征词的权重,In(Vi)表示节点Vi的前驱节点集合,Out(Vj)表示节点Vj的后驱节点集合。
7.根据权利要求6所述的方法,其特征在于,所述基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签,还包括:
基于各节点的权重大小选择设定数量的节点,并将所述设定数量的节点对应的特征词作为所述待处理文本的目标标签。
8.一种标签提取装置,其特征在于,所述装置包括:
分词模块,用于基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理,并确定所述待处理文本的特征词集合;
权重计算模块,用于利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重;
候选标签集获取模块,用于按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的候选标签集;
标签提取模块,用于基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的标签提取方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-7中任一项所述的标签提取方法。
CN201811300294.4A 2018-11-02 2018-11-02 一种标签提取方法、装置、电子设备及存储介质 Active CN109710916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811300294.4A CN109710916B (zh) 2018-11-02 2018-11-02 一种标签提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811300294.4A CN109710916B (zh) 2018-11-02 2018-11-02 一种标签提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109710916A true CN109710916A (zh) 2019-05-03
CN109710916B CN109710916B (zh) 2024-02-23

Family

ID=66254278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811300294.4A Active CN109710916B (zh) 2018-11-02 2018-11-02 一种标签提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109710916B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263854A (zh) * 2019-06-20 2019-09-20 广州酷狗计算机科技有限公司 直播标签确定方法、装置及存储介质
CN110287289A (zh) * 2019-06-25 2019-09-27 北京金海群英网络信息技术有限公司 一种文档关键词提取及基于文档匹配商品的方法
CN110489757A (zh) * 2019-08-26 2019-11-22 北京邮电大学 一种关键词提取方法及装置
CN110851578A (zh) * 2019-10-31 2020-02-28 北京大米科技有限公司 关键词提取方法、装置和电子设备
CN111222500A (zh) * 2020-04-24 2020-06-02 腾讯科技(深圳)有限公司 一种标签提取方法及装置
CN111563361A (zh) * 2020-04-01 2020-08-21 北京小米松果电子有限公司 文本标签的提取方法及装置、存储介质
CN111798214A (zh) * 2020-07-10 2020-10-20 河北冀联人力资源服务集团有限公司 职位技能标签生成系统及方法
CN112699237A (zh) * 2020-12-24 2021-04-23 百度在线网络技术(北京)有限公司 标签确定方法、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN108427769A (zh) * 2018-03-29 2018-08-21 苏州大学 一种基于社交网络的人物兴趣标签提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN108427769A (zh) * 2018-03-29 2018-08-21 苏州大学 一种基于社交网络的人物兴趣标签提取方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263854A (zh) * 2019-06-20 2019-09-20 广州酷狗计算机科技有限公司 直播标签确定方法、装置及存储介质
CN110287289A (zh) * 2019-06-25 2019-09-27 北京金海群英网络信息技术有限公司 一种文档关键词提取及基于文档匹配商品的方法
CN110489757A (zh) * 2019-08-26 2019-11-22 北京邮电大学 一种关键词提取方法及装置
CN110851578A (zh) * 2019-10-31 2020-02-28 北京大米科技有限公司 关键词提取方法、装置和电子设备
CN111563361A (zh) * 2020-04-01 2020-08-21 北京小米松果电子有限公司 文本标签的提取方法及装置、存储介质
CN111563361B (zh) * 2020-04-01 2024-05-14 北京小米松果电子有限公司 文本标签的提取方法及装置、存储介质
CN111222500A (zh) * 2020-04-24 2020-06-02 腾讯科技(深圳)有限公司 一种标签提取方法及装置
CN111222500B (zh) * 2020-04-24 2020-08-04 腾讯科技(深圳)有限公司 一种标签提取方法及装置
CN111798214A (zh) * 2020-07-10 2020-10-20 河北冀联人力资源服务集团有限公司 职位技能标签生成系统及方法
CN111798214B (zh) * 2020-07-10 2022-11-29 河北冀联人力资源服务集团有限公司 职位技能标签生成系统及方法
CN112699237A (zh) * 2020-12-24 2021-04-23 百度在线网络技术(北京)有限公司 标签确定方法、设备和存储介质

Also Published As

Publication number Publication date
CN109710916B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN109710916A (zh) 一种标签提取方法、装置、电子设备及存储介质
Che et al. Maximum-likelihood augmented discrete generative adversarial networks
Wei et al. Mvp: Multimodality-guided visual pre-training
CN108090400B (zh) 一种图像文本识别的方法和装置
Su et al. Lattice-based recurrent neural network encoders for neural machine translation
Le et al. Pattern generation strategies for improving recognition of handwritten mathematical expressions
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
Wang et al. Morphological segmentation with window LSTM neural networks
CN107590134A (zh) 文本情感分类方法、存储介质及计算机
Wang et al. An experimental study of LSTM encoder-decoder model for text simplification
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及系统
CN109961041A (zh) 一种视频识别方法、装置及存储介质
CN108664465A (zh) 一种自动生成文本方法以及相关装置
CN109871534A (zh) 中英混合语料的生成方法、装置、设备及存储介质
Fakoor et al. Memory-augmented attention modelling for videos
CN111143617A (zh) 一种图片或视频文本描述自动生成方法及系统
Fu et al. A convolutional neural network for clickbait detection
Song et al. LSTM-in-LSTM for generating long descriptions of images
Liang et al. ISIA at the ImageCLEF 2017 Image Caption Task.
Chen et al. D 3 net: A unified speaker-listener architecture for 3d dense captioning and visual grounding
Rathi Deep learning apporach for image captioning in Hindi language
Weinbach et al. M-vader: A model for diffusion with multimodal context
CN109635303A (zh) 特定领域意义改变词的识别方法
Nogueira dos Santos et al. Portuguese part-of-speech tagging using entropy guided transformation learning
CN110895656A (zh) 一种文本相似度计算方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231123

Address after: Room 205, Room 206, Room J1447, No. 1045 Tianyuan Road, Tianhe District, Guangzhou City, Guangdong Province, 510000

Applicant after: Guangzhou Caimeng Technology Co.,Ltd.

Address before: 11 / F, building B1, phase 4.1, software industry, No.1, Software Park East Road, Wuhan East Lake Development Zone, Wuhan City, Hubei Province, 430070

Applicant before: WUHAN DOUYU NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant