CN109710916A

CN109710916A - 一种标签提取方法、装置、电子设备及存储介质

Info

Publication number: CN109710916A
Application number: CN201811300294.4A
Authority: CN
Inventors: 徐乐乐
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Guangzhou Caimeng Technology Co ltd
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-05-03
Anticipated expiration: 2038-11-02
Also published as: CN109710916B

Abstract

本发明实施例公开了一种标签提取方法、装置、电子设备及存储介质，所述方法包括：基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理，并确定所述待处理文本的特征词集合；利用改进的词频逆文本频率TF‑IDF算法计算所述特征词集合中每个特征词的权重；按照设定规则对所述每个特征词的权重进行调整，获取所述待处理文本的候选标签集；基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签。通过采用上述技术方案，实现了对文本标签的高效、准确提取。

Description

一种标签提取方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种标签提取方法、装置、设备及介质。

背景技术

目前，基于iOS平台或者基于Android平台的直播间应用程序发展迅速，深受用户喜爱。弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表达方式，通过弹幕可以实现观众与主播之间的互动，有助于营造良好的直播氛围。

在基于文本的应用中，很多时候需要从文本中提取出能够描述文本内容的词语，该词语被称为文本的标签，它能够对文本的内容进行简单的描述和分类，以便于检索和分享。在机器人会话领域中，通常需要从海量的弹幕文本中提取出核心的会话场景，并得到对应场景的标签，以便于后续对弹幕文本内容进行总结、分析等操作。因此，开发一种高效的标签提取方法显得非常有必要。

发明内容

本发明实施例提供一种标签提取方法、装置、设备及介质，通过所述方法可实现有效提取文本的标签。

为实现上述目的，本发明实施例采用如下技术方案：

第一方面，本发明实施例提供了一种标签提取方法，所述方法包括：

基于预先训练好的HMM(Hidden Markov Model，隐马尔可夫模型)对待处理文本进行分词处理，并确定所述待处理文本的特征词集合；

利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重；

按照设定规则对所述每个特征词的权重进行调整，获取所述待处理文本的候选标签集；

基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签。

进一步的，所述预先训练好的隐马尔可夫模型HMM基于特定领域的语料库进行训练得到。

进一步的，所述利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重，包括：

按照如下公式计算所述特征词集合中每个特征词的权重：

其中，word_ij表示特征词w_ij的权重，w_ij表示待处理文本集中第i篇文本中的第j个特征词，w_kj表示待处理文本集中第k篇文本中的第j个特征词，表示特征词w_ij在第i篇文本中出现的次数，表示特征词w_kj在第k篇文本中出现的次数，N表示待处理文本集中文本的总数，表示待处理文本集中包含特征词w_ij的文本总数，表示待处理文本集中包含特征词w_kj的文本总数。

进一步的，所述按照设定规则对所述每个特征词的权重进行调整，包括：

按照如下公式对所述每个特征词的权重进行调整：

wordh_ij＝word_ij*tf(w_ij)

其中，wordh_ij表示调整后的特征词w_ij的权重，word_ij表示调整前特征词w_ij的权重，tf(w_ij)表示特征词w_ij的词频；

基于调整后的特征词权重对所述特征词集合的特征词排序；

依据排序从高到低的顺序选取设定数量的特征词作为所述待处理文本的候选标签集。

进一步的，所述基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签，包括：

根据所述候选标签集中的特征词在所述待处理文本中的位置关系生成文本图模型；

基于所述文本图模型利用TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签；

其中，所述候选标签集中的每个特征词对应所述文本图模型中的一个节点，在待处理文本中与当前特征词左相邻的特征词组成当前特征词节点的前驱节点集合，在待处理文本中与当前特征词右相邻的特征词组成当前特征词节点的后驱节点集合。

进一步的，所述基于所述文本图模型利用TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签，包括：

按照如下公式迭代所述文本图模型中各节点的权重，直到各节点的权重收敛至预设范围：

其中，WS(V_i)表示节点V_i的权重，WS(V_j)表示节点V_j的权重，d为阻尼系数， W_ji表示节点V_j指向节点V_i的边的权重，W_ji的初始值为节点V_i对应的特征词的权重，W_jk表示节点V_j指向节点V_k的边的权重，W_jk的初始值为节点V_j对应的特征词的权重，In(V_i)表示节点V_i的前驱节点集合，Out(V_j)表示节点V_j的后驱节点集合。

进一步的，对所述候选标签集进行筛选，确定所述待处理文本的目标标签，包括：

基于各节点的权重大小选择设定数量的节点，并将所述设定数量的节点对应的特征词作为所述待处理文本的目标标签。

第二方面，本发明实施例提供了一种标签提取装置，所述装置包括：

分词模块，用于基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理，并确定所述待处理文本的特征词集合；

权重计算模块，用于利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重；

候选标签集获取模块，用于按照设定规则对所述每个特征词的权重进行调整，获取所述待处理文本的候选标签集；

标签提取模块，用于基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的标签提取方法。

第四方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的标签提取方法。

本发明实施例提供的一种标签提取方法，通过基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理，并确定所述待处理文本的特征词集合；利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重；按照设定规则对所述每个特征词的权重进行调整，获取所述待处理文本的候选标签集；基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签的技术手段，实现了有效提取文本标签的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1为本发明实施例一提供的一种标签提取方法流程示意图；

图2本发明实施例一提供的一种文本图模型示意图；

图3为本发明实施例二提供的一种标签提取装置结构示意图；

图4为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种标签提取方法流程示意图。本实施例公开的标签提取方法适用于对海量弹幕进行标签提取的情况。所述标签提取方法可以由标签提取装置来执行，该装置可由软件和/或硬件实现，并一般集成在终端中，例如服务器等。具体参见图1所示，标签提取方法包括如下步骤：

步骤110、基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理，并确定所述待处理文本的特征词集合。

其中，所述隐马尔可夫模型HMM是一种统计模型，用来描述一个含有隐含未知参数的马尔可夫过程，隐马尔可夫模型是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有相应概率密度分布的状态序列产生，一般被应用于中文分词及词性标注中。所述预先训练好的隐马尔可夫模型HMM基于特定领域的语料库进行训练得到。为了提高隐马尔可夫模型HMM的分词准确度，在实际工程中，通常在将隐马尔可夫模型HMM应用于文本分词之前会基于待分词文本所属技术领域内的分词语料对所述隐马尔可夫模型HMM进行训练，以使其记忆更多的特殊的分词结构。例如在对直播间的弹幕文本进行分词之前，通常会基于该直播间的直播内容主题收集该主题下的分词语料对所述隐马尔可夫模型HMM进行预先训练。假设直播间A的直播内容主题为游戏，如“王者荣耀”，对应的分词语料可以为：四倍和全息怎么换的,点击背包里面的装备,把四倍拖过去就行{四倍/名词全息/名词怎么/副词换/动词点击/动词背包/名词装备/名词四倍/名词拖过去/动词}，或者为：主播真是野区霸主{主播/名词真是/副词野区/名词霸主/名词}。对隐马尔可夫模型HMM进行训练的过程实质是让模型通过对分词预料的学习来获得模型参数的过程。隐马尔可夫模型HMM的参数可概括为由三个矩阵构成，分别为：

初始状态概率矩阵A：

其中：A_i表示整个语料库中的第i聚哈，w_i1表示第i句话的第一个词的词性个数，m表示整个语料库的句子数，R^m*1表示矩阵 A为m*1维的矩阵；

隐含状态转移矩阵B：

其中，m表示整个语料库的句子数，n表示整个语料的词性数，wtag_ij表示一个句子中相邻的两个词性转移的次数，i,j∈n,R^n*n表示矩阵B是一个n*n维的正方形矩阵；

观测状态转移概率矩阵C：

其中：k_i表示语料库中的第i个词，g表示语料库中词的总数，m_i表示第i 个词在整个语料库出现的总次数，tag_j表示第j个词性，wtag_j表示当前词属于词性tag_j的次数，h表示语料库中词的词性的总数，该公式含义为词属于单个词性的概率，该值通过当前词属于各个词性的个数除以当前词在整个语料库中出现的次数计算得出。

假设待处理文本为“A＝我想去北京读大学”和“B＝北京的大学真好玩”，利用训练好的隐马尔可夫HMM分词模型对所述待处理文本进行分词，得到所述待处理文本的分词分别为“A＝我想去北京读大学”，“B＝北京的大学真好玩”，所述待处理文本的特征词集合为{我想去北京读大学的真好玩}。

步骤120、利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重。

具体的，按照如下公式计算所述特征词集合中每个特征词的权重：

步骤130、按照设定规则对所述每个特征词的权重进行调整，获取所述待处理文本的候选标签集。

具体的，按照如下公式对所述每个特征词的权重进行调整：

wordh_ij＝word_ij*tf(w_ij) (3)

其中，wordh_ij表示调整后的特征词w_ij的权重，word_ij表示调整前特征词w_ij的权重，即上述公式(2)的计算结果，tf(w_ij)表示特征词w_ij的词频，通过特征词w_ij在待处理文本中出现的次数除以待处理文本特征词的总数获得。

对所述每个特征词的权重进行调整的目的是适当调大每个特征词的权重，以适应后续的TextRank算法完成待处理文本标签的提取。

基于调整后的特征词权重对所述特征词集合的特征词排序；

假设待处理文本的特征词集合为{我想去北京读大学的真好玩},通过上述公式(2)计算得到所述待处理文本的特征词集合中对应的每个特征词的权重为{0.7 0 0.70.6 0.7 0 0 0}，通过上述公式(3)对各特征词的权重进行调整后得到调整后的权重为{0.7 0 1.4 0.6 1.4 0 0 0}；依据每个特征词调整后的权重大小选取设定数量的特征词作为所述待处理文本的候选标签集，本实施例以所述设定数量为4为例，则针对所述待处理文本“A＝我想去北京读大学和B＝北京的大学真好玩”的候选标签集为{北京大学我读}。

步骤140、基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签。

示例性的，所述基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签，包括：

具体的，参见图2所示的文本图模型示意图，继续延用上述举例，待处理文本“A＝我想去北京读大学和B＝北京的大学真好玩”的候选标签集为{北京大学我读}”，所述候选标签集中的每个特征词对应图2所示的文本图模型中的一个节点。对于特征词“北京”，结合“北京”在待处理文本A和B中的位置，可知候选标签集中的特征词“我”在特征词“北京”的前面出现过，即特征词“我”与特征词“北京”左相邻，特征词“北京”与特征词“我”右相邻，故将特征词“北京”与特征词“我”之间连上一条线，且线的方向由特征词“我” 指向特征词“北京”，也就是说节点“我”是节点“北京”的前驱节点，节点 “北京”是节点“我”的后驱节点。同样的原理，特征词“北京”与特征词“读” 之间有连线，且连线的方向由特征词“北京”指向特征词“读”；特征词“北京”与特征词“大学”之间有连线，且连线的方向由特征词“北京”指向特征词“大学”；特征词“读”与特征词“大学”之间有连线，且连线的方向由特征词“读”指向特征词“大学”，最终形成如图2所示的文本图模型。

假设通过上述公式(4)基于候选标签集{北京大学我读}对应的权重 {1.4 1.40.7 0.6}进行迭代得到各节点的收敛权重分别为北京：1.2；大学： 0.6；我：0.8；读:1.3；若最终需要选取两个节点作为所述待处理文本对应的标签，则标签提取结果为：读和北京。

本实施例提供的一种标签提取方法，通过基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理，并确定所述待处理文本的特征词集合；利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重；按照设定规则对所述每个特征词的权重进行调整，获取所述待处理文本的候选标签集；基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签的技术手段，实现了有效提取文本标签的目的。

实施例二

图4为本发明实施例二提供的一种标签提取装置的结构示意图。参见图4 所示，所述装置包括：分词模块310、权重计算模块320、候选标签集获取模块 330和标签提取模块340；

其中，分词模块310，用于基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理，并确定所述待处理文本的特征词集合；

权重计算模块320，用于利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重；

候选标签集获取模块330，用于按照设定规则对所述每个特征词的权重进行调整，获取所述待处理文本的候选标签集；

标签提取模块340，用于基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签。

示例性的，所述权重计算模块320具体用于：

按照如下公式计算所述特征词集合中每个特征词的权重：

示例性的，所述候选标签集获取模块330具体包括：

调整单元，用于按照如下公式对所述每个特征词的权重进行调整：

wordh_ij＝word_ij*tf(w_ij)

排序单元，用于基于调整后的特征词权重对所述特征词集合的特征词排序；

选取单元，用于依据排序从高到低的顺序选取设定数量的特征词作为所述待处理文本的候选标签集。

示例性的，所述标签提取模块340包括：

生成单元，用于根据所述候选标签集中的特征词在所述待处理文本中的位置关系生成文本图模型；

筛选单元，用于基于所述文本图模型利用TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签；

进一步的，所述筛选单元具体用于：

其中，WS(V_i)表示节点V_i的权重，WS(V_j)表示节点V_j的权重，d为阻尼系数， W_ji表示节点V_j指向节点V_i的边的权重，W_ji的初始值为节点V_i对应的特征词的权重，W_jk表示节点V_j指向节点V_k的边的权重，W_jk的初始值为节点V_j对应的特征词的权重，In(V_i)表示节点V_i的前驱节点集合，Out(V_j)表示节点V_j的后驱节点集合；

本实施例提供的标签提取装置，通过基于预先训练好的隐马尔可夫模型 HMM对待处理文本进行分词处理，并确定所述待处理文本的特征词集合；利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重；按照设定规则对所述每个特征词的权重进行调整，获取所述待处理文本的候选标签集；基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签的技术手段，实现了有效提取文本标签的目的。

实施例三

图4为本发明实施例三提供的一种电子设备的结构示意图。如图4所示，该电子设备包括：处理器670、存储器671及存储在存储器671上并可在处理器 670上运行的计算机程序；其中，处理器670的数量可以是一个或多个，图4中以一个处理器670为例；处理器670执行所述计算机程序时实现如上述实施例一中所述的标签提取方法。如图4所示，所述电子设备还可以包括输入装置672 和输出装置673。处理器670、存储器671、输入装置672和输出装置673可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器671作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中标签提取方法装置/模块(例如，标签提取装置中的分词模块310、权重计算模块320、候选标签集获取模块330和标签提取模块340等)。处理器670通过运行存储在存储器671中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的标签提取方法。

存储器671可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器671可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器671可进一步包括相对于处理器670 远程设置的存储器，这些远程存储器可以通过网络连接至电子设备/存储介质。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置672可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置673可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种标签提取方法，该方法包括：

基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理，并确定所述待处理文本的特征词集合；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的标签提取方法的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，存储介质，或者网络设备等)执行本发明各个实施例所述的。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种标签提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预先训练好的隐马尔可夫模型HMM基于特定领域的语料库进行训练得到。

3.根据权利要求1所述的方法，其特征在于，所述利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重，包括：

按照如下公式计算所述特征词集合中每个特征词的权重：

4.根据权利要求3所述的方法，其特征在于，所述按照设定规则对所述每个特征词的权重进行调整，包括：

按照如下公式对所述每个特征词的权重进行调整：

wordh_ij＝word_ij*tf(w_ij)

基于调整后的特征词权重对所述特征词集合的特征词排序；

5.根据权利要求4所述的方法，其特征在于，所述基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述文本图模型利用TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签，包括：

其中，WS(V_i)表示节点V_i的权重，WS(V_j)表示节点V_j的权重，d为阻尼系数，W_ji表示节点V_j指向节点V_i的边的权重，W_ji的初始值为节点V_i对应的特征词的权重，W_jk表示节点V_j指向节点V_k的边的权重，W_jk的初始值为节点V_j对应的特征词的权重，In(V_i)表示节点V_i的前驱节点集合，Out(V_j)表示节点V_j的后驱节点集合。

7.根据权利要求6所述的方法，其特征在于，所述基于TextRank算法对所述候选标签集进行筛选，确定所述待处理文本的目标标签，还包括：

8.一种标签提取装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的标签提取方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-7中任一项所述的标签提取方法。