CN109670176A

CN109670176A - 一种关键词抽取方法、装置、电子设备及存储介质

Info

Publication number: CN109670176A
Application number: CN201811558096.8A
Authority: CN
Inventors: 徐乐乐
Original assignee: Wuhan Ouyue Netvision Co Ltd
Current assignee: Wuhan Ouyue Netvision Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-04-23

Abstract

本发明实施例公开了一种关键词抽取方法、装置、设备及介质，所述方法包括：对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合；基于所述特征词集合以及关联词集合计算每组关联词的关联程度；根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重；将权重达到设定阈值的特征词确定为所述待处理文本的关键词。通过采用上述技术方案，实现了对文本关键词的高效、准确提取。

Description

一种关键词抽取方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种关键词抽取方法、装置、设备及介质。

背景技术

目前，基于iOS平台或者基于Android平台的直播间应用程序发展迅速，深受用户喜爱。弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表达方式，通过弹幕可以实现观众与主播之间的互动，有助于营造良好的直播氛围。

在基于文本的应用中，很多时候需要从文本中提取出能够描述文本内容主题的词语，该词语被称为文本的关键词，它能够对文本的内容进行简单的描述和分类，以便于检索和分享。在机器人会话领域中，通常需要从海量的弹幕文本中提取出核心的会话场景，并得到对应场景的关键词，以便于后续对弹幕文本内容进行总结、分析等操作。因此，开发一种高效的关键词抽取方法显得非常有必要。

发明内容

本发明实施例提供一种关键词抽取方法、装置、设备及介质，通过所述方法可实现文本关键词的有效提取。

为实现上述目的，本发明实施例采用如下技术方案：

第一方面，本发明实施例提供了一种关键词抽取方法，所述方法包括：

对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合；

基于所述特征词集合以及关联词集合计算每组关联词的关联程度；

根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重；

将权重达到设定阈值的特征词确定为所述待处理文本的关键词。

第二方面，本发明实施例提供了一种关键词抽取装置，所述装置包括：

分析模块，用于对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合；

关联程度计算模块，用于基于所述特征词集合以及关联词集合计算每组关联词的关联程度；

权重计算模块，用于根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重；

关键词确定模块，用于将权重达到设定阈值的特征词确定为所述待处理文本的关键词。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的关键词抽取方法。

第四方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的关键词抽取方法。

本发明实施例提供的一种关键词抽取方法，通过对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合；基于所述特征词集合以及关联词集合计算每组关联词的关联程度；根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重；将权重达到设定阈值的特征词确定为所述待处理文本的关键词的技术手段，实现了有效提取文本关键词的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1为本发明实施例一提供的一种关键词抽取方法流程示意图；

图2本发明实施例一提供的一种文本图模型示意图；

图3为本发明实施例二提供的一种关键词抽取装置结构示意图；

图4为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种关键词抽取方法流程示意图。本实施例公开的关键词抽取方法适用于对海量弹幕进行关键词抽取的情况。所述关键词抽取方法可以由关键词抽取装置来执行，该装置可由软件和/或硬件实现，并一般集成在终端中，例如服务器等。具体参见图1所示，关键词抽取方法包括如下步骤：

步骤110、对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合。

其中，句法分析的实质为识别句子中的“主谓宾、定状补”的语法成分以及各成分之间的关系的过程。例如对待处理文本“总理提出支持上海探索新机制”进行句法分析得到的分析结果为：

其中，HED表示整个句子的核心，SBV表示主谓关系，VOB表示动宾关系，DBL表示兼语，ATT表示定中关系。从上述句法分析结果可以看到，待处理文本“总理提出支持上海探索新机制”的核心谓语为“提出”，主语为“总理”，“提出”的宾语为“支持上海探索新机制”，“支持”的宾语为“探索新机制”。上述待处理文本“总理提出支持上海探索新机制”对应的特征词集合为{总理、提出、支持、上海、探索、新、机制}，对应的关联词集合为{提出>总理、提出>支持、支持>上海、支持>探索、探索>机制、机制>新}，关联词集合中的“提出>总理”表示特征词“提出”与特征词“总理”之间的关联关系为特征词“提出”指向特征词“总理”。

再例如对待处理文本“他叫汤姆去拿外衣”进行句法分析得到的分析结果为：

其中，ADV表示状中结构；对应的特征词集合为{他、叫、汤姆、去、拿、外衣}，对应的关联词集合为{叫>汤姆、叫>他、叫>拿、拿>外衣、拿>去}。

具体的，所述对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合，包括：

基于哈工大语言技术平台LTP对待处理文本进行句法分析，得到句法分析结果；

对所述句法分析结果进行停用词去除以及去重操作，得到所述待处理文本的特征词集合以及关联词集合。

步骤120、基于所述特征词集合以及关联词集合计算每组关联词的关联程度。

其中，所述每组关联词具体指具有关联关系的词，例如上述举例中的“叫>汤姆”、“叫>他”、“叫>拿”、“拿>外衣”以及“拿>去”等。

具体的，按照如下公式计算每组关联词的关联程度：

其中，word_i表示待处理文本中的第i个特征词，word_j表示待处理文本中的第j个特征词，word_ij表示特征词word_i与特征词word_j的关联程度，tf(word_i)表示特征词word_i在待处理文本中的出现次数，tf(word_j)表示特征词word_j在待处理文本中出现的次数，tf(word_i,word_j)表示特征词word_i与特征词word_j在待处理文本中关联出现的次数，继续使用上述举例中的待处理文本对上述公式(1)中的各参数进行说明，待处理文本为“他叫汤姆去拿外衣”，对应的特征词集合为{他、叫、汤姆、去、拿、外衣}，对应的关联词集合为{叫>汤姆、叫>他、叫>拿、拿>外衣、拿>去}，特征词word_i在待处理文本中的出现次数tf(word_i)分别为{1、1、1、1、1、1}，特征词word_i与特征词word_j在待处理文本中关联出现的次数tf(word_i,word_j)具体为，例如tf(叫,汤姆)＝1，tf(叫,拿)＝1，tf(叫,汤姆)＝1，tf(拿,外衣)＝1，tf(拿,去)＝1。

步骤130、根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重。

示例性的，根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重，包括：

根据关联词之间的关联关系生成文本图模型；

针对所述文本图模型中任意两个节点之间的初始连接权重，利用与节点对应的特征词之间的关联程度进行初始化；

根据所述文本图模型基于改进的textrank算法得到每个特征词的权重；

其中，关联词之间的关联关系依据句法分析结果确定，每个特征词对应所述文本图模型中的一个节点，指向当前特征词的特征词组成当前特征词节点的前驱节点集合，当前特征词指向的特征词组成当前特征词节点的后驱节点集合。

具体的，继续延用上述举例，待处理文本为“他叫汤姆去拿外衣”，对应的特征词集合为{他、叫、汤姆、去、拿、外衣}，对应的关联词集合为{叫>汤姆、叫>他、叫>拿、拿>外衣、拿>去}，特征词“叫”与特征词“汤姆”组成一组关联词，特征词“叫”与特征词“他”也组成一组关联词，其他关联词类似；关联词之间的关联关系为特征词“叫”分别指向特征词“汤姆”、“他”和“拿”，特征词“拿”分别指向特征词“外衣”和“去”；参见图2所示的与上述待处理文本对应的文本图模型示意图，每个特征词对应所述文本图模型中的一个节点，特征词“汤姆”、“他”、“拿”组成了特征词“叫”的后驱节点集合，特征词“叫”被称为特征词“汤姆”、“他”和“拿”的前驱节点，特征词“外衣”和特征词“去”组成了特征词“拿”的后驱节点集合，具有关联关系的两个特征词对应的节点之间连上一条线，且线的方向由前驱节点指向后驱节点，两个节点之间的连线(即两个节点之间的边)的初始权重为该两个节点对应的特征词之间的关联程度，即上述公式(1)的计算结果。相比于传统的textrank算法(文本图模型中任意两个节点之间的初始连接权重均默认为1)，本实施例提供的改进的textrank算法，针对所述文本图模型中任意两个节点之间的初始连接权重，通过利用与节点对应的特征词之间的关联程度进行初始化，实现了有效地将重要的词凸显出来，将不重要的词进行弱化，进而实现了文本关键词的有效提取。其中，所述重要的词指描述文本内容主题的程度相对高一些的词语，所述不重要的词指描述文本内容主题的程度相对差一些的词语。例如待处理文本为“他成绩好，是一名优秀的学生”，则该待处理文本的重要词可以是“成绩好”以及“优秀”，不重要的词可以是“一名”。

进一步的，根据所述文本图模型基于改进的textrank算法得到每个特征词的权重

按照如下公式迭代所述文本图模型中各特征词的权重，直到各特征词的权重收敛至预设范围：

其中，WS(word_i)表示特征词word_i的权重，WS(word_j)表示特征词word_j的权重，d为阻尼系数，通常取值为0.85，word_ji表示特征词word_j指向特征词word_i的边的权重，word_ji的初始值为特征词word_j与特征词word_i的关联程度，word_jk表示特征词word_j指向特征词word_k的边的权重，word_jk的初始值为特征词word_j与特征词word_k的关联程度，In(word_i)表示特征词word_i对应节点的前驱节点集合，Out(word_j)表示特征词word_j对应节点的后驱节点集合。

步骤140、将权重达到设定阈值的特征词确定为所述待处理文本的关键词。

本实施例提供的一种关键词抽取方法，通过对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合；基于所述特征词集合以及关联词集合计算每组关联词的关联程度，以挖掘文本中隐含的语义信息，并利用关联词的关联程度对对应节点之间连线的权重进行初始化，实现对重要节点的突出，最后基于改进的textrank算法计算每个特征词的权重，将权重达到设定阈值的特征词确定为所述待处理文本的关键词的技术手段，实现了有效提取文本关键词的目的。

举例说明上述关键词抽取方法的流程：

假设基于哈工大的LTP平台对待处理文本进行句法分析，并根据句法分析的结果提炼出对应的特征词集合以及关联词集合分别为：

特征词集合D＝{小姐姐,歌声,甜美,颜值,性感,女神,可爱}，各特征词在待处理文本中出现的次数对应为：D_count＝{15,7,5,10,8,4,10}；

关联词集合Re＝{小姐姐>甜美,小姐姐>性感,小姐姐>可爱,性感>女神,颜值>可爱,歌声>甜美,颜值>女神}，各组关联词在待处理文本中出现的次数对应为Re_count＝{5,8,8,4,7,5,3}；

利用上述公式(1)，对各组关联词之间的关联程度进行计算，如下：

利用上述计算结果，对上述公式(2)中的word_ji以及word_jk进行初始化，并经过多次迭代，得到各特征词的权重对应为D_U＝{0.64,0.42,0.43,0.45,0.34,0.51,0.55}；至此，可根据具体的业务需求提取权重达到设定阈值的特征词作为所述待处理文本的关键词，例如所述设定阈值为0.5，则上述待处理文本的关键词为：“小姐姐”、“女神”、以及“可爱”。

实施例二

图3为本发明实施例二提供的一种关键词抽取装置的结构示意图。参见图3所示，所述装置包括：分析模块310、关联程度计算模块320、权重计算模块330和关键词确定模块340；

其中，分析模块310，用于对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合；

关联程度计算模块320，用于基于所述特征词集合以及关联词集合计算每组关联词的关联程度；

权重计算模块330，用于根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重；

关键词确定模块340，用于将权重达到设定阈值的特征词确定为所述待处理文本的关键词。

进一步的，分析模块310包括：

分析单元，用于基于哈工大语言技术平台LTP对待处理文本进行句法分析，得到句法分析结果；

处理单元，用于对所述句法分析结果进行停用词去除以及去重操作，得到所述待处理文本的特征词集合以及关联词集合。

进一步的，关联程度计算模块320具体用于：按照如下公式计算每组关联词的关联程度：

其中，word_i表示待处理文本中的第i个特征词，word_j表示待处理文本中的第j个特征词，word_ij表示特征词word_i与特征词word_j的关联程度，tf(word_i)表示特征词word_i在待处理文本中的出现次数，tf(word_j)表示特征词word_j在待处理文本中出现的次数，tf(word_i,word_j)表示特征词word_i与特征词word_j在待处理文本中关联出现的次数。

进一步的，权重计算模块330，包括：

生成单元，用于根据关联词之间的关联关系生成文本图模型；

初始化单元，用于针对所述文本图模型中任意两个节点之间的初始连接权重，利用与节点对应的特征词之间的关联程度进行初始化；

计算单元，用于根据所述文本图模型基于改进的textrank算法得到每个特征词的权重；

进一步的，所述计算单元具体用于：

按照如下公式迭代所述文本图模型中各特征词的权重，直到各特征的权重收敛至预设范围：

其中，WS(word_i)表示特征词word_i的权重，WS(word_j)表示特征词word_j的权重，d为阻尼系数，word_ji表示特征词word_j指向特征词word_i的边的权重，word_ji的初始值为特征词word_j与特征词word_i的关联程度，word_jk表示特征词word_j指向特征词word_k的边的权重，word_jk的初始值为特征词word_j与特征词word_k的关联程度，In(word_i)表示特征词word_i对应节点的前驱节点集合，Out(word_j)表示特征词word_j对应节点的后驱节点集合。

本实施例提供的关键词抽取装置，通过对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合；基于所述特征词集合以及关联词集合计算每组关联词的关联程度，以挖掘文本中隐含的语义信息，并利用关联词的关联程度对对应节点之间连线的权重进行初始化，实现对重要节点的突出，最后基于改进的textrank算法计算每个特征词的权重，将权重达到设定阈值的特征词确定为所述待处理文本的关键词的技术手段，实现了有效提取文本关键词的目的。

实施例三

图4为本发明实施例三提供的一种电子设备的结构示意图。如图4所示，该电子设备包括：处理器670、存储器671及存储在存储器671上并可在处理器670上运行的计算机程序；其中，处理器670的数量可以是一个或多个，图4中以一个处理器670为例；处理器670执行所述计算机程序时实现如上述实施例一中所述的关键词抽取方法。如图4所示，所述电子设备还可以包括输入装置672和输出装置673。处理器670、存储器671、输入装置672和输出装置673可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器671作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中关键词抽取方法装置/模块(例如，关键词抽取装置中的分析模块310、关联程度计算模块320、权重计算模块330和关键词确定模块340等)。处理器670通过运行存储在存储器671中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的关键词抽取方法。

存储器671可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器671可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器671可进一步包括相对于处理器670远程设置的存储器，这些远程存储器可以通过网络连接至电子设备/存储介质。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置672可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置673可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种关键词抽取方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的关键词抽取方法的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，存储介质，或者网络设备等)执行本发明各个实施例所述的。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种关键词抽取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对待处理文本进行句法分析，并根据句法分析的结果提炼出所述待处理文本的特征词集合以及关联词集合，包括：

对待处理文本进行句法分析，得到句法分析结果；

3.根据权利要求1所述的方法，其特征在于，所述基于所述特征词集合以及关联词集合计算每组关联词的关联程度，包括：

按照如下公式计算每组关联词的关联程度：

4.根据权利要求1所述的方法，其特征在于，所述根据每组关联词的关联程度利用改进的textrank算法计算每个特征词的权重，包括：

根据关联词之间的关联关系生成文本图模型；

5.根据权利要求4所述的方法，其特征在于，所述根据所述文本图模型基于改进的textrank算法得到每个特征词的权重，包括：

6.一种关键词抽取装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述分析模块包括：

8.根据权利要求6所述的装置，其特征在于，所述权重计算模块，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的关键词抽取方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-5中任一项所述的关键词抽取方法。