CN112668321A - 关键词提取方法及装置、电子设备、存储介质 - Google Patents

关键词提取方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112668321A
CN112668321A CN202011599009.0A CN202011599009A CN112668321A CN 112668321 A CN112668321 A CN 112668321A CN 202011599009 A CN202011599009 A CN 202011599009A CN 112668321 A CN112668321 A CN 112668321A
Authority
CN
China
Prior art keywords
keyword
candidate word
candidate
word
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011599009.0A
Other languages
English (en)
Other versions
CN112668321B (zh
Inventor
李雪婷
简仁贤
吴文杰
石颍乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202011599009.0A priority Critical patent/CN112668321B/zh
Publication of CN112668321A publication Critical patent/CN112668321A/zh
Application granted granted Critical
Publication of CN112668321B publication Critical patent/CN112668321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种关键词提取方法及装置、电子设备、计算机可读存储介质,方法包括:从目标文本中提取得到多个候选词,并以候选词构建第一候选词集;依据预设词性过滤规则对第一候选词集的候选词进行过滤,得到第二候选词集;依据预设停用词表对第二候选词集进行过滤,得到第三候选词集;识别目标文本中的命名实体,并依据停用词表对识别出的命名实体进行过滤,得到命名实体集;比对命名实体集和第三候选词集,当第三候选词集中存在构成命名实体集中任一命名实体的目标候选词时,从第三候选词集中删除目标候选词,获得第四候选词集;合并命名实体集和第四候选词集,获得关键词集。本方案可准确提取新闻文本的关键词。

Description

关键词提取方法及装置、电子设备、存储介质
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种关键词提取方法及装置、电子设备、计算机可读存储介质。
背景技术
在自然语言处理(Natural Language Processing,NLP)领域,可以通过TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)、TextRank等算法实现文本关键词提取。然而,目前的关键词提取方法大多仅仅依赖算法实现,没有对文本进行语言特征发掘并应用到关键词提取过程中,无法借助文本的语义实现关键词提取。
发明内容
本申请实施例的目的在于提供一种关键词提取方法及装置、电子设备、计算机可读存储介质,用于依据新闻文本的文体特征对新闻文本进行关键词提取。
一方面,本申请提供了一种关键词提取方法,包括:
从目标文本中提取得到多个候选词,并以所述候选词构建第一候选词集;
依据预设词性过滤规则对所述第一候选词集的候选词进行过滤,得到第二候选词集;
依据预设停用词表对所述第二候选词集进行过滤,得到第三候选词集;
识别所述目标文本中的命名实体,并依据所述停用词表对识别出的命名实体进行过滤,得到命名实体集;
比对所述命名实体集和所述第三候选词集,当所述第三候选词集中存在构成所述命名实体集中任一命名实体的目标候选词时,从所述第三候选词集中删除所述目标候选词,获得第四候选词集;
合并所述命名实体集和所述第四候选词集,获得关键词集;其中,所述关键词集包含所述目标文本中的关键词。
在一实施例中,在所述比对所述命名实体集和所述第三候选词集之前,所述方法还包括:
依据预设的电头结构规则集从所述目标文本中提取电头;
对所述电头进行分词处理,得到多个分词单元;
从所述第三候选词集中删除与任一分词单元相同的候选词。
在一实施例中,在获得所述关键词集之后,所述方法还包括:
从所述目标文本中提取出多个关键句,得到关键句集;
比对所述关键句集和所述关键词集,对出现在所述关键句集中所述关键词集的第一关键词,调整所述关键词集中与所述第一关键词对应的词频;
依据所述关键词集中每一关键词对应的词频,计算与每一关键词对应的权重系数;
根据预设权重调整策略对所述关键词集的关键词对应的权重系数进行调整;
输出所述关键词集和与所述关键词集中每一关键词对应的权重系数。
在一实施例中,所述从所述目标文本中提取出多个关键句,包括:
根据预设的电头结构规则集对所述目标文本进行过滤,得到去除所述电头的目标文本;
从去除所述电头的目标文本中提取标题、导语的第一句和段落的第一句,作为关键句。
在一实施例中,所述根据预设权重调整策略对所述关键词的关键词对应的权重系数进行调整,包括:
调整所述关键词集中与所述第一关键词对应的权重系数;
比对所述命名实体集和所述关键词集,对出现在所述命名实体集中所述关键词集的第二关键词,调整所述关键词集中与所述第二关键词对应的权重系数。
在一实施例中,所述根据预设权重调整策略对所述关键词集的关键词对应的权重系数进行调整,包括:
对所述关键词集中词性为动词的关键词对应的权重系数进行调整。
在一实施例中,所述根据预设权重调整策略对所述关键词集的关键词对应的权重系数进行调整,包括:
比对预设正向词表和所述关键词集,对出现在所述正向词表中所述关键词集的第三关键词,调整所述关键词集中与所述第三关键词对应的权重系数。
另一方面,本申请还提供了一种关键词提取装置,包括:
提取模块,用于从目标文本中提取得到多个候选词,并以所述候选词构建第一候选词集;
第一过滤模块,用于依据预设词性过滤规则对所述第一候选词集的候选词进行过滤,得到第二候选词集;
第二过滤模块,用于依据预设停用词表对所述第二候选词集进行过滤,得到第三候选词集;
识别模块,用于识别所述目标文本中的命名实体,并依据所述停用词表对识别出的命名实体进行过滤,得到命名实体集;
删除模块,用于比对所述命名实体集和所述第三候选词集,当所述第三候选词集中存在构成所述命名实体集中任一命名实体的目标候选词时,从所述第三候选词集中删除所述目标候选词,获得第四候选词集;
合并模块,用于合并所述命名实体集和所述第四候选词集,获得关键词集;其中,所述关键词集包含所述目标文本中的关键词。
进一步的,本申请还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述关键词提取方法。
另外,本申请还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述关键词提取方法。
在本申请方案中,从目标文本中提取出多个候选词后,依据新闻文本的特征而以词性过滤规则、停用词表和目标文本中的命名实体对候选词进行过滤之后,将剩余的候选词与目标文本中的命名实体进行合并,从而得到目标文本的关键词。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请一实施例提供的关键词提取方法的应用场景示意图;
图2为本申请一实施例提供的电子设备的结构示意图;
图3为本申请一实施例提供的关键词提取方法的流程示意图;
图4为本申请一实施例提供的关键词权重系数的生成方法的流程示意图;
图5为本申请一实施例提供的关键词提取装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的关键词提取方法的应用场景示意图。如图1所示,该应用场景包括客户端20和服务端30;客户端20可以是主机、手机、平板电脑等用户终端,用于向服务端30发送关键词提取请求,该关键词提取请求可以携带需要被提取关键词的新闻文本;服务端30可以是服务器、服务器集群或云计算中心,可以响应于关键词提取请求,提取新闻文本的关键词。
如图2所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图2中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是上述服务端30,用于执行关键词提取方法。
存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的关键词提取方法。
参见图3,为本申请一实施例提供的关键词提取方法的流程示意图,如图3所示,该方法可以包括以下步骤310-步骤360。
步骤310:从目标文本中提取得到多个候选词,并以候选词构建第一候选词集。
其中,目标文本是接受关键词提取的新闻文本。候选词是从目标文本中提取出的词语,后续可从候选词中筛选出目标文本的关键词。
服务端可以对目标文本进行分词处理后,获得多个分词单元。这里,服务端可以通过分词工具对目标文本进行分词,分词工具可以是Jieba,SnowNLP,PkuSeg,THULAC,HanLP等工具中的任意一种;分词单元为分词得到的最小单元,示例性的,对“我爱自然语言处理”分词后,可以得到分词单元“我”、“爱”、“自然语言”、“处理”,分词得到的分词单元存在对应的词性。
服务端可以判断上述分词单元是否满足句法规则,若存在满足句法规则的至少两个连续的分词单元,则可以将分词单元进行合并,并将合并得到的词语和其它未合并的分词单元作为候选词。示例性的,“幸福生活即将到来”分词得到的分词单元为“幸福”、“生活”、“即将”、“到来”,经过合并处理后,得到的候选词为“幸福生活”、“即将”、“到来”。
服务端可以根据上述候选词构建候选词集,称为第一候选词集。
步骤320:依据预设词性过滤规则对第一候选词集的候选词进行过滤,得到第二候选词集。
其中,词性过滤规则用于指示待过滤的若干种候选词对应的词性。示例性的,词性过滤规则可以过滤虚词、趋向动词、形式动词、情态动词、“是”动词和“有”动词,这里,“是”动词为候选词中的“是”,“有”动词为候选词中的“有”。
服务端从第一候选词集中删除与词性过滤规则对应词性的候选词,获得第二候选词集。
步骤330:依据预设停用词表对第二候选词集进行过滤,得到第三候选词集。
其中,停用词表记录中文停用词,比如,“一些”、“一切”、“一方面”、“不外乎”、“且不说”等。停用词表可预先配置,可以在通用停用集表的基础上,适应于应用的新闻文本类型进行自定义扩充。
服务端可以从第二候选词集中删除与停用词表中停用词相同的候选词,获得第三候选词集。
步骤340:识别目标文本中的命名实体,并依据停用词表对识别出的命名实体进行过滤,得到命名实体集。
其中,命名实体为文本中具有特定意义或指代性强的实体,可以包括人名、地名、机构名、日期时间、专有名词、书名短语等。
服务端可以通过命名实体识别(Named Entity Recognition,NER)方法从目标文本中识别出若干命名实体。这里,命名实体识别方法可以是注意力模型、迁移学习、CRF(Conditional Random Field Algorithm,条件随机场算法)等,本申请对此不作限定。服务端还可以从目标文本的书名号中提取书名短语,作为命名实体。
服务端获得上述命名实体后,可以针对每一命名实体,判断该命名实体是否出现在上述停用词表中。一方面,若是,可以删除该命名实体。另一方面,若否,可以保留该命名实体。示例性的,服务端从目标文本中识别出的命名实体包括“新华社”,而上述停用词表中预先加入了“新华社”作为停用词,服务端可以将“新华社”从已识别出的命名实体中删除。
经过过滤处理后,服务端可以根据保留下来的命名实体构建命名实体集。
步骤350:比对命名实体集和第三候选词集,当第三候选词集中存在构成命名实体集中任一命名实体的目标候选词时,从第三候选词集中删除目标候选词,获得第四候选词集。
其中,对于在目标文本中位置连续的多个候选词,若构成第三候选词集中的任一命名实体,则上述多个候选词均为目标候选词。换而言之,目标候选词为与目标文本中相连候选词共同构成命名实体的候选词。示例性的,命名实体集中包括命名实体“新疆且末县宏达煤厂”,第三候选词集中存在候选词“新疆”、“且末县”、“宏达煤厂”,且这三个候选词在目标文本中位置连续,则这三个候选词均为目标候选词。另外,若存在与任一命名实体相同的单一候选词,则该单一候选词并非目标候选词。
在获得上述命名实体集后,服务端可以检查第三候选词集中是否存在构成任一命名实体的目标候选词。一方面,如果不存在,服务端可将第三候选词集作为经过过滤的第四候选词集。另一方面,如果存在,服务端可以从第三候选词集中删除目标候选词,获得第四候选词集。
第三候选词集中可能存在多个相同的候选词,当确定构成命名实体的目标候选词后,如果存在与目标候选词相同的其它候选词,无需删除。示例性的,命名实体集中包括命名实体“新疆且末县宏达煤厂”,第三候选词集中存在目标候选词“新疆”、“且末县”、“宏达煤厂”,此外,第三候选词集中还存在多个候选词“新疆”,服务端只需删除作为目标候选词的“新疆”,而无需删除其它候选词“”。
步骤360:合并命名实体集和第四候选词集,获得关键词集;其中,关键词集包含目标文本中的关键词。
服务端将命名实体集和第四候选词集进行合并,并确定合并后的所有候选词均为关键词,得到关键词集。
通过上述措施,从目标文本中提取的多个候选词中,经过多次过滤处理,去除了词性过滤规则指示的候选词、停用词表指示的停用词、构成命名实体的目标关键词,从而得到目标文本的关键词。在一实施例中,服务端在比对命名实体集和第三候选词集之前,可以从第三候选词集中删除电头中的分词单元。服务端可以依据预设的电头结构规则集从目标文本中提取电头。其中,电头结构规则集包含多种电头结构规则,电头结构规则由词性、分隔符和汉字构成,用于指示电头的结构。参见如下表1,记录了多种电头结构规则。
电头结构规则 示例
《+nt+》+(+t+) 《人民日报》(2020年11月11日4版)
(+t+消息) (2020年11月11日消息)
nt+t+电 新华社2020年11月11日电
nt+t+讯 新华社2020年11月11日讯
t+消息 11日消息
t+电 2020年11月11日电
nt+外代+t 新华社外代2020年11月11日
nt+t+电++记者+nr 新华社2020年11月11日电记者王某
nt+ns+t+电+(+记者+nr+) 新华社北京2020年11月11日电(记者王某)
nt+记者+nr++nr 新华社记者王某吴某
nt+记者+nr+、+nr 新华社记者王某、吴某
表1
表1的电头结构规则中,“+”表示分隔符,t、nt、nr、ns是词性编码,各词性编码对应的词性可参照现有的词性编码规则,在此不再赘述。
服务端可以对提取出的电头进行分词处理,从而得到多个分词单元,并从第三候选词集中删除与任一分词单元相同的候选词。
通过该措施,可以从第三候选词集中过滤掉电头中的分词单元,避免了将电头中的分词单元当做关键词。
在一实施例中,获得关键词集后,服务端可以进一步确定关键词集中各关键词的重要性。参见图4,为本申请一实施例提供的关键词权重系数的生成方法的流程示意图,如图4所示,该方法可以包括如下步骤410-步骤450。
步骤410:从目标文本中提取出多个关键句,得到关键句集。
服务端可以依据预设的关键句提取规则,从目标文本中提取出多个关键句,从而得到关键句集。
在一实施例中,服务端可以依据预设的电头结构规则集对目标文本进行过滤,得到去除电头的目标文本。服务端可以从去除电头的目标文本中提取标题、导语的第一句和每个段落的第一句,作为关键句,从而得到包含多个关键句的关键句集。
步骤420:比对关键句集和关键词集,对出现在关键句集中关键词集的第一关键词,调整关键词集中与第一关键词对应的词频。
其中,第一关键词为出现在关键句集中的关键词。示例性的,关键句集中存在关键句“王部长指出会谈见证了多项合作协议”,关键词集中存在关键词“合作协议”,该关键词存在于上述关键句中,属于第一关键词。
服务端通过比对关键句集和关键词集后,可以确定所有第一关键词,服务端可以将第一关键词的词频乘以第一指定倍数,从而实现对第一关键词对应词频的调整。这里,第一指定倍数可以是经验值,示例性的,第一指定倍数是2到5之间的正整数。示例性的,关键词集中关键词“合作协议”原本出现3次,词频为3;第一指定倍数为2,在确定“合作协议”为第一关键词后,可以将“合作协议”的词频调整为6。
步骤430:依据关键词集中每一关键词对应的词频,计算与每一关键词对应的权重系数。
在调整第一关键词的词频后,服务端可以依据预设的权重计算算法对关键词集中每一关键词对应的词频进行计算,从而得到与每一关键词对应的权重系数。这里,权重计算算法可以是TextRank算法。权重系数可以指示关键词的重要性,权重系数越高,说明对应的关键词越重要。
步骤440:根据预设权重调整策略对关键词集的关键词对应的权重系数进行调整。
其中,权重调整策略用于增大或缩小权重系数。
步骤450:输出关键词集和与关键词集中每一关键词对应的权重系数。
服务端根据权重调整策略对关键词集的关键词调整权重系数后,可以按照权重系数从大到小的顺序对关键词进行排序,并输出排序后关键词集中的关键词,以及与每一关键词对应的权重系数。服务端可以向发起针对目标文本的关键词提取请求的客户端返回排序后的关键词和对应于关键词的权重系数。
在一实施例中,服务端在执行步骤440时,可以调整关键词集中与上述第一关键词对应的权重系数。服务端在执行步骤420时,可以基于比对出的第一关键词构建辅助词集,辅助词集中包含所有第一关键词。
服务端在执行步骤440时,可以根据辅助词集确定关键词集中的第一关键词,并将第一关键词的权重系数乘以第二指定倍数,从而实现调整。这里,第二指定倍数可以是经验值,示例性的,第二指定倍数可以是1.1到3之间的数值。
在调整第一关键词的权重系数之后,服务端可以比对命名实体集和关键词集,对出现在命名实体集中关键词集的第二关键词,调整关键词集中与第二关键词对应的权重系数。这里,第二关键词为出现在命名实体集中的关键词,第二关键词属于命名实体。服务端在确定第二关键词之后,可以将第二关键词的权重系数乘以第三指定倍数,从而实现调整。这里,第三指定倍数可以是经验值,示例性的,第三指定倍数可以是1.1到3之间的数值。
在一实施例中,服务端在执行步骤440时,可以对关键词集中词性为动词的关键词对应的权重进行调整。由于新闻文本中动词的信息量较低,词性为动词的关键词的重要性较弱,服务端可以将词性为动词的关键词的权重系数乘以第四指定倍数,从而实现调整。这里,第四指定倍数可以是经验值,示例性的,第四指定倍数可以是0.2到0.9之间的数值。
在一实施例中,服务端在执行步骤440时,可以根据预设的正向词表调整关键词的权重系数。其中,正向词表包含多个正向词,正向词是在新闻文本中较为重要的词语。
服务端可以比对正向词表和关键词表,确定出现在正向词表中的第三关键词。这里,第三关键词为出现在正向词表中的关键词,第三关键词为正向词。服务端可以将第三关键词的权重系数乘以第五指定倍数,从而调整关键词集中与第三关键词对应的权重系数。这里,第五指定倍数可以是经验值,示例性的,第五指定倍数可以是1.1到5之间的数值。
通过上述措施,可以实现对权重系数的调整,从而获得目标文本中可以准确反应关键词重要性的权重系数。
下面通过具体的实施例来说明整个关键词提取过程。以下为目标文本:
深圳推出长期护理险“五险”变“六险”
《经济参考报》(2020年11月10日)《深圳经济特区养老服务条例》近日获审议通过,明确建立长期护理保险制度。自此,深圳市民将拥有除养老、医疗、工伤、失业、生育之外的“社会第六险”。
条例扩大了长期护理保险参保人员范围。规定除用人单位职工外,年满18周岁且未在校就读的非在职医疗保障参保人员也将纳入其中,并与深圳现行基本医疗保险体系相衔接。
服务端对上述目标文本中提取多个候选词,并依据词性过滤规则进行过滤后,可以得到第二候选词集。第二候选词集包括:
深圳_ns;推出_v;长期护理险_n;五险_n;变_v;六险_n;
经济参考报_nt;2020年11月10日_t;深圳_ns;经济特区_n;养老服务_n;条例_n;近日_t;获_v;审议_v;通过_v;明确_ad;建立_v;长期护理_n;保险制度_n;深圳_ns;市民_n;拥有_v;养老_vn;医疗_vn;工伤_n;失业_n;生育_vn;社会第六险_n;
条例_n;扩大_v;长期护理_n;保险_n;参保人员_n;范围_n;规定_v;用人单位职工_n;年满_v;18周岁_t;校_n;就读_v;非在职医疗保障参保人员_n;纳入_v;深圳_ns;现行_vn;基本医疗保险体系_n;衔接_v。
服务端可以通过停用词表对第二候选词集进行过滤,得到第三候选词集。服务端可以依据电头结构规则集从目标文本中提取出电头“《经济参考报》(2020年11月10日)”,对电头分词处理,并从第三候选词集中删除与分词得到的分词单元相同的候选词之后,第三候选词集包括:
深圳_ns;推出_v;长期护理险_n;五险_n;变_v;六险_n;
深圳_ns;经济特区_n;养老服务_n;条例_n;近日_t;获_v;审议_v;通过_v;明确_ad;建立_v;长期护理_n;保险制度_n;深圳_ns;市民_n;拥有_v;养老_vn;医疗_vn;工伤_n;失业_n;生育_vn;社会第六险_n;
条例_n;扩大_v;长期护理_n;保险_n;参保人员_n;范围_n;规定_v;用人单位职工_n;年满_v;18周岁_t;校_n;就读_v;非在职医疗保障参保人员_n;纳入_v;深圳_ns;现行_vn;基本医疗保险体系_n;衔接_v。
服务端识别目标文本中的命名实体,并依据停用词表对识别出的命名实体进行过滤,可以得到命名实体集。命名实体集包括:
经济参考报_nt;深圳经济特区养老服务条例_n;深圳_ns。
服务端比对命名实体集和第三候选词集,并删除构成命名实体“深圳经济特区养老服务条例”的目标候选词“深圳_ns”、“经济特区_n”、“养老服务_n”、“条例_n”;对于命名实体“经济参考报_nt”和“深圳_ns”而言,不存在构成命名实体的目标候选词。对经过删除处理得到的第四候选词集和命名实体集进行合并,获得关键词集。关键词集包括:
深圳_ns;推出_v;长期护理险_n;五险_n;变_v;六险_n;
深圳经济特区养老服务条例_n;近日_t;获_v;审议_v;通过_v;明确_ad;建立_v;长期护理_n;保险制度_n;深圳_ns;市民_n;拥有_v;养老_vn;医疗_vn;工伤_n;失业_n;生育_vn;社会第六险_n;
条例_n;扩大_v;长期护理_n;保险_n;参保人员_n;范围_n;规定_v;用人单位职工_n;年满_v;18周岁_t;校_n;就读_v;非在职医疗保障参保人员_n;纳入_v;深圳_ns;现行_vn;基本医疗保险体系_n;衔接_v。
服务端从目标文本中提取出多个关键句,得到关键句集,关键句集包括:
深圳推出长期护理险“五险”变“六险”
《深圳经济特区养老服务条例》近日获审议通过,明确建立长期护理保险制度。
条例扩大了长期护理保险参保人员范围。
服务端可以比对关键句集和关键词集,确定出现在关键句集中的第一关键词,以第一关键词构成的辅助词集包括:
深圳_ns;推出_v;长期护理险_n;五险_n;变_v;六险_n;
深圳经济特区养老服务条例_n;近日_t;获_v;审议_v;通过_v;明确_ad;建立_v;长期护理_n;保险制度_n;
条例_n;扩大_v;长期护理_n;保险_n;参保人员_n;范围_n。
服务端对上述第一关键词在关键词集中的词频乘以3后,可以得到关键词中每一关键词和与关键词对应的词频,如下表2所示:
Figure BDA0002870910460000161
Figure BDA0002870910460000171
表2
服务端依据关键词对应的词频,计算出与每一关键词对应的权重系数,如下表3所示:
Figure BDA0002870910460000172
Figure BDA0002870910460000181
表3
服务端比对关键词集和辅助词集,将第一关键词的权重系数乘以2,实现权重系数调整,如下表4所示:
Figure BDA0002870910460000191
Figure BDA0002870910460000201
表4
服务端比对关键词集和命名实体集,将出现在命名实体集中的第二关键词的权重系数乘以1.5,实现权重系数调整,如下表5所示:
Figure BDA0002870910460000202
Figure BDA0002870910460000211
表5
服务端将关键词集中词性为动词的关键词对应的权重系数乘以0.3,实现权重系数调整,如下表6所示:
Figure BDA0002870910460000212
Figure BDA0002870910460000221
表6
如果使用正向词表调整权重系数,可以将出现在正向词表的关键词的权重系数乘以第五指定倍数,从而实现权重系数调整。其中,第五指定倍数为1.1到5之间的数值。如果未使用正向词表调整权重系数,表6中的权重系数即为最终的权重系数。服务端可以按照权重系数从大到小的顺序对关键词进行排序后,输出关键词和对应于关键词的权重系数,如下表7所示:
Figure BDA0002870910460000222
Figure BDA0002870910460000231
表7
至此,本申请方案的关键词提取过程结束。
参见图5,为本申请一实施例提供的关键词提取装置的框图,如图5所示,该装置可以包括:
提取模块510,用于从目标文本中提取得到多个候选词,并以所述候选词构建第一候选词集;
第一过滤模块520,用于依据预设词性过滤规则对所述第一候选词集的候选词进行过滤,得到第二候选词集;
第二过滤模块530,用于依据预设停用词表对所述第二候选词集进行过滤,得到第三候选词集;
识别模块540,用于识别所述目标文本中的命名实体,并依据所述停用词表对识别出的命名实体进行过滤,得到命名实体集;
删除模块550,用于比对所述命名实体集和所述第三候选词集,当所述第三候选词集中存在构成所述命名实体集中任一命名实体的目标候选词时,从所述第三候选词集中删除所述目标候选词,获得第四候选词集;
合并模块560,用于合并所述命名实体集和所述第四候选词集,获得关键词集;其中,所述关键词集包含所述目标文本中的关键词。
上述装置中各个模块的功能和作用的实现过程具体详见上述关键词提取方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种关键词提取方法,其特征在于,包括:
从目标文本中提取得到多个候选词,并以所述候选词构建第一候选词集;
依据预设词性过滤规则对所述第一候选词集的候选词进行过滤,得到第二候选词集;
依据预设停用词表对所述第二候选词集进行过滤,得到第三候选词集;
识别所述目标文本中的命名实体,并依据所述停用词表对识别出的命名实体进行过滤,得到命名实体集;
比对所述命名实体集和所述第三候选词集,当所述第三候选词集中存在构成所述命名实体集中任一命名实体的目标候选词时,从所述第三候选词集中删除所述目标候选词,获得第四候选词集;
合并所述命名实体集和所述第四候选词集,获得关键词集;其中,所述关键词集包含所述目标文本中的关键词。
2.根据权利要求1所述的方法,其特征在于,在所述比对所述命名实体集和所述第三候选词集之前,所述方法还包括:
依据预设的电头结构规则集从所述目标文本中提取电头;
对所述电头进行分词处理,得到多个分词单元;
从所述第三候选词集中删除与任一分词单元相同的候选词。
3.根据权利要求1所述的方法,其特征在于,在获得所述关键词集之后,所述方法还包括:
从所述目标文本中提取出多个关键句,得到关键句集;
比对所述关键句集和所述关键词集,对出现在所述关键句集中所述关键词集的第一关键词,调整所述关键词集中与所述第一关键词对应的词频;
依据所述关键词集中每一关键词对应的词频,计算与每一关键词对应的权重系数;
根据预设权重调整策略对所述关键词集的关键词对应的权重系数进行调整;
输出所述关键词集和与所述关键词集中每一关键词对应的权重系数。
4.根据权利要求3所述的方法,其特征在于,所述从所述目标文本中提取出多个关键句,包括:
根据预设的电头结构规则集对所述目标文本进行过滤,得到去除所述电头的目标文本;
从去除所述电头的目标文本中提取标题、导语的第一句和段落的第一句,作为关键句。
5.根据权利要求3所述的方法,其特征在于,所述根据预设权重调整策略对所述关键词的关键词对应的权重系数进行调整,包括:
调整所述关键词集中与所述第一关键词对应的权重系数;
比对所述命名实体集和所述关键词集,对出现在所述命名实体集中所述关键词集的第二关键词,调整所述关键词集中与所述第二关键词对应的权重系数。
6.根据权利要求5所述的方法,其特征在于,所述根据预设权重调整策略对所述关键词集的关键词对应的权重系数进行调整,包括:
对所述关键词集中词性为动词的关键词对应的权重系数进行调整。
7.根据权利要求6所述的方法,其特征在于,所述根据预设权重调整策略对所述关键词集的关键词对应的权重系数进行调整,包括:
比对预设正向词表和所述关键词集,对出现在所述正向词表中所述关键词集的第三关键词,调整所述关键词集中与所述第三关键词对应的权重系数。
8.一种关键词提取装置,其特征在于,包括:
提取模块,用于从目标文本中提取得到多个候选词,并以所述候选词构建第一候选词集;
第一过滤模块,用于依据预设词性过滤规则对所述第一候选词集的候选词进行过滤,得到第二候选词集;
第二过滤模块,用于依据预设停用词表对所述第二候选词集进行过滤,得到第三候选词集;
识别模块,用于识别所述目标文本中的命名实体,并依据所述停用词表对识别出的命名实体进行过滤,得到命名实体集;
删除模块,用于比对所述命名实体集和所述第三候选词集,当所述第三候选词集中存在构成所述命名实体集中任一命名实体的目标候选词时,从所述第三候选词集中删除所述目标候选词,获得第四候选词集;
合并模块,用于合并所述命名实体集和所述第四候选词集,获得关键词集;其中,所述关键词集包含所述目标文本中的关键词。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任意一项所述的关键词提取方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的关键词提取方法。
CN202011599009.0A 2020-12-29 2020-12-29 关键词提取方法及装置、电子设备、存储介质 Active CN112668321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011599009.0A CN112668321B (zh) 2020-12-29 2020-12-29 关键词提取方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011599009.0A CN112668321B (zh) 2020-12-29 2020-12-29 关键词提取方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN112668321A true CN112668321A (zh) 2021-04-16
CN112668321B CN112668321B (zh) 2023-11-07

Family

ID=75410376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011599009.0A Active CN112668321B (zh) 2020-12-29 2020-12-29 关键词提取方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112668321B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268647A (zh) * 2021-07-19 2021-08-17 广东南方电信规划咨询设计院有限公司 一种网络安全情报数据的分类方法、系统及装置
CN115809665A (zh) * 2022-12-13 2023-03-17 杭州电子科技大学 一种基于双向多粒度注意力机制的无监督关键词抽取方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
EP3118751A1 (fr) * 2015-07-13 2017-01-18 Pixalione Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109062895A (zh) * 2018-07-23 2018-12-21 挖财网络技术有限公司 一种智能语义处理方法
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110851598A (zh) * 2019-10-30 2020-02-28 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN111460787A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种话题提取方法、装置、终端设备及存储介质
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、系统和计算机设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
EP3118751A1 (fr) * 2015-07-13 2017-01-18 Pixalione Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109062895A (zh) * 2018-07-23 2018-12-21 挖财网络技术有限公司 一种智能语义处理方法
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110851598A (zh) * 2019-10-30 2020-02-28 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN111460787A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种话题提取方法、装置、终端设备及存储介质
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、系统和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BO-HAO SU等: "Improved TF-IDF weight method based on sentence similarity for spoken dialogue system", 《IEEE XPLORE》 *
牛萍;黄德根;: "TF-IDF与规则相结合的中文关键词自动抽取研究", 小型微型计算机系统, no. 04 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268647A (zh) * 2021-07-19 2021-08-17 广东南方电信规划咨询设计院有限公司 一种网络安全情报数据的分类方法、系统及装置
CN115809665A (zh) * 2022-12-13 2023-03-17 杭州电子科技大学 一种基于双向多粒度注意力机制的无监督关键词抽取方法
CN115809665B (zh) * 2022-12-13 2023-07-11 杭州电子科技大学 一种基于双向多粒度注意力机制的无监督关键词抽取方法

Also Published As

Publication number Publication date
CN112668321B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN108287922B (zh) 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
WO2021051521A1 (zh) 获取应答信息的方法、装置、计算机设备及存储介质
Chopra et al. Abstractive sentence summarization with attentive recurrent neural networks
Vo et al. Twitter emotion analysis in earthquake situations.
CN100371927C (zh) 使用机器翻译技术标识释义的方法和系统
WO2020077896A1 (zh) 提问数据生成方法、装置、计算机设备和存储介质
CN112215008B (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
US10318617B2 (en) Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines
CN108268668B (zh) 一种基于话题多样性的文本数据观点摘要挖掘方法
CN110866110A (zh) 基于人工智能的会议纪要生成方法、装置、设备及介质
Sato et al. End-to-end argument generation system in debating
CN112668321B (zh) 关键词提取方法及装置、电子设备、存储介质
KR102296931B1 (ko) 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치
CN113076431A (zh) 机器阅读理解的问答方法、装置、计算机设备及存储介质
CN111930895A (zh) 基于mrc的文档数据检索方法、装置、设备及存储介质
US11928433B2 (en) Systems and methods for term prevalence-volume based relevance
TWI745777B (zh) 資料歸檔方法、裝置、電腦裝置及存儲媒體
CN112559895A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN111782759A (zh) 一种问答处理方法、装置及计算机可读存储介质
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
CN113761161A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
Baker A year to remember?
Gupta Extracting phrases describing problems with products and services from twitter messages
Shim et al. A study on the effect of the document summarization technique on the fake news detection model
Al-Omari et al. Building and benchmarking new heavy/light Arabic stemmer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant