CN110147425A - 一种关键词提取方法、装置、计算机设备及存储介质 - Google Patents

一种关键词提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110147425A
CN110147425A CN201910428670.6A CN201910428670A CN110147425A CN 110147425 A CN110147425 A CN 110147425A CN 201910428670 A CN201910428670 A CN 201910428670A CN 110147425 A CN110147425 A CN 110147425A
Authority
CN
China
Prior art keywords
text
paragraph
candidate keywords
weight
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910428670.6A
Other languages
English (en)
Other versions
CN110147425B (zh
Inventor
王志方
许鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huatai Futures Co Ltd
Original Assignee
Huatai Futures Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huatai Futures Co Ltd filed Critical Huatai Futures Co Ltd
Priority to CN201910428670.6A priority Critical patent/CN110147425B/zh
Publication of CN110147425A publication Critical patent/CN110147425A/zh
Application granted granted Critical
Publication of CN110147425B publication Critical patent/CN110147425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关键词提取方法、装置、计算机设备及存储介质,属于自然语言处理领域。方法包括:对待提取文本进行处理,得到候选关键词集合;分别计算候选关键词集合中的各候选关键词在待提取文本中的语序权重和语义权重;根据各候选关键词在待提取文本中的语序权重和语义权重,确定各候选关键词的最终权重;根据各候选关键词的最终权重,在候选关键词集合中选取关键词。本发明实施例通过综合考虑候选关键词在待提取文本中的语序权重和语义权重进行关键词筛选,使得候选关键词对待提取文本的权重表示更为全面,由此能够提高文本关键词的准确度。

Description

一种关键词提取方法、装置、计算机设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种关键词提取方法、装置、计算机设备及存储介质。
背景技术
互联网的发展让用户能够接触到的资讯信息量呈爆炸性增长,用户每天都需要浏览大量的文本内容来找到其感兴趣的资讯,而随着资讯量的增长,用户所耗费在资讯检索的时间也逐日增加。当前,存储百万级网络页面及十万级文档已是常见,如果能够通过词语(关键词)集合来表达这些海量文档的主要特征、概念或主题,那将能够极大地方便用户对它们展开分析及应用。
关键词在国际信息和图书馆科学百科中被定义为一个能简介和正确描述文档主题的词语,它是对文本主题信息的精炼,高度概括了文本的主要内容。合适的关键词能够帮助用户轻松了解文章主旨,方便快速判断文章内容是否符合自己需求,从而提高资讯理解和信息检索的效率。不仅如此,由于关键词精炼、简洁的特点得以让文本相似度计算以较低的复杂度进行,实现高效的文本分类、聚类和语义检索等处理。在当前的研究成果中,关键词已被广泛用于查询服务、资讯服务等领域,其在信息检索、自动摘要、资讯推荐系统等任务中的重要作用已被直接证明。
传统的关键词提取,都是由作者人工提取。但面对海量未标注的互联网资讯,人工标注在时间及资金成本方面都太过昂贵,因此自动化关键词提取被广泛需要。常见的关键词提取算法使用词频、词的互相关联性等特征,如TF-IDF、TextRank等,然后使用既定的规则计算出每个词的重要性得分,选择得分高的词作为关键词,然而这类算法并没有利用到词汇语义等方面的信息,因此关键词提取的准确率并不理想。
因此,如何提高文本关键词提取的准确率,成为本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例提供了一种关键词提取方法、装置、计算机设备及存储介质,可以提高文本关键词提取的准确率。
本发明实施例提供的具体技术方案如下:
第一方面,本发明提供了一种关键词提取方法,所述方法包括:
对待提取文本进行处理,得到候选关键词集合;
分别计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重和语义权重;
根据各所述候选关键词在所述待提取文本中的语序权重和语义权重,确定各所述候选关键词的最终权重;
根据各所述候选关键词的最终权重,在所述候选关键词集合中选取关键词。
进一步地,所述计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重,包括:
获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重;
获取各所述候选关键词在所述每个段落的各句子中的句语序权重,并计算各所述候选关键词在所述每个段落内的句语序权重之和;
对各所述候选关键词在所述每个段落中的段落语序权重与计算得到的各所述候选关键词在所述每个段落的句语序权重之和进行对应相乘并求和,得到各所述候选关键词在所述待提取文本中的语序权重。
进一步地,所述获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重,包括:
基于各所述候选关键词是否出现所述待提取文本的每个段落中、所述待提取文本的段落数,按照预设的段落语序权重计算公式,获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重。
进一步地,所述预设的段落语序权重计算公式为:
其中,是候选关键词w在第i个段落中的段落语序权重,nPMID是文本段落数的中位数,nP是文本段落数,如果候选关键词w在第i个段落中没有出现时,
进一步地,所述获取各所述候选关键词在所述每个段落的各句子中的句语序权重,包括:
基于各所述候选关键词是否出现所述每个段落的各句子中、所述每个段落的句子数,按照预设的句语序权重计算公式,获取各所述候选关键词在所述每个段落的各句子中的句语序权重。
进一步地,所述预设的句语序权重计算公式为:
其中,是候选关键词w在第i个段落的第j个句子中的句语序权重,是第i个段落的句子数的中位数,是第i个段落的句子数,如果候选关键词w在第i个段落的第j个句子中没有出现时,
进一步地,所述计算各所述候选关键词在所述待提取文本中的语义权重,包括:
对各所述候选关键词进行向量化处理,得到各所述候选关键词的语义向量;
对所有所述候选关键词的语义向量进行向量求和,得到所述待提取文本的文本向量;
计算各所述候选关键词的语义向量与所述待提取文本的文本向量的内积,得到各所述候选关键词的语义权重。
进一步地,所述对各所述候选关键词进行向量化处理,得到各所述候选关键词的语义向量,包括:
利用预先训练好的word2vec模型将各所述候选关键词转化为向量,得到各所述候选关键词的语义向量。
进一步地,所述根据各所述候选关键词的最终权重,在所述候选关键词集合中选取关键词,包括:
对各所述候选关键词的最终权重进行排序,并根据各所述候选关键词的最终权重的排序结果,在所述候选关键词集合中选取预设数量的关键词。
第二方面,本发明提供了一种关键词提取装置,所述装置包括:
处理模块,语义对待提取文本进行处理,得到候选关键词集合;
第一计算模块,用于计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重;
第二计算模块,用于计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语义权重;
确定模块,用于根据各所述候选关键词在所述待提取文本中的语序权重和语义权重,确定各所述候选关键词的最终权重;
选取模块,用于根据各所述候选关键词的最终权重,在所述候选关键词集合中选取关键词。
第三方面,本发明提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面任意一种所述的关键词提取方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面任意一种所述的关键词提取方法的步骤。
本发明提供一种关键词提取方法、装置、计算机设备及存储介质,通过对待提取文本进行处理,得到候选关键词集合,并分别计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重和语义权重,以及根据各所述候选关键词在所述待提取文本中的语序权重和语义权重,确定各所述候选关键词的最终权重,最后根据各所述候选关键词的最终权重,在所述候选关键词集合中选取关键词。由于候选关键词在所述待提取文本中的语序权重能够准确反映出候选关键词在待提取文本中的位置的重要性,候选关键词在所述待提取文本中的语义权重能够准确反映出候选关键词对待提取文本的语义贡献,因此通过综合考虑候选关键词在所述待提取文本中的语序权重和语义权重进行关键词筛选,使得候选关键词对待提取文本的权重表示更为全面,由此能够提高文本关键词的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本明实施例提供的方法的应用场景示意图;
图2示出了本发明实施例提供的一种关键词提取方法的流程图;
图3示出了本发明实施例中的计算候选关键词的语序权重的流程图;
图4示出了本发明实施例中的计算候选关键词的语义权重的流程图;
图5示出了本发明实施例提供的一种关键词提取装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,在本发明的描述中,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
还应当理解,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
请参照图1所示,图1示出了本明实施例提供的方法的应用场景示意图,其中,终端设备102通过网络与服务器104进行通信,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备102通过网络与服务器104交互,以接收或发送消息等。终端设备102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等,借助于输入法应用,用户可以对终端设备上的各种应用进行信息输入。终端设备102可以是具有显示屏并且支持信息浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机等等。服务器104可以是提供各种服务的服务器,例如对终端设备102上的输入法应用、文件管理类应用等提供支持的数据库服务器或云服务器。服务器可以对接收到的数据进行存储、分析等处理,并将处理结果反馈给终端设备102。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
请参照图2所示,图2示出了本发明实施例提供的一种关键词提取方法的流程图,该方法包括以下步骤:
步骤201、对待提取文本进行处理,得到候选关键词集合。
其中,待提取文本可以是纯文本,也可以是通过文本图像中提取到的文本。待提取文本的内容可以是新闻资讯、报告、论文、微博、聊天记录等信息。
具体地,对待提取文本进行处理可以包括:
对所述待提取文本以换行符进行段落划分,得到有序段落集合;对所述有序段落集合中的各段落以截断符号进行分句处理,得到各所述有序段落的句子集合,其中,截断符号可以包括但不限于句号、问号、逗号和数字;对各所述有序段落的句子集合中的各个句子进行分词处理,形成所述候选关键词集合。
在具体实施过程中,可以使用jieba分词算法进行分词处理,并过滤停用词,得到多个候选关键词,形成所述候选关键词集合。此外,还可以采用现有技术中的其他分词算法进行分词处理,本发明对此不作限定。
步骤202、分别计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重和语义权重。
具体地,可以根据候选关键词在待提取文本中的位置信息进行计算候选关键词在所述待提取文本中的语序权重,其中,位置信息可以是待提取文本内的段落信息、候选关键词所在段落内的句子信息等;可以通过对候选关键词进行向量化处理,计算词向量在待提取文本的语义权重。
需要说明的是,步骤202中计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重这一过程与计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语义权重这一过程的执行先后顺序,本发明实施例对此不作具体限定。
步骤203、根据各所述候选关键词在所述待提取文本中的语序权重和语义权重,确定各所述候选关键词的最终权重。
其中,候选关键词在所述待提取文本中的语序权重用于表征候选关键词在待提取文本中的位置的重要性,候选关键词在所述待提取文本中的语义权重用于表征候选关键词对待提取文本的语义贡献度。
具体地,可以对各所述候选关键词在所述待提取文本中的语序权重和对应的语义权重进行相乘,获得各所述候选关键词的最终权重。
本实施例中,通过根据各所述候选关键词在所述待提取文本中的语序权重和语义权重,确定各所述候选关键词的最终权重,从而能够使得候选关键词对待提取文本的权重表示更为全面。
步骤204、根据各所述候选关键词的最终权重,在所述候选关键词集合中选取关键词。
具体地,可以对各所述候选关键词的最终权重大小进行倒排序,并选取排序前N个候选关键词,即得到待提取文本的N个关键词。
需要说明的是,步骤201至步骤204的执行主体可以是文本处理引擎,可以位于本地的客户端中,以进行离线处理,或者还可以位于网络侧的服务器中,以进行在线处理,本实施例对此不进行限定。
需要说明的是,步骤201至步骤204的执行主体还可以是客户端。
可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可以是浏览器的一个网页,只要能够提供文本处理服务,以提取到关键词的应用的客观存在形式都可以,本实施例对此不进行限定。
本发明提供一种关键词提取方法,通过对待提取文本进行处理,得到候选关键词集合,分别计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重和语义权重,由于候选关键词在所述待提取文本中的语序权重能够准确反映出候选关键词在待提取文本中的位置的重要性,候选关键词在所述待提取文本中的语义权重能够准确反映出候选关键词对待提取文本的语义贡献,因此通过综合考虑候选关键词在所述待提取文本中的语序权重和语义权重进行关键词筛选,能够提高文本关键词的准确度。
在一个优选实施方式中,如图3所示,步骤202中计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重,该过程可以包括步骤:
步骤301、获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重。
具体地,基于各所述候选关键词是否出现所述待提取文本的每个段落中、所述待提取文本的段落数,按照预设的段落语序权重计算公式,获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重。
其中,所述预设的段落语序权重计算公式为:
其中,是候选关键词w在第i个段落中的段落语序权重,nPMID是文本段落数的中位数,nP是文本段落数,如果候选关键词w在第i个段落中没有出现时,
由上述的段落语序权重计算公式,不难得出:当待提取文本中仅有一个段落时,候选关键词w在该段落中的段落语序权重的值为1。
本实施例中,根据上述的段落语序权重计算公式,如果一个候选关键词在待提取文本的不同段落中出现,则该候选关键词出现在首段、末段对应的段落语序权重大于该关键词出现在其他段落所对应的段落语序权重。这样也能够符合在中文文档的首段、末段涵盖文章关键词的概率比较高,对于出现在这些位置的关键词应该加大权重的事实。另外,也能够保证关键词在处于中位数的段落的段落语序权重不会为零,能够平滑不同段落间的权重差异。
步骤302、获取各所述候选关键词在所述每个段落的各句子中的句语序权重,并计算各所述候选关键词在所述每个段落内的句语序权重之和。
具体地,基于各所述候选关键词是否出现所述每个段落的各句子中、所述每个段落的句子数,按照预设的句语序权重计算公式,获取各所述候选关键词在所述每个段落的各句子中的句语序权重。
其中,所述预设的句语序权重计算公式为:
其中,是候选关键词w在第i个段落的第j个句子中的句语序权重,是第i个段落的句子数的中位数,是第i个段落的句子数,如果候选关键词w在第i个段落的第j个句子中没有出现时,
其中,通过如下公式计算各所述候选关键词在所述每个段落内的句语序权重之和:
其中,是候选关键词w在第i个段落中的第j个句子的句语序权重,是候选关键词w在第i个段落的句语序权重之和。
本实施例中,根据上述的句语序权重计算公式,如果一个候选关键词在一个段落的不同句子中出现,则该候选关键词出现在该段落的首句、末句对应的句语序权重大于该关键词出现在该段落的其他句子所对应的句语序权重。这样也能够符合在中文文档某个段落中的首句、末句涵盖文章关键词的概率比较高,对于出现在这些位置的关键词应该加大权重的事实。另外,也能够保证在某个段落中的关键词在处于中位数的句子的句语序权重不会为零,能够平滑同一段落中的不同句子间的权重差异。
步骤303、对各所述候选关键词在所述每个段落中的段落语序权重与计算得到的各所述候选关键词在所述每个段落内的句语序权重之和进行对应相乘并求和,得到各所述候选关键词在所述待提取文本中的语序权重。
具体地,通过如下公式计算得到各所述候选关键词在所述待提取文本中的语序权重:
其中,qw为候选关键词w的语序权重,是候选关键词w在第i个段落的段落语序权重,是候选关键词w在第i个段落的句语序权重之和。
本发明实施例中,通过对各所述候选关键词在所述每个段落中的段落语序权重与各所述候选关键词在所述每个段落内的句语序权重之和进行对应相乘并求和,得到各所述候选关键词在所述待提取文本中的语序权重,由此能够使得候选关键词的语序权重准确反映候选关键词在待提取文本中的位置的重要性。
在一个优选实施例中,如图4所示,步骤202中所述计算各所述候选关键词在所述待提取文本中的语义权重可以通过如下步骤来实现:
步骤401、对各所述候选关键词进行向量化处理,得到各所述候选关键词的语义向量。
具体地,利用预先训练好的word2vec模型将各所述候选关键词转化为向量,得到各所述候选关键词的语义向量。
其中,word2vec模型的训练过程可以包括:
A):获取语料文本库。
其中,语料库包括两种类型的训练数据,一类是非垂直领域的语料文本,通常取自各类网络百科,如百度百科、互动百科、维基百科等。这些语料文本覆盖面极广,可以适用于各种领域的模型的训练。另一类为各个垂直服务领域的语料库,例如各类行业网站的金融、科学、教育等领域语料,针对不同的垂直领域训练出对应的不同的Word2Vec模型。在具体应用中,可以通过爬虫爬取的方式获得这些语料文本,具体爬取的语料文本的数目,可以结合实际需要来确定。
B):对语料文本库中的各个文本进行分词、过滤停用词,使用处理好的语料训练Word2Vec模型。
具体地,采用jieba分词工具对各个文本进行分词处理,再根据哈工大停用词表进行过滤,同时,根据词性对代词、介词、方位词等无实际意义的词进行去除。模型训练采用谷歌Word2Vec开源工具,并设置相关训练参数,使用Skip-Gram模型,训练窗口大小为12,生成一个256维的Word2Vec模型。
需要说明的是,在上述训练过程中,如果想针对某个垂直领域的关键词提取提升准确度,可以在训练Word2Vec模型时增加提取目标文本对应的垂直领域语料数量,以获得在目标领域较好的关键词提取泛化能力。
步骤402、对所有所述候选关键词的语义向量进行向量求和,得到所述待提取文本的文本向量。
本实施例中,对所有所述候选关键词的语义向量进行向量求和,得到所述待提取文本的文本向量,实现了对待提取文本的文本语义的表征。
步骤403、计算各所述候选关键词的语义向量与所述待提取文本的文本向量的内积,得到各所述候选关键词的语义权重。
本实施例中,通过对计算候选关键词的语义向量与待提取文本的文本向量的内积,能够确定出候选关键词对待提取文本的语义贡献,实现了对候选关键词的语义权重的表征。
作为对上述实施例中的关键词提取方法的实现,本发明实施例还提供一种关键词提取装置,如图5所示,该装置包括:
处理模块51,语义对待提取文本进行处理,得到候选关键词集合;
第一计算模块52,用于计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重;
第二计算模块53,用于计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语义权重;
确定模块54,用于根据各所述候选关键词在所述待提取文本中的语序权重和语义权重,确定各所述候选关键词的最终权重;
选取模块55,用于根据各所述候选关键词的最终权重,在所述候选关键词集合中选取关键词。
在一个优选实施方式中,所述处理模块51包括:
段落划分单元,用于对所述待提取文本进行段落划分,得到有序段落集合;
分句处理单元,对所述有序段落集合中的各段落进行分句处理,得到各所述有序段落的句子集合;
分词处理单元,用于对各所述有序段落的句子集合中的各个句子进行分词处理,形成所述候选关键词集合。
在一个优选实施方式中,所述分词处理单元具体用于:
使用jieba分词算法对各所述有序段落的句子集合中的各个句子进行分词,并过滤停用词,得到所述候选关键词集合。
在一个优选实施方式中,所述第一计算模块52包括:
第一获取单元,用于获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重;
第二获取单元,用于获取各所述候选关键词在所述每个段落的各句子中的句语序权重,并计算各所述候选关键词在所述每个段落内的句语序权重之和;
语序权重计算单元,用于对各所述候选关键词在所述每个段落中的段落语序权重与计算得到的各所述候选关键词在所述每个段落内的句语序权重之和进行对应相乘并求和,得到各所述候选关键词在所述待提取文本中的语序权重。
在一个优选实施方式中,所述第一获取单元具体用于:
基于各所述候选关键词是否出现所述待提取文本的每个段落中、所述待提取文本的段落数,按照预设的段落语序权重计算公式,获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重。
在一个优选实施方式中,所述预设的段落语序权重计算公式为:
其中,是候选关键词w在第i个段落中的段落语序权重,nPMID是文本段落数的中位数,nP是文本段落数,如果候选关键词w在第i个段落中没有出现时,
在一个优选实施方式中,所述第二获取单元具体用于:
基于各所述候选关键词是否出现所述每个段落的各句子中、所述每个段落的句子数,按照预设的句语序权重计算公式,获取各所述候选关键词在所述每个段落的各句子中的句语序权重。
在一个优选实施方式中,所述预设的句语序权重计算公式为:
其中,是候选关键词w在第i个段落的第j个句子中的句语序权重,是第i个段落的句子数的中位数,是第i个段落的句子数,如果候选关键词w在第i个段落的第j个句子中没有出现时,
在一个优选实施方式中,所述第二计算模块53包括:
词向量化单元,用于对各所述候选关键词进行向量化处理,得到各所述候选关键词的语义向量;
语义向量运算单元,用于对所有所述候选关键词的语义向量进行向量求和,得到所述待提取文本的文本向量;
语义权重获取单元,计算各所述候选关键词的语义向量与所述待提取文本的文本向量的内积,得到各所述候选关键词的语义权重。
在一个优选实施方式中,所述词向量化单元具体用于:
利用预先训练好的word2vec模型将各所述候选关键词转化为向量,得到各所述候选关键词的语义向量。
在一个优选实施方式中,所述选取模块55具体用于:
对各所述候选关键词的最终权重进行排序,并根据各所述候选关键词的最终权重的排序结果,在所述候选关键词集合中选取预设数量的关键词。
本发明实施例提供的关键词提取装置,与本发明实施例所提供的关键词提取方法属于同一发明构思,可执行本发明任意实施例所提供的关键词提取方法,具备执行关键词提取方法相应的功能模块和有益效果。未在本发明实施例中详尽描述的技术细节,可参见本发明实施例提供的关键词提取方法,此处不再加以赘述。
此外,本发明另一实施例还提供了一种计算机设备,包括:
一个或者多个处理器;
存储器;
存储在存储器中的程序,当被一个或者多个处理器执行时,程序使处理器执行如上述实施例所述的关键词提取方法的步骤。
此外,本发明另一实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被处理器执行时,使得处理器执行如上述实施例所述的关键词提取方法的步骤。
本领域内的技术人员应明白,本发明实施例中的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例中是参照根据本发明实施例中实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种关键词提取方法,其特征在于,所述方法包括:
对待提取文本进行处理,得到候选关键词集合;
分别计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重和语义权重;
根据各所述候选关键词在所述待提取文本中的语序权重和语义权重,确定各所述候选关键词的最终权重;
根据各所述候选关键词的最终权重,在所述候选关键词集合中选取关键词。
2.根据权利要求1所述的方法,所述计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重,包括:
获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重;
获取各所述候选关键词在所述每个段落的各句子中的句语序权重,并计算各所述候选关键词在所述每个段落内的句语序权重之和;
对各所述候选关键词在所述每个段落中的段落语序权重与计算得到的各所述候选关键词在所述每个段落内的句语序权重之和进行对应相乘并求和,得到各所述候选关键词在所述待提取文本中的语序权重。
3.根据权利要求2所述的方法,其特征在于,所述获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重,包括:
基于各所述候选关键词是否出现所述待提取文本的每个段落中、所述待提取文本的段落数,按照预设的段落语序权重计算公式,获取各所述候选关键词在所述待提取文本的每个段落中的段落语序权重。
4.根据权利要求3所述的方法,其特征在于,所述预设的段落语序权重计算公式为:
其中,是候选关键词w在第i个段落中的段落语序权重,nPMID是文本段落数的中位数,nP是文本段落数,如果候选关键词w在第i个段落中没有出现时,
5.根据权利要求2至4任意一项所述的方法,其特征在于,所述获取各所述候选关键词在所述每个段落的各句子中的句语序权重,包括:
基于各所述候选关键词是否出现所述每个段落的各句子中、所述每个段落的句子数,按照预设的句语序权重计算公式,获取各所述候选关键词在所述每个段落的各句子中的句语序权重。
6.根据权利要求5所述的方法,其特征在于,所述预设的句语序权重计算公式为:
其中,是候选关键词w在第i个段落的第j个句子中的句语序权重,是第i个段落的句子数的中位数,是第i个段落的句子数,如果候选关键词w在第i个段落的第j个句子中没有出现时,
7.根据权利要求1所述的方法,其特征在于,所述计算各所述候选关键词在所述待提取文本中的语义权重,包括:
对各所述候选关键词进行向量化处理,得到各所述候选关键词的语义向量;
对所有所述候选关键词的语义向量进行向量求和,得到所述待提取文本的文本向量;
计算各所述候选关键词的语义向量与所述待提取文本的文本向量的内积,得到各所述候选关键词的语义权重。
8.一种关键词提取装置,其特征在于,所述装置包括:
处理模块,语义对待提取文本进行处理,得到候选关键词集合;
第一计算模块,用于计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语序权重;
第二计算模块,用于计算所述候选关键词集合中的各候选关键词在所述待提取文本中的语义权重;
确定模块,用于根据各所述候选关键词在所述待提取文本中的语序权重和语义权重,确定各所述候选关键词的最终权重;
选取模块,用于根据各所述候选关键词的最终权重,在所述候选关键词集合中选取关键词。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7任意一项所述的关键词提取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7任意一项所述的关键词提取方法的步骤。
CN201910428670.6A 2019-05-22 2019-05-22 一种关键词提取方法、装置、计算机设备及存储介质 Active CN110147425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910428670.6A CN110147425B (zh) 2019-05-22 2019-05-22 一种关键词提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910428670.6A CN110147425B (zh) 2019-05-22 2019-05-22 一种关键词提取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110147425A true CN110147425A (zh) 2019-08-20
CN110147425B CN110147425B (zh) 2021-04-06

Family

ID=67592634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910428670.6A Active CN110147425B (zh) 2019-05-22 2019-05-22 一种关键词提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110147425B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN111680152A (zh) * 2020-06-10 2020-09-18 创新奇智(成都)科技有限公司 目标文本的摘要提取方法及装置、电子设备、存储介质
CN111914564A (zh) * 2020-07-13 2020-11-10 北京邮电大学 一种文本关键词确定方法及装置
CN111930883A (zh) * 2020-07-01 2020-11-13 深信服科技股份有限公司 一种文本聚类方法、装置、电子设备和计算机存储介质
CN112417101A (zh) * 2020-11-23 2021-02-26 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
CN112650830A (zh) * 2020-11-17 2021-04-13 北京字跳网络技术有限公司 关键词提取方法、装置、电子设备和存储介质
CN113139705A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 业务项目的风险识别方法及装置
CN116306616A (zh) * 2023-02-14 2023-06-23 贝壳找房(北京)科技有限公司 用于确定文本的关键词的方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
US9268770B1 (en) * 2013-06-25 2016-02-23 Jpmorgan Chase Bank, N.A. System and method for research report guided proactive news analytics for streaming news and social media
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置
CN107066448A (zh) * 2017-04-23 2017-08-18 四川用联信息技术有限公司 新的小世界网络模型实现文本特征的提取方法
CN108228567A (zh) * 2018-01-17 2018-06-29 百度在线网络技术(北京)有限公司 用于提取组织机构的简称的方法和装置
CN108399165A (zh) * 2018-03-28 2018-08-14 广东技术师范学院 一种基于位置加权的关键词抽取方法
CN108549626A (zh) * 2018-03-02 2018-09-18 广东技术师范学院 一种慕课的关键词提取方法
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
US9268770B1 (en) * 2013-06-25 2016-02-23 Jpmorgan Chase Bank, N.A. System and method for research report guided proactive news analytics for streaming news and social media
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置
CN107066448A (zh) * 2017-04-23 2017-08-18 四川用联信息技术有限公司 新的小世界网络模型实现文本特征的提取方法
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN108228567A (zh) * 2018-01-17 2018-06-29 百度在线网络技术(北京)有限公司 用于提取组织机构的简称的方法和装置
CN108549626A (zh) * 2018-03-02 2018-09-18 广东技术师范学院 一种慕课的关键词提取方法
CN108399165A (zh) * 2018-03-28 2018-08-14 广东技术师范学院 一种基于位置加权的关键词抽取方法
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JONGHUN CHA: "Extracting Topic Related Keywords by Backtracking", 《IEEE》 *
樊玮等: "融合词向量与位置信息的关键词提取算法", 《计算机工程与应用》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN113139705A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 业务项目的风险识别方法及装置
CN111680152A (zh) * 2020-06-10 2020-09-18 创新奇智(成都)科技有限公司 目标文本的摘要提取方法及装置、电子设备、存储介质
CN111680152B (zh) * 2020-06-10 2023-04-18 创新奇智(成都)科技有限公司 目标文本的摘要提取方法及装置、电子设备、存储介质
CN111930883A (zh) * 2020-07-01 2020-11-13 深信服科技股份有限公司 一种文本聚类方法、装置、电子设备和计算机存储介质
CN111914564A (zh) * 2020-07-13 2020-11-10 北京邮电大学 一种文本关键词确定方法及装置
CN111914564B (zh) * 2020-07-13 2023-03-14 北京邮电大学 一种文本关键词确定方法及装置
CN112650830A (zh) * 2020-11-17 2021-04-13 北京字跳网络技术有限公司 关键词提取方法、装置、电子设备和存储介质
CN112650830B (zh) * 2020-11-17 2021-11-26 北京字跳网络技术有限公司 关键词提取方法、装置、电子设备和存储介质
CN112417101A (zh) * 2020-11-23 2021-02-26 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
CN112417101B (zh) * 2020-11-23 2023-08-18 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
CN116306616A (zh) * 2023-02-14 2023-06-23 贝壳找房(北京)科技有限公司 用于确定文本的关键词的方法和装置

Also Published As

Publication number Publication date
CN110147425B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
Trupthi et al. Sentiment analysis on twitter using streaming API
US9613024B1 (en) System and methods for creating datasets representing words and objects
CN107168954B (zh) 文本关键词生成方法及装置和电子设备及可读存储介质
US9720904B2 (en) Generating training data for disambiguation
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
Minanovic et al. Big data and sentiment analysis using KNIME: Online reviews vs. social media
Avasthi et al. Techniques, applications, and issues in mining large-scale text databases
US20210157856A1 (en) Positive/negative facet identification in similar documents to search context
CN104537341A (zh) 人脸图片信息获取方法和装置
US11887011B2 (en) Schema augmentation system for exploratory research
CN108182182A (zh) 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN110516033A (zh) 一种计算用户偏好的方法和装置
Takamura et al. Text summarization model based on the budgeted median problem
Singh et al. Sentiment analysis using lexicon based approach
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN113627797A (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
Jaman et al. Sentiment analysis of customers on utilizing online motorcycle taxi service at twitter with the support vector machine
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN113672705A (zh) 简历筛选方法、装置、设备、介质及程序产品
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
Kowsher et al. Bengali information retrieval system (BIRS)
Wicaksono et al. Toward advice mining: Conditional random fields for extracting advice-revealing text units
Wunnasri et al. Solving unbalanced data for Thai sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 510030 rooms 1001-1004 and 1011-1016, floor 10, No. 1, Mingzhu Third Street, Hengli Town, Nansha District, Guangzhou City, Guangdong Province

Patentee after: Huatai Futures Co.,Ltd.

Address before: 510030 unit 04, 20 / F, 29 / F, Lifeng building, 761 Dongfeng East Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee before: Huatai Futures Co.,Ltd.

CP02 Change in the address of a patent holder