CN110874530A - 关键词提取方法、装置、终端设备及存储介质 - Google Patents
关键词提取方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN110874530A CN110874530A CN201911047440.1A CN201911047440A CN110874530A CN 110874530 A CN110874530 A CN 110874530A CN 201911047440 A CN201911047440 A CN 201911047440A CN 110874530 A CN110874530 A CN 110874530A
- Authority
- CN
- China
- Prior art keywords
- text
- title
- target
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请实施例适用于文本处理技术领域,提供了一种关键词提取方法、装置、终端设备及存储介质,所述方法包括:采集待处理的多个文本,各个文本包括正文文本和标题文本;分别计算每个正文文本中各个正文词语的词频指数,基于多个正文文本中的各个目标正文词语,生成正文关键词集合;根据所述正文关键词集合,计算每个标题文本的标题权重值,基于目标标题文本中的各个标题词语,生成标题关键词集合;从所述正文关键词集合和所述标题关键词集合中提取目标关键词。本实施例基于不同词语在正文文本和标题文本中的重要性进行关键词提取,使得提取出的关键词能够匹配文本内容自身的特点,提高了关键词的提取效率和准确率。
Description
技术领域
本申请属于文本处理技术领域,特别是涉及一种关键词提取方法、装置、终端设备及存储介质。
背景技术
随着信息技术的发展,互联网上无时无刻不在产生大量的数据,新闻内容便是其中的一种。
面对大量的新闻内容,用户难以快速地从中找到比较重要且有价值的内容。因此,新闻内容的关键词推荐应运而生。目前,关键词推荐主要是由相关机构通过人工筛选的方式选出若干条新闻,标注出这些新闻内容的关键词,再将关键词推荐给用户,供用户查阅与该关键词相关的新闻。
但是,人工筛选新闻并标注关键词的方式,容易受到编辑人员主观因素的影响,忽视了新闻内容本身的特点,使得标注出的关键词可能并不能够完全匹配当前重要的新闻内容,造成推荐的准确率较低。
发明内容
有鉴于此,本申请实施例提供了一种关键词提取方法、装置、终端设备及存储介质,以解决现有技术中的新闻关键词推荐容易忽视新闻内容本身的特点,使得推荐的关键词可能并不能够完全匹配当前重要的新闻内容,推荐的准确率较低的问题。
本申请实施例的第一方面提供了一种关键词提取方法,包括:
采集待处理的多个文本,各个文本包括正文文本和标题文本;
分别计算每个正文文本中各个正文词语的词频指数,基于多个正文文本中的各个目标正文词语,生成正文关键词集合;其中,所述目标正文词语为按照所述词频指数排序后在对应的正文文本的预设排序区间内的正文词语;
根据所述正文关键词集合,计算每个标题文本的标题权重值,基于目标标题文本中的各个标题词语,生成标题关键词集合;其中,所述目标标题文本为所述标题权重值大于预设标题权重阈值的标题文本;
从所述正文关键词集合和所述标题关键词集合中提取目标关键词。
本申请实施例的第二方面提供了一种关键词提取装置,包括:
文本采集模块,用于采集待处理的多个文本,各个文本包括正文文本和标题文本;
正文关键词集合生成模块,用于分别计算每个正文文本中各个正文词语的词频指数,基于多个正文文本中的各个目标正文词语,生成正文关键词集合;其中,所述目标正文词语为按照所述词频指数排序后在对应的正文文本的预设排序区间内的正文词语;
标题关键词集合生成模块,用于根据所述正文关键词集合,计算每个标题文本的标题权重值,基于目标标题文本中的各个标题词语,生成标题关键词集合;其中,所述目标标题文本为所述标题权重值大于预设标题权重阈值的标题文本;
关键词提取模块,用于从所述正文关键词集合和所述标题关键词集合中提取目标关键词。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述关键词提取方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述关键词提取方法的步骤。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例,通过采集待处理的多个文本,然后对各个文本的正文文本和标题文本分别进行处理,可以生成正文关键词集合和标题关键词集合。由于正文关键词集合和标题关键词集合中的各个关键词均是在正文或标题中具有较高重要性的词语,因此从上述集合中所提取出的目标关键词也就能够最大可能地代表所采集的各个文本。本实施例基于不同词语在正文文本和标题文本中的重要性进行关键词提取,使得提取出的关键词能够匹配文本内容自身的特点,提高了关键词的提取效率和准确率,解决了通过人工标注关键词容易受到编辑人员主观因素影响从而导致标注准确率较低的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例的一种关键词提取方法的步骤流程示意图;
图2是本申请一个实施例的另一种关键词提取方法的步骤流程示意图;
图3是本申请一个实施例的一种关键词提取装置的示意图;
图4是本申请一个实施例的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面通过具体实施例来说明本申请的技术方案。
参照图1,示出了本申请一个实施例的一种关键词提取方法的步骤流程示意图,具体可以包括如下步骤:
S101、采集待处理的多个文本,各个文本包括正文文本和标题文本;
需要说明的是,本方法可以适用于终端设备。即,通过终端设备采集多个文本并对其进行识别和处理,可以提取出这些文本中的关键词。上述终端设备可以是笔记本电脑、台式计算机或其他类型的设备,本实施例对此不作限定。
在本实施例中,可以通过网络爬虫的方式抓取多个文本。上述文本可以是新闻文本,也可以是其他类型的公告文本、规划信息等等,本实施例对此亦不作限定。
以新闻文本为例。通过网络爬虫可以抓取特定类型新闻网站上的新闻,从而可以获得某一领域的多个新闻文本。例如,可以从体育新闻网站中抓取多个体育新闻文本,从金融新闻网站中抓取多个金融新闻文本,然后采用本实施例的关键词提取方法提取出体育新闻和金融新闻中的热词内容。
通常,文本标题能够简略地对文本内容进行概括,本实施例在提取文本关键词时,可以将正文文本和标题文本分开来进行处理。
S102、分别计算每个正文文本中各个正文词语的词频指数;
针对正文文本,可以首先计算每个正文文本中各个正文词语的词频指数,该词频指数可以通过统计各个正文词语在正文文本中出现的次数获得,也可以通过计算各个正文词语出现的次数与正文文本的数量之间的比值获得,还可以采用其他用于计算词频的特定算法计算得到,本实施例对于具体的计算方式不作限定。
计算出来的词频指数可以用于表示该正文词语在每个文本或全部文本中的重要性。一般地,某个正文词语的词频指数越大,其重要性就越高,该正文词语也就有更大可能作为正文文本中的关键词。
S103、基于多个正文文本中的各个目标正文词语,生成正文关键词集合;其中,所述目标正文词语为按照所述词频指数排序后在对应的正文文本的预设排序区间内的正文词语;
在本实施例中,在计算出每个正文文本中各个正文词语的词频指数后,可以筛选出一些目标正文词语,然后通过汇总这些目标正文词语,可以得到正文关键词集合。上述目标正文词语可以是按照词频指数进行排序后在对应的正文文本的预设排序区间内的正文词语。
在具体实现中,对于每个正文文本,在计算得到该正文文本中各个正文词语的词频指数后,可以按照词频指数的大小,从大到小或从小到大地对这些正文词语进行排序,然后提取出词频指数较大的一部分词语作为目标正文词语。例如,在按照词频指数从大到小排列各个正文词语后,可以将每个正文文本中词频指数排序在前50的正文词语提取出来作为目标正文词语。
然后,通过汇总每个正文文本所提取出的目标正文词语,可以得到正文关键词集合。
在具体实现中,可以直接将每个正文文本提取出的目标正文词语直接汇总作为正文关键词集合,也可以在汇总时对各个正文词语作进一步筛选,保证词频指数更大的正文词语才能够会汇总为正文关键词集合。
例如,对于某个正文文本中的目标正文词语,可以判断该目标正文词语是否属于其他大多数正文文本的目标正文词语。若是,则可以认为该目标正文词语在多个正文文本中均比较重要,可以将其添加至正文关键词集合。若某个目标正文词语仅仅在少数正文文本中出现,则可以认为该目标正文词语对于大量文本而言,其重要性相对较低,对于此类目标正文词语,则可以不将其添加至正文关键词集合。
当然,上述处理方式仅仅是本实施例提供的一种示例,在根据目标正文词语生成正文关键词集合时,还可以采用其他方式进行处理,本实施例对此不作限定。
S104、根据所述正文关键词集合,计算每个标题文本的标题权重值;
由于每个文本的标题基本都能准确地概括该文本的主要内容,一个文本的标题在整个文本中具有较高的重要性。因此,本实施例可以对每个文本的标题文本单独进行处理。
在本实施例中,对于标题文本的重要性,可以通过标题权重值体现。
在具体实现中,可以根据前述生成的正文关键词集合,计算每个标题文本的标题权重值。
例如,可以统计标题文本中有多少个标题词语属于正文关键词集合中的关键词,然后计算这些标题词语在整个标题中所占的比例,采用该比例作为对应的标题文本的标题权重值。
当然,也可以采用其他方式计算各个标题文本的标题权重值,本实施例对此不作限定。
S105、基于目标标题文本中的各个标题词语,生成标题关键词集合;其中,所述目标标题文本为所述标题权重值大于预设标题权重阈值的标题文本;
在具体实现中,可以将标题权重值较大的一部分标题文本作为目标标题文本,然后在基于目标标题文本中的各个词语,生成标题关键词集合。
例如,可以将标题权重值大于0.6的那些标题文本作为目标标题文本,然后将各个目标标题文本中的各个词语全部添加至标题关键词集合。
或者,也可以在识别出目标标题文本后,对各个目标标题文本作进一步处理,删除目标标题文本中的一部分停用词及无意义词,然后将剩余的各个词语添加至标题关键词集合,本实施例对此不作限定。
S106、从所述正文关键词集合和所述标题关键词集合中提取目标关键词。
在分别生成正文关键词集合和标题关键词集合后,可以从上述集合中提取出目标关键词,作为全部文本的热词。
在具体实现中,可以分别从正文关键词集合中提取出部分正文关键词,从标题关键词集合中提取出部分标题关键词,然后通过比较所提取出的正文关键词和标题关键词,保留其中相同的关键词,作为最终的目标关键词。也可以再次将正文关键词集合和标题关键词集合汇总,统一从汇总后的集合中提取出部分目标关键词。
对于提取出的目标关键词,可以按照词云等图表的方式展现给用户,方便用户了解采集到的多个文本中的热词有哪些。
以采集的多个文本为通过网络爬虫从金融新闻网站上抓取的近期金融新闻为例,通过上述处理方式,可以向用户展现近期金融新闻中的热词,便于用户快速了解近期金融热点。
在本申请实施例中,通过采集待处理的多个文本,然后对各个文本的正文文本和标题文本分别进行处理,可以生成正文关键词集合和标题关键词集合。由于正文关键词集合和标题关键词集合中的各个关键词均是在正文或标题中具有较高重要性的词语,因此从上述集合中所提取出的目标关键词也就能够最大可能地代表所采集的各个文本。本实施例基于不同词语在正文文本和标题文本中的重要性进行关键词提取,使得提取出的关键词能够匹配文本内容自身的特点,提高了关键词的提取效率和准确率,解决了通过人工标注关键词容易受到编辑人员主观因素影响从而导致标注准确率较低的问题。
参照图2,示出了本申请一个实施例的另一种关键词提取方法的步骤流程示意图,具体可以包括如下步骤:
S201、采集待处理的多个文本,各个文本包括正文文本和标题文本;
需要说明的是,本方法可以适用于终端设备。即,通过终端设备采集多个文本并对其进行识别和处理,可以提取出这些文本中的关键词。
在具体实现中,可以通过网络爬虫抓取特定类型的文本。例如,可以从金融新闻网站中抓取多个金融新闻文本。
在本实施例中,在采集到多个文本后,还可以对多个文本进行预处理。例如,可以分别将每个正文文本转换为纯文本格式,删除纯文本格式的正文文本中的特殊字符,获得目标正文文本,然后分别对每个目标正文文本和每个标题文本进行分词,根据预设的停用词表,删除每个目标正文文本和每个标题文本中的停用词和单个字。
在具体实现中,对于采集到的文本,可以对该文本中的空格、特殊字符等无用字符进行过滤,然后使用分词工具对正文文本进行分词,并去除无用的停用词和单个字,保留除停用词和单个字外的剩余词语,作为后续处理的正文文本。
针对标题文本,也可以采用上述方式进行预处理。首先过滤掉标题中的空格、字符等等,然后对标题文本进行分词,保留除停用词和单个字外的剩余词语,作为后续处理的标题文本。
需要说明的是,由于标题对于一个文本具有较高的重要性,本实施例可以针对预处理后的正文文本和标题文本分别进行后续处理。
S202、分别计算每个正文文本中各个正文词语的词频-逆文本指数;
针对正文文本,可以首先计算每个正文文本中各个正文词语的词频指数,该词频指数可以是词频-逆文本指数(Term Frequency–Inverse Document Frequency,TF-IDF)
通常,TF是某个词语在某一个文本中出现次数与所有文本中词语总数的比值,其作用表示该词语在一个文本中出现的次数,次数越多说明其越重要;IDF是所有文本的个数与包含某个词语的文本个数的比值,将这两个值相乘,就得到某个词语的TF-IDF值。某个词语在一个文本中的TF-IDF值越大,那么一般而言这个词语在这个文本中的重要性就越高。
在本实施例中,可以首先统计每个正文文本中各个正文词语的出现次数,以及统计全部正文文本中所有正文词语的词语总数,计算上述出现次数与词语总数之间的第一比值,即TF值。然后统计全部正文文本的第一数目,以及统计包含当前待计算的正文词语的目标正文文本的第二数目,计算上述第一数目与第二数目之间的第二比值,即IDF值。再将第一比值与第二比值相乘,获得当前待计算的正文词语的词频-逆文本指数,即TF-IDF值。
S203、根据每个正文文本中各个正文词语的词频-逆文本指数,按照从大到小的顺序对所述各个正文词语进行排序,提取在预设排序区间内的多个目标正文词语;
在本实施例中,在计算出每个正文文本中各个正文词语的TF-IDF值后,可以按照该TF-IDF值从大到小的顺序对各个正文词语进行排序,然后提取出排序在前的一定数量的多个词语作为目标正文词语。
例如,对于每个正文文本,可以分别从该文本中提取出TF-IDF值在前50位的词语作为目标正文词语。
当然,上述数值仅为一种示例,根据实际需要也可以提取TF-IDF值在前30位或前100位的词语,本实施例对此不作限定。
S204、计算每个正文文本各自对应的目标正文词语的正文词频权重,所述正文词频权重通过统计所述目标正文词语在所述全部正文文本中的出现次数得到;
对于提取出的目标正文词语,可以将每个正文文本中的目标正文词语进行相同词语的累加,得到每个目标正文词语的正文词频权重。
例如,对于某个目标正文词语,若其属于其中30个正文文本的目标正文词语(即该目标正文词语的TF-IDF值在这30个正文文本中均属于前50位),则可以将该目标正文词语在上述30个正文文本中的出现次数进行累加,得到该目标正文词语的正文词频权重。
S205、提取所述正文词频权重大于预设词频权重阈值的多个目标正文词语,获得正文关键词集合;
在具体实现中,待计算出全部目标正文词语的正文词频权重后,可以按照正文词频权重从大到小进行排序,提取正文词频权重大于一定阈值的词语,作为正文关键词集合中的关键词。
或者,也可以在按照正文词频权重进行排序后,提取正文词频权重较大的一定数量的词语,作为正文关键词集合中的关键词。
S206、根据所述正文关键词集合,计算每个标题文本的标题权重值;
在本实施例中,对于每个标题文本的处理,可以首先过滤掉一些词数较多或较少的标题文本。例如,可以删除词语超过25的太长标题文本,也可以删除词数少于5的太短的标题文本。
然后,再对剩余的标题文本进行处理,计算各个标题文本的标题权重值。标题权重值可以根据前述生成的正文关键词集合计算得到。
在本实施例中,可以分别识别每个标题文本中的标题词语是否包含于上述正文关键词集合中,若标题文本中的标题词语包含于正文关键词集合中,则可以按照第一数值递增每个标题文本各自对应的重要度数值,然后分别计算每个标题文本各自对应的重要度数值与包含的标题词语个数之间的比值,作为该标题文本的标题权重值。
需要说明的是,每个标题文本的重要度数值的初始值应当是相同的。
在具体实现中,对于某个标题文本,在分词的基础上,可以首先判断各个标题词语是否属于上述正文关键词集合中的关键词,若是,则可以对该标题文本的重要度数值加1,如此累计得到各个标题的重要度数值。
以各个标题的重要度数值的初始值为0,递增的第一数值为1为例,若某个标题中有5个标题词语属于正文关键词集合中的关键词,那么该标题的重要度数值就是5。
通过计算标题重要度数值,可以在一定程度上排除大量重要度数值比较低的文本,保留了对热词发现更有价值的文本。
在计算出各个标题的重要度数值可以,可以将该重要度数值除以各个标题文本中的词语个数,得到各自对应的标题权重值。
例如,某个标题中一共有8个标题词语,其中有5个标题词语属于正文关键词集合中的关键词,那么该标题的重要度数值为5,对应的标题权重值为5/8=0.625。
S207、统计目标标题词语在全部目标标题文本中的出现次数的第三数目,以所述第三数目作为所述目标标题词语的初始标题词频权重,其中,所述目标标题词语为所述目标标题文本中的任一标题词语;
在本实施例中,目标标题文本可以是上述标题权重值大于预设标题权重阈值的标题文本。例如,可以将标题权重值大于0.6的那些标题文本提取出来作为目标标题文本。
对于目标标题文本,可以统计各个目标标题文本中的任一标题词语在全部目标标题文本中出现的次数,即第三数目。
需要说明的是,在同一个标题中不出现重复词语的情况下,目标标题词语的初始权重值可以简单看作与包含该目标标题词语的目标标题文本的个数相等。
S208、若所述目标标题词语为待识别对象名称,则将第二数值与所述第三数目相乘,获得所述目标标题词语的标题词频权重,其中,所述第二数值大于所述第一数值;
待识别对象名称可以是用户关注的公司、机构或个人的名称。通常,若标题文本中包含此类名称,则表示该名称对于整个文本具有较高的重要性。
因此,对于此类目标标题词语,其标题词频权重可以按照一定的倍数对初始标题词频权重进行计算得到。即,可以将出现次数的第三数目与一个第二数值相乘。作为一种示例,上述第二数值可以是3。
而对于不是待识别对象名称的目标标题词语,则可以以其初始标题词频权重作为最终的标题词频权重。
S209、按照所述标题词频权重对各个目标标题词语进行排序,获得标题关键词集合;
待计算出全部目标标题词语的标题词频权重后,可以按照标题词频权重从大到小的顺序对各个目标标题词语进行排序,然后提取出排序在前的部分标题词语构成标题关键词集合;或者,将全部的目标标题词语均作为标题关键词集合中的关键词。
S210、从所述正文关键词集合和所述标题关键词集合中提取目标关键词。
分别生成正文关键词集合和标题关键词集合后,可以从上述集合中提取出目标关键词,作为全部文本的热词。
作为本实施例的一种示例,可以首先确定正文关键词集合中各个正文关键词的正文词频权重,以及,确定标题关键词集合中各个标题关键词的标题词频权重,然后根据正文词频权重和标题词频权重,对各个正文关键词和各个标题关键词进行混合排序,再提取混合排序后处于目标排序区间的多个目标关键词。上述目标排序区间可以是按照正文词频权重和标题词频权重进行混合排序后,词频权重位于前列的区间。
对于提取出的目标关键词,可以按照词云等图表的方式展现给用户,方便用户了解采集到的多个文本中的热词有哪些。
本实施例首先对各个文本的正文文本进行处理,有效地利用了正文文本内容挖掘出通用的词语内容及其权重大小,然后在此基础上继续对标题文本进行处理,有利于对标题内容的比较。由于文本的标题通常比较重要,本实施通过结合正文文本内容,迭代计算标题文本中各个词语内容,能够获得较为准确的热词结果,方便用户快速的了解文本内容。
需要说明的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
参照图3,示出了本申请一个实施例的一种关键词提取装置的示意图,具体可以包括如下模块:
文本采集模块301,用于采集待处理的多个文本,各个文本包括正文文本和标题文本;
正文关键词集合生成模块302,用于分别计算每个正文文本中各个正文词语的词频指数,基于多个正文文本中的各个目标正文词语,生成正文关键词集合;其中,所述目标正文词语为按照所述词频指数排序后在对应的正文文本的预设排序区间内的正文词语;
标题关键词集合生成模块303,用于根据所述正文关键词集合,计算每个标题文本的标题权重值,基于目标标题文本中的各个标题词语,生成标题关键词集合;其中,所述目标标题文本为所述标题权重值大于预设标题权重阈值的标题文本;
关键词提取模块304,用于从所述正文关键词集合和所述标题关键词集合中提取目标关键词。
在本申请实施例中,所述装置还可以包括如下模块:
预处理模块,用于分别将所述每个正文文本转换为纯文本格式,删除所述纯文本格式的正文文本中的特殊字符,获得目标正文文本;分别对每个目标正文文本和每个标题文本进行分词,根据预设的停用词表,删除每个目标正文文本和每个标题文本中的停用词和单个字。
在本申请实施例中,所述词频指数为词频-逆文本指数,所述正文关键词集合生成模块302具体可以包括如下子模块:
第一比值计算子模块,用于统计每个正文文本中各个正文词语的出现次数,以及统计全部正文文本中所有正文词语的词语总数,计算所述出现次数与所述词语总数之间的第一比值;
第二比值计算子模块,用于统计所述全部正文文本的第一数目,以及统计包含当前待计算的正文词语的目标正文文本的第二数目,计算所述第一数目与所述第二数目之间的第二比值;
词频-逆文本指数计算子模块,用于将所述第一比值与所述第二比值相乘,获得所述当前待计算的正文词语的词频-逆文本指数。
在本申请实施例中,所述正文关键词集合生成模块302还可以包括如下子模块:
目标正文词语提取子模块,用于根据每个正文文本中各个正文词语的词频-逆文本指数,按照从大到小的顺序对所述各个正文词语进行排序,提取在预设排序区间内的多个目标正文词语;
正文词频权重计算子模块,用于计算每个正文文本各自对应的目标正文词语的正文词频权重,所述正文词频权重通过统计所述目标正文词语在所述全部正文文本中的出现次数得到;
正文关键词集合生成子模块,用于提取所述正文词频权重大于预设词频权重阈值的多个目标正文词语,获得正文关键词集合。
在本申请实施例中,所述标题关键词集合生成模块303具体可以包括如下子模块:
标题词语识别子模块,用于分别识别每个标题文本中的标题词语是否包含于所述正文关键词集合中;
重要度数值统计子模块,用于若所述标题文本中的标题词语包含于所述正文关键词集合中,则按照第一数值递增每个标题文本各自对应的重要度数值,每个标题文本的重要度数值的初始值相同;
标题权重值计算子模块,用于分别计算每个标题文本各自对应的重要度数值与包含的标题词语个数之间的比值,作为所述标题文本的标题权重值。
在本申请实施例中,所述标题关键词集合生成模块303还可以包括如下子模块:
初始标题词频权重计算子模块,用于统计目标标题词语在全部目标标题文本中的出现次数的第三数目,以所述第三数目作为所述目标标题词语的初始标题词频权重,其中,所述目标标题词语为所述目标标题文本中的任一标题词语;
标题词频权重计算子模块,用于若所述目标标题词语为待识别对象名称,则将第二数值与所述第三数目相乘,获得所述目标标题词语的标题词频权重,其中,所述第二数值大于所述第一数值;
标题关键词集合生成子模块,用于按照所述标题词频权重对各个目标标题词语进行排序,获得标题关键词集合。
在本申请实施例中,所述关键词提取模块304具体可以包括如下子模块:
正文词频权重确定子模块,用于确定所述正文关键词集合中各个正文关键词的正文词频权重,以及,
标题词频权重确定子模块,用于确定所述标题关键词集合中各个标题关键词的标题词频权重;
混合排序子模块,用于根据所述正文词频权重和所述标题词频权重,对所述各个正文关键词和所述各个标题关键词进行混合排序;
目标关键词提取子模块,用于提取混合排序后处于目标排序区间的多个目标关键词。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例部分的说明即可。
参照图4,示出了本申请一个实施例的一种终端设备的示意图。如图4所示,本实施例的终端设备400包括:处理器410、存储器420以及存储在所述存储器420中并可在所述处理器410上运行的计算机程序421。所述处理器410执行所述计算机程序421时实现上述关键词提取方法各个实施例中的步骤,例如图1所示的步骤S101至S106。或者,所述处理器410执行所述计算机程序421时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块301至304的功能。
示例性的,所述计算机程序421可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器420中,并由所述处理器410执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段可以用于描述所述计算机程序421在所述终端设备400中的执行过程。例如,所述计算机程序421可以被分割成新闻文本采集模块、正文关键词集合生成模块、标题关键词集合生成模块和关键词提取模块,各模块具体功能如下:
文本采集模块,用于采集待处理的多个文本,各个文本包括正文文本和标题文本;
正文关键词集合生成模块,用于分别计算每个正文文本中各个正文词语的词频指数,基于多个正文文本中的各个目标正文词语,生成正文关键词集合;其中,所述目标正文词语为按照所述词频指数排序后在对应的正文文本的预设排序区间内的正文词语;
标题关键词集合生成模块,用于根据所述正文关键词集合,计算每个标题文本的标题权重值,基于目标标题文本中的各个标题词语,生成标题关键词集合;其中,所述目标标题文本为所述标题权重值大于预设标题权重阈值的标题文本;
关键词提取模块,用于从所述正文关键词集合和所述标题关键词集合中提取目标关键词。
所述终端设备400可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备400可包括,但不仅限于,处理器410、存储器420。本领域技术人员可以理解,图4仅仅是终端设备400的一种示例,并不构成对终端设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备400还可以包括输入输出设备、网络接入设备、总线等。
所述处理器410可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器420可以是所述终端设备400的内部存储单元,例如终端设备400的硬盘或内存。所述存储器420也可以是所述终端设备400的外部存储设备,例如所述终端设备400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等等。进一步地,所述存储器420还可以既包括所述终端设备400的内部存储单元也包括外部存储设备。所述存储器420用于存储所述计算机程序421以及所述终端设备400所需的其他程序和数据。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制。尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种关键词提取方法,其特征在于,包括:
采集待处理的多个文本,各个文本包括正文文本和标题文本;
分别计算每个正文文本中各个正文词语的词频指数,基于多个正文文本中的各个目标正文词语,生成正文关键词集合;其中,所述目标正文词语为按照所述词频指数排序后在对应的正文文本的预设排序区间内的正文词语;
根据所述正文关键词集合,计算每个标题文本的标题权重值,基于目标标题文本中的各个标题词语,生成标题关键词集合;其中,所述目标标题文本为所述标题权重值大于预设标题权重阈值的标题文本;
从所述正文关键词集合和所述标题关键词集合中提取目标关键词。
2.根据权利要求1所述的方法,其特征在于,在所述采集待处理的多个文本之后,还包括:
分别将所述每个正文文本转换为纯文本格式,删除所述纯文本格式的正文文本中的特殊字符,获得目标正文文本;
分别对每个目标正文文本和每个标题文本进行分词,根据预设的停用词表,删除每个目标正文文本和每个标题文本中的停用词和单个字。
3.根据权利要求1所述的方法,其特征在于,所述词频指数为词频-逆文本指数,所述分别计算每个正文文本中各个正文词语的词频指数,包括:
统计每个正文文本中各个正文词语的出现次数,以及统计全部正文文本中所有正文词语的词语总数,计算所述出现次数与所述词语总数之间的第一比值;
统计所述全部正文文本的第一数目,以及统计包含当前待计算的正文词语的目标正文文本的第二数目,计算所述第一数目与所述第二数目之间的第二比值;
将所述第一比值与所述第二比值相乘,获得所述当前待计算的正文词语的词频-逆文本指数。
4.根据权利要求3所述的方法,其特征在于,所述基于多个正文文本中的各个目标正文词语,生成正文关键词集合,包括:
根据每个正文文本中各个正文词语的词频-逆文本指数,按照从大到小的顺序对所述各个正文词语进行排序,提取在预设排序区间内的多个目标正文词语;
计算每个正文文本各自对应的目标正文词语的正文词频权重,所述正文词频权重通过统计所述目标正文词语在所述全部正文文本中的出现次数得到;
提取所述正文词频权重大于预设词频权重阈值的多个目标正文词语,获得正文关键词集合。
5.根据权利要求1所述的方法,其特征在于,所述根据所述正文关键词集合,计算每个标题文本的标题权重值,包括:
分别识别每个标题文本中的标题词语是否包含于所述正文关键词集合中;
若所述标题文本中的标题词语包含于所述正文关键词集合中,则按照第一数值递增每个标题文本各自对应的重要度数值,每个标题文本的重要度数值的初始值相同;
分别计算每个标题文本各自对应的重要度数值与包含的标题词语个数之间的比值,作为所述标题文本的标题权重值。
6.根据权利要求5所述的方法,其特征在于,所述基于目标标题文本中的各个标题词语,生成标题关键词集合,包括:
统计目标标题词语在全部目标标题文本中的出现次数的第三数目,以所述第三数目作为所述目标标题词语的初始标题词频权重,其中,所述目标标题词语为所述目标标题文本中的任一标题词语;
若所述目标标题词语为待识别对象名称,则将第二数值与所述第三数目相乘,获得所述目标标题词语的标题词频权重,其中,所述第二数值大于所述第一数值;
按照所述标题词频权重对各个目标标题词语进行排序,获得标题关键词集合。
7.根据权利要求1所述的方法,其特征在于,所述从所述正文关键词集合和所述标题关键词集合中提取目标关键词,包括:
确定所述正文关键词集合中各个正文关键词的正文词频权重,以及,确定所述标题关键词集合中各个标题关键词的标题词频权重;
根据所述正文词频权重和所述标题词频权重,对所述各个正文关键词和所述各个标题关键词进行混合排序;
提取混合排序后处于目标排序区间的多个目标关键词。
8.一种关键词提取装置,其特征在于,包括:
文本采集模块,用于采集待处理的多个文本,各个文本包括正文文本和标题文本;
正文关键词集合生成模块,用于分别计算每个正文文本中各个正文词语的词频指数,基于多个正文文本中的各个目标正文词语,生成正文关键词集合;其中,所述目标正文词语为按照所述词频指数排序后在对应的正文文本的预设排序区间内的正文词语;
标题关键词集合生成模块,用于根据所述正文关键词集合,计算每个标题文本的标题权重值,基于目标标题文本中的各个标题词语,生成标题关键词集合;其中,所述目标标题文本为所述标题权重值大于预设标题权重阈值的标题文本;
关键词提取模块,用于从所述正文关键词集合和所述标题关键词集合中提取目标关键词。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述关键词提取方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述关键词提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911047440.1A CN110874530B (zh) | 2019-10-30 | 2019-10-30 | 关键词提取方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911047440.1A CN110874530B (zh) | 2019-10-30 | 2019-10-30 | 关键词提取方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110874530A true CN110874530A (zh) | 2020-03-10 |
CN110874530B CN110874530B (zh) | 2023-06-13 |
Family
ID=69717895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911047440.1A Active CN110874530B (zh) | 2019-10-30 | 2019-10-30 | 关键词提取方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110874530B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694947A (zh) * | 2020-06-15 | 2020-09-22 | 中国银行股份有限公司 | 一种文本摘要展示方法、装置、存储介质及设备 |
CN111767713A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN111881275A (zh) * | 2020-07-24 | 2020-11-03 | 新华智云科技有限公司 | 高效的热点识别及匹配方法 |
CN112307302A (zh) * | 2020-09-29 | 2021-02-02 | 青岛檬豆网络科技有限公司 | 基于关键词提取的新技术查询推荐方法 |
CN112541064A (zh) * | 2020-12-09 | 2021-03-23 | 联仁健康医疗大数据科技股份有限公司 | 健康评测方法、装置、计算机设备及存储介质 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN113821730A (zh) * | 2021-11-23 | 2021-12-21 | 北京嘉和海森健康科技有限公司 | 一种医疗信息推送方法、装置及电子设备 |
WO2022095374A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
CN116978384A (zh) * | 2023-09-25 | 2023-10-31 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
CN116992111A (zh) * | 2023-09-28 | 2023-11-03 | 中国科学技术信息研究所 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN117151083A (zh) * | 2023-10-30 | 2023-12-01 | 中教畅享(北京)科技有限公司 | 一种商品标题优化中重复率的计算方法 |
CN117171432A (zh) * | 2023-08-22 | 2023-12-05 | 广东中山网传媒信息科技有限公司 | 一种客户端app的数据推送方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577671A (zh) * | 2017-09-19 | 2018-01-12 | 中央民族大学 | 一种基于多特征融合的主题词提取方法 |
CN109710944A (zh) * | 2018-12-29 | 2019-05-03 | 新华网股份有限公司 | 热词提取方法、装置、电子设备及计算机可读存储介质 |
CN110008401A (zh) * | 2019-02-21 | 2019-07-12 | 北京达佳互联信息技术有限公司 | 关键词提取方法、关键词提取装置和计算机可读存储介质 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
-
2019
- 2019-10-30 CN CN201911047440.1A patent/CN110874530B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577671A (zh) * | 2017-09-19 | 2018-01-12 | 中央民族大学 | 一种基于多特征融合的主题词提取方法 |
CN109710944A (zh) * | 2018-12-29 | 2019-05-03 | 新华网股份有限公司 | 热词提取方法、装置、电子设备及计算机可读存储介质 |
CN110008401A (zh) * | 2019-02-21 | 2019-07-12 | 北京达佳互联信息技术有限公司 | 关键词提取方法、关键词提取装置和计算机可读存储介质 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767713A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN111767713B (zh) * | 2020-05-09 | 2023-07-21 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN111694947A (zh) * | 2020-06-15 | 2020-09-22 | 中国银行股份有限公司 | 一种文本摘要展示方法、装置、存储介质及设备 |
CN111881275A (zh) * | 2020-07-24 | 2020-11-03 | 新华智云科技有限公司 | 高效的热点识别及匹配方法 |
CN111881275B (zh) * | 2020-07-24 | 2024-02-13 | 新华智云科技有限公司 | 高效的热点识别及匹配方法 |
CN112307302A (zh) * | 2020-09-29 | 2021-02-02 | 青岛檬豆网络科技有限公司 | 基于关键词提取的新技术查询推荐方法 |
WO2022095374A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
CN112541064A (zh) * | 2020-12-09 | 2021-03-23 | 联仁健康医疗大数据科技股份有限公司 | 健康评测方法、装置、计算机设备及存储介质 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN113821730A (zh) * | 2021-11-23 | 2021-12-21 | 北京嘉和海森健康科技有限公司 | 一种医疗信息推送方法、装置及电子设备 |
CN117171432A (zh) * | 2023-08-22 | 2023-12-05 | 广东中山网传媒信息科技有限公司 | 一种客户端app的数据推送方法 |
CN117171432B (zh) * | 2023-08-22 | 2024-03-29 | 广东中山网传媒信息科技有限公司 | 一种客户端app的数据推送方法 |
CN116978384A (zh) * | 2023-09-25 | 2023-10-31 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
CN116978384B (zh) * | 2023-09-25 | 2024-01-02 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
CN116992111A (zh) * | 2023-09-28 | 2023-11-03 | 中国科学技术信息研究所 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN116992111B (zh) * | 2023-09-28 | 2023-12-26 | 中国科学技术信息研究所 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN117151083A (zh) * | 2023-10-30 | 2023-12-01 | 中教畅享(北京)科技有限公司 | 一种商品标题优化中重复率的计算方法 |
CN117151083B (zh) * | 2023-10-30 | 2024-04-19 | 中教畅享(北京)科技有限公司 | 一种商品标题优化中重复率的计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110874530B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874530B (zh) | 关键词提取方法、装置、终端设备及存储介质 | |
CN108170692B (zh) | 一种热点事件信息处理方法和装置 | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
CN110851598B (zh) | 文本分类方法、装置、终端设备及存储介质 | |
CN111460153B (zh) | 热点话题提取方法、装置、终端设备及存储介质 | |
CN110427884B (zh) | 文档篇章结构识别方法、装置、设备和存储介质 | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
CN110888981B (zh) | 基于标题的文档聚类方法、装置、终端设备及介质 | |
CN104537341A (zh) | 人脸图片信息获取方法和装置 | |
CN107463616B (zh) | 一种企业信息分析方法及系统 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN112199937B (zh) | 一种短文本相似度分析方法及其系统、计算机设备、介质 | |
CN111767713A (zh) | 关键词的提取方法、装置、电子设备及存储介质 | |
CN105512300B (zh) | 信息过滤方法及系统 | |
CN112163072A (zh) | 基于多数据源的数据处理方法以及装置 | |
CN112784062A (zh) | 一种成语知识图谱构建方法及装置 | |
CN103942274A (zh) | 一种基于lda的生物医疗图像的标注系统及方法 | |
KR101753768B1 (ko) | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 | |
CN108388556B (zh) | 同类实体的挖掘方法及系统 | |
CN112836124A (zh) | 一种画像数据获取方法、装置、电子设备及存储介质 | |
CN112733006B (zh) | 用户画像的生成方法、装置、设备及存储介质 | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 | |
CN111522938A (zh) | 一种人才业绩文档的筛选方法、装置和设备 | |
CN107577667B (zh) | 一种实体词处理方法和装置 | |
CN106777191B (zh) | 一种基于搜索引擎的检索模式生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |