CN114386393A

CN114386393A - 短文本关键词提取方法及装置

Info

Publication number: CN114386393A
Application number: CN202011107170.1A
Authority: CN
Inventors: 汪涛; 张守菊; 黄佳佳; 戴永恒; 刘学谦
Original assignee: Diankeyun Beijing Technology Co ltd
Current assignee: Diankeyun Beijing Technology Co ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-04-22

Abstract

本发明提供了一种短文本关键词提取方法及装置，其中，该方法包括：将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本；利用设定主题模型对所述长文本进行主题分类，得到主题分类数据；基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词。通过上述方案能够解决了短文本较短的问题和各领域文本差别较大所导致的数据集偏斜的问题，从而能够提高对短文本进行关键词提取的准确度。

Description

短文本关键词提取方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种短文本关键词提取方法及装置。

背景技术

近年来，微博因其平台的开放性和内容简洁性等特征而得到迅速发展，正成为人类社会中社会关系维系和信息传播的重要渠道和载体。人们可以利用微博实时分享数据，同时，由于微博内容可以通过各种通讯手段(如手机等)实时发布，所以容易在短时间内产生大量数据。但是，这些数据通常是杂乱无章的，很难及时准确地从中获取感兴趣的信息。因此，对微博文本的关键词进行提取显得格外重要。准确提取关键词，可以有效地识别出当天热点词汇以及高热度话题。

对微博文本进行关键词提取一直都是一个热点问题，但是微博文本数据本身的缺陷导致关键词的提取有一定的难度。首先，微博文本数据的噪声很大，因为微博内容书写比较随意，所以在微博中错别字、新生词、网络用语、符号语言等出现的频率比普通网络文本出现的频率要高很多。其次，一些常见的背景词汇(例如“明天”、“呵呵”等)在微博中的出现频率也极高，也会对文本挖掘任务造成了一定影响。再者，因为微博限制用户发表的博文字符数，例如不能超过140个字符，所以微博文本大部分都是发表的短文本或转发评论他人微博的短文本，而短文本对于提取关键词有很大影响。另外，转发评论他人微博的文本，不仅较短，而且多时候缺少重要信息，从而导致无法有效的识别出关键词。此外，微博文本涵盖领域丰富，同时各领域的占比相差很大，这一特点也严重影响了基于统计信息提取的关键词的准确率。

因此，对于类似于微博的具有噪声大、缺少重要信息、涵盖领域丰富但占比相差大等特点的短文本进行关键词提取的准确度亟待提高。

发明内容

有鉴于此，本发明提供了一种短文本关键词提取方法及装置，以提高短文本关键词提取的准确度。

为了达到上述目的，本发明采用以下方案实现：

根据本发明实施例的一个方面，提供了一种短文本关键词提取方法，包括：

将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本；

利用设定主题模型对所述长文本进行主题分类，得到主题分类数据；

基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词。

在一些实施例中，将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本，包括：

将待提取关键词文本和其所来源的初始文本进行拼接，得到拼接后的文本；其中，所述的与其来源相关的文本包括所述的其所来源的初始文本；

将多个拼接后的文本按设定属性进行聚合，得到长文本。

在一些实施例中，所述设定属性为作者信息。

在一些实施例中，所述设定主题模型为LDA主题模型。

在一些实施例中，基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词之前，所述的短文本关键词提取方法还包括：

确定所述设定主题模型的最优主题个数，以得到对应所述最优主题个数的所述主题分类数据。

在一些实施例中，确定所述设定主题模型的最优主题个数，以得到对应所述最优主题个数的所述主题分类数据，包括：

利用perplexity方法确定所述设定主题模型的最优主题个数，以得到对应所述最优主题个数的所述主题分类数据。

在一些实施例中，基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词，包括：

基于所述主题分类数据利用基于TFIDF改进的CTD算法计算单词重要性得分，得到所述待提取关键词文本的关键词。

在一些实施例中，基于TFIDF改进的CTD算法包含：单词在一类别中出现的次数、该单词对应该类别的逆文档频率、及该单词对应该类别的逆类别频率。

根据本发明实施例的另一个方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。

根据本发明实施例的又一个方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述方法的步骤。

本发明实施例的短文本关键词提取方法、电子设备及计算机可读存储介质，通过将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本，解决了短文本较短的问题，而且，还可以解决待提取关键词文本缺少重要信息的问题。通过对长文本进行主题分类，并基于主题分类数据提取关键词并在其中考虑类别统计信息，能够解决各领域文本差别较大所导致的数据集偏斜的问题。因此，本方案能够提高对短文本进行关键词提取的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明一实施例的短文本关键词提取方法的流程示意图；

图2是本发明一具体实施例的短文本关键词提取方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

为了现有技术中，对类似于微博的具有涵盖领域丰富但占比相差大等特点的短文本进行关键词提取所存在的难以准确提取关键词的问题，本发明实施例提供了一种短文本关键词提取方法。

需要预先说明的是，下述实施例或示例的描述或其中所提及的特征可以以相同或类似的方式，与其他实施例或示例中的特征组合，或替换其他实施例或示例中的特征，以形成可能的实施方式。另外，本文所使用的术语“包括/包含”是指特征、要素、步骤或组件的存在，但并不排除还存在一个或多个其他特征、要素、步骤或组件。

图1是本发明一实施例的短文本关键词提取方法的流程示意图。如图1所示，一些实施例的短文本关键词提取方法可包括以下步骤S110～步骤S130。

下面将对步骤S110至步骤S130的具体实施方式进行详细说明。

步骤S110：将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本。

上述步骤S110中，待提取关键词文本例如为发表的微博文本或转发评论他人微博的文本。可以先找到与其来源相关的文本，再将待提取关键词文本和与其来源相关的文本进行拼接。例如，可以通过爬虫技术找到来源相关的文本，具体地，对于爬虫的文本数据，爬虫的json串包含meta的字段，其中origin字段为true时该微博为原始微博，为false时该微博为转发微博，若微博是转发微博，那么meta字段下包含字段origin_mid，根据该字段origin_mid可得知转发微博的原始的微博文本。

通过拼接，可以将多个文本连在一起形成一个长文本。例如，可以待提取关键词文本和与其来源相关的文本按照时间顺序将微博文本首尾拼接起来。与该待提取关键词文本的来源相关的文本很有可能与该待提取关键词文本具有相同的关键信息，所以将待提取关键词文本和与其来源相关的文本拼接在一起得到的长文本，有利于解决类似于微博的文本过短的问题，而且，还可以解决待提取关键词文本缺少重要信息的问题。

与该待提取关键词文本的来源相关的文本，可以包括该待提取关键词文本所来源的文本，例如，对于待提取关键词的转发评论他人微博的文本，其所来源的文本可以是其所转发评论的他人的微博的原始文本。若将转发评论他人微博的文本和其所转发评论的他人的微博的原始文本拼接起来，可以解决转发评论他人微博的文本缺少其所转发评论的他人的微博的原始文本中某些重要信息的问题。另外，与该待提取关键词文本的来源相关的文本，可以包括具有同一属性的多个文本，例如，作者、ID等。

具体实施时，上述步骤S110，即，将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本，具体可包括步骤：

S111，将待提取关键词文本和其所来源的初始文本进行拼接，得到拼接后的文本；其中，所述的与其来源相关的文本包括所述的其所来源的初始文本；

S112，将多个拼接后的文本按设定属性进行聚合，得到长文本。

其中，例如，对于微博文本本身，可以直接按设定属性聚合；对于转发的微博，可以先找到该转发的微博的初始微博，进行拼接(或称为聚合)，再按设定属性聚合。从而得到微博长文本。

上述步骤S112中，例如，所述设定属性可以为作者信息。在此情况下，上述步骤S112，具体地，可包括：将多个拼接后的文本按作者信息进行聚合，得到长文本。例如，基于作者按照时间顺序将多个微博文本首尾拼接起来。

该实施例中，通过拼接和聚合，能够解决短文本过短的问题，对于转发评论的他人微博的文本，还能解决信息缺失的问题。

另外，在上述步骤S110之前或之后，可以对拼接或聚合之前或之后的文本进行预处理，如去停用词、特殊符号等。

步骤S120：利用设定主题模型对所述长文本进行主题分类，得到主题分类数据。

上述步骤S120中，所述设定主题模型例如可以为LDA(Latent DirichletAllocation，潜在狄利克雷分布)主题模型。在此情况下，上述步骤S120，具体地，可包括：利用LDA主题模型对所述长文本进行主题分类，得到主题分类数据。在其他实施例中，不排除可以利用其他主题模型对长文本进行主题分类。

在一些实施例中，可以评估主题模型的分类效果，例如可以优化LDA主题模型的分类的主题个数。示例性地，在继续执行后续步骤之前，如步骤S130之前，图1所示方法，还可包括步骤：S140，确定所述设定主题模型的最优主题个数，以得到对应所述最优主题个数的所述主题分类数据。该实施例中，通过优化分类的主题个数，可以使得主题分类结果更准确，进而可使关键词提取结果更准确。

上述步骤S140中，可以利用各种可行的算法优化主题个数，例如，可以利用perplexity(困惑度)方法进行优化。在此情况下，上述步骤S140具体可包括步骤：利用perplexity方法确定所述设定主题模型的最优主题个数，以得到对应所述最优主题个数的所述主题分类数据。

在信息论中，perplexity(困惑度)可以用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。在自然语言处理中，困惑度可以用来衡量语言概率模型优劣的一个方法。一个语言概率模型可以看成是在整过句子或者文段上的概率分布。

其中，∑log(p(w_d))是对所有单词w_d取log(直接相乘一般都转化成指数和对数的计算形式)，N_d是文本集的单词数量(不排重)。

步骤S130：基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词。

其中，基于所述主题分类数据计算得到考虑类别统计信息的单词重要性得分后，可以将得分最高的单词作为提取到的关键词，可以认为是待提取关键词文本的关键词。

数据集(如微博文本集)关于类别的分布往往是偏斜(Skewed)的，即，不同类别的文档数可能存在数量级的差距，这将严重影响TFIDF(Term Frequency-Inverse DocumentFrequency,词频-逆文件频率)的权重计算结果。因为IDF(逆文件频率)在计算特征项权重时是以文档集中总的文档数为基准,当文档集中各类文档数目不均衡,例如，某类文档相对较少时，IDF基本不起抑制作用。因此，TFIDF不能折中TF和IDF两者的结果，该特征项权重只是一味的依赖于文档频率TF，最终导致该特征项的权重偏高。

上述步骤S130中，主题分类数据可以包含文本所属类别的信息，在提取关键词的过程中，计算对文本中的单词计算重要性得分时，通过考虑类别统计信息，可以考虑到单词所述类别的影响因素，以此，可以解决类别差异较大情况下，基于对所有文本的统计计算单词重要性得分，导致数据集偏斜的问题。因此，以此可使单词重要性得分的计算结果更准确，从而根据单词重要性得分得到的关键词可以更准确。

具体实施例，可以根据现有的单词重要性得分计算方法(如TFIDF，词频-逆文件频率)和类别区分词方法结合得到的方法(如CTD，Category Term Descriptor)进行关键词提取，以考虑类别统计信息。

示例性地，上述步骤S130，即，基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词，具体可包括步骤：基于所述主题分类数据利用基于TFIDF改进的CTD算法计算单词重要性得分，得到所述待提取关键词文本的关键词。

更具体地，例如，上述基于TFIDF改进的CTD算法可包含：单词在一类别中出现的次数、该单词对应该类别的逆文档频率、及该单词对应该类别的逆类别频率。其中，该单词对应该类别的逆文档频率可等于文档总数和出现该单词(或称为特征项)的文档的数量的比值，该单词对应该类别的逆类别频率可等于类别总数和出现该单词的类别的数量的比值。

例如，基于TFIDF改进的CTD算法，得到的特征项(或称单词)t_j在第k个类别c_k下的单词重要性得分CTD(t_j,c_k)的计算公式可表示为：

其中，TF(t_j,c_k)表示特征项t_j在第k类c_k中出现的次数；D(c_k)表示第k类c_k中的文档数；DF(t_j,c_k)表示第k类c_k中出现特征项t_j文档数；C表示类别总数；CF(t_j,c_k)表示出现特征项t_j的类别数。

上述实施例的短文本关键词提取方法，通过将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本，解决了短文本较短的问题，而且，还可以解决待提取关键词文本缺少重要信息的问题。通过对长文本进行主题分类，并基于主题分类数据提取关键词并在其中考虑类别统计信息，能够解决各领域文本差别较大所导致的数据集偏斜的问题。因此，本方案能够提高对短文本进行关键词提取的准确度。

基于与图1所示的短文本关键词提取方法相同的发明构思，本发明实施例还提供了装置，如下面实施例所述。由于该装置解决问题的原理与上述方法相似，因此该装置的实施可以参见上述方法实施，而且，该装置与上述方法可以达到相同的效果，重复之处不再赘述。

具体地，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。

另外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述方法的步骤。

为使本领域技术人员更容易地了解本发明，下面将以具体实施例说明本发明的实施方式。

图2是本发明一具体实施例的短文本关键词提取方法的流程示意图。参见图2，以微博文本为例，针对微博文本短，涵盖领域丰富同时各领域的占比相差很大，严重影响基于统计信息的关键词提取的准确率的问题，本具体实施例的提取关键词的方法可包括以下步骤：

步骤S210：对微博文本数据进行清洗，去掉停用词以及特殊符号；

步骤S220：对转发的微博文本，找到转发的微博文本的起始的微博文本并将其与当前转发的微博文本进行拼接或聚合，得到微博长文本；

基于微博转发数据与最初微博的拼接，获得文本较长、信息完整的初始数据集，所以以此可以解决转发微博文本过短，缺少重要信息的问题。

步骤S230：对于微博文本直接基于作者进行聚合，得到微博长文本；根对据转发的微博文本得到的微博长文本基于作者进行聚合；

以此，可以解决微博文本过短的问题。

步骤S240：基于LDA主题模型对聚合后的微博长文本数据进行主题分类，并采用perplexity方法确定最优的主题个数；

步骤S250：基于分类后的微博长文本数据，采用基于TFIDF算法改进后的CTD算法提取关键字。

例如，基于TFIDF算法改进后的CTD算法可以表示为：

其中，TF(t_j,c_k)表示特征项t_j在第k类c_k中出现的次数；D(c_k)表示第k类c_k中的文档数；DF(t_j,c_k)表示第k类c_k中出现特征项t_j文档数；C表示类别总数；CF(t_j,c_k)表示出现特征项t_j的类别数。在实施例中，上式中的特征项可指的关键词，而类别c_k可以是LDA主题模型分类后得到的类别。

在此情况下，上述步骤S240中，根据LDA主题分类之后的数据带入到CTD算法中进行计算，具体可包括：

(1)对于每一个词t_j，查找它所在的文档都属于哪一类别，即c_k；

(2)对于词所在的每一个c_k：首先，计算TF(t_j,c_k)，即在类别c_k中单词t_j出现的次数；其次，计算类别c_k中包含的总文档数；再次，计算类别c_k中包含t_j的文档数；再次，计算所有的类数C与包含单词t_j的类别数CF(t_j,c_k)；

(3)将计算后的数值带入到CTD算法(上式)中，得出该单词的重要性得分，最终得到关键词。

本实施例中，对于微博文本较短、转发微博缺失重要信息的问题，基于微博转发数据与最初微博的拼接，对微博数据按作者聚合；针对TFIDF对各类文本比重不同的提取效果差的缺点，采取先用LDA主题模型进行分类，然后对于分类后的数据，使用基于TFIDF算法改进后的CTD算法进行关键词提取。利用CTD来改进TFIDF，或者说，利用TFIDF来改进CTD，可以弥补类别数据集偏斜带来的困扰，可以有效提取出微博文本数据的关键词，帮助人们快速发现微博的热点问题。因此，通过对微博数据进行聚合，然后再用LDA主题模型对于微博数据文本进行分类，从而解决数据集偏斜的问题，最后基于改进的CTD算法对微博文本数据的关键词完成提取。

综上所述，本发明实施例的短文本关键词提取方法、电子设备及计算机可读存储介质，通过将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本，解决了短文本较短的问题，而且，还可以解决待提取关键词文本缺少重要信息的问题。通过对长文本进行主题分类，并基于主题分类数据提取关键词并在其中考虑类别统计信息，能够解决各领域文本差别较大所导致的数据集偏斜的问题。因此，本方案能够提高对短文本进行关键词提取的准确度。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种短文本关键词提取方法，其特征在于，包括：

2.如权利要求1所述的短文本关键词提取方法，其特征在于，将待提取关键词文本和与其来源相关的文本进行拼接，得到长文本，包括：

将多个拼接后的文本按设定属性进行聚合，得到长文本。

3.如权利要求2所述的短文本关键词提取方法，其特征在于，所述设定属性为作者信息。

4.如权利要求1所述的短文本关键词提取方法，其特征在于，所述设定主题模型为LDA主题模型。

5.如权利要求1或4所述的短文本关键词提取方法，其特征在于，基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词之前，还包括：

6.如权利要求5所述的短文本关键词提取方法，其特征在于，确定所述设定主题模型的最优主题个数，以得到对应所述最优主题个数的所述主题分类数据，包括：

7.如权利要求1至4任一项所述的短文本关键词提取方法，其特征在于，基于所述主题分类数据计算考虑类别统计信息的单词重要性得分，得到所述待提取关键词文本的关键词，包括：

8.如权利要求7所述的短文本关键词提取方法，其特征在于，基于TFIDF改进的CTD算法包含：单词在一类别中出现的次数、该单词对应该类别的逆文档频率、及该单词对应该类别的逆类别频率。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。