CN114580386A

CN114580386A - 一种提取主题词的方法及装置

Info

Publication number: CN114580386A
Application number: CN202011388382.1A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-06-03

Abstract

本申请的实施例提供了一种提取主题词的方法及装置。该提取主题词的方法包括：获取待处理文章；从所述待处理文章中检测出关键词，并基于所述关键词在所述待处理文章中出现的频率，从所述关键词中确定代表所述待处理文章的文本特征的文本词条；基于用户对所述待处理文章的历史查询记录，从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条；基于所述查询词条的热度、以及各所述查询词条之间的相关性，从所述查询词条中选取出既能表示文章属性又能表示用户的搜索意图的主题词。本申请实施例的技术方案提高了主题词对于待处理文章的概括性，以及主题词确定的全面性，进而为之后的文章推广和处理提供了一定的数据基础。

Description

一种提取主题词的方法及装置

技术领域

本申请涉及计算机及通信技术领域，具体而言，涉及一种提取主题词的方法及装置。

背景技术

在当前内容运营越来越重要的情况下，很多文章推荐平台中存储有各种类型的文章以供用户阅读。但是当文章种类繁多、且包含的专业多种多样的情况下，很难对文章进行高效的管理或者推广。相关技术中通过让作者本人自己设定主题词的方式来对文章做以标签处理，或者平台中设定一些固定的标签来供作者选择，以得到表示文章内容的主题词。通过这些方式得到的文章主题词往往比较死板和固定，使得最后生成的文章标签不能客观、全面的表示文章的内容，进而影响到文章的推广效率以及用户的查询效率。

发明内容

本申请的实施例提供了一种提取主题词的方法及装置，进而至少在一定程度上可以提高了主题词对于待处理文章的概括性，以及主题词确定的全面性，进而为之后的文章推广和处理提供了一定的数据基础。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种提取主题词的方法，包括：获取待处理文章；从所述待处理文章中检测出关键词，并基于所述关键词在所述待处理文章中出现的频率，从所述关键词中确定代表所述待处理文章的文本特征的文本词条；基于用户对所述待处理文章的历史查询记录，从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条；基于所述查询词条的热度、以及各所述查询词条之间的相关性，从所述查询词条中选取所述待处理文章对应的主题词。

根据本申请实施例的一个方面，提供了一种提取主题词的装置，包括：获取单元，用于获取待处理文章；第一选取单元，用于从所述待处理文章中检测出关键词，并基于所述关键词在所述待处理文章中出现的频率，从所述关键词中确定代表所述待处理文章的文本特征的文本词条；第二选取单元，用于基于用户对所述待处理文章的历史查询记录，从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条；第三选取单元，用于基于所述查询词条的热度、以及各所述查询词条之间的相关性，从所述查询词条中选取所述待处理文章对应的主题词。

在本申请的一些实施例中，基于前述方案，所述第一选取单元包括：检测单元，用于检测所述待处理文章中包含所述关键词的目标文章，并确定所述目标文章的数目；确定单元，用于基于所述待处理文章的总数目与所述目标文章的数目之间的比值，确定表示所述关键词与所述待处理文章之间关联程度的逆向文件频率；第四选取单元，用于基于各所述关键词对应的逆向文件频率和所述关键词在所述待处理文章中出现的频率，从所述关键词中选取代表所述待处理文章的文本特征的文本词条。

在本申请的一些实施例中，基于前述方案，所述确定单元用于：第一计算单元，用于基于所述待处理文章的总数目与所述目标文章的数目，计算所述待处理文章的总数目与所述目标文章的数目之间的比值；第二计算单元，用于计算所述比值对应的对数值，将所述对数值作为表示所述关键词与所述待处理文章之间关联程度的逆向文件频率。

在本申请的一些实施例中，基于前述方案，所述第二选取单元配置为：基于所述文本词条和所述历史查询记录，确定所述历史查询记录对应的文本词条；将所述历史查询记录对应的文本词条进行组合，生成搜索词条组合；通过正向最大匹配算法，从所述搜索词条组合中选取出用于表示用户查询目的的查询词条。

在本申请的一些实施例中，基于前述方案，所述第三选取单元包括：相关性单元，用于基于两个查询词条在所述历史查询记录中出现的次数，确定所述两个查询词条之间的相关性；第三计算单元，用于基于相邻时段内所述查询词条在所述历史查询记录中出现的次数，计算表示所述查询词条的搜索频率变化幅度的卡方值，作为所述查询词条的热度；第四计算单元，用于基于所述查询词条的热度和所述相关性之间的加权和，确定所述查询词条的搜索价值度；第五选取单元，用于基于所述搜索价值度，从所述查询词条中选取所述待处理文章对应的主题词。

在本申请的一些实施例中，基于前述方案，所述两个查询词条包括第一查询词条和第二查询词条；所述相关性单元配置为：从所述历史查询记录中确定所述第一查询词条单独出现的第一次数、所述第二查询词条单独出现的第二次数、以及所述两个查询词条同时出现的第三次数；计算所述第三次数与所述历史查询记录中的词条数目之间的第一乘积，并计算所述第一次数与所述第二次数之间的第二乘积；基于所述第一乘积与所述第二乘积之间的比值，确定所述两个查询词条之间的相关系数，所述相关系数用于表示所述两个查询词条之间的相关性。

在本申请的一些实施例中，基于前述方案，所述第三计算单元配置为：在所述历史查询记录中，统计在所述相邻时段内所述查询词条分别对应的出现次数和未出现次数；基于所述查询词条在所述相邻时段分别对应的出现次数和未出现次数之间的比值，确定所述卡方值，作为所述查询词条的热度。

在本申请的一些实施例中，基于前述方案，所述提取主题词的装置还用于：基于所述主题词生成话题标签；将所述话题标签与所述待处理文章对应的账户信息关联存储；在检测到所述账户信息对应的用户发布文章时，从与所述账户信息关联存储的话题标签中，选取所述文章对应的话题标签。

在本申请的一些实施例中，基于前述方案，所述提取主题词的装置还用于：基于所述账户信息关联存储的话题标签，生成账户标签；通过所述账户标签标注所述账户信息对应的用户。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的提取主题词的方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的提取主题词的方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的提取主题词的方法。

在本申请的一些实施例所提供的技术方案中，通过根据待处理文章中的内容确定关键词，并结合用户的历史查询记录，挖掘出具有搜索价值的查询词条，之后基于各个查询词条之间的热度和相关性确定了待处理文章对应的主题词，使得最后得到的主题词既能表示文章属性又能表示用户的搜索意图，提高了主题词对于待处理文章的概括性，以及主题词确定的全面性，进而为之后的文章推广和处理提供了一定的数据基础。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本申请的一个实施例的提取主题词的方法的流程图；

图3示意性示出了根据本申请的一个实施例的从关键词中选取文本词条的流程图；

图4示意性示出了根据本申请的一个实施例的从历史查询记录中选取查询词条的流程图；

图5示意性示出了根据本申请的一个实施例的从查询词条中选取主题词的流程图；

图6示意性示出了根据本申请的一个实施例的生成话题标签的流程图；

图7示意性示出了根据本申请的一个实施例的生成话题标签的界面示意图；

图8示意性示出了根据本申请的一个实施例的基于话题标签调取推广文章的界面示意图；

图9示意性示出了根据本申请的一个实施例的提取主题词的装置的框图；

图10示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例中通过基于人工智能的自然语言处理方式，可以从待处理文章中提取出关键词来，以保证待处理文章中关键词提取的精确性和全面性。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术，具体通过如下实施例进行说明：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备通过网络104与服务器105交互，以接收或发送消息等。服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传了待处理文章。服务器105通过获取待处理文章，从待处理文章中检测出关键词，并基于待处理文章的总数目、以及包含关键词的待处理文章的数目之间的比值，从关键词中确定代表待处理文章的文本特征的文本词条；基于用户对待处理文章的历史查询记录，从历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条；基于查询词条的热度、以及各查询词条之间的相关性，从查询词条中选取待处理文章对应的主题词。

上述方案，通过先基于获取到的待处理文章检测出其中的关键词，之后基于关键词在待处理文章中的数目以及待处理文章的总数目之间的比值，从关键词中确定代表待处理文章的文本特征的文本词条，之后确定历史查询记录对应的目标文本词条中选取出表示用户查询目的的查询词条，最后基于查询词条的热度、以及各查询词条之间的相关性，从查询词条中选取出待处理文章对应的主题词。上述方式通过根据待处理文章中的内容确定关键词，并结合用户的历史查询记录，挖掘出具有搜索价值的查询词条，之后基于各个查询词条之间的热度和相关性确定了待处理文章对应的主题词，提高了主题词对于待处理文章的概括性，以及主题词确定的全面性，进而为之后的文章推广和处理提供了一定的数据基础。

需要说明的是，本申请实施例所提供的提取主题词的方法一般由服务器105执行，相应地，提取主题词的装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的提取主题词的方法。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的提取主题词的方法的流程图，该提取主题词的方法可以由服务器来执行，该服务器可以是图1中所示的服务器。参照图2所示，该提取主题词的方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，获取待处理文章。

在本申请的一个实施例中，在实际应用中，用户通常会通过自己的账号来发布文章、文本内容等信息。这种情况下需要给用户发布的文本确定对应的主题词，以便于文本分类、打标签或者便于其它的用户查找和阅读。因此，本实施例中通过获取用户的待处理文章，以对待处理文章进行对应的主题词处理。

需要说明的是，本实施例中待处理文章可以为一个、两个或者两个以上等等，待处理文可以属于同一个作者、也可以属于不同的作者。

本实施例中获取的待处理文章可以为已经发表的历史文章，这些历史文章通过文章列表的方式存储在数据库中；也可以为还未发表的待发表文章。

在步骤S220中，从待处理文章中检测出关键词，并从待处理文章中检测出关键词，并基于关键词在待处理文章中出现的频率，从关键词中确定代表待处理文章的文本特征的文本词条。

在本申请的一个实施例中，在获取到待处理文章之后，检测其中的关键词，并确定包含该关键词的待处理文章的数目，通过计算待处理文章的总数目以及包含关键词的待处理文章的数据之间的比值，将比值与和关键词在待处理文章中出现的频率之间的乘积较高时，对应的关键词作为待处理文章的文本特征的文本词条。

需要说明的是，本申请实施例确定的文本词条用于表示待处理文章中的文本特征，其具体表示的待处理文章在字面意思上的文本属性、文本内容、或者主题等属性。

具体的，本实施例中确定关键词的方式可以是通过文本词库的方式来检测其中的关键词。其中，关键词可以是一个单独的词，也可以是多个关键词构成的短语。

本实施例中确定文本词条的方式可以为，预先设定一个比值阈值，通过该阈值来衡量比值的大小，当比值大于或者等于该比值阈值时，则判定当前的关键词为代表待处理文章的文本特征的文本词条。本实施例中的文本词条为至少两个，以从文本词条中选取处对应的主题词。

在步骤S230中，基于用户对待处理文章的历史查询记录，从历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条。

在本申请的一个实施例中，通过获取用户对待处理文章的历史查询记录，以确定用户的查询倾向。之后，确定历史查询记录中包含的文本词条，并从这些文本词条中确定表示用户查询目的的查询词条。

具体的，本实施例中表示用户查询目的的查新词条用于表示具有搜索价值的词条。由于在实际应用中，用户输入的搜索词条往往存在一些搜索垃圾等冗余词条，因此需要通过上述方式来选取具有搜索价值的词条。本实施例选取查询词条的方式可以是通过词条统计的方式来从历史查询记录对应的文本词条中选取出来。也可以通过确定历史查询记录中各个词条的出现的次数，根据出现的系数确定其对应的搜索价值参数，之后基于搜索价值参数从文本词条中选取查询词条。

需要说明的是，本申请实施例的查询词条用于表示用户在搜索文章时输入的、具有代表性的词条，其主要代表的是用户主观的查询意图、对文章的总结概括词条，更多体现的是用户对文章的主观概念。

在步骤S240中，基于查询词条的热度、以及各查询词条之间的相关性，从查询词条中选取待处理文章对应的主题词。

在本申请的一个实施例中，在确定了查询词条之后，基于查询词条的热度，以及各个查询词条之间的相关性，确定相关性较强、热度较高的查询词条为待处理文章对应的主题词。通过上述方式选取的主题词即可以代表文本内容，又可以代表搜索用户在查询文章时输入的用户偏好，能更加全面、精确的确定待处理文章对应的主题词。

具体的，本实施例中的热度可以通过单位时间内查询词条出现频率来衡量，或者通过最近一段时间内查询词条出现频率来衡量等等。

需要说明的是，本实施例中在确定了查询词条之后，综合查询词条的热度以及查询词条之间的相关性，从查询词条中所选取出的主题词用于综合表示待处理文章的各个属性，其中既包括了待处理文章的文章内容属性，又包括了用户的主观查询意图，同时还体现出了各个词条的热度以及词条之间的相关性。通过上述方式得到的主题词，能更加全面、精确的代表待处理文章的主题，便于用户基于主题词对待处理文章进行更加精确的搜索和管理。

在本申请的一个实施例中，如图3所示，步骤S220中从待处理文章中检测出关键词，并基于关键词在待处理文章中出现的频率，从关键词中确定代表待处理文章的文本特征的文本词条的过程，包括步骤S2210～S2230，详细说明如下：

在步骤S2210中，检测待处理文章中包含关键词的目标文章，并确定目标文章的数目；

在步骤S2220中，基于待处理文章的总数目与目标文章的数目之间的比值，确定表示关键词与待处理文章之间关联程度的逆向文件频率；

在步骤S2230中，基于各关键词对应的逆向文件频率和关键词在待处理文章中出现的频率，从关键词中选取代表待处理文章的文本特征的文本词条。

在本申请的一个实施例中，通过在待处理文章中检测包含关键词的目标文章，以确定目标文章的数目，之后基于待处理文章的总数目与目标文章的数目之间的比值，确定表示关键词与待处理文章之间关联程度的逆向文件频率，最后通过逆向文件匹配，确定关键词中代表待处理文章的文本特征的文本词条。

本实施例中的逆向文件频率用于表示一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

在本申请的一个实施例中，步骤S2220中基于待处理文章的总数目与目标文章的数目之间的比值，确定表示关键词与待处理文章之间关联程度的逆向文件频率的过程，具体包括：基于待处理文章的总数目与目标文章的数目，计算待处理文章的总数目与目标文章的数目之间的比值；计算比值对应的对数值，将对数值作为表示关键词与待处理文章之间关联程度的逆向文件频率。

在本申请的一个实施例中，词频-逆向文件频率(Term Frequency-InverseDocument Frequency，TF-IDF)用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。其中，TF表示词条在文档d中出现的频率。TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

在本申请的一个实施例中，如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来做为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化，以防止它偏向长的文件。

本实施例中同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。对于在某一特定文件里的词语来说，它的重要性可表示为：

以上式子中是该关键词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。对于某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

其中，|D|用于表示语料库中的文件总数，此处为公众号平台全部文章总数。

在计算得到idf_i之后，将idf_i与表示词条在文档中出现的频率TF进行相乘得到的乘积，作为衡量参数。之后基于该衡量参数，从关键词中选取数值较大时的词条作为代表待处理文章的文本特征的文本词条。

在本申请的一个实施例中，如图4所示，步骤S230中基于用户对待处理文章的历史查询记录，从历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条的过程具体包括步骤S2310～S2330，详细说明如下：

步骤S2310，基于文本词条和历史查询记录，确定历史查询记录对应的文本词条；

步骤S2320，将历史查询记录对应的文本词条进行组合，生成搜索词条组合；

步骤S2330，通过正向最大匹配算法，从搜索词条组合中选取出用于表示用户查询目的的查询词条。

在本申请的一个实施例中，基于中统计出的关键词，为了从中挖掘出更有搜索意义的查询词条，本申请使用即时通信中的搜一搜功能，来对已有的历史查询记录进行进一步提取挖掘。

示例性的，假设某篇公众号文章通过上述关键词提取步骤得到的关键词所构成的集合为M＝{A、B、C、D、E、F}，根据搜索日志匹配出候选关键词中潜在的更多复合型可搜索查询词条的具体挖掘步骤如下：筛选出所有搜索次数大于特定阈值K的搜索日志，如下：{AB}；{A B C}；{A B C G}；{D E}，即搜索词条组合。最后根据正向最大匹配算法，找出上述搜索词条组合M中所有相当搜索次数的查询词条。

具体的，本实施例中正向最大匹配算法运行过程中，从左到右将M中候选关键词与历史查询记录中的查询词语匹配，如果匹配上，则找出一个查询词条。但这里有一个问题：要做到最大匹配，并不是第一次匹配到就可以切分的。

示例性的，本实施例中的搜索词条组合为：sentence[]＝{"计"，"算"，"语"，"言"，"学"，"课"，"程"，"有"，"意"，"思"}，其中预先设定好的分词词表为：dict[]＝{"计算","计算语言学","课程","有","意思"}。

在基于最大匹配方法确定查询词条时，先从sentence[1]开始，当扫描到sentence[2]的时候，发现"计算"已经在词表dict[]中了。但还不能切分出来，因为我们不知道后面的词语能不能组成更长的词，即最大匹配；之后继续扫描content[3]，发现"计算语"并不是dict[]中的词，但是我们还不能确定是否前面找到的"计算语"已经是最大的词了，因为"计算语"是dict[2]的前缀；扫描content[4]，发现"计算语言"并不是dict[]中的词。但是是dict[2]的前缀；继续扫描content[5]，发现"计算语言学"是dict[]中的词；继续扫描content[6]的时候，发现"计算语言学课"并不是词表中的词，也不是词的前缀。因此可以切分出前面最大的查询词条词，即"计算语言学"。由此可见，最大匹配出的查询词条必须保证下一个扫描不是词表中的词或词的前缀才可以结束。

在本申请的一个实施例中，如图5所示，步骤S240基于查询词条的热度、以及各查询词条之间的相关性，从查询词条中选取待处理文章对应的主题词的过程具体包括步骤S2410～S2440：

步骤S2410，基于两个查询词条在历史查询记录中出现的次数，确定两个查询词条之间的相关性；

步骤S2420，基于相邻时段内查询词条在历史查询记录中出现的次数，计算表示查询词条的搜索频率变化幅度的卡方值，作为查询词条的热度；

步骤S2430，基于查询词条的热度和相关性之间的加权和，确定查询词条的搜索价值度；

步骤S2440，基于搜索价值度，从查询词条中选取待处理文章对应的主题词。

在本申请的一个实施例中，将上述步骤中得到的查询词条作为候选Hashtag，对于候选Hashtag中到底哪些可以作为最终挖掘出的搜索串推荐给用户选择，本申请实施例采用的是基于不同候选串中两个词之间的共现熵(Pointwise Mutual Information，PMI)值来衡量其之间的共现度，对于PMI值高的候选串，则认为其经常在历史查询记录中共现，即很多输入前一个词的查询词条，会接下来也输入后一个词作为一个完整的查询词条搜索。另外为了从候选Hashtag中挖掘出更热门的查询词条，本申请实施例还会引入另一个衡量查询词条热度的因子Freshness，故该打分公式可写为：

Score(Hashtag)＝alpha*PMI(Hashtag)+beta*Freshness(Hashtag)

其中，由于PMI和Freshness这两个因子可能并完全是衡量一个查询词条是否为更有价值推荐的搜索词的全部因子，故本申请实施例中alpha和beta两个参数都为自由参数，二者并无一定加起来为1的要求。

需要说明的是，本实施例中基于共现熵和热度来计算每个查询词条(即候选Hashtag)对应的价值度，即Score(Hashtag)，以基于价值度衡量每个查询词条作为主题词的代表性。进而基于最后得到的价值度，来从候选Hashtag中选取最终的主题词。

在本申请的一个实施例中，两个查询词条包括第一查询词条和第二查询词条；步骤S2410中基于两个查询词条在历史查询记录中出现的次数，确定两个查询词条之间的相关性的过程，具体包括：

从历史查询记录中确定第一查询词条单独出现的第一次数、第二查询词条单独出现的第二次数、以及两个查询词条同时出现的第三次数；

计算第三次数与历史查询记录中的词条数目之间的第一乘积，并计算第一次数与第二次数之间的第二乘积；

基于第一乘积与第二乘积之间的比值，确定两个查询词条之间的相关系数，相关系数用于表示两个查询词条之间的相关性。

在本申请的一个实施例中，通过PMI来衡量两个查询词条之间的相关性，具体公式如下：

其中，x、y分别表示两个查询词条分别出现的次数。

在本实施例中如果x跟y不相关，则p(x,y)＝p(x)p(y)。若二者相关性越大，则p(x,y)就相比于p(x)p(y)越大。在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x)，自然就表示x跟y的相关程度。

示例性的，在本申请实施例中x和y分别代表候选搜索串中两两不同的词。以“梁颂恒”和“立法会”为例，如在所有搜索日志中“梁颂恒”和“立法会”一同出现在了5000条查询词条中，其中“梁颂恒”作为独立查询词条单独出现了6000次，“立法会”单独作为查询词条出现了1000次。则假定我们总共有N个独立的查询词条词，那么“梁颂恒”和“立法会”这个两个词的互信息即为：

通过以上公式便可以确定两个查询词条之间的相关性，以通过相关性来表示这两个查询词条之间的关联程度。

在本申请的一个实施例中，步骤S2420中基于相邻时段内查询词条在历史查询记录中出现的次数，计算表示查询词条的搜索频率变化幅度的卡方值，作为查询词条的热度的过程具体包括：在历史查询记录中，统计在相邻时段内查询词条分别对应的出现次数和未出现次数；基于查询词条在相邻时段分别对应的出现次数和未出现次数之间的比值，确定卡方值，作为查询词条的热度。

在本申请的一个实施例中，本申请实施例采用基于卡方校验值作为热度值，来衡量同一个查询词条在两个不同时间窗口(如统计同一个查询词条在不同两天内的搜索次数)下搜索次数的变化趋势，如果该值较大，则说明该查询词条在改天突然有一个搜索次数上升的陡变，即其热度再增强，即freshness值较高。

具体的计算卡方校验值的方法如表1所示：

	查询率出现	查询率没出现	合计
				t<sub>0</sub>时间段	a	b	a+b
t<sub>1</sub>时间段	c	d	c+d
				合计	a+c	b+d	a+c+b+d

表1

在上述表1中，通过统计相邻两个时间段(t0和t1)命中当前查询词条的搜索次数，构建卡方计算四方格，进而得到卡方值即可检验出当前时间段是否突然出现爆发式波动。基于表1得到的卡方值为：

通过基于上述公式来检测两个时间段的样本是否有变化显著性，此我们认为不同时间段样本，即Ti时刻和Ti+1时刻中，如果查询词条的搜索数量有明显的陡增或陡降则从此Ti+1时刻开始该查询词条可能热度值较高。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

在本申请的一个实施例中，基于查询词条的热度、以及各查询词条之间的相关性，从查询词条中选取待处理文章对应的主题词之后，还包括如下步骤S610～步骤S630：

步骤S610，基于主题词生成话题标签；

步骤S620，将话题标签与待处理文章对应的账户信息关联存储；

步骤S630，在检测到账户信息对应的用户发布文章时，从与账户信息关联存储的话题标签中，选取文章对应的话题标签。

如图7所示，在本申请的一个实施例中，在生成待处理文章对应的主题词之后，基于主题词生成话题标签。例如可以通过设定的符号来表示话题标签，例如#的标识符号，其中，话题标签可以为图7中的：网络推广、SEO优化、软文营销以及增粉攻略等等。在生成话题标签之后，将话题标签与待处理文章对应的账户信息关联存储；以在检测到账户信息对应的用户发布文章时，从与账户信息关联存储的话题标签中，选取文章对应的话题标签。通过上述给文章加话题标签的方式可以提高文章的分类效率和检索效率，并能基于上述话题标签将给文章添加标识，以基于该标识将该文章推送至对应的用户。

在本申请一实施例中，上述提取主题词的方式可以用于公众号的文章中。例如，对于属于一个公众号公开的文章，从这些文章中提取出对应的主题词，以通过这些主题词来对该公众号实现标签化，还可以使得用户可以直接基于这些主题词来搜索和查询该公众号中的文章。除此之外，本申请实施例中的上述方案还可以用于网络博主发布的内容，例如网络文章或者短片内容等等。

除此之外，上述主题词提取方式还可以针对各个平台中各个用户发布的内容。其中，内容的数据形式可以为文章、图像、音频或者视频等等，在对其处理过程中，通过将这些数据先转换为同一的格式，例如文字文本的格式，再针对文字文本进行主题词的提取，以实现对用户内容的主题词提取，便于其余用于基于该用户发布的内容对应的主题词，直接调取出主题词对应的内容，提高内容搜索和调取的效率。

如图8所示，本实施例中可以基于图7中的话题标签来从中选择一个目标标签，例如通过点击的方式来选择一个标签作为目标标签。图8中选取的目标标签为网络推广。在选取得到目标标签之后，便可以在文章库中调取得到该目标标签对应的文章。通过这种方式可以提高用户的查询效率，同时提高文章的推广效率。

在本申请的一个实施例中，还可以基于账户信息关联存储的话题标签，生成账户标签；通过账户标签标注账户信息对应的用户。以基于该账户标签来管理系统中的注册用户账户，提高用户账户的管理效率。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的提取主题词的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的提取主题词的方法的实施例。

图9示出了根据本申请的一个实施例的提取主题词的装置的框图。

参照图9所示，根据本申请的一个实施例的提取主题词的装置900，包括：获取单元910，用于获取待处理文章；第一选取单元920，用于从所述待处理文章中检测出关键词，并基于所述关键词在所述待处理文章中出现的频率，从所述关键词中确定代表所述待处理文章的文本特征的文本词条；第二选取单元930，用于基于用户对所述待处理文章的历史查询记录，从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条；第三选取单元940，用于基于所述查询词条的热度、以及各所述查询词条之间的相关性，从所述查询词条中选取所述待处理文章对应的主题词。

在本申请的一些实施例中，基于前述方案，所述第一选取单元920包括：检测单元，用于检测所述待处理文章中包含所述关键词的目标文章，并确定所述目标文章的数目；确定单元，用于基于所述待处理文章的总数目与所述目标文章的数目之间的比值，确定表示所述关键词与所述待处理文章之间关联程度的逆向文件频率；第四选取单元，用于基于各所述关键词对应的逆向文件频率和所述关键词在所述待处理文章中出现的频率，从所述关键词中选取代表所述待处理文章的文本特征的文本词条。

在本申请的一些实施例中，基于前述方案，所述第二选取单元930配置为：基于所述文本词条和所述历史查询记录，确定所述历史查询记录对应的文本词条；将所述历史查询记录对应的文本词条进行组合，生成搜索词条组合；通过正向最大匹配算法，从所述搜索词条组合中选取出用于表示用户查询目的的查询词条。

在本申请的一些实施例中，基于前述方案，所述第三选取单元940包括：相关性单元，用于基于两个查询词条在所述历史查询记录中出现的次数，确定所述两个查询词条之间的相关性；第三计算单元，用于基于相邻时段内所述查询词条在所述历史查询记录中出现的次数，计算表示所述查询词条的搜索频率变化幅度的卡方值，作为所述查询词条的热度；第四计算单元，用于基于所述查询词条的热度和所述相关性之间的加权和，确定所述查询词条的搜索价值度；第五选取单元，用于基于所述搜索价值度，从所述查询词条中选取所述待处理文章对应的主题词。

在本申请的一些实施例中，基于前述方案，所述提取主题词的装置900还用于：基于所述主题词生成话题标签；将所述话题标签与所述待处理文章对应的账户信息关联存储；在检测到所述账户信息对应的用户发布文章时，从与所述账户信息关联存储的话题标签中，选取所述文章对应的话题标签。

在本申请的一些实施例中，基于前述方案，所述提取主题词的装置900还用于：基于所述账户信息关联存储的话题标签，生成账户标签；通过所述账户标签标注所述账户信息对应的用户。

需要说明的是，图10示出的电子设备的计算机系统1000仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(Central Processing Unit，CPU)1001，其可以根据存储在只读存储器(Read-Only Memory，ROM)1002中的程序或者从储存部分1008加载到随机访问存储器(Random Access Memory，RAM)1003中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出(Input/Output，I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的储存部分1008；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入储存部分1008。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种提取主题词的方法，其特征在于，包括：

获取待处理文章；

从所述待处理文章中检测出关键词，并基于所述关键词在所述待处理文章中出现的频率，从所述关键词中确定代表所述待处理文章的文本特征的文本词条；

基于用户对所述待处理文章的历史查询记录，从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条；

基于所述查询词条的热度、以及各所述查询词条之间的相关性，从所述查询词条中选取所述待处理文章对应的主题词。

2.根据权利要求1所述的方法，其特征在于，从所述待处理文章中检测出关键词，并基于所述关键词在所述待处理文章中出现的频率，从所述关键词中确定代表所述待处理文章的文本特征的文本词条，包括：

检测所述待处理文章中包含所述关键词的目标文章，并确定所述目标文章的数目；

基于所述待处理文章的总数目与所述目标文章的数目之间的比值，确定表示所述关键词与所述待处理文章之间关联程度的逆向文件频率；

基于各所述关键词对应的逆向文件频率和所述关键词在所述待处理文章中出现的频率，从所述关键词中选取代表所述待处理文章的文本特征的文本词条。

3.根据权利要求2所述的方法，其特征在于，基于所述待处理文章的总数目与所述目标文章的数目之间的比值，确定表示所述关键词与所述待处理文章之间关联程度的逆向文件频率，包括：

基于所述待处理文章的总数目与所述目标文章的数目，计算所述待处理文章的总数目与所述目标文章的数目之间的比值；

计算所述比值对应的对数值，将所述对数值作为表示所述关键词与所述待处理文章之间关联程度的逆向文件频率。

4.根据权利要求1所述的方法，其特征在于，基于用户对所述待处理文章的历史查询记录，从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条，包括：

基于所述文本词条和所述历史查询记录，确定所述历史查询记录对应的文本词条；

将所述历史查询记录对应的文本词条进行组合，生成搜索词条组合；

通过正向最大匹配算法，从所述搜索词条组合中选取出用于表示用户查询目的的查询词条。

5.根据权利要求1所述的方法，其特征在于，基于所述查询词条的热度、以及各所述查询词条之间的相关性，从所述查询词条中选取所述待处理文章对应的主题词，包括：

基于两个查询词条在所述历史查询记录中出现的次数，确定所述两个查询词条之间的相关性；

基于相邻时段内所述查询词条在所述历史查询记录中出现的次数，计算表示所述查询词条的搜索频率变化幅度的卡方值，作为所述查询词条的热度；

基于所述查询词条的热度和所述相关性之间的加权和，确定所述查询词条的搜索价值度；

基于所述搜索价值度，从所述查询词条中选取所述待处理文章对应的主题词。

6.根据权利要求5所述的方法，其特征在于，所述两个查询词条包括第一查询词条和第二查询词条；

基于两个查询词条在所述历史查询记录中出现的次数，确定所述两个查询词条之间的相关性，包括：

从所述历史查询记录中确定所述第一查询词条单独出现的第一次数、所述第二查询词条单独出现的第二次数、以及所述两个查询词条同时出现的第三次数；

计算所述第三次数与所述历史查询记录中的词条数目之间的第一乘积，并计算所述第一次数与所述第二次数之间的第二乘积；

基于所述第一乘积与所述第二乘积之间的比值，确定所述两个查询词条之间的相关系数，所述相关系数用于表示所述两个查询词条之间的相关性。

7.根据权利要求5所述的方法，其特征在于，基于相邻时段内所述查询词条在所述历史查询记录中出现的次数，计算表示所述查询词条的搜索频率变化幅度的卡方值，作为所述查询词条的热度，包括：

在所述历史查询记录中，统计在所述相邻时段内所述查询词条分别对应的出现次数和未出现次数；

基于所述查询词条在所述相邻时段分别对应的出现次数和未出现次数之间的比值，确定所述卡方值，作为所述查询词条的热度。

8.根据权利要求1所述的方法，其特征在于，基于所述查询词条的热度、以及各所述查询词条之间的相关性，从所述查询词条中选取所述待处理文章对应的主题词之后，还包括：

基于所述主题词生成话题标签；

将所述话题标签与所述待处理文章对应的账户信息关联存储；

在检测到所述账户信息对应的用户发布文章时，从与所述账户信息关联存储的话题标签中，选取所述文章对应的话题标签。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

基于所述账户信息关联存储的话题标签，生成账户标签；

通过所述账户标签标注所述账户信息对应的用户。

10.一种提取主题词的装置，其特征在于，包括：

获取单元，用于获取待处理文章；

第一选取单元，用于从所述待处理文章中检测出关键词，并基于所述关键词在所述待处理文章中出现的频率，从所述关键词中确定代表所述待处理文章的文本特征的文本词条；

第二选取单元，用于基于用户对所述待处理文章的历史查询记录，从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条；

第三选取单元，用于基于所述查询词条的热度、以及各所述查询词条之间的相关性，从所述查询词条中选取所述待处理文章对应的主题词。