CN113392177A - 一种关键词获取方法、装置、电子设备及存储介质 - Google Patents

一种关键词获取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113392177A
CN113392177A CN202011301926.6A CN202011301926A CN113392177A CN 113392177 A CN113392177 A CN 113392177A CN 202011301926 A CN202011301926 A CN 202011301926A CN 113392177 A CN113392177 A CN 113392177A
Authority
CN
China
Prior art keywords
keyword
candidate
target
keywords
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011301926.6A
Other languages
English (en)
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011301926.6A priority Critical patent/CN113392177A/zh
Publication of CN113392177A publication Critical patent/CN113392177A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Abstract

本申请提供了关键词获取方法、装置、电子设备及存储介质。若检测到实施于目标文本包含的选定关键词的搜索操作,说明用户需要查看该选定关键词相关的文本,由于用户是在浏览目标文本的过程中进行的搜索,所以用户想要查看是与目标文本具有一定的相关性的文本,因此,通过关联图获得目标关键词,将目标关键词和选定关键词共同作为搜索词,进行搜索。由于关联图中每一候选关键词与选定关键词在目标文本中的位置间隔的词汇数目小于或等于第一阈值,关联图中具有边的两个关键词的相关度较高,所以从至少一个候选关键词中获得的目标关键词与选定关键词的相关关系较强以及对于目标文本的重要程度较高,因此得到的搜索结果符合用户的需求,比较准确。

Description

一种关键词获取方法、装置、电子设备及存储介质
技术领域
本申请涉及信息处理技术领域,更具体的说,是涉及一种关键词获取方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展,用户可以通过电子设备浏览文本,以获得相应的信息。用户在浏览文本的过程中,可能具有搜索该文本包含的某个关键词有关的其他文本的需求,例如,用户在通过电子设备浏览文本A的过程中,浏览到文本A包含的关键词A时,想要查看与关键词A有关的文本,用户可以选定文本A中的关键词A,然后进行搜索。
目前基于选定关键词(例如关键词A)进行搜索得到的文本很大概率上并不是用户需要的文本,即搜索结果不准确。
发明内容
有鉴于此,本申请提供了一种关键词获取方法、装置、电子设备及存储介质,以至少解决基于选定关键词搜索得到的搜索结果不准确的问题。
本申请提供如下技术方案:
根据本公开实施例的第一方面,提供一种关键词获取方法,包括:
获取目标文本包含的多个关键词,所述目标文本包含处于被选中状态的选定关键词;
基于所述多个关键词分别在所述目标文本中的第一位置,从所述多个关键词中确定与所述选定关键词在所述目标文本中的第二位置间隔的词汇数目小于或等于第一阈值的至少一个候选关键词;
基于所述至少一个候选关键词以及所述选定关键词,获得关联图;所述至少一个候选关键词以及所述选定关键词分别为所述关联图中的节点,所述关联图包含的相关度大于或等于相应阈值的任意两个节点之间具有边,所述两个节点的边的权重为所述两个节点的相关度;
基于所述关联图,获得至少一个候选关键词分别对应的词重要度值;
基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词。
根据本公开实施例的第二方面,提供一种关键词获取装置,包括:
第一获取模块,用于获取目标文本包含的多个关键词,所述目标文本包含处于被选中状态的选定关键词;
第一确定模块,用于基于所述多个关键词分别在所述目标文本中的第一位置,从所述多个关键词中确定与所述选定关键词在所述目标文本中的第二位置间隔的词汇数目小于或等于第一阈值的至少一个候选关键词;
第二获取模块,用于基于所述至少一个候选关键词以及所述选定关键词,获得关联图;所述至少一个候选关键词以及所述选定关键词分别为所述关联图中的节点,所述关联图包含的相关度大于或等于相应阈值的任意两个节点之间具有边,所述两个节点的边的权重为所述两个节点的相关度;
第三获取模块,用于基于所述关联图,获得至少一个候选关键词分别对应的词重要度值;
筛选模块,用于基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词。
根据本公开实施例的第三方面,提供一种电子设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于:
获取目标文本包含的多个关键词,所述目标文本包含处于被选中状态的选定关键词;
基于所述多个关键词分别在所述目标文本中的第一位置,从所述多个关键词中确定与所述选定关键词在所述目标文本中的第二位置间隔的词汇数目小于或等于第一阈值的至少一个候选关键词;
基于所述至少一个候选关键词以及所述选定关键词,获得关联图;所述至少一个候选关键词以及所述选定关键词分别为所述关联图中的节点,所述关联图包含的相关度大于或等于相应阈值的任意两个节点之间具有边,所述两个节点的边的权重为所述两个节点的相关度;
基于所述关联图,获得至少一个候选关键词分别对应的词重要度值;
基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词。
根据本公开实施例的第四方法,提供一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现第一方面任一项所示的所述关键词获取方法。
经由上述的技术方案可知,本申请实施例提供的关键词获取方法中,若检测到实施于目标文本包含的选定关键词的搜索操作,说明用户在浏览目标文本的过程中,需要查看该选定关键词相关的文本,可以理解的是,由于用户是在浏览目标文本的过程中进行的搜索,所以用户想要查看的与选定关键词相关的文本与目标文本具有一定的相关性,因此,本申请实施例提供了基于关联图获得目标关键词的方法,关联图包含的各节点为:至少一个候选关键词以及选定关键词,候选关键词在目标文本中的位置与选定关键词在目标文本中的位置间隔的词汇数目小于或等于第一阈值;可以理解的是,由于候选关键词在目标文本中的位置与选定关键词在目标文本中的位置间隔的词汇数目小于或等于第一阈值,因此,候选关键词和选定关键词之间的相关关系比较强;关联图包含的任意两个节点的相关度大于相应阈值,则这两个节点具有一条边,因此具有边的两个关键词的相关度较高,所以基于关联图得到的候选关键词的词重要程度值能够表征与选定关键词的相关关系以及对于目标文本的重要程度;基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得的目标关键词与选定关键词的相关关系较强以及对于目标文本的重要程度较高,因此,将目标关键词和选定关键词共同作为搜索词,得到的搜索结果更加符合用户的需求,即搜索结果比较准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1a至图1c为本申请实施例提供的指尖搜索应用场景的示意图;
图2为本申请实施例提供的一种关键词获取方法所涉及的实施环境的架构图;
图3为本申请实施例提供的一种关键词获取方法的流程图;
图4为本申请实施例提供的一种关联图的示意图;
图5为本申请实施例提供的一种关键词获取装置的结构;
图6为本申请实施例提供的一种电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明。
本申请实施例提供了一种关键词获取、装置、电子设备及存储介质。在详细介绍本申请实施例提供的技术方案之前,在这里先对本申请实施例所涉及的应用场景和实施环境进行简单的介绍。
首先对本申请实施例涉及的应用场景进行简单介绍。
本申请实施例可应用于指尖搜索应用场景,在指尖搜索应用场景中,用户通过电子设备浏览文本的过程中,可以选择电子设备展示的文本中的一个或多个连续的字符,本申请实施例中称“一个或多个连续的字符”为选定关键词,然后执行搜索操作。下面举例对上述应用场景进行说明。
如图1a至图1c所示,为本申请实施例提供的指尖搜索应用场景的示意图。
用户可以通过电子设备浏览文本,示例性的,电子设备可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视等。
图1a至图1c是以电子设备为手机为例进行说明。
在图1a中,用户通过手机浏览文本,假设文本为关于“TikTok”的新闻。若用户想了解关于“TikTok”其他新闻,可以在文本中选择“TikTok”,如图1a所示,“TikTok”11即为选定关键词11,若用户进行相应操作,例如,长时间触按选定关键词11,即可显示搜索提示框12,例如,图1a中位于选定关键词11上侧的搜索提示框12。
在图1b中,若用户需要查看与选定关键词11相关的新闻,用户可以点击搜索提示框12中的“搜一搜”,即可获得关于选定关键词11的其他新闻,如图1c所示,选定关键词11作为搜索词显示在搜索框13中,且电子设备的显示界面中显示的多条关于选定关键词11的其他新闻,例如,TikTok正式发布声明、TikTok正式回应、TikTok变局再延期业务暂不出售等新闻。
图1a至图1c中以文本的文本类型为新闻为例,对本申请所涉及的指尖搜索应用场景进行介绍。本申请实施例并不局限文本的文本类型。
示例性的,文本的类型可以为新闻、微博、博客、百科、文章中任一种。
用户在确定选定关键词时,能够选择连续的一个或多个字符,例如,若用户想了解关于“甲骨文”和“TikTok”的并购信息,用户需要选择“甲骨文”、“TikTok”这两个关键词,由于如图1a所示的文件中“甲骨文”和“TikTok”的位置是不连续的,所以用户需要选择同时包含“甲骨文”和“TikTok”的语句作为选定关键词,例如图1a中将“甲骨文与TikTok”作为一个整体确定为选定关键词。无法实现“跳跃性选择”多个词汇。例如,用户不能在不选择“与”的情况下,即跳跃过其他词汇,例如“与”,仅选择“甲骨文”和“TikTok”。
综上,若用户需要将多个词汇作为选定关键词时,无法实现对多个词汇的“跳跃性选择”,而只能选择一条包含上述多个词汇的语句作为选定关键词,由于该语句中还包括其他词汇,因而所得的搜索结果并不能满足用户的需求,即搜索结果不准确。
针对于此,本申请提供一种关键词获取方法,可以基于用户选择的选定关键词,确定用户可能需要的目标关键词,将目标关键词和选定关键词共同作为搜索词,可以提高搜索结果的准确性。即无需用户自己选择目标关键词,本申请实施例提供出的关键词获取方法自动为用户选择目标关键词。
其次,对本申请实施例涉及的实施环境进行简单介绍。
图2为本申请实施例提供的一种关键词获取方法所涉及的实施环境的架构图。该实施例环境包括:服务器21以及至少一个终端设备22。
示例性的,终端设备22与服务器21可以通过无线网络建立连接并通信。
示例性的,终端设备22可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视等。
示例性的,终端设备22中运行有客户端,用户可基于该客户端浏览文本。若该客户端为应用程序客户端,那么终端设备22可以安装有该客户端;若客户端为网页版客户端,那么终端设备22可以通过浏览器展示网页版客户端。
示例性的,服务器21可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者,是一个云计算服务中心。服务器21可以包括处理器、存储器以及网络接口等。
示例性的,数据库存储有多个文本,属于同一文本类型的文本存储于同一个文本集合中,示例性的,属于不同文本类型的文本存储于不同文件集合中;即数据库基于多个文本的文本类型对多个文本进行分区存储。
示例性的,属于不同文本类型的文本存储于同一文件集合中。
示例性的,服务器21从数据库中获得一个或多个文本,并发送至终端设备22中。终端设备22可以显示一个或多个文本。
示例性的,上述数据库可以独立于服务器21,或者,位于服务器21中。
图2仅仅是一种示例,图2示出了1个终端设备22,实际应用中终端设备22的数量可以按照实际需求设定,本公开实施例不对终端设备22的数目进行限定。
在一可选实现方式中,终端设备22,用于展示目标文本,以及获取实施于目标文本包含的选定关键词的搜索操作。服务器21,用于若接收到终端设备22发送的实施于目标文本包含的选定关键词的搜索操作,基于选定关键词,从目标文本包含的多个关键词中获得目标关键词。服务器21,还用于将目标关键词与选定关键词作为搜索词,得到搜索结果,将搜索结果发送至终端设备22。示例性的,终端设备22可以展示该搜索结果,如图1c所示。
在一可选实现方式中,终端设备22,用于展示目标文本,以及检测实施于目标文本包含的选定关键词的搜索操作;终端设备22若检测到实施于目标文本包含的选定关键词的搜索操作,基于服务器21从数据库存储的多个文本分别包含的多个关键词中,获得目标文本包含的多个关键词,并基于选定关键词,从多个关键词中确定目标关键词,将目标关键词发送至服务器21;示例性的,服务器21,还用于将目标关键词与选定关键词作为搜索词,得到搜索结果,将搜索结果发送至终端设备22。示例性的,终端设备22可以展示该搜索结果,如图1c所示。
示例性的,基于选定关键词,从目标文本包含的多个关键词中获得目标关键词涉及人工智能的自然语言处理技术。
本领域技术人员应能理解上述电子设备和服务器仅为举例,其他现有的或今后可能出现的电子设备或服务器如可适用于本公开,也应该包含在本公开保护范围以内,并在此以引用方式包含于此。
下面结合附图对本申请提供的技术方案进行介绍。
图3为本申请实施例提供的一种关键词获取方法的流程图。该方法可以应用于图2所示实施环境中的服务器21或终端设备22,该方法在实施过程中包括以下步骤S301至步骤S305。
在步骤S301中,若检测到实施于目标文本包含的选定关键词的搜索操作,获取所述目标文本包含的多个关键词。
若图3所示方法应用于服务器,那么“实施于目标文本包含的选定关键词的搜索操作”是从终端设备22中接收到的。
若图3所示的方法应用于终端设备22,那么,“实施于目标文本包含的选定关键词的搜索操作”是终端设备22自己检测到的。
示例性的,若图3所示的方法应用于终端设备22,“检测到实施于目标文本包含的选定关键词的搜索操作”的实现方式包括但不限于以下两种实现方式。
第一种实现方式:若检测到触按预设按键操作,确定检测到实施于目标文本包含的选定关键词的搜索操作。
示例性的,预设按键可以为图1b所示的“搜一搜”按键。
第二种实现方式:若检测到预设语音,确定检测到实施于目标文本包含的选定关键词的搜索操作。
示例性的,预设语音包含选定关键词,例如,“搜索TikTok”语音。
若图3所示的方法应用于终端设备22,示例性的,选定关键词在目标文本中的展现方式包括但不限于以下四种方式。
第一种展现方式:选定关键词以“闪烁”的方式展现在目标文本中。
第二种展现方式:选定关键词以预设字体颜色展现在目标文本中。
例如,若目标文本中的字体为黑色字体,被选中的选定关键词以红色字体的方式,显示在目标文本中。
示例性的,在第二种展现方式中本申请并不限定预设字体颜色的具体颜色,任何一种可以区分目标文本和选定关键词的字体颜色均在本申请实施例的保护范围内。
第三种展现方式:选定关键词以预设字体格式展现在目标文本中。
例如,预设字体格式包括“加黑、加粗”。
示例性的,在第三种展现方式中“预设字体格式”可以为“加黑、加粗”、“倾斜”或“下滑线”中一种。可以理解的是,本申请并不局限预设字体格式的具体字体格式,任何一种可以区分目标文本和选定关键词的字体格式均在本申请实施例的保护范围内。
第四种展现方式:选定关键词被选择窗口覆盖的方式展现。
示例性的,图1a中以第四种展现方式为例进行说明的。
示例性的,目标文本包含的多个关键词包括选定关键词,或,目标文本包含的多个关键词不包括选定关键词。
在一可选实现方式中,目标文本包含的多个关键词在步骤S301之前已经确定,并存储在服务器21或数据库或终端设备22中,在执行步骤S301时,可以从服务器21或数据库或终端设备22中获得。
可以理解的是,服务器21可以预先存储有多个文本分别包含的多个关键词,并存储。在执行步骤S301时,可以从已经得到的各文本分别包含的多个关键词中,获得目标文本包含的多个关键词。
在一可选实现方式中,目标文本包含的多个关键词是在检测到实施于目标文本包含的选定关键词的搜索操作后,实时确定的。
在步骤S302中,基于所述多个关键词分别在所述目标文本中的第一位置,从所述多个关键词中确定与所述选定关键词在所述目标文本中的第二位置间隔的词汇数目小于或等于第一阈值的至少一个候选关键词。
可以理解的是,关键词或选定关键词在目标文本中的出现的次数可能不止一次,因而对于每一关键词,可能在目标文本中确定一个或多个第一位置,对于选定关键词,可能在目标文本中确定一个或多个第二位置。
步骤S302的实现方式有多种,本申请实施例提供但不限于以下三种。
第一种步骤S302的实现方式包括步骤A11至步骤A12。
在步骤A11中,对于选定关键词对应的每一第二位置,确定目标文本中与所述第二位置间隔的词汇数目小于或等于第一阈值的一个或多个词汇,以得到至少一个第二位置分别对应的各词汇。
在步骤A12中,确定步骤A11确定的至少一个第二位置分别对应的各词汇与步骤S301确定的目标文本包含的多个关键词的交集,以得到一个或多个候选关键词。
第二种步骤S302的实现方式包括步骤A21至步骤A22。
在步骤A21中,对于每一关键词的每一第一位置,确定所述目标文本中与所述第一位置间隔的词汇数目小于或等于第一阈值的一个或多个词汇,以得到所述关键词对应的各词汇。
在步骤A22中,确定步骤A21确定的各词汇是否包括选定关键词,若包括,确定该关键词为候选关键词。
第三种步骤S302的实现方式包括步骤A31至步骤A32。
在步骤A31中,对于每一关键词,从所述关键词对应的至少一个第一位置以及选定关键词对应的至少一个第二位置中,确定距离最近的第一位置和第二位置,得到该关键词对应的关键词组合,以得到多个关键词分别对应的关键词组合。
在步骤A32中,对于每一关键词的关键词组合,确定所述关键词组合包含的第一位置和第二位置之间的词汇数目,若词汇数目小于或等于第一阈值,确定该关键词为候选关键词,以得到一个或多个候选关键词。
示例性的,上述“词汇数目”不包括停留词,例如,“的”、“了”;示例性的,上述“词汇数目”包停留词。
下面以具体示例,对步骤S302的三种实现过程进行说明,假设上述“词汇数目”不包括停留词。
假设目标文本为:“程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不十分清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类”。
对目标文本进行分词,去除目标文本中的停留词后得到的词汇集合中的多个词汇分别为:程序员、英文、程序、开发、维护、专业、人员、程序员、分为、程序、设计、人员、程序、编码、人员、界限、特别、中国、软件、人员、分为、程序员、高级、程序员、系统、分析员、项目、经理。
综上,目标文本的词汇集合包括28个词汇,每一词汇对应目标文本中的一个位置,假设28个词汇位于目标文本中的位置,依次为位置1、位置2,…,位置28。
假设选定关键词为“程序”,“程序”在目标文本中有三个第二位置,分别为位置3、位置10和位置13。
关键词“程序员”在目标文本中有四个第一位置,分别为位置1、位置8、位置22以及位置24。
下面以关键词“程序员”和选定关键词为“程序”为例,对上述三种实现方式进行说明。
第一种步骤S302的实现方式中,对于选定关键词为“程序”的每一第二位置,例如,位置3、位置10和位置13,确定目标文本中与所述第二位置间隔的词汇数目小于或等于第一阈值的各词汇。
假设,第一阈值为4,目标文本中与位置3间隔的词汇数目小于或等于第一阈值的各词汇分别为:{程序员、英文、开发、维护、专业、人员}。
目标文本中与位置10间隔的词汇数目小于或等于第一阈值的各词汇分别为:{专业、人员、程序员、分为、设计、人员、程序、编码}。
目标文本中与位置13间隔的词汇数目小于或等于第一阈值的各词汇分别为:{分为、程序、设计、人员、编码、人员、界限、特别}。
那么,步骤A11确定的选定关键词为“程序”的至少一个第二位置分别对应的各词汇为{程序员、英文、开发、维护、专业、分为、设计、人员、程序、编码、界限、特别}。
示例性的,{程序员、英文、开发、维护、专业、分为、设计、人员、程序、编码、界限、特别}与目标文本包含的多个关键词的交集,即为候选关键词。
第二种步骤S302的实现方式中,对于关键词“程序员”的每一第一位置,例如,位置1、位置8、位置22或位置24,目标文本中与位置1间隔的词汇数目小于或等于第一阈值的一个或多个词汇为{英文、程序、开发、维护};目标文本中与位置8间隔的词汇数目小于或等于第一阈值的一个或多个词汇为{开发、维护、专业、人员、分为、程序、设计、人员};目标文本中与位置22间隔的词汇数目小于或等于第一阈值的一个或多个词汇为{中国、软件、人员、分为、高级、程序员、系统、分析员};目标文本中与位置24间隔的词汇数目小于或等于第一阈值的一个或多个词汇为{人员、分为、程序员、高级、系统、分析员、项目、经理},那么,关键词“程序员”对应的各词汇为{英文、程序、开发、维护、专业、人员、分为、设计、中国、软件、高级、程序员、系统、分析员、项目、经理}。由于{英文、程序、开发、维护、专业、人员、分为、设计、中国、软件、高级、程序员、系统、分析员、项目、经理}包括选定关键词“程序”,所以关键词“程序员”为候选关键词。
第三种步骤S302的实现方式中,对于关键词“程序员”和选定关键词“程序”,从{位置1、位置8、位置22、位置24}以及{位置3、位置10、位置13}中,确定距离最近的位置1和位置3,或者,位置8和位置10。
由于位置1和位置3或位置8和位置10之间间隔的词汇数目为1,小于第一阈值,因此关键词“程序员”为候选关键词。
在步骤S303中,基于所述至少一个候选关键词以及所述选定关键词,获得关联图。
所述至少一个候选关键词以及所述选定关键词分别为所述关联图中的节点,所述关联图包含的相关度大于或等于相应阈值的任意两个节点之间具有边,所述两个节点的边的权重为所述两个节点的相关度。
可以理解的是,对于关联图包含的任意两个节点而言,若两个节点的相关度大于相应阈值,则两个节点具有边,否则,两个节点没有边。
示例性的,将两个节点称为一组节点集合,不同节点集合对应的阈值不同;示例性的,不同节点集合对应的阈值相同。
示例性的,关联图可以为有权无向图,或者,有权有向图。
示例性的,若关联图为有向图,那么,关联图中具有边的任意两个节点的边的指向的确定方式包括但不限于以下两种。
第一种关联图中任意两个节点的边的方向指向的确定方式包括:随机确定指向。
例如,两个节点为节点A和节点B,那么,节点A和节点B的边的指向可以由节点A指向节点B,也可以由节点B指向节点A,或者,节点A指向节点B同时节点B指向节点A。
第二种关联图中任意两个节点的边的方向指向的确定方式包括:基于两个节点在目标文本中的位置,确定两个节点之间边的指向。
在第二种实现方式中,本申请实施例提供但不限于以下两种实现方式。
第一种:任意两个节点(两个节点可以均为候选关键词,或者,两个节点中一个为候选关键词一个为选定关键词)中,位于目标文本中的位置靠前的节点指向位于目标文本中的位置靠后的节点;或者,位于目标文本中的位置靠后的节点指向位于目标文本中的位置靠前的节点。
下面以“位于目标文本中的位置靠前的节点指向位于目标文本中的位置靠后的节点”为例进行说明。
示例性的,由于每一候选关键词在目标文本中的第一位置可能有多个,所以任意两个候选关键词之间的边的方向可能是双向的,也可能是单向的。
仍以上述为例,即目标文本的词汇集合中的多个词汇分别为:程序员、英文、程序、开发、维护、专业、人员、程序员、分为、程序、设计、人员、程序、编码、人员、界限、特别、中国、软件、人员、分为、程序员、高级、程序员、系统、分析员、项目、经理。
假设“程序员”、“编码”、“分为”为候选关键词,假设“程序员”和“编码”的相关对大于或等于相应阈值,那么,“程序员”和“编码”具有一条边,由于“程序员”在目标文本中的第一位置分别为:位置1、位置8、位置22、位置24,“编码”在目标文本中的第一位置分别为:位置14。即目标文本在候选关键词“编码”出现之前已经出现“程序员”,在出现候选关键词“编码”之后,也出现了“程序员”,因此,“程序员”和“编码”之间的边的指向是双向的,即由“程序员”指向“编码”,且由“编码”指向“程序员”。
示例性的,由于选定关键词在目标文本中的第二位置可能有多个,每一候选关键词在目标文本中的第一位置可能有多个,所以选定关键词和候选关键词之间的边的指向可能是双向的,或者是单向的。
假设“程序员”为候选关键词,“程序”为选定关键词,“程序员”在目标文本中的第一位置分别为:位置1、位置8、位置22、位置24;“程序”在目标文本中的第二位置分别为:位置3、位置10、位置13。因此,“程序员”在目标文本中的位置在“程序”之前,且在“程序”之后,因此,“程序员”与“程序”之间的边的指向是双向的,即由“程序员”指向“程序”,且由“程序”指向“程序员”。
第二种:选定关键词在目标文本中的第二位置可能有多个,每一候选关键词在目标文本中的第一位置可能有多个,但是,从至少一个关键词中确定候选关键词的过程中,可能是基于选定关键词和候选关键词在目标文本中最靠近的位置确定的,如第三种步骤S302的实现方式,所以若候选关键词和选定关键词之间存在边,边的指向需要基于候选关键词对应的关键词组合中位置的前后关系确定。
下面以“位于目标文本中的位置靠前的节点指向位于目标文本中的位置靠后的节点”为例进行说明。
假设“程序员”为候选关键词,“程序”为选定关键词,由于将“程序员”确定为候选关键词,是基于关键词组合{位置1,位置3}或关键词组合{位置8,位置10}确定的,这两个关键词组合中都是“程序员”在目标文本中的位置靠前,“程序”在目标文本中的位置靠后,因此,“程序员”和“程序”之间的边的指向为单向,且由“程序员”指向“程序”。
示例性的,两个节点的相关度可以用两个节点的余弦相似度、欧氏距离、马氏距离、曼哈顿距离或汉明距离中的任一种来表示。
可以理解的是,由于候选关键词在目标文本中的位置与选定关键词在目标文本中的位置间隔的词汇数目小于或等于第一阈值,因此,候选关键词和选定关键词之间的相关关系比较强。
相关关系是客观现象存在的一种非确定的相互依存关系,候选关键词和选定关键词之间的相关关系是指,在用户选择选定关键词后,隐藏选择候选关键词的概率。这里“隐藏选择”是指用户自己其实是没有选择候选关键词,但是电子设备或服务器“认为”用户选择了“选定关键词”后,候选关键词可能是用户意图选择的。
综上,关联图包含的各候选关键词与选定关键词的相关关系比较强。
在步骤S304中,基于所述关联图,获得至少一个候选关键词分别对应的词重要度值。
步骤S304的实现方式有多种,本申请实施例提供但不限于以下两种实现方式。
第一种步骤S304的实现方式,对于每一节点包括:基于与所述节点相连的至少一个节点分别对应的词向量以及与所述节点相连的至少一个节点分别对应边的权重,得到所述节点的词重要度值。
示例性的,假设与节点1相连的节点分别为:节点2、节点3和节点4;节点1的词重要程度值=节点2的词向量*连接节点1和节点2的边的权重+节点3的词向量*连接节点1和节点3的边的权重+节点4的词向量*连接节点1和节点4的边的权重。
示例性的,节点的词向量,可以是通过Word2Vec模型得到的。
第二种步骤S304的实现方式,对于每一节点包括:基于与所述节点相连的至少一个第一节点分别对应的词向量、与每一所述第一节点相连的至少一个第二节点分别对应的词向量、与每一所述第二节点分别相连的至少一个第三节点分别对应的词向量、…、与每一所述第M-1节点分别相连的至少一个第M节点分别对应的词向量、与每一所述第M节点分别相连的至少一个叶子节点分别对应的词向量、所述节点和与其连接的每一所述第一节点的边的权重、每一所述第一节点和与其连接的每一第二节点的边的权重、…、每一所述第M-1节点和与其连接的每一第M节点的边的权重、每一所述第M节点和与其连接的每一叶子节点的边的权重,得到所述节点的词重要度值。
其中,M为大于或等于2的正整数。
示例性的,可以通过公式
Figure BDA0002787099830000161
获得节点的词重要度值。
其中,WS(Vi)是指节点Vi的词重要度值,WS(Vj)是指节点Vj的词重要度值,d是阻尼系数,一般设置为0.85,In(Vi)为关联图包含的各节点中节点Vi的前驱节点所属集合,OUT(Vk)为关联图包含的各节点中节点Vj的后继节点所属集合,wjk是指节点Vj和节点Vk的相关度,wji是指节点Vj和节点Vi的相关度。
在一可选实施例中,若关联图为无向图,节点Vi的前驱节点是指关联图包含的各节点中在目标文本中的位置位于节点Vi的前面的节点;节点Vj后继节点是指关联图包含的各节点中在目标文本中的位置位于节点Vj的后面的节点。
若一个节点在目标文本中的位置位于节点Vi的前面,又位于节点Vi的后面,那么,这个节点即是节点Vi的前驱节点,又是节点Vi的后继节点。
在一可选实施例中,若关联图为有向图,节点Vi的前驱节点是指关联图包含的各节点中指向节点Vi的节点,节点Vj后继节点是指关联图包含的各节点中节点Vj指向的节点。
在步骤S305中,基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词。
本申请实施例提供的关键词获取方法中,若检测到实施于目标文本包含的选定关键词的搜索操作,说明用户在浏览目标文本的过程中,需要查看该选定关键词相关的文本,可以理解的是,由于用户是在浏览目标文本的过程中进行的搜索,所以用户想要查看的与选定关键词相关的文本与目标文本具有一定的相关性,因此,本申请实施例提供了基于关联图获得目标关键词的方法,关联图包含的各节点为:至少一个候选关键词以及选定关键词,候选关键词在目标文本中的位置与选定关键词在目标文本中的位置间隔的词汇数目小于或等于第一阈值;可以理解的是,由于候选关键词在目标文本中的位置与选定关键词在目标文本中的位置间隔的词汇数目小于或等于第一阈值,因此,候选关键词和选定关键词之间的相关关系比较强;关联图包含的任意两个节点的相关度大于相应阈值,则这两个节点具有一条边,因此具有边的两个关键词的相关度较高,所以基于关联图得到的候选关键词的词重要程度值能够表征与选定关键词的相关关系以及对于目标文本的重要程度;基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得的目标关键词与选定关键词的相关关系较强以及对于目标文本的重要程度较高,因此,将目标关键词和选定关键词共同作为搜索词,得到的搜索结果更加符合用户的需求,即搜索结果比较准确。
在一可选实施例中,步骤S303的具体实现过程包括步骤B1至步骤B3。
在步骤B1中,获得所述至少一个候选关键词分别与所述选定关键词的第一相关度。
示例性的,第一相关度为余弦相似度、欧氏距离、马氏距离、曼哈顿距离或汉明距离中的任一种。
示例性的,候选关键词和选定关键词的第一相关度可以是基于候选关键词的词向量以及选定关键词的词向量得到的。
示例性的,将候选关键词输入Word2Vec模型,以得到候选关键词的词向量;将选定关键词输入Word2Vec模型,以得到选定关键词的词向量。
Word2vec模型是词向量计算模型。Word2vec模型是浅而双层的神经网络,word2vec模型可用来映射每个关键词到一个向量。
示例性的,将候选关键词输入bert预训练模型,以得到候选关键词的词向量;将选定关键词输入bert预训练模型,以得到选定关键词的词向量。
下面对Word2Vec模型的训练过程进行说明。Word2Vec模型的训练过程包括步骤C1至步骤C2。
在步骤C1中,获取目标文本所属目标领域。
文本所属领域可以基于文本内容划分,例如,文本所属领域可以为:政治领域、娱乐领域、科学领域中的至少一种。
在步骤C2中,获取属于所述目标领域的各文本,并对属于所述目标领域的各文本进行分词,以得到属于所述目标领域的各文本分别对应的分词集合。
示例性的,一个文本对应的分词集合可以不包括停留词。
在步骤C3中,利用属于所述目标领域的各文本分别对应的分词集合训练以得到Word2Vec模型。
示例性的,由于Word2Vec模型的训练样本为目标文本所属的目标领域的各文本,因而对于属于不同领域的目标文本,目标文本对应的Word2Vec模型不同,具体体现为Word2Vec模型的模型参数不同。
示例性的,可预先基于不同的领域的各文本对Word2Vec模型进行训练,以得到各领域分别对应的Word2Vec模型。
其中,基于Word2Vec模型得到的词向量的维度为可以预先设定,例如词向量的维度为200或300或400。本申请并不对词向量的维度进行限定。
在步骤B2中,针对每一所述候选关键词,若所述候选关键词与所述选定关键词的第一相关度大于或等于第二阈值,构建所述候选关键词与所述选定关键词之间的边,确定所述第一相关度为所述候选关键词与所述选定关键词之前的边的权重。
示例性的,第一相关度为余弦相似度、欧氏距离、马氏距离、曼哈顿距离或汉明距离中的任一种。
示例性的,若所述第一相关度为余弦相似度,所述第二阈值介于0和1之间。例如,第二阈值为0.6。
在步骤B3中,若所述至少一个候选关键词包括至少两个候选关键词,针对任意两个候选关键词,若所述两个候选关键词的第二相关度大于或等于第三阈值,构建所述两个候选关键词之间的边,确定所述第二相关度为所述两个候选关键词之间的边的权重。
示例性的,第二相关度为余弦相似度、欧氏距离、马氏距离、曼哈顿距离或汉明距离中的任一种。
示例性的,若所述第二相关度为余弦相似度,所述第三阈值介于0和1之间。例如,第三阈值为0.7。
示例性的,第二阈值可以与第三阈值的大小可以相等,也可以不相等。
下面对举例对关联图的构建过程进行说明。图4为本申请实施例提供的一种关联图的示意图。
图4所示的关联图包括节点A、节点B、节点C、节点D以及节点E五个节点,其中节点A、节点B、节点C以及节点D为候选关键词,节点E为选定关键词。
由于节点E分别和节点B、节点D的第一相关度大于或等于第二阈值,所以,节点E和节点B之间具有边,节点E和节点D之间具有边;由于节点E分别与节点A、节点C的第一相关度小于第二阈值,所以,节点E和节点A之间没有边,节点E和节点C之间没有边。
由于节点B分别与节点C、节点A的第二相关度大于或等于第三阈值,所以节点B和节点C之间具有边,节点B和节点A之间具有边。由于节点B与节点D的第二相关度小于第三阈值,所以节点B和节点D之间没有边。
由于节点D与节点A的第二相关度大于或等于第三阈值,所以节点D和节点A之间具有边,由于节点D分别与节点C和节点B的第二相关度小于第三阈值,所以节点D和节点C之间没有边,节点D和节点B之间没有边。
节点C同理,这里不再赘述。
在本申请实施例中,关联图包含的各候选关键词与选定关键的间隔的词汇数目小于或等于第一阈值,因此,候选关键词和选定关键词的相关关系较强,即关联图中各节点和选定关键词的相关关系较强,即若用户选择选定候选词后,有很大概率选择候选关键词。关联图中任意两个节点之间的边是在两个节点的相关度大于相应阈值的情况下建立的,因此,两个节点的边表征了两个节点之间有很强的传递性,即若用户选择了其中的一个节点,隐藏选择与该节点相连的另一节点的概率较大。
因此,本申请实施例中确定的关联图是一个表征与选定关键词具有较强相关关系且具有较强传递性的节点网络图。
步骤S305的实现过程有多种,本申请实施例提供但不限于以下两种实现方式。
第一种步骤S305的实现方式包括:将至少一个候选关键词按照词重要度值降序排序,选择前N个候选关键词作为目标关键词。N为大于或等于1的正整数。
第二种步骤S305的实现方式包括步骤D1至步骤D4。
在步骤D1中,基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得至少一个目标候选关键词。
示例性的,步骤D1的实现方式包括但不限于以下两种实现方式。
第一种步骤D1实现方式:将至少一个候选关键词按照词重要度值降序排序,确定前第一预设数目个候选关键词作为目标候选关键词。
示例性的,第一预设数目为大于或等于1的正整数,且小于候选关键词的个数,例如若候选关键词的个数为10个,第一预设数目小于或等于10。
第二种步骤D1实现方式:从至少一个候选关键词中,获得词重要度值大于或等于第四阈值的至少一个目标候选关键词。
示例性的,第四阈值可以基于实际情况而定,这里不进行限定。
在步骤D2中,获取预设时间段内查询日志包含的多条查询记录,所述查询记录包括所述选定关键词以及至少一个所述目标候选关键词。
示例性的,一个查询记录对应一个搜索词。一个搜索词包括一个或多个关键词。
下面举例对搜索词进行说明,用户在浏览器展示的用户界面的输入框中输入“笔记本纸质”,那么,搜索词包括用户在输入框中输入的各关键词,即搜索词包括“笔记本”和“纸质”。
示例性的,所述查询日志包括各用户在预设时间段内分别对应的查询记录。
示例性的,所述预设时间段是以“检测到实施于目标文本包含的选定关键词的搜索操作”的第一时刻为时间终点。
示例性的,所述预设时间段的时长可以为L小时或G天,L为大于0的任意数值,G为大于0的任意数值。
下面举例对步骤D2进行说明。假设预设时间段为Q天。
假设Q天一共100万条查询记录,从100万条查询记录中获得包含选定关键词和至少一个目标候选关键词的查询记录,假设包含选定关键词和至少一个目标候选关键词的查询记录有80万条,那么步骤D2获得的是这80万条查询记录。
在步骤D3中,针对每一所述目标候选关键词,确定所述多条查询记录中包含所述目标候选关键词的查询记录的第一数目,以得到所述至少一个目标候选关键词分别对应的第一数目。
示例性的,第一数目表征了目标候选关键词和选定关键词同时作为“搜索词”在查询日志中的出现的次数,即共现次数。
在步骤D4中,基于所述至少一个目标候选关键词分别对应的第一数目,从所述至少一个目标候选关键词中获得目标关键词。
示例性的,步骤D4的实现方式包括但不限于以下三种实现方式。
第一种步骤D4实现方式:针对每个目标候选关键词对应的第一数目,若第一数目大于或等于第五阈值,则确定该目标候选关键词为目标关键词。
示例性的,第五阈值可以基于实际情况设定,这里不进行限定。
第二种步骤D4实现方式:基于每个目标候选关键词对应的第一数目和所有目标候选关键词分别对应的第一数目的和,确定每个目标候选关键词对应的共现频率,若一个目标候选关键词对应的共现频率大于或等于第六阈值,则确定该目标候选关键词为目标关键词。
示例性的,第六阈值可以基于实际情况设定,这里不进行限定。
示例性的,一个目标候选关键词对应的共现频率=该目标候选关键词对应的第一数目/所述至少一个目标候选关键词分别对应的第一数目之和。
第三种步骤D4实现方式:基于所述至少一个目标候选关键词分别对应的第一数目和所述至少一个目标候选关键词分别对应的第一数目之和,确定所述至少一个目标候选关键词分别对应的共现频率;基于所述至少一个目标候选关键词分别对应的共现频率,从所述至少一个目标候选关键词中获得目标关键词。
示例性的,将所述至少一个目标候选关键词按照共现频率降序排序,将前第二预设数目个目标候选关键词确定为目标关键词。
第二预设数目为大于或等于1的任意整数。
其中,一个目标候选关键词对应的共现频率表征了该目标候选关键词和选定关键词同时作为“搜索词”在步骤D2中获得的多条查询记录中的出现的频率。
示例性的,一个目标候选关键词对应的共现频率=该目标候选关键词对应的第一数目/所述至少一个目标候选关键词分别对应的第一数目之和。
可以理解的是,各用户输入的同一搜索词越多,说明该搜索词越可能对应一个有意义且相对热门的事件。一个目标候选关键词对应的共现次数或共现频率越大,说明该目标候选关键词和选定关键词可能对应有预设时间段内的“热门”事件,因而基于目标关键词和选定关键词所得到的搜索文本更能够满足用户的搜索意图,即基于目标关键词和选定关键词得到的搜索结果,比仅基于选定关键词得到的搜索结果更为准确。
在一可选实现方式中,步骤S301中涉及的“目标文本包含的多个关键词”的获取过程有多种,本申请实施例提供但不限于以下两种。
第一种获取目标文本包含的多个关键词实现方式包括:对目标文本进行分词,以得到目标文本包含的多个关键词。
示例性的,将目标文本进行分词,并去除停留词,以得到多个关键词,即目标文本包含的多个关键词不包括停留词。
例如,可以预设分词工具对目标文本进行分词,以得到多个词汇,基于预设停留词词典,去除多个词汇中的停留词,以得到目标文本包含的多个关键词。
示例性的,分词工具可以为postag词性标注工具、结巴(jieba)分词器、庖丁分词工具、IK分词工具中任一种。
示例性的,本申请实施例提供的四种分词工具,其他现有的或今后可能出现的分词工具如可适用于本申请,也应该包含在本申请保护范围以内,并在此以引用方式包含于此。
示例性的,预设停留词词典包括多个停留词,例如,“的”,“了”,“呢”等无意义词。
示例性的,将目标文本进行分词,以得到多个关键词,即目标文本包含的多个关键词包括停留词。
第二种获取目标文本包含的多个关键词实现方式包括步骤E1至步骤E3。
在步骤E1中,获取所述目标文本包含的多个词汇。
示例性的,可基于预设分词工具对目标文本进行分词处理,并去除目标文本中的停留词,以得到目标文本包含的多个词汇。可参见第一种获取目标文本包含的多个关键词实现方式的具体说明,这里不再赘述。
在步骤E2中,针对每一所述词汇,基于所述目标文本包含所述词汇的第二数目,所述目标文本包含的词汇总数目,预设文本集合中包含有所述词汇的文本的第三数目,所述预设文本集合包含的各文本的总数目以及所述多个词汇的总数目,获得表征所述词汇对于所述目标文本的重要程度的文本重要度值,以得到所述多个词汇分别对应的文本重要度值。
示例性的,可以基于TF-IDF(termfrequency–inverse document frequency)模型,确定目标文本包含的各词汇分别对应的文本重要度值。
示例性的,对于任一词汇的TF值(TermFrequency,词频)表征了该词汇在目标文本中的出现频率。
假如目标文本包含的多个词汇的词汇总数目为100,而目标文本包含的词汇“程序”的第二数目为3,那么“程序”这一词汇在该目标文件中的词频=第二数目/词汇总数目=3/100=0.03。
示例性的,可基于公式TFi=ni/m,其中TFi表示词汇i的词频,ni是指词汇i的在目标文本中出现的次数(即第二数目),m表示目标文本包含的词汇总数目,例如上述100。
示例性的,对于任一词汇的IDF值(inverse document frequency,逆向文件频率),可基于目标文件所在的预设文本集合中包含该词汇的文本数目(即第三数目)与预设文本集合包含的各文本的总数目的比值,再将得到的比值取对数得到。
示例性的,可基于公式IDFi=lg(ai/b),确定词汇的IDF值。其中IDFi表示词汇i的逆向文件频率,ai表示预设文本集合中包含词汇i的文本数目,b表示预设文本集合包含各文本的总数目。
示例性的,预设文本集合包含的各文本属于同一文本类型,例如预设文件集合中所有文本均属于新闻稿件,或,预设文件集合中所有文本均属于用户发布的微博。示例性的,预设文本集合包含的各文本可以属于不同文本类型。
示例性的,基于公式词汇i的文本重要度值=TFi*IDFi,确定词汇i对应的表征对于目标文本的重要程度的文本重要度值。
例如,如果“程序”一词在预设文本集合中的1,000份文本出现过,而预设文本集合的文本总数是10,000,000份的话,其逆向文件频率就是lg(10,000,000/1,000)=4。最后的“程序”的TF-IDF的值为0.03*4=0.12。
在步骤E3中,基于所述多个词汇分别对应的文本重要度值,从所述多个词汇中获得所述多个关键词。
示例性的,示例性的,本申请步骤E3的实现方式包括但不限于以下两种实现方式。
第一种步骤E3实现方式:按照多个词汇分别对应的文本重要度值从高到低的顺序,确定前第三预设数目个关键词。
示例性的,第三预设数目为大于或等于1的正整数,且小于或等于所述多个词汇的总数目,例如若所述多个词汇的总数目为100个,第二预设数目小于或等于100。
第二种步骤E3实现方式:从多个词汇中获得文本重要度值大于或等于第七阈值的多个关键词。
即关键词是文本重要度值大于或等于第七阈值的词汇。
示例性的,第七阈值可以基于实际情况而定,本申请不进行限定。
在一可选实现方式中,若关键词获取方法应用于服务器21中,该方法还包括:基于所述目标关键词与所述选定关键词,获得搜索结果。将所述搜索结果发送至终端设备22,终端设备22展示所述搜索结果。
示例性的,目标文本的文本类型与搜索结果包含的至少一个文本的文本类型相同。
例如,目标文本的文本类型为新闻,搜索结果包含的文本的文本类型也为新闻;目标文本的文本类型为微博,搜索结果包含的文本的文本类型也为微博。
示例性的,目标文本的文本类型与搜索结果包含的文本的文本类型可以不相同。
在一可选实现方式中,若关键词获取方法应用于终端设备22中,该方法还包括:将所述目标关键词与选定关键词发送至服务器21;服务器21基于所述目标关键词与所述选定关键词,获得搜索结果。将所述搜索结果发送至终端设备22,终端设备22展示所述搜索结果。
在一可选实现方式中,终端设备22展示的所述搜索结果中仅选定关键词处于被选中状态。
示例性的,选定关键词在搜索结果中的展现方式可以为上述第一种展现方式、第二种展现方式、第三种展现方式、第四种展现方式中的任一种。
在一可选实现方式中,终端设备22展示的所述搜索结果中选定关键词和目标关键词均处于被选中状态。
示例性的,选定关键词在搜索结果中的展现方式可以为上述第一种展现方式、第二种展现方式、第三种展现方式、第四种展现方式中的任一种。
示例性的,目标关键词在搜索结果中的展现方式可以为上述第一种展现方式、第二种展现方式、第三种展现方式、第四种展现方式中的任一种。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了多种装置,下面给出具体的实施例进行详细说明。
在一可选实施例中,本申请实施例提供了一种关键词获取装置。如图5所示,为本申请实施例提供的一种关键词获取装置的结构图。
该装置包括:第一获取模块51、第一确定模块52、第二获取模块53、第三获取模块54以及筛选模块55。
其中,第一获取模块,用于获取目标文本包含的多个关键词,所述目标文本包含处于被选中状态的选定关键词。
第一确定模块,用于基于所述多个关键词分别在所述目标文本中的第一位置,从所述多个关键词中确定与所述选定关键词在所述目标文本中的第二位置间隔的词汇数目小于或等于第一阈值的至少一个候选关键词。
第二获取模块,用于基于所述至少一个候选关键词以及所述选定关键词,获得关联图;所述至少一个候选关键词以及所述选定关键词分别为所述关联图中的节点,所述关联图包含的相关度大于或等于相应阈值的任意两个节点之间具有边,所述两个节点的边的权重为所述两个节点的相关度。
第三获取模块,用于基于所述关联图,获得至少一个候选关键词分别对应的词重要度值。
筛选模块,用于基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词。
在一可选实施例中,所述第二获取模块包括:
第一获取单元,用于获得所述至少一个候选关键词分别与所述选定关键词的第一相关度。
第一构建单元,用于针对每一所述候选关键词,若所述候选关键词与所述选定关键词的第一相关度大于或等于第二阈值,构建所述候选关键词与所述选定关键词之间的边,确定所述第一相关度为所述候选关键词与所述选定关键词之前的边的权重。
第二构建单元,用于若所述至少一个候选关键词包括至少两个候选关键词,针对任意两个候选关键词,若所述两个候选关键词的第二相关度大于或等于第三阈值,构建所述两个候选关键词之间的边,确定所述第二相关度为所述两个候选关键词之间的边的权重。
在一可选实施例中,所述筛选模块包括:
第二获取单元,用于基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得至少一个目标候选关键词。
第三获取单元,用于获取预设时间段内查询日志包含的多条查询记录,所述查询记录包括所述选定关键词以及至少一个所述目标候选关键词。
确定单元,用于针对每一所述目标候选关键词,确定所述多条查询记录中包含所述目标候选关键词的查询记录的第一数目,以得到所述至少一个目标候选关键词分别对应的第一数目。
第四获取单元,用于基于所述至少一个目标候选关键词分别对应的第一数目,从所述至少一个目标候选关键词中获得目标关键词。
在一可选实施例中,所述第一获取模块包括:
第五获取单元,用于获取所述目标文本包含的多个词汇。
第六获取单元,用于针对每一所述词汇,基于所述目标文本包含所述词汇的第二数目,预设文本集合中包含有所述词汇的文本的第三数目,所述目标文本包含的词汇总数目,所述预设文本集合包含的各文本的总数目以及所述多个词汇的总数目,获得表征所述词汇对于所述目标文本的重要程度的文本重要度值,以得到所述多个词汇分别对应的文本重要度值。
第七获取单元,用于基于所述多个词汇分别对应的文本重要度值,从所述多个词汇中获得所述多个关键词。
在一可选实施例中,本申请实施例提供了一种电子设备。参见图6所示,为本申请实施例提供的一种电子设备的框图。
示例性的,电子设备可以为终端设备22或服务器21。
电子设备包括但不限于输入单元61、存储器62、显示单元63以及处理器64等部件。本领域技术人员可以理解,图6中示出的结构只做实现方式的举例,并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对电子设备的各个构成部件进行具体的介绍:
示例性的,输入单元61可用于获取用户对目标文本中词汇的选择操作,例如用户通过触按目标文本中的某个词汇,将该词汇确定为选定关键词。
示例性的,输入单元61可以包括触控面板611以及其他输入设备612。触控面板611,也称为触摸屏,可收集用户在其上的触摸操作(比如用户使用手指、触控笔等任何适合的物体或附件在触控面板611上的操作),并根据预先设定的程式驱动相应的连接装置(例如驱动处理器64中的关键词获取功能)。可选的,触控面板611可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器64,并能接收处理器64发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板611。除了触控面板611,输入单元61还可以包括其他输入设备612。具体地,其他输入设备612可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
示例性的,存储器62可用于存储软件程序以及模块,处理器64通过运行存储在存储器62的软件程序以及模块,从而执行电子设备的各种功能应用以及数据处理。存储器62可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据电子设备的使用所创建的数据(例如,第一阈值)。此外,存储器62可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
示例性的,显示单元63可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种菜单。显示单元63可包括显示面板631,可选的,可以采用LCD(LiquidCrystalDisplay,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板631。进一步的,触控面板611可覆盖显示面板631,当触控面板611检测到在其上或附近的触摸操作后,传送给处理器64以确定触摸事件的类型,随后处理器64根据触摸事件的类型在显示面板631上提供相应的视觉输出。
示例性的,触控面板612与显示面板631可作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板612与显示面板631集成而实现电子设备的输入和输出功能。
处理器64是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器62内的软件程序和/或模块,以及调用存储在存储器62内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。示例性的,处理器64可包括一个或多个处理单元;示例性的,处理器64可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器64中。
电子设备还包括给各个部件供电的电源65(比如电池),示例性的,第一电源可以通过电源管理系统处理器64逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块、RF(Radio Frequency,射频)电路、传感器、音频电路、WiFi(wireless fidelity,无线保真)模块、传感器、网络单元、接口单元等等。
电子设备通过网络单元为用户提供了无线的宽带互联网访问,如访问服务器。
接口单元为外部装置与电子设备连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备内的一个或多个元件或者可以用于在电子设备和外部装置之间传输数据。
在本公开实施例中,该电子设备所包括处理器64可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
该电子设备所包括处理器64具有以下功能:获取目标文本包含的多个关键词,所述目标文本包含处于被选中状态的选定关键词;基于所述多个关键词分别在所述目标文本中的第一位置,从所述多个关键词中确定与所述选定关键词在所述目标文本中的第二位置间隔的词汇数目小于或等于第一阈值的至少一个候选关键词;基于所述至少一个候选关键词以及所述选定关键词,获得关联图;所述至少一个候选关键词以及所述选定关键词分别所述关联图中的节点,所述关联图包含的相关度大于或等于相应阈值的任意两个节点之间具有边,所述两个节点的边的权重为所述两个节点的相关度;基于所述关联图,获得至少一个候选关键词分别对应的词重要度值;基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词。
在一可选实施例中,还提供了一种存储介质,可直接加载到计算机的内部存储器,例如上述存储器62中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述应用于电子设备的关键词获取方法任一实施例所示步骤。
需要说明的是,本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种关键词获取方法,其特征在于,包括:
若检测到实施于目标文本包含的选定关键词的搜索操作,获取所述目标文本包含的多个关键词;
基于所述多个关键词分别在所述目标文本中的第一位置,从所述多个关键词中确定与所述选定关键词在所述目标文本中的第二位置间隔的词汇数目小于或等于第一阈值的至少一个候选关键词;
基于所述至少一个候选关键词以及所述选定关键词,获得关联图;所述至少一个候选关键词以及所述选定关键词分别为所述关联图中的节点,所述关联图包含的相关度大于或等于相应阈值的任意两个节点之间具有边,所述两个节点的边的权重为所述两个节点的相关度;
基于所述关联图,获得至少一个候选关键词分别对应的词重要度值;
基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词。
2.根据权利要求1所述关键词获取方法,其特征在于,所述基于所述至少一个候选关键词以及所述选定关键词,获得关联图步骤包括:
获得所述至少一个候选关键词分别与所述选定关键词的第一相关度;
针对每一所述候选关键词,若所述候选关键词与所述选定关键词的第一相关度大于或等于第二阈值,构建所述候选关键词与所述选定关键词之间的边,确定所述第一相关度为所述候选关键词与所述选定关键词之前的边的权重;
若所述至少一个候选关键词包括至少两个候选关键词,针对任意两个候选关键词,若所述两个候选关键词的第二相关度大于或等于第三阈值,构建所述两个候选关键词之间的边,确定所述第二相关度为所述两个候选关键词之间的边的权重。
3.根据权利要求1或2所述关键词获取方法,其特征在于,所述基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词步骤包括:
基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得至少一个目标候选关键词;
获取预设时间段内查询日志包含的多条查询记录,所述查询记录包括所述选定关键词以及至少一个所述目标候选关键词;
针对每一所述目标候选关键词,确定所述多条查询记录中包含所述目标候选关键词的查询记录的第一数目,以得到所述至少一个目标候选关键词分别对应的第一数目;
基于所述至少一个目标候选关键词分别对应的第一数目,从所述至少一个目标候选关键词中获得目标关键词。
4.根据权利要求1或2所述关键词获取方法,其特征在于,所述获取目标文本包含的多个关键词步骤包括:
获取所述目标文本包含的多个词汇;
针对每一所述词汇,基于所述目标文本包含所述词汇的第二数目、所述目标文本包含的词汇总数目、预设文本集合中包含有所述词汇的文本的第三数目、所述预设文本集合包含的各文本的总数目以及所述多个词汇的总数目,获得表征所述词汇对于所述目标文本的重要程度的文本重要度值,以得到所述多个词汇分别对应的文本重要度值;
基于所述多个词汇分别对应的文本重要度值,从所述多个词汇中获得所述多个关键词。
5.一种关键词获取装置,其特征在于,包括:
第一获取模块,用于获取目标文本包含的多个关键词,所述目标文本包含处于被选中状态的选定关键词;
第一确定模块,用于基于所述多个关键词分别在所述目标文本中的第一位置,从所述多个关键词中确定与所述选定关键词在所述目标文本中的第二位置间隔的词汇数目小于或等于第一阈值的至少一个候选关键词;
第二获取模块,用于基于所述至少一个候选关键词以及所述选定关键词,获得关联图;所述至少一个候选关键词以及所述选定关键词分别为所述关联图中的节点,所述关联图包含的相关度大于或等于相应阈值的任意两个节点之间具有边,所述两个节点的边的权重为所述两个节点的相关度;
第三获取模块,用于基于所述关联图,获得至少一个候选关键词分别对应的词重要度值;
筛选模块,用于基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词。
6.根据权利要求5所述关键词获取装置,其特征在于,所述第二获取模块包括:
第一获取单元,用于获得所述至少一个候选关键词分别与所述选定关键词的第一相关度;
第一构建单元,用于针对每一所述候选关键词,若所述候选关键词与所述选定关键词的第一相关度大于或等于第二阈值,构建所述候选关键词与所述选定关键词之间的边,确定所述第一相关度为所述候选关键词与所述选定关键词之前的边的权重;
第二构建单元,用于若所述至少一个候选关键词包括至少两个候选关键词,针对任意两个候选关键词,若所述两个候选关键词的第二相关度大于或等于第三阈值,构建所述两个候选关键词之间的边,确定所述第二相关度为所述两个候选关键词之间的边的权重。
7.根据权利要求5或6所述关键词获取装置,其特征在于,所述筛选模块包括:
第二获取单元,用于基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得至少一个目标候选关键词;
第三获取单元,用于获取预设时间段内查询日志包含的多条查询记录,所述查询记录包括所述选定关键词以及至少一个所述目标候选关键词;
确定单元,用于针对每一所述目标候选关键词,确定所述多条查询记录中包含所述目标候选关键词的查询记录的第一数目,以得到所述至少一个目标候选关键词分别对应的第一数目;
第四获取单元,用于基于所述至少一个目标候选关键词分别对应的第一数目,从所述至少一个目标候选关键词中获得目标关键词。
8.根据权利要求5或6所述关键词获取装置,其特征在于,所述第一获取模块包括:
第五获取单元,用于获取所述目标文本包含的多个词汇;
第六获取单元,用于针对每一所述词汇,基于所述目标文本包含所述词汇的第二数目、预设文本集合中包含有所述词汇的文本的第三数目、所述目标文本包含的词汇总数目、所述预设文本集合包含的各文本的总数目以及所述多个词汇的总数目,获得表征所述词汇对于所述目标文本的重要程度的文本重要度值,以得到所述多个词汇分别对应的文本重要度值;
第七获取单元,用于基于所述多个词汇分别对应的文本重要度值,从所述多个词汇中获得所述多个关键词。
9.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于:
获取目标文本包含的多个关键词,所述目标文本包含处于被选中状态的选定关键词;
基于所述多个关键词分别在所述目标文本中的第一位置,从所述多个关键词中确定与所述选定关键词在所述目标文本中的第二位置间隔的词汇数目小于或等于第一阈值的至少一个候选关键词;
基于所述至少一个候选关键词以及所述选定关键词,获得关联图;所述至少一个候选关键词以及所述选定关键词分别为所述关联图中的节点,所述关联图包含的相关度大于或等于相应阈值的任意两个节点之间具有边,所述两个节点的边的权重为所述两个节点的相关度;
基于所述关联图,获得至少一个候选关键词分别对应的词重要度值;
基于所述至少一个候选关键词分别对应的词重要度值,从所述至少一个候选关键词中获得目标关键词。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至4任一项所述关键词获取方法。
CN202011301926.6A 2020-11-19 2020-11-19 一种关键词获取方法、装置、电子设备及存储介质 Pending CN113392177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011301926.6A CN113392177A (zh) 2020-11-19 2020-11-19 一种关键词获取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011301926.6A CN113392177A (zh) 2020-11-19 2020-11-19 一种关键词获取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113392177A true CN113392177A (zh) 2021-09-14

Family

ID=77616514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011301926.6A Pending CN113392177A (zh) 2020-11-19 2020-11-19 一种关键词获取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113392177A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115689064A (zh) * 2022-12-30 2023-02-03 中化现代农业有限公司 病害预测方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115689064A (zh) * 2022-12-30 2023-02-03 中化现代农业有限公司 病害预测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US8051080B2 (en) Contextual ranking of keywords using click data
US9965459B2 (en) Providing contextual information associated with a source document using information from external reference documents
US20150169710A1 (en) Method and apparatus for providing search results
US20140067368A1 (en) Determining synonym-antonym polarity in term vectors
EP2867802A1 (en) Learning-based processing of natural language questions
Lin et al. Show: Smart handwriting on watches
KR20170124581A (ko) 특정 컨텍스트에 대한 사용자 요구의 예측
WO2019108276A1 (en) Method and apparatus for providing personalized self-help experience
Wang et al. Named entity disambiguation for questions in community question answering
WO2017005207A1 (zh) 一种输入方法、输入装置、服务器和输入系统
US20180285448A1 (en) Producing personalized selection of applications for presentation on web-based interface
CN111368555B (zh) 一种数据识别方法、装置、存储介质和电子设备
CN112131401A (zh) 一种概念知识图谱构建方法和装置
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
US20130132433A1 (en) Method and system for categorizing web-search queries in semantically coherent topics
Squicciarini et al. From tag to protect: A tag-driven policy recommender system for image sharing
CN113407738B (zh) 一种相似文本检索方法、装置、电子设备和存储介质
CN114428842A (zh) 一种扩充问答库的方法、装置、电子设备及可读存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN113822038A (zh) 一种摘要生成方法和相关装置
KR101955920B1 (ko) 속성 언어를 이용한 검색 방법 및 장치
CN113392177A (zh) 一种关键词获取方法、装置、电子设备及存储介质
Wu et al. Multiple hypergraph clustering of web images by miningword2image correlations
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备
CN110688559A (zh) 一种检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051385

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination