CN105488027A - 关键词的推送方法和装置 - Google Patents
关键词的推送方法和装置 Download PDFInfo
- Publication number
- CN105488027A CN105488027A CN201510857360.8A CN201510857360A CN105488027A CN 105488027 A CN105488027 A CN 105488027A CN 201510857360 A CN201510857360 A CN 201510857360A CN 105488027 A CN105488027 A CN 105488027A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- text
- keyword
- weight
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了关键词的推送方法和装置。所述方法的一具体实施方式包括:获取关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集合包括至少一个文本;确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关键词为所述关键词集合中的任一关键词;确定所述文本集合中,与所述第一关键词的关联度超过预定关联度阈值的文本的比例;以及基于所述比例超过预定比例,向终端发送所述第一关键词。该实施方式实现了关键词精简且准确的推送。
Description
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及关键词的推送方法和装置。
背景技术
推送,又称为“网络广播”,是通过一定的技术标准或协议,在互联网上通过推送用户需要的信息来减少信息过载的一项技术。目前,业内往往是通过收集用户历史搜索或点击的关键词等信息,向用户推送可能感兴趣的文本搜索关键词。然而,大量的用户历史数据和海量的文本信息往往会导致用户收到的关键词过量且缺乏准确性,浪费了大量的网络资源。因此,如何向用户推送精简且准确的搜索关键词是目前亟需解决的问题。
发明内容
本申请的目的在于提出一种改进的关键词的推送方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种关键词的推送方法,所述方法包括:获取关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集合包括至少一个文本;确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关键词为所述关键词集合中的任一关键词;确定所述文本集合中,与所述第一关键词的关联度超过预定关联度阈值的文本的比例;以及基于所述比例超过预定比例,向终端发送所述第一关键词。
在一些实施例中,各所述文本包括标题和至少一个段落;所述确定第一关键词与所述文本集合中的各所述文本的关联度,包括:获取所述第一关键词在所述文本中的位置信息;基于所述第一关键词的位置信息与所述文本的标题的匹配,确定所述标题的权重;基于所述第一关键词的位置信息与所述文本的第一段落的匹配,确定所述第一段落的权重,其中,所述第一段落为所述文本中的任一段落;基于所述标题的权重和各所述第一段落的权重,确定所述第一关键词与所述文本的关联度。
在一些实施例中,所述基于所述第一关键词的位置信息与所述文本的第一段落的匹配,确定所述第一段落的权重,包括:根据所述第一关键词的位置信息与所述文本的首段和所述文本的不同于所述首段的末段的匹配,确定所述首段的权重和所述末段的权重;基于所述第一关键词的位置信息与所述文本的各所述第一段落的首句匹配,确定各所述第一段落的首句的权重。
在一些实施例中,所述基于所述第一关键词的位置信息与所述文本的各所述第一段落的首句匹配,确定各所述第一段落的首句的权重,包括:根据如下公式确定各所述第一段落在所述文本中的分布:
其中,sPos(i)表示所述第一段落在所述文本中的分布,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数,λ为预设参数值;根据各所述第一段落的字符总数和该所述第一段落的首句的字符数,确定各所述第一段落的首句在该所述第一段落中的占比;基于所述分布和所述占比,确定各所述第一段落的首句在所述文本中的比重;基于所述第一关键词的位置信息和各所述第一段落的首句在所述文本中的比重,确定各所述第一段落的首句的权重。
在一些实施例中,所述基于所述分布和所述占比,确定各所述第一段落的首句在所述文本中的比重,包括:根据如下表达式确定各所述第一段落的首句在所述文本中的比重:weight(firstSeni)=sLen(firstLeni,paraLeni)*sPos(i)*β,其中,weight(firstSeni)表示所述第一段落的首句在所述文本中的比重,sLen(firstLeni,paraLeni)表示所述第一段落的首句在该所述第一段落中的占比,sPos(i)表示所述第一段落在所述文本中的分布,β为归一化参数,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数;根据如下表达式确定所述占比:sLen(firstleni,paraLeni)=1-firstleni/paraLeni+α,其中,firstleni表示所述第一段落的首句的字符数,paraLeni表示所述第一段落的总字符数,α为预设参数值;根据以下表达式确定所述归一化参数β:
在一些实施例中,所述基于所述标题的权重和各所述第一段落的权重,确定所述第一关键词与所述文本的关联度,包括:基于所述标题的权重、所述首段的权重、所述末段的权重以及各所述第一段落的首句的权重,确定所述第一关键词与所述文本的关联度。
在一些实施例中,所述基于所述标题的权重、所述首段的权重、所述末段的权重以及各所述第一段落的首句的权重,确定所述第一关键词与所述文本的关联度,包括:根据如下表达式确定所述第一关键词与所述文本的关联度:
第二方面,本申请提供了一种关键词的推送装置,所述装置包括:获取单元,配置用于获取关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集合包括至少一个文本;第一确定单元,配置用于确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关键词为所述关键词集合中的任一关键词;第二确定单元,配置用于确定所述文本集合中,与所述第一关键词的关联度超过预定关联度阈值的文本的比例;以及发送单元,配置用于基于所述比例超过预定比例,向终端发送所述第一关键词。
在一些实施例中,各所述文本包括标题和至少一个段落;所述第一确定单元包括:位置信息获取模块,配置用于获取所述第一关键词在所述文本中的位置信息;标题权重确定模块,配置用于基于所述第一关键词的位置信息与所述文本的标题的匹配,确定所述标题的权重;第一段落权重确定模块,配置用于基于所述第一关键词的位置信息与所述文本的第一段落的匹配,确定所述第一段落的权重,其中,所述第一段落为所述文本中的任一段落;关联度确定模块,配置用于基于所述标题的权重和各所述第一段落的权重,确定所述第一关键词与所述文本的关联度。
在一些实施例中,所述第一段落权重确定模块具体用于:根据所述第一关键词的位置信息与所述文本的首段和所述文本的不同于所述首段的末段的匹配,确定所述首段的权重和所述末段的权重;基于所述第一关键词的位置信息与所述文本的各所述第一段落的首句匹配,确定各所述第一段落的首句的权重。
在一些实施例中,所述第一段落权重确定模块进一步配置用于:根据如下公式确定各所述第一段落在所述文本中的分布:其中,sPos(i)表示所述第一段落在所述文本中的分布,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数,λ为预设参数值;根据各所述第一段落的字符总数和该所述第一段落的首句的字符数,确定各所述第一段落的首句在该所述第一段落中的占比;基于所述分布和所述占比,确定各所述第一段落的首句在所述文本中的比重;基于所述第一关键词的位置信息和各所述第一段落的首句在所述文本中的比重,确定各所述第一段落的首句的权重。
在一些实施例中,所述第一段落权重确定模块进一步配置用于:根据如下表达式确定各所述第一段落的首句在所述文本中的比重:weight(firstSeni)=sLen(firstLeni,paraLeni)*sPos(i)*β,其中,weight(firstSeni)表示所述第一段落的首句在所述文本中的比重,sLen(firstLeni,paraLeni)表示所述第一段落的首句在该所述第一段落中的占比,sPos(i)表示所述第一段落在所述文本中的分布,β为归一化参数,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数;根据如下表达式确定所述占比:sLen(firstleni,paraLeni)=1-firstleni/paraLeni+α,其中,firstleni表示所述第一段落的首句的字符数,paraLeni表示所述第一段落的总字符数,α为预设参数值;根据以下表达式确定所述归一化参数β:
在一些实施例中,所述关联度确定模块具体用于:基于所述标题的权重、所述首段的权重、所述末段的权重以及各所述第一段落的首句的权重,确定所述第一关键词与所述文本的关联度。
在一些实施例中,所述关联度确定模块进一步配置用于:根据如下表达式确定所述第一关键词与所述文本的关联度:
本申请提供的关键词的推送方法和装置,通过确定关键词集合中任一关键词与文本集合中各文本的关联度,获取文本集合中与上述关键词的关联度大于预定关联度阈值的文本数量,而后确定该数量在文本集合中文本总数中的比例,最后基于所述比例大于预定比例,向终端推送该关键词,通过该方法可以确定向终端推送的关键词集合中的所有关键词,实现了关键词的精简且准确的推送。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的关键词的推送方法的一个实施例的流程图;
图3是根据本申请的关键词的推送方法的又一个实施例的流程图;
图4是根据本申请的关键词的推送方法中,确定各第一段落的权重的一种实现方式的示意性流程图;
图5是根据本申请的关键词的推送装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的关键词的推送方法或关键词的推送装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等,借助于输入法应用,用户可以对终端设备上的各种应用进行信息输入。
终端设备101、102、103可以是具有显示屏并且支持信息浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的输入法应用、文件管理类应用等提供支持的数据库服务器或云服务器。服务器可以对接收到的数据进行存储、分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的关键词的推送方法一般由服务器105执行,相应地,关键词的推送装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的关键词的推送方法的一个实施例的流程200。所述的关键词的推送方法,包括以下步骤:
步骤201,获取关键词集合和文本集合。
在本实施例中,关键词的推送方法运行于其上的电子设备(例如图1所示的服务器)可以在本地或者其它电子设备获取关键词集合和文本集合,其中,上述关键词集合包括至少一个关键词,上述文本集合包括至少一个文本。这里,上述电子设备可以通过对用户历史行为数据的分析等方法来预先存储多个关键词。
步骤202,确定第一关键词与文本集合中的各文本的关联度。
在本实施例中,第一关键词为上述关键词集合中的任一关键词。基于步骤201中得到的关键词集合和文本集合,上述电子设备(例如图1所示的服务器)可以首先从关键词集合中获取第一关键词;之后再利用各种分析手段确定上述第一关键词与上述文本集合中各文本的关联度。
在本实施例的一些可选的实现方式中,可以通过计算关键词在文本中出现的次数来确定第一关键词与各文本的关联度。例如,可以对上述第一关键词在文本中出现频率进行统计,之后,再根据文本的字符数或段落数和上述统计的频率计算第一关键词与文本的关联度。
步骤203,确定文本集合中,与第一关键词的关联度超过预定关联度阈值的文本的比例。
在本实施例中,上述电子设备(例如图1所示的服务器)可以首先设置第一关键词和文本集合中的各文本的关联度阈值。之后,基于步骤202得到的第一关键词和文本集合中的各文本的关联度,确定上述关联度大于关联度阈值的文本数目。最后,确定与第一关键词的关联度超过预定关联度阈值的文本在文本集合中的比例。
步骤204,基于比例超过预定比例,向终端推送第一关键词。
在本实施例中,上述电子设备(例如图1所示的服务器)可以首先设置预定比例。之后,将上述获取的比例与预定比例相对比,若上述获取的比例大于预定比例,则将上述第一关键词推送给终端;若上述获取的比例小于或等于预定比例,则不推送上述第一关键词。用户可以通过第一关键词查看与其相关联的信息,例如,该相关联的信息可以是与所述关键词相关的新闻文本、热门话题、股票等。
本申请的上述实施例提供的方法通过确定关键词与文本集合的各文本的关联度和与关键词的关联度超过预定关联度阈值的文本在文本集合中的比例,基于比例超过预定比例,确定推送该关键词,该方法使得推送的关键词数量减少,且经过确定关联度大于预定关联度阈值,提高了关键词推送的准确性。
继续参考图3,其示出了关键词的推送方法的又一个实施例的流程300。该关键词的推送方法的流程300,包括以下步骤:
步骤301,获取关键词集合和文本集合。
在本实施例中,关键词的推送方法运行于其上的电子设备(例如图1所示的服务器)可以在本地或者其它电子设备获取关键词集合和文本集合,其中,上述关键词集合包括至少一个关键词,上述文本集合包括至少一个文本。这里,上述电子设备可以通过对用户历史行为数据的分析等方法来预先存储多个关键词。
步骤302,获取第一关键词在文本中的位置信息。
在本实施例中,上述电子设备将第一关键词在文本中匹配,并获取第一关键词在文本中的位置信息。这里,可以将文本作为输入,通过字符串匹配算法,对关键词的字符串进行匹配。在某些情况下,为了节省内存空间,还可以将文本分为若干块,再对各个块进行字符串匹配的方法进行处理。
步骤303,基于第一关键词的位置信息与文本的标题的匹配,确定标题的权重。
在本实施例中,上述电子设备根据上述获取的第一关键词在文本中的位置信息,判断第一关键词是否在文本的标题中匹配,之后基于匹配结果确定在第一关键词与该文本的关联度中文本的标题的权重。
步骤304,基于第一关键词的位置信息与文本的第一段落的匹配,确定第一段落的权重。
在本实施例中,上述电子设备根据上述获取的第一关键词在文本中的位置信息,判断第一关键词是否在文本的第一段落中匹配,之后根据匹配结果确定在第一关键词与该文本的关联度中文本的第一段落的权重。其中,上述第一段落为上述文本中的任一段落。
在本实施例的一些可选的实现方式中,上述电子设备可以根据上述文本的字符数和上述第一段落的字符数确定该第一段落在上述文本的比重,之后根据上述比重和第一关键词在文本中的位置信息确定该文本的第一段落的权重。
在本实施例的一些可选的实现方式中,上述电子设备可以根据上述文本的总段落数和上述第一段落在该文本中的位置(例如该第一段落的该文本中的位置可以为该文本的第2段)确定该第一段落在上述文本的比重,之后根据上述比重和第一关键词在文本中的位置信息确定该文本的第一段落的权重。
步骤305,基于标题的权重和各第一段落的权重,确定第一关键词与文本的关联度。
在本实施例中,上述电子设备根据步骤303确定的标题的权重和步骤304确定的各第一段落的权重,计算上述第一关键词与上述文本的关联度。
在本实施例的一些可选的实现方式中,根据文本中的标题、各第一段落以及各第一段落中的每句话在文本中重要程度的不同,在计算第一关键词与文本的关联度时可以对文本进行结构的划分,提取文本的标题、文本的首段、不同于首段的末段以及各第一段落的首句等,并根据其重要程度设置不同的系数。这种将文本进行结构划分的方法可以提高第一关键词与文本的关联度的计算精确度。
步骤306,确定文本集合中,与第一关键词的关联度超过预定关联度阈值的文本的比例。
在本实施例中,上述电子设备可以首先设置第一关键词和文本集合中的各文本的关联度阈值。之后,基于步骤305得到的第一关键词和文本集合中的各文本的关联度,确定上述关联度大于关联度阈值的文本数目。最后,计算出与第一关键词的关联度超过预定关联度阈值的文本在文本集合中所占的比例。
步骤307,基于比例超过预定比例,向终端推送第一关键词
在本实施例中,上述电子设备可以首先设置预定比例。之后,将上述获取的比例与预定比例相对比。若上述获取的比例大于预定比例,则将上述第一关键词推送给终端;若上述获取的比例小于或等于预定比例,则不推送上述第一关键词。用户可以通过第一关键词查看与其相关联的文本、股票等信息。
从图3中可以看出,与图2对应的实施例相比,本实施例中的关键词的推送方法的流程300给出了确定第一关键词与文本集合中的各文本的关联度的具体步骤。由此,本实施例描述方案通过第一关键词在文本中的位置信息,确定标题的权重和各第一段落的权重,从而可以更加精确的计算出第一关键词与文本的关联度,实现了关键词精简且准确的推送。
在一些可选的方案中,如图4所示,步骤304的确定各第一段落的权重可以通过如下步骤来实现:
步骤401,根据第一关键词的位置信息与文本的首段和文本的不同于首段的末段的匹配,确定首段的权重和末段的权重。
在本实现方式中,上述电子设备根据上述获取的第一关键词在文本中的位置信息,判断第一关键词是否在文本的首段和文本的末段中匹配,之后根据匹配结果确定在第一关键词与该文本的关联度中文本的首段和文本的末段的权重。其中,文本的末段是不同于文本首段的第一段落。
步骤402,确定各第一段落在文本中的分布。
在本实现方式中,上述电子设备首先获取上述文本的总段落数和各第一段落在该文本的中的段落位置,之后根据上述总段落数和段落位置确定各第一段落在文本中的分布。这里,段落位置表示该第一段落在该文本中是第i段,其中i为整数且1≤i≤n,n表示上述文本的段落总数。
需要说明的是,可以根据如下表达式确定各第一段落在文本中的分布。当第一段落为文本中的第i段时:
其中,sPos(i)表示第i段在文本中的分布,i为整数且1≤i≤n,n表示上述文本的段落总数,λ为预设参数值且通常为大于0的实数。在一些可选的实现方式中,可以通过机器学习的方式获取预设参数值λ。例如,上述文本的总段落数n=4,上述第一段落为文本中的第2段,且机器学习获得预设参数值λ=0.5,则第2段在文本中的分布为sPos(2),其中:
即当上述文本包括5个段落,并且上述第一段落为该文本的第2段时,该第一段落的分布sPos(2)=2/9。
步骤403,根据各第一段落的字符总数和该第一段落的首句的字符数,确定各第一段落的首句在该第一段落中的占比。
在本实现方式中,上述电子设备首先获取第一段落的总字符数和该第一段落的首句的字符数,之后根据所获取的第一段落的总字符数和该第一段落的首句的字符数确定该第一段落的首句在该第一段落中的占比。
在一些可选的实现方式中,可以根据如下表达式确定各第一段落的首句在该段落中的占比。当第一段落为文本中的第i段时:
sLen(firstleni,paraLeni)=1-firstleni/parLeni+α
其中,sLen(firstleni,paraLeni)表示第i段的首句在该段落中的占比,firstleni表示第i段的首句的字符数,paraLeni表示第i段的总字符数,α为预设参数值且通常为大于0的实数。例如,上述第一段落为文本中的第2段,第2段的首句的字符数firstlen2=15,第2段的总字符数paraLen2=30,且机器学习获得预设参数值α=0.005,则第2段的首句在该段落中的占比为sLen(firstlen2,paraLen2),其中:
sLen(firstlen2,paraLen2)=1-firstlen2/paraLen2+α=1-15/30+0.005=0.505,即当上述第一段落的首句包括15个字符,该第一段落包括30个字符时,该第一段落的首句在该段落中的占比sLen(firstlen2,paraLen2)=0.505。
步骤404,基于分布和占比,确定各第一段落的首句在文本中的比重。
在本实现方式中,利用步骤402确定的各第一段落在文本中的分布和步骤403确定的各第一段落的首句在该第一段落中的占比,可以确定各第一段落的首句在文本中的比重。
在一些可选的实现方式中,可以根据如下表达式确定各第一段落的首句在文本中的比重。当第一段落为文本中的第i段时:
weight(firstSeni)=sLen(firstLeni,paraLeni)*sPos(i)*β
其中,weight(firstSeni)表示第i段的首句在文本中的比重,sLen(firstLeni,paraLeni)表示第i段的首句在该第一段落中的占比,sPos(i)表示第i段在文本中的分布情况,β为归一化参数,其中i为整数且1≤i≤n,n表示文本的段落总数。需要说明的是,归一化参数β可以根据如下表达式确定:
步骤405,基于第一关键词的位置信息和各第一段落的首句在文本中的比重,确定各第一段落的首句的权重。
在本实现方式中,上述电子设备首先将第一关键词的位置信息与各第一段落的首句相匹配,之后再基于上述获取的各第一段落的首句在文本中的比重确定各第一段落的首句的权重。
在本实施例的一些可选的实现方式中,上述电子设备可以基于标题的权重、首段的权重、末段的权重以及各第一段落的首句的权重,确定第一关键词与文本的关联度。这里,可以根据如下表达式确定第一关键词与文本的关联度:
其中,ω表示上述关联度,match(title)、match(firstparagraph)、match(endparagraph)和match(firstSeni)分别表示第一关键词的位置信息与标题、首段、末段和各第一段落的首句匹配的结果,上述结果为匹配则取值为1,上述结果为不匹配则取值为0,a1*match(title)表示标题中的权重,a2*match(firstparagraph)表示首段的权重,a3*match(endparagraph)表示末段的权重, 表示各第一段落的首句的权重,a1、a2、a3、a4为大于0且小于1的权重值,i为整数且1≤i≤n,n表示文本的段落总数,其中,a1+a2+a3+a4=1。
在本申请的上述实施例的实现方式提供的方法通过分别计算文本的首段、文本的末段和各第一段落的首句在上述关联度中的权重,进一步的提高了计算第一关键词与文本关联度的精确度。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种关键词的推送装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例所述的关键词的推送装置500包括:获取单元501、第一确定单元502、第二确定单元503和发送单元504。其中,获取单元501配置用于获取关键词集合和文本集合,其中,关键词集合包括至少一个关键词,文本集合包括至少一个文本;第一确定单元502配置用于确定第一关键词与文本集合中的各文本的关联度,其中,上述第一关键词为关键词集合中的任一关键词;第二确定单元503配置用于确定文本集合中,与上述第一关键词的关联度超过预定关联度阈值的文本的比例;而发送单元504配置用于基于上述比例超过预定比例,向终端发送上述第一关键词。
在本实施例中,关键词的推送装置500的获取单元501可以在本地或者其它电子设备获取关键词集合和文本集合,其中,上述关键词集合包括至少一个关键词,上述文本集合包括至少一个文本。
在本实施例中,基于获取单元501得到的关键词集合和文本集合,上述第一确定单元502可以首先从关键词集合中获取第一关键词;之后再利用各种手段确定上述第一关键词与文本集合中的各文本的关联度。
在本实施例中,关键词的推送装置500上可以预先设置关联度阈值和预定比例。由此,关键词的推送装置500的第二确定单元503可以确定上述文本集合中,与上述第一关键词的关联度超过预定关联度阈值的文本的比例。发送单元504可以基于上述比例超过预定比例,向终端发送上述第一关键词。
在本实施例的一些可选地实现方式中,第一确定单元502包括:位置信息获取模块(未示出),配置用于获取上述第一关键词在文本中的位置信息;标题权重确定模块(未示出),配置用于基于上述第一关键词的位置信息与文本的标题的匹配,确定该标题的权重;第一段落权重确定模块(未示出),配置用于基于上述第一关键词的位置信息与文本的第一段落的匹配,确定该第一段落的权重,其中,上述第一段落为该文本中的任一段落;关联度确定模块(未示出),配置用于基于上述标题的权重和各第一段落的权重,确定上述第一关键词与文本的关联度。其中,第一段落权重确定模块具体用于,根据上述第一关键词的位置信息与文本的首段和文本的不同于首段的末段的匹配,确定首段的权重和末段的权重;确定各第一段落在文本中的分布;根据各第一段落的字符总数和该段落的首句的字符数,确定各第一段落的首句在该段落中的占比;基于上述分布和上述占比,确定各第一段落的首句在文本中的比重;基于第一关键词的位置信息和各第一段落的首句在文本中的比重,获取各第一段落的首句的权重。
在本实施例的一些可选地实现方式中,上述关键词的推送装置500可以基于上述标题的权重、首段的权重、末段的权重以及各第一段落的首句的权重,确定上述第一关键词与文本的关联度。
本领域技术人员可以理解,上述关键词的推送装置500还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示出。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、第一确定单元、第二确定单元和推送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取关键词集合和文本集合的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集合包括至少一个文本;确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关键词为所述关键词集合中的任一关键词;确定所述文本集合中,与所述第一关键词的关联度超过预定关联度阈值的文本的比例;以及基于所述比例超过预定比例,向终端发送所述第一关键词。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种关键词的推送方法,其特征在于,所述方法包括:
获取关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集合包括至少一个文本;
确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关键词为所述关键词集合中的任一关键词;
确定所述文本集合中,与所述第一关键词的关联度超过预定关联度阈值的文本的比例;以及
基于所述比例超过预定比例,向终端发送所述第一关键词。
2.根据权利要求1所述的关键词的推送方法,其特征在于,各所述文本包括标题和至少一个段落;
所述确定第一关键词与所述文本集合中的各所述文本的关联度,包括:
获取所述第一关键词在所述文本中的位置信息;
基于所述第一关键词的位置信息与所述文本的标题的匹配,确定所述标题的权重;
基于所述第一关键词的位置信息与所述文本的第一段落的匹配,确定所述第一段落的权重,其中,所述第一段落为所述文本中的任一段落;
基于所述标题的权重和各所述第一段落的权重,确定所述第一关键词与所述文本的关联度。
3.根据权利要求2所述的关键词的推送方法,其特征在于,所述基于所述第一关键词的位置信息与所述文本的第一段落的匹配,确定所述第一段落的权重,包括:
根据所述第一关键词的位置信息与所述文本的首段和所述文本的不同于所述首段的末段的匹配,确定所述首段的权重和所述末段的权重;
基于所述第一关键词的位置信息与所述文本的各所述第一段落的首句匹配,确定各所述第一段落的首句的权重。
4.根据权利要求3所述的关键词的推送方法,其特征在于,所述基于所述第一关键词的位置信息与所述文本的各所述第一段落的首句匹配,确定各所述第一段落的首句的权重,包括:
根据如下公式确定各所述第一段落在所述文本中的分布:
其中,sPos(i)表示所述第一段落在所述文本中的分布,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数,λ为预设参数值;
根据各所述第一段落的字符总数和该所述第一段落的首句的字符数,确定各所述第一段落的首句在该所述第一段落中的占比;
基于所述分布和所述占比,确定各所述第一段落的首句在所述文本中的比重;
基于所述第一关键词的位置信息和各所述第一段落的首句在所述文本中的比重,确定各所述第一段落的首句的权重。
5.根据权利要求4所述的关键词的推送方法,其特征在于,所述基于所述分布和所述占比,确定各所述第一段落的首句在所述文本中的比重,包括:
根据如下表达式确定各所述第一段落的首句在所述文本中的比重:
weight(firstSeni)=sLen(firstLeni,paraLeni)*sPos(i)*β,
其中,weight(firstSeni)表示所述第一段落的首句在所述文本中的比重,sLen(firstLeni,paraLeni)表示所述第一段落的首句在该所述第一段落中的占比,sPos(i)表示所述第一段落在所述文本中的分布,β为归一化参数,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数;
根据如下表达式确定所述占比:
sLen(firstleni,paraLeni)=1-firstleni/paraLeni+α,
其中,firstleni表示所述第一段落的首句的字符数,paraLeni表示所述第一段落的总字符数,α为预设参数值;
根据以下表达式确定所述归一化参数β:
6.根据权利要求2-5之一所述的关键词的推送方法,其特征在于,所述基于所述标题的权重和各所述第一段落的权重,确定所述第一关键词与所述文本的关联度,包括:
基于所述标题的权重、所述首段的权重、所述末段的权重以及各所述第一段落的首句的权重,确定所述第一关键词与所述文本的关联度。
7.根据权利要求6所述的关键词的推送方法,其特征在于,所述基于所述标题的权重、所述首段的权重、所述末段的权重以及各所述第一段落的首句的权重,确定所述第一关键词与所述文本的关联度,包括:
根据如下表达式确定所述第一关键词与所述文本的关联度:
其中,ω表示所述关联度,match(title)、match(firstparagraph)、match(endparagraph)和match(firstSeni)分别表示所述第一关键词的位置信息与所述标题、所述首段、所述末段和各所述第一段落的首句匹配的结果,所述结果为匹配则取值为1,所述结果为不匹配则取值为0,a1*match(title)表示所述标题的权重,a2*match(firstparagraph)表示所述首段的权重,a3*match(endparagraph)表示所述末段的权重, 表示各所述第一段落的首句的权重,a1、a2、a3、a4为大于0且小于1的权重值,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数,其中,a1+a2+a3+a4=1。
8.一种关键词的推送装置,其特征在于,所述装置包括:
获取单元,配置用于获取关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集合包括至少一个文本;
第一确定单元,配置用于确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关键词为所述关键词集合中的任一关键词;
第二确定单元,配置用于确定所述文本集合中,与所述第一关键词的关联度超过预定关联度阈值的文本的比例;以及
发送单元,配置用于基于所述比例超过预定比例,向终端发送所述第一关键词。
9.根据权利要求8所述的关键词的推送装置,其特征在于,各所述文本包括标题和至少一个段落;
所述第一确定单元包括:
位置信息获取模块,配置用于获取所述第一关键词在所述文本中的位置信息;
标题权重确定模块,配置用于基于所述第一关键词的位置信息与所述文本的标题的匹配,确定所述标题的权重;
第一段落权重确定模块,配置用于基于所述第一关键词的位置信息与所述文本的第一段落的匹配,确定所述第一段落的权重,其中,所述第一段落为所述文本中的任一段落;
关联度确定模块,配置用于基于所述标题的权重和各所述第一段落的权重,确定所述第一关键词与所述文本的关联度。
10.根据权利要求9所述的关键词的推送装置,其特征在于,所述第一段落权重确定模块具体用于:
根据所述第一关键词的位置信息与所述文本的首段和所述文本的不同于所述首段的末段的匹配,确定所述首段的权重和所述末段的权重;
基于所述第一关键词的位置信息与所述文本的各所述第一段落的首句匹配,确定各所述第一段落的首句的权重。
11.根据权利要求10所述的关键词的推送装置,其特征在于,所述第一段落权重确定模块进一步配置用于:
根据如下公式确定各所述第一段落在所述文本中的分布:
其中,sPos(i)表示所述第一段落在所述文本中的分布,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数,λ为预设参数值;
根据各所述第一段落的字符总数和该所述第一段落的首句的字符数,确定各所述第一段落的首句在该所述第一段落中的占比;
基于所述分布和所述占比,确定各所述第一段落的首句在所述文本中的比重;
基于所述第一关键词的位置信息和各所述第一段落的首句在所述文本中的比重,确定各所述第一段落的首句的权重。
12.根据权利要求11所述的关键词的推送装置,其特征在于,所述第一段落权重确定模块进一步配置用于:
根据如下表达式确定各所述第一段落的首句在所述文本中的比重:
weight(firstSeni)=sLen(firstLeni,paraLeni)*sPos(i)*β,
其中,weight(firstSeni)表示所述第一段落的首句在所述文本中的比重,sLen(firstLeni,paraLeni)表示所述第一段落的首句在该所述第一段落中的占比,sPos(i)表示所述第一段落在所述文本中的分布,β为归一化参数,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数;
根据如下表达式确定所述占比:
sLen(firstleni,paraLeni)=1-firstleni/pardLeni+α,
其中,firstleni表示所述第一段落的首句的字符数,paraLeni表示所述第一段落的总字符数,α为预设参数值;
根据以下表达式确定所述归一化参数β:
13.根据权利要求9-12之一所述的关键词的推送装置,其特征在于,所述关联度确定模块具体用于:
基于所述标题的权重、所述首段的权重、所述末段的权重以及各所述第一段落的首句的权重,确定所述第一关键词与所述文本的关联度。
14.根据权利要求13所述的关键词的推送装置,其特征在于,所述关联度确定模块进一步配置用于:
根据如下表达式确定所述第一关键词与所述文本的关联度:
其中,ω表示所述关联度,match(title)、match(firstparagraph)、match(endparagraph)和match(firstSeni)分别表示所述第一关键词的位置信息与所述标题、所述首段、所述末段和各所述第一段落的首句匹配的结果,所述结果为匹配则取值为1,所述结果为不匹配则取值为0,a1*match(title)表示所述标题的权重,a2*match(firstparagraph)表示所述首段的权重,a3*match(endparagraph)表示所述末段的权重, 表示各所述第一段落的首句的权重,a1、a2、a3、a4为大于0且小于1的权重值,i表示所述第一段落在所述文本中的位置,i为整数且1≤i≤n,n表示所述文本的段落总数,其中,a1+a2+a3+a4=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510857360.8A CN105488027B (zh) | 2015-11-30 | 2015-11-30 | 关键词的推送方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510857360.8A CN105488027B (zh) | 2015-11-30 | 2015-11-30 | 关键词的推送方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105488027A true CN105488027A (zh) | 2016-04-13 |
CN105488027B CN105488027B (zh) | 2019-07-12 |
Family
ID=55675011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510857360.8A Active CN105488027B (zh) | 2015-11-30 | 2015-11-30 | 关键词的推送方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105488027B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106710592A (zh) * | 2016-12-29 | 2017-05-24 | 北京奇虎科技有限公司 | 一种智能硬件设备中的语音识别纠错方法和装置 |
CN107665222A (zh) * | 2016-07-29 | 2018-02-06 | 北京国双科技有限公司 | 关键词的拓展方法和装置 |
CN111737553A (zh) * | 2020-06-16 | 2020-10-02 | 苏州朗动网络科技有限公司 | 企业关联词的选取方法、设备和存储介质 |
CN113283235A (zh) * | 2021-07-21 | 2021-08-20 | 明品云(北京)数据科技有限公司 | 一种用户标签的预测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185607A1 (en) * | 2007-09-06 | 2010-07-22 | Tencent Technology (Shenzhen) Company Limited | Method and system for sorting internet music files, searching method and searching engine |
CN101984423A (zh) * | 2010-10-21 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
CN105045901A (zh) * | 2015-08-05 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 搜索关键词的推送方法和装置 |
-
2015
- 2015-11-30 CN CN201510857360.8A patent/CN105488027B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185607A1 (en) * | 2007-09-06 | 2010-07-22 | Tencent Technology (Shenzhen) Company Limited | Method and system for sorting internet music files, searching method and searching engine |
CN101984423A (zh) * | 2010-10-21 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
CN105045901A (zh) * | 2015-08-05 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 搜索关键词的推送方法和装置 |
Non-Patent Citations (1)
Title |
---|
闫兴龙 等: "面向浏览推荐的网页关键词提取", 《智能系统学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665222A (zh) * | 2016-07-29 | 2018-02-06 | 北京国双科技有限公司 | 关键词的拓展方法和装置 |
CN107665222B (zh) * | 2016-07-29 | 2020-11-06 | 北京国双科技有限公司 | 关键词的拓展方法和装置 |
CN106710592A (zh) * | 2016-12-29 | 2017-05-24 | 北京奇虎科技有限公司 | 一种智能硬件设备中的语音识别纠错方法和装置 |
CN111737553A (zh) * | 2020-06-16 | 2020-10-02 | 苏州朗动网络科技有限公司 | 企业关联词的选取方法、设备和存储介质 |
CN113283235A (zh) * | 2021-07-21 | 2021-08-20 | 明品云(北京)数据科技有限公司 | 一种用户标签的预测方法及系统 |
CN113283235B (zh) * | 2021-07-21 | 2021-11-19 | 明品云(北京)数据科技有限公司 | 一种用户标签的预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105488027B (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183912A (zh) | 异常日志确定方法和装置 | |
US10762283B2 (en) | Multimedia document summarization | |
CN105550173A (zh) | 文本校正方法和装置 | |
CN101517967B (zh) | 网站的流量预测 | |
CN105320766A (zh) | 信息推送方法和装置 | |
CN109493199A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
US20160103758A1 (en) | Online product testing using bucket tests | |
CN106919711B (zh) | 基于人工智能的标注信息的方法和装置 | |
CN105095394A (zh) | 网页生成方法和装置 | |
CN105488027A (zh) | 关键词的推送方法和装置 | |
CN105488163B (zh) | 信息推送方法和装置 | |
US20190080352A1 (en) | Segment Extension Based on Lookalike Selection | |
CN107193932B (zh) | 信息推送方法和装置 | |
CN112287238B (zh) | 用户特征的确定方法和装置、存储介质及电子设备 | |
CN105426508A (zh) | 网页生成方法和装置 | |
US10497059B1 (en) | Method and system for providing real time access to relevant energy policy and regulatory data | |
CN107346344A (zh) | 文本匹配的方法和装置 | |
CN105138698A (zh) | 网页的动态布局方法和装置 | |
CN103377186B (zh) | 基于命名实体识别的Web服务整合装置、方法以及设备 | |
CN108694174B (zh) | 内容投放数据的分析方法及装置 | |
CN105488161A (zh) | 信息推送方法和装置 | |
CN105574091A (zh) | 信息推送方法及装置 | |
CN105808744A (zh) | 信息预测的方法和装置 | |
KR102575433B1 (ko) | 마케터의 재검수 기능을 포함하는 광고 예약 시스템 | |
CN108241699B (zh) | 用于推送信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20160413 Assignee: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd. Assignor: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Contract record no.: X2020990000190 Denomination of invention: Off-line keyword pushing method and device Granted publication date: 20190712 License type: Common License Record date: 20200417 |
|
EE01 | Entry into force of recordation of patent licensing contract |