CN114222000A - 信息推送方法、装置、计算机设备和存储介质 - Google Patents

信息推送方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114222000A
CN114222000A CN202111520068.9A CN202111520068A CN114222000A CN 114222000 A CN114222000 A CN 114222000A CN 202111520068 A CN202111520068 A CN 202111520068A CN 114222000 A CN114222000 A CN 114222000A
Authority
CN
China
Prior art keywords
target object
search text
text file
search
object information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111520068.9A
Other languages
English (en)
Other versions
CN114222000B (zh
Inventor
邓涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202111520068.9A priority Critical patent/CN114222000B/zh
Publication of CN114222000A publication Critical patent/CN114222000A/zh
Application granted granted Critical
Publication of CN114222000B publication Critical patent/CN114222000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及一种信息推送方法、装置、计算机设备和存储介质。该方法包括:获取与目标对象信息相对应的搜索历史数据集合;分别对各搜索文本文件进行关键词提取;基于多个关键词生成目标对象信息的备选标签;分别获取搜索得到目标对象信息时目标对象信息被点击的概率;根据目标对象信息被点击的概率筛选出至少一个备选标签;基于至少一个备选标签获取并推送目标信息。本发明的方法从对应目标对象信息的搜索历史数据集合中的搜索文本文件挖掘得到目标标签,符合用户的搜索习惯,更能够满足用户的需求,方法实现更加简单,节省了人力和时间,同时提升了目标对象信息确定的准确性,克服了现有技术的盲目推送信息、运营成本高且推送效果不理想的缺陷。

Description

信息推送方法、装置、计算机设备和存储介质
技术领域
本发明涉及通信领域,特别是涉及信息推送方法、装置、计算机设备和存储介质。
背景技术
信息推送作为一种常规且非常重要的手段,广泛应用于获取新用户、活跃用户、促成交易等业务运营场景。然而现有常见的信息推送,是查询系统用户,将大量信息随时推送给用户,若系统的用户量非常大。每天推送的运营信息,可能达到千万级别,那么必然带来运营成本居高不下。且大量信息中包含了用户感兴趣的信息,同时也包含了用户不感兴趣的信息,使得用户被不感兴趣的垃圾信息所骚扰,当用户想看到感兴趣的信息时,需要从大量垃圾信息中进行查找,浪费了用户的时间,必然达不到想要的运营效果。综上,现有技术的信息推送存在盲目海量推送,运营成本高,推送效果不理想等问题。
发明内容
基于此,有必要针对在进行信息推送时,存在盲目海量推送,运营成本高,推送效果不理想的问题,提供一种信息推送方法、装置、计算机设备和存储介质。
一种信息推送方法,应用于服务器,包括:
获取与目标对象信息相对应的搜索历史数据集合;所述搜索历史数据集合包括多个各不相同的搜索文本文件;
分别对各所述搜索文本文件进行关键词提取,得到多个关键词;
基于所述多个关键词,生成目标对象信息的备选标签;
分别获取以各所述备选标签作为搜索文本文件进行信息搜索得到目标对象信息时,所述目标对象信息被点击的概率;
根据所述目标对象信息被点击的概率筛选出至少一个备选标签;
基于所述至少一个备选标签获取目标信息并推送所述目标信息。
在其中一个实施例中,所述基于所述至少一个备选标签获取目标信息并推送所述目标信息,包括:
为每一个所述备选标签赋予对应的权重系数,得到所述目标对象信息的至少一个目标标签以及所述至少一个目标标签所对应的权重系数;
根据各所述目标标签以及对应的权重系数,获取各所述目标标签的权重系数之和大于预设阈值的目标对象信息作为目标信息,推送所述目标信息。
在其中一个实施例中,所述获取与目标对象信息相对应的搜索历史数据集合,包括:
获取预设时间段内的历史搜索记录;
根据所述历史搜索记录,统计得到被点击过的目标对象信息的搜索文本文件;其中,所述被点击过的目标对象信息在被呈现后存在点击数据;
根据统计得到的多个所述搜索文本文件,构建与所述目标对象信息相对应的搜索历史数据集合。
在其中一个实施例中,所述分别对各所述搜索文本文件进行关键词提取,得到多个关键词,包括:
对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词;
从对应于所述第一搜索文本文件的多个词中提取关键词,得到对应于所述第一搜索文本文件的多个关键词;
其中,所述第一搜索文本文件为所有所述搜索文本文件中的任一个。
在其中一个实施例中,所述对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词,包括:
确定所述第一搜索文本文件的每个字符所对应的对应概率集;
根据各个字符对应的所述对应概率集,预测各个字符在分词结果中的位置以及所属的领域,以确定所述第一搜索文本文件的分词结果,得到对应于所述第一搜索文本文件的多个词。
在其中一个实施例中,所述基于所述多个关键词,生成目标对象信息的备选标签,包括:
基于提取得到的所述多个关键词,对对应于同一所述搜索文本文件的多个关键词进行组合,得到关键词组;
当包含所述关键词组的搜索文本文件的搜索次数达到第二次数阈值时,将所述关键词组作为所述目标对象信息的备选标签。
在其中一个实施例中,所述分别对各所述搜索文本文件进行关键词提取,得到多个关键词,包括:
获取各所述搜索文本文件对应的点击次数;所述点击次数为基于搜索文本文件搜索目标对象信息时,目标对象信息被点击的次数;
基于各所述搜索文本文件所对应的点击次数,对所述搜索历史数据集合中的搜索文本文件进行筛选,得到对应的点击次数达到第一次数阈值的搜索文本文件;
对筛选得到的搜索文本文件进行关键词提取,得到多个关键词。
一种信息推送装置,包括:
第一获取模块,用于获取与目标对象信息相对应的搜索历史数据集合;所述搜索历史数据集合包括多个各不相同的搜索文本文件;
提取模块,用于分别对各所述搜索文本文件进行关键词提取,得到多个关键词;
生成模块,用于基于所述多个关键词,生成目标对象信息的备选标签;
第二获取模块,用于分别获取以各所述备选标签作为搜索文本文件进行信息搜索得到目标对象信息时,所述目标对象信息被点击的概率;
筛选模块,用于根据所述目标对象信息被点击的概率筛选出至少一个备选标签;
获取推送模块,用于基于所述至少一个备选标签获取目标信息并推送所述目标信息。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述信息推送方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述信息推送方法的步骤。
上述信息推送方法、装置、计算机设备和存储介质,从对应目标对象信息的搜索历史数据集合中的搜索文本文件挖掘得到目标标签,符合用户的搜索习惯,更能够满足用户的需求,方法实现更加简单,节省了人力和时间,同时提升了目标对象信息确定的准确性,克服了现有技术的盲目推送信息、运营成本高且推送效果不理想的缺陷。
附图说明
图1为本申请实施例的信息推送方法的实施环境图;
图2为一个实施例中提供的信息推送方法的流程图;
图3为图2中步骤S10的一个实施方式的流程图;
图4为图2中步骤S20的一个实施方式的流程图;
图5为一个实施例中的对第一搜索文本文件进行分词处理的流程图;
图6为图2中步骤S30的一个实施方式的流程图;
图7为图2中步骤S60的一个实施方式的流程图;
图8为一个实施例中信息推送装置的结构框图;
图9为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。还应理解的是,虽然术语“第一”、“第二”、“第三”等在文本中在一些本申请实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语仅用于区分各种元素。
图1为一个实施例中信息推送方法的应用环境图。服务器110与终端120通过网络连接。服务器110获取与目标对象信息相对应的搜索历史数据集合,所述搜索历史数据集合包括多个各不相同的搜索文本文件;分别对各所述搜索文本文件进行关键词提取,得到多个关键词;基于所述多个关键词,生成目标对象信息的备选标签;分别获取以各所述备选标签作为搜索文本文件进行信息搜索得到目标对象信息时,所述目标对象信息被点击的概率;根据所述目标对象信息被点击的概率筛选出至少一个备选标签;基于所述至少一个备选标签获取目标信息并推送所述目标信息到终端120。终端120具体可以是台式终端或移动终端,移动终端具体可以是智能手机、平板电脑或笔记本电脑等移动终端设备。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提出了一种信息推送方法,应用于服务器,该信息推送方法,具体可以包括步骤S10-步骤S60。
步骤S10、获取与目标对象信息相对应的搜索历史数据集合。
其中,搜索历史数据集合包括多个(两个或两个以上)各不相同的搜索文本文件。
这些搜索文本文件为用于被搜索到之后被点击过的目标对象信息的文本文件。被点击过的目标对象信息在被呈现后存在点击数据,根据点击数据可以确定被点击过的目标对象信息。用户通过搜索文本文件搜索得到目标对象信息,并且该目标对象信息被用户通过终端所访问。目标对象信息被展示后存在点击数据,表征在终端展示目标对象信息后用户通过终端访问了该目标对象信息。
参考图3所示,在某些实施方式中,步骤S10包括以下步骤:
S101、获取预设时间段内的历史搜索记录。
例如,可以获取最近半年的历史搜索记录。
S102、根据所述历史搜索记录,统计得到被点击过的目标对象信息的搜索文本文件;其中,所述被点击过的目标对象信息在被呈现后存在点击数据。
搜索文本文件可以用于对用户进行画像,分析用户行为,进行大数据分析。
S103、根据统计得到的多个搜索文本文件,构建与目标对象信息相对应的搜索历史数据集合。
具体地,若根据历史搜索记录,确定用户通过某一搜索文本文件搜索得到包括目标对象信息的搜索结果,并通过终端点击了目标对象信息,则将该搜索文本文件作为搜索历史数据集合中的搜索文本文件。
步骤S20、分别对各搜索文本文件进行关键词提取,得到多个关键词。
在实际应用场景中,分别从各个搜索文本文件中提取出具有实际意义的词作为关键词,例如名词、属于命名实体的词、出现频率较高的词等等。而对于无实际意义的词,例如虚词(例如“同”、“和”、“跟”、“与”、“及”、“或”、“而”、“而且”、“并”、“并且”等等)、助词(例如“的”、“地”、“得”、“着”、“了”、“过”等等)等,由于这些无实际意义的词仅仅是附加在词、短语或句子上起辅助作用,因此不对其进行提取。
如图4所示,在某些实施方式中,步骤S20可以包括以下步骤:
步骤(201)、获取各搜索文本文件对应的点击次数,点击次数为基于搜索文本文件搜索目标对象信息时,目标对象信息被点击的次数;
步骤(202)、基于各搜索文本文件所对应的点击次数,对搜索历史数据集合中的搜索文本文件进行筛选,得到对应的点击次数达到第一次数阈值的搜索文本文件;
步骤(203)对筛选得到的搜索文本文件进行关键词提取,得到多个关键词。
点击次数是指在预设时间段内,基于搜索文本文件搜索得到目标对象信息时,目标对象信息被点击的总次数。即,若在预设时间段内,多次基于该搜索文本文件搜索目标对象信息,将每一次基于搜索文本文件搜索到目标对象信息后,点击目标对象信息的次数进行累加,得到该搜索文本文件对应的点击次数。
在实际应用中,判断各搜索文本文件对应的点击次数是否达到第一次数阈值,若达到,则提取该搜索文本文件中的关键词;否则,剔除该搜索文本文件。例如,可以将次数阈值设置为200,仅对对应的点击次数达到200的搜索文本文件进行关键词提取。
这里,搜索文本文件对应的点击次数越大,说明用户基于该搜索文本文件搜索目标对象信息的概率越大,本实施例通过根据搜索文本文件对应的点击次数,筛选搜索文本文件,过滤掉用于搜索目标对象信息的概率较小的搜索文本文件,以避免影响目标标签确定的准确性。
在某些实施方式中,步骤S20可以通过以下方式得到多个关键词:
对第一搜索文本文件进行分词处理,得到对应于第一搜索文本文件的多个词;
分别从对应于第一搜索文本文件的多个词中提取关键词,得到对应于第一搜索文本文件的多个关键词;
其中,第一搜索文本文件为所有搜索文本文件中的任一个。
如图5所示,在某些实施方式中,对第一搜索文本文件进行分词处理,包括以下步骤:
S201、确定第一搜索文本文件的每个字符所对应的对应概率集。
其中,所述对应概率集中的对应概率与潜变量一一对应,所述对应概率用于表征所述字符与对应的潜变量之间的对应关系。
潜变量用于标记字符在分词结果中的位置以及该字符所属的领域。潜变量(latent variable)也称为隐变量。
每个潜变量可以包括不同的标签,例如可以包括用于标记分词结果中字符的位置的标签以及用于标记字符所属的领域的标签。
字符的位置可以为在一个词的开头、一个词的中间或一个词的末尾,字符还可以是一个单字词等。领域反应了根据词表和表达方式划分文本的方式,不同领域的文本有不同的词表和差异化的表达方式,通过潜变量中用于标记字符所属领域的标签,可以标记同一字符的不同领域,例如,标记同一字符“锤”的领域为不同领域(如维修工具领域或手机领域等不同领域)的标签。
由于潜变量用于标记字符在分词结果中的位置以及字符所对应的领域,而且,一个字符可以属于不同的领域,当字符所属的领域不同时,在分词结果中的位置可能相同也可能不同,所以一个字符可以对应有多个潜变量。
由于对应概率用于表征所述字符与对应的潜变量之间的对应关系,且一个字符可以对应有多个潜变量,从而使一个字符可以对应有多个对应概率,多个对应概率形成了对应概率集。
另外,对应概率表征的是在分词结果中字符的位置以及该字符所属的领域,为该潜变量标记的字符在分词结果中的位置以及字符对应的领域的概率。
S202、根据各个字符对应的所述对应概率集,预测各个字符在分词结果中的位置以及所属的领域,以确定所述第一搜索文本文件的分词结果,得到对应于所述第一搜索文本文件的多个词。
确定各个字符对应的对应概率集后,即可根据对应概率集对第一搜索文本文件进行预测。具体地,进行预测时,还可以考虑第一搜索文本文件中各个字符之间的关联关系,例如“确定”两个字符大多被分为一个词等,从而可以确定第一搜索文本文件中各个字符在分词结果中的位置以及所属的领域,进而可以根据预测结果中各个字符在分词结果中的位置确定第一搜索文本文件的分词结果。
采用潜变量来标记所述字符在分词结果的位置以及所属的领域,且每个字符均对应有潜变量,字符与对应的潜变量之间的对应关系通过对应概率来表征,则可以通过对应概率确定搜索文本文件中单独字符所属的领域,使得分词结果受搜索文本文件整体所属的领域的限制较小,同时使得本实施例提供的分词方案可以适用于各个领域。
在某些实施方式中,还可以采用将搜索文本文件中的字序列与机器词典中的词条进行匹配的方式对搜索文本文件进行分词。
在某些实施方式中,还可以利用大量已完成分词的文本文件,通过统计机器学习模型学习词语划分的规则,从而实现对搜索文本文件进行分词。具体地,还可以利用现有技术中已有的分词工具对文本文件互动信息进行分词。
在某些实施方式中,步骤S20可以通过以下方式提取关键词:
1)获取各搜索文本文件对应的多个词的词性;
2)从多个词中提取词性为名词的词作为相应搜索文本文件的关键词。
具体地,根据搜索文本文件中各个词的含义和上下文内容对各个词进行词性标注,以得到搜索文本文件中各个词的词性。
在某些实施方式中,对各个词进行词性标注包括:
词性标注方法,包括以下步骤:
步骤20-1、确定搜索文本文件中的目标对象字符,并确定每个目标对象字符所对应的字符图像。
搜索文本文件中包含至少一个字符,可以将搜索文本文件中的每一个字符均作为目标对象字符,也可以选取其中的一部分字符作为目标对象字符。由于每个字符可以占用一个方格,故该字符图像可以为方形的图像;该字符图像具体可以为黑白图像,也可以为灰度图像。可以预先建立字符图像库,从该字符图像库中选取与该目标对象字符相对应的字符图像。搜索文本文件中的字符绝大部分甚至全部都是汉字。
步骤20-2、确定每个目标对象字符的语义特征向量以及字形特征向量。
本实施例中,目标对象字符本身为一个字符,其可以包含相应的语义信息,本实施例提取出可以表示目标对象字符的语义信息的语义特征向量。其中,具体可以采用现有的字向量模型来提取语义特征向量。例如,通过十二层的BERT-Base预训练模型,从而可以得到与目标对象字符对应上下文向量表示,即语义特征向量。
本实施例中基于目标对象字符的字符图像提取字形特征向量,可以更有效地对中文进行词性标注。可以预先设置字形特征模型,根据字形特征模型确定目标对象字符的字形特征向量。
步骤20-3、根据目标对象字符的语义特征向量和字形特征向量生成目标对象字符的字向量,将搜索文本文件的所有目标对象字符的字向量作为预设的词性标注模型的输入,对搜索文本文件进行词性标注处理。
在确定目标对象字符的语义特征向量和字形特征向量之后,即可生成能够表示该目标对象字符的语义特征和字形特征的字向量,之后即可基于该字向量进行词性标注处理。具体的,可以将语义特征向量和字形特征向量拼接为一个整体,从而得到相应的字向量。在确定该搜索文本文件中每个目标对象字符的字向量之后,将搜索文本文件的所有目标对象字符的字向量作为预设的词性标注模型的输入,从而实现对搜索文本文件进行词性标注。
其中,该词性标注模型本质上为一个分类模型,其具体可采用现有的词性标注模型。例如,该词性标注模型可以包括一个编码器和词性分类器。该编码器可以是传统的长短时记忆网络或者是深度门控卷积神经网络等;词性分类器是Softmax函数和条件随机场。
提取搜索文本文件中字符的语义特征向量和字形特征向量,结合语义特征和字形特征对搜索文本文件进行词性标注,可以更准确地对搜索文本文件进行词性标注,提高了词性标注的效果。
在某些实施方式中,可以利用机器学习算法例如最大熵马尔可夫模型、条件随机场模型或深度学习算法等方式实现词性标注。具体地,还可以利用开源工具进行词性标注。
在某些实施方式中,对于搜索文本文件对应的每个词,可以根据点击次数对搜索历史数据集合中的搜索文本文件进行筛选,仅获取相应的点击次数达到第一次数阈值、且包含该词的搜索文本文件的数量。
步骤S30、基于提取得到的多个关键词,生成目标对象信息的备选标签。
具体地,可以直接将提取得到的多个关键词作为目标对象信息的备选标签,也可以从得到的多个关键词中选取若干个关键词进行组合,将组合词作为目标对象信息的备选标签。
如图6所示,在某些实施方式中,步骤S30包括:
S301、基于提取得到的多个关键词,对对应于同一搜索文本文件的多个关键词进行组合,得到关键词组;
S302、当包含所述关键词组的搜索文本文件的搜索次数达到第二次数阈值时,将所述关键词组作为所述目标对象信息的备选标签。
具体地,备选标签不仅可以是一个词,也可以是由多个词组成的词组,只要其具有实际意义,都可以被确定为备选标签。当某一关键词组经常被搜索时,说明该关键词具有实际意义,那么可以将该关键词组作为目标对象信息的备选标签。
步骤S40、分别获取以各备选标签作为搜索文本文件进行信息搜索得到目标对象信息时,目标对象信息被点击的概率。
目标对象信息被点击的概率越高,则相应的备选标签越适合作为目标标签,越能够满足用户对目标对象信息的搜索需求。
在某些实施方式中,步骤S40包括:
(1)分别获取以各备选标签作为搜索文本文件,进行信息搜索得到目标对象信息时,所述目标对象信息被点击的次数,以及包含所述备选标签的至少一个搜索文本文件的搜索次数;
(2)确定所述被点击的次数与所述搜索次数的比值,所述比值用于表征以所述备选标签作为搜索文本文件,进行信息搜索得到所述目标对象信息时,所述目标对象信息被点击的概率。
目标对象信息被点击的次数及搜索次数均可以通过历史搜索记录确定,其中,搜索次数是指根据包含备选标签的所有搜索文本文件的总的搜索次数。
步骤S50、根据所述目标对象信息被点击的概率筛选出至少一个备选标签。
在某些实施方式中,步骤S50包括:
基于所述目标对象信息被点击的概率的高低,对备选标签进行排序,得到备选标签序列;
从备选标签序列中第一个备选标签开始,选取目标数量的备选标签作为目标标签。
例如,按照概率大小排列的五个备选标签A、B、C、D和E,分别赋予对应的权重系数0.5、0.2、0.15、0.1、0.05。
步骤S60、基于所述至少一个备选标签获取目标信息并推送所述目标信息。
如图7所示,在某些实施方式中,步骤S60包括:
S601、为每一个所述备选标签赋予对应的权重系数,得到所述目标对象信息的至少一个目标标签以及所述至少一个目标标签所对应的权重系数;
S602、根据各所述目标标签以及对应的权重系数,获取各所述目标标签的权重系数之和大于预设阈值的目标对象信息作为目标信息,推送所述目标信息。
其中,目标标签用于目标对象信息的推荐。服务器将目标信息推送到终端。
在某些实施方式中,为每一个备选标签赋予对应的权重系数,包括:
将每个备选标签所对应的概率作为初始系数;
将各备选标签的初始系数进行归一化处理,得到各备选标签所对应的权重系数。
具体地,目标对象信息被点击的概率越高,则相应的备选标签越适合作为目标标签,越能够满足用户对目标对象信息的搜索需求;因此,目标对象信息被点击的概率越高,则相应的备选标签排序越靠前。
由于用户的访问行为存在一个因时间变化的衰减因子,随着时间的推移,用户的行为倾向也会随之变化。如用户一个月前访问的产品页面和今天访问的产品页面,同一个行为,但用户的行为偏好也会出现变化。因此,在某些实施方式中,备选标签的权重系数可以通过以下计算式获得:
备选标签的权重系数=衰减因子×行为权重×网址子权重。
例如,假设有三个目标对象信息甲、乙和丙,其中,甲具有B、C和D三个目标标签,乙具有A和E两个目标标签,丙具有B、C和E三个目标标签,则甲乙丙所对应的权重系数之和分别为:0.2+0.15+0.1=0.45,0.5+0.05=0.55,0.2+0.15+0.05=0.4。假设预设阈值为0.4,则甲和乙为各目标标签的权重系数之和大于预设阈值的目标对象信息,将甲和乙推荐到用户端。
备选标签是从对应目标对象信息的搜索历史数据集合中的搜索文本文件挖掘得到的,得到的备选标签符合用户的搜索习惯,更能够满足用户的需求,在备选标签的基础上获取的目标信息准确率更高,更加符合用户的搜索偏好和搜索需求,本申请实施例的方法实现更加简单,节省了人力和时间,同时提升了目标信息获取的准确性。
本申请实施例的信息推送方法,从对应目标对象信息的搜索历史数据集合中的搜索文本文件挖掘得到目标标签,符合用户的搜索习惯,更能够满足用户的需求,方法实现更加简单,节省了人力和时间,同时提升了目标对象信息确定的准确性,克服了现有技术的盲目推送信息、运营成本高且推送效果不理想的缺陷。
如图8所示,在一个实施例中,提出了一种信息推送装置,应用于服务器,包括:
第一获取模块,用于获取与目标对象信息相对应的搜索历史数据集合;所述搜索历史数据集合包括多个各不相同的搜索文本文件;
提取模块,用于分别对各所述搜索文本文件进行关键词提取,得到多个关键词;
生成模块,用于基于所述多个关键词,生成目标对象信息的备选标签;
第二获取模块,用于分别获取以各所述备选标签作为搜索文本文件进行信息搜索得到目标对象信息时,所述目标对象信息被点击的概率;
筛选模块,用于根据所述目标对象信息被点击的概率筛选出至少一个备选标签;
获取推送模块,用于基于所述至少一个备选标签获取目标信息并推送所述目标信息。
在某些实施方式中,获取推送模块,包括:
赋权单元,用于为每一个所述备选标签赋予对应的权重系数,得到所述目标对象信息的至少一个目标标签以及所述至少一个目标标签所对应的权重系数;
获取推送单元,用于根据各所述目标标签以及对应的权重系数,获取各所述目标标签的权重系数之和大于预设阈值的目标对象信息作为目标信息,推送所述目标信息。
在某些实施方式中,第一获取模块包括:
获取单元,用于获取预设时间段内的历史搜索记录;
统计单元,用于根据所述历史搜索记录,统计得到被点击过的目标对象信息的搜索文本文件;其中,所述被点击过的目标对象信息在被呈现后存在点击数据;
构建单元,用于根据统计得到的多个所述搜索文本文件,构建与所述目标对象信息相对应的搜索历史数据集合。
在某些实施方式中,提取模块包括:
分词单元,用于对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词;
提取单元,用于从对应于所述第一搜索文本文件的多个词中提取关键词,得到对应于所述第一搜索文本文件的多个关键词;
其中,所述第一搜索文本文件为所有所述搜索文本文件中的任一个。
在某些实施方式中,所述对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词,包括:
确定所述第一搜索文本文件的每个字符所对应的对应概率集;
根据各个字符对应的所述对应概率集,预测各个字符在分词结果中的位置以及所属的领域,以确定所述第一搜索文本文件的分词结果,得到对应于所述第一搜索文本文件的多个词。
在某些实施方式中,生成模块包括:
组合单元,用于基于提取得到的所述多个关键词,对对应于同一所述搜索文本文件的多个关键词进行组合,得到关键词组;
确定单元,用于当包含所述关键词组的搜索文本文件的搜索次数达到第二次数阈值时,将所述关键词组作为所述目标对象信息的备选标签。
在某些实施方式中,所述提取模块,包括:
点击次数获取单元,用于获取各所述搜索文本文件对应的点击次数;所述点击次数为基于搜索文本文件搜索目标对象信息时,目标对象信息被点击的次数;
筛选单元,用于基于各所述搜索文本文件所对应的点击次数,对所述搜索历史数据集合中的搜索文本文件进行筛选,得到对应的点击次数达到第一次数阈值的搜索文本文件;
关键词提取单元,用于对筛选得到的搜索文本文件进行关键词提取,得到多个关键词。
参考图9所示,在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取与目标对象信息相对应的搜索历史数据集合;所述搜索历史数据集合包括多个各不相同的搜索文本文件;
分别对各所述搜索文本文件进行关键词提取,得到多个关键词;
基于所述多个关键词,生成目标对象信息的备选标签;
分别获取以各所述备选标签作为搜索文本文件进行信息搜索得到目标对象信息时,所述目标对象信息被点击的概率;
根据所述目标对象信息被点击的概率筛选出至少一个备选标签;
基于所述至少一个备选标签获取目标信息并推送所述目标信息。
在一个实施例中,所述处理器所执行的所述基于所述至少一个备选标签获取目标信息并推送所述目标信息,包括:
为每一个所述备选标签赋予对应的权重系数,得到所述目标对象信息的至少一个目标标签以及所述至少一个目标标签所对应的权重系数;
根据各所述目标标签以及对应的权重系数,获取各所述目标标签的权重系数之和大于预设阈值的目标对象信息作为目标信息,推送所述目标信息。
在一个实施例中,所述处理器所执行的所述获取与目标对象信息相对应的搜索历史数据集合,包括:
获取预设时间段内的历史搜索记录;
根据所述历史搜索记录,统计得到被点击过的目标对象信息的搜索文本文件;其中,所述被点击过的目标对象信息在被呈现后存在点击数据;
根据统计得到的多个所述搜索文本文件,构建与所述目标对象信息相对应的搜索历史数据集合。
在一个实施例中,所述处理器所执行的所述分别对各所述搜索文本文件进行关键词提取,得到多个关键词,包括:
对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词;
从对应于所述第一搜索文本文件的多个词中提取关键词,得到对应于所述第一搜索文本文件的多个关键词;
其中,所述第一搜索文本文件为所有所述搜索文本文件中的任一个。
在一个实施例中,所述处理器所执行的所述对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词,包括:
确定所述第一搜索文本文件的每个字符所对应的对应概率集;
根据各个字符对应的所述对应概率集,预测各个字符在分词结果中的位置以及所属的领域,以确定所述第一搜索文本文件的分词结果,得到对应于所述第一搜索文本文件的多个词。
在一个实施例中,所述处理器所执行的所述基于所述多个关键词,生成目标对象信息的备选标签,包括:
基于提取得到的所述多个关键词,对对应于同一所述搜索文本文件的多个关键词进行组合,得到关键词组;
当包含所述关键词组的搜索文本文件的搜索次数达到第二次数阈值时,将所述关键词组作为所述目标对象信息的备选标签。
在一个实施例中,所述处理器所执行的所述分别对各所述搜索文本文件进行关键词提取,得到多个关键词,包括:
获取各所述搜索文本文件对应的点击次数;所述点击次数为基于搜索文本文件搜索目标对象信息时,目标对象信息被点击的次数;
基于各所述搜索文本文件所对应的点击次数,对所述搜索历史数据集合中的搜索文本文件进行筛选,得到对应的点击次数达到第一次数阈值的搜索文本文件;
对筛选得到的搜索文本文件进行关键词提取,得到多个关键词。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取与目标对象信息相对应的搜索历史数据集合;所述搜索历史数据集合包括多个各不相同的搜索文本文件;
分别对各所述搜索文本文件进行关键词提取,得到多个关键词;
基于所述多个关键词,生成目标对象信息的备选标签;
分别获取以各所述备选标签作为搜索文本文件进行信息搜索得到目标对象信息时,所述目标对象信息被点击的概率;
根据所述目标对象信息被点击的概率筛选出至少一个备选标签;
基于所述至少一个备选标签获取目标信息并推送所述目标信息。
在一个实施例中,所述处理器所执行的所述基于所述至少一个备选标签获取目标信息并推送所述目标信息,包括:
为每一个所述备选标签赋予对应的权重系数,得到所述目标对象信息的至少一个目标标签以及所述至少一个目标标签所对应的权重系数;
根据各所述目标标签以及对应的权重系数,获取各所述目标标签的权重系数之和大于预设阈值的目标对象信息作为目标信息,推送所述目标信息。
在一个实施例中,所述处理器所执行的所述获取与目标对象信息相对应的搜索历史数据集合,包括:
获取预设时间段内的历史搜索记录;
根据所述历史搜索记录,统计得到被点击过的目标对象信息的搜索文本文件;其中,所述被点击过的目标对象信息在被呈现后存在点击数据;
根据统计得到的多个所述搜索文本文件,构建与所述目标对象信息相对应的搜索历史数据集合。
在一个实施例中,所述处理器所执行的所述分别对各所述搜索文本文件进行关键词提取,得到多个关键词,包括:
对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词;
从对应于所述第一搜索文本文件的多个词中提取关键词,得到对应于所述第一搜索文本文件的多个关键词;
其中,所述第一搜索文本文件为所有所述搜索文本文件中的任一个。
在一个实施例中,所述处理器所执行的所述对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词,包括:
确定所述第一搜索文本文件的每个字符所对应的对应概率集;
根据各个字符对应的所述对应概率集,预测各个字符在分词结果中的位置以及所属的领域,以确定所述第一搜索文本文件的分词结果,得到对应于所述第一搜索文本文件的多个词。
在一个实施例中,所述处理器所执行的所述基于所述多个关键词,生成目标对象信息的备选标签,包括:
基于提取得到的所述多个关键词,对对应于同一所述搜索文本文件的多个关键词进行组合,得到关键词组;
当包含所述关键词组的搜索文本文件的搜索次数达到第二次数阈值时,将所述关键词组作为所述目标对象信息的备选标签。
在一个实施例中,所述处理器所执行的所述分别对各所述搜索文本文件进行关键词提取,得到多个关键词,包括:
获取各所述搜索文本文件对应的点击次数;所述点击次数为基于搜索文本文件搜索目标对象信息时,目标对象信息被点击的次数;
基于各所述搜索文本文件所对应的点击次数,对所述搜索历史数据集合中的搜索文本文件进行筛选,得到对应的点击次数达到第一次数阈值的搜索文本文件;
对筛选得到的搜索文本文件进行关键词提取,得到多个关键词。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种信息推送方法,应用于服务器,其特征在于,包括:
获取与目标对象信息相对应的搜索历史数据集合;所述搜索历史数据集合包括多个各不相同的搜索文本文件;
分别对各所述搜索文本文件进行关键词提取,得到多个关键词;
基于所述多个关键词,生成目标对象信息的备选标签;
分别获取以各所述备选标签作为搜索文本文件进行信息搜索得到目标对象信息时,所述目标对象信息被点击的概率;
根据所述目标对象信息被点击的概率筛选出至少一个备选标签;
基于所述至少一个备选标签获取目标信息并推送所述目标信息。
2.如权利要求1所述的信息推送方法,其特征在于,所述基于所述至少一个备选标签获取目标信息并推送所述目标信息,包括:
为每一个所述备选标签赋予对应的权重系数,得到所述目标对象信息的至少一个目标标签以及所述至少一个目标标签所对应的权重系数;
根据各所述目标标签以及对应的权重系数,获取各所述目标标签的权重系数之和大于预设阈值的目标对象信息作为目标信息,推送所述目标信息。
3.如权利要求1所述的信息推送方法,其特征在于,所述获取与目标对象信息相对应的搜索历史数据集合,包括:
获取预设时间段内的历史搜索记录;
根据所述历史搜索记录,统计得到被点击过的目标对象信息的搜索文本文件;其中,所述被点击过的目标对象信息在被呈现后存在点击数据;
根据统计得到的多个所述搜索文本文件,构建与所述目标对象信息相对应的搜索历史数据集合。
4.如权利要求1所述的信息推送方法,其特征在于,所述分别对各所述搜索文本文件进行关键词提取,得到多个关键词,包括:
对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词;
从对应于所述第一搜索文本文件的多个词中提取关键词,得到对应于所述第一搜索文本文件的多个关键词;
其中,所述第一搜索文本文件为所有所述搜索文本文件中的任一个。
5.如权利要求4所述的信息推送方法,其特征在于,所述对第一搜索文本文件进行分词处理,得到对应于所述第一搜索文本文件的多个词,包括:
确定所述第一搜索文本文件的每个字符所对应的对应概率集;
根据各个字符对应的所述对应概率集,预测各个字符在分词结果中的位置以及所属的领域,以确定所述第一搜索文本文件的分词结果,得到对应于所述第一搜索文本文件的多个词。
6.如权利要求1所述的信息推送方法,其特征在于,所述基于所述多个关键词,生成目标对象信息的备选标签,包括:
基于提取得到的所述多个关键词,对对应于同一所述搜索文本文件的多个关键词进行组合,得到关键词组;
当包含所述关键词组的搜索文本文件的搜索次数达到第二次数阈值时,将所述关键词组作为所述目标对象信息的备选标签。
7.如权利要求1所述的信息推送方法,其特征在于,所述分别对各所述搜索文本文件进行关键词提取,得到多个关键词,包括:
获取各所述搜索文本文件对应的点击次数;所述点击次数为基于搜索文本文件搜索目标对象信息时,目标对象信息被点击的次数;
基于各所述搜索文本文件所对应的点击次数,对所述搜索历史数据集合中的搜索文本文件进行筛选,得到对应的点击次数达到第一次数阈值的搜索文本文件;
对筛选得到的搜索文本文件进行关键词提取,得到多个关键词。
8.一种信息推送装置,应用于服务器,其特征在于,包括:
第一获取模块,用于获取与目标对象信息相对应的搜索历史数据集合;所述搜索历史数据集合包括多个各不相同的搜索文本文件;
提取模块,用于分别对各所述搜索文本文件进行关键词提取,得到多个关键词;
生成模块,用于基于所述多个关键词,生成目标对象信息的备选标签;
第二获取模块,用于分别获取以各所述备选标签作为搜索文本文件进行信息搜索得到目标对象信息时,所述目标对象信息被点击的概率;
筛选模块,用于根据所述目标对象信息被点击的概率筛选出至少一个备选标签;
获取推送模块,用于基于所述至少一个备选标签获取目标信息并推送所述目标信息。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述信息推送方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述信息推送方法的步骤。
CN202111520068.9A 2021-12-13 2021-12-13 信息推送方法、装置、计算机设备和存储介质 Active CN114222000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111520068.9A CN114222000B (zh) 2021-12-13 2021-12-13 信息推送方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111520068.9A CN114222000B (zh) 2021-12-13 2021-12-13 信息推送方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN114222000A true CN114222000A (zh) 2022-03-22
CN114222000B CN114222000B (zh) 2024-02-02

Family

ID=80701549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111520068.9A Active CN114222000B (zh) 2021-12-13 2021-12-13 信息推送方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114222000B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722179A (zh) * 2022-04-26 2022-07-08 国信专达(杭州)科技有限公司 基于信息追溯的检索分析及数据融合方法
CN116887201A (zh) * 2023-06-26 2023-10-13 广州市单元信息科技有限公司 一种基于用户分析的短信智能推送方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170185673A1 (en) * 2015-12-25 2017-06-29 Le Holdings (Beijing) Co., Ltd. Method and Electronic Device for QUERY RECOMMENDATION
WO2017219696A1 (zh) * 2016-06-24 2017-12-28 中兴通讯股份有限公司 文本信息处理方法、装置及终端
US20190114363A1 (en) * 2017-10-17 2019-04-18 Baidu Online Network Technology (Beijing) Co., Ltd. Method And Apparatus For Pushing Information
US20190220486A1 (en) * 2017-12-08 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining general tag, server, and medium
CN110069698A (zh) * 2017-11-01 2019-07-30 北京京东尚科信息技术有限公司 信息推送方法和装置
CN111324771A (zh) * 2020-02-26 2020-06-23 腾讯科技(深圳)有限公司 视频标签的确定方法、装置、电子设备及存储介质
WO2020248378A1 (zh) * 2019-06-12 2020-12-17 平安科技(深圳)有限公司 业务查询方法、装置及存储介质、计算机设备
WO2021189951A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170185673A1 (en) * 2015-12-25 2017-06-29 Le Holdings (Beijing) Co., Ltd. Method and Electronic Device for QUERY RECOMMENDATION
WO2017219696A1 (zh) * 2016-06-24 2017-12-28 中兴通讯股份有限公司 文本信息处理方法、装置及终端
US20190114363A1 (en) * 2017-10-17 2019-04-18 Baidu Online Network Technology (Beijing) Co., Ltd. Method And Apparatus For Pushing Information
CN110069698A (zh) * 2017-11-01 2019-07-30 北京京东尚科信息技术有限公司 信息推送方法和装置
US20190220486A1 (en) * 2017-12-08 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining general tag, server, and medium
WO2020248378A1 (zh) * 2019-06-12 2020-12-17 平安科技(深圳)有限公司 业务查询方法、装置及存储介质、计算机设备
CN111324771A (zh) * 2020-02-26 2020-06-23 腾讯科技(深圳)有限公司 视频标签的确定方法、装置、电子设备及存储介质
WO2021189951A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722179A (zh) * 2022-04-26 2022-07-08 国信专达(杭州)科技有限公司 基于信息追溯的检索分析及数据融合方法
CN114722179B (zh) * 2022-04-26 2023-07-04 国信专达(杭州)科技有限公司 基于信息追溯的检索分析及数据融合方法
CN116887201A (zh) * 2023-06-26 2023-10-13 广州市单元信息科技有限公司 一种基于用户分析的短信智能推送方法及系统
CN116887201B (zh) * 2023-06-26 2024-03-26 山东信网大数据有限公司 一种基于用户分析的短信智能推送方法及系统

Also Published As

Publication number Publication date
CN114222000B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109947909B (zh) 智能客服应答方法、设备、存储介质及装置
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
JP5379138B2 (ja) 領域辞書の作成
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
CN112163419B (zh) 文本的情绪识别方法、装置、计算机设备和存储介质
EP1687738A2 (en) Clustering of text for structuring of text documents and training of language models
CN114222000B (zh) 信息推送方法、装置、计算机设备和存储介质
CN111723260B (zh) 推荐内容的获取方法、装置、电子设备及可读存储介质
CN112380331A (zh) 信息推送的方法和装置
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN114064851A (zh) 一种政府办公文档多机检索方法及系统
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
CN111046659B (zh) 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质
CN103324641A (zh) 信息记录推荐方法和装置
CN112395881A (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN111563212A (zh) 一种内链添加方法及装置
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
CN111538898B (zh) 基于组合特征提取的Web服务包推荐方法及系统
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
CN110851560B (zh) 信息检索方法、装置及设备
CN107622129B (zh) 一种知识库的组织方法及装置、计算机存储介质
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant