CN111209480A - 一种推送文本的确定方法、装置、计算机设备和介质 - Google Patents
一种推送文本的确定方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN111209480A CN111209480A CN202010020236.7A CN202010020236A CN111209480A CN 111209480 A CN111209480 A CN 111209480A CN 202010020236 A CN202010020236 A CN 202010020236A CN 111209480 A CN111209480 A CN 111209480A
- Authority
- CN
- China
- Prior art keywords
- text
- abstract
- similarity
- candidate
- candidate text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000000875 corresponding effect Effects 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013016 damping Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种推送文本的确定方法、装置、计算机设备和介质,所述方法包括:获取候选文本和目标用户的历史浏览文本;分别生成所述候选文本的第一摘要和所述历史浏览文本的第二摘要;根据所述第一摘要和所述第二摘要的词频相似度,确定所述候选文本与所述历史浏览文本的相似度;若相似度超过预设阈值,则确定所述候选文本为向所述目标用户推送的文本。本申请实施例,通过获取到的候选文本的第一摘要和历史浏览文本的第二摘要,计算候选文本与历史浏览文本之间的相似度,能够准确的确定出候选文本能否直接向目标用户进行推送,提高了向目标用户推送文本的准确度。
Description
技术领域
本申请涉及数据分析领域,尤其涉及一种推送文本的确定方法、装置、计算机设备和介质。
背景技术
随着互联网的高速发展与科技水平的日益提高,为了用户体验,在一些互联网平台中会主动向用户推送一些文本,以最大的程度去满足用户的需求。
一般在向用户推送文本的时候,基本上是通过遍历待推送文本的标签,在待推送文本中筛选出与用户标签相匹配的文本,将筛选出的文本推送给用户,但是在这种推送文本的方式中,待推送文本的标签基本上是人为标注的,可能会存在标注错误,或标注不全面的情况,进而,导致向用户推送的文本是不准确的。
发明内容
有鉴于此,本申请的目的在于提供了一种推送文本的确定方法、装置、计算机设备和介质,以解决现有技术中如何提高向用户推送文本的准确性的问题。
第一方面,本申请实施例提供给了一种推送文本的确定方法,包括:
获取候选文本和目标用户的历史浏览文本;
分别生成所述候选文本的第一摘要和所述历史浏览文本的第二摘要;
根据所述第一摘要和所述第二摘要的词频相似度,确定所述候选文本与所述历史浏览文本的相似度;
若相似度超过预设阈值,则确定所述候选文本为向所述目标用户推送的文本。
可选的,还包括:
对所述候选文本进行分句处理,得到至少一个自然语句;
针对每一个自然语句,计算该自然语句与其他自然语句的词频相似度;
针对每一个自然语句,根据该自然语句与其他自然语句的词频相似度,确定该自然语句的重要程度;
根据每一个自然语句的重要程度,确定出所述候选文本所对应的第一摘要。
可选的,所述候选文本包括以下文本中的任意一种或多种:未被播放过的广告文案和已经发布在互联网平台中的文本。
可选的,若相似度超过预设阈值,则确定所述候选文本为向所述目标用户推送的文本,包括:
若相似度超过预设阈值,则根据所述候选文本的相似度和所述候选文本的发布时间,计算所述候选文本的推荐价值;
若所述推荐价值超过预设推荐价值,则确定所述候选文本为向所述目标用户推送的文本。
可选的,所述候选文本的相似度与所述推荐价值成正相关性;所述候选文本的发布时间与所述推荐价值成正相关性。
可选的,根据所述第一摘要和所述第二摘要的词频相似度,确定所述候选文本与所述历史浏览文本的相似度,包括:
根据所述第一摘要确定所述第一摘要所对应的第一特征向量;
根据所述第二摘要确定所述第二摘要所对应的第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算所述候选文本与所述历史浏览文本的相似度。
可选的,根据所述第一特征向量和所述第二特征向量,计算所述候选文本与所述历史浏览文本的相似度,包括:
使用如下公式,根据所述第一特征向量和所述第二特征向量,计算所述候选文本与所述历史浏览文本的相似度;
其中,f1表示第一特征向量,f2表示第二特征向量,sim(f1,f2)表示候选文本与历史浏览文本的相似度。
第二方面,本申请实施例提供给了一种推送文本的确定装置,包括:
获取模块,用于获取候选文本和目标用户的历史浏览文本;
生成模块,用于分别生成所述候选文本的第一摘要和所述历史浏览文本的第二摘要;
计算模块,用于根据所述第一摘要和所述第二摘要的词频相似度,确定所述候选文本与所述历史浏览文本的相似度;
确定模块,用于若相似度超过预设阈值,则确定所述候选文本为向所述目标用户推送的文本。
第三方面,本申请实施例提供给了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请实施例提供给了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本申请实施例所提供的一种推送文本的确定方法,首先,获取候选文本和目标用户的历史浏览文本;其次,分别生成所述候选文本的第一摘要和所述历史浏览文本的第二摘要;再次,根据所述第一摘要和所述第二摘要的词频相似度,确定所述候选文本与所述历史浏览文本的相似度;最后,若相似度超过预设阈值,则确定所述候选文本为向所述目标用户推送的文本。
在现有技术中,一般用户在互联网平台中浏览文章时,互联网平台一般是对待推送文本的标签进行遍历,并筛选出与用户的标签一致的待推动文本,但是待推送文本的标签基本上是人为标注的,容易收到主观因素的影响,可能会造成待推送文本的标签标注不准确的情况,导致通过标签向用户推送的文本并不能满足用户的需求,降低了向用户推送文本的准确性。而本申请中,通过获取候选文本的第一摘要和历史浏览文本的第二摘要,第一摘要能够准确的表征候选文本的主要内容,第二摘要能够准确的表征历史浏览文本的主要内容,减少了人工标注的标签出现标注出错的情况,并且通过计算第一摘要和第二摘要的词频相似度,进而确定出了候选文本和历史浏览文本的相似度,将相似度超过预设阈值的才能向目标用户进行推送,通过这种方式就可以在所有的候选文本中准确的确定出能够向目标用户进行推送的文本,提高了向目标用户推送文本的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种推送文本的确定方法的流程示意图;
图2为本申请实施例提供的一种确定第一摘要的方法的流程示意图;
图3为本申请实施例提供的一种推送文本的确定装置的结构示意图;
图4为本申请实施例提供的一种计算机设备400的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在现有技术中,一般用户在互联网平台中浏览文章时,互联网平台一般是对待推送文本的标签进行遍历,并筛选出与用户的标签一致的待推动文本,但是待推送文本的标签基本上是人为标注的,容易收到主观因素的影响,可能会造成待推送文本的标签标注不准确的情况,导致通过标签向用户推送的文本并不能满足用户的需求,降低了向用户推送文本的准确性。
基于上述问题,如图1所示,本申请的实施例提供了一种推送文本的确定方法,包括:
S101,获取候选文本和目标用户的历史浏览文本;
S102,分别生成上述候选文本的第一摘要和上述历史浏览文本的第二摘要;
S103,根据上述第一摘要和上述第二摘要的词频相似度,确定上述候选文本与上述历史浏览文本的相似度;
S104,若相似度超过预设阈值,则确定上述候选文本为向上述目标用户推送的文本。
在上述步骤S101中,候选文本可以向目标用户推送的文本,候选文本可以包括以下文本中的任意一种或多种:未被播放过的广告文案和已经发布在互联网平台中的文本,未被播放过的广告文案是不存在发布时间的,广告文案可以是广告商所提供的,而已经发布在互联网平台中的文本是存在发布时间的,已经发布在互联网平台中的文本基本上是存储于互联网平台对应的数据库中的。其中,发布时间可以是文本第一次展示在互联网平台中的时间。互联网平台可以是基于互联网以便于用户分享交流的平台,互联网平台可以是包括以下任意一种:微信、QQ、微博、小红书、抖音、快手等。历史浏览文本可以是目标用户在互联网平台中已经浏览过的文本,历史浏览文本可以是在预设时间段内用户所浏览过的文本,预设时间段可以是距离当前时间最近的一段时间,预设时间段可以是1天、1周等,本申请在此不予限制,因为,预设时间段内的历史浏览文本可能是用户当前所需要浏览的文本,因此,需要将历史浏览文本作为一个推荐文本的参考对象。
具体的,候选文本是需要向目标用户推送的文本,而历史浏览文本是目标用户已经浏览过的文本,历史浏览文本是确定是否向目标用户推送候选文本的标准,因此之后获取到候选文本和历史浏览文本之后,才会执行之后的步骤S102至S104。
在上述步骤S102中,第一摘要可以是候选文本中表征候选文本主要内容的一句话,第二摘要可以是历史浏览文本中表征历史浏览文本主要内容的一句话。
具体的,在候选文本中筛选出第一摘要,其中,由于候选文本是实时更新的,因此,候选文本的第一摘要可以是在确定向目标用户推送文本的时候生成的。而历史浏览文本是已经确定好的,因此,历史浏览文本对应的第二摘要可以是实时生成的,即在确定向目标用户推动文本的时候生成的,相当于在存储时存储的是完整的历史浏览文本,因此,第二摘要可以是在确定向目标用户推送文本的时候生成的;或历史浏览文本对应的第二摘要是事先筛选出来的,即在生成历史浏览文本的时候,就直接在历史浏览文本中筛选出了第二摘要,在存储时直接存储第二摘要,因此,第二摘要可以是在确定向目标用户推送文本的时候直接获取到的。
在上述步骤S103中,词频相似度可以根据两句话中相同词汇的分别在两句话中出现的次数来计算得到的相似度。
具体的,统计每个词在第一摘要中出现出次数,并根据每个词出现的次数生成第一摘要的第一特征向量,统计每个词在第二摘要中出现出次数,并根据每个词出现的次数生成第二摘要的第二特征向量,根据第一特征向量和第二特征向量计算出第一摘要和第二摘要的词频相似度,第一摘要和第二摘要的词频相似度就可以表征候选文本与历史浏览文本之间的相似度。
在上述步骤S104中,预设阈值可以是人为预先设置好的,超过预设阈值说明相似度很高,未超过预设阈值说明相似度较低,相似度越高的越有可能是与目标用户浏览过的文本相似,相似度越高越有可能与目标用户当前的需求相吻合,因此,将相似度超过预设阈值的候选文本推送给目标用户。
通过上述四个步骤,通过获取候选文本的第一摘要和历史浏览文本的第二摘要,第一摘要能够准确的表征候选文本的主要内容,第二摘要能够准确的表征历史浏览文本的主要内容,减少了人工标注的标签出现标注出错的情况,并且通过计算第一摘要和第二摘要的词频相似度,进而确定出了候选文本和历史浏览文本的相似度,将相似度超过预设阈值的才能向目标用户进行推送,通过这种方式就可以在所有的候选文本中准确的确定出能够向目标用户进行推送的文本,提高了向目标用户推送文本的准确度。
生成候选文本的第一摘要的过程是一个实时的过程,为了详细的了解生成第一摘要的过程,如图2所示,本申请实施例还提供了一种确定第一摘要的方法,包括:
S201,对上述候选文本进行分句处理,得到至少一个自然语句;
S202,针对每一个自然语句,计算该自然语句与其他自然语句的词频相似度;
S203,针对每一个自然语句,根据该自然语句与其他自然语句的词频相似度,确定该自然语句的重要程度;
S204,根据每一个自然语句的重要程度,确定出上述候选文本所对应的第一摘要。
在上述步骤S201中,分句处理可以根据预设字符将一个文本的内容分割成多个句子,其中,预设字符可以是以下符号中的任意一种或多种:句号、逗号、分号等。自然语句可以是一句能够具有清楚的表达含义的、完整的语句。
具体的,为了使第一摘要能够准确并全面的表征候选文本,因此,需要在候选文本中筛选出一句自然语句来作为第一摘要,可以通过正则表达式的方式将候选文本中的每一个自然语句分割开来,只有在将候选文本进行语句分割后,才能之后续的步骤S202至S204。
在上述步骤S202中,第一摘要是从候选文本中筛选出来的,第一摘要是最能够概括候选文本内容的一句话,因此,第一摘要与候选文本中其他自然语句之间的词频相似度是比较高的,为了筛选出第一摘要,就需要在候选文本中计算每一个自然语句与其他自然语句之间的词频相似度。
计算两个自然语句之间的词频相似度包括以下步骤:
步骤1,分别对第一自然语句和第二自然语句进行分词处理,得到第一自然语句所对应的第一分词结果和第二自然语句所对应的第二分词结果;
步骤2,根据第一分词结果生成第一自然语句向量;
步骤3,根据第二分词结果生成第二自然语句向量;
步骤4,使用词频相似度计算公式,根据第一自然语句向量和第二自然语句向量计算第一自然语句和第二自然语句之间的词频相似度。
在上述步骤1中,分词处理可以采用现有技术中的分词算法即可,分词处理在现有技术中是一项常用技术,本申请就不再过多说明。
在上述步骤2中,需要根据第一分词结果中每一个分词来生成第一自然语句向量,第一自然语句向量是一个1*n维的矩阵,在第一自然语句向量中每一个维度表征一个词,每一个维度会有一个相对应的值。
针对每一个维度,经过如下步骤得到的该维度所对应的值,包括:
步骤21,将该维度所对应的词的词频进行归一化,得到词频率;
步骤22,计算该维度所对应的词的逆向词频率;
步骤23,根据该维度所对应的词的词频率和逆向词频率,计算该维度所对应的值。
在上述步骤21中,使用如下公式对词的词频进行归一化:
TF=n/m;
其中,TF为词的词频归一化后的值,n为词在第一自然语句中出现的次数,m为词在候选文本中出现的次数。
在上述步骤22中,使用如下公式计算词的逆向词频率:
IDF=log|D|/|F|;
其中,IDF为词的逆向词频率,D为候选文本中所有自然语句的数量,F为候选文本中包含有该词的自然语句的数量。
在上述步骤23中,使用如下公司计算该维度所对应的值:
V=TF*IDF;
其中,V为该维度所对应的值,TF为词的词频归一化后的值,IDF为词的逆向词频率。
如果包含有某个词的自然语句越少,通过步骤22中计算得到的该词的IDF值越大,说明该词具有很好的区分能力;如果包含有某个词的自然语句越多,通过步骤22中计算得到的该词的IDF值越小,说明该词很常用,常用词可以包括你、我、他、的等。
因此,如果通过步骤23计算得到的值低于预设阈值,则该词就可能属于常用词,进而将该词直接过滤掉。
通过步骤21至步骤23计算第一分词结果中每一个分词所对应维度的值,根据每一个分词所对应维度的值组成第一自然语句向量。
在上述步骤3中,计算第二自然语句向量的过程可以参考上述步骤2中计算第一自然语句向量的过程。
在上述步骤4中,使用如下计算公式,根据第一自然语句向量和第二自然语句向量计算第一自然语句和第二自然语句之间的词频相似度;
其中,j1表示第一特征向量,j2表示第二特征向量,sim(j1,j2)表示候选文本与历史浏览文本的相似度。
在上述步骤203中,自然语句的重要程度可以是一个评价标准。自然语句的重要程度越高,则该自然语句与其他自然语句之间的相似度越高,该自然语句在候选文本中的重要性越高,自然语句的重要程度越低,则该自然语句与其他自然语句之间的相似度越低,该自然语句在候选文本中的重要性越低。
统计该自然语句与其他自然语句的词频相似度超过预设相似度阈值的数量,超过预设相似度阈值的数量越多,则该自然语句的相对于候选文本来说越重要(即重要程度越高)。
本申请中还可以采用TextRank算法来计算一个自然语句在该自然语句所对应的候选文本中的重要程度,使用如下公式,根据该自然语句的相似度和该自然语句所对应的候选文本中其他自然语句的相似度,计算该自然语句的重要程度。
其中,Ci为第i个自然语句的重要程度,Cj为第j个自然语句的重要程度,d为阻尼系数,In(i)为候选文本中除第i个自然语句之外的其他自然语句,Out(j)为候选文本中除第j个自然语句之外的其他自然语句,Wjk为第j个自然语句与第k个自然语句之间的相似度,Wji为第j个自然语句与第i个自然语句之间的相似度。
在上述计算自然语句的重要程度的公式中,阻尼系数d的初始值是人为设置的,需要不断的计算迭代才能确定出阻尼系数d的值,因此在使用上述计算自然语句的重要程度的公式之前,需要对该公式进行迭代计算。
在上述步骤204中,根据每一个自然语句的重要程度进行降序排序,将排序靠前的自然语句确定为第一摘要。
如果仅是考虑到候选文本与历史浏览文本之间的相似度的话,就可以使用上述步骤S101至S104来确定向目标用户推送的文本,但是,如果候选文本是已经发布在互联网平台中的文本,则候选文本就会包括发布时间较久的文本,发布时间较久的文本中的内容可能就有些过时,这样的文本推动给目标用户后,目标用户可能不会太感兴趣,因此,在向目标用户推动候选文本时,还需要考虑到候选文本的发布时间,步骤S104,包括:
步骤1041,若相似度超过预设阈值,则根据上述候选文本的相似度和上述候选文本的发布时间,计算上述候选文本的推荐价值;
步骤1042,若上述推荐价值超过预设推荐价值,则确定上述候选文本为向上述目标用户推送的文本。
在上述步骤1041中,候选文本的相似度可以是候选文本与历史浏览文本的相似度。候选文本的发布时间可以是候选文本在互联网平台中第一次发布的时刻。推荐价值可以表征候选文本向目标用户推送的优先级。候选文本的推荐价值越大,则该候选文本越优先向目标用户推送,候选文本的推荐价值越小,则该候选文本越不优先向目标用户推送。上述候选文本的相似度与上述推荐价值成正相关性;上述候选文本的发布时间与上述推荐价值成正相关性。
具体的,通过上述步骤S103计算得到候选文本的相似度,以及获取候选文本的发布时间,计算当前时间与获取候选文本的发布时间的时间差(时间差单位可以是分钟、小时等,本申请在此不予限制,优选的,采用分钟为时间差的单位)。
使用如下公式,根据候选文本的相似度和当前时间与获取候选文本的发布时间的时间差,计算候选文本的推荐价值。
p=μ1sim(B1,B2)+μ2(today-time);
其中,P为候选文本的推荐价值,sim(B1,B2)为候选文本与历史浏览文本的相似度,B1为候选文本,B2为历史浏览文本,today为当前时刻,time为候选文本的发布时间,μ1、μ2为权重,其中,μ1与μ2的和为1。
在上述步骤1042中,预设推荐价值是人为设置好的,可以根据实际情况确定。
判断该候选文本所对应的预设推荐价值是否超过预设推荐价值,如果超过预设推荐价值,说明该候选文本可以向目标用户推荐,如果未超过预设推荐价值,说明该候选文本不可以向目标用户推荐。
在计算候选文本和历史浏览文本的相似度时,由于第一摘要表征了候选文本,以及第二摘要表征了历史浏览文本,则可以根据第一摘要和第二摘要来就算候选文本和历史浏览文本的相似度,步骤S103,包括:
步骤1031,根据上述第一摘要确定上述第一摘要所对应的第一特征向量;
步骤1032,根据上述第二摘要确定上述第二摘要所对应的第二特征向量;
步骤1033,根据上述第一特征向量和上述第二特征向量,计算上述候选文本与上述历史浏览文本的相似度。
在上述步骤1031中,第一特征向量可以是用于表征第一摘要的矩阵。
具体的,第一特征向量是根据第一摘要中每一个分词的词频生成的,第一特征向量是一个1*n维的矩阵,在第一特征向量中每一个维度表征一个词,每一个维度会有一个相对应的值。
计算每一个维度应的值得过程可以参考上文中所提到的步骤21至步骤23。通过上述步骤21至步骤23计算第一摘要中每一个分词所对应维度的值,根据每一个分词所对应维度的值组成第一特征向量。
在上述步骤1032中,第二特征向量可以是用于表征第二摘要的矩阵。
具体的,第二特征向量是根据第二摘要中每一个分词的词频生成的,第二特征向量是一个1*n维的矩阵,在第二特征向量中每一个维度表征一个词,每一个维度会有一个相对应的值。
计算每一个维度应的值得过程可以参考上文中所提到的步骤21至步骤23。通过上述步骤21至步骤23计算第二摘要中每一个分词所对应维度的值,根据每一个分词所对应维度的值组成第二特征向量。
在上述步骤1033中,根据第一特征向量和第二特征向量可以计算出第一摘要与第二摘要的词频相似度,但第一摘要能够表征候选文本,以及第二摘要能够表征历史浏览文本,因此,计算得到的第一摘要与第二摘要的词频相似度可以是候选文本与历史浏览文本的相似度。
使用如下公式,根据上述第一特征向量和上述第二特征向量,计算上述候选文本与上述历史浏览文本的相似度,包括:
使用如下公式,根据上述第一特征向量和上述第二特征向量,计算上述候选文本与上述历史浏览文本的相似度;
其中,f1表示第一特征向量,f2表示第二特征向量,sim(f1,f2)表示候选文本与历史浏览文本的相似度。
在分词处理后,需要将分词结果中清除一些常用词(常用词包括你、我、他、的等,可以根据实际情况进行设置),以减少常用词对计算词频相似度的干扰,得到筛选后的第一分词结果,在后续步骤2和步骤3中,第一分词结果和第二分词结果都是清除常用词后得到的。
在上述描述中,本申请提供了一种根据一个候选文本与一个历史文本之间的相似度来确定是否向目标用户推送候选文本。但是为了提高向目标用户推荐候选文本的准确性,可以选用用户在一段时间内的历史浏览记录(包含有多个历史浏览文本)来确定是否推荐该候选文本,即根据该侯选文本与历史浏览记录中所有历史浏览文本之间的相似度确定是否向目标用户推荐该候选文本。
可以使用如下计算公式,根据候选文本与所有的历史浏览文本,计算侯选文本与历史浏览记录中所有历史浏览文本之间的相似度。
其中,sim(f,S)为侯选文本与历史浏览记录中所有历史浏览文本之间的相似度,S为历史浏览记录中所有历史浏览文本的集合,qi为历史浏览记录中所有历史浏览文本的集合中第i个历史浏览文本,sim(f,qi)为侯选文本与历史浏览文本之间的相似度。其中,sim(f,qi)可以采用前文中所描述的计算候选文本与历史浏览文本的相似度的计算公式计算。
如图3所示,本申请实施例提供了一种推送文本的确定装置,包括:
获取模块301,用于获取候选文本和目标用户的历史浏览文本;
生成模块302,用于分别生成上述候选文本的第一摘要和上述历史浏览文本的第二摘要;
计算模块303,用于根据上述第一摘要和上述第二摘要的词频相似度,确定上述候选文本与上述历史浏览文本的相似度;
确定模块304,用于若相似度超过预设阈值,则确定上述候选文本为向上述目标用户推送的文本。
可选的,上述装置还包括:
分句模块,用于对上述候选文本进行分句处理,得到至少一个自然语句;
词频相似度计算模块,针对每一个自然语句,用于计算该自然语句与其他自然语句的词频相似度;
重要程度确定模块,针对每一个自然语句,用于根据该自然语句与其他自然语句的词频相似度,确定该自然语句的重要程度;
第一摘要确定模块,用于根据每一个自然语句的重要程度,确定出上述候选文本所对应的第一摘要。
可选的,上述候选文本包括以下文本中的任意一种或多种:未被播放过的广告文案和已经发布在互联网平台中的文本。
可选的,确定模块304,包括:
计算单元,若相似度超过预设阈值,则用于根据上述候选文本的相似度和上述候选文本的发布时间,计算上述候选文本的推荐价值;
确定单元,若上述推荐价值超过预设推荐价值,则用于确定上述候选文本为向上述目标用户推送的文本。
可选的,上述候选文本的相似度与上述推荐价值成正相关性;上述候选文本的发布时间与上述推荐价值成正相关性。
可选的,计算模块303,包括:
第一特征向量计算单元,用于根据上述第一摘要确定上述第一摘要所对应的第一特征向量;
第二特征向量计算单元,用于根据上述第二摘要确定上述第二摘要所对应的第二特征向量;
相似度计算单元,用于根据上述第一特征向量和上述第二特征向量,计算上述候选文本与上述历史浏览文本的相似度。
可选的,相似度计算单元,具体用于:
使用如下公式,根据上述第一特征向量和上述第二特征向量,计算上述候选文本与上述历史浏览文本的相似度;
其中,f1表示第一特征向量,f2表示第二特征向量,sim(f1,f2)表示候选文本与历史浏览文本的相似度。
对应于图1中的推送文本的确定方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述推送文本的确定方法的步骤。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述推送文本的确定方法,用于解决现有技术中如何提高向用户推送文本的准确性的问题,通过获取候选文本的第一摘要和历史浏览文本的第二摘要,第一摘要能够准确的表征候选文本的主要内容,第二摘要能够准确的表征历史浏览文本的主要内容,减少了人工标注的标签出现标注出错的情况,并且通过计算第一摘要和第二摘要的词频相似度,进而确定出了候选文本和历史浏览文本的相似度,将相似度超过预设阈值的才能向目标用户进行推送,通过这种方式就可以在所有的候选文本中准确的确定出能够向目标用户进行推送的文本,提高了向目标用户推送文本的准确度。
对应于图1中的推送文本的确定方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述推送文本的确定方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述推送文本的确定方法,用于如何提高向用户推送文本的准确性的问题,通过获取候选文本的第一摘要和历史浏览文本的第二摘要,第一摘要能够准确的表征候选文本的主要内容,第二摘要能够准确的表征历史浏览文本的主要内容,减少了人工标注的标签出现标注出错的情况,并且通过计算第一摘要和第二摘要的词频相似度,进而确定出了候选文本和历史浏览文本的相似度,将相似度超过预设阈值的才能向目标用户进行推送,通过这种方式就可以在所有的候选文本中准确的确定出能够向目标用户进行推送的文本,提高了向目标用户推送文本的准确度。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种推送文本的确定方法,其特征在于,包括:
获取候选文本和目标用户的历史浏览文本;
分别生成所述候选文本的第一摘要和所述历史浏览文本的第二摘要;
根据所述第一摘要和所述第二摘要的词频相似度,确定所述候选文本与所述历史浏览文本的相似度;
若相似度超过预设阈值,则确定所述候选文本为向所述目标用户推送的文本。
2.根据权利要求1所述的方法,其特征在于,还包括:
对所述候选文本进行分句处理,得到至少一个自然语句;
针对每一个自然语句,计算该自然语句与其他自然语句的词频相似度;
针对每一个自然语句,根据该自然语句与其他自然语句的词频相似度,确定该自然语句的重要程度;
根据每一个自然语句的重要程度,确定出所述候选文本所对应的第一摘要。
3.根据所述权利要求1所述的方法,其特征在于,所述候选文本包括以下文本中的任意一种或多种:未被播放过的广告文案和已经发布在互联网平台中的文本。
4.根据所述权利要求1所述的方法,其特征在于,若相似度超过预设阈值,则确定所述候选文本为向所述目标用户推送的文本,包括:
若相似度超过预设阈值,则根据所述候选文本的相似度和所述候选文本的发布时间,计算所述候选文本的推荐价值;
若所述推荐价值超过预设推荐价值,则确定所述候选文本为向所述目标用户推送的文本。
5.根据权利要求4所述的方法,其特征在于,所述候选文本的相似度与所述推荐价值成正相关性;所述候选文本的发布时间与所述推荐价值成正相关性。
6.根据权利要求1所述的方法,其特征在于,根据所述第一摘要和所述第二摘要的词频相似度,确定所述候选文本与所述历史浏览文本的相似度,包括:
根据所述第一摘要确定所述第一摘要所对应的第一特征向量;
根据所述第二摘要确定所述第二摘要所对应的第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算所述候选文本与所述历史浏览文本的相似度。
8.一种推送文本的确定装置,其特征在于,包括:
获取模块,用于获取候选文本和目标用户的历史浏览文本;
生成模块,用于分别生成所述候选文本的第一摘要和所述历史浏览文本的第二摘要;
计算模块,用于根据所述第一摘要和所述第二摘要的词频相似度,确定所述候选文本与所述历史浏览文本的相似度;
确定模块,用于若相似度超过预设阈值,则确定所述候选文本为向所述目标用户推送的文本。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010020236.7A CN111209480A (zh) | 2020-01-09 | 2020-01-09 | 一种推送文本的确定方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010020236.7A CN111209480A (zh) | 2020-01-09 | 2020-01-09 | 一种推送文本的确定方法、装置、计算机设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111209480A true CN111209480A (zh) | 2020-05-29 |
Family
ID=70786050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010020236.7A Pending CN111209480A (zh) | 2020-01-09 | 2020-01-09 | 一种推送文本的确定方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209480A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832305A (zh) * | 2020-07-03 | 2020-10-27 | 广州小鹏车联网科技有限公司 | 一种用户意图识别方法、装置、服务器和介质 |
CN113672705A (zh) * | 2021-08-27 | 2021-11-19 | 工银科技有限公司 | 简历筛选方法、装置、设备、介质及程序产品 |
CN117082020A (zh) * | 2023-10-13 | 2023-11-17 | 湖南双鸿科技有限公司 | 基于即时通讯软件的朋友圈自动化转发方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207899A (zh) * | 2013-03-19 | 2013-07-17 | 新浪网技术(中国)有限公司 | 文本文件推荐方法及系统 |
CN106126632A (zh) * | 2016-06-22 | 2016-11-16 | 北京小米移动软件有限公司 | 推荐方法及装置 |
CN109492156A (zh) * | 2018-10-24 | 2019-03-19 | 宿州元化信息科技有限公司 | 一种文献推送方法及装置 |
CN109726282A (zh) * | 2018-12-26 | 2019-05-07 | 东软集团股份有限公司 | 一种生成文章摘要的方法、装置、设备和存储介质 |
CN109977320A (zh) * | 2019-04-08 | 2019-07-05 | 北京网聘咨询有限公司 | 资讯推送方法及系统 |
-
2020
- 2020-01-09 CN CN202010020236.7A patent/CN111209480A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207899A (zh) * | 2013-03-19 | 2013-07-17 | 新浪网技术(中国)有限公司 | 文本文件推荐方法及系统 |
CN106126632A (zh) * | 2016-06-22 | 2016-11-16 | 北京小米移动软件有限公司 | 推荐方法及装置 |
CN109492156A (zh) * | 2018-10-24 | 2019-03-19 | 宿州元化信息科技有限公司 | 一种文献推送方法及装置 |
CN109726282A (zh) * | 2018-12-26 | 2019-05-07 | 东软集团股份有限公司 | 一种生成文章摘要的方法、装置、设备和存储介质 |
CN109977320A (zh) * | 2019-04-08 | 2019-07-05 | 北京网聘咨询有限公司 | 资讯推送方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832305A (zh) * | 2020-07-03 | 2020-10-27 | 广州小鹏车联网科技有限公司 | 一种用户意图识别方法、装置、服务器和介质 |
CN111832305B (zh) * | 2020-07-03 | 2023-08-25 | 北京小鹏汽车有限公司 | 一种用户意图识别方法、装置、服务器和介质 |
CN113672705A (zh) * | 2021-08-27 | 2021-11-19 | 工银科技有限公司 | 简历筛选方法、装置、设备、介质及程序产品 |
CN117082020A (zh) * | 2023-10-13 | 2023-11-17 | 湖南双鸿科技有限公司 | 基于即时通讯软件的朋友圈自动化转发方法 |
CN117082020B (zh) * | 2023-10-13 | 2023-12-29 | 湖南双鸿科技有限公司 | 基于即时通讯软件的朋友圈自动化转发方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10748164B2 (en) | Analyzing sentiment in product reviews | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
Hassan et al. | Beyond DCG: user behavior as a predictor of a successful search | |
CN107291780B (zh) | 一种用户评论信息展示方法和装置 | |
CN109558541B (zh) | 一种信息处理的方法、装置及计算机存储介质 | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
EP3035210A1 (en) | Method and device for obtaining web page category standards, and method and device for categorizing web page categories | |
CN110334356B (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
CN111209480A (zh) | 一种推送文本的确定方法、装置、计算机设备和介质 | |
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
WO2010081238A1 (en) | Method and system for document classification | |
CN111209372B (zh) | 一种关键词的确定方法、装置、电子设备和存储介质 | |
CN108415961A (zh) | 一种广告图片推荐方法及装置 | |
CN106776860A (zh) | 一种搜索摘要生成方法及装置 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
US20160034483A1 (en) | Method and system for discovering related books based on book content | |
CN111666757A (zh) | 商品评论情感倾向分析方法、装置、设备和可读存储介质 | |
CN112632396A (zh) | 一种文章推荐方法、装置、电子设备及可读存储介质 | |
CN111160019A (zh) | 一种舆情监测的方法、装置及系统 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
US20190347296A1 (en) | Method of recommending at least one skin care product to a user | |
CN109426987B (zh) | 评价装置、评价方法、噪声消除装置和程序存储介质 | |
US9613135B2 (en) | Systems and methods for contextual analysis and segmentation of information objects | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN115659961B (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231211 Address after: 200,030 Unit 5B03, Floor 5, Building 2, No. 277, Longlan Road, Xuhui District, Shanghai Applicant after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD. Address before: Floors 4, 5 and 6, No. 3, Lane 1473, Zhenguang Road, Putuo District, Shanghai, 200333 Applicant before: Shanghai Fengzhi Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |