CN107608980A - 基于dpi大数据分析的信息推送方法和系统 - Google Patents

基于dpi大数据分析的信息推送方法和系统 Download PDF

Info

Publication number
CN107608980A
CN107608980A CN201610539302.5A CN201610539302A CN107608980A CN 107608980 A CN107608980 A CN 107608980A CN 201610539302 A CN201610539302 A CN 201610539302A CN 107608980 A CN107608980 A CN 107608980A
Authority
CN
China
Prior art keywords
webpage
word
keyword
user
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610539302.5A
Other languages
English (en)
Inventor
赵钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201610539302.5A priority Critical patent/CN107608980A/zh
Publication of CN107608980A publication Critical patent/CN107608980A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于DPI大数据分析的信息推送方法和系统,涉及数字文本挖掘领域。其中的方法包括:基于DPI技术获取用户数据包;将用户数据包解析为网页文本;根据预定算法提取网页文本中多个关键词;计算包含关键词的网页和推送信息主题词的相似度;当相似度大于阈值时,向访问网页的用户推送与主题词相关的信息。即实现了用户访问网页中的关键词与推送信息主题词快速匹配,因此可以实现向用户精准推送信息。

Description

基于DPI大数据分析的信息推送方法和系统
技术领域
本发明涉及数字文本挖掘领域,尤其涉及一种基于DPI大数据分析的信息推送方法和系统。
背景技术
目前电信运营商实时广告营销是通过基于DPI(Deep Packet Inspection,深度包检测)技术获取用户上网URL(Uniform Resource Locator,统一资源定位符)地址,结合事先建立好的URL地址库中URL的分类信息(如新闻、购物等),给用户打标签,再基于用户标签手工匹配营销主题实现。
但该方法存在以下问题,例如:(1)URL地址库中网址有限,只能覆盖互联网上的少量网址。(2)URL网页内容变化快,地址库更新难度大。(3)电信运营商建立的用户标签的精细度可能不能满足广告主需求,例如广告主希望对正在看的网页上有“联想”、“笔记本”、“HP”、“超极本”等内容的用户实时推送笔记本广告,而用户标签可能只有“购物”、“电脑”等类别。
发明内容
本发明要解决的一个技术问题是提供一种基于DPI大数据分析的信息推送方法和系统,进而实现向用户精准推送信息。
根据本发明一方面,提出一种基于DPI大数据分析的信息推送方法,包括:基于深度包检测DPI技术获取用户数据包;将用户数据包解析为网页文本;根据预定算法提取网页文本中多个关键词;计算包含关键词的网页和推送信息主题词的相似度;当相似度大于阈值时,向访问网页的用户推送与主题词相关的信息。
进一步地,根据预定算法提取网页文本中多个关键词包括:根据词频TF-逆向文件频率IDF算法计算网页文本中的词语的TF-IDF值;对TF-IDF值由大到小进行排序;获取前N个TF-IDF值对应的词语作为关键词。
进一步地,根据TF-IDF算法计算网页文本中的词语的TF-IDF值包括:预先基于DPI技术采集用户访问网页,生成URL-词频构成的语料库;根据语料库计算网页文本中的词语的IDF值;根据网页文本中的词语的IDF值获取网页文本中的词语的TF-IDF值。
进一步地,预先基于DPI技术采集用户访问网页,生成URL-词频构成的语料库包括:预先基于DPI技术采集用户访问网页;通过限制用户访问网页的大小、自定义停用词和/或将用户访问网页中出现次数小于阈值的词语剔除后,生成语料库。
进一步地,计算包含关键词的网页和推送信息主题词的相似度包括:根据TF-IDF算法计算语料库中包含推送信息主题词的网页中关键词的TF-IDF值;将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含关键词的网页和推送信息主题词的相似度。
根据本发明的另一方面,还提出一种基于DPI大数据分析的信息推送系统,包括:数据采集模块,用于基于DPI技术获取用户数据包;数据包解析模块,用于将用户数据包解析为网页文本;关键词提取模块,用于根据预定算法提取网页文本中多个关键词;相似度计算模块,用于计算包含关键词的网页和推送信息主题词的相似度;信息推送模块,用于当相似度大于阈值时,向访问网页的用户推送与主题词相关的信息。
进一步地,关键词提取模块用于根据词频-逆向文件频率TF-IDF算法计算网页文本中的词语的TF-IDF值;对TF-IDF值由大到小进行排序;获取前N个TF-IDF值对应的词语作为关键词。
进一步地,该系统还包括:语料库管理模块,用于预先基于DPI技术采集用户访问网页,生成URL-词频构成的语料库;关键词提取模块还用于根据语料库计算网页文本中的词语的IDF值;根据网页文本中的词语的IDF值获取网页文本中的词语的TF-IDF值。
进一步地,语料库管理模块还用于预先基于DPI技术采集用户访问网页;通过限制用户访问网页的大小、自定义停用词和/或将用户访问网页中出现次数小于阈值的词语剔除后,生成语料库。
进一步地,相似度计算模块用于根据TF-IDF算法计算语料库中包含推送信息主题词的网页中关键词的TF-IDF值;将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含关键词的网页和推送信息主题词的相似度。
与现有技术相比,本发明利用DPI技术获取用户上网数据包,并通过预定算法实时分析网页中词频特性,将用户访问网页中的关键词与推送信息主题词快速匹配,因此可以实现向用户精准推送信息。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明基于DPI大数据分析的信息推送方法的一个实施例的流程示意图。
图2为本发明基于DPI大数据分析的信息推送方法的另一个实施例的流程示意图。
图3为本发明基于DPI大数据分析的信息推送方法的再一个实施例的流程示意图。
图4为本发明基于DPI大数据分析的信息推送系统的一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为本发明基于DPI大数据分析的信息推送方法的一个实施例的流程示意图。该方法包括以下步骤:
在步骤110,基于DPI技术获取用户数据包。例如,通过DPI技术实时获取网络流量中的HTTP协议数据包。为了提高效率,还可以利用分布式技术处理DPI采集的TTTP协议数据包。
在步骤120,将用户数据包解析为网页文本。
在步骤130,根据预定算法提取网页文本中多个关键词。例如,用户访问一个购物网页后,提取购物网页中的关键词,如手机、安卓、内存等等。
在步骤140,计算包含关键词的网页和推送信息主题词的相似度。例如,A用户访问的一个网页中的关键词是笔记本、联想;B用户访问的一个网页中的关键词为手机、安卓、内存。营销商想要推送苹果手机,则判断B用户访问的网页与营销商的主题词相似度要大于A用户访问的网页与营销商的主题词相似度。
在步骤150,当相似度大于阈值时,向访问该网页的用户推送与主题词相关的信息。例如,计算网页中每一个关键词与推送信息主题词的相似度,若一个网页中有N个关键词,推送信息主题词有M个,则计算M*N次相似度,并将M*N个相似度相加作为网页与推送信息主题词的相似度,当网页与推送信息主题词的相似度达到阈值时,将访问该网页的用户作为目标对象进行实时广告营销。
在该实施例中,利用DPI技术获取用户上网数据包,并通过预定算法实时分析网页中词频特性,将用户访问网页中的关键词与推送信息主题词快速匹配,因此可以实现向用户精准推送信息。
图2为本发明基于DPI大数据分析的信息推送方法的另一个实施例的流程示意图。该方法包括以下步骤:
在步骤210,通过DPI技术实时获取网络流量中的HTTP协议数据包。
在步骤220,将HTTP协议数据包解析为用户访问的网页文本。
在步骤230,利用TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)算法,计算网页文本中的词语的TF-IDF值。
其中,TF-IDF为信息检索与数据挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。词频TF计算公式为其中分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和,逆向文件频率IDF计算公式为其中|D|是语料库中的文件总数,|{j:ti∈dj}|包含词语ti的文件数目(即ni,j≠0的文件数目)如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|,最后计算tfidfi,j=tfi,j×idfi。传统TF-IDF技术主要用在提取文本中的特征词,将文本建模为词频向量,利用余弦等相似度方法计算文本之间的相似度,也有将TF-IDF用于计算共同购买商品评分的用户之间的相似性方面。
其中,在本发明中,TF=词语在网页文本中的出现次数/网页文本中总词数,IDF=语料库中URL数/(包含词语的URL数+1),TF-IDF值=TF*IDF,即本发明利用TF-IDF算法,统计网页文本中每个词语的重要程度。
在步骤240,对TF-IDF值由大到小进行排序。当然,也可以由小到大进行排序。
在步骤250,获取前N个TF-IDF值对应的词语作为关键词。即统计网页中最重要的几个关键词。为提高计算效率,可将用户访问的网页的关键词保存在缓存中,当针对不同广告主的主题词进行营销时,一定时间内可无需重复计算同一网页的TF值。
在步骤260,结合预料库,计算关键词和主题词的相似度,进而获知用户访问的网页与主题词的相似度。例如,广告主设定M个营销主题词,对每个主题词,将语料库中所有包含该主题词的文档逻辑上看成一个大的文档,也可以将主题词次数大于某个阈值的文档逻辑上看成一个大的文档。计算用户网页每个关键词相对于这个大文档的TF-IDF值,将M*N个值相加作为用户访问网页和广告主题之间的相似度。
在步骤270,判断相似度是否达到阈值,若达到阈值,则将访问该网页的用户作为目标对象进行实时信息推送。
为提高计算效率,对于同一主题词序列,可将已经筛选出的网址保存在数据库中,当不同用户访问该网址时,无需重复计算,直接将用户作为营销对象进行信息推送。
在该实施例中,基于DPI技术获取用户上网数据包,并通过TF-IDF算法实时分析网页中词频特性,将用户访问网页中的关键词与推送信息主题词快速匹配,因此可以实现向用户精准推送信息。将该方法应用于营销领域时,无需像现有技术一样采用基于用户标签的营销模式,无需更新维护URL地址库,营销主题词无需受预定义用户标签/URL网址分类限制,广告主可指定个性化的营销主题词,系统自动匹配生成营销名单,营销准确性还可通过调整相似度阈值控制。
图3为本发明基于DPI大数据分析的信息推送方法的再一个实施例的流程示意图。该方法包括以下步骤:
在步骤310,预先通过DPI技术随机采集一批用户访问网页,生成网址-词频构成的大数据语料库。例如,预料库中包含ID、URL、词语、频次信息,如表1所示:
ID URL 词语 频次
1 http://aaa.com 笔记本 5
2 http://aaa.com 内存 3
3 http://bbb.com 游戏机 4
... ... ... ...
表1
语料库的数据随机采集自用户上网网页内容,在实际实施中也可限定用户类型,如采集不同标签的用户上网网页,让文本内容覆盖面更广,更具普遍性;还可以限定网页大小范围,避免内容过多的网页词频太多占用存储资源,影响后续TF-IDF计算性能,或过少的内容网页词频太少,影响后续TF-IDF计算准确性;也可采集已有公开的预料库或综合类网站的文章、评论等;还可以对存储到语料库中词频可以设定上下限,如小于某个值或大于某个值的词频不纳入语料库,以降低存储空间大小,提高计算准确性。
在实际实施中应让语料库尽量覆盖更多词语范围,因此数据量非常大,可引入Key-Value缓存、大数据存储等技术,提高语料库数据检索效率。
在步骤320,通过DPI实时采集HTTP协议用户上网数据包,组合并解析成网页文本。由于营销广告关注的是目标客户定位的准确性,覆盖率可以通过时间弥补,所以系统实时从DPI获取HTTP协议用户上网数据包时,并不需要每个用户每时每刻都处理,只需要根据自身系统性能,处理完一个再处理下一个数据包,丢弃中间来不及处理的数据包,不会出现排队问题。
在步骤330,利用分词技术将网页文本转换成词语列表,剔除停用词,结合语料库,计算每个单词的TF-IDF值,取最大的N个作为标识网页特征的关键词。
在步骤340,计算每个主题词与每个关键词的TF-IDF值。其中,TF=语料库中包含营销主题词的URL中关键词出现总数/语料库中包含营销主题词的URL中总词语数;IDF=log语料库中URL数/(包含关键词的URL数+1);TF-IDF值=TF*IDF。
例如,关键词“笔记本”、“中国”和营销主题词“联想”如表2所示:
表2
在步骤350,计算主题词与网页之间的相似度。即将步骤340计算出来的M*N个TF-IDF值之和作为主题词与网页的相似度值。包含关键词“笔记本”、“中国”的网页与主题词“联想”的相似度为0.215+0.094=0.309。
在步骤360,当相似度大于阈值时,认为用户访问的网页与主题词相关,向访问该网页的用户推送信息。
在该实施例中,通过DPI实时采集HTTP协议用户上网数据包,组合并解析成网页文本,并结合语料库,通过一次TF-IDF计算,识别标识用户上网访问网页的关键词序列,通过二次TF-IDF计算,识别关键词序列和营销主题词序列之间的相似度,进而实现精准推送信息。
本发明与现有基于URL地址库给用户打标签进行营销的模式相比,没有预定义的标签分类限制,完全基于大数据实时分析计算进行营销主题词相似度匹配,目标用户定位更精准。另外本发明并未涉及广告效果的记录,实际实施时还可将匹配上的用户营销清单记录到数据库。
图4为本发明基于DPI大数据分析的信息推送系统的一个实施例的结构示意图。该系统包括数据采集模块410、数据包解析模块420、关键词提取模块430、相似度计算模块440和信息推送模块450。其中:
数据采集模块410用于基于DPI技术获取用户数据包。例如,通过DPI技术实时获取网络流量中的HTTP协议数据包。
数据包解析模块420用于将用户数据包解析为网页文本。
关键词提取模块430用于根据预定算法提取网页文本中多个关键词。例如,用户访问一个购物网页后,提取购物网页中的关键词,如手机、安卓、内存等等。
相似度计算模块440用于计算包含关键词的网页和推送信息主题词的相似度。例如,A用户访问的一个网页中的关键词是笔记本、联想;B用户访问的一个网页中的关键词为手机、安卓、内存。营销商想要推送苹果手机广告,则判断B用户访问的网页与营销商的主题词相似度要大于A用户访问的网页与营销商的主题词相似度。
信息推送模块450用于当相似度大于阈值时,向用户推送与主题词相关的信息。例如,计算网页中每一个关键词与推送信息主题词的相似度,若一个网页中有N个关键词,推送信息主题词有M个,则计算M*N次相似度,并将M*N个相似度相加作为网页与推送信息主题词的相似度,当网页与推送信息主题词的相似度达到阈值时,将访问该网页的用户作为目标对象进行实时广告营销。
在该实施例中,利用DPI技术获取用户上网数据包,并通过预定算法实时分析网页中词频特性,将用户访问网页中的关键词与推送信息主题词快速匹配,因此可以实现向用户精准推送信息。
在本发明的另一个实施例中,该系统还可以包括语料库管理模块460,语料库管理模块460用于预先基于DPI技术采集用户访问网页,生成URL-词频构成的语料库。例如,预料库中包含ID、URL、词语、频次信息等。如果语料库太大,还可以通过限制网页大小、自定义停用词以及将一个网页中出现次数小于阈值的词语剔除来降低语料库的大小。
关键词提取模块430用于利用TF-IDF算法,结合语料库计算网页文本中的词语的TF-IDF值,并对TF-IDF值由大到小进行排序;获取前N个TF-IDF值对应的词语作为关键词。其中:TF=词语在网页文本中的出现次数/网页文本中总词数,IDF=语料库中URL数/(包含词语的URL数+1),TF-IDF值=TF*IDF,即本发明利用TF-IDF算法,统计网页文本中每个词语的重要程度。
相似度计算模块440还用于计算每个主题词与每个关键词的TF-IDF值,并将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含关键词的网页和推送信息主题词的相似度。例如,如表2所示,包含关键词“笔记本”、“中国”的网页与主题词“联想”的相似度为0.215+0.094=0.309。
信息推送模块450用于当相似度大于阈值时,认为用户访问的网页与主题词相关,向访问该网页的用户推送信息。
在该实施例中,通过DPI实时采集HTTP协议用户上网数据包,组合并解析成网页文本,并结合语料库,通过二次TF-IDF算法计算网页和主题词的相似度,进而实现精准推送信息。
至此,已经详细描述了本发明。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种基于DPI大数据分析的信息推送方法,其特征在于,包括:
基于深度包检测DPI技术获取用户数据包;
将所述用户数据包解析为网页文本;
根据预定算法提取所述网页文本中多个关键词;
计算包含所述关键词的网页和推送信息主题词的相似度;
当所述相似度大于阈值时,向访问所述网页的用户推送与所述主题词相关的信息。
2.根据权利要求1所述的方法,其特征在于,所述根据预定算法提取所述网页文本中多个关键词包括:
根据词频TF-逆向文件频率IDF算法计算所述网页文本中的词语的TF-IDF值;
对所述TF-IDF值由大到小进行排序;
获取前N个TF-IDF值对应的词语作为关键词。
3.根据权利要求2所述的方法,其特征在于,所述根据TF-IDF算法计算所述网页文本中的词语的TF-IDF值包括:
预先基于DPI技术采集用户访问网页,生成URL-词频构成的语料库;
根据所述语料库计算所述网页文本中的词语的IDF值;
根据所述网页文本中的词语的IDF值获取所述网页文本中的词语的TF-IDF值。
4.根据权利要求3所述的方法,其特征在于,所述预先基于DPI技术采集用户访问网页,生成URL-词频构成的语料库包括:
预先基于DPI技术采集用户访问网页;
通过限制所述用户访问网页的大小、自定义停用词和/或将所述用户访问网页中出现次数小于阈值的词语剔除后,生成所述语料库。
5.根据权利要求3所述的方法,其特征在于,所述计算包含所述关键词的网页和推送信息主题词的相似度包括:
根据TF-IDF算法计算所述语料库中包含所述推送信息主题词的网页中所述关键词的TF-IDF值;
将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含所述关键词的网页和推送信息主题词的相似度。
6.一种基于DPI大数据分析的信息推送系统,其特征在于,包括:
数据采集模块,用于基于DPI技术获取用户数据包;
数据包解析模块,用于将所述用户数据包解析为网页文本;
关键词提取模块,用于根据预定算法提取所述网页文本中多个关键词;
相似度计算模块,用于计算包含所述关键词的网页和推送信息主题词的相似度;
信息推送模块,用于当所述相似度大于阈值时,向访问所述网页的用户推送与所述主题词相关的信息。
7.根据权利要求6所述的系统,其特征在于,所述关键词提取模块用于根据词频-逆向文件频率TF-IDF算法计算所述网页文本中的词语的TF-IDF值;对所述TF-IDF值由大到小进行排序;获取前N个TF-IDF值对应的词语作为关键词。
8.根据权利要求7所述的系统,其特征在于,还包括:
语料库管理模块,用于预先基于DPI技术采集用户访问网页,生成URL-词频构成的语料库;
所述关键词提取模块还用于根据所述语料库计算所述网页文本中的词语的IDF值;根据所述网页文本中的词语的IDF值获取所述网页文本中的词语的TF-IDF值。
9.根据权利要求8所述的系统,其特征在于,所述语料库管理模块还用于预先基于DPI技术采集用户访问网页;通过限制所述用户访问网页的大小、自定义停用词和/或将所述用户访问网页中出现次数小于阈值的词语剔除后,生成所述语料库。
10.根据权利要求8所述的系统,其特征在于,所述相似度计算模块用于根据TF-IDF算法计算所述语料库中包含所述推送信息主题词的网页中所述关键词的TF-IDF值;将计算出的包含每个推送信息主题词的网页中每个关键词的TF-IDF值相加作为包含所述关键词的网页和推送信息主题词的相似度。
CN201610539302.5A 2016-07-11 2016-07-11 基于dpi大数据分析的信息推送方法和系统 Pending CN107608980A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610539302.5A CN107608980A (zh) 2016-07-11 2016-07-11 基于dpi大数据分析的信息推送方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610539302.5A CN107608980A (zh) 2016-07-11 2016-07-11 基于dpi大数据分析的信息推送方法和系统

Publications (1)

Publication Number Publication Date
CN107608980A true CN107608980A (zh) 2018-01-19

Family

ID=61055190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610539302.5A Pending CN107608980A (zh) 2016-07-11 2016-07-11 基于dpi大数据分析的信息推送方法和系统

Country Status (1)

Country Link
CN (1) CN107608980A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003122A (zh) * 2018-06-28 2018-12-14 四川斐讯信息技术有限公司 一种基于广告投放的用户分类方法及服务器
CN109408749A (zh) * 2018-10-24 2019-03-01 数贸科技(北京)有限公司 基于tf-idf的url生成方法及系统
CN109726272A (zh) * 2018-12-20 2019-05-07 杭州数梦工场科技有限公司 审计规则推荐方法及装置
CN111353101A (zh) * 2020-02-27 2020-06-30 谷元(上海)文化科技有限责任公司 一种数据推送方法
CN113610648A (zh) * 2021-07-26 2021-11-05 上海摩莱信息科技有限公司 一种基于大数据的保险信息推送系统及方法
CN115269613A (zh) * 2022-09-27 2022-11-01 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质
CN116320088A (zh) * 2023-03-03 2023-06-23 武汉麦丰创新网络科技有限公司 一种实现aaa转发的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523296A (zh) * 2011-12-21 2012-06-27 华为技术有限公司 无线网页浏览资源优化方法、装置及系统
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103530339A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 移动应用信息推送方法和装置
CN103646119A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 用户行为记录的生成方法及装置
CN103678620A (zh) * 2013-12-18 2014-03-26 国家电网公司 一种基于用户历史行为特征的知识文档推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523296A (zh) * 2011-12-21 2012-06-27 华为技术有限公司 无线网页浏览资源优化方法、装置及系统
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103530339A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 移动应用信息推送方法和装置
CN103678620A (zh) * 2013-12-18 2014-03-26 国家电网公司 一种基于用户历史行为特征的知识文档推荐方法
CN103646119A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 用户行为记录的生成方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003122A (zh) * 2018-06-28 2018-12-14 四川斐讯信息技术有限公司 一种基于广告投放的用户分类方法及服务器
CN109408749A (zh) * 2018-10-24 2019-03-01 数贸科技(北京)有限公司 基于tf-idf的url生成方法及系统
CN109726272A (zh) * 2018-12-20 2019-05-07 杭州数梦工场科技有限公司 审计规则推荐方法及装置
CN111353101A (zh) * 2020-02-27 2020-06-30 谷元(上海)文化科技有限责任公司 一种数据推送方法
CN113610648A (zh) * 2021-07-26 2021-11-05 上海摩莱信息科技有限公司 一种基于大数据的保险信息推送系统及方法
CN115269613A (zh) * 2022-09-27 2022-11-01 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质
CN116320088A (zh) * 2023-03-03 2023-06-23 武汉麦丰创新网络科技有限公司 一种实现aaa转发的方法及装置
CN116320088B (zh) * 2023-03-03 2023-09-15 武汉麦丰创新网络科技有限公司 一种实现aaa转发的方法及装置

Similar Documents

Publication Publication Date Title
CN107608980A (zh) 基于dpi大数据分析的信息推送方法和系统
KR102092691B1 (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN105447186B (zh) 一种基于大数据平台的用户行为分析系统
CN109145280A (zh) 信息推送的方法和装置
WO2021025926A1 (en) Digital content prioritization to accelerate hyper-targeting
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
Shouzhong et al. Mining microblog user interests based on TextRank with TF-IDF factor
CN109885773A (zh) 一种文章个性化推荐方法、系统、介质及设备
CN103678335A (zh) 商品标识标签的方法、装置及商品导航的方法
CN103874994A (zh) 用于自动概括电子文档的内容的方法和装置
CN104820686A (zh) 一种网络搜索方法及网络搜索系统
CN103838756A (zh) 一种确定推送信息的方法及装置
US10002187B2 (en) Method and system for performing topic creation for social data
CN107292463A (zh) 一种对应用程序进行项目评估的方法及系统
CN107908616B (zh) 预测趋势词的方法和装置
TW202001620A (zh) 自動化網站資料蒐集方法
WO2019128311A1 (zh) 广告的相似度处理方法和装置、计算设备及存储介质
CN105975547B (zh) 基于内容与位置特征的近似web文档检测方法
WO2016040772A1 (en) Method and apparatus of matching an object to be displayed
Kim et al. Two applications of clustering techniques to twitter: Community detection and issue extraction
Jung Exploiting geotagged resources for spatial clustering on social network services
CN108228587A (zh) 群体识别方法及群体识别装置
Fani et al. Time-sensitive topic-based communities on twitter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180119

RJ01 Rejection of invention patent application after publication