CN103123649B - 一种基于微博平台的消息搜索方法及系统 - Google Patents

一种基于微博平台的消息搜索方法及系统 Download PDF

Info

Publication number
CN103123649B
CN103123649B CN201310035101.8A CN201310035101A CN103123649B CN 103123649 B CN103123649 B CN 103123649B CN 201310035101 A CN201310035101 A CN 201310035101A CN 103123649 B CN103123649 B CN 103123649B
Authority
CN
China
Prior art keywords
search
keyword
message
microblog
search keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310035101.8A
Other languages
English (en)
Other versions
CN103123649A (zh
Inventor
石忠民
徐亚波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU YIZHAO NETWORK TECHNOLOGY Co Ltd
Original Assignee
GUANGZHOU YIZHAO NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU YIZHAO NETWORK TECHNOLOGY Co Ltd filed Critical GUANGZHOU YIZHAO NETWORK TECHNOLOGY Co Ltd
Priority to CN201310035101.8A priority Critical patent/CN103123649B/zh
Publication of CN103123649A publication Critical patent/CN103123649A/zh
Application granted granted Critical
Publication of CN103123649B publication Critical patent/CN103123649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于微博平台的消息搜索方法及系统,该方法包括步骤:获取用户设置的商品信息;根据商品信息生成相应的搜索关键词;根据预先建立的关键词知识库进行搜索关键词扩展;根据预先建立的关键词组合知识库组合扩展后的搜索关键词,生成至少一个包含了多个搜索关键词的搜索关键词组合;用搜索关键词组合在各个微博平台上搜索相关联的微博消息;对搜索到的微博消息进行智能识别,将识别出的有潜在购物需求的消息作为返回给用户的结果保存到数据库中。采用本方法或系统,能找出微博平台上有潜在购物需求的微博消息,提高了搜索的全面性、准确性和实用性,搜索效率极高。

Description

一种基于微博平台的消息搜索方法及系统
技术领域
本发明涉及计算机信息处理领域技术,尤其是一种基于微博平台的消息搜索方法及系统。
背景技术
随着互联网信息技术的飞速发展,现有的网络信息搜索方法搜索到的信息越来越全面,比如百度、谷歌、Bing、搜搜等搜索引擎实施的搜索方法,能够根据用户输入的关键词在互联网海量的网页里搜索到海量的相关信息。
目前,微博平台已经成为最为庞大的社会化媒体,比如新浪微博、腾讯微博、网易微博、推特等,每天都有数量庞大的网民成为微博用户,每天都有不计其数的微博消息在各微博平台上发布。鉴于此,人们期望能从不计其数的微博消息中找出有潜在购物需求的消息,继而根据微博消息表达出的潜在购物需求向发布该微博消息的微博用户发送针对性的包含广告内容的评论。然而,现有的网络信息搜索方法都是基于整个互联网,由于全面性的提高,其搜索到的信息里虽然可能包含了大量的微博消息,但没有识别出有潜在购物需求的微博消息,而且这些微博消息杂乱无章地和其它信息混杂在一起,搜索的准确性和实用性极低。
发明内容
针对现有技术的不足,本发明的目的旨在于提供一种基于微博平台的消息搜索方法,其能找出微博平台上有潜在购物需求的微博消息,提高了搜索的准确性和实用性。
本发明的另一目的在于提供一种基于微博平台的消息搜索系统。
为实现上述目的,本发明采用如下技术方案:
一种基于微博平台的消息搜索方法,包括以下步骤:
a、获取用户设置的商品信息;
b、根据商品信息生成相应的搜索关键词;
c、根据预先建立的关键词知识库进行搜索关键词扩展;
d、根据预先建立的关键词组合知识库组合扩展后的搜索关键词,生成至少一个包含了多个搜索关键词的搜索关键词组合;
e、用搜索关键词组合在各个微博平台上搜索相关联的微博消息;
f、对搜索到的微博消息进行智能识别,将识别出的有潜在购物需求的消息作为返回给用户的结果保存到数据库中。
其中,步骤c中的搜索关键词扩展是将关键词知识库中搜索关键词的同义词扩展为搜索关键词。
其中,商品信息包括频道、种类和特征。
其中,在步骤f中,所述对搜索到的微博消息进行智能识别包括以下具体步骤:
根据预先设定的过滤规则对搜索到的微博消息进行过滤;
采用预先训练好的文本分类器对过滤得到的微博消息进行分类;
用分类得到的每条微博消息的正文内容与一定时间段内的其它分类得到的微博消息的正文内容进行相似度比较,如果相似,则去掉该微博消息。
其中,步骤e所述的用搜索关键词组合在各个微博平台上搜索相关联的微博消息是根据搜索调度策略进行的,搜索调度策略如下:
根据每个搜索关键词组合的历史搜索结果为其计算下一次的搜索时间,该时间由以下公式得出:
其中,TI为某个时段的时长,T为在一天中所处的时段,t为抓取时的时间,M为某个时段出现新微博条目的期望,m为出现的新微博条目数,d为t值中的日期,N为一个时段中抓取的次数;
搜索调度策略的具体流程为:
初始化每个搜索关键词组合的历史记录值;
选取搜索时间最旧的一组搜索关键词组合进行搜索;
更新该搜索关键词组合的历史记录值;
更新该搜索关键词组合的下一次搜索时间。
一种基于微博平台的消息搜索系统,包括:
获取模块,用于获取用户设置的商品信息;
生成模块,用于根据商品信息生成相应的搜索关键词;
扩展模块,用于根据预先建立的关键词知识库进行搜索关键词扩展;
组合模块,用于根据预先建立的关键词组合知识库组合扩展后的搜索关键词,生成至少一个包含了多个搜索关键词的搜索关键词组合;
搜索模块,用于用搜索关键词组合在各个微博平台上搜索相关联的微博消息;
识别模块,用于对搜索到的微博消息进行智能识别,将识别出的有潜在购物需求的消息作为返回给用户的结果保存到数据库中。
其中,识别模块包括:
过滤装置,用于根据预先设定的过滤规则对搜索到的微博消息进行过滤;
分类装置,用于采用预先训练好的文本分类器对过滤得到的微博消息进行分类;
文本去重装置,用于用分类得到的每条微博消息的正文内容与一定时间段内的其它分类得到的微博消息的正文内容进行相似度比较,如果相似,则去掉该微博消息。
本发明所阐述的一种基于微博平台的消息搜索方法及系统,其有益效果在于:
采用本方法或系统,通过扩展搜索关键词、组合搜索关键词和智能识别,能找出微博平台上有潜在购物需求的微博消息,提高了搜索的全面性、准确性和实用性,搜索效率极高;以及,通过采用搜索调度策略,能取得搜索结果的最大化。
附图说明
图1是本发明一种基于微博平台的消息搜索方法的流程图;
图2是本发明一种基于微博平台的消息搜索方法中搜索调度策略的流程图;
图3是本发明一种基于微博平台的消息搜索方法中对搜索到的微博消息进行智能识别的流程图。
具体实施方式
下面结合附图与具体实施例来对本发明作进一步描述。
请参照图1所示,其显示出了本发明一种基于微博平台的消息搜索方法的主要流程,在步骤a中,获取用户设置的商品信息。商品信息包括频道、种类和特征,比如需要推广面膜的用户可以选择化妆品频道、面膜种类,特征可以选择祛痘、保湿。
进行到步骤b,根据商品信息生成相应的搜索关键词。一般而言,商品信息中的种类和特征都可以作为搜索关键词。
进行到步骤c,根据预先建立的关键词知识库进行搜索关键词扩展。由于语言文字的复杂性,不同的词可能表达的意思是相同的,而用户在商品信息中设置的关键词非常有限,为了尽可能多的获得具有与商品相关的潜在购物需求的微博消息,有必要对步骤b中生成的搜索关键词进行扩展,将这些搜索关键词的同义词也扩展为搜索关键词,以保证搜索的全面性,比如,面膜的同义词有软膜、水保湿、冻膜、去角质、痘消印、水晶膜、敷面粉、海藻胶、洗颜膜、太极泥、泥浆膜、水酣睡膜等,用户只需在商品信息中将种类设置为“面膜”,扩展后生成的搜索关键词将包含“面膜”及其所有的同义词。关键词扩展主要基于半自动建立的关键词知识库,关键词知识库中应尽可能多的保存领域内的常用关键词及其同义词。
进行到步骤d,根据预先建立的关键词组合知识库组合扩展后的搜索关键词,生成至少一个包含了多个搜索关键词的搜索关键词组合。组合搜索关键词,是为了能够更准确的搜索到符合用户期望的微博消息,比如“面膜祛痘”、“面膜消痘”、“面贴祛痘”就是三个包括了两个搜索关键词的搜索关键词组合,而如果只以单个搜索关键词进行搜索,如“面膜”,搜索到的微博消息中将含有大量无效内容,即没有潜在购物需求的消息也会被搜索到,降低了准确性。关键词组合知识库规定了搜索关键词可能的组合,是为了让相关度高的搜索关键词组合成搜索关键词组合,防止不相关的关键词组合成搜索关键词组合,以提高搜索效率。
进行到步骤e,用搜索关键词组合在各个微博平台上搜索相关联的微博消息。微博平台包括新浪微博、腾讯微博、网易微博等,通过调用微博平台的API接口实现搜索,比如以“面膜祛痘”的搜索关键词组合作为输入参数,调用新浪微博平台提供的API接口,即返回包含该搜索关键词组合的最新的新浪微博消息。由于微博平台开放的搜索接口的访问是有次数限制的,即限定了单位时间段内的最大访问次数,而每个搜索关键词的热度是不一样的,比如经测试,在新浪微博平台上,“减肥”这个搜索关键词平均每分钟可产生20多条新微博消息,而“T区护理”这个搜索关键词平均每天产生的新微博消息数量还不到一条,因此每个不同的搜索关键词组合得到的更新数量是不一样的,这就应该对所有的搜索关键词组合建立合理的搜索调度策略,以达到搜索结果最大化,本发明的搜索调度策略如下:
根据每个搜索关键词组合的历史搜索结果为其计算下一次的搜索时间,该时间由以下公式得出:
其中,TI为某个时段的时长,T为在一天中所处的时段,t为抓取时的时间,M为某个时段出现新微博条目的期望,m为出现的新微博条目数,d为t值中的日期,N为一个时段中抓取的次数。
由于微博用户一天中在各个时间段发布微博消息的数量很不均衡,为了精确计算,必须对一天分为多个时段,记录每个时段出现的新的微博消息总数量,以及该时段的时长和期望出现的新微博消息数,计算结果。
如图2,搜索调度策略的具体流程为:
(1)、初始化每个搜索关键词组合的历史记录值。由于上述公式计算时需要用到前一天的历史记录,因而第一次搜索时可以赋予一个固定的常量作为历史记录值。
(2)、选取搜索时间最旧的一组搜索关键词组合进行搜索。
(3)、更新该搜索关键词组合的历史记录值。搜索后,根据搜索结果记录,用于计算下一次搜索时间。
(4)、更新该搜索关键词组合的下一次搜索时间。该搜索关键词组合的下一次搜索时间根据上述公式计算。
进行到步骤f,对搜索到的微博消息进行智能识别,将识别出的有潜在购物需求的消息作为返回给用户的结果保存到数据库中。采用搜索关键词组合进行搜索,虽然在一定程度上提高了搜索的准确性,但还是可能会搜索到一些没有潜在购物需求的微博消息,因此还需要对搜索到的微博消息进行智能识别,如图3,具体包括如下步骤:
(1)、根据预先设定的过滤规则对搜索到的微博消息进行过滤。这样通过设置过滤规则能过滤掉一些无用的微博消息,过滤规则主要包括以下规则:
不包含搜索关键词的过滤:去掉微博消息正文的转发部分后,剩余内容中不包含搜索关键词组合中的任意一个搜索关键词的,过滤掉;
广告过滤:微博正文中包含URL的或正文中包含指定的特殊字符数目超过一定数量的(比如包含价格单位“¥”超过3次的),过滤掉;
微博用户昵称关键词过滤:发布该微博消息的微博用户,如果昵称中包含指定关键词的,则判断为非普通微博用户(比如公司的官方账号或组织账号,这些微博用户所发的全部消息都可认定为没有购物需求),过滤掉。
(2)、采用预先训练好的文本分类器对过滤得到的微博消息进行分类。分类的目的是为了找出有潜在购物需求的微博消息,本实施例采用基于机器学习的文本分类器,主要分为以下两个阶段:
21)、训练分类器。当确定文本模型后,利用训练样本集对分类器进行训练,同时用测试样本对分类器进行分类效果评估并调整,以得到具有最佳分类效果的分类器,训练过程如下:
21a)、生成特征。对全部训练样本的微博消息内容进行分词,也就是将整个文本句子分割成基本单元的词组,生成文本特征集。
21b)、特征选择。由于分词得到的文本特征集的特征数量非常庞大,造成分类算法的维度过大,而且有些特征还会影响搜索的精确度,因而必须挑选一定数量的有利于提高搜索精确度的特征。特征选择方法有很多种,有基于DF(文档频率)、IG(信息增益)、MI(互信息)等,本实施例采用CHI(卡方统计)特征选择方法,CHI方法通过计算特征词t与类别Ci之间的相关程度来进行特征选择操作,并假设特征词t与类别Ci满足具有一阶自由度的卡方分布,特征词与类别的相关度与卡方的值成正比,卡方值越大,表示该特征词所携带的类别信息量也越多,则被选择的几率也就越大。以化妆品频道为例,训练样本总数为8555,训练时文本特征集的特征数量为一万多条,特征选取时设定对各种方法设定阈值,最后选取得到约1200条的有效特征。
21c)、特征赋值。特征赋值有两种方法:布尔型赋值和TF-IDF赋值,本实施例采用TF-IDF方法,该方法刻画了特征表达文本内容属性的能力,TF越大,此特征在文档集中出现的范围越广,说明它的重要程度越高,IDF越大,此特征在文档中的分布越集中,说明它在区分该文档内容属性方面的能力越强。实际应用时,每个特征的IDF值经统计全部样本后固定不变的,保存到数据库中或以文件保存,而TF则每次由得到新的文本后重新计算。
21d)、分类器训练。文本分类器有很多种,有朴素贝叶斯(NaiveBayes,NB)分类器、K最近邻(K-NearestNeighbor,KNN)分类器、人工神经网络(ArtificialNeuralNetworks,ANN)分类器等,本实施例采用SVM(SupportVectorMachine,支持向量机)分类器,与其他的分类器相比,SVM分类器具有较好的泛化能力、非线性处理能力和高维处理能力,而训练SVM分类器时需要设置好相关的参数以达到分类效果最佳的目的,其中最重要的参数有:
SVM类型参数:选用C-SVC类型为最佳,其中C为惩罚参数,经多次验证,选取C=1时效果最好;
核函数参数:核函数是用于低维向量空间向高维映射的工具,可分为线性核函数、多项式核函数、径向基核函数和Sigmoid核函数,其中径向基核函数比较适合本实施例的SVM分类器,其中的参数gamma值设置为-1时最佳。
22)、分类器分类。即利用通过上述训练的分类器对待分类的微博消息进行分类处理,找出有潜在购物需求的微博消息。
(3)、用分类得到的每条微博消息的正文内容与一定时间段内的其它分类得到的微博消息的正文内容进行相似度比较,如果相似,则去掉该微博消息。相似度比较具体为:对每条微博消息的正文内容进行分词,用VSM向量空间模型来将分词表示为向量,通过计算两条微博之间的向量的夹角余弦值来表示两条微博的相似度,夹角余弦值取值从0到1之间,值越大,相似度越高,本发明设置的阀值为0.9,即夹角余弦值超过0.9判定为相似,否则不相似。
在完成步骤f后,可根据返回的微博消息中蕴含的潜在购物需求向发布该微博消息的微博用户发送包含广告内容的评论。具体而言,通过上述方法的步骤a-f,能主动获取有潜在购物需求的微博用户,不用等待有潜在购物需求的微博用户自己找上门来,能及时、准确地捕捉到微博用户的需求点,理解个体微博用户的需求,并能找到恰当的时机,以合适的方式与微博用户沟通,从而使得广告投放精准,提高转化率,避免制造信息垃圾(不能满足用户个体需求的广告,对用户来讲就没有价值,是垃圾信息)。比如:以“面膜祛痘”为搜索关键词组合,搜索到有潜在购物需求的微博消息“亲们,我脸上长了好多痘,想买面膜祛痘,但是买什么样的好呢?脸上有一点点斑,用啥样的呢?”,对于该微博用户而言,关于牙膏的广告是垃圾信息,此时结合该微博用户的购物需求发送评论,其中包含用面膜祛痘的广告内容,比如发送“诚意为你推荐柚子舍柚粒水滋养面膜,无痕祛痘,缔造夏日雅妆:http://www.xxxxxxx.com”。
本发明还提供了一种基于微博平台的消息搜索系统,包括:
获取模块,用于获取用户设置的商品信息;
生成模块,用于根据商品信息生成相应的搜索关键词;
扩展模块,用于根据预先建立的关键词知识库进行搜索关键词扩展;
组合模块,用于根据预先建立的关键词组合知识库组合扩展后的搜索关键词,生成至少一个包含了多个搜索关键词的搜索关键词组合;
搜索模块,用于用搜索关键词组合在各个微博平台上搜索相关联的微博消息;
识别模块,用于对搜索到的微博消息进行智能识别,将识别出的有潜在购物需求的消息作为返回给用户的结果保存到数据库中。
其中,识别模块包括:
过滤装置,用于根据预先设定的过滤规则对搜索到的微博消息进行过滤;
分类装置,用于采用预先训练好的文本分类器对过滤得到的微博消息进行分类;
文本去重装置,用于用分类得到的每条微博消息的正文内容与一定时间段内的其它分类得到的微博消息的正文内容进行相似度比较,如果相似,则去掉该微博消息。
本系统的实施方式与上述一种基于微博平台的消息搜索方法的实施方式相同,因而不再重复。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (6)

1.一种基于微博平台的消息搜索方法,其特征在于,包括以下步骤:
a、获取用户设置的商品信息;
b、根据商品信息生成相应的搜索关键词;
c、根据预先建立的关键词知识库进行搜索关键词扩展;
d、根据预先建立的关键词组合知识库组合扩展后的搜索关键词,生成至少一个包含了多个搜索关键词的搜索关键词组合;
e、用搜索关键词组合在各个微博平台上搜索相关联的微博消息;
f、对搜索到的微博消息进行智能识别,将识别出的有潜在购物需求的消息作为返回给用户的结果保存到数据库中;
步骤e所述的用搜索关键词组合在各个微博平台上搜索相关联的微博消息是根据搜索调度策略进行的,搜索调度策略如下:
根据每个搜索关键词组合的历史搜索结果为其计算下一次的搜索时间,该时间由以下公式得出:
其中,TI为某个时段的时长,T为在一天中所处的时段,t为抓取时的时间,M为某个时段出现新微博条目的期望,m为出现的新微博条目数,d为t值中的日期,N为一个时段中抓取的次数;
搜索调度策略的具体流程为:
初始化每个搜索关键词组合的历史记录值;
选取搜索时间最旧的一组搜索关键词组合进行搜索;
更新该搜索关键词组合的历史记录值;
更新该搜索关键词组合的下一次搜索时间。
2.根据权利要求1所述的基于微博平台的消息搜索方法,其特征在于,步骤c中的搜索关键词扩展是将关键词知识库中搜索关键词的同义词扩展为搜索关键词。
3.根据权利要求1所述的基于微博平台的消息搜索方法,其特征在于,商品信息包括频道、种类和特征。
4.根据权利要求1所述的基于微博平台的消息搜索方法,其特征在于,在步骤f中,所述对搜索到的微博消息进行智能识别包括以下具体步骤:
根据预先设定的过滤规则对搜索到的微博消息进行过滤;
采用预先训练好的文本分类器对过滤得到的微博消息进行分类;
用分类得到的每条微博消息的正文内容与一定时间段内的其它分类得到的微博消息的正文内容进行相似度比较,如果相似,则去掉该微博消息。
5.一种基于微博平台的消息搜索系统,其特征在于,包括:
获取模块,用于获取用户设置的商品信息;
生成模块,用于根据商品信息生成相应的搜索关键词;
扩展模块,用于根据预先建立的关键词知识库进行搜索关键词扩展;
组合模块,用于根据预先建立的关键词组合知识库组合扩展后的搜索关键词,生成至少一个包含了多个搜索关键词的搜索关键词组合;
搜索模块,用于用搜索关键词组合在各个微博平台上搜索相关联的微博消息;所述用搜索关键词组合在各个微博平台上搜索相关联的微博消息是根据搜索调度策略进行的,搜索调度策略如下:
根据每个搜索关键词组合的历史搜索结果为其计算下一次的搜索时间,该时间由以下公式得出:
其中,TI为某个时段的时长,T为在一天中所处的时段,t为抓取时的时间,M为某个时段出现新微博条目的期望,m为出现的新微博条目数,d为t值中的日期,N为一个时段中抓取的次数;
搜索调度策略的具体流程为:
初始化每个搜索关键词组合的历史记录值;
选取搜索时间最旧的一组搜索关键词组合进行搜索;
更新该搜索关键词组合的历史记录值;
更新该搜索关键词组合的下一次搜索时间;
识别模块,用于对搜索到的微博消息进行智能识别,将识别出的有潜在购物需求的消息作为返回给用户的结果保存到数据库中。
6.根据权利要求5所述的基于微博平台的消息搜索系统,其特征在于,识别模块包括:
过滤装置,用于根据预先设定的过滤规则对搜索到的微博消息进行过滤;
分类装置,用于采用预先训练好的文本分类器对过滤得到的微博消息进行分类;
文本去重装置,用于用分类得到的每条微博消息的正文内容与一定时间段内的其它分类得到的微博消息的正文内容进行相似度比较,如果相似,则去掉该微博消息。
CN201310035101.8A 2013-01-29 2013-01-29 一种基于微博平台的消息搜索方法及系统 Active CN103123649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310035101.8A CN103123649B (zh) 2013-01-29 2013-01-29 一种基于微博平台的消息搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310035101.8A CN103123649B (zh) 2013-01-29 2013-01-29 一种基于微博平台的消息搜索方法及系统

Publications (2)

Publication Number Publication Date
CN103123649A CN103123649A (zh) 2013-05-29
CN103123649B true CN103123649B (zh) 2016-04-20

Family

ID=48454625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310035101.8A Active CN103123649B (zh) 2013-01-29 2013-01-29 一种基于微博平台的消息搜索方法及系统

Country Status (1)

Country Link
CN (1) CN103123649B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103957245B (zh) * 2014-04-22 2017-11-28 北京微众文化传媒有限公司 互联网数据获取方法及装置
CN104142990A (zh) * 2014-07-28 2014-11-12 百度在线网络技术(北京)有限公司 搜索方法及装置
CN104765757A (zh) * 2014-12-05 2015-07-08 华中科技大学 一种基于异构网络的微博时序排名方法
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、系统及搜索方法和系统
CN105550331A (zh) * 2015-12-21 2016-05-04 北京奇虎科技有限公司 基于引导的搜索方法及装置
CN105912673A (zh) * 2016-04-11 2016-08-31 天津大学 基于用户个性化特征的微博搜索优化方法
CN106095912B (zh) * 2016-06-08 2020-12-08 北京百度网讯科技有限公司 用于生成扩展查询词的方法和装置
CN106227848A (zh) * 2016-07-27 2016-12-14 北京小米移动软件有限公司 通知消息的显示方法、装置及终端
CN107784363B (zh) * 2016-08-31 2021-02-09 华为技术有限公司 数据处理方法、装置及系统
CN106777937A (zh) * 2016-12-05 2017-05-31 深圳大图科创技术开发有限公司 一种智能医疗综合检测系统
CN108733706B (zh) * 2017-04-20 2022-12-20 腾讯科技(深圳)有限公司 热度信息的生成方法和装置
CN108509471A (zh) * 2017-05-19 2018-09-07 苏州纯青智能科技有限公司 一种中文文本分类方法
CN111104026A (zh) * 2019-08-02 2020-05-05 广州三星通信技术研究有限公司 推荐服务的方法和设备
CN110851571B (zh) * 2019-11-14 2022-11-25 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN110889443A (zh) * 2019-11-21 2020-03-17 成都数联铭品科技有限公司 无监督文本分类系统及方法
CN117743376B (zh) * 2024-02-19 2024-05-03 蓝色火焰科技成都有限公司 一种数字金融服务的大数据挖掘方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102446193A (zh) * 2010-10-11 2012-05-09 腾讯科技(深圳)有限公司 一种搜索微博消息的方法及装置
CN102508920A (zh) * 2011-11-18 2012-06-20 广州索答信息科技有限公司 一种基于Boosting分类算法的信息检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380697B2 (en) * 2009-10-21 2013-02-19 Citizennet Inc. Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446193A (zh) * 2010-10-11 2012-05-09 腾讯科技(深圳)有限公司 一种搜索微博消息的方法及装置
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102508920A (zh) * 2011-11-18 2012-06-20 广州索答信息科技有限公司 一种基于Boosting分类算法的信息检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于排序学习的查询意图预测算法;高莺 等;《第五届全国信息检索学术会议论文集》;20091114;276 *
新浪微博数据挖掘方案;廉捷 等;《清华大学学报(自然科学版)》;20111015;第51卷(第10期);1300-1305 *

Also Published As

Publication number Publication date
CN103123649A (zh) 2013-05-29

Similar Documents

Publication Publication Date Title
CN103123649B (zh) 一种基于微博平台的消息搜索方法及系统
Zhang et al. Topic analysis and forecasting for science, technology and innovation: Methodology with a case study focusing on big data research
Wongthongtham et al. Ontology-based approach for identifying the credibility domain in social Big Data
CN101655857B (zh) 基于关联规则挖掘技术挖掘建设法规领域数据的方法
Noh et al. Keyword selection and processing strategy for applying text mining to patent analysis
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN105719191B (zh) 多尺度空间下不确定行为语义的社交群体发现方法
Crockett et al. Cluster analysis of twitter data: A review of algorithms
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN105787068B (zh) 基于引用网络及用户熟练度分析的学术推荐方法及系统
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN103440287A (zh) 一种基于产品信息结构化的Web问答检索系统
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN109508385A (zh) 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
Gao et al. Real-time social media retrieval with spatial, temporal and social constraints
CN106570140A (zh) 确定信息热点的方法及装置
Ballatore et al. Linking geographic vocabularies through WordNet
Saeed et al. ARTC: feature selection using association rules for text classification
CN103488637A (zh) 一种基于动态社区挖掘进行专家检索的方法
Luo et al. Exploiting salient semantic analysis for information retrieval
CN105159879A (zh) 一种网络个体或群体价值观自动判别方法
Wu et al. Tourism forecasting research: a bibliometric visualization review (1999–2022)
Hu et al. Embracing information explosion without choking: Clustering and labeling in microblogging
Fernando et al. Empirical analysis of data mining techniques for social network websites
Zhang et al. SSAR-GNN: Self-Supervised Artist Recommendation from spatio-temporal perspectives in art history with Graph Neural Networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant