CN103793418A - 一种针对证券行业的实时垂直搜索引擎的搜索方法 - Google Patents
一种针对证券行业的实时垂直搜索引擎的搜索方法 Download PDFInfo
- Publication number
- CN103793418A CN103793418A CN201210426552.XA CN201210426552A CN103793418A CN 103793418 A CN103793418 A CN 103793418A CN 201210426552 A CN201210426552 A CN 201210426552A CN 103793418 A CN103793418 A CN 103793418A
- Authority
- CN
- China
- Prior art keywords
- news
- news content
- influence power
- content
- correlativity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明涉及一种针对证券行业的实时垂直搜索引擎的搜索方法,包括有:首先服务器高频定向抓取新闻网页,接着对抓取的新闻网页的新闻内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性,以及该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,系统将根据多项参数计算搜索结果的权值并排序显示。这样,即可实现搜索引擎信息与信息源头的被动同步,解决了采用传统搜索方法的通用搜索引擎的时效性差、信息重复的问题,且本方法仅针对互联网具有行业代表性的财经新闻发布源头进行定向采集,效率高,搜索结果更及时、更精准;另外,本发明结合舆情分析技术,搜索结果可采用多种方式排序,显示效果更具人性化。
Description
技术领域
本发明涉及互联网搜索引擎技术领域,尤其涉及一种针对证券行业的实时垂直搜索引擎的搜索方法。
背景技术
目前,互联网上的主流搜索引擎覆盖率高、数据量大,但由于多种技术原因,对时间敏感度极高的证券行业信息搜索无法具备时效性、同步性。
虽然目前也有几款号称面向证券行业的垂直搜索引擎,但目前这几款搜索引擎仅仅是某门户网站的站内搜索,远没达到行业搜索的条件。而一些财经新闻的聚合网站,又不具备标准的搜索引擎功能。
证券行业对新闻资讯的时效性要求极高,比如若A网站发布了一则有关B上市公司的财经新闻,一般的通用搜索引擎至少要延迟10分钟甚至数天,才能把这条新闻索引至搜索结果,这样对想了解B公司最新情况的投资者来说就不具备实用意义了。
另一方面,证券行业对新闻资讯也有一定的舆情分析需求,由于证券投资行为具有“羊群效应”,对公众影响力较大、传播较广的新闻资讯,往往会对相关投资品种的价格造成更大的波动;而传播范围小,消息呈中性的新闻资讯,则难以对相关投资品种的价格造成波动。
针对证券行业来说,现有的搜索引擎技术的缺点:
一方面是信息索引的滞后严重影响了搜索引擎的实用性、时效性;
二是相同的新闻常常会转发在多个网站,但目前的通用搜索引擎技术未把类似文章过滤,经常导致相同的信息被多次索引,并多次显示内容相同、网址不同的搜索结果,严重影响用户体验;
三是目前搜索引擎技术的新闻搜索只能根据时间或关键词相关性排序,未能通过舆情分析技术,为某条新闻资讯设定一个影响力的评估值,从而很可能让用户错过一些对上市公司影响深远的新闻消息或公告,或导致用户被大量无关紧要的消息影响对投资品种的调研和判断。
发明内容
为解决现有技术中存在的上述问题,本发明结合网络舆情分析技术,提供了一种专门针对证券行业的时效性高、无重复,并可对抓取新闻网页内容进行关键字相关性和新闻影响力计算,且搜索结果可根据需要进行多种显示排序方式的实时垂直搜索方法。
为解决上述技术问题,本发明采用如下技术方案:
一种针对证券行业的实时垂直搜索引擎的搜索方法,包括有:首先通过服务器高频定向抓取新闻网页,接着对抓取的新闻网页内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性和/或该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,服务器将根据多项参数计算搜索结果的权值并排序显示。
进一步地,本搜索方法包括有以下步骤:
S1. 通过服务器高频定向抓取新闻网页的URL;
S2. 根据抓取新闻网页的URL判断是否已抓取过;
S3. 对抓取的新闻网页的新闻内容进行格式化处理,将来自各个网站的新闻内容格式化成统一的格式和呈现方式;
S4. 对格式化后的新闻内容与相关关键字的相关性进行计算;
S5. 对格式化后的新闻内容对公众的影响力进行评估计算;
S6. 将有关新闻内容的关键字相关性数值、新闻内容的影响力数值存入数据库,用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示。
进一步地,所述对格式化后的新闻内容与相关关键字的相关性进行计算,具体为:首先在格式化后的新闻内容中查找事先已设定好的、证券行业内搜索频率较高的专有词汇,若该新闻内容有出现这些词汇,则将这些词汇作为该新闻内容的关键字,并为各个关键字设定一个相关性初始值,然后分析各个关键字在该新闻内容中出现的位置、形式状态、出现次数,根据预先设定好各个位置、形式状态、出现次数对应的加成值进行相应加成,计算出各个关键字的相关性基础值;最后将各个关键字的相关性基础值在所有关键字的相关性基础值之和中的占比,得到各个关键字的相关性数值。
进一步地,所述对格式化后的新闻内容对公众的影响力进行评估计算,具体为:首先根据定向抓取新闻网页的网站的周平均访问流量,预先设定好各个网站对应的影响力基准数值,且所抓取新闻网页的新闻内容的影响力数值为该网站的影响力基准数值,若抓取同一新闻内容在多个网站发布,则该新闻内容的影响力数值为其在各抓取网站所对应的影响力数值之和。
进一步地,在所述对格式化后的新闻内容对公众的影响力进行评估计算过程中,当抓取新闻网页的新闻内容的主题是预先设定好有加成值的特定主题时,所述抓取新闻网页的新闻内容的影响力数值为其发布网站的影响力基准数值加成该特定主题对应的加成值。
进一步地,所述通过服务器高频定向抓取新闻网页,具体为:首先设置包括财经网站、证监会指定的上市公司公告发布网站、财经报章杂志媒体网站、证据研究机构网站在内的多个财经网站作为信息源头,然后通过服务器对这些财经网站进行实时高频抓取,以获得最新发布的新闻网页的URL。
进一步地,所述供用户通过查询服务器进行搜索、排序显示,具体为:当用户需要搜索某关键字的新闻时,查询服务器将会从新闻索引数据库中找出相关新闻作为搜索结果以时间排列方式、相关性-影响力排列方式、或时间-相关性-影响力排列方式排序显示。
进一步地,所述搜索结果以时间排列方式、相关性-影响力排列方式或时间-相关性-影响力排列方式中搜索结果的相关性-影响力排列方式,具体为:首先于数据库查询所有包含用户所搜索的关键字的新闻内容,根据每一篇新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,得出搜索结果中每一新闻内容的排名权重,并设定一个相关性和影响力的阀值,过滤掉相关性数值和影响力数值都较低的搜索结果,最后按照排名权重从高至低进行排列显示;
所述时间-相关性-影响力排列方式,具体为:把时间作为一个具有线性特征的参数加入到相关性-影响力搜索结果的权重排名计算中,让“最近一段时间内”影响力高的新闻排列靠前,即根据每一新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,再乘以每一新闻的发布时间对应的加成值,得出搜索结果中每一新闻内容的排名权重,最后按排名权重从高至低进行排列显示。
进一步地,在所述根据抓取新闻网页的URL判断是否已抓取后,将新URL保存至待抓取新闻列表数据库,并多线程对所述新闻网页的新闻内容进行抓取。
进一步地,本搜索方法还包括步骤:对抓取的格式化处理后的新闻内容从标题、日期、关键字频率、关键字分布情况、新闻摘要、文章字数等多方面特征与数据库中的已有新闻内容进行对比,经过对比如果数据库中没有新闻内容与之类似则归类为“首发”,将该新闻内容及其相关性数值和影响力数值写入到新闻索引表数据库中;如果发现本新闻内容已经存在于数据库或与新闻索引表数据库中某篇新闻内容极为相似,则归类为“转载”,将该新闻内容及其相关性数值写入到类似新闻索引表数据库中,同时将该“转载”的新闻内容的影响力数值叠加到新闻索引表数据库中对应的“首发”的新闻内容的“影响力数值”字段上。
本发明的有益效果是:
本发明通过上述技术方案,即可实现搜索引擎信息与信息源头的被动同步,解决了采用传统搜索方法的通用搜索引擎的时效性差、信息重复的问题,且本方法仅针对互联网中定向的主要财经新闻发布源头进行定向采集,效率高,搜索结果更及时、更精准,另外,本发明结合舆情分析技术,可根据新闻的影响力等多种方式排序,显示效果更具人性化。
附图说明
图1是本发明所述的一种针对证券行业的实时垂直搜索引擎的搜索方法实施例一的流程图;
图2是本发明所述的一种针对证券行业的实时垂直搜索引擎的搜索方法实施例二的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参见图1,本发明所述的一种针对证券行业的实时垂直搜索引擎的搜索方法,包括有:首先通过服务器高频定向抓取新闻网页,接着对抓取的新闻网页内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性和/或该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,服务器将根据多项参数计算搜索结果的权值并排序显示。
参见图2,本发明实施例所述的一种针对证券行业的实时垂直搜索引擎的搜索方法包括有以下步骤:
步骤1.通过服务器高频定向抓取新闻网页的URL;
步骤2.根据抓取新闻网页的URL判断是否已抓取过;
步骤3.对抓取的新闻网页的新闻内容进行格式化处理,将来自各个网站的新闻内容格式化成统一的格式和呈现方式;
步骤4.对格式化后的新闻内容与相关关键字的相关性进行计算;
步骤5.对格式化后的新闻内容对公众的影响力进行评估计算;
步骤6. 将有关新闻内容的关键字相关性数值、新闻内容的影响力数值存入数据库,用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示。其中,
所述通过服务器高频定向抓取新闻网页,具体为:首先根据目前证券行业的发展情况,精心挑选设置多个相关财经网站(所取样本均为国内浏览量较大并具有行业代表性的相关财经网站,这些网站能采集到的新闻样本已经覆盖了证券行业99.9%的新闻,并足以分析相关的舆情状况。)作为信息源头,包括财经网站、证监会指定的上市公司公告发布网站、财经报章杂志媒体网站、证据研究机构网站等,然后通过服务器对这些网站进行实时高频抓取,以获得最新发布的新闻网页的URL。
在所述根据抓取新闻网页的URL判断是否已抓取后,将新URL保存至待抓取新闻列表数据库,然后服务器多线程对所述新闻网页内容进行抓取,从HTML格式的网页中分析并抓取新闻内容、发布时间、作者、来源等信息,并将数据传送给新闻网页内容处理专用服务器。
所述对格式化后的新闻网页内容与相关关键字的相关性进行计算,具体可以为:首先在格式化后的新闻内容中查找事先已设定好的、证券行业内搜索频率最高的专有词汇(如股票简称、行业名称、大宗商品名称、题材概念名称等),若该新闻内容有出现这些词汇,则将这些词汇作为该新闻内容的关键字,并为各个关键字设定一个相关性初始值,然后分析各个关键字在该新闻内容中出现的位置(如:于标题出现、于小标题出现、于段落头部出现、于段落尾部出现)、形式状态(如:字体被加粗、字体标有下划线、分布率均匀,以并列的方式连续出现多个关键字)、出现次数,根据预先设定好各个位置、形式状态、出现次数对应的加成值进行相应加成,计算出各个关键字的相关性基础值;最后将各个关键字的相关性基础值在所有关键字的相关性基础值之和中的占比,得到各个关键字的相关性数值。
例如:一篇新闻网页内容有三个关键字A、B、C,先设定关键字相关性的初始值为1,每符合一次判断条件就乘一个加成,当关键字在文中出现的加成为*1.1,关键字在标题出现的加成为*1.8,关键字以并列方式连续出现的关键字加成为*0.6等等,经过一轮计算后得出A、B、C三个关键字的相关性基础值,分别为1.7 、1.9 、6.6,则一篇新闻网页内容的关键字基础值之和为1.7+1.9+6.6=10.2,其中,关键字A的相关性为1.7/10.2=16.6%,B为1.9/10.2=18.6%,C为6.6/10.2=64.7%,由此可以得出结论该新闻内容与关键字C最为相关,该新闻内容提及到关键字A和B。
所述对格式化后的新闻内容对公众的影响力进行评估计算,具体可以为:首先根据定向抓取新闻网页的网站的周平均访问流量(网站的周平均访问流量的评估基于国际权威的ALEXA数据),预先设定好各个网站对应的影响力基准数值,且所抓取新闻网页的新闻内容的影响力数值为该网站的影响力基准数值,若抓取同一新闻内容在多个网站发布,则该新闻内容的影响力数值为其在各抓取网站所对应的影响力数值之和;而且在对格式化后的新闻内容对公众的影响力进行评估计算过程中,当抓取新闻网页的新闻内容的主题是预先设定好有加成值的特定主题时,所述抓取新闻网页的新闻内容的影响力数值为其发布网站的影响力基准数值加成该特定主题对应的加成值。
例如:影响力基准数值为100的A网站首发了一篇新闻X,一分钟后影响力基准数值为200的B网站转载了一篇相同的新闻X,则此时新闻X的影响力数值为100+200=300,一天后影响力基准数值为50的C网站转载了一篇相同的新闻X,则此时新闻X的影响力数值为100+200+50=350。
本搜索方法还包括步骤:对抓取的格式化处理后新闻内容从其形成的标题、日期、关键字频率、关键字分布情况、新闻摘要、文章字数等半结构化数据的多方面特征与数据库中的已有新闻内容进行对比,经过对比如果数据库中没有新闻内容与之类似则归类为“首发”,将该新闻内容及其相关性数值和影响力数值写入到新闻索引表数据库中;如果发现本新闻内容已经存在于数据库或与新闻索引表数据库中某篇新闻内容极为相似,则归类为“转载”,将该新闻内容及其相关性数值写入到类似新闻索引表数据库中,同时将该“转载”的新闻内容的影响力数值叠加到新闻索引表数据库中对应的“首发”的新闻内容的“影响力数值”字段上。
所述供用户通过查询服务器进行搜索、排序显示,具体可以为:用户需要搜索某关键字的新闻时,查询服务器将会从新闻索引数据库中找出相关新闻作为搜索结果以时间排列方式、相关性-影响力排列方式或时间-相关性-影响力排列方式排序显示;其中,所述搜索结果以时间排列方式、相关性-影响力排列方式或时间-相关性-影响力排列方式排序显示中的相关性-影响力排列方式,具体可以为:首先于数据库查询所有包含用户所搜索的关键字的新闻内容,根据每一新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,得出搜索结果中每一新闻内容的排名权重,并设定一个相关性数值和影响力数值的阀值,过滤掉相关性和影响力都较低的搜索结果,最后按照排名权重从高至低进行排列显示;所述时间-相关性-影响力排列方式,具体可以为:把时间作为一个具有线性特征的参数加入到相关性-影响力搜索结果的权重排名计算中,让“最近一段时间内”影响力高的新闻排列靠前,即根据每一新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,再乘以每一新闻最近发布时间对应的加成值,得出搜索结果中每一新闻内容的排名权重,最后按排名权重从高至低进行排列显示;例如:假如1分钟前发布的一篇A新闻的相关性数值为0.5,影响力数值为100,时间影响系数(1分钟)为1,则此时排名权重为0.5*100*1=50;一天前的一篇B新闻相关性数值为1,影响力数值为1000,时间影响系数(24小时)为0.5,则个结果的排名权重为1*1000*0.5=500;新闻B将会排在A前面。
这样,通过本发明所述的实时垂直搜索方法即可实现搜索引擎信息与信息源头的被动同步,解决了采用传统搜索方法的通用搜索引擎的时效性差、信息重复的问题,且仅针对互联网中定向的主要财经新闻发布源头进行定向采集,效率高,搜索结果更及时、更精准;另外,本发明结合舆情分析技术,可根据新闻的影响力等多种方式排序,显示效果更具人性化。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种针对证券行业的实时垂直搜索引擎的搜索方法,其特征在于,包括有:首先通过服务器高频定向抓取新闻网页,接着对抓取的新闻网页的新闻内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性和/或该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,服务器将根据多项参数计算搜索结果的权值并排序显示。
2.根据权利要求1所述的实时垂直搜索引擎的搜索方法,其特征在于,本搜索方法包括有以下步骤:
S1. 通过服务器高频定向抓取新闻网页的URL;
S2. 根据抓取新闻网页的URL判断是否已抓取过;
S3. 对抓取的新闻网页的新闻内容进行格式化处理,将来自各个网站的新闻内容格式化成统一的格式和呈现方式;
S4. 对格式化后的新闻内容与相关关键字的相关性进行计算;
S5. 对格式化后的新闻内容对公众的影响力进行评估计算;
S6. 将有关新闻内容的关键字相关性数值、新闻内容的影响力数值存入数据库,用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示。
3.根据权利要求2所述的实时垂直搜索引擎的搜索方法,其特征在于,所述对格式化后的新闻内容与相关关键字的相关性进行计算,具体为:首先在格式化后的新闻内容中查找事先已设定好的、证券行业内搜索频率较高的专有词汇,若该新闻内容有出现这些词汇,则将这些词汇作为该新闻内容的关键字,并为各个关键字设定一个相关性初始值然后分析各个关键字在该新闻内容中出现的位置、形式状态、出现次数,根据预先设定好各个位置、形式状态、出现次数对应的加成值进行相应加成,计算出各个关键字的相关性基础值;最后将各个关键字的相关性基础值在所有关键字的相关性基础值之和中的占比,得到各个关键字的相关性数值。
4.根据权利要求3所述的实时垂直搜索引擎的搜索方法,其特征在于,所述对格式化后的新闻内容对公众的影响力进行评估计算,具体为:首先根据定向抓取新闻网页的网站的周平均访问流量,预先设定好各个网站对应的影响力基准数值,且所抓取新闻网页的新闻内容的影响力数值为该网站的影响力基准数值,若抓取同一新闻内容在多个网站发布,则该新闻内容的影响力数值为其在各抓取网站所对应的影响力数值之和。
5.根据权利要求4所述的实时垂直搜索引擎的搜索方法,其特征在于,在所述对格式化后的新闻内容对公众的影响力进行评估计算过程中,当抓取新闻网页的新闻内容的主题是预先设定好有加成值的特定主题时,所述抓取新闻网页的新闻内容的影响力数值为其发布网站的影响力基准数值加成该特定主题对应的加成值。
6.根据权利要求5所述的实时垂直搜索引擎的搜索方法,其特征在于,所述通过服务器高频定向抓取新闻网页,具体为:首先设置包括财经网站、证监会指定的上市公司公告发布网站、财经报章杂志媒体网站、证据研究机构网站在内的多个财经网站作为信息源头,然后通过服务器对这些财经网站进行实时高频抓取,以获得最新发布的新闻网页的URL。
7.根据权利要求6所述的实时垂直搜索引擎的搜索方法,其特征在于,所述用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示,具体为:当用户需要搜索某关键字的新闻时,系统将会从新闻索引数据库中计算相关新闻的权值,作为搜索结果以时间排列方式、相关性-影响力排列方式、或时间-相关性-影响力排列方式排序显示。
8.根据权利要求7所述的实时垂直搜索引擎的搜索方法,其特征在于,所述搜索结果以时间排列方式、相关性-影响力排列方式或时间-相关性-影响力排列方式中搜索结果的相关性-影响力排列方式,具体为:首先于数据库查询所有包含用户所搜索的关键字的新闻内容,根据每一篇新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,得出搜索结果中每一新闻内容的排名权重,并设定一个相关性和影响力的阀值,过滤掉相关性数值和影响力数值都较低的搜索结果,最后按照排名权重从高至低进行排列显示;
所述时间-相关性-影响力排列方式,具体为:把时间作为一个具有线性特征的参数加入到相关性-影响力搜索结果的权重排名计算中,让“最近一段时间内”影响力高的新闻排列靠前,即根据每一新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,再乘以每一新闻的发布时间对应的加成值,得出搜索结果中每一新闻内容的排名权重,最后按排名权重从高至低进行排列显示。
9.根据权利要求2至8任何一项所述的实时垂直搜索引擎的搜索方法,其特征在于,在所述根据抓取新闻网页的URL判断是否已抓取后,将新URL保存至待抓取新闻列表数据库,并多线程对所述新闻网页的新闻内容进行抓取。
10.根据权利要求2至8任何一项所述的实时垂直搜索引擎的搜索方法,其特征在于,本搜索方法还包括步骤:对抓取的格式化处理后的新闻内容从标题、日期、关键字频率、关键字分布情况、新闻摘要、文章字数等多方面特征与数据库中的已有新闻内容进行对比,经过对比如果数据库中没有新闻内容与之类似则归类为“首发”,将该新闻内容及其相关性数值和影响力数值写入到新闻索引表数据库中;如果发现本新闻内容已经存在于数据库或与新闻索引表数据库中某篇新闻内容极为相似,则归类为“转载”,将该新闻内容及其相关性数值写入到类似新闻索引表数据库中,同时将该“转载”的新闻内容的影响力数值叠加到新闻索引表数据库中对应的“首发”的新闻内容的“影响力数值”字段上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210426552.XA CN103793418A (zh) | 2012-10-31 | 2012-10-31 | 一种针对证券行业的实时垂直搜索引擎的搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210426552.XA CN103793418A (zh) | 2012-10-31 | 2012-10-31 | 一种针对证券行业的实时垂直搜索引擎的搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103793418A true CN103793418A (zh) | 2014-05-14 |
Family
ID=50669101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210426552.XA Pending CN103793418A (zh) | 2012-10-31 | 2012-10-31 | 一种针对证券行业的实时垂直搜索引擎的搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103793418A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572996A (zh) * | 2015-01-06 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 视频网页的处理方法和装置 |
CN104732567A (zh) * | 2015-04-03 | 2015-06-24 | 珠海富讯网络科技有限公司 | 将股票资讯在k线图、分时图进行标注的数据可视化方法 |
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN106815266A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书检索方法和装置 |
CN108304421A (zh) * | 2017-02-24 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种信息搜索方法及装置 |
CN109144953A (zh) * | 2018-07-27 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 搜索文件的排序方法、装置、设备、存储介质及搜索系统 |
CN111223533A (zh) * | 2019-12-24 | 2020-06-02 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN111460289A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 新闻资讯的推送方法和装置 |
CN112214673A (zh) * | 2020-10-13 | 2021-01-12 | 中国联合网络通信集团有限公司 | 一种舆情分析方法及装置 |
CN116894118A (zh) * | 2023-09-08 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 数据搜索方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1306258A (zh) * | 2001-03-09 | 2001-08-01 | 北京大学 | 判断一组查询关键字或词在网页中位置相关性的方法 |
CN101127043A (zh) * | 2007-08-03 | 2008-02-20 | 哈尔滨工程大学 | 一种轻量级个性化搜索引擎及其搜索方法 |
US20090327249A1 (en) * | 2006-08-24 | 2009-12-31 | Derek Edwin Pappas | Intellegent Data Search Engine |
US20100131484A1 (en) * | 2003-08-29 | 2010-05-27 | Gosse David B | Method, device and software for querying and presenting search results |
CN101770467A (zh) * | 2008-12-31 | 2010-07-07 | 迈克尔·布卢门撒尔 | 分析和排序可访问web的数据目标的方法、装置和系统 |
CN102332025A (zh) * | 2011-09-29 | 2012-01-25 | 奇智软件(北京)有限公司 | 一种智能垂直搜索方法和系统 |
CN102360367A (zh) * | 2011-09-29 | 2012-02-22 | 广州中浩控制技术有限公司 | 一种xbrl数据搜索方法及搜索引擎 |
-
2012
- 2012-10-31 CN CN201210426552.XA patent/CN103793418A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1306258A (zh) * | 2001-03-09 | 2001-08-01 | 北京大学 | 判断一组查询关键字或词在网页中位置相关性的方法 |
US20100131484A1 (en) * | 2003-08-29 | 2010-05-27 | Gosse David B | Method, device and software for querying and presenting search results |
US20090327249A1 (en) * | 2006-08-24 | 2009-12-31 | Derek Edwin Pappas | Intellegent Data Search Engine |
CN101127043A (zh) * | 2007-08-03 | 2008-02-20 | 哈尔滨工程大学 | 一种轻量级个性化搜索引擎及其搜索方法 |
CN101770467A (zh) * | 2008-12-31 | 2010-07-07 | 迈克尔·布卢门撒尔 | 分析和排序可访问web的数据目标的方法、装置和系统 |
CN102332025A (zh) * | 2011-09-29 | 2012-01-25 | 奇智软件(北京)有限公司 | 一种智能垂直搜索方法和系统 |
CN102360367A (zh) * | 2011-09-29 | 2012-02-22 | 广州中浩控制技术有限公司 | 一种xbrl数据搜索方法及搜索引擎 |
Non-Patent Citations (2)
Title |
---|
杨伟杰等: ""一种基于信息检索技术的网络新闻影响力分析方法"", 《软件学报》 * |
滕文达: ""基于移动平台股票资讯搜索与预测系统研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572996A (zh) * | 2015-01-06 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 视频网页的处理方法和装置 |
CN104572996B (zh) * | 2015-01-06 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 视频网页的处理方法和装置 |
CN104732567A (zh) * | 2015-04-03 | 2015-06-24 | 珠海富讯网络科技有限公司 | 将股票资讯在k线图、分时图进行标注的数据可视化方法 |
CN104732567B (zh) * | 2015-04-03 | 2017-10-27 | 深圳云财经大数据技术有限公司 | 将股票资讯在k线图、分时图进行标注的数据可视化方法 |
CN106815266A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书检索方法和装置 |
CN106815266B (zh) * | 2015-12-01 | 2020-06-16 | 北京国双科技有限公司 | 裁判文书检索方法和装置 |
CN106021351B (zh) * | 2016-05-10 | 2019-04-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN108304421A (zh) * | 2017-02-24 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种信息搜索方法及装置 |
CN108304421B (zh) * | 2017-02-24 | 2021-03-23 | 腾讯科技(深圳)有限公司 | 一种信息搜索方法及装置 |
CN109144953A (zh) * | 2018-07-27 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 搜索文件的排序方法、装置、设备、存储介质及搜索系统 |
CN109144953B (zh) * | 2018-07-27 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 搜索文件的排序方法、装置、设备、存储介质及搜索系统 |
CN111223533A (zh) * | 2019-12-24 | 2020-06-02 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN111223533B (zh) * | 2019-12-24 | 2024-02-13 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN111460289A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 新闻资讯的推送方法和装置 |
CN111460289B (zh) * | 2020-03-27 | 2024-03-29 | 北京百度网讯科技有限公司 | 新闻资讯的推送方法和装置 |
CN112214673A (zh) * | 2020-10-13 | 2021-01-12 | 中国联合网络通信集团有限公司 | 一种舆情分析方法及装置 |
CN112214673B (zh) * | 2020-10-13 | 2023-06-16 | 中国联合网络通信集团有限公司 | 一种舆情分析方法及装置 |
CN116894118A (zh) * | 2023-09-08 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 数据搜索方法、装置、设备及存储介质 |
CN116894118B (zh) * | 2023-09-08 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 数据搜索方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103793418A (zh) | 一种针对证券行业的实时垂直搜索引擎的搜索方法 | |
CN103164427B (zh) | 新闻聚合方法及装置 | |
CN103606097A (zh) | 一种基于可信度评价的产品信息推荐方法及系统 | |
CN101645066B (zh) | 一种互联网新颖词监测方法 | |
CN102156737B (zh) | 一种中文网页主题内容的提取方法 | |
CN101231640B (zh) | 一种自动计算互联网上主题演化趋势的方法及系统 | |
CN102722501B (zh) | 搜索引擎及其实现方法 | |
CN102662959B (zh) | 利用空间混合索引机制检测钓鱼网页的方法 | |
WO2014005657A4 (en) | A system and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information | |
CN102243661B (zh) | 网站内容质量评估方法和装置 | |
CN103365924A (zh) | 一种搜索信息的方法、装置和终端 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN103150378B (zh) | 一种鉴定微博广告中虚假好评的方法 | |
CN103778122A (zh) | 搜索方法和系统 | |
CN102073641A (zh) | 对消费者生成媒体信息进行处理的方法、装置和程序 | |
CN105260899A (zh) | 一种电商主体可信度评价方法及系统 | |
CN103365879A (zh) | 一种用于获取页面相似度的方法与设备 | |
CN107330076B (zh) | 一种网络舆情信息展示系统及方法 | |
CN108595421A (zh) | 一种中文实体关联关系的抽取方法、装置及系统 | |
KR101264898B1 (ko) | 기술 및 시장 동향 정보를 이용한 유망 사업화 아이템 추출 장치 및 방법 | |
CN104216901B (zh) | 信息搜索的方法和系统 | |
Alonso et al. | Enhancing document snippets using temporal information | |
CN103902725A (zh) | 搜索引擎优化信息的获取方法和装置 | |
CN103312584A (zh) | 一种在网络社区中发布信息的方法与设备 | |
KR20120090131A (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140514 |