CN100498790C - 一种搜索方法和系统 - Google Patents

一种搜索方法和系统 Download PDF

Info

Publication number
CN100498790C
CN100498790C CNB2007100732207A CN200710073220A CN100498790C CN 100498790 C CN100498790 C CN 100498790C CN B2007100732207 A CNB2007100732207 A CN B2007100732207A CN 200710073220 A CN200710073220 A CN 200710073220A CN 100498790 C CN100498790 C CN 100498790C
Authority
CN
China
Prior art keywords
index
unit
participle
search
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2007100732207A
Other languages
English (en)
Other versions
CN101079056A (zh
Inventor
杨海松
刘致远
刘云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co., Ltd.
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB2007100732207A priority Critical patent/CN100498790C/zh
Publication of CN101079056A publication Critical patent/CN101079056A/zh
Priority to PCT/CN2008/070253 priority patent/WO2008098502A1/zh
Application granted granted Critical
Publication of CN100498790C publication Critical patent/CN100498790C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索方法,在建立或更新索引数据库时,执行以下步骤:读取一个网页正文,去掉停用词后进行分词;对分词得到的词条的各种组合进行词频统计;输出频次大于设定阈值的组合词条并保存到复合词表中;对复合词表中频次大于设定阈值的复合词建立索引。本发明还公开了一种搜索系统。本发明利用统计学原理统计出网页中出现频度高的复合词,对这些复合词单独建立索引,减小搜索时对搜索词条的拆分粒度,从而减少搜索引擎的索引查询次数和求交集、求并集运算的次数,大大地提高搜索引擎的检索速度,达到快速响应用户的目的,提高用户体验。同时,由于通过概率统计有选择的对多元词条建立索引,提高了索引数据库的利用率和系统的检索准确率。

Description

一种搜索方法和系统
技术领域
本发明涉及计算机技术,特别涉及一种搜索方法和系统。
背景技术
随着因特网的迅猛发展,各种信息呈现爆炸式的增长,用户要在信息海洋里查找信息,就象大海捞针一样。每个上网用户面临信息过载的问题,无法准确找到所需要的信息。搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,成为和电子邮件并列的最重要的互联网应用。搜索引擎为用户提供信息“检索”服务,它使用蜘蛛程序把因特网上的所有信息归类以帮助用户在海量的互联网信息中搜寻其所需要的信息。搜索引擎的原理主要包括三步:1)从互联网上抓取网页,2)建立索引数据库,3)在索引数据库中搜索排序。
搜索引擎是当前竞争非常激烈的领域,其竞争的重要点除了内容的丰富以外,还有用户体验。目前,搜索的速度已经成为用户体验好坏的决定性因素之一 。
目前,搜索引擎处理用户请求,需要对用户的检索词进行拆分(分词),然后对拆分后的词语分别索引查询,得出每个词语的搜索结果。例如,用户搜索“北京体育馆”时,搜索引擎的动作为:①把用户的搜索请求“北京体育馆”拆分为“北京”和“体育馆”两个词;②对“北京”进行索引查询,得到结果集合A;③对“体育馆”进行索引查询,得到结果集合B;④对A和B进行求交集运算,得到AB的交集X;⑤对AB进行求并运算,得到AB的并集合Y;⑥向用户输出搜索结果。搜索结果的排序顺序为:集合X中的网页排在最前面,其次是Y中的不在X的元素,最后是A和B不在X集合中存在的元素。这样,当检索词为“中国人民银行”时,首先拆分词语为“中国”,“人民”,“银行”,然后进行三次索引查询,如果采用两两求交,两两求并规则,要进行三次求交集运算、三次求并集运算才能得到最终搜索结果。其缺点是:对搜索词条的拆分粒度小、搜索引擎的索引查询次数和集合运算次数多,系统查询效率较低,搜索速度较低。
现有的搜索引擎在建立索引的过程中对无意义的组合也建立了索引,造成空间浪费。如目前的二元索引就是不管词语的逻辑关系,直接对每个二元组合建立索引,有“我看见”,“看见你”,“你在”,“在那里”等。又由于上述缺点,不可能建立太多元的索引,最多建立到三元,因为空间膨胀太厉害,导致索引量不够。
发明内容
本发明的目的在于提供一种搜索方法和系统,利用词条相对频度抽取复合词单独建立索引,减小搜索词条的拆分粒度、减少集合运算次数。
本发明的技术方案是:一种搜索方法,在建立或更新索引数据库时,执行以下步骤:A1,读取一个网页正文,去掉停用词后进行分词;A2,对分词得到的词条的各种组合进行词频统计;A3,输出频次大于设定阈值的组合词条,并保存到复合词表中;A4,对复合词表中频次大于设定阈值的复合词建立索引。
具体的,在步骤A1中,网页正文中至少去掉停用词后的词条为有效词条。
作为优选,步骤A1中,在分词前首先将网页正文转换为标准数据格式,然后至少进行过滤脚本标示符和广告信息的操作。
作为优选,步骤A1中,对转换为标准数据格式的网页正文去掉停用词和虚词后进行分词。
本发明中所述复合词为二元以上的组合词条。
本发明一种搜索方法进一步包括步骤:B1,在接收到检索词后,根据复合词表对输入的检索词进行分词;所述复合词表包括频次大于设定阈值的所有复合词。
本发明还提供了一种搜索引擎的搜索系统,包括顺次相连的自动从互联网提取信息的网页抓取模块、用以保存提取信息的网页数据库、索引模块、索引数据库和搜索模块;所述索引模块包括用以将输入网页中不同的数据格式转换为标准数据格式的文档预处理单元、用以对转换格式后的网页内容进行分词处理的分词单元和索引建立单元;所述索引模块还包括词频统计单元,用于对所述分词单元输出的词条的各种组合进行词频统计,并将频次大于设定阈值的组合词条输出到索引建立单元,由索引建立单元对所述组合词条建立索引;所述索引数据库用于存储所述索引建立单元建立的索引;所述搜索模块负责在用户输入检索词搜索后,分解搜索请求,从所述索引数据库中找到符合该检索词的所有相关网页,进行计算和排序后返回给用户。
进一步的,所述索引数据库中还存储有复合词表,所述复合词表中存储着所述词频统计单元输出的组合词条。
进一步的,所述搜索模块包括顺次相连的检索词分词单元、搜索单元和结果处理单元;所述检索词分词单元用于根据所述复合词表对输入的检索词进行分词,并将分词后词条输出到所述搜索单元;所述搜索单元用于将所述分词后词条作为关键词在索引数据库中进行索引查询,并将查询结果发送到所述结果处理单元;所述结果处理单元用于对所述查询结果进行求并集、求交集,排序后发送到操作窗口进行显示。
本发明利用统计学原理统计出网页中出现频度高的复合词,对这些复合词单独建立索引,减小搜索时对搜索词条的拆分粒度,从而减少搜索引擎的索引查询次数和求交集、求并集运算的次数,大大地提高搜索引擎的检索速度,达到快速响应用户的目的,提高用户体验。同时,由于通过概率统计有选择的对多元词条建立索引,提高了索引数据库的利用率和系统的检索准确率。
附图说明
图1是本发明搜索系统的系统结构图。
图2是本发明搜索方法在建立或更新索引数据库时的流程图。
图3是本发明搜索方法在收到检索请求后的流程图。
具体实施方式
下面根据附图和具体实施例对本发明作进一步阐述。
如图1所示,搜索系统10包括顺次相连的网页抓取模块100、网页数据库200、索引模块300、索引数据库400和搜索模块500。
其中,网页抓取模块100负责自动从互联网提取信息,并将提取到的信息保存在网页数据库200中。一般的做法是:网页抓取模块100通过能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL(统一资源定位器)爬到其它网页,重复这过程,并把爬过的所有网页收集到网页数据库200中。搜索引擎的自动信息搜集功能分两种,一种是定期搜索,即每隔一段时间(比如28天),网页抓取模块100主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,“蜘蛛”程序会自动提取网站的信息和网址加入网页数据库200;另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,搜索引擎的网页抓取模块100会在一定时间内(2天到数月不等)定期对应网站派出“蜘蛛”程序,扫描网站并将有关信息存入网页数据库200。
网页数据库200负责存储网页抓取模块100获得的全部网页,以备用户搜索使用。
索引模块300负责对网页数据库200中存储的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引,并将建立好的索引存储到索引数据库400中。本实施例中,索引模块300包括文档预处理单元301、分词单元302、词频统计单元303和索引建立单元304。
文档预处理单元301负责从网页数据库200中读取一个网页,将输入的网页中不同的数据格式转换为标准数据格式,如将HTML页面、电子邮件或者PDF文件转换为文本文件,同时需要过滤掉一些脚本标示符和一些无用的广告信息,然后输出到分词单元302。
分词单元302负责对转换格式后的网页内容进行分词处理。为了提高系统效率,在分词前首先要把停用词和虚词等去掉(当然也可以在分词后去停用词和虚词等),只留下有效词条。本实施例中,分词单元302负责按照词典将转换后网页的正文和标题切分成词汇。如将“我看见了你在那里”去停用词后进行分词,分为“我”、“看见”、“你”、“在”“那里”五个词。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本实施例中采用基于字符串匹配的分词方法。该方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
词频统计单元303负责进行词频统计,为建立复合词索引奠定基础。顾名思义,复合词就是由两个或两个以上词语组成的组合词条(即二元以上的组合词条),是有一定意义或者有一定关系的词语。例如“吃苹果”就是一个复合词,它其实是由“吃”和“苹果”两个词组成,再例如“中国银行”和“陶瓷沙”都是由两个词组成的复合词。某个词条的词频就是词条在文档出现的次数,例如一个词语在某文档中出现的次数为三十,此词条对这个文档的频度即为三十。词频统计单元303首先对分词单元302输出的词条进行各种组合,如将“中国知识产权的国际战略选择与国内战略安排”分词后的词语组合为“中国知识”、“知识产权”、“中国知识产权”、“产权国际”、“国际战略”、“战略选择”等等,然后将上述组合词条在网页原文中进行词频统计,当所有的组合词都统计完之后按照频次高低进行排序,将出现频次大于设定阈值的组合词条作为复合词输出到索引建立单元304。这样用概率统计出的复合词非常接近实际,而且不需要人工干预,能够达到很好的效果。
索引建立单元304负责对分词单元302输出的所有词条、以及词频统计单元303输出的复合词建立索引,并将建立好的索引保存到索引数据库400中。索引建立单元304还将词频统计单元303输出的复合词发送到索引数据库400中,索引数据库400将接收到的所有复合词保存在复合词表中(图1中未示出)。
搜索模块500负责在用户输入检索词搜索后,分解搜索请求,从索引数据库400中找到符合该检索词的所有相关网页,进行计算、排序后返回给用户。搜索模块500包括检索词分词单元501、搜索单元502和结果处理单元503。
检索词分词单元501根据上述复合词表对检索词进行分词(这样,就可以直接将检索词“中国人民银行”分词为“中国人民”和“银行”两个词),再发送到搜索单元502。搜索单元502负责分别对检索词分词后的词条为关键词在索引数据库400中进行搜索,提取满足条件的网页,发送到结果处理单元503。
结果处理单元503将收到的网页进行求交集和求并集运算得到一个结果页面集合,然后计算网页和关键词的相关度,根据相关度的数值返回前K篇结果(K为自然数,放在一个页面中)给用户。如果用户查看的第二页或者第多少页,再把排序结果中在第K+1到2*K的网页组织返回给用户。本发明的其它实施例中,可一次性将全部搜索结果返回给用户。本发明的其它实施例中,用户输入的检索词中的复合词所对应的结果页面排在最前面。
为了理解本发明搜索引擎的搜索系统10,还需要介绍的是,与建立索引同时进行的还有“链接信息提取处理”,即把网页链接信息(包括锚文本、链接本身等信息)保存在一个链接数据库(图1中未示出)中,为网页评级模块(图1中未示出)的网页评级提供依据。在用户进行搜索时,搜索模块500要在索引数据库400中进行相关网页的查找,同时网页评级模块把查询请求和链接信息结合起来对搜索结果进行相关度的评价,搜索模块500再按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给用户。
这样,如果用户输入“中国人民银行”进行搜索,系统就可以将检索词拆分为“中国人民”和“银行”,进行两次索引查询,再进行一次求交集运算,一次求并集运算即可向用户返回搜索结果,相对现有技术来说,减少了求交集和求并集的运算次数,提高了搜索速度。
综上所述,如图2所示,本发明所述的搜索方法在建立或更新索引数据库400时包括以下步骤:
步骤S11,读取一个网页,将正文转换为标准数据格式,过滤掉脚本标示符、广告信息等无关信息;
步骤S12,去停用词、虚词后进行分词;
步骤S13,对分词得到的词条的各种组合进行词频统计;
步骤S14,输出频次大于设定阈值的组合词条作为复合词;
步骤S15,对频次大于设定阈值的复合词以及分词得到的所有词条建立索引并保存。
如图3所示,以检索词是“中国人民银行”为例,一种搜索引擎的搜索方法在收到用户的检索关键词之后包括以下步骤:
步骤S21,根据复合词表对检索词进行分词,得到“中国人民”和“银行”;
步骤S22,在索引数据库中对“中国人民”进行索引查询,得到结果集合R1;对“银行”进行索引查询,得到结果集合R2;
步骤S23,对集合R1和R2进行求交集运算,得到集合R3;
步骤S24,对集合R1和R2进行求并运算,得到集合R4;
步骤S25,对结果进行排序后返回给用户,将集合R3中的网页排在最前面,其次是集合R4中的不在集合R3的网页。
本发明方法的其它实施例中,可在搜索的时候同时对复合词进行拆分搜索,以达到结果全面完整地目的。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (9)

1、一种搜索方法,其特征在于,在建立或更新索引数据库时,执行以下步骤:
A1,读取一个网页正文,去掉停用词后进行分词;
A2,对分词得到的词条的各种组合进行词频统计;
A3,输出频次大于设定阈值的组合词条,并保存到复合词表中;
A4,对复合词表中频次大于设定阈值的复合词建立索引。
2、根据权利要求1所述的搜索方法,其特征在于:在步骤A1中,网页正文中至少去掉停用词后的词条为有效词条。
3、根据权利要求1所述的搜索方法,其特征在于:步骤A1中,在分词前首先将网页正文转换为标准数据格式,然后至少进行过滤脚本标示符和广告信息的操作。
4、根据权利要求3所述的搜索方法,其特征在于:步骤A1中,对转换为标准数据格式的网页正文去掉停用词和虚词后进行分词。
5、根据权利要求1所述的一种搜索方法,其特征在于:所述复合词为二元以上的组合词条。
6、根据权利要求1所述的搜索方法,其特征在于,进一步包括步骤:
B1,在接收到检索词后,根据复合词表对输入的检索词进行分词;所述复合词表包括频次大于设定阈值的所有复合词。
7、一种搜索系统,包括顺次相连的自动从互联网提取信息的网页抓取模块、用以保存提取信息的网页数据库、索引模块、索引数据库和搜索模块;所述索引模块包括用以将输入网页中不同的数据格式转换为标准数据格式的文档预处理单元、用以对转换格式后的网页内容进行分词处理的分词单元和索引建立单元;其特征在于:
所述索引模块还包括词频统计单元,用于对所述分词单元输出的词条的各种组合进行词频统计,并将频次大于设定阈值的组合词条输出到索引建立单元,由索引建立单元对所述组合词条建立索引;所述索引数据库用于存储所述索引建立单元建立的索引;所述搜索模块负责在用户输入检索词搜索后,分解搜索请求,从所述索引数据库中找到符合该检索词的所有相关网页,进行计算和排序后返回给用户。
8、根据权利要求7所述的搜索系统,其特征在于:所述索引数据库中还存储有复合词表,所述复合词表中存储着所述词频统计单元输出的组合词条。
9、根据权利要求8所述的搜索系统,其特征在于:
所述搜索模块包括顺次相连的检索词分词单元、搜索单元和结果处理单元;
所述检索词分词单元用于根据所述复合词表对输入的检索词进行分词,并将分词后词条输出到所述搜索单元;
所述搜索单元用于将所述分词后词条作为关键词在索引数据库中进行索引查询,并将查询结果发送到所述结果处理单元;
所述结果处理单元用于对所述查询结果进行求并集、求交集,排序后发送到操作窗口进行显示。
CNB2007100732207A 2007-02-06 2007-02-06 一种搜索方法和系统 Active CN100498790C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2007100732207A CN100498790C (zh) 2007-02-06 2007-02-06 一种搜索方法和系统
PCT/CN2008/070253 WO2008098502A1 (fr) 2007-02-06 2008-02-02 Procédé et dispositif destinés à créer un index et procédé et système de récupération

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100732207A CN100498790C (zh) 2007-02-06 2007-02-06 一种搜索方法和系统

Publications (2)

Publication Number Publication Date
CN101079056A CN101079056A (zh) 2007-11-28
CN100498790C true CN100498790C (zh) 2009-06-10

Family

ID=38906535

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100732207A Active CN100498790C (zh) 2007-02-06 2007-02-06 一种搜索方法和系统

Country Status (2)

Country Link
CN (1) CN100498790C (zh)
WO (1) WO2008098502A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806477A (zh) * 2021-08-26 2021-12-17 广东广信通信服务有限公司 一种文本自动标注方法、装置、终端及存储介质

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100498790C (zh) * 2007-02-06 2009-06-10 腾讯科技(深圳)有限公司 一种搜索方法和系统
US8468142B2 (en) * 2008-08-06 2013-06-18 Fujitsu Limited Caching query results with binary decision diagrams (BDDs)
CN101789872B (zh) * 2009-01-22 2012-12-26 蔡亮华 基于互联网的信息处理方法
CN101876981B (zh) * 2009-04-29 2015-09-23 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN102200984A (zh) * 2010-03-24 2011-09-28 深圳市腾讯计算机系统有限公司 一种基于复合词的搜索方法和搜索引擎服务器
CN102314464B (zh) * 2010-07-07 2013-06-05 北京亮点时间科技有限公司 歌词搜索方法及搜索引擎
CN101894160B (zh) * 2010-07-21 2012-02-08 同方知网(北京)技术有限公司 一种智能检索方法
CN101986309A (zh) * 2010-11-16 2011-03-16 无敌科技(西安)有限公司 查询题库的方法及装置
CN102591865A (zh) * 2011-01-06 2012-07-18 北京瑞信在线系统技术有限公司 音乐词汇文件索引建立方法及其装置、音乐词汇搜索方法及其系统
CN103246664B (zh) * 2012-02-07 2016-05-25 阿里巴巴集团控股有限公司 网页检索方法和装置
CN103377190B (zh) * 2012-04-11 2017-01-18 阿里巴巴集团控股有限公司 一种基于交易平台的供应商信息搜索方法和装置
KR102072113B1 (ko) 2012-10-17 2020-02-03 삼성전자주식회사 사용자 단말 장치 및 제어 방법
CN103309991A (zh) * 2013-06-19 2013-09-18 南京邮电大学 一种基于高校危险品仓库管理程序中的查询方法
CN103559313B (zh) * 2013-11-20 2018-02-23 北京奇虎科技有限公司 搜索方法及装置
CN103955449B (zh) * 2014-04-21 2018-03-06 安一恒通(北京)科技有限公司 定位目标样本的方法和装置
CN105653546B (zh) * 2014-11-11 2019-10-25 北大方正集团有限公司 一种目标主题的检索方法和系统
CN104462553B (zh) * 2014-12-25 2019-02-26 北京奇虎科技有限公司 问答页面相关问题推荐方法及装置
CN105069063A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 图片搜索方法及装置
CN108427688B (zh) * 2017-02-15 2022-01-28 北京国双科技有限公司 数据查询方法和装置
CN107463655A (zh) * 2017-07-27 2017-12-12 无锡雅座在线科技股份有限公司 查询数据的方法、装置和系统
CN107659468A (zh) * 2017-10-10 2018-02-02 深圳市吉祥腾达科技有限公司 一种路由器安全可靠性的测试方法
CN108416264A (zh) * 2018-01-29 2018-08-17 山东汇贸电子口岸有限公司 一种支持ocr输入的搜索方法及搜索模块
CN108920697A (zh) * 2018-07-16 2018-11-30 佛山市影腾科技有限公司 一种应用程序的推荐方法、装置及终端
CN110287881A (zh) * 2019-06-26 2019-09-27 上海交通大学 图书识别系统、图书识别方法、电子装置及储存介质
CN111368022A (zh) * 2020-02-28 2020-07-03 山东汇贸电子口岸有限公司 一种使用反向索引实现书籍筛选的方法及工具

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4754247B2 (ja) * 2004-03-31 2011-08-24 オセ−テクノロジーズ ビーブイ 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
CN100412866C (zh) * 2005-10-28 2008-08-20 北大方正集团有限公司 一种网络内容引用自动发现的方法
CN100498790C (zh) * 2007-02-06 2009-06-10 腾讯科技(深圳)有限公司 一种搜索方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806477A (zh) * 2021-08-26 2021-12-17 广东广信通信服务有限公司 一种文本自动标注方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN101079056A (zh) 2007-11-28
WO2008098502A1 (fr) 2008-08-21

Similar Documents

Publication Publication Date Title
CN100498790C (zh) 一种搜索方法和系统
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN105022827B (zh) 一种面向领域主题的Web新闻动态聚合方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN102760151B (zh) 开源软件获取与搜索系统的实现方法
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN102591948B (zh) 一种基于用户行为分析的搜索结果改进的方法及其系统
CN108052632A (zh) 一种网络信息获取方法、系统及企业信息搜索系统
CN104199833A (zh) 一种网络搜索词的聚类方法和聚类装置
CN103714149A (zh) 一种自适应增量式的深层网络数据源发现方法
CN102375813A (zh) 搜索引擎排重系统及方法
CN101963965A (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN101383782A (zh) 一种获取网络资源标识的方法及系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN104376115A (zh) 一种基于全局搜索的模糊词确定方法及装置
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
CN101310277B (zh) 获得文本的表示的方法和系统
CN100477593C (zh) 网络社区中相关讨论区的选取方法及选取装置
CN101599069A (zh) 电子文档的搜索方法及系统
CN103823847A (zh) 一种关键词的扩充方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131022

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20131022

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 518057 Guangdong city of Shenzhen province high tech Park high-tech South Road Fiyta high-tech building 5-10

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.