CN100557610C - 一种互联网搜索引擎的搜索方法 - Google Patents

一种互联网搜索引擎的搜索方法 Download PDF

Info

Publication number
CN100557610C
CN100557610C CNB2007101780759A CN200710178075A CN100557610C CN 100557610 C CN100557610 C CN 100557610C CN B2007101780759 A CNB2007101780759 A CN B2007101780759A CN 200710178075 A CN200710178075 A CN 200710178075A CN 100557610 C CN100557610 C CN 100557610C
Authority
CN
China
Prior art keywords
product
data
substring
search engine
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007101780759A
Other languages
English (en)
Other versions
CN101271464A (zh
Inventor
王双
吴爱华
苗宇枫
谌谦
李建锋
徐光美
吴柏林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing The9 livable Property Co.,Ltd.
Guangdong Fanzai Wireless RFID Public Technology Support Co.,Ltd.
Original Assignee
BEIJING NINETOWNS INTERNET TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING NINETOWNS INTERNET TECHNOLOGY Co Ltd filed Critical BEIJING NINETOWNS INTERNET TECHNOLOGY Co Ltd
Priority to CNB2007101780759A priority Critical patent/CN100557610C/zh
Publication of CN101271464A publication Critical patent/CN101271464A/zh
Application granted granted Critical
Publication of CN100557610C publication Critical patent/CN100557610C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种互联网搜索引擎的搜索方法,该方法通过含由下载器,产品知识库服务器,产品网页数据服务器,分词器和索引器,索引数据库,查询器组成的搜索系统,执行产品数据的搜索,该方法的步骤包括通过下载器获取产品网页数据,依据产品知识库服务器中的数据通过分词器和索引器进行产品短语处理处理,得到含有相关性数据的产品网页并创建数据索引通过查询器输入用户查询并依据产品知识库服务器中的数据进行产品短语处理并获得相关性数据后生成查询结果,该搜索方法主要用于B2B垂直搜索的产搜索引擎系统内。

Description

一种互联网搜索引擎的搜索方法
技术领域
本发明涉及计算机网络技术,特别是涉及一种互联网搜索引擎的搜索方法。
背景技术
搜索引擎技术的发展是随着电子技术不断进步而形成的信息数字化和数据网络化的必然产物。一个出色的搜索引擎能够及时向用户提供所需要的信息,而要做到这点就需要一个快速、优质、高效的搜索方法予以支持。Google搜索引擎依靠其Page Rank机制及收敛算法一直处于该领域的领先地位。Google公司的搜索引擎最初是斯坦福大学的博士研究生SergeyBrin和Lawrence Page实现的一个原型系统,现在已经发展成为互联网上最好的搜索引擎之一。Google的体系结构类似于传统的搜索引擎,它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理,使最重要的网页出现在结果的最前面。Google通过PageRank元算法计算出网页的Page Rank值,从而决定网页在结果集中的出现位置,Page Rank值越高的网页,在结果中出现的位置越靠前。
相对于Google、Baidu等通用的搜索引擎,专业B2B(Business to Business)垂直搜索所提供的B2B信息更加精准、更专业且更具深度;而相对于传统的B2B门户网站,专业B2B垂直搜索能够提供更全面、更客观、更多元化的信息内容。有鉴于此,专业B2B垂直搜索作为互联网快速发展、细分的产物,正日益受到企业用户的青睐,而这也奠定了电子商务B2B技术模式富于生命力的根基所在。
与传统搜索引擎类似,基于B2B电子商务的垂直搜索引擎需要返回的结果页面是用户所关心的信息。而对于电子商务应用搜索来讲传统搜索引擎的排名技术显然已经不适用于B2B专业垂直搜索的需求,搜索页面的结果排名不应去考虑链接到该页面的超链接数量而更多是那些与企业商务紧密联系的专业信息。正是有上述的应用需求,基于产品质量算法的垂直搜索引擎方法被提出用来综合评价搜索结果的质量,并在结果页面进行排名,以提高用户搜索质量并帮助海外采购商快速、精准地筛选优质供应商。
基于互联网的产品搜索服务需要将散布于互联网上各个独立网站上的产品与相关数据搜集起来,提供统一的检索服务,因此产品数据的检索功能对整体业务而言是非常重要的,检索方法既要满足产品数据的检索这样一个特定要求,又要具有很高的性能。
基于互联网的产品搜索服务是一种垂直搜索服务,对垂直搜索的领域有很强的限定性,需要针对领域相关的数据尽可能全面搜集,并提供集中深度的检索,而一般的互联网通用搜索方法不具有这样的特点,因此两者对搜索方法的要求是不一样的。概括而言,垂直搜索领域的搜索方法要对所针对领域的数据具有格外的关注能力。具体到互联网产品搜索业务来讲,这样的要求体现在两个方面:第一个方面是在检索中要对产品数据区别对待,以体现领域限定性;第二个方面是要能处理关于产品的复杂的查询,以满足全面精确搜索的要求。另外,互联网搜索业务需要面对的数据是海量的,并且需要应付大量并发的搜索,因此对整体搜索系统性能具有很高的要求。
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。可以简单的说成是搜索引擎领域的行业化分工。众多专业性网站、行业网站独立服务于互联网的成功,恰恰证明了互联网的格局应该是多方面的。通用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息需求服务。市场需求多元化决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加精确的行业服务模式。
发明内容
本发明的目的在于提供一种适应互联网垂直产品搜索的特点,实现高性能,高精度的搜索引擎的搜索方法。
为达到上述目的,本发明的互联网搜索引擎的搜索方法通过由下载器,产品知识库服务器,产品网页数据服务器,分词器和索引器,索引数据库,查询器组成的搜索系统,执行产品数据的搜索,该方法的步骤包括对于互联网上的产品原始网页信息,通过下载器获取产品网页数据,依据产品知识库服务器中的数据通过分词器和索引器处理产品网页数据并创建数据索引写入索引数据库,对应产品数据网页写入产品网页数据服务器,通过查询器输入用户查询并依据产品知识库服务器中的数据处理后生成查询结果,所述依据产品知识库服务器中的数据通过分词器和索引器处理产品网页数据包括如下步骤:
a.获取原始网页文本,
b.根据产品知识库服务器中的产品数据对网页文本进行正向最大匹配,
c.判断步骤b中匹配是否成功,
d.如果匹配成功,则将匹配项进行产品短语处理得到子串并进行排序,
e.对步骤d中的每个子串计算相关性,并建立索引写入索引数据库,
所述通过查询器输入用户查询并依据产品知识库服务器中的数据处理后生成查询结果包括如下步骤:
f.读入用户输入的查询串,
g.对查询串进行正向最大匹配,生成匹配项集合,
h.对匹配项集合进行产品短语处理,生成子串集合并排序,按照每个子串相关性生成有效子串序列,
i.对有效子串序列中的每个子串依次获取与之匹配的网页数据集合,并根据相关性大小排序输出。
本发明的互联网搜索引擎的搜索方法,所述产品知识库服务器中的产品数据包括产品属性数据和产品企业数据。
本发明的互联网搜索引擎的搜索方法,所述通过查询器输入用户查询并依据产品知识库服务器中的数据处理后生成查询结果的所述步骤h和步骤i之间增加如下步骤:
k.如果子串中存在介词,则确定中心词为最左介词之前的词,如果子串中不存在介词,则确定中心词为最后一个词,
1.将所述中心词和所述子串间隔生成的扩展的子串序列作为所述步骤i中的有效子串序列。
本发明的互联网搜索引擎的搜索方法,所述产品短语处理为按照产品词的内部结构进行多重切分处理。
本发明的互联网搜索引擎的搜索方法,步骤d和步骤h中所述的排序为顺序或倒序。
本发明的互联网搜索引擎的搜索方法,步骤d和步骤h中所述排序的原则是,长的子串比短的子串优先,位置靠右的子串比位置靠左的子串优先。
本发明的互联网搜索引擎的搜索方法,所述分词器和索引器处理产品网页数据处理步骤中的所述步骤e中所述相关性的大小为R(ti)=(W0·f(ti)+W1·f(si1)+…+Wn·f(sin))*I(i),其中ti为所述子串的标记,R(ti)为所述相关性的标记,si1…sin为子串ti的属性词,f为基于子串出现频次的重要性函数,W0,W1…Wn为各项的权重,I(i)为排序衰减函数,i为子串的序号。
本发明的互联网搜索引擎的搜索方法,所述通过查询器输入用户查询并依据产品知识库服务器中的数据处理后生成查询结果的步骤h中的所述相关性的大小为R(ti)=(W0·f(ti)+W1·f(si1)+…+Wn·f(sin))*I(i),其中ti为所述子串的标记,R(ti)为所述相关性的标记,si1…sin为子串ti的属性词,f为基于子串出现频次的重要性函数,W0,W1…Wn为各项的权重,I(i)为排序衰减函数,i为子串的序号。
本发明是为互联网产品搜索业务中实现产品垂直搜索功能的搜索方法,利用产品知识库服务器中与网上产品信息质量等全方位数据,适合互联网产品检索的特定要求;采用了两阶段的检索和搜索架构,具有较高的检索和搜索效率;在索引建立和动态响应检索时都采用了产品短语处理技术,能处理较长的复杂检索串,本发明的方法应用于互联网B2B电子商务垂直搜索,综合分析用户提交以及网络下载器所采集的数据,计算收集到的数据的产品质量等级值,并据此对搜索结果进行排序,使最重要的网页出现在结果的最前面,提高了搜索的精准性以及搜索质量,使得搜索引擎更有利于用户使用,得到满意的检索结果。
下面将结合实施例参照附图进行详细说明,以对本发明的目的、特征和优点有深入的理解。
附图说明
图1为本发明互联网搜索引擎的搜索方法所涉及的系统原理示意图;
图2为本发明互联网搜索引擎的搜索方法的分词器和索引器工作时进行产品短语处理的方法流程图;
图3为本发明互联网搜索引擎的搜索方法的查询器动态响应时工作方法流程图;
图4为本发明互联网搜索引擎的搜索方法的一个具体实施例的网页数据相关性示意图;
图5为本发明互联网搜索引擎的搜索方法的分词器和索引器进行相关性判断的方法流程图;
图6为本发明互联网搜索引擎的搜索方法的查询器动态响应工作详细方法流程图。
具体实施方式
下面以实施例对技术方案做详细说明。
参照图1,本发明互联网搜索引擎的搜索方法所涉及系统由下载器,产品知识库服务器,搜索引擎,产品网页数据服务器组成。下载器负责网页信息的获取工作;产品知识库服务器提供搜索引擎所需要的产品词,产品属性词,产品分类词以及其他所需要的相关产品信息数据;搜索引擎进一步的由索引创建模块,索引数据库,查询输入处理和结果生成模块组成。搜索引擎中的索引创建模块包括分词器和索引器,分词器和索引器一起使用,它们负责将获取的网页内容进行产品短语处理并自动进行标引,并按词在网页中出现的位置和频率计算权值,然后将产品短语结果存入索引数据库,整个网页获取工作和索引工作完成后更新整个索引数据库和产品网页数据服务器;查询器首先对用户输入的信息进行产品短语处理,并检索出所有包含检索词的记录,通过计算网页权重和级别对查询记录进行排序并进行集合运算,如并集、交集运算,最后从产品网页数据服务器中提取各网页的摘要信息反馈给查询用户。
表1:
Figure C20071017807500081
表2:
  TX International Group Co.,LtdOur company is specialized production and trading MP3 player/DVDplay games manufacturer.Specialized production world name brandMP3 MP4 player.Produces specially the MP4 player and PSP.Welcome to discuss and make arrangements the cooperation item!TEL:86-0755-21137563Mobile phone:086-13006621355MSN:cootv2008@hotmail.comE-mail:cootv@163.com cootv2008@gmail.comwebsites:http://www.cootv.com
表3:
  Memory Stick Pro Duo 1GB/2GB(High Speed)Description:Sony Memory Stick Pro Duo 1GB/2GB(HIGH SPEED)Product Origin:Japan Detailed Product Description With a massive total storage capacityof 1GB/2GB(940MB/1.85GB available),it is perfect for storingphotographs,video and digital music files.Its high speed feature allows it toread and write data at speeds up to 80Mbps on enabled devices,and it isbackwards compatible with regular Memory Stick PRO Duo devices.Withthe included MSAC-M2 adapter,the MSX-M2GN is backwards compatiblewith most products that support full-sized Memory Stick PRO media.Designed especially for professional-quality compact digital cameras andportable digital music devices,it′...
更进一步的,产品知识库服务器中提供了互联网产品数据中涉及到的全方位的信息数据,具体而言,其可使用各种关于产品的描述性数据和在互联网上发布产品的企业的各方面信息数据,以满足关于产品数据网页的高质量检索的需求。分词器和索引器根据下载器搜索而得的网页数据生成相应的索引库数据,并为体现产品数据的重要性而把关于产品的知识数据以较高权重(即产品知识数据的相关性)写入索引库数据,查询器动态响应用户检索时根据在上述过程时已经计算好的产品知识数据的相关程度生成检索结果,这样的方法和系统设计提高了系统和搜索引擎的效率。在生成静态检索库与动态响应用户查询时本发明都使用了产品短语处理技术,使得系统能处理较长的,复杂的查询,以满足全面、精确检索的需求。
参照图1,分词器和索引器(索引创建模块)对下载的网页数据编制索引,除了一般的顺排、倒排等索引结构之外,这个模块还根据产品知识库服务器中的产品描述的信息数据对网页中的产品描述数据进行了重点处理,以体现产品数据的重要性,并且避免在动态响应用户查询时进行复杂的运算。查询器(查询输入处理/结果生成模块)动态响应用户的查询,对查询的输入串做出处理,生成查询结果返回用户,检索结果的依据是索引库中的索引结构,反映的是以产品数据为核心网页的相关性。除了网页描述中产品数据的相关性之外,最终的排序结果的生成还参考了产品知识库服务器中发布产品的企业信息、网页中是否含有产品图片、网页中产品发布的时间的新旧程度等全面的信息,使得所获得的结果能够真正全面反映产品检索结果的质量。其中,企业信息包括规模、历史、组织机构等各项指标的评价所组成的静态信息数据,企业的产品发布等互联网上商务活动的活跃程度数据,以及客户、业内专家的评价等数据组成。上述系统和方法是以网页中产品数据的相关性为主导,兼顾对产品数据发布企业的数据评价相关性,以及其他各项数据的相关性,实现高效、全面、精确的检索的搜索引擎系统和搜索方法。
本发明的搜索引擎的搜索方法为了能够对复杂的查询输入串做出有效的处理,在分词器和索引器(索引创建模块)和查询器(查询输入处理/结果生成模块)中都采用了产品短语处理方法并在分词器和索引器(索引创建模块)中采用了将产品知识数据融合进索引库的方法。
目前搜索引擎检索相关性的计算的标准方法是计算查询输入与文档之间的相关性,并按相关性的高低输出排序结果。查询输入与文档之间的相关性是实际上由组成查询输入的每个词汇项与文档之间的相关性计算的,即查询输入中的词汇在文档中的重要程度,或者说权重。因此,对什么样的词汇设置什么样的权重在本发明搜索引擎的检索系统中是十分关键的问题。目前某个词汇项在文档中的权重的标准计算法是TF/IDF计算方法,这是参考词汇在文档内的出现频次以及在整个文档集合中的分布情况的权重设置法,但是这样的方法没有体现产品数据的重要性,不能充分适应基于互联网的基于产品搜索引擎检索方法的需要。在本发明的搜索方法的检索算法中,除了对一般的词汇采用TF/IDF方法设置权重之外,利用产品知识数据,对产品数据采用了特殊的权重设置,以体现其特殊性。
在搜索引擎方法中的检索系统的范围内,产品知识数据表现为产品词以及该产品所具有的各项属性词,对产品数据的特殊处理也表现为对产品词权重的设置。一个词汇数据相对于一篇文档(即网页)的相关性衡量的基本依据是出现频次,但是针对产品词数据,则仅衡量本身的出现频次是不够的。产品具有大小尺寸、电器指数等各个方面的属性数据,因此产品词数据的相关性应该和它的属性词数据的相关性统一起来考虑。由于产品词数据具有主导作用,因此属性词数据的相关性从属于产品词数据的相关性。一个产品词ti对一篇网页的相关性R(ti)定义为:
R(ti)=W0·f(ti)+W1·f(si1)+…+Wn·f(sin)
上式中,si1…sin为产品词ti的属性词,f为基于词汇出现频次的重要性函数,W0,W1…Wn为各项的权重,可以调节设置。
产品词数据或者与产品相关的词汇数据很多情况下不是一个单一的词,而是复合词甚至是短语,具有内部结构,如果不对这些内部结构做出处理,则难以处理较长的复杂查询,不能提供全面的检索结果,因此本发明采用了产品短语处理方法,在索引创建阶段和动态响应查询时都进行产品短语处理。
产品短语处理指的是对具有内部结构的产品词或者查询输入进行多重切分,并将产生的切分子串按照重要程度区分处理。切分产生的子串的重要程度排序的原则是长的子串比短的子串重要,位置靠右的子串比位置靠左的子串重要。在创建索引阶段,子串的重要程度影响其对文档的相关性,在动态相应阶段切分产生的子串的重要程度影响检索产生的排序。产品短语处理方法主要完成文本输入串/文件的简单切分、基于词干还原的短语/子短语识别、子短语重要性排序,以及每个切分串的中心词识别。
参加图2的本发明分词器和索引器(索引创建模块)工作方法流程图,该方法首先读入网页数据,然后识别具有内部结构的最长产品词数据,然后进行切分和排序,最后对切分子串和其他词项数据建立索引并设置权重。
参照图3,本发明互联网搜索引擎的搜索方法的查询器动态响应阶段的产品短语处理与分词器和索引器(索引创建模块)工作方法不同的是还包括中心词数据的识别,中心词数据是指查询输入串被修饰性成分所修饰的部分,或者是起到区别作用的成分,如在“MP3 Glass”指的是具有“mp3”功能的眼镜,其中中心词是“Glass”,但“mp3 player”中中心词应该是“mp3”。
参见表1,表1为一个互联网涉及MP3播放器产品信息数据的原始网页,该网页中含有下列信息数据:“MP3 Player”,“Size”,“Multi-Language”,“Memory”,“Power Supply”,“Data Retention”。
参见表2,表2为另一个互联网上设计MP3播放器产品信息数据的原始网页,该网页中含有下列信息数据:“MP3 Player”。
如果产品知识库服务器中有如下关于“MP3 Player”的各项属性的描述:“MP3 Player”:“Size”,“Multi-Language”,“Play Time”,“Memory”,“Power Supply”,“Data Retention”。上述两个表中所显示的网页里都包含“MP3 Player”,但是根据知识库服务器中的数据,第一个网页中含有比较详细的关于“MP3 Player”各项属性的说明,因此在索引创建阶段,“MP3Player”这个词汇项与这两个网页的相关性计算中,前一个网页的相关性高,而后一个相关性小,如图4中所表示的那样(图中相关性大小用箭头的粗细表示)。
再比如有如表3中所描述的网页数据,网页3中含有“1GB”。如果用户的检索输入为“1gbmp3 player”,则经过产品短语处理,中心词识别之后,将“Mp3 player”识别为中心词,之后相对于该检索和上述三个网页的检索输出网页排序将变成为:如表1所描述的网页1,如表2所描述的网页2,如表3所描述的网页3。
参照图5的本发明互联网搜索引擎的搜索方法的分词器和索引器进行相关性判断的方法流程图;其对子串的排序按照长的子串比短的子串重要,位置靠右的子串比位置靠左的子串重要的方法进行,对相关性计算按照计算公式为:R(t)*I(n),其中R(t)为前述公式,I(n)为排序衰减函数,排序越靠后其值越小,n为排序中的序号。
参照图6的本发明互联网搜索引擎的搜索方法的查询器动态响应工作详细方法流程图。其中确定准中心词和中心词的过程可以使得本发明的搜索方法更加精确,但是省略这些步骤仍然会实现本发明的搜索引擎的基于数据短语处理和相关性基本技术手段实现的搜索方法。上述步骤通过确定中心词的判断和增加方法,扩大了检索子串序列,也就是提高了对产品网页数据服务器中数据的搜索范围。

Claims (8)

1.一种互联网搜索引擎的搜索方法,该方法通过由下载器,产品知识库服务器,产品网页数据服务器,分词器和索引器,索引数据库,查询器组成的搜索系统,执行产品数据的搜索,其特征在于:该方法的步骤包括对于互联网上的产品原始网页信息,通过下载器获取产品网页数据,依据产品知识库服务器中的数据通过分词器和索引器处理产品网页数据并创建数据索引写入索引数据库,对应产品数据网页写入产品网页数据服务器,通过查询器输入用户查询并依据产品知识库服务器中的数据处理后生成查询结果,所述依据产品知识库服务器中的数据通过分词器和索引器处理产品网页数据包括如下步骤:
a.获取原始网页文本,
b.根据产品知识库服务器中的产品数据对网页文本进行正向最大匹配,
c.判断步骤b中匹配是否成功,
d.如果匹配成功,则将匹配项进行产品短语处理得到子串并进行排序,
e.对步骤d中的每个子串计算相关性,并建立索引写入索引数据库,
所述通过查询器输入用户查询并依据产品知识库服务器中的数据处理后生成查询结果包括如下步骤:
f.读入用户输入的查询串,
g.对查询串进行正向最大匹配,生成匹配项集合,
h.对匹配项集合进行产品短语处理,生成子串集合并排序,按照每个子串相关性生成有效子串序列,
i.对有效子串序列中的每个子串依次获取与之匹配的网页数据集合,并根据相关性大小排序输出。
2.根据权利要求1所述互联网搜索引擎的搜索方法,其特征在于,所述产品知识库服务器中的产品数据包括产品属性数据和产品企业数据。
3.根据权利要求2所述互联网搜索引擎的搜索方法,其特征在于,所述通过查询器输入用户查询并依据产品知识库服务器中的数据处理后生成查询结果的所述步骤h和步骤i之间增加如下步骤:
k.如果子串中存在介词,则确定中心词为最左介词之前的词,如果子串中不存在介词,则确定中心词为最后一个词,
l.将所述中心词和所述子串间隔生成的扩展的子串序列作为所述步骤i中的有效子串序列。
4.根据权利要求3所述互联网搜索引擎的搜索方法,其特征在于,所述产品短语处理为按照产品词的内部结构进行多重切分处理。
5.根据权利要求4所述互联网搜索引擎的搜索方法,其特征在于,步骤d和步骤h中所述的排序为顺序或倒序。
6.根据权利要求5所述互联网搜索引擎的搜索方法,其特征在于,步骤d和步骤h中所述排序的原则是,长的子串比短的子串优先,位置靠右的子串比位置靠左的子串优先。
7.根据权利要求1至6任一权利要求所述互联网搜索引擎的搜索方法,其特征在于,所述分词器和索引器处理产品网页数据处理步骤中的所述步骤e中所述相关性的大小为R(ti)=(W0·f(ti)+W1·f(si1)+…+Wn·f(sin))*I(i),其中ti为所述子串的标记,R(ti)为所述相关性的标记,si1…sin为子串ti的属性词,f为基于子串出现频次的重要性函数,W0,W1…Wn为各项的权重,I(i)为排序衰减函数,i为子串的序号。
8.根据权利要求1至6任一权利要求所述互联网搜索引擎的搜索方法,其特征在于,所述通过查询器输入用户查询并依据产品知识库服务器中的数据处理后生成查询结果的步骤h中的所述相关性的大小为R(ti)=(W0·f(ti)+W1·f(si1)+…+Wn·f(sin))*I(i),其中ti为所述子串的标记,R(ti)为所述相关性的标记,st1…sin为子串ti的属性词,f为基于子串出现频次的重要性函数,W0,W1…Wn为各项的权重,I(i)为排序衰减函数,i为子串的序号。
CNB2007101780759A 2007-11-26 2007-11-26 一种互联网搜索引擎的搜索方法 Expired - Fee Related CN100557610C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101780759A CN100557610C (zh) 2007-11-26 2007-11-26 一种互联网搜索引擎的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101780759A CN100557610C (zh) 2007-11-26 2007-11-26 一种互联网搜索引擎的搜索方法

Publications (2)

Publication Number Publication Date
CN101271464A CN101271464A (zh) 2008-09-24
CN100557610C true CN100557610C (zh) 2009-11-04

Family

ID=40005438

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101780759A Expired - Fee Related CN100557610C (zh) 2007-11-26 2007-11-26 一种互联网搜索引擎的搜索方法

Country Status (1)

Country Link
CN (1) CN100557610C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470323A (zh) * 2022-10-31 2022-12-13 中建电子商务有限责任公司 一种基于分词技术提高建筑行业搜索精度的方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814098B (zh) * 2010-05-11 2012-05-02 天津大学 基于垂直搜索及语义标注获取软件安全缺陷的方法
CN103294706A (zh) * 2012-02-28 2013-09-11 腾讯科技(深圳)有限公司 触摸式终端中的文本搜索方法和装置
CN103049577A (zh) * 2013-01-09 2013-04-17 广东欧珀移动通信有限公司 移动终端查询不同电子数码产品数据连接方式的方法
CN103927342A (zh) * 2014-03-28 2014-07-16 苏州中炎工贸有限公司 基于大数据的垂直搜索引擎系统
CN103995845A (zh) * 2014-05-06 2014-08-20 百度在线网络技术(北京)有限公司 信息搜索方法及其装置
CN103995846B (zh) * 2014-05-06 2017-04-05 百度在线网络技术(北京)有限公司 应用信息的搜索方法及其装置
CN105912584B (zh) * 2016-04-01 2020-07-31 南京奥灵克物联网科技有限公司 一种基于网页信息数据的数据索引系统
CN108595400A (zh) * 2018-04-20 2018-09-28 广东电网有限责任公司 一种基于人工智能的工作报告生成方法
CN109241360B (zh) * 2018-08-21 2021-08-20 创新先进技术有限公司 组合字符串的匹配方法及装置和电子设备
CN111104485A (zh) * 2019-12-24 2020-05-05 上海风秩科技有限公司 一种产品文本的确定方法、装置、计算机设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470323A (zh) * 2022-10-31 2022-12-13 中建电子商务有限责任公司 一种基于分词技术提高建筑行业搜索精度的方法
CN115470323B (zh) * 2022-10-31 2023-03-10 中建电子商务有限责任公司 一种基于分词技术提高建筑行业搜索精度的方法

Also Published As

Publication number Publication date
CN101271464A (zh) 2008-09-24

Similar Documents

Publication Publication Date Title
CN100557610C (zh) 一种互联网搜索引擎的搜索方法
CN102419779B (zh) 一种基于属性排序的商品个性化搜索方法及装置
CN103679462B (zh) 一种评论数据处理方法和装置、一种搜索方法和系统
CN105765573B (zh) 网站通信量优化方面的改进
US7685084B2 (en) Term expansion using associative matching of labeled term pairs
Khraim The impact of search engine optimization on online advertisement: The case of companies using E-Marketing in Jordan
CN102446326B (zh) 一种信息推送的方法、系统及设备
KR101936362B1 (ko) 광고 캠페인 생성
EP2704080A1 (en) Recommendation systems and methods
CN104679771A (zh) 一种个性化数据搜索方法和装置
US20180060921A1 (en) Augmenting visible content of ad creatives based on documents associated with linked to destinations
CN109918563B (zh) 一种基于公开数据的图书推荐的方法
TW201327233A (zh) 個性化的資訊推送方法及裝置
US8977625B2 (en) Inference indexing
Khraim The impact of search engine optimization dimensions on companies using online advertisement in Jordan
Singh et al. Rewriting null e-commerce queries to recommend products
García-Moya et al. Storing and analysing voice of the market data in the corporate data warehouse
CN101859424A (zh) 一种通过互联网实现手机显示商品购物比较状态信息的方法
US20070174133A1 (en) Searching for a seller of a product
Zhu et al. A recommendation engine for travel products based on topic sequential patterns
Park et al. Retrieval of relevant opinion sentences for new products
CN103729365A (zh) 一种搜索方法和系统
US20160078401A1 (en) Taxonomy based database partitioning
US8010529B2 (en) System and method for determining a relationship between available content and current interests to identify a need for content
CN112269816A (zh) 一种政务预约事项相关性检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NINETOWNS INTERNET TECHNOLOGY GROUP COMPANY LIMITE

Free format text: FORMER OWNER: BEIJING JIUCHENG YIJU TENANCY CO., LTD.

Effective date: 20120417

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: BEIJING JIUCHENG YIJU TENANCY CO., LTD.

Free format text: FORMER NAME: BEIJING NINETOWNS INTERNET TECHNOLOGY CO., LTD.

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100070 FENGTAI, BEIJING TO: 100020 CHAOYANG, BEIJING

CP01 Change in the name or title of a patent holder

Address after: 100070, Beijing, Fengtai District, South Fourth Ring Road, No. 7, 188 District, 14 floor

Patentee after: Beijing The9 livable Property Co.,Ltd.

Address before: 100070, Beijing, Fengtai District, South Fourth Ring Road, No. 7, 188 District, 14 floor

Patentee before: BEIJING NINETOWNS INTERNET TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20120417

Address after: 100020 Beijing City, Chaoyang District Road No. 20, building 1, 22 storey International Building Report

Patentee after: Guangdong Fanzai Wireless RFID Public Technology Support Co.,Ltd.

Address before: 100070, Beijing, Fengtai District, South Fourth Ring Road, No. 7, 188 District, 14 floor

Patentee before: Beijing The9 livable Property Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091104

Termination date: 20151126

CF01 Termination of patent right due to non-payment of annual fee