CN101281525A - 一种互联网上基于知识库的搜索系统和方法 - Google Patents

一种互联网上基于知识库的搜索系统和方法 Download PDF

Info

Publication number
CN101281525A
CN101281525A CNA2007101780034A CN200710178003A CN101281525A CN 101281525 A CN101281525 A CN 101281525A CN A2007101780034 A CNA2007101780034 A CN A2007101780034A CN 200710178003 A CN200710178003 A CN 200710178003A CN 101281525 A CN101281525 A CN 101281525A
Authority
CN
China
Prior art keywords
data
product
web page
speech
database server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101780034A
Other languages
English (en)
Other versions
CN101281525B (zh
Inventor
王双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing The9 livable Property Co.,Ltd.
Guangdong Fanzai Wireless RFID Public Technology Support Co.,Ltd.
Original Assignee
BEIJING NINETOWNS INTERNET TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING NINETOWNS INTERNET TECHNOLOGY Co Ltd filed Critical BEIJING NINETOWNS INTERNET TECHNOLOGY Co Ltd
Priority to CN2007101780034A priority Critical patent/CN101281525B/zh
Publication of CN101281525A publication Critical patent/CN101281525A/zh
Application granted granted Critical
Publication of CN101281525B publication Critical patent/CN101281525B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种互联网上基于知识库的搜索系统,包括用于从互联网下载原始网页的下载器,用于对原始网页数据进行数据提取的数据提取器,用于对从数据提取器获得的相关网页数据进行加工的数据加工器,用于存储由数据加工器生成的产品网页数据的产品数据服务器,用于从产品数据服务器中检索用户所需要的检索结果、并带有检索界面的检索引擎,所述搜索系统还包括知识库服务器,用于提供产品信息数据给数据提取器,并提供分类信息数据给数据加工器及检索引擎。本发明同时还提供了该系统的搜索方法。本发明提供的系统和方法主要用于产品数据的互联网搜索引擎,为用户提供了一种通用性强,精确度高的互联网搜索工具。

Description

一种互联网上基于知识库的搜索系统和方法
技术领域
本发明涉及计算机网络技术,特别是涉及一种互联网上搜索技术。
背景技术
对于将散布于互联网上各个独立网站上的产品与相关数据搜集起来,并提供统一的检索服务的互联网产品搜索服务而言,一个很重要的问题是将来自于多个独立数据源的数据以统一的方式进行描述,并整合。业务中涉及到的数据虽然散布于各个独立的网站,但是在内容上都是关于产品的数据,这就需要将数据描述提升到知识的层次,以统一的知识表述的方式描述各个不同来源的数据,使数据的管理与维护方便、高效。提升到知识层面的产品数据还可以给网上产品数据的抽取提供指导性信息,提高数据获取的自动化程度,另外也可以为更精确的检索与更个性化的检索提供基础。
从学术研究的角度,这在本质层面上是知识表述问题。知识表述(KnowledgeRepresentation)是人工智能研究中传统的领域,诞生了语义网(Semantic Network)等经典的知识表示方法。随着互联网的兴起与普及,以及关于语义互联网(Semantic Web)的需求的日益高涨,知识表示重新获得了关注,并且使得更为严密的领域知识表示机制本体论(Ontology)的研究与应用变得极为活跃。W3C研制的Web本体语言OWL(Web Ontology Language)也获得了广泛的重视与活跃的应用。
另一方面,随着国际贸易的增加与跨国界的互联网商务活动的加强,经济活动中的主要对象——各种产品数据的统一表示的问题也变得越来越重要,吸引了很多学术界与商业组织的注意,从而催生了不少定位于国际通用标准的产品数据的分类体系,如联合国产品与服务标准代码(United Nation Standard Product and Service Code,UNSPSC),在欧洲广泛应用的eC1@ss等。但是目前已有的这些分类方案存在这样几个方面的问题。第一,对产品的描述还不充分,未达到知识层面的描述。UNSPSC只有产品的分层分类体系。eC1@ss有产品的分层分类,以及具体产品种类的属性描述。不同的分类体系的分类标准与出发点是不同的,但是这些分类体系还没有包括对分类标准的规范化形式化的描述,并且也没有包含对各种产品功能的规范化描述与部件配件等产品之间的关系的描述,难以为计算机程序深度识认与处理。第二,这些现有的分类系统还只是面向传统贸易业务,不能对以文本形式存在的网上的产品数据的识别与获取提供充分的支持,因此不能充分适应基于互联网的产品搜索业务的需要。
另外,目前互联网上搜索引擎技术方案都是一种通用的垂直搜索引擎技术方案,其获取数据的来源主要依靠注册用户输入信息去获得产品信息,其技术方案的实现依赖于用户的主动性输入,通用性和搜索精确度比较差。
发明内容
本发明的目的在于提供一种通用性强,精确度高的互联网搜索系统;
本发明的另一个目的在于提供一种智能化的互联网搜索系统;
本发明的另一个目的在于提供一种通用性强,精确度高的互联网搜索方法;
本发明的再一个目的在于提供一种智能化的互联网搜索方法。
为达到上述目的,本发明提供的互联网上基于知识库的搜索系统包括:用于从互联网下载原始网页的下载器,用于对原始网页数据进行数据提取的数据提取器,用于对从数据提取器获得的相关网页数据进行加工的数据加工器,用于存储由数据加工器生成的产品网页数据的产品数据服务器,用于从产品数据服务器中检索用户所需要的检索结果、并带有检索界面的检索引擎,所述搜索系统还包括知识库服务器,用于提供产品信息数据给数据提取器,并提供分类信息数据给数据加工器及检索引擎。
本发明的互联网上基于知识库的搜索系统,其中所述产品知识库服务器中的数据构成包括逻辑层数据、表示层数据和存储层数据。
本发明互联网上基于知识库的搜索系统,其中所述产品知识库服务器的逻辑层数据包括产品词数据、产品分类词数据和产品属性词数据,所述产品表示层数据包括产品词数据、产品属性词数据以及相应同义词数据、产品分类数据、产品功能描述数据和产品性能描述数据。
本发明的互联网上基于知识库的搜索系统,其中所述数据提取器是依据所述产品知识库服务器中的产品表示层数据进行数据提取,所述数据加工器是依据所述产品知识库服务器中的产品逻辑层数据进行数据加工,所述搜索引擎是将检索界面读入的用户原始检索数据结合产品知识库服务器中的逻辑层数据再从产品数据服务器中检索产品网页数据。
本发明的互联网上基于知识库的搜索系统,其中所述产品知识库服务器根据产品数据库服务器以及数据加工器所提供的产品数据进行自动更新,其更新步骤为:
a.定时检索产品数据库服务器中数据,
b.检索更新维护备用数据,
c.利用a步骤和b步骤中所获得的数据按照产品词,产品类别,产品属性区分出活跃的数据集合和不能覆盖的数据集合,
d.如果是活跃的数据集合则将产品类别进行进一步细分更新产品知识库服务器,
e.如果是不能覆盖的数据集合则将新的产品类别更新入产品知识库服务器,将无效错误的数据集合丢弃。
本发明的互联网上基于知识库的搜索系统,其中所述数据提取器执行如下步骤:
a.将原始网页数据去除标签,提取文本数据形式的网页数据,
b.获取文本数据形式网页的产品词,产品分类词,产品属性词,
c.读取产品知识库服务器中的每一条产品词,产品分类词,产品属性词,
d.判断提取出的文本数据形式网页的产品词,产品分类词,产品属性词是否与步骤c中读取出的数据任何一条一致,
e.如果数据一致,则将所获得的产品数据网页作为产品相关网页数据继续交给数据加工器进行处理,否则,丢弃该不相关产品原始网页数据,
f.继续执行步骤a至e一直到所有原始网页被处理完毕,
所述依据产品知识库服务器中的信息通过数据加工器分类出产品网页数据包括如下步骤:
g.从数据提取器获得从原始网页提取的候选的产品描述文本相关网页数据,
h.对每个候选的产品描述文本相关网页数据进行分类处理,得到分类标记和分类可信度值,
i.如分类可信度值高于一定阈值,则将该候选产品描述文本相关网页数据连同分类标记写入产品数据库服务器,否则,将该产品描述文本数据网页保存为产品知识库服务器自动更新维护用数据。
j.重复步骤g至i直到步骤g中所述的所有相关网页数据处理完毕,
本发明的互联网上基于知识库的搜索系统,其特征在于所述搜索引擎执行如下步骤:
a.获得用户原始检索数据,
b.依据产品知识库服务器中的产品词,产品分类词,产品属性词对原始检索数据进行扩展得到扩展检索数据,
c.依据扩展检索数据从产品数据服务器中检索出符合扩展检索数据的结果数据,
d.生成结果页面。
本发明的互联网上基于知识库的搜索方法通过含由下载器,数据提取器,数据加工器,产品数据服务器,产品知识库服务器,检索引擎组成的搜索系统,执行产品数据的搜索,其特征在于:该方法的步骤包括对于因特网上的产品原始网页信息,通过下载器获取其产品网页数据,依据产品知识库服务器中的数据通过数据提取器判定并提取产品相关网页数据,依据产品知识库服务器中的信息通过数据加工器分类出产品网页数据,通过产品数据服务器存储产品网页数据,依据产品知识库服务器中的信息通过检索引擎处理并进行产品网页数据检索,所述依据产品知识库服务器中的数据通过数据提取器判定包括如下步骤:
a.将原始网页数据去除标签,提取文本数据形式的网页数据,
b.获取文本数据形式网页的产品词,产品分类词,产品属性词,
c.读取产品知识库服务器中的每一条产品词,产品分类词,产品属性词,
d.判断提取出的文本数据形式网页的产品词,产品分类词,产品属性词是否与步骤c中读取出的数据任何一条一致,
e.如果数据一致,则将所获得的产品数据网页作为产品相关网页数据继续交给数据加工器进行处理,否则,丢弃该不相关产品原始网页数据,
f.继续执行步骤a至e一直到所有原始网页被处理完毕,
所述依据产品知识库服务器中的信息通过数据加工器分类出产品网页数据包括如下步骤:
g.从数据提取器获得从原始网页提取的候选的产品描述文本相关网页数据,
h.对每个候选的产品描述文本相关网页数据进行分类处理,得到分类标记和分类可信度值,
i.如分类可信度值高于一定阈值,则将该候选产品描述文本相关网页数据连同分类标记写入产品数据库服务器,否则,将该产品描述文本数据网页保存为产品知识库服务器自动更新维护用数据。
j.重复步骤g至i直到步骤g中所述的所有相关网页数据处理完毕。
本发明的互联网上基于知识库的搜索方法,其中所述互联网上基于知识库的搜索方法还包括一个如下的自动更新知识库服务器的步骤:
a.定时检索产品数据库服务器中数据,
b.检索更新维护备用数据,
c.利用a步骤和b步骤中所获得的数据按照产品词,产品类别,产品属性区分出活跃的数据集合和不能覆盖的数据集合,
d.如果是活跃的数据集合则将产品类别进行进一步细分更新产品知识库服务器,
e.如果是不能覆盖的数据集合则将新的产品类别更新入产品知识库服务器,将无效错误的数据集合丢弃。
本发明的互联网上基于知识库的搜索方法,其中所述依据产品知识库服务器中的信息通过检索引擎处理并进行产品网页数据检索的步骤包括:
a.获得用户原始检索数据,
b.依据产品知识库服务器中的产品词,产品分类词,产品属性词对原始检索数据进行扩展得到扩展检索数据,
c.依据扩展检索数据从产品数据服务器中检索出符合扩展检索数据的结果数据,
d.生成结果页面。
本发明提供的互联网上基于知识库的搜索系统的优点是:产品网页的搜索更加精确,更加规范和高效。
本发明提供的互联网上基于知识库的搜索方法的优点是:面向互联网产品搜索业务,系统、全面、规范化描述关于产品的各个方面的数据,并且以这样的数据为核心,构建涉及到互联网产品搜索业务各个方面的系统体系结构方案,使得互联网搜索方法更加精确,通用性更强。
下面将结合实施例参照附图进行详细说明,以对本发明的目的、特征和优点有深入的理解。
附图说明
图1为本发明互联网上基于知识库的搜索系统和方法的系统工作原理示意图;
图2为本发明互联网上基于知识库的搜索系统和方法的产品知识库服务器逻辑构成示意图;
图3为本发明互联网上基于知识库的搜索系统和方法的具体知识库服务器的数据分类标准示例;
图4为本发明互联网上基于知识库的搜索系统和方法的具体知识库服务器的数据分类进一步示意图;
图5为本发明互联网上基于知识库的搜索系统和方法的原始网页示意图;
图6为本发明互联网上基于知识库的搜索系统和方法的产品实例和功能映射方法图;
图7为本发明互联网上基于知识库的搜索系统和方法的搜索引擎检索方法流程图;
图8为本发明互联网上基于知识库的搜索系统和方法的产品知识库服务器自动更新方法流程图;
图9为本发明互联网上基于知识库的搜索系统和方法的数据提取器工作方法及数据加工器加工方法流程图;
图10为本发明互联网上基于知识库的搜索系统和方法的数据加工器更具体的工作方法流程图。
具体实施方式
下面以实施例对技术方案做详细说明。
参照图1,本发明的互联网上基于知识库的搜索方法的系统构成为,从互联网抓取数据的下载器,数据提取器,数据加工器,产品数据服务器,产品知识库服务器,提供检索结果给检索界面的检索引擎。系统包括数据的获取、表示与存储、检索,以及维护更新。数据交互以细箭头表示,数据流程以粗箭头表示。
大的数据流动包含两个线路:一是产品数据的流动,二是知识库服务器中的数据与系统其他部分的交互与循环更新。第一个流动线路是:以文本形式散布于互联网上各个独立网站的产品数据经数据获取、表示存储、以及检索最终以规整、便于浏览与理解的形式展现于用户。在第二个数据流动中,知识库服务器中的数据以各种形式流向各个不同的系统部分,起到系统支撑作用,并且通过对知识库服务器维护更新达到系统内信息循环。
参照图2,本发明的互联网上基于知识库的搜索方法的产品知识库服务器,构成上分为三个层次,第一层是逻辑层次,第二层是表现层次,第三层是存储层次。第一层包含关于产品知识数据的形式化表示,第二层包含关于产品的各个层面的知识数据在网上的区别性语言特征方面的知识,第三层是第一、第二层数据内容的物理存储层面。
产品知识库服务器逻辑层次采用形式化方法以清晰无疑义地尽可能全面、准确地描述关于产品的各方面的知识数据。产品描述的范围包括以下几个方面:产品的生产,产品的功能与使用,产品的流通。产品的生产包括:生产者,生产日期,国家地区,品牌,产品代号等基本信息,以及产品的产业领域(工业、农业等)等信息。产品的功能与使用信息包括:产品功能的形式化描述,产品规格属性描述,产品使用的领域描述。产品功能的形式化描述由一定的动词集合中抽象形成的谓词逻辑系统进行描述,这一部分描述包含产品之间的部件、配件、附件等关系。产品的规格属性由联系到具体产品类别的属性集合与其上的属性取值,以及计量单位系统进行描述。产品的使用领域与生产产业领域相联系又有区别,如从使用领域的角度,可以一些针织纺织品可以描述为床上用品。生产领域与使用领域的区分可以提供关于整体产品数据的多种不同的逻辑视图与浏览角度,可以满足不同的检索需求。产品的流通信息包括:交易、付款、包装、储运等方面的信息;
产品知识库服务器逻辑层次产品描述的方法:目前UNSPSC、eC1@ss等标准与阿里巴巴、环球资源等大部分B2B商业网站描述产品的方法都基于分层的分类体系。不同的分类体系分类标准与出发点都互不相同。UNSPSC是基于生产产业领域的覆盖面较广的分类体系,而eC1@ss分类标准以采购为出发点将各种产品分类。分类体系可以为产品数据的整理与管理,以及属性的归纳等工作提供基础的框架,因此是十分有用的。但是现有的分类体系的分类标准与视角互不相同,而且也缺乏对各自分类标准与内在逻辑的规范化描述,这一点对大部分工作需要机器来处理的互联网产品搜索业务来讲是比较不利的。针对这种问题,产品描述的方法采用基于本体的形式化描述方法,以分层分类的概念化与概念属性机制为手段,以某一方面的产品知识为基准建立基础分类并规范化描述分类标准与内在逻辑,在此基础上,再将其他方面的产品知识以同样手段加以整合,最终建立比较全面的规范化的产品知识数据描述。
产品知识库服务器表现层次上:互联网产品搜索与传统贸易的一个显著不同点是需要识认、收集、整理散布于互联网上的产品数据,而互联网上的产品数据绝大部分以文本的形式存在,关于产品的真正有价值的规范化信息隐藏于各种文本形式的数据背后,这就需要透过表层的文本数据获取相应的规范化数据。表现层的知识数据包含的是关于产品的抽象知识数据与其文本表现的对应、映射关系。这样的知识可以帮助计算机系统从文本数据中识别、获取相应的产品数据。表现层的知识有产品词、属性词以及相应同义词,关于产品分类的区别性词汇分布数据,辅之以关于功能描述、性能描述的常见词汇以及特征性语言结构为主要内容。
产品知识库服务器存储层上主要实现上述两个层面知识数据的底层物理存储、维护、管理。
参照图1和图2,本发明的互联网上基于知识库的搜索方法的系统工作过程为:数据下载器调度网络爬虫,负责从互联网上下载网页和其他相关数据,数据提取器接收从产品知识库服务器中的表示层生成的关于产品的文本特征数据从网页中提取产品数据,数据加工器根据提取结果,依据产品知识库服务器中的分类知识数据对提取结果进行加工,进行数据质量评价、排除重复数据项、分类整理等操作,并将结果数据提交产品数据服务器,产品数据服务器存储经数据获取过程获得的规范化产品数据。检索引擎从检索界面接受原始检索,并依据从产品知识库服务器中的数据信息并根据从知识库接受的检索扩展逻辑从产品数据服务器中生成检索结果返回检索界面展现。
本发明的互联网上基于知识库的搜索方法的系统中的维护更新方法为:产品数据服务器与产品知识库服务器数据一致性保持是依据产品数据服务器中新增的项目,主动要求产品知识服务器进行更新。知识库服务器更新的数据有两个部分,一是数据加工器的反馈数据,这部分数据包括现有知识库服务器不能覆盖或者一致性较差的数据集合以及相应统计数据,二是从产品数据服务器中生成的知识库服务器中活跃部分的统计数据。知识库维护更新根据这些数据对知识库进行调整和更新。
下面以更具体的实施例来描述本发明的方法和系统:
表1为本发明互联网上基于知识库的搜索系统和方法的相关网页数据示意表;
表2为本发明互联网上基于知识库的搜索系统和方法的产品数据服务器的数据存储格式示例表;
参照图3,产品知识库服务器逻辑层中的基础数据是产品基础分类体系。这个分类是尽可能详细、全面的产品分类。如“办公用品及相关产品”细分为“办公设备”,“办公设备附件”,“办公设备”又可进一步分类为“纸张文件处理设备”,“桌面用具设备”,“纸张文件处理设备”又可进一步细分为“打印机”,“复印机”,“打字机”。
参照图3和图4,逻辑层中的其他知识有产品属性描述、功能分类体系、部件配件关系等。产品属性列举某一种具体产品类别共同具有的属性。如打印机的属性有:打印速度、打印分辨率等。功能分类有产品基础分类归纳而来,着重抽象单一的功能,而不是具体的产品类别,目的是更好的描述具有复合功能的产品。如不少办公用打印机具有打印、复印、传真等多项功能。部件配件关系描述的是产品之间部件、配件、周边产品等的关系,例如打印机产品的部件、配件、周边产品描述为墨盒、色带、硒鼓等等。
产品知识库服务器的表示层表现层的知识有产品词、属性词以及相应同义词,关于产品分类的区别性词汇分布数据,辅之以关于功能描述、性能描述的常见词汇以及特征性语言结构为主要内容。知识库中表示层的数据有与逻辑层中基础产品分类体系对应的产品词、产品的属性词、属性词的同义词、属性取值的文本字符串等。
参照图4、图5、表1、图6、图9,例如数据提取器定位到如图4的打印机产品页面数据,数据提取器调取知识库服务器中表现层关于打印机的描述数据,依据获得的相关数据过滤出如关于color,speed,cartridge,resolution…等特征性的专业词汇数据。数据提取器还对产品页面做处理,去除网页标签,保留关于产品的有效文本数据,转化为一定格式作为相关网页数据以供后续处理。
参照图4、图5、表1、图6、图9,图10数据加工器对数据提取器的输出进行进一步处理。主要任务是分类、建立属性映射、建立功能映射、部件关系映射等。分类指的是按照产品知识库服务器中逻辑层基础产品分类标准以及类别的属性、属性取值以及功能等对数据提取模块的输出的产品实例判断对应的产品类别。每个类别有其对应的产品属性与功能。属性映射指的是判断产品实例具有的属性,并判断其取值,功能映射指的是判断该产品实例具有的功能。数据加工器的输出数据进入如表2所描述的产品数据服务器中存储。产品数据服务器中存放经过数据加工模块处理过的产品数据及其他相关数据。这个服务器是数据存储服务器,除了可以使用传统关系型数据库之外,还有XML等其他数据结构。主要存放的是产品基础数据、产品属性映射、功能映射、部件关系映射等。数据加工器的输出数据信息即搜索引擎所需要的产品网页数据。
表1:
Figure A20071017800300141
表2:
 ID   网页数据文件ID(表1中的数据)   原始网页文件ID   分类   生产地区   生产日期   发布企业   品牌   型号   …
 …
 0005257   (略)   (略)   Inkjetprinter   India   (略)   (略)   HewlettPackard   OfficeJetProK500dtn
参照图2和图8,上述描述中的数据加工器及产品数据服务器会记录产品知识库服务器中所提供的相应信息的准确性及其命中率,将经常出现的却未被知识库服务器所记忆的产品信息,如分类,属性等按照上面描述的产品知识库服务器的构成自动维护和更新入产品知识库服务器。上述过程按照活跃的数据集合和不能覆盖的数据集合按照如图10的流程进行信息处理,自动更新产品知识库服务器中的信息。知识库服务器的生成和维护在必要时候当然也可以按照本发明阐述的方法单独设置更新维护模块,提供人工维护介入知识库服务器的维护和增加,维护,修改相关数据。
参照图2和图7,检索引擎通过检索界面获得用户的原始检索输入,检索引擎通过扩展逻辑利用产品知识库服务器中的信息对原始检索进行扩展,形成更精确和智能的扩展检索词,再从产品数据服务器中检索出用户想看到的检索结果,生成检索页面。例如以相关产品扩展为例,相关产品扩展指的是将检索扩展到功能上同属一个组的产品类别上,原始查询输入为“打印机”,映射到知识库服务器中,在基础产品分类中可以找到“纸张文件处理”这个产品组,其中有“打印机”、“复印机”、“打字机”等多种产品,因此按照相关产品扩展逻辑,将原始查询输入“打印机”扩展为“打印机+复印机+打字机”,提交检索算法进行检索并排序,将结果按照“打印机”、“复印机”、“打字机”进行分类输出到结果页面。通过上述方法可使得检索进行地更精确,更智能,更方便。上述进入产品数据服务器中的产品数据要经过检索引擎最终呈现于用户的检索结果页面。原始查询输入映射到知识库服务器进行扩充,再经检索算法生成结果并排序,最终返回用户检索界面。这一过程在图1中对应于检索界面、检索引擎、产品数据服务器、产品知识库服务器以及它们之间的交互。检索扩展起到将原始查询进行扩展,并将结果按照扩展的逻辑进行分类的作用。目的是通过尽可能少的查询可以检索到互相联系的尽可能全面的产品。检索扩展逻辑可以有相关产品扩展、部件配件关系扩展等。

Claims (10)

1.一种互联网上基于知识库的搜索系统,包括:
用于从互联网下载原始网页的下载器,
用于对原始网页数据进行数据提取的数据提取器,
用于对从数据提取器获得的相关网页数据进行加工的数据加工器,
用于存储由数据加工器生成的产品网页数据的产品数据服务器,
用于从产品数据服务器中检索用户所需要的检索结果、并带有检索界面的检索引擎,
其特征在于:
所述搜索系统还包括知识库服务器,用于提供产品信息数据给数据提取器,并提供分类信息数据给数据加工器及检索引擎。
2.根据权利要求1所述的互联网上基于知识库的搜索系统,其特征在于所述产品知识库服务器中的数据构成包括逻辑层数据、表示层数据和存储层数据。
3.根据权利要求2所述的互联网上基于知识库的搜索系统,其特征在于所述产品知识库服务器的逻辑层数据包括产品词数据、产品分类词数据和产品属性词数据,所述产品表示层数据包括产品词数据、产品属性词数据以及相应同义词数据、产品分类数据、产品功能描述数据和产品性能描述数据。
4.根据权利要求3所述的互联网上基于知识库的搜索系统,其特征在于所述数据提取器是依据所述产品知识库服务器中的产品表示层数据进行数据提取,所述数据加工器是依据所述产品知识库服务器中的产品逻辑层数据进行数据加工,所述搜索引擎是将检索界面读入的用户原始检索数据结合产品知识库服务器中的逻辑层数据再从产品数据服务器中检索产品网页数据。
5.根据权利要求4所述的互联网上基于知识库的搜索系统,其特征在于所述产品知识库服务器根据产品数据库服务器以及数据加工器所提供的产品数据进行自动更新,其更新步骤为:
a.定时检索产品数据库服务器中数据,
b.检索更新维护备用数据,
c.利用a步骤和b步骤中所获得的数据按照产品词,产品类别,产品属性区分出活跃的数据集合和不能覆盖的数据集合,
d.如果是活跃的数据集合则将产品类别进行进一步细分更新产品知识库服务器,
e.如果是不能覆盖的数据集合则将新的产品类别更新入产品知识库服务器,将无效错误的数据集合丢弃。
6.根据权利要求4或5所述的互联网上基于知识库的搜索系统,其特征在于所述数据提取器执行如下步骤:
a.将原始网页数据去除标签,提取文本数据形式的网页数据,
b.获取文本数据形式网页的产品词,产品分类词,产品属性词,
c.读取产品知识库服务器中的每一条产品词,产品分类词,产品属性词,
d.判断提取出的文本数据形式网页的产品词,产品分类词,产品属性词是否与步骤c中读取出的数据任何一条一致,
e.如果数据一致,则将所获得的产品数据网页作为产品相关网页数据继续交给数据加工器进行处理,否则,丢弃该不相关产品原始网页数据,
f.继续执行步骤a至e一直到所有原始网页被处理完毕,
所述依据产品知识库服务器中的信息通过数据加工器分类出产品网页数据包括如下步骤:
g.从数据提取器获得从原始网页提取的候选的产品描述文本相关网页数据,
h.对每个候选的产品描述文本相关网页数据进行分类处理,得到分类标记和分类可信度值,
i.如分类可信度值高于一定阈值,则将该候选产品描述文本相关网页数据连同分类标记写入产品数据库服务器,否则,将该产品描述文本数据网页保存为产品知识库服务器自动更新维护用数据。
j.重复步骤g至i直到步骤g中所述的所有相关网页数据处理完毕。
7.根据权利要求6所述的互联网上基于知识库的搜索系统,其特征在于所述搜索引擎执行如下步骤:
a.获得用户原始检索数据,
b.依据产品知识库服务器中的产品词,产品分类词,产品属性词对原始检索数据进行扩展得到扩展检索数据,
c.依据扩展检索数据从产品数据服务器中检索出符合扩展检索数据的结果数据,
d.生成结果页面。
8.一种互联网上基于知识库的搜索方法,该方法通过含由下载器,数据提取器,数据加工器,产品数据服务器,产品知识库服务器,检索引擎组成的搜索系统,执行产品数据的搜索,其特征在于:该方法的步骤包括对于因特网上的产品原始网页信息,通过下载器获取其产品网页数据,依据产品知识库服务器中的数据通过数据提取器判定并提取产品相关网页数据,依据产品知识库服务器中的信息通过数据加工器分类出产品网页数据,通过产品数据服务器存储产品网页数据,依据产品知识库服务器中的信息通过检索引擎处理并进行产品网页数据检索,所述依据产品知识库服务器中的数据通过数据提取器判定包括如下步骤:
a.将原始网页数据去除标签,提取文本数据形式的网页数据,
b.获取文本数据形式网页的产品词,产品分类词,产品属性词,
c.读取产品知识库服务器中的每一条产品词,产品分类词,产品属性词,
d.判断提取出的文本数据形式网页的产品词,产品分类词,产品属性词是否与步骤c中读取出的数据任何一条一致,
e.如果数据一致,则将所获得的产品数据网页作为产品相关网页数据继续交给数据加工器进行处理,否则,丢弃该不相关产品原始网页数据,
f.继续执行步骤a至e一直到所有原始网页被处理完毕,
所述依据产品知识库服务器中的信息通过数据加工器分类出产品网页数据包括如下步骤:
g.从数据提取器获得从原始网页提取的候选的产品描述文本相关网页数据,
h.对每个候选的产品描述文本相关网页数据进行分类处理,得到分类标记和分类可信度值,
i.如分类可信度值高于一定阈值,则将该候选产品描述文本相关网页数据连同分类标记写入产品数据库服务器,否则,将该产品描述文本数据网页保存为产品知识库服务器自动更新维护用数据。
j.重复步骤g至i直到步骤g中所述的所有相关网页数据处理完毕。
9.根据权利要求8所述的互联网上基于知识库的搜索方法,其特征在于,所述互联网上基于知识库的搜索方法还包括一个如下的自动更新知识库服务器的步骤:
a.定时检索产品数据库服务器中数据,
b.检索更新维护备用数据,
c.利用a步骤和b步骤中所获得的数据按照产品词,产品类别,产品属性区分出活跃的数据集合和不能覆盖的数据集合,
d.如果是活跃的数据集合则将产品类别进行进一步细分更新产品知识库服务器,
e.如果是不能覆盖的数据集合则将新的产品类别更新入产品知识库服务器,将无效错误的数据集合丢弃。
10.根据权利要求8或9所述的互联网上基于知识库的搜索方法,其特征在于,所述依据产品知识库服务器中的信息通过检索引擎处理并进行产品网页数据检索的步骤包括:
a.获得用户原始检索数据,
b.依据产品知识库服务器中的产品词,产品分类词,产品属性词对原始检索数据进行扩展得到扩展检索数据,
c.依据扩展检索数据从产品数据服务器中检索出符合扩展检索数据的结果数据,
d.生成结果页面。
CN2007101780034A 2007-11-23 2007-11-23 一种互联网上基于知识库的搜索系统和方法 Expired - Fee Related CN101281525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101780034A CN101281525B (zh) 2007-11-23 2007-11-23 一种互联网上基于知识库的搜索系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101780034A CN101281525B (zh) 2007-11-23 2007-11-23 一种互联网上基于知识库的搜索系统和方法

Publications (2)

Publication Number Publication Date
CN101281525A true CN101281525A (zh) 2008-10-08
CN101281525B CN101281525B (zh) 2010-06-02

Family

ID=40014001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101780034A Expired - Fee Related CN101281525B (zh) 2007-11-23 2007-11-23 一种互联网上基于知识库的搜索系统和方法

Country Status (1)

Country Link
CN (1) CN101281525B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794282A (zh) * 2009-02-03 2010-08-04 日电(中国)有限公司 知识标注结果检查方法和系统
CN101937444A (zh) * 2010-04-30 2011-01-05 绍兴易企信息科技有限公司 一种面向纺织原料基于语义的数据搜索引擎
CN102624675A (zh) * 2011-01-27 2012-08-01 腾讯科技(深圳)有限公司 自助式客服系统、方法
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN103593365A (zh) * 2012-08-16 2014-02-19 江苏新瑞峰信息科技有限公司 一种基于互联网的实时更新专利数据库装置
WO2016197852A1 (zh) * 2015-06-09 2016-12-15 阿里巴巴集团控股有限公司 一种数据处理方法和设备
CN107608995A (zh) * 2016-07-12 2018-01-19 阿里巴巴集团控股有限公司 一种产品链对象数据库的建立、查询方法、装置和系统
CN108780440A (zh) * 2016-03-15 2018-11-09 电子湾有限公司 类别管理
CN109033267A (zh) * 2018-07-09 2018-12-18 广州极天信息技术股份有限公司 一种智能化的知识灌入系统及方法
CN111183421A (zh) * 2017-10-06 2020-05-19 株式会社东芝 服务提供系统、业务分析支援系统、方法以及程序

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1821991B (zh) * 2005-02-18 2010-04-28 上海赢思软件技术有限公司 一种基于人工智能的知识问答快速处理系统
CN101051363A (zh) * 2006-04-03 2007-10-10 陈新康 一种基于知识网格的技术创新过程管理方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794282B (zh) * 2009-02-03 2013-11-06 日电(中国)有限公司 知识标注结果检查方法和系统
CN101794282A (zh) * 2009-02-03 2010-08-04 日电(中国)有限公司 知识标注结果检查方法和系统
CN101937444A (zh) * 2010-04-30 2011-01-05 绍兴易企信息科技有限公司 一种面向纺织原料基于语义的数据搜索引擎
CN102624675B (zh) * 2011-01-27 2014-08-06 腾讯科技(深圳)有限公司 自助式客服系统、方法
CN102624675A (zh) * 2011-01-27 2012-08-01 腾讯科技(深圳)有限公司 自助式客服系统、方法
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN103425691B (zh) * 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN103593365A (zh) * 2012-08-16 2014-02-19 江苏新瑞峰信息科技有限公司 一种基于互联网的实时更新专利数据库装置
WO2016197852A1 (zh) * 2015-06-09 2016-12-15 阿里巴巴集团控股有限公司 一种数据处理方法和设备
CN106294498A (zh) * 2015-06-09 2017-01-04 阿里巴巴集团控股有限公司 一种数据处理方法和设备
CN108780440A (zh) * 2016-03-15 2018-11-09 电子湾有限公司 类别管理
CN107608995A (zh) * 2016-07-12 2018-01-19 阿里巴巴集团控股有限公司 一种产品链对象数据库的建立、查询方法、装置和系统
CN111183421A (zh) * 2017-10-06 2020-05-19 株式会社东芝 服务提供系统、业务分析支援系统、方法以及程序
CN111183421B (zh) * 2017-10-06 2023-11-28 株式会社东芝 服务提供系统、业务分析支援系统、方法以及记录介质
CN109033267A (zh) * 2018-07-09 2018-12-18 广州极天信息技术股份有限公司 一种智能化的知识灌入系统及方法

Also Published As

Publication number Publication date
CN101281525B (zh) 2010-06-02

Similar Documents

Publication Publication Date Title
CN101281525B (zh) 一种互联网上基于知识库的搜索系统和方法
Aligon et al. A collaborative filtering approach for recommending OLAP sessions
CN106796578B (zh) 知识自动化系统和方法以及存储器
CN101216853B (zh) 一种智能Web查询接口系统及其方法
Hernandez et al. Analysis of users’ behavior in structured e-commerce websites
CN101366024B (zh) 用于处理数据搜索请求的方法和系统
US9858326B2 (en) Distributed data warehouse
CN104769585B (zh) 递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统和方法
CN112765441B (zh) 用于数字政务的企业政策信息多重动态智能匹配推荐方法
US20240029086A1 (en) Discovery of new business openings using web content analysis
US20120066580A1 (en) System for extracting relevant data from an intellectual property database
CN101206674A (zh) 以商品为媒介的增强型相关搜索系统及其方法
Pol et al. A survey on web content mining and extraction of structured and semistructured data
Priebe et al. Business information modeling: A methodology for data-intensive projects, data science and big data governance
Ming Access to digital information: some breakthroughs and obstacles
Mountantonakis et al. How linked data can aid machine learning-based tasks
Shestakov et al. DEQUE: querying the deep web
Wang et al. Mining key information of web pages: A method and its application
Fürber et al. Data quality
Wu et al. Bootstrapping domain ontology for semantic web services from source web sites
Di Tria et al. GrHyMM: a graph-oriented hybrid multidimensional model
CN116450908A (zh) 基于数据湖的自助式数据分析方法、装置和电子设备
Farshidi et al. An adaptable indexing pipeline for enriching meta information of datasets from heterogeneous repositories
US20220156228A1 (en) Data Tagging And Synchronisation System
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NINETOWNS INTERNET TECHNOLOGY GROUP COMPANY LIMITE

Free format text: FORMER OWNER: BEIJING JIUCHENG YIJU TENANCY CO., LTD.

Effective date: 20120417

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: BEIJING JIUCHENG YIJU TENANCY CO., LTD.

Free format text: FORMER NAME: BEIJING NINETOWNS INTERNET TECHNOLOGY CO., LTD.

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100070 FENGTAI, BEIJING TO: 100020 CHAOYANG, BEIJING

CP01 Change in the name or title of a patent holder

Address after: 100070, Beijing, Fengtai District, South Fourth Ring Road, No. 7, 188 District, 14 floor

Patentee after: Beijing The9 livable Property Co.,Ltd.

Address before: 100070, Beijing, Fengtai District, South Fourth Ring Road, No. 7, 188 District, 14 floor

Patentee before: BEIJING NINETOWNS INTERNET TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20120417

Address after: 100020 Beijing City, Chaoyang District Road No. 20, building 1, 22 storey International Building Report

Patentee after: Guangdong Fanzai Wireless RFID Public Technology Support Co.,Ltd.

Address before: 100070, Beijing, Fengtai District, South Fourth Ring Road, No. 7, 188 District, 14 floor

Patentee before: Beijing The9 livable Property Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100602

Termination date: 20151123

CF01 Termination of patent right due to non-payment of annual fee