CN111666479A - 搜索网页的方法和计算机可读存储介质 - Google Patents
搜索网页的方法和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111666479A CN111666479A CN201910167209.XA CN201910167209A CN111666479A CN 111666479 A CN111666479 A CN 111666479A CN 201910167209 A CN201910167209 A CN 201910167209A CN 111666479 A CN111666479 A CN 111666479A
- Authority
- CN
- China
- Prior art keywords
- web page
- attribute
- entity
- search
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 241000282326 Felis catus Species 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000010939 rose gold Substances 0.000 description 1
- 229910001112 rose gold Inorganic materials 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开内容涉及信息提取和信息检索技术,更特别地,涉及网页内容的提取以及针对网页内容的检索。提出了一种通过至少一个处理器搜索网页的方法,包括:接收限定待搜索内容的信息;识别该信息中涉及的实体并确定实体的类别和属性;基于实体的类别和属性生成搜索条件;使用搜索条件在数据集中搜索以获得满足搜索条件的网页地址,其中从搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分以形成数据集。
Description
技术领域
本公开内容涉及信息提取和信息检索技术,更特别地,涉及网页(Web)内容的提取以及针对网页内容的检索。
背景技术
互联网、固定接入设备及便携式接入终端的迅速发展,使得网页成为人们获取信息、制造信息的主要媒介。但是随着网页数量的激增,想要快速准确地获取所需信息是困难的。
网页信息提取是将网页作为信息源的一类信息提取,即从半结构化的Web文档中提取信息。其核心是将分散在因特网Internet上的半结构化的HTML页面中的隐含的信息点抽取出来,并以更为结构化、语义更为清晰的形式表示。这为用户在Web文档中查询数据、应用程序直接利用Web文档中的数据提供便利。
搜索引擎(Search Engine,SE)是当前人们搜索知识所使用的重要工具,当用户输入一个查询Query,SE便从索引中找到与Query相匹配的网页集合,再次经过排序后将网页返回给用户;而用户在返回的结果中进一步查找自己想要的内容。
虽然现有SE已经可以满足用户的大部分需求,但是随着网络资源的不断丰富,用户的需求也随之增加,某些情况下,传统的SE是无法给出满意答案的,比如用户所需要的内容分布在多个网页里面,这时便需要SE找到这一系列网页的集合才能满足用户的检索意图,例如用户想要通过传统的SE得到“哪些手机的屏幕大于5寸”、“朝阳区有哪些外企”、“机器翻译领域的专家有哪些”等的答案时,很少有通过传统的SE检索出的单一的网页能够包含这些问题的答案。
为了解决上述问题,本发明提出一种对传统搜索引擎改进的搜索网页的方法和计算机可读存储介质,通过整合网络上分散的信息,能够提供相对完整和准确的统合结果。
发明内容
根据这里公开的一个示例性实施例,提供了一种通过至少一个处理器搜索网页的方法,包括:接收限定待搜索内容的信息;识别该信息中涉及的实体并确定实体的类别和属性;基于实体的类别和属性生成搜索条件;使用搜索条件在数据集中搜索以获得满足搜索条件的网页地址,其中从搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分以形成数据集。
根据这里公开的另一个示例性实施例,提供了一种存储程序的计算机程序存储介质。该程序当被计算机执行时,使得计算机执行如这里公开的示例性实施例的方法。
下面参考附图详细描述本发明的示例性实施例的进一步特性和优点,以及本发明的示例性实施例的结构和操作。应当注意,本发明不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。
附图说明
在附图中通过例子图解这里公开的示例性实施例,但这些例子不对本发明产生限制,图中用类似的附图标记表示类似的元素,其中:
图1是对一个传统SE与统合SE的搜索结果进行对比的示意图;
图2是示出使用传统SE进行示例性检索的检索结果的示意图;
图3是示出示例性的网页中表格信息的示例;
图4是示出利用根据本公开实施方式的统合SE进行统合检索的方法与利用传统SE检索的整体流程的对比图;
图5是示出了网页中的表格的HTML样式的示例图;
图6是示出了图3示出的示例性的网页中表格信息的DOM树结构的示意图;
图7是示出对网页中的表格进行转化操作的示意图;
图8是根据以上各个实施方式的示例性的检索过程的示意图;
图9是根据本公开实施方式的搜索网页的方法的流程图;
图10是说明用于实现这里公开的示例性实施例的各个方面的示例性系统的框图。
具体实施方式
下面参考附图描述这里公开的示例性实施例。应当注意,出于清楚的目的,在附图和描述中省略了有关所属技术领域的技术人员知道但是与示例性实施例无关的部分和过程的表示和说明。
本领域的技术人员可以理解,示例性实施例的各方面可以被实施为系统、方法或计算机程序产品。因此,示例性实施例的各个方面可以具体实现为以下形式,即,可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例,本文可以一般称为"电路"、"模块"或"系统"。此外,示例性实施例的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上面体现有计算机可读程序代码。可以例如通过计算机网络来分发计算机程序,或者计算机程序可以位于一个或更多个远程服务器上,或被嵌入设备的存储器中。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。
计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。
计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。
体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
用于执行这里公开的示例性实施例的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如"C"程序设计语言或类似的程序设计语言。
以下参照按照示例性实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述这里公开的示例性实施例的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上,导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图1是对一个传统SE与统合SE的搜索结果进行对比的示意图。
经过多年的发展,SE已经相当成熟,并且具有一定的智能,但是SE的检索范围仍有局限性,即传统SE检索到的每个网页均包含用户所需要的内容。比如,当检索“富士通”时,可以得到富士通公司主页、维基百科等多个网页,每个网页都包含了对“富士通”的描述,用户只需要进一步选择某个网页即可获得想要的信息。图1是对一个传统SE与统合SE的搜索结果进行对比的示意图,图1中的圆圈表示用户在检索时输入的内容,通过对比可见,传统SE检索到的每个网页均都包含用户在检索时输入的内容,而通过统合SE(统合SE这一表述被在本公开内容中提出用于区别于传统SE)检索到的各个网页包括检索结果的一部分。虽然现有SE已经可以满足用户的大部分需求,但是随着网络资源的不断丰富,用户的需求也随之增加,某些情况下,传统的SE是无法给出满意答案的,比如用户所需要的内容分布在多个网页里面,这时便需要SE找到这一系列网页的集合才能满足用户的检索意图(如图1中的b所示),例如用户想知道“哪些手机的屏幕大于5寸”、“朝阳区有哪些外企”、“机器翻译领域的专家有哪些”等,很少有单一的网页包含这些问题的答案(图2为当前SE给出的检索结果,图2是示出使用传统SE进行示例性检索的检索结果的示意图),类似信息存在于不同的网页之中,比如:不同的网页包含了不同品牌型号的手机,同时也包含了屏幕大小信息,这些网页的集合构成了问题的检索结果,在这里称之为统合检索。即,传统的SE给出的答案是page1or page2or…or pagen,统合SE给出的答案是page1+page2+…+pagen。
虽然当前有很多类似于电商平台的网站可以让用户进行垂直检索(例如商品、餐饮等),但是更多的其他种类实体例如机构、人、化学品、药品等等则很少有类似平台可以直接进行搜索服务,因此,通过整合网络上分散的信息,提供一个相对完整的统合结果,会给用户带来更好的体验,因此具备更广阔的应用前景。
为了解决上述问题,本发明提出一种方法,可以有效地从网页中识别并抽取各种实体的属性,从而在提供常规信息检索的同时,提供针对实体属性的检索,将符合检索条件的所有实体所在的网页集合作为一个整体反馈给用户。
图3是示出示例性的网页中表格信息的示例。
互联网中的很多网页都包含对人物、机构、商品等对象的描述,这些对象我们称之为“实体(entity)”,考虑到网上大量的实体信息以表格形式存在(如图3所示),相对于自由文本,表格更容易处理,并且表格常常包含了关于实体的属性或与实体相关的其他属性的信息,因此通过表格进行检索得到的结果也更加可靠,在下文中的各个实施方式中以表格作为示例进行说明,需要注意的是,以表格进行说明仅处于示出的目的,并不旨在限制保护的范围,因为网页中还存在可以表征实体属性或关联属性的其他结构,在此并不一一列举,但是可以理解,提取类似机构的方法可以参照下文所描述的基于示例性的表格提取的方法来实现。
图4是示出利用根据本公开实施方式的统合SE进行统合检索的方法与利用传统SE检索的整体流程的对比图。
在本实施方式中以表格作为示例进行说明,需要注意的是,以表格进行说明仅处于示出的目的,并不旨在限制保护的范围,因为网页中还存在可以表征实体属性或其关联属性的其他结构,在此并不一一列举,但是可以理解,提取类似机构的方法可以参照本实施方式所描述的基于示例性的表格提取的方法来实现
在对网页信息进行处理时,常常需要从Web中的网页提取表格并识别实体属性。但是现有的常规方法只是处理网页中标准的表格元素“table”元素,“table”元素虽然是网页中标准的表格元素,但是仍有很多表格都是由非“table”的元素构成的,如果仅仅处理“table”元素的话,会丢掉很多信息,例如如图5所示,图5示出了网页中表格的HTML样式。图5中的a为图3所示的视觉上为表格的示例的表格的HTML样式,该表格由“dl”、“dt”、“dd”元素构成;图5中的b为常规的“table”元素表格。由于任何HTML元素都有可能在视觉上构成表格,因此无法预先制定模板,因此针对网页中标准的表格元素的常规方法无法处理这样的视觉上为表格的非常规表格。但是发明人发现描述实体属性的表格往往具有以下两个重要的性质:
1)表格的单元中会出现属性的名称;例如,如图3所示,表格中会出现“价格”(5388元、6388元)、“颜色”(金、银、玫瑰金、黑、亮黑、红)等属性的关键字;并且考虑到对于给定的实体,其属性可以在有限范围内进行枚举,因此,可以建立属性关键字词,然后到HTML页面中去匹配,进而发现属性出现的位置,而出现属性名称的地方,很有可能就是表格的位置;
2)表格的HTML元素往往具有重复的结构;如图5所示,无论是否为“table”元素构成的表格,其每行对应的元素均呈现重复的特点,例如在图5中的a中,表格中的每一行对应了“dd,dt”两个元素,而且“dd,dt”元素反复出现在“dl”节点下面;图5中的b中每行为“tr”元素,同样反复出现在“tbody”节点下面;
因此,考虑通过匹配属性名称找到表格的可能位置,再通过重复结构的特征来确定表格的位置。为达到上述目的,首先,要先建立一个描述实体属性的词典。
<属性词典建立>
当前已经存在一些可获取的数据库来提供属性的描述,因此可以从多个现有的数据库中建立属性关键字的词典。例如图3中的实例来自于百度百科,图5中的b中的实例来自于维基百科,这些现有的资源容易获得,而且质量良好,并且具有分类信息。
首先建立一个词典,标记为D={cat1,cat2,……,catn},其中cati表示类别,即实体的种类,例如:人物、机构、药品等等。每个类别表示为cat=[<term1,value1>,<term2,value2>,…<termn,valuen>],其中term表示属性关键字,value表示属性值列表,例如,根据图3、图5中的例子,可以得到一个词典:
D={[‘手机’:[<’发布时间’,’…’>,<’价格’,’…’>,<’颜色’,’…’>,……,<’首次发布’,’…’>,<’类型’,’…’>,<’尺寸’,’…’>,……]]}
初步构建的词典有一定的局限性,因为其不一定包含网页中所有的属性关键字,因此需要对词典进行扩展,对于每个类别cat,对其中的属性关键字term进行汉语分词操作,然后统计长度大于1的词的频次,将频次大于一定次数(预设阈值)的名词或动词作为属性的词根插入到词典中;对于上述例子,如果设定大于频次1的词为属性词根,便可以得到词根“发布”(频次=2),记为“%发布%”,其属性值为包含该词根的所有属性对应的值的集合,将其插入词典中使得词典变为:
D={[‘手机’:[<’发布时间’,’…’>,<’价格’,’…’>,<’颜色’,’…’>,……,<’首次发布’,’…’>,<’类型’,’…’>,<’尺寸’,’…’>,<’%发布%’,’…’>……]]}
词根的作用在于表示某些属性跟词根相关,但是可以有各种表达方式,例如“发布时间”和“首次发布”都跟“发布”相关,如果还有其他表达式包含“发布”的话,很可能也表示相同的概念,因此可以用词根来进行属性名称的模糊匹配。
词典可以按照以上方式不断被更新,所生成的词典将在后续的各个操作中被使用。
<提取网页中的表格>
下面描述如何提取网页中的表格。在获得一个HTML网页的情况,首先将HTML页面转换成DOM树,图6示出了图3示出的示例性的网页中表格信息的DOM树结构,为了简化表示,省略了部分表格节点和所有文字节点。DOM树的最下层节点视为叶子节点。对于DOM树中的每个节点,为其生成路径pattern,记为pat。每个节点的路径pat都由该节点到其第N个祖先节点所经过的所有节点的节点名称和该节点的class属性构成。例如,当N=2时,图6中“dl”的pat如下:
pat=dl-basicInfo-block-basicInfo-left_div-basic-info-cmn-clearfix_div
对于每个叶子节点,在如前所述生成的词典D中匹配该叶子节点处的文字,如果匹配到相同的文字,则将该节点认定为锚节点(anchor node),图6中深色的叶子节点即为匹配到的锚节点。
确定出锚节点之后,对于每个非叶子节点,通过以下两个标准来选择用于定位表格的表格节点:
1)其子节点具有重复出现的pat,并且重复出现的次数>=t1;
2)其覆盖的叶子节点中,至少覆盖了t2个锚节点。
需要注意的是t1和t2的取值可以根据需要进行设定,例如根据待搜索的对象类型来设定或者不依赖于对象类型进行设定,假设当t1取值3并且t2取值为3时,“dl”被选为表格节点,因为其子节点中dt+dd的pat重复出现了3次,同时其覆盖了3个锚节点。
确定了表格节点之后,即确定了表格的位置,接下来,需要确定表格的样式,根据网页中表格的样式,将表格分为如下两类:
1)上下结构:第一行是表头,第2行至最后一行为对应的值;
2)左右结构:第一列为表头,第2列至最后一列为对应的值。
进行以上划分的原因在于,表格通常可以是视觉上的横向表格或纵向表格,因此进行以上划分可以识别出以这两种表格形式呈现的所有表格。
确定表格的样式即确定例如表格的行数和列数,而计算表格的行数和列数需要将表格转化为内部表示形式。行数可以为路径pat重复的次数,如图6所示,“dt+dd”重复出现了3次,则表格为3行;对于列数,可以计算路径pat对应节点的子节点数,然后将所有行中的子节点数的最大值作为列数。以图6为例,每个pat对应两个节点“dd”和“dt”,这两个节点分别有一个子节点,因此每一行对应的子节点数均为2,则列数为2,现可得到一个3*2的表格,然后将HTML的节点填入对应的单元,该过程如图7所示。
<表格分类及属性抽取>
对表格进行上述的转化操作之后,再对表格进行分类,即得到表格所描述的实体种类,例如,需要知道图3的表格描述的是实体“手机”。首先从经转化操作后的表格里面抽取特征向量feat=[[term1,[v11,v12,…,v1n]],[term2,[v21,v22,…,v2n]],…,[termm,[vm1,vm2,…,vmn]]],其中term为表头中的属性元素,v表示属性对应的值,以图7中的表格为例,可以得到feat=[[dt1,[dd11]],[dt2,[dd21]],…,[dt3,[dd31]]],这里为了表示方便使用dt、dd来表示,实际上为其对应的叶子节点处的文本。对于词典D中的每个类别cat,利用下面的公式(1)计算其与feat的余弦相似度:
其中|a|表示a中词汇的数量,sim(a,b)按照下面的公式(2)计算:
sim(cat,feat)=α·tsim(tcat,tfeat)+β·tsim(υcat,υfeat) (2)
tcat表示类别cat中包含的所有属性元素term的列表,tfeat表示表格特征向量中的表头属性列表;vcat表示类别cat中属性元素term所对应的所有value列表,vfeat表示特征向量中的所有值的列表,α和β分别表示这两部分的权重,且α+β=1,tsim(*)按照下面的公式(3)和(4)来计算:
tsim(l1,l2)=∑ssim(w1,w2) (3)
其中l为词的列表,w1和w2分别为待机算的两个列表中的词,ssim(*)计算的是两个字符串的相似度,当两个字符串完全相同时,相似度为1,部分相同(模糊匹配)时则为0.6。
计算完相似度之后,可以将取最大值(并且要高于预设阈值)的类别cat作为表格的分类,有了表格的类别,就可以生成三元组,生成的三元组可以被存入远程数据库或本地数据库以用于通过例如sparql进行查询,例如,对图7的表格进行上述处理可以得到以下形式的三元组:
其中,page_url表示当前网页的url,category为表格的分类结果;dt、dd均为网页中的文字。通过利用以上描述生成的三元组,可以进行查询以检索与查询对应的url集合。
图8是根据以上各个实施方式的示例性的检索过程的示意图。
首先,由用户预先设定检索所需的查询语句模板,如图8所示,模板中横线部分称为位置slot,生成检索语句的过程实际上是从用户输入的查询query中抽取信息,并填充位置slot的过程。首先通过前述生成的词典D匹配查询query中涉及的类别cat,得到;查询到类别cat之后,填入表格的分类结果category的位置slot;然后通过类别cat对应的属性元素term列表匹配查询query中的属性,如果匹配到多个,便生成多个检索条件,条件之间为“或”的关系;最后再补充上条件中的属性值,然后进行检索,检索出的结果为HTML的url集合,可以进一步转换成HTML页面返回给用户。需要注意的是,如图8所示,在填充属性时,可以使用基于语义生成属性名称和属性值,例如“屏幕”还可以是“屏幕尺寸”的表达,“大于5寸”被转换为“>5寸”的表达,这样的转换能够在检索时呈现更加准确全面检索结果。图8示出的是将用户的查询query转化为sparql语言的select模板,当然也不限于是sparql查询,用户的检索内容的输入也可以被转化为基于其他语言的查询。
图9是根据本公开实施方式的搜索网页的方法的流程图。
方法从步骤901处开始,在步骤901处,接收限定待搜索内容的信息,例如接收如图8所示的用户输入的“屏幕大于5寸手机”;接下来在步骤902处,识别输入的信息中涉及的实体并确定实体的类别(例如图8的“手机”)和属性(属性包括属性名称和属性值,例如图8的“屏幕”、“屏幕尺寸”、“>5寸”),具体地,使用前文所述的实体类别与属性关系模板(词典D)来确定所述待搜索内容所涉及的实体的类别和属性;在步骤903处,基于实体的类别和属性生成搜索条件,例如图8所示,生成了三个并列的搜索条件;在步骤904处,使用搜索条件在数据集中搜索以获得满足搜索条件的网页地址,其中该数据集是从搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分而形成的,数据集可以是例如前文中描述的所提取的各个三元组构成的集合,具体地,用前文所述的实体类别与属性关系模板(词典D)来提取所述具有预设结构的网页部分,还包括将所述网页部分转换为三元组,其中三元组用于表征实体的类别、实体的属性以及与实体的类别或属性对应的网页地址之间的关系,数据集由与不同实体类别对应的三元组组成。
根据本公开内容的各个实施方式,从具有分类信息的信息源获取实体类别与属性关系模板(前文所述的词典)。
根据本公开内容的各个实施方式,预设结构为经预设方向调整后的表格结构,预设方向为横向或纵向。
根据本公开内容的各个实施方式,可以在远程服务器上生成三元组的集合,在这种情况下,提供本地用户向远程服务器进行查询的查询接口。
根据本公开内容的各个实施方式,可以在本地上生成三元组的集合,以使得用户能够在本地实现查询。
图10是说明用于实现这里公开的示例性实施例的各个方面的示例性系统的框图。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机访问存储器(RAM)1003的程序执行各种处理。在RAM 1003中,也根据需要存储当CPU 1001执行各种处理等等时所需的数据。
CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
下列部件连接到输入/输出接口1005:包括键盘、鼠标等等的输入部分1006;包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分1007;包括硬盘等等的存储部分1008;和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分1009。通信部分1009经由例如因特网的网络执行通信处理。
根据需要,驱动器1010也连接到输入/输出接口1005。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质1011根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008。
在通过软件实现上述步骤和处理的情况下,从例如因特网的网络或例如可移除介质1011的存储介质安装构成软件的程序。
还包括存储程序的计算机存储介质,该程序可被执行以实现上述实施例中方法。
本文中所用的术语仅仅是为了描述特定实施例的目的,而非意图限定本发明。本文中所用的单数形式的"一"和"该"旨在也包括复数形式,除非上下文中明确地另行指出。还应理解,"包括"一词当在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。前面对本发明进行的描述只是为了图解和描述,不被用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施例。
这里描述了下面的示例性实施例(均用“方案”表示)。
方案1.一种通过至少一个处理器搜索网页的方法,包括:
接收限定待搜索内容的信息;
识别所述信息中涉及的实体并确定所述实体的类别和属性;
基于所述实体的类别和属性生成搜索条件;
使用所述搜索条件在数据集中搜索以获得满足所述搜索条件的网页地址,其中
从所述搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分以形成所述数据集。
方案2.根据方案1所述的方法,其中
使用实体类别与属性关系模板来确定所述待搜索内容所涉及的实体的类别和属性。
方案3.根据方案1所述的方法,其中
使用实体类别与属性关系模板来提取所述具有预设结构的网页部分。
方案4.根据方案1-3之一所述的方法,从所述搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分以形成所述数据集还包括:
将所述网页部分转换为三元组,其中所述三元组用于表征实体的类别、实体的属性以及与实体的类别或属性对应的网页地址之间的关系,
所述数据集由与不同实体类别对应的三元组组成。
方案5.根据方案2或3所述的方法,其中
从具有分类信息的信息源获取所述实体类别与属性关系模板。
方案6.根据方案1-3之一所述的方法,其中
所述预设结构为表格结构。
方案7.根据方案6所述的方法,还包括
所述预设结构为经预设方向调整后的表格结构,所述预设方向为横向或竖向。
方案8.根据方案1-3之一所述的方法,其中
所述属性包括属性名称和属性值。
方案9.根据方案1-3之一所述的方法,其中所述基于所述实体的类别和属性生成搜索条件为:
用与所述实体的类别和属性语义相似的表达生成并列的多个搜索条件,在搜索时,用‘或’来连接所述并列的多个搜索条件来形成搜索表达式。
方案10.根据方案1-3之一所述的方法,其中基于所述实体的类别和属性生成搜索条件包括:
将所述实体的类别和属性转换为查询语句模板。
方案11.根据方案10所述的方法,
所述查询语句模板为sparql查询语句模板。
方案12.根据方案1-3之一所述的方法,其中所述实体类别与属性关系模板是通过百度百科和/或维基百科生成的。
方案13.一种用于存储程序的计算机可读存储介质,该程序当被计算机执行时使得计算机执行方案1至12中任一个所述的方法。
Claims (10)
1.一种通过至少一个处理器搜索网页的方法,包括:
接收限定待搜索内容的信息;
识别所述信息中涉及的实体并确定所述实体的类别和属性;
基于所述实体的类别和属性生成搜索条件;
使用所述搜索条件在数据集中搜索以获得满足所述搜索条件的网页地址,其中
从所述搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分以形成所述数据集。
2.根据权利要求1所述的方法,其中
使用实体类别与属性关系模板来确定所述待搜索内容所涉及的实体的类别和属性。
3.根据权利要求1所述的方法,其中
使用实体类别与属性关系模板来提取所述具有预设结构的网页部分。
4.根据权利要求1-3之一所述的方法,从所述搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分以形成所述数据集还包括:
将所述网页部分转换为三元组,其中所述三元组用于表征实体的类别、实体的属性以及与实体的类别或属性对应的网页地址之间的关系,
所述数据集由与不同实体类别对应的三元组组成。
5.根据权利要求2或3所述的方法,其中
从具有分类信息的信息源获取所述实体类别与属性关系模板。
6.根据权利要求1-3之一所述的方法,其中
所述预设结构为表格结构。
7.根据权利要求6所述的方法,还包括
所述预设结构为经预设方向调整后的表格结构,所述预设方向为横向或竖向。
8.根据权利要求1-3之一所述的方法,其中
所述属性包括属性名称和属性值。
9.根据权利要求1-3之一所述的方法,其中所述基于所述实体的类别和属性生成搜索条件为:
用与所述实体的类别和属性语义相似的表达生成并列的多个搜索条件,在搜索时,用‘或’来连接所述并列的多个搜索条件来形成搜索表达式。
10.一种用于存储程序的计算机可读存储介质,该程序当被计算机执行时使得计算机执行权利要求1至9中任一个所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910167209.XA CN111666479A (zh) | 2019-03-06 | 2019-03-06 | 搜索网页的方法和计算机可读存储介质 |
JP2020006671A JP2020144846A (ja) | 2019-03-06 | 2020-01-20 | ウェブページサーチ方法及びコンピュータ可読記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910167209.XA CN111666479A (zh) | 2019-03-06 | 2019-03-06 | 搜索网页的方法和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111666479A true CN111666479A (zh) | 2020-09-15 |
Family
ID=72353689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910167209.XA Pending CN111666479A (zh) | 2019-03-06 | 2019-03-06 | 搜索网页的方法和计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020144846A (zh) |
CN (1) | CN111666479A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632106A (zh) * | 2020-12-29 | 2021-04-09 | 重庆农村商业银行股份有限公司 | 一种知识图谱查询方法、装置、设备及存储介质 |
CN113239009A (zh) * | 2021-04-08 | 2021-08-10 | 大唐软件技术股份有限公司 | 一种数据库操作方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239340A (zh) * | 2013-06-19 | 2014-12-24 | 北京搜狗信息服务有限公司 | 搜索结果筛选方法与装置 |
CN104679783A (zh) * | 2013-11-29 | 2015-06-03 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
CN104850554A (zh) * | 2014-02-14 | 2015-08-19 | 北京搜狗科技发展有限公司 | 一种搜索方法和系统 |
JP2015179516A (ja) * | 2014-03-18 | 2015-10-08 | 株式会社Nttドコモ | 大量の複雑な構造化データを管理するための知識エンジン |
CN105279277A (zh) * | 2015-11-12 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 知识数据的处理方法和装置 |
CN108694208A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 用于构造数据库的方法和装置 |
CN109408743A (zh) * | 2018-08-21 | 2019-03-01 | 中国科学院自动化研究所 | 文本链接嵌入方法 |
-
2019
- 2019-03-06 CN CN201910167209.XA patent/CN111666479A/zh active Pending
-
2020
- 2020-01-20 JP JP2020006671A patent/JP2020144846A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239340A (zh) * | 2013-06-19 | 2014-12-24 | 北京搜狗信息服务有限公司 | 搜索结果筛选方法与装置 |
CN104679783A (zh) * | 2013-11-29 | 2015-06-03 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
CN104850554A (zh) * | 2014-02-14 | 2015-08-19 | 北京搜狗科技发展有限公司 | 一种搜索方法和系统 |
JP2015179516A (ja) * | 2014-03-18 | 2015-10-08 | 株式会社Nttドコモ | 大量の複雑な構造化データを管理するための知識エンジン |
CN105279277A (zh) * | 2015-11-12 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 知识数据的处理方法和装置 |
CN108694208A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 用于构造数据库的方法和装置 |
CN109408743A (zh) * | 2018-08-21 | 2019-03-01 | 中国科学院自动化研究所 | 文本链接嵌入方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632106A (zh) * | 2020-12-29 | 2021-04-09 | 重庆农村商业银行股份有限公司 | 一种知识图谱查询方法、装置、设备及存储介质 |
CN112632106B (zh) * | 2020-12-29 | 2023-05-23 | 重庆农村商业银行股份有限公司 | 一种知识图谱查询方法、装置、设备及存储介质 |
CN113239009A (zh) * | 2021-04-08 | 2021-08-10 | 大唐软件技术股份有限公司 | 一种数据库操作方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2020144846A (ja) | 2020-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11023505B2 (en) | Method and apparatus for pushing information | |
US11314823B2 (en) | Method and apparatus for expanding query | |
CN111008265B (zh) | 企业信息搜索方法及装置 | |
US8046681B2 (en) | Techniques for inducing high quality structural templates for electronic documents | |
EP2368200B1 (en) | Interactively ranking image search results using color layout relevance | |
US8108376B2 (en) | Information recommendation device and information recommendation method | |
US8666962B2 (en) | Speculative search result on a not-yet-submitted search query | |
JP3703080B2 (ja) | ウェブコンテンツを簡略化するための方法、システムおよび媒体 | |
CN104239340B (zh) | 搜索结果筛选方法与装置 | |
EP4109295A1 (en) | Knowledge graph-based question answering method and apparatus, computer device, and medium | |
US20210248323A1 (en) | Automated identification of concept labels for a set of documents | |
US20080235567A1 (en) | Intelligent form filler | |
US11803582B2 (en) | Methods and apparatuses for content preparation and/or selection | |
US20090125529A1 (en) | Extracting information based on document structure and characteristics of attributes | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
CN110069698B (zh) | 信息推送方法和装置 | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
US20130339840A1 (en) | System and method for logical chunking and restructuring websites | |
US20180268053A1 (en) | Electronic document generation using data from disparate sources | |
CN110232126B (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
KR20160042896A (ko) | 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징 | |
CN112100396A (zh) | 一种数据处理方法和装置 | |
US20240220772A1 (en) | Method of evaluating data, training method, electronic device, and storage medium | |
CN112989208A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200915 |