CN103488746A - 一种获取业务信息的方法及装置 - Google Patents
一种获取业务信息的方法及装置 Download PDFInfo
- Publication number
- CN103488746A CN103488746A CN201310432901.3A CN201310432901A CN103488746A CN 103488746 A CN103488746 A CN 103488746A CN 201310432901 A CN201310432901 A CN 201310432901A CN 103488746 A CN103488746 A CN 103488746A
- Authority
- CN
- China
- Prior art keywords
- attribute
- information
- target
- property value
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种获取业务信息的方法及装置,所述方法包括:获取与所述业务信息相关的至少两个目标网页;在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息;依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息;其中,所述指标用以描述所述业务信息的各项属性。本发明提供的获取业务信息的方法用以解决现有业务信息获取方式中提取并保存原始网页内容从而造成的浪费存储资源,且获取结果不能直接清楚地反映所述业务信息的问题。
Description
技术领域
本申请涉及互联网搜索技术,尤其涉及一种获取业务信息的方法及装置。
背景技术
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行搜索。垂直搜索引擎专注于特定的搜索领域和搜索需求,通过针对某一特定领域、特定人群或特定需求提供有一定价值的信息和相关服务,在其特定的搜索领域有更好的用户体验。例如,房产信息搜索、比较购物搜索等。
但现有的垂直搜索引擎只是在特定的业务相关信息上对其搜索内容和范围进行限制和过滤,获取的结果中不但包含有较多与所述业务无关的信息,且获取的业务信息缺乏组织性和关联性,因此此种业务信息的获取方式不仅浪费存储资源,而且获取的结果不能直接清楚地反映所述业务信息。
发明内容
有鉴于此,本申请提供了一种获取业务信息的方法及装置,用以解决现有业务信息获取方式浪费存储资源且获取结果不能直接清楚地反映所述业务信息的问题。
一种获取业务信息的方法,包括:
获取与所述业务信息相关的至少两个目标网页;
在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息;
依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息;其中,所述指标用以描述所述业务信息的各项属性;
将从各个目标区域中提取出的属性进行合并,并将所述属性对应的属性值信息进行合并,形成结构化的数据信息并进行保存。
优选的,所述获取与所述业务信息相关的至少两个目标网页包括:
利用通用搜索引擎获取至少两个原始网页;
依据预先建立的业务词库将各个原始网页分割为多个独立的词语形成词语集;
计算预先建立的指标库中的指标在各个词语集中所占的比例,和/或,计算各个词语集的信息熵与所述指标库的信息熵的相似度;
提取所述比例和/或所述相似度满足预设范围的至少两个原始网页作为目标网页。
优选的,所述在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息,包括:
将各个目标网页分别解析为DOM(Document Object Model,文件对象模型)树;
遍历各个DOM树的节点,根据所述节点的视觉信息将各个DOM树划分为至少两个语义块;
根据各个DOM树中的各个语义块的相关信息分别确定各个DOM树的目标语义块,并提取所述目标语义块作为目标区域;其中,所述目标语义块包含有所述业务的属性及与所述属性相对应的属性值信息。
优选的,所述依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息,包括:
依据预先建立的指标库中的指标,分别遍历各个目标语义块对应的DOM子树,在各个子树中分别定位包含所述业务的属性的目标节点;
通过决策获得各个目标节点的模式类别,并依据所述模式类别在各个DOM子树中提取各个目标节点的多个关联节点;
判断各个关联节点中包含有与所述属性对应的属性值信息的可能性,并依据各个可能性的高低确定可能性最高的关联节点;
提取所述可能性最高的关联节点中的属性值信息。
优选的,还包括:
将从某一个目标区域中提取出的属性及属性值信息作为主数据,将从其他目标区域中提取出的属性及属性值信息作为第一辅助数据;
在所述第一辅助数据中根据不同的数据类型选择第二辅助数据;其中,选择规则与所述数据类型相对应;
若所述主数据信息中的属性项少于所述第一辅助数据中的属性项,则补充所述主数据缺失的属性及其对应的属性值信息,并将所述补充后的主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存;
若所述主数据信息中的属性项不少于所述第一辅助数据中的属性项,则将所述主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存。
一种获取业务信息的装置,包括:
目标网页获取单元,用于获取与所述业务信息相关的至少两个目标网页;
目标区域提取单元,用于在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息;
信息提取单元,用于依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息;其中,所述指标用以描述所述业务信息的各项属性。
优选的,所述目标网页获取单元包括:
原始网页获取单元,用于利用通用搜索引擎获取至少两个原始网页;
分词单元,用于依据预先建立的业务词库将各个原始网页分割为多个独立的词语形成词语集;
计算单元,用于计算预先建立的指标库中指标在各个词语集中所占的比例,和/或,计算各个词语集的信息熵与所述指标库的信息熵的相似度;提取单元,用于提取所述比例和/或所述相似度满足预设范围的至少两个原始网页作为目标网页。
优选的,所述目标区域提取单元包括:
解析单元,用于将各个目标网页分别解析为DOM(Document ObjectModel,文件对象模型)树;
语义块划分单元,用于遍历各个DOM树的节点,根据所述节点的视觉信息将各个DOM树划分为至少两个语义块;
目标语义块提取单元,用于根据各个DOM树中的各个语义块的相关信息分别确定各个DOM树的目标语义块,并提取所述目标语义块作为目标区域;其中,所述目标语义块包含有所述业务的属性及与所述属性相对应的属性值信息。
优选的,所述信息提取单元包括:
目标节点定位单元,用于依据预先建立的指标库中的指标,分别遍历各个目标语义块对应的DOM子树,在各个子树中分别定位包含所述业务的属性的目标节点;
关联节点提取单元,用于通过决策获得各个目标节点的模式类别,并依据所述模式类别在各个DOM子树中提取各个目标节点的多个关联节点;
关联节点确定单元,用于判断各个关联节点中包含有与所述属性对应的属性值信息的可能性,并依据各个可能性的高低确定可能性最高的关联节点;
属性值信息提取单元,用于提取所述可能性最高的关联节点中的属性值信息。
优选的,还包括:
数据区分单元,用于将从某一个目标区域中提取出的属性及属性值信息作为主数据,将从其他目标区域中提取出的属性及属性值信息作为第一辅助数据;
辅助数据确定单元,用于在所述第一辅助数据中根据不同的数据类型选择第二辅助数据;其中,选择规则与所述数据类型相对应;
第一合并单元,用于若所述主数据信息中的属性项少于所述第一辅助数据中的属性项,则补充所述主数据缺失的属性及其对应的属性值信息,并将所述补充后的主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存;
第二合并单元,用于若所述主数据信息中的属性项不少于所述第一辅助数据中的属性项,则将所述主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存。
由上述的技术方案可知,与现有技术相比,本发明公开提供了一种获取业务信息的方法及装置,获取与所述业务信息相关的至少两个目标网页;在各个目标网页中分别确定目标区域,并分别提取所述目标区域;依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息。现有获取业务信息的方式将搜索获取到的原始网页进行保存,本发明提供的获取业务信息的方法中在获取的目标网页中确定并提取目标区域,删除了原始网页中的非业务信息,当然,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息,在所述目标区域中定位所述属性及并提取所述属性值信息。相对于现有搜索业务信息的方式只简单保存全部原始网页,本发明提供的方法不仅会帮助节省存储资源,而且获取的数据信息结果直观准确地反映了所述业务信息。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一种获取业务信息方法的一个实施例的流程示意图;
图2示出了本发明一种获取业务信息方法的另一个实施例的流程示意图;
图3示出了本发明一种获取业务信息方法的又一个实施例的流程示意图;
图4示出了本发明一种获取业务信息方法的又一个实施例的部分流程示意图;
图5示出了本发明一种获取业务信息装置的一个实施例的结构示意图;
图6示出了本发明一种获取业务信息装置的另一个实施例的结构示意图;
图7示出了本发明一种获取业务信息装置的又一个实施例的结构示意图;
图8示出了本发明一种获取业务信息装置的又一个实施例的结构示意图;
图9为一个HTML网页转换为DOM树后的结构形式。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明公开了一种获取业务信息的方法,利用所述方法可以在内容量巨大的互联网中的网页信息中提取与所述业务信息相关的结构化数据信息。所述业务信息是指某一特定领域、行业的需求信息,比如房产行业。提取的所述结构化数据信息直观清楚地反映了所述业务信息。
参阅图1,示出了本发明一种获取业务信息方法一个实施例的流程示意图,本实施例方法包括:
步骤S101:获取与所述业务信息相关的至少两个目标网页;
在现有通用搜索引擎或其他搜索引擎中输入所述业务信息的关键词进行搜索,并按预设的选取方式从所述搜索结果中选取至少两个原始页面的链接形成链接集合。优选的,所述选取方式可以是在搜索结果中按照各个网页链接的前后排列顺序进行选取。
需要说明的是,此处的选取只是机械地进行链接的筛选,并没有依据网页内容进行筛选过滤。则所述链接集合中的链接指示的页面中有所述业务信息的相关的原始网页,也可能包含有与所述业务信息无关的原始网页。例如,利用百度搜索进行的“北京房产”搜索,链接指示的原始页面中有介绍北京出售的各个房产信息的原始网页,也可能有的链接指示的原始页面是介绍北京购买房产的注意事项或北京房产的政策信息的原始网页。
分别获取所述链接集合中的各个链接指示的原始网页内容,利用预设的选取规则,根据各个原始网页的内容获取至少两个与所述业务信息相关的原始网页作为目标网页。此处的选取是通过对所述原始网页的内容进行检测,依据所述内容检测结果对各个原始网页进行筛选。
优选的,所述选取规则可以利用对所述原始网页内容进行分词处理形成词语集,将所述词语集的信息与预先建立的指标库中的指标信息进行对比,选取对比结果满足预设范围的词语集所对应的原始网页作为目标网页。其中,所述预先建立的指标库中包含的指标信息用以描述所述业务信息的属性,比如房产业务中的房产基本信息中的物业类别、建筑面积、所述商圈、地理地址、户型、交通状况、物业公司、开发商等等。需要说明的是,所述对比结果表明了所述词语集对应的原始网页中包含所述业务信息的可能性,包含越多所述知识库中的指标的原始网页越可能是与所述业务信息相关的网页。
另外,可以对所述获取的各个目标网页进行分布式存储,并建立哈希索引。
步骤S102:在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息;
互联网上的网页内容几乎都包含有与所介绍的信息无关的内容,比如广告、推荐、导航、网站基本信息等,则导致获得的各个目标网页中也会包含有上述与所述业务无关的内容。本步骤所完成的工作是确定和提取目标区域,所述目标区域就是在网页中主要介绍业务内容的区域,从而将所述目标网页中的业务无关信息进行过滤。
所述目标区域的确定是基于对所述原始网页进行区域划分,所述进行区域划分的方式可以有多种,例如,可以利用VIPS(Vision-based PageSegmentation,基于视觉信息的网页分块)算法。当用户观察互联网页面的时候会自然而然的把具有相同的视觉特征的区域内容作为单一对象来看待,而不管所述页面的内部结构是如何描述的。所述具有相同的视觉特征的区域被定义为语义块。因此基于一些视觉提示如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等可用来划分语义块。
进一步的,在划分的各个语义块中获取目标语义块,其中,所述目标语义块即主要介绍所述业务信息的语义块。
步骤S103:依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息;其中,所述指标用以描述所述业务信息的各项属性;
所述指标库是根据所述业务信息预先建立的,用于描述所述业务信息。具体的,所述指标库中的各项指标来描述所述业务信息的各项属性,所述指标库中的指标关系来描述各个指标间的关联关系。例如,描述房产业务信息的指标中包含有项目简介指标、交通状况指标、轨道交通指标、周边公交指标、基本信息指标、物业类别指标、建筑面积指标、所属商圈指标、绿化率指标等;各个指标间的关联关系为:所述指标可以首先分为三个方面,即项目介绍指标、交通状况指标、基本信息指标。其中,交通状况指标包括轨道交通指标和周边公交指标,基本信息指标包括物业类别指标、建筑面积指标、所述商圈指标和绿化率指标等。
在各个目标区域中通过查找定位与所述指标相同或相似的内容,所述内容即所述业务信息的属性,提取所述属性及所述属性对应的属性值信息。其中,所述查找定位的方式可以利用正则表达式技术。正则表达式通常由若干普通字符(字符a到z)以及特殊字符(元字符meta character)组成。现在,多种程序设计语言都支持正则表达式,例如Java在jdk1.4版本后增加了对正则表达式的支持。JDK中处理正则表达式的类主要包括两个类:Pattern和Matcher。正则表达式首先编译成为Pattern类的实例,所述Pattern实例使用matcher()方法生成Matcher类实例,使用所述Matcher实例以编译的正则表达式为基础对目标字符串进行匹配工作。Matcher对象定义了字符串的处理方法,可以根据既有模式完成对字符串的查找操作。
优选的,所述定位并提取方法还可以利用EFLA(Element Function andLayout Analyzer,元素功能及部件分析)算法。所述算法的具体工作过程在下文进行介绍。
需要说明的是,各个提取出的目标区域中包含有所述业务信息的属性,所述属性不一定与所述指标库中的各项指标完全相同,但只要所表达的意思一致即可。例如,所述指标库中包含的指标为“交通状况”指标,所述目标区域中的业务信息的属性为“周围交通”。
在各个目标区域中定位到所述业务信息的属性后进一步查找所述属性对应的属性值信息,并对查找到所述各个属性值信息进行提取。例如,房产业务中定位到的物业类别属性,其属性值为“普通住宅”;停车位属性,其属性值为“共455个停车位,车位配比为1:1”,将所述“物业类别”及“停车位”进行提取,并对应地提取“普通住宅”及“共455个停车位,车位配比为1:1”信息。
智能脚本引擎依据所述指标库的引导构建第一任务脚本序列,执行所述第一任务脚本序列自动完成上述步骤S103的工作。其中,所述第一任务脚本序列的表现形式为XML文件。
本实施例中,获取与所述业务信息相关的至少两个目标网页,在所述目标网页中确定并提取目标区域,删除了原始网页中的非业务信息,当然,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息,在所述目标区域中定位所述属性及并提取所述属性值信息。相对于现有搜索业务信息的方式只简单保存全部原始网页,本发明提供的方法不仅会帮助节省存储资源,而且获取的数据信息结果直观准确地反映了所述业务信息。
参阅图2,示出了本发明一种获取业务信息方法另一个实施例的流程示意图,本实施例的方法包括:
步骤S201:利用通用搜索引擎获取至少两个原始网页;
利用一个或多个现有通用搜索引擎如360搜索、百度搜索、google搜索等作为搜索数据源入口,通过在所述一个或多个搜索引擎中输入所述业务信息的关键词获取搜索结果,并按预设的方式从所述搜索结果中获取预设数目的链接形成种子链接库。例如,在百度搜索中输入“北京天和嘉园”的关键词,共获得约848,000个搜索结果,可以所述搜索结果中按照排列顺序获取前二十项的链接。在每一个链接指示的网页中进行检测,若在所述网页中有链接指示到其他页面,则获取所述其他页面的链接,如此进行3-4层的深度链接的获取。
进一步,获取所述提取的各个链接指示的网页内容,可以对所述网页内容进行分布式的存储并建立哈希索引。
步骤S202:依据预先建立的业务词库将各个原始网页分割为多个独立的词语形成词语集;
所述预先建立的业务词库包含有与所述业务信息有关的特定业务词汇,所述特定业务词汇用以对所述分词处理进行指导,可以提高分词的准确度。例如,所述房产业务信息中包含的特定业务词汇有“房地产开发公司”“户型面积”等,此些词汇可以作为分词标准,在分词过程中将检测到的所述词语处理为一个完整的词汇,并不会将其拆分为“房地产”“开发”“公司”“户型”“面积”单独的词语。
本步骤完成的工作是对所述各个原始网页进行分词处理,即将连续的字序列按照一定的规范重新组合成词序列,使用的算法可以为基于字符串的分词方法。具体的,按照扫描方向的不同,可以是正向匹配,也可以是逆向匹配;按照不同长度优先匹配的不同,可以是最大匹配,也可以是最小匹配;按照是否与词性标注过程相结合,可以是单纯分析,也可以是分词和标注想结合的一体化方法。需要说明的是,不管使用上述何种或何几种方法结合进行的分词,都属于本发明保护范围。
经过分词处理后,各个目标网页内容被划分为各个词语集。
步骤S203:计算预先建立的指标库中的指标在各个词语集中所占的比例,和/或,计算各个词语集的信息熵与所述指标库的信息熵的相似度;
所述预先建立的指标库中的指标如实施例一中的指标库。所述指标库中的指标用以描述所述业务信息的属性。比如房产业务中的房产基本信息中的物业类别、建筑面积、所述商圈、地理地址、户型、交通状况、物业公司、开发商等等。
在所述各个词语集中分别查找所述指标库中包含的指标,计算所述指标在各个词语集中所占的比例。例如,某个词语集中共500个词汇,其中包含指标库中的指标数为200,则所述比例为2/5。
所述信息熵是对信息的量化,因为信息是个抽象的概念,用所述信息熵来对信息的信息量进行度量。信息熵的计算公式为H(x)=E[I(xi)]=E[log(2,1/p(xi))]=-∑p(xi)log(2,p(xi))(i=1,2,..n)。其中,I(xi)表示随机变量xi的信息量;E代表了期望函数;p(xi)代表了xi的机率质量函数。
将所述词语库中的词语作为变量xi,利用上述公式计算所述词语集的信息熵及所述指标库的信息熵,将计算获得的两个信息熵进行差值比较以查看所述两个信息熵的相似度,所述词语集的信息熵与所述指标库的信息熵差值越小,则代表所述词语集的信息熵与所述指标库的信息熵越相似,则所述词语集对应的目标网页的内容与所述业务信息越接近。
例如,第一词语集的信息熵为9,第二词语集的信息熵为6,所述指标库的信息熵为10,则所述第一词语集的信息熵与所述指标库的信息熵差值为1,所述第二词语集的信息熵与所述指标库的信息熵的差值为4。
需要说明的是,本步骤可以单独计算所述指标库中的指标在各个词语集中所占的比例,也可以计算各个词语集的信息熵与所述指标库的信息熵的相似度,或者是同时进行上述两种计算。
步骤S204:提取所述比例和/或所述相似度满足预设范围的至少两个原始网页作为目标网页。
所述相似度的预设范围指的是所述词语集的信息熵与所述指标库的信息熵的差值在某个范围内。本步骤中将比例和相似度作为确定并提取目标网页的指标,则具体的提取标准可以有如下三种:即所述原始网页对应的词语集中包含所述指标库中指标的比例满足所述比例的预设范围,或者,所述原始网页对应的词语集中信息熵与所述指标库的信息熵的差值满足所述相似度的预设范围,或者,以上两者同时满足条件。
按上述第一种方式来说,例如,所述比例的预设范围为1/5至3/5,若原始网页对应的词语集中包含所述指标库中指标的比例为2/5,则认为满足条件。按上述第二种方式来说,例如,所述相似度的预设范围为差值在1至4,若原始网页对应的词语集中信息熵与所述指标库的信息熵的差值为3,则认为满足条件。按上述第三种方式来说,综合考虑以上两种方式,若原始网页对应的词语集中包含所述指标库中指标的比例为2/5,但该网页对应的词语集中信息熵与所述指标库的信息熵的差值为5,则认为所述原始网页不满足提取条件。
步骤S205:在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息;
步骤S206:依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息;其中,所述指标用以描述所述业务信息的各项属性。
需要说明的是,步骤205和步骤206的操作过程可以参见图1所示实施例的步骤102和步骤103的相关描述,在此不再赘述。
由上述方案可知,本发明提供了一种获取业务信息方法的另一个实施例,通过现有的搜索引擎获得预设数目的原始网页,提高了原始数据来源的质量和效率。同时预先建立的有关业务信息的专业词汇库对获取的所述原始网页进行分词,提高了分词的准确度,为后续目标网页的提取奠定了较好的基础。
参阅图3,示出了本发明一种获取业务信息的方法的又一个实施例的流程示意图,所述方法包括:
步骤S301:获取与所述业务信息相关的至少两个目标网页;
步骤S302:将各个目标网页分别解析为DOM(Document ObjectModel,文件对象模型)树;
通过利用现有的解析工具如NekoHTML可以将所述各个网页解析为DOM树。所述文档对象模型DOM是一种用于HTML(Hypertext MarkupLanguage,超文本标记语言)和XML(Extensible Markup Language,可扩展标记语言)文档的编程接口,它给文档提供了一种结构化的表示方法,可以改变文档的内容和呈现方式。DOM的内部逻辑结构通常表现为节点树的形式。通过对HTML网页的解析处理,HTML网页中的各种元素转化为DOM中的节点对象,请参阅图9,示出了一个HTML网页转换为DOM后的结构形式。
步骤S303:遍历各个DOM树的节点,根据所述节点的视觉信息将各个DOM树划分为至少两个语义块;
在DOM中,所有HTML元素被定义为对象,对象方法和对象属性是接口。通过调用接口中的方法实现对DOM树的遍历。DOM的遍历可以分为深度优先的遍历和广度优先的遍历,不管使用何种方法对DOM树的遍历,都属于本实施保护的范围。例如,若使用深度优先的遍历,具体步骤为:在DOM获取所述根节点即<HTML>,然后用$nod->first_child()方法找出<HTML>节点的第一个未被访问的直接子节点,然后再以此节点为顶点,继续查找所述节点的下个新顶点进行访问,重复此步骤直至所有节点都被访问完为止。
在对DOM树的遍历过程中会检测到所述各个节点标签的属性,其中一些是有关视觉信息的,如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等。通常,同一个页面中内容相关的信息被放在同一个区域中,例如:广告区域,导航区域,正文区域等。同一个区域中会使用相同的背景颜色、字体颜色、字体大小等,因此利用这些视觉信息提示,将所述DOM树划分为至少两个区域,所述区域在语义内容上是相关的,因此被称为语义块。
优选的,所述具体的语义块的划分算法使用VIPS(Vision-based PageSegmentation,基于视觉信息的网页分块)算法。它首先从DOM树中提取出所有的合适的页面块,然后根据这些页面块检测出它们之间的所有的分割条,包括水平和垂直方向。最后基于这些分割条,页面的语义结构将被重新构建。对于每一个语义块又可以使用VIPS算法继续分割为更小的语义块。因此整个VIPS算法是自顶向下,非常高效的。
步骤S304:根据各个DOM树中的各个语义块的相关信息分别确定各个DOM树的目标语义块,并提取所述目标语义块作为目标区域;其中,所述目标语义块包含有所述业务的属性及与所述属性相对应的属性值信息;
所述确定目标语义块可以利用模糊逻辑算法或经过训练的BP(BackPropagation)网络神经算法。所述语义块的相关内容即位置信息、布局信息、大小信息等。将所述各个语义块的有关信息作为所述算法的输入参数,利用相关算法的规则可以得知,所述各个语义块具体包含的相关信息。例如,输入某个语义块的相对于网页整体的位置,得知其为导航语义块。
利用上述算法可以确定目标语义块,所述目标语义块即网页中的正文内容。所述正文内容中包含有所述业务信息的属性及属性值信息。提取所述目标语义块作为目标区域以对其进行后续提取属性及属性值的工作。
当然,还有其他算法来确定目标语义块,在此不一一进行列举。
步骤S305:依据预先建立的指标库中的指标,分别遍历各个目标语义块对应的DOM子树,在各个子树中分别定位包含所述业务的属性的目标节点;
提取的各个目标语义块是从DOM树中依据视觉信息进行提取获得的,被视为所述DOM树的子树,利用步骤S303中有关介绍遍历DOM树的方法可以实现对DOM子树的遍历,在遍历过程中获取所述DOM子树的节点,所述节点即所述目标语义块中网页标签元素的内容。将所述标签元素的内容与预先建立是指标库中的指标进行对比以确定所述业务属性的目标节点。例如,指标库中有物业公司这一指标,所述DOM子树中有节点为标签元素<TD>,其内容为“物业公司”,则将所述节点确定为目标节点。
需要说明的是,所述预先建立的指标库即第一个实施例中介绍的指标库,在此不进行赘述。
步骤S306:通过决策获得各个目标节点的模式类别,并依据所述模式类别在各个DOM子树中提取各个目标节点的多个关联节点;
利用分类算法对所述定位的目标节点进行决策,优选的,所述分类算法可以使用ID3决策树算法。当然,本实施例中的ID3决策树的训练样本已进行了初始化。ID3决策树算法为在各层分枝节点上选择属性,用信息增益作为属性选择标准,使得在每一非叶子节点进行测试时,能获得关于被测试例子最大的类别信息,使用该属性将样本集划分成子集后,系统的信息熵值最小。
通过ID3决策树的算法对所述目标节点作出的模式类别包括但不限于以下模式,即A模式:取兄弟节点(跳过修饰节点),B模式:(取父亲节点,再取兄弟节点)。通过所述各个模式可以获取所述DOM目标节点的周围关联节点。其中,所述目标节点中有所述业务信息的属性,所述周围关联节点中可能包含有所述业务信息属性的属性值。所述修饰节点为对所述目标节点内容的格式等方面的修饰,比如加粗、斜体、颜色等。
例如,某一个目标语义块对应的网页部分代码为:
按所述A模式获得目标节点<td>物业公司的关联节点为排除修饰节点后的<td>北京水木天成物业管理有限责任公司节点;按所述B模式获得目标节点<td>物业公司的关联节点为<td><strong>所属商圈</strong>。
步骤S307:判断各个关联节点中包含有与所述属性对应的属性值信息的可能性,并依据各个可能性的高低确定可能性最高的关联节点;
利用神经网络算法输出所述各个关联节点中包含有所述业务信息属性属性值信息的可能性,优选的,利用BP神经网络算法,所述BP神经网络已训练收敛。利用所述BP神经网络算法输出的各个可能性相加为1。例如,所述A模式取得的关联节点中包含有属性值的可能性为0.7,所述B模式取得的关联节点中包含有属性值的可能性为0.3。取可能性为0.7,即在A模式下获取的兄弟节点:<td>北京水木天成物业管理有限责任公司为最终的关联节点。
步骤S308:提取所述可能性最高的关联节点中的属性值信息。
通过利用DOM树中获取节点内容的方法获得所述可能性最高的关联节点中的属性值信息,例如,“北京水木天成物业管理有限责任公司”。
由以上技术方案可知,本发明提供了一种获取业务信息方法的实施例,通过将所述目标网页划分为多个区域,在所述区域中确定目标语义块,所述目标语义块中为所述目标网页中的正文内容,从而排除了目标网页中可能包含的如广告、导航等非业务信息的影响,提高了提取业务属性信息及属性值信息的效率。进而,在所述目标语义块中进一步查找并提取所述业务信息的属性及属性值信息,所述查找并提取所述业务信息的属性及属性值信息的方法即EFLA(Element Function and LayoutAnalyzer,元素功能及部件分析)算法。利用所述算法确定并提取所述目标语义块中的属性及属性值信息,相对于现有技术中将目标网页中所有信息进行提取的方法,本实施例提供的获取业务信息的方法能更准确直接地提供所述业务信息内容。
上述三个实施例之后还可以包括数据合并的步骤,将提取出的数据进行合并形成结构化的数据进行输出。参阅图4,其示出了本发明一种获取业务信息方法的又一个实施例的部分流程示意图,即数据合并步骤的流程示意图。所述实施例的完整步骤是在图1、图2或图3所示的流程示意图后包括:
步骤S401:将从某一个目标区域中提取出的属性及属性值信息作为主数据,将从其他目标区域中提取出的属性及属性值信息作为第一辅助数据;
预先初始化定义网页的权重,权重是网页本身与查询词之间的相关度。按照权重排名,目标区域所在的网站排名最高,则将从其中提取出的属性及属性值作为主数据,则从其他目标区域提取出的属性及属性值作为辅助数据。例如,若预先初始化定义的“搜房网”网页的权重高,则将从“搜房网”提取的房产业务信息作为主数据信息。
步骤S402:在所述第一辅助数据中根据不同的数据类型选择第二辅助数据;其中,选择规则与所述数据类型相对应;
如果有多份辅助数据则在多份辅助数据中确定某一种辅助数据为第二辅助数据。多份辅助数据中会有不同的类型,如数值型,日期型,货币型,字符串型等。不同类型的数据则采用不同的方式确定第二辅助数据,例如:数值,日期,货币采用加权平均,取最近数据项,而字符串型,则通过计算信息熵确定。
步骤S403:判断所述主数据信息中的属性项是否少于所述第一辅助数据中的属性项;
将所述确定的主数据与第一辅助数据中的各份第一辅助数据进行比较判断,比较的内容是主数据中的属性项是否少于所述第一辅助数据中的属性项。
步骤S404:若所述主数据信息中的属性项少于所述第一辅助数据中的属性项,则补充所述主数据缺失的属性及其对应的属性值信息,并将所述补充后的主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存;
所述对主数据进行属性项的补充是将所述主数据中的属性项进行补充完整。例如,将从“搜房网”网页中提取的智汇雅苑房产的数据信息作为主数据信息,所述数据信息中的属性项有该处房产信息的物业类型、停车位、所属商圈、绿化率等,从“搜狐焦点”网页中提取的该处房产的属性项除了以上内容外,还包含有户型面积、户型信息等所述“搜房网”中并没有提取到的属性项,则将户型面积和户型信息属性补充入主数据的属性中。相应的,将所述属性对应的属性值信息补充入所述主数据中。并进一步的,将所述补充后的主数据与所述第二辅助数据进行合并形成结构化的数据信息并进行保存。
步骤S405:若所述主数据信息中的属性项不少于所述第一辅助数据中的属性项,则将所述主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存。
需要说明的是,智能脚本引擎依据所述指标库的引导构建第二任务脚本序列,执行所述第二任务脚本序列自动完成上述步骤S401至S405的工作。其中,所述第二任务脚本序列的表现形式为XML文件。
由以上的技术方案可知,本发明提供的一种获取业务信息方法中数据合并步骤实施例,将从某一个目标区域中提取的各项属性及属性值信息作为主数据信息,从其他目标区域中提取的各项属性及属性值信息作为辅助数据信息,若从某个目标区域中提取的属性项存在缺失,则对其进行补充,再将其他辅助数据中的属性与所述补充后的主数据中的属性进行合并。相应的,将所述属性对应的属性值信息进行合并形成结构化的数据进行保存。所述数据合并步骤将所述提取后的数据更近一步地进行关联合并,将整理后的数据进行保存,则更直接准确地反映了所述业务信息内容。
参阅图5,其示出了一种获取业务信息装置的一个实施例的结构示意图,所述装置包括:目标网页获取单元501、目标区域提取单元502及信息提取单元503。
目标网页获取单元501,用于获取与所述业务信息相关的至少两个目标网页;
目标区域提取单元502,用于在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息;
信息提取单元503,用于依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息;其中,所述指标用以描述所述业务信息的各项属性。
智能脚本引擎依据所述指标库的引导构建第一任务脚本序列,执行所述第一任务脚本序列自动指导上述单元503的工作。其中,所述第一任务脚本序列的表现形式为XML文件。
本实施例中,目标网页获取单元501获取与所述业务信息相关的至少两个目标网页,目标区域提取单元502在所述目标网页中确定并提取目标区域,删除了原始网页中的非业务信息,当然,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息,信息提取单元503在所述目标区域中定位所述属性及并提取所述属性值信息。相对于现有搜索业务信息的方式只简单保存全部原始网页,本发明提供的装置不仅会帮助节省存储资源,而且获取的数据信息结果直观准确地反映了所述业务信息。
参阅图6,其示出了本发明一种获取业务信息的装置的另一个结构示意图,所述装置包括:原始网页获取单元601、分词单元602、计算单元603、提取单元604、目标区域提取单元605及信息提取单元606。
原始网页获取单元601,用于利用通用搜索引擎获取至少两个原始网页;
分词单元602,用于依据预先建立的业务词库将各个原始网页分割为多个独立的词语形成词语集;
本单元完成的工作是对所述各个原始网页进行分词处理,即将连续的字序列按照一定的规范重新组合成词序列,使用的算法可以为基于字符串的分词方法。具体的,按照扫描方向的不同,可以是正向匹配,也可以是逆向匹配;按照不同长度优先匹配的不同,可以是最大匹配,也可以是最小匹配;按照是否与词性标注过程相结合,可以是单纯分析,也可以是分词和标注想结合的一体化方法。需要说明的是,不管使用上述何种或何几种方法结合进行的分词,都属于本发明保护范围。
经过分词处理后,各个目标网页内容被划分为各个词语集。
计算单元603,用于计算预先建立的指标库中指标在各个词语集中所占的比例,和/或,计算各个词语集的信息熵与所述指标库的信息熵的相似度;
所述预先建立的指标库中的指标如实施例一中的指标库。所述指标库中的指标用以描述所述业务信息的属性。比如房产业务中的房产基本信息中的物业类别、建筑面积、所述商圈、地理地址、户型、交通状况、物业公司、开发商等等。
在所述各个词语集中分别查找所述指标库中包含的指标,计算所述指标在各个词语集中所占的比例。
所述信息熵是对信息的量化,因为信息是个抽象的概念,用所述信息熵来对信息的信息量进行度量。信息熵的计算公式为H(x)=E[I(xi)]=E[log(2,1/p(xi))]=-∑p(xi)log(2,p(xi))(i=1,2,..n)。其中,I(xi)表示随机变量xi的信息量;E代表了期望函数;p(xi)代表了xi的机率质量函数。
将所述词语库中的词语作为变量xi,利用上述公式计算所述词语集的信息熵及所述指标库的信息熵,将计算获得的两个信息熵进行差值比较以查看所述两个信息熵的相似度,所述词语集的信息熵与所述指标库的信息熵差值越小,则代表所述词语集的信息熵与所述指标库的信息熵越相似,则所述词语集对应的目标网页的内容与所述业务信息越接近。
需要说明的是,本单元可以单独计算所述指标库中的指标在各个词语集中所占的比例,也可以计算各个词语集的信息熵与所述指标库的信息熵的相似度,或者是同时进行上述两种计算。
提取单元604,用于提取所述比例和/或所述相似度满足预设范围的至少两个原始网页作为目标网页;
所述相似度的预设范围指的是所述词语集的信息熵与所述指标库的信息熵的差值在某个范围内。本单元中将比例和相似度作为确定并提取目标网页的指标,则具体的提取标准可以有如下三种:即所述原始网页对应的词语集中包含所述指标库中指标的比例满足所述比例的预设范围,或者,所述原始网页对应的词语集中信息熵与所述指标库的信息熵的差值满足所述相似度的预设范围,或者,以上两者同时满足条件。
目标区域提取单元605,用于在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息
信息提取单元606,用于依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息;其中,所述指标用以描述所述业务信息的各项属性。
需要说明的是,装置605和装置606的操作过程可以参见图1所示实施例的装置502和装置503的相关描述,在此不再赘述。
由上述方案可知,本发明提供了一种获取业务信息装置的实施例,通过现有的搜索引擎获得预设数目的原始网页,提高了原始数据来源的质量和效率。同时预先建立的有关业务信息的专业词汇库对获取的所述原始网页进行分词,提高了分词的准确度,为后续目标网页的提取奠定了较好的基础。
参阅图7,其示出了一种获取业务信息的又一种实施例的结构示意图,所述装置包括:目标网页获取单元701、解析单元702、语义块划分单元703、目标语义块提取单元704、目标节点定位单元705、关联节点提取单元706、关联节点确定单元707、属性值信息提取单元708。
目标网页获取单元701,用于获取与所述业务信息相关的至少两个目标网页;
解析单元702,用于将各个目标网页分别解析为DOM(DocumentObject Model,文件对象模型)树;
通过利用现有的解析工具如NekoHTML可以将所述各个网页解析为DOM树。所述文档对象模型DOM是一种用于HTML(Hypertext MarkupLanguage,超文本标记语言)和XML(Extensible Markup Language,可扩展标记语言)文档的编程接口,它给文档提供了一种结构化的表示方法,可以改变文档的内容和呈现方式。DOM的内部逻辑结构通常表现为节点树的形式。通过对HTML网页的解析处理,HTML网页中的各种元素转化为DOM中的节点对象,请参阅图9,示出了一个HTML网页转换为DOM后的结构形式。
语义块划分单元703,用于遍历各个DOM树的节点,根据所述节点的视觉信息将各个DOM树划分为至少两个语义块;
优选的,所述具体的语义块的划分算法使用VIPS(Vision-based PageSegmentation,基于视觉信息的网页分块)算法。它首先从DOM树中提取出所有的合适的页面块,然后根据这些页面块检测出它们之间的所有的分割条,包括水平和垂直方向。最后基于这些分割条,页面的语义结构将被重新构建。对于每一个语义块又可以使用VIPS算法继续分割为更小的语义块。因此整个VIPS算法是自顶向下,非常高效的。
目标语义块提取单元704,用于根据各个DOM树中的各个语义块的相关信息分别确定各个DOM树的目标语义块,并提取所述目标语义块作为目标区域;其中,所述目标语义块包含有所述业务的属性及与所述属性相对应的属性值信息。
所述确定目标语义块可以利用模糊逻辑算法或经过训练的BP(BackPropagation)网络神经算法。所述语义块的相关内容即位置信息、布局信息、大小信息等。将所述各个语义块的有关信息作为所述算法的输入参数,利用相关算法的规则可以得知,所述各个语义块具体包含的相关信息。例如,输入某个语义块的相对于网页整体的位置,得知其为导航语义块。
利用上述算法可以确定目标语义块,所述目标语义块即网页中的正文内容。所述正文内容中包含有所述业务信息的属性及属性值信息。提取所述目标语义块作为目标区域以对其进行后续提取属性及属性值的工作。
当然,还有其他算法来确定目标语义块,在此不一一进行列举。
目标节点定位单元705,用于依据预先建立的指标库中的指标,分别遍历各个目标语义块对应的DOM子树,在各个子树中分别定位包含所述业务的属性的目标节点;
关联节点提取单元706,用于通过决策获得各个目标节点的模式类别,并依据所述模式类别在各个DOM子树中提取各个目标节点的多个关联节点;
关联节点确定单元707,用于判断各个关联节点中包含有与所述属性对应的属性值信息的可能性,并依据各个可能性的高低确定可能性最高的关联节点;
属性值信息提取单元708,用于提取所述可能性最高的关联节点中的属性值信息。
由以上技术方案可知,本发明提供了一种获取业务信息装置的实施例,语义块划分单元703通过将所述目标网页划分为多个区域,目标语义块提取单元704在所述区域中确定目标语义块,所述目标语义块中为所述目标网页中的正文内容,从而排除了目标网页中可能包含的如广告、导航等非业务信息的影响,提高了提取业务属性信息及属性值信息的效率。进而,目标节点定位单元705在所述目标语义块中进一步查找并提取所述业务信息的属性及属性值信息,所述查找并提取所述业务信息的属性及属性值信息的单元即EFLA(Element Function and Layout Analyzer,元素功能及部件分析)单元。利用所述算法确定并提取所述目标语义块中的属性及属性值信息,相对于现有技术中将目标网页中所有信息进行提取的装置,本实施例提供的一种获取业务信息的装置能更准确直接地提供所述业务信息内容。
上述三个实施例之后还可以包括数据合并的单元,将提取出的数据进行合并形成结构化的数据进行输出。参阅图8,其示出了本发明一种获取业务信息装置的又一个实施例的部分结构示意图,即数据合并单元的结构示意图。所述实施例的完整装置是在图5、图6或图7所示的结构示意图后包括:数据区分单元801、辅助数据确定单元802、第一合并单元803及第二合并单元804。
数据区分单元801,用于将从某一个目标区域中提取出的属性及属性值信息作为主数据,将从其他目标区域中提取出的属性及属性值信息作为第一辅助数据;
辅助数据确定单元802,用于在所述第一辅助数据中根据不同的数据类型选择第二辅助数据;其中,选择规则与所述数据类型相对应;
第一合并单元803,用于若所述主数据信息中的属性项少于所述第一辅助数据中的属性项,则补充所述主数据缺失的属性及其对应的属性值信息,并将所述补充后的主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存;
第二合并单元804,用于若所述主数据信息中的属性项不少于所述第一辅助数据中的属性项,则将所述主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存。
需要说明的是,智能脚本引擎依据所述指标库的引导构建第二任务脚本序列,执行所述第二任务脚本序列自动指导上述单元801至单元805的工作。其中,所述第二任务脚本序列的表现形式为XML文件。
由以上的技术方案可知,本发明提供的一种获取业务信息装置中数据合并单元实施例,数据区分单元801将从某一个目标区域中提取的各项属性及属性值信息作为主数据信息,从其他目标区域中提取的各项属性及属性值信息作为辅助数据信息,若从某个目标区域中提取的属性项存在缺失,则第一合并单元803对其进行补充,再将其他辅助数据中的属性与所述补充后的主数据中的属性进行合并。相应的,将所述属性对应的属性值信息进行合并形成结构化的数据进行保存。所述数据合并单元将所述提取后的数据更近一步地进行关联合并,将整理后的数据进行保存,则更直接准确地反映了所述业务信息内容。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明所提供的一种获取业务信息的方法及装置进行了详细介绍,对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种获取业务信息的方法,其特征在于,包括:
获取与所述业务信息相关的至少两个目标网页;
在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息;
依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息;其中,所述指标用以描述所述业务信息的各项属性。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述业务信息相关的至少两个目标网页包括:
利用通用搜索引擎获取至少两个原始网页;
依据预先建立的业务词库将各个原始网页分割为多个独立的词语形成词语集;
计算预先建立的指标库中的指标在各个词语集中所占的比例,和/或,计算各个词语集的信息熵与所述指标库的信息熵的相似度;
提取所述比例和/或所述相似度满足预设范围的至少两个原始网页作为目标网页。
3.根据权利要求1所述的方法,其特征在于,所述在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息,包括:
将各个目标网页分别解析为DOM(Document Object Model,文件对象模型)树;
遍历各个DOM树的节点,根据所述节点的视觉信息将各个DOM树划分为至少两个语义块;
根据各个DOM树中的各个语义块的相关信息分别确定各个DOM树的目标语义块,并提取所述目标语义块作为目标区域;其中,所述目标语义块包含有所述业务的属性及与所述属性相对应的属性值信息。
4.根据权利要求3所述的方法,其特征在于,所述依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息,包括:
依据预先建立的指标库中的指标,分别遍历各个目标语义块对应的DOM子树,在各个子树中分别定位包含所述业务的属性的目标节点;
通过决策获得各个目标节点的模式类别,并依据所述模式类别在各个DOM子树中提取各个目标节点的多个关联节点;
判断各个关联节点中包含有与所述属性对应的属性值信息的可能性,并依据各个可能性的高低确定可能性最高的关联节点;
提取所述可能性最高的关联节点中的属性值信息。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法之后还包括:
将从某一个目标区域中提取出的属性及属性值信息作为主数据,将从其他目标区域中提取出的属性及属性值信息作为第一辅助数据;
在所述第一辅助数据中根据不同的数据类型选择第二辅助数据;其中,选择规则与所述数据类型相对应;
若所述主数据信息中的属性项少于所述第一辅助数据中的属性项,则补充所述主数据缺失的属性及其对应的属性值信息,并将所述补充后的主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存;
若所述主数据信息中的属性项不少于所述第一辅助数据中的属性项,则将所述主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存。
6.一种获取业务信息的装置,其特征在于,包括:
目标网页获取单元,用于获取与所述业务信息相关的至少两个目标网页;
目标区域提取单元,用于在各个目标网页中分别确定目标区域,并分别提取所述目标区域;其中,所述目标区域中包含有所述业务信息的属性及与所述属性相对应的属性值信息;
信息提取单元,用于依据预先建立的指标库中的指标,在各个目标区域中分别定位所述业务信息的属性,并提取所述属性及与所述属性相对应的属性值信息;其中,所述指标用以描述所述业务信息的各项属性。
7.根据权利要求6所述的装置,其特征在于,所述目标网页获取单元包括:
原始网页获取单元,用于利用通用搜索引擎获取至少两个原始网页;
分词单元,用于依据预先建立的业务词库将各个原始网页分割为多个独立的词语形成词语集;
计算单元,用于计算预先建立的指标库中指标在各个词语集中所占的比例,和/或,计算各个词语集的信息熵与所述指标库的信息熵的相似度;提取单元,用于提取所述比例和/或所述相似度满足预设范围的至少两个原始网页作为目标网页。
8.根据权利要求7所述的装置,其特征在于,所述目标区域提取单元包括:
解析单元,用于将各个目标网页分别解析为DOM(Document ObjectModel,文件对象模型)树;
语义块划分单元,用于遍历各个DOM树的节点,根据所述节点的视觉信息将各个DOM树划分为至少两个语义块;
目标语义块提取单元,用于根据各个DOM树中的各个语义块的相关信息分别确定各个DOM树的目标语义块,并提取所述目标语义块作为目标区域;其中,所述目标语义块包含有所述业务的属性及与所述属性相对应的属性值信息。
9.根据权利要求6所示的装置,其特征在于,所述信息提取单元包括:
目标节点定位单元,用于依据预先建立的指标库中的指标,分别遍历各个目标语义块对应的DOM子树,在各个子树中分别定位包含所述业务的属性的目标节点;
关联节点提取单元,用于通过决策获得各个目标节点的模式类别,并依据所述模式类别在各个DOM子树中提取各个目标节点的多个关联节点;
关联节点确定单元,用于判断各个关联节点中包含有与所述属性对应的属性值信息的可能性,并依据各个可能性的高低确定可能性最高的关联节点;
属性值信息提取单元,用于提取所述可能性最高的关联节点中的属性值信息。
10.根据权利要求6至9任意一项所述的装置,其特征在于,还包括:
数据区分单元,用于将从某一个目标区域中提取出的属性及属性值信息作为主数据,将从其他目标区域中提取出的属性及属性值信息作为第一辅助数据;
辅助数据确定单元,用于在所述第一辅助数据中根据不同的数据类型选择第二辅助数据;其中,选择规则与所述数据类型相对应;
第一合并单元,用于若所述主数据信息中的属性项少于所述第一辅助数据中的属性项,则补充所述主数据缺失的属性及其对应的属性值信息,并将所述补充后的主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存;
第二合并单元,用于若所述主数据信息中的属性项不少于所述第一辅助数据中的属性项,则将所述主数据与所述第二辅助数据进行合并,形成结构化的数据信息并进行保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310432901.3A CN103488746B (zh) | 2013-09-22 | 2013-09-22 | 一种获取业务信息的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310432901.3A CN103488746B (zh) | 2013-09-22 | 2013-09-22 | 一种获取业务信息的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103488746A true CN103488746A (zh) | 2014-01-01 |
CN103488746B CN103488746B (zh) | 2017-04-26 |
Family
ID=49828972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310432901.3A Active CN103488746B (zh) | 2013-09-22 | 2013-09-22 | 一种获取业务信息的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103488746B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104023025A (zh) * | 2014-06-13 | 2014-09-03 | 中国民航信息网络股份有限公司 | 基于业务规则的网站安全漏洞检测方法及装置 |
CN104360989A (zh) * | 2014-12-04 | 2015-02-18 | 北京久其软件股份有限公司 | 一种从业务单据到财务凭证的转换方法及系统 |
CN104391893A (zh) * | 2014-11-11 | 2015-03-04 | 成都锐理开创信息技术有限公司 | 及时发现和跟踪地产项目动态的方法 |
CN105678575A (zh) * | 2015-12-31 | 2016-06-15 | 华南师范大学 | 基于用户属性知识库的个性化推荐方法和系统 |
TWI595367B (zh) * | 2016-10-24 | 2017-08-11 | 洪信傑 | 網路資訊分析方法及採用此方法之網路資訊分析系統 |
WO2018103540A1 (zh) * | 2016-12-09 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 网页内容提取方法、装置、存储介质 |
CN108228641A (zh) * | 2016-12-21 | 2018-06-29 | 中国移动通信集团辽宁有限公司 | 网页数据分析的方法、设备和系统 |
CN109325197A (zh) * | 2018-08-17 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
CN109885658A (zh) * | 2019-02-19 | 2019-06-14 | 安徽省泰岳祥升软件有限公司 | 指标数据提取方法、装置和计算机设备 |
CN111046082A (zh) * | 2019-12-12 | 2020-04-21 | 国家电网有限公司大数据中心 | 数据源的确定方法、装置、服务器和存储介质 |
CN113557545A (zh) * | 2019-03-11 | 2021-10-26 | 株式会社博报堂Dy控股集团 | 中介装置、系统以及计算机程序 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101599A (zh) * | 2007-06-20 | 2008-01-09 | 精实万维软件(北京)有限公司 | 一种从网页中提取广告主信息的方法 |
CN101794311A (zh) * | 2010-03-05 | 2010-08-04 | 南京邮电大学 | 基于模糊数据挖掘的中文网页自动分类方法 |
CN102663023A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种提取网页内容的实现方法 |
CN101593200B (zh) * | 2009-06-19 | 2012-10-03 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
-
2013
- 2013-09-22 CN CN201310432901.3A patent/CN103488746B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101599A (zh) * | 2007-06-20 | 2008-01-09 | 精实万维软件(北京)有限公司 | 一种从网页中提取广告主信息的方法 |
CN101593200B (zh) * | 2009-06-19 | 2012-10-03 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN101794311A (zh) * | 2010-03-05 | 2010-08-04 | 南京邮电大学 | 基于模糊数据挖掘的中文网页自动分类方法 |
CN102663023A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种提取网页内容的实现方法 |
Non-Patent Citations (3)
Title |
---|
沈元一 等: "基于语义的互联网药品信息抽取方法", 《计算机系统应用》, vol. 20, no. 1, 15 January 2011 (2011-01-15) * |
王建品: "基于DOM和视觉属性的网页信息过滤方法", 《电子设计工程》, vol. 21, no. 13, 5 July 2013 (2013-07-05) * |
顾轶灵: "基于多维语义的互联网药品信息提取方法", 《计算机系统应用》, vol. 20, no. 11, 15 November 2011 (2011-11-15) * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104023025A (zh) * | 2014-06-13 | 2014-09-03 | 中国民航信息网络股份有限公司 | 基于业务规则的网站安全漏洞检测方法及装置 |
CN104391893B (zh) * | 2014-11-11 | 2018-10-30 | 成都锐理数据处理技术股份有限公司 | 及时发现和跟踪地产项目动态的方法 |
CN104391893A (zh) * | 2014-11-11 | 2015-03-04 | 成都锐理开创信息技术有限公司 | 及时发现和跟踪地产项目动态的方法 |
CN104360989B (zh) * | 2014-12-04 | 2017-06-23 | 北京久其软件股份有限公司 | 一种从业务单据到财务凭证的转换方法及系统 |
CN104360989A (zh) * | 2014-12-04 | 2015-02-18 | 北京久其软件股份有限公司 | 一种从业务单据到财务凭证的转换方法及系统 |
CN105678575A (zh) * | 2015-12-31 | 2016-06-15 | 华南师范大学 | 基于用户属性知识库的个性化推荐方法和系统 |
TWI595367B (zh) * | 2016-10-24 | 2017-08-11 | 洪信傑 | 網路資訊分析方法及採用此方法之網路資訊分析系統 |
US11074306B2 (en) | 2016-12-09 | 2021-07-27 | Tencent Technology (Shenzhen) Company Limited | Web content extraction method, device, storage medium |
WO2018103540A1 (zh) * | 2016-12-09 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 网页内容提取方法、装置、存储介质 |
CN108228641A (zh) * | 2016-12-21 | 2018-06-29 | 中国移动通信集团辽宁有限公司 | 网页数据分析的方法、设备和系统 |
CN109325197A (zh) * | 2018-08-17 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
CN109885658A (zh) * | 2019-02-19 | 2019-06-14 | 安徽省泰岳祥升软件有限公司 | 指标数据提取方法、装置和计算机设备 |
CN109885658B (zh) * | 2019-02-19 | 2021-10-26 | 安徽省泰岳祥升软件有限公司 | 指标数据提取方法、装置和计算机设备 |
CN113557545A (zh) * | 2019-03-11 | 2021-10-26 | 株式会社博报堂Dy控股集团 | 中介装置、系统以及计算机程序 |
CN113557545B (zh) * | 2019-03-11 | 2024-04-05 | 株式会社博报堂Dy控股集团 | 中介装置、系统以及计算机程序 |
CN111046082A (zh) * | 2019-12-12 | 2020-04-21 | 国家电网有限公司大数据中心 | 数据源的确定方法、装置、服务器和存储介质 |
CN111046082B (zh) * | 2019-12-12 | 2022-07-08 | 国家电网有限公司大数据中心 | 一种基于语义分析的报表数据源推荐方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103488746B (zh) | 2017-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103488746A (zh) | 一种获取业务信息的方法及装置 | |
Kolda et al. | Higher-order web link analysis using multilinear algebra | |
CN101937438B (zh) | 网页内容提取方法和装置 | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
Stell et al. | Stratified map spaces: A formal basis for multi-resolution spatial databases | |
US10929439B2 (en) | Taxonomic tree generation | |
CN102662969B (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
CN103955529A (zh) | 一种互联网信息搜索聚合呈现方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
Nguyen et al. | A lattice-based approach for mathematical search using formal concept analysis | |
CN103559199B (zh) | 网页信息抽取方法和装置 | |
CN103514234A (zh) | 一种页面信息提取方法和装置 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN102841920A (zh) | 一种页面信息提取方法及装置 | |
CN104794242A (zh) | 一种搜索方法 | |
Nikhil et al. | A survey on text mining and sentiment analysis for unstructured web data | |
CN103309862A (zh) | 一种网页类型识别方法和系统 | |
CN108021715B (zh) | 基于语义结构特征分析的异构标签融合系统 | |
CN113742496B (zh) | 一种基于异构资源融合的电力知识学习系统及方法 | |
KR101469523B1 (ko) | 상황인지에 기반한 사용자 관심정보 서비스를 제공하기 위한 상황인식 온톨로지 구현방법 | |
Delboni et al. | Semantic expansion of geographic web queries based on natural language positioning expressions | |
CN101350019B (zh) | 基于预定义槽间向量模型的网页信息抽取方法 | |
CN115168401A (zh) | 数据分级处理方法及装置、电子设备及计算机可读介质 | |
Haris et al. | Mining graphs from travel blogs: a review in the context of tour planning | |
Kayed et al. | Postal address extraction from the web: a comprehensive survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: No. 801, No. 1, No. 7, No. 801, Tianfu Avenue, Sichuan high tech Zone, Sichuan Patentee after: Chengdu sharp data processing technology, Limited by Share Ltd Address before: 610041 room 4 401A, floor 6, D District, No. 216, Tianfu Software Park, Tianfu Software Park, new city, Sichuan high tech Zone Patentee before: The sharp reason in Chengdu is started Information Technology Co., Ltd |