CN103559234B - RESTful Web服务的自动化语义标注系统和方法 - Google Patents
RESTful Web服务的自动化语义标注系统和方法 Download PDFInfo
- Publication number
- CN103559234B CN103559234B CN201310506897.0A CN201310506897A CN103559234B CN 103559234 B CN103559234 B CN 103559234B CN 201310506897 A CN201310506897 A CN 201310506897A CN 103559234 B CN103559234 B CN 103559234B
- Authority
- CN
- China
- Prior art keywords
- text block
- characteristic
- node
- webpage
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000000306 component Substances 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000010801 machine learning Methods 0.000 claims abstract description 5
- 239000008358 core component Substances 0.000 claims abstract description 4
- 210000003746 feather Anatomy 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 8
- 230000008878 coupling Effects 0.000 claims description 7
- 238000010168 coupling process Methods 0.000 claims description 7
- 238000005859 coupling reaction Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 206010008190 Cerebrovascular accident Diseases 0.000 claims description 5
- 208000006011 Stroke Diseases 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 244000144992 flock Species 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000010485 coping Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种RESTful Web服务的自动化语义标注系统和方法,该系统设有两种组成构件:作为系统的核心构件、负责网页的自动语义分析和标注的整个处理过程的网页处理构件和负责采用机器学习方法提取网页特征和特征分类的特征处理构件。网页处理构件设有四个模块:预处理模块、网页分块模块、特征匹配模块和自动标注模块,特征处理构件设有三个模块:特征提取模块、特征分类模块和网页特征库。本发明较好地解决了目前只能人工标注、无法解决网上现存的大量文档急需实时标注的难题,可以有效处理海量的RESTful Web服务页面的标注,同时本发明提出的基于网页特征库的算法可以切实保证服务标注的准确率。
Description
技术领域
本发明涉及一种RESTful Web服务的相关技术,确切地说,涉及一种在RESTfulWeb服务页面分析和结构标注的基础上,提出了一种RESTful Web服务的自动化语义标注系统及其对RESTful Web服务页面自动分析和标注的方法,属于互联网的信息提取技术领域。
背景技术
随着互联网上Web应用的增多,越来越多的Web服务被企业发布到互联网上,Web服务在企业之间开发基于构件的松散耦合系统中起着重要作用。然而,传统的基于XML的简单对象访问协议SOAP(Simple Object Access Protocol)和Web服务描述语言WSDL(WebServices Description Language)的Web服务在应用范围和规模上的优势现在都在逐渐下降,有被互联网上新增的RESTful Web服务逐步取代的发展趋势。
表示性状态转移REST的英文全称为:Representational State Transfer,这个概念来源于2000年的Roy Fielding博士论文《Architectural Styles and the Design ofNetwork-based Software Architectures》。
RESTful Web服务遵循表示性状态转移REST的架构设计风格:REST定义了一组体系风格架构,以供根据这些风格设计以系统资源为中心的WEB服务,包括:使用不同语言编写的客户端、如何通过HTTP处理和传输资源状态等。这种Web服务在统一资源定位符URL、即网页地址链接的设计和协议的选择和消息的传输上,都比传统的WSDL的Web服务要简单得多。许多Web网站,例如Google、Amazon、Facebook、Flickr和Twitter等都提供了容易使用的、且免费访问其资源的RESTful Web服务及APIs。
ProgrammableWeb.com的统计表明:RESTful Web服务在所有Web服务中所占的比例已经达到70%,RESTful Web服务具有无固定描述格式、非结构化、采用HTML技术等特性,其页面的描述信息难以被机器自动识别和处理。而且,各个服务供应商所发布的RESTfulWeb服务页面的格式、内容、组织形式都不尽相同。随着RESTful Web服务的日渐增多,使用服务搜索引擎对互联网上的RESTful Web服务进行自动识别、获取和分析处理也是大势所趋。但是,直到目前为止,仍然没有一种解决办法能够较好地处理现实中数量庞大、半结构化的RESTful Web服务文档。
服务搜索功能的一个目标,就是能够为数量庞大的RESTful Web服务文档提供精确的搜索功能。实现这个目标的前提是从服务文档中提取出重要的描述信息。然而能否精确提取文档中的描述信息,取决于对文档结构的分析和标注是否准确。
目前,国内外对RESTful Web服务标注方法的研究都停留在手动标注上,虽然该方式的精确度尚满意;但是,其功效实在太慢,无法对现实中大量已有的RESTful Web服务页面完成实时标注。因此,RESTful Web服务页面标注的自动化是一个亟待解决的问题。
目前,有两种现有技术与网络服务页面的标注相关,其实现方式简介如下:
方案一:由RESTful Web服务的开发者手动标注页面。其实施方案是由服务开发者选用一种标注语言,目前主流的标注语言包括:描述RESTful服务的标注语言hRESTS、在网页中添加语义信息的标注语言MicroData和在网页中添加语义信息的标注语言RDFa等,具体方法是:先按照要求组织描述文档的格式,然后进行标注。
方案二:通过可视化界面对已有文档进行手动标注。其实施方案是用浏览器生成网页,再由人工对网页结构和内容进行识别和手动标注。
上述两种现有技术都可以精确地标注出文档结构,其中方案一比方案二更为优胜的地方是:标注和文档组织都是由服务开发者完成的,这意味着文档标注的准确性和完整性都能够得到最大的保障。而方案二只能够根据已有的文档结构进行标注。但是,考虑到手动标注的效率非常低,上述两个方案都没有办法解决网上现存的大量文档的标注问题,无法进入真正的实际使用。
发明内容
有鉴于此,本发明的目的是提供一种面向RESTful Web服务的自动化语义标注系统及其对RESTful Web服务页面自动语义分析和标注的方法。本发明作为首创的RESTfulWeb服务页面的自动化标注系统,较好地解决了目前只能人工标注、无法解决网上现存的大量文档急需实时标注的难题,可以有效处理海量的RESTful Web服务页面,同时提出的基于网页特征库的算法可以切实保证服务标注的准确率。
为了达到上述目的,本发明提供了一种RESTful Web服务的自动化语义标注系统,其特征在于:该系统设有下述两种组成构件:
网页处理构件,作为系统的核心构件,负责网页的自动语义分析和标注的整个处理过程:从磁盘中读取RESTful Web服务源网页,通过预处理操作对网页中的文档结构进行统一分析,并根据文档结构的分析结果将文档划分为语义上相互独立的多个文本块,再分别提取每个文本块的文本内容和提取每个文本内容中的特征项,组成文本块的特征向量,再扫描网页特征库进行特征匹配,识别各个文本块所表述的信息,以供在网页中标注;该构件设有下述四个模块:预处理模块、网页分块模块、特征匹配模块和自动标注模块;
特征处理构件,负责采用机器学习方法提取网页特征和特征分类,采用聚类算法计算每个文本块中的特征向量之间的相关程度,将网页的文本块根据特征向量的相关程度划分到多个不同的语义类别中;再计算每个文本块类中的特征项的语义相似度,根据文本块类的语义相关程度对文本块类进行二次分类,得到语义上相互独立的多个类别后,从中选取携带有用信息的语义类别,并生成这些语义类别的特征向量,存储于网页特征库中;该构件设有顺序连接的下述三个模块:特征提取模块、特征分类模块和网页特征库。
为了达到上述目的,本发明还提供了一种采用本发明系统对RESTful Web服务页面自动分析和标注的方法,其特征在于:所述方法包括下述操作步骤:
(1)训练阶段:因系统启动时,网页特征库为空,故首先进入训练阶段,生成语义类别的特征向量,作为RESTful Web服务页面的分析依据;
(2)分析标注阶段:系统读取新增添的RESTful Web服务页面,经过预处理、分块和特征提取的操作,得出该网页的文本块特征向量,再执行特征匹配操作,识别出文本块的语义,并使用包括hRESTS、MicroData和MicroWSMO的标注语言进行标注。
本发明与现有技术相比较的创新技术优点是:
前述的两种现有技术“由RESTful Web服务的开发者手动标注页面”和“通过可视化界面对已有文档进行手动标注”都属于以手动方式进行人工标注,其工作效率非常低,根本无法应用于网络上现有的大量RESTful Web服务页面。本发明首创提出RESTful Web服务页面的自动化标注系统及其标注方法,可以有效地处理海量的RESTful Web服务页面,同时所提出的基于网页特征库的算法可以切实保证服务标注的准确率。因此,本发明具有很好的推广应用前景。
附图说明
图1是本发明RESTful Web服务的自动化语义标注系统结构组成图。
图2是本发明自动化语义标注系统工作方法的训练阶段操作流程图。
图3是本发明自动化语义标注系统工作方法的分析标注阶段操作流程图。
图4是图2中训练阶段的步骤2的具体操作内容流程图。
图5是图2中训练阶段的步骤2B分块操作的一个实施例的操作流程容图。
图6是图2中训练阶段的步骤3的具体操作内容流程图。
图7是图2中训练阶段的步骤5的具体操作内容流程图。
图8是图3中分析标注阶段的步骤4特征匹配操作流程图。
图9是图3中分析标注阶段的步骤5网页标注操作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,先介绍本发明面向RESTful Web服务的自动化语义标注系统的结构组成。该系统设有两种构件:网页处理构件和特征处理构件,其结构组成与功效介绍如下:
(一)网页处理构件是系统的核心构件,负责网页的自动语义分析和标注的整个处理过程:从磁盘中读取RESTful Web服务源网页,通过预处理操作对网页中的文档结构进行统一分析,并根据文档结构的分析结果,将文档划分为语义上相互独立的多个文本块,再分别提取每个文本块的文本内容和提取每个文本内容中的特征项,组成文本块的特征向量,再扫描网页特征库进行特征匹配,识别各个文本块所表述的信息,以供在网页中标注。该构件设有下述四个模块:预处理模块、网页分块模块、特征匹配模块和自动标注模块。各模块分别具有下述功能:
预处理模块:负责对源网页进行预处理操作:读取源网页和生成网页的文档对象模型DOM(Document Object Model),它是以树形结构表示超文本标记语言HTML(HyperTextMarkup Language)文档,并对该网页的DOM执行包括删除多重嵌套和非文本节点的操作,只保留文本节点后,再检测DOM节点的嵌套结构,尤其是标题节点是否嵌套在多个DIV节点中,若是,则将标题节点从嵌套中提取出来,以保证标题节点与其兄弟文本节点在节点树的同一层中。然后将完成检测与预处理的网页DOM交给网页分块模块。
网页分块模块:负责根据网页文档结构中各个标题节点的位置划分语义上相互独立的文本块,具体处理过程为:从预处理模块读取完成预处理的网页DOM,从根节点开始遍历整个DOM树,当读取到标题节点时,将标题节点后的兄弟节点和标题节点本身都包装到一个分块DIV(Division)节点中,并作为一个文本块;然后根据标题节点的嵌套关系将文本块分成不同的嵌套等级,再将分块后的DOM交给特征处理构件中的特征提取模块。
特征匹配模块:负责网页文本块的特征匹配:从网页特征库中读取各个语义类别的特征向量,并与从特征提取模块获取的各个文本块特征向量进行比较,为每个语义类别选取匹配程度最高的文本块后,将匹配结果交给自动标注模块。
自动标注模块:负责对源网页进行语义标注:从特征匹配模块获取匹配结果,采用包括hRESTS、MicroData和MicroWSMO等标注语言(也可根据需要选用其他标注语言)在源网页中标注文本块的语义,并输出带有语义标注的RESTful Web服务页面。
(二)特征处理构件,负责采用机器学习方法提取网页特征和特征分类,采用聚类算法计算每个文本块中的特征向量之间的相关程度,将网页的文本块根据网页特征的相关程度划分到不同的语义类别中;再计算特征项的语义相似度,根据文本块类的语义相关程度进行二次分类,得到语义上相互独立的多个类别后,从中选取携带有用信息的语义类别,并生成这些语义类别的特征向量,存储于网页特征库中。该构件设有顺序连接的下述三个模块:特征提取模块、特征分类模块和网页特征库,它的各个模块分别具有下述功能:
特征提取模块:负责分析文本块的文本内容,提取文本块的特征项,组成文本块的特征向量:从网页分块模块获取分块后的DOM,对DOM中各个文本块的文本执行包括分词、删除停用词、数字等无用字词和统计词频的操作,再采用特征提取算法从中选取最能确切表示该文本块特征的多个词作为特征项,组成各个文本块的特征向量;以供在系统的训练阶段,将特征提取结果交给特征分类模块处理;或者在系统的分析标注阶段,将特征提取结果交给特征匹配模块处理。
特征分类模块:负责将文本块划分为若干个语义类别:从特征提取模块获取文本块的特征向量,采用聚类算法将文本块依据其中的特征向量的相关程度进行初步分类,得到若干个文本块类;再计算这些文本块类的特征项的语义相似度,根据语义相似度的计算结果再次对文本块类进行分类,并将语义相关程度高的文本块类聚合成一个语义类别,最后将得到的若干个语义类别的特征向量存入网页特征库中。
网页特征库,用于存储特征分类模块生成的语义类别的特征向量的集合,并通过向量计算得出文本块与每个语义类别的相关程度,以供选取计算结果数值最大、且超过设定阈值的语义类别作为匹配的语义类别。
本发明RESTful Web服务页面的自动分析和标注系统对RESTful Web服务页面进行自动分析和标注的方法,包括下述两个操作阶段:
(1)训练阶段:因系统启动时,网页特征库为空,故首先进入训练阶段:使用训练样本集合对系统进行训练,系统通过机器学习从训练样本中自动提取出文本块语义类别的特征向量,再生成网页特征库的过程,用作RESTful Web服务页面的分析依据。
(2)分析标注阶段:是系统的实际运行过程,对现实中获取的RESTful Web服务页面进行自动化分析:系统读取新增添的RESTful Web服务页面,经过预处理、分块和特征提取的操作,得出该网页的文本块特征向量,再执行特征匹配操作,识别出文本块的语义,并使用包括hRESTS、MicroData和MicroWSMO的标注语言进行标注。
下面结合附图,分别具体介绍上述两个阶段的具体操作步骤:
参见图3,介绍训练阶段的下述五个操作步骤:
(11)预处理模块读取训练网页集合,并对每个网页进行预处理操作:先提取网页主干内容,以便保留原结构的基础;再丢弃所有的非文本节点和只保留文本节点,然后,检测文档结构中的DOM节点嵌套结构时,要将处于深层嵌套中的节点提取出来,保证标题节点与其兄弟文本节点在位于节点树的同一层,从而统一文档结构。
(12)网页分块模块对网页进行分块:读取经过预处理的DOM,检测网页中的标题节点,从根节点开始遍历整个DOM树,当读取到标题节点时,生成一个新的DIV节点,并将标题节点后的兄弟节点和标题节点本身都包装到一个DIV节点中,作为一个文本块。且每次分块操作仅针对当前同一级的标题节点进行,经由逐级的分块操作,完成所有标题节点的分块。
参见图4,介绍该步骤的操作内容:
(12A)按照设定顺序遍历DOM树,当遇到标题节点时进行处理。
(12B)针对标题节点进行第一次分块操作,将标题节点及其后的所有非同级标题的兄弟节点放入一个DIV节点中,得到第一级的文本块。
参见图5,介绍该步骤分块操作的具体内容:
(B1)读取下一个节点。
(B2)检查当前节点是否为标题节点,若是,则执行后续步骤(B3);否则,返回执行步骤(B1)。
(B3)生成一个新的DIV节点,将标题节点放入DIV节点中。
(B4)读取下一个兄弟节点,若该节点为非同级标题的节点,则执行后续步骤(B5);若该节点为空或为同级标题节点,则跳转执行步骤(B6)。
(B5)将当前节点放入新的DIV节点中,并在DOM中删除原节点。
(B6)将新DIV节点插入DOM,取代标题节点在DOM中的位置。
(B7)循环执行(B1)~(B6),直到所有节点被访问。
(12C)重复执行步骤(12A)和(12B),直到DOM中所有的标题节点都被访问过。
(12D)检查每个分块,若还存在未访问的标题节点,则执行步骤(12E),否则,结束该分块操作。
(12E)进行当前层级的分块操作:遍历每个上一级DIV分块,再将分块中的标题节点及其所有非同级标题的兄弟节点放到同一个子分块中。
(12F)循环执行(12D)~(12E),直到所有标题都被访问过,结束该分块操作。
(13)对提取的文本块内容进行特征提取操作:包括分词处理,删除停用词、数字等无用字词和统计词频,再结合统计结果和使用特征提取算法对统计结果进行下述处理:计算每个词的得分,将得分高于设定阈值的词项作为该文本块的特征项,同时计算出每个特征项在文本块中的权重。
参见图6,介绍该步骤提取特征操作的具体内容:
(13A)读取一个文本块的文本内容,进行分词处理:删除停用词,并过滤掉数字、符号等无用信息。
(13B)统计各个单词在文本块中的出现次数。
(13C)重复执行步骤(13A)和(13B),直到所有文本块都处理完毕。
(13D)采用互信息等算法计算每个单词在各个文本块中的分值,选取高于设定阈值的若干个单词作为文本块的特征项,同时计算每个特征项的权重。
互信息是信息论中的一种信息度量,互信息算法经常被用于度量单词与文本的相关性。通过统计单词在某个类别文档的出现频率和非该类别文档的出现频率,能够计算该单词与该类别文档的相关程度。
(13E)生成文本块的特征向量。
(13F)重复执行步骤(13D)和(13E),直到完成生成所有文本块的特征向量。
(14)循环执行上述步骤(11)~(13),直到所有训练网页的文本块都完成特征提取操作。
(15)将文本块的所有特征项组成文本块的特征向量,并使用聚类算法完成特征分类:先用聚类算法进行第一次分类计算,即根据特征向量的相关程度将文本块划分成若干个文本块类,作为第一次分类结果;然后计算每个文本块类中的特征项的语义相似度,将语义相近的文本块类划归到一个语义类别后,进行第二次聚类运算,得出若干个大的语义类别;同时生成每个大的语义类别的特征向量,并存入网页特征库中。
参见图7,介绍该步骤生成文本块的语义特征向量操作的具体内容:
(15A)使用Kmeans等分类算法对文本块进行第一次分类,得到若干个文本块类。Kmeans算法是在文本特征向量空间中选择K个初始中心点,分别计算所有样本点到该K个中心点的距离,再根据计算结果修正所有中心点的位置。重复上述过程,直到K个中心点的位置不再发生变化。
(15B)使用WordNet等本体词库计算文本块的特征项之间的语义相似度。
(15C)基于语义相似度的计算结果对特征项进行第二次分类,得到若干个语义类别。
(15D)生成每个语义类别的特征向量,存入网页特征库。建立语义类别与hRESTS等标注语言的映射关系。
本发明方法完成训练阶段后,就进入包括下列操作步骤的分析标注阶段:
(21)特征提取模块读取RESTful Web服务页面,并对网页进行预处理操作:读取网页,生成网页的DOM节点树,扫描DOM节点,先提取网页主干内容,即在保留原结构的基础上,丢弃所有的非文本节点和只保留文本节点。然后,检测文档结构,将处于深层嵌套中的节点提取出来,以保证标题节点与其兄弟文本节点都位于节点树的同一层中,从而统一文档结构。
(22)网页分块模块对网页进行分块处理:读取预处理后的DOM,从根节点开始遍历整个DOM树,检测网页中的标题节点,每当读到标题节点时,就生成一个新的DIV节点,并把该标题节点和标题节点后的兄弟节点都包装在一个DIV节点中(作为一个文本块);同时将标题节点的嵌套关系保留于该文本块中。每次分块操作都是只针对当前同一级的标题节点进行的,经过逐级的分块操作,直到所有标题节点都被访问过。
(23)提取文本块特征:读取网页的文本块内容,进行相应的预处理操作后,结合统计结果采用特征提取算法计算每个词项的得分,再选取得分超过设定阈值的多个词项作为该文本块的特征项,基于特征项词典直接统计每个特征项的出现频次,并计算出每个特征项在文本块中的权重。
需要说明的是:上述三个步骤(21)~(23)的操作内容与第1阶段的前三个步骤(11)~(13)相同。
(24)特征匹配:将每个文本块的所有特征项都组合在一起,生成特征向量,再计算该文本块特征向量与网页特征库中每个语义类别的特征向量相关程度,选取数值最大、且超过设定阈值者为匹配的语义类别。该步骤中,每个语义类别在每个网页中有、且只有最多一个文本块与之相匹配。
参见图8,介绍该步骤特征匹配操作的具体内容:
(24A)读取文本块的特征向量。
(24B)遍历网页特征库,计算每个语义类别的特征向量与该文本块的特征向量的相关程度。
(24C)重复执行步骤(24A)和(24B),直到完成所有的文本块的计算。
(24D)选取每个语义类别匹配分值最高且超过设定阈值的文本块。
(25)网页标注:使用包括hRESTS、MicroData和MicroWSMO的标注语言在源网页中标注出匹配的文本块;
参见图9,介绍该步骤网页标注操作的具体内容:
(25A)确定匹配的文本块在源网页中的位置。
(25B)根据匹配文本块的语义类别到hRESTS等标注语言的映射关系,确定标注词。
(25C)在源网页插入标签,标记出文本块的开始和结束位置。
(25D)在文本块开始处进行标注。
(25E)重复执行上述各个步骤,直到所有匹配的文本块都完成标注。
(26)循环执行上述步骤(21)~(25),直到所有网页都处理完毕。
Claims (7)
1.一种RESTful Web服务的自动化语义标注系统,其特征在于:该系统设有下述两种组成构件:
网页处理构件,作为系统的核心构件,负责网页的自动语义分析和标注的整个处理过程:从磁盘中读取RESTful Web服务源网页,通过预处理操作对网页中的文档结构进行统一分析,并根据文档结构的分析结果将文档划分为语义上相互独立的多个文本块,再分别提取每个文本块的文本内容和提取每个文本内容中的特征项,组成文本块的特征向量,再扫描网页特征库进行特征匹配,识别各个文本块所表述的信息,以供在网页中标注;该构件设有下述四个模块:预处理模块、网页分块模块、特征匹配模块和自动标注模块;
特征处理构件,负责采用机器学习方法提取网页特征和特征分类,采用聚类算法计算每个文本块中的特征向量之间的相关程度,将网页的文本块根据特征向量的相关程度划分到多个不同的文本块类中;再计算每个文本块类中的特征项的语义相似度,根据文本块类的语义相关程度对文本块类进行二次分类,得到语义上相互独立的多个类别后,从中选取携带有用信息的语义类别,并生成这些语义类别的特征向量,存储于网页特征库中;该构件设有顺序连接的下述三个模块:特征提取模块、特征分类模块和网页特征库。
2.根据权利要求1所述的系统,其特征在于:所述网页处理构件中的各个模块的功能如下所述:
预处理模块,用于对源网页进行预处理操作:读取源网页和用于生成网页的、以树形结构表示超文本标记语言HTML文档的文档对象模型DOM,并对该网页的DOM执行包括删除多重嵌套和非文本节点的操作,只保留文本节点后,再将完成检测与预处理的网页DOM交给网页分块模块;
网页分块模块,负责根据网页文档结构中各个标题节点的位置划分语义上相互独立的文本块,具体处理过程为:从预处理模块读取完成预处理的网页DOM,从根节点开始遍历整个DOM树,当读取到标题节点时,将标题节点后的兄弟节点和标题节点本身都包装到一个分块DIV节点中,并作为一个文本块;然后根据标题节点的嵌套关系将文本块分成不同的嵌套等级,再将分块后的DOM交给特征处理构件中的特征提取模块;
特征匹配模块,负责网页文本块的特征匹配:从网页特征库中读取各个语义类别的特征向量,并与从特征提取模块获取的各个文本块特征向量进行比较,为每个语义类别选取匹配程度最高的文本块,将匹配结果交给自动标注模块;
自动标注模块,负责对源网页进行语义标注:从特征匹配模块获取匹配结果,采用包括hRESTS、MicroData和MicroWSMO的标注语言在源网页中标注文本块的语义,并输出带有语义标注的RESTful Web服务页面。
3.根据权利要求1所述的系统,其特征在于:所述特征处理构件中的各个模块的功能如下所述:
特征提取模块,负责分析文本块的文本内容,提取文本块的特征项,组成文本块的特征向量:从网页分块模块获取分块后的DOM,对DOM中各个文本块的文本执行包括分词、删除停用词和统计词频的操作,再采用特征提取算法从中选取最能确切表示该文本块特征的多个词作为特征项,组成各个文本块的特征向量;以供在系统的训练阶段,将特征提取结果交给特征分类模块处理;或在系统的分析标注阶段,将特征提取结果交给特征匹配模块处理;
特征分类模块,负责将文本块划分为若干个语义类别:从特征提取模块获取文本块的特征向量,采用聚类算法将文本块依据特征向量的相关程度进行初步分类,得到若干个文本块类;再计算这些文本块类的特征项的语义相似度,根据语义相似度的计算结果再次对文本块类进行分类,并将语义相关程度高的文本块类聚合成一个语义类别,最后将得到的若干个语义类别的特征向量存入网页特征库中;
网页特征库,用于存储特征分类模块生成的语义类别的特征向量的集合,并通过向量计算得出文本块与每个语义类别的相关程度,以供选取计算结果数值最大、且超过设定阈值的语义类别作为匹配的语义类别。
4.一种采用权利要求1所述的系统对RESTful Web服务页面自动分析和标注的方法,其特征在于:所述方法包括下述操作步骤:
(1)训练阶段:因系统启动时,网页特征库为空,故首先进入训练阶段,生成语义类别的特征向量,作为RESTful Web服务页面的分析依据;
(2)分析标注阶段:系统读取新增添的RESTful Web服务页面,经过预处理、分块和特征提取的操作,得出该网页的文本块特征向量,再执行特征匹配操作,识别出文本块的语义,并使用包括hRESTS、MicroData和MicroWSMO的标注语言进行标注。
5.根据权利要求4所述的方法,其特征在于:所述步骤(1)包括下列操作内容:
(11)预处理模块读取训练网页集合,并对每个网页进行预处理操作:先提取网页主干内容,丢弃所有的非文本节点和只保留文本节点,然后,检测文档结构,将处于深层嵌套中的节点提取出来,从而统一文档结构;
(12)网页分块模块对网页进行分块处理:检测网页中的标题节点,把标题节点和标题后的兄弟节点都包装在一个DIV节点中,同时将标题节点的嵌套关系保留于文本块中;
(13)对提取的文本块内容进行处理:包括分词处理,删除停用词和统计词频,再使用特征提取算法对统计结果进行下述处理:将得分高于设定阈值的词项作为该文本块的特征项,同时计算出每个特征项在文本块中的权重;
(14)循环执行上述步骤(11)~(13),直到所有训练网页的文本块都完成特征提取操作;
(15)将文本块的所有特征项组成文本块的特征向量,并使用聚类算法进行第一次分类计算:根据特征向量的相关程度将文本块划分成若干个文本块类,作为本次分类结果;然后计算每个文本块类中的特征项的语义相似度,将语义相近的文本块类划归到一个语义类别后,进行第二次聚类运算,得出若干个大的语义类别;同时生成每个大的语义类别的特征向量,并存入网页特征库中。
6.根据权利要求4所述的方法,其特征在于:所述步骤(2)包括下列操作内容:
(21)特征提取模块读取RESTful Web服务页面,并对网页进行预处理操作:先提取网页主干内容,丢弃所有的非文本节点和只保留文本节点,然后,检测文档结构,将处于深层嵌套中的节点提取出来,以便统一文档结构;
(22)网页分块模块对网页进行分块处理:检测网页中的标题节点,把标题节点和标题后的兄弟节点都包装在一个DIV节点中,同时将标题节点的嵌套关系保留于文本块中;
(23)提取网页的文本块内容,再基于特征项词典直接统计每个特征项的出现次数,同时计算出每个特征项在文本块中的权重;
(24)将每个文本块的所有特征项都组合在一起,生成特征向量,再计算文本块与网页特征库中每个语义类别的相关程度,选取数值最大、且超过设定阈值者为匹配的语义类别;
(25)使用包括hRESTS、MicroData和MicroWSMO的标注语言在源网页中标注出匹配的文本块;
(26)循环执行上述步骤(21)~(25),直到所有网页都处理完毕。
7.根据权利要求6所述的方法,其特征在于:所述步骤(24)中,每个语义类别在每个网页中有、且只有最多一个文本块与之相匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310506897.0A CN103559234B (zh) | 2013-10-24 | 2013-10-24 | RESTful Web服务的自动化语义标注系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310506897.0A CN103559234B (zh) | 2013-10-24 | 2013-10-24 | RESTful Web服务的自动化语义标注系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103559234A CN103559234A (zh) | 2014-02-05 |
CN103559234B true CN103559234B (zh) | 2017-01-25 |
Family
ID=50013481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310506897.0A Expired - Fee Related CN103559234B (zh) | 2013-10-24 | 2013-10-24 | RESTful Web服务的自动化语义标注系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103559234B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182210A (zh) * | 2017-12-18 | 2018-06-19 | 上海交通大学 | 基于页面信息解析的服务语义获取方法及系统 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063215A (zh) * | 2014-05-12 | 2014-09-24 | 重庆邮电大学 | 一种RESTful Web服务匹配系统 |
CN104063488B (zh) * | 2014-07-07 | 2017-09-01 | 成都安恒信息技术有限公司 | 一种半自动化学习式的表单特征提取方法 |
CN104317891B (zh) * | 2014-10-23 | 2017-11-28 | 华为软件技术有限公司 | 一种对页面标注标签的方法及装置 |
CN105577783B (zh) * | 2015-12-22 | 2018-11-16 | 用友网络科技股份有限公司 | 一种将企业内部传统的信息服务自动发布为轻量级web服务的系统 |
CN106095854B (zh) * | 2016-06-02 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 一种确定信息块的位置信息的方法及装置 |
CN108475275A (zh) * | 2016-09-26 | 2018-08-31 | 微软技术许可有限责任公司 | 识别视频页面 |
CN108664512B (zh) * | 2017-03-31 | 2021-02-09 | 华为技术有限公司 | 文本对象分类方法及装置 |
CN108694206A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 信息处理方法和装置 |
CN108415950B (zh) * | 2018-02-01 | 2021-03-23 | 腾讯科技(深圳)有限公司 | 一种上位词聚合方法及装置 |
US20220228356A1 (en) * | 2021-01-21 | 2022-07-21 | Arcadis U.S., Inc. | Actionable stormwater services platform |
CN115600577B (zh) * | 2022-10-21 | 2023-05-23 | 文灵科技(北京)有限公司 | 一种用于新闻稿件标注的事件分割方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637172A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 网页分块标注方法与系统 |
KR20130097927A (ko) * | 2012-02-27 | 2013-09-04 | 충북대학교 산학협력단 | Rest 기반 웹 서비스 조합 시스템 및 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9934029B2 (en) * | 2009-12-15 | 2018-04-03 | Teradata Us, Inc. | Annotation driven representational state transfer (REST) web services |
US9130975B2 (en) * | 2010-06-02 | 2015-09-08 | Avaya Inc. | Generation of macros |
-
2013
- 2013-10-24 CN CN201310506897.0A patent/CN103559234B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637172A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 网页分块标注方法与系统 |
KR20130097927A (ko) * | 2012-02-27 | 2013-09-04 | 충북대학교 산학협력단 | Rest 기반 웹 서비스 조합 시스템 및 방법 |
Non-Patent Citations (1)
Title |
---|
基于语义相似度计算的词汇语义自动分类系统;李杰等;《计算机仿真》;20080831;第25卷(第8期);全文 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182210A (zh) * | 2017-12-18 | 2018-06-19 | 上海交通大学 | 基于页面信息解析的服务语义获取方法及系统 |
CN108182210B (zh) * | 2017-12-18 | 2020-11-17 | 上海交通大学 | 基于页面信息解析的服务语义获取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103559234A (zh) | 2014-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103559234B (zh) | RESTful Web服务的自动化语义标注系统和方法 | |
CN101957816B (zh) | 基于多页面比较的网页元数据自动抽取方法和系统 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
Liu et al. | Vide: A vision-based approach for deep web data extraction | |
Zheng et al. | Template-independent news extraction based on visual consistency | |
CN106126648B (zh) | 一种基于重做日志的分布式商品信息爬虫方法 | |
CN100444591C (zh) | 获取网页关键字的方法及其应用系统 | |
CN101727498A (zh) | 一种基于web结构的网页信息自动提取方法 | |
CN103823824A (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
CN102622453A (zh) | 基于本体的食品安全事件语义检索系统 | |
Xu et al. | Novel approach of semantic annotation by fuzzy ontology based on variable precision rough set and concept lattice | |
CN104765882A (zh) | 一种基于网页特征字符串的互联网网站统计方法 | |
CN102591931B (zh) | 基于树权值的网页数据记录识别和抽取方法 | |
Pei et al. | Constructing a global ontology by concept mapping using wikipedia thesaurus | |
CN111966940B (zh) | 一种基于用户请求序列的目标数据定位方法和装置 | |
Nethra et al. | WEB CONTENT EXTRACTION USING HYBRID APPROACH. | |
CN108052507A (zh) | 一种城市管理信息舆情分析系统及方法 | |
CN100336061C (zh) | 多媒体对象检索设备和方法 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
YesuRaju et al. | A language independent web data extraction using vision based page segmentation algorithm | |
Chuang et al. | Tree-structured template generation for web pages | |
Li et al. | Hybrid method for automated news content extraction from the Web | |
Dong et al. | A generic Web news extraction approach | |
Pan et al. | Web page content extraction method based on link density and statistic | |
Lim et al. | Generalized and lightweight algorithms for automated web forum content extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170125 |
|
CF01 | Termination of patent right due to non-payment of annual fee |