CN104281714A - 医院门户网站门诊专家信息抽取系统 - Google Patents
医院门户网站门诊专家信息抽取系统 Download PDFInfo
- Publication number
- CN104281714A CN104281714A CN201410591272.3A CN201410591272A CN104281714A CN 104281714 A CN104281714 A CN 104281714A CN 201410591272 A CN201410591272 A CN 201410591272A CN 104281714 A CN104281714 A CN 104281714A
- Authority
- CN
- China
- Prior art keywords
- node
- list
- domain model
- query interface
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明公开了一种医院门户网站门诊专家信息抽取系统,对于查询接口的发现和筛选,采用静态发现和动态筛选相结合的方式,静态发现利用制定的规则,发现web页面中的查询表单;对于无法判断为查询接口的查询表单,采用动态筛选的方法,根据服务器的返回结果进行二次判断。在本发明中,通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省了系统的开销。对于信息抽取时,噪声信息的过滤,提出了一种网页分块重要度模型,该模型根据网页分块的内容特征和空间特征,通过一定的算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。
Description
技术领域
本发明属于医学信息学领域,具体涉及一种医院门户网站门诊专家信息抽取系统。
背景技术
目前,绝大多数医院的门户网站上都会有该医院专家信息(职称、科室、擅长领域、门诊时间等)的介绍。经过对江苏省二级甲等以上的医院的门户网站进行了统计,结果显示,90%以上的医院网站上均有专家信息的介绍以及门诊时间,在抽查的样本中,40%左右的信息是以静态页面的形式呈现(也称浅层网,surface web),其余均以查询的方式呈现(也称深层网,deep web)(M.K. Bergman. The Deep Web: Surfacing Hidden Value[J]. The Journal of Electronic Publishing.2001,7(1):8912-8914),即需要通过参数查询的方式才能获取到需要的专家信息。无论是浅网数据,还是深层网数据,如果在某一区域范围内,能够将各个医院所有的专家信息进行收集,并集成到社区居民电子健康档案系统数据库当中,将为社区居民的就医提供极大的便利。
信息抽取(Information Extraction,IE)指的是利用相关的算法,从未知的用自然语言描述的文档中,抽取具有固定格式的、无歧义的以及结构化或半结构化的信息。(Thanaa M. Ghanem, Walid G. Aref. Databases Deepen the Web[J]. IEEE Computer Society Press Los Alamitos, 2004, 37(1): 116-117.)。目前信息抽取的主要对象是具有海量非结构化数据的业务系统,如电子病历系统(王理,张远鹏,董建成.利用领域关联知识从电子病历中抽取检查数据[J].中华医院管理杂志,2014,3(30):210-213),或者是Web资源。本文所抽取的对象是web资源。关于Web页面的信息抽取,国内外已经有大量的文献报道。伊利诺伊大学厄本那-香槟分校的研究人员(MetaQuerier Research Group. Aceessible at http://metaquerier.es.uiuc.edu/ Oetober,2005)利用谷歌搜索引擎和Web目录服务人工收集了8个领域的441个Deep Web中的477个查询接口,构建了TEL-8数据集,为后续的研究奠定了基础。J Cope等(J Cope,N Craswell, D Hawking. Automated Discovery of search Interfaces on the web[C]. Proceedings of the l4th Australasian database conference, 2003, 143:181-189)在deep web数据抽取时,根据web表单特征,利用C4.5算法,构建表单分类器,但是该方法的准确率和正确率并不高,不能满足实际抽取的需要。本文在J Cope的研究基础上,通过构建领域模型,实现查询接口的分类和二次判别。对于返回的查询结果,往往包含许多与抽取主题无关噪声信息,对于噪声信息的过滤,目前大多数采用的是基于规则的方法,例如,Yan Fu(Yan F, Dongqing Yang, Shiwei Tang. Using XPath to Discover Informative Content Blocks of Web Pages[C]. Proceedings of the third International Conference on Semantics, Knowledge and Grid. SKG, 2007, 450-453)等人提出了XPath算法,并将该方法在5类不同的网页数据上进行测试,准确率和正确率分别为92%和83.2%。但是,该方法的使用需要有一个重要的前提,即抽取的网页需要具备类似的布局,当抽取的网页数量非常庞大时,这一前提很难保证,因此,基于规则的方法具有一定的局限性。
对于医院门户网站门诊专家信息的抽取,所用技术主要体现在查询接口(web表单)的发现和筛选以及信息抽取时噪声信息的过滤。
对于查询接口的发现和筛选,目前J Cope等提出了一种基于规则的查询接口的发现的方法,该方法认为:(1)web页面中必须含有form元素;(2)form元素中必须含有Text元素;(3)form元素内,至少包含一个“搜索”、“查询”等类似关键词。但是该方法存在一定的缺陷:(1)无法将搜索引擎表单区分开来;(2)仅仅根据web页面的源码信息,总结查询接口的特征,具有一定的局限性。Bergholz等人构建了一种“正负”查询策略,正查询选取领域相关的关键词进行提交,负查询选取与领域无关的关键词进行提交。他们认为,对于deep web查询接口,所有负查询返回的页面的相似度一般不超过5%;绝大多数正查询返回的页面大小是负查询的至少3倍以上,且LDS大于IK。但是这种判断方式需要进行2次查询,系统的开销比较大,而且一般只实用于全文查询表单,对于多属性查询表单,显得无能为力,因此具有一定的局限性。
对于信息抽取时噪声信息的过滤,Yan Fu等人提出了XPath算法,并将该方法在5类不同的网页数据上进行测试,准确率和正确率分别为92%和83.2%。但是,该方法的使用需要有一个重要的前提,即抽取的网页需要具备类似的布局,当抽取的网页数量非常庞大时,这一前提很难保证,因此,基于规则的方法具有一定的局限性。
公开的专利,申请号为201010256704.7,名称为“一种网页分块的重要度评估方法和设备”的专利中,使用的方法是识别分块的类型,分配权值,并进行排序,目的是在移动终端上,对于权值低的分块,进行折叠显示,对于权重高的分块,展开显示。而在本专利中,想获取与抽取主题相关的分块,采用的方法是通过人工标注部分分块,将其表示为(x,y)的形式,其中x表示分块的特征,y表示分块的重要程度值,对于标注的数据进行训练,形成训练集合T;因此,归结为寻找函数f(x),使相关函数取得最小值。
发明内容
发明目的:为了解决现有技术的不足,本发明提供了一种医院门户网站门诊专家信息抽取系统。对于技术背景中所阐述的存在的技术问题,在本发明中将做出改善。
技术方案:一种医院门户网站门诊专家信息抽取系统,主要包括如下2个步骤:
步骤一、查询接口的发现和筛选:
采用静态发现和动态筛选相结合的方式:
静态发现:主要是利用制定的规则,发现web页面中的查询表单;
但并非所有查询表单都是所需要的查询接口,因此,对于无法判断为查询接口的查询表单,采用动态筛选的方法,即通过“二次探测查询”的方式,根据服务器的返回结果进行二次判断:通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省系统的开销;
步骤二、对于信息抽取过程中,噪声信息的过滤:
对于信息抽取时,噪声信息的过滤,采用网页分块重要度模型,所述模型根据网页分块的内容特征和空间特征,通过重要程度值的计算算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。
作为进一步优化,所述步骤一中,静态发现具体为:
将表单元素定义成为一个五元组:
Form={{C1,C2,C3…Cn},A,N,M,U}
上述元组中,{C1,C2,C3…Cn}表示表单元素所包含的表单域控件;
A表示表单的Action属性,即接收处理表单元素的URL;
N表示表单元素的名称,即name值;
M表示表单提交的方法,即POST或GET,U表示表单元素所在的web页面的URL;
设集合T={Password,File,Textarea},即表示由密码框、文件上传框以及多行文本框组成的集合,进行静态筛选时,遵循以下的规则:
(1)若 T,,则舍弃该Form表单;
(2)若A是属于外站的URL,则舍弃该Form表单;
(3)若n=1,则舍弃该Form表单(该表单可能是搜索引擎);
作为进一步优化,所述步骤一中,动态筛选具体为:
利用领域模型,选取领域关键词,对上述无法确定为查询接口的查询表单进行二次查询:故先给出(a)领域模型的定义,然后给出(b)构建领域模型的方法以及(c)查询接口的分类和判断方法。
作为进一步优化,所述(a)领域模型的定义,具体为:
领域模型可以定义为:DM=(V,v0,E,△,TP,TPL,N,NL,LB,LbL,Val,ValL,tf,R,≤)该15元组中,各个元素的含义如下:
V表示DM中所有节点的集合;
v0表示DM的根节点,且;
E表示父节点和子节点所组成边的集合;
△表示DM中所使用的所有字符的集合;
TP表示节点V到节点表单域类型集合的映射,节点表单域类型集合为{Text,RadioBox,CheckBox,Select},分别表示文本框、单选框、多选框以及下拉列表框;
TPL表示节点V到节点表单域类型列表{TP*}的映射,返回节点V可能的所有表单域类型;
N表示节点V到△的映射,返回节点V默认表单域名称;
NL表示节点V到表单域名称列表{N*}的映射,返回节点V可能的表单域名称;
Lb表示节点V到△的映射,返回节点V的默认标签;
Lbl表示节点V到标签列表{Lb*}的映射,返回节点V可能的标签列表;
Val表示节点V到△的映射,返回节点V的默认值;
ValL表示节点V到默认值列表{Val*}的映射,返回节点V可能的默认值列表;
tf表示节点V到N(自然数)的映射,返回节点V在所有接口中出现的次数;
R表示节点V到集合{range,part,group,constraint}的映射,返回节点V与父亲节点的关系,其中,range表示节点V的父节点是一个区间元素,且V是区间的一个成分;part表示节点V是父节点的组成部分;group表示节点V与其他兄弟节点表示同一语义;constraint表示节点V是对父节点的一种约束;
≤表示DM中节点的顺序,是一个二元关系,如,表示节点u在节点v之前出现。
作为进一步优化,所述(b)构建领域模型的方法,具体为:
对于领域模型的构建,首先选取某领域的一个查询接口作为初始的领域模型,然后通过不断和该领域内其他查询接口的合并,以产生含有更多属性信息的领域模型,周而复始的重复这个过程,最终形成稳定的领域模型;
在这个合并的过程中,遵循以下四条规则:
添加(Add):若节点v与DM中的节点的语义均不相同,则在DM中添加以节点v为根节点的子树;
更新(Update):若DM中有与节点v语义相同的节点u,则将节点v的TP、N、Lb、Val等更新到u节点的TPL、NL、LbL和ValL中;
细化(Refine):若DM中有与节点v语义相近的节点u,并且节点v中包含了u中不含的属性,则添加节点v作为u的子节点;
泛化(Generalize):若DM中有若干个兄弟节点与节点v语义相近,且节点v是这些兄弟节点的泛化,则添加节点v作为第一个兄弟节点的父节点的子节点,同时将这些兄弟节点作为节点v的子节点。
作为进一步优化,所述(c)查询接口的分类和判断,具体为:
对于动态筛选中,需要进行二次查询的表单,根据上述建立的领域模型,对其进行分类和模式抽取,确定表单中属性与领域模型中节点的对应关系,从而为表单中的属性选取合适的候选值,进而提交查询;
其算法流程描述如下:
对于待处理表单Form={{C1,C2,C3…Cn},A,N,M,U},抽取{C1,C2,C3…Cn}的属性词;
对属性词进行规范化处理,如去掉停用词、词干还原、非法字符过滤等;
通过遍历,查找领域模型中与属性词对应的节点,与之匹配的领域模型记为;
利用空间向量模型,计算Form表单与的相似度,选择相似度最大的作为Form表单的领域分类;
根据分类结果,选择关键词进二次查询,对于返回的结果页面,利用下文提出的分块重要度模型,获取重要程度值最高的分块内容,进而确定Form是否为deep web查询接口。
作为进一步优化,所述步骤二中,重要程度值的计算算法为:采用机器学习的方法,通过人工标注部分分块,将其表示为(x,y)的形式,其中x表示分块的特征,y表示分块的重要程度值,对于标注的数据进行训练,形成训练集合T;因此,归结为寻找函数f(x),使得取得最小值。
有益效果:本发明提出分块重要度模型,将网页数据进行分块,通过构建分类器,过滤噪声信息。对于查询接口的发现和筛选,采用静态发现和动态筛选相结合的方式,静态发现主要是利用制定的规则,发现web页面中的查询表单(并非所有查询表单都是所需要的查询接口);对于无法判断为查询接口的查询表单,采用动态筛选的方法,即通过“二次探测查询”的方式,根据服务器的返回结果进行二次判断。在本发明中,通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省了系统的开销。
对于信息抽取时,噪声信息的过滤,提出了一种网页分块重要度模型,该模型根据网页分块的内容特征和空间特征,通过一定的算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。
附图说明
图1为本发明中信息抽取流程示意图;
图2为本发明中用于门诊领域模型的初始查询接口;
图3为与图2相对应的树状模型;
图4为本发明中用于构建门诊领域模型的查询接口;
图5为与图4相对应的树状模型;
图6为图3与图5合并后的DM树状模型。
具体实施方式
下面结合具体实施例对本发明作进一步说明。对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
实施例
A查询接口的发现和筛选
1.查询接口的筛选
web页面中的查询接口,主要是以表单的形式呈现。web表单是HTML中的高级元素,主要由<form></form>标记组成。<form></form>之间的内容为表单域,主要包含文本框、密码框、单选按钮、复选按钮等。但是,除了查询接口以表单的形式呈现以外,web页面中的登陆、用户注册、问题反馈以及搜索引擎都可能会以表单的形式呈现,因此,需要对web页面中的表单进行筛选,确定正确的查询接口。J Cope等提取web页面中表单的特征,构建分类器对表单进行判断,但是该方法的准确率和正确率只有87%和85%,还不能满足实际的需要。但是,J Cope等人在构建分类器过程中,所使用的一些启发式规则是可以借鉴的。本文在进行查询接口筛选时,首先利用启发式规则对表单进行静态筛选(Static Filter);其次,对于静态筛选后的表单,若仍然不能确定是否为查询接口,则寻找表单所属领域的关键词进行填充并提交查询,根据服务器返回至客户端的结果进行判断,称之为动态筛选(dynamic Filter)。
2.静态筛选
通过对web页面中的查询接口表单进行分析发现,这类表单一般不含有密码框、文件上传框、多行文本框等。故静态筛选的目的是过滤包含上述表单域的表单元素。为了更好的进行描述静态筛选的过程,可以将表单元素定义成为一个五元组:
Form={{C1,C2,C3…Cn},A,N,M,U}
在上述元组中,{C1,C2,C3…Cn}表示表单元素所包含的表单域控件,A表示表单的Action属性,即接收处理表单元素的URL,N表示表单元素的名称,即name值,M表示表单提交的方法,即POST或GET,U表示表单元素所在的web页面的URL。假设集合T={Password,File,Textarea}表示由密码框、文件上传框以及多行文本框组成的集合,则在静态筛选时,需要遵循以下的规则:
(1)若T,,则舍弃该Form表单;
(2)若A是属于外站的URL,则舍弃该Form表单;
(3)若n=1,则舍弃该Form表单(该表单可能是搜索引擎);
3.动态筛选
对于静态筛选仍然无法判断的表单,需要通过“二次探测查询”的方式,根据服务器的返回结果进行二次判断。Bergholz(Begholz,A. Childlovskii,B.. A Crawling for domain-specific hidden Web resources[C]. In: Proceedings of the Fourth International Conference on Web information Systems Engineering, 2003)等人构建了一种“正负”查询策略,正查询选取领域相关的关键词进行提交,负查询选取与领域无关的关键词进行提交。他们认为,对于deep web查询接口,所有负查询返回的页面的相似度一般不超过5%;绝大多数正查询返回的页面大小是负查询的至少3倍以上,且LDS大于IK。但是这种判断方式需要进行2次查询,系统的开销比较大,而且一般只实用于全文查询表单,对于多属性查询表单,显得无能为力,因此具有一定的局限性。在本文中,通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省了系统的开销。
4.领域模型
领域模型的概念
2002年12月,伊利诺伊大学厄本那-香槟分校UIUC的研究人员利用谷歌搜索引擎和Web目录服务人工收集了8个领域的441个Deep Web中的477个查询结口,并对其进行了统计分析,得出了2个查询接口具有的非常重要的特征:(1)每个查询接口所包含的属性的个数是有限的;(2)虽然同一个领域内的查询接口的数量非常多,但是表示查询接口属性的词汇通过聚合以后,具有收敛性。基于这两个重要的特征,可以建立一个模型,来表示某领域内所有查询接口的属性,即领域模型(Domain Model)。对于领域模型的形式化定义,可以采用一个包含15元组的树形结构进行表示。
定义1:领域模型可以定义为:,DM=(V,v0,E,△,TP,TPL,N,NL,LB,LbL,Val,ValL,tf,R,≤)该15元组中,各个元素的含义如下:
V表示DM中所有节点的集合;
v0表示DM的根节点,且;
E表示父节点和子节点所组成边的集合;
△表示DM中所使用的所有字符的集合;
TP表示节点V到节点表单域类型集合的映射,节点表单域类型集合为{Text,RadioBox,CheckBox,Select},分别表示文本框、单选框、多选框以及下拉列表框;
TPL表示节点V到节点表单域类型列表{TP*}的映射,返回节点V可能的所有表单域类型;
N表示节点V到△的映射,返回节点V默认表单域名称;
NL表示节点V到表单域名称列表{N*}的映射,返回节点V可能的表单域名称;
Lb表示节点V到△的映射,返回节点V的默认标签;
Lbl表示节点V到标签列表{Lb*}的映射,返回节点V可能的标签列表;
Val表示节点V到△的映射,返回节点V的默认值;
ValL表示节点V到默认值列表{Val*}的映射,返回节点V可能的默认值列表;
tf表示节点V到N(自然数)的映射,返回节点V在所有接口中出现的次数;
R表示节点V到集合{range,part,group,constraint}的映射,返回节点V与父亲节点的关系,其中,range表示节点V的父节点是一个区间元素,且V是区间的一个成分;part表示节点V是父节点的组成部分;group表示节点V与其他兄弟节点表示同一语义;constraint表示节点V是对父节点的一种约束;
≤表示DM中节点的顺序,是一个二元关系,如,表示节点u在节点v之前出现;
领域模型的构建对于领域模型的构建,首先选取某领域的一个查询接口作为初始的领域模型,然后通过不断和该领域内其他查询接口的合并,以产生含有更多属性信息的领域模型,周而复始的重复这个过程,最终形成稳定的领域模型。在这个合并的过程中,需要遵循以下四条规则:
(1)添加(Add):若节点v与DM中的节点的语义均不相同,则在DM中添加以节点v为根节点的子树;
(2)更新(Update):若DM中有与节点v语义相同的节点u,则将节点v的TP、N、Lb、Val等更新到u节点的TPL、NL、LbL和ValL中;
(3)细化(Refine):若DM中有与节点v语义相近的节点u,并且节点v中包含了u中不含的属性,则添加节点v作为u的子节点;
(4)泛化(Generalize):若DM中有若干个兄弟节点与节点v语义相近,且节点v是这些兄弟节点的泛化,则添加节点v作为第一个兄弟节点的父节点的子节点,同时将这些兄弟节点作为节点v的子节点。
按照上述四条规则不断进行查询接口的合并,领域模型也随之趋于稳定,当领域模型不在变化时,则停止构建。
5.查询接口的分类和判断
对于动态筛选中,需要进行二次查询的表单,需要根据上述建立的领域模型,对其进行分类和模式抽取,确定表单中属性与领域模型中节点的对应关系,从而为表单中的属性选取合适的候选值,进而提交查询。其算法流程描述如下:
(1)对于待处理表单Form={{C1,C2,C3…Cn},A,N,M,U},抽取{C1,C2,C3…Cn}的属性词;
(2)对属性词进行规范化处理,如去掉停用词、词干还原、非法字符过滤等;
(3)通过遍历,查找领域模型中与属性词对应的节点,与之匹配的领域模型记为;
(4)利用空间向量模型,计算Form表单与的相似度,选择相似度最大的作为Form表单的领域分类;
(5)根据分类结果,选择关键词进二次查询,对于返回的结果页面,利用下文提出的分块重要度模型,获取重要程度值最高的分块内容,进而确定Form是否为deep web查询接口。
B对于信息抽取过程中,噪声信息的过滤
通过查询接口获取的结果页面中,往往包含与抽取主题无关的噪声信息,例如广告信息、导航信息、版本信息等。如表1分块等级所示,对返回的网页页面模块进行了分级,在进行信息抽取时,需要对噪声信息进行过滤,避免产生主题漂移的现象。为了解决此问题,本文在网页分块的基础之上,提出了一种网页分块重要度模型,该模型根据网页分块的内容特征和空间特征,通过一定的算法为其分配重要程度值。重要程度值的计算算法主要有2种,一种是基于规则的方法,但是这种方法在分块特征很多时,无法准确的构造出规则函数;另外一种方法是采用机器学习的方法,该方法通过人工标注部分分块,将其表示为(x,y)的形式,其中x表示分块的特征,y表示分块的重要程度值,对于标注的数据进行训练,形成训练集合T。因此,模型学习的问题可以归结为寻找函数f(x),使得取得最小值的问题。对于这样的分类问题,目前有非常多的学习方法,本文采用支持向量机(Support Vector Machine,SVM)。
表1 分块等级
以下结合实例,通过3个具体实施方式分别对领域模型的构建、领域模型实验以及分块重要度模型实验这3块进行阐述。
具体实施例1:领域模型的构建
下面以门诊领域为例,依据上述理论,阐述其领域模型构建过程。
图1为本发明中用于门诊领域模型的初始查询接口;图2为与图1相对应的树状模型;
图3为本发明中用于构建门诊领域模型的查询接口;图4为与图3相对应的树状模型;图5为图2与图4合并后的DM树状模型。
以图2作为初始的领域模型,与图4进行合并,合并后为图5,合并的算法描述如下:
ReadInterfaceNode(NodeList *construct_nl);//读取用于构建领域模型的查询接口的属性节点,形成节点列表;
ReadInterfaceNode(NodeList *init_nl);// 读取用于初始查询接口的属性节点,形成节点列表;
for(i=0;i< init_nl->count;i++)
{
for(j=0;j< construct_nl->count;j++)
{
Result=CompareSemantics(init_nl, construct_nl);//比较初始查询接口属性节点与用于构建领域模型的查询接口的属性节点的语义
switch(Result)
{
case ADD: Add(init_nl); break;//满足DM构建规则(1)
case UPDATE: Update(init_nl); break;// 满足DM构建规则(2)
case REFINE: Refine (init_nl); break;// 满足DM构建规则(3)
case GENERALIZE: Generalize (init_nl); break;// 满足DM构建规则(4)
}
j++;
}
i++;
}
具体实施例2:领域模型实验
为了验证查询接口判定效果,笔者从全国的二级甲等及以上医院人工收集了120个用于门诊查询deep web查询接口,同时,从web上收集了60个非deep web查询接口,主要包含一些注册表单、搜索引擎、登陆表单等。对于评价指标,本文选取准确率和正确率,二者的计算方法如下所示:
准确率=正确判断为deep web查询接口数目/(正确判断的deep web查询接口数目+错误判断的deep web查询接口数目)
正确率=(正确判断为deep web查询接口数目+正确判断为非deep web查询接口数目)/全部查询接口数目
接口判断的实验结果如表2 查询接口判断结果所示:
表2 查询接口判断结果
本实验中,将一例非deep web接口误判为deep web接口,通过人工分析发现,该接口是一包含2个表单域的站外搜索引擎,该搜索引擎所搜索的信息在本站显示,但是超链接所指向的站点均为外网,所以该接口应该为非deep web查询接口。本文的实验结果,与J Cope的判断方法进行比较,在查询接口判断的正确率和准确率方面有了明显的提升。
具体实施例3:分块重要度模型实验
为了对分块重要程度模型进行验证,选择2500个通过查询接口返回的页面作为测试数据,将其分成2组,选择RFB-SVM作为学习算法,同时与Yan Fu等人的XPath算法在相同的数据集上进行比较,采用准确率(P),召回率(R)以及F1值作为评价指标,实验结果如表3 分块重要度模型实验结果所示。
表3 分块重要度模型实验结果
从表3可以看出,当网页数量比较多时,很难保证所有的网页都具备相同的布局,同时也很难去构建规则函数。而本文所提出的分块重要度模型,根据页面的内容特征和空间特征,采用机器学习的方法对页面分块的重要程度进行判断,各项指标均优于XPath算法,具有一定的实用价值。
综上所述,本发明中,为了自动抽取医院门户网站的门诊专家信息,首先要解决查询接口判别的问题,针对此问题,根据查询接口的属性特征,构建了一种树状结构的领域模型,用于对查询接口进行分类判别,并进行领域关键词的填写。其次,对于返回的网页,需要进行噪声过滤,针对此问题,提出了分块重要程度模型。实验结果表明,基于领域模型的查询接口判别方法比基于规则方法的准确率提高了4.89%,分块重要程度模型的F1值比XPath方法提高了10.5%。区域门诊专家数据库的建立,作为区域电子健康档案共享平台功能的补充,具有非常重要的意义。deep web信息抽取技术在该数据库构建过程中,扮演者非常重要的角色。本发明在已有方法的基础之上,提出了新的思路和方法,且通过实验证明了该方法的有效性和实用性。
Claims (7)
1.一种医院门户网站门诊专家信息抽取系统,其特征在于:主要包括如下2个步骤:
步骤一、查询接口的发现和筛选:
采用静态发现和动态筛选相结合的方式:
静态发现:主要是利用制定的规则,发现web页面中的查询表单;
但并非所有查询表单都是所需要的查询接口,因此,对于无法判断为查询接口的查询表单,采用动态筛选的方法,即通过“二次探测查询”的方式,根据服务器的返回结果进行二次判断:通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省系统的开销;
步骤二、对于信息抽取过程中,噪声信息的过滤:
对于信息抽取时,噪声信息的过滤,采用网页分块重要度模型,所述模型根据网页分块的内容特征和空间特征,通过重要程度值的计算算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。
2.根据权利要求1所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述步骤一中,静态发现具体为:
将表单元素定义成为一个五元组:
Form={{C1,C2,C3…Cn},A,N,M,U}
上述元组中,{C1,C2,C3…Cn}表示表单元素所包含的表单域控件;
A表示表单的Action属性,即接收处理表单元素的URL;
N表示表单元素的名称,即name值;
M表示表单提交的方法,即POST或GET,U表示表单元素所在的web页面的URL;
设集合T={Password,File,Textarea},即表示由密码框、文件上传框以及多行文本框组成的集合,进行静态筛选时,遵循以下的规则:
(1)若 T,,则舍弃该Form表单;
(2)若A是属于外站的URL,则舍弃该Form表单;
(3)若n=1,则舍弃该Form表单(该表单可能是搜索引擎)。
3.根据权利要求1所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述步骤一中,动态筛选具体为:
利用领域模型,选取领域关键词,对上述无法确定为查询接口的查询表单进行二次查询:故先给出(a)领域模型的定义,然后给出(b)构建领域模型的方法以及(c)查询接口的分类和判断方法。
4.根据权利要求3所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述(a)领域模型的定义,具体为:
领域模型可以定义为:DM=(V,v0,E,△,TP,TPL,N,NL,LB,LbL,Val,ValL,tf,R,≤)该15元组中,各个元素的含义如下:
V表示DM中所有节点的集合;
v0表示DM的根节点,且;
E表示父节点和子节点所组成边的集合;
△表示DM中所使用的所有字符的集合;
TP表示节点V到节点表单域类型集合的映射,节点表单域类型集合为{Text,RadioBox,CheckBox,Select},分别表示文本框、单选框、多选框以及下拉列表框;
TPL表示节点V到节点表单域类型列表{TP*}的映射,返回节点V可能的所有表单域类型;
N表示节点V到△的映射,返回节点V默认表单域名称;
NL表示节点V到表单域名称列表{N*}的映射,返回节点V可能的表单域名称;
Lb表示节点V到△的映射,返回节点V的默认标签;
Lbl表示节点V到标签列表{Lb*}的映射,返回节点V可能的标签列表;
Val表示节点V到△的映射,返回节点V的默认值;
ValL表示节点V到默认值列表{Val*}的映射,返回节点V可能的默认值列表;
tf表示节点V到N(自然数)的映射,返回节点V在所有接口中出现的次数;
R表示节点V到集合{range,part,group,constraint}的映射,返回节点V与父亲节点的关系,其中,range表示节点V的父节点是一个区间元素,且V是区间的一个成分;part表示节点V是父节点的组成部分;group表示节点V与其他兄弟节点表示同一语义;constraint表示节点V是对父节点的一种约束;
≤表示DM中节点的顺序,是一个二元关系,如,表示节点u在节点v之前出现。
5.根据权利要求3所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述(b)构建领域模型的方法,具体为:
对于领域模型的构建,首先选取某领域的一个查询接口作为初始的领域模型,然后通过不断和该领域内其他查询接口的合并,以产生含有更多属性信息的领域模型,周而复始的重复这个过程,最终形成稳定的领域模型;
在这个合并的过程中,遵循以下四条规则:
添加(Add):若节点v与DM中的节点的语义均不相同,则在DM中添加以节点v为根节点的子树;
更新(Update):若DM中有与节点v语义相同的节点u,则将节点v的TP、N、Lb、Val等更新到u节点的TPL、NL、LbL和ValL中;
细化(Refine):若DM中有与节点v语义相近的节点u,并且节点v中包含了u中不含的属性,则添加节点v作为u的子节点;
泛化(Generalize):若DM中有若干个兄弟节点与节点v语义相近,且节点v是这些兄弟节点的泛化,则添加节点v作为第一个兄弟节点的父节点的子节点,同时将这些兄弟节点作为节点v的子节点。
6.根据权利要求3所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述(c)查询接口的分类和判断,具体为:
对于动态筛选中,需要进行二次查询的表单,根据上述建立的领域模型,对其进行分类和模式抽取,确定表单中属性与领域模型中节点的对应关系,从而为表单中的属性选取合适的候选值,进而提交查询;
其算法流程描述如下:
对于待处理表单Form={{C1,C2,C3…Cn},A,N,M,U},抽取{C1,C2,C3…Cn}的属性词;
对属性词进行规范化处理,如去掉停用词、词干还原、非法字符过滤等;
通过遍历,查找领域模型中与属性词对应的节点,与之匹配的领域模型记为;
利用空间向量模型,计算Form表单与的相似度,选择相似度最大的作为Form表单的领域分类;
根据分类结果,选择关键词进二次查询,对于返回的结果页面,利用下文提出的分块重要度模型,获取重要程度值最高的分块内容,进而确定Form是否为deep web查询接口。
7.根据权利要求1-6项所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述步骤二中,重要程度值的计算算法为:采用机器学习的方法,通过人工标注部分分块,将其表示为(x,y)的形式,其中x表示分块的特征,y表示分块的重要程度值,对于标注的数据进行训练,形成训练集合T;因此,归结为寻找函数f(x),使得取得最小值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410591272.3A CN104281714A (zh) | 2014-10-29 | 2014-10-29 | 医院门户网站门诊专家信息抽取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410591272.3A CN104281714A (zh) | 2014-10-29 | 2014-10-29 | 医院门户网站门诊专家信息抽取系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104281714A true CN104281714A (zh) | 2015-01-14 |
Family
ID=52256587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410591272.3A Pending CN104281714A (zh) | 2014-10-29 | 2014-10-29 | 医院门户网站门诊专家信息抽取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281714A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909680A (zh) * | 2017-03-03 | 2017-06-30 | 中国科学技术信息研究所 | 一种基于知识组织语义关系的科技专家信息聚合方法 |
CN109597883A (zh) * | 2018-12-20 | 2019-04-09 | 福州瑞芯微电子股份有限公司 | 一种基于视频采集的语音识别装置和方法 |
CN109921981A (zh) * | 2019-01-31 | 2019-06-21 | 沈阳工程学院 | 一种基于通讯接口的信息传递方法及系统 |
CN110222251A (zh) * | 2019-05-27 | 2019-09-10 | 浙江大学 | 一种基于网页分割和搜索算法的服务包装方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1702654A (zh) * | 2004-04-29 | 2005-11-30 | 微软公司 | 计算显示页面中块的重要度的方法和系统 |
US20080040326A1 (en) * | 2006-08-14 | 2008-02-14 | International Business Machines Corporation | Method and apparatus for organizing data sources |
CN103257981A (zh) * | 2012-06-12 | 2013-08-21 | 苏州大学 | 基于查询接口属性特征的Deep Web数据表面化方法 |
-
2014
- 2014-10-29 CN CN201410591272.3A patent/CN104281714A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1702654A (zh) * | 2004-04-29 | 2005-11-30 | 微软公司 | 计算显示页面中块的重要度的方法和系统 |
US20080040326A1 (en) * | 2006-08-14 | 2008-02-14 | International Business Machines Corporation | Method and apparatus for organizing data sources |
CN103257981A (zh) * | 2012-06-12 | 2013-08-21 | 苏州大学 | 基于查询接口属性特征的Deep Web数据表面化方法 |
Non-Patent Citations (1)
Title |
---|
张慧斌: "Deep Web查询接口及查询结果抽取", 《中国博士学位论文全文数据库 息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909680A (zh) * | 2017-03-03 | 2017-06-30 | 中国科学技术信息研究所 | 一种基于知识组织语义关系的科技专家信息聚合方法 |
CN109597883A (zh) * | 2018-12-20 | 2019-04-09 | 福州瑞芯微电子股份有限公司 | 一种基于视频采集的语音识别装置和方法 |
CN109597883B (zh) * | 2018-12-20 | 2021-06-18 | 瑞芯微电子股份有限公司 | 一种基于视频采集的语音识别装置和方法 |
CN109921981A (zh) * | 2019-01-31 | 2019-06-21 | 沈阳工程学院 | 一种基于通讯接口的信息传递方法及系统 |
CN110222251A (zh) * | 2019-05-27 | 2019-09-10 | 浙江大学 | 一种基于网页分割和搜索算法的服务包装方法 |
CN110222251B (zh) * | 2019-05-27 | 2022-04-01 | 浙江大学 | 一种基于网页分割和搜索算法的服务包装方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868313B (zh) | 一种基于模板匹配技术的知识图谱问答系统及方法 | |
Kim et al. | Similarity matching for integrating spatial information extracted from place descriptions | |
CN106202514A (zh) | 基于Agent的突发事件跨媒体信息的检索方法及系统 | |
CN103116657B (zh) | 一种网络教学资源的个性化搜索方法 | |
CN102117281B (zh) | 一种构建领域本体的方法 | |
Wu et al. | Ontology-based subgraph querying | |
CN110609902A (zh) | 一种基于融合知识图谱的文本处理方法及装置 | |
CN104239513A (zh) | 一种面向领域数据的语义检索方法 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
Prajapati | A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining | |
CN104281714A (zh) | 医院门户网站门诊专家信息抽取系统 | |
CN105989097A (zh) | 一种基于本体的知识库查询方法及系统 | |
CN116881436A (zh) | 基于知识图谱的文献检索方法、系统、终端及存储介质 | |
CN114153983A (zh) | 一种行业知识图谱的多源构建方法 | |
Gunaratna et al. | Alignment and dataset identification of linked data in semantic web | |
Li et al. | Research on distributed search technology of multiple data sources intelligent information based on knowledge graph | |
Hulpus et al. | An eigenvalue-based measure for word-sense disambiguation | |
Behkamal et al. | Publishing Persian linked data; challenges and lessons learned | |
Wu et al. | On building and publishing Linked Open Schema from social web sites | |
Liu | Construction of a 5G wireless semantic web-assisted English digital learning resource query system | |
Brauner et al. | Towards gazetteer integration through an instance-based thesauri mapping approach | |
Alves et al. | Semantic enrichment of places: Ontology learning from web | |
CN108733848A (zh) | 一种搜索知识的方法及系统 | |
KR101092165B1 (ko) | 웹 문서의 분류 및 분석 정확도를 향상시키는 문서 전처리 장치 | |
CN106528595A (zh) | 基于网站首页内容的领域信息收集和关联方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150114 |
|
RJ01 | Rejection of invention patent application after publication |