CN105224630A - 基于语义网本体数据的集成方法 - Google Patents
基于语义网本体数据的集成方法 Download PDFInfo
- Publication number
- CN105224630A CN105224630A CN201510616011.7A CN201510616011A CN105224630A CN 105224630 A CN105224630 A CN 105224630A CN 201510616011 A CN201510616011 A CN 201510616011A CN 105224630 A CN105224630 A CN 105224630A
- Authority
- CN
- China
- Prior art keywords
- data
- collection
- message
- target entity
- illustrative plates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013459 approach Methods 0.000 title claims abstract description 11
- 230000010354 integration Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 14
- 238000003058 natural language processing Methods 0.000 claims description 5
- 238000011524 similarity measure Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 210000004556 brain Anatomy 0.000 description 43
- 210000002569 neuron Anatomy 0.000 description 20
- 208000018152 Cerebral disease Diseases 0.000 description 12
- 230000003920 cognitive function Effects 0.000 description 12
- 108090000623 proteins and genes Proteins 0.000 description 12
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 239000002858 neurotransmitter agent Substances 0.000 description 8
- 241000894007 species Species 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 102000004169 proteins and genes Human genes 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 208000024827 Alzheimer disease Diseases 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 2
- 206010039966 Senile dementia Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000001320 hippocampus Anatomy 0.000 description 2
- 210000005171 mammalian brain Anatomy 0.000 description 2
- 244000062645 predators Species 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241001591024 Samea Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012097 association analysis method Methods 0.000 description 1
- 210000004227 basal ganglia Anatomy 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 206010015037 epilepsy Diseases 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 210000002442 prefrontal cortex Anatomy 0.000 description 1
- 201000000980 schizophrenia Diseases 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000003478 temporal lobe Anatomy 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000004885 white matter Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供的基于语义网本体数据的集成方法,包括:获取数据信息,并对所述数据信息进行处理得到本体格式的数据信息;将所述本体格式的数据信息通过渐进式消歧算法进行数据整合得到不同数据源的相同实体之间的链接关系;通过自动化挖掘获取关键信息,所述关键信息包括摘要信息和标题信息;根据所述摘要信息和所述标题信息构建关联图谱;根据所述关联图谱推理出潜在关联信息并扩充所述关联图谱;将不同数据源的数据信息、所述相同实体之间的链接关系和所述关联图谱构建为知识数据库。本发明可以在不同数据之间建立语义链接,对不同资源进行整合和推理。
Description
技术领域
本发明涉及语言处理技术,特别是涉及一种基于语义网本体数据的集成方法。
背景技术
语义网及其本体,是一种标准化、分布式、且机器可读的一种数据模式。它可以快速有效地将分布在不同地区、不同源头、不同形式的各种数据融合到一起,成为一个语义层面链接的整体。它不仅支持一般的查询,同时也支持带有推理的查询,更具有特色的是还可以融入基于本体数据的一阶逻辑推理。在语义网的背景下,链接数据(LinkedData)是用来发布和链接各类数据、信息和知识的一套规范,是语义网的最佳实践方法,其最大的特点是可以在不同数据源之间建立语义链接,对不同资源进行整合。
链接数据融合方法的研究已有很多,其中较为轻便快捷的算法是基于词袋模型算法,但传统词袋模型有很多不足。
发明内容
本发明提供的基于语义网本体数据的集成方法,可以在不同数据之间建立语义链接,对不同资源进行整合和推理。
根据本发明的一方面,提供一种基于语义网本体数据的集成方法,包括:获取数据信息,并对所述数据信息进行处理得到本体格式的数据信息;将所述本体格式的数据信息通过渐进式消歧算法进行数据整合得到不同数据源的相同实体之间的链接关系;通过自动化挖掘获取关键信息,所述关键信息包括摘要信息和标题信息;根据所述摘要信息和所述标题信息构建关联图谱;根据所述关联图谱推理出潜在关联信息并扩充所述关联图谱;将不同数据源的数据信息、所述相同实体之间的链接关系和所述关联图谱构建为知识数据库。
本发明实施例提供的基于语义网本体数据的集成方法,获取数据信息,并对所述数据信息进行处理得到本体格式的数据信息,将所述本体格式的数据信息通过渐进式消歧算法进行数据整合得到不同数据源的相同实体之间的链接关系,通过自动化挖掘获取关键信息,关键信息包括摘要信息和标题信息,根据摘要信息和所述标题信息构建关联图谱,根据关联图谱推理出潜在关联信息并扩充关联图谱,将不同数据源的数据信息、相同实体之间的链接关系和关联图谱构建为知识数据库,从而可以在不同数据之间建立语义链接,对不同资源进行整合和推理。
附图说明
图1为本发明实施例提供的基于语义网本体数据的集成方法流程图;
图2为本发明实施例提供的消歧方法流程图;
图3为本发明实施例提供的脑结构层次图;
图4为本发明实施例提供的关联关系自动化挖掘过程示意图;
图5为本发明实施例提供的领域词典的分类以及关系示意图;
图6为本发明实施例提供的神经元信息获取和统计过程示意图。
具体实施方式
下面结合附图对本发明实施例提供的基于语义网本体数据的集成方法进行详细描述。
图1为本发明实施例提供的基于语义网本体数据的集成方法流程图。
参照图1,在步骤S101,获取数据信息,并对所述数据信息进行处理得到本体格式的数据信息。
这里,数据信息的格式可以是XML、Excel、TXT和RDF格式,将这些格式的数据信息转化为本体格式的数据信息。以下列出了对于不同格式的数据信息的处理方法:
本体(RDFS/OWL)格式:某些数据库中包括本体数据,其本身可以直接下载和融合,如MeSH和NeuroLex数据,其中,MeSH为一种医学本体数据,NeuroLex为一种神经科学概念的本体数据。
并直接导入LBD(LinkedBrainData的简称,是本专利对应的已上线的系统平台名称)。
XML文件:本系统通过抽取信息和转化信息的方式生成RDF格式(利用Jena框架编程),如美国艾伦脑研究院数据的文件都是XML形式,通过采用DOM4J抽取信息,并根据其信息结构对应地转化为RDF的三元格式并存储。
Excel文件:像哺乳动物脑本体(CommonUpperMammalianBrainOntology,CUMBO)数据,这样的哺乳动物脑本体数据,是通过手动编写的Excel文件,本发明制定了一套简单的输入Excel的标准,使其能够自动化的抽取和转化,并按照类和对象的思维方式去设定一个数据表格里类的信息。其标准概括大致如下,其中第一行为属性(第一行看成一个类定义),其他行中,每一行都是一个实例,第一个值为ID,确定唯一性的URI,最后指定宾语为类的属性(设置参数)。
其他可能还有TXT格式的文件,TXT格式较为灵活,通常采用基于ApacheJena框架手动编写程序进行读取和转化,其中,ApacheJena为一种语议网编程框架。
以上被转化为本体格式的数据会被导入ApacheJena里的TDB数据库或ApacheJena的Fuseki数据库中,从而完成数据格式上的统一和融合。
TDB数据库是支持网站平台服务的,Fuseki数据库主要是方便远程调用本系统的数据和服务的。Fuseki是Jena提供的一个SPARQL协议的服务器,它通过HTTP利用SPARQL协议支持SPARQL语言查询和更新,利用Fuseki对存储在TDB中的数据进行远程访问和获取。
在步骤S102,将所述本体格式的数据信息通过渐进式消歧算法进行数据整合得到不同数据源的相同实体之间的链接关系。
在步骤S103,通过自动化挖掘获取关键信息,所述关键信息包括摘要信息和标题信息。
在步骤S104,根据所述摘要信息和所述标题信息构建关联图谱。
在步骤S105,根据所述关联图谱推理出潜在关联信息并扩充所述关联图谱。
在步骤S106,将不同数据源的数据信息、所述相同实体之间的链接关系和所述关联图谱构建为知识数据库。
进一步地,所述将所述本体格式的数据信息通过渐进式消歧算法进行数据整合得到不同数据源的相同实体之间的链接关系包括:
输入目标实体名和第一上下文参数;
根据所述目标实体名从所述知识数据库中进行查找,获取与所述目标实体名相同的个数;
如果所述个数为第一数量,则判断所述目标实体名是否为原始实体名词;
如果所述个数为第二数量,则输出与所述目标实体名相同的第一实体名;
如果所述个数为第三数量,则将所述多个第二实体名进行消歧处理。
这里,第一数量为0,第二数量为1,第三数量为多个1。
进一步地,所述判断所述目标实体名是否为原始实体名词包括:
如果所述目标实体名为所述原始实体名词,则将所述原始实体名词进行分割得到多个实体名词;
根据所述多个实体名词分别从所述知识数据库中进行查找,获取与所述目标实体名相同的实体名。
这里,如果第一数量为0时,则判断目标实体名是否为原始实体名词,如果为原始实体名词,则将原词实体名词分割为多个实体名词。例如,目标实体名为“巴拉克·奥巴马”,如果从知识数据库中查找的实体名与目标实体名相同的数量为0,则判断“巴拉克·奥巴马”是否为原始实体名词,如果是原始实体名词,则将“巴拉克·奥巴马”分割为“巴拉克”和“奥巴马”。
分别对“巴拉克”和“奥巴马”从知识数据库中进行查找,查找与“巴拉克”和“奥巴马”相同实体名的数量,如果数量仍为0,则结束;如果数量为1,则输出;如果数量为多个1,则进行消歧处理。
进一步地,所述将所述多个第二实体名进行消歧处理包括:
将所述目标实体名的上下文参数和所述多个第二实体名的上下文参数分别进行自然语言处理得到词袋和词袋集;
将所述词袋和所述词袋集分别进行相似度计算,获取相似度最大的词频;
输出所述相似度最大的词频。
进一步地,所述将所述目标实体名的上下文参数和所述多个第二实体名的上下文参数分别进行自然语言处理得到词袋和词袋集包括:
将所述目标实体名的上下文参数和所述多个第二实体名的上下文参数分别进行词性标注、词性选择、去停词和词原型还原得到所述词袋和所述词袋集。
这里,如果个数为多个,则对多个第二实体名进行消歧处理,具体可参照如图2所示的消歧方法流程示意图。
在步骤S201,将所述目标实体名的上下文参数和所述多个第二实体名的上下文参数分别进行词性标注、词性选择、去停词和词原型还原得到所述词袋和所述词袋集。
具体地,词性标注可以把一个句子分解成单词或短语的形式。该工具可以鉴别出名词、动词、形容词等并将它们标注出来。
词性选择是基于Stanford的分词工具的基础上开发的。由于选择不同词性所得到的消歧正确率也是不完全同的。通常情况下,选择名词和动词的消歧率是较高的,但形容词会使正确率有所下降。
去停词是指一般被搜索引擎所忽略掉的词汇,在一个既定任务情况下,任何一类的词都可以是停用词。停用词一般可以分为两类,一类是自然语言中常见的结构性功能词,如‘a’‘is’或‘the’等,另一类是“go”“take”等出现频率较高,不具备明确含义的词。即输入实体后,如果属于表中内容,则过滤掉;如果不属于,则通过,进行下一步处理。
原型词根是建立在WordNet(普林斯顿开发维护的一种英文词典)词典基础上开发的,是一种旨在将查询词还原为原型的工具程序。例如“went”会被还原为“go”,“books”被还原为“book”等,这样可以保证系统在处理时,不会把相同的短语当成不同的词汇进行处理。
在步骤S202,将词袋和词袋集分别进行相似度计算,获取相似度最大的词频。
在步骤S203,输出相似度最大的词频。
这里,词袋和词袋集进行相似度计算,如果有两个或者多个词袋集的词频数量相同,则需要增加目标实体名中上下文的信息和第二实体名中上下文的信息,从而进一步进行自然语言处理和相似度计算。即这些对应的多个第二实体和目标实体具有相同的相似度,传统的研究不再继续比较,会全部或随机选择一个作为输出,但这在一定概率条件下影响了最终准确率。本方法为了做进一步的比较,对目标实体和第二实体的上下文信息进行了语义扩展,当它第一次获取的上下文信息出现多个结果的情况,继续获取第二层上下文语义信息再重新计算比较相似度,如果第二层上下文信息不足,会取第三层关联描述融合。虽然层级越远,对实体的描述关系越稀疏,但多数情况下,第三层以内的上下文参数描述就已经足够了。
通过上述算法,本发明产生了大量从LBD到DBPedia(属于维基百科信息的本体数据)的链接,具体可参照表1:
表1
为了验证这些链接的正确率,系统随机选定了超过1000条链接记录,人工测定了从“AllenBrainAtlas(艾伦脑数据)”,“Neurolex(一种神经科学概念的本体)”到“DBPedia/wikipedia”的链接样本,总体正确率高达91.2%。
这些相同的实体都用“owl:sameAs”关系链接,因此整个数据集连为一体,可以做语义推理和搜索,包括同一个实体在多角度下的信息表述和整合。
查询链接数据的一个重要途径是通过SPARQL查询终端,SPARQL语言是为RDF开发的一种查询语言和数据获取协议,它是为W3C所开发的RDF数据模型所定义。本发明发布关联数据,并通过注册LinkedOpenData(LOD)官网成为其中的一个节点。任何人都可以使用这些数据,包括可视化查询或动态的调用这些信息。系统遵循链接链接数据的以下四个原则:(1)用URIs作为任何事物的标识名称;(2)用HTTP/URI以便任何人都能参引这个全局唯一的名称;(3)人们查询一个URI时,使用RDF、SPARQL标准来提供有用的信息;(4)尽可能提供链接指向其它的URI,以使人们发现更多的相关信息。
满足以上四个原则的被称为优质的4星级数据,本发明的数据和其他很多链接数据一般满足前三条原则,很多资源并不能完全满足第四条原则,从链接数据的实用性方面不会对其有很大的影响。
本发明还实现了一个更友好的可视化查询界面,可视化查询界面包含以下资源:中科院脑知识库、艾伦非人灵长类脑、神经信息框架本体、艾伦参考数据、神经科学概念的本体等,这些数据都可以通过本发明平台采用SPARQL搜索查看数据集。
进一步地,所述根据所述摘要信息和所述标题信息构建关联图谱包括:
根据列表信息从所述关键信息中进行查找,从而得到与所述词典列表信息相同或相关的术语;
统计不同术语在所述关键信息中同时出现的次数;
将所述次数按从大到小的顺序排列,从而构成关联图谱。
本发明使用了Javascript技术,可以在网页中可以动态的显示例如“Allenbrainatlas”的脑结构层次图。该技术可实现从宏观脑区到微观神经元或神经递质的展现,点击某一节点可以展开相应的包含关系和下一层子关系。可参照如图3所示的脑结构层次图,具体为:
步骤S401,收集脑结构数据。
这里,脑结构数据可以从艾伦脑研究院的官网上进行收集,并且脑结构数据是XML格式的。
步骤S402,抽取信息。
这里,可以用DOM4J抽取信息。
步骤S403,将信息转化为RDF(S)的数据格式。
这里,可以用Jena框架将信息转化为RDF(S)的数据格式。
步骤S404,将相关概念链接到维基百科上。
步骤S405,存入数据库中。
这里,数据库为Fuseki/TDB数据库。
步骤S406,展示动态的层次结构。
这里,可以用Javascript和JSP网页展示动态的层次结构。
具体地,本系统从艾伦脑研究院的官网得到5个不同的数据结构,得到的源数据为XML格式的数据文件,系统用DOM4J工具抽取这些信息,然后利用Jena框架对其进行转化,得到RDF(S)数据,即本体数据。然后系统利用链接算法,对本体里的结构进行描述,以及对维基百科里的知识进行自动化链接,并融入本系统的LBD数据库,即TDB数据库和Fuseki数据库。最后,本系统在本平台的网站上用Javascript和JSP网页动态的展现这些层次树。
本发明抽取并建立了不同尺度脑结构、脑疾病、认知功能三者之间的关联关系以及不同尺度脑结构内部之间的关联图谱,并构建从统计分析、语句追踪到文献源头追踪等一系列统计和关联分析方法。
数据集大小:PubMed在2014年数据文献总数有22,376,811个记录,有摘要的有13,214,810个。
总体挖掘、分析和展示框架具体可参照如图4所示的关联关系自动化挖掘过程示意图,原始得到的是PubMed官网授权得到的XML文件集,人工下载了全部可得到的资源;系统先用DOM4J去解析和提取文献相应的属性信息;摘要内容会被分解为句,再到关联挖掘模块,这里同时对应需要使用到的是领域词典,会分析文献内容中同时出现的领域词典里的单词,并记录下来,这些领域词典目前包含如图5所示的所有方块里的领域内容;关联的领域词汇会以“isRelatedTo”的属性生成RDF三元组并存入Fuseki/TDB数据库内;系统封装了SPARQL的一些查询语句,如查询关联条目,追踪源头等;Servlet和JSP在前端展示查询和关联图谱的结果。
具体地,如图5所示,“不同尺度脑区”是不同尺度脑结构的词典,从脑区到神经递质分成了5个不同子领域的词典;“认知功能”和“脑疾病”是另两个角度的词典。
所以,如果探测到在同一句话里,出现两个领域词典的名词,说明它们可能相关,虽然本系统的工作集中在两者的正向关联里,但系统也会进一步判断是否为负向关联。负向关联是指可能是说这两个名词没有关系,如“AisnotrelatedwithB”,所以系统会判别局子里是否会出现“isnot”,“cannot”,“seldom”,etc.等负向的词。然后把他们的正负关联信息,传到RDFgenerator生成三元组形式,存储在Fuseki里(Fuseki内嵌TDB),这样就完成了存储。在前端展示模块,“数据连接接口(DataAccessObject,DAO)”模块封装了预先想查询的一些SPARQL接口,通过这个接口可以传到Servlet(网站服务器端程序)里,Servlet里解决业务请求逻辑,并做查询返回工作;最后传到前端JSP页面,供用户查看。
脑结构、疾病、认知功能之间的关联可参照表2,第一列是关联关系,第二列是正向关联个数,第三列是无重复的关联个数统计,第四列是负向否定关联。
表2
关联关系 | 正向关联数 | 正向关联去重 | 负向关联数 |
认知功能<->脑区 | 62,889 | 3,698 | 4886 |
认知功能<->_神经元 | 3497 | 289 | 197 |
认知功能<->蛋白质 | 37,956 | 1,149 | 1,437 |
认知功能<->基因 | 28,539 | 10,972 | 35,419 |
认知功能<->神经递质 | 79,362 | 1758 | 4,159 |
脑疾病<->脑区 | 109,902 | 6,765 | 6,049 |
脑疾病神经元 | 6,208 | 384 | 375 |
脑疾病<->蛋白质 | 20,917 | 1,881 | 804 |
脑疾病<->基因 | 85,080 | 13,807 | 103,272 |
脑疾病<->神经递质 | 151,547 | 5,131 | 9,291 |
脑疾病<->认知功能 | 83,236 | 2,449 | 3,693 |
总和 | 564,221 | 47,441 | 165,149 |
不同尺度脑结构(微观,介观,宏观)之间的关联抽取结果具体可参照表3,最后,统计这些关联的次数,和相对不同名词,对应的概率。
表3
关联关系 | 正向关联数 | 正向关联去重 | 负向关联数 |
神经元<->脑区 | 67,890 | 2,824 | 3,790 |
脑区<->蛋白质 | 96,136 | 5,325 | 7364 |
神经元<->蛋白质 | 4,874 | 780 | 306 |
蛋白质<->神经递质 | 1,067,544 | 13,019 | 71,527 |
基因<->神经元 | 17,518 | 3,763 | 395 |
基因<->蛋白质 | 1,432,149 | 93,044 | 99,937 |
基因<->神经递质 | 1,037,369 | 60,167 | 75,250 |
神经递质<->神经元 | 34,734 | 1,819 | 2,185 |
神经递质<->脑区 | 378,198 | 13,362 | 21,483 |
基因<->脑区 | 177,997 | 22,923 | 12,143 |
总和 | 4,314,409 | 217,026 | 294,380 |
脑区与疾病的关联图谱如表4所示:
表4
脑区 | 脑疾病 | 出现次数 | P(B|A) | P(A|B) | 赞成/反对 |
颞叶 | 颞叶癫痫 | 11786 | 0.76 | 0.82 | |
黑质 | 帕金森 | 2549 | 0.83 | 0.20 | |
丘脑底核 | 帕金森 | 2134 | 0.94 | 0.16 | |
海马区 | 老年痴呆症 | 1987 | 0.25 | 0.18 | |
前额皮质 | 精神分裂症 | 1764 | 0.40 | 0.17 | |
海马区 | 抑郁症 | 1606 | 0.20 | 0.13 | |
基底神经节 | 帕金森 | 1529 | 0.41 | 0.12 | |
纹状体 | 帕金森 | 1096 | 0.49 | 0.09 | |
白质 | 老年痴呆症 | 1050 | 0.14 | 0.09 |
参照表4,第一列是脑区,第二列是疾病,第三列是在文献中出现次数,第四列是某个疾病相对于某个脑区所有关联疾病中所占的相对比例;第五列是某个脑区相对于某个疾病所有关联脑区中所占的相对比列。
其次我们还推理出可能存在的关联,本系统已经抽取了脑区区域,认知功能和脑疾病三者之间的关联图谱。但实际情况可能存在文件里没有但却很有意义的关联,所以我们试图通过简单的传递推理关系推出可能的关联。如一个脑区R和认知功能F关联,认知功能F和脑疾病D关联,那么我们猜测这个脑区R和脑疾病D关联。简化可表示为:R关联F–>F关联D=>R关联D。这样的话就可以得到一组新的脑区和疾病的关联,我们把推理得到的这组集合表示为推理列表A(IL),把之前本来就抽取有的脑区和疾病的关联表示为集合列表A(EL)。我们推理出了两组数据:对于R关联F–>F关联D=>R关联D,我们有以下的统计结果:推理出的总数A(IL)=107,001;从文献中抽取的总数A(EL)=6,556;他们相交或共同都有的总数A(IL)∩A(EL)=6,219;推理出的且不在抽取结果里出现的总数A(IL)–A(IL)∩A(EL)=100,782条。对于R关联D->D关联F=>R关联F,我们有以下的统计结果:推理出的总数A(IL)=29,483;从文献中抽取的总数A(EL)=3,698;他们相交或共同都有的总数A(IL)∩A(EL)=3,439;推理出的且不在抽取结果里出现的总数A(IL)–A(IL)∩A(EL)=26,044条。这些海量的推理结果都有隐含意义,其数量需要进一步缩小和验证,本系统已经把它们上线在LBD系统上,并让相关背景的研究者可以验证这些关联的正确性。
本发明利用语义查询的方式做了一系列统计分析,按照特定物种不同脑区、特定物种不同层次和不同物种共性差异性几个角度做了多层次的总结统计,此统计结果可以回答相应的很多常问的科学问题。例如NeuroMorpho是目前收集神经元种类资源最多的网站之一,它们给出了每一个神经元的基本信息。
首先获取资源名称是通过手动下载每一个列表的文件,遍历文件并取得神经元名称,共27,379个,组成一个神经元名称列表,其信息提取和统计过程如图6所示:
在步骤S901,获取多个神经元信息。
这里,可以利用HttpClient自动化爬取程序获得NeuroMorph网站两万多个神经元信息的页面。
在步骤S902,用工具解析提取其获取的多个神经元信息。
这里,工具可以为JSoup工具。
在步骤S903,输出成三元组的形式,并得到多个三元组,将其转化为RDF本体。
在步骤S904,将本体导入到数据库中。
这里,数据库为LBD的数据库Fuseki/TDB中。
在步骤S905,用语义查询的方式统计信息。
本系统从不同角度统计分析出,不同脑区所对应的神经元种类有哪些,和不同层(Layer)对应的神经元种类的统计分析。
表5
类别 | 第一级 | 第二级 | 第三级 | 总数 |
脑区 | 29 | 93 | 155 | 277 |
神经元种类 | 3 | 174 | 130 | 307 |
表5为NeuroMorpho(一个拥有大量神经元信息的网站)上所有物种,无重复脑区和神经元种类个数。由表5可知:特定物种,如大鼠的每个脑区分布的神经元的类别;特定物种,如大鼠皮层的每个层次(LayerII,III等)分布的神经元类型;不同物种(如人、大鼠、猴子等),神经元类型之间的共性和差异。
其中,所有物种,无重复脑区和神经元种类个数的例子(部分截图)如表6所示。
表6
由表6可知,物种为老鼠(Mouse)的,在脑区级别为1的脑区,有“杏仁核”,“前嗅核”等脑区,这些脑区下面又分别对应神经元级别、神经元名称列表、神经元名称的数目都在后面依次展示。
知识本身由于存在潜在的的语义链接关系,因此具有推理功能。从已知的若干信息往往可以推算出其他相关的有用信息,比如有两条知识(信息):老虎是一种食肉动物,食肉动物也属于生物,则根据推理,很显然老虎也是一种生物。但这类知识一般是是隐性存在的,一般来说知识之间都会存在大量这样的隐性知识,如何有效利用这些潜在知识一直是近年来的研究热点之一。本发明技术实现了RDFS和OWL中隐性知识的推理表达以及规则推理,使得这些隐性知识显性化,并展示在所存储的知识库中。该功能有助于脑科学家和神经科学家发现一些肉眼发现不到或者容易被忽视的知识或结论。
因此,本发明实现了RDFS和OWL里包含的推理功能,包括上下位和传递性等的推理。例如,A是B的子类,B是C的子类,则A是C的子类。
资源描述框架模式(Resourcedescriptionframeworkschema,RDFS)为资源添加了类、子类以及属性,从而创建了一个基本的语言框架。
Web本体语言(WebOntologyLanguage,OWL),其中,OWL比RDFS更复杂,它对本体加以规范,描述类之间的关系并使用逻辑进行推理。它也可以根据用户需求构建新的类。OWL有三种基本的复杂级别-轻量、描述语言(DL)和完全,本专利实现了较为轻量的推理。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (6)
1.一种基于语义网本体数据的集成方法,其特征在于,所述方法包括:
获取数据信息,并对所述数据信息进行处理得到本体格式的数据信息;
将所述本体格式的数据信息通过渐进式消歧算法进行数据整合得到不同数据源的相同实体之间的链接关系;
通过自动化挖掘获取关键信息,所述关键信息包括摘要信息和标题信息;
根据所述摘要信息和所述标题信息构建关联图谱;
根据所述关联图谱推理出潜在关联信息并扩充所述关联图谱;
将不同数据源的数据信息、所述相同实体之间的链接关系和所述关联图谱构建为知识数据库。
2.根据权利要求1所述的方法,其特征在于,所述将所述本体格式的数据信息通过渐进式消歧算法进行数据整合得到不同数据源的相同实体之间的链接关系包括:
输入目标实体名和第一上下文参数;
根据所述目标实体名从所述知识数据库中进行查找,获取与所述目标实体名相同的个数;
如果所述个数为第一数量,则判断所述目标实体名是否为原始实体名词;
如果所述个数为第二数量,则输出与所述目标实体名相同的第一实体名;
如果所述个数为第三数量,则将所述多个第二实体名进行消歧处理。
3.根据权利要求2所述的方法,其特征在于,所述判断所述目标实体名是否为原始实体名词包括:
如果所述目标实体名为所述原始实体名词,则将所述原始实体名词进行分割得到多个实体名词;
根据所述多个实体名词分别从所述知识数据库中进行查找,获取与所述目标实体名相同的实体名。
4.根据权利要求2所述的方法,其特征在于,所述将所述多个第二实体名进行消歧处理包括:
将所述目标实体名的上下文参数和所述多个第二实体名的上下文参数分别进行自然语言处理得到词袋和词袋集;
将所述词袋和所述词袋集分别进行相似度计算,获取相似度最大的词频;
输出所述相似度最大的词频。
5.根据权利要求4所述的方法,其特征在于,所述将所述目标实体名的上下文参数和所述多个第二实体名的上下文参数分别进行自然语言处理得到词袋和词袋集包括:
将所述目标实体名的上下文参数和所述多个第二实体名的上下文参数分别进行词性标注、词性选择、去停词和词原型还原得到所述词袋和所述词袋集。
6.根据权利要求1所述的方法,其特征在于,所述根据所述摘要信息和所述标题信息构建关联图谱包括:
根据列表信息从所述关键信息中进行查找,从而得到与所述词典列表信息相同或相关的术语;
统计不同术语在所述关键信息中同时出现的次数;
将所述次数按从大到小的顺序排列,从而构成关联图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510616011.7A CN105224630B (zh) | 2015-09-24 | 2015-09-24 | 基于语义网本体数据的集成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510616011.7A CN105224630B (zh) | 2015-09-24 | 2015-09-24 | 基于语义网本体数据的集成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105224630A true CN105224630A (zh) | 2016-01-06 |
CN105224630B CN105224630B (zh) | 2019-01-29 |
Family
ID=54993598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510616011.7A Active CN105224630B (zh) | 2015-09-24 | 2015-09-24 | 基于语义网本体数据的集成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105224630B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106685707A (zh) * | 2016-12-15 | 2017-05-17 | 华南师范大学 | 一种分布式基础设施系统中的资产信息控制方法 |
CN106777372A (zh) * | 2017-01-26 | 2017-05-31 | 语义(上海)信息科技有限公司 | 一种基于语义网本体的蜂流器数据导流和数据转化方法 |
CN108197711A (zh) * | 2017-12-13 | 2018-06-22 | 中国科学院自动化研究所 | 基于类脑多感觉注意切换的计算方法 |
CN109241078A (zh) * | 2018-08-30 | 2019-01-18 | 中国地质大学(武汉) | 一种基于混合数据库的知识图谱组织查询方法 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN112612817A (zh) * | 2020-12-07 | 2021-04-06 | 深圳价值在线信息科技股份有限公司 | 数据处理方法、装置、终端设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120078873A1 (en) * | 2010-09-24 | 2012-03-29 | International Business Machines Corporation | Using ontological information in open domain type coercion |
CN104881420A (zh) * | 2014-03-02 | 2015-09-02 | 陈江 | 语义网络建立系统及其建立方法 |
-
2015
- 2015-09-24 CN CN201510616011.7A patent/CN105224630B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120078873A1 (en) * | 2010-09-24 | 2012-03-29 | International Business Machines Corporation | Using ontological information in open domain type coercion |
CN104881420A (zh) * | 2014-03-02 | 2015-09-02 | 陈江 | 语义网络建立系统及其建立方法 |
Non-Patent Citations (2)
Title |
---|
CHUANYI LIU 等: "Semantic Data De-duplication for Archival Storage Systems", 《COMPUTER SYSTEMS ARCHITECTURE CONFERENCE,2008.》 * |
金贵阳 等: "基于知识图谱和语义网技术的企业信息集成方法", 《东南大学学报(自然科学版)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106685707A (zh) * | 2016-12-15 | 2017-05-17 | 华南师范大学 | 一种分布式基础设施系统中的资产信息控制方法 |
CN106777372A (zh) * | 2017-01-26 | 2017-05-31 | 语义(上海)信息科技有限公司 | 一种基于语义网本体的蜂流器数据导流和数据转化方法 |
CN106777372B (zh) * | 2017-01-26 | 2019-08-27 | 语义(上海)信息科技有限公司 | 一种基于语义网本体的蜂流器数据导流和数据转化方法 |
CN108197711A (zh) * | 2017-12-13 | 2018-06-22 | 中国科学院自动化研究所 | 基于类脑多感觉注意切换的计算方法 |
CN108197711B (zh) * | 2017-12-13 | 2020-02-28 | 中国科学院自动化研究所 | 基于类脑多感觉注意切换的计算方法 |
CN109241078A (zh) * | 2018-08-30 | 2019-01-18 | 中国地质大学(武汉) | 一种基于混合数据库的知识图谱组织查询方法 |
CN109241078B (zh) * | 2018-08-30 | 2021-07-20 | 中国地质大学(武汉) | 一种基于混合数据库的知识图谱组织查询方法 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN112612817A (zh) * | 2020-12-07 | 2021-04-06 | 深圳价值在线信息科技股份有限公司 | 数据处理方法、装置、终端设备及计算机可读存储介质 |
CN112612817B (zh) * | 2020-12-07 | 2024-02-27 | 深圳价值在线信息科技股份有限公司 | 数据处理方法、装置、终端设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105224630B (zh) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105224630A (zh) | 基于语义网本体数据的集成方法 | |
Syed et al. | Exploiting a web of semantic data for interpreting tables | |
CN101339551B (zh) | 自然语言查询需求扩展设备及其方法 | |
Parundekar et al. | Linking and building ontologies of linked data | |
CN102298642B (zh) | 文本信息抽取方法和系统 | |
CN103034693B (zh) | 开放式实体及其类型识别方法 | |
CN102117281B (zh) | 一种构建领域本体的方法 | |
CN106919689A (zh) | 基于术语释义知识单元的专业领域知识图谱动态构建方法 | |
CN103023714B (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
CN103440287B (zh) | 一种基于产品信息结构化的Web问答检索系统 | |
CN105701253A (zh) | 中文自然语言问句语义化的知识库自动问答方法 | |
CN106663101A (zh) | 本体映射方法和设备 | |
CN103229223A (zh) | 使用多个候选答案评分模型提供问题答案 | |
CN103229162A (zh) | 使用候选答案逻辑综合提供问题答案 | |
CN103229120A (zh) | 使用假设剪枝提供问题答案 | |
CN105138864B (zh) | 基于生物医学文献的蛋白质交互关系数据库构建方法 | |
Parekh et al. | Mining domain specific texts and glossaries to evaluate and enrich domain ontologies | |
CN111581376A (zh) | 一种知识图谱自动构建系统及方法 | |
Kyjánek | Morphological resources of derivational word-formation relations | |
CN103049581A (zh) | 一种基于一致性聚类的Web文本分类方法 | |
CN104199938A (zh) | 基于rss的农用土地信息发送方法和系统 | |
Popping | Online tools for content analysis | |
CN114528312A (zh) | 一种结构化查询语言语句的生成方法和装置 | |
Yang et al. | Ontology generation for large email collections. | |
Ritze | Web-scale web table to knowledge base matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |