CN113806563B - 面向多源异构建筑人文史料的建筑师知识图谱构建方法 - Google Patents
面向多源异构建筑人文史料的建筑师知识图谱构建方法 Download PDFInfo
- Publication number
- CN113806563B CN113806563B CN202111367313.7A CN202111367313A CN113806563B CN 113806563 B CN113806563 B CN 113806563B CN 202111367313 A CN202111367313 A CN 202111367313A CN 113806563 B CN113806563 B CN 113806563B
- Authority
- CN
- China
- Prior art keywords
- architect
- text
- knowledge
- data
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了面向多源异构建筑人文史料的建筑师知识图谱构建方法。首先,对近现代建筑师群体史料的互联网数据和纸质文献进行采集和处理,同时手工构建建筑师图谱本体。然后,以建筑师图谱本体为指导,采用词法分析、规则抽取和深度学习的方法分层次抽取半结构化和非结构化多模态数据中的实体、关系和事件等不同粒度的建筑师相关知识,并将抽取得到的多源异构知识进行融合。最后,得到由知识三元组构成的近现代建筑师知识图谱,并将其存储于图数据库中。近现代建筑师知识图谱可有效提升传统建筑人文史料梳理和分析的工作效率,具有较好的应用前景。
Description
技术领域
本发明属于人工智能知识图谱和建筑人文交叉领域,具体涉及面向多源异构建筑人文史料的建筑师知识图谱构建方法。
背景技术
传统的建筑师史料研究工作以人力为主,大量纸质文献数据的整理工作耗费费力且容易出错。在建筑师史料人文研究中引入数字技术是一项备受关注的工作。知识图谱技术作为一种高效整理和分析多源异构数据的人工智能技术,在建筑人文研究中具有广阔的应用前景。知识图谱将数据、信息和关系聚合为高价值知识,实现认知智能服务,是大数据场景中高效组织数据和发现知识的重要技术。知识图谱通过知识构建、知识融合、知识存储、知识表示等共性技术,实现描述关联,链接实体,集成异构数据和赋能大规模知识推理等服务,有助于解决建筑人文研究当前的碎片化史料利用、海量纸质文献快速处理、全面分析建筑师及其作品等。
本发明将知识图谱技术运用到建筑学人文数据的分析中,通过建筑人文数据采集和处理、本体构建、知识抽取、知识融合、知识存储等过程,构建建筑人文领域知识图谱,推动建筑人文相关研究和应用。目前国内外在建筑人文分析方面使用知识图谱作为载体的工作较少,尚未有近现代建筑师知识图谱构建技术的公开发明和报道。
发明内容
为解决上述问题,本发明公开了面向多源异构建筑人文史料的建筑师知识图谱构建方法,首先,对近现代建筑师群体史料的互联网数据和纸质文献进行采集和处理,同时手工构建建筑师图谱本体。然后,以建筑师图谱本体为指导,采用词法分析、规则抽取和深度学习方法分层次抽取半结构化和非结构化多模态数据中的实体、关系和事件等不同粒度的建筑师相关知识,并将抽取得到的多源异构知识进行融合。最后,得到由知识三元组构成的近现代建筑师知识图谱,并将其存储于图数据库中。
为达到上述目的,本发明的技术方案如下:
面向多源异构建筑人文史料的建筑师知识图谱构建方法,具体步骤如下,其特征在于:
1)多源异构建筑人文史料数据的采集:
一方面,采集纸质建筑师文献数据D p ;
另一方面,采集来源于互联网开源建筑人文数据D w,通过设计的专用网络爬虫算法,对纸质文献中的建筑师数据进行补全、更新或修正;
所述网页爬取级别值算法具体如下;
当网页X存在一个指向网页Y的链接,则Y对X的重要性尤为突出,从而把X的一部分重要性得分赋予Y,其中重要性得分值为:PR(X)/C(X),其中PR(X)为X的网页级别值,C(X)为X的外部链接总,网页Y的网页级别值PR为一系列类似于X的页面重要性的分值累加;
其中,PR(Y)表示网页Y的PR分值,Xi为指向Y的其他网页,d是一个调节系数,取值在范围0.75-0.85之间;
所述步骤1)中的纸质建筑师文献数据D p 包括每位建筑师的基本信息、教育经历、工作经历、建筑文献和作品信息,纸质建筑师文献数据全面覆盖了相应建筑师的主体信息,依据该数据开展下游分析任务,包括人物关系分析和设计风格分析,针对于纸质文献数据的信息覆盖不全面和无法更新的问题,从互联网开源数据中爬取采集来源于互联网开源建筑人文数据D w ,从而构建以D p 为主体,D w 为补充的建筑人文研究基础数据;
2)多源异构建筑人文史料数据的处理:
以每帧预测y=y1,…,yT为条件的标签序列的概率,定义为:
所述步骤2)中的建筑师纸质文献处理,在文本和图片识别文本切割方法基础上增加了自定义的建筑师文本识别策略,自定义的建筑师文本识别策略含有文本过滤器,优先关注文本主体部分内容,并过滤与建筑师无关的信息,包括纸质文献的页码、页眉、页脚以及纸质文献中图片中的无关文字内容;
所述步骤2)中文本纠错过程,提出一种建筑师纠错检测算法,通过添加建筑领域敏感词汇的注意力机制,在候选字词列表中计算权重值,得到最后的注意力,
文本纠错过程中使用文本纠错交集计算公式获取文本改善度,具体步骤如下;
首先,第1次计算文本段来获取1个纠错结果r1,并对纠错结果r1再次进行纠错获得2次结果r2,然后验证r1和r2的交集,若有交集文本段被复原,若没有则文本段被r1替换,以下是交集计算公式,如果有交集那么左区间最大值一定小于右区间最小值;
其代表困惑度值,值越低,表示语句越流畅正确;
之后在文本识别中自动提示识别错误,并对错误文字提供可纠正字选项及权重分数;
3)建筑师图谱本体构建:
建筑师图谱本体是对建筑师知识图谱中数据的形式化概念抽象描述和定义,构建建筑师知识图谱本体模型O A 包括对象类型、属性类型和关系类型、以及类型层次,基于步骤1)和步骤2)中得到的建筑师信息首先分析各类数据组成成分,定义对象-属性类型和关系-属性类型词典,并结合建筑人文基础研究的需求进行调整,最终定义了10种对象类型,30种属性类型和23种关系类型;
所述步骤3)中的构建建筑师知识图谱本体模型O A ,采用多层多领域的设计思路,分别设计建筑师图谱子本体,将子本体相互叠加,最终形成完整的建筑师本体;
针对建筑师本体的建筑师的教育经历设计子本体,针对生平工作经历设计子本体O E ,针对建筑成就设计子本体O W ,所述建筑师的教育经历设计子本体、生平工作经历设计子本体O E 和建筑成就设计子本体O W 构成子本体O D ,然后通过去重和消歧融合这些子本体O D ,得到构建建筑师知识图谱本体模型O A ;
所述步骤3)中构建建筑师知识图谱本体模型O A ,并不是一成不变的,构建构建建筑师知识图谱本体模型O A 具备包容融合能力,采用动态融合本体的方法;
所述动态融合本体的方法,面向属性定义较准确的建筑师知识库内容,采用基于属性相似度的实体匹配算法,具体如下;
实体A和B的相似度的相似度计算公式如下:
其中,在加和所有匹配属性的相似度评分后,获得实体A和实体B的相似度 ,然后通过设置两个相似度阈值,判断计算结果位于哪个相似度区间,若,表示A、B匹配,若,表示A、B可能匹配,若,表示A、B不匹配,A和B是待匹配的实体对;
此外,建筑师知识图谱本体中引入了概念对和隶属度的形式,一个概念对相当于一个字符串,包含了两个实体,考虑概念对类中概念名称这一属性,对概念对进行排序组合后,计算概念对的相似度:
在基础版的建筑师本体上继续设计子本体,然后总本体和子本体进行融合,逐步形成完善的本体模型,完善形成的建筑师知识图谱本体人文特征,以适应大量各类的建筑师数据信息;
4)建筑师知识抽取:
以实体、关系、事件为知识粒度抽取建筑师知识,对于半结构化的数据,采用词法分析和规则抽取的知识抽取方法,通过分析半结构化文本语句将其转化为词序列并标记各词的词性,然后以预定义建筑师规则模式识别出实体、关系、事件知识,针对非结构化文本数据,采用深度学习法学习获取建筑师文本特征,并根据预定义建筑师实体类型和关系类型抽取实体、关系三元组,以及根据预定义建筑师事件类型和论元角色抽取事件知识;
所述步骤4)中实体、关系、事件为知识粒度抽取的每条规则,且都根据建筑师群体总体特征和数据信息对进行定制;在文本没有找到相匹配规则时,通过分析规则条目词列表和该条文本内词的相似度,选出评分最高值,对文本抽取出完整的知识结构;
所述步骤4)实体和关系知识抽取过程中的深度学习方法,在进行建筑师实体识别和关系抽取使用联合学习的多任务方法,给定的自然语言句子,根据设计的本体模型,结合深度学习预训练模型提取建筑师纯文本特征以及捕获句子的结构信息,输出文本-序列组成表,并分别对文本-序列组成表及序列做表征,从而抽取出所有满足本体约束的知识三元组;
深度学习方法具体如下,通过实体感知方式对人物关系句子进行编码,基于BERT的模型,首先,构造输入序列[[CLS]sentence[SEP]subject[SEP]object[SEP]],然后,输入由词条分词器标记并且输入到BERT模型中,在获得上下文表示后,丢弃第一个[SEP]之后的序列,使用H=[h 1, h 2, …,h n, h n+1]来表示[[CLS]sentence[SEP]]的BERT上下文表示,其中n可以不同于句子的长度,主体实体范围表示为H s =[h s1, h s1+1, …, h s2],对象实体跨度为H O =[h o1, h o1+1, …, h o2],定义与建筑预料中主体实体跨度相关的位置序列,其中,
所述步骤4)事件知识抽取过程中的深度学习方法,根据预先定义的事件类型和论元角色,结合深度学习预训练模型序列标注方案,进行触发词抽取和论元抽取,从而形成完整建筑师事件知识结构,
多源异构数据的知识抽取,具体如下;
从不同的数据源的获取的结构化数据之间必定存在大量的实体冗余等问题,进行实体对齐将异构建筑师数据源融合,在知识融合过程中,赋予纸质文献实体权重远大于网页数据实体,将待对齐实体看成两个集合,然后以如下公式计算两个集合的相似性,若相似度值大于预设置阈值则看成同一实体;
本发明的有益效果为:
本发明提出了面向多源异构建筑人文史料的建筑师知识图谱构建方法,对互联网数据和纸质文献的近现代建筑师群体史料进行采集和处理,结合实际建筑人文需求构建建筑师图谱本体,以本体为指导,使用分层次多方法抽取建筑师的知识,得到全面描述近现代建筑人文史料的建筑师图谱。近现代建筑师知识图谱可用于提升传统建筑人文研究中数据采集、处理和整理的效率,具有较好的应用价值。
附图说明
图1为本发明方法的逻辑框架;
图2为建筑人文互联网数据采集工作流程;
图3为建筑师知识图谱的本体;
图4为本发明的实体关系知识抽取方法;
图5为本发明的事件知识抽取方法;
图6为建筑师知识图谱示例一;
图7为建筑师知识图谱示例二。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明公开了一种面向多源异构建筑人文史料的建筑师知识图谱的构建方法。其中逻辑框架如图1所示,具体如下;
首先,对近现代建筑师群体史料的互联网数据和纸质文献进行采集和处理,同时手工构建建筑师图谱本体。然后,以建筑师图谱本体为指导,采用词法分析、规则抽取和深度学习的方法分层次抽取半结构化和非结构化多模态数据中的实体、关系和事件等不同粒度的建筑师相关知识,并将抽取得到的多源异构知识进行融合。最后,得到由知识三元组构成的近现代建筑师知识图谱,并将其存储于图数据库中。近现代建筑师知识图谱可有效提升传统建筑人文史料梳理和分析的工作效率,具有较好的应用前景;
1)多源异构建筑人文史料数据的采集;
建筑人文史料数据包括纸质文献和互联网数据。纸质文献的数据主要来源于建筑人文领域专家筛选的文献数据,过滤指标为人物信息的完整性,包括人物生平经历、社会关系、建筑作品、言论文章等。文献数据包括《近代哲匠录》、《建筑师作品集》、《建筑师言论集》等近现代建筑师文献;
为填补纸质文献数据中可能存在的数据不完备问题,从百度百科数据源采集建筑师信息,使用爬虫技术获取互联网上的建筑师信息。本发明采用深度优先搜索策略爬虫。首先,将建筑师姓名和百科地址拼接为种子集,在种子的百科网页中进行建筑师资料的采集;然后,在当前建筑师百科网页的数据抓取过程中不断将获取新网址放入待爬取的网址队列中。附图2为深度优先搜索的建筑师网络爬虫工作原理图。该爬虫首先从一个预定义的种子网页开始,然后进入并采集数据和分析所选定网页内的其他链接。在进入的网页内选择一个最佳匹配的链接进行搜索和分析,并不断深入追踪更深层的链接对应的网页内容,直到达到指定深度或者满足爬取终止条件。由于浅层网页比深层网页有更多高价值的信息,深度优先策略爬取对网页值爬取进行相应优化:当网页X存在一个指向网页Y的链接,则Y对X的重要性尤为突出,从而把X的一部分重要性得分赋予Y。这个重要性得分值为:PR(X)/C(X),其中PR(X)为X的网页级别值,C(X)为X的外部链接总。网页Y的网页级别值PR为一系列类似于X的页面重要性的分值累加;
其中,PR(Y)表示网页Y的PR分值,Xi为指向Y的其他网页,d是一个调节系数,取值在范围0.75-0.85之间;
2)多源异构建筑人文史料数据的处理;
文字识别部分采用CRNN+CTC网络结构来对传统文献资料进行数据信息化。卷积神经网络(CNN)可以从纸质建筑文献文本图像中提取多尺度特征。循环神经网络(RNN)和连接时序分类(CTC)层遵循多尺度CNN将特征序列转换为预测标签序列。其中CTC是一种调整输入和输出的方法。转换过程是在每次预测的条件下找到最高概率。以每帧预测y=y1,…,yT为条件的标签序列的概率,定义为:
在使用该模型对建筑师的文献文档资料文字识别时,首先需要训练CRNN模型。采用Synth数据集作为训练,该数据集包含几百万张的合成训练图像以及对应的文本。使用如下公式来评估模型识别文本性能:
其中,m代表预测准确的图片数量,N代表全部测试数据条数。
建筑师纸质文献图片包含大量文字内容,本发明使用文本切割方法将图片进行左右和上下的区域切割,每一张分割后的子图片记录分割顺序,每张图片获取10张子图片,通过训练好的模型对子图片内容进行测试识别。由于不同纸质文献文本排版不同,例如单栏式、双栏式、对角式等。根据纸质文献的文本结构特点,设计对应的文本语句识别算法。例如每个建筑师人物内容介绍的文本总体结构相似,主要内容包括建筑师姓名、字、生卒、籍贯、教育背景、人物图像、人物经历、作品等。而每个建筑师的内容结构有不同之处,例如部分资料建筑师的经历、作品、著作、其它材料内容数据量大概一致,在文档页中呈均匀分布,部分资料建筑师的著作内容相较经历和作品较多,著作内容分散在文档页左右两部分之中。此外,建筑师人物内容会分散在前后两页文档中,即一个文档页中会出现包含两位建筑师的基本人物信息。
根据这些不同情况的描述分析,以文本左右分布双栏式为例描述文本处理算法,具体算法步骤如下所述;
第1步:首先以T,d作为输入,T表示识别后的文本块信息,d为文本块间隔阈值;
第2步:将T作为参数传入CacBlock函数,该函数通过识别文本位置信息计算块信息,获得按序排列的块文本列表;
第3步:以1为循环条件开始值,列表L长度为终止值,每次循环步长为1,每次获取一文本字符串用于子循环;
第4步:在上一个循环中,再以1为循环条件开始值,列表L第i个文本串的文本长度为终止值,每次循环步长为1,在当前循环中,判断列表L第i个文本串的第j个字符水平位置值是否小于整个文本串的水平位置值以及判断文本串的每两个字符水平间隔值是否超过阈值d,若条件都满足,则将该字符加入左区域总本文内容,并跳出当前循环继续执行,若不满足,则将字符加入右区域总本文内容,并继续执行当前循环;
第5步:最终获得左右两块区域的总文本内容T A 。
经过文本识别后仍然存在的识别错误,本发明设计了一种建筑师文本纠错检测工具实现不同文本错误类型纠错。该工具包可用于音似、形似错字纠正、中文拼音等多类错误的纠正。根据规则纠错的解决思路包括:错误检测和错误纠正。在错误检测中,通过中文分词器进行分词,由于句子中含有错别字或字词缺失等问题,切词的输出往往会有切分错误,从字粒度和词粒度两面进行错误检测。首先,第1次计算文本段来获取1个纠错结果r1,并对纠错结果r1再次进行纠错获得2次结果r2,然后验证r1和r2的交集,若有交集文本段被复原,若没有则文本段被r1替换。以下是交集计算公式,如果有交集那么左区间最大值一定小于右区间最小值;
其中ID代表文本改善程度,ppl的计算公式为;
其代表困惑度值,值越低,表示语句越流畅正确。计算获取文本语句的困惑度,并借助这两种粒度方法的困惑与一个预设置的阈值进行比较,若困惑度小于阈值,复原文本;若困惑度大于阈值则形成疑似的错误位置候选集并文本替换获取正确结果;
在文本纠错工具包的基础上加入文献数据的建筑师姓名及相应的建筑专有名词集合列表,并针对每个建筑师文献文本增加特定的文本错误类型。建筑师文本纠错检测工具对文字识别处理的数据按照每行或每句进行文本输入,在经过工具分析后分别输出原语句和纠错后的新语句;
3)建筑师图谱本体构建;
经过数据采集和处理,在进行知识抽取、知识融合以及图谱构建之前需要对本体模型做出设计。要构建中国近代建筑师的知识图谱就首先需要构建出建筑师图谱的本体,构建本体的概念及属性,值属性和关系属性本体。本发明构建建筑师知识图谱本体从本体概念结合已有文本数据出发,首先建立建筑师、教育经历、著作、作品、生平经历、其他材料、高校、机构组织等概念,根据不同维度数据建立子本体,以建筑师概念为本体核心,构建教育子本体,工作子本体等多个维度子本体,然后根据每一个概念的数据特征赋予其相应属性特征并且定义其属性的数据类型,这样就构建完成概念属性表和值属性表,将所有子本体叠加融合并去重消歧,得到总本体。在本发明中,实现子本体融合采用概念对齐、属性对齐和实体匹配的方式,制定融合规则对融合结果进行处理,从而形成总本体。概念对齐和属性对齐采用自动识别方法,了解不同建筑师子本体知识库中对同一概念、属性的不同描述,挖掘等价概念和等价属性,生成相应的匹配规则,从而实现建筑师多个子本体间概念层和属性层的对齐。在完成概念层和属性层的对齐之后,对实体进行匹配。因此,面向属性定义较准确的建筑师知识库内容,采用基于属性相似度的实体匹配算法。经过本体语言规范化后,设实体属性名集合为Property a ={p a1 ,p a2 ,…,p am },对应的属性集合为 Valuea={ v a1 ,v a2 ,…,v am };实体属性名集合为Property b ={p b1 ,p b2 ,…,p bm },对应的属性集合为Valuea={ v b1 ,v b2 ,…,v bm }。实体A和的公有属性计算为InterProperty(A,B) = Property a ∩Property b 。实体A和B的相似度的相似度计算公式如下:
其中T=|Property a ∩ Property b |。在加和所有匹配属性的相似度评分后,获得实体A和实体B的相似度Property sim(A,B) ,然后通过设置两个相似度阈值,判断计算结果位于哪个相似度区间,若Property sim(A,B)≥t 2,表示A、B匹配,若t 1≤Property sim(A,B)<t 2,表示A、B可能匹配,若Property sim(A,B)<t 1,表示A、B不匹配,A和B是待匹配的实体对;
此外,本发明建筑师知识图谱本体中引入了概念对和隶属度的形式,一个概念对相当于一个字符串,包含了两个实体,考虑概念对类中概念名称这一属性,对概念对进行排序组合后,计算概念对的相似度:
其中Propertysim(A,B)表示概念对相似度,lcs(A,B)代表实体A和实体B的公共子序列长度,len(A)和len(B)分别表示实体A和实体B的长度。建筑师总本体模型图见附图3;
4)建筑师知识抽取;
在构建完成本体模型后,进行数据信息的知识抽取,分别进行半结构化文本的词法分析和规则抽取,以及非结构化文本数据的深度学习模型抽取。
表1半结构文本模式表
其中部分文本要素可以互换,这些文本没有主语,例如在描述建筑师杨廷宝的半结构文本数据中,一般省略杨廷宝这一主语,所以需要抽取的是谓语,宾语等成分。首先,通过词性识别抽取出人名(nr),地名(ns)等实体类型和带有关系的词组。
例如从“1934年与刘致平、王先泽等测绘杭州六和塔”该文本数据中可抽取出“刘致平、王先泽”等人物名(nr)、“杭州、六和塔”地名(ns)、“1934、年”时间词(t)。
在识别职业名词(np)时,首先需在识别出普通名词的基础上,对普通名词进行一个经过职位列表词L p 的过滤筛选分析,过程如下:
职位列表词L p 通过TF-IDF词频分析获取高频词列表L A ,再经人工统计筛选获取基本职位词列表L p ,方式如下:
如有“师,员,士,生,长,顾问,主任,教授,秘书,主编,评委,监事,…”词列表。在此列表中,对经过检测得出的普通名词再在这个职位关键词列表中进行检索匹配,若名词中包含列表关键词,则可以判定为是职位关键词,若无匹配,则仍是普通名词。
在关系动词抽取后,若一个句子中有多个动词,则可根据该句中的其他名词来确定关联度最大的动词,若句子中没有动词,则需要通过文本中的地点名词,机构名词来设定预先定义好的关系动词,例如机构名词为学校可以匹配学习,机构名词为企业可以匹配担任。
在处理完较短的半结构化文本数据的实体和关系抽取后,需要对文献数据中的例如社会关系和百科爬虫数据中的长文本信息进行实体和关系的抽取,在这里,使用基于规则的抽取和词法分析的抽取无法高效准确地对实体与实体之间的关系进行准确的链接关系,所以使用对关系抽取有良好效果的深度学习模型来完成这个任务。本发明中,使用基于BERT预训练模型的建筑师关系抽取模型,如附图4,对建筑师文献人物关系文本数据和百度爬虫的人物关系文本数据进行知识抽取。通过实体感知方式对人物关系句子进行编码,基于BERT的模型,首先,构造输入序列[[CLS]sentence[SEP]subject[SEP]object[SEP]]。然后,输入由词条分词器标记并且输入到BERT模型中,在获得上下文表示后,丢弃第一个[SEP]之后的序列,使用H=[h 1, h 2, …,h n, h n+1]来表示[[CLS]sentence[SEP]]的BERT上下文表示,其中n可以不同于句子的长度。主体实体范围表示为H s =[h s1, h s1+1, …, h s2],对象实体跨度为H O =[h o1, h o1+1, …, h o2]。本专利定义了与建筑预料中主体实体跨度相关的位置序列,其中,
这里,s 1和s 2是主体实体的开始和结束位置,以及∈Z是到主体实体的相对距离。以建筑人文领域文本数据集作为训练数据对本专利的建筑师关系抽取模型进行训练。训练完成后对处理后的文献文本和百度爬虫纯文本数据进行预测和抽取关系,并在此基础上进行模型预测及实体识别和关系抽取任务。
完成实体和关系的三元组信息抽取后,建筑人文研究有时更需要了解特定的事件,以事件为核心的一个知识结构对人文探索有更加直接的帮助。本发明分别从建筑师半结构化数据源和建筑师纯文本信息源中抽取出对建筑人文具有显著研究效益的事件并以结构化的形式呈现。
半结构化数据形式相对单一,使用基于根据建筑师数据结构特征的模式匹配方法,对数据中建筑师的预分类事件作提取。本发明以建筑师人物事件为核心进行构建,构建从事件维度观察建筑师文献的事件知识图谱。在模式匹配中,主要以因果、时序两类事件间关系为事件抽取目标,对已有的各类半结构数据进行模式信息抽取,如下表2。
针对因果关系,首先抽取可能表示因果的文本语句,然后根据预设值抽取出因果关系的原因和结果,采用模式匹配,方法过程为全文本→因果文本→句子级因果事件→篇章级因果事件,通过句内因果关系抽取因果文本形成句子级因果事件,由句子级因果事件的句间因果关系将事件转化成篇章级因果事件。其中句内因果关系有“导致,产生,造成,发自,来源于,起源于,为了,依据,按照”等,句间因果关系有“离职–入职,毕业–就职,回国–工作,出国–求学,受伤–停职”等。在通过字词来判断句内和句间因果关系时,首先需要使用词法分析来提取出可能需要的因果关键词,然后使用预先定义的因果同义词词典来进行词义相似度匹配,若能够匹配,就将抽取事件标注相似度值最大的因果关系。
针对时序关系,主要按照文本时间名词进行抽取,直接按照每个文本语句的时间名词来对每个文本事件进行时序关系的抽取,进一步地按照词法分析方法抽取文本中的时间性质名词例如先–后,春–夏–秋–冬,早晨–上午–中午–下午夜晚等,根据这些代表时间序列的名词进行时序关系的抽取。
表2模式匹配事件关系抽取形式表
另一个部分是纯文本数据的事件知识抽取,给出语句n的序列采用依赖解析术语,为每个token x i 编码了标签y i 作为元组<d, r, h>,其中d是依赖的表示token和提及类型,r是关系用于指代其角色,而头(h)表示token引用的事件。
本发明的目标是学习一个函数f : X→Y,分配每个token x i 一个结构化标签y i 即<d, r, h>。本发明使用BERT作为编码器,使用百科事件抽取信息竞赛数据集进行预训练,并屏蔽了实体跨度。将本发明的单任务事件抽取训练模型(STEE),如附图5,预测每个输入token 的单个标签y i = <d, r, h>。标签空间最多为L=|D|×|R|×|H|,将该模型用于建筑师人文文本数据中进行事件信息的抽取获取建筑师的事件类型和类型具体结构。
经过上述的实体、关系和事件的多源异构数据的知识抽取。从不同的数据源的获取的结构化数据之间必定存在大量的实体冗余等问题。进行实体对齐将异构建筑师数据源融合。本发明中由于以纸质文献为主,网页数据为辅,在知识融合过程中,赋予纸质文献实体权重远大于网页数据实体。将待对齐实体看成两个集合,然后以如下公式计算两个集合的相似性。若相似度值大于预设置阈值则可看成同一实体;
以上知识抽取工作完成后,得到的建筑师知识数据,可采用neo4j等图数据库进行存储数据,并构建整个近现代建筑师图谱G A,在经过去重、数据格式修改等操作后,将三元组转换成导入图数据库所需的实体和关系型的数据格式,最终得到近现代建筑师知识图谱。附图6为以特定建筑师为中心点的知识图谱局部示例。附图7为以特定学校毕业建筑师的知识图谱局部示例。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
Claims (1)
1.面向多源异构建筑人文史料的建筑师知识图谱构建方法,具体步骤如下,其特征在于:
1)多源异构建筑人文史料数据的采集:
一方面,采集纸质建筑师文献数据D p ;
另一方面,采集来源于互联网开源建筑人文数据D w,通过设计的专用网络爬虫算法,对纸质文献中的建筑师数据进行补全、更新或修正;
所述专用网络爬虫算法的级别值算法具体如下;
当网页X存在一个指向网页Y的链接,则Y对X的重要性尤为突出,从而把X的一部分重要性得分赋予Y,其中重要性得分值为:PR(X)/C(X),其中PR(X)为X的网页级别值,C(X)为X的外部链接总和,网页Y的网页级别值PR为一系列类似于X的页面重要性的分值累加;
其中,PR(Y)表示网页Y的PR分值,Xi为指向Y的其他网页,d是一个调节系数,取值在范围0.75-0.85之间;
所述步骤1)中的纸质建筑师文献数据D p 包括每位建筑师的基本信息、教育经历、工作经历、建筑文献和作品信息,纸质建筑师文献数据全面覆盖了相应建筑师的主体信息,依据该数据开展下游分析任务,包括人物关系分析和设计风格分析,针对于纸质文献数据的信息覆盖不全面和无法更新的问题,从互联网开源数据中爬取建筑人文数据D w ,从而构建以D p 为主体,D w 为补充的建筑人文研究基础数据;
2)多源异构建筑人文史料数据的处理:
以每帧预测y=y1,…,yT为条件的标签序列的概率,定义为:
所述步骤2)中的建筑师纸质文献处理,在文本和图片识别基础上增加了自定义的建筑师文本识别策略,自定义的建筑师文本识别策略设计有文本过滤器,优先关注文本主体部分内容,并过滤与建筑师无关的信息,包括纸质文献的页码、页眉、页脚以及纸质文献中图片中的无关文字内容;
所述步骤2)中文本纠错过程,提出一种建筑师纠错检测算法,通过添加建筑领域敏感词汇的注意力机制,在候选字词列表中计算权重值,得到最后的注意力,
文本纠错过程中使用文本纠错交集计算公式获取文本改善度,具体步骤如下;
首先,第1次计算文本段来获取1个纠错结果r1,并对纠错结果r1再次进行纠错获得2次结果r2,然后验证r1和r2的交集,若有交集文本段被复原,若没有则文本段被r1替换,以下是交集计算公式;
之后在文本识别中自动提示识别错误,并对错误文字提供可纠正字选项及权重分数;
3)建筑师知识图谱本体模型:
建筑师图谱本体是对建筑师知识图谱中数据的形式化概念抽象描述和定义,建筑师知识图谱本体模型O A 包括对象类型、属性类型和关系类型、以及类型层次,基于步骤1)和步骤2)中得到的建筑师信息首先分析各类数据组成成分,定义对象-属性类型和关系-属性类型词典,并结合建筑人文基础研究的需求进行调整,最终定义了10种对象类型,30种属性类型和23种关系类型;
所述步骤3)中的建筑师知识图谱本体模型O A ,采用多层多领域的设计思路,分别设计建筑师图谱子本体,将子本体相互叠加,最终形成完整的建筑师知识图谱本体;
针对建筑师本体的建筑师的教育经历设计子本体,针对生平工作经历设计子本体O E ,针对建筑成就设计子本体O W ,然后通过去重和消歧来融合这些子本体,得到建筑师知识图谱本体模型O A ;
所述步骤3)中建筑师知识图谱本体模型O A ,并不是一成不变的,建筑师知识图谱本体模型O A 具备包容融合能力;
动态融合本体的方法,面向属性定义较准确的建筑师知识库内容,采用基于属性相似度的实体匹配算法,具体如下;
实体A和B的相似度的相似度计算公式如下:
其中,在加和所有匹配属性的相似度评分后,获
得实体A和实体B的相似度 ,然后通过设置两个相似度阈值,判断计算结果
位于哪个相似度区间,若,表示A、B匹配,若,
表示A、B可能匹配,若,表示A、B不匹配,A和B是待匹配的实体对;
此外,建筑师知识图谱本体中引入了概念对和隶属度的形式,一个概念对相当于一个字符串,包含了两个实体,考虑概念对类中概念名称这一属性,对概念对进行排序组合后,计算实体A和B的相似度:
在基础版的建筑师本体上继续设计子本体,然后总本体和子本体进行融合,逐步形成完善的本体模型;
4)建筑师知识抽取:
以实体、关系、事件为知识粒度抽取建筑师知识,对于半结构化的数据,采用词法分析和规则抽取的知识抽取方法,通过分析半结构化文本语句将其转化为词序列并标记各词的词性,然后以预定义建筑师规则模式识别出实体、关系、事件知识,针对非结构化文本数据,采用深度学习法学习获取建筑师文本特征,并根据预定义建筑师实体类型和关系类型抽取实体、关系三元组,以及根据预定义建筑师事件类型和论元角色抽取事件知识;
所述步骤4)中以实体、关系、事件为知识粒度抽取的每条规则,都根据建筑师群体总体特征和数据信息进行定制;在文本没有找到相匹配规则时,通过分析规则条目词列表和该条文本内词的相似度,选出评分最高值,对文本抽取出完整的知识结构;
所述步骤4)实体和关系知识抽取过程中的深度学习方法,在进行建筑师实体识别和关系抽取使用联合学习的多任务方法,给定的自然语言句子,根据设计的本体模型,结合深度学习预训练模型提取建筑师纯文本特征以及捕获句子的结构信息,输出文本-序列组成表,并分别对文本-序列组成表及文本-序列做表征,从而抽取出所有满足本体约束的知识三元组;
深度学习方法具体如下,通过实体感知方式对人物关系句子进行编码,基于BERT的模型,首先,构造输入序列[[CLS]sentence[SEP]subject[SEP]object[SEP]],然后,输入由词条分词器标记并且输入到BERT模型中,在获得上下文表示后,丢弃第一个[SEP]之后的序列,使用H=[h 1, h 2, …,h u, h u+1]来表示[[CLS]sentence[SEP]]的BERT上下文表示,其中u可以不同于句子的长度,主体实体范围表示为H x =[h x1, h x1+1, …, h x2],对象实体跨度为H O =[h O1, h O1+1, …, h O2],定义与建筑语料中主体实体跨度相关的位置序列,其中,
这里,f 1和f 2是主体实体的开始和结束位置;
所述步骤4)事件知识抽取过程中的深度学习方法,根据预先定义的事件类型和论元角色,结合深度学习预训练模型序列标注方案,进行触发词抽取和论元抽取,从而形成完整建筑师事件知识结构,
多源异构数据的知识抽取,具体如下;
从不同的数据源的获取结构化数据之间必定存在大量的实体冗余问题,进行实体对齐将异构建筑师数据源融合,在知识融合过程中,赋予纸质文献实体权重远大于网页数据实体权重,将待对齐实体看成两个集合,然后以如下公式计算两个集合的相似性,若相似度值大于预设置阈值则看成同一实体;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111367313.7A CN113806563B (zh) | 2021-11-18 | 2021-11-18 | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111367313.7A CN113806563B (zh) | 2021-11-18 | 2021-11-18 | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806563A CN113806563A (zh) | 2021-12-17 |
CN113806563B true CN113806563B (zh) | 2022-07-12 |
Family
ID=78938371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111367313.7A Active CN113806563B (zh) | 2021-11-18 | 2021-11-18 | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806563B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049493B (zh) * | 2022-01-11 | 2022-04-01 | 北京融信数联科技有限公司 | 基于智能体图谱的图像识别方法、系统和可读存储介质 |
CN114896408B (zh) * | 2022-03-24 | 2024-04-19 | 北京大学深圳研究生院 | 一种材料知识图谱的构建方法、材料知识图谱及应用 |
CN115438197B (zh) * | 2022-11-07 | 2023-03-24 | 巢湖学院 | 一种基于双层异质图的事理知识图谱关系补全方法及系统 |
CN115630174B (zh) * | 2022-12-21 | 2023-07-21 | 上海金仕达软件科技股份有限公司 | 一种多源公告文档处理方法、装置、存储介质及电子设备 |
CN115909386B (zh) * | 2023-01-06 | 2023-05-12 | 中国石油大学(华东) | 一种管道仪表流程图的补全和纠错方法、设备及存储介质 |
CN116136866B (zh) * | 2023-04-19 | 2023-06-27 | 中国人民解放军国防科技大学 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
CN116680445B (zh) * | 2023-05-05 | 2024-05-10 | 国网吉林省电力有限公司 | 基于知识图谱的电力光通信系统多源异构数据融合方法及系统 |
CN117556054B (zh) * | 2023-11-14 | 2024-07-30 | 哈尔滨工业大学 | 一种基于大型语言模型的知识图谱构建方法与管理系统 |
CN117271622A (zh) * | 2023-11-21 | 2023-12-22 | 中铁建设集团有限公司 | 一种建筑施工方案的审核知识要点挖掘方法与装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
-
2021
- 2021-11-18 CN CN202111367313.7A patent/CN113806563B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
基于本体的徽派建筑知识图谱构建研究;杨超;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20210815(第8期);第1-51页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113806563A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN112199511B (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
CN112001177B (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
CN110968699B (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
Deepak et al. | A novel firefly driven scheme for resume parsing and matching based on entity linking paradigm | |
US20210382878A1 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
Kmail et al. | An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN115982379A (zh) | 基于知识图谱的用户画像构建方法和系统 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
Wang et al. | A probabilistic address parser using conditional random fields and stochastic regular grammar | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
Zhang et al. | A hybrid neural network approach for fine-grained emotion classification and computing | |
CN116186422A (zh) | 基于社交媒体和人工智能的疾病相关舆情分析系统 | |
CN116227594A (zh) | 面向多源数据的医疗行业高可信度知识图谱的构建方法 | |
Da et al. | Deep learning based dual encoder retrieval model for citation recommendation | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
CN112749278B (zh) | 一种建筑工程变更指令的分类方法 | |
CN114417008A (zh) | 一种面向建设工程领域的知识图谱构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |