CN110287334A - 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 - Google Patents
一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 Download PDFInfo
- Publication number
- CN110287334A CN110287334A CN201910511427.0A CN201910511427A CN110287334A CN 110287334 A CN110287334 A CN 110287334A CN 201910511427 A CN201910511427 A CN 201910511427A CN 110287334 A CN110287334 A CN 110287334A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- question
- attribute
- school
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 45
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000013480 data collection Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- ZLHFONARZHCSET-UHFFFAOYSA-N 5-aminolevulinic acid hydrochloride Chemical compound Cl.NCC(=O)CCC(O)=O ZLHFONARZHCSET-UHFFFAOYSA-N 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004321 preservation Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 abstract 1
- 235000011511 Diospyros Nutrition 0.000 description 3
- 244000236655 Diospyros kaki Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 206010020675 Hypermetropia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Abstract
本发明公开了一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法。首先对学校领域问答对数据集预处理得到实体识别模型标注数据集EntityData;利用数据集EntityData训练基于BERT‑BiLSTM‑CRF的实体识别模型,得到学校领域实体识别模型SchoolEntityModel;然后对学校领域问答对数据集预处理得到属性抽取模型标注数据集AttributeData;利用数据集AttributeData训练基于BERT的属性抽取模型,得到学校领域属性抽取模型SchoolAttributeModel;最后分别通过SchoolEntityModel和SchoolAttributeModel抽取出问句对数据集中的实体、属性和属性值,从而建立知识三元组,构建学校领域知识图谱。本发明方法可有效构建学校领域知识图谱。
Description
技术领域
本发明属于知识图谱构建技术领域,特别涉及一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法。
背景技术
实体识别也称为命名实体识别或实体抽取,是从原始数据语料中自动识别出命名实体。由于实体是知识图谱中最基本的元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。因此,实体识别是从半结构化数据或非结构化数据中获取知识的重要方法,是构建知识图谱的基础与关键的一步。
知识抽取是从自然语言文本或者多媒体内容文档等中通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体、关系以及属性三个知识要素,并以此为基础,形成一系列高质量的事实表达,为知识图谱的构建奠定基础。
知识图谱源于语义网络,以语义网的资源描述框架规范形式表示实例和关系,对于特定领域而言,计算机更易于理解知识图谱中实体及其关系,更智能化处理信息。知识图谱是知识的一种表示形式,是由描述实体间关系的三元组构成的知识网络。把非结构化的文本知识结构化应用知识图谱的第一步是构建知识图谱,而构建知识图谱的重点在于三元组抽取。根据知识覆盖的范围,知识图谱可以分为开放域通用知识图谱和垂直领域知识图谱。目前大多数已发布的知识图谱是开放域通用知识图谱,但是相较于垂直领域知识图谱,其需要囊括人类的所有知识、知识系统庞杂、涉及范围广,而垂直领域知识图谱只涉及小领域、知识体系更完善和更专业。
朱全银等人在知识图谱,学校领域数据挖掘、分类抽取方面已有的研究基础包括:Wanli Feng.Research oftheme statement extraction for chinese literature basedon lexical chain.International Journal of Multimedia and UbiquitousEngineering,Vol.11,No.6(2016),pp.379-388;刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;朱全银,冯万利等人申请、公开与授权的相关专利:李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08;肖绍章,朱全银,李翔,钱凯,于柿民,潘舒新,瞿学新,唐海波,邵武杰,高阳,江丽萍.一种学生浏览网页分类方法.中国专利公开号:CN107506472A,2017.12.22;朱全银,潘舒新,冯万利,李翔,贾笑颖,胡荣林,周泓,于柿民,赵阳,瞿学新,杨茂灿,唐海波,邵武杰.一种多维度网页浏览行为评估方法.中国专利公开号:CN106886577A,2017.06.23;朱全银,严云洋,胡荣林,李翔,瞿学新,唐海波,赵阳,高阳,钱凯.一种基于互信息和关联规则的文本特征提取方法.中国专利公开号:CN107766323A,2018.03.06;朱全银,唐海波,严云洋,李翔,胡荣林,瞿学新,邵武杰,许康,赵阳,钱凯,高阳.一种基于深度学习的用户文献阅读兴趣分析方法.中国专利公开号:CN108280114A,2018.07.13;朱全银,于柿民,胡荣林,冯万利,周泓.一种基于知识图谱的专家组合推荐方法.中国专利公开号:CN109062961A,2018.12.21。
传统的知识图谱构建方法需要有专家的参与,针对上述问题:百华睿.知识图谱构建方法及系统.中国专利公开号:CN108694177A,2018.10.23,属于专业数字出版领域,根据四个匹配单元模块,将文本中的关键词与领域主题进行匹配,得到知识元实例、属性和关系,进而构建知识图谱;范亮,崔小龙,朱毅,吴士民,石薇,秦东亮.基于知识点连接关系的知识图谱构建方法.中国专利公开号:CN107784088A,2018.03.09,属于教育学习领域,目的是增强知识点总结归纳的能力,构建方法是将教学知识点的元知识点和复合知识点组合;丁帅,李玲,杨善林,王浩.医疗知识图谱构建方法及装置.中国专利公开号:CN108492887A,2018.09.04,属于医疗技术领域,根据Aprior算法确定的实体的频繁项集并计算节点强度指标,从而构建知识图谱;贾维嘉,丁建辉,马世珩.动态知识图谱的构建方法.中国专利公开号:CN108509654A,2018.09.07,属于信息抽取技术领域,利用实体的联合向量构建动态知识图谱;曾伟雄.一种构建知识图谱的方法及装置.中国专利公开号:CN109145003A,2019.01.04,数据处理对象为结构化数据,采用确定基准实体的方法更新数据并构建知识图谱。但是目前还没有结合神经网络模型对学校领域的实体识别和属性抽取并构建学校领域知识图谱的方法。
发明内容
发明目的:针对上述问题,本发明提供一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,结合神经网络模型对学校领域的实体识别和属性抽取,并且构建的学校领域知识图谱可以更好地应用于知识可视化、知识问答、个性化推荐。
技术方案:本发明提出一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,包括如下步骤:
(1)对学校领域问答对数据集进行预处理,得到实体识别模型标注数据集EntityData;
(2)利用数据集EntityData训练基于BERT-BiLSTM-CRF的实体识别模型,得到学校领域实体识别模型SchoolEntityModel;
(3)对学校领域问答对数据集进行预处理,得到属性抽取模型标注数据集AttributeData;
(4)利用数据集AttributeData训练基于BERT的属性抽取模型,得到学校领域属性抽取模型SchoolAttributeModel;
(5)利用问句对数据集分别通过实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel抽取出实体、属性和属性值,通过实体、属性和属性值建立知识三元组,构建学校领域知识图谱。
进一步的,所述步骤(1)中得到实体识别模型标注数据集EntityData的具体步骤如下:
(1.1)定义预处理后的问答对集合QASet,定义question,answer,triple分别为单个问答对的问句、答案和三元组,并且满足关系QASet={[question1,answer1,triple1],[question2,answer2,triple2],…,[questionQASetNum,answerQASetNum,tripleQASetNum]},其中,QASetNum为问答对集合中数据的个数,对问答对数据进行预处理,得到问答对集合QASet;
(1.2)定义Word、Label分别为问句和答案中每个字构成的数据集、每个字对应的标签构成的数据集,Word={word1,word2,…,wordQANum},Label={label1,label2,…,labelQANum},wordn为Word中第n个字,labeln为Label中第n个字对应的标签,其中,QANum为问句和答案的总个数,变量n∈[1,QANum],定义LabelTemp为单个问句和答案中每个字对应的标签构成的数据,其中,定义计数器count1,令count1=1,用于遍历QASet;
(1.3)若count1≤QASetNum,执行步骤(1.4),否则执行步骤(1.6);
(1.4)遍历步骤(1.1)中集合QASet的数据,将数据处理为单个字存入数据集Word中,并将数据集Label中的所有数据标注为非实体标签,若question或者answer存在于triple中,则将LabelTemp标注为实体标签,替换Label中对应位置的数据;
(1.5)令count1=count1+1,执行步骤(1.3);
(1.6)将Word和Label中的数据打包为一个个元组,得到实体识别模型标注数据集EntityData={[word1,label2],[word2,label2],…,[wordQANum,labelQANum]},wordn与labeln间用制表符分隔。
进一步的,所述步骤(2)中得到学校领域实体识别模型SchoolEntityModel的具体步骤如下:
(2.1)定义学校领域的已标注的训练数据集EntityTrain,验证数据集EntityValid,测试数据集EntityTest,计算已标注的数据集EntityData总数EntitySum。分别定义训练集比例TrainProp、验证集比例ValidProp和测试集比例TestProp;
(2.2)按照TrainProp、ValidProp和TestProp的比例划分数据集EntityData,设定TrainProp=6,ValidProp=2,TestProp=2。分别计算训练集总数TrainNum=EntitySum*TrainProp/(TrainProp+ValidProp+TestProp)、验证集总数ValidNum=EntitySum*ValidProp/(TrainProp+ValidProp+TestProp)以及测试集总数TestNum=EntitySum*TestProp/(TrainProp+ValidProp+TestProp),得到EntityTrain={R1,R2,…,RTrainNum}、EntityValid={R1,R2,…,RValidNum}和EntityTest={R1,R2,…,RTestNum};
(2.3)定义类InputEntityExample用来表示数据,初始化变量EId、EText和ELabel,分别表示训练id、字和字对应的标签;
(2.4)定义类DataProcessor用于数据处理,编写继承类SchoolNerProcessor,定义getEntityLabels函数用来返回实体标签集,定义createEntityExample函数用于调用类InputEntityExample给EId、EText和ELabel赋值,生成训练和验证样本;
(2.5)定义函数modelBuilder,构建模型SchoolEntityModel。实现以下内容:将EText与ELabel转换为ids表示,使用参数加载BERT模型,得到字embedding和最大序列长度maxseqlength。使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths。定义变量LabelsNum为步骤(1)中标签数据集Label的标签数量,利用BERT模型的参数作为SchoolEntityModel模型的参数初始值,加载BiLSTM-CRF模型,输入模型参数embedding、num_labels、maxseqlength、lengths、getEntityLabels函数返回的集合labels并设置模型参数lstm维度为128,droupout_rate为0.5。定义模型评测方法metric_eval,对模型的输出结果使用Viterbi解码;
(2.6)利用TensorFlow将标注训练数据集EntityTrain转化为数据文件EntityTrain.tf_record,读取该数据文件组成batch;
(2.7)训练BERT-BiLSTM-CRF模型,其中模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率2e-5;
(2.8)得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。
进一步的,所述步骤(3)中得到属性抽取模型标注数据集AttributeData的具体步骤如下:
(3.1)定义属性集合AttrList、问句question、答案answer、三元组triple=(question,attr,answer)。遍历步骤(1)中的问答对集合QASet获取triple,从triple中解析出属性保存至AttrList,其中,AttrList={attr1,attr2,…,attrQASetNum},attrn为AttrList中第n个属性,变量n∈[1,QASetNum]。将得到的AttrList添加到集合QASet中;
(3.2)定义单个句子的正样本PositiveSample、负样本NegativeSample和总样本AllSample。遍历步骤(1)中的问答对集合QASet获取question和attr,得到PositiveSample={question,attr,'1'}。从属性集合AttrList中随机抽取出5个属性{attr1,attr2,…,attr5},得到NegativeSample={question,attrm,'0'},m={1,2,3,4,5}。从而得到AllSample={PositiveSample,NegativeSample1,NegativeSample2,…,NegativeSample5},其中,'1'表示该属性attr是问句question中的属性,'0'则表示该属性attr不是问句question中的属性;
(3.3)得到AttributeData={AllSample1,AllSample2,…,AllSampleQASetNum}。
进一步的,所述步骤(4)中得到学校领域属性抽取模型SchoolAttributeModel的具体步骤如下:
(4.1)将已标注的数据集AttributeData按照比例划分为训练集AttributeTrain、验证集AttributeValid和测试集AttributeTest,设定比例为6:2:2;
(4.2)定义类InputAttributeExample用来表示数据,初始化变量AId、AText1、ATex2和ALabel分别表示训练id、问句文本数据、问句属性文本数据和每个句子对应的属性标签;
(4.3)编写DataProcessor的继承类AttributeProcesor。定义createAttrExample函数用于调用类InputAttrExample给AId、AText1、ATex2和ALabel赋值,生成训练和验证样本;
(4.4)构建模型SchoolAttributeModel,加载预训练模型,读取数据。定义训练样本TrainExamples,从训练集AttributeTrain中读取数据并赋值给AId、AText1、ATex2和ALabel,得到训练样本TrainExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTrainNum,AText2AttTrainNum,ALabelAttTrainNum]},AttTrainNum为训练集AttributeTrain中数据的总数;
(4.5)判断是否训练,若训练则执行步骤(4.6),否则执行步骤(4.14);
(4.6)定义变量count2用于遍历训练样本TrainExamples,令count2=1,定义训练样本TrainExamples的总数Sum;
(4.7)若count2≤Sum,则执行步骤(4.8),否则执行步骤(4.10);
(4.8)遍历训练样本TrainExamples,将其进行特征转换,使用BERT模型的convert_single_example函数将每条数据由类InputAttrExample转换为该模型能够处理的类InputFeatures结构,保存至AttrTain.tf_record文件;
(4.9)令count2=count2+1,执行步骤(4.7);
(4.10)定义变量MaxScore用于保存模型参数的最高f1值,定义计数器flags,令flags初始值为1,其中flags∈[1,Sum]。根据AttrTain.tf_record文件生成tf.data.TFRecordDataset输入模型SchoolAttributeModel训练,模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率5e-5,每经过一个epoch利用验证集AttributeValid进行调整参数,输出f1值;
(4.11)设定阈值为5,若flags≤阈值,则执行步骤(4.12),否则执行步骤(4.13);
(4.12)从步骤(4.8)得到f1值,若f1值>MaxScore,则更新MaxScore,否则flags=flags+1;
(4.13)选取在验证集上f1值最高的模型参数并保存模型SchoolAttributeModel,执行步骤(4.5);
(4.14)定义测试样本TestExamples,从测试集AttributeTest中读取数据赋值给AId、AText1、ATex2和ALabel,得到TestExamples,其中,TestExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTestNum,AText2AttTestNum,ALabelAttTestNum]},AttTestNum为测试集AttributeTest中数据的总数。加载BERT模型,读取测试样本TestExamples数据并按照步骤(4.8)对数据进行特征转换;
(4.15)将步骤(4.14)的特征输入模型SchoolAttributeModel,进行模型测试。
进一步的,所述步骤(5)中构建学校领域知识图谱的具体步骤如下:
(5.1)通过利用步骤(2)和步骤(4)得到的实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel,在学校领域问句对数据集中抽取出实体Item1、属性Relation和属性值Item2,定义三元组triple=(Item1,Relation,Item2);
(5.2)定义知识三元组数据集Triples,得到Triples={triple1,triple2,…,tripleK},K为数据集Triples总数;
(5.3)将Triples保存至csv文件,导入到图数据库Neo4j中,从而构建学校领域知识图谱。
本发明采用上述技术方案,具有以下有益效果:
本发明方法利用已有的学校领域问答对数据集预处理为标注数据集,有效地构建了学校领域的知识图谱,为特定领域特别是学校领域提供一种知识图谱的构建方法,具体描述如下:本发明利用实体识别模型,将学校领域的实体识别转换为了序列标注方法,该模型能够兼顾上下文语义信息,增强词向量模型泛化能力;利用属性抽取模型,学习句子关系表示,实现在句子级别上的二分类方法;在问答对数据集上通过实体识别模型和属性抽取模型抽取出实体和属性,从而构建三元组(实体,属性,属性值),存储到图数据库Neo4j中。基于已构建的学校领域知识图谱,可以应用于知识可视化、知识问答、个性化推荐。
附图说明
图1为本发明的总体流程图;
图2为图1中实体识别模型数据预处理方法的具体流程图;
图3为图1中训练基于BERT-BiLSTM-CRF的学校领域实体识别模型方法的具体流程图;
图4为图1中属性抽取模型数据预处理方法的具体流程图;
图5为图1中训练基于BERT的学校领域属性抽取模型方法的具体流程图;
图6为图1中构建学校领域知识图谱方法的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-图6所示,本发明所述的一种实体识别和属性抽取模型的学校领域知识图谱构建方法,包括如下步骤:
步骤1:对学校领域问答对数据集进行预处理,得到实体识别模型标注数据集EntityData;
步骤1.1:定义预处理后的问答对集合QASet,定义question,answer,triple分别为单个问答对的问句、答案和三元组,并且满足关系QASet={[question1,answer1,triple1],[question2,answer2,triple2],…,[questionQASetNum,answerQASetNum,tripleQASetNum]},其中,QASetNum为问答对集合中数据的个数,对问答对数据进行预处理,得到问答对集合QASet;
步骤1.2:定义Word、Label分别为问句和答案中每个字构成的数据集、每个字对应的标签构成的数据集,Word={word1,word2,…,wordQANum},Label={label1,label2,…,labelQANum},wordn为Word中第n个字,labeln为Label中第n个字对应的标签,其中,QANum为问句和答案的总个数,变量n∈[1,QANum],定义LabelTemp为单个问句和答案中每个字对应的标签构成的数据,其中,定义计数器count1,令count1=1,用于遍历QASet;
步骤1.3:若count1≤QASetNum,执行步骤1.4,否则执行步骤1.6;
步骤1.4:遍历步骤1.1中集合QASet的数据,将数据处理为单个字存入数据集Word中,并将数据集Label中的所有数据标注为非实体标签,若question或者answer存在于triple中,则将LabelTemp标注为实体标签,替换Label中对应位置的数据;
步骤1.5:令count1=count1+1,执行步骤1.3;
步骤1.6:将Word和Label中的数据打包为一个个元组,得到实体识别模型标注数据集EntityData={[word1,label2],[word2,label2],…,[wordQANum,labelQANum]},wordn与labeln间用制表符分隔。
步骤2:利用数据集EntityData训练基于BERT-BiLSTM-CRF的实体识别模型,得到学校领域实体识别模型SchoolEntityModel;
步骤2.1:定义学校领域的已标注的训练数据集EntityTrain,验证数据集EntityValid,测试数据集EntityTest,计算已标注的数据集EntityData总数EntitySum。分别定义训练集比例TrainProp、验证集比例ValidProp和测试集比例TestProp;
步骤2.2:按照TrainProp、ValidProp和TestProp的比例划分数据集EntityData,设定TrainProp=6,ValidProp=2,TestProp=2。分别计算训练集总数TrainNum=EntitySum*TrainProp/(TrainProp+ValidProp+TestProp)、验证集总数ValidNum=EntitySum*ValidProp/(TrainProp+ValidProp+TestProp)以及测试集总数TestNum=EntitySum*TestProp/(TrainProp+ValidProp+TestProp),得到EntityTrain={R1,R2,…,RTrainNum}、EntityValid={R1,R2,…,RValidNum}和EntityTest={R1,R2,…,RTestNum};
步骤2.3:定义类InputEntityExample用来表示数据,初始化变量EId、EText和ELabel,分别表示训练id、字和字对应的标签;
步骤2.4:定义类DataProcessor用于数据处理,编写继承类SchoolNerProcessor,定义getEntityLabels函数用来返回实体标签集,定义createEntityExample函数用于调用类InputEntityExample给EId、EText和ELabel赋值,生成训练和验证样本;
步骤2.5:定义函数modelBuilder,构建模型SchoolEntityModel。实现以下内容:将EText与ELabel转换为ids表示,使用参数加载BERT模型,得到字embedding和最大序列长度maxseqlength。使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths。定义变量LabelsNum为步骤1中标签数据集Label的标签数量,利用BERT模型的参数作为SchoolEntityModel模型的参数初始值,加载BiLSTM-CRF模型,输入模型参数embedding、num_labels、maxseqlength、lengths、getEntityLabels函数返回的集合labels并设置模型参数lstm维度为128,droupout_rate为0.5。定义模型评测方法metric_eval,对模型的输出结果使用Viterbi解码;
步骤2.6:利用TensorFlow将标注训练数据集EntityTrain转化为数据文件EntityTrain.tf_record,读取该数据文件组成batch;
步骤2.7:训练BERT-BiLSTM-CRF模型,其中模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率2e-5;
步骤2.8:得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。
步骤3:对学校领域问答对数据集进行预处理,得到属性抽取模型标注数据集AttributeData;
步骤3.1:定义属性集合AttrList、问句question、答案answer、三元组triple=(question,attr,answer)。遍历步骤1中的问答对集合QASet获取triple,从triple中解析出属性保存至AttrList,其中,AttrList={attr1,attr2,…,attrQASetNum},attrn为AttrList中第n个属性,变量n∈[1,QASetNum]。将得到的AttrList添加到集合QASet中;
步骤3.2:定义单个句子的正样本PositiveSample、负样本NegativeSample和总样本AllSample。遍历步骤1中的问答对集合QASet获取question和attr,得到PositiveSample={question,attr,'1'}。从属性集合AttrList中随机抽取出5个属性{attr1,attr2,…,attr5},得到NegativeSample={question,attrm,'0'},m={1,2,3,4,5}。从而得到AllSample={PositiveSample,NegativeSample1,NegativeSample2,…,NegativeSample5},其中,'1'表示该属性attr是问句question中的属性,'0'则表示该属性attr不是问句question中的属性;
步骤3.3:得到AttributeData={AllSample1,AllSample2,…,AllSampleQASetNum}。
步骤4:利用数据集A训练基于BERT的属性抽取模型,得到学校领域属性抽取模型SchoolAttributeModel;
步骤4.1:将已标注的数据集AttributeData按照比例划分为训练集AttributeTrain、验证集AttributeValid和测试集AttributeTest,设定比例为6:2:2;
步骤4.2:定义类InputAttributeExample用来表示数据,初始化变量AId、AText1、ATex2和ALabel分别表示训练id、问句文本数据、问句属性文本数据和每个句子对应的属性标签;
步骤4.3:编写DataProcessor的继承类AttributeProcesor。定义createAttrExample函数用于调用类InputAttrExample给AId、AText1、ATex2和ALabel赋值,生成训练和验证样本;
步骤4.4:构建模型SchoolAttributeModel,加载预训练模型,读取数据。定义训练样本TrainExamples,从训练集AttributeTrain中读取数据并赋值给AId、AText1、ATex2和ALabel,得到训练样本TrainExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTrainNum,AText2AttTrainNum,ALabelAttTrainNum]},AttTrainNum为训练集AttributeTrain中数据的总数;
步骤4.5:判断是否训练,若训练则执行步骤4.6,否则执行步骤4.14;
步骤4.6:定义变量count2用于遍历训练样本TrainExamples,令count2=1,定义训练样本TrainExamples的总数Sum;
步骤4.7:若count2≤Sum,则执行步骤4.8,否则执行步骤4.10;
步骤4.8:遍历训练样本TrainExamples,将其进行特征转换,使用BERT模型的convert_single_example函数将每条数据由类InputAttrExample转换为该模型能够处理的类InputFeatures结构,保存至AttrTain.tf_record文件;
步骤4.9:令count2=count2+1,执行步骤4.7;
步骤4.10:定义变量MaxScore用于保存模型参数的最高f1值,定义计数器flags,令flags初始值为1,其中flags∈[1,Sum]。根据AttrTain.tf_record文件生成tf.data.TFRecordDataset输入模型SchoolAttributeModel训练,模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率5e-5,每经过一个epoch利用验证集AttributeValid进行调整参数,输出f1值;
步骤4.11:设定阈值为5,若flags≤阈值,则执行步骤4.12,否则执行步骤4.13;
步骤4.12:从步骤4.8得到f1值,若f1值>MaxScore,则更新MaxScore,否则flags=flags+1;
步骤4.13:选取在验证集上f1值最高的模型参数并保存模型SchoolAttributeModel,执行步骤4.5;
步骤4.14:定义测试样本TestExamples,从测试集AttributeTest中读取数据赋值给AId、AText1、ATex2和ALabel,得到TestExamples,其中,TestExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTestNum,AText2AttTestNum,ALabelAttTestNum]},AttTestNum为测试集AttributeTest中数据的总数。加载BERT模型,读取测试样本TestExamples数据并按照步骤4.8对数据进行特征转换;
步骤4.15:将步骤4.14的特征输入模型SchoolAttributeModel,进行模型测试。
步骤5:在问句对文本数据上抽取出实体、属性和属性值,建立知识三元组,构建学校领域知识图谱;
步骤5.1:通过利用步骤2和步骤4得到的实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel,在学校领域问句对数据集中抽取出实体Item1、属性Relation和属性值Item2,定义三元组triple=(Item1,Relation,Item2);
步骤5.2:定义知识三元组数据集Triples,得到Triples={triple1,triple2,…,tripleK},K为数据集Triples总数;
步骤5.3:将Triples保存至csv文件,导入到图数据库Neo4j中,从而构建学校领域知识图谱。
通过对46559条学校领域问答对数据进行处理,首先将数据分别处理为用于训练实体识别模型和属性抽取模型的标注数据,然后训练基于BERT-BiLSTM-CRF的实体识别模型和基于BERT的属性抽取模型。在测试集上,模型的识别准确率为95%。根据模型实现在非结构化文本数据中抽取出实体和属性,从而有效建立三元组,构建知识图谱。本发明提出的知识图谱构建方法普遍适用于学校领域问句对数据。
表1全局变量表
表2步骤1变量表
变量定义 | 变量名称 |
question | 单个问答对的问句 |
answer | 单个问答对的答案 |
triple | 单个问答对的三元组 |
Word | 问句以及答案中每个字构成的数据集 |
Label | 问句以及答案中每个字对应的标签构成的数据集 |
word<sub>n</sub> | Word中第n个字 |
label<sub>n</sub> | Label中第n个字对应的标签 |
LabelTemp | 单个问句和答案中每个字对应的标签构成的数据集 |
count1 | 计数器,用于遍历QASet |
表3步骤2变量表
表4步骤3变量表
变量定义 | 变量名称 |
AttrList | 属性集合 |
question | 单个问答对的问句 |
answer | 单个问答对的答案 |
triple | 单个问答对的三元组 |
attr<sub>n</sub> | AttrList中第n个属性 |
PositiveSample | 单个句子的正样本 |
NegativeSample | 单个句子的负样本 |
AllSample | 单个句子的总样本 |
表5步骤4变量表
表6步骤5变量表
变量定义 | 变量名称 |
Item1 | 实体 |
Relation | 属性 |
Item2 | 属性值 |
triple | 三元组 |
Triples | 知识三元组数据集 |
Claims (6)
1.一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,其特征在于,包括如下步骤:
(1)对学校领域问答对数据集进行预处理,得到实体识别模型标注数据集EntityData;
(2)利用数据集EntityData训练基于BERT-BiLSTM-CRF的实体识别模型,得到学校领域实体识别模型SchoolEntityModel;
(3)对学校领域问答对数据集进行预处理,得到属性抽取模型标注数据集AttributeData;
(4)利用数据集AttributeData训练基于BERT的属性抽取模型,得到学校领域属性抽取模型SchoolAttributeModel;
(5)在问句对文本数据上抽取出实体、属性和属性值,建立知识三元组,构建学校领域知识图谱。
2.根据权利要求1所述的一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,其特征在于,所述步骤(1)中得到实体识别模型标注数据集的具体步骤如下:
(1.1)定义预处理后的问答对集合QASet,定义question,answer,triple分别为单个问答对的问句、答案和三元组,并且满足关系QASet={[question1,answer1,triple1],[question2,answer2,triple2],…,[questionQASetNum,answerQASetNum,tripleQASetNum]},其中,QASetNum为问答对集合中数据的个数;对问答对数据进行预处理,得到问答对集合QASet;
(1.2)定义Word、Label分别为问句和答案中每个字构成的数据集、每个字对应的标签构成的数据集,Word={word1,word2,…,wordQANum},Label={label1,label2,…,labelQANum},wordn为Word中第n个字,labeln为Label中第n个字对应的标签,其中,QANum为问句和答案的总个数,变量n∈[1,QANum];定义LabelTemp为单个问句和答案中每个字对应的标签构成的数据,其中,定义计数器count1,令count1=1,用于遍历QASet;
(1.3)若count1≤QASetNum,执行步骤(1.4),否则执行步骤(1.6);
(1.4)遍历步骤(1.1)中集合QASet的数据,将数据处理为单个字存入数据集Word中,并将数据集Label中的所有数据标注为非实体标签,若question或者answer存在于triple中,则将LabelTemp标注为实体标签,替换Label中对应位置的数据;
(1.5)令count1=count1+1,执行步骤(1.3);
(1.6)将Word和Label中的数据打包为一个个元组,得到实体识别模型标注数据集EntityData={[word1,label2],[word2,label2],…,[wordQANum,labelQANum]},wordn与labeln间用制表符分隔。
3.根据权利要求1所述的一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,其特征在于,所述步骤(2)中得到学校领域实体识别模型的具体步骤如下:
(2.1)定义学校领域的已标注的训练数据集EntityTrain,验证数据集EntityValid,测试数据集EntityTest,计算已标注的数据集EntityData总数EntitySum;分别定义训练集比例TrainProp、验证集比例ValidProp和测试集比例TestProp;
(2.2)按照TrainProp、ValidProp和TestProp的比例划分数据集EntityData,设定TrainProp=6,ValidProp=2,TestProp=2;分别计算训练集总数TrainNum=EntitySum*TrainProp/(TrainProp+ValidProp+TestProp)、验证集总数ValidNum=EntitySum*ValidProp/(TrainProp+ValidProp+TestProp)以及测试集总数TestNum=EntitySum*TestProp/(TrainProp+ValidProp+TestProp),得到EntityTrain={R1,R2,…,RTrainNum}、EntityValid={R1,R2,…,RValidNum}和EntityTest={R1,R2,…,RTestNum};
(2.3)定义类InputEntityExample用来表示数据,初始化变量EId、EText和ELabel,分别表示训练id、字和字对应的标签;
(2.4)定义类DataProcessor用于数据处理,编写继承类SchoolNerProcessor,定义getEntityLabels函数用来返回实体标签集,定义createEntityExample函数用于调用类InputEntityExample给EId、EText和ELabel赋值,生成训练和验证样本;
(2.5)定义函数modelBuilder,构建模型SchoolEntityModel;实现以下内容:将EText与ELabel转换为ids表示,使用参数加载BERT模型,得到字embedding和最大序列长度maxseqlength;使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths;定义变量LabelsNum为步骤(1)中标签数据集Label的标签数量,利用BERT模型的参数作为SchoolEntityModel模型的参数初始值,加载BiLSTM-CRF模型,输入模型参数embedding、num_labels、maxseqlength、lengths、getEntityLabels函数返回的集合labels并设置模型参数lstm维度为128,droupout_rate为0.5;定义模型评测方法metric_eval,对模型的输出结果使用Viterbi解码;
(2.6)利用TensorFlow将标注训练数据集EntityTrain转化为数据文件EntityTrain.tf_record,读取该数据文件组成batch;
(2.7)训练BERT-BiLSTM-CRF模型,其中模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率2e-5;
(2.8)得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。
4.根据权利要求1所述的一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,其特征在于,所述步骤(3)中得到属性抽取模型标注数据集的具体步骤如下:
(3.1)定义属性集合AttrList、问句question、答案answer、三元组triple=(question,attr,answer);遍历步骤(1)中的问答对集合QASet获取triple,从triple中解析出属性保存至AttrList,其中,AttrList={attr1,attr2,…,attrQASetNum},attrn为AttrList中第n个属性,变量n∈[1,QASetNum];将得到的AttrList添加到集合QASet中;
(3.2)定义单个句子的正样本PositiveSample、负样本NegativeSample和总样本AllSample;遍历步骤(1)中的问答对集合QASet获取question和attr,得到PositiveSample={question,attr,'1'};从属性集合AttrList中随机抽取出5个属性{attr1,attr2,…,attr5},得到NegativeSample={question,attrm,'0'},m={1,2,3,4,5};从而得到AllSample={PositiveSample,NegativeSample1,NegativeSample2,…,NegativeSample5},其中,'1'表示该属性attr是问句question中的属性,'0'则表示该属性attr不是问句question中的属性;
(3.3)得到AttributeData={AllSample1,AllSample2,…,AllSampleQASetNum}。
5.根据权利要求1所述的一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,其特征在于,所述步骤(4)中得到学校领域属性抽取模型的具体步骤如下:
(4.1)将已标注的数据集AttributeData按照比例划分为训练集AttributeTrain、验证集AttributeValid和测试集AttributeTest,设定比例为6:2:2;
(4.2)定义类InputAttributeExample用来表示数据,初始化变量AId、AText1、ATex2和ALabel分别表示训练id、问句文本数据、问句属性文本数据和每个句子对应的属性标签;
(4.3)编写DataProcessor的继承类AttributeProcesor;定义createAttrExample函数用于调用类InputAttrExample给AId、AText1、ATex2和ALabel赋值,生成训练和验证样本;
(4.4)构建模型SchoolAttributeModel,加载预训练模型,读取数据;定义训练样本TrainExamples,从训练集AttributeTrain中读取数据并赋值给AId、AText1、ATex2和ALabel,得到训练样本TrainExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTrainNum,AText2AttTrainNum,ALabelAttTrainNum]},AttTrainNum为训练集AttributeTrain中数据的总数;
(4.5)判断是否训练,若训练则执行步骤(4.6),否则执行步骤(4.14);
(4.6)定义变量count2用于遍历训练样本TrainExamples,令count2=1,定义训练样本TrainExamples的总数Sum;
(4.7)若count2≤Sum,则执行步骤(4.8),否则执行步骤(4.10);
(4.8)遍历训练样本TrainExamples,将其进行特征转换,使用BERT模型的convert_single_example函数将每条数据由类InputAttrExample转换为该模型能够处理的类InputFeatures结构,保存至AttrTain.tf_record文件;
(4.9)令count2=count2+1,执行步骤(4.7);
(4.10)定义变量MaxScore用于保存模型参数的最高f1值,定义计数器flags,令flags初始值为1,其中flags∈[1,Sum];根据AttrTain.tf_record文件生成tf.data.TFRecordDataset输入模型SchoolAttributeModel训练,模型参数设置BERT中文模型路径、训练时批量处理数据集的大小32和学习率5e-5,每经过一个epoch利用验证集AttributeValid进行调整参数,输出f1值;
(4.11)设定阈值为5,若flags≤阈值,则执行步骤(4.12),否则执行步骤(4.13);
(4.12)从步骤(4.8)得到f1值,若f1值>MaxScore,则更新MaxScore,否则flags=flags+1;
(4.13)选取在验证集上f1值最高的模型参数并保存模型SchoolAttributeModel,执行步骤(4.5);
(4.14)定义测试样本TestExamples,从测试集AttributeTest中读取数据赋值给AId、AText1、ATex2和ALabel,得到TestExamples,其中,TestExamples={[AText11,AText21,ALabel1],[AText12,AText22,ALabel2],…,[AText1AttTestNum,AText2AttTestNum,ALabelAttTestNum]},AttTestNum为测试集AttributeTest中数据的总数;加载BERT模型,读取测试样本TestExamples数据并按照步骤(4.8)对数据进行特征转换;
(4.15)将步骤(4.14)的特征输入模型SchoolAttributeModel,进行模型测试。
6.根据权利要求1所述的一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法,其特征在于,所述步骤(5)中构建学校领域知识图谱的具体步骤如下:
(5.1)通过利用步骤(2)和步骤(4)得到的实体识别模型SchoolEntityModel和属性抽取模型SchoolAttributeModel,在学校领域问句对数据集中抽取出实体Item1、属性Relation和属性值Item2,定义三元组triple=(Item1,Relation,Item2);
(5.2)定义知识三元组数据集Triples,得到Triples={triple1,triple2,…,tripleK},K为数据集Triples总数;
(5.3)将Triples保存至csv文件,导入到图数据库Neo4j中,从而构建学校领域知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910511427.0A CN110287334B (zh) | 2019-06-13 | 2019-06-13 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910511427.0A CN110287334B (zh) | 2019-06-13 | 2019-06-13 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287334A true CN110287334A (zh) | 2019-09-27 |
CN110287334B CN110287334B (zh) | 2023-12-01 |
Family
ID=68004042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910511427.0A Active CN110287334B (zh) | 2019-06-13 | 2019-06-13 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287334B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN110825721A (zh) * | 2019-11-06 | 2020-02-21 | 武汉大学 | 大数据环境下高血压知识库构建与系统集成方法 |
CN110837558A (zh) * | 2019-11-07 | 2020-02-25 | 成都星云律例科技有限责任公司 | 一种裁判文书实体关系抽取方法及系统 |
CN110866125A (zh) * | 2019-11-14 | 2020-03-06 | 北京京航计算通讯研究所 | 基于bert算法模型的知识图谱构建系统 |
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111125438A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 实体信息提取方法、装置、电子设备及存储介质 |
CN111221976A (zh) * | 2019-11-14 | 2020-06-02 | 北京京航计算通讯研究所 | 基于bert算法模型的知识图谱构建方法 |
CN111627564A (zh) * | 2020-05-25 | 2020-09-04 | 日立楼宇技术(广州)有限公司 | 用户检测模型的训练及检测方法、装置、设备和存储介质 |
CN111666414A (zh) * | 2020-06-12 | 2020-09-15 | 上海观安信息技术股份有限公司 | 一种敏感数据检测云服务的方法和云服务平台 |
CN111694967A (zh) * | 2020-06-11 | 2020-09-22 | 腾讯科技(深圳)有限公司 | 属性抽取方法、装置、电子设备及介质 |
CN111798987A (zh) * | 2020-07-07 | 2020-10-20 | 云知声智能科技股份有限公司 | 一种实体关系抽取方法和设备 |
CN111797624A (zh) * | 2020-06-30 | 2020-10-20 | 厦门大学附属第一医院 | 一种基于npl的药品名片自动提取方法 |
CN111813950A (zh) * | 2020-05-20 | 2020-10-23 | 淮阴工学院 | 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法 |
CN112069046A (zh) * | 2020-08-28 | 2020-12-11 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112100395A (zh) * | 2020-08-11 | 2020-12-18 | 淮阴工学院 | 一种专家合作可行性分析方法 |
CN112100394A (zh) * | 2020-08-10 | 2020-12-18 | 淮阴工学院 | 一种用于推荐医疗专家的知识图谱构建方法 |
CN112101009A (zh) * | 2020-09-23 | 2020-12-18 | 中国农业大学 | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 |
CN112115271A (zh) * | 2020-06-01 | 2020-12-22 | 泰康保险集团股份有限公司 | 知识图谱构建方法及装置 |
CN112131393A (zh) * | 2020-08-11 | 2020-12-25 | 淮阴工学院 | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 |
CN112199519A (zh) * | 2020-11-18 | 2021-01-08 | 北京观微科技有限公司 | 一种基于Bert的实体关系流水线抽取方法和系统 |
CN112231460A (zh) * | 2020-10-27 | 2021-01-15 | 中国科学院合肥物质科学研究院 | 一种基于农业百科知识图谱的问答系统的构建方法 |
CN112328812A (zh) * | 2021-01-05 | 2021-02-05 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
CN112613314A (zh) * | 2020-12-29 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 基于bert模型的电力通信网络知识图谱构建方法 |
WO2021121020A1 (zh) * | 2019-12-18 | 2021-06-24 | 华为技术有限公司 | 问答方法、装置及设备 |
CN113076718A (zh) * | 2021-04-09 | 2021-07-06 | 苏州爱语认知智能科技有限公司 | 一种商品属性抽取方法及其系统 |
CN113488034A (zh) * | 2020-04-27 | 2021-10-08 | 海信集团有限公司 | 一种语音信息的处理方法、装置、设备及介质 |
CN113486666A (zh) * | 2021-07-07 | 2021-10-08 | 济南超级计算技术研究院 | 一种医学命名实体识别方法及系统 |
WO2022078348A1 (zh) * | 2020-10-14 | 2022-04-21 | 深圳壹账通智能科技有限公司 | 邮件内容提取方法、装置、电子设备及存储介质 |
CN113849597B (zh) * | 2021-08-31 | 2024-04-30 | 艾迪恩(山东)科技有限公司 | 基于命名实体识别的违法广告词检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
-
2019
- 2019-06-13 CN CN201910511427.0A patent/CN110287334B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
Non-Patent Citations (2)
Title |
---|
SHANCHAN WU: "Enriching Pre-trained Language Model with Entity Information for Relation Classification", 《HTTPS://ARXIV.ORG/PDF/1905.08284.PDF》 * |
杨笑然: "基于知识图谱的医疗专家系统", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825721A (zh) * | 2019-11-06 | 2020-02-21 | 武汉大学 | 大数据环境下高血压知识库构建与系统集成方法 |
CN110825721B (zh) * | 2019-11-06 | 2023-05-02 | 武汉大学 | 大数据环境下高血压知识库构建与系统集成方法 |
CN110837558A (zh) * | 2019-11-07 | 2020-02-25 | 成都星云律例科技有限责任公司 | 一种裁判文书实体关系抽取方法及系统 |
CN110837558B (zh) * | 2019-11-07 | 2022-04-15 | 成都星云律例科技有限责任公司 | 一种裁判文书实体关系抽取方法及系统 |
CN110866125A (zh) * | 2019-11-14 | 2020-03-06 | 北京京航计算通讯研究所 | 基于bert算法模型的知识图谱构建系统 |
CN111221976A (zh) * | 2019-11-14 | 2020-06-02 | 北京京航计算通讯研究所 | 基于bert算法模型的知识图谱构建方法 |
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111078875B (zh) * | 2019-12-03 | 2022-12-13 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
WO2021121020A1 (zh) * | 2019-12-18 | 2021-06-24 | 华为技术有限公司 | 问答方法、装置及设备 |
CN111125438A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 实体信息提取方法、装置、电子设备及存储介质 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN113488034A (zh) * | 2020-04-27 | 2021-10-08 | 海信集团有限公司 | 一种语音信息的处理方法、装置、设备及介质 |
CN111813950A (zh) * | 2020-05-20 | 2020-10-23 | 淮阴工学院 | 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法 |
CN111813950B (zh) * | 2020-05-20 | 2024-02-27 | 淮阴工学院 | 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法 |
CN111627564A (zh) * | 2020-05-25 | 2020-09-04 | 日立楼宇技术(广州)有限公司 | 用户检测模型的训练及检测方法、装置、设备和存储介质 |
CN112115271A (zh) * | 2020-06-01 | 2020-12-22 | 泰康保险集团股份有限公司 | 知识图谱构建方法及装置 |
CN111694967B (zh) * | 2020-06-11 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 属性抽取方法、装置、电子设备及介质 |
CN111694967A (zh) * | 2020-06-11 | 2020-09-22 | 腾讯科技(深圳)有限公司 | 属性抽取方法、装置、电子设备及介质 |
CN111666414B (zh) * | 2020-06-12 | 2023-10-17 | 上海观安信息技术股份有限公司 | 一种敏感数据检测云服务的方法和云服务平台 |
CN111666414A (zh) * | 2020-06-12 | 2020-09-15 | 上海观安信息技术股份有限公司 | 一种敏感数据检测云服务的方法和云服务平台 |
CN111797624A (zh) * | 2020-06-30 | 2020-10-20 | 厦门大学附属第一医院 | 一种基于npl的药品名片自动提取方法 |
CN111798987A (zh) * | 2020-07-07 | 2020-10-20 | 云知声智能科技股份有限公司 | 一种实体关系抽取方法和设备 |
CN112100394A (zh) * | 2020-08-10 | 2020-12-18 | 淮阴工学院 | 一种用于推荐医疗专家的知识图谱构建方法 |
CN112100394B (zh) * | 2020-08-10 | 2023-07-21 | 淮阴工学院 | 一种用于推荐医疗专家的知识图谱构建方法 |
CN112100395B (zh) * | 2020-08-11 | 2024-03-29 | 淮阴工学院 | 一种专家合作可行性分析方法 |
CN112100395A (zh) * | 2020-08-11 | 2020-12-18 | 淮阴工学院 | 一种专家合作可行性分析方法 |
CN112131393B (zh) * | 2020-08-11 | 2023-09-22 | 淮阴工学院 | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 |
CN112131393A (zh) * | 2020-08-11 | 2020-12-25 | 淮阴工学院 | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 |
CN112069046A (zh) * | 2020-08-28 | 2020-12-11 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
WO2021151360A1 (zh) * | 2020-08-28 | 2021-08-05 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112069046B (zh) * | 2020-08-28 | 2022-03-29 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112101009A (zh) * | 2020-09-23 | 2020-12-18 | 中国农业大学 | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 |
CN112101009B (zh) * | 2020-09-23 | 2024-03-26 | 中国农业大学 | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 |
WO2022078348A1 (zh) * | 2020-10-14 | 2022-04-21 | 深圳壹账通智能科技有限公司 | 邮件内容提取方法、装置、电子设备及存储介质 |
CN112231460A (zh) * | 2020-10-27 | 2021-01-15 | 中国科学院合肥物质科学研究院 | 一种基于农业百科知识图谱的问答系统的构建方法 |
CN112231460B (zh) * | 2020-10-27 | 2022-07-12 | 中国科学院合肥物质科学研究院 | 一种基于农业百科知识图谱的问答系统的构建方法 |
CN112199519A (zh) * | 2020-11-18 | 2021-01-08 | 北京观微科技有限公司 | 一种基于Bert的实体关系流水线抽取方法和系统 |
CN112613314A (zh) * | 2020-12-29 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 基于bert模型的电力通信网络知识图谱构建方法 |
CN112328812B (zh) * | 2021-01-05 | 2021-03-26 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
CN112328812A (zh) * | 2021-01-05 | 2021-02-05 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
CN113076718A (zh) * | 2021-04-09 | 2021-07-06 | 苏州爱语认知智能科技有限公司 | 一种商品属性抽取方法及其系统 |
CN113486666A (zh) * | 2021-07-07 | 2021-10-08 | 济南超级计算技术研究院 | 一种医学命名实体识别方法及系统 |
CN113849597B (zh) * | 2021-08-31 | 2024-04-30 | 艾迪恩(山东)科技有限公司 | 基于命名实体识别的违法广告词检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110287334B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287334A (zh) | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 | |
CN110598000B (zh) | 一种基于深度学习模型的关系抽取及知识图谱构建方法 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN106156003B (zh) | 一种问答系统中的问句理解方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
Zhang et al. | The Traj2Vec model to quantify residents’ spatial trajectories and estimate the proportions of urban land-use types | |
CN106776711A (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN110337645A (zh) | 可适配的处理组件 | |
Matsebula et al. | A big data architecture for learning analytics in higher education | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN111078897A (zh) | 一种生成六维知识图谱的系统 | |
CN108984775A (zh) | 一种基于商品评论的舆情监控方法及系统 | |
CN112100394B (zh) | 一种用于推荐医疗专家的知识图谱构建方法 | |
Yang et al. | Detecting interchanges in road networks using a graph convolutional network approach | |
CN115186015A (zh) | 一种网络安全知识图谱构建方法及系统 | |
CN114722810A (zh) | 一种基于信息抽取和多属性决策的房地产客户画像方法和系统 | |
CN109002561A (zh) | 基于样本关键词学习的文本自动分类方法、系统及介质 | |
Mobasheri | An introduction to open source geospatial science for urban studies | |
Chen | Characteristic scales, scaling, and geospatial analysis | |
CN111339258A (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN110162651A (zh) | 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法 | |
Ruzgar et al. | Moderating role of competitive intensity on market and entrepreneurial orientation | |
CN112035680B (zh) | 一种智能辅助学习机的知识图谱构建方法 | |
CN111737594B (zh) | 基于无监督标签生成的虚拟网络角色行为塑造方法 | |
CN110879843B (zh) | 基于机器学习的构建自适应知识图谱技术的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190927 Assignee: Fanyun software (Nanjing) Co.,Ltd. Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY Contract record no.: X2023980052895 Denomination of invention: A method for constructing a school domain knowledge graph based on entity recognition and attribute extraction models Granted publication date: 20231201 License type: Common License Record date: 20231219 |