CN113486193A - 一种基于机器学习的电网基建工程数据知识图谱构建方法 - Google Patents

一种基于机器学习的电网基建工程数据知识图谱构建方法 Download PDF

Info

Publication number
CN113486193A
CN113486193A CN202110841736.1A CN202110841736A CN113486193A CN 113486193 A CN113486193 A CN 113486193A CN 202110841736 A CN202110841736 A CN 202110841736A CN 113486193 A CN113486193 A CN 113486193A
Authority
CN
China
Prior art keywords
entity
data
power grid
knowledge
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110841736.1A
Other languages
English (en)
Inventor
袁兆祥
齐立忠
韩文军
孙小虎
蒋玮
周颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
STATE GRID ECONOMIC AND TECHNOLOGICAL RESEARCH INSTITUTE CO. LTD.B412, STATE GRID OFFICE
Southeast University
Economic and Technological Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Economic And Technological Research Institute Co LtdB412 State Grid Office
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Economic And Technological Research Institute Co LtdB412 State Grid Office, Southeast University filed Critical State Grid Economic And Technological Research Institute Co LtdB412 State Grid Office
Priority to CN202110841736.1A priority Critical patent/CN113486193A/zh
Publication of CN113486193A publication Critical patent/CN113486193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Water Supply & Treatment (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于机器学习的电网基建工程数据知识图谱构建方法,利用依存关系模型和双向长短期记忆人工神经网络混合模型对电网基建工程非结构化的文本数据和半结构化的表格数据中的信息进行抽取,通过知识融合挖掘数据中文本所蕴藏的有价值的信息,进而构建基建工程数据知识图谱。该图谱将不同类型文件中的自然语言转化为语义知识库中的节点和关系,并且能够实现智能搜索以及关联信息推荐功能。

Description

一种基于机器学习的电网基建工程数据知识图谱构建方法
技术领域
本发明涉及电力大数据分析领域领域,具体的是一种知识图谱构建方法。
背景技术
电网基建工程项目具有规模大、周期长且涉及单位多等特点,因此决定了电网工程从设计、施工到验收的全流程中将产生大量来源丰富,格式复杂多样的数据。包含结构化数据,如三维几何模型逻辑模型等;半结构化数据如设备清册、甲供材料明细表等;非结构化的文本数据如设计说明书、实验报告等。从其中海量的文本型数据中可以获取与电网拓扑、资产、设备相关的信息,并可以拓展、校验运检、调度、财务等系统的数据。
然后由于这些文本数据的建立主要用于工程相关人员的阅读,绝大多数文本内容的格式和语义未经优化,不利于计算机处理和理解。据统计,基建工程里超过70%的文本信息以非结构化的形式存储,这极大地增加了应用这些数据获取信息的难度和成本。因此,亟需研究有效的信息抽取技术从而能够自动化地分析非结构化的电网基建工程自然语言文本数据,从中挖掘有价值的知识,并以结构化形式呈现给用户。
发明内容
为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于机器学习的电网基建工程数据知识图谱构建方法,通过层次化地存储有价值的信息,为运检、调度、财务等业务系统的数据采集提供新的结构化数据来源。
本发明的目的可以通过以下技术方案实现:
本发明提供一种基于机器学习的电网基建工程数据知识图谱构建方法,电网基建工程数据包括非结构化文本数据和半结构化表格数据,所述非结构化文本数据为基建工程项目设计和应用过程中产生的说明书、试验报告等word、pdf文件,半结构化表格数据为设备清册等excel文件,电网基建工程数据利用自然语言处理技术进行信息抽取和融合,知识图谱构建方法具体包括以下步骤:
步骤10)获取电网基建工程原始数据,建立实体原始数据集;
步骤20)基于one-hot编码理论,对步骤10)建立的原始数据集进行数据清洗、数据集成、数据变换,生成包含one-hot向量的实体规范数据集;
步骤30)基于双向LSTM+CRF机器学习模型原理,对步骤20)建立的实体规范数据集中的数据进行命名实体识别,生成实体识别数据集。
步骤40)基于依存关系模型,对步骤30)建立的实体识别数据集进行关系、属性抽取,构建实体关系属性数据集;
步骤50)基于聚类算法,对步骤40)建立的关系属性数据集进行实体消歧和共指消解,剔除冗余、错误知识,生成实体融合数据集;
步骤60)对步骤50)生成的实体融合数据集进行实体节点编号,构建包含实体节点、实体间关系、实体属性信息的实体知识三元组;
步骤70)基于Neo4j数据集原理,将步骤60)建立的知识三元组导入Neo4j数据库,生成基建工程数据知识图谱。
具体的,步骤30)中,将编码后的one-hot向量输入双向长短时记忆模型(LongShort-Term Memory,LSTM),完成实体上下文信息的捕捉。并采用条件随机场模型(Constant Rate Factor,CRF)进行全局优化,将此任务视为一种序列标注问题。在分词的同时可以一并完成词性标注、命名实体识别的任务。LSTM模型如下:
ii=σ(Wie(wi-1)+Uihi-1+Vici-1+bi) (1),
fi=σ(Wfe(wi-1)+Ufhi-1+Vfci-1+bf) (2),
oi=σ(Woe(wi-1)+Uohi-1+Voci-1+bo) (3),
Figure BDA0003179198330000031
Figure BDA0003179198330000032
Figure BDA0003179198330000033
hi=oi⊙tanh(ci) (7);
其中,ii、fi和oi分别表示输入门、遗忘门和输出门,ci表示记忆单元,hi-1和wi-1是前一时刻的输入隐藏层表示,hi是当前时刻的输出隐藏层表示;
CRF模型如下:
Figure BDA0003179198330000034
ψt(y',y,X)=exp(Wy',yhi+by',y) (9);
其中,P(Y|X)为条件概率,Wy',y和by',y分别是参数权重和偏置。
具体的,所述步骤40)中,采用基于最大生成树(maximum spanning trees,MST)理论的依存句法分析器(MSTParser)分析句子中词与词之间的支配于被支配的关系(依存关系)从而揭示其句法结构,即通过分析句子中包含的“主谓宾”、“定状补”等语法成分,并分析各成分之间的关系。MSTParser数学模型如下:
Figure BDA0003179198330000035
其中,s表示分值;y是句子x的一颗依存树;(i,j)是y中的节点对;f(·)是高维二元特征函数向量;f(xi,xj)表示节点xi和xj之间的依存关系,取值为0或1;w是特征f(·)的权值向量,在确定了特征集合后由样本训练得到。本发明采用子孙和父子信息(2o-carreras)算法进行解码,从而得到打分最高的树。
具体的,步骤50)中,知识融合任务可以表示成一个四元组ED:
ED={M,E,K,f} (11);
其中,E={e1,e2,…,eT}表示所有实体概念的集合;M={m1,m2,…,mN}是指文档集合中需要进行消歧的指称;K表示可用于实体消歧的知识源,或称背景知识;f=M×K→E是实体消歧函数。本发明不考虑背景知识K,只使用指称所在的上下文信息,采用基于文本向量空间的聚类方法进行知识融合。在实体概念集合E未知的情况下,实体消歧函数f可以转变为对文档集合中所有指称M={m1,m2,…,mN}进行聚类的问题。
具体的,所述步骤60)中,所构建的包含实体节点、实体间关系、实体属性信息的实体知识三元组,可生成标准csv格式的节点文件和关系文件。节点文件的每一行代表一个实体,每个实体都包括“ID”(节点编号)、“name”(实体名称)和“label”(实体标签)三种数据,同样关系文件中每一行代表的是两个实体之间的属性关系,包括“:START_ID”(起始节点编号)、“:END_ID”(结束节点编号)、“name”(关系名称)、“:TYPE”(关系类型)。
具体的,所述步骤70)中,将步骤60)抽取出的实体节点和关系边分别存储于Neo4j图数据库的neostore.nodestore.db和neostore.relationshipstore.db文件中,以RDF三元组的形式展现,最终生成基建工程数据知识图谱。
本发明的有益效果:
本发明完成了对非结构化文本数据和半结构化表格数据的挖掘,使得繁杂的工程数据得到充分分析应用。电网基建工程数据知识图谱能够满足不同用户的自动检索需求,并且作为知识共享的平台打破了部门间交互基建工程数据的壁垒,有效的支撑了上层数据应用的开展。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明中命名实体识别示意图;
图2为本发明中关系抽取示意图。
图中命名实体识别采用BIESO标注体系标注实体,词性标注结果采用863词性标注集。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1所示:给定汉字序列X=x0x1…xT,在训练好的词向量表中查找每个汉字xi对应的词向量
Figure BDA0003179198330000051
其中d1表示向量维度。LSTM由三个门和一个存储记忆单元控制,它的输入是前一时刻的隐藏层表示hi-1和wi-1,输出是当前时刻的隐藏层表示hi。前向LSTM得到每个“字”对应的分布式表示
Figure BDA0003179198330000061
(d2表示隐藏层神经元数目),同理后向LSTM得到另一个分布式表示
Figure BDA0003179198330000062
Figure BDA0003179198330000063
可以捕捉ei及左侧的上下文信息e0…ei-1ei
Figure BDA0003179198330000064
可以捕捉ei及左侧的上下文信息eiei+1…eT。所以Bi-LSTM拼接
Figure BDA0003179198330000065
Figure BDA0003179198330000066
以期通过
Figure BDA0003179198330000067
捕捉以ei为中心的全局特征。最后通过条件随机场模型进行解码,获得分词、词性标注、命名实体识别的结果。
假设句子x的依存分析结果为y,模型参数为θ,采用条件概率模型Score(xi|yi;θ),训练过程即寻找使目标函数
Figure BDA0003179198330000068
最大的θ,其中,N为实例个数。
最大生成树依存句法分析器定义整棵句法树的打分是树中各条边打分的加权和:
Figure BDA0003179198330000069
其中,s表示分值;y是句子x的一颗依存树;(i,j)是y中的节点对;f(·)是高维二元特征函数向量;f(xi,xj)表示节点xi和xj之间的依存关系,取值为0或1,如一棵依存树中两个词“设计”和“图纸”存在依存关系,则:
Figure BDA00031791983300000610
w是特征f(·)的权值向量,在确定了特征集合后由样本训练得到。采用子孙和父子信息算法进行解码,从而得到打分最高的树。如图2所示,本句中的核心谓词是“位于”。定位到句子的核心动词之后,便可找到与此动词构成主谓关系(SBV)的主语“工程”以及构成动宾关系(VOB)的宾语“太平村”。其次,句子的其它成分间也存在支配关系。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (6)

1.一种基于机器学习的电网基建工程数据知识图谱构建方法,其特征在于,电网基建工程数据包括非结构化文本数据和半结构化表格数据,所述非结构化文本数据为基建工程项目设计和应用过程中产生的说明书、试验报告等word、pdf文件,半结构化表格数据为设备清册等excel文件,电网基建工程数据利用自然语言处理技术进行信息抽取和融合,所述知识图谱构建方法具体包括以下步骤:
步骤10)获取电网基建工程原始数据,建立实体原始数据集;
步骤20)基于one-hot编码理论,对步骤10)建立的原始数据集进行数据清洗、数据集成、数据变换,生成包含one-hot向量的实体规范数据集;
步骤30)基于双向LSTM+CRF机器学习模型原理,对步骤20)建立的实体规范数据集中的数据进行命名实体识别,生成实体识别数据集。
步骤40)基于依存关系模型,对步骤30)建立的实体识别数据集进行关系、属性抽取,构建实体关系属性数据集;
步骤50)基于聚类算法,对步骤40)建立的关系属性数据集进行实体消歧和共指消解,剔除冗余、错误知识,生成实体融合数据集;
步骤60)对步骤50)生成的实体融合数据集进行实体节点编号,构建包含实体节点、实体间关系、实体属性信息的实体知识三元组;
步骤70)基于Neo4j数据集原理,将步骤60)建立的知识三元组导入Neo4j数据库,生成基建工程数据知识图谱。
2.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法,其特征在于,所述步骤30)中,将编码后的one-hot向量输入双向长短时记忆模型LSTM,完成实体上下文信息的捕捉。并采用条件随机场模型CRF进行全局优化,将此任务视为一种序列标注问题。在分词的同时可以一并完成词性标注、命名实体识别的任务;
LSTM模型如下:
ii=σ(Wie(wi-1)+Uihi-1+Vici-1+bi) (1),
fi=σ(Wfe(wi-1)+Ufhi-1+Vfci-1+bf) (2),
oi=σ(Woe(wi-1)+Uohi-1+Voci-1+bo) (3),
Figure FDA0003179198320000021
Figure FDA0003179198320000022
Figure FDA0003179198320000023
hi=oi⊙tanh(ci) (7);
其中,ii、fi和oi分别表示输入门、遗忘门和输出门,ci表示记忆单元,hi-1和wi-1是前一时刻的输入隐藏层表示,hi是当前时刻的输出隐藏层表示;
CRF模型如下:
Figure FDA0003179198320000024
ψt(y',y,X)=exp(Wy',yhi+by',y) (9);
其中,P(Y|X)为条件概率,Wy',y和by',y分别是参数权重和偏置。
3.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法,其特征在于,所述步骤40)中,采用基于最大生成树MST理论的依存句法分析器MSTParser分析句子中词与词之间的支配于被支配的关系从而揭示其句法结构,即通过分析句子中包含的“主谓宾”、“定状补”等语法成分,并分析各成分之间的关系;
MSTParser数学模型如下:
Figure FDA0003179198320000031
其中,s表示分值;y是句子x的一颗依存树;(i,j)是y中的节点对;f(·)是高维二元特征函数向量;f(xi,xj)表示节点xi和xj之间的依存关系,取值为0或1;w是特征f(·)的权值向量,在确定了特征集合后由样本训练得到。本发明采用子孙和父子信息2o-carreras算法进行解码,从而得到打分最高的树。
4.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法,其特征在于,所述步骤50)中,知识融合任务表示成一个四元组ED:
ED={M,E,K,f} (11);
其中,E={e1,e2,…,eT}表示所有实体概念的集合;M={m1,m2,…,mN}是指文档集合中需要进行消歧的指称;K表示可用于实体消歧的知识源,或称背景知识;f=M×K→E是实体消歧函数;
不考虑背景知识K,只使用指称所在的上下文信息,采用基于文本向量空间的聚类方法进行知识融合;在实体概念集合E未知的情况下,实体消歧函数f可以转变为对文档集合中所有指称M={m1,m2,…,mN}进行聚类的问题。
5.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法,其特征在于,所述步骤60)中,所构建的包含实体节点、实体间关系、实体属性信息的实体知识三元组,可生成标准csv格式的节点文件和关系文件;节点文件的每一行代表一个实体,每个实体都包括“ID”、“name”和“label”三种数据,同样关系文件中每一行代表的是两个实体之间的属性关系,包括“:START_ID”、“:END_ID”、“name”、“:TYPE”。
6.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法,其特征在于,所述步骤70)中,将步骤60)抽取出的实体节点和关系边分别存储于Neo4j图数据库的neostore.nodestore.db和neostore.relationshipstore.db文件中,以RDF三元组的形式展现,最终生成基建工程数据知识图谱。
CN202110841736.1A 2021-07-26 2021-07-26 一种基于机器学习的电网基建工程数据知识图谱构建方法 Pending CN113486193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110841736.1A CN113486193A (zh) 2021-07-26 2021-07-26 一种基于机器学习的电网基建工程数据知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110841736.1A CN113486193A (zh) 2021-07-26 2021-07-26 一种基于机器学习的电网基建工程数据知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN113486193A true CN113486193A (zh) 2021-10-08

Family

ID=77943572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110841736.1A Pending CN113486193A (zh) 2021-07-26 2021-07-26 一种基于机器学习的电网基建工程数据知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN113486193A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595669A (zh) * 2022-03-11 2022-06-07 北京梦诚科技有限公司 一种算量表格识别方法、系统、电子设备及存储介质
CN115797106A (zh) * 2023-02-06 2023-03-14 广东电网有限责任公司中山供电局 配网基建方案自动生成方法、装置、设备及可读存储介质
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN117235321A (zh) * 2023-09-04 2023-12-15 之江实验室 一种展览点位推荐方法、装置、电子装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN109902298A (zh) * 2019-02-13 2019-06-18 东北师范大学 一种自适应学习系统中领域知识建模及知识水平估测方法
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN109902298A (zh) * 2019-02-13 2019-06-18 东北师范大学 一种自适应学习系统中领域知识建模及知识水平估测方法
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595669A (zh) * 2022-03-11 2022-06-07 北京梦诚科技有限公司 一种算量表格识别方法、系统、电子设备及存储介质
CN114595669B (zh) * 2022-03-11 2022-09-27 北京梦诚科技有限公司 一种算量表格识别方法、系统、电子设备及存储介质
CN115797106A (zh) * 2023-02-06 2023-03-14 广东电网有限责任公司中山供电局 配网基建方案自动生成方法、装置、设备及可读存储介质
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN117235321A (zh) * 2023-09-04 2023-12-15 之江实验室 一种展览点位推荐方法、装置、电子装置和存储介质
CN117235321B (zh) * 2023-09-04 2024-04-16 之江实验室 一种展览点位推荐方法、装置、电子装置和存储介质

Similar Documents

Publication Publication Date Title
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN113486193A (zh) 一种基于机器学习的电网基建工程数据知识图谱构建方法
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111967242B (zh) 一种文本信息的抽取方法、装置及设备
US20180060306A1 (en) Extracting facts from natural language texts
US10445428B2 (en) Information object extraction using combination of classifiers
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN112559656A (zh) 基于水文事件的事理图谱构建方法
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
CN113821605A (zh) 一种事件抽取方法
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
CN115344666A (zh) 政策匹配方法、装置、设备与计算机可读存储介质
CN116401376A (zh) 一种面向工艺性检查的知识图谱构建方法及系统
CN115455202A (zh) 一种应急事件事理图谱构建方法
CN116661805A (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113392183A (zh) 一种儿童范畴图谱知识的表征与计算方法
Loglisci et al. Toward geographic information harvesting: Extraction of spatial relational facts from Web documents
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN115169333A (zh) 文本的实体识别方法、装置、设备、存储介质及程序产品
Gao et al. A hybrid GCN and RNN structure based on attention mechanism for text classification
Dileep et al. Template-based question answering analysis on the LC-QuAD2. 0 dataset
CN110019772B (zh) 一种文本情绪分类方法及系统
Dai et al. Person name recognition with fine-grained annotation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211122

Address after: 102209 Beijing city Changping District future science and Technology City 18 Riverside Road, A five or six floor.

Applicant after: STATE GRID ECONOMIC AND TECHNOLOGICAL RESEARCH INSTITUTE CO. LTD.B412, STATE GRID OFFICE

Applicant after: SOUTHEAST University

Applicant after: STATE GRID ZHEJIANG ECONOMIC Research Institute

Address before: 102209 Beijing city Changping District future science and Technology City 18 Riverside Road, A five or six floor.

Applicant before: STATE GRID ECONOMIC AND TECHNOLOGICAL RESEARCH INSTITUTE CO. LTD.B412, STATE GRID OFFICE

Applicant before: Southeast University