CN113626596B - 基于深度学习的地铁设计规范文本分析和语料库构建方法 - Google Patents
基于深度学习的地铁设计规范文本分析和语料库构建方法 Download PDFInfo
- Publication number
- CN113626596B CN113626596B CN202110816598.1A CN202110816598A CN113626596B CN 113626596 B CN113626596 B CN 113626596B CN 202110816598 A CN202110816598 A CN 202110816598A CN 113626596 B CN113626596 B CN 113626596B
- Authority
- CN
- China
- Prior art keywords
- text
- subway design
- corpus
- entity
- subway
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013461 design Methods 0.000 title claims abstract description 83
- 238000010276 construction Methods 0.000 title claims abstract description 46
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012937 correction Methods 0.000 claims abstract description 6
- 238000007405 data analysis Methods 0.000 claims abstract description 6
- 238000002372 labelling Methods 0.000 claims description 20
- 238000009960 carding Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 4
- 238000011835 investigation Methods 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了基于深度学习的地铁设计规范文本分析和语料库构建方法,属于自然语言处理技术领域。首先进行文本分析,主要包括实体关系梳理和文本特点两个方面,从而得到命名实体识别和实体关系抽取任务所需的实体类别和关系类别,并梳理出分类标准。其次,从数据来源、标注模式、标注环境和数据分析与矫正等四个方面描述构建语料库的原则和过程,最终得到基于地铁设计规范的标注语料库。构建针对地铁设计规范的语料库;地铁设计领域抽取出统一、完整、高效的实体关系将有助于地铁设计领域的智能化建设。
Description
技术领域
本发明属于人工智能领域的一个重要方向,是地铁设计领域实现信息化、智能化的关键工作,具体涉及基于深度学习的地铁设计规范文本分析和语料库构建方法。
背景技术
伴随着信息技术发展的突飞猛进,人工智能技术已经延伸到各行各业,并与许多传统行业有效地结合到一起。现代城市公共基础建设中,地铁已经成为不可或缺的轨道工具。地铁工程建设包括规划、设计、建设和试运行等多个环节,其中设计环节是保证工程建设质量的关键,也是确保地铁安全、经济、适用的重要前提。
地铁设计规范是约束这一环节的重要文件,是我国经过多年经验沉淀和反复论证研究的成果。地铁设计规范文本内容涉及专业多,情况多变,专业词汇广,关系复杂,且各章节描述风格不统一,为抽取统一、完整、高效的实体关系带来了困难;目前针对地铁设计领域的实体识别和实体关系抽取的研究处于起步阶段,同时现有研究尚未提出和发布该领域的信息抽取语料库,针对地铁设计规范的语料库构建。本文对规范文本进行分析,构建了基于该规范的信息抽取语料库。
发明内容
本发明的目的是提供基于深度学习的地铁设计规范文本分析和语料库构建方法,解决了现有技术中存在的地铁设计规范风格不统一,关系不清楚的问题,构建针对地铁设计规范的语料库;地铁设计领域抽取出统一、完整、高效的实体关系将有助于地铁设计领域的智能化建设。
本发明所采用的技术方案是,基于深度学习的地铁设计规范文本分析和语料库构建方法,包括以下步骤:
步骤1,针对实体关系抽取任务,进行实体及实体间的关系的语义分析;
步骤2,根据地铁设计文本规范梳理实体分类体系;
步骤3,基于对实体间语义关系分析的基础上,对分类体系进行合并和定义,形成6类实体;
步骤4,进行语义关系的梳理和定义,得到13类关系的分类标准;
步骤5,依据实体和实体间关系分类标准对从《地铁设计规范》GB2017-2013的文本部分摘出的1000条规范进行数据标注;
步骤6,对步骤5中标注得到的数据分析与矫正;
步骤1中针对实体关系抽取任务,进行语义分析过程具体为:
步骤1.1,首先进行需求调研和分析,确定出研究的领域范畴。
步骤1.2,第二步对照“建筑信息模型分类”到第三步梳理领域重要概念的过程中,根据建筑信息模型分类得到地铁设计领域的上层概念。
步骤1.3,定义类和类的等级体系并得到底层20种实体类别。
步骤1.4,在20种实体类别的基础上,借鉴UMLS的语义关系定义,得到地铁设计规范中的19种实体关系类别。
步骤2中对地铁设计规范文本进行了分析;地铁设计规范数据的形式主要由表格、自由文本、图像构成,其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据,地铁设计规范文本除了具有自然语言文本本身的层次性、递归性、序列性等特点,还具备一些独有的子语言特性,主要包括:
1)缺失主要成分信息;
2)特殊符号表达的独特含义;
3)不同的表达模式具备相同的含义;
4)掺杂口语化表达;
5)包含大量专业术语;
6)建筑设计习惯用语大量出现;
7)语义类型相对固定;
8)为了表达清晰,用半结构化的方式组织各部分内容。
步骤4中,采用了Semeval-Task8中的9种关系分类标准,进行语义关系的梳理和定义,得到13类关系的分类标准。
步骤5中,本文语料库的数据来源是《地铁设计规范》GB2017-2013;
步骤5.1首先对文本进行必要的预处理工作,摘出规范中的文本部分,针对摘出来的文本中1000条规范进行人工标注,共36457个字符,包含5244个实体。标注模式采用团体标注的方式,依据步骤4中得到的实体和关系分类标准,利用jieba分词抽取关键词来完成标注。
步骤5.2其次本文在实验阶段使用了80W土木建筑信息文本语料进行了领域深度预训练,以缓解标注数据有限,并提高预训练模型对土木建筑信息领域知识的学习能力,借助非地铁设计相关的规范减轻模型的过拟合问题,进一步提升下游任务微调时的效果,在此,本专利采用基于生成式模型的半监督学习方法,该类方法通常是把未标记样本属于每个类别的概率看成一组缺失参数,然后采用EM算法对生成式模型的参数进行极大似然估计;文本来源是国家建表库网站和规范文本集,包括建筑专业、城市规划、结构专业的数十本国家规范。
步骤6中,语料库构建不是一次性成型的,它是一个迭代的过程,这个过程采用了“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的基准模型预测,结合人工交叉验证的半人工闭环方式;其中,基准模型尽量选择对超参数不是很敏感的模型;从数据分析和任务角度出发,进行数据集矫正,使得数据集满足两个基本条件:在不断迭代构建过程中,尽力减轻由于多人标注产生的不一致性;最终版本数据集符合一定的统计学分布特征,同时具备代表性和平衡性;在构建语料库的时候需要尽力确保语料库能够代表规范文本最大范围内的变化性。
本发明的有益效果在于:
首先进行文本分析,主要包括实体关系梳理和文本特点两个方面,从而得到命名实体识别和实体关系抽取任务所需的实体类别和关系类别,并梳理出分类标准。其次,从数据来源、标注模式、标注环境和数据分析与矫正等四个方面描述构建语料库的原则和过程,最终得到基于地铁设计规范的标注语料库,地铁设计领域抽取出统一、完整、高效的实体关系将有助于地铁设计领域的智能化建设。
附图说明
图1是本发明基于深度学习的地铁设计规范文本分析和语料库构建流程图。
图2是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法语义分析和本体构建七步法的对应关系。
图3是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法地铁设计规范领域的上层概念。
图4是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法实体类别。
图5是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法实体间的关系类别。
图6是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法实体分类标准。
图7是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法实体关系分类标准。、
图8是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法EM算法的步骤图。
具体实施方式
基于深度学习的地铁设计规范文本分析和语料库构建方法,包括以下步骤:
步骤1,针对实体关系抽取任务,进行实体及实体间的关系的语义分析;
步骤2,根据地铁设计文本规范梳理实体分类体系;
步骤3,基于对实体间语义关系分析的基础上,对分类体系进行合并和定义,形成6类实体;
步骤4,进行语义关系的梳理和定义,得到13类关系的分类标准;
步骤5,依据实体和实体间关系分类标准对从《地铁设计规范》GB2017-2013的文本部分摘出的1000条规范进行数据标注;
步骤6,对步骤5中标注得到的数据分析与矫正;
步骤1中针对实体关系抽取任务,进行语义分析过程具体为:
步骤1.1,首先进行需求调研和分析,确定出研究的领域范畴。
步骤1.2,第二步对照“建筑信息模型分类”到第三步梳理领域重要概念的过程中,根据建筑信息模型分类得到地铁设计领域的上层概念。
步骤1.3,定义类和类的等级体系并得到底层20种实体类别。
步骤1.4,在20种实体类别的基础上,借鉴UMLS的语义关系定义,得到地铁设计规范中的19种实体关系类别。
步骤2中对地铁设计规范文本进行了分析;地铁设计规范数据的形式主要由表格、自由文本、图像构成,其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据,地铁设计规范文本除了具有自然语言文本本身的层次性、递归性、序列性等特点,还具备一些独有的子语言特性,主要包括:
1)缺失主要成分信息;
2)特殊符号表达的独特含义;
3)不同的表达模式具备相同的含义;
4)掺杂口语化表达;
5)包含大量专业术语;
6)建筑设计习惯用语大量出现;
7)语义类型相对固定;
8)为了表达清晰,用半结构化的方式组织各部分内容。
步骤4中,采用了Semeval-Task8中的9种关系分类标准,进行语义关系的梳理和定义,得到13类关系的分类标准。
步骤5中,本文语料库的数据来源是《地铁设计规范》GB2017-2013;
步骤5.1首先对文本进行必要的预处理工作,摘出规范中的文本部分,针对摘出来的文本中1000条规范进行人工标注,共36457个字符,包含5244个实体。标注模式采用团体标注的方式,依据步骤4中得到的实体和关系分类标准,利用jieba分词抽取关键词来完成标注。
步骤5.2其次本文在实验阶段使用了80W土木建筑信息文本语料进行了领域深度预训练,以缓解标注数据有限,并提高预训练模型对土木建筑信息领域知识的学习能力,借助非地铁设计相关的规范减轻模型的过拟合问题,进一步提升下游任务微调时的效果,在此,本专利采用基于生成式模型的半监督学习方法,该类方法通常是把未标记样本属于每个类别的概率看成一组缺失参数,然后采用EM算法对生成式模型的参数进行极大似然估计;文本来源是国家建表库网站和规范文本集,包括建筑专业、城市规划、结构专业的数十本国家规范。步骤6中,语料库构建不是一次性成型的,它是一个迭代的过程,这个过程采用了“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的基准模型预测,结合人工交叉验证的半人工闭环方式;其中,基准模型尽量选择对超参数不是很敏感的模型;从数据分析和任务角度出发,进行数据集矫正,使得数据集满足两个基本条件:在不断迭代构建过程中,尽力减轻由于多人标注产生的不一致性;最终版本数据集符合一定的统计学分布特征,同时具备代表性和平衡性;在构建语料库的时候需要尽力确保语料库能够代表规范文本最大范围内的变化性。
步骤1,针对实体关系抽取任务,进行实体及实体间的关系的语义分析;
步骤2,根据地铁设计文本规范梳理实体分类体系;
步骤3,基于对实体间语义关系分析的基础上,对分类体系进行合并和定义,形成6类实体,如图6所示;
步骤4,进行语义关系的梳理和定义,得到13类关系的分类标准,如图7所示;
步骤5,依据实体和实体间关系分类标准对从《地铁设计规范》GB2017-2013的文本部分摘出的1000条规范进行数据标注;
步骤6,对步骤5标注得到的数据分析与矫正;
步骤1中为了保证地铁设计领域知识的质量和专业性,本发明借鉴了由斯坦福大学提出的领域本体构建七步法,如图1所示,针对实体关系抽取任务,进行语义分析过程的定义。
步骤1.1,首先进行需求调研和分析,确定出研究的领域范畴。
步骤1.2,第二步对照“建筑信息模型分类”到第三步梳理领域重要概念的过程中,根据建筑信息模型分类得到地铁设计领域的上层概念,如图2所示。
步骤1.3,定义类和类的等级体系并得到底层20种实体类别,如图3所示。
步骤1.4,在20种实体类别的基础上,借鉴UMLS的语义关系定义,得到地铁设计规范中的19种实体关系类别,如图5所示。
步骤2中对地铁设计规范文本进行了分析。地铁设计规范数据的形式主要由表格、自由文本、图像构成,其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据,包含着我国地铁工程建设过程中积累的宝贵经验,以及对国外优秀技术的借鉴。同时,地铁设计规范是由多个公司和有关单位共同修订,包含多方意见,因此其文本相较于编辑良好且严格符合语法的语言文本,语言习惯更为自由,语言结构较为多样。
地铁设计规范文本除了具有自然语言文本本身的层次性、递归性、序列性等特点,还具备一些独有的子语言特性,主要包括:1)缺失主要成分信息,比如缺少主语(“为使…达到…的要求,制定本规范”);2)特殊符号表达的独特含义(“不应小于2lx”);3)不同的表达模式具备相同的含义;4)掺杂口语化表达;5)包含大量专业术语(“安全标志”);6)建筑设计习惯用语大量出现(“不可”、“可”、“宜”、“应”、“必须”);7)语义类型相对固定(比如“总体要求”属于“文件工作成果”实体类别,“数据通道”属于“抽象施工元素”类别等);8)为了表达清晰,用半结构化的方式组织各部分内容(分章节描述、术语解释等)。
步骤4中,参考了Semeval-Task8中的9种关系分类标准,并且同样经过科研团队中建筑领域专业人员的指导,进行语义关系的梳理和定义,得到13类关系的分类标准。
步骤5中,本文语料库的数据来源是《地铁设计规范》GB2017-2013。
步骤5.1首先对文本进行必要的预处理工作,主要是摘出规范中的文本部分,针对摘出来的文本中1000条规范进行人工标注,共36457个字符,包含5244个实体。标注模式采用团体标注的方式,依据步骤4中得到的实体和关系分类标准,利用jieba分词抽取关键词来完成标注。
步骤5.2其次,本文在实验阶段使用了80W土木建筑信息文本语料进行了领域深度预训练,以缓解标注数据有限,并提高预训练模型对土木建筑信息领域知识的学习能力,借助非地铁设计相关的规范减轻模型的过拟合问题,进一步提升下游任务微调时的效果,在此,本专利采用基于生成式模型的半监督学习方法,该类方法通常是把未标记样本属于每个类别的概率看成一组缺失参数,然后采用EM(expectation-maximization)算法对生成式模型的参数进行极大似然估计。避免了当模型假设与数据分布不一致时,使用大量的未标记数据来估计模型参数反而降低学得模型的泛化能力的问题。文本来源是国家建表库网站和规范文本集,包括建筑专业、城市规划、结构专业等类别的数十本国家规范。
步骤6中,语料库构建不是一次性成型的,它是一个迭代的过程,这个过程采用了“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的基准模型预测,结合人工交叉验证的半人工闭环方式。其中,基准模型尽量选择对超参数不是很敏感的模型。从数据分析和任务角度出发,进行数据集矫正,使得数据集满足两个基本条件:在不断迭代构建过程中,尽力减轻由于多人标注产生的不一致性;最终版本数据集符合一定的统计学分布特征,同时具备代表性和平衡性。后者是因为基于机器学习的自然语言处理方式是基于统计学的思想,因此构建的数据集本身要更大限度地符合任务适配的统计学规律。
语料库只是地铁设计规范文本的选择性子集,不可能包含该规范所有可能的例子。因此,需要尽力确保语料库能够代表规范文本最大范围内的变化性。
Claims (4)
1.基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于:包括以下步骤:
步骤1,针对实体关系抽取任务,进行实体及实体间的关系的语义分析;
步骤2,根据地铁设计文本规范梳理实体分类体系;
步骤2中对地铁设计规范文本进行了分析;地铁设计规范数据的形式主要由表格、自由文本、图像构成,其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据,地铁设计规范文本除了具有自然语言文本本身的层次性、递归性、序列性的特点,还具备一些独有的子语言特性,主要包括:
1)缺失主要成分信息;
2)特殊符号表达的独特含义;
3)不同的表达模式具备相同的含义;
4)掺杂口语化表达;
5)包含大量专业术语;
6)建筑设计习惯用语大量出现;
7)语义类型相对固定;
8)为了表达清晰,用半结构化的方式组织各部分内容;
步骤3,基于对实体间语义关系分析的基础上,对分类体系进行合并和定义,形成6类实体;
步骤4,进行语义关系的梳理和定义,得到13类关系的分类标准;
步骤5,依据实体和实体间关系分类标准对从《地铁设计规范》GB2017-2013的文本部分摘出的1000条规范进行数据标注;
步骤5中,本文语料库的数据来源是《地铁设计规范》GB2017-2013;
步骤5.1,首先对文本进行必要的预处理工作,摘出规范中的文本部分,针对摘出来的文本中1000条规范进行人工标注,共36457个字符,包含5244个实体;标注模式采用团体标注的方式,依据步骤4中得到的实体和关系分类标准,利用jieba分词抽取关键词来完成标注;
步骤5.2其次本文在实验阶段使用了80W土木建筑信息文本语料进行了领域深度预训练,以缓解标注数据有限,并提高预训练模型对土木建筑信息领域知识的学习能力,借助非地铁设计相关的规范减轻模型的过拟合问题,进一步提升下游任务微调时的效果,在此,本文采用基于生成式模型的半监督学习方法,该类方法通常是把未标记样本属于每个类别的概率看成一组缺失参数,然后采用EM算法对生成式模型的参数进行极大似然估计;文本来源是国家建表库网站和规范文本集,包括建筑专业、城市规划、结构专业的国家规范;
步骤6,对步骤5中标注得到的数据分析与矫正。
2.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于,步骤1中针对实体关系抽取任务,进行语义分析过程具体为:
步骤1.1,首先进行需求调研和分析,确定出研究的领域范畴。
步骤1.2,第二步对照“建筑信息模型分类”到第三步梳理领域重要概念的过程中,根据建筑信息模型分类得到地铁设计领域的上层概念。
步骤1.3,定义类和类的等级体系并得到底层20种实体类别。
步骤1.4,在20种实体类别的基础上,借鉴UMLS的语义关系定义,得到地铁设计规范中的19种实体关系类别。
3.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于,步骤4中,采用了Semeval-Task8中的9种关系分类标准,进行语义关系的梳理和定义,得到13类关系的分类标准。
4.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于,步骤6中,语料库构建不是一次性成型的,它是一个迭代的过程,这个过程采用了“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的基准模型预测,结合人工交叉验证的半人工闭环方式;其中,基准模型尽量选择对超参数不是很敏感的模型;从数据分析和任务角度出发,进行数据集矫正,使得数据集满足两个基本条件:在不断迭代构建过程中,尽力减轻由于多人标注产生的不一致性;最终版本数据集符合一定的统计学分布特征,同时具备代表性和平衡性;在构建语料库的时候需要尽力确保语料库能够代表规范文本最大范围内的变化性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110816598.1A CN113626596B (zh) | 2021-07-20 | 2021-07-20 | 基于深度学习的地铁设计规范文本分析和语料库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110816598.1A CN113626596B (zh) | 2021-07-20 | 2021-07-20 | 基于深度学习的地铁设计规范文本分析和语料库构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626596A CN113626596A (zh) | 2021-11-09 |
CN113626596B true CN113626596B (zh) | 2024-02-06 |
Family
ID=78380195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110816598.1A Active CN113626596B (zh) | 2021-07-20 | 2021-07-20 | 基于深度学习的地铁设计规范文本分析和语料库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626596B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114444512B (zh) * | 2022-01-24 | 2024-04-09 | 中科合肥智慧农业协同创新研究院 | 一种基于本体知识库的自然语言领域数据集自动标注方法 |
CN117875304A (zh) * | 2024-01-11 | 2024-04-12 | 西安西维迈创科技有限公司 | 一种地铁领域用语料库构建方法、系统及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084329A (zh) * | 2020-07-31 | 2020-12-15 | 西安理工大学 | 一种针对实体识别和关系抽取任务的语义分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2628431C1 (ru) * | 2016-04-12 | 2017-08-16 | Общество с ограниченной ответственностью "Аби Продакшн" | Подбор параметров текстового классификатора на основе семантических признаков |
-
2021
- 2021-07-20 CN CN202110816598.1A patent/CN113626596B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084329A (zh) * | 2020-07-31 | 2020-12-15 | 西安理工大学 | 一种针对实体识别和关系抽取任务的语义分析方法 |
Non-Patent Citations (1)
Title |
---|
王姬卜 ; 陆锋 ; 吴升 ; 余丽 ; .基于自动回标的地理实体关系语料库构建方法.地球信息科学学报.2018,(07),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113626596A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN111709235B (zh) | 一种基于自然语言处理的文本数据统计分析系统及方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN111222340B (zh) | 基于多标准主动学习的乳腺电子病历实体识别系统 | |
CN113626596B (zh) | 基于深度学习的地铁设计规范文本分析和语料库构建方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN109710930A (zh) | 一种基于深度神经网络的中文简历解析方法 | |
CN113239208A (zh) | 一种基于知识图谱的标注训练模型 | |
CN114372153A (zh) | 基于知识图谱的法律文书结构化入库方法及系统 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
Downey et al. | Computational feature-sensitive reconstruction of language relationships: Developing the ALINE distance for comparative historical linguistic reconstruction | |
CN116205211A (zh) | 基于大规模预训练生成模型的文档级简历解析方法 | |
CN114186533A (zh) | 模型训练方法及装置、知识抽取方法及装置、设备和介质 | |
CN115470871A (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 | |
CN115630156A (zh) | 一种融合Prompt和SRU的蒙古语情感分析方法与系统 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN114239579A (zh) | 基于正则表达式和crf模型的电力可研文档提取方法及装置 | |
CN116186422A (zh) | 基于社交媒体和人工智能的疾病相关舆情分析系统 | |
CN112530582B (zh) | 一种辅助死因分类编码的智能系统 | |
CN115392255A (zh) | 一种面向桥梁检测文本的少样本机器阅读理解方法 | |
CN111460160B (zh) | 一种基于强化学习的流式文本数据的事件聚类方法 | |
CN114942991A (zh) | 一种基于隐喻识别的情感分类模型构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |