CN113191148B - 一种基于半监督学习和聚类的轨道交通实体识别方法 - Google Patents
一种基于半监督学习和聚类的轨道交通实体识别方法 Download PDFInfo
- Publication number
- CN113191148B CN113191148B CN202110482650.4A CN202110482650A CN113191148B CN 113191148 B CN113191148 B CN 113191148B CN 202110482650 A CN202110482650 A CN 202110482650A CN 113191148 B CN113191148 B CN 113191148B
- Authority
- CN
- China
- Prior art keywords
- entity
- rail transit
- clustering
- data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 79
- 238000002372 labelling Methods 0.000 claims abstract description 40
- 238000013136 deep learning model Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 64
- 238000012360 testing method Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 8
- 238000002474 experimental method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000004904 shortening Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 18
- 238000011160 research Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是基于半监督学习和聚类的实体识别方法。通过本体库预定义实体类别对轨道交通规范非结构化数据进行标注;对标签数据使用word2vec进行向量化表示,然后对带标签的实体词向量进行层次聚类算法;接着将实体类别与聚类结果联合分析,校对实体类别定义,最终确定轨道交通领域本体库实体类型;最后重新整理数据集,生成的词向量输入到BiLSTM‑CRF深度学习模型中训练命名实体识别模型,使用Softmax函数对识别的实体特征进行标签分类,评估实体标签分类结果。本发明能提高轨道交通规范中实体抽取速度和准确率,从而缩短自动问答统和语义网标注对轨道交通规范的处理时间,提高建筑领域从业人员对轨道交通规范的查询速率,提高了用户体验度。
Description
技术领域
本发明属于人工智能自然语言处理技术领域,涉及一种基于半监督学习和聚类的轨道交通实体识别方法。
背景技术
近几年,人工智能的发展成为了行业重要的发展方向,其中自然语言处理作为该领域的重要研究方向,其研究成果已经应用于医疗、法律、金融等行业中,大大提高了领域智能化水平。但是,轨道交通领域中也存在大量的文本信息,针对此领域的相关研究少之又少。在现有的自然语言处理研究领域,现存涉及到轨道交通规范信息提取的相关方法主要是针对英文的轨道交通法规,而对中文轨道交通设计规范的研究处于起步阶段。因此,人们急需要找到一种能够对中文轨道交通设计规范进行信息化处理的方法,构建轨道交通领域知识图谱,实现利用计算机去思考语义并且推理预测,提升轨道交通设计阶段的信息化水平,提高设计阶段的生产效率。
命名实体识别和关系抽取是自然语言处理的重要子任务,直接影响自然语言处理后续工作的性能。其主要的目的是从非结构化文本中识别实体并抽取实体间的语义关系。将关系抽取技术应用到轨道交通领域,对此领域的非结构化知识进行结构化处理与存储,通过对非结构化数据信息的抽取,可以自动分析提取有用信息,从而提高搜索引擎的速度与智能问答系统的准确性,即提高建筑领域从业人员的对轨道交通规范的查询速率,极大地简化了工作的复杂程度,提高了轨道交通领域智能化水平。
发明内容
本发明的目的是提供一种基于半监督和聚类的轨道交通实体识别方法,能够解决现有轨道交通规范实体识别方法需要标记大量数据,以及专家构建本体库时细粒度实体分类与标注样本有限导致实体识别结果准确率较低的问题。
本发明所采用的技术方案是,
一种基于半监督和聚类的轨道交通规范命名实体识别方法,通过专家构建轨道交通领域本体库,人工标注部分数据;首先采用word2vec和BiLSTM-CRF预训练模型分别对带标签实体进行向量化表示;其次利用层次聚类方法对实体词向量进行聚类,与专家定义的实体类别校对,最终确定的实体类别;对训练数据重新进行数据预处理和数据与训练,将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型,使用Softmax函数对提取的实体特征迭代训练优化实体识别模型;设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,并根据评价指标判断其效果的好坏。
具体包括以下步骤:
步骤1:获取轨道交通规范语料;
步骤2:对获取的道交通规范语料进行数据清洗,删除规范语料中多余信息,包括多余的符号,对规范语料进行规范化处理;
步骤3:构建轨道交通领域本体库,然后预定义实体类别;
步骤4:从规范化处理的语料库中,选取1000条规范进行人工标注,标注每条规范中的实体与实体类别;
步骤5,利用标注过实体的规范语料构建训练数据,生成用于命名实体识别任务的轨道交通数据集;采用BIO标注模式,数据集中只包含两列信息,实体和标签;
步骤5.1 我们通过标注工具标注的数据生成json文件,从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息;
步骤5.2 将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注,其中B(Begin)、 I(Intermediate)、 O(Other)的缩写, 其Begin 指所识别对象开始位置上的字符,Intermediate 指所识别对象最中间的字符,Other 指所识别对象中的非实体字符;
步骤5.3 序列标注后将其处理为深度学习模型规定的数据格式,数据文件中每个字符占一行,共包含实体和实体标签两列信息,生成轨道交通数据集;
步骤6:将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中,生成实体文本特征向量;
步骤7:将文本特征向量进行层次聚类,初始参数为专家预定义实体类别数,引入BiLSTM-CRF命名实体识别模型验证实体聚类效果,根据实验表现依次调整阈值条件,将每次聚类结果输入到BiLSTM-CRF命名实体识别模型中对比验证其聚类效果,重复实验,选取命名实体识别实验结果中F1值最高的聚类参数,保存此参数下的聚类结果;
步骤8:将步骤2中构建本体库预定义的实体类别与步骤7中层次聚类结果对比校对,合并,拆分预定义类别,人工定义与聚类联合,确定轨道交通领域本体类别;
步骤9:根据步骤5中确定的实体类别,对本组构建的轨道交通数据集进行修正,得到新的轨道交通实体数据集,目的减少细粒度实体分类数量,适用于少样本学习;
步骤10:将步骤9中新的实体数据集划分为三个数据集文件,分别为训练集,测试集和验证集,占比为8:1:1;
步骤11:将实体训练集输入到BERT模型中进行预训练,生成文本特征向量;将文本特征向量输入到BiLSTM-CRF 模型中,生成实体识别模型;
步骤12:将步骤7中待测试轨道交通规范语料训练集输入到更新后的实体识别模型中,即输出待测试轨道交通规范中实体类别标签。
步骤7中,对人工标注数据进行层次聚类,为预定义其实体类别作为参考条件。
步骤8的具体过程如下:
步骤8.1:针对步骤7生成的聚类结果进行分析,统计每簇中标签的比例,设定一个阈值,规定占比在阈值之上的标签为本簇的实际类别;
步骤8.2:将簇中不同标签占比相差较小,则可将专家预定义的类别合并;
步骤8.3:将独立的簇并且特征比较明显,在专家预定义的类别中可以拆分成一个单独的类别;
步骤 8.4:对比word2vec和BERT生成的词向量聚类结果的差别,最终确定轨道交通领域本体库的实体类别。
步骤9的具体过程如下:
步骤 9.1:遵照步骤5中确定的实体类别,定义标签类型;
步骤9.2:根据对聚类结果进行命名实体识别对比实验,确定的聚类参数和实体类别,对本组构建的轨道交通数据集中原始实体类别进行合并或拆分操作,得到新的轨道交通实体数据集。
步骤11的具体过程如下:
步骤11.1:将实体训练集输入到BERT模型中进行预训练,BERT模型按行读取实体训练集,输出每个字符串的字向量;
步骤11.2:BERT模型将实体训练集中每一个字转化为一维向量,得到一个句子的段向量位置向量,再将段向量位置向量作为深度学习模型的输入,最后输出融合全文语义信息的文本特征向量。
实体识别模型采用Softmax作为损失函数,Softmax用于预测出实体属于每一类别的概率并且能够给其标记上概率较大的标签。
本发明的有益效果是:
本发明针对人工标注轨道交通规范实体工作量大以及细粒度实体分类与标注样本有限产生的矛盾导致实体识别结果准确率较低的问题,提出了一种基于半监督学习和聚类的实体识别方法。通过专家构建本体库预定义实体类别对轨道交通规范非结构化数据进行标注;对标签数据使用word2vec进行向量化表示,然后对带标签的实体词向量进行层次聚类算法;接着将专家构建的实体类别与聚类结果联合分析,校对实体类别定义,最终确定轨道交通领域本体库实体类型;最后重新整理数据集,将训练集输入到BERT模型中,生成的词向量输入到BiLSTM-CRF深度学习模型中训练命名实体识别模型,使用Softmax函数对识别的实体特征进行标签分类,评估实体标签分类结果。采用本发明基于深度学习的轨道交通规范关系抽取方法能够从轨道交通规范语料中快速识别领域实体,将该轨道交通规范实体识别方法应用于轨道交通领域中的自动问答统、语义网标注、知识系图谱构建等方面,能提高轨道交通规范中实体抽取速度和准确率,从而缩短自动问答统和语义网标注对轨道交通规范的处理时间,提高建筑领域从业人员对轨道交通规范的查询速率,提高了用户体验度。
附图说明
图1是本发明基于半监督和聚类的轨道交通设计规范实体识别方法总框架图;
图2是本发明基于基于半监督和聚类的轨道交通规范实体识别方法的总流程图;
图3是本发明一种基于半监督学习和聚类的轨道交通实体识别方法word2vec预训练模型流程示意图;
图4是本发明一种基于半监督学习和聚类的轨道交通实体识别方法中BERT预训练模型的流程示意图;
图5是本发明一种基于半监督学习和聚类的轨道交通实体识别方法中层次聚类算法模型的流程示意图;
图6是本发明一种基于半监督学习和聚类的轨道交通实体识别方法中BERT-BiLSTM-CRF实体识别模型流程示意图;
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
基于半监督和聚类的轨道交通实体识别方法。通过专家构建本体库对轨道交通规范非结构化数据进行标注,专家确定实体类别总共为20类;接着将文本数据转换成只包含实体与标签的词典,对带标签的实体进行数值化表示,训练词向量模型;这里对实体词典的数值化表示分为两种方式:1.word2vec词向量训练模型:静态向量表示,不考虑语义的词向量表示,每一个词只对应一个词向量表示,同一个词得到的词向量是不变的。2.BERT词向量训练模型:动态词向量的表示,考虑语义的词向量表示,同一个词根据上下文信息的不同,得到不同的向量化表示。然后对带标签的实体词向量进行层次聚类算法,通过对每个簇内实体的标签数量进行统计,使每个簇内实体标签所占比例决定簇名称,规定占比较大的标签为本簇的实际类别;最后将专家构建的实体类别与聚类结果联合分析,校对实体类别定义,最终确定轨道交通领域本体库实体类型;对数据进行处理,转化为词向量输入到BiLSTM-CRF深度学习模型中训练命名实体识别模型,通过准确率验证聚类方法对实体识别的有效性。
本发明的技术特征在于:
目前还未存在已经整理好的较大规模的轨道交通设计语料库。本发明中的语料来源于小组的采集,数据来源主要是国家建筑标准设计网站《建标库》地铁设计规范[附条文说明]GB 50157-2013,使用爬虫技术获取网站地铁设计规范数据。爬取的数据存在以下问题:1.文档中存在一些冗余的html标签和符号等。2.文档中存在一些数字,字母,条目信息缺失,残句等情况;3.规范形式多样,序列,图表,公式,嵌套等复杂的文本格式。因此,对数据进行了相应的预处理,数据清洗,人工对缺失数据查漏补缺等操作。针对复杂数据形式和较长的设计规范,采取人工选取1000条可处理以及语法较简单的规范作为预训练数据集。
目前还未有针对轨道交通语料的命名实体标注方法的研究,因此,小组对原始轨道交通语料库建立了一套本领域的实体标注体系。参考国标库对整个建筑领域的实体类别定义,以及人工分析讨论,共预定义了20类实体类别。对涉及的20类实体分别进行标注,小组开发了一套针对轨道交通规范的数据标注平台。具体标注方式为:以@为每条规范的开始标识;实体标注格式为<e1:类别>,通过划词选取预定义实体类别的标注形式生成json文件;实体关系标注格式为:<e1,关系类别,e2>,通过将实体与实体连线选取预定义关系类别的标注形式,生成json文件;通过解析json文件获取实体与实体标签,实体间关系三元组的数据格式。在标注过程中,如若遇到不明确的实体,则将其进行文档记录,通过小组讨论确定最终标注结论,统一标注规则。待标注任务完成后,标注人员相互交换标注语料,互相核对,针对有冲突和矛盾的语料记录文档小组讨论确定最终结论,统一标注规则。最后邀请建筑领域专家对标注后的轨道交通规范语料集进行质量评估,对标注的实体和关系进行总体的检查、修正和整理,得到本研究的轨道交通规范语料库。
基于半监督和聚类的轨道交通实体识别方法,具体包括以下步骤:
步骤1:本文的实验语料使用的是国家建筑标准设计网站《建标库》地铁设计规范[附条文说明]GB 50157-2013。采用网络爬虫技术从官方网站建标库爬取轨道交通规范语料。
步骤2:对获取的道交通规范语料进行数据清洗,删除规范语料中多余信息,包括多余的符号,对规范语料进行规范化处理;
步骤3:专家构建轨道交通领域本体库,人工预定义实体类别;
步骤4:从规范化处理的语料库中,选取1000条规范进行人工标注,标注每条规范中的实体与实体类别;
步骤5:利用标注过实体的规范语料构建训练数据,生成用于命名实体识别任务的轨道交通数据集。采用BIO标注模式,数据集中只包含两列信息,实体和标签;
步骤6:将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中,生成实体文本特征向量,
步骤7:将文本特征向量进行层次聚类,重复实验,直到得到合适的聚类结果;
步骤8:将步骤2中专家构建本体库预定义的实体类别与层次聚类结果对比校对,合并、拆分预定义类别,人工定义与聚类联合确定轨道交通领域本体类别;
步骤9:根据步骤5中确定的实体类别,对本组构建的轨道交通数据集进行修正,得到新的轨道交通实体数据集,目的减少细粒度实体分类数量,适用于少样本学习。
步骤10:将步骤9中新的实体数据集划分为三个数据集文件,分别为训练集,测试集和验证集,占比为8:1:1;
步骤11:将实体训练集输入到BERT模型中进行预训练,生成文本特征向量;将文本特征向量输入到BiLSTM-CRF 模型中,生成实体识别模型;
步骤12:将步骤7中待测试轨道交通规范语料训练集输入到更新后的实体识别模型中,即输出待测试轨道交通规范中实体类别标签。
步骤8的具体过程如下:
步骤8.1:针对步骤7生成的聚类结果进行分析,统计每簇中标签的比例,给定一个阈值,规定占比较大并且在阈值之上的标签为本簇的实际类别;
步骤8.2:将簇中不同标签占比相差较小,则考虑是否可将专家预定义的类别合并;
步骤8.3:将独立的簇并且特征比较明显,检查在专家预定义的类别中是否可以拆分成一个单独的类别;
步骤8.4:对比word2vec和BERT生成的词向量聚类结果的差别,最终确定轨道交通领域本体库的实体类别;
步骤9的具体过程如下:
步骤9.1:遵照步骤5中确定的实体类别,定义标签类型;
步骤9:根据步骤5中确定的实体类别,对本组构建的轨道交通数据集进行修正,得到新的轨道交通实体数据集,目的减少细粒度实体分类数量,适用于少样本学习。
步骤11的具体过程如下:
步骤11.1:将实体训练集输入到BERT模型中进行预训练,BERT模型按行读取实体训练集,输出每个字符串的字向量;
步骤11.2:BERT模型将实体训练集中每一个字转化为一维向量,得到一个句子的段向量位置向量,再将段向量位置向量作为深度学习模型的输入,最后输出融合全文语义信息的文本特征向量;
步骤11.3:将文本特征向量输入到BiLSTM-CRF模型中,生成实体识别模型。
实施例
本发明的目的提供一种基于半监督和聚类的轨道交通规范命名实体识别方法,具体框架如图1所示。通过专家构建轨道交通领域本体库,人工标注部分数据;采用word2vec和BERT预训练模型分别对带标签实体进行向量化表示;其次利用层次聚类方法对实体词向量进行聚类,与专家定义的实体类别校对,最终确定的实体类别;对训练数据重新进行数据预处理和数据与训练,将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型,使用Softmax函数对提取的实体特征迭代训练优化实体识别模型;设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,根据评价指标判断其效果的好坏。
本发明一种基于深度学习的轨道交通规范关系抽取方法,参照图2,具体包括以下步骤:
步骤1,本文的实验语料使用的是国家建筑标准设计网站《建标库》地铁设计规范[附条文说明]GB 50157-2013。采用网络爬虫技术从官方网站建标库爬取轨道交通规范语料。
步骤2,对获取的道交通规范语料进行数据清洗,删除规范语料中多余信息,包括多余的符号,对规范语料进行规范化处理;
步骤3,专家构建轨道交通领域本体库,人工预定义实体类别;如表1所示:
表1 实体类型
步骤4,从规范化处理的语料库中,选取1000条规范进行人工标注,标注每条规范中的实体类别和实体间关系;
例如,《地铁设计规范[附条文说明]GB 50157-2013》第9.1.6条规范,人工标注格式为:
Source:9.1.6 车站应设置无障碍设施。
TotalSentence:9.1.6<e1>车站<e1>应设置<e2>无障碍设施<e2>。
TotalSentence实体:e1:ec1, e2:ec6
TotalSentence关系:<e1, rc4 ,e2>
例如,《地铁设计规范[附条文说明]GB 50157-2013》第9.7.13条规范,人工标注格式为:
Source:9.7.13 站台门应设置安全标志和使用标志。
TotalSentence:9.7.13<e1>站台门<e1>应设置<e2>安全标志<e2>和<e3>使用标志<e3>。
TotalSentence实体:e1:ec5, e2:ec5,e3:ec5,
TotalSentence关系:<e1, rc4 ,e2>,<e1, rc4 ,e3>,
例如,《地铁设计规范[附条文说明]GB 50157-2013》第14.1.6条规范,人工标注格式为:
Source:14.1.6 给水与排水系统宜按自动化管理设计。
TotalSentence:14.1.6<e1>给水与排水系统<e1>宜按<e2>自动化管理<e2>设计。
TotalSentence实体:e1:ec6, e2:ec10
TotalSentence关系:<e1, rc5 ,e2>
其中,Source为规范原文本,TotalSentence为整条规范标注,TotalSentence实体为本条规范体梳理,TotalSentence关系为本条规范关系梳理。
步骤5,利用标注过实体的规范语料构建训练数据,生成用于命名实体识别任务的轨道交通数据集。采用BIO标注模式,数据集中只包含两列信息,实体和标签;
步骤5.1 我们通过标注工具标注的数据生成json文件,从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息。
步骤5.2 将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注,其中B(Begin)、 I(Intermediate)、 O(Other)的缩写, 其Begin 指所识别对象开始位置上的字符,Intermediate 指所识别对象最中间的字符, Other 指所识别对象中的非实体字符。将预定义的20类实体类型转化为待预测标签具体如表2所示。
表2待预测标签
步骤5.3 序列标注后将其处理为深度学习模型规定的数据格式,数据文件中每个字符占一行,共包含实体和实体标签两列信息,生成轨道交通数据集,具体数据集格式如表3所示。
表3BIO标注数据集格式
步骤6,如图3所示,将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中,生成实体文本特征向量,伪代码如下:
步骤7:将文本特征向量进行层次聚类,初始参数为专家预定义实体类别数,引入BiLSTM-CRF命名实体识别模型验证实体聚类效果,根据实验表现依次调整阈值条件,重复实验,选取命名实体识别实验结果中F1值最高的聚类参数,保存此参数下的聚类结果,伪代码如下:
步骤8:联合确定实体类别
步骤8.1:针对步骤7生成的聚类结果进行分析,统计每簇中标签的比例,给定一个阈值,规定占比较大并且在阈值之上的标签为本簇的实际类别;
步骤8.2:将簇中不同标签占比相差较小,则考虑是否可将专家预定义的类别合并;
步骤8.3:将独立的簇并且特征比较明显,检查在专家预定义的类别中是否可以拆分成一个单独的类别;
步骤8.4:对比word2vec和BERT生成的词向量聚类结果的差别,最终确定轨道交通领域本体库的实体类别;
步骤9:数据集整理
步骤9.1:遵照步骤5中确定的实体类别,定义标签类型;
步骤9.2:重新处理步骤3中的轨道交通数据集,对数据集实体类别进行合并或拆分操作,得到新的轨道交通实体数据集。
步骤10:将步骤9中新的实体数据集划分为三个数据集文件,分别为训练集,测试集和验证集,占比为8:1:1;
步骤11:构建实体识别模型,具体流程如图6所示。
步骤11.1:将实体训练集输入到BERT模型中进行预训练,BERT模型按行读取实体训练集,输出每个字符串的字向量;
步骤11.2:BERT模型将实体训练集中每一个字转化为一维向量,得到一个句子的段向量位置向量,再将段向量位置向量作为深度学习模型的输入,最后输出融合全文语义信息的文本特征向量;
伪代码如下:
步骤11.3:将文本特征向量输入到 BiLSTM-CRF 模型中,生成实体识别模型。伪代码如下:
实例:
对轨道交通规范语料进行实体标记,具体步骤如下:
步骤11.3.1,以地铁设计规范“9.1.6车站应设置无障碍设施”为例,将BERT模型输出的训练集向量化表示,将“车站应设置无障碍设施”中的每一个词都训练得到一个768维向量,得到每个词的初始化向量,然后将结果作为深度学习模型的输入。
步骤11.3.2,使用深度学习中的BiLSTM-CRF算法,双向LSTM同时考虑了过去的特征和未来的特征,一个正向输入序列,一个反向输入序列,预测词在上下文中的语义。比如输入“车站”后BiLSTM会预测下一个词是“应”的概率,然后输入“车站应”预测下一个词“设置”出现的概率,这是正向输入。当反向输入序列时,预测“设置”一词前可能出现“应”的概率,再将两者的输出结合起来作为最终的结果输入到下一层。
步骤11.3.3,将步骤4.3.2得到的特征矩阵作为CRF的输入,CRF通过添加特征函数和BiLSTM得到的特征矩阵进行序列标注,生成实体识别模型,过程如下表所示,该模型能够识别轨道交通规范的实体。
步骤12:将步骤7中待测试轨道交通规范语料训练集输入到更新后的实体识别模型中,即输出待测试轨道交通规范中实体类别标签。
Claims (6)
1.一种基于半监督和聚类的轨道交通规范命名实体识别方法,其特征在于,通过专家构建轨道交通领域本体库,人工标注部分数据;首先采用word2vec和BiLSTM-CRF预训练模型分别对带标签实体进行向量化表示;其次利用层次聚类方法对实体词向量进行聚类,与专家定义的实体类别校对,最终确定的实体类别;对训练数据重新进行数据预处理和数据预训练,将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型,使用Softmax函数对提取的实体特征迭代训练优化实体识别模型;设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,并根据评价指标判断其效果的好坏;
具体包括以下步骤:
步骤1:获取轨道交通规范语料;
步骤2:对获取的轨道交通规范语料进行数据清洗,删除规范语料中多余信息,包括多余的符号,对规范语料进行规范化处理;
步骤3:构建轨道交通领域本体库,然后预定义实体类别;
步骤4:从规范化处理的语料库中,选取1000条规范进行人工标注,标注每条规范中的实体与实体类别;
步骤5,利用标注过实体的规范语料构建训练数据,生成用于命名实体识别任务的轨道交通数据集;采用BIO标注模式,数据集中只包含两列信息,实体和标签;
步骤5.1我们通过标注工具标注的数据生成json文件,从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息;
步骤5.2将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注,其中B(Begin)、(IIntermediate)、O(Other)的缩写,其Begin指所识别对象开始位置上的字符,Intermediate指所识别对象最中间的字符,Other指所识别对象中的非实体字符;
步骤5.3序列标注后将其处理为深度学习模型规定的数据格式,数据文件中每个字符占一行,共包含实体和实体标签两列信息,生成轨道交通数据集;
步骤6:将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中,生成实体文本特征向量;
步骤7:将文本特征向量进行层次聚类,初始参数为专家预定义实体类别数,引入BiLSTM-CRF命名实体识别模型验证实体聚类效果,根据实验表现依次调整阈值条件,将每次聚类结果输入到BiLSTM-CRF命名实体识别模型中对比验证其聚类效果,重复实验,选取命名实体识别实验结果中F1值最高的聚类参数,保存此参数下的聚类结果;
步骤8:将步骤2中构建本体库预定义的实体类别与步骤7中层次聚类结果对比校对,合并,拆分预定义类别,人工定义与聚类联合,确定轨道交通领域本体类别;
步骤9:根据步骤5中确定的实体类别,对本组构建的轨道交通数据集进行修正,得到新的轨道交通实体数据集,目的减少细粒度实3体分类数量,适用于少样本学习;
步骤10:将步骤9中新的实体数据集划分为三个数据集文件,分别为训练集,测试集和验证集,占比为8:1:1;
步骤11:将实体训练集输入到BERT模型中进行预训练,生成文本特征向量;将文本特征向量输入到BiLSTM-CRF模型中,生成实体识别模型;
步骤12:将步骤7中待测试轨道交通规范语料训练集输入到更新后的实体识别模型中,即输出待测试轨道交通规范中实体类别标签。
2.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,所述步骤7中,对人工标注数据进行层次聚类,为预定义其实体类别作为参考条件。
3.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,所述步骤8的具体过程如下:
步骤8.1:针对步骤7生成的聚类结果进行分析,统计每簇中标签的比例,设定一个阈值,规定占比在阈值之上的标签为本簇的实际类别;
步骤8.2:将簇中不同标签占比相差较小,则可将专家预定义的类别合并;
步骤8.3:将独立的簇并且特征比较明显,在专家预定义的类别中可以拆分成一个单独的类别;
步骤8.4:对比word2vec和BERT生成的词向量聚类结果的差别,最终确定轨道交通领域本体库的实体类别。
4.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,所述步骤9的具体过程如下:
步骤9.1:遵照步骤5中确定的实体类别,定义标签类型;
步骤9.2:根据对聚类结果进行命名实体识别对比实验,确定的聚类参数和实体类别,对本组构建的轨道交通数据集中原始实体类别进行合并或拆分操作,得到新的轨道交通实体数据集。
5.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,所述步骤11的具体过程如下:
步骤11.1:将实体训练集输入到BERT模型中进行预训练,BERT模型按行读取实体训练集,输出每个字符串的字向量;
步骤11.2:BERT模型将实体训练集中每一个字转化为一维向量,得到一个句子的段向量位置向量,再将段向量位置向量作为深度学习模型的输入,最后输出融合全文语义信息的文本特征向量。
6.根据权利要求1所述的基于深度学习的轨道交通规范关系抽取方法,其特征在于,所述实体识别模型采用Softmax作为损失函数,Softmax用于预测出实体属于每一类别的概率并且能够给其标记上概率较大的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110482650.4A CN113191148B (zh) | 2021-04-30 | 2021-04-30 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110482650.4A CN113191148B (zh) | 2021-04-30 | 2021-04-30 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113191148A CN113191148A (zh) | 2021-07-30 |
CN113191148B true CN113191148B (zh) | 2024-05-28 |
Family
ID=76983314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110482650.4A Active CN113191148B (zh) | 2021-04-30 | 2021-04-30 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191148B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704429A (zh) * | 2021-08-31 | 2021-11-26 | 平安普惠企业管理有限公司 | 基于半监督学习的意图识别方法、装置、设备及介质 |
CN113822026B (zh) * | 2021-09-10 | 2022-07-08 | 神思电子技术股份有限公司 | 一种多标签实体标注方法 |
CN114049528B (zh) * | 2022-01-12 | 2022-06-28 | 上海蜜度信息技术有限公司 | 一种品牌名称识别的方法及设备 |
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
CN114915599B (zh) * | 2022-07-19 | 2022-11-11 | 中国电子科技集团公司第三十研究所 | 一种基于半监督聚类学习的暗网站点会话识别方法及系统 |
CN116341552A (zh) * | 2023-04-11 | 2023-06-27 | 国网河南省电力公司电力科学研究院 | 基于Bert-CRF的变电站防汛命名实体识别方法 |
CN116401369B (zh) * | 2023-06-07 | 2023-08-11 | 佰墨思(成都)数字技术有限公司 | 用于生物制品生产术语的实体识别及分类方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509619A (zh) * | 2018-04-04 | 2018-09-07 | 科大讯飞股份有限公司 | 一种语音交互方法及设备 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN111144119A (zh) * | 2019-12-27 | 2020-05-12 | 北京联合大学 | 一种改进知识迁移的实体识别方法 |
CN111241243A (zh) * | 2020-01-13 | 2020-06-05 | 华中师范大学 | 面向知识测量的试题、知识、能力张量构建与标注方法 |
CN111597420A (zh) * | 2020-04-29 | 2020-08-28 | 西安理工大学 | 基于深度学习的轨道交通规范关系抽取方法 |
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐系统及其方法 |
CN111767408A (zh) * | 2020-05-27 | 2020-10-13 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
CN111881296A (zh) * | 2020-07-31 | 2020-11-03 | 深圳市万物云科技有限公司 | 一种基于社区场景的工单处理方法及相关组件 |
CN112101040A (zh) * | 2020-08-20 | 2020-12-18 | 淮阴工学院 | 一种基于知识图谱的古代诗词语义检索方法 |
CN112183099A (zh) * | 2020-10-09 | 2021-01-05 | 上海明略人工智能(集团)有限公司 | 基于半监督小样本扩展的命名实体识别方法及系统 |
CN112256878A (zh) * | 2020-10-29 | 2021-01-22 | 沈阳农业大学 | 一种基于深度卷积的水稻知识文本分类方法 |
CN112347766A (zh) * | 2020-11-27 | 2021-02-09 | 北京工业大学 | 一种处理微博文本认知歪曲的多标签分类方法 |
-
2021
- 2021-04-30 CN CN202110482650.4A patent/CN113191148B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509619A (zh) * | 2018-04-04 | 2018-09-07 | 科大讯飞股份有限公司 | 一种语音交互方法及设备 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN111144119A (zh) * | 2019-12-27 | 2020-05-12 | 北京联合大学 | 一种改进知识迁移的实体识别方法 |
CN111241243A (zh) * | 2020-01-13 | 2020-06-05 | 华中师范大学 | 面向知识测量的试题、知识、能力张量构建与标注方法 |
CN111597420A (zh) * | 2020-04-29 | 2020-08-28 | 西安理工大学 | 基于深度学习的轨道交通规范关系抽取方法 |
CN111767408A (zh) * | 2020-05-27 | 2020-10-13 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐系统及其方法 |
CN111881296A (zh) * | 2020-07-31 | 2020-11-03 | 深圳市万物云科技有限公司 | 一种基于社区场景的工单处理方法及相关组件 |
CN112101040A (zh) * | 2020-08-20 | 2020-12-18 | 淮阴工学院 | 一种基于知识图谱的古代诗词语义检索方法 |
CN112183099A (zh) * | 2020-10-09 | 2021-01-05 | 上海明略人工智能(集团)有限公司 | 基于半监督小样本扩展的命名实体识别方法及系统 |
CN112256878A (zh) * | 2020-10-29 | 2021-01-22 | 沈阳农业大学 | 一种基于深度卷积的水稻知识文本分类方法 |
CN112347766A (zh) * | 2020-11-27 | 2021-02-09 | 北京工业大学 | 一种处理微博文本认知歪曲的多标签分类方法 |
Non-Patent Citations (5)
Title |
---|
Guo Xie,a*† Xinhong Hei,b Hiroshi Mochizuki,a Sei Takahashia and Hideo Nakamuraa.Safety and Reliability Estimation of Automatic Train Protection and Block System.《quality and reliability engineering international》.2013,全文. * |
Intelligent Computing Theories and Application.《De-Shuang Huang Vitoantonio Bevilacqua Prashan Premaratne Phalguni Gupta》.2018,全文. * |
一种基于通信的列车控制系统的 AP 快速切换方法研究;黑新宏,李瑛,马维纲,王晓帆;《西安理工大学学报》;20210428;第28卷(第4期);全文 * |
地铁车站BIM 模型信息完备性审查研究;赵钦,赵杨阳,马召熙,刘彦明,黑新宏;《西安理工大学学报》;20230731;全文 * |
基于中文预训练的安全事件实体识别研究;朱 磊, 董林靖 , 黑新宏, 王一川,彭 伟 刘雁孝 盘 隆;《信息安全研究》;20210731;第7卷(第7期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113191148A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
CN112732934B (zh) | 电网设备分词词典和故障案例库构建方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111597420B (zh) | 基于深度学习的轨道交通规范关系抽取方法 | |
CN113312914B (zh) | 一种基于预训练模型的安全事件实体识别方法 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN113806563A (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN116611071A (zh) | 一种基于多模态的函数级漏洞检测的方法 | |
CN115481635A (zh) | 一种地址要素解析方法和系统 | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN114492460A (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN113378024B (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN117113937A (zh) | 一种基于大规模语言模型的电力领域阅读理解方法和系统 | |
CN116976321A (zh) | 文本处理方法、装置、计算机设备、存储介质和程序产品 | |
CN115392255A (zh) | 一种面向桥梁检测文本的少样本机器阅读理解方法 | |
CN110909547A (zh) | 一种基于改进深度学习的司法实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |