CN116956929B - 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 - Google Patents
针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 Download PDFInfo
- Publication number
- CN116956929B CN116956929B CN202311212214.0A CN202311212214A CN116956929B CN 116956929 B CN116956929 B CN 116956929B CN 202311212214 A CN202311212214 A CN 202311212214A CN 116956929 B CN116956929 B CN 116956929B
- Authority
- CN
- China
- Prior art keywords
- entity
- bridge management
- maintenance
- sample
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012423 maintenance Methods 0.000 claims abstract description 259
- 238000012549 training Methods 0.000 claims abstract description 148
- 238000000605 extraction Methods 0.000 claims abstract description 123
- 238000013145 classification model Methods 0.000 claims abstract description 87
- 238000002372 labelling Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 155
- 230000011218 segmentation Effects 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 11
- 238000011160 research Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009313 farming Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请中提供一种针对桥梁管养文本数据的多特征融合命名实体识别方法、装置,方法包括:对桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签;基于桥梁管养样本语句和桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;基于桥梁管养样本语句和桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;获取待处理的桥梁管养数据,并基于完成训练的实体抽取模型抽取桥梁管养专业词,基于完成训练的实体分类模型对桥梁管养专业词进行分类。
Description
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种针对桥梁管养文本数据的多特征融合命名实体识别方法、装置、电子设备及计算机程序产品。
背景技术
近年来,桥梁管养领域发展迅速,积累了大量文本数据。这些数据中蕴含着高质量的专业理论知识和实践经验,因此智能化地分析和利用这些数据成为未来发展的方向。然而,目前桥梁管养领域的智能化水平仍处于发展阶段,与新一代人工智能技术的结合不深,尤其是在利用自然语言处理算法处理海量文本数据方面的研究还相对较少。
另一方面,在人工智能领域中,随着BERT(Bidirectional EncoderRepresentation from Transformers)的出现,基于BERT构建的命名实体识别技术能够更准确高效地提取领域内的专业实体。这些从文本数据中提取出的专业实体可以用于多个方面。首先,它们可以用于构建知识图谱,进而搭建问答系统,帮助实现智能化的知识管理和知识问答。其次,这些实体可以用于实现高效准确的智能化检索,即通过从用户问题中抽取出的实体名进行智能搜索。最后,这些实体还可以用于构建基于实体的文本摘要自动生成系统。
然而,目前自然语言处理领域内的命名实体识别技术架构主要为BERT+CRF(Conditional Random Field)或BERT+BiLSTM(Bi-directional Long Short-TermMemory)+CRF的模式。研究方向主要集中在添加特征和拆分任务等方面。在添加特征方面,主要是在现有架构上添加领域内的字特征、词特征等,而很少有针对桥梁管养领域数据进行细粒度多特征融合的算法研究。在拆分任务方面,命名实体识别任务被拆分为实体抽取和实体分类任务,但在实体分类任务中对于桥梁管养领域数据中实体词较长的情况,缺乏相关的分析和优化研究。
因此,未来的研究方向应该是更深入地将桥梁管养领域与新一代人工智能技术相结合,特别是在利用自然语言处理算法处理海量文本数据方面。同时,需要针对桥梁管养领域的特点,进行细粒度多特征融合的算法研究,并对实体词较长的情况进行分析和优化。这样才能更好地实现桥梁管养领域的智能化发展。
发明内容
本申请的目的在于提出一种针对桥梁管养文本数据的多特征融合命名实体识别方法、装置、电子设备及计算机程序产品,用于解决或者克服现有技术中存在的上述技术问题。
一种针对桥梁管养文本数据的多特征融合命名实体识别方法,其包括:
获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;
对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签;
基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。
一种针对桥梁管养文本数据的多特征融合命名实体识别装置,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形,其包括:
第一融合训练单元,用于基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
第二融合训练单元,基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
实体抽取使能单元,用于获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。
一种电子设备,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形,其包括:存储器以及处理器,所述存储器上存储有计算机可执行程序,所述计算机可执行程序被所述处理器运行时,执行如下步骤:
基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。
一种计算机程序产品,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形,其上存储有计算机可执行程序,所述计算机可执行程序被运行时执行如下步骤:
基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。
本申请中提供的技术方案中,通过获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签;基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。为此,可以达到如下技术效果:
针对桥梁管养领域中实体词较长且实体类别较多的情况,针对性采用两阶段任务模型(实体抽取模型和实体分类模型)以适应实体类别较多的现状,并且在两阶段任务中的分类任务中,提升缓解实体词较长可能带来的输入信息的损失问题,以提升实体分类任务的效果。此外,为更好的针对性利用桥梁管养领域的特征,在两阶段任务中的抽取任务中,引入了词特征和句特征,并采用注意力模块学习基于注意力的融合方式。基于上面两个方面的改进,使得训练好的模型能够更好地识别桥梁管养领域的命名实体,为后续的知识图谱、智能问答和智能搜索研究和应用打下了基础,提高了桥梁管养领域数据的智能化利用水平和效率。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的,附图中:
图1为本申请实施例一种针对桥梁管养文本数据的多特征融合命名实体识别方法的流程示意图。
图2为本申请实施例一种针对桥梁管养文本数据的多特征融合命名实体识别装置的结构示意图。
图3为本申请实施例一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
本申请中提供的技术方案中,通过获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签;基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。为此,可以达到如下技术效果:
针对桥梁管养领域中实体词较长且实体类别较多的情况,针对性采用两阶段任务模型(实体抽取模型和实体分类模型)以适应实体类别较多的现状,并且在两阶段任务中的分类任务中,提升缓解实体词较长可能带来的输入信息的损失问题,以提升实体分类任务的效果。此外,为更好的针对性利用桥梁管养领域的特征,在两阶段任务中的抽取任务中,引入了词特征和句特征,并采用注意力模块学习基于注意力的融合方式。基于上面两个方面的改进,使得训练好的模型能够更好地识别桥梁管养领域的命名实体,为后续的知识图谱、智能问答和智能搜索研究和应用打下了基础,提高了桥梁管养领域数据的智能化利用水平和效率。
图1为本申请实施例一种针对桥梁管养文本数据的多特征融合命名实体识别方法的流程示意图。如图1所示,其包括:
S101、获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;
S102、对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签;
S103、基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
S104、基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
S105、获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。
可选地,本实施例中,所述对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词,包括:
对所述桥梁管养样本数据进行分句,得到桥梁管养样本语句;
对所述桥梁管养样本语句进行分词,得到所述桥梁管养样本词。
可选地,所述对所述桥梁管养样本语句进行分词,得到所述桥梁管养样本词,包括:基于jieba库对所述桥梁管养样本语句进行分词,得到所述桥梁管养样本词。
本实施例中,为了便于后续进行分词处理,对分句处理得到的桥梁管养样本语句进行存储处理,在完成分词之后,对得到的所述桥梁管养样本词也进行存储处理。
本实施例中,分句过程中对桥梁管养数据进行分句处理后,每个桥梁管养样本语句可以当成一条数据进行存储。
可选地,所述对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签,包括:
基于实体的开始位置、实体的中间位置、实体的结束位置,对所述桥梁管养样本语句进行实体抽取标注得到所述桥梁管养实体抽取样本词的标签;
基于构建的实体类型词典,对所述桥梁管养样本语句进行实体分类标注得到所述桥梁管养实体分类样本词的标签。
可选地,对所述桥梁管养样本语句进行实体抽取标注(比如称之为第一阶段任务),具体利用BIOES标注法标注出每个字对应的实体类别,其中,BIOES(Beginning,Inside, Outside, End, Single)标注法中B表示实体的开始位置,I表示实体的中间位置,E表示实体的结束位置,O表示不属于任何实体,S表示只有一个字的实体。例如,针对句子“对长江大桥开展梁的跨中挠度监测”,利用BIOES标注法标注后得到所述桥梁管养实体抽取样本词的标签为“OBIIEOOSOBIIEOO”,其中每个字母与句子中的每个字一一对应,长江大桥和跨中挠度均被标注为BIIE,梁被标注为S,其他非实体词被标注为O。
可选地,对所述桥梁管养样本语句进行实体分类标注(比如又称之为第二阶段任务),定义出桥梁管养领域内的实体类型比如包含桥名、长度、时间、位置、编号、构件、部件、损伤、监测指标和特殊事件共10个实体类型。然后基于定义好的实体类型构建实体类型词典以进行标注。在实体抽取模型的训练过程中不会采用非实体数据,因此在标注时只标注桥梁管养样本语句中的实体,而不标注非实体,例如,针对上述句子“对长江大桥开展梁的跨中挠度监测”,只标注其中的实体,即“长江大桥”、“梁”和“跨中挠度”。因此基于定义的实体类型进行标注后的label(标签)如下:“长江大桥”的label为“桥名”,“梁”的label为“构件”,“跨中挠度”的label为“监测指标”。
本实施例中,可以通过收集的桥梁管养领域的实体类型构建出所述实体类型词典,以实现对实体类型的索引化。
可选地,所述基于构建的实体类型词典,对所述桥梁管养样本语句进行实体分类标注得到所述桥梁管养实体分类样本词的标签之后,还包括:将所述桥梁管养实体分类样本词的标签转换成数字索引,以在基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练时,将所述数字索引作为所述实体分类模型的真实训练标签,以对所述实体分类模型进行多特征融合训练。
在实际训练过程中,“桥名”、“构件”和“跨中挠度”等实体类型会转化为对应的模型可以读取的数字索引(比如“桥名”对应0,“特殊事件”对应9,其他类型均为0-9之间非重复数字),以便于模型训练时可以读取。
可选地,所述实体抽取模型包括BERT模型、Text2Vec模型、注意力模块、Dense模块(或者又可称之为稠密模块)、CRF模块(又可称之为条件随机场模块),所述Text2Vec模型中的参数被冻结,参数被冻结的含义是指所述Text2Vec模型的参数不再参与实体抽取模型的训练过程,参数值保持固定不变;
对应地,所述基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型,包括:
将所述桥梁管养样本语句转换成BERT输入数据,以输入到所述BERT模型中进行特征提取得到对应的BERT特征向量;
将所述桥梁管养样本语句以及所述桥梁管养样本词输入到所述Text2Vec模型中生成对应的句子语义向量以及分词语义向量;
对所述BERT特征向量、所述句子语义向量以及所述分词语义向量输入到注意力模块中以进行多特征融合,得到注意力向量;
将所述注意力向量输入到所述Dense模块中对其进行压缩得到维度与标注的分类总数(BIOES标注法中的五个标注类型)相同的压缩向量;
将所述压缩向量输入到所述CRF模块中,得到桥梁管养实体预测值;
根据所述桥梁管养实体预测值与所述桥梁管养实体分类样本词的标签,计算两者之间的损失值,对所述实体抽取模型进行反向传播计算梯度,以不断调整所述BERT模型、所述注意力模块、所述Dense模块、所述CRF模块的参数,直至损失值达到预设标准,完成所述实体抽取模型的训练。
可选地,以下以在一具体场景中应用为例,对上述实体抽取模型的训练进行示例性说明。
具体来说,将所述桥梁管养样本语句转换成BERT输入数据,比如可以通过对所述桥梁管养样本语句进行分字后,在其开头加上前缀[CLS],表示是开头,在其结尾加上后缀[SEP],表示是结尾,从而转换成BERT输入数据。
将带有前后缀的桥梁管养样本语句的分字数据即BERT输入数据输入到BERT模型中,经过BERT模型处理后会为每个BERT输入数据即每个token产出一个768维的向量即对应的BERT特征向量,BERT特征向量标记为(其中i为正整数且token_num>=i>=1,用于区分不同的token;token_num为正整数,表示输入token的数量)。
在一具体场景中,使用的BERT模型为预训练BERT模型bert-base-chinese,该预训练BERT模型由于基于海量中文文本数据进行预训练,具备较丰富的中文语义表示能力,有助于在训练过程中加快模型的收敛速度和提高模型的性能。
进一步,将所述桥梁管养样本语句以及所述桥梁管养样本词分别输入到Text2Vec模型中生成桥梁管养样本语句对应的句子语义向量和每个所述桥梁管养样本词对应的分词语义向量。比如,其中Text2Vec模型为shibing624/text2vec-base-chinese模型,该模型利用CoSENT方法基于中文数据进行训练,在中文STS-B测试集上有较好效果。所述句子语义向量和分词语义向量比如可以都为768维的向量,句子语义向量标记为,分词语义向量标记为/>(其中j为正整数且word_num>=j>=1,用于区分不同的分词;word_num为正整数,表示所述桥梁管养样本词的总数量)。BERT特征向量与所述句子语义向量和分词语义向量一致,也为768维的向量。
本实施例中,通过引入基于Text2Vec模型产出的句子语义向量和分词语义向量,便于后续向量融合,实现特征融合。
将所述BERT特征向量(对应的768维向量)、所述句子语义向量(对应的768维向量)以及所述分词语义向量(对应的768维向量)输入到注意力模块中以进行多特征融合,得到注意力向量。
具体地,比如可以基于如下公式(1)对所述BERT特征向量、所述句子语义向量进行融合得到句子融合特征向量:
(1)
其中,表示第i个token的句子融合特征向量,/>表示第i个token的对应的BERT特征向量,/>表示句子语义向量,/>表示第i个token的BERT特征向量对应的融合权重值,其满足:0<=/><=1,i为正整数且token_num>=i>=1,用于区分不同的token,token_num为正整数,表示输入token的数量。
根据如下公式(2)融合分词语义向量和分词对应token的BERT特征向量,从而对每个分词包含的token的BERT特征向量表示中融入分词的语义特征:
(2)
其中,表示分词融合特征向量,其融合了分词word_j包含的第i个token的BERT特征向量和分词word_j对应的分词语义向量,/>表示分词word_j包含的第i个token的BERT特征向量,/>表示分词word_j对应的分词语义向量,表示分词word_j包含的第i个token的BERT特征向量对应的融合权重值,其满足:0<=/><=1,i为正整数且token_num>=i>=1,用于区分不同的token,token_num为正整数,表示输入token的数量;j为正整数且word_num>=j>=1,用于区分不同的桥梁管养样本词,word_num为正整数,表示句子分词后的桥梁管养样本词的总数量。
基于上述操作,得到每个token的BERT向量融合了整句向量后的句子特征融合向量,以及每个token的BERT特征向量融合了该token所属分词的分词语义向量后的分词特征融合向量/>。
根据如下公式(3),将上述两个融合向量的对应维度求和,得到最终融合后的注意力向量:
(3)
其中,表示第i个token对应的融合了句子特征融合向量和分词特征融合向量的注意力向量,/>表示融合整句向量和第i个token的BERT向量后的融合向量即句子特征融合向量,/>表示融合了分词word_j包含的第i个token的BERT特征向量和分词word_j对应分词语义向量后的融合向量即分词特征融合向量。其满足:i为正整数且token_num>=i>=1,用于区分不同的token,token_num为正整数,表示输入token的数量;j为正整数且word_num>=j>=1,用于区分不同的桥梁管养样本词,word_num为正整数,表示句子分词后的桥梁管养样本词的总数量。
将经过Attention模块处理得到的每个token对应的(768维)向量输入到Dense模块(比如其为三层的全连接神经网络)中,将每个/>压缩处理得到维度与标注的分类总数相同的压缩向量,比如为5维的压缩向量/>(5个维度分别对应BIOES标注法中的五个标注类型),然后将每个token对应的压缩向量/>输入到CRF模块中处理后得到最终按照BIOES标注法进行标注的实体抽取结果数据作为桥梁管养实体预测值。
可选地,所述实体分类模型包括:BIES Dense模块(又称之为BIES稠密神经网络模块中的B、I、E、S同上述BIOES中的解释),CharacterWise(字敏感) Dense模块,所述基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型,包括:
将所述桥梁管养样本语句中的实体在实体抽取模型中对应的BERT特征向量进行均值化得到平均BERT特征向量;
将所述平均BERT特征向量输入到所述BIES Dense模块中得到实体预融合向量;
将所述BERT特征向量输入到所述CharacterWise Dense模块中得到强化字向量,并对其进行均值计算,得到字融合向量;
对所述实体预融合向量和所述字融合向量/>求和,得到桥梁管养专业词分类结果;
根据所述桥梁管养专业词分类结果和所述桥梁管养实体分类样本词的标签,计算实体分类模型的损失值;
根据所述实体分类模型的损失函数计算梯度,以调整所述BIES Dense模块,所述CharacterWise Dense模块的参数,直至所述实体分类模型的损失值达到预设标准,完成所述实体分类模型的训练。
针对桥梁管养领域中实体词较长且实体类别较多的情况,针对性采用两阶段任务模型(实体抽取模型和实体分类模型)以适应实体类别较多的现状,并且在两阶段任务中的分类任务中,引入了BIES Dense模块和CharacterWise Dense模块来提升缓解实体词较长可能带来的输入信息的损失问题,以提升实体分类任务的效果。此外,为更好的针对性利用桥梁管养领域的特征,在两阶段任务中的抽取任务中,在BERT+CRF框架上引入了词特征和句特征,并采用注意力模块学习基于注意力的融合方式。基于上面两个方面的改进,使得训练好的模型能够更好地识别桥梁管养领域的命名实体,为后续的知识图谱、智能问答和智能搜索研究和应用打下了基础,提高了桥梁管养领域数据的智能化利用水平和效率。
此处,需要说明的是,在上述所述实体分类模型进行训练时,使用到的BERT特征向量来自于所述实体抽取模型中的BERT模型,在完成实体抽取模型的训练之后,BERT模型的参数已经固定(或者相当于参数被冻结),在实体分类模型的训练过程中BERT的参数不再参与优化。
可选地,以下以在一具体场景中应用为例,对上述实体分类模型的训练进行示例性说明。
本实施例中,实体分类模型的输入为每个实体中按照BIOES标注法标注为B、I、E、S的字,由于O不是实体,因此不作为输入。找到第一阶段任务输入的句子数据,通过第一阶段任务训练好的BERT模型获取B、I、E、S的字对应的BERT特征向量(比如为768维向量),对这些向量求和后取平均值,得到平均BERT特征向量(比如为768维的求和平均向量),将平均BERT特征向量输入到BIES Dense模块(该模块为5层的全连接神经网络,输入维度为768,输出维度为10,对应10个实体类型),得到实体预融合向量;同时,将实体中每个字对应的BERT特征向量依次输入到CharacterWise Dense模块(该模块为3层的全连接神经网络,输入维度为768,输出维度为10,对应10个实体类型),得到对应的强化字向量,然后将所有字的强化字向量求和平均得到字融合向量/>。最终对实体预融合向量/>和字融合向量求和,得到10维的桥梁管养专业词分类结果。
本申请实施例中,先引入CharacterWise Dense模块来加强同一个实体中每个字对模型训练参数的影响,之后将上述Dense模块与BIES Dense模块的结果进行融合。
本实施例中,所述基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类,类似上述训练过程,在此不再赘述。
在本申请的另外一实施例中,提供了针对桥梁管养文本数据的多特征融合命名实体识别方法,其可以包括:
基于桥梁管养实体抽取样本词的标签和桥梁管养样本语句对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
基于桥梁管养样本语句和桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
获取待处理的桥梁管养数据,并基于完成训练的实体抽取模型抽取桥梁管养专业词,基于完成训练的实体分类模型对桥梁管养专业词进行分类。
进一步地,所述的方法还可以包括:
获取桥梁管养样本数据,并对桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;
对桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签。
图2为本申请实施例一种针对桥梁管养文本数据的多特征融合命名实体识别装置的结构示意图。如图2所示,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形,针对桥梁管养文本数据的多特征融合命名实体识别装置可以包括:
第一融合训练单元203,用于基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
第二融合训练单元204,用于基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
实体抽取使能单元205,用于获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。
图3为本申请实施例一种电子设备的结构示意图。如图3所示,其存储器以及处理器,所述存储器上存储有计算机可执行程序,在获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签之后,所述计算机可执行程序被所述处理器运行时,执行如下步骤:
基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。
本申请还提供一种计算机程序产品,其上存储有计算机可执行程序,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形, 所述计算机可执行程序被运行时执行如下步骤:
基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。
上述实施例中的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是,但不限于,随机存取存储介质(Random Access Memory,RAM),只读存储介质(Read Only Memory,ROM),可编程只读存储介质(Programmable Read-OnlyMemory,PROM),可擦除只读存储介质(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储介质(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本公开的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (7)
1.一种针对桥梁管养文本数据的多特征融合命名实体识别方法,其特征在于,包括:
获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;
对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签;
基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类;
其中,所述实体分类模型包括:BIES Dense模块,CharacterWise Dense模块,所述基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型,包括:
将所述桥梁管养样本语句中的实体在实体抽取模型中对应的BERT特征向量进行均值化得到平均BERT特征向量;
将所述平均BERT特征向量输入到所述BIES Dense模块中得到实体预融合向量;
将所述BERT特征向量输入到所述CharacterWise Dense模块中得到强化字向量,并对所述强化字向量进行均值计算,得到字融合向量;
对所述实体预融合向量和所述字融合向量/>求和,得到桥梁管养专业词分类结果;
根据所述桥梁管养专业词分类结果和所述桥梁管养实体分类样本词的标签,计算实体分类模型的损失值;
根据所述实体分类模型的损失函数计算梯度,以调整所述BIES Dense模块,所述CharacterWise Dense模块的参数,直至所述实体分类模型的损失值达到预设标准,完成所述实体分类模型的训练;
其中,所述实体抽取模型包括BERT模型、Text2Vec模型、注意力模块、Dense模块、CRF模块,所述Text2Vec模型的参数被冻结;
对应地,所述基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型,包括:
将所述桥梁管养样本语句转换成BERT输入数据,以输入到所述BERT模型中进行特征提取得到对应的BERT特征向量;
将所述桥梁管养样本语句以及所述桥梁管养样本词输入到所述Text2Vec模型中生成对应的句子语义向量以及分词语义向量;
对所述BERT特征向量、所述句子语义向量以及所述分词语义向量输入到注意力模块中以进行多特征融合,得到注意力向量;
将所述注意力向量输入到所述Dense模块中对其进行压缩得到维度与标注的分类总数相同的压缩向量;
将所述压缩向量输入到所述CRF模块中,得到桥梁管养实体预测值;
根据所述桥梁管养实体预测值与所述桥梁管养实体分类样本词的标签,计算两者之间的损失值,对所述实体抽取模型进行反向传播计算梯度,以不断调整所述BERT模型、所述注意力模块、所述Dense模块、所述CRF模块的参数,直至损失值达到预设标准,完成所述实体抽取模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词,包括:
对所述桥梁管养样本数据进行分句,得到桥梁管养样本语句;
对所述桥梁管养样本语句进行分词,得到所述桥梁管养样本词。
3.根据权利要求2所述的方法,其特征在于,所述对所述桥梁管养样本语句进行分词,得到所述桥梁管养样本词,包括:基于jieba库对所述桥梁管养样本语句进行分词,得到所述桥梁管养样本词。
4.根据权利要求1所述的方法,其特征在于,所述对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签,包括:
基于实体的开始位置、实体的中间位置、实体的结束位置,对所述桥梁管养样本语句进行实体抽取标注得到所述桥梁管养实体抽取样本词的标签;
基于构建的实体类型词典,对所述桥梁管养样本语句进行实体分类标注得到所述桥梁管养实体分类样本词的标签。
5.根据权利要求4所述的方法,其特征在于,所述基于构建的实体类型词典,对所述桥梁管养样本语句进行实体分类标注得到所述桥梁管养实体分类样本词的标签之后,还包括:将所述桥梁管养实体分类样本词的标签转换成数字索引,以在基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练时,将所述数字索引做为所述实体分类模型的真实训练标签,以对所述实体分类模型进行多特征融合训练。
6.一种针对桥梁管养文本数据的多特征融合命名实体识别装置,其特征在于,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形,所述针对桥梁管养文本数据的多特征融合命名实体识别装置包括:
第一融合训练单元,用于基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
第二融合训练单元,基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
实体抽取使能单元,用于获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类;
其中,所述实体分类模型包括:BIES Dense模块,CharacterWise Dense模块,所述基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型,包括:
将所述桥梁管养样本语句中的实体在实体抽取模型中对应的BERT特征向量进行均值化得到平均BERT特征向量;
将所述平均BERT特征向量输入到所述BIES Dense模块中得到实体预融合向量;
将所述BERT特征向量输入到所述CharacterWise Dense模块中得到强化字向量,并对所述强化字向量进行均值计算,得到字融合向量;
对所述实体预融合向量和所述字融合向量/>求和,得到桥梁管养专业词分类结果;
根据所述桥梁管养专业词分类结果和所述桥梁管养实体分类样本词的标签,计算实体分类模型的损失值;
根据所述实体分类模型的损失函数计算梯度,以调整所述BIES Dense模块,所述CharacterWise Dense模块的参数,直至所述实体分类模型的损失值达到预设标准,完成所述实体分类模型的训练;
其中,所述实体抽取模型包括BERT模型、Text2Vec模型、注意力模块、Dense模块、CRF模块,所述Text2Vec模型的参数被冻结;
对应地,所述基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型,包括:
将所述桥梁管养样本语句转换成BERT输入数据,以输入到所述BERT模型中进行特征提取得到对应的BERT特征向量;
将所述桥梁管养样本语句以及所述桥梁管养样本词输入到所述Text2Vec模型中生成对应的句子语义向量以及分词语义向量;
对所述BERT特征向量、所述句子语义向量以及所述分词语义向量输入到注意力模块中以进行多特征融合,得到注意力向量;
将所述注意力向量输入到所述Dense模块中对其进行压缩得到维度与标注的分类总数相同的压缩向量;
将所述压缩向量输入到所述CRF模块中,得到桥梁管养实体预测值;
根据所述桥梁管养实体预测值与所述桥梁管养实体分类样本词的标签,计算两者之间的损失值,对所述实体抽取模型进行反向传播计算梯度,以不断调整所述BERT模型、所述注意力模块、所述Dense模块、所述CRF模块的参数,直至损失值达到预设标准,完成所述实体抽取模型的训练。
7.一种电子设备,其特征在于,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形,所述电子设备包括:存储器以及处理器,所述存储器上存储有计算机可执行程序,所述计算机可执行程序被所述处理器运行时,执行如下步骤:基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;
基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;
获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类;
其中,所述实体分类模型包括:BIES Dense模块,CharacterWise Dense模块,所述基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型,包括:
将所述桥梁管养样本语句中的实体在实体抽取模型中对应的BERT特征向量进行均值化得到平均BERT特征向量;
将所述平均BERT特征向量输入到所述BIES Dense模块中得到实体预融合向量;
将所述BERT特征向量输入到所述CharacterWise Dense模块中得到强化字向量,并对所述强化字向量进行均值计算,得到字融合向量;
对所述实体预融合向量和所述字融合向量/>求和,得到桥梁管养专业词分类结果;
根据所述桥梁管养专业词分类结果和所述桥梁管养实体分类样本词的标签,计算实体分类模型的损失值;
根据所述实体分类模型的损失函数计算梯度,以调整所述BIES Dense模块,所述CharacterWise Dense模块的参数,直至所述实体分类模型的损失值达到预设标准,完成所述实体分类模型的训练;
其中,所述实体抽取模型包括BERT模型、Text2Vec模型、注意力模块、Dense模块、CRF模块,所述Text2Vec模型的参数被冻结;
对应地,所述基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型,包括:
将所述桥梁管养样本语句转换成BERT输入数据,以输入到所述BERT模型中进行特征提取得到对应的BERT特征向量;
将所述桥梁管养样本语句以及所述桥梁管养样本词输入到所述Text2Vec模型中生成对应的句子语义向量以及分词语义向量;
对所述BERT特征向量、所述句子语义向量以及所述分词语义向量输入到注意力模块中以进行多特征融合,得到注意力向量;
将所述注意力向量输入到所述Dense模块中对其进行压缩得到维度与标注的分类总数相同的压缩向量;
将所述压缩向量输入到所述CRF模块中,得到桥梁管养实体预测值;
根据所述桥梁管养实体预测值与所述桥梁管养实体分类样本词的标签,计算两者之间的损失值,对所述实体抽取模型进行反向传播计算梯度,以不断调整所述BERT模型、所述注意力模块、所述Dense模块、所述CRF模块的参数,直至损失值达到预设标准,完成所述实体抽取模型的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311212214.0A CN116956929B (zh) | 2023-09-20 | 2023-09-20 | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311212214.0A CN116956929B (zh) | 2023-09-20 | 2023-09-20 | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116956929A CN116956929A (zh) | 2023-10-27 |
CN116956929B true CN116956929B (zh) | 2023-12-15 |
Family
ID=88462461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311212214.0A Active CN116956929B (zh) | 2023-09-20 | 2023-09-20 | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116956929B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591666B (zh) * | 2024-01-18 | 2024-05-10 | 交通运输部公路科学研究所 | 针对桥梁管养文档的摘要抽取方法 |
CN117591674B (zh) * | 2024-01-18 | 2024-04-26 | 交通运输部公路科学研究所 | 基于文本分类模型对桥梁检评文本的自动分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374786A (zh) * | 2022-08-30 | 2022-11-22 | 中国科学院上海高等研究院 | 实体和关系联合抽取方法及装置、存储介质和终端 |
CN116450852A (zh) * | 2023-04-26 | 2023-07-18 | 东南大学 | 基于深度学习的桥梁管养知识图谱自动构建方法 |
US11709979B1 (en) * | 2022-10-28 | 2023-07-25 | Hefei University Of Technology | Bridge damage identification method considering uncertainty |
CN116562295A (zh) * | 2023-05-25 | 2023-08-08 | 中交第二航务工程局有限公司 | 一种面向桥梁领域文本的增强语义命名实体识别方法 |
-
2023
- 2023-09-20 CN CN202311212214.0A patent/CN116956929B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374786A (zh) * | 2022-08-30 | 2022-11-22 | 中国科学院上海高等研究院 | 实体和关系联合抽取方法及装置、存储介质和终端 |
US11709979B1 (en) * | 2022-10-28 | 2023-07-25 | Hefei University Of Technology | Bridge damage identification method considering uncertainty |
CN116450852A (zh) * | 2023-04-26 | 2023-07-18 | 东南大学 | 基于深度学习的桥梁管养知识图谱自动构建方法 |
CN116562295A (zh) * | 2023-05-25 | 2023-08-08 | 中交第二航务工程局有限公司 | 一种面向桥梁领域文本的增强语义命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116956929A (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116956929B (zh) | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN113486833B (zh) | 多模态特征提取模型训练方法、装置、电子设备 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
WO2021243903A1 (zh) | 自然语言至结构化查询语言的转换方法及系统 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
WO2024067276A1 (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN116910633B (zh) | 一种基于多模态知识混合推理的电网故障预测方法 | |
CN115311687A (zh) | 联合令牌和特征对齐的自然语言行人检索方法及系统 | |
CN115545041B (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
CN112784580A (zh) | 基于事件抽取的金融数据分析方法及装置 | |
CN115470354A (zh) | 基于多标签分类识别嵌套和重叠风险点的方法及系统 | |
CN114117041B (zh) | 一种基于特定属性词上下文建模的属性级情感分析方法 | |
CN115759254A (zh) | 基于知识增强生成式语言模型的问答方法、系统及介质 | |
CN115392254A (zh) | 一种基于目标任务可解释性认知预测与判别方法及其系统 | |
CN113590827A (zh) | 一种基于多角度的科研项目文本分类装置和方法 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN114282537A (zh) | 一种面向社交文本的级联直线型实体关系抽取方法 | |
CN115496076B (zh) | 一种价值需求特征驱动的文本情感识别、训练方法及装置 | |
CN113537372B (zh) | 一种地址识别方法、装置、设备及存储介质 | |
CN116719974B (zh) | 基于依存关系结构增强的事件检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |