CN114638229A - 笔录数据的实体识别方法、装置、介质及设备 - Google Patents
笔录数据的实体识别方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN114638229A CN114638229A CN202210301456.6A CN202210301456A CN114638229A CN 114638229 A CN114638229 A CN 114638229A CN 202210301456 A CN202210301456 A CN 202210301456A CN 114638229 A CN114638229 A CN 114638229A
- Authority
- CN
- China
- Prior art keywords
- data
- record data
- module
- information
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Acoustics & Sound (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种笔录数据的实体识别方法,包括:构建命名实体识别模型,所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成,通过所述膨胀卷积模块对输入数据提取特征信息,通过所述双向长短时记忆网络对输入数据提取序列信息,通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值;获取若干条原始笔录数据,对所述原始笔录数据进行预处理;将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集,采用训练集对所述命名实体识别模型进行训练;训练好的命名实体识别模型可用于识别笔录案件的实体信息。本发明解决了现有技术在对笔录数据进行实体识别时存在的精度较低的问题。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种笔录数据的实体识别方法、装置、介质及设备。
背景技术
现有技术采用基于卷积神经网络的方法,对笔录数据的命名实体进行识别。其中在使用膨胀卷积神经网络时,首先将标注过的笔录数据进行特征向量化,然后利用有四次迭代的膨胀卷积神经网络提取特征,其中每次迭代包括顺序执行的两层普通卷积网络和一层膨胀率为2的膨胀卷积网络,最后输入CRF层,得到预测标签。该方法可以在线性级增加参数的同时指数级扩大感受野,以获取在序列中距离当前数据更远的信息,但是在进行膨胀卷积时因为在卷积核中填补了零元素,忽略了当前数据邻域的部分信息,没有考虑到数据的序列性,实体识别的精度较低。
发明内容
本发明实施例提供了一种笔录数据的实体识别方法、装置、介质及设备,以解决现有技术在对笔录数据进行实体识别时存在的精度较低的问题。
一种笔录数据的实体识别方法,所述方法包括:
构建命名实体识别模型,所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成,通过所述膨胀卷积模块对输入数据提取特征信息,通过所述双向长短时记忆网络对输入数据提取序列信息,通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值;
获取若干条原始笔录数据,对所述原始笔录数据进行预处理;
将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集,采用训练集对所述命名实体识别模型进行训练;训练好的命名实体识别模型可用于识别笔录案件的实体信息。
可选地,所述获取若干条原始笔录数据,对所述原始笔录数据进行预处理包括:
获取若干条原始笔录数据,对每一条原始笔录数据采用BIOES规则进行标注,得到已标注的笔录数据;
根据已标注的笔录数据进行字频统计生成字符ID字典,以及根据已标注的笔录数据进行标签频率统计,生成标签ID字典;
采用JIEBA工具对每条笔录数据进行分词,生成每条笔录数据的分词和分词特征;
根据所述分词和分词特征训练每条笔录数据的词向量和分词特征向量;
将每条笔录数据中的每一个字符的词向量和分词特征向量拼接在一起。
可选地,所述根据所述分词和分词特征训练每条笔录数据的词向量和分词特征向量包括:
对每一个分词,从第一个字符开始进行标记,第一个字符标记为0,中间的字符标记为2,最后一个字符标记为3;
采用Skip-Gram模型根据标记后的分词训练词向量,得到词向量文件,向量的维度为100;
采用TensorFlow框架中的emdedding层根据标记后的分词及分词特征训练分词特征向量,得到20维的分词特征向量。
可选地,所述对所述采用训练集对所述命名实体识别模型进行训练包括:
将训练集中的笔录数据划分为大小为32batch的批处理文件,按照批处理文件的数据长度的最大值对每一个批处理文件进行补零操作,使得每个批处理文件的数据长度一致;
对所述批处理文件进行丢弃处理,其中丢弃率为0.5;
将丢弃处理后的批处理文件输入至膨胀卷积模块IDCNN,得到每个笔录数据的特征信息;
将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm,得到每个笔录数据的序列信息;
组合所述特征信息和序列信息,生成空间序列信息;
将所述空间序列信息输入至所述多头注意力机制模块,得到每个笔录数据的权重信息;
将所述权重信息输入至全连接层,获取每个字符对应各个标签的打分值;
将每个字符对应各个标签的打分值输入至条件随机场层CRF,得到所述命名实体识别模型的损失函数Loss以及预测标签;
重复以上步骤迭代训练若干次。
可选地,所述将丢弃处理后的批处理文件输入至膨胀卷积模块IDCNN,得到每个笔录数据的特征信息包括:
通过所述膨胀卷积模块IDCNN中的膨胀卷积块对所述批处理文件提取特征信息;
使用relu激活函数进行激活,将四次迭代提取的特征信息拼接在一起,对拼接后的特征信息进行丢弃处理,其中丢弃率为0.5。
可选地,所述将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm,得到每个笔录数据的序列信息包括:
将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm获取序列信息;
将双向长短时记忆网络Bilstm输出的前向输出和后向输出拼接起来,连接全连接层进行分类,获取序列信息。
重复映射及计算若干次,将若干次输出的权值组合在一起,得到每个笔录数据的权重信息。
一种笔录数据的实体识别装置,所述装置包括:
构建模块,用于构建命名实体识别模型,所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成,通过所述膨胀卷积模块对输入数据提取特征信息,通过所述双向长短时记忆网络对输入数据提取序列信息,通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值;
预处理模块,用于获取若干条原始笔录数据,对所述原始笔录数据进行预处理;
训练模块,用于将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集,采用训练集对所述命名实体识别模型进行训练;训练好的命名实体识别模型可用于识别笔录案件的实体信息。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的笔录数据的实体识别方法。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的笔录数据的实体识别方法。
本发明实施例通过构建命名实体识别模型,所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成,通过所述膨胀卷积模块对输入数据提取特征信息,通过所述双向长短时记忆网络对输入数据提取序列信息,通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值;然后获取若干条原始笔录数据,对所述原始笔录数据进行预处理;将预处理后的所述原始笔录数据划分为训练集、测试集以及验证集,对所述命名实体识别模型进行训练。本发明通过将IDCNN模块与Bilstm模块的结果拼接在一起,并引入多头注意力机制,弥补了IDCNN网络忽略的部分序列信息,有效地提高了对实体的识别精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的笔录数据的实体识别方法的流程图;
图2是本发明一实施例提供的笔录数据的实体识别方法中步骤S102的实现流程图;
图3是本发明一实施例提供的笔录数据的实体识别方法中步骤S103的实现流程图;
图4是本发明一实施例提供的笔录数据的实体识别装置的结构示意图;
图5是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的笔录数据的实体识别方法,通过将膨胀卷积模块IDCNN模块提取的特征信息与双向长短时记忆网络Bilstm模块获取的序列信息拼接在一起,并引入多头注意力机制根据所述特征信息和序列信息计算权值,弥补了膨胀卷积模块IDCNN网络忽略的部分序列信息,有效地提高了对实体的识别精度。
以下对本实施例提供的笔录数据的实体识别方法进行详细的描述,如图1所示,所述笔录数据的实体识别方法包括:
在步骤S101中,构建命名实体识别模型。
在本发明实施例中,所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成,通过所述膨胀卷积模块对输入数据提取特征信息,通过所述双向长短时记忆网络对输入数据提取序列信息,通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值。
本发明实施例在膨胀卷积模块IDCNN的基础上引进长短时记忆神经网络Bilstm,可以补充数据的邻域信息和数据的序列性;引入多头注意力机制,可以有效关注数据中的重点信息,节约计算资源。
在步骤S102中,获取若干条原始笔录数据,对所述原始笔录数据进行预处理。
本发明实施例中所采用的原始笔录数据为案件笔录数据,标注的实体包括但不限于人名、地名、机构、年龄、时间、性别等实体。为了提高实体识别的精度,需要对所述原始笔录数据进行预处理。可选地,图2为本发明实施例提供的笔录数据的实体识别方法中步骤S102的实现流程。如图2所示,所述步骤S102包括:
在步骤S201中,获取若干条原始笔录数据,对每一条原始笔录数据采用BIOES规则进行标注,得到已标注的笔录数据。
本发明实施例采集7000条案件的笔录数据,采用BIOES规则进行标注,其中,位于实体起始位置的字符标注为B-Label,位于中间的字符标注为I-Label,位于实体末尾的字符标记为E-Label;如果该实体仅包含一个字符,则标记为S-Label,其余字符标记为O;从而得到已标注的笔录数据。
在步骤S202中,根据已标注的笔录数据进行字频统计生成字符ID字典,以及根据已标注的笔录数据进行标签频率统计,生成标签ID字典。
在这里,本发明实施例统计已标注的笔录数据的字符频率,按照降序排列得到字符ID,生成字符ID字典;并按照同样的方法生成标签ID字典。
在步骤S203中,采用JIEBA工具对每条笔录数据进行分词,生成每条笔录数据的分词和分词特征。
在步骤S204中,根据所述分词和分词特征训练每条笔录数据的词向量和分词特征向量。
在这里,分词表示一句文本的分词结果,分词特征表示分词结果的量化结果。比如“我爱中华人民共和国”,分词:我/爱/中华人民共和国,分词特征:000222223。
可选地,所述步骤S204还包括:
在步骤S2041中,对每一个分词,从第一个字符开始进行标记,第一个字符标记为0,中间的字符标记为2,最后一个字符标记为3。
在步骤S2042中,采用Skip-Gram模型根据标记后的分词训练词向量,得到词向量文件,向量的维度为100。
在这里,本发明实施例采用Skip-Gram模型训练词向量,得到包含16691个字符的词向量文件。
在步骤S2043中,采用TensorFlow框架中的emdedding层根据标记后的分词及分词特征训练分词特征向量,得到20维的分词特征向量。
在步骤S205中,将每条笔录数据中的每一个字符的词向量和分词特征向量拼接在一起。
在步骤S103中,将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集,采用训练集对所述命名实体识别模型进行训练。
在这里,本发明实施例按照7:2:1的预设比例将预处理后的原始笔录数据划分为训练集、测试集和验证集,分别用于对所述命名实体模型进行训练、测试以及验证。
本发明提供的所述命名实体识别模型将IDCNN模块与Bilstm模块的结果拼接在一起,可以补充数据的邻域信息和数据的序列性;并引入多头注意力机制,可以有效关注数据中的重点信息,从而提高了实体识别的精度。如图3所示,所述步骤S103中对所述命名实体识别模型进行训练包括:
在步骤S301中,将训练集中的笔录数据划分为大小为32batch的批处理文件,按照批处理文件的数据长度的最大值对每一个批处理文件进行补零操作,使得每个批处理文件的数据长度一致。
在这里,本发明实施例比较所述训练集中划分的批处理文件的数据长度,获取数据长度的最大值,然后按照该最大值对其他批处理文件进行补零操作,从而使得每一个批处理文件的数据长度是相同的,以提高膨胀卷积模块IDCNN和双向长短时记忆网络Bilstm的处理效率。
在步骤S302中,对所述批处理文件进行丢弃处理,其中丢弃率为0.5。
在这里,本发明实施例通过将批处理文件进行丢弃处理dropout,以随机切断神经元避免过拟合。
在步骤S303中,将丢弃处理后的批处理文件输入至膨胀卷积模块IDCNN,得到每个笔录数据的特征信息。
在这里,所述膨胀卷积模块IDCNN包括四个迭代的膨胀卷积块,每个膨胀卷积块的膨胀率为(1,1,2),即每次迭代分别顺序执行两层普通卷积网络和一层膨胀率为2的膨胀卷积网络。其中,步骤S303还包括:
在步骤S3031中,通过所述膨胀卷积模块IDCNN中的膨胀卷积块对所述批处理文件提取特征信息;
在步骤S3032中,使用relu激活函数进行激活,将四次迭代提取的特征信息拼接在一起,对拼接后的特征信息进行丢弃处理,其中丢弃率为0.5。
本发明实施例通过对四次迭代的结果拼接在一起后再进行dropout,最终得到批处理文件的特征信息,可以得到通过膨胀卷积模块计算得出的特征结果,因膨胀卷积的计算优势:线性级增加参数的同时指数级扩大感受野,故可以使用较低消耗,包括参数、训练时长,获得较好的特征结果。
在步骤S304中,将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm,得到每个笔录数据的序列信息。
具体地,所述步骤S304还包括:
在步骤S3041中,将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm获取序列信息。
在步骤S3042中,将双向长短时记忆网络Bilstm输出的前向输出和后向输出拼接起来,连接全连接层进行分类,获取序列信息。
在这里,所述全连接层使用tanh函数进行激活。本发明实施例通过双向长短时记忆网络Bilstm获取序列信息,可以通过Bilstm的优势,选择性记住重要的特征信息,遗忘不重要的特征信息,最终获得具有较强关键信息的特征,提高了特征获取的准确性。
在步骤S305中,组合所述特征信息和序列信息,生成空间序列信息。
在步骤S306中,将所述空间序列信息输入至所述多头注意力机制模块,得到每个笔录数据的权重信息。
在这里,所述多头注意力机制模块将输入的空间序列信息进行三种线性映射,得到和空间序列信息同维度的Q,K,V三个矩阵,然后用注意力函数计算每个笔录数据的权值,其中dk表示神经网络的隐层单元数;重复映射及计算若干次,优选为40次;最后将若干次输出的权值组合在一起,得到每个笔录数据的权重信息。本发明实施例通过引入多头注意力机制,可以有效关注笔录数据中的重点信息,弥补IDCNN网络所忽略的部分序列信息,从而提高实体识别的精度。
在步骤S307中,将所述权重信息输入至全连接层,获取每个字符对应各个标签的打分值。
所述打分值表示标签的最终得分,假设获得分值区间0-1,则获得较高分的标签为最终预测的标签值。
在步骤S308中,将每个字符对应各个标签的打分值输入至条件随机场层(Conditional Random Field,简称CRF),得到所述命名实体识别模型的损失函数Loss以及预测标签。
重复以上步骤迭代训练若干次,优选为迭代30次,其中学习率LR=0.001,根据每次迭代的CRFloss值进行优化,优化器采用Adam。至此完成对所述命名实体识别模型的训练,然后采用测试集和验证集,分别对所述命名实体模型进行测试以及验证。训练完成的命名实体识别模型,可用于识别笔录案件的实体信息,精度可以达到91%,相比于现有技术采用膨胀卷积网络模型(精度89.7%)和Blistm模型(精度90.16%)要好。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,本发明还提供一种笔录数据的实体识别装置,该笔录数据的实体识别装置与上述实施例中笔录数据的实体识别方法一一对应。如图4所示,该笔录数据的实体识别装置包括构建模块41、预处理模块42、训练模块43。各功能模块详细说明如下:
构建模块41,用于构建命名实体识别模型,所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成,通过所述膨胀卷积模块对输入数据提取特征信息,通过所述双向长短时记忆网络对输入数据提取序列信息,通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值;
预处理模块42,用于获取若干条原始笔录数据,对所述原始笔录数据进行预处理;
训练模块43,用于将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集,采用训练集对所述命名实体识别模型进行训练;训练好的命名实体识别模型可用于识别笔录案件的实体信息。
可选地,所述预处理模块42包括:
标注单元,用于获取若干条原始笔录数据,对每一条原始笔录数据采用BIOES规则进行标注,得到已标注的笔录数据;
字典生成单元,用于根据已标注的笔录数据进行字频统计生成字符ID字典,以及根据已标注的笔录数据进行标签频率统计,生成标签ID字典;
分词单元,用于采用JIEBA工具对每条笔录数据进行分词,生成每条笔录数据的分词和分词特征;
向量训练单元,用于根据所述分词和分词特征训练每条笔录数据的词向量和分词特征向量;
拼接单元,用于将每条笔录数据中的每一个字符的词向量和分词特征向量拼接在一起。
可选地,所述向量训练单元包括:
标记子单元,用于对每一个分词,从第一个字符开始进行标记,第一个字符标记为0,中间的字符标记为2,最后一个字符标记为3;
第一训练子单元,用于采用Skip-Gram模型根据标记后的分词训练词向量,得到词向量文件,向量的维度为100;
第二训练子单元,用于采用TensorFlow框架中的emdedding层根据标记后的分词及分词特征训练分词特征向量,得到20维的分词特征向量。
可选地,所述训练模块43包括:
补零单元,用于将训练集中的笔录数据划分为大小为32batch的批处理文件,按照批处理文件的数据长度的最大值对每一个批处理文件进行补零操作,使得每个批处理文件的数据长度一致;
丢弃处理单元,用于对所述批处理文件进行丢弃处理,其中丢弃率为0.5;
特征提取单元,用于将丢弃处理后的批处理文件输入至膨胀卷积模块IDCNN,得到每个笔录数据的特征信息;
序列提取单元,用于将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm,得到每个笔录数据的序列信息;
组合单元,用于组合所述特征信息和序列信息,生成空间序列信息;
权重获取单元,用于将所述空间序列信息输入至所述多头注意力机制模块,得到每个笔录数据的权重信息;
打分单元,用于将所述权重信息输入至全连接层,获取每个字符对应各个标签的打分值;
标签获取单元,用于将每个字符对应各个标签的打分值输入至CRF层,得到所述命名实体识别模型的损失函数Loss以及预测标签。
可选地,所述特征提取单元具体用于:
通过所述膨胀卷积模块IDCNN中的膨胀卷积块对所述批处理文件提取特征信息;
使用relu激活函数进行激活,将四次迭代提取的特征信息拼接在一起,对拼接后的特征信息进行丢弃处理,其中丢弃率为0.5。
可选地,所述序列提取单元具体用于:
将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm获取序列信息;
将双向长短时记忆网络Bilstm输出的前向输出和后向输出拼接起来,连接全连接层进行分类,获取序列信息。
可选地,在所述权重获取单元中,所述多头注意力机制模块将输入的空间序列信息进行三种线性映射,得到和空间序列信息同维度的Q,K,V三个矩阵,然后用注意力函数计算每个笔录数据的权值,其中dk表示神经网络的隐层单元数;
重复映射及计算若干次,将若干次输出的权值组合在一起,得到每个笔录数据的权重信息。
关于笔录数据的实体识别装置的具体限定可以参见上文中对于笔录数据的实体识别方法的限定,在此不再赘述。上述笔录数据的实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种笔录数据的实体识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
构建命名实体识别模型,所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成,通过所述膨胀卷积模块对输入数据提取特征信息,通过所述双向长短时记忆网络对输入数据提取序列信息,通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值;
获取若干条原始笔录数据,对所述原始笔录数据进行预处理;
将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集,采用训练集对所述命名实体识别模型进行训练;训练好的命名实体识别模型可用于识别笔录案件的实体信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种笔录数据的实体识别方法,其特征在于,包括:
构建命名实体识别模型,所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成,通过所述膨胀卷积模块对输入数据提取特征信息,通过所述双向长短时记忆网络对输入数据提取序列信息,通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值;
获取若干条原始笔录数据,对所述原始笔录数据进行预处理;
将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集,采用训练集对所述命名实体识别模型进行训练;训练好的命名实体识别模型可用于识别笔录案件的实体信息。
2.如权利要求1所述的笔录数据的实体识别方法,其特征在于,所述获取若干条原始笔录数据,对所述原始笔录数据进行预处理包括:
获取若干条原始笔录数据,对每一条原始笔录数据采用BIOES规则进行标注,得到已标注的笔录数据;
根据已标注的笔录数据进行字频统计生成字符ID字典,以及根据已标注的笔录数据进行标签频率统计,生成标签ID字典;
采用JIEBA工具对每条笔录数据进行分词,生成每条笔录数据的分词和分词特征;
根据所述分词和分词特征训练每条笔录数据的词向量和分词特征向量;
将每条笔录数据中的每一个字符的词向量和分词特征向量拼接在一起。
3.如权利要求2所述的笔录数据的实体识别方法,其特征在于,所述根据所述分词和分词特征训练每条笔录数据的词向量和分词特征向量包括:
对每一个分词,从第一个字符开始进行标记,第一个字符标记为0,中间的字符标记为2,最后一个字符标记为3;
采用Skip-Gram模型根据标记后的分词训练词向量,得到词向量文件,向量的维度为100;
采用TensorFlow框架中的emdedding层根据标记后的分词及分词特征训练分词特征向量,得到20维的分词特征向量。
4.如权利要求1所述的笔录数据的实体识别方法,其特征在于,所述对所述采用训练集对所述命名实体识别模型进行训练包括:
将训练集中的笔录数据划分为大小为32batch的批处理文件,按照批处理文件的数据长度的最大值对每一个批处理文件进行补零操作,使得每个批处理文件的数据长度一致;
对所述批处理文件进行丢弃处理,其中丢弃率为0.5;
将丢弃处理后的批处理文件输入至膨胀卷积模块IDCNN,得到每个笔录数据的特征信息;
将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm,得到每个笔录数据的序列信息;
组合所述特征信息和序列信息,生成空间序列信息;
将所述空间序列信息输入至所述多头注意力机制模块,得到每个笔录数据的权重信息;
将所述权重信息输入至全连接层,获取每个字符对应各个标签的打分值;
将每个字符对应各个标签的打分值输入至条件随机场层CRF,得到所述命名实体识别模型的损失函数Loss以及预测标签;
重复以上步骤迭代训练若干次。
5.如权利要求4所述的笔录数据的实体识别方法,其特征在于,所述将丢弃处理后的批处理文件输入至膨胀卷积模块IDCNN,得到每个笔录数据的特征信息包括:
通过所述膨胀卷积模块IDCNN中的膨胀卷积块对所述批处理文件提取特征信息;
使用relu激活函数进行激活,将四次迭代提取的特征信息拼接在一起,对拼接后的特征信息进行丢弃处理,其中丢弃率为0.5。
6.如权利要求4所述的笔录数据的实体识别方法,其特征在于,所述将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm,得到每个笔录数据的序列信息包括:
将丢弃处理后的批处理文件输入至双向长短时记忆网络Bilstm获取序列信息;
将双向长短时记忆网络Bilstm输出的前向输出和后向输出拼接起来,连接全连接层进行分类,获取序列信息。
8.一种笔录数据的实体识别装置,其特征在于,包括:
构建模块,用于构建命名实体识别模型,所述命名实体识别模型由膨胀卷积模块IDCNN、双向长短时记忆网络Bilstm、多头注意力机制模块构成,通过所述膨胀卷积模块对输入数据提取特征信息,通过所述双向长短时记忆网络对输入数据提取序列信息,通过所述多头注意力机制模块根据所述特征信息和序列信息计算权值;
预处理模块,用于获取若干条原始笔录数据,对所述原始笔录数据进行预处理;
训练模块,用于将所述预处理后的原始笔录数据划分为训练集、测试集以及验证集,采用训练集对所述命名实体识别模型进行训练;训练好的命名实体识别模型可用于识别笔录案件的实体信息。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的笔录数据的实体识别方法。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的笔录数据的实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210301456.6A CN114638229A (zh) | 2022-03-25 | 2022-03-25 | 笔录数据的实体识别方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210301456.6A CN114638229A (zh) | 2022-03-25 | 2022-03-25 | 笔录数据的实体识别方法、装置、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114638229A true CN114638229A (zh) | 2022-06-17 |
Family
ID=81950238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210301456.6A Pending CN114638229A (zh) | 2022-03-25 | 2022-03-25 | 笔录数据的实体识别方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114638229A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756328A (zh) * | 2023-08-23 | 2023-09-15 | 北京宝隆泓瑞科技有限公司 | 一种燃气管道事故文本识别方法及系统 |
-
2022
- 2022-03-25 CN CN202210301456.6A patent/CN114638229A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756328A (zh) * | 2023-08-23 | 2023-09-15 | 北京宝隆泓瑞科技有限公司 | 一种燃气管道事故文本识别方法及系统 |
CN116756328B (zh) * | 2023-08-23 | 2023-11-07 | 北京宝隆泓瑞科技有限公司 | 一种燃气管道事故文本识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN111581229B (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN111695352A (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN110569500A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN112036154B (zh) | 基于问诊对话的电子病历生成方法、装置和计算机设备 | |
KR20190085098A (ko) | 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체 | |
CN110765785A (zh) | 基于神经网络的中英翻译方法、及其相关设备 | |
CN111462751B (zh) | 解码语音数据的方法、装置、计算机设备和存储介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN111859916B (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN110321426B (zh) | 摘要抽取方法、装置及计算机设备 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN111583911A (zh) | 基于标签平滑的语音识别方法、装置、终端及介质 | |
CN112766319A (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN113887229A (zh) | 地址信息的识别方法、装置、计算机设备及存储介质 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN113656547A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN114357174B (zh) | 基于ocr和机器学习的代码分类系统及方法 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN114638229A (zh) | 笔录数据的实体识别方法、装置、介质及设备 | |
CN111898339A (zh) | 基于约束解码的古诗生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |