CN114707509A - 交通命名实体识别方法、装置、计算机设备及存储介质 - Google Patents
交通命名实体识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114707509A CN114707509A CN202210319755.2A CN202210319755A CN114707509A CN 114707509 A CN114707509 A CN 114707509A CN 202210319755 A CN202210319755 A CN 202210319755A CN 114707509 A CN114707509 A CN 114707509A
- Authority
- CN
- China
- Prior art keywords
- text
- traffic
- characters
- corpus
- preprocessing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开一种交通命名实体识别方法、装置、计算机设备及存储介质,所述方法包括:获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列;将所述多个文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体;如此,基于自注意力机制的语言预处理模型能够学习长距离文本的依赖关系,增强字符的语义特征,克服交通领域专有名词专业性强的问题,提升NER任务的准确率,相较于传统主流RNN‑CRF模型,BERT能够并行处理,训练速度较快,综合识别性能更好,同时,BERT‑Bi‑LSTM‑CRF善于挖掘字符的语义信息,能有效解决交通领域训练语料欠缺的问题。
Description
技术领域
本发明涉及交通命名识别技术领域,尤其涉及一种交通命名实体识别方法、装置、计算机设备及存储介质。
背景技术
随着交通复杂系统的自主化水平提高,智能交通系统(IntelligentTransportation System,ITS)逐渐过渡到自主式交通系统(Autonomous transportationsystem,ATS),更多的物理组分被纳入其中。然而,关于物理组分的描述性知识通常存在于交通行业资料等非结构化数据中,知识集成度和共享度不高,展现形式不够直观,且在传播过程中极易造成误差放大,因此,如何高效精确地抽取这些组分是交通复杂巨系统的信息化表达和管理最重要的步骤之一。
知识图谱(knowledge graph,KG)作为一种语义化的知识表示方式,能够将无关联的非结构化文本提炼为高度关联的质量数据,以结构化方式为数据之间建立关系网络,系统性地描述知识体系,挖掘数据潜在价值。命名实体识别 (Named entity recognition,NER)作为知识图谱信息抽取的基础任务,其目的是从自然语言文本中提取特定含义或指代的实体。
近年来,研究NER的方法大致可以分为两个阶段:传统NER方法主要基于规则提取和基于统计机器学习提取。基于规则提取的方法主要依赖语言专家或者领域专家人工构建大量的特征词,包括中心词、指示词、方向词和位置词(如尾字)等,进行序列标注后,通过模式匹配方式发现命名实体。基于统计机器学习的NER方法包括HMM、MEM、CRF等,其主要利用大规模语料学习序列标注特征。基于规则提取的方法依赖于特征工程和专家人工构建,构建代价大、系统可移植性差。基于统计机器学习的方法往往存在语料库依赖大、训练代价大和训练时间长的问题。进入深度学习阶段,词向量解决了向量空间的稀疏问题,神经网络大幅改善了NER任务的识别效果,包括CNN和RNN,继承了深度学习方法的优势,无需大量人工特征。现阶段的主流方法是采用CNN-CRF 或RNN-CRF。然而,以上研究方法主要针对具备一定规模训练集的识别任务,无法有效应对少量标注语料的训练。同时中文文本存在大量嵌套、一词多义以及中文语境问题,使得主流深度学习方法的识别性能有所下降,交通领域实体的专业性和特殊性也提出了一大考验。此外,在自主式交通领域,精确有效的 NER方法和模型尚待进一步研究和完善。
发明内容
有鉴于此,本发明提供了一种交通命名实体识别方法、计算机设备及存储介质,此方法旨在面向自主式交通领域,克服现有技术未能有效识别该领域组分实体的问题。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明提供了一种交通命名实体识别方法,所述方法包括:
获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列;
将所述多个文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体。
其中,所述将预训练后的所述文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体,包括:
将预训练后的所述文本字符输入训练后的双向循环神经网络,得到所述文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入训练后的条件随机场,获取目标文本序列,得到交通命名实体。
其中,所述获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列之前,包括:
将所述多个文本序列进行预训练,获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系;
将所述词向量特征输入双向循环神经网络训练,得到文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入条件随机场训练,得到目标文本序列;
基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代,直至设置的损失函数满足收敛条件,获得训练后的双向循环神经网络和条件随机场。
其中,所述将所述多个文本序列进行预训练,获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系,包括:
对所述多个文本序列进行词嵌入操作,包括词向量和位置嵌入,其中,所述词向量和所述位置嵌入为文本序列的特征表达;
基于注意力机制的预处理模型生成了文本特征向量,包含了词向量和字符的位置嵌入;
基于自注意力机制学习所述文本序列中字符的长距离依赖关系。
其中,所述基于自注意力机制学习所述文本序列中字符的长距离依赖关系后,还包括:
对所述文本序列进行模型轻量化的剪枝操作,包括层数剪枝和多头注意力数剪枝。
第二方面,本发明提供了一种交通命名实体识别装置,所述装置包括:
获取模块,用于获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列;
处理模块,用于将所述多个文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体。
第三方面,本发明提供了一种计算机设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;
其中,所述处理器用于运行所述计算机程序时,实现上述任意所述的交通命名实体识别方法。
第四方面,本发明提供了一种计算存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行实现上述任意所述的交通命名实体识别方法。
本发明实施例提供的本发明实施例公开一种交通命名实体识别方法、装置、计算机设备及存储介质,所述方法包括:获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列;将预训练后的所述文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体;如此,基于自注意力机制的语言预处理模型能够学习长距离文本的依赖关系,增强字符的语义特征,克服交通领域专有名词专业性强的问题,提升NER任务的准确率,相较于传统主流RNN-CRF模型,BERT能够并行处理,训练速度较快,综合识别性能更好,同时,BERT-Bi-LSTM-CRF善于挖掘字符的语义信息,能有效解决交通领域训练语料欠缺的问题。
附图说明
图1为本发明实施例提供的一种交通命名实体识别方法的流程示意图;
图2为本发明实施例提供的一种交通命名实体识别装置的结构示意图;
图3为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和 /或”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明提出了一种交通命名实体识别方法,此方法旨在面向自主式交通领域,克服现有技术未能有效识别该领域组分实体的问题。
请参见图1,为本发明实施例提供的一种交通命名实体识别方法,包括以下步骤:
步骤101:获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列;
这里,针对交通领域尚未有公开的标注的语料集,对专业资料进行收集整理和语料预处理。这里,利用正则表达式对每一语料进行文本划分成多个文本序列指利用正则表达式匹配剔除无关信息,如″章″、″节″等句子,得到批量交通知识描述句子。首先对这些句子按字符进行文本切分,主要是将连续句子打断,如句子″动态地为驾驶员提供交通流量″在切分后为一连串的单个字符″动″、″态″、″地″、″为″、″驾″、″驶″、″员″、″提″、″供″、″交″、″通″、″流″、″量″。其次对切分好的字符采用″BIO″标注体系进行语料标注,为每个实体打上″B-X″、″I-X″或者″O″的实体标签。其中,″B-X″表示此实体所在片段位于此实体的起始部分,″I-X″则表示其他位置,″O″表示不属于任何类型,″X″代表实体类型,ATS领域下的实体类型X包括USE(使用者)、 MAN(管理者)、OPE(运营者)等。标注后的句子形如″动O\n态O\n地O\n 为O\n驾B-USE\n驶I-USE\n员I-USE\n提O\n供O\n交O\n通O\n流O\n 量O\n″。
对所有的交通语料完成标注后,按照7∶3的比例划分为互斥的训练集 Train_data和测试集Test_data以供实体识别模型训练和效果评估。
步骤102:将所述多个文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体。
通过上述实施方式,基于自注意力机制的语言预处理模型能够学习长距离文本的依赖关系,增强字符的语义特征,克服交通领域专有名词专业性强的问题,提升NER任务的准确率,相较于传统主流RNN-CRF模型,BERT能够并行处理,训练速度较快,综合识别性能更好,同时,BERT-Bi-LSTM-CRF善于挖掘字符的语义信息,能有效解决交通领域训练语料欠缺的问题。
在一实施方式中,所述将预训练后的所述文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体,包括:
将预训练后的所述文本字符输入训练后的双向循环神经网络,得到所述文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入训练后的条件随机场,获取目标文本序列,得到交通命名实体。
在一实施方式中,所述获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列之前,包括:
将所述多个文本序列进行预训练,获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系;
将所述词向量特征输入双向循环神经网络训练,得到文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入条件随机场训练,得到目标文本序列;
基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代,直至设置的损失函数满足收敛条件,获得训练后的双向循环神经网络和条件随机场。
这里,使用基于自注意力机制的双向编码器表征模型对标注工作完成后得到的语料集进行预训练,得到基于自注意力机制的预处理模型。BERT模型基于双向的Transformer编码器(encoder),Transformer编码器基于自注意力机制,摒弃了循环机制而完全依靠注意力机制在输入输出之间构建全局依赖项,同时 Transformer允许计算并行化。
这里,BERT模型的特点是在海量语料自监督学习特征表示,可以将BERT 特征作为自然语言处理任务的高质量词嵌入。BERT预训练分为遮盖词预测任务(MLM)和下一句预测任务(NSP)。本发明采用前者词遮盖MLM方法,通常会随机掩盖15%的序列标签token,生成Embedding后喂给BERT提取特征,训练时基于上下文关系仅预测被遮盖的部分,这样做的好处是迫使模型更多地依赖于上下文信息去预测词汇,并且赋予了模型一定的纠错能力。在BERT 词典中,增加有特殊标识符:[CLS]是句首标识,[SEP]是分隔符,用于分隔两个独立句子,[UNK]为未知标识符。[MASK]遮盖标识符,在随机遮盖策略的15%序列中有80%的概率被[MASK]遮盖,另有10%的概率替换为文本序列中的某个字,10%的概率不作任何改动。
因此,BERT模型的嵌入既有词向量(Token Embeddings),还包括段向量(Segmentation Embeddings)和位置向量(Position Embeddings)。Token Embeddings的操作是对文本进行标记,[CLS]和[SEP]用于标记头和尾。Segment embedding的主要作用是区分每个token属于前一个句子还是后一个句子,是一个可学习的嵌入向量,辅助BERT区别不同的句子。Position Embeddings同 Transformer都使用了位置编码,但BERT是通过学习得到序列输入属性。
在一实施方式中,所述将所述多个文本序列进行预训练,获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系,包括:
对所述多个文本序列进行词嵌入操作,包括词向量和位置嵌入,其中,所述词向量和所述位置嵌入为文本序列的特征表达;
基于注意力机制的预处理模型生成了文本特征向量,包含了词向量和字符的位置嵌入;
基于自注意力机制学习所述文本序列中字符的长距离依赖关系。
这里,对所述多个文本序列进行词嵌入操作,包括词向量和位置嵌入是指表征字符的位置嵌入,交通文本中的字符处在文本中不同的位置,其携带的语义信息也存在差异,所以需要使用位置嵌入用以表达字符之间的位置关系。
位置嵌入PE利用了字符在序列中的相对或绝对位置,从而获取字符的次序信息。位置嵌入的维度为Xposition encoding∈Rsequence*dimension,sequence 表示sequence_lenth,即最大序列长度;dimension表示词向量维度。PE采用式(1)、式(2)关于sine和cosine的函数表达,其中pos表示当前字符在句子中的所处位置,i表示该字符在词向量维度中的位置,2i和2i+1分别表示偶数和奇数位置的维度,d表示词向量的维度。PE(pos,2i)表示pos位置字符的PE在偶数维度的值,PE(pos,2i+1)表示pos位置字符的PE在奇数维度的值。利用这样周期性函数的好处在于对任何固定的偏移量k而言,其位置嵌入PEpos+k可以通过 PEpos线性变换后表示。
PE(pos,2i)=sin(pos/100002i/d) (1)
PE(pos,2i+1)=cos(pos/100002i/d) (2)
这里,词向量和位置嵌入相加得到文本序列的特征表达。一个文本序列 X={x1,x2,...,xn},可以表示为v∈Rbatch*sequence,batch表示batch_size,即批次大小。通过词向量表示,每个字进行高维映射,X变为:
Xembedding∈Rba tch*sequence*dimension (3)
将词向量和位置嵌入相结合,最终得到词的表示向量X,同时也是 Transformer的输入。
X=Xembedding+Xposition encoding (4)
X∈Rbatc h*sequence*dimension (5)
这里,基于自注意力机制学习所述文本序列中字符的长距离依赖关系是指基于自注意力机制学习交通语料字符的长距离依赖关系,使用注意力机制可以使得单个字符有效融合句子中其他所有字符的语义信息。
基于自注意力机制,为X分配3个权重WQ、WK、WV,分别得到Q、K、 V,即:
Q=Linear(X)=XWQ (6)
K=Linear(X)=XWK (7)
V=Linear(X)=XWV (8)
基于Q、K、V,得到自注意力机制的输出,即
dk是QKT矩阵的列数,用以防止Q、K相乘时内积过大。之后用softmax归一化函数计算每个字符与其余字符的注意力系数,与V相乘后得到最终输出Z。 zi表示第i个节点的输出值,m为分类的种类,通过softmax函数可以将输出值限制为[0,1]范围内,且字符的输出值之和为1。基于注意力机制的预处理模型生成了最终的文本特征向量,其包含了词向量和字符的位置嵌入,对长距离文本的依赖关系进行了建模,增强了字的语义表达能力,有助于提升自主式交通领域的命名实体识别模型的综合识别效果。
考虑多头注意力机制(Multi-Head Attention Mechanism)进一步提取多重语义表达,能够增强每个字符与其他字符的关联性,更好地表达语义特征。多头注意力机制实质上是做两次及以上的注意力运算,具体做法是将X通过n(head 数目)个注意力机制层中,得到n个输出并做拼接操作。
MultiHead(Q,K,V)=Concat(head1,...,headn)WO (11)
这里,在对交通语料完成基于自注意力机制的BERT语言模型预训练之后,提取到了字符和序列丰富的全局语义信息,尤其是长距离的依赖关系,得到了包含融合有语义信息的向量特征表示。通过双向循环神经网络和条件随机场,充分学习上下文关系和相邻字符间的依存关系,输出最优预测序列,根据预测的标签序列识别交通实体。
这里,Bi-LSTM采用双向LSTM神经网络,善于发现字符间关联关系,捕捉语料长远上下文序列信息,具备神经网络拟合非线性的能力。LSTM基于门控单元实现长期记忆,解决了RNN训练时的梯度消失或者梯度爆炸问题。LSTM 单元改进了RNN的隐藏层状态,通过3种不同的门结构,有所选择地剔除某些历史信息,同时增添部分当前输入信息,最终通过融合输出得到当前状态。在时刻t,LSTM对应3种输入:当前输入xt,t-1时刻的输出ht-1,t-1时刻的单元状态ct-1;以及2种输出:t时刻的输出ht、t时刻单元状态ct。LSTM通过输入门(inputgate)、输出门(output gate)和遗忘门(forget gate)来控制单元状态,输入门接受当前时刻的保存信息,输出门控制着从当前状态到LSTM输出的过程,遗忘门则决定单元状态中能够从t-1时刻保留到t时刻的信息。
其中,Wi、Wf、Wc分别是输入门、遗忘门、输出门的权重矩阵,bi、bf、 bc分别是其偏差项。以t-1时刻的输出ht-1和当前输入xt分别得到当前的输入值和遗忘门的值,进而根据t-1时刻单元状态ct-1和当前输入值获得t时刻单元状态ct,实现当前记忆和长期记忆的结合,即长时间的序列关系。ct经由tanh函数变换后,与输出门的值相乘得到的t时刻的输出ht。σ函数和tanh激活函数的计算方法分别如式(18)、式(19)所示:
Bi-LSTM仅依据最大概率输出预测标签,输出之间不受影响,导致序列出现如“B-PER”后又接“I-ORG”的情况。CRF优势在于学习状态之间的隐含条件,更加考虑句子的局部特征,通过临近标签获得最优序列,能够弥补Bi-LSTM的不足。因此考虑将Bi-LSTM和CRF模型相结合,既能保持长期记忆,又能考虑局部依赖关系。如果一个句子x的标注序列为y=(y1,y2,...,yn),则Bi-LSTM-CRF模型下,句子x的标注序列y的得分为:
式中,是Bi-LSTM的输出得分矩阵,是第i-1个标签到第i个标签的转移得分。得分分别由Bi-LSTM层的输出和CRF的转移矩阵决定。标注结果概率如式(19)所示,其中y′为真实序列,并取对数得到似然函数求解,如式(20)。
最后,似然函数的目标是将最满意得分序列作为预测序列输出:
这里,建立评价体系,在测试集上测试该实体识别模型的识别性能。自主式交通领域实体识别实验结果评价指标主要采用消息理解会议MUC会议规范评测体系,分别是精确率P(Precision)、召回率R(Recall)和F1(F- mearsure)值。F1是基于P和R调和平均值的综合性能考量。指标计算方法如式 (24)-式(26)所示。TP表示预测为正例的正样本,FP表示预测为正例的负样本,FN表示预测为负例的正样本。
自主式交通领域实体识别。将划分且标注好的测试数据输入基于注意力机制的BERT模型中进行预训练,对长距离文本依赖关系建模,生成融合了全局语义信息的特征向量。通过加载已训练好的命名实体识别模型对特征向量预测并输出实体标签,从而完成自主式交通系统实体识别任务。
在一实施方式中,所述基于自注意力机制学习所述文本序列中字符的长距离依赖关系后,还包括:
对所述文本序列进行模型轻量化的剪枝操作,包括层数剪枝和多头注意力数剪枝。
这里,为解决BERT模型参数量过大、训练及推理速度过慢、时间过长的问题,在满足准确率的前提下对BERT进行了模型轻量化的剪枝操作,包括层数剪枝和多头注意力数剪枝。剪枝后的预训练过程速度加快,更适合用于小样本数据集训练。
本发明实施例还提供一种交通命名实体识别装置,,如图2所示,所述装置包括:
获取模块21,用于获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列;
处理模块22,用于将所述多个文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体。
在一个可选的实施例中,所述处理模块22,还用于:
将所述多个文本字符输入训练后的双向循环神经网络,得到所述文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入训练后的条件随机场,获取目标文本序列,得到交通命名实体。
在一个可选的实施例中,所述装置还包括训练模块,用于:
将所述多个文本序列进行预训练,获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系;
将所述词向量特征输入双向循环神经网络训练,得到文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入条件随机场训练,得到目标文本序列;
基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代,直至设置的损失函数满足收敛条件,获得训练后的双向循环神经网络和条件随机场。
在一个可选的实施例中,所述训练模块,还用于:
对所述多个文本序列进行词嵌入操作,包括词向量和位置嵌入,其中,所述词向量和所述位置嵌入为文本序列的特征表达;
基于注意力机制的预处理模型生成了文本特征向量,包含了词向量和字符的位置嵌入;
基于自注意力机制学习所述文本序列中字符的长距离依赖关系。
在一个可选的实施例中,所述装置还包括剪枝模块,用于:
对所述文本序列进行模型轻量化的剪枝操作,包括层数剪枝和多头注意力数剪枝。
需要说明的是:上述实施例提供的交通命名实体识别装置在实现交通命名实体识别方法时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,以完成以上描述的全部或者部分处理。另外,上述实施例提供的交通命名实体识别装置与对应的交通命名实体识别实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例提供了一种计算机设备,如图3所示,该计算机设备包括:处理器110和用于存储能够在处理器110上运行的计算机程序的存储器111;其中,图3中示意的处理器110并非用于指代处理器110的个数为一个,而是仅用于指代处理器110相对其他器件的位置关系,在实际应用中,处理器110 的个数可以为一个或多个;同样,图3中示意的存储器111也是同样的含义,即仅用于指代存储器111相对其他器件的位置关系,在实际应用中,存储器111 的个数可以为一个或多个。
所述处理器110用于运行所述计算机程序时,执行如下步骤:
获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列;
将所述多个文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体。
在一可选的实施例中,所述处理器110还用于运行所述计算机程序时,执行如下步骤:
将所述多个文本字符输入训练后的双向循环神经网络,得到所述文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入训练后的条件随机场,获取目标文本序列,得到交通命名实体。
在一可选的实施例中,所述处理器110还用于运行所述计算机程序时,执行如下步骤:
将所述多个文本序列进行预训练,获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系;
将所述词向量特征输入双向循环神经网络训练,得到文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入条件随机场训练,得到目标文本序列;
基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代,直至设置的损失函数满足收敛条件,获得训练后的双向循环神经网络和条件随机场。
在一可选的实施例中,所述处理器110还用于运行所述计算机程序时,执行如下步骤:
对所述多个文本序列进行词嵌入操作,包括词向量和位置嵌入,其中,所述词向量和所述位置嵌入为文本序列的特征表达;
基于注意力机制的预处理模型生成了文本特征向量,包含了词向量和字符的位置嵌入;
基于自注意力机制学习所述文本序列中字符的长距离依赖关系。
在一可选的实施例中,所述处理器110还用于运行所述计算机程序时,执行如下步骤:
对所述文本序列进行模型轻量化的剪枝操作,包括层数剪枝和多头注意力数剪枝。
该计算机设备还包括:至少一个网络接口112。该装置中的各个组件通过总线系统113耦合在一起。可理解,总线系统113用于实现这些组件之间的连接通信。总线系统113除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统 113。
其中,存储器111可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM, Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read- Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM, Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM, SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器 (DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器111旨在包括但不限于这些和任意其它适合类型的存储器。
本发明实施例中的存储器111用于存储各种类型的数据以支持该装置的操作。这些数据的示例包括:用于在该装置上操作的任何计算机程序,如操作系统和应用程序;联系人数据;电话簿数据;消息;图片;视频等。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。这里,实现本发明实施例方法的程序可以包含在应用程序中。
本实施例还包含了一种计算机存储介质,所述计算机存储介质中存储有计算机程序,计算机存储介质可以是磁性随机存取存储器(FRAM,ferromagnetic random accessmemory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,ProgrammableRead-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically ErasableProgrammable Read-Only Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM, Compact Disc Read-Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。所述计算机存储介质中存储的计算机程序被处理器运行时,实现上述车辆识别方法。所述计算机程序被处理器执行时实现的具体步骤流程请参考图1所示实施例的描述,在此不再赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种交通命名实体识别方法,其特征在于,所述方法包括:
获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列;
将所述多个文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体。
2.根据权利要求1所述的交通命名实体识别方法,其特征在于,所述将所述多个文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体,包括:
将所述多个文本字符输入训练后的双向循环神经网络,得到所述文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入训练后的条件随机场,获取目标文本序列,得到交通命名实体。
3.根据权利要求1所述的交通命名实体识别方法,其特征在于,所述获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列之前,包括:
将所述多个文本序列进行预训练,获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系;
将所述词向量特征输入双向循环神经网络训练,得到文本字符长时间的序列关系;
将所述文本字符长时间的序列关系输入条件随机场训练,得到目标文本序列;
基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代,直至设置的损失函数满足收敛条件,获得训练后的双向循环神经网络和条件随机场。
4.根据权利要求2所述的交通命名实体识别方法,其特征在于,所述将所述多个文本序列进行预训练,获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系,包括:
对所述多个文本序列进行词嵌入操作,包括词向量和位置嵌入,其中,所述词向量和所述位置嵌入为文本序列的特征表达;
基于注意力机制的预处理模型生成了文本特征向量,包含了词向量和字符的位置嵌入;
基于自注意力机制学习所述文本序列中字符的长距离依赖关系。
5.根据权利要求1所述的交通命名实体识别方法,其特征在于,所述基于自注意力机制学习所述文本序列中字符的长距离依赖关系后,还包括:
对所述文本序列进行模型轻量化的剪枝操作,包括层数剪枝和多头注意力数剪枝。
6.一种交通命名实体识别装置,其特征在于,所述装置包括:
获取模块,用于获取语料集,对所述语料集进行预处理,所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列;
处理模块,用于将所述多个文本字符输入训练后的双向循环神经网络和条件随机场,得到交通命名实体。
7.一种计算机设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;
其中,所述处理器用于运行所述计算机程序时,实现权利要求1至5任一项所述的交通命名实体识别方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算计程序,其特征在于,所述计算机程序被处理器执行实现权利要求1至5中任一项所述的交通命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319755.2A CN114707509A (zh) | 2022-03-29 | 2022-03-29 | 交通命名实体识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319755.2A CN114707509A (zh) | 2022-03-29 | 2022-03-29 | 交通命名实体识别方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114707509A true CN114707509A (zh) | 2022-07-05 |
Family
ID=82171506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210319755.2A Pending CN114707509A (zh) | 2022-03-29 | 2022-03-29 | 交通命名实体识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114707509A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116543389A (zh) * | 2023-03-13 | 2023-08-04 | 中国人民解放军海军工程大学 | 基于关系网络的字符识别方法、装置、设备及介质 |
-
2022
- 2022-03-29 CN CN202210319755.2A patent/CN114707509A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116543389A (zh) * | 2023-03-13 | 2023-08-04 | 中国人民解放军海军工程大学 | 基于关系网络的字符识别方法、装置、设备及介质 |
CN116543389B (zh) * | 2023-03-13 | 2023-09-19 | 中国人民解放军海军工程大学 | 基于关系网络的字符识别方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zia et al. | Long short-term memory recurrent neural network architectures for Urdu acoustic modeling | |
CN110534087B (zh) | 一种文本韵律层级结构预测方法、装置、设备及存储介质 | |
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
Yao et al. | Bi-directional LSTM recurrent neural network for Chinese word segmentation | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN113672708B (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN113190656A (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN114298287A (zh) | 基于知识蒸馏的预测方法和装置、电子设备、存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN111178036B (zh) | 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN110019795B (zh) | 敏感词检测模型的训练方法和系统 | |
CN114358201A (zh) | 基于文本的情感分类方法和装置、计算机设备、存储介质 | |
CN112825114A (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN113961666A (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
Musaev et al. | Automatic recognition of Uzbek speech based on integrated neural networks | |
CN114707509A (zh) | 交通命名实体识别方法、装置、计算机设备及存储介质 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN117668157A (zh) | 基于知识图谱的检索增强方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |