CN110750965A - 英文文本序列标注方法、系统及计算机设备 - Google Patents

英文文本序列标注方法、系统及计算机设备 Download PDF

Info

Publication number
CN110750965A
CN110750965A CN201910871720.8A CN201910871720A CN110750965A CN 110750965 A CN110750965 A CN 110750965A CN 201910871720 A CN201910871720 A CN 201910871720A CN 110750965 A CN110750965 A CN 110750965A
Authority
CN
China
Prior art keywords
matrix
layer
word
target sentence
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910871720.8A
Other languages
English (en)
Other versions
CN110750965B (zh
Inventor
孙超
于凤英
王健宗
韩茂琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910871720.8A priority Critical patent/CN110750965B/zh
Priority to PCT/CN2019/117771 priority patent/WO2021051574A1/zh
Publication of CN110750965A publication Critical patent/CN110750965A/zh
Application granted granted Critical
Publication of CN110750965B publication Critical patent/CN110750965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例提供了一种基于神经网络的英文文本序列标注方法,所述方法包括:提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI‑LSTM层和第一dropout层以得到第一输出矩阵
Figure DDA0002203026360000011
通过选择性信息对应的第四矩阵
Figure DDA0002203026360000012
得到第二输出矩阵
Figure DDA0002203026360000013
通过语义信息对应第五矩阵Sm×d得到第三输出矩阵
Figure DDA0002203026360000014
通过二元信息对应的第六矩阵Bm×d第四输出矩阵
Figure DDA0002203026360000015
Figure DDA0002203026360000016
Figure DDA0002203026360000017
进行线性相加,得到线性相加结果
Figure DDA0002203026360000018
将线性相加结果O输入第二LSTM层得到第五输出矩阵
Figure DDA0002203026360000019
Figure DDA00022030263600000110
作为条件随机场CRF的输入序列,以通过CRF输出标签序列Y=(y1,y2,...,ym)。本发明实施例可以有效提升标注准确率。

Description

英文文本序列标注方法、系统及计算机设备
技术领域
本发明实施例涉及计算机数据处理领域,尤其涉及一种基于神经网络的英文文本序列标注方法、系统、计算机设备以及计算机可读存储介质。
背景技术
随着网络技术的普及,文本数据资源的规模日益增长,例如CNN、BBC等新闻网站每天都会产生大量文本数据。同时,面对规模庞大的文本数据资源,人们开始借助自然语言处理(Natural Language Processing,NLP)等技术来对海量文本数据进行信息提取、挖掘、分类和归纳等一系列操作。而在自然语言处理中,序列标注模型是最常见的模型,也有着广泛地应用,其输出的是一个标签序列。通常而言,标签之间是相互联系的,构成标签之间的结构信息。利用这些结构信息,序列标注模型可以快速有效的预知文本序列中每个词语对应的标签(比如,人名,地名等)。
现有的序列标注模型,包括多层感知器(Multilayer Perceptron,MLP)、自动编码器(Auto Encoder,AE)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)等。上述序列标注模型一定程度上代替了人工特征抽取,但是标注准确率仍然较低。
因此,针对现有序列标注模型的标注准确率较低的问题,有必要在现有序列标注模型进行改进的基础上,提出一种英文文本序列标注方法,以提升标注准确率。
发明内容
有鉴于此,本发明实施例的目的是提供一种基于神经网络的英文文本序列标注方法、系统、计算机设备及计算机可读存储介质,可以有效提升标注准确率。
为实现上述目的,本发明实施例提供了一种基于神经网络的英文文本序列标注方法,所述方法包括:
提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure BDA0002203026340000021
通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵
Figure BDA0002203026340000022
并将第四矩阵输入到第二dropout层以得到第二输出矩阵
Figure BDA0002203026340000024
提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵
Figure BDA0002203026340000025
以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure BDA0002203026340000026
将第一输出矩阵第二输出矩阵
Figure BDA0002203026340000028
第三输出矩阵
Figure BDA0002203026340000029
和第四输出矩阵
Figure BDA00022030263400000210
进行线性相加,得到线性相加结果
Figure BDA00022030263400000211
ωi对应的权重系数;
将线性相加结果O输入第二LSTM层在每个时间步记录输出
Figure BDA00022030263400000213
Figure BDA00022030263400000214
以得到第五输出矩阵
Figure BDA00022030263400000215
i为各个单词在目标句子中序号,z为输入第二LSTM层的输入维度;
将第五输出矩阵
Figure BDA00022030263400000216
作为条件随机场CRF的输入序列,以通过CRF输出标签序列Y=(y1,y2,...,ym)。
优选地,提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure BDA00022030263400000217
包括:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10
拼接第一矩阵Wm×d、第二矩阵Cm×n和第三矩阵SUVm×10,将拼接后的拼接向量矩阵[Wm×d,Cm×n,SUVm×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure BDA0002203026340000031
优选地,通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,包括:
将目标句子中的每个单词分割为k维列向量Ck×1,并将Ck×1输入到随机初始化得到的字符嵌入层中,通过所述字符嵌入层输出k×n的矩阵,其中,k为单词的长度;
将k×n的矩阵输入到第一LSTM层中,将所述第一LSTM层中的最后隐状态C1×n作为对应单词的向量表示,以将包含m个单词的目标句子转换为第二矩阵Cm×n
优选地,获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10,包括:
预先统计并选取训练数据集中出现频率最高的10个后缀,收集以这些后缀结尾的多个预选单词;
记录所述多个预选单词中各个预选单词的词性和频次;
根据所述各个预选单词的词性和频次,确定所述各个预选单词的后缀是否为真实后缀;及
为所述各个预选单词建立独热向量SUV1×10:当相应预选单词的后缀被确定为真实后缀时,记录<预选单词,后缀>对,并基于该后缀在所述10个后缀中的所处位置,为该预选单词建立一个独热向量SUV1×10
优选地,提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵
Figure BDA0002203026340000041
以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure BDA0002203026340000042
包括:
通过语义嵌入层获取目标句子的各个单词进行标注,将标注后的各个单词输入到第三BI-LSTM层中以得到第五矩阵Sm×d,并将第五矩阵Sm×d输入到第三dropout层以得到第三输出矩阵
Figure BDA0002203026340000043
通过第三词嵌入层和卷积层获取目标句子的第六矩阵Bm×d,并将第六矩阵Bm×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure BDA0002203026340000044
优选地,通过第三词嵌入层和卷积层获取目标句子的第六矩阵Bm×d,并将第六矩阵Bm×d输入到第四Bi-LSTM层和第四dropout层以得到
Figure BDA0002203026340000045
包括:
通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵;
通过该卷积层对m*d维词向量矩阵做卷积操作,得到d个m*1的卷积特征图;
将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到输入向量Bm×d,1≤j≤m,1≤i≤d,其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定;及
将Bm×d依顺序输入到所述第四BI-LSTM层中,并经过所述第四dropout层输出第四输出矩阵
Figure BDA0002203026340000046
为实现上述目的,本发明实施例还提供了基于神经网络的英文文本序列标注系统,包括:
第一输出模块,用于提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure BDA0002203026340000047
第二输出模块,用于通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵
Figure BDA0002203026340000051
并将第四矩阵输入到第二dropout层以得到第二输出矩阵
第三输出模块,用于提取目标句子的语义信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵
Figure BDA0002203026340000054
第四输出模块,用于基于卷积层提取的二元信息,将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure BDA0002203026340000055
线性计算模块,用于将第一输出矩阵第二输出矩阵
Figure BDA0002203026340000057
第三输出矩阵
Figure BDA0002203026340000058
和第四输出矩阵
Figure BDA0002203026340000059
进行线性相加,得到线性相加结果
Figure BDA00022030263400000510
ωi
Figure BDA00022030263400000511
对应的权重系数;
第五输出模块,用于将线性相加结果O输入第二LSTM层在每个时间步记录输出
Figure BDA00022030263400000512
以得到第五输出矩阵
Figure BDA00022030263400000513
i为各个单词在目标句子中序号,z为输入第二LSTM层的输入维度;
第六输出模块,用于将第五输出矩阵
Figure BDA00022030263400000514
作为条件随机场CRF的输入序列,以通过CRF输出标签序列Y=(y1,y2,...,ym)。
优选地,所述第一输出模块,还用于:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10
拼接第一矩阵Wm×d、第二矩阵Cm×n和第三矩阵SUVm×10,将拼接后的拼接向量矩阵[Wm×d,Cm×n,SUVm×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure BDA00022030263400000515
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的基于神经网络的英文文本序列标注方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于神经网络的英文文本序列标注方法的步骤。
本发明实施例提供的基于神经网络的英文文本序列标注方法、系统、计算机设备以及计算机可读存储介质,通过不同的维度提取目标句子的特征,例如,提取语义、二元特征、字符级特征和形态特征等多个方面特征信息,对这些特征进行线性加权以得到的综合特征,通过这些综合特征来输出目标句子的标签序列,由于同时兼顾多个维度的特征信息,因此可以确保较高的标准准确率。
附图说明
图1为本发明基于神经网络的英文文本序列标注方法实施例一的流程图。
图2为本发明基于神经网络的英文文本序列标注系统实施例二的程序模块示意图。
图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
为了方便理解,本文对一些名词进行解释:
嵌入层,用于将目标句子中的各个单词转换为固定大小的词向量,或将各个字符转换为固定大小的字符向量。
LSTM层,为长短期记忆网络层,用于在于根据目标句子各个字符或各个单词之间的前后顺序,输出各个字符或各个单词对应的信息标注(如语义标注、词性标注等)。
dropout层,为池化层,为了防止神经网络过拟合而设置的网络层。
以下实施例将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例一之基于神经网络的英文文本序列标注方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S100,提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
在本步骤中:
提取单词信息,旨在提供目标句子中各个单词的词向量,作为本实施例目标句子的基础信息,后续提取的信息为基于不同维度的增量信息。
提取字符信息,旨在何根据一个字符的上下文来预测字母表中的下一个字符,用于获取各个单词之间的结构信息,如“man”和“policeman”具有相同的含义,存在结构上的相似性。
提取形态特征,旨在利用单词丰富的形态特征,如基于各个单词不同的后缀和拼写得到不同的形态信息,并将得到的形态信息用于单词标注中,提升单词标注的准确度。
需要说明的是,所述形态特征,是指各个单词的形态构成,如,各个单词可能具有不同的后缀,这些差异化的后缀可以被认为是这些单词的形态特征。也可以是前缀等,本实施例不做限定。
在示例性的实施例中,步骤S100包括以下步骤S100A~S100D:
步骤S100A,单词信息提取步骤:通过第一词嵌入层获取目标句子的第一矩阵Wm×d
所述第一词嵌入层,用于将目标句子中的各个单词转换为固定大小的词向量。
m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数。
示例性的,将目标句子输入到第一词嵌入层,通过所述第一词嵌入层对所述目标句子中的m个单词分别进行词向量映射,以获取第一矩阵Wm×d(即,词向量矩阵),其中每个单词映射为一个d维词向量。
例如,将每个句子都表示为一个列向量Im×1,其中每一个元素都代表一个词,可以通过word2vec等模型,获取每个元素对应的d维词向量,例如128为词向量。
步骤S100B,字符级信息提取步骤:通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数。
所述字符嵌入层,用于将各个单词中的各个字母转换为固定大小的字符向量。
所述第一LSTM层,在于根据目标句子各个字符之间的前后顺序,输出每个字符对应的信息标注。
在示例性的实施例中,所述步骤S100B可以包括步骤S100B1~S100B2。具体如下:
步骤S100B1,将目标句子中的每个单词分割为k维列向量Ck×1,并将Ck×1输入到随机初始化得到的字符嵌入层中,通过所述字符嵌入层输出k×n的矩阵,其中,k为单词的长度,n为向量维数。不难理解,每个单词表示为一个k维列向量Ck×1,其中每一个元素都代表一个字符,获取每个字符对应的n维字符向量,从而得到k×n的矩阵。
步骤S100B2,将k×n的矩阵输入到第一LSTM层中,将所述第一LSTM层中的最后隐状态C1×n作为对应单词的向量表示,以将包含m个单词的目标句子转换为第二矩阵Cm×n
步骤S100C,形态信息提取步骤:获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10
在示例性的实施例中,所述步骤S100C可以包括步骤S100C1~S100C4。具体如下:
步骤S100C1,预先统计并选取训练数据集中出现频率最高的10个后缀,收集以这些后缀结尾的多个预选单词。
步骤S100C2,根据所述各个预选单词的词性和频次,确定所述各个预选单词的后缀是否为真实后缀。
步骤S100C3,记录所述多个预选单词中各个预选单词的词性和频次。
步骤S100C4,为所述各个预选单词建立独热向量SUV1×10:当相应预选单词的后缀被确定为真实后缀时,记录<预选单词,后缀>对,并基于该后缀在所述10个后缀中的所处位置,为该预选单词建立一个独热向量SUV1×10
由上可知,目标句子包括m个单词,则具有m个独热向量,因此构成第三矩阵SUVm×10
所述形态特征在于关注单词的后缀与拼写特征。
假设一个词性为x的单词w的后缀为s,则该单词在训练数据集中超过了一个频率阈值,那么s就是w的真实后缀,并记录(w,s)对,对每个单词建立一个独热向量SUV1×10。示例性的,如果该单词的独热向量SUV1×10中的位置k处的元素值为1,则表示该单词有第k个后缀。
步骤S100D,拼接第一矩阵Wm×d、第二矩阵Cm×n和第三矩阵SUVm×10,将拼接后的拼接向量矩阵[Wm×d,Cm×n,SUVm×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure BDA0002203026340000101
第一输出矩阵
Figure BDA0002203026340000102
m为单词数量,d为各个单词的向量维度;
BI-LSTM(Bi-directional Long Short-Term Memory,双向长短期记忆神经网络),第一层为输入层(inputlayer),第二层和第三层为BI-LSTM层,最后一层为输出层(outputlayer)。BI-LSTM层是由两层LSTM组成,其中一个按照序列的输入顺序来处理,另一个则是按照序列输入的相反方向来对序列进行处理。
进一步的,通过所述第一BI-LSTM层输出第一输出矩阵的步骤如下:
步骤一:按照所述目标句子中的单词序列X=(x1,x2,...,xm),将各个单词对应的拼接向量输入到前向LSTM层中,以通过该前向LSTM层计算前向隐藏层状态序列
Figure BDA0002203026340000104
(1)根据上一时刻的输出
Figure BDA0002203026340000105
和当前输入xt来得到ft值,以决定是否让上一时刻学到的信息Ct-1通过或部分通过:
ft=σ(Wf[xt,ht-1]+bf),其中ft∈[0,1],表示t时刻的节点对t-1时刻细胞记忆的选择权重,Wf为遗忘门的权重矩阵,bf为遗忘门的偏置项,
Figure BDA0002203026340000106
表示t-1节点的隐层状态信息,非线性函数σ(x)=1/(1+e-x);
(2)通过sigmoid来决定哪些值用来更新,并通过tanh层用来生成新的候选值qt,它作为当前层产生的候选值可能会添加到记忆单元状态中,把这两部分产生的值结合来进行更新:
it=σ(Wi[xt,ht-1]+bi),其中it∈[0,1]表示t时刻的节点对当前节点信息的选择权重,bi为输入门的偏置项,Wi为输入门的权重矩阵,非线性函数σ(x)=1/(1+e-x);
当前节点输入信息qt=tanh(Wq[ht-1,xt]+bq),其中bq为偏置项,Wq表示待更新信息的权重矩阵,tanh为双曲正切激活函数,xt表示t时刻前向LSTM层的输入向量,
Figure BDA0002203026340000111
表示t-1节点的隐层状态信息;
对旧的记忆单元状态进行更新,添加新信息:
当前输出记忆信息Ct=ft*Ct-1+it*qt),其中qt表示t-1节点的记忆信息,ft表示t时刻的节点对t-1时刻细胞记忆的选择权重,it表示t时刻的节点对当前节点信息的选择权重;
(3)前向LSTM层输出;
Figure BDA0002203026340000112
其中ot∈[0,1]表示t时刻的节点细胞记忆信息的选择权重,bo为输出门的偏置,Wo为输出门的权重矩阵,
Figure BDA0002203026340000113
表示向量xt
Figure BDA0002203026340000114
拼接后的向量,即|xt|+|ht-1|维的向量。
Figure BDA0002203026340000115
xt表示t时刻前向LSTM层的输入数据,即本实施例中的拼接向量矩阵[Wm×d,Cm×n,SUVm×10]中的其中一个单词对应的向量;
Figure BDA0002203026340000116
为t时刻前向LSTM层的输出向量。
步骤二:按照所述目标句子中的单词序列X=(x1,x2,...,xm),将各个单词对应的拼接向量输入到后向LSTM层中,以通过该后向LSTM层计算后向隐藏层状态序列
Figure BDA0002203026340000117
步骤三:拼接所述前向隐藏层状态序列
Figure BDA0002203026340000118
和后向隐藏层状态序列
Figure BDA0002203026340000119
得到即H=(h1,h2,...hm)。
步骤四:将隐藏层状态序列H=(h1,h2,...hm)输入到dropout层之后得到第一输出矩阵
Figure BDA00022030263400001111
步骤S200,选择性信息提取步骤:通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵
Figure BDA0002203026340000121
并将第四矩阵
Figure BDA0002203026340000122
输入到第二dropout层以得到第二输出矩阵
Figure BDA0002203026340000123
所述第二BI-LSTM层,在于根据目标句子各个单词之间的前后顺序,输出每个字符对应的信息标注。
k为每个单词的长度,m为目标句子中的单词个数,d为单词的词向量维数。
I(k×m)×1来表示每个句子的字符矩阵,该矩阵是经过字符嵌入层的句子所构成,它包含有上下文信息和字符信息。通过第二嵌入层来将其转换为k×m×d维的矩阵,并将其输入到第二BI-LSTM层之后得到
Figure BDA0002203026340000124
综上可表示为:
Figure BDA0002203026340000125
步骤S300,提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵
Figure BDA0002203026340000126
以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure BDA0002203026340000127
在本步骤中:
提取语义信息,从语义维度为对所述目标句子的各个单词进行信息标注。
提取二元信息,旨在提取目标句子的深度特征,进而用于信息标注。
在示例性的实施例中,所述步骤S300可以包括步骤S300A~S300B。具体如下:
步骤S300A,语义信息提取步骤:通过语义嵌入层获取目标句子的各个单词进行标注,将标注后的各个单词输入到第三BI-LSTM层中以得到第五矩阵Sm×d,并将第五矩阵Sm×d输入到第三dropout层以得到第三输出矩阵
Figure BDA0002203026340000128
示例性的,可以用预训练好的AdaGram模型来初始化语义嵌入层;
通过语义嵌入层中的disambiguate函数标注目标句子中的各个单词的语义标注信息,例如:“apple”会被标注成“apple_n”,其中n为apple的第n个意思),将标注后的目标句子输入到第三BI-LSTM层得到表示语义级上下文特征的第五矩阵Sm×d
步骤S300B,二元信息提取步骤:通过第三词嵌入层和卷积层获取目标句子的第六矩阵Bm×d,并将第六矩阵Bm×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure BDA0002203026340000131
二元信息,在于通过卷积层进行卷积操作,以得到卷积特征图,然后根据卷积特征图中特征输入到循环神经网络中,从而输出相应的信息标注。
在示例性的实施例中,所述步骤S300B可以包括步骤S300B1~S300B3。具体如下:
步骤S300B1,通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵。
步骤S300B2,通过该卷积层对m*d维词向量矩阵做卷积操作,得到d个m*1的卷积特征图。
即,每个卷积特征图的宽度为1,长度为m。卷积核为2*d,单词数量为m个,卷积核的数量也为d个。
卷积特征图中的m*1个元素,计算公式如下:
cij=f(wij⊙mi+bi)
其中,cij为第i个特征卷积图中的m中的第j个元素的特征值,wij为对应第i个卷积特征图的被卷积核所覆盖到的词向量矩阵,⊙表示矩阵相乘,mi为用于计算第i个卷积特征图的卷积核,bi为用于计算第i个卷积特征图的偏置项,f为非线性的激活函数,如ReLU函数。
步骤S300B3,将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到m个d维输入向量(即Bm×d),1≤j≤m,1≤i≤d,其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定;
步骤S300B4,将Bm×d依顺序输入到所述第四BI-LSTM层中,并经过所述第四dropout层输出第四输出矩阵
Figure BDA0002203026340000141
步骤S400,将第一输出矩阵第二输出矩阵
Figure BDA0002203026340000143
第三输出矩阵
Figure BDA0002203026340000144
和第四输出矩阵
Figure BDA0002203026340000145
进行线性相加,得到线性相加结果
Figure BDA0002203026340000146
ωi
Figure BDA0002203026340000147
对应的权重系数。
将步骤S100~S300从各个维度提取的特征信息进行加权进行线性加权以得到的综合特征,通过这些综合特征作为输出矩阵的标签序列的基础,具体可以如下。
步骤S500,将线性相加结果O输入第二LSTM层在每个时间步记录输出
Figure BDA0002203026340000148
以得到第五输出矩阵
Figure BDA0002203026340000149
i为各个单词在目标句子中序号,z为输入第二LSTM层的输入维度。
步骤S600,将第五输出矩阵
Figure BDA00022030263400001410
作为条件随机场CRF的输入序列,以通过CRF输出标签序列Y=(y1,y2,...,ym)。
示例性的:
Figure BDA00022030263400001411
其中,A是状态转移矩阵,Ai,j代表从第i个标签转移到第j个标签的概率;
通过求得最大的s(X,y),即可得到最佳的输出标签序列。
实施例二
请继续参阅图2,示出了本发明基于神经网络的英文文本序列标注系统实施例二的程序模块示意图。在本实施例中,基于神经网络的英文文本序列标注系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于神经网络的英文文本序列标注方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于神经网络的英文文本序列标注系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
第一输出模块200,用于提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure BDA0002203026340000151
第二输出模块202,用于通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵并将第四矩阵
Figure BDA0002203026340000153
输入到第二dropout层以得到第二输出矩阵
第三输出模块204,用于提取目标句子的语义信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵
Figure BDA0002203026340000155
第四输出模块206,用于基于卷积层提取的二元信息,将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure BDA0002203026340000156
线性计算模块208,用于将第一输出矩阵
Figure BDA0002203026340000157
第二输出矩阵
Figure BDA0002203026340000158
第三输出矩阵
Figure BDA0002203026340000159
和第四输出矩阵
Figure BDA00022030263400001510
进行线性相加,得到线性相加结果
Figure BDA00022030263400001511
ωi
Figure BDA00022030263400001512
对应的权重系数;
第五输出模块210,用于将线性相加结果O输入第二LSTM层在每个时间步记录输出
Figure BDA00022030263400001513
以得到第五输出矩阵
Figure BDA00022030263400001514
i为各个单词在目标句子中序号,z为输入第二LSTM层的输入维度;
第六输出模块212,用于将第五输出矩阵
Figure BDA00022030263400001515
作为条件随机场CRF的输入序列,以通过CRF输出标签序列Y=(y1,y2,...,ym)
所述第一输出模块200,还用于:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10
拼接第一矩阵Wm×d、第二矩阵Cm×n和第三矩阵SUVm×10,将拼接后的拼接向量矩阵[Wm×d,Cm×n,SUVm×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure BDA0002203026340000161
优选地,所述第一输出模块200,还用于:
将目标句子中的每个单词分割为k维列向量Ck×1,并将Ck×1输入到随机初始化得到的字符嵌入层中,通过所述字符嵌入层输出k×n的矩阵,其中,k为单词的长度;
将k×n的矩阵输入到第一LSTM层中,将所述第一LSTM层中的最后隐状态C1×n作为对应单词的向量表示,以将包含m个单词的目标句子转换为第二矩阵Cm×n
优选地,所述第一输出模块200,还用于:
预先统计并选取训练数据集中出现频率最高的10个后缀,收集以这些后缀结尾的多个预选单词;
记录所述多个预选单词中各个预选单词的词性和频次;
根据所述各个预选单词的词性和频次,确定所述各个预选单词的后缀是否为真实后缀;及
为所述各个预选单词建立独热向量SUV1×10:当相应预选单词的后缀被确定为真实后缀时,记录<预选单词,后缀>对,并基于该后缀在所述10个后缀中的所处位置,为该预选单词建立一个独热向量SUV1×10
优选地,第三输出模块204,还用于,包括:
通过语义嵌入层获取目标句子的各个单词进行标注,将标注后的各个单词输入到第三BI-LSTM层中以得到第五矩阵Sm×d,并将第五矩阵Sm×d输入到第三dropout层以得到第三输出矩阵
Figure BDA0002203026340000171
优选地,第四输出模块206,还用于通过第三词嵌入层和卷积层获取目标句子的第六矩阵Bm×d,并将第六矩阵Bm×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
优选地,所述第四输出模块206,还用于:
通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵;
通过该卷积层对m*d维词向量矩阵做卷积操作,得到d个m*1的卷积特征图;
将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到输入向量Bm×d,1≤j≤m,1≤i≤d,其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定;及
将Bm×d依顺序输入到所述第四BI-LSTM层中,并经过所述第四dropout层输出第四输出矩阵
Figure BDA0002203026340000173
实施例三
参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于神经网络的英文文本序列标注系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例五的基于神经网络的英文文本序列标注系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于神经网络的英文文本序列标注系统20,以实现实施例一的基于神经网络的英文文本序列标注方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述基于神经网络的英文文本序列标注系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图2示出了所述实现基于神经网络的英文文本序列标注系统20实施例二的程序模块示意图,该实施例中,所述基于神经网络的英文文本序列标注系统20可以被划分第一输出模块200、第二输出模块202、第三输出模块204、第四输出模块206、线性计算模块208、第五输出模块210和第六输出模块212。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于神经网络的英文文本序列标注系统20在所述计算机设备2中的执行过程。所述程序模块200-212的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于神经网络的英文文本序列标注系统20,被处理器执行时实现实施例一的基于神经网络的英文文本序列标注方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于神经网络的英文文本序列标注方法,其特征在于,所述方法包括:
提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure FDA0002203026330000011
通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵
Figure FDA0002203026330000012
并将第四矩阵
Figure FDA0002203026330000013
输入到第二dropout层以得到第二输出矩阵
Figure FDA0002203026330000014
提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure FDA0002203026330000016
将第一输出矩阵第二输出矩阵
Figure FDA0002203026330000018
第三输出矩阵
Figure FDA0002203026330000019
和第四输出矩阵
Figure FDA00022030263300000110
进行线性相加,得到线性相加结果
Figure FDA00022030263300000111
ωi
Figure FDA00022030263300000112
对应的权重系数;
将线性相加结果O输入第二LSTM层在每个时间步记录输出
Figure FDA00022030263300000113
Figure FDA00022030263300000114
以得到第五输出矩阵
Figure FDA00022030263300000115
i为各个单词在目标句子中序号,z为输入第二LSTM层的输入维度;
将第五输出矩阵
Figure FDA00022030263300000116
作为条件随机场CRF的输入序列,以通过CRF输出标签序列Y=(y1,y2,...,ym)。
2.根据权利要求1所述的基于神经网络的英文文本序列标注方法,其特征在于,提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure FDA00022030263300000117
包括:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10
拼接第一矩阵Wm×d、第二矩阵Cm×n和第三矩阵SUVm×10,将拼接后的拼接向量矩阵[Wm×d,Cm×n,SUVm×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure FDA0002203026330000021
3.根据权利要求2所述的基于神经网络的英文文本序列标注方法,其特征在于,通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,包括:
将目标句子中的每个单词分割为k维列向量Ck×1,并将Ck×1输入到随机初始化得到的字符嵌入层中,通过所述字符嵌入层输出k×n的矩阵,其中,k为单词的长度;
将k×n的矩阵输入到第一LSTM层中,将所述第一LSTM层中的最后隐状态C1×n作为对应单词的向量表示,以将包含m个单词的目标句子转换为第二矩阵Cm×n
4.根据权利要求2所述的基于神经网络的英文文本序列标注方法,其特征在于,获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10,包括:
预先统计并选取训练数据集中出现频率最高的10个后缀,收集以这些后缀结尾的多个预选单词;
记录所述多个预选单词中各个预选单词的词性和频次;
根据所述各个预选单词的词性和频次,确定所述各个预选单词的后缀是否为真实后缀;及
为所述各个预选单词建立独热向量SUV1×10:当相应预选单词的后缀被确定为真实后缀时,记录<预选单词,后缀>对,并基于该后缀在所述10个后缀中的所处位置,为该预选单词建立一个独热向量SUV1×10
5.根据权利要求1所述的基于神经网络的英文文本序列标注方法,其特征在于,提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵
Figure FDA0002203026330000031
以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure FDA0002203026330000032
包括:
通过语义嵌入层获取目标句子的各个单词进行标注,将标注后的各个单词输入到第三BI-LSTM层中以得到第五矩阵Sm×d,并将第五矩阵Sm×d输入到第三dropout层以得到第三输出矩阵
Figure FDA0002203026330000033
通过第三词嵌入层和卷积层获取目标句子的第六矩阵Bm×d,并将第六矩阵Bm×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure FDA0002203026330000034
6.根据权利要求5所述的基于神经网络的英文文本序列标注方法,其特征在于,通过第三词嵌入层和卷积层获取目标句子的第六矩阵Bm×d,并将第六矩阵Bm×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure FDA0002203026330000035
包括:
通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵;
通过该卷积层对m*d维词向量矩阵做卷积操作,得到d个m*1的卷积特征图;
将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到输入向量Bm×d,1≤j≤m,1≤i≤d,其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定;及
将Bm×d依顺序输入到所述第四BI-LSTM层中,并经过所述第四dropout层输出第四输出矩阵
7.一种基于神经网络的英文文本序列标注系统,其特征在于,包括:
第一输出模块,用于提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure FDA0002203026330000041
第二输出模块,用于通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵
Figure FDA0002203026330000042
并将第四矩阵
Figure FDA0002203026330000043
输入到第二dropout层以得到第二输出矩阵
Figure FDA0002203026330000044
第三输出模块,用于提取目标句子的语义信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵
Figure FDA0002203026330000045
第四输出模块,用于基于卷积层提取的二元信息,将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
Figure FDA0002203026330000046
线性计算模块,用于将第一输出矩阵
Figure FDA0002203026330000047
第二输出矩阵
Figure FDA0002203026330000048
第三输出矩阵和第四输出矩阵进行线性相加,得到线性相加结果
Figure FDA00022030263300000411
ωi
Figure FDA00022030263300000412
对应的权重系数;
第五输出模块,用于将线性相加结果O输入第二LSTM层在每个时间步记录输出
Figure FDA00022030263300000413
以得到第五输出矩阵i为各个单词在目标句子中序号,z为输入第二LSTM层的输入维度;
第六输出模块,用于将第五输出矩阵
Figure FDA00022030263300000415
作为条件随机场CRF的输入序列,以通过CRF输出标签序列Y=(y1,y2,...,ym)。
8.根据权利要求7所述的基于神经网络的英文文本序列标注系统,其特征在于,所述第一输出模块,还用于:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10
拼接第一矩阵Wm×d、第二矩阵Cm×n和第三矩阵SUVm×10,将拼接后的拼接向量矩阵[Wm×d,Cm×n,SUVm×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
Figure FDA0002203026330000051
9.一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于神经网络的英文文本序列标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至6中任一项所述的基于神经网络的英文文本序列标注方法的步骤。
CN201910871720.8A 2019-09-16 2019-09-16 英文文本序列标注方法、系统及计算机设备 Active CN110750965B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910871720.8A CN110750965B (zh) 2019-09-16 2019-09-16 英文文本序列标注方法、系统及计算机设备
PCT/CN2019/117771 WO2021051574A1 (zh) 2019-09-16 2019-11-13 英文文本序列标注方法、系统及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910871720.8A CN110750965B (zh) 2019-09-16 2019-09-16 英文文本序列标注方法、系统及计算机设备

Publications (2)

Publication Number Publication Date
CN110750965A true CN110750965A (zh) 2020-02-04
CN110750965B CN110750965B (zh) 2023-06-30

Family

ID=69276480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910871720.8A Active CN110750965B (zh) 2019-09-16 2019-09-16 英文文本序列标注方法、系统及计算机设备

Country Status (2)

Country Link
CN (1) CN110750965B (zh)
WO (1) WO2021051574A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115688A (zh) * 2020-09-18 2020-12-22 南方电网深圳数字电网研究院有限公司 一种基于bio的web端文本标注方法及系统
CN112183086A (zh) * 2020-09-23 2021-01-05 北京先声智能科技有限公司 基于意群标注的英语发音连读标记模型
CN112528610A (zh) * 2020-12-09 2021-03-19 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN114154493A (zh) * 2022-01-28 2022-03-08 北京芯盾时代科技有限公司 一种短信类别的识别方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949320A (zh) * 2021-03-30 2021-06-11 平安科技(深圳)有限公司 基于条件随机场的序列标注方法、装置、设备及介质
CN113378547B (zh) * 2021-06-16 2023-07-21 武汉大学 一种基于gcn的汉语复句隐式关系分析方法及装置
CN113326698B (zh) * 2021-06-18 2023-05-09 深圳前海微众银行股份有限公司 检测实体关系的方法、模型训练方法及电子设备
CN113836929A (zh) * 2021-09-28 2021-12-24 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及存储介质
CN114492451B (zh) * 2021-12-22 2023-10-24 马上消费金融股份有限公司 文本匹配方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11086918B2 (en) * 2016-12-07 2021-08-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-label classification
CN108038103B (zh) * 2017-12-18 2021-08-10 沈阳智能大数据科技有限公司 一种对文本序列进行分词的方法、装置和电子设备
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115688A (zh) * 2020-09-18 2020-12-22 南方电网深圳数字电网研究院有限公司 一种基于bio的web端文本标注方法及系统
CN112183086A (zh) * 2020-09-23 2021-01-05 北京先声智能科技有限公司 基于意群标注的英语发音连读标记模型
CN112528610A (zh) * 2020-12-09 2021-03-19 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN112528610B (zh) * 2020-12-09 2023-11-14 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN114154493A (zh) * 2022-01-28 2022-03-08 北京芯盾时代科技有限公司 一种短信类别的识别方法及装置

Also Published As

Publication number Publication date
CN110750965B (zh) 2023-06-30
WO2021051574A1 (zh) 2021-03-25

Similar Documents

Publication Publication Date Title
CN110750965B (zh) 英文文本序列标注方法、系统及计算机设备
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN111222317B (zh) 序列标注方法、系统和计算机设备
CN111241304B (zh) 基于深度学习的答案生成方法、电子装置及可读存储介质
CN111651992A (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN110263152B (zh) 基于神经网络的文本分类方法、系统及计算机设备
CN111985229A (zh) 一种序列标注方法、装置及计算机设备
CN110659667A (zh) 图片分类模型训练方法、系统和计算机设备
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
WO2023134082A1 (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN117077679A (zh) 命名实体识别方法和装置
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN111191028A (zh) 样本标注方法、装置、计算机设备和存储介质
CN113342927B (zh) 敏感词识别方法、装置、设备及存储介质
CN114817523A (zh) 摘要生成方法、装置、计算机设备和存储介质
CN113377910A (zh) 情感评价方法、装置、电子设备和存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant