CN110750965A - 英文文本序列标注方法、系统及计算机设备 - Google Patents
英文文本序列标注方法、系统及计算机设备 Download PDFInfo
- Publication number
- CN110750965A CN110750965A CN201910871720.8A CN201910871720A CN110750965A CN 110750965 A CN110750965 A CN 110750965A CN 201910871720 A CN201910871720 A CN 201910871720A CN 110750965 A CN110750965 A CN 110750965A
- Authority
- CN
- China
- Prior art keywords
- matrix
- layer
- word
- target sentence
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
Description
技术领域
本发明实施例涉及计算机数据处理领域,尤其涉及一种基于神经网络的英文文本序列标注方法、系统、计算机设备以及计算机可读存储介质。
背景技术
随着网络技术的普及,文本数据资源的规模日益增长,例如CNN、BBC等新闻网站每天都会产生大量文本数据。同时,面对规模庞大的文本数据资源,人们开始借助自然语言处理(Natural Language Processing,NLP)等技术来对海量文本数据进行信息提取、挖掘、分类和归纳等一系列操作。而在自然语言处理中,序列标注模型是最常见的模型,也有着广泛地应用,其输出的是一个标签序列。通常而言,标签之间是相互联系的,构成标签之间的结构信息。利用这些结构信息,序列标注模型可以快速有效的预知文本序列中每个词语对应的标签(比如,人名,地名等)。
现有的序列标注模型,包括多层感知器(Multilayer Perceptron,MLP)、自动编码器(Auto Encoder,AE)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)等。上述序列标注模型一定程度上代替了人工特征抽取,但是标注准确率仍然较低。
因此,针对现有序列标注模型的标注准确率较低的问题,有必要在现有序列标注模型进行改进的基础上,提出一种英文文本序列标注方法,以提升标注准确率。
发明内容
有鉴于此,本发明实施例的目的是提供一种基于神经网络的英文文本序列标注方法、系统、计算机设备及计算机可读存储介质,可以有效提升标注准确率。
为实现上述目的,本发明实施例提供了一种基于神经网络的英文文本序列标注方法,所述方法包括:
通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵并将第四矩阵输入到第二dropout层以得到第二输出矩阵
提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10;
优选地,通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,包括:
将目标句子中的每个单词分割为k维列向量Ck×1,并将Ck×1输入到随机初始化得到的字符嵌入层中,通过所述字符嵌入层输出k×n的矩阵,其中,k为单词的长度;
将k×n的矩阵输入到第一LSTM层中,将所述第一LSTM层中的最后隐状态C1×n作为对应单词的向量表示,以将包含m个单词的目标句子转换为第二矩阵Cm×n。
优选地,获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10,包括:
预先统计并选取训练数据集中出现频率最高的10个后缀,收集以这些后缀结尾的多个预选单词;
记录所述多个预选单词中各个预选单词的词性和频次;
根据所述各个预选单词的词性和频次,确定所述各个预选单词的后缀是否为真实后缀;及
为所述各个预选单词建立独热向量SUV1×10:当相应预选单词的后缀被确定为真实后缀时,记录<预选单词,后缀>对,并基于该后缀在所述10个后缀中的所处位置,为该预选单词建立一个独热向量SUV1×10。
优选地,提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵包括:
通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵;
通过该卷积层对m*d维词向量矩阵做卷积操作,得到d个m*1的卷积特征图;
将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到输入向量Bm×d,1≤j≤m,1≤i≤d,其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定;及
为实现上述目的,本发明实施例还提供了基于神经网络的英文文本序列标注系统,包括:
第二输出模块,用于通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵并将第四矩阵输入到第二dropout层以得到第二输出矩阵
优选地,所述第一输出模块,还用于:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10;
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的基于神经网络的英文文本序列标注方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于神经网络的英文文本序列标注方法的步骤。
本发明实施例提供的基于神经网络的英文文本序列标注方法、系统、计算机设备以及计算机可读存储介质,通过不同的维度提取目标句子的特征,例如,提取语义、二元特征、字符级特征和形态特征等多个方面特征信息,对这些特征进行线性加权以得到的综合特征,通过这些综合特征来输出目标句子的标签序列,由于同时兼顾多个维度的特征信息,因此可以确保较高的标准准确率。
附图说明
图1为本发明基于神经网络的英文文本序列标注方法实施例一的流程图。
图2为本发明基于神经网络的英文文本序列标注系统实施例二的程序模块示意图。
图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
为了方便理解,本文对一些名词进行解释:
嵌入层,用于将目标句子中的各个单词转换为固定大小的词向量,或将各个字符转换为固定大小的字符向量。
LSTM层,为长短期记忆网络层,用于在于根据目标句子各个字符或各个单词之间的前后顺序,输出各个字符或各个单词对应的信息标注(如语义标注、词性标注等)。
dropout层,为池化层,为了防止神经网络过拟合而设置的网络层。
以下实施例将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例一之基于神经网络的英文文本序列标注方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S100,提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
在本步骤中:
提取单词信息,旨在提供目标句子中各个单词的词向量,作为本实施例目标句子的基础信息,后续提取的信息为基于不同维度的增量信息。
提取字符信息,旨在何根据一个字符的上下文来预测字母表中的下一个字符,用于获取各个单词之间的结构信息,如“man”和“policeman”具有相同的含义,存在结构上的相似性。
提取形态特征,旨在利用单词丰富的形态特征,如基于各个单词不同的后缀和拼写得到不同的形态信息,并将得到的形态信息用于单词标注中,提升单词标注的准确度。
需要说明的是,所述形态特征,是指各个单词的形态构成,如,各个单词可能具有不同的后缀,这些差异化的后缀可以被认为是这些单词的形态特征。也可以是前缀等,本实施例不做限定。
在示例性的实施例中,步骤S100包括以下步骤S100A~S100D:
步骤S100A,单词信息提取步骤:通过第一词嵌入层获取目标句子的第一矩阵Wm×d。
所述第一词嵌入层,用于将目标句子中的各个单词转换为固定大小的词向量。
m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数。
示例性的,将目标句子输入到第一词嵌入层,通过所述第一词嵌入层对所述目标句子中的m个单词分别进行词向量映射,以获取第一矩阵Wm×d(即,词向量矩阵),其中每个单词映射为一个d维词向量。
例如,将每个句子都表示为一个列向量Im×1,其中每一个元素都代表一个词,可以通过word2vec等模型,获取每个元素对应的d维词向量,例如128为词向量。
步骤S100B,字符级信息提取步骤:通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数。
所述字符嵌入层,用于将各个单词中的各个字母转换为固定大小的字符向量。
所述第一LSTM层,在于根据目标句子各个字符之间的前后顺序,输出每个字符对应的信息标注。
在示例性的实施例中,所述步骤S100B可以包括步骤S100B1~S100B2。具体如下:
步骤S100B1,将目标句子中的每个单词分割为k维列向量Ck×1,并将Ck×1输入到随机初始化得到的字符嵌入层中,通过所述字符嵌入层输出k×n的矩阵,其中,k为单词的长度,n为向量维数。不难理解,每个单词表示为一个k维列向量Ck×1,其中每一个元素都代表一个字符,获取每个字符对应的n维字符向量,从而得到k×n的矩阵。
步骤S100B2,将k×n的矩阵输入到第一LSTM层中,将所述第一LSTM层中的最后隐状态C1×n作为对应单词的向量表示,以将包含m个单词的目标句子转换为第二矩阵Cm×n。
步骤S100C,形态信息提取步骤:获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10。
在示例性的实施例中,所述步骤S100C可以包括步骤S100C1~S100C4。具体如下:
步骤S100C1,预先统计并选取训练数据集中出现频率最高的10个后缀,收集以这些后缀结尾的多个预选单词。
步骤S100C2,根据所述各个预选单词的词性和频次,确定所述各个预选单词的后缀是否为真实后缀。
步骤S100C3,记录所述多个预选单词中各个预选单词的词性和频次。
步骤S100C4,为所述各个预选单词建立独热向量SUV1×10:当相应预选单词的后缀被确定为真实后缀时,记录<预选单词,后缀>对,并基于该后缀在所述10个后缀中的所处位置,为该预选单词建立一个独热向量SUV1×10。
由上可知,目标句子包括m个单词,则具有m个独热向量,因此构成第三矩阵SUVm×10。
所述形态特征在于关注单词的后缀与拼写特征。
假设一个词性为x的单词w的后缀为s,则该单词在训练数据集中超过了一个频率阈值,那么s就是w的真实后缀,并记录(w,s)对,对每个单词建立一个独热向量SUV1×10。示例性的,如果该单词的独热向量SUV1×10中的位置k处的元素值为1,则表示该单词有第k个后缀。
步骤S100D,拼接第一矩阵Wm×d、第二矩阵Cm×n和第三矩阵SUVm×10,将拼接后的拼接向量矩阵[Wm×d,Cm×n,SUVm×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
BI-LSTM(Bi-directional Long Short-Term Memory,双向长短期记忆神经网络),第一层为输入层(inputlayer),第二层和第三层为BI-LSTM层,最后一层为输出层(outputlayer)。BI-LSTM层是由两层LSTM组成,其中一个按照序列的输入顺序来处理,另一个则是按照序列输入的相反方向来对序列进行处理。
进一步的,通过所述第一BI-LSTM层输出第一输出矩阵的步骤如下:
ft=σ(Wf[xt,ht-1]+bf),其中ft∈[0,1],表示t时刻的节点对t-1时刻细胞记忆的选择权重,Wf为遗忘门的权重矩阵,bf为遗忘门的偏置项,表示t-1节点的隐层状态信息,非线性函数σ(x)=1/(1+e-x);
(2)通过sigmoid来决定哪些值用来更新,并通过tanh层用来生成新的候选值qt,它作为当前层产生的候选值可能会添加到记忆单元状态中,把这两部分产生的值结合来进行更新:
it=σ(Wi[xt,ht-1]+bi),其中it∈[0,1]表示t时刻的节点对当前节点信息的选择权重,bi为输入门的偏置项,Wi为输入门的权重矩阵,非线性函数σ(x)=1/(1+e-x);
当前节点输入信息qt=tanh(Wq[ht-1,xt]+bq),其中bq为偏置项,Wq表示待更新信息的权重矩阵,tanh为双曲正切激活函数,xt表示t时刻前向LSTM层的输入向量,表示t-1节点的隐层状态信息;
对旧的记忆单元状态进行更新,添加新信息:
当前输出记忆信息Ct=ft*Ct-1+it*qt),其中qt表示t-1节点的记忆信息,ft表示t时刻的节点对t-1时刻细胞记忆的选择权重,it表示t时刻的节点对当前节点信息的选择权重;
(3)前向LSTM层输出;
步骤S200,选择性信息提取步骤:通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵并将第四矩阵输入到第二dropout层以得到第二输出矩阵
所述第二BI-LSTM层,在于根据目标句子各个单词之间的前后顺序,输出每个字符对应的信息标注。
k为每个单词的长度,m为目标句子中的单词个数,d为单词的词向量维数。
I(k×m)×1来表示每个句子的字符矩阵,该矩阵是经过字符嵌入层的句子所构成,它包含有上下文信息和字符信息。通过第二嵌入层来将其转换为k×m×d维的矩阵,并将其输入到第二BI-LSTM层之后得到综上可表示为:
步骤S300,提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
在本步骤中:
提取语义信息,从语义维度为对所述目标句子的各个单词进行信息标注。
提取二元信息,旨在提取目标句子的深度特征,进而用于信息标注。
在示例性的实施例中,所述步骤S300可以包括步骤S300A~S300B。具体如下:
步骤S300A,语义信息提取步骤:通过语义嵌入层获取目标句子的各个单词进行标注,将标注后的各个单词输入到第三BI-LSTM层中以得到第五矩阵Sm×d,并将第五矩阵Sm×d输入到第三dropout层以得到第三输出矩阵
示例性的,可以用预训练好的AdaGram模型来初始化语义嵌入层;
通过语义嵌入层中的disambiguate函数标注目标句子中的各个单词的语义标注信息,例如:“apple”会被标注成“apple_n”,其中n为apple的第n个意思),将标注后的目标句子输入到第三BI-LSTM层得到表示语义级上下文特征的第五矩阵Sm×d。
二元信息,在于通过卷积层进行卷积操作,以得到卷积特征图,然后根据卷积特征图中特征输入到循环神经网络中,从而输出相应的信息标注。
在示例性的实施例中,所述步骤S300B可以包括步骤S300B1~S300B3。具体如下:
步骤S300B1,通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵。
步骤S300B2,通过该卷积层对m*d维词向量矩阵做卷积操作,得到d个m*1的卷积特征图。
即,每个卷积特征图的宽度为1,长度为m。卷积核为2*d,单词数量为m个,卷积核的数量也为d个。
卷积特征图中的m*1个元素,计算公式如下:
cij=f(wij⊙mi+bi)
其中,cij为第i个特征卷积图中的m中的第j个元素的特征值,wij为对应第i个卷积特征图的被卷积核所覆盖到的词向量矩阵,⊙表示矩阵相乘,mi为用于计算第i个卷积特征图的卷积核,bi为用于计算第i个卷积特征图的偏置项,f为非线性的激活函数,如ReLU函数。
步骤S300B3,将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到m个d维输入向量(即Bm×d),1≤j≤m,1≤i≤d,其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定;
将步骤S100~S300从各个维度提取的特征信息进行加权进行线性加权以得到的综合特征,通过这些综合特征作为输出矩阵的标签序列的基础,具体可以如下。
示例性的:
其中,A是状态转移矩阵,Ai,j代表从第i个标签转移到第j个标签的概率;
通过求得最大的s(X,y),即可得到最佳的输出标签序列。
实施例二
请继续参阅图2,示出了本发明基于神经网络的英文文本序列标注系统实施例二的程序模块示意图。在本实施例中,基于神经网络的英文文本序列标注系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于神经网络的英文文本序列标注方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于神经网络的英文文本序列标注系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
第二输出模块202,用于通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵并将第四矩阵输入到第二dropout层以得到第二输出矩阵
所述第一输出模块200,还用于:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10;
优选地,所述第一输出模块200,还用于:
将目标句子中的每个单词分割为k维列向量Ck×1,并将Ck×1输入到随机初始化得到的字符嵌入层中,通过所述字符嵌入层输出k×n的矩阵,其中,k为单词的长度;
将k×n的矩阵输入到第一LSTM层中,将所述第一LSTM层中的最后隐状态C1×n作为对应单词的向量表示,以将包含m个单词的目标句子转换为第二矩阵Cm×n。
优选地,所述第一输出模块200,还用于:
预先统计并选取训练数据集中出现频率最高的10个后缀,收集以这些后缀结尾的多个预选单词;
记录所述多个预选单词中各个预选单词的词性和频次;
根据所述各个预选单词的词性和频次,确定所述各个预选单词的后缀是否为真实后缀;及
为所述各个预选单词建立独热向量SUV1×10:当相应预选单词的后缀被确定为真实后缀时,记录<预选单词,后缀>对,并基于该后缀在所述10个后缀中的所处位置,为该预选单词建立一个独热向量SUV1×10。
优选地,第三输出模块204,还用于,包括:
优选地,第四输出模块206,还用于通过第三词嵌入层和卷积层获取目标句子的第六矩阵Bm×d,并将第六矩阵Bm×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
优选地,所述第四输出模块206,还用于:
通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵;
通过该卷积层对m*d维词向量矩阵做卷积操作,得到d个m*1的卷积特征图;
将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到输入向量Bm×d,1≤j≤m,1≤i≤d,其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定;及
实施例三
参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于神经网络的英文文本序列标注系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例五的基于神经网络的英文文本序列标注系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于神经网络的英文文本序列标注系统20,以实现实施例一的基于神经网络的英文文本序列标注方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述基于神经网络的英文文本序列标注系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图2示出了所述实现基于神经网络的英文文本序列标注系统20实施例二的程序模块示意图,该实施例中,所述基于神经网络的英文文本序列标注系统20可以被划分第一输出模块200、第二输出模块202、第三输出模块204、第四输出模块206、线性计算模块208、第五输出模块210和第六输出模块212。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于神经网络的英文文本序列标注系统20在所述计算机设备2中的执行过程。所述程序模块200-212的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于神经网络的英文文本序列标注系统20,被处理器执行时实现实施例一的基于神经网络的英文文本序列标注方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于神经网络的英文文本序列标注方法,其特征在于,所述方法包括:
通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵并将第四矩阵输入到第二dropout层以得到第二输出矩阵
提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵
2.根据权利要求1所述的基于神经网络的英文文本序列标注方法,其特征在于,提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵包括:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10;
3.根据权利要求2所述的基于神经网络的英文文本序列标注方法,其特征在于,通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,包括:
将目标句子中的每个单词分割为k维列向量Ck×1,并将Ck×1输入到随机初始化得到的字符嵌入层中,通过所述字符嵌入层输出k×n的矩阵,其中,k为单词的长度;
将k×n的矩阵输入到第一LSTM层中,将所述第一LSTM层中的最后隐状态C1×n作为对应单词的向量表示,以将包含m个单词的目标句子转换为第二矩阵Cm×n。
4.根据权利要求2所述的基于神经网络的英文文本序列标注方法,其特征在于,获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10,包括:
预先统计并选取训练数据集中出现频率最高的10个后缀,收集以这些后缀结尾的多个预选单词;
记录所述多个预选单词中各个预选单词的词性和频次;
根据所述各个预选单词的词性和频次,确定所述各个预选单词的后缀是否为真实后缀;及
为所述各个预选单词建立独热向量SUV1×10:当相应预选单词的后缀被确定为真实后缀时,记录<预选单词,后缀>对,并基于该后缀在所述10个后缀中的所处位置,为该预选单词建立一个独热向量SUV1×10。
5.根据权利要求1所述的基于神经网络的英文文本序列标注方法,其特征在于,提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵以及将二元信息输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵包括:
6.根据权利要求5所述的基于神经网络的英文文本序列标注方法,其特征在于,通过第三词嵌入层和卷积层获取目标句子的第六矩阵Bm×d,并将第六矩阵Bm×d输入到第四Bi-LSTM层和第四dropout层以得到第四输出矩阵包括:
通过第三词嵌入层获取所述目标句子中各个单词的m*d词向量矩阵;
通过该卷积层对m*d维词向量矩阵做卷积操作,得到d个m*1的卷积特征图;
将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到输入向量Bm×d,1≤j≤m,1≤i≤d,其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定;及
将Bm×d依顺序输入到所述第四BI-LSTM层中,并经过所述第四dropout层输出第四输出矩阵
7.一种基于神经网络的英文文本序列标注系统,其特征在于,包括:
第二输出模块,用于通过所述字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵并将第四矩阵输入到第二dropout层以得到第二输出矩阵
8.根据权利要求7所述的基于神经网络的英文文本序列标注系统,其特征在于,所述第一输出模块,还用于:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10;
9.一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于神经网络的英文文本序列标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至6中任一项所述的基于神经网络的英文文本序列标注方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871720.8A CN110750965B (zh) | 2019-09-16 | 2019-09-16 | 英文文本序列标注方法、系统及计算机设备 |
PCT/CN2019/117771 WO2021051574A1 (zh) | 2019-09-16 | 2019-11-13 | 英文文本序列标注方法、系统及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871720.8A CN110750965B (zh) | 2019-09-16 | 2019-09-16 | 英文文本序列标注方法、系统及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750965A true CN110750965A (zh) | 2020-02-04 |
CN110750965B CN110750965B (zh) | 2023-06-30 |
Family
ID=69276480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910871720.8A Active CN110750965B (zh) | 2019-09-16 | 2019-09-16 | 英文文本序列标注方法、系统及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110750965B (zh) |
WO (1) | WO2021051574A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115688A (zh) * | 2020-09-18 | 2020-12-22 | 南方电网深圳数字电网研究院有限公司 | 一种基于bio的web端文本标注方法及系统 |
CN112183086A (zh) * | 2020-09-23 | 2021-01-05 | 北京先声智能科技有限公司 | 基于意群标注的英语发音连读标记模型 |
CN112528610A (zh) * | 2020-12-09 | 2021-03-19 | 北京百度网讯科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN114154493A (zh) * | 2022-01-28 | 2022-03-08 | 北京芯盾时代科技有限公司 | 一种短信类别的识别方法及装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949320A (zh) * | 2021-03-30 | 2021-06-11 | 平安科技(深圳)有限公司 | 基于条件随机场的序列标注方法、装置、设备及介质 |
CN113378547B (zh) * | 2021-06-16 | 2023-07-21 | 武汉大学 | 一种基于gcn的汉语复句隐式关系分析方法及装置 |
CN113326698B (zh) * | 2021-06-18 | 2023-05-09 | 深圳前海微众银行股份有限公司 | 检测实体关系的方法、模型训练方法及电子设备 |
CN113836929A (zh) * | 2021-09-28 | 2021-12-24 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及存储介质 |
CN114492451B (zh) * | 2021-12-22 | 2023-10-24 | 马上消费金融股份有限公司 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11086918B2 (en) * | 2016-12-07 | 2021-08-10 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for multi-label classification |
CN108038103B (zh) * | 2017-12-18 | 2021-08-10 | 沈阳智能大数据科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
CN108717409A (zh) * | 2018-05-16 | 2018-10-30 | 联动优势科技有限公司 | 一种序列标注方法及装置 |
-
2019
- 2019-09-16 CN CN201910871720.8A patent/CN110750965B/zh active Active
- 2019-11-13 WO PCT/CN2019/117771 patent/WO2021051574A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115688A (zh) * | 2020-09-18 | 2020-12-22 | 南方电网深圳数字电网研究院有限公司 | 一种基于bio的web端文本标注方法及系统 |
CN112183086A (zh) * | 2020-09-23 | 2021-01-05 | 北京先声智能科技有限公司 | 基于意群标注的英语发音连读标记模型 |
CN112528610A (zh) * | 2020-12-09 | 2021-03-19 | 北京百度网讯科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN112528610B (zh) * | 2020-12-09 | 2023-11-14 | 北京百度网讯科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN114154493A (zh) * | 2022-01-28 | 2022-03-08 | 北京芯盾时代科技有限公司 | 一种短信类别的识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110750965B (zh) | 2023-06-30 |
WO2021051574A1 (zh) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750965B (zh) | 英文文本序列标注方法、系统及计算机设备 | |
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN111222317B (zh) | 序列标注方法、系统和计算机设备 | |
CN111241304B (zh) | 基于深度学习的答案生成方法、电子装置及可读存储介质 | |
CN111651992A (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN110263152B (zh) | 基于神经网络的文本分类方法、系统及计算机设备 | |
CN111985229A (zh) | 一种序列标注方法、装置及计算机设备 | |
CN110659667A (zh) | 图片分类模型训练方法、系统和计算机设备 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN113158687B (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
WO2023134082A1 (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN113723077B (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN114064852A (zh) | 自然语言的关系抽取方法、装置、电子设备和存储介质 | |
CN112188311B (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN117077679A (zh) | 命名实体识别方法和装置 | |
CN111611796A (zh) | 下位词的上位词确定方法、装置、电子设备及存储介质 | |
CN111191028A (zh) | 样本标注方法、装置、计算机设备和存储介质 | |
CN113342927B (zh) | 敏感词识别方法、装置、设备及存储介质 | |
CN114817523A (zh) | 摘要生成方法、装置、计算机设备和存储介质 | |
CN113377910A (zh) | 情感评价方法、装置、电子设备和存储介质 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |