CN110866115B - 序列标注方法、系统、计算机设备及计算机可读存储介质 - Google Patents
序列标注方法、系统、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110866115B CN110866115B CN201910984286.4A CN201910984286A CN110866115B CN 110866115 B CN110866115 B CN 110866115B CN 201910984286 A CN201910984286 A CN 201910984286A CN 110866115 B CN110866115 B CN 110866115B
- Authority
- CN
- China
- Prior art keywords
- sequence
- sample data
- vector
- training sample
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种序列标注方法,包括:获取训练样本集,所述训练样本集包括多个训练样本数据,每个训练样本数据包括一输入文本序列以及输入文本序列对应的标签;对每个所述训练样本数据进行预处理,以得到各个所述训练样本数据对应的向量数据;将各个所述训练样本数据对应的向量数据输入到一阶隐马尔可夫模型中,以构建各个训练样本数据匹配的特征向量;将各个所述样本数据对应的特征向量输入到神经网络模型中进行训练,以生成序列标注模型;将待标注序列输入至序列标注模型中,以得到待标注序列对应的目标标签序列。本发明实施例还公开了一种序列标注系统、计算机设备及可读存储介质。本发明实施例的有效果在于使得序列标注更加准确。
Description
技术领域
本发明实施例涉及自然语音处理技术领域,尤其涉及一种序列标注方法、系统、计算机设备及计算机可读存储介质。
技术背景
目前,序列标注是自然语言处理中一项基本且重要的问题,它包括分词,词性标注,命名实体识别,关系抽取等任务。序列标注问题也是结构学习中的一个经典问题,其通过找到来得到对于序列x的标注y。
结构支持向量机是结构学习的一种经典方法,结构支持向量机的目标不仅是最大化正确标签序列的分数,而且要最大化正确标签序列的分数与最近的不正确标签序列的分数之间的差距。结构支持向量机序列标注中取得了不错的效果,但是始终受限于自身的线性假设,因此不够准确。
发明内容
有鉴于此,本发明实施例的目的是提供一种序列标注方法、系统、计算机设备及计算机可读存储介质,采用了一阶隐马尔科夫对特征向量进行构建及神经网络模型进行评分值的运算,使得序列标注更加准确。
为实现上述目的,本发明实施例提供了一种序列标注方法,包括:
获取训练样本集,所述训练样本集包括多个训练样本数据,每个所述训练样本数据包括一输入文本序列以及所述输入文本序列对应的标签;
对每个所述训练样本数据进行预处理,以得到各个所述训练样本数据对应的向量数据;
将各个所述训练样本数据对应的向量数据输入到一阶隐马尔可夫模型中,以构建各个训练样本数据匹配的特征向量Ψ(X,Y);
将各个所述样本数据对应的特征向量Ψ(X,Y)输入到神经网络模型中进行训练,以生成序列标注模型;
将待标注序列输入至所述序列标注模型中,以得到所述待标注序列对应的目标标签序列,所述目标标签序列包括所述待标注序列及对应的目标标签。
进一步地,对每个所述训练样本数据进行预处理,以得到各个所述训练样本数据对应的向量数据的步骤,包括:
将所述训练样本数据的输入文本序列使用word2vec模型进行分词处理,得到所述输入文本序列的词向量;
将每个所述输入文本序列的词向量根据对应的标签进行OneHot编码,得到对应的标注向量;若标签有m种类别,相应的输入文本序列的词向量进行OneHot编码后对应为m维标注向量;
其中,所述向量数据包括词向量和m维标注向量。
进一步地,所述一阶隐马尔可夫模型构建各个训练样本数据匹配的特征向量Ψ(X,Y)的计算公式为:
其中,张量乘积的定义为:RP×RQ→RPQ,/>M表示标注向量的维度,x、y表示坐标值,j表示隐马尔可夫模型的阶数。
进一步地,将各个所述样本数据对应的特征向量Ψ(X,Y)输入到神经网络模型中进行训练,以生成序列标注模型的步骤,包括:
将每个特征向量Ψ(X,Y)输入到神经网络模型,得到对应的样本评分值F1(xi,yi;θ),每个特征向量对应一层神经网络模型;
获取样本数据的输入文本序列的预设的目标评分值F1(x,y;θ);
根据损失函数、样本评分值F1与目标评分值F2优化神经网络模型,以得到序列标注模型。
进一步地,定义具有如下形式的损失函数作为优化目标:
L′i(θ2)=∑ymax(0,F1(xi,y;θ2)+Δ(yi,y))-F1(xi,yi;θ2);
其中样本评分值F1为深度神经网络的输出,xi为样本数据的输入文本序列,yi为xi对应的目标标签序列,y为任意标签序列,Δ(yi,y)定义为任一样本评分值与输出评分值之间的标注错误率,Li′表示损失函数,θ2表示样本数据的状态。
进一步地,所述目标神经网络的训练公式为:
h1=σ(W0·ψ(x,y));
hl=σ(Wl-1·hl-1),2≤l≤L;
F1(x,y;θ2)=σ(WL·hL);
其中,h指每一层神经网络模型的输出,hl即代表第l层的输出,L表示特征向量的数目,W0为第1层神经网络模型的权重矩阵,σ表示非线性激活函数,θ2表示样本数据的状态,第L层的神经网络模型权重WL为一个向量,根据该向量输出一个值,即样本评分值F1。
进一步地,将待标注序列输入至所述序列标注模型中,以得到所述待标注序列对应的目标标签序列的步骤,包括:
将待标注序列输入至所述序列标注模型中,得到多个评分值;
选取所述多个评分值中的评分值最高的标注序列,作为所述待标注序列对应的目标标签序列。
为实现上述目的,本发明实施例还提供了一种序列标注系统,包括:
获取模块,用于获取训练样本集,所述训练样本集包括多个训练样本数据,每个训练样本数据包括一输入文本序列以及该输入文本序列对应的标签;
预处理模块,用于对每个训练样本数据进行预处理,以得到各个训练样本数据对应的向量数据;
构建模块,用于将各个训练样本数据对应的向量数据输入到一阶隐马尔可夫模型中,以构建各个训练样本数据匹配的特征向量Ψ(X,Y);
生成模块,用于将各个样本数据对应的所述特征向量Ψ(X,Y)输入到神经网络模型中进行训练,以生成序列标注模型;
输出模块,用于将待标注序列输入至所述序列标注模型中,以得到所述待标注序列对应的目标标签序列,所述目标标签序列包括所述待标注序列及对应的目标标签。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的序列标注系统,所述序列标注系统被所述处理器执行时实现如上所述的序列标注方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的序列标注方法的步骤。
本发明实施例提供的序列标注方法、系统、计算机设备及计算机可读存储介质,通过对训练样本数据进行预处理得到向量数据,再经过一阶隐马尔可夫模型构建特征向量,将特征向量输入到神经网络模型中,生成序列标注模型,以便后续待标注序列进行序列标注。由于采用了一阶隐马尔科夫对特征向量进行构建及神经网络模型进行评分值的运算,使得待标注序列的序列标注更加准确。
附图说明
图1为本发明序列标注方法实施例一的流程图。
图2为本发明实施例一步骤S102的流程图。
图3为本发明实施例一步骤S106的流程图。
图4为本发明实施例一步骤S108的流程图。
图5为本发明序列标注系统实施例二的程序模块示意图。
图6为本发明计算机设备实施例三的硬件结构示意图。
图7为本发明实施例一构建一阶隐马尔可夫模型的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,示出了本发明实施例一之序列标注方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,获取训练样本集,所述训练样本集包括多个训练样本数据,每个所述训练样本数据包括一输入文本序列以及所述输入文本序列对应的标签。
具体地,训练样本集包括多个输入文本序列,每个输入文本序列对应一个训练样本数据,输入文本序列包括含有多个关键词的句子,根据关键词的词性确定该句子对应的标签,可人工对标签进行设置,将输入文本序列及对应的标签进行关联。例如:关键词为苹果、梨子、香蕉,则设置对应的标签为A、B、C。
步骤S102,对每个所述训练样本数据进行预处理,以得到各个所述训练样本数据对应的向量数据。
具体地,预处理包括对训练样本数据进行分词及编码处理,进而得到训练样本数据的向量数据,向量数据包括训练样本数据的词向量和m维标注向量,m为正整数。
示例性地,参阅图2,步骤S102进一步包括:
步骤S102A,将所述训练样本数据的输入文本序列使用word2vec模型进行分词处理,得到所述输入文本序列的词向量。
具体地,使用word2vec模型来将每个输入文本序列中的词映射到一个向量,可用来表示词对词之间的关系,例如词出现的先后顺序,将每个输入文本序列的词向量根据词间关系进行排序,得到输入文本序列。
步骤S102B,将每个所述输入文本序列的词向量根据对应的标签进行OneHot编码,得到对应的标注向量;若标签有m种类别,相应的输入文本序列的词向量进行OneHot编码后对应为m维标注向量。
其中,所述向量数据包括词向量和m维标注向量。
示例性地,OneHot编码的原则为:若输入文本序列中的某一分词属于某一种标签,则该分词编码后,所属维度的值为1,其余维度为0,得到多维的标注向量,输入文本序列进行OneHot编码后得到标注序列。
例如:若有ABC三种标签,则输入文本序列进行OneHot编码后对应的标注向量分别为(1,0,0),(0,1,0),(0,0,1)。
步骤S104,将各个所述训练样本数据对应的向量数据输入到一阶隐马尔可夫模型中,以构建各个训练样本数据匹配的特征向量Ψ(X,Y)。
示例性地,步骤S104中的特征向量Ψ(X,Y)的计算公式为:
其中,张量乘积的定义为:RP×RQ→RPQ,/>M表示标注向量的维度,x、y表示坐标值,j表示隐马尔可夫模型的阶数。
具体地,若训练样本数据进行分词后得到4个单词的输入文本序列,每个单词是进行word2vec编码后的词向量表示为(1.2,2.6),(2.3,0.7),(0.4,1.6),(1.5,2.5),标签定义为ABBC,则特征向量Ψ(X,Y)根据一阶隐马尔可夫模型的构建如图7所示。
此时,得到进行一阶隐马尔科夫后的新标注向量,即特征向量Ψ(X,Y)。
步骤S106,将各个所述样本数据对应的特征向量Ψ(X,Y)输入到神经网络模型中进行训练,以生成序列标注模型。
具体地,神经网络模型为深度学习网络模型。本发明中对深度网络学习模型通过以下过程进行优化,得到序列标注模型。将每个特征向量Ψ(X,Y)输入到深度学习网络模型,输出为样本评分值F1,每维向量对应一层深度学习网络模型。利用损失函数将样本评分值F1与目标评分值F2之间的差值最小化,以使深度学习网络模型输出唯一的样本评分值F1,训练得到可对特征向量进行序列标注的序列标注模型。
示例性地,参阅图3,步骤S106进一步包括:
步骤S106A,将每个特征向量Ψ(X,Y)输入到神经网络模型,得到对应的样本评分值F1(xi,yi;θ),每个特征向量对应一层神经网络模型。
步骤S106B,获取样本数据的输入文本序列的预设的目标评分值F2(x,y;θ)。
具体地,首先对输入文本序列的评分值进行预设,得到目标评分值F2。
步骤S106C,根据损失函数、样本评分值F1与目标评分值F2优化神经网络模型,以得到序列标注模型。
示例性地,定义具有如下形式的损失函数作为优化目标:
L′i(θ2)=∑ymax(0,F1(xi,y;θ2)+Δ(yi,y))-F1(xi,yi;θ2);
其中样本评分值F1为深度神经网络的输出,xi为样本数据的输入文本序列,yi为xi对应的目标标签序列,y为任意标签序列,Δ(yi,y)定义为任一样本评分值与输出评分值之间的标注错误率,Li′表示损失函数,θ2表示样本数据的状态。
示例性地,所述目标神经网络的训练公式为:
h1=σ(W0·ψ(x,y));
hl=σ(Wl-1·hl-1),2≤l≤L;
F1(x,y;θ2)=σ(WL·hL);
其中,h指每一层神经网络模型的输出,hl即代表第l层的输出,L表示特征向量的数目,W0为第1层神经网络模型的权重矩阵,σ表示非线性激活函数,θ2表示样本数据的状态,第L层的神经网络模型权重WL为一个向量,根据该向量输出一个值,即样本评分值F1。
具体地,根据上述损失函数,当目标评分值F1-输出评分值F2<Δ(yi,y)时,损失函数将会增加;Δ(yi,y)即为间隔;Δ(yi,y)定义为任一样本评分值与输出评分值之间的标注错误率。因此最小化损失函数即可使样本序列的目标评分值在输出评分值的间隔范围之外,间隔范围预设。将损失函数的误差反馈回深度神经网络进行参数优化,最终使得损失函数最小化,也就可以对输入文本序列进行正确的评分。
步骤S108,将待标注序列输入至所述序列标注模型中,以得到所述待标注序列对应的目标标签序列。
具体地,序列标注模型输出待标注序列对应的评分值,选取评分值最大的为最终的评分值,找到该评分值对应的待标注序列的目标标签序列,所述目标标签序列包括所述待标注序列及对应的目标标签。
示例性地,参阅图4,步骤S108进一步包括:
步骤S108A,将待标注序列输入至所述序列标注模型中,得到多个评分值。
步骤S108B,选取所述多个评分值中的最大评分值对应的标注序列作为所述待标注序列对应的目标标签序列。
实施例二
请继续参阅图5,示出了本发明序列标注系统实施例二的程序模块示意图。在本实施例中,序列标注系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述序列标注方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述序列标注系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于获取训练样本集,所述训练样本集包括多个训练样本数据,每个训练样本数据包括一输入文本序列以及该输入文本序列对应的标签。
具体地,训练样本集包括多个输入文本序列,每个输入文本序列对应一个训练样本数据,输入文本序列包括含有多个关键词的句子,根据关键词的词性确定该句子对应的标签,可人工对标签进行设置,将输入文本序列及对应的标签进行关联。例如:关键词为苹果、梨子、香蕉,则设置对应的标签为A、B、C。
预处理模块202,用于对每个训练样本数据进行预处理,以得到各个训练样本数据对应的向量数据。
具体地,预处理包括对训练样本数据进行分词及编码处理,进而得到训练样本数据的向量数据,向量数据包括训练样本数据的词向量和m维标注向量,m为正整数。
示例性地,预处理模块202还用于:
将所述训练样本数据的输入文本序列使用word2vec模型进行分词处理,得到所述输入文本序列的词向量。
具体地,使用word2vec模型来将每个输入文本序列中的词映射到一个向量,可用来表示词对词之间的关系,例如词出现的先后顺序,将每个输入文本序列的词向量根据词间关系进行排序,得到输入文本序列。
将每个所述输入文本序列的词向量根据对应的标签进行OneHot编码,得到对应的标注向量;若标签有m种类别,相应的输入文本序列的词向量进行OneHot编码后对应为m维标注向量。
其中,所述向量数据包括词向量和m维标注向量。
示例性地,OneHot编码的原则为:若输入文本序列中的某一分词属于某一种标签,则该分词编码后,所属维度的值为1,其余维度为0,得到多维的标注向量,输入文本序列进行OneHot编码后得到标注序列。
例如:若有ABC三种标签,则输入文本序列进行OneHot编码后对应的标注向量分别为(1,0,0),(0,1,0),(0,0,1)。
构建模块204,用于将各个训练样本数据对应的向量数据输入到一阶隐马尔可夫模型中,以构建各个训练样本数据匹配的特征向量Ψ(X,Y)。
示例性地,步骤S104中的特征向量Ψ(X,Y)的计算公式为:
其中,张量乘积的定义为:RP×RQ→RPQ,/>M表示标注向量的维度,x、y表示坐标值,j表示隐马尔可夫模型的阶数。
具体地,若训练样本数据进行分词后得到4个单词的输入文本序列,每个单词是进行word2vec编码后的词向量表示为(1.2,2.6),(2.3,0.7),(0.4,1.6),(1.5,2.5),标签定义为ABBC,则特征向量Ψ(X,Y)根据一阶隐马尔可夫模型的构建如图7所示。
此时,得到进行一阶隐马尔科夫后的新标注向量,即特征向量Ψ(X,Y)。
生成模块206,用于将各个样本数据对应的所述特征向量Ψ(X,Y)输入到神经网络模型中进行训练,以生成序列标注模型。
具体地,神经网络模型为深度学习网络模型。本发明中对深度网络学习模型通过以下过程进行优化,得到序列标注模型。将每个特征向量Ψ(X,Y)输入到深度学习网络模型,输出为样本评分值F1,每维向量对应一层深度学习网络模型。利用损失函数将样本评分值F1与目标评分值F2之间的差值最小化,以使深度学习网络模型输出唯一的样本评分值F1,训练得到可对特征向量进行序列标注的序列标注模型。
示例性地,生成模块206还用于:
将每个特征向量Ψ(X,Y)输入到神经网络模型,得到对应的样本评分值F1(xi,yi;θ),每个特征向量对应一层神经网络模型。
获取样本数据的输入文本序列的预设的目标评分值F2(x,y;θ)。
根据损失函数、样本评分值F1与目标评分值F2优化神经网络模型,以得到序列标注模型。
具体地,首先对输入文本序列的评分值进行预设,得到目标评分值F2。
示例性地,定义具有如下形式的损失函数作为优化目标:
L′i(θ2)=∑ymax(0,F1(xi,y;θ2)+Δ(yi,y))-F1(xi,yi;θ2);
其中样本评分值F1为深度神经网络的输出,xi为样本数据的输入文本序列,yi为xi对应的目标标签序列,y为任意标签序列,Δ(yi,y)定义为任一样本评分值与输出评分值之间的标注错误率,Li′表示损失函数,θ2表示样本数据的状态。
示例性地,所述目标神经网络的训练公式为:
h1=σ(W0·ψ(x,y));
hl=σ(Wl-1·hl-1),2≤l≤L;
F1(x,y;θ2)=σ(WL·hL);
其中,h指每一层神经网络模型的输出,hl即代表第l层的输出,L表示特征向量的数目,W0为第1层神经网络模型的权重矩阵,σ表示非线性激活函数,θ2表示样本数据的状态,第L层的神经网络模型权重WL为一个向量,根据该向量输出一个值,即样本评分值F1。
具体地,根据上述损失函数,当目标评分值F1(x,y;θ)-输出评分值F2(x,y;θ)<Δ(yi,y)时,损失函数将会增加;Δ(yi,y)即为间隔;Δ(yi,y)定义为任一样本评分值与输出评分值之间的标注错误率。因此最小化损失函数即可使样本序列的目标评分值在输出评分值的间隔范围之外,间隔范围预设。将损失函数的误差反馈回深度神经网络进行参数优化,最终使得损失函数最小化,也就可以对输入文本序列进行正确的评分。
输出模块208,用于将待标注序列输入至所述序列标注模型中,以得到所述待标注序列对应的目标标签序列。
具体地,序列标注模型输出待标注序列对应的评分值,选取评分值最大的为最终的评分值,找到该评分值对应的待标注序列的目标标签序列,所述目标标签序列包括所述待标注序列及对应的目标标签。
示例性地,输出模块208还用于:
将待标注序列输入至所述序列标注模型中,得到多个评分值;
选取所述多个评分值中的最大评分值对应的标注序列作为所述待标注序列对应的目标标签序列。
实施例三
参阅图6,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图6所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及序列标注系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的序列标注系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行序列标注系统20,以实现实施例一的序列标注方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述服务器2与外部终端相连,在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是,图6仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述序列标注系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图5示出了所述实现序列标注系统20实施例二的程序模块示意图,该实施例中,所述序列标注系统20可以被划分为获取模块200、预处理模块202、构建模块204、生成模块206与输出模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述序列标注系统20在所述计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储序列标注系统20,被处理器执行时实现实施例一的序列标注方法。
本发明实施例提供的序列标注方法、系统、计算机设备及计算机可读存储介质,通过对训练样本数据进行预处理得到向量数据,再经过一阶隐马尔可夫模型构建特征向量,将特征向量输入到被优化的神经网络模型中,生成序列标注模型,以便后续待标注序列进行序列标注。由于采用了一阶隐马尔科夫对特征向量进行构建及神经网络模型进行评分值的运算,使得待标注序列的序列标注更加准确。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种序列标注方法,其特征在于,包括:
获取训练样本集,所述训练样本集包括多个训练样本数据,每个所述训练样本数据包括一输入文本序列以及所述输入文本序列对应的标签;
对每个所述训练样本数据进行预处理,以得到各个所述训练样本数据对应的向量数据;
将各个所述训练样本数据对应的向量数据输入到一阶隐马尔可夫模型中,以构建各个训练样本数据匹配的特征向量Ψ(X,Y);
将各个所述样本数据对应的特征向量Ψ(X,Y)输入到神经网络模型中进行训练,以生成序列标注模型;
将待标注序列输入至所述序列标注模型中,以得到所述待标注序列对应的目标标签序列,所述目标标签序列包括所述待标注序列及对应的目标标签;
其中,将各个所述样本数据对应的特征向量Ψ(X,Y)输入到神经网络模型中进行训练,以生成序列标注模型的步骤,包括:
将每个特征向量Ψ (X,Y)输入到神经网络模型,得到对应的样本评分值,每个特征向量对应一层神经网络模型;
获取样本数据的输入文本序列的预设的目标评分值F2;
根据损失函数、样本评分值与目标评分值F2优化神经网络模型,以得到序列标注模型;定义具有如下形式的损失函数作为优化目标:
;
;
其中样本评分值为深度神经网络的输出,xi为样本数据的输入文本序列,yi为xi对应的目标标签序列,y为任意标签序列,/>定义为任一样本评分值与输出评分值之间的标注错误率,Li′表示损失函数,θ2表示样本数据的状态;所述样本评分值的计算公式为:
;
,2≤l≤L;
;
其中,h指每一层神经网络模型的输出,hl即代表第l层的输出,L表示特征向量的数目,W0为第1层神经网络模型的权重矩阵,σ表示非线性激活函数,θ2表示样本数据的状态,第L层的神经网络模型权重WL为一个向量,根据该向量输出一个值,即样本评分值。
2.根据权利要求1所述的序列标注方法,其特征在于,对每个所述训练样本数据进行预处理,以得到各个所述训练样本数据对应的向量数据的步骤,包括:
将所述训练样本数据的输入文本序列使用word2vec模型进行分词处理,得到所述输入文本序列的词向量;
将每个所述输入文本序列的词向量根据对应的标签进行OneHot编码,得到对应的标注向量;若标签有m种类别,相应的输入文本序列的词向量进行OneHot编码后对应为m维标注向量;
其中,所述向量数据包括词向量和m维标注向量。
3.根据权利要求1所述的序列标注方法,其特征在于,所述一阶隐马尔可夫模型构建各个训练样本数据匹配的特征向量Ψ(X,Y)的计算公式为:
其中,张量乘积的定义为::/>,M表示标注向量的维度,x、y表示坐标值,j表示隐马尔可夫模型的阶数。
4.根据权利要求1所述的序列标注方法,其特征在于,将待标注序列输入至所述序列标注模型中,以得到所述待标注序列对应的目标标签序列的步骤,包括:
将待标注序列输入至所述序列标注模型中,得到多个评分值;
选取所述多个评分值中的评分值最高的标注序列,作为所述待标注序列对应的目标标签序列。
5.一种序列标注系统,其特征在于,包括:
获取模块,用于获取训练样本集,所述训练样本集包括多个训练样本数据,每个训练样本数据包括一输入文本序列以及该输入文本序列对应的标签;
预处理模块,用于对每个训练样本数据进行预处理,以得到各个训练样本数据对应的向量数据;
构建模块,用于将各个训练样本数据对应的向量数据输入到一阶隐马尔可夫模型中,以构建各个训练样本数据匹配的特征向量Ψ(X,Y);
生成模块,用于将各个样本数据对应的所述特征向量Ψ(X,Y)输入到神经网络模型中进行训练,以生成序列标注模型;
输出模块,用于将待标注序列输入至所述序列标注模型中,以得到所述待标注序列对应的目标标签序列,所述目标标签序列包括所述待标注序列及对应的目标标签;
所述生成模块,还用于将每个特征向量Ψ (X,Y)输入到神经网络模型,得到对应的样本评分值,每个特征向量对应一层神经网络模型;获取样本数据的输入文本序列的预设的目标评分值F2;根据损失函数、样本评分值/>与目标评分值F2优化神经网络模型,以得到序列标注模型;
定义具有如下形式的损失函数作为优化目标:
;
;
其中样本评分值为深度神经网络的输出,xi为样本数据的输入文本序列,yi为xi对应的目标标签序列,y为任意标签序列,/>定义为任一样本评分值与输出评分值之间的标注错误率,Li′表示损失函数,θ2表示样本数据的状态;所述样本评分值的计算公式为:
;
,2≤l≤L;
;
其中,h指每一层神经网络模型的输出,hl即代表第l层的输出,L表示特征向量的数目,W0为第1层神经网络模型的权重矩阵,σ表示非线性激活函数,θ2表示样本数据的状态,第L层的神经网络模型权重WL为一个向量,根据该向量输出一个值,即样本评分值。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的序列标注系统,所述序列标注系统被所述处理器执行时实现如权利要求1-4中任一项所述的序列标注方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-4中任一项所述的序列标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984286.4A CN110866115B (zh) | 2019-10-16 | 2019-10-16 | 序列标注方法、系统、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984286.4A CN110866115B (zh) | 2019-10-16 | 2019-10-16 | 序列标注方法、系统、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866115A CN110866115A (zh) | 2020-03-06 |
CN110866115B true CN110866115B (zh) | 2023-08-08 |
Family
ID=69652623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910984286.4A Active CN110866115B (zh) | 2019-10-16 | 2019-10-16 | 序列标注方法、系统、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866115B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859983B (zh) * | 2020-07-23 | 2022-07-15 | 中国平安人寿保险股份有限公司 | 基于人工智能的自然语言标注方法及相关设备 |
CN111881692B (zh) * | 2020-07-28 | 2023-01-13 | 平安科技(深圳)有限公司 | 基于多训练目标的机构实体抽取方法、系统及装置 |
CN111967518B (zh) * | 2020-08-18 | 2023-10-13 | 深圳市欢太科技有限公司 | 应用标注方法、应用标注装置及终端设备 |
CN114138546B (zh) * | 2020-09-03 | 2024-05-10 | 中国移动通信集团浙江有限公司 | 数据备份的方法、装置、计算设备及计算机存储介质 |
CN112507866B (zh) * | 2020-12-03 | 2021-07-13 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN113688036A (zh) * | 2021-08-13 | 2021-11-23 | 北京灵汐科技有限公司 | 一种数据处理方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN109885702A (zh) * | 2019-01-17 | 2019-06-14 | 哈尔滨工业大学(深圳) | 自然语言处理中的序列标注方法、装置、设备及存储介质 |
-
2019
- 2019-10-16 CN CN201910984286.4A patent/CN110866115B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN109885702A (zh) * | 2019-01-17 | 2019-06-14 | 哈尔滨工业大学(深圳) | 自然语言处理中的序列标注方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110866115A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866115B (zh) | 序列标注方法、系统、计算机设备及计算机可读存储介质 | |
CN110704588B (zh) | 基于长短期记忆网络的多轮对话语义分析方法和系统 | |
CN110502608B (zh) | 基于知识图谱的人机对话方法及人机对话装置 | |
CN111414353B (zh) | 智能化的缺失数据填充方法、装置及计算机可读存储介质 | |
CN111695439B (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
CN111222317A (zh) | 序列标注方法、系统和计算机设备 | |
WO2019075967A1 (zh) | 企业名称识别方法、电子设备及计算机可读存储介质 | |
CN112560964A (zh) | 基于半监督学习训练中草药病虫害识别模型的方法与系统 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112632278A (zh) | 一种基于多标签分类的标注方法、装置、设备及存储介质 | |
CN113140018A (zh) | 训练对抗网络模型的方法、建立字库的方法、装置和设备 | |
CN112328761A (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
CN113947095A (zh) | 多语种文本翻译方法、装置、计算机设备及存储介质 | |
CN115329876A (zh) | 一种设备故障处理方法、装置、计算机设备及存储介质 | |
CN112035645A (zh) | 数据查询方法以及系统 | |
CN112860919A (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN112699213A (zh) | 语音意图识别方法、装置、计算机设备及存储介质 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN110717333B (zh) | 文章摘要自动生成方法、装置及计算机可读存储介质 | |
CN115908641A (zh) | 一种基于特征的文本到图像生成方法、装置及介质 | |
CN114358023A (zh) | 智能问答召回方法、装置、计算机设备及存储介质 | |
CN110502620B (zh) | 导诊相似问题对生成方法、系统及计算机设备 | |
CN110442858B (zh) | 一种问句实体识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |