CN111222341A

CN111222341A - 训练隐马尔科夫模型的方法、装置、设备和存储介质

Info

Publication number: CN111222341A
Application number: CN202010056835.4A
Authority: CN
Inventors: 李荣茂
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-02

Abstract

本申请涉及人工智能领域，提供一种训练隐马尔科夫模型的方法、装置、设备和存储介质。方法包括：通过隐马尔科夫模型获取候选分词的角色概率，候选分词用于指示经过角色标注的训练文本的分词；根据角色概率计算训练文本中的角色权重值；计算对训练文本进行实体识别的损失函数的值，并将损失函数的值作为效果值；计算对训练文本进行实体识别的损失函数的值，并将损失函数的值作为效果值；获取目标角色权重值对应的目标角色；基于目标角色通过维特比算法计算概率值最大的角色链，并根据角色链中的角色组合模式进行实体识别，得到目标隐马尔科夫模型。本发明能够减少具备较高实体识别效果的隐马尔科夫模型模型的训练样本数据。

Description

训练隐马尔科夫模型的方法、装置、设备和存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种训练隐马尔科夫模型的方法、装置、设备和存储介质。

背景技术

实体识别是自然语言处理中的一项基础任务，应用范围非常广泛。常通过有监督的学习或半监督的学习或无监督的学习或混合学习的机器学习方式实现命名实体识别。隐马尔可夫模型(Hidden Markov Model，HMM)被用作实体识别的马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型，通过有监督学习方法实现识别。目前通过HMM进行实体识别的汉语分词系统NLPIR，词法分析器HanLP，中文分词器Ansj和中文分词利器Jieba的多种分词工具，都是以角色的定义与数据标注为模型的基础，通过维特比Viterbi算法对概率链进行推断，找到最大概率链，对目标词(字)进行角色标注，再进行模式实体识别，不同模式中可能有相应的实体序列。在通过观察数据对模型参数进行预测和修正时，由于存在带有指导的参数学习对应的状态都是人工标注的，所需的样本数据量非常大，或者不带有指导的参数学习对应的状态太多和每个状态对应的权值一样，因而需要较大规模的标注语料，以致使HMM模型需要庞大的训练集数据才能够达到较好的实体识别效果。

发明内容

本申请提供了一种通过配置训练隐马尔科夫模型的方法，旨在减少具备较高实体识别效果的隐马尔科夫模型模型的训练样本数据。

第一方面，本申请提供一种训练隐马尔科夫模型的方法，包括：

通过隐马尔科夫模型获取候选分词的角色概率，所述候选分词用于指示经过角色标注的训练文本的分词，所述角色概率用于指示角色在预设语料集中出现的频率；

根据所述角色概率计算所述训练文本中的角色权重值；

计算对所述训练文本进行实体识别的损失函数的值，并将所述损失函数的值作为效果值；

通过所述损失函数执行多维随机梯度下降算法，以对所述角色权重值进行循环迭代更新；

根据所述效果值绘制效果值曲线；

分析所述效果值曲线收敛的稳定性，以得到目标角色权重值，获取所述目标角色权重值对应的目标角色；

基于所述目标角色通过维特比算法计算概率值最大的角色链，并根据所述角色链中的角色组合模式进行实体识别，得到目标隐马尔科夫模型。

可选地，所述分析所述效果值曲线收敛的稳定性，以得到目标角色权重值，包括：

获取评估所述效果值的单元的刚度矩阵，根据所述刚度矩阵计算残差值；

当所述残差值大于或等于预置的收敛值时，更新所述预置的收敛值和所述角色权重值进行循环迭代次数，直到所述残差值小于所述预置的收敛值；

当所述残差值小于所述预置的收敛值时，判定所述效果值曲线收敛稳定；

获取所述残差值最小的所述效果值曲线，所述残差值最小的效果值曲线对应的角色权重值作为目标角色权重值。

可选地，所述通过隐马尔科夫模型获取候选分词的角色概率，所述候选分词用于指示经过角色标注的训练文本的分词，所述角色概率用于指示角色在预设语料集中出现的频率，根据所述角色概率计算所述训练文本中的角色权重值，包括：

分析训练文本的所属领域，调用所述所属领域的核心词典对训练文本进行分词处理，得到候选分词；

获取所述候选分词对应的粗分编码结果，并计算所述粗分编码结果中与所述候选分词匹配度最高的编码，以所述匹配度最高的编码对应的角色作为所述候选分词的角色；

计算所述候选分词的角色在训练文本中的第一角色频率，以及计算所述候选分词的角色在所述所属领域对应的语料集中的第二角色频率；

根据所述第一角色频率以及所述第二角色频率计算角色概率；

基于所述角色概率计算所述候选分词的角色对于所述所属领域对应的合成词的贡献度，将所述贡献度作为角色权重值，所述合成词用于指示由多个所述候选分词组合而成的符合语法规则的词。

可选地，所述基于所述目标角色通过维特比算法计算概率值最大的角色链，并根据所述角色链中的角色组合模式进行实体识别，得到目标隐马尔科夫模型，包括：

通过

计算所述目标角色权重值对应的角色的发射概率，所述Role表示所述目标角色权重值对应的角色，所述w表示角色对应的词，所述P(w|Role)表示在角色Role下出现词为w的概率，所述w_Role表示角色的权重，所述

表示由大数定律公式近似所得的公式，所述f(w,Role)表示所述w对应被标注的角色频率，所述f(Role)表示标注为角色Role的词整体出现的频率，所述

表示所有角色Role的平均频率；

计算所述目标角色权重值对应的角色的先验概率和状态转移概率；

通过维特比算法分析所述发射概率、所述先验概率和所述状态转移概率，计算概率值最大的角色链，所述角色链包括多个角色组合模式；

将所述概率值对应的角色链根据所述概率值由大到小进行排序，得到最佳的角色排序序列；

将所述最佳的角色排序序列对应的隐马尔科夫模型作为目标隐马尔科夫模型。。

可选地，所述根据所述角色概率计算所述训练文本中的角色权重值，还包括：

基于知识图谱对训练文本进行分词处理得到候选分词，并在所述知识图谱中获取所述候选分词的角色标记，得到所述候选分词的角色；

计算所述候选分词的角色在训练文本中的第三角色频率，并计算所述候选分词的角色在语料集中的第四角色频率；

通过计算所述第三角色频率对于所述第四角色频率的占比得到角色概率；

基于所述角色概率计算所述候选分词的角色对于所述所属领域对应的合成词的贡献度，将所述贡献度作为角色权重值。

可选地，所述计算对所述训练文本进行实体识别的损失函数的值，并将所述损失函数的值作为效果值，包括：

将所述训练样本标注成正样例以及负样例；

通过

计算对所述训练文本进行实体识别的F1分数值，所述TP表示所述训练文本作为正样例实体识别准确的个数，所述FP表示所述训练文本作为负样例实体识别正确的个数，所述FN表示所述训练文本作为正样例实体识别错误的个数；

通过

将所述F1分数值作为同步更新的循环迭代操作的损失函数值，所述state表示角色权重，所述Value表示所述F1分数值，所述Value(state)表示对所述角色权重值进行循环迭代更新后的回报值，所述Reward(state)表示当前的回报值，所述

表示所述循环迭代后参数调整操作的回报期望。

可选地，所述通过所述损失函数执行多维随机梯度下降算法，以对所述角色权重值进行循环迭代更新，包括：

获取所述角色权重值对应的参数，所述参数是指隐马尔科夫模型中的神经元的权重以及神经元的偏置；

通过

对所述参数求偏导得到随机梯度，根据所述随机梯度循环迭代更新所述参数以及更新所述角色权重值，所述j表示所述参数的个数，所述m表示训练文本的采样数量，所述

表示所述损失函数，所述w_k表示所述隐马尔科夫模型中的神经元的权重，所述b_l表示所述神经元的偏置，所述α表示学习率，所述X_j表示从所有训练文本实例中取一个采样。

第二方面，本申请提供一种训练隐马尔科夫模型的装置，具有实现对应于上述第一方面提供的训练隐马尔科夫模型的平台的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

所述训练隐马尔科夫模型的装置包括：

获取模块，用于通过隐马尔科夫模型获取候选分词的角色概率，所述候选分词用于指示经过角色标注的训练文本的分词，所述角色概率用于指示角色在预设语料集中出现的频率；

计算模块，用于根据所述角色概率计算所述训练文本中的角色权重值；

所述计算模块还用于计算对所述训练文本进行实体识别的损失函数的值，并将所述损失函数的值作为效果值；

迭代更新模块，用于通过所述损失函数执行多维随机梯度下降算法，以对所述角色权重值进行循环迭代更新；

绘图模块，用于根据所述效果值绘制效果值曲线；

分析模块，用于分析所述效果值曲线收敛的稳定性，以得到目标角色权重值，获取所述目标角色权重值对应的目标角色；

识别模块，用于基于所述目标角色通过维特比算法计算概率值最大的角色链，并根据所述角色链中的角色组合模式进行实体识别，得到目标隐马尔科夫模型。

可选地，所述分析模块还用于：

可选地，所述计算模块还用于：

可选地，所述识别模块还用于：

通过

表示所有角色Role的平均频率；

将所述最佳的角色排序序列对应的隐马尔科夫模型作为目标隐马尔科夫模型。

可选地，所述计算模块还用于：

将所述训练样本标注成正样例以及负样例；

通过

通过

表示所述循环迭代后参数调整操作的回报期望。

可选地，所述迭代更新模块还用于：

通过

此外，为实现上述目的，本发明还提供一种训练隐马尔科夫模型的方法设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的训练隐马尔科夫模型的方法程序，所述训练隐马尔科夫模型的方法程序被所述处理器执行时实现如上所述的训练隐马尔科夫模型的方法方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有训练隐马尔科夫模型的方法程序，所述训练隐马尔科夫模型的方法程序被处理器执行时实现如上所述的训练隐马尔科夫模型的方法方法的步骤。

本申请提供一种基于角色权值训练的维度改进隐马尔科夫模型(HMM)实体识别方法，能够通过对标记不同角色的概率值的目标词进行训练，以获取训练文本实体识别的效果值，将最大的效果值对应的权重作为最终的训练好的角色权重结果，基于角色权重训练改进模型，减少具备较高实体识别效果的HMM模型的训练样本数据。

附图说明

图1为本申请训练隐马尔科夫模型的方法第一实施例的流程示意图；

图2为本申请训练隐马尔科夫模型的装置第一实施例的结构示意图；

图3为本申请训练隐马尔科夫模型的设备第一实施例的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

为解决上述技术问题，本申请主要提供以下技术方案

请参照图1，以下对本申请提供一种训练隐马尔科夫模型的方法进行举例说明，所述方法包括：

101、通过隐马尔科夫模型获取候选分词的角色概率，候选分词用于指示经过角色标注的训练文本的分词，角色概率用于指示角色在预设语料集中出现的频率。

通过隐马尔可夫模型获取经过角色标注的训练文本的候选分词的角色概率，并根据角色概率计算角色权重值，得到角色权重值。角色概率为角色在语料集中出现的频率。对训练文本进行实体角色定义，并对训练文本进行分词处理，得到候选分词。

102、根据角色概率计算训练文本中的角色权重值。

对候选分词进行角色标注，根据标注的角色计算角色概率，基于角色概率计算角色权重值。例如：训练文本为“我们缅怀周总理同志”，对应的角色为“A K B Y L”，则各个角色在训练文本中的角色频率为：F(A)＝1，F(K)＝1，F(B)＝1，F(Y)＝1，F(L)＝1，将各角色与语料库中的大量的语料集进行统计所得的频率值近似概率值，即可通过统计各角色在语料库的语料集中出现的频率以得到各角色的角色概率，角色B在角色频率为F(B)＝1对发现姓名命名的贡献度为1.2，即角色B的角色权重为1.2，角色K在角色频率为F(K)＝1对发现姓名命名的贡献度为0.9，即角色K的角色权重值为0.9，角色A、角色Y和角色L如同，在此不进行具体说明。上述举例仅作举例说明，其内容的实际操作和准确性不作考虑。

103、计算对训练文本进行实体识别的损失函数的值，并将损失函数的值作为效果值。

对隐马尔科夫模型进行效果评估，验证隐马尔科夫模型的性能。损失函数的值是指机器学习模型是指说理论值与测试值之间的差值平方和。即

L[(Y,f(X)]＝[Y-f(X)]²

L(Y，f(X))是指损失函数，Y是指测试集与训练集数据中的理论角色概率，f(X)指的是模型通过训练集与预测集中的特征所预测的实际角色概率。以获取较佳性能和较佳实体识别效果的隐马尔科夫模型。可通过计算隐马尔科夫模型的精准率、召回率、准确率、精准率和召回率的调和平均值、真正例率TPR、假正例率FPR以及接受者操作特性ROC曲线下方的面积，对隐马尔科夫模型的实体识别效果进行评估。

104、通过损失函数执行多维随机梯度下降算法，以对角色权重值进行循环迭代更新。

根据损失函数通过多维随机梯度下降算法对角色权重进行循环迭代更新。采用同步更新的循环迭代操作对角色权重参数进行调优，即每次调整角色权重参数后获得的收益结果并不立即更新，而是待所有的参数更新后存储，再进行统一更新。关于角色权重参数的调优过程是找到一系列从初始化到最终最优回报中的参数的操作过程：

通过采用多维随机梯度下降算法，以提高循环迭代更新的操作效率和加快隐马尔科夫模型的收敛速度。将上一轮的训练效果(损失函数值)通过多维随机梯度下降算法对上一操作的角色权重值进行修改后，作为下一操作的隐马尔科夫模型训练的角色权重值，直到得到最佳角色权重值。

通过控制角色权重，可实现以少量的训练数据便可提升10％的实体识别效果的功能。例如：对于人名识别中，对角色B、角色C、角色D和角色E进行权重提升可以对人名识别的效果有显著提升，F1值(隐马尔科夫模型的实体识别效果值)有4.3％的提升；对角色K和角色L进行权重降低也能够对人名识别的效果有5％的提升；对角色X、角色Y和角色Z进行权重增强也有一定人名识别的效果的提升；而对角色A和角色M的权重改变，对人名识别效果无任何改变，最后，联合控制角色权重，可以达到10％人名识别效果的提升。上述举例仅作举例说明，其内容的实际操作和准确性不作考虑。

105、根据效果值绘制效果值曲线。

对效果值进行负值曲线收敛的稳定性分析，获取目标角色权重值对应的目标角色。当学习率稍有变动，训练状态便会随之而改变。若改变不大。且当训练状态回复到原来的状态时，神经元会相应地回复至原来的状态，则称此过程是稳定的；若相反，若学习率稍作变动，操作状态便显著改变，且不随训练状态回复到原来的情况后，神经元无法恢复到到原来的状态.则称该过程是不稳定的。研究这些过程必须进行稳定性分析。

106、分析效果值曲线收敛的稳定性，以得到目标角色权重值，获取目标角色权重值对应的目标角色。

将效果值的负值进行曲线收敛稳定性判断。通过多维随机梯度下降算法对损失函数进行循环迭代处理，使其效果值的负值曲线逐渐趋向极小值。当效果值的负值曲线为非线性曲线时，可通过比较多个极小值的大小，获取最小值的极小值，获取最小值的极小值对应的角色权重值，将最小值的极小值对应的角色权重值作为目标角色权重值，并获取目标角色权重值对应的目标角色。当效果值的负值曲线为凸函数曲线时，可将唯一的一个极小值对应的角色权重值作为目标角色权重值，并获取目标角色权重值对应的目标角色。也可通过以残差值与收敛值进行比较，以获取收敛稳定的负值曲线的最小值对应的角色权重值作为目标权重值，并获取目标角色权重值对应的目标角色。其中，对负值曲线收敛的稳定性分析还进行收敛验证，当负值曲线不收敛稳定时，获取不收敛的求解结果和导致不收敛的可能因素，调用后处理器post1中的查询命令result summary设置不收敛的求解结果为子步数。

107、基于目标角色通过维特比算法计算概率值最大的角色链，并根据角色链中的角色组合模式进行实体识别，得到目标隐马尔科夫模型。

将概率值对应的角色链根据概率值由大到小进行排序，得到最佳的角色排序序列，找到与实际情况排序最相似的最佳角色排序序列，得到最佳的角色排序序列所对应的目标隐马尔科夫模型。目标隐马尔科夫模型可以避免行为时间间隔建模复杂。因为人的运动具有马尔可夫性，当前的状态只受前一个状态的影响，这种方法将人的运动看成不可直接观测的马尔可夫过程，充分考虑到了人行为的动态过程，将人的运动序列看成状态间的一次遍历，概率地识别人的运动时空序列。此方法是目前使用较多的人体运动识别方法。它的优点是对时间和空间尺度上的运动微小变化的鲁棒性较好，可以避免行为时间间隔建模，运动持续时间得到很好的解决。缺点是计算比较复杂，需建立非线性模型，模型训练复杂，没有固定解决方法，需选择合适的状态数和特征矢量的维数。

进一步地，基于本发明训练隐马尔科夫模型的方法方法第一实施例，提出本发明训练隐马尔科夫模型的方法方法第二实施例。

在本实施例中，分析效果值曲线收敛的稳定性，以得到目标角色权重值，包括：

获取评估效果值的单元的刚度矩阵，根据刚度矩阵计算残差值。

残差在数理统计中是指实际观察值与估计值之间的差。利用残差所提供的信息，来考察模型假设的合理性及数据的可靠性称为残差分析。

当残差值小于预置的收敛值时，判定效果值曲线收敛稳定。

迭代是重复反馈过程的活动，其目的通常是为了逼近所需目标或结果。每一次对过程的重复称为一次迭代，而每一次迭代得到的结果会作为下一次迭代的初始值。

获取残差值最小的效果值曲线，将残差值最小对应的角色权重值作为目标角色权重值。

例如收敛值是0.01，当残差值小于0.01时则判断收敛。

例如A残差值为0.001，B残差值为0.002，则将A的角色权重值作为目标权重值。

通过上述方式，将残差值与收敛值进行比较判断，分析效果值的负值曲线是否收敛稳定。通过以效果值的收敛稳定的负值曲线的最小值(即效果值的最大值)对应的角色权重值作为目标角色权重值，并获取目标角色权重值对应的目标角色，获得最优操作路径的最佳回报值。

进一步地，基于本发明训练隐马尔科夫模型的方法方法第一实施例，提出本发明训练隐马尔科夫模型的方法方法第三实施例。

在本实施例中，通过隐马尔科夫模型获取候选分词的角色概率，候选分词用于指示经过角色标注的训练文本的分词，角色概率用于指示角色在预设语料集中出现的频率，根据角色概率计算训练文本中的角色权重值，包括：

分析训练文本的所属领域，调用所属领域的核心词典对训练文本进行分词处理，得到候选分词。

一般需要将样本分成独立的三部分训练集(train set)，验证集(validationset)和测试集(test set)。其中训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数，而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50％，而其它各占25％，三部分都是从样本中随机抽取。例如我爱吃苹果，可以分词为我、爱、吃、苹果的这4个词汇。

获取候选分词对应的粗分编码结果，并计算粗分编码结果中与候选分词匹配度最高的编码，以匹配度最高的编码对应的角色作为候选分词的角色。

编码是信息从一种形式或格式转换为另一种形式的过程，也称为计算机编程语言的代码简称编码。用预先规定的方法将文字、数字或其它对象编成数码，或将信息、数据转换成规定的电脉冲信号。编码在电子计算机、电视、遥控和通讯等方面广泛使用。编码是信息从一种形式或格式转换为另一种形式的过程。例如我爱吃苹果，可以分词为我、爱、吃、苹果的这4个词汇。以一个16进制数编码我、爱、吃、苹果、香蕉、葡萄……等16个词汇，则结果为11110000000000。

计算候选分词的角色在训练文本中的第一角色频率，以及计算候选分词的角色在所属领域对应的语料集中的第二角色频率。使用词频-逆文本频率(term frequency–inverse document frequency，TF-IDF)公式计算第一频率以及第二频率。

根据第一角色频率以及第二角色频率计算角色概率。通过余弦相似度计算角色概率。

基于角色概率计算候选分词的角色对于所属领域对应的合成词的贡献度，将贡献度作为角色权重值，合成词用于指示由多个候选分词组合而成的符合语法规则的词。

语法规则，就是说话时必须遵守的习惯，是客观存在的，由语言学家对其进行归纳、整理，并选择恰当的方式描写出来。以我爱吃苹果为例，分词结果为我、爱、吃、苹果这5个词汇，合成词可以有爱吃，吃苹果，爱苹果等。

通过上述方式，通过以训练文本的领域的核心词典对训练文本进行分词处理，以提高候选分词的准确性和保证候选分词的角色的准确获取。通过对候选分词的角色进行粗分，再进行最优编码计算以提高角色获取的准确性。

进一步地，基于本发明训练隐马尔科夫模型的方法方法第一实施例，提出本发明训练隐马尔科夫模型的方法方法第四实施例。

在本实施例中，基于目标角色通过维特比算法计算概率值最大的角色链，并根据角色链中的角色组合模式进行实体识别，得到目标隐马尔科夫模型，包括：

通过

计算目标角色权重值对应的角色的发射概率，Role表示目标角色权重值对应的角色，w表示角色对应的词，P(w|Role)表示在角色Role下出现词为w的概率，w_Role表示角色的权重，

表示由大数定律公式近似所得的公式，f(w,Role)表示w对应被标注的角色频率，f(Role)表示标注为角色Role的词整体出现的频率，

表示所有角色Role的平均频率。

大数定律，是一种描述当试验次数很大时所呈现的概率性质的定律。大数定律并不是经验规律，而是在一些附加条件上经严格证明了的定理，它是一种自然规律因而通常不叫定理而是大数定律。当所有角色的平均频率为10，次出现的频率为100，则得到角色的权重为2。

计算目标角色权重值对应的角色的先验概率和状态转移概率。

信息先验表达了关于变量的具体的明确信息。举一个例子：明天中午以前的温度分布。合理的方法是将之前的正态分布预期值等于今天的中午温度，其方差等于大气温度的日常变化，或者是一年中的那一天的温度分布。

通过维特比算法分析发射概率、先验概率和状态转移概率，计算概率值最大的角色链，角色链包括多个角色组合模式。

转移概率是马尔可夫链中的重要概念，若马氏链分为m个状态组成，历史资料转化为由这m个状态所组成的序列。从任意一个状态出发，经过任意一次转移，必然出现状态1、2、……，m中的一个，这种状态之间的转移称为转移概率。例如A的发射概率为0.5、先验概率为0.6，则概率值可以是1*0.5+0.6*1＝1.1,也可以是2*0.5+0.6＝1.6，根据应用场景具体取发射概率、先验概率和状态转移概率的权值。

将概率值对应的角色链根据概率值由大到小进行排序，得到最佳的角色排序序列。

通过冒泡排序法可以将角色序列将概率值的大小按照大小的顺序进行排列。

将最佳的角色排序序列对应的隐马尔科夫模型作为目标隐马尔科夫模型。

统计机器学习方法将命名实体识别(named entity recognition，NER)视作序列标注任务，利用大规模语料来学习出标注模型，从而对句子的各个位置进行标注。常用的应用到NER任务中的模型包括生成式模型HMM、判别式模型条件随机场(conditional randomfield，CRF)等。

通过上述方式，通过采用多维随机梯度下降方法，以提高循环迭代更新的操作效率和加快隐马尔科夫模型的收敛速度。通过多维随机梯度下降方法对损失函数进行处理，以对参数从初始化到最终最优回报的调优操作，从而求得当前状态下一系列角色权重参数调整操作后的最大收益值。

进一步地，基于本发明训练隐马尔科夫模型的方法方法第一实施例，提出本发明训练隐马尔科夫模型的方法方法第五实施例。

在本实施例中，通过隐马尔科夫模型获取候选分词的角色概率，并根据角色概率计算角色权重值，得到角色权重值，还包括：

基于知识图谱对训练文本进行分词处理得到候选分词，并在知识图谱中获取候选分词的角色标记，得到候选分词的角色。

知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。例如小明爱吃苹果，则分词角色为小明，分词结果为为小明、爱、吃、苹果这4个词汇。

计算候选分词的角色在训练文本中的第三角色频率，并计算候选分词的角色在语料集中的第四角色频率。

用词频-逆文本频率TF-IDF公式计算第三频率以及第四频率。

通过计算第三角色频率对于第四角色频率的占比得到角色概率。例如第三角色频率为10，第四角色频率为20，则角色概率＝10/20＝0.5；

基于角色概率计算候选分词的角色对于所属领域对应的合成词的贡献度，将贡献度作为角色权重值。由两个或两个以上的语素组成的词叫合成词。现代汉语词汇中，合成词占了绝大多数。以我爱吃苹果为例，分词结果为我、爱、吃、苹果这4个词汇，合成词可以有爱吃，吃苹果，爱苹果等。以小明角色概率为0.5为例，小明出现的每个文本中吃苹果的概率为0.1，则权重值为0./1*0.5＝0.2。

通过上述方式，根据候选分词、角色标记、词性、词意义、语法和语法关系构建知识图谱，通过知识图谱对训练文本进行识别和分析，对训练文本进行分词，并根据候选分词在知识图谱获取对应的角色标记，从而获取候选分词的角色。计算候选分词的角色的频率获取角色概率，并通过分析角色概率获取角色权重值。通过获取角色权重值，以便于后续通过更新角色权重值对隐马尔可夫模型进行训练，实现以少量训练数据便可提高实体识别效果的功能。

进一步地，基于本发明训练隐马尔科夫模型的方法方法第一实施例，提出本发明训练隐马尔科夫模型的方法方法第六实施例。

在本实施例中，计算对训练文本进行实体识别的损失函数的值，并将损失函数的值作为效果值，包括：

将训练样本标注成正样例以及负样例。正样本则是我们想要正确分类出的类别所对应的样本，例如，我们要对一张图片进行分类，以确定其是否属于汽车，那么在训练的时候，汽车的图片则为正样本，负样本原则上可以选取任何不是汽车的其他图片，这样就可以训练出来一个汽车的分类网络，对这个网络进行测试会发现，它会将一些非汽车的图片误报成汽车，这些误报的图片则为“难分样本”，后续进行训练的时候，将这些难分样本加入至负样本集合中进行训练，最后得到的网络模效果会更好一些，这个过程就叫做“难例挖掘”。另外，在选取负样本的时候，原则上是可以选择任意非汽车的图片作为负样本，但是比较合理的情况应该是要考虑到实际应用场景，例如实际应用是对行车记录仪上面捕捉到的图片进行分类，那么，负样本则应该是捕捉到的其他非汽车的图片，例如马路，树木，路灯等。

通过

计算对训练文本进行实体识别的F1分数值，TP表示训练文本作为正样例实体识别准确的个数，FP表示训练文本作为负样例实体识别正确的个数，FN表示训练文本作为正样例实体识别错误的个数。通过上述步骤计算召回率和精准度，通过召回率和精准度评估模型是否可用。以A模型召回率为0，以及精准度为1，以及B模型召回率为0.7，精准度为0.8为例，得到A的分数比B高，通过上述公式可以选择精准度更高的模型。

通过

将F1分数值作为同步更新的循环迭代操作的损失函数值，state表示角色权重，Value表示F1分数值，Value(state)表示对角色权重值进行循环迭代更新后的回报值，Reward(state)表示当前的回报值，

表示循环迭代后参数调整操作的回报期望不断更新模型的分数值，以及损失函数的值，当所有训练数据输入完毕以后，停止模型的迭代，获取误差最小的模型作为理想的模型并部署。

通过上述方式，发射概率值为目标角色权重值对应的角色条件Role下对应的词为w的概率。以角色在计算发射概率值的时候作为一盏灯，概率大小为灯的亮度，则本方法即为在对不同角色的灯的亮度做不同程度的调整后，通过计算概率值最大的角色链，更易获取到正确的实体。通过本操作以灵活的角色权重值调整，使得隐马尔可夫模型在小训练集数据可以达到原来大训练集中数据的效果。

进一步地，基于本发明训练隐马尔科夫模型的方法方法第一实施例，提出本发明训练隐马尔科夫模型的方法方法第七实施例。

在本实施例中，通过损失函数进行多维随机梯度下降算法，完成对角色权重值的循环迭代更新，包括：

获取角色权重值对应的参数，参数是指隐马尔科夫模型中的神经元的权重以及神经元的偏置。

通过

对参数求偏导得到随机梯度，根据随机梯度循环迭代更新参数以及更新角色权重值，j表示参数的个数，m表示训练文本的采样数量，

表示损失函数，w_k表示隐马尔科夫模型中的神经元的权重，b_l表示神经元的偏置，α表示学习率，X_j表示从所有训练文本实例中取一个采样。

梯度下降是迭代法的一种,可以用于求解最小二乘问题。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降(Gradient Descent)是最常采用的方法之一。以线性函数y＝x*x+1为例，函数的导数为2x，当一个值在3的时候，当x发生变化为-0.1时，则根据y＝3*3+1+(-0.1*2*3)＝9.4进行计算。

本发明还提供一种训练隐马尔科夫模型的方法装置。参照图2，图2为本发明训练隐马尔科夫模型的方法装置一实施例的模块示意图。本实施例中，所述训练隐马尔科夫模型的方法装置包括：

获取模块201，用于通过隐马尔科夫模型获取候选分词的角色概率，所述候选分词用于指示经过角色标注的训练文本的分词，所述角色概率用于指示角色在预设语料集中出现的频率；

计算模块202，用于根据所述角色概率计算所述训练文本中的角色权重值；

所述计算模块202还用于计算对所述训练文本进行实体识别的损失函数的值，并将所述损失函数的值作为效果值；

迭代更新模块203，用于通过所述损失函数执行多维随机梯度下降算法，以对所述角色权重值进行循环迭代更新；

绘图模块204，用于根据所述效果值绘制效果值曲线；

分析模块205，用于分析所述效果值曲线收敛的稳定性，以得到目标角色权重值，获取所述目标角色权重值对应的目标角色；

识别模块206，用于基于所述目标角色通过维特比算法计算概率值最大的角色链，并根据所述角色链中的角色组合模式进行实体识别，得到目标隐马尔科夫模型。

进一步地，所述分析模块205还用于：

进一步地，所述计算模块202还用于：

进一步地，所述识别模块206还用于：

通过

表示由大数定律公式近似所得的公式，所述f(w,Role)表示w角色对应的词对应被标注的角色频率，所述f(Role)表示标注为角色Role的词整体出现的频率，所述

表示所有角色Role的平均频率；

进一步地，所述计算模块202还用于：

将所述训练样本标注成正样例以及负样例；

通过

通过

表示所述循环迭代后参数调整操作的回报期望。

进一步地，所述处理模块203还用于：

通过

如图3所示，图3是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例训练隐马尔科夫模型的设备可以是服务器。

如图3所示，该设备可以包括：处理器3001，例如CPU，网络接口3004，用户接口3003，存储器3005，通信总线3002。其中，通信总线3002用于实现这些组件之间的连接通信。用户接口3003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口3003还可以包括标准的有线接口、无线接口。网络接口3004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器3005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器3005可选的还可以是独立于前述处理器3001的存储装置。

本领域技术人员可以理解，图3中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机存储介质的存储器3005中可以包括操作系统、网络通信模块、用户接口模块以及训练隐马尔科夫模型的程序。

在图3所示的终端中，网络接口3004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口3003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器3001可以用于调用存储器3005中存储的训练隐马尔科夫模型的程序，并执行上述训练隐马尔科夫模型的方法各个实施例中的操作。

通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述输入输出单元也可以用接收器和发送器代替，可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为输入输出单元。该输入输出可以为收发器。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。

Claims

1.一种训练隐马尔科夫模型的方法，其特征在于，所述方法包括：

根据所述角色概率计算所述训练文本中的角色权重值；

根据所述效果值绘制效果值曲线；

2.根据权利要求1所述的方法，其特征在于，所述分析所述效果值曲线收敛的稳定性，以得到目标角色权重值，包括：

获取所述残差值最小的效果值曲线，所述残差值最小的效果值曲线对应的角色权重值作为目标角色权重值。

3.根据权利要求1所述的方法，其特征在于，所述通过隐马尔科夫模型获取候选分词的角色概率，所述候选分词用于指示经过角色标注的训练文本的分词，所述角色概率用于指示角色在预设语料集中出现的频率，根据所述角色概率计算所述训练文本中的角色权重值，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标角色通过维特比算法计算概率值最大的角色链，并根据所述角色链中的角色组合模式进行实体识别，得到目标隐马尔科夫模型，包括：

通过

表示所有角色Role的平均频率；

5.根据权利要求1所述的方法，其特征在于，所述根据所述角色概率计算所述训练文本中的角色权重值，还包括：

6.根据权利要求1所述的方法，其特征在于，所述计算对所述训练文本进行实体识别的损失函数的值，并将所述损失函数的值作为效果值，包括：

将所述训练样本标注成正样例以及负样例；

通过

通过

表示所述循环迭代后参数调整操作的回报期望。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述通过所述损失函数执行多维随机梯度下降算法，以对所述角色权重值进行循环迭代更新，包括：

通过

表示所述损失函数，所述w_k表示所述隐马尔科夫模型中的神经元的权重，所述b_l表示所述神经元的偏置，所述α表示学习率，所述_Xj表示从所有训练文本实例中取一个采样。

8.一种训练隐马尔科夫模型的装置，其特征在于，所述装置包括：

绘图模块，用于根据所述效果值绘制效果值曲线；

9.一种训练隐马尔科夫模型的设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的训练隐马尔科夫模型的程序，所述训练隐马尔科夫模型的程序被所述处理器执行时实现如权利要求1至7中任一项所述的训练隐马尔科夫模型的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有训练隐马尔科夫模型的程序，所述训练隐马尔科夫模型的程序被处理器执行时实现如权利要求1至7中任一项所述的训练隐马尔科夫模型的方法的步骤。