CN110728147A

CN110728147A - 一种模型训练方法及命名实体识别方法

Info

Publication number: CN110728147A
Application number: CN201810685795.2A
Authority: CN
Inventors: 王宗宇; 王涛; 李林琳; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2020-01-24
Anticipated expiration: 2038-06-28
Also published as: CN110728147B

Abstract

本申请实施例公开了一种模型训练方法及命名实体识别方法。所述模型训练方法包括：利用多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到第一深度学习模型组件，所述品类信息被设置为利用机器学习模型组件预测得到；基于所述第一深度学习模型组件，利用人工标注的样本数据训练得到第二深度学习模型组件；分别利用第一深度学习模型组件和第二深度学习模型组件生成多个训练数据，并利用所述多个训练数据训练生成第三深度学习模型组件，所述第三深度学习模型组件用于识别产品描述信息中的品类信息。利用本申请的技术方案，可以在低成本的基础上，训练得到能够准确识别产品描述信息中品类信息的模型组件。

Description

一种模型训练方法及命名实体识别方法

技术领域

本申请涉及数据处理技术领域，特别涉及一种模型训练方法及命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，NER)是自然语言处理(NaturalLanguage Processing，NLP)里的一项基础任务，目的是从文本中识别出命名性对象，为关系抽取等任务做铺垫。狭义上，命名实体识别是指识别出人名、地名和组织机构名这三类命名实体(时间、货币名称等构成规律明显的实体类型可以用正则等方式识别)。当然，在特定领域中，会相应地定义领域内的各种实体类型。典型的，例如在电商领域中，标题和搜索词中的实体识别是重要的基础工作。在搜索业务场景中，通过准确的识别标题中的产品词、品牌词等实体词可以提高搜索的质量。在翻译业务场景中，对实体的识别并针对性地翻译可以提升翻译的效果。在推荐业务场景中，通过对用户的搜索词进行实体识别，可以有效地推荐商品。因此，NER作为NLP基础技术中的重要模块，是电商技术的基础。

现有技术中，目前主要有三种命名实体的识别方法，分别是基于规则和词表的方法、基于统计机器学习的方法和基于神经网络的方法。

基于规则和词表的方法

基于规则的方法多采用语言学专家手工构造规则，利用手工编写的规则，将文本与规则进行匹配来识别出命名实体。例如，对于中文来说，“说”、“老师”等词语可作为人名的下文，“大学”、“医院”等词语可作为组织机构名的结尾，还可以利用到词性、句法信息。

基于统计机器学习的方法

基于统计机器学习的方法主要包括隐马尔可夫模型(HMM)、最大熵(ME)、支持向量机(SVM)、条件随机场(CRF)等。基于统计机器学习的方法对特征选取的要求较高，需要从文本中选择对该项任务有影响的多种特征，并将这些特征加入到特征模板中。主要做法是通过对训练语料所包含的语言信息进行统计和分析，从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。

基于神经网络的方法

近年来，随着硬件能力的发展以及词的分布式表示，如词嵌入(word embedding)的出现，神经网络成为可以有效处理许多NLP任务的模型。这类方法对于序列标注任务(如CWS、POS、NER)的处理方式是类似的，将标记从离散独热码表示映射到低维空间中成为稠密的词嵌入，随后将句子的词嵌入序列输入到循环神经网络(RNN)中，用神经网络自动提取特征，逻辑回归函数来预测每个标记的标签。这种方法使得模型的训练成为一个端到端的整体过程，不依赖于特征工程，是一种数据驱动的方法。

综上所述，现有技术中命名实体识别的几类方式均存在各自的技术问题，包括但不限于：

一、基于规则和词表的方法在构建规则的过程中往往需要大量的语言学知识，不同语言的识别规则不尽相同，而且需要谨慎处理规则之间的冲突问题；此外，构建规则的过程费时费力、可移植性不好；

二、基于统计机器学习的方法对特征选取的要求较高，若不能挖掘出有效的特征，则不能获取较好的学习效果；

三、基于神经网络的方法中，网络变种较多、对参数设置依赖大，模型可解释性差。此外，该方法的一个缺点是对每个标记打标签的过程中是独立的分类，不能直接利用上文已经预测的标签(只能靠隐状态传递上文信息)，进而导致预测出的标签序列可能是非法的，例如标签中文人名起始(B-PER)后面是不可能紧跟着中文地名中间(I-LOC)的，但逻辑回归函数不会利用到这个信息。

发明内容

本申请实施例的目的在于提供一种模型训练方法及命名实体识别方法，可以在低成本的基础上，训练得到能够准确识别产品描述信息中品类信息的模型组件。

本申请实施例提供的模型训练方法及命名实体识别方法具体是这样实现的：

一种模型训练方法，所述方法包括：

将所述产品利用多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到第一深度学习模型组件，所述品类信息被设置为利用机器学习模型组件预测得到；

基于所述第一深度学习模型组件，利用人工标注的样本数据训练得到第二深度学习模型组件；

分别利用所述第一深度学习模型组件和所述第二深度学习模型组件生成多个训练数据，并利用所述多个训练数据训练生成第三深度学习模型组件，所述第三深度学习模型组件用于识别产品描述信息中的品类信息。

一种模型训练装置，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

将所述产品描述信息输入至深度学习模型组件中，获得所述产品描述信息中的品类信息；其中利用多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到第一深度学习模型组件，所述品类信息被设置为利用机器学习模型组件预测得到；

本申请提供的一种模型训练方法及命名实体识别方法，可以利用深度学习模型组件获取产品描述信息的品类信息，其中，所述深度学习模型组件由第一深度学习模型组件和第二深度学习模型组件融合而成，所述第一深度学习模型组件的训练数据通过机器学习模型组件预测得到，所述第二深度学习模型组件的训练数据由人工标注得到。通过机器学习模型组件预测得到的训练数据可以包括较大的数据量，通过人工标注得到的训练数据可以为较少的数据量。以上实施方式至少具有以下优势：

一、从获取训练数据的难易程度来看，机器学习模型组件预测得到的数据较为简单，仅需要耗费较少的成本，而人工标注的训练数据成本较高，因此，较多的机器学习模型组件预测的训练数据和较少的人工标注的训练数据不需要耗费较高的成本。

二、从数据质量来说，人工标注的训练数据的数据质量远高于机器学习模型组件预测得到的训练数据，因此，第二深度学习模型组件在第一深度学习模型组件的基础之上对第一深度学习模型组件进行了微调，两个模型组件融合之后，可以获取较高的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一个应用场景的示意图；

图2是本申请提供的模型训练方法的一种实施例的方法流程图；

图3是本申请提供的一个应用场景的示意图；

图4是本申请提供的模型训练装置的一种实施例的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

如上所述，现有技术中的几种命名实体识别方式均存在各自的技术问题，其中，基于规则和词表的方式在构建规则的过程中费时费力、可移植性不好；基于统计机器学习的方式若不能挖掘出有效的特征，则不能获取较高的学习效果；基于神经网络的方式网络变种较多、对参数设置依赖大，模型可解释性差。基于类似于上文描述的技术需求，本申请提供的命名实体识别方法可以利用较少的人工标注的数据，使用机器学习方式及深度学习方式，以及将多种机器学习模型进行融合，能够准确地获取到产品信息对应的命名实体。

下面通过一个具体的应用场景说明本实施例方法的具体实施方式。

如图1所示，利用本申请实施例训练的深度学习模型组件，可以获取任何产品描述信息对应的品类信息。例如，可以提取得到产品描述信息“Vivo NEX全面屏手机4G全网通拍照官方正品vivo手机”对应的品类信息为“全面屏手机、vivo手机”，产品描述信息“麦德氏护毛超浓缩猫用卵磷脂美毛护肤猫咪补充营养宠物保健品”对应的品类信息为“猫用卵磷脂”，产品描述信息“香港周生生专柜18K玫瑰金Hello Kitty淡水珍珠蝴蝶结猫头不对称耳钉”对应的品类信息为“18K耳钉”。上述深度学习模型组件不仅可以准确地获取产品描述信息对应的品类信息，而且，在训练所述深度学习模型组件的过程中，还可以利用较低的数据成本，大大降低训练模型组件的成本。

下面结合附图2对本申请所述的模型训练方法进行详细的说明。图2是本申请提供的模型训练方法的一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的模型训练过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

具体的本申请提供的命名实体识别方法的一种实施例如图3所示，所述方法可以包括：

S201：利用多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到第一深度学习模型组件，所述品类信息被设置为利用机器学习模型组件预测得到。

S203：基于所述第一深度学习模型组件，利用人工标注的样本数据训练得到第二深度学习模型组件。

S205：分别利用所述第一深度学习模型组件和所述第二深度学习模型组件生成多个训练数据，并利用所述多个训练数据训练生成第三深度学习模型组件，所述第三深度学习模型组件用于识别产品描述信息中的品类信息。

本实施例中，所述第一深度学习模型组件可以由多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到。其中，所述产品描述信息可以包括产品的标题、产品的标签、产品简介、产品详情介绍等等。在一些示例中，产品描述信息可以为产品的标题“Y牌2017新款春装女装韩版修身显瘦真丝连衣裙A字裙有大码”，还可以为产品详情介绍“品牌:XX映画、幅数:三联以上、画芯材质:油画布、装裱方式:有框、外框材质:金属、颜色分类:A款-连香树叶B款-虎皮兰C款-虎皮兰D款-镜面草E款-龟背叶F款-梧桐叶G款-金星蕨H款-芭蕉叶I款-银边圆叶南洋参J款-云杉叶、风格:简约现代、工艺:喷绘、组合形式：独立单幅价格、图片形式:平面、图案:植物花卉、尺寸:40*60cm 50*70cm60*90cm、外框类型:浅木色铝合金框黑色铝合金框、货号:0739”。所述产品描述信息至少包含产品的品类信息，对于具体的产品描述信息的形式，本申请对此不做限制。

在通用领域中，命名实体识别中可以包括七类实体：人名，地名，机构名，时间，日期，货币和百分比。但是在电商领域中，更加关心品类信息的识别，所述品类信息例如可以包括产品的品牌、材质、风格、型号、规格等电商商品的实体。从具体的组合方式，品类词可以由修饰词和产品核心词两部分组成，其中，修饰词可以包括品牌、材质、信号、规格等。例如，对于品类词“苹果手机”，其中，“苹果”为修饰词，“手机”为产品核心词；对于品类词“手机壳”，此时，“手机”又成为修饰词，“壳”为产品核心词。本实施例中的品类信息可以包括所述产品描述信息中实际出现的品类词，也可以包括对实际出现的品类词进行同义转换之后得到的信息，如在产品描述信息中实际出现“iPhone”，为了实现平台数据的统一化，则识别出的品类信息可以是经过翻译转换之后的“苹果手机”。

本实施例中，在训练所述第一深度学习模型组件的过程中，可以利用机器学习模型组件分别预测所述多个第一历史产品描述信息对应的品类信息。具体地，可以构建第一深度学习模型组件，所述第一深度学习模型组件中设置有第一训练参数。然后，分别利用所述多个第一历史产品描述信息以及所述品类信息之间的对应关系对所述第一深度学习模型组件进行训练，调整所述第一训练参数，直至所述第一深度学习模型组件达到预设要求。

本实施例中，在利用机器学习模型组件预测数据的过程中，为了提高机器学习模型组件的准确性，可以利用少量的人工标注数据进行模型训练。在机器学习模型组件的训练过程中，往往不需要大量的数据，利用少量的人工标注数据即可完成模型的训练。在本申请的一个实施例中，所述机器学习模型组件可以包括CRF(条件随机场)模型组件，CRF模型组件可以学习到序列(即各个词语转换成的词向量)之间的特征，并且CRF比较适合训练数据量较少的情况。

本实施例中，在训练所述CRF模型组件的过程中，可以获取多个第二历史产品描述信息，并基于品类数据集分别确定所述第二历史产品描述信息中的品类词集合。然后，可以构建CRF模型组件，所述CRF模型组件中设置有第二训练参数。由于在对所述CRF模型组件进行训练的过程中，需要有模型的输入数据以及输出数据，其中输出数据为通过人工标注方式标注的产品描述信息的品类信息。在本申请的一个实施例中，所述CRF模型的输入数据为所述第二历史产品描述信息的特征数据，其中，所述特征数据包括所述第二历史产品描述信息对应的所述品类词集合。例如，对于产品标题“Apple/苹果手机iPhone智能手机全网通4G红色送手机壳”，利用所述品类数据集，可以提取得到该产品标题对应的品类词集合为{苹果手机、智能手机、手机壳}，而该产品标题对应的人工标注的品类信息为“苹果手机”，该品类信息包含于所述品类词集合中。因此，将品类词集合作为所述CRF模型组件的输入数据，一方面可以提高模型训练的效率，另一方面还可以提高训练得到的模型的准确性。

需要说明的是，在训练所述CRF模型组件的过程中，输入的特征数据不仅包括所述品类词集合，还可以包括下述中的至少一种：品类词在产品描述信息中的位置、产品描述信息的第一个描述词、产品描述信息的最后一个描述词、产品品牌词、产品词等等。通过将更多的特征数据输入值所述CRF模型组件中，一方面可以提高模型的训练效率，另一方面还可以提高模型的准确性。当然，在本申请的另一个实施例中，不仅可以将所述第二历史产品描述信息的特征信息，还可以将所述特征信息及所述第二历史产品描述信息一起作为所述CRF模型组件的输入数据。

在本申请的一个实施例中，可以通过数据分析的方式建立所述品类数据集。在建立所述品类数据集中的过程中，可以获取多个产品描述词，并对所述多个产品描述词进行分类。所述产品描述词例如可以包括产品的产品核心词、品牌、材质、型号、规格等等。对所述产品描述词进行分类的过程中，可以将同一产品类别的产品描述词归为一类，例如电子产品的产品描述词归为一类，如包括电脑、手机、相机、手环等等，将材质描述词归为一类，如棉麻、真皮、纯棉、PPV等等。一般地，属于同一类的产品描述词不会用来描述同一个产品，因此，通过将产品描述词进行分类之后，后续可以避免将属于同一类产品描述词结合成品类词。在对所述多个产品描述词进行分类之后，可以分别计算不同类别的产品描述词之间的相关性信息。在本申请的一个实施例中，所述相关性信息可以包括下述中的至少一种：结合度、PMI(点互信息)、信息熵距离，其中，两个产品描述词的所述结合度、PMI(点互信息)、信息熵距离的计算公式可以分别为：

其中，p(v)为产品描述词v在训练样本中出现的概率，p(u_l)为位于左边的产品描述词u_l在训练样本中出现的概率，p(u_r)为位于右边的产品描述词u_r在训练样本中出现的概率。

对于上述相关性信息，当结合度、PMI值越高，信息熵距离越小时，两个产品描述词可以组合成品类词的概率越大。例如，对于产品描述词“苹果”和“手机”，通过计算得到结合度、PMI值较高，信息熵距离较小，则可以将这两个产品描述词组合成品类词“苹果手机”，进一步地，对于“苹果手机”和“金色”，通过计算得到结合度、PMI值较低，信息熵距离较大，因此，不适合将这两个产品描述词组合成品类词。通过上述方式，可以挖掘出电商领域的品类数据集，对于识别出产品描述信息中的品类词集合，就有十分重要的意义。

至此，可以完成对机器学习模型组件的训练，基于上述特征信息的提取、品类数据集的建立等，可以大大提升机器学习模型组件的准确性。因此，利用机器学习模型组件获取预测数据，并将预测数据作为所述第一深度学习模型组件的训练数据，可以提升第一深度学习模型的准确性。需要说明的是，所述机器模型组件的学习方式不限于半监督学习方式，还可以包括K近邻算法、感知机算法、决策树、支持向量机、逻辑斯底回归、最大熵等，相应的，生成的模型如朴素贝叶斯、隐马尔科夫等，本申请对此不做限制。

本实施例中，还可以基于所述第一深度学习模型组件，利用人工标注的样本数据训练得到第二深度学习模型组件。所述第二深度学习模型组件与所述第一深度学习模型组件可以具有相同的网络结构、参数类型和参数个数。但是，所述第二深度学习模型组件与所述第一深度学习模型组件在训练过程中所使用的训练数据不相同。在训练模型的过程中，若训练数据越准确，则训练得到的模型的结果相对就越准确。在实际训练模型的过程中，需要几百万的训练数据量，但是精确的训练数据往往是人工手工标注，在本申请的应用场景中，则需要人工手工标注出各个产品描述信息中的品类信息。若需要满足几百万的训练数据量，则需要耗费大量的人力和时间完成这项工作。因此，在本申请的实施例中，可以利用大量的机器学习模型组件的预测数据(如五百万的数据量)以及少量的人工标注数据(如两万的数据量)进行模型训练，具体地，可以利用大量的机器学习模型的预测数据训练得到所述第一深度学习模型组件，在训练完成所述第一深度学习模型组件之后，可以在所述第一深度学习模型组件的基础之上，即基于与所述第一深度学习模型组件相同的网络结构、参数类型、参数数量以及参数值，利用少量的人工标注数据对所述第一深度学习模型组件进行训练，并生成第二深度学习模型组件。需要说明的时，在本实施例中，训练所述第二深度学习模型组件的训练数据和上述机器学习模型组件的训练数据可以是同一批数据，实现对训练数据的重复利用。

在本申请的一个实施例中，所述第一深度学习模型组件、所述第二深度学习模型组件可以包括BiLSTM-CRF(双向长短期记忆网络及条件随机场)模型组件。由于CRF模型更加考虑产品描述信息转换成的序列的局部特征，而BiLSTM模型更加考虑序列的前后上下文信息，因此，通过将CRF模型与BiLSTM模型组合成BiLSTM-CRF模型组件之后，可以结合CRF模型和BiLSTM模型的优势，比较全面地学习到序列的大部分特征。当然，在其他实施例中，还可以利用其他深度学习模型，如RNN、CNN或者其他模型的组合等等，本申请对此不做限制。

在本申请的一个实施例中，在训练得到所述第一深度学习模型组件和所述第二深度学习模型组件之后，可以将所述第一深度模型组件和所述第二深度学习模型组件进行融合处理，生成第三深度学习模型组件。具体地，如图3所示，可以获取多个第一产品描述信息以及多个第二产品描述信息。然后，分别将所述第一产品描述信息输入至所述第一深度学习模型组件中，获取所述第一产品描述信息对应的第一品类信息，分别将所述第二产品描述信息输入至所述第二深度学习模型组件中，获取所述第二产品描述信息对应的第二品类信息。将所述第一产品描述信息与所述第一品类信息之间的对应关系、所述第二产品描述信息与所述第二品类信息之间的对应关系作为训练数据，构建第三深度学习模型组件，所述第三深度学习模型组件中设置有第三训练参数。然后，分别利用所述多个第一产品描述信息以及所述第一品类信息、所述多个第二产品描述信息以及所述第二品类信息之间的对应关系对所述第三深度学习模型组件进行训练，调整所述第三训练参数，直至所述第三深度学习模型组件达到预设要求。至此，完成对所述第三深度学习模型组件的训练，这样，将任何产品描述信息输入至所述第三深度学习模型组件中，即可以获取所述产品描述信息中的品类信息。

本申请提供的模型训练方法，可以利用深度学习模型组件获取产品描述信息的品类信息，其中，所述深度学习模型组件由第一深度学习模型组件和第二深度学习模型组件融合而成，所述第一深度学习模型组件的训练数据通过机器学习模型组件预测得到，所述第二深度学习模型组件的训练数据由人工标注得到。通过机器学习模型组件预测得到的训练数据可以包括较大的数据量，通过人工标注得到的训练数据可以为较少的数据量。以上实施方式至少具有以下优势：

本申请另一方面还提供一种模型训练装置，图4是本申请提供的模型训练装置的一种实施例的模块结构示意图，如图4所示，所述模型训练装置可以包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

利用多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到第一深度学习模型组件，所述品类信息被设置为利用机器学习模型组件预测得到；

可选的，在本申请的一个实施例中，所述第一深度学习模型组件、所述第二深度学习模型组件、所述第三深度学习模型组件包括BiLSTM-CRF(双向长短期记忆网络及条件随机场)模型组件。

可选的，在本申请的一个实施例中，所述处理器在实现步骤利用多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到所述第一深度学习模型组件时包括：

获取多个第一历史产品描述信息；

利用机器学习模型组件分别预测所述多个第一历史产品描述信息对应的品类信息；

构建第一深度学习模型组件，所述第一深度学习模型组件中设置有第一训练参数；

分别利用所述多个第一历史产品描述信息以及所述品类信息之间的对应关系对所述第一深度学习模型组件进行训练，调整所述第一训练参数，直至所述第一深度学习模型组件达到预设要求。

可选的，在本申请的一个实施例中，所述机器学习模型包括CRF(条件随机场)模型组件，所述CRF模型组件被设置为按照下述方式训练得到：

获取多个第二历史产品描述信息；

依据品类信息数据集分别确定所述第二历史产品描述信息中的品类信息；

构建CRF模型组件，所述CRF模型组件中设置有第二训练参数；

提取所述第二历史产品描述信息中的特征信息，所述特征信息中包括所述品类信息；

分别利用所述多个第二历史产品描述信息以及所述特征信息之间的对应关系对所述CRF模型组件进行训练，调整所述第二训练参数，直至所述CRF模型组件达到预设要求。

可选的，在本申请的一个实施例中，所述品类信息数据集被设置为按照下述方式获取：

获取多个产品描述词，并对所述多个产品描述词进行分类；

分别计算不同类别的产品描述词之间的相关性信息；

当所述相关性信息满足预设要求时，将对应的产品描述词组合成品类信息，并将所述品类信息添加至品类信息数据集中。

可选的，在本申请的一个实施例中，所述相关性信息包括下述中的至少一种：结合度、PMI(点互信息)、信息熵距离。

可选的，在本申请的一个实施例中，所述品类信息还包括下述中的至少一种：品类词在产品描述信息中的位置、产品描述信息的第一个描述词、产品描述信息的最后一个描述词、产品品牌词、产品词。

可选的，在本申请的一个实施例中，所述处理器在实现步骤分别利用所述第一深度学习模型组件和所述第二深度学习模型组件生成多个训练数据，并利用所述多个训练数据训练生成第三深度学习模型组件时包括：

获取多个第一产品描述信息以及多个第二产品描述信息；

分别将所述第一产品描述信息输入至所述第一深度学习模型组件中，获取所述第一产品描述信息对应的第一品类信息；分别将所述第二产品描述信息输入至所述第二深度学习模型组件中，获取所述第二产品描述信息对应的第二品类信息；

构建第三深度学习模型组件，所述第三深度学习模型组件中设置有第三训练参数；

分别利用所述多个第一产品描述信息以及所述第一品类信息、所述多个第二产品描述信息以及所述第二品类信息之间的对应关系对所述第三深度学习模型组件进行训练，调整所述第三训练参数，直至所述第三深度学习模型组件达到预设要求。

可选的，在本申请的一个实施例中，所述预设要求包括所述模型组件的准确率大于第一预设阈值、召回率大于第二预设阈值、F分数大于第三预设阈值。

本申请另一方面还提供一种命名实体识别装置，可以包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取产品描述信息；

将所述产品描述信息输入至深度学习模型组件中利用上述任一实施例所述的第三深度学习模型组件获得所述产品描述信息中的品类信息。

本申请另一方面还提出一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时可以实现以上任一实施例所述的方法。

所述计算机可读存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一深度学习模型组件、所述第二深度学习模型组件、所述第三深度学习模型组件包括BiLSTM-CRF(双向长短期记忆网络及条件随机场)模型组件。

3.根据权利要求1所述的方法，其特征在于，所述利用多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到所述第一深度学习模型组件包括：

获取多个第一历史产品描述信息；

4.根据权利要求3所述的方法，其特征在于，所述机器学习模型包括CRF(条件随机场)模型组件，所述CRF模型组件被设置为按照下述方式训练得到：

获取多个第二历史产品描述信息；

构建CRF模型组件，所述CRF模型组件中设置有第二训练参数；

5.根据权利要求4所述的方法，其特征在于，所述品类信息数据集被设置为按照下述方式获取：

获取多个产品描述词，并对所述多个产品描述词进行分类；

分别计算不同类别的产品描述词之间的相关性信息；

6.根据权利要求5所述的方法，其特征在于，所述相关性信息包括下述中的至少一种：结合度、PMI(点互信息)、信息熵距离。

7.根据权利要求4所述的方法，其特征在于，所述品类信息还包括下述中的至少一种：品类词在产品描述信息中的位置、产品描述信息的第一个描述词、产品描述信息的最后一个描述词、产品品牌词、产品词。

8.根据权利要求1所述的方法，其特征在于，所述分别利用所述第一深度学习模型组件和所述第二深度学习模型组件生成多个训练数据，并利用所述多个训练数据训练生成第三深度学习模型组件包括：

获取多个第一产品描述信息以及多个第二产品描述信息；

9.根据权利要求3或4或8所述的方法，其特征在于，所述预设要求包括所述模型组件的准确率大于第一预设阈值、召回率大于第二预设阈值、F分数大于第三预设阈值。

10.一种命名实体识别方法，其特征在于，所述方法包括：

获取产品描述信息；

利用权利要求1-9中任意一项所述的第三深度学习模型组件获得所述产品描述信息中的品类信息。

11.一种模型训练装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

12.根据权利要求11所述的装置，其特征在于，所述第一深度学习模型组件、所述第二深度学习模型组件、所述第三深度学习模型组件包括BiLSTM-CRF(双向长短期记忆网络及条件随机场)模型组件。

13.根据权利要求11所述的装置，其特征在于，所述处理器在实现步骤利用多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到所述第一深度学习模型组件时包括：

获取多个第一历史产品描述信息；

14.根据权利要求13所述的装置，其特征在于，所述机器学习模型包括CRF(条件随机场)模型组件，所述CRF模型组件被设置为按照下述方式训练得到：

获取多个第二历史产品描述信息；

构建CRF模型组件，所述CRF模型组件中设置有第二训练参数；

15.根据权利要求14所述的装置，其特征在于，所述品类信息数据集被设置为按照下述方式获取：

获取多个产品描述词，并对所述多个产品描述词进行分类；

分别计算不同类别的产品描述词之间的相关性信息；

16.根据权利要求15所述的装置，其特征在于，所述相关性信息包括下述中的至少一种：结合度、PMI(点互信息)、信息熵距离。

17.根据权利要求14所述的装置，其特征在于，所述品类信息还包括下述中的至少一种：品类词在产品描述信息中的位置、产品描述信息的第一个描述词、产品描述信息的最后一个描述词、产品品牌词、产品词。

18.根据权利要求11所述的装置，其特征在于，所述处理器在实现步骤分别利用所述第一深度学习模型组件和所述第二深度学习模型组件生成多个训练数据，并利用所述多个训练数据训练生成第三深度学习模型组件时包括：

获取多个第一产品描述信息以及多个第二产品描述信息；

19.根据权利要求13或14或18所述的装置，其特征在于，所述预设要求包括所述模型组件的准确率大于第一预设阈值、召回率大于第二预设阈值、F分数大于第三预设阈值。

20.一种命名实体识别装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取产品描述信息；

将所述产品描述信息输入至深度学习模型组件中利用权利要求1-9中任意一项所述的第三深度学习模型组件获得所述产品描述信息中的品类信息。

21.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求1-9中任意一项所述的方法。

22.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求10所述的方法。