CN109189941A

CN109189941A - 用于更新模型参数的方法、装置、设备和介质

Info

Publication number: CN109189941A
Application number: CN201811044261.8A
Authority: CN
Inventors: 秦华鹏; 赵岷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2019-01-11

Abstract

本公开的实施例涉及用于更新模型参数的方法、装置、设备和计算机可读存储介质。该方法包括：基于预定义的概念体系中的概念之间的关联性，确定用于训练概念分析模型的概念对的集合，概念对的集合中的每个概念对包括第一概念和与第一概念相关联的第二概念；以及将概念对的集合应用于概念分析模型，以使得概念分析模型至少基于概念对的集合来更新概念分析模型的参数集，从而提高概念对的集合中的每个概念对的第一概念通过概念分析模型而与第二概念相匹配的度量。由此，在文本处理任务中，可以为每个概念词语引入概念层次结构上的相似信息，从而使得能够丰富概念词语的特征表示，进而能够提升文本处理算法的效果。

Description

用于更新模型参数的方法、装置、设备和介质

技术领域

本公开的实施例总体上涉及文本处理领域，并且更具体地涉及用于更新模型参数的方法、装置、设备和介质。

背景技术

在文本处理任务中，文本特征需要具备较好的泛化性能，即相似但不同的两个文本需要具有相似的语义特征，从而使得能够在文本处理任务中引入语义信息，进而提高文本处理算法的效果。概念是文本特征的重要组成部分，因此可以通过采取有效且便于计算的方式来表示文本中的概念关系特征来实现文本特征的泛化性能。

传统的概念关系特征表示通常采用两种方案来解决。第一种方案是基于上下文的分布式词向量特征，这种方案将词语在文本语料中出现的上下文作为训练语料，最终训练出每个词的向量表示。第二种方案基于知识图谱的表示学习方法，这种方案根据已有知识图谱中的三元组集，训练得到知识图谱中实体的向量表示。然而，上述第一种方案由于基于上下文语料来训练词向量，并且通过词语在语料中的上下文共现信息计算词语的相似性，因此不能捕捉到概念的层次泛化关系。上述第二种方案由于基于知识图谱训练实体向量，并且通过知识图谱中三元组共现信息计算实体的相似性，因此同样不能捕捉到概念的层次泛化关系。

发明内容

根据本公开的示例实施例，提供了一种将概念体系的树状层次结构嵌入到向量空间、以获得特征向量集合形式的概念泛化的文本特征表示的方案。

在本公开的第一方面中，提供了一种用于更新模型参数的。该方法包括基于预定义的概念体系中的概念之间的关联性，确定用于训练概念分析模型的概念对的集合，所述概念对的集合中的每个概念对包括第一概念和与所述第一概念相关联的第二概念；以及将所述概念对的集合应用于所述概念分析模型，以使得所述概念分析模型至少基于所述概念对的集合来更新所述概念分析模型的参数集，从而提高所述概念对的集合中的每个概念对的所述第一概念通过所述概念分析模型而与所述第二概念相匹配的度量。

在本公开的第二方面中，提供了一种用于更新模型参数的装置。该装置包括：概念对集合确定模块，被配置用于基于预定义的概念体系中的概念之间的关联性，确定用于训练概念分析模型的概念对的集合，所述概念对的集合中的每个概念对包括第一概念和与所述第一概念相关联的第二概念；以及概念对集合应用模块，被配置用于将所述概念对的集合应用于所述概念分析模型，以使得所述概念分析模型至少基于所述概念对的集合来更新所述概念分析模型的参数集，从而提高所述概念对的集合中的每个概念对的所述第一概念通过所述概念分析模型而与所述第二概念相匹配的度量。

在本公开的第三方面中，提供了一种电子设备。该电子设备包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例可以在其中实施的示例环境100的示意图；

图2示出了根据本公开一些实施例的示例概念体系的第一结构图200；

图3示出了根据本公开一些实施例的示例概念体系的第二结构图300；

图4示出了根据本公开一些实施例的示例人物概念体系的结构图400；

图5示出了根据本公开一些实施例的用于更新模型参数的方法500的流程图；

图6示出了根据本公开一些实施例的用于确定概念对的方法600的流程图；

图7示出了根据本公开一些实施例的用于更新模型参数的装置700的示意框图；以及

图8示出了可以实施本公开的实施例的计算设备800的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一些实施例”或“该实施例”应当理解为“至少一些实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

传统的概念关系特征表示不能捕捉到概念的层次泛化关系，因此无法充分体现出概念之间的上下位关系以及逻辑关系，从而使得无法满足诸如文本分类和语义解析等需要引入概念的上下位语义特征以及逻辑特征的文本处理任务的需求。

针对上述问题，本公开的实施例通过利用概念体系之中的概念的层级结构来表示概念的语义结构，将上下位以及逻辑层级结构嵌入到用来表示概念关系特征的向量空间中，以使得生成的特征向量的集合能够捕捉到概念之间的上下位相似性，从而使得在文本处理任务中引入了概念的上下位特征，进而提高了文本处理算法的泛化能力。

以下将参照附图来具体描述本公开的实施例。

图1示出了本公开的实施例可以在其中实施的示例环境100的示意图。在该示例环境100中主要包括模型参数更新装置110。应当理解，仅出于示例性的目的描述环境100的结构和功能，而不暗示对于本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的环境中。

如图1中所示，首先，概念体系101被提供给模型参数更新装置110。

在一些实施例中，概念体系101可以是事先构建的有向无环图结构的树状概念层次网络。具体而言，概念体系101的结构可以是以下参照图2至图4示出的根据本公开一些实施例的示例概念体系的第一结构图200、示例概念体系的第二结构图300以及示例人物概念体系的结构图400。应当理解，本公开中的概念体系101的结构和形式并不限于有向无环图结构的树状概念层次网络，而是可以具有任何适当的组织形式。

如图2所示，示例概念体系的第一结构图200中包括多个节点A 201、B 202、C 203、D 204、E 205、F 206、G 207、H 208、I 209和J 210。节点A 201至J 210中的每个节点表示概念体系中的概念，各个节点之间的具有箭头的有向边可以表示概念之间关联性，例如上下位关系、逻辑关系和/或其他任何适当关系。上下位关系的示例可以包括例如，如果有三个语义概念：人物、演员和专业演员，概念“人物”的覆盖范围最大，并且可以包括概念“演员”，概念“演员”的覆盖范围比概念“人物”更小，但可以包括概念“专业演员”。此时，可以认为这上那个概念具有上下位关系，其中概念“人物”最为上位，其为概念“演员”和概念“专业演员”的上位概念，概念“演员”次上位，其为概念“人物”的下位概念和概念“专业演员”的上位概念，概念“专业演员”最为下位，其为概念“人物”和概念“演员”的下位概念。应当理解，上述上下位关系也可以用于地域范围以及其他领域中。逻辑关系可以包括例如依赖关系和因果关系等。

在图2所示的实施例中，当上述有向边表示概念之间的上下位关系时，分别从节点E 205和F 206指向节点D 204的边表示由节点E 205和节点F 206所表示的概念是由节点D204表示的概念的下位概念，从节点D 204指向节点B 202的边表示由节点D 204表示的概念是由节点B 202表示的概念的下位概念，进而由节点E 205和节点F 206所表示的概念也是由节点B 202表示的概念的下位概念，而节点C 203、节点D 204和节点E 205之间没有直接或间接地由单一方向的一个或多个边连接，因此节点C 203、节点D 204和节点E 205之间不存在上下位关系。应当理解，仅出于示例性的目的描述示例概念体系的第一结构图200的结构，而不暗示对于本公开的范围的任何限制。示例概念体系的第一结构图200还可以包括更多、更少的节点，并且节点之间可以具有其他用有向图表示的上下位关系。

根据本公开的实施例，可以在向量空间中来表示概念体系101(其可以被体现为例如图2中所示的示例概念体系的第一结构图200)。在这种情况下，概念节点本身可以被认为是一个符号，即，一种符号化的表示，其中每个概念节点可以利用特征向量来表示，这样的向量表示可以被理解为是针对概念节点的参数集。前述向量空间可以是200维至500维的向量空间，此时每个概念的特征向量可以被表示为数目与向量空间的维数相等的浮点数的数组。例如，当向量空间是200维向量空间时，每个概念可以被表示为200个浮点数的数组以表示针对这一概念的特征向量，具体而言，该浮点数的数组可以表示这一概念节点在向量空间中的位置。

如图2所示，节点G 207具有两个上位节点B 202和H 208，即其，由节点G 207表示的概念与由节点B 202和H 208表示的概念均存在直接语义相似关系，并且节点B 202和H208所表示的概念均为节点G 207所表示的概念的上位概念。根据本公开的实施例，在实际计算过程中，可以同时捕捉节点G 207与包括节点B 202H的子树以及与包括节点H 208的子树的语义相似关系。因此，可以将图2中所示的示例概念体系的第一结构图200转变为图3中所示的示例概念体系的第二结构图300，也即，第二结构图300中的结构可以是第一结构图200中的结构的替代结构。

如图3所示，示例概念体系的第二结构图200中包括多个节点A’301、B’302、C’303、D’304、E’305、F’306、G1 307-1、G2 307-2、H’308、I’309和J’310。图3与图2的主要区别在于图2中所示的节点G 207在图3中被拆分为节点G1 307-1和G2 307-2，从而分别作为包括节点B’302H的子树以及包括节点H’308的子树中的节点。此时，通过分别计算节点G1 307-1与包括节点B’302H的子树的节点、节点G2 307-2与包括节点H’308的子树的节点的语义相似性，可以分别得到节点G1 307-1和G2 307-2的特征向量。可将节点G1 307-1和G2 307-2的特征向量均作为对应于图2中所示的节点G 207的特征向量，也可以将节点G1 307-1和G2307-2的特征向量进行例如加权平均之类的计算，从而整体地表示对应于图2中所示的节点G 207的特征向量在包括节点B’302H的子树以及包括节点H’308的子树中的语义相似性。

图4示出了根据本公开一些实施例的示例人物概念体系的结构图400。具体而言，图4中所示的示例人物概念体系的结构图400对应于图2中所示的示例概念体系的第一结构图200，并且是示例概念体系的第一结构图200的具体示例。在图4中，为图1中所示的示例概念体系的第一结构图200中的每个概念节点添加了具体的中文概念。应当理解，添加的概念并不限定为中文，而是可以是任何语言。如图4所示，示例人物概念体系的结构图400中包括多个节点人物401、演员402、实力派演员403、专业演员404、配音演员405、特技演员406、电影明星407、明星408、体育明星409和球星410。图4中的各个概念节点之间的上下位关系与图1中所示的各个概念节点之间的上下位关系相同，在此不再赘述。

根据本公开的实施例，被提供给模型参数更新装置110的概念体系101中的每个节点可以具有唯一的序号，例如，0、1、2、3、……，从而使得通过序号可以唯一地确定相对应的节点。应当理解，概念体系101也可以本身并未对其中的节点分配序号，而是在被模型参数更新装置110接收后，由模型参数更新装置110对概念体系101中的每个节点分配唯一的序号。

如图1所示，模型参数更新装置110在接收到概念体系101之后，可以向概念分析模型120(concept2vec训练模型)输入模型输入信息102。模型输入信息102包括模型初始化信息103、训练样本104以及训练结束条件105，并且至少一部分模型输入信息102可以由模型参数更新装置110至少部分地基于接收到的概念体系101来确定。

在从模型参数更新装置110接收到模型输入信息102之后，概念分析模型120可以基于模型初始化信息103来对概念分析模型120初始化、基于训练样本104来训练概念分析模型120以不断地更新概念分析模型120中的参数集，并且在训练结束条件105被满足时结束对概念分析模型120的训练，这时经过更新的参数集即为满足用户要求的概念体系101中的各个概念节点的特征向量的集合。

以下将进一步结合附图来详细描述图1所示的模型参数更新装置110和概念分析模型120的工作原理。

图5示出了根据本公开一些实施例的用于更新模型参数的方法500的流程图。例如，方法500可以由如图1所示的模型参数更新装置110来执行。以下将结合图1至图4来详细描述方法500的各个动作。应当理解，方法500还可以包括未示出的附加动作和/或可以省略所示出的动作。本公开的范围在此方面不受限制。

在框510，模型参数更新装置110基于预定义的概念体系101中的概念之间的关联性，确定用于训练概念分析模型120的概念对的集合(例如，如图1所示的训练样本104)。概念对这一概念将在下文中参考图6和图1来描述。在一些实施例中，概念分析模型120可以是分类模型，并可以使用例如SkipGram、卷积神经网络、CBOW等机器学习模型。

图6示出了根据本公开一些实施例的用于确定概念对的方法600的流程图。例如，方法600可以被视为如图5所示的方法500中的框510的一种示例实现。应当理解，方法600还可以包括未示出的附加动作和/或可以省略所示出的动作。本公开的范围在此方面不受限制。

如图6所示，在框610，模型参数更新装置110从概念体系101中确定与概念体系101中的每个概念相对应的概念的子集。根据本公开的实施例，与每个概念相对应的概念的子集可以是与这个概念具有关联性的概念的集合。以下以关联性是上下位关系的语义相似性为例来描述框610中的确定步骤。应当理解，关联性也可以包括概念之间的逻辑关系，此时概念之间的逻辑关系越直接或者越强可以表示概念之间的关联性越高。

正如图2至图4中示出的，本公开中的概念体系101可以是树结构的概念体系。树结构的概念体系中节点的语义相似性的表示方式如下：首先，将每个节点(node)的最相似节点集定义为其所有后代节点(son(node))，这样，如果两个节点间存在上下位关系，下位节点的最相似节点集就是上位节点最相似节点集的子集，二者之间存在可传递的层次泛化关系；其次，根据每个节点的最相似节点集以及节点的上下位关系，构造每个节点与树中其他节点的相似度的偏序关系，这种偏序关系例如包括：{后代节点集}>{父节点}>{父节点的其他后代节点集}>{祖父节点}>{祖父节点的其他后代节点集}>…，其中“>”左侧的集合中的节点与针对其构造这些集合的节点之间的相似度(，即关联性)高于“>”右侧的集合中的节点与针对其构造这些集合的节点之间的相似度。

例如，在图3所示的示例概念体系的第二结构图300中，节点D’304与其他节点的相似度偏序为：{E’305,F’306}>{B’302}>{C’303,G1 307-1}>{A’301}>{H’308，I’309，G2307-2，J’310}。结合图4所示的示例人物概念体系的结构图400，如果图3的节点D’304对应的概念为图4中的专业演员404，则图4中的概念节点“专业演员404”与结构图400中其他概念节点的相似度偏序为：{配音演员405，特技演员406}>{演员402}>{实力派演员403，电影明星407}>{人物401}>{明星408，体育明星409、球星410}；而“明星408”这个概念节点与结构图400中其他概念节点的相似度偏序为：{体育明星409、球星410、电影明星407}>{人物401}>{演员402，专业演员404,，配音演员405，特技演员406，实力派演员403}。

通过上述方式，可以基于上面定义的每个节点与树结构中其他节点的相似度的偏序关系，对于每个概念节点(nodeC)，构造其训练样本集(train(nodeC))，即，可以确定与概念体系101中的每个概念相对应的概念的子集。

在框620，模型参数更新装置110将概念体系101中的每个概念分别于与其相对应的概念的子集中的概念配对，以作为概念对的集合中的概念对。例如，以图4中的概念节点“专业演员404”与结构图400中其他概念节点的相似度偏序为：{配音演员405，特技演员406}>{演员402}>{实力派演员403，电影明星407}>{人物401}>{明星408，体育明星409、球星410}为例，此时针对概念节点“专业演员404”可以构造的概念对的集合中的概念对包括(专业演员404，配音演员405)、(专业演员404，特技演员406)、(专业演员404，演员402)、(专业演员404，实力派演员403)、(专业演员404，电影明星407)、(专业演员404，人物401)、(专业演员404，明星408)、(专业演员404，体育明星409)和(专业演员404，球星410)。由此可见，上述概念对中包括第一概念“专业演员404”以及与该第一概念相关联的第二概念“配音演员405”、“特技演员406”、“演员402”、“实力派演员403”、“电影明星407”、“人物401”、“明星408”、“体育明星409”或“球星410”。

根据本公开的实施例，由于概念体系101中的概念可能达到百万级的数量级，因此如果将所有的可能构造出的概念对都用于训练概念分析模型120，则可能导致运算量过大。同时，如果将过于少的概念对用于训练概念分析模型120，则可能导致概念分析模型120的训练不够充分。因此，根据本公开的实施例，可以定义每个节点所需的最少样本量(minTrain)。对于每个概念节点(nodeC)获取其所有后代节点集(son(nodeC))，如果后代节点集(son(nodeC))中的节点的数目>＝最少样本量(minTrain)，则使得训练样本集(train(nodeC))＝后代节点集(son(nodeC))，因为后代节点是关联性最高的节点。应当理解，此时也可以仅从后代节点集(son(nodeC))中采取例如随机或按序的方式选择出数目等于最少样本量(minTrain)的节点来作为训练样本集(train(nodeC))。如果后代节点集(son(nodeC))中的节点的数目<最少样本量(minTrain)，则按照上面定义的相似度偏序关系补充训练样本，直至训练样本集(train(nodeC))中的节点的数目>＝最少样本量(minTrain)。

例如，仍以图4中的概念节点“专业演员404”与结构图400中其他概念节点的相似度偏序为：{配音演员405，特技演员406}>{演员402}>{实力派演员403，电影明星407}>{人物401}>{明星408，体育明星409、球星410}为例，假设最少样本量(minTrain)＝3，则训练样本集(train(nodeC＝“专业演员404”))＝{配音演员405，特技演员406，演员402}；假设最少样本量(minTrain)＝4，则训练样本集(train(nodeC＝“专业演员404”))＝{配音演员405，特技演员406，演员402，实力派演员403，电影明星407}。应当理解，这时，构造出的训练样本集(train(nodeC＝“专业演员404”))中的概念与概念“专业演员404”具有较高的关联性。这时，可以针对概念节点“专业演员404”分别构造出3个或者4个概念对。

返回图5，方法500进行至框520，模型参数更新装置110将在框510中确定的概念对的集合应用于概念分析模型120，以使得概念分析模型120至少基于概念对的集合来更新概念分析模型120的参数集。

根据本公开的实施例，参数集可以包括特征向量的集合。因此，模型参数更新装置110在将在框510中确定的概念对的集合应用于概念分析模型120之前，可以向概念分析模型120提供待生成的特征向量的数目和维数(例如，如图1所示的模型初始化信息103)，从而使得概念分析模型120可以基于该数目和维数来生成特征向量的集合并且而后用于训练。应当理解，概念分析模型120也可以被预先设置为适用于预定数目和维数的特征向量，从而使得可以在无需由模型参数更新装置110提供待生成的特征向量的数目和维数的情况下自动地生成特征向量的集合。

根据本公开的一些实施例，概念分析模型120可以按照矩阵的形式来生成特征向量的集合，其中矩阵的行数X表示需要被更新的特征向量的数目，每个特征向量对应于一个概念，矩阵的列数Y表示每个特征向量的维数，即，这些特征向量是在多少维的向量空间中。概念分析模型120采取例如随机设置的形式来生成这个矩阵，即，生成特征向量的集合。

如前所述，在框510中确定的概念对的集合中的每个概念对均包括第一概念和第二概念，并且概念体系101中的每个概念(即，节点)均具有唯一的序号，因此模型参数更新装置110将在框510中确定的概念对的集合应用于概念分析模型120可以包括将概念对的集合中的概念对包括的概念的序号提供给概念分析模型120，概念分析模型120然后可以从构造的特征向量的集合中确定相对应的特征向量进行训练。例如，序号为0的概念节点可以对应于矩阵的第一行所对应的特征向量，序号为1的概念节点可以对应于矩阵的第二行所对应的特征向量，以此类推。

如前所述，概念分析模型120可以是分类模型。此时，概念分析模型120的分类功能在于将一个概念(例如，概念A)分类为与其相关联的另一概念(例如，概念B)，即，以概念A作为输入，通过概念分析模型120而得到概念B作为输出。因此，概念A与概念B的关联性越高，就说明分类的结果越准确。结合之前描述的，可以认为将某个概念分类成它的下位概念说明分类的结果较为准确。

由于概念分析模型120是按照预定义的维数构造了多维向量空间中的特征向量的集合，因此特征向量的集合中的特征向量具有分类意义上的关系。

根据本公开的实施例，当概念分析模型120至少基于概念对的集合来更新概念分析模型120的参数集时，概念分析模型120从模型参数更新装置110接收到的概念对的集合中的概念对可以指代标准的分类输入与分类输出。例如，当概念分析模型120被应用了针对概念节点“专业演员404”的概念对(专业演员404，配音演员405)时，意味着应当将“专业演员404”这一概念分类成“配音演员405”。由于概念分析模型120初始生成的特征向量形式的概念“专业演员404”和“配音演员405”很可能无法实现这一分类效果，因此概念分析模型120将调整生成的特征向量的集合中的至少一部分特征向量，从而使得其可以在向量空间中将对应于“专业演员404”的特征向量经过分类操作变换为对应于“配音演员405”的特征向量，即，将“专业演员404”分类为“配音演员405”。即，当向概念分析模型120应用了某个概念对时，希望得到的结果是提高将这个概念对中的第一概念通过概念分析模型120而被分类成这个概念对中的第二概念的概率，也即，提高这个概念对中的第一概念通过概念分析模型120而与这个概念对中的第二概念相匹配的度量，其中，度量可以是概率或者分配成功的次数。

由于模型参数更新装置110向概念分析模型120应用的概念对的集合中的概念对明确指出了分类输入与分类输出，因此概念体系101从训练概念分析模型120的角度而言并不重要。实际上，很多时候，应用的概念对无法体现其中的第一概念和第二概念之间的上下位关系，并且概念分析模型120也无需获知第一概念和第二概念之间的上下位关系。因此，概念分析模型120训练出的特征向量的集合中的特征向量本身也并不体现特征向量所对应的概念之间的上下位关系。在理论上，可以利用概念分析模型120训练出的特征向量的集合、通过偏序的方式来还原概念体系101的树状结构，但是概念分析模型120的训练并不是以此为目标而进行的。

根据本公开的实施例，模型参数更新装置110可以按照各种量级来向概念分析模型120应用概念对的集合中的概念对。可以采取依次应用或者按批次应用在内的各种应用形式，其中没批次输入的概念对可以同时用于训练其中的概念所涉及的特征向量。理论上，若能一次将所有概念对应用于概念分析模型120，则概念分析模型120可以同时按照这些概念对所指出的分类输入和分类输出进行训练，这样得到的训练结果会更好，即，优化方向最为正确。但是，考虑到概念分析模型120以及模型参数更新装置110的计算能力、计算成本、要求的计算时间以及计算效率的折衷，利用按批次应用的形式通常最为成本高效，其中每批次的概念对的数目可以按照前述要素来调整。在概念分析模型120进行训练时，后应用的概念对中所涉及的概念对应的特征向量的训练会基于已被训练过的特征向量，即，先应用的概念对中所涉及的概念对应的特征向量的训练可能已经导致很多特征向量被调整，后应用的概念对中所涉及的概念对应的特征向量的训练将进一步调整之前调整过的特征向量。

当概念分析模型120是分类模型时，在经过训练后，当向概念分析模型120输入一个概念(即，与该概念对应的序号)时，输出将会是该概念被分类成概念体系101中的所有其他概念的概率分布。由于关联性较低的概念之间直接或间接构成概念对的概率较小，因此向概念分析模型120应用的此类概念对也会较少。由此，在经过训练后，概念分析模型120将这两个概念相互分类的概率也会较小，即，当两个概念很不相关联时，将它们相互分类为对方的概率会很小，甚至可以趋近于0。因此，将某个概念应用与概念分析模型120所得到的概率分布反过来可以表明这个概念与其他各个概念的关联性程度。

根据本公开的一些实施例，概念分析模型120的训练过程可以通过减少匹配(分类)未成功(loss)的形式来逐步进行。例如，当向概念分析模型120应用概念对(专业演员404，配音演员405)时，如果针对概念“专业演员404”，概念分析模型120并未匹配到概念“配音演员405”时，也即，当概念分析模型120没有将概念“专业演员404”分类成概念“配音演员405”时，即为出现了匹配未成功。概念分析模型120的训练目标可以针对减少匹配未成功来定义。

根据本公开的一些实施例，概念分析模型120的训练过程的模型优化目标可以是被描述为使概率P(train(nodeC)|nodeC)最大化，即，针对某个概念，使将该概念通过概念分析模型120而被分类成这一概念的训练样本集(train(nodeC))的概率最大化。

应当理解，根据对概念分析模型120的训练结果的要求，框520中所示的对概念分析模型120的更新过程可以被迭代地实施。

在框530，模型参数更新装置110向概念分析模型120提供阈值匹配度、阈值更新次数和/或其他适当的预设值，以使得概念分析模型120根据这些预设值来确定是否继续更新参数集。在一些实施例中，如果前述度量(即，概念对中的第一概念通过概念分析模型120而与这个概念对中的第二概念相匹配的度量)超过阈值匹配度，则概念分析模型120可以响应于此而停止更新参数集。替代地或附加地，概念分析模型120可以在参数集被更新的次数超过阈值更新次数时，停止更新参数集。例如，当阈值更新次数为3时，如果概念分析模型120已经对参数集更新过3次，则停止更新参数集。

在一些实施例中，模型参数更新装置110可以向概念分析模型120提供例如图1中所示的训练结束条件115，以指示概念分析模型120何时停止对参数集(特征向量的集合)的更新(训练)。训练结束条件115可以被体现为阈值匹配度和阈值更新次数等形式。当训练结束条件115被体现为阈值匹配度时，当概念对中的第一概念通过概念分析模型120而与这个概念对中的第二概念相匹配的度量超过阈值匹配度时，概念分析模型120可以停止继续更新特征向量的集合。

应当理解，前述度量超过阈值匹配度也可以体现为出现的匹配未成功的数目变化变得小于一定阈值。当训练结束条件115被体现为阈值更新次数时，当概念分析模型120对特征向量的集合的更新次数达到阈值更新次数时概念分析模型120可以停止继续更新特征向量的集合。综上所述，当训练结束条件115被满足时，可以认为概念分析模型120的训练结果趋于收敛，此时可以停止继续更新特征向量的集合。

应当理解，框530是方法500中的可选步骤，当概念分析模型120本身即包括训练结束条件115时，可以无需框530中所示的步骤，而不会影响本公开的实施例的实现。

与传统方案相比，本公开的前述实施例利用模型参数更新装置110将概念体系101的树状层次泛化结构通过概念分析模型120嵌入到向量空间中，从而得到能够反映概念体系102中的概念的层次结构相似性的向量化概念表示，即，特征向量的集合。利用本公开的实施例，在文本处理任务中，可以为每个概念词语引入概念层次结构上的相似信息，从而使得能够丰富概念词语的特征表示，进而提升文本处理算法的效果。

本公开的实施例还提供了用于实现上述方法或过程的相应装置。图7示出了根据本公开一些实施例的用于更新模型参数的装置700的示意框图。该装置700可以在例如图1的模型参数更新装置110处实施。如图7所示，装置700可以包括概念对集合确定模块710、概念对集合应用模块720和可选的停止更新条件提供模块730。

在一些实施例中，概念对集合确定模块710可以被配置用于基于预定义的概念体系101中的概念之间的关联性，确定用于训练概念分析模型120的概念对的集合，概念对的集合中的每个概念对包括第一概念和与第一概念相关联的第二概念。概念对集合确定模块710的操作类似于前面结合图5的框520所述的操作，这里不再赘述。

根据本公开的一些实施例，第一集合确定单元710可以包括(图中未示出的)：概念子集确定模块，被配置用于从概念体系101中确定与概念中的每个概念相对应的概念的子集，概念的子集中的概念与相对应的概念具有高关联性；以及概念配对模块，被配置用于将概念中的每个概念分别与相对应的概念的子集中的概念配对，以作为概念对的集合中的概念对。概念子集确定模块和概念配对模块的操作类似于前面结合图6的框610和620所述的操作，这里不再赘述。

在一些实施例中，概念对集合应用模块720可以被配置用于将概念对的集合应用于概念分析模型120，以使得概念分析模型120至少基于概念对的集合来更新概念分析模型的参数集，从而提高概念对的集合中的每个概念对的第一概念通过所述概念分析模型而与第二概念相匹配的度量。在一些实施例中，概念对集合应用模块720可以包括(图中未示出的)：特征向量信息提供模块，被配置用于在将概念对的集合应用于概念分析模型120之前，向概念分析模型120提供待生成的特征向量的数目和维数，以使得概念分析模型120基于数目和维数来生成特征向量的集合。概念对集合应用模块720和特征向量信息提供模块的操作类似于前面结合图5的框520所述的操作，这里不再赘述。

根据本公开的一些实施例，停止更新条件提供模块730可以被配置用于向概念分析模型120提供阈值匹配度和阈值更新次数中的至少一项，以使得概念分析模型120响应于以下中的至少一项而停止更新所述参数集：所述度量超过所述阈值匹配度；以及所述参数集被更新的次数超过所述阈值更新次数。停止更新条件提供模块730的操作类似于前面结合图5的框530所述的操作，这里不再赘述。

应当理解，装置700中记载的每个模块分别与参考图5和图6描述的方法500和600中的每个步骤相对应。并且，装置700及其中包含的模块的操作和特征都对应于上文结合图5和图6描述的操作和特征，并且具有同样的效果，具体细节不再赘述。

装置700中所包括的模块可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。在一些实施例中，一个或多个模块可以使用软件和/或固件来实现，例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代，装置700中的部分或者全部模块可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制，可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)，等等。

图7中所示的这些模块可以部分或者全部地实现为硬件模块、软件模块、固件模块或者其任意组合。特别地，在某些实施例中，上文描述的流程、方法或过程可以由存储系统或与存储系统对应的主机或独立于存储系统的其它计算设备中的硬件来实现。

图8示出了可以用来实施本公开实施例的示例性计算设备800的示意性框图。设备800可以用于实现图1的模型参数更新装置110。如图所示，设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元801执行上文所描述的各个方法和处理，例如方法500和600。例如，在一些实施例中，方法500和600可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法500和600的一个或多个步骤。备选地，在其他实施例中，CPU801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法500和600。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于更新模型参数的方法，包括：

基于预定义的概念体系中的概念之间的关联性，确定用于训练概念分析模型的概念对的集合，所述概念对的集合中的每个概念对包括第一概念和与所述第一概念相关联的第二概念；以及

将所述概念对的集合应用于所述概念分析模型，以使得所述概念分析模型至少基于所述概念对的集合来更新所述概念分析模型的参数集，从而提高所述概念对的集合中的每个概念对的所述第一概念通过所述概念分析模型而与所述第二概念相匹配的度量。

2.根据权利要求1所述的方法，其中确定用于训练概念分析模型的概念对的集合包括：

从所述概念体系中确定与所述概念中的每个概念相对应的概念的子集，所述概念的子集中的概念与相对应的概念具有高关联性；以及

将所述概念中的每个概念分别与相对应的所述概念的子集中的概念配对，以作为所述概念对的集合中的概念对。

3.根据权利要求1所述的方法，其中所述参数集包括特征向量的集合，所述方法还包括：

在将所述概念对的集合应用于所述概念分析模型之前，向所述概念分析模型提供待生成的特征向量的数目和维数，以使得所述概念分析模型基于所述数目和所述维数来生成所述特征向量的集合。

4.根据权利要求1所述的方法，其中所述第一概念通过所述概念分析模型而与所述第二概念相匹配的度量包括：以所述第一概念作为输入通过所述概念分析模型而得到相对应的所述第二概念作为输出的概率。

5.根据权利要求1所述的方法，还包括：

向所述概念分析模型提供阈值匹配度和阈值更新次数中的至少一项，以使得所述概念分析模型响应于以下中的至少一项而停止更新所述参数集：

所述度量超过所述阈值匹配度；以及

所述参数集被更新的次数超过所述阈值更新次数。

6.根据权利要求1所述的方法，其中所述关联性包括以下中的至少一项：

所述概念之间的上下位关系；以及

所述概念之间的逻辑关系。

7.一种用于更新模型参数的装置，包括：

概念对集合确定模块，被配置用于基于预定义的概念体系中的概念之间的关联性，确定用于训练概念分析模型的概念对的集合，所述概念对的集合中的每个概念对包括第一概念和与所述第一概念相关联的第二概念；以及

概念对集合应用模块，被配置用于将所述概念对的集合应用于所述概念分析模型，以使得所述概念分析模型至少基于所述概念对的集合来更新所述概念分析模型的参数集，从而提高所述概念对的集合中的每个概念对的所述第一概念通过所述概念分析模型而与所述第二概念相匹配的度量。

8.根据权利要求7所述的装置，其中所述概念对集合确定模块包括：

概念子集确定模块，被配置用于从所述概念体系中确定与所述概念中的每个概念相对应的概念的子集，所述概念的子集中的概念与相对应的概念具有高关联性；以及

概念配对模块，被配置用于将所述概念中的每个概念分别与相对应的所述概念的子集中的概念配对，以作为所述概念对的集合中的概念对。

9.根据权利要求7所述的装置，其中所述参数集包括特征向量的集合，所述装置还包括：

特征向量信息提供模块，被配置用于在将所述概念对的集合应用于所述概念分析模型之前，向所述概念分析模型提供待生成的特征向量的数目和维数，以使得所述概念分析模型基于所述数目和所述维数来生成所述特征向量的集合。

10.根据权利要求7所述的装置，其中所述第一概念通过所述概念分析模型而与所述第二概念相匹配的度量包括：以所述第一概念作为输入通过所述概念分析模型而得到相对应的所述第二概念作为输出的概率。

11.根据权利要求7所述的方法，还包括：

停止更新条件提供模块，被配置用于向所述概念分析模型提供阈值匹配度和阈值更新次数中的至少一项，以使得所述概念分析模型响应于以下中的至少一项而停止更新所述参数集：

所述度量超过所述阈值匹配度；以及

所述参数集被更新的次数超过所述阈值更新次数。

12.根据权利要求7所述的方法，其中所述关联性包括以下中的至少一项：

所述概念之间的上下位关系；以及

所述概念之间的逻辑关系。

13.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。