CN107016556A

CN107016556A - 数据处理方法及装置

Info

Publication number: CN107016556A
Application number: CN201610055184.0A
Authority: CN
Inventors: 刘军宁; 李龙; 卢星宇; 俞雨; 胡汝樽
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2017-08-04
Anticipated expiration: 2036-01-27
Also published as: CN107016556B

Abstract

本申请提供一种数据处理方法及装置。数据处理方法包括：根据业务需求，确定至少一个待处理新闻消息和至少一个待处理资源类别；分别构建至少一个待处理新闻消息中各待处理新闻消息的词向量和至少一个待处理资源类别中各待处理资源类别的词向量；根据各待处理新闻消息的词向量和各待处理资源类别的词向量，确定各待处理新闻消息与各待处理资源类别之间的匹配关系。本申请可以挖掘新闻消息与资源类别之间的匹配关系，有利于为基于网络资源的业务处理提供依据。

Description

数据处理方法及装置

【技术领域】

本申请涉及互联网技术领域，尤其涉及一种数据处理方法及装置。

【背景技术】

随着互联网技术的发展，网络资源越来越多。网络资源的热度，往往会受到其它信息(例如热点新闻和资讯)的影响。如果能够预先获取网络资源与新闻消息之间的匹配关系，那么将有利于后续基于网络资源的业务处理过程。但是，目前并不存在用以挖掘新闻消息与网络资源之间的匹配关系的技术方案，因此亟需一种技术方案，用以挖掘新闻消息与网络资源之间的匹配关系，以便基于该匹配关系执行更多业务处理。

【发明内容】

本申请的多个方面提供一种数据处理方法及装置，用以挖掘新闻消息与网络资源之间的匹配关系，为业务处理提供依据。

本申请的一方面，提供一种数据处理方法，包括：

根据业务需求，确定至少一个待处理新闻消息和至少一个待处理资源类别；

分别构建所述至少一个待处理新闻消息中各待处理新闻消息的词向量和所述至少一个待处理资源类别中各待处理资源类别的词向量；

根据所述各待处理新闻消息的词向量和所述各待处理资源类别的词向量，确定所述各待处理新闻消息与所述各待处理资源类别之间的匹配关系。

本申请的另一方面，提供一种数据处理装置，包括：

第一确定模块，用于根据业务需求，确定至少一个待处理新闻消息和至少一个待处理资源类别；

构建模块，用于分别构建所述至少一个待处理新闻消息中各待处理新闻消息的词向量和所述至少一个待处理资源类别中各待处理资源类别的词向量；

第二确定模块，用于根据所述各待处理新闻消息的词向量和所述各待处理资源类别的词向量，确定所述各待处理新闻消息与所述各待处理资源类别之间的匹配关系。

在本申请中，根据业务需求，确定待处理新闻消息和待处理资源类别，分别构建待处理新闻消息和待处理资源类别的词向量，根据待处理新闻消息和待处理资源类别的词向量，确定待处理新闻消息与待处理资源类别之间的匹配关系，解决了现有技术存在的缺陷，有利于为业务处理提供依据。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的数据处理方法的流程示意图；

图2为本申请另一实施例提供的数据处理装置的结构示意图；

图3为本申请又一实施例提供的数据处理装置的结构示意图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一实施例提供的数据处理方法的流程示意图。如图1所示，该方法包括：

101、根据业务需求，确定至少一个待处理新闻消息和至少一个待处理资源类别。

102、分别构建所述至少一个待处理新闻消息中各待处理新闻消息的词向量和所述至少一个待处理资源类别中各待处理资源类别的词向量。

103、根据所述各待处理新闻消息的词向量和所述各待处理资源类别的词向量，确定所述各待处理新闻消息与所述各待处理资源类别之间的匹配关系。

本实施例提供一种数据处理方法，可由数据处理装置执行，用以挖掘新闻消息与资源类别之间的匹配关系，为基于资源类别的业务处理提供依据。

首先说明，本申请实施例不限制新闻消息的内容，例如可以包括新闻事件、热点话题、人物动态、产品资讯等中的至少一种；另外，也不限制新闻消息的实现格式，例如可以包括文本、图片、视频等中的至少一种。

另外，本申请实施例中的资源类别是指网络资源所属的类别。本申请实施例不限定网络资源的类型。在不同应用场景中，网络资源会有所不同，网络资源所属的类别也会有所不同。举例说明：

在电子商务领域，网络资源可以是卖家提供的各种商品、服务等，相应的，资源类别可以是网络资源所属的类目，例如女装、男装、鞋子、生活、学习、运动、户外、母婴等。值得说明的是，本申请实施例并不限制类目等级，也就是说，在本申请实施例中，资源类别可以包括各种等级的类目。

在投资理财领域，网络资源可以是各种理财产品，例如股票、基金等，相应的，资源类别可以是各种理财产品所属的类别，例如股票类、基金类、长期理财、短期理财等。

考虑到新闻消息和资源类别的范畴较广、数量较大，因此在挖掘新闻消息与资源类别之间的匹配关系之前，需要明确新闻消息的范围和资源类别的范围。一般的，可由业务需求确定新闻消息的范围和资源类别的范围。基于此，可以根据业务需求，确定与业务处理相关的至少一个新闻消息和至少一个资源类别。为便于描述，将这里的新闻消息称为待处理新闻消息，将这里的资源类别称为待处理资源类别。

其中，业务需求不同，所确定的待处理新闻消息和待处理资源类别也会有所不同。也就是说，不同的业务需求，决定新闻消息的范围和资源类别的范围。举例说明：

若业务需求是将新出现的热点新闻映射到相应的资源类别下，则可以将新出现的热点新闻作为待处理新闻消息，并将资源平台提供的所有资源类别作为待处理资源类别，以便从所有资源类别中确定与新出现的热点新闻相匹配的资源类别。

若业务需求是为新出现的资源类别匹配相应的热点新闻，则可以将新出现的资源类别作为待处理资源类别，并将新闻语料库中的各新闻消息作为待处理新闻消息，以便从所有新闻消息中确定与新出现的资源类别相匹配的新闻消息。

若业务需求是为资源平台提供的所有资源类别匹配相应的新闻消息，则可以将资源平台提供的所有资源类别分别作为待处理资源类别，并将新闻语料库中各新闻消息作为待处理新闻消息，以便建立新闻消息与资源类目之间的匹配关系。

在确定待处理新闻消息和待处理资源类别之后，可以构建各待处理新闻消息的词向量以及各待处理资源类别的词向量，进而根据各待处理新闻消息的词向量与各待处理资源类别的词向量，确定各待处理新闻消息与各待处理资源类别之间的匹配关系。

由上述可见，本实施例基于业务需求，确定待处理新闻消息和待处理资源类别，进而构建待处理新闻消息的词向量和待处理资源类别的词向量，基于两者的词向量，确定两者之间的匹配关系，解决了现有技术存在的缺陷，为后续业务处理提供依据。

以本申请技术方案在电子商务领域中的应用为例，假设数据处理装置根据业务需求，确定的待处理新闻消息和待处理类目分别如下：

新闻消息：包括新闻标题和新闻正文信息。示例如下：

……

新华网北京8月13日电8月12日23时30分许，天津滨海新区瑞海公司危险品仓库发生爆炸。据初步统计，事故已造成14人死亡，400余人受伤。(截至13日8时13分，事故已造成17人死亡，32名危重伤员，283人入院观察治疗)……

……

类目A(风衣)：芮纳纪chic简约低调的大地色系中袖风衣、自制糖衣经典款斗篷式可束腰超长款风衣……

类目B(急救包)：急救包家用康玛士车用铝合金医药箱户外便携急救包应急包药包、户外便携急救包车载家用旅行必备地震求救生存应急包医药包急救箱……

……

在经过本申请上述实施例的处理之后得到新闻消息与资源类别之间的匹配关系如下：

【新闻消息】新华网北京8月13日电8月12日23时30分许，天津滨海新区瑞海公司危险品仓库发生爆炸。据初步统计，事故已造成14人死亡，400余人受伤。(截至13日8时13分，事故已造成17人死亡，32名危重伤员，283人入院观察治疗)……

匹配类目

1.警示牌

2.急救包

3.急救毯

在获得上述新闻消息与上述类目之间的匹配关系之后，可用于生意参谋平台为卖家提供经营决策参考，例如建议卖家销售警示牌、急救包、急救毯等商品，或者，也可向用户推送消息，建议用户购买警示牌、急救包、急救毯等商品。由此可见，在基于新闻消息与商品类目之间的匹配关系进行业务处理(例如经营决策参考、参考建议推送)时，可以更加准确，有利于提高平台价值。

下面实施例将对本申请上述实施例中的各步骤做详细说明。

在上述步骤102中，需要构建待处理新闻消息的词向量，一种构建待处理新闻消息的词向量的实施方式包括：

对于每个待处理新闻消息，获取表征该待处理新闻消息的至少一个目标新闻词条，确定至少一个目标新闻词条中各目标新闻词条的权重，以形成待处理新闻消息的词向量。

进一步，一种获取表征该待处理新闻消息的至少一个目标新闻词条的实施方式包括：

对待处理新闻消息进行分词处理，以获得至少一个候选新闻词条；

获取至少一个候选新闻词条的逆向文档频率(Inverse DocumentFrequency，IDF)值；

获取IDF值满足预设第一筛选条件的至少一个候选新闻词条作为目标新闻词条。

在上述获取候选新闻词条的过程中，所述新闻消息主要包括新闻标题和新闻正文信息等信息。在对新闻消息进行分词处理获得分词结果之后，可选的，可以去除分词结果中的单字和停用词，以获取剩余的分词结果作为候选新闻词条。

可选的，在上述获取候选新闻词条的IDF值的一种具体实施方式中，可以预先形成一IDF值表，为便于区分和描述，将这里的IDF值表称为第一IDF值表，第一IDF值表中存储有各新闻词条的IDF值，基于第一IDF值表，可以从该第一IDF值表中，获取各候选新闻词条的IDF值。

其中，形成第一IDF值表的过程包括：

对新闻语料库中各新闻消息进行分词处理，获得至少一个新闻词条；

根据公式(1)，计算至少一个新闻词条中各新闻词条的IDF值；

将各新闻词条及其IDF值对应存储到第一IDF值表中。

在上述公式(1)中，IDF_i为各新闻词条中第i个新闻词条的IDF值，N为新闻语料库中新闻消息的总数，N_i为新闻语料库中出现过第i个新闻词条的新闻消息的数量。

可选的，上述获取候选新闻词条的IDF值的另一种具体实施方式为：

根据公式(2)，计算至少一个候选新闻词条中各候选新闻词条的IDF值；

其中，为至少一个候选新闻词条中第i个候选新闻词条的IDF值，N^new为新闻语料库中新闻消息的总数，为新闻语料库中出现过第i个候选新闻词条的新闻消息的数量。

值得说明的是，公式(1)与公式(2)原理类似，区别仅在于：需要计算IDF值的新闻词条有所不同。

基于上述，在获得各候选新闻词条的IDF值之后，可以根据预先设置的第一筛选条件对各候选新闻词条进行筛选，将IDF值不符合第一筛选条件的候选新闻词条(例如IDF值小于预设IDF阈值的候选新闻词条)去掉，获取剩余的候选新闻词条作为目标新闻词条。

基于上述各实施方式，在获得目标新闻词条之后，一种确定至少一个目标新闻词条中各目标新闻词条的权重的具体实施方式包括：

根据公式(3)，计算至少一个目标新闻词条中各目标新闻词条的权重；

其中，为至少一个目标新闻词条中第i个目标新闻词条的权重，n_i为第i个目标新闻词条在待处理新闻消息中出现的次数，n为待处理新闻消息中的总词数，为第i个目标新闻词条的IDF值。

进一步，在上述步骤102中，还需要构建待处理资源类别的词向量。与上述构建待处理新闻消息的词向量的方式类似，一种构建待处理资源类别的词向量的实施方式包括：

对于每个待处理资源类别，获取表征该待处理资源类别的至少一个目标类别词条，确定至少一个目标类别词条中各目标类别词条的权重，以形成该待处理资源类别的词向量。

进一步，一种获取表征该待处理资源类别的至少一个目标类别词条的实施方式包括：

对待处理资源类别下的网络资源的描述信息进行分词处理，以获得至少一个候选类别词条；

获取至少一个候选类别词条的IDF值；

获取IDF值满足预设第二筛选条件的至少一个候选类别词条作为所述至少一个目标类别词条。

上述网络资源的描述信息可以包括任何与网络资源有关的信息。根据网络资源的不同，网络资源的描述信息会有所不同。以商品为例，则商品的描述信息可以包括商品名、标题、评论信息等中的至少一个。

优选的，考虑到每个待处理资源类别下网络资源的数量较大，导致描述信息的数量较大，为便于处理，节约处理资源，提高处理效率，可以采用部分网络资源，并且使用简单且能够唯一区分这些网络资源的信息。以商品为例，商品标题一般是商家用来描述商品的最准确语句表达，因此可以选取类目下最近有交易行为的商品，取它们的商品标题作为该类目的语料，进而进行分词处理，以获得候选类别词条。

在上述获取各候选类别词条的过程中，在对待处理资源类别下网络资源的描述信息进行分词处理获得分词结果之后，可选的，可以去除分词结果中的单字和停用词，以获取剩余的分词结果作为候选类别词条。

可选的，在上述获取至少一个候选类别词条的IDF值的一种实施方式中，可以预先形成IDF值表，这里记为第二IDF值表，第二IDF值表中存储有各类别词条的IDF值，基于第二IDF值表，可以从第二IDF值表中获取候选类别词条的IDF值。

可选的，预先形成第二IDF值表的过程包括：

对所有待处理资源类别下的网络资源的描述信息进行分词处理，以获得至少一个类别词条；

根据公式(4)，计算每个类别词条的IDF值；

将每个类别词条及其IDF值存储到第二IDF值表中。

在上述公式(4)中，IDF_i'为第i个类别词条的IDF值，N'为所有待处理资源类别的总个数，N_i'为所有待处理资源类别中出现第i个类别词条的资源类别的个数。

可选的，上述获取至少一个候选类别词条的IDF值的另一种实施方式包括：

根据公式(5)，计算至少一个候选类别词条中各候选类别词条的IDF值；

其中，为至少一个候选类别词条中第i个候选类别词条的IDF值，N^catg为所有待处理资源类别的总个数，为所有待处理资源类别中出现第i个候选类别词条的待处理资源类别的个数。

值得说明的是，上述公式(4)与公式(5)的原理类似，区别仅在于：计算IDF值的词条不同。

进一步，在一可选实施方式中，考虑到待处理资源类别的名称往往最能反映该类别的特征，所以可以在每个网络资源的描述信息中加入待处理资源类别的名称，以有效增加类别信息的可靠性。这样一来，若是待处理资源类别的名称本身已包含在分词过后的候选类目词条中，则说明这个词条就是该待处理资源类别的最好特征，可以予以加强，若待处理资源类别的名称不在分词过后的候选类目词条中，就会在匹配过程中丢失掉，不会产生负面影响。

基于上述，在对待处理资源类别下网络资源的描述信息进行分词处理之前，可以判断网络资源的描述信息是否包括待处理资源类别的名称，若判断结果为否，即网络资源的描述信息不包括待处理资源类别的名称，则将待处理资源类别的名称添加到网络资源的描述信息中。之后，对添加待处理资源类别的名称后的描述信息进行分词处理。

基于上述，在获得候选类别词条的IDF值之后，可以根据预先设置的第二筛选条件对各候选类别词条进行筛选，将IDF值不符合第二筛选条件的候选类别词条(例如IDF值小于预设IDF阈值的候选类别词条)去掉，获取剩余的候选类别词条作为目标类别词条。

基于上述各实施方式，在获得目标类别词条之后，一种确定至少一个目标类别词条中各目标类别词条的权重的具体实施方式包括：

根据公式(6)，计算至少一个目标类别词条中各目标类别词条的权重；

其中，为至少一个目标类别词条中第i个目标类别词条的权重，m_j为第i个目标类别词条在待处理资源类别下出现的次数，m为待处理资源类别下候选类别词条的总数；M为所有待处理资源类目下候选类别词条的总数，M_i为第i个目标类别词条在所有待处理资源类目下出现的总次数。

在上述实施方式中，采用所有待处理资源类目下候选类别词条的总数以及第i个目标类别词条在所有待处理资源类目下出现的总次数这两个信息，计算各目标类别词条的权重，有利于进一步弱化高频非停用词(比如“连衣裙”)的权重，更加适合计算类别词条的权重。

在一可选实施方式中，在获得各待处理新闻消息的词向量和各待处理资源类别的词向量之后，可以直接根据各待处理新闻消息的词向量和各待处理资源类别的词向量，确定各待处理新闻消息与各待处理资源类别之间的匹配关系。

在另一可选实施方式中，在根据各待处理新闻消息的词向量和各待处理资源类别的词向量，确定各待处理新闻消息与各待处理资源类别之间的匹配关系之前，可以根据各待处理资源类别下的网络资源的描述信息和各待处理新闻消息，确定同义词条；根据同义词条，扩展各待处理新闻消息的词向量或各待处理资源类别的词向量。之后，基于扩展后的各待处理新闻消息的词向量和未扩展的各待处理资源类别的词向量，确定各待处理新闻消息与各待处理资源类别之间的匹配关系；或者根据扩展后的各待处理资源类别的词向量和未扩展的各待处理新闻消息的词向量，确定各待处理新闻消息与各待处理资源类别之间的匹配关系。由此可见，本实施方式通过对待处理新闻消息或资源类别的词向量进行同义词条的扩展，可以适应资源类别具有封闭性的特点，有利于更加准确地与新闻消息进行匹配。

可选的，上述确定同义词条的一种实施方式包括：

根据各待处理资源类别下的网络资源的描述信息，形成各待处理资源类别对应的类目文本；

对各待处理新闻消息和各待处理资源类别对应的类目文本分别进行分词处理，以获得至少一个参考词条；

对至少一个参考词条进行分组，以获得至少一个词条分组；

在每个词条分组内，获取相似度满足预设相似度条件的参考词条作为同义词条。

一种分组的方式包括：使用LDA算法或word2Vector算法对至少一个参考词条进行建模处理，以获得至少一个参考词条的主题(topic)向量；将各参考词条对应的topic向量进行归一化，在归一化后的topic空间中选定至少一个标定点，利用标定点对各参考词条进行聚类，以获得至少一个词条分组。

上述选定标定点的过程中，按照均匀分布原则，从topic空间中选定均匀分布的至少一个标定点。

上述利用标定点对各参考词条进行聚类的原理是：每个标定点代表一个词条分组，根据各参考词条归一化后的topic向量，将各参考词条分配到距离最近的标定点代表的词条分组中。

在每个词条分组中，计算两两参考词条之间的相似度，根据参考词条之间的相似度，选择相似度满足预设相似度条件的参考词条作为同义词条。通常计算词条相似度时，对每个词条都必须与其他所有词条进行配对计算，这样的需要的计算次数是n²次，在n非常大时，这样的计算几乎无法完成。在该实施方式中，通过对参考词条进行分类，然后只需要在分组内部计算两两参考词条之间的相似度，在分组个数选择合理的情况下，会大大减少计算相似度的次数，将原本几乎无法完成的相似度计算问题缩短到较短时间(例如几个小时)内完成，有利于提高处理效率。

可选的，可以根据同义词条，扩展各待处理新闻消息的词向量，或者，可以根据同义词条，扩展各待处理资源类别的词向量。

可选的，一种根据同义词条，对待处理新闻消息的词向量或待处理资源类别的词向量进行扩展的实施方式包括：

对每个待处理新闻消息的词向量或待处理资源类别的词向量中的每个词条，根据公式(7)，计算该词条的同义词条的权重，将该词条的同义词条以及同义词条的权重加入待处理新闻消息的词向量或所述待处理资源类别的词向量中；

W_j'＝W⁰*S_j*f(L) (7)

其中，W⁰为上述每个待处理新闻消息的词向量或待处理资源类别的词向量中的词条在所述待处理新闻消息的词向量或所述待处理资源类别的词向量中的权重，W_j'为该词条的第j个同义词条的权重，S_j为该词条与该词条的第j个同义词条之间的相似度，f(L)为该词条的同义词条的数量的函数，L为该词条的同义词条的数量。

基于上述各实施方式，上述步骤103，即具体确定各待处理新闻消息与各待处理资源类别之间的匹配关系的实施方式包括：

对每个待处理新闻消息，根据该待处理新闻消息的词向量与各待处理资源类别的词向量，计算该待处理新闻消息与各待处理资源类别之间的相似度；

获取与该待处理新闻消息之间的相似度满足预设条件的待处理资源类别，作为与该待处理新闻消息匹配的资源类目。

进一步，可以根据公式(8)，计算该待处理新闻消息与各待处理资源类别之间的相似度。

其中，T^new表示该待处理新闻消息，表示各待处理资源类别中第i个待处理资源类别，为该待处理新闻消息与各待处理资源类别中第i个待处理资源类别之间的相似度，和分别表示该待处理新闻消息的词向量和第i个待处理资源类别的词向量中匹配中的第k个词条的权重，n表示方根处理的次数，n是大于或等于2的整数。

在上述实施方式中，考虑到类别信息的词条范围较小，可能会发生某个词条出现的频率极高的现象，例如在“连衣裙”叶子类目下，“连衣裙”出现的频率极高，“连衣裙”的TF值也会高出其他词条很多，而往往词条间频数成倍数关系并不代表该词条的重要性也是相应的倍数关系，所以需要对TF值作处理，因此对词条的TF进行n次根号处理，起到弱化TF值的作用，有利于提高匹配结果的准确性。经过试验，n取3次根号时，效果较佳。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本申请另一实施例提供的数据处理装置的结构示意图。如图2所示，该装置包括：第一确定模块21、构建模块22和第二确定模块23。

第一确定模块21，用于根据业务需求，确定至少一个待处理新闻消息和至少一个待处理资源类别。

构建模块22，用于分别构建至少一个待处理新闻消息中各待处理新闻消息的词向量和至少一个待处理资源类别中各待处理资源类别的词向量。

第二确定模块23，用于根据各待处理新闻消息的词向量和各待处理资源类别的词向量，确定各待处理新闻消息与各待处理资源类别之间的匹配关系。

在一可选实施方式中，如图3所示，上述构建模块22的一种实现结构包括：第一构建单元221和第二构建单元222。

第一构建单元221，用于对于每个待处理新闻消息，获取表征待处理新闻消息的至少一个目标新闻词条，确定至少一个目标新闻词条中各目标新闻词条的权重，以形成待处理新闻消息的词向量。

第二构建单元222，用于对于每个待处理资源类别，获取表征待处理资源类别的至少一个目标类别词条，确定至少一个目标类别词条中各目标类别词条的权重，以形成待处理资源类别的词向量。

进一步，第一构建单元221在获取表征待处理新闻消息的至少一个目标新闻词条时，具体用于：

获取至少一个候选新闻词条的逆向文档频率IDF值；

更进一步，第一构建单元221在获取至少一个候选新闻词条的逆向文档频率IDF值时，具体用于：

从预先形成的第一IDF值表中，获取至少一个候选新闻词条的IDF值，第一IDF值表中存储有各新闻词条的IDF值；或者

根据公式(2)，计算至少一个候选新闻词条中各候选新闻词条的IDF值。关于公式(2)可参见前述方法实施例的描述，在此不再赘述。

进一步，第一构建单元221在确定至少一个目标新闻词条中各目标新闻词条的权重时，具体用于：

根据公式(3)，计算至少一个目标新闻词条中各目标新闻词条的权重。关于公式(3)可参见前述方法实施例的描述，在此不再赘述。

进一步，第二构建单元222在获取表征待处理资源类别的至少一个目标类别词条时，具体用于：

获取至少一个候选类别词条的IDF值；

获取IDF值满足预设第二筛选条件的至少一个候选类别词条作为目标类别词条。

更进一步，第二构建单元222在获取至少一个候选类别词条的IDF值时，具体用于：

从预先形成的第二IDF值表中，获取至少一个候选类别词条的IDF值，第二IDF值表中存储有各类别词条的IDF值；或者

根据公式(5)，计算至少一个候选类别词条中各候选类别词条的IDF值。关于公式(5)可参见前述方法实施例的描述，在此不再赘述。

进一步，第二构建单元222在确定至少一个目标类别词条中各目标类别词条的权重时，具体用于：

根据公式(6)，计算至少一个目标类别词条中各目标类别词条的权重。关于公式(6)可参见前述方法实施例的描述，在此不再赘述。

进一步，第二构建单元222在对待处理资源类别下的网络资源的描述信息进行分词处理，以获得至少一个候选类别词条之前，还用于：

在网络资源的描述信息不包括待处理资源类别的名称时，将待处理资源类别的名称添加到网络资源的描述信息中。

进一步，如图3所示，该数据处理装置还包括：第三确定模块24和扩展模块25。

第三确定模块24，用于在第二确定模块23根据各待处理新闻消息的词向量和各待处理资源类别的词向量，确定各待处理新闻消息与各待处理资源类别之间的匹配关系之前，根据各待处理资源类别下的网络资源的描述信息和各待处理新闻消息，确定同义词条。

扩展模块25，用于根据同义词条，扩展各待处理新闻消息的词向量或各待处理资源类别的词向量。

进一步，第三确定模块24具体用于：

对至少一个参考词条进行分组，以获得至少一个词条分组；

进一步，扩展模块25具体用于：对每个待处理新闻消息的词向量或待处理资源类别的词向量中的每个词条，根据公式(7)，计算词条的同义词条的权重，将词条的同义词条以及同义词条的权重加入待处理新闻消息的词向量或待处理资源类别的词向量中。关于公式(7)可参见前述方法实施例的描述，在此不再赘述。

在一可选实施方式中，第二确定模块23具体用于：

对每个待处理新闻消息，根据待处理新闻消息的词向量与各待处理资源类别的词向量，计算待处理新闻消息与各待处理资源类别之间的相似度；

获取与待处理新闻消息之间的相似度满足预设条件的待处理资源类别，作为与待处理新闻消息匹配的资源类目。

更进一步，第二确定模块23在根据待处理新闻消息的词向量与各待处理资源类别的词向量，计算待处理新闻消息与各待处理资源类别之间的相似度时，具体用于：

根据公式(8)，计算待处理新闻消息与各待处理资源类别之间的相似度。关于公式(8)可参见前述方法实施例的描述，在此不再赘述。

本实施例提供的数据处理装置，可以根据业务需求，确定待处理新闻消息和待处理资源类别，分别构建待处理新闻消息和待处理资源类别的词向量，根据待处理新闻消息和待处理资源类别的词向量，确定待处理新闻消息与待处理资源类别之间的匹配关系，解决了现有技术存在的缺陷，有利于为业务处理提供依据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别构建所述至少一个待处理新闻消息中各待处理新闻消息的词向量和所述至少一个待处理资源类别中各待处理资源类别的词向量，包括：

对于每个待处理新闻消息，获取表征所述待处理新闻消息的至少一个目标新闻词条，确定所述至少一个目标新闻词条中各目标新闻词条的权重，以形成所述待处理新闻消息的词向量；

对于每个待处理资源类别，获取表征所述待处理资源类别的至少一个目标类别词条，确定所述至少一个目标类别词条中各目标类别词条的权重，以形成所述待处理资源类别的词向量。

3.根据权利要求2所述的方法，其特征在于，所述获取表征所述待处理新闻消息的至少一个目标新闻词条，包括：

对所述待处理新闻消息进行分词处理，以获得至少一个候选新闻词条；

获取所述至少一个候选新闻词条的逆向文档频率IDF值；

获取IDF值满足预设第一筛选条件的至少一个候选新闻词条作为所述目标新闻词条。

4.根据权利要求3所述的方法，其特征在于，所述获取所述至少一个候选新闻词条的逆向文档频率IDF值，包括：

从预先形成的第一IDF值表中，获取所述至少一个候选新闻词条的IDF值，所述第一IDF值表中存储有各新闻词条的IDF值；或者

根据公式计算所述至少一个候选新闻词条中各候选新闻词条的IDF值；

其中，为所述至少一个候选新闻词条中第i个候选新闻词条的IDF值，N^new为新闻语料库中新闻消息的总数，为所述新闻语料库中出现过第i个候选新闻词条的新闻消息的数量。

5.根据权利要求2所述的方法，其特征在于，所述确定所述至少一个目标新闻词条中各目标新闻词条的权重，包括：

根据公式计算所述至少一个目标新闻词条中各目标新闻词条的权重；

其中，为所述至少一个目标新闻词条中第i个目标新闻词条的权重，n_i为第i个目标新闻词条在所述待处理新闻消息中出现的次数，n为所述待处理新闻消息中的总词数，为第i个目标新闻词条的IDF值。

6.根据权利要求2所述的方法，其特征在于，所述获取表征所述待处理资源类别的至少一个目标类别词条，包括：

对所述待处理资源类别下的网络资源的描述信息进行分词处理，以获得至少一个候选类别词条；

获取所述至少一个候选类别词条的IDF值；

获取IDF值满足预设第二筛选条件的至少一个候选类别词条作为所述目标类别词条。

7.根据权利要求6所述的方法，其特征在于，所述获取所述至少一个候选类别词条的IDF值，包括：

从预先形成的第二IDF值表中，获取所述至少一个候选类别词条的IDF值，所述第二IDF值表中存储有各类别词条的IDF值；或者

根据公式计算所述至少一个候选类别词条中各候选类别词条的IDF值；

其中，为所述至少一个候选类别词条中第i个候选类别词条的IDF值，N^catg为所有待处理资源类别的总个数，为所有待处理资源类别中出现第i个候选类别词条的待处理资源类别的个数。

8.根据权利要求2所述的方法，其特征在于，所述确定所述至少一个目标类别词条中各目标类别词条的权重，包括：

根据公式计算所述至少一个目标类别词条中各目标类别词条的权重；

其中，为所述至少一个目标类别词条中第i个目标类别词条的权重，m_j为第i个目标类别词条在所述待处理资源类别下出现的次数，m为所述待处理资源类别下候选类别词条的总数；M为所有待处理资源类目下候选类别词条的总数，M_i为第i个目标类别词条在所有待处理资源类目下出现的总次数。

9.根据权利要求6所述的方法，其特征在于，所述对所述待处理资源类别下的网络资源的描述信息进行分词处理，以获得至少一个候选类别词条之前，包括：

若所述网络资源的描述信息不包括所述待处理资源类别的名称，将所述待处理资源类别的名称添加到所述网络资源的描述信息中。

10.根据权利要求1所述的方法，其特征在于，所述根据所述各待处理新闻消息的词向量和所述各待处理资源类别的词向量，确定所述各待处理新闻消息与所述各待处理资源类别之间的匹配关系之前，包括：

根据所述各待处理资源类别下的网络资源的描述信息和所述各待处理新闻消息，确定同义词条；

根据所述同义词条，扩展所述各待处理新闻消息的词向量或所述各待处理资源类别的词向量。

11.根据权利要求10所述的方法，其特征在于，所述根据所述各待处理资源类别下的网络资源的描述信息和所述各待处理新闻消息，确定同义词条，包括：

根据所述各待处理资源类别下的网络资源的描述信息，形成所述各待处理资源类别对应的类目文本；

对所述各待处理新闻消息和所述各待处理资源类别对应的类目文本分别进行分词处理，以获得至少一个参考词条；

对所述至少一个参考词条进行分组，以获得至少一个词条分组；

12.根据权利要求11所述的方法，其特征在于，所述根据所述同义词条，扩展所述各待处理新闻消息的词向量或所述各待处理资源类别的词向量，包括：

对每个待处理新闻消息的词向量或待处理资源类别的词向量中的每个词条，根据公式W′_j＝W⁰*S_j*f(L)，计算所述词条的同义词条的权重，将所述词条的同义词条以及所述同义词条的权重加入所述待处理新闻消息的词向量或所述待处理资源类别的词向量中；

其中，W′_j为所述词条的第j个同义词条的权重，W⁰为所述词条在所述待处理新闻消息的词向量或所述待处理资源类别的词向量中的权重，S_j为所述词条与所述词条的第j个同义词条之间的相似度，f(L)为所述词条的同义词条的数量的函数，L为所述词条的同一词条的数量。

13.根据权利要求2-12任一项所述的方法，其特征在于，所述根据所述各待处理新闻消息的词向量和所述各待处理资源类别的词向量，确定所述各待处理新闻消息与所述各待处理资源类别之间的匹配关系，包括：

对每个待处理新闻消息，根据所述待处理新闻消息的词向量与所述各待处理资源类别的词向量，计算所述待处理新闻消息与所述各待处理资源类别之间的相似度；

获取与所述待处理新闻消息之间的相似度满足预设条件的待处理资源类别，作为与所述待处理新闻消息匹配的资源类目。

14.根据权利要求13所述的方法，其特征在于，所述根据所述待处理新闻消息的词向量与所述各待处理资源类别的词向量，计算所述待处理新闻消息与所述各待处理资源类别之间的相似度，包括：

根据公式计算所述待处理新闻消息与所述各待处理资源类别之间的相似度；

其中，T^new表示所述待处理新闻消息，表示所述各待处理资源类别中第i个待处理资源类别，为所述待处理新闻消息与所述第i个待处理资源类别之间的相似度，和分别表示所述待处理新闻消息的词向量和所述各待处理资源类别的词向量中匹配中的第k个词条的权重，n表示方根处理的次数，n是大于或等于2的整数。

15.一种数据处理装置，其特征在于，包括：

16.根据权利要求15所述的装置，其特征在于，所述构建模块包括：

第一构建单元，用于对于每个待处理新闻消息，获取表征所述待处理新闻消息的至少一个目标新闻词条，确定所述至少一个目标新闻词条中各目标新闻词条的权重，以形成所述待处理新闻消息的词向量；

第二构建单元，用于对于每个待处理资源类别，获取表征所述待处理资源类别的至少一个目标类别词条，确定所述至少一个目标类别词条中各目标类别词条的权重，以形成所述待处理资源类别的词向量。

17.根据权利要求16所述的装置，其特征在于，所述第一构建单元具体用于：

获取所述至少一个候选新闻词条的逆向文档频率IDF值；

18.根据权利要求17所述的装置，其特征在于，所述第一构建单元具体用于：

19.根据权利要求16所述的装置，其特征在于，所述第一构建单元具体用于：

20.根据权利要求16所述的装置，其特征在于，所述第二构建单元具体用于：

获取所述至少一个候选类别词条的IDF值；

21.根据权利要求20所述的装置，其特征在于，所述第二构建单元具体用于：

22.根据权利要求16所述的装置，其特征在于，所述第二构建单元具体用于：

23.根据权利要求20所述的装置，其特征在于，所述第二构建单元还用于：

在所述网络资源的描述信息不包括所述待处理资源类别的名称时，将所述待处理资源类别的名称添加到所述网络资源的描述信息中。

24.根据权利要求15所述的装置，其特征在于，还包括：

第三确定模块，用于根据所述各待处理资源类别下的网络资源的描述信息和所述各待处理新闻消息，确定同义词条；

扩展模块，用于根据所述同义词条，扩展所述各待处理新闻消息的词向量或所述各待处理资源类别的词向量。

25.根据权利要求24所述的装置，其特征在于，所述第三确定模块具体用于：

26.根据权利要求25所述的装置，其特征在于，所述扩展模块具体用于：

27.根据权利要求16-26任一项所述的装置，其特征在于，所述第二确定模块具体用于：

28.根据权利要求27所述的装置，其特征在于，所述第二确定模块具体用于：