CN110442767A

CN110442767A - 一种确定内容互动平台标签的方法、装置及可读存储介质

Info

Publication number: CN110442767A
Application number: CN201910703586.0A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-12
Anticipated expiration: 2039-07-31
Also published as: CN110442767B

Abstract

本申请涉及计算机技术领域，提供了一种确定内容互动平台标签的方法、装置及可读存储介质，该方法包括：获取内容互动平台的文本集合；分别对所述文本集合中的各个文本进行分词处理，获得分词集合；将所述分词集合输入至词向量模型，获得词向量集合；将所述词向量集合输入至神经网络模型，获得所述词向量集合中每个词向量的条件概率；其中，所述条件概率用于表示该词向量与其它词向量的相关度；将各个词向量集合中条件概率满足预设条件的词向量对应的分词确定为所述内容互动平台的标签。本申请实施例中通过对内容互动平台的文本集合进行词向量模型以及神经网络模型的联合处理，提高了标签与内容互动平台中的内容的匹配度。

Description

一种确定内容互动平台标签的方法、装置及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种确定内容互动平台标签的方法、装置及可读存储介质。

背景技术

随着自媒体的不断发展，出现各种类型的内容互动平台。为了便于用户查找相应的内容互动平台，可以为各个内容互动平台标注标签。

目前，确定各个内容互动平台的标签的方式一般是先人工标注各个样本的标签，通过机器学习内容分类方法给公众号打标签，但是这种打标签的方式容易出现过拟合情况，导致确定出的标签较为单一，很难与内容互动平台的内容相契合。

发明内容

本申请实施例提供一种确定内容互动平台的标签方法、装置及可读存储介质，用于提高内容互动平台的标签和内容互动平台的内容的匹配度。

第一方面，提供一种确定内容互动平台标签的方法，包括：

获取内容互动平台的文本集合；

分别对所述文本集合中的各个文本进行分词处理，获得分词集合；

将所述分词集合输入至词向量模型，获得词向量集合；

将所述词向量集合输入至神经网络模型，获得所述词向量集合中每个词向量的条件概率；其中，所述条件概率用于表示该词向量与其它词向量的相关度；

将各个词向量集合中条件概率满足预设条件的词向量对应的分词确定为所述内容互动平台的标签。

在一种可能的实施方式中，将所述文本集合输入词向量模型，获取词向量集合，包括：

通过所述词向量模型的编码操作，得到所述文本集合中各个分词对应的词向量；

通过所述词向量模型的拼接处理，将各个分词对应的词向量拼接处理为词向量组合，获得各个词向量组合组成的所述词向量集合。

在一种可能的实施方式中，将所述词向量集合输入至神经网络模型，获得所述词向量集合中每个词向量的条件概率，包括：

将所述词向量集合输入至神经网络模型，通过预设矩阵对所述词向量进行映射处理，获得映射后的词向量集合；

确定所述映射后的词向量集合中每个词向量出现时，该所述词向量集合中其它词向量中每个词向量出现的概率；

将所述词向量集合中其它词向量中每个词向量出现的概率相乘，获得该词向量的条件概率，获得所述词向量集合中每个词向量对应的条件概率。

在一种可能的实施方式中，在获得所述词向量集合中每个词向量对应的条件概率之后，包括：

根据所述词向量集合中与每个词向量的条件概率，确定所述神经网络模型对应的损失函数值；

根据损失函数值，调整所述神经网络模型中的参数；其中，所述参数包括所述预设矩阵中的元素；

直到所述损失函数值满足预设范围，更新所述神经网络模型的参数。

在一种可能的实施方式中，所述方法还包括：

在对所述神经网络模型的参数更新的次数达到预设次数之后，或在对更新后的所述神经网络模型的参数使用时长达到预设第一时长之后，将所述神经网络模型的参数设置为初始值。

在一种可能的实施方式中，在获取待标注的内容互动平台的文本集合之前，包括：

确定满足触发条件；其中，所述触发条件为在上一次确定所述内容互动平台的标签之后，所述内容互动平台中更新的文本数量达到预设数量，或距离上一次确定所述内容互动平台的标签的时长达到预设第二时长。

第二方面，提供一种确定内容互动平台标签的装置，所述装置包括：

获取模块，用于获取内容互动平台的文本集合；

分词模块，用于分别对所述文本集合中的各个文本进行分词处理，获得分词集合；

第一处理模块，用于将所述分词集合输入至词向量模型，获得词向量集合；

第二处理模块，用于将所述词向量集合输入至神经网络模型，获得所述词向量集合中每个词向量的条件概率；其中，所述条件概率用于表示该词向量与其它词向量的相关度；

确定模块，用于将各个词向量集合中条件概率满足预设条件的词向量对应的分词确定为所述内容互动平台的标签。

在一种可能的实施方式中，所述第一处理模块具体用于：

在一种可能的实施方式中，所述第二处理模块具体用于：

确定所述映射后的词向量集合中每个词向量出现时，该词向量中其它词向量中每个词向量出现的概率；将所述词向量集合中其它词向量中每个词向量的条件概率相乘，获得该词向量对应的条件概率，获得所述词向量集合中每个词向量对应的条件概率。

在一种可能的实施方式中，所述装置还包括调整模块，所述调整模块用于：

在获得所述词向量集合中每个词向量对应的条件概率之后，根据所述词向量集合中与每个词向量的条件概率，确定所述神经网络模型对应的损失函数值；

在一种可能的实施方式中，所述装置还包括重置模块，所述重置模块用于：

在一种可能的实施方式中，所述确定模块还用于：

在获取待标注的内容互动平台的文本集合之前，确定满足触发条件；其中，所述触发条件为在上一次确定所述内容互动平台的标签之后，所述内容互动平台中更新的文本数量达到预设数量，或距离上一次确定所述内容互动平台的标签的时长达到预设第二时长。

第三方面，提供一种确定内容互动平台标签的装置，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面及可能的实施方式中任一项所述的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面及可能的实施方式中任一项所述的方法。

在本申请实施例提供的技术方案中，先对文本集合中各个文本先进行分词处理，再利用词向量模型进行处理，可以获得各个分词的词向量，再将该词向量集合输入到神经网络模型中，获得词向量集合中每个词向量的条件概率，并将各个词向量集合中条件概率满足预设条件的词向量对应的分词确定为内容互动平台的标签。由于条件概率用于表示该词向量与其它词向量的相关度，从而可以将更具相关性的词向量对应的分词确定为内容互动平台的标签，由于相关度越高的多个词语更能反映文本内容的整体含义，因此使用本申请选择出的标签更能体现内容互动平台内容的整体含义，从而提高标签和内容互动平台的内容的相关程度。且，本申请实施例中由于输入该神经网络模型的词向量是经过词向量模型处理后得到的，即使神经网络模型即时采用无监督神经网络模型，也能得到内容互动平台的标签，无需用户提前标注样本，可以提高确定标签的效率，提升用户体验。

附图说明

图1为本申请实施例提供一种确定内容互动平台的标签的方法的应用场景示意图；

图2为本申请实施例提供的一种确定内容互动平台的标签的方法的流程图；

图3为本申请实施例提供的一种确定内容互动平台的标签的方法的算法示例图；

图4表示本申请实施例提供的CBOW模型的处理示例图；

图5为本申请实施例提供的神经网络模型的架构示意图；

图6为本申请实施例提供的一种确定条件概率的方法的流程图；

图7为本申请实施例提供的一种确定内容互动平台的标签的装置的结构图；

图8为本申请实施例提供的一种确定内容互动平台的标签的装置的结构图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的专业名词进行解释。

内容互动平台：可以理解为在一定开发环境中实现的一种通过社交关系、共同兴趣或共同利益等实现发布者的内容共享并可以通过分享评论回复等方式进行互动的服务平台。内容互动平台可以是运营商注册的，也可以是其它发布者在运营商提供的服务器上注册的。发布者可以在内容互动平台中进行增加内容、删除内容以及发布内容的操作。发布者也可以通过接口调用第三方应用的内容，在内容互动平台上呈现相应的内容。发布者也可以通过转载其他内容互动平台的内容，在发布者对应的内容互动平台上呈现。任意两个内容互动平台之间可以相互关联，即两个内容互动平台的内容可以相互授权共享。现有内容互动平台例如微信公众号、微博大V等。在内容互动平台上，用户可以关注内容互动平台，成为该内容互动平台的联系人。用户可以通过内容互动平台查阅、分享和评论该内容互动平台上的内容。用户也可以向内容互动平台发送消息。内容互动平台对应的发布者也可以向用户发送消息。

标签：用于表征内容互动平台的特征，例如内容互动平台的类别、领域和话题等。一个内容互动平台的标签可以是一个或多个，内容互动平台的两个标签之间的含义上可能会有重叠，也可以理解为两个标签不是完全并列的关系，例如新闻和军事。内容互动平台的标签可以根据内容互动平台上的内容进行更新或改变。

词向量(Word2vec)模型：用于将分词转换为向量表示。词向量模型可以将分词转换为向量。词向量模型可以将各个分词转换为向量，可以利用每个分词的上下文分词的词向量进行加权，获得加权结果，将该加权结果作为该分词的向量。上下文分词可以理解为距离该分词的向量在预设范围内的分词。词向量模型可以和神经网络模型结合使用，词向量模型可以作为神经网络的嵌入层，词向量模型结合神经网络模型例如连续词袋(Continuous Bag-of-Words，CBOW)模型或连续跳跃元语(Skip-Gram)模型，CBOW模型可以根据上下文分词，推测出该上下文分词对应的中间词的向量。Skip-Gram模型可以根据中间词，推测出该中间词的上下文分词的向量。为了清楚地说明，本申请中是将词向量模型和神经网络模型分别进行说明。

条件概率：本申请中用于表示某个分词与其他词的相关程度。

下面对本申请涉及的设计思想进行说明。

现有技术中，一般采用已训练的模型获得内容互动平台的标签，模型需要提前训练，训练之前需要采集大量训练样本，针对采集的样本对内容互动平台的进行人工标注。在获得训练大量样本之后，按照机器学习方法对模型进行训练，获得模型的参数，然后利用该训练后的模型对待标注的内容互动平台进行处理，获得待标注的内容互动平台的标签。

通过对现有技术分析之后，第一，本申请发明人发现目前这种方式得到的内容互动平台的标签一般都是来自于训练后的标签集合，导致得到的内容互动平台的标签相对较为单一，标签和该内容互动平台的内容相关度较低。第二，本申请发明人发现目前这种方式需要提前人工标注大量的训练样本，需要花费用户大量的时间，效率较低。第三，本申请发明人发现目前这种方式一般是经过一次训练之后，会将该内容互动创作平台的标签设置为固定的标签，但是发布者会不断地更新内容互动平台的内容，内容互动平台上的内容更新后可能进一步降低标签与内容之间的相关程度。

根据上述分析和考虑，本发明人设计一种确定内容互动平台的标签的方法，该方法先将内容互动平台的文本集合通过词向量模型，得到内容互动平台中的词向量集合，再通过神经网络模型，确定出词向量集合中具代表性的分词作为该内容互动平台的标签，完成对内容互动平台的大量数据处理过程。由于条件概率表示每个词向量与其它词向量的相关程度，所以选择满足预设条件的词向量，可以使得确定出的该内容互动平台的标签与文本集合的相关程度较高，提高内容互动平台的标签与文本集合的匹配程度。且，本发明人发现即使采用无监督神经网络模型，即无需将神经网络模型经过大量数据样本的训练，也能确定出与该内容互动平台匹配程度较高的标签，且，无需大量数据样本，也就无需人工进行样本标注，可以提高确定内容创作平台的标签的效率。且，本发明人发现对内容互动平台的标签进行更新，可以进一步提高内容互动平台的标签与内容的相关程度。

在介绍完本申请的设计思路之后，下面对本申请实施例涉及的应用场景进行说明。

内容互动平台数量众多，用户可能无法记住每个内容互动平台的名称，因此，为了便于对大量的内容互动平台的管理，可以确定出各个内容互动平台的标签，标签作为内容互动平台的索引，用户通过搜索标签，确定出需要查找的内容互动平台。或者可以为多个微信公众号标注相应的标签，根据用户的行为习惯为用户推荐关注的标签所对应的公众号等。

请参照图1，该应用场景包括服务器110和终端设备120。发布者可以通过内容互动平台不定时地或周期性地发布内容。终端设备120中安装有相应的客户端130，用户可以通过客户端130访问内容互动平台的内容，用户也可以通过终端设备120在网页上访问内容互动平台的内容，用户也可以通过第三方应用程序访问内容互动平台的内容。服务器110可以是实体服务器，也可以是虚拟服务器。终端设备120可以是个人计算机或手机等。图1中是以两个终端设备120为例，实际上不限制终端设备120的数量。

服务器110可以是运行内容互动平台的后台服务器，服务器110可以从存储设备140中获取内容互动平台的文本集合。服务器110也可以是专门配置的用于确定内容互动平台的标签的服务器，该服务器110被授权可以从存储设备140中获取内容互动平台的文本集合。该存储设备140可以设置在运行内容互动平台的后台服务器中，该存储设备140也可以与后台服务器相对独立设置。

在服务器110在获取文本集合之后，可以对文本集合进行分词处理，获得分词集合，再将分词集合输入词向量模型，获得词向量集合，将词向量集合输入神经网络模型，获取每个词向量的条件概率，筛选条件概率满足条件的词向量所对应的分词，作为该内容互动平台的标签。

在图1论述的应用场景的基础上，下面对本申请实施例涉及的确定内容互动平台的标签的方法进行介绍。

请参照图2，该方法包括如下步骤：

S201，获取内容互动平台的文本集合；

S202，分别对文本集合中的各个文本进行分词处理，获得分词集合；

S203，将分词集合输入至词向量模型，获得词向量集合；

S204，将词向量集合输入至神经网络模型，获得词向量集合中每个词向量的条件概率；

S205，将词向量集合中词向量的条件概率满足预设条件的词向量对应的分词确定为内容互动平台的标签。

本申请实施例中，服务器110获取内容互动平台中获取文本集合，将内容互动平台的文本集合经过分词处理，将分词集合输入词向量模型，转换为词向量，再将词向量输入神经网络模型，再由神经网络模型输出各个词向量的条件概率，确定出满足预设条件的词向量，进而确定出内容互动平台的标签。

在图2论述的实施例的基础上，下面对该方法中涉及的具体实施方式进行介绍。

服务器110获取内容互动平台的文本集合的具体方式：

内容互动平台的文本集合可以存储在存储设备140中，服务器110从该存储设备140中获取该内容互动平台的文本集合。该文本集合包括该内容互动平台的多个文本。多个文本中每个文本包括标题名称和正文内容。另外，文本集合还可以包括内容互动平台的名称。

服务器110可以针对之前没有进行标注的内容互动平台进行获取文本集合，这种情况下，服务器110可以采集该内容互动平台的所有文本作为文本集合，服务器110也可以随机从该内容互动平台中抽取预设数量的文本，作为文本集合，服务器110也可以从该内容互动平台中抽取最近发布的预设数量的文本。

服务器110也可以针对之前已经标注过的内容互动平台进行获取文本集合，在这种情况下，服务器110可以将在上一次确定内容互动平台的标签之后，内容互动平台发布的文本作为文本集合。

在一种可能的实施例中，如果服务器110是对之前已经标注过的内容互动平台进行标签更新，那么服务器110在执行步骤201之前，需要确定是否满足更新标签的触发条件，确定满足触发条件之后，再执行步骤201。触发条件可以是任意的，下面对触发条件进行示例说明。

第一种触发条件：

触发条件为在上一次确定该内容互动平台的标签之后，内容互动平台的更新的文本数量达到预设数量。

具体的，发布者会不定时地更新内容互动平台的内容，每个阶段发布者的关注点可能会有所区别，或者发布者可能会更该内容互动平台的风格等，因此，服务器110在当前确定该内容互动平台的标签之后，实时监控各个内容互动平台的更新文本的数量，当该内容互动平台的更新的文本数量达到预设数量时，服务器110再获取内容互动平台的文本集合。

其中，各个内容互动平台的预设数量可以是由内容互动平台的发布者设定的，也可以是由服务器110默认设置的。不同内容互动平台的预设数量可以相同，也可以是不同的。例如某些内容互动平台的内容风格相对较为稳定，该内容互动平台的预设数量可以设置得相对大。

采用第一种触发条件，实时更新内容互动平台的标签，可以使得内容互动平台的标签与内容互动平台的内容更加相关。且在内容互动平台更新的文本数量达到预设数量之后，再对内容互动平台的标签进行更新，可以保证有足够的文本去更新内容互动平台的标签。

第二种触发条件：

触发条件为距离上一次确定内容互动平台的标签的时长达到预设第二时长。

具体的，服务器110可以周期性地更新内容互动平台的标签，在上一次确定内容互动平台的标签之后，达到预设第二时长之后，再执行步骤201。

采用第二种触发条件，实时更新内容互动平台的标签，可以使得内容互动平台的标签与内容互动平台的内容更加相关。且，服务器110以预设时长作为触发条件，服务器110无需做复杂的判断处理，相对能够减少服务器110的负荷。

在服务器110获取内容互动平台的文本集合之后，服务器110执行步骤202，下面对服务器110执行步骤202的方式进行说明：

具体的，服务器110获取文本集合之后，可以通过分词器对文本集合中每个文本进行切分处理，可以理解为将文本划分为多个词语，获得每个文本的分词结果，在对所有文本切分完成之后，可以获得文本集合对应的分词集合。分词器可以多种，本文不限制分词器的具体类型。

例如，请参照图3，图3为一种本申请实施例中确定内容互动平台的标签的算法的架构示意图。内容互动平台A的ID为1，即图3中的ID1，内容互动平台A的文本集合包括文本1(doc1)和文本2(doc2)，服务器110对doc1进行分词处理之后，获得doc1分词集合，对doc2进行分词处理之后，获得doc2的分词集合为，依次类推，获得内容平台A对应的分词集合。依次类推，可以获得多个内容互动平台的各自对应的分词集合。

在一种可能的实施例中，为了减少服务器110的处理量以及后期确定出的标签的准确性，可以对步骤202中获得的分词集合进行预处理。

具体的，服务器110中预存有停用词集合，剔除分词集合中与该停用词集合中相同的分词，实现对分词集合的预处理过程。停用词一般是指没有实际含义的词语，例如代词、助词、形容词和副词等。

在获得分词集合或对分词进行预处理之后，服务器110执行步骤203，下面对服务器110执行步骤203的方式进行说明：

具体的，词向量模型可以参照前文论述的内容，此处不再赘述。在将分词结合输入到词向量模型，经过词向量模型的处理，将各个分词转换为向量表示，获得分词集合对应的词向量集合，词向量集合可以理解为各个分词的向量表示。

词向量模型有很多种，词向量模型不同，获得词向量集合的方式也会有所不同，下面进行示例说明。

方式一：

将分词集合中每个分词编码为向量，获得每个分词的向量，各个分词的向量集合即为词向量集合。

具体的，例如通过独热编码(one-hot)工具将分词集合中所有分词都用向量进行表示，得到向量集合，该向量集合即为词向量集合。采用one-hot工具，服务器110的处理过程相对简单。

方式二：

通过词向量模型的编码操作，得到文本集合的向量集合；

具体的，将分词集合中所有分词进行编码，编码方式可以采用one-hot工具，将各个分词转换为向量，从而得到向量集合。在获得向量集合之后，对向量集合按照预设顺序进拼接处理，获得词向量组合，从而获得各个词向量组合组成的词向量集合。词向量组合可以理解为从向量集合中特定的向量组成的一组向量。预设顺序例如按照内容互动平台的每篇文章的所有分词的词向量作为行向量，获得内容互动平台的一个词向量，依次类推，获得该内容互动平台的词向量集合。拼接可以理解为按照预设顺序对各个分词的向量进行组合。预设顺序可以是由服务器110设定的。

方式三：

通过词向量模型的编码操作，得到文本集合的向量集合；

将每个分词对应的上下文的向量求平均值，将该平均值作为该分词对应的词向量；

对每个分词对应的词向量进行拼接，将各个分词对应的词向量拼接处理为词向量，获得各个词向量组成的词向量集合。

具体的，在对向量集合进行拼接之前，请参照图4，本申请实施例中采用CBOW模型的思路，将该分词的预设距离n范围内的分词对应的向量相加，获得当前分词的词向量。例如，当前分词的向量为M_t，预设距离为n，在该分词对应的词向量为M_t-n,...,M_t-1,M_t+1,...,M_t-n,...,M_t-1,M_t+1,...,M_t+n之和。将各个分词的词向量按照预设顺序进行拼接，得到词向量组合，进而获得各个词向量组成的词向量集合。

例如，继续参照图3，在对每个内容互动平台的分词集合进行步骤203的处理之后，ID1的中的doc1的向量集合为[w(1,1),w(1,2)…w(1,k)]，词向量为(ID1，w1(1-k),w2(1-k)，其中，该词向量中的ID1可以理解为该内容互动平台的名称。

服务器110执行步骤203之后，执行步骤204，即将词向量集合输入至神经网络模型，获得词向量集合中每个词向量的条件概率。

具体的，本申请实施例中不限定神经网络模型的具体类型，将词向量集合输入至神经网络模型中，通过神经网络模型输出各个词向量的条件概率，条件概率可以参照前文论述的内容，此处不再赘述。下面对获得条件概率的方式进行详细说明。

在本申请实施例中，请参照图5，本申请实施例中神经网络模型采用的是前向反馈神经网络模型，该神经网络模型依次包括嵌入层(Embedding)、隐藏层(tanh)和输出层(softmax)。下面结合图6，对通过图5论述的神经网络模型，获得各个词向量的条件概率的过程进行说明，具体包括：

S601，将词向量集合输入至神经网络模型，通过预设矩阵对词向量进行映射处理，获得映射后的词向量集合。

具体的，神经网络模型中嵌入层存储有预设矩阵，将词向量输入神经网络模型的嵌入层中，就可以获得映射后的词向量集合。该嵌入层也可以划分为词向量模型中的一部分。

例如，预设矩阵C为D×V，V表示词典的大小，D表示预设矩阵C的维度。将词向量经过预设矩阵C的映射，获得映射后的词向量集合。

S602，确定映射后的词向量集合中每个词向量出现时，词向量集合中其它词向量中每个词向量出现的概率。

具体的，可以通过计算每个词向量与其它词向量中每个词向量的相似度，对获得各个词向量的相似度进行归一化处理，以归一化处理后的相似度来表征该词向量出现时，其它词向量中每个词向量出现的概率。计算相似度的方式例如采用余弦相似度计算方式。

S603，将其它词向量中每个词向量的条件概率相乘，获得该词向量对应的条件概率，获得词向量集合中每个词向量对应的条件概率。

具体的，词向量集合中其它词向量中每个词向量对应一个条件概率，将所有条件概率相乘，得到该词向量对应的条件概率，依次类推，获得词向量集合中每个词向量对应的条件概率。

其中，词向量的条件概率用来表示在该词向量出现时，其它词向量出现的概率乘积。如果某个词向量的条件概率越大，表示在该词向量出现的情况下，其它词向量出现的概率越大，也就是说，该词向量与其它词向量的相关程度越大。

在本申请实施例中，通过前向反馈神经网络模型输出条件概率，前向反馈神经网络无需进行样本训练，就能确定出词向量对应的条件概率，提高确定内容互动平台的标签的效率。

在一种可能的实施例中，由于词向量集合中包括很多词向量，如果计算一个词向量的条件概率时，要遍历所有的其它词向量，较为耗时，因此本申请实施例中，只需计算该词向量出现时，与该词向量距离在预设距离范围内的词向量出现的概率，将与该词向量距离在预设距离范围内的每个词向量出现的概率相乘，得到该词向量的条件概率。

例如，词向量wi的条件概率可以表示为：

p(w_i|w₁,w₂,...,w_t-1)≈f(w_i,w_t-1,...,w_t-n+1)＝g(w_i,C(w_t-n+1),...,C(w_t-1))

其中，p(w_i|w₁,w₂,...,w_t-1)表示wi的条件概率。由于词向量集合中词向量相对较多，为了简化每个词向量的条件概率，可以将每个词向量的条件概率用距离该词向量中每个词向量预设距离n内的其它词向量出现的概率的乘积来表示。因此，词向量wi的条件概率可以用神经网络模型f(w_i,w_t-1,...,w_t-n+1)来拟合，进一步可以用神经网络模型的输出表示，也就是采用映射后的词向量和神经网络模型的权重的乘积来表示。

在本申请实施例中，在获得词向量的条件概率之后，在获得词向量的条件概率之后，可以更新该神经网络模型的参数。神经网络模型的参数包括神经网络模型的隐藏层的权重、输出层的权重和预设矩阵。

具体的，根据词向量集合中与每个词向量的条件概率，确定神经网络模型对应的损失函数值，根据损失函数值，调整神经网络模型中的参数，直到损失函数值满足预设范围，更新神经网络模型的参数。

具体的，根据各个词向量的条件概率，构造的神经网络模型的损失函数具体如下：

其中，θ为该神经网络模型中的参数，具体包括嵌入层中的预设矩阵、隐藏层(tanh)中权重、以及输出层(softmax)中的权重。

在获得条件概率之后，可以获得该条件概率对应的损失函数的值，调整神经网络模型中的参数，直到损失函数值满足预设范围，获得该神经网络模型的参数。

在一种可能的实施例中，在调整参数的过程中，可以采用梯度下降法更新神经网络模型的参数。

具体的，根据条件概率计算神经网络模型的梯度值，根梯度值对神经网络模型的参数不断进行更新，实现快速地更新神经网络模型的参数。

在一种可能的实施例中，在对该内容互动平台经过处理之后，可以获得神经网络模型的参数，针对本轮对其它内容互动平台进行处理时，可以沿用该内容互动平台的神经网络模型的参数。本轮可以理解为服务器110本次确定多个内容互动平台的标签的过程。

具体的，服务器110获得词向量集合中每个词向量的条件概率之后，执行步骤205，下面对执行步骤205的方式进行说明。

具体的，服务器110在获得条件概率之后，服务器110确定将满足预设条件的词向量，并将这些满足预设条件的词向量对应的分词确定为内容互动平台的标签。例如可以将条件概率大于预设值的词向量所对应的分词确定为内容互动平台的标签。

如果服务器110是同时对多个内容互动平台中每个内容互动平台的文本集合进行步骤201-步骤204的处理过程，则服务器110可以同时获得多个内容互动平台中每个内容互动平台所对应的标签。

继续以图3为例，对ID1至IDn的文本集合进行处理，可以获得ID1至IDn中每个ID对应的标签。

如果在下一次更新对该内容互动平台的标签时，如果继续沿用该神经网络模型的参数，可能会导致更新的标签与之前的标签相近。因此，为了使得更新后的标签更准确，本申请实施例中服务器110可以对神经网络模型中的参数进行重置处理。

具体的，服务器110确定神经网络模型的参数更新的次数达到预设次数之后，服务器110将该神经网络模型的参数设置为初始值。例如本轮需要确定标签的内容互动平台为N个，服务器110确定神经网络模型的参数更新的次数为N次之后，下一轮对该内容互动平台的标签进行更新时，则将神经网络模型中的参数设置为初始值。初始值可以理解为服务器110在首次确定该内容互动平台时，所采用的神经网络模型的参数值。

或者，服务器110在确定更新后的神经网络模型的参数使用时长达到预设第一时长之后，将神经网络模型中的参数设置为初始值。

具体的，服务器110在确定该内容互动平台的标签，并更新神经网络模型的参数之后，可以确定该更新神经网络模型的参数的使用时长，达到使用时长之后，重置神经网络模型中的参数。

服务器110在确定该内容互动平台的标签之后，确定满足触发条件之后，服务器110可以循环执行前面论述的步骤201-步骤205的方法，不断实现对内容互动平台的标签的更新。

在每个确定内容互动平台的标签之后，如果服务器110为内容互动平台对应的后台服务器，服务器110可以将内容互动平台的标签与内容互动平台关联存储，服务器110可以隐藏标签，也就是说，在用户的客户端上并不会显示标签。用户在访问内容互动平台时，可以根据标签进行搜索，终端设备显示与该标签关联的内容互动平台，方便用户按照标签从大量内容互动平台搜索出自己所需的内容互动平台。

如果服务器110为专门配置的用于确定标签的服务器，该服务器110确定各个内容互动平台的标签之后，可以将各个内容互动平台和其对应的标签发送给内容互动平台对应的后台服务器，以使该后台服务器能将内容互动平台与对应的标签关联存储，便于用户搜索。

在前文论述的一种确定内容互动平台的标签的方法的基础上，本申请实施例提供一种确定内容互动平台的标签的装置，该装置设置在前文论述的服务器110中，请参照图7，该装置包括获取模块710、分词模块720、第一处理模块730、第二处理模块740、确定模块750，其中：

获取模块710，用于获取内容互动平台的文本集合；

分词模块720，用于分别对文本集合中的各个文本进行分词处理，获得分词集合；

第一处理模块730，用于将分词集合输入至词向量模型，获得词向量集合；

第二处理模块740，用于将词向量集合输入至神经网络模型，获得词向量集合中每个词向量的条件概率；其中，条件概率用于表示该词向量与其它词向量的相关度；

确定模块750，用于将各个词向量集合中条件概率满足预设条件的词向量对应的分词确定为内容互动平台的标签。

在一种可能的实施例中，第一处理模块730具体用于：

通过词向量模型的编码操作，得到文本集合中各个分词对应的词向量；

在一种可能的实施例中，第二处理模块740具体用于：

将词向量集合输入至神经网络模型，通过预设矩阵对词向量进行映射处理，获得映射后的词向量集合；

确定映射后的词向量集合中每个词向量出现时，词向量集合中其它词向量中每个词向量出现的概率；

将词向量集合中其它词向量中每个词向量出现的概率相乘，获得该词向量的条件概率，获得词向量集合中每个词向量对应的条件概率。

在一种可能的实施例中，装置还包括调整模块760，调整模块760用于：

在获得词向量集合中每个词向量对应的条件概率之后，根据词向量集合中与每个词向量的条件概率，确定神经网络模型对应的损失函数值；

根据损失函数值，调整神经网络模型中的参数；其中，参数包括预设矩阵中的元素；

直到损失函数值满足预设范围，更新神经网络模型的参数。

在一种可能的实施例中，装置还包括重置模块770，重置模块770用于：

在对神经网络模型的参数更新的次数达到预设次数之后，或在对更新后的神经网络模型的参数使用时长达到预设第一时长之后，将神经网络模型的参数设置为初始值。

在一种可能的实施例中，确定模块750还用于：

在获取待标注的内容互动平台的文本集合之前，确定满足触发条件；其中，触发条件为在上一次确定内容互动平台的标签之后，内容互动平台中更新的文本数量达到预设数量，或距离上一次确定内容互动平台的标签的时长达到预设第二时长。

应当说明的是，图7中的调整模块760和重置模块770为可选的模块。

在前文论述的一种确定内容互动平台的标签的方法的基础上，本申请实施例提供一种确定内容互动平台的标签的装置，该装置设置在前文论述的服务器110中，请参照图8，该装置包括处理器810和存储器820，其中：

至少一个处理器810，以及

与所述至少一个处理器810通信连接的存储器820；

其中，所述存储器820存储有可被所述至少一个处理器810执行的指令，所述至少一个处理器810通过执行所述存储器820存储的指令实现如前文论述的一种确定内容互动平台的标签的方法。

作为一种实施例，图8中的处理器810可以实现图7中的获取模块710、分词模块720、第一处理模块730、第二处理模块740、确定模块750、调整模块760和重置模块770。

图8中是以一个处理器810为例，但是实际上不限制处理器810的数量。

其中，处理器810可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器820可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read OnlyMemory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器820还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

在前文论述的一种确定内容互动平台的标签的方法的基础上，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如前文论述的一种确定内容互动平台的标签的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种确定内容互动平台标签的方法，其特征在于，包括：

获取内容互动平台的文本集合；

将所述分词集合输入至词向量模型，获得词向量集合；

2.如权利要求1所述的方法，其特征在于，将所述文本集合输入词向量模型，获取词向量集合，包括：

3.如权利要求1所述的方法，其特征在于，将所述词向量集合输入至神经网络模型，获得所述词向量集合中每个词向量的条件概率，包括：

确定所述映射后的词向量集合中每个词向量出现时，所述词向量集合中其它词向量中每个词向量出现的概率；

4.如权利要求3所述的方法，其特征在于，在获得所述词向量集合中每个词向量对应的条件概率之后，包括：

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

6.如权利要求1-5任一所述的方法，其特征在于，在获取待标注的内容互动平台的文本集合之前，包括：

7.一种确定内容互动平台标签的装置，其特征在于，所述装置包括：

获取模块，用于获取内容互动平台的文本集合；

8.如权利要求7所述的装置，其特征在于，所述第二处理模块具体用于：

将所述词向量集合中其它词向量中每个词向量出现的概率相乘，获得该词向量对应的条件概率，获得所述词向量集合中每个词向量对应的条件概率。

9.一种确定内容互动平台标签的装置，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-6中任一项所述的方法。