CN110276010A

CN110276010A - 一种权重模型训练方法和相关装置

Info

Publication number: CN110276010A
Application number: CN201910549525.3A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-09-24
Anticipated expiration: 2039-06-24
Also published as: CN110276010B

Abstract

本申请实施例公开一种权重模型训练方法，用户点击日志数据包括搜索词所对应的搜索结果文本的点击操作以及点击率，根据用户点击日志数据获取第一搜索结果文本对应的第一搜索词。将第一搜索结果文本与第一搜索词中相同词条作为第一候选标注词，根据第一候选标注词确定目标标注词。根据目标标注词得到第一搜索结果文本的标注语料。标注语料包括目标标注词在第一搜索结果文本的上下文信息和目标标注词的标注概率，标注概率为目标标注词所在的第一搜索词针对第一搜索结果文本的点击率，表示目标标注词在第一搜索结果文本中的权重。故利用标注语料训练的权重模型根据预测的上下文信息可以确定出待分析文本中词条的权重，从而确定出待分析文本的主题词。

Description

一种权重模型训练方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种权重模型训练方法和相关装置。

背景技术

随着互联网的不断发展，网络中的信息也呈现喷井式增长，用户通常利用搜索引擎进行搜索的方式从大量信息中获取用户关心的信息。而搜索过程中，用户需要针对搜索目标提交搜索词，从而根据搜索词返回搜索结果文本。搜索结果文本中各个分词词条的权重可以用来度量搜索结果文本中每个词条的重要程度，搜索引擎根据词条权重从搜索结果文本中提取主题词，从而向用户返回主题词与搜索词相关的搜索结果项，以及根据词条权重对返回的词条对应的搜索结果文本进行排序。因此，如何精准识别搜索结果文本中各个分词词条的权重，直接决定了搜索引擎返回的搜索结果文本和搜索结果文本最终呈现的排序效果。

目前，传统的主题词提取方法往往会采用词频-逆文本频率指数(termfrequency–inverse document frequency，简称TF-IDF)算法来对搜索结果文本中的分词进行打分排序，分词的得分表征分词在搜索结果文本中的权重。然后根据得分从大到小排序，将得分排序中前N个的分词作为搜索结果文本的主题词。

但是，采用传统方法对一些较短的搜索结果文本确定主题词时，可能存在由于权重计算的不准确，导致确定出错误的主题词的问题。

发明内容

为了解决上述技术问题，本申请提供了一种权重模型的训练方法，通过该方法训练得到的权重模型具有上下文感知能力，同时根据得到的上下文信息可以准确的确定出待分析文本中各个词条的权重，从而准确的确定出待分析文本的主题词。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种权重模型训练方法，所述方法包括：

根据用户点击日志数据获取第一搜索结果文本对应的第一搜索词，所述用户点击日志数据包括针对搜索词所对应的搜索结果文本的点击操作以及点击率；

将所述第一搜索结果文本与所述第一搜索词中相同的词条作为第一候选标注词；

根据所述第一候选标注词确定目标标注词；

根据所述目标标注词得到所述第一搜索结果文本的标注语料，所述标注语料包括所述目标标注词在所述第一搜索结果文本的上下文信息和所述目标标注词的标注概率，所述标注概率为所述目标标注词所在的第一搜索词针对所述第一搜索结果文本的点击率；

根据所述标注语料对所述权重模型进行训练，所述权重模型用于计算待分析文本中词条的权重。

第二方面，本申请实施例提供一种权重模型训练装置，所述装置包括第一获取单元、第一确定单元、第二确定单元、第三确定单元和训练单元：

所述第一获取单元，用于根据用户点击日志数据获取第一搜索结果文本对应的第一搜索词，所述用户点击日志数据包括针对搜索词所对应的搜索结果文本的点击操作以及点击率；

所述第一确定单元，用于将所述第一搜索结果文本与所述第一搜索词中相同的词条作为第一候选标注词；

所述第二确定单元，用于根据所述第一候选标注词确定目标标注词；

所述第三确定单元，用于根据所述目标标注词得到所述第一搜索结果文本的标注语料，所述标注语料包括所述目标标注词在所述第一搜索结果文本的上下文信息和所述目标标注词的标注概率，所述标注概率为所述目标标注词所在的第一搜索词针对所述第一搜索结果文本的点击率；

所述训练单元，用于根据所述标注语料对所述权重模型进行训练，所述权重模型用于计算待分析文本中词条的权重。

第三方面，本申请实施例提供一种用于权重模型的训练的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的方法。

由上述技术方案可以看出，由于用户点击日志数据包括搜索词所对应的搜索结果文本的点击操作以及点击率，根据用户点击日志数据可以获取第一搜索结果文本对应的第一搜索词。将第一搜索结果文本与第一搜索词中相同的词条作为第一候选标注词，根据第一候选标注词确定目标标注词。然后，根据目标标注词得到第一搜索结果文本的标注语料。在训练权重模型时，以该标注语料为训练依据，标注语料包括目标标注词在第一搜索结果文本的上下文信息和目标标注词的标注概率，该标注概率用于表示目标标注词在第一搜索结果文本中的权重。由于该标注概率为目标标注词所在的第一搜索词针对第一搜索结果文本的点击率，该点击率可以准确的反映出具有目标标注词的第一搜索词和第一搜索结果文本的相关程度，进而反映具有该上下文信息的目标标注词表示第一搜索结果文本主题的可能性。故，通过该标注语料训练得到的权重模型具有上下文感知能力，同时根据得到的上下文信息可以准确的确定出待分析文本中各个词条的权重，从而准确的确定出待分析文本的主题词。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种权重模型的训练方法的应用场景示意图；

图2为本申请实施例提供的一种权重模型的训练方法的流程图；

图3为本申请实施例提供的一种权重模型的训练方法的结构流程；

图4为本申请实施例提供的一种权重模型的训练方法的流程图；

图5为本申请实施例提供的一种LSTM+CTF模型的结构图；

图6a为本申请实施例提供的一种权重模型的训练装置的结构图；

图6b为本申请实施例提供的一种权重模型的训练装置的结构图；

图6c为本申请实施例提供的一种权重模型的训练装置的结构图；

图6d为本申请实施例提供的一种权重模型的训练装置的结构图；

图7为本申请实施例提供的一种终端设备的结构图；

图8为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

采用TF-IDF算法来计算搜索结果文本中各个词条的权重时，若搜索结果文本中某个词条出现的次数越多，即TF越大，该词条的权重可能越大；而某个词条本身越不常见，即IDF越大，该词条的权重可能越大。

在实际中使用过程中搜索文本可能比较短，难以体现出核心词与非核心词词频上的差距，从而使得计算得到的每个词条的TF值都很小，但是对于搜索结果文本中不常出现的词条来说，该词条的IDF值一般比较大，从而导致该词条的TF-IDF值，即权重较大，将搜索结果文本中一个不常出现的词条误认为是核心词。例如，搜索结果文本为“德国制造的烟花，炸开的一瞬间，众人都被看愣了！太震撼了”，针对搜索结果文本中各个词条计算得到的TF-IDF值参见表1所示：

表1 各个词条的TF-IDF值

词条	TF-IDF值
		德国	0.29
制造	0.29
		烟花	0.49
炸开	0.5
		一瞬间	0.42
众人	0.31
		看楞	0.33
震撼	0.43

由表1可知，词条“烟花”和“炸开”的TF-IDF值较高，即权重较高，根据TF-IDF方法确定出的主题词为“烟花”和“炸开”，而该搜索结果文本的主题词实际应该为“烟花”和“德国”。可见，针对较短的搜索结果文本确定主题词时，TF-IDF方法容易出现确定出错误的主题词的问题。

为了解决上述技术问题，本申请实施例提供一种权重模型的训练方法，该方法将第一搜索结果文本的标注语料作为训练依据，由于标注语料包括目标标注词在第一搜索结果文本的上下文信息和目标标注词的标注概率，该标注概率为目标标注词所在的第一搜索词针对第一搜索结果文本的点击率，该点击率可以准确的反映出具有目标标注词的第一搜索词和第一搜索结果文本的相关程度，进而反映具有该上下文信息的目标标注词表示第一搜索结果文本主题的可能性。故，通过该标注概率可以准确的表示目标标注词在第一搜索结果文本中的权重，因此，根据该模型可以准确的确定出待分析文本中各个词条的权重。

该方法可以应用到数据处理设备，该数据处理设备可以是终端设备，终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑等设备。

该数据处理设备还可以是服务器，该服务器可以为独立服务器，也可以为集群服务器。

为了便于理解本申请的技术方案，下面结合实际应用场景，以服务器为例对本申请实施例提供的权重模型的训练方法进行介绍。

参见图1，图1为本申请实施例提供的权重模型的训练方法的应用场景示意图。该应用场景中包括服务器101，服务器101可以根据用户点击日志数据获取第一搜索结果文本对应的第一搜索词。用户点击日志数据是用户在通过搜索词执行搜索操作后点击搜索结果文本所产生的，其中包括搜索词所对应的搜索结果文本的点击操作以及点击率。点击操作反映了针对搜索词用户点击过的搜索结果文本；点击率反映了搜索结果文本与搜索词之间的相关程度，点击率越高，搜索结果文本与搜索词之间的相关程度越高。

服务器101将第一搜索结果文本与第一搜索词中相同的词条作为第一候选标注词，根据第一候选标注词确定目标标注词。该目标标注词用于标注第一搜索结果文本，以得到第一搜索结果文本的标注语料。该标注语料可以作为权重模型的训练依据，标注语料包括目标标注词在第一搜索结果文本的上下文信息和目标标注词的标注概率，该标注概率用于表示目标标注词在第一搜索结果文本中的权重。故，通过该标注语料训练得到的权重模型具有上下文感知能力，同时根据得到的上下文信息可以准确的确定出待分析文本中各个词条的权重，从而准确的确定出待分析文本的主题词所述权重模型用于计算待分析文本中词条的权重。

接下来，将结合附图对本申请实施例提供的权重模型的训练方法进行详细介绍。

参见图2，图2示出了一种权重模型的训练方法的流程图，所述方法包括：

S201、根据用户点击日志数据获取第一搜索结果文本对应的第一搜索词。

其中，用户点击日志数据中包括搜索词所对应的搜索结果文本的点击操作以及点击率。搜索词为用户为例搜索得到搜索目标而提交的，搜索结果文本为针对搜索词执行搜索操作后得到的，搜索结果文本可以是文章标题等短文本。

获取第一搜索结果文本对应的第一搜索词相当于构建doc-query列表，其中，doc表示第一搜索结果文本，query表示第一搜索词。参见图3所示，若第一搜索结果文本为“酒店人常用英语口语100句，超实用”，那么，通过用户点击日志数据，可以获取执行搜索操作后点击过第一搜索结果文本的搜索词，即第一搜索结果文本对应的第一搜索词，例如，第一搜索词包括“酒店常用英语”、“预订酒店，英语怎么说”和“酒店餐饮英语沟通”等等。

S202、将第一搜索结果文本与第一搜索词中相同的词条作为第一候选标注词。

第一搜索词体现用户的搜索意图，而点击过的第一搜索结果文本为与搜索意图相关的文本，第一搜索结果文本与第一搜索词中相同的词条可以反映出搜索意图，从而具有作为主题词的可能性。因此，在本实施例中，可以抽将第一搜索结果文本与第一搜索词中相同的词条作为第一候选标注词，以便用于后续标注第一搜索结果文本。

以图3中第一搜索结果文本为“酒店人常用英语口语100句，超实用”，第一搜索词包括“酒店常用英语”、“预订酒店，英语怎么说”和“酒店餐饮英语沟通”为例，确定得到的第一候选标注词包括“英语”和“酒店”。

S203、根据第一候选标注词确定目标标注词。

需要说明的是，由于同一搜索意图所对应的搜索结果文本的表达方式可能有所不同，例如“酒店人常用英语口语100句，超实用”和“酒店人常用英语口语100句”是不同的搜索结果文本，但是二者语义相似，对应的搜索意图相同。但二者对应的搜索词可能有所不同，进而导致得到的目标标注词不同。在这种情况下，为了得到更加全面的目标标注词，以便最终得到的标注语料更加全面。在一种实现方式，可以对第一搜索结果进行泛化，即通过语义分析获取与第一搜索结果文本语义相似的第二搜索结果文本。然后，根据用户点击日志数据获取第二搜索结果文本对应的第二搜索词，即构建泛化后的建doc-query列表。将第二搜索结果文本与第二搜索词中相同的词条作为第二候选标注词。

参见图3所示，第二搜索结果文本为“酒店人常用英语口语100句”，根据用户点击日志数据确定出的第二搜索词包括“酒店英语”和“常用英语口语”等，得到的第二候选标注词包括“英语”、“酒店”和“英语口语”，其中，第二候选标注词中“英语口语”是第一候选标注词中未出现的。

在这种情况下，根据第一候选标注词确定目标标注词的一种可能的实现方式为将第一候选标注词和第二候选标注词取并集，得到目标标注词。如图3所示，第一候选标注词包括“英语”和“酒店”，第二候选标注词包括“英语”、“酒店”和“英语口语”，将第一候选标注词和第二候选标注词取并集得到的目标标注词包括“英语”、“酒店”和“英语口语”。由此可见，通过对第一搜索结果文本的泛化处理，可以扩大目标标注词的范围，使得确定出的目标标注词更加全面，进而使得后续得到的标注语料更加全面。

S204、根据目标标注词得到第一搜索结果文本的标注语料。

标注语料包括目标标注词在第一搜索结果文本的上下文信息和目标标注词的标注概率，标注概率为目标标注词所在的第一搜索词针对第一搜索结果文本的点击率。

若目标标注词为根据第一候选标注词和第二候选标注词取并集得到的，则标注语料还包括目标标注词在第二搜索结果文本的上下文信息；标注概率为目标标注词所在的第二搜索词对第二搜索结果文本的点击率。

在一种实现方式中，不仅存在与第一搜索结果文本语义相似的第二搜索结果文本，对于目标标注词来说，还存在与目标标注词语义相似的其他候选标注词。因此，为了进一步使得标注语料更加全面，还可以通过泛化处理获取与目标标注词语义相关度符合预设条件的第三候选标注词。其中，与目标标注词语义相关度符合预设条件的第三候选标注词可以是目标标注词的同义词、近义词等，可以通过加载词典获得。这样，在根据目标标注词得到第一搜索结果文本的标注语料时，可以根据目标标注词和第三候选标注词共同得到第一搜索结果文本的标注语料。

例如图3所示，目标标注词包括“英语”、“酒店”和“英语口语”，通过泛化处理获取与目标标注词语义相关度符合预设条件的第三候选标注词“美语”，第三候选标注词“美语”与目标标注词中的“英语”的语义相关度符合预设条件。

应理解，若根据目标标注词和第三候选标注词共同得到第一搜索结果文本的标注语料，标注语料还可以包括第三候选标注词的标注概率，以及第三候选标注词的上下文信息。目标标注词的标注概率就是与目标标注词语义相关度符合预设条件的第三候选标注词的标注概率，目标标注词的上下文信息就是与目标标注词语义相关度符合预设条件的第三候选标注词的上下文信息。

S205、根据标注语料对权重模型进行训练。

权重模型可以包括多种类型，权重模型可以是长短期记忆网络(Long Short-TermMemory，简称LSTM)+条件随机场(conditional random field，简称CRF)模型，还可以是梯度提升决策树(Gradient Boosting Decision Tree，简称GBDT)模型等。

在完成权重模型的训练后，可以利用该权重模型计算待分析文本中词条的权重。具体的，当向权重模型输入待分析文本时，利用权重模型对待分析文本进行分词得到多个词条。分别以多个词条作为目标词条，利用权重模型确定目标词条在待分析文本的上下文信息。接着，根据上下文信息确定目标词条在所述待分析文本的权重。

由于权重模型是根据标注语料得到的，标注语料中包括目标标注词在第一搜索结果文本的上下文信息和目标标注词的标注概率。由于该标注概率为目标标注词所在的第一搜索词针对第一搜索结果文本的点击率，该点击率可以准确的反映出具有目标标注词的第一搜索词和第一搜索结果文本的相关程度，进而反映具有该上下文信息的目标标注词表示第一搜索结果文本主题的可能性，故，该标注概率用于表示目标标注词在第一搜索结果文本中的权重。因此，通过该标注语料训练得到的权重模型可以根据得到的上下文信息准确的确定出待分析文本中各个词条的权重，从而准确的确定出待分析文本的主题词。

本申请实施例以LSTM+CRF模型为例进行介绍。LSTM+CRF模型的结构参见图4所示，Input表示输入的待分析文本，其中，待分析文本为“酒店/人/常用/英语口语/100/句/超实用”。Embeding Layer用于将所述待分析文本分词后得到各个词条的向量，待分析文本分词后得到的词条分别是“酒店”、“人”、“常用”、“英语口语”、“100”、“句”、“超”、“实用”。Bi-LSTM Layer用于做编码处理，Dense-layer为隐藏层，是LSTM模型的输出层，其后连接CRF-Layer，采用CRF模型训练序列标注模型。LSTM+CRF模型针对输入的“酒店/人/常用/英语口语/100/句/超实用”可以预测各个词条的所对应的权重。得到的权重依次是“酒店/0.76”、“人/0.26”、“常用/0.19”、“英语口语/0.3”、“100/0.04”、“句/0.06”、“超/0.03”、“实用/0.03”。可见，“酒店”和“英语口语”可以作为该待分析文本的主题词。

另外，通过该权重模型对“德国制造的烟花，炸开的一瞬间，众人都被看愣了！太震撼了”中各个词条的权重进行预测，得到的权重依次是“德国/0.49”、“制造/0.45”、“的/0.4”、“烟花/0.41”、“，/0.18”、“炸开/0.22”、“的/0.35”、“一瞬间/0.11”、“，/0.15”、“众人/0.25”、“都/0.1”、“被/0.19”、“看/0.34”、“楞/0.34”、“了/0.18”……。可见，“德国”和“烟花”的权重较高，是该待分析文本的主题词，与传统方法相比，利用该权重模型确定的权重更加准确，能够得到准确的主题词。

接下来，将结合实际应用场景对本实施例提供的权重模型训练方法进行介绍。参见图5，所述方法包括：

S501、根据用户点击日志数据获取第一搜索结果文本对应的第一搜索词。

S502、将第一搜索结果文本与第一搜索词中相同的词条作为第一候选标注词。

S503、通过语义分析获取与第一搜索结果文本语义相似的第二搜索结果文本。

S504、根据用户点击日志数据获取第二搜索结果文本对应的第二搜索词。

S505、将第二搜索结果文本与第二搜索词中相同的词条作为第二候选标注词。

S506、将第一候选标注词和第二候选标注词取并集，得到目标标注词。

S507、通过泛化处理获取与目标标注词语义相关度符合预设条件的第三候选标注词。

S508、根据目标标注词和第三候选标注词得到第一搜索结果文本的标注语料。

S509、根据标注语料对权重模型进行训练。

基于前述实施例提供的权重模型的训练方法，本实施例提供一种权重模型训练装置。参见图6a，所述装置包括第一获取单元601、第一确定单元602、第二确定单元603、第三确定单元604和训练单元605：

所述第一获取单元601，用于根据用户点击日志数据获取第一搜索结果文本对应的第一搜索词，所述用户点击日志数据包括搜索词所对应的搜索结果文本的点击操作以及点击率；

所述第一确定单元602，用于将所述第一搜索结果文本与所述第一搜索词中相同的词条作为第一候选标注词；

所述第二确定单元603，用于根据所述第一候选标注词确定目标标注词；

所述第三确定单元604，用于根据所述目标标注词得到所述第一搜索结果文本的标注语料，所述标注语料包括所述目标标注词在所述第一搜索果文本的上下文信息和所述目标标注词的标注概率，所述标注概率为所述目标标注词所在的第一搜索词针对所述第一搜索结果文本的点击率；

所述训练单元605，用于根据所述标注语料对所述权重模型进行训练，所述权重模型用于计算待分析文本中词条的权重。

在一种可能的实现方式中，参见图6b，所述装置还包括第二获取单元606、第三获取单元607和第四确定单元608：

所述第二获取单元606，用于通过语义分析获取与所述第一搜索结果文本语义相似的第二搜索结果文本；

所述第三获取单元607，用于根据所述用户点击日志数据获取所述第二搜索结果文本对应的第二搜索词；

所述第四确定单元608，用于将所述第二搜索结果文本与所述第二搜索词中相同的词条作为第二候选标注词；

所述第二确定单元603，用于：

将所述第一候选标注词和所述第二候选标注词取并集，得到所述目标标注词；

所述标注语料还包括所述目标标注词在所述第二搜索结果文本的上下文信息；所述标注概率为所述目标标注词所在的第二搜索词对所述第二搜索结果文本的点击率。

在一种可能的实现方式中，参见图6c，所述装置还包括第四获取单元609：

所述第四获取单元609，用于通过泛化处理获取与所述目标标注词语义相关度符合预设条件的第三候选标注词；

所述第三确定单元604，用于：

根据所述目标标注词和所述第三候选标注词得到所述第一搜索结果文本的标注语料。

在一种可能的实现方式中，所述目标标注词的标注概率为与所述目标标注词语义相关度符合预设条件的第三候选标注词的标注概率。

在一种可能的实现方式中，参见图6d，所述装置还包括分词单元610、第五确定单元611和第六确定单元612：

所述分词单元610，用于利用所述权重模型对所述待分析文本进行分词得到多个词条；

所述第五确定单元611，用于分别以所述多个词条作为目标词条，利用所述权重模型确定所述目标词条在所述待分析文本的上下文信息；

所述第六确定单元612，用于根据所述上下文信息确定所述目标词条在所述待分析文本的权重。

本申请实施例还提供了一种用于权重模型的训练设备，下面结合附图对用于权重模型的训练设备进行介绍。请参见图7所示，本申请实施例提供了一种用于权重模型的训练设备700，该设备700还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图7示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图7，手机包括：射频(Radio Frequency，简称RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，简称WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，优选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器780还具有以下功能：

根据用户点击日志数据获取第一搜索结果文本对应的第一搜索词，所述用户点击日志数据包括搜索词所对应的搜索结果文本的点击操作以及点击率；

根据所述第一候选标注词确定目标标注词；

根据所述目标标注词得到所述第一搜索结果文本的标注语料，所述标注语料包括所述目标标注词在所述第一搜索词的上下文信息和所述目标标注词的标注概率，所述标注概率为所述目标标注词所在的第一搜索词针对所述第一搜索结果文本的点击率；

根据所述标注语料对所述权重模型进行训练，所述权重模型用于计算待分析搜索词中词条的权重。

本申请实施例还提供服务器，请参见图8所示，图8为本申请实施例提供的服务器800的结构图，服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种权重模型训练方法，其特征在于，所述方法包括：

根据所述第一候选标注词确定目标标注词；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过语义分析获取与所述第一搜索结果文本语义相似的第二搜索结果文本；

根据所述用户点击日志数据获取所述第二搜索结果文本对应的第二搜索词；

将所述第二搜索结果文本与所述第二搜索词中相同的词条作为第二候选标注词；

所述根据所述第一候选标注词确定目标标注词，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

通过泛化处理获取与所述目标标注词语义相关度符合预设条件的第三候选标注词；

根据所述目标标注词得到所述第一搜索结果文本的标注语料，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标标注词的标注概率为与所述目标标注词语义相关度符合预设条件的第三候选标注词的标注概率。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用所述权重模型对所述待分析文本进行分词得到多个词条；分别以所述多个词条作为目标词条，利用所述权重模型确定所述目标词条在所述待分析文本的上下文信息；

根据所述上下文信息确定所述目标词条在所述待分析文本的权重。

6.一种权重模型训练装置，其特征在于，所述装置包括第一获取单元、第一确定单元、第二确定单元、第三确定单元和训练单元：

所述第一获取单元，用于根据用户点击日志数据获取第一搜索结果文本对应的第一搜索词，所述用户点击日志数据包括搜索词所对应的搜索结果文本的点击操作以及点击率；

所述第三确定单元，用于根据所述目标标注词得到所述第一搜索结果文本的标注语料，所述标注语料包括所述目标标注词在所述第一搜索果文本的上下文信息和所述目标标注词的标注概率，所述标注概率为所述目标标注词所在的第一搜索词针对所述第一搜索结果文本的点击率；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括第二获取单元、第三获取单元和第四确定单元：

所述第二获取单元，用于通过语义分析获取与所述第一搜索结果文本语义相似的第二搜索结果文本；

所述第三获取单元，用于根据所述用户点击日志数据获取所述第二搜索结果文本对应的第二搜索词；

所述第四确定单元，用于将所述第二搜索结果文本与所述第二搜索词中相同的词条作为第二候选标注词；

所述第二确定单元，用于：

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括第四获取单元：

所述第四获取单元，用于通过泛化处理获取与所述目标标注词语义相关度符合预设条件的第三候选标注词；

所述第三确定单元，用于：

9.一种用于权重模型的训练的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-5所述的方法。