CN108121736A

CN108121736A - 一种主题词确定模型的建立方法、装置及电子设备

Info

Publication number: CN108121736A
Application number: CN201611079425.1A
Authority: CN
Inventors: 肖镜辉
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2018-06-05
Anticipated expiration: 2036-11-30
Also published as: CN108121736B

Abstract

本发明公开了一种主题词确定模型的建立方法、装置及电子设备，该方法包括：获取表征用户行为的搜索日志；基于所述搜索日志，获得搜索词条与对应的搜索结果中被用户点击了的目标网页；根据所述搜索词条和所述目标网页获得所述目标网页的主题词；将所述目标网页和所述主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型。在上述技术方案中，通过根据表征用户行为的搜索日志来获得训练样本，并以此建立主题词确定模型，使得主题词确定模型的建立充分考虑了用户行为，提高了提取主题词的准确率，解决了现有技术中提取主题词准确率不高的技术问题。

Description

一种主题词确定模型的建立方法、装置及电子设备

技术领域

本发明涉及软件技术领域，特别涉及一种主题词确定模型的建立方法、装置及电子设备。

背景技术

近年来移动互联网大潮势不可挡，手机作为一个移动信息终端，在生活中扮演着越来越重要的角色。随着用户习惯的悄然改变，传统的信息分类展现方法已经不能够满足用户的需求，取而代之的是基于个性化推荐技术的个性化信息推荐展现方法。

个性化推荐技术，是设计算法将用户和信息建立关联，并以特定的方式将信息推荐给用户的算法，该技术有两个关键点：1.如何建立起来用户的精准画像；2.如何用少量关键词语来表示文章的关键信息，即如何获得文章主题词，文章主题词为少数的、能够反映文章主要内容或者文章主旨的关键性词语。针对第二个关键点，文章主题词的获取，现有的主流技术都是根据字词对于一个文件集或一篇文章的重要程度或者词频在上下文的关联程度来确定主题词的，这两种方式都是仅仅利用了文本层面的信息，没有利用用户的行为信息，获得的主题词质量不高。

发明内容

本发明实施例提供一种主题词确定模型的建立方法、装置及电子设备，基于用户行为来建立主题词模型，用于解决现有技术中主题词质量不高的技术问题，提高主题词的质量。

本申请实施提供一种主题词确定模型的建立方法，该方法包括：

获取表征用户行为的搜索日志；

基于所述搜索日志，获得搜索词条与对应的搜索结果中被用户点击了的目标网页；

根据所述搜索词条和所述目标网页获得所述目标网页的主题词；

将所述目标网页和所述主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型。

可选的，所述获取表征用户行为的搜索日志，包括：

获得用户在垂直搜索频道中的垂直搜索日志，所述垂直搜索频道为具有指定分类的搜索频道；和/或

获得用户在浏览器中的网络搜索日志。

可选的，所述根据所述搜索词条和所述目标网页获得所述目标网页的主题词，包括：

对所述搜索词条进行分词获得搜索分词序列，对所述目标网页的网页标题进行分词获得标题分词序列，以及对所述目标网页的正文进行分词获得正文分词序列；

基于所述标题分词序列和/或所述正文分词序列，从所述搜索分词序列中获得所述目标网页的主题词。

可选的，所述基于所述标题分词序列和/或所述正文分词序列，从所述搜索分词序列中获得所述目标网页的主题词，包括：

获得在所述搜索分词序列和所述标题分词序列中出现的分词作为所述主题词；或者

获得在所述搜索分词序列、所述标题分词序列以及所述正文分词序列中均出现的分词作为所述主题词。

获得在所述搜索分词序列和所述正文分词序列中出现，并未在所述标题分词序列中出现的候选分词；

计算所述候选分词的权重；

获得权重大于设定阈值的所述候选分词作为所述主题词。

可选的，所述计算获得所述候选分词的权重，包括：

根据如下公式获得所述候选分词在所述目标网页中的词频tf(word)：

其中，“#word”表示所述候选分词在所述目标网页中出现的次数，“∑#word”表示所述目标网页的总词频数；

根据如下公式获得所述候选分词的逆向文档频率idf(word)：

其中，“#document”表示从所述搜索日志中获得的目标网页的总数目，“∑#(word∈document)”表示包含有所述候选分词的所述目标网页的总数目；

获得tf(word)与idf(word)的比值作为所述候选分词的权重。

可选的，所述将所述目标网页和所述主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型，包括：

获得所述目标网页所属的目标类别，将所述目标网页和所述主题词作为所述目标类别的训练样本，通过序列标注模型的训练方法建立所述目标类别的主题词确定子模型；

将所有的所述主题词确定子模型组成所述主题词确定模型。

可选的，所述序列标注模型包括：隐马尔科夫模型、最大熵马尔科夫模型及条件随机场模型。

本申请实施例还提供一种主题词确定模型的建立装置，所述装置包括：

日志获取单元，用于获取表征用户行为的搜索日志；

网页获取单元，用于基于所述搜索日志，获得搜索词条与对应的搜索结果中被用户点击了的目标网页；

主题词获取单元，用于根据所述搜索词条和所述目标网页获得所述目标网页的主题词；

训练单元，用于将所述目标网页和所述主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型。

可选的，所述日志获取单元，包括：

第一获取子单元，用于获得用户在垂直搜索频道中的垂直搜索日志，所述垂直搜索频道为具有指定分类的搜索频道；和/或

第二获取子单元，用于获得用户在浏览器中的网络搜索日志。

可选的，所述主题词获取单元，包括：

分词子单元，用于对所述搜索词条进行分词获得搜索分词序列，对所述目标网页的网页标题进行分词获得标题分词序列，以及对所述目标网页的正文进行分词获得正文分词序列；

解析子单元，用于基于所述标题分词序列和/或所述正文分词序列，从所述搜索分词序列中获得所述目标网页的主题词。

可选的，所述解析子单元，包括：

第一解析模块，用于获得在所述搜索分词序列和所述标题分词序列中出现的分词作为所述主题词；或者

第二解析模块，用于获得在所述搜索分词序列、所述标题分词序列以及所述正文分词序列中均出现的分词作为所述主题词。

可选的，所述解析子单元，包括：

第三解析模块，用于获得在所述搜索分词序列和所述正文分词序列中出现，并未在所述标题分词序列中出现的候选分词；计算所述候选分词的权重；获得权重大于设定阈值的所述候选分词作为所述主题词。

可选的，所述第三解析模块还用于：

根据如下公式获得所述候选分词的逆向文档频率idf(word)：

获得tf(word)与idf(word)的比值作为所述候选分词的权重。

可选的，所述训练单元，包括：

训练子单元，用于获得所述目标网页所属的目标类别，将所述目标网页和所述主题词作为所述目标类别的训练样本，通过序列标注模型的训练方法建立所述目标类别的主题词确定子模型；

组合子单元，用于将所有的所述主题词确定子模型组成所述主题词确定模型。

本申请实施例还提供一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取表征用户行为的搜索日志；

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果：

通过获得用于表征用户行为的搜索日志，并基于该搜索日志获得搜索词条与对应的搜索结果中被用户点击了的目标网页，根据搜索词条和目标网页获得目标网页的主题词；将目标网页和主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型，使得主题词确定模型的建立充分考虑了用户行为，结合根据用户搜索词条获得的主题词和目标网页来训练主题词确定模型，提高了确定主题词的准确率，解决了现有技术中提取主题词准确率不高的技术问题。与此同时，本申请实施例对训练样本的标注采用的是根据搜索词条和目标网页自动完成，而不是采用人工标注的方法，解决了现有技术中人工标注训练样本存在的效率低下、标注结果易产生偏差的问题，实现了有监督的机器学习模型中的训练样本的自动建立。

附图说明

图1为本申请实施例提供的一种主题词确定模型的建立方法流程图；

图2为本申请实施例提供的一种主题词确定模型的建立装置示意图；

图3为本申请实施例提供的一种用于实现主题词确定模型建立方法的电子设备示意图。

具体实施方式

在本申请实施例提供的技术方案中，通过获得表征用户行为的搜索日志，根据搜索日志获得相应文章的主题，以此作为主题词确认模型的训练样本进行训练，建立主题词确认模型，以解决现有技术中提取主题词准确率不高的技术问题。

下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例一

请参考图1，本申请实施例提供一种主题词确认模型的建立方法，该方法包括：

S101：获取表征用户行为的搜索日志；

S102：基于所述搜索日志，获得搜索词条与对应的搜索结果中被用户点击了的目标网页；

S103：根据所述搜索词条和所述目标网页获得所述目标网页的主题词；

S104：将所述目标网页和所述主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型。

在具体实施过程中，用户在上网过程中会产生大量的搜索日志log。针对用户的搜索日志，一方面，可以将这些log文件还原为用户的真实行为，另一方面，可以针对我们感兴趣的用户行为进行提取和计算。本申请实施例执行S101获取用户的搜索日志主要获取表征用户搜索行为、查看行为的日志。

具体的，S101可以从浏览器中获得用户的网页搜索日志，如：用户在浏览器的搜索框中输入“蓝瘦”进行网页搜索，此时获得搜索结果种类繁多，可能为新闻、微博、帖子，用户可以从中选择与自己预期相符的结果进行查看。S101也可以从垂直搜索频道中获得用户的垂直搜索日志，该垂直搜索频道为具有指定分类的搜索频道，包括网页和APP中的垂直搜索频道垂直搜索频道，如：浏览器中的文库、贴吧、新闻等垂直搜索频道，APP：微博、微信、新闻客户端等中的搜索频道，这些搜索频道中获得的搜索结果为指定分类的文章，如在文库中垂直搜索获得的则均为文库类的文章。用户在这些频道上的搜索关键词很大程度上代表了用户对某一类网页或者某一个热点事件的关注；而用户在搜索之后的点击，即打开对应搜索内同进行查看，则反映了用户对被点击的网页的“认可”，即该网页的确与用户的关注点相关。

基于获取到的搜索日志，执行S102获得搜索词条与对应的搜索结果中被用户点击了的目标网页。其中，一条搜索词条可能对应多个目标网页，一个目标网页也可能对应多条搜索结果。例如：在新闻垂直搜索频道中，获得每一条被点击的新闻、以及搜索获得这个新闻的关键词query，同一条被点击的新闻可以对应多个query，而同一个query也可以对应多条新闻。

在S102之后，执行S103根据获得搜索词条和对应的目标网页的主题词。在获取主题词的过程中，先进行分词，对搜索词条进行分词获得搜索分词序列，对目标网页的网页标题进行分词获得标题分词序列，以及对目标网页的正文进行分词获得正文分词序列。本申请并不限制分词所采用的方法，可以采用最大匹配算法、最短路径算法、以及隐马尔科夫模型等方法来进行分词，也可以根据实际情况选择适合的分词方法进行分词。分词后进行关键词过滤，基于获得的标题分词序列和/或正文分词序列，从搜索分词序列中获得目标网页的主题词。

关键词过滤的步骤中，考虑到以下两个原因：①、网页的主题词通常包含在用户的搜索词条中；②、相比网页正文，网页的主题词更容易出现在网页标题中，本申请实施例通过如下一个或多个方式获得主题词：

1)、获得在搜索分词序列、标题分词序列以及正文分词序列中出现的分词作为目标网页的主题词，即：某一个分词，既在用户搜索词条query中出现，也在网页标题title和网页正文中出现，则获取该词语为主题词。

2)、获得在搜索分词序列和标题分词序列中出现的分词作为主题词，即：某一个词语，既在用户搜索词条query中出现，也在网页标题title中出现，则获取该词语为主题词。

3)、获得在搜索分词序列和正文分词序列中出现，并未在标题分词序列中出现的候选分词；计算获得所述候选分词的权重；获得权重大于设定阈值的候选分词作为主题词，设定阈值由设计人员根据主题词确定模型的精度要求进行设定，也可以由大量的主题词统计分析获得。

其中，候选分词的权重可以根据TF-IDF(term frequency–inverse documentfrequency，是一种用于信息检索与数据挖掘的常用加权技术)，采用tf/idf的方法进行计算。

具体的，根据如下公式一获得候选分词在目标网页中的词频tf(word)，即词语在文档中出现的次数与文档总词数的比值：

其中，“#word”表示候选分词在目标文章中出现的次数，“∑#word”表示目标文章的总词频数；

根据如下公式二获得候选分词的逆向文档频率idf(word)：

其中，“#document”表示从搜索日志中获得的目标文章的总数目，“∑#(word∈document)”表示包含有候选分词的目标文章的总数目；

从而，获得词频tf(word)与逆向文档频率idf(word)的比值，即tf(word)/idf(word)作为候选分词的权重。

通过S103获得目标网页的主题词后，执行S104将目标网页和主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型。其中，将目标网页和主题词作为训练样本，即是将每一篇目标网页及其对应的搜索词条query经过上述步骤处理之后获得主题词，组成“网页-主题词”对；每一个“网页-主题词”对就为一个训练样本，大量的“网页-主题词”对积累起来，进一步形成“网页-主题词”集合；该集合作为训练集合，输入给序列标注模型用来训练模型参数，进而建立主题词确定模型。

序列标注模型是在机器学习领域中处理时序问题的一类模型，通常是根据源序列来产生目标序列。例如：在汉语输入法软件中，用户输入的拼音序列就是源序列，用户期望得到的汉字序列就是目标序列，因此汉语输入问题可以用序列标注模型来解决。本申请实施例，将网页主题词的提取问题转化为对网页词语序列的标注问题，即，输入网页(网页的标题title和正文)的词语序列，利用机器学习中序列标注技术，将输入的词语序列转换为等长的“0-1”标记序列，其中标记为“1”的词语即是该网页的主题词。序列标注技术属于“有监督学习”技术，也就是说需要一系列的标准训练样本来对模型进行训练，为此本申请实施例将“网页-主题词”集合作为训练集合(网页的标题title和正文作为源序列，主题词作为目标序列)，来训练序列标注模型，进而训练获得的序列标注模型则为主题词确定模型。

序列标注模型有很多，如：隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、条件随机场模型(CRF)、等等。在实际应用中，可以选择上述任一模型或根据实际情况选择适合的模型进行训练，完成主题词确定模型的建立。

在建立主体词确定模型的过程中，可以通过所有的训练集合对序列标注模型进行整体训练，也可以对训练集合进行分类，对序列标注模型进行分类训练。分类训练时，可以获得目标网页所属的目标类别，将目标网页和主题词作为目标类别的训练样本，通过序列标注模型的训练方法建立目标类别的主题词确定子模型；将所有的主题词确定子模型组成主题词确定模型。例如：对新闻、文库、旅游攻略等类别的网页进行分类训练。由于采用分类别训练，获得的模型参数更能体现和反映各个类别的网页特征和主题词特征，进而根据分类别的主题词确定模型获得的主题词更为准确。

其中，目标类别可以根据网页的URL地址或网页所属网站的URL地址获得，例如：某一网页的URL地址为：http://hb.people.com.cn/n2/2016/1107/c192237-29263372-3.html，“people.com”为新闻网，那么获得该网页的目标类型为新闻；又或者，若一网页所属的网站为news.sogou.com，那么根据“news”也可以获得该网页的目标类型为新闻。

通过上述实施例建立完成主题词确定模型后，则可以应用该主题词确定模型，直接对网页进行主题词确认处理：将网页的标题序列和正文序列输入(电子设备自行输入)主题词确定模型，对于分类主题词确认模型则将网页的标题序列、正文序列及目标分类输入模型，主体词确定模型即可输出对应的主题词。例如：对于线上新来的一篇网页新闻来讲，源序列是分词后的标题序列和正文序列，目标序列是与源序列等长的0-1序列，其中“1”表示该位置上源序列的词语是本篇新闻的主题词，通过最终检视目标序列的结果，主题词确定模型就可以出输出该篇网页新闻的主题词了。

基于同一发明构思，本申请实施例还针对上述实施例提供的一种主题词确认模型的建立方法对应提供一种主题词确认模型的建立装置，如图2所示，该装置包括：

日志获取单元21，用于获取表征用户行为的搜索日志；

网页获取单元22，用于基于所述搜索日志，获得搜索词条与对应的搜索结果中被用户点击了的目标网页；

主题词获取单元23，用于根据所述搜索词条和所述目标网页获得所述目标网页的主题词；

训练单元24，用于将所述目标网页和所述主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型。

在具体实施过程中，所述日志获取单元21，包括：第一获取子单元和/或第二获取子单元。第一获取子单元用于获得用户在垂直搜索频道中的垂直搜索日志，所述垂直搜索频道为具有指定分类的搜索频道。第二获取子单元，用于获得用户在浏览器中的网络搜索日志。

所述主题词获取单元23，包括：分词子单元和解析子单元。分词子单元用于对所述搜索词条进行分词获得搜索分词序列，对所述目标网页的网页标题进行分词获得标题分词序列，以及对所述目标网页的正文进行分词获得正文分词序列。解析子单元用于基于所述标题分词序列和/或所述正文分词序列，从所述搜索分词序列中获得所述目标网页的主题词。

作为一种可选的实施方式，所述解析子单元，包括：第一解析模块、第二解析模块或者第三解析模块。其中，第一解析模块用于获得在所述搜索分词序列和所述标题分词序列中出现的分词作为所述主题词。第二解析模块用于获得在所述搜索分词序列、所述标题分词序列以及所述正文分词序列中均出现的分词作为所述主题词。第三解析模块，用于获得在所述搜索分词序列和所述正文分词序列中出现，并未在所述标题分词序列中出现的候选分词；计算所述候选分词的权重；获得权重大于设定阈值的所述候选分词作为所述主题词。

所述第三解析模块在计算候选分词的权重时，还用于：根据如下公式获得所述候选分词在所述目标网页中的词频tf(word)：

根据如下公式获得所述候选分词的逆向文档频率idf(word)：

获得tf(word)与idf(word)的比值作为所述候选分词的权重。

在具体的实施过程中，所述训练单元24，包括：训练子单元和组合子单元。训练子单元，用于获得所述目标网页所属的目标类别，将所述目标网页和所述主题词作为所述目标类别的训练样本，通过序列标注模型的训练方法建立所述目标类别的主题词确定子模型。组合子单元，用于将所有的所述主题词确定子模型组成所述主题词确定模型。其中，所述序列标注模型包括：隐马尔科夫模型、最大熵马尔科夫模型及条件随机场模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种用于实现主题词确定模型建立方法的电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种主题词确定模型的建立方法，所述方法包括：获取表征用户行为的搜索日志；基于所述搜索日志，获得搜索词条与对应的搜索结果中被用户点击了的目标网页；根据所述搜索词条和所述目标网页获得所述目标网页的主题词；将所述目标网页和所述主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主题词确定模型的建立方法，其特征在于，所述方法包括：

获取表征用户行为的搜索日志；

2.如权利要求1所述的方法，其特征在于，所述获取表征用户行为的搜索日志，包括：

获得用户在浏览器中的网络搜索日志。

3.如权利要求1所述的方法，其特征在于，所述根据所述搜索词条和所述目标网页获得所述目标网页的主题词，包括：

4.如权利要求3所述的方法，其特征在于，所述基于所述标题分词序列和/或所述正文分词序列，从所述搜索分词序列中获得所述目标网页的主题词，包括：

5.如权利要求3所述的方法，其特征在于，所述基于所述标题分词序列和/或所述正文分词序列，从所述搜索分词序列中获得所述目标网页的主题词，包括：

计算所述候选分词的权重；

获得权重大于设定阈值的所述候选分词作为所述主题词。

6.如权利要求5所述的方法，其特征在于，所述计算获得所述候选分词的权重，包括：

<mrow> <mi>t</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>#</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> <mrow> <mi>&Sigma;</mi> <mo>#</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </mfrac> </mrow>

根据如下公式获得所述候选分词的逆向文档频率idf(word)：

<mrow> <mi>i</mi> <mi>d</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>#</mo> <mi>d</mi> <mi>o</mi> <mi>c</mi> <mi>u</mi> <mi>m</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> </mrow> <mrow> <mi>&Sigma;</mi> <mo>#</mo> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>&Element;</mo> <mi>d</mi> <mi>o</mi> <mi>c</mi> <mi>u</mi> <mi>m</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

获得tf(word)与idf(word)的比值作为所述候选分词的权重。

7.如权利要求1～6任一所述的方法，其特征在于，所述将所述目标网页和所述主题词作为训练样本，通过序列标注模型的训练方法建立主题词确定模型，包括：

将所有的所述主题词确定子模型组成所述主题词确定模型。

8.如权利要求1～6任一所述的方法，其特征在于，所述序列标注模型包括：

隐马尔科夫模型、最大熵马尔科夫模型及条件随机场模型。

9.一种主题词确定模型的建立装置，其特征在于，所述装置包括：

日志获取单元，用于获取表征用户行为的搜索日志；

10.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取表征用户行为的搜索日志；