CN110020120B

CN110020120B - 内容投放系统中的特征词处理方法、装置及存储介质

Info

Publication number: CN110020120B
Application number: CN201710933750.8A
Authority: CN
Inventors: 于明刚; 赵铭; 温旭; 范欣; 张智敏
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2023-11-10
Anticipated expiration: 2037-10-10
Also published as: CN110020120A

Abstract

本申请公开了一种内容投放系统中的特征词处理方法，包括：获取训练样本数据，所述训练样本数据包括多个样本特征词中各样本特征词的特征数据及属性信息，所述属性信息用以指示对应样本特征词是否为预定属性特征词；根据所述多个样本特征词中各样本特征词的特征数据及属性信息，训练得到概率估计模型；获取已投放的媒体内容数据，确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据；针对任一特征词，将该特征词的特征数据输入所述概率估计模型，获得该特征词作为所述预定属性特征词的概率；及根据各特征词作为所述预定属性特征词的概率，从所述多个待识别特征词中确定出预定属性特征词。本申请还提供了相应的装置及存储介质。

Description

内容投放系统中的特征词处理方法、装置及存储介质

技术领域

本申请涉及互联网信息处理技术领域，尤其涉及一种内容投放系统中的特征词处理方法、装置及存储介质。

背景技术

随着互联网技术的发展，人们在互联网上进行的活动越来越多，不仅是简单的浏览网页，还可以在互联网上进行即时通讯、购物、广告宣传和网络游戏等。随着互联网技术的普及，个性化推荐系统已经广泛的应用于在线电子商务平台。所谓个性化推荐即根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品，从而可节省用户搜索信息或商品的时间。

在个性化推荐中，需要根据媒体内容的关键词及用户的兴趣标签确定媒体内容是否是用户感兴趣的媒体内容。在确定媒体内容的关键词时，需要对媒体内容的文本内容进行准确分词以获取该媒体内容的关键词。在中文处理领域，由于汉语本身的特点，词语之间没有像英文中有空格自然隔开，因此中文分词是一项重要的基础技术。但是，随着信息时代互联网的飞速发展，语言在网络平台上也被不断更新，从而造就了大量的新词。新词的出现，使得分词结果中出现过多的单字或细粒度词，影响了分词的准确率，进而影响了提取媒体内容关键词的准确性，因此，新词的准确识别受到越来越多的关注。

发明内容

本申请实例提供了一种内容投放系统中的特征词处理方法，包括：

获取已投放的媒体内容数据，确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据；

针对任一特征词，将该特征词的特征数据输入预先训练的概率估计模型，接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率，所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到，其中，所述属性信息用以指示对应样本特征词是否为预定属性特征词；及

根据接收到的各特征词作为所述预定属性特征词的概率，从所述多个待识别特征词中确定出预定属性特征词。

本申请实例还提供了一种内容投放系统中的特征词处理装置，包括：

待识别特征词获取单元，用以获取已投放的媒体内容数据，确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据；

识别单元，用以针对任一特征词，将该特征词的特征数据输入预先训练的概率估计模型，接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率，所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到，其中，所述属性信息用以指示对应样本特征词是否为预定属性特征词；及

本申请实例还提供了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上述所述的方法。

采用本申请提供的上述方案，确定的预定属性的特征词更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实例涉及的系统构架图；

图2是本申请一实例内容投放系统中的特征词处理方法的流程图；

图3是本申请一实例内容投放系统中的特征词处理方法应用在新词提取的流程图；

图4A是本申请一实例新闻及新闻的关键词的页面示意图；

图4B是本申请一实例内容投放系统中的特征词处理装置的结构示意图；以及

图5为本申请实例中的计算设备组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提出了一种内容投放系统中的特征词处理方法、装置及存储介质，可应用于图1所示的系统构架中。如图1所示，该系统构架包括：应用(APP)客户端101、推送信息提供方客户端103、标注客户端102、应用服务器104、投放数据库105、词库106及标注词库107。其中，应用(APP)客户端101、推送信息提供方客户端103、标注客户端102与应用服务器104之间通过互联网连接。

终端用户可以使用应用客户端101访问应用服务器104，比如：浏览新闻或者文章等。当用户使用应用客户端101访问应用服务器104时，应用服务器确定用户可能感兴趣的媒体内容，并将确定的媒体内容的链接发送给应用客户端101，以在应用客户端101上展示。应用服务器104确定用户可能感兴趣的媒体内容时，根据用户的兴趣标签及媒体内容的关键词确定用户的兴趣标签与媒体内容的关键词之间的相似度，进而根据该相似度确定用户可能感兴趣的媒体内容。因而，应用服务器104需要准确确定媒体内容的关键词，应用服务器104在确定一个媒体内容的关键词时，获取该媒体内容的文本内容，利用词库105中的特征词对所述文本内容进行分词，获取多个候选关键词，之后，根据一些筛选规则，例如，利用IF-IDF特征筛选所述多个候选关键词得到该媒体内容的至少一个关键词。随着信息时代互联网的飞速发展，造就了大量的特别属性的词，例如新词，因而需要不断挖掘预定属性的词添加到词库中，例如，不断挖掘新词添加到词库中，以使得根据该词库对媒体内容的文本内容进行分词，分得的词更加准确，进而确定的关键词也更准确。应用服务器104在挖掘预定属性的特征词时，从投放数据库105中获取投放过的媒体内容，根据该媒体内容确定多个特征词，进而根据一些筛选规则确定多个候选预定属性特征词，例如潜在新词，保存在标注词库107中，标注客户端102可以为浏览器客户端，维护人员通过标注客户端102登录标注网页以访问应用服务器104时，应用服务器104将标注词库107中待标注的关键词发送给标注客户端102。所述标注网页上显示待标注的候选预定属性特征词，例如，潜在新词，用户在标注网页上对所述候选预定属性特征词进行标注，标注其是预定属性特征词或不是预定属性特征词，标注客户端将标注结果返回给应用服务器104，应用服务器104将标注后的特征词保存在标注词库中。后续，应用服务器104根据标注词库中标注后的特征词进行训练得到模型，该模型用以筛选预定属性特征词，例如，提取新词。应用服务器在筛选预定属性特征词时，例如，提取新词时，例如，每天进行一次新词筛选，在投放数据库105中获取前一天投放过的媒体内容数据，根据该媒体内容数据及上述训练得到的模型筛选候选新词，将候选新词保存在标注词库107中，维护人员定期在所述标注客户端102上登陆所述标注网页，对候选新词进行标注，标注客户端102将标注的结果返回给应用服务器104，应用服务器104将标注后的特征词保存在标注词库107中，同时将标注得到的新词保存在词库105中。应用服务器同时定期从标注词库107中提取标注后的特征词作为样本特征词更新模型。通过推送信息提供方客户端103，推送信息提供方可以将其要推送的媒体内容的素材上传到应用服务器104，以生成相应的用于投放的媒体内容。

预定属性特征词的提取是推荐系统的基础工作，预定属性特征词构成了推荐系统的词库中的一部分关键词，例如，所述预定属性特征词为新词，其中，新词为词库中没有的，且出现中互联网上的媒体内容中的词。在一些实例中，挖掘预定属性特征词的具体做法是每天统计前一天抓取的媒体内容数据，根据抓取的媒体内容数据确定多个特征词，然后统计该多个特征词中各特征词的频率，凝固度，自由度等特征，然后人工设置阈值进行预定属性特征词的判断，例如，对于新词来说，判断的顺序是频率，凝固读，自由度。在该实例中，在提取特征以后人工设置阈值进行判断，首先阈值设置不好把握；其次判断的顺序是频率，凝固度，自由度，这样判断没有考虑一些出现频率不是特别高的词，但是最近时间相对前期变化率比较大的词，使得筛选的新词准确性不高。

为解决以上技术问题，本申请提出了一种内容投放系统中的特征词处理方法，应用于应用服务器104，如图2所示，该方法包括以下步骤：

201：获取已投放的媒体内容数据，确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据。

在挖掘预定属性的特征词时，从已投放的媒体数据中进行挖掘，获取已投放的媒体内容数据，根据该媒体内容数据获取文本数据，根据该文本数据获取多个待识别的特征词，同时根据一个特征词在所述文本数据中的表现，例如该特征词在所述文本中出现的频率、概率、凝固度、自由度等多个特征参数，确定该特征词的特征数据。例如，当本申请提供的内容投放系统中的特征词处理方法应用在新闻推荐系统中的新词提取中时，该方法定期运行，例如，每天凌晨从投放数据库105中抓取前一天投放过的全量的新闻数据，根据该新闻数据确定多个待识别的特征词，同时确定每一个特征词对应的特征数据。由于投放过的全量的新闻数据的数据量较大，确定每一个特征词对应的特征数据的计算量也很大，应用服务器104可以利用利用分布式处理平台(例如spark平台)，统计计算得到各个特征词对应的特征数据，例如统计、计算各特征词对应的频率，自由度，左右邻字数量，凝固度，变化率等特征参数，确定各特征词对应的特征数据。

202：针对任一特征词，将该特征词的特征数据输入预先训练的概率估计模型，接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率，所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到，其中，所述属性信息用以指示对应样本特征词是否为预定属性特征词。

针对步骤201中确定的多个待识别的特征词中的任一个特征词，将该特征词的特征数据输入预先训练得到的概率估计模型，接收该概率估计模型输出的所述特征词作为所述预定属性特征词的概率，例如，当所述预定属性为新词时，确定该特征词作为新词的概率。

针对训练概率估计模型，首先获取训练样本数据，所述训练样本数据包括多个样本特征词中各样本特征词的特征数据及属性信息，所述属性信息用以指示对应样本特征词是否为预定属性特征词。

该训练样本数据用以训练得到概率估计模型，训练样本数据可以从标注词库107中选择已标注的特征词作为样本特征词，其中，已标注的特征词为具有属性信息的特征词，该属性信息用以指示对应样本特征词是否为预定属性特征词，所述预定属性特征词，例如，可以为新词，该属性信息用以表征一个特征词是否为新词，例如，当属性信息为1时，表征一个特征词为新词，当属性信息为0时，表征一个特征词不是新词。同时从标注词库107中获取各样本特征词的特征数据，该特征数据包括多个维度，每一维度对应一特征参数，例如，一个样本特征词的特征数据包括频率、凝固度、自由度、左右邻字数量、变化率等多个维度，也可以包括上述维度的自由组合。例如，一个样本特征词的特征数据为以下格式：{频率、凝固度、自由度、左右邻字数量、变化率}。

其次，根据所述多个样本特征词中各样本特征词的特征数据及属性信息，训练得到概率估计模型，该概率估计模型用以根据一个特征词的特征数据确定该特征词作为所述预定属性特征词的概率。

还如上例所示，当一个样本特征词的特征数据为：{频率、凝固度、自由度、左右邻字数量、变化率}，添加上该样本特征词的属性信息，得到一个样本，如：{{频率、凝固度、自由度、左右邻字数量、变化率}，Y_ID}，其中Y_ID为该特征词的属性信息，例如当所述属性信息表征样本特征词是否为新词时，当Y_ID为1时，表征该样本特征词为新词，当Y_ID为0时，表征该样本特征词不是新词。将每一个样本特征词对应的所述样本输入学习模型进行训练得到概率估计模型，即根据已知的一些特征数据，以及每一个特征数据对应的属性信息的结果，来拟合特征数据与对应的属性信息之间的关系，即训练得到概率估计模型。训练得到的概率估计模型，根据一个词的特征数据可以确定该词对应一属性信息结果的概率，当所述属性信息表征样本特征词是否为新词时，所述概率估计模型，根据一个词的特征数据可以确定该特征词作为新词的概率。所述学习模型可以为逻辑回归模型；也可以是SVM(SupportVector Machine，支持向量机)学习模型，SVM模型是一个有监督的学习模型，用以模式识别、分类等；此外，还可以采用GBDT(Gradient Boosting Decision Tree，迭代决策树)学习模型。

203：根据接收到的各特征词作为所述预定属性特征词的概率，从所述多个待识别特征词中确定出预定属性特征词。

针对所述多个待识别的特征词，根据每一个特征词对应的概率确定预定属性特征词，例如，设定一个概率阈值，当特征词对应的作为预定属性特征词的概率超过该阈值时，将该特征词作为所述预定属性特征词。为了保证获取的所述预定属性特征词的准确性，还可以将根据概率估计模型筛选后的特征词进一步进行人工标注，将标注后确定的预定属性特征词保存中词库105中，以使得在确定媒体内容的关键词时，对媒体内容的文本内容进行分词时使用。

采用本申请提供的内容投放系统中的特征词处理方法，通过训练样本数据训练出用以筛选预定属性特征词的概率估计模型，根据一个特征词的特征数据确定该特征词作为预定属性特征词的概率，减少了人工干预，提高了提取的预定属性特征词的准确度。

在一些实例中，其中，所述特征数据包括多个维度，所述概率估计模型，由所述各样本特征词的特征数据及属性信息，确定所述概率估计模型的模型参数，该模型参数包括所述多个维度中各维度对应的权重；其中，所述概率估计模型，根据输入的该特征词的特征数据中各维度以及各维度对应的权重，确定该特征词作为所述预定属性特征词的概率。

其中，所述概率估计模型，根据输入的该特征词的特征数据中各维度以及各维度对应的权重，确定该特征词作为所述预定属性特征词的概率。

样本特征词的特征数据包括多个维度，例如，该特征数据的多个维度包括：频率、凝固度、自由度、左右邻字数量、变化率等，相对应的，使用概率估计模型进行预定属性特征词筛选时，待识别特征词的特征数据中也要包括上述维度。当所述预定属性特征词为新词时，所述特征数据的维度包括频率、凝固度、自由度、左右邻字数量、变化率时，一个样本特征词的特征数据为：{频率、凝固度、自由度、左右邻字数量、变化率}，添加上该样本特征词的属性信息，得到一个样本，如：{{频率、凝固度、自由度、左右邻字数量、变化率}，Y_ID}，其中Y_ID为该特征词的属性信息，例如当所述属性信息表征样本特征词是否为新词时，当Y_ID为1时，表征该样本特征词为新词，当Y_ID为0时，表征该样本特征词不是新词。将每一个样本特征词对应的所述样本输入学习模型进行训练得到概率估计模型的模型参数，该模型参数包括所述多个维度中各维度对应的权重。

对于具体的训练过程，以逻辑回归学习模型为例进行说明，当样本特征词的个数为N，所述预定属性的特征词为新词，属性信息Y_ID为1时，表征一个特征词为新词，Y_ID为0时，表征一个特征词不是新词，所述概率估计模型确定一个特征词作为新词的概率为p，其中p与特征数据中各维度对应的参数值及各维度对应的权重相关。可以利用以下公式(1)表达的最大似然函数计算产生所述N个样本特征词对应的属性信息结果的概率。

公式(1)中，N为样本特征词的个数，y_ID为第i个样本特征词的属性信息。

在上述公式(1)中表示的最大似然函数中，其中y_ID、p中包含的一个样本特征词对应的特征数据中各维度对应的参数值以及样本特征词的个数N都是已知的，因而公式(1)中的最大似然函数与每一维度对应的权重相关。产生所述N各样本特征词对应的属性信息结果的概率的对数由以下公式(2)表达：

基于最大似然法，使得所述概率取极大值的情况下确定特征数据中每一个维度对应的权重。在一组已经知道结果的抽样样本的情况下，使得产生该抽样结果的概率取极大值的情况下求得的模型参数是最准确的。具体地，使得公式(2)取极大值的情况下，确认特征数据中各维度对应的权重。具体地，可以采用迭代法、梯度下降法、梯度上升法等方法计算得到各维度对应的权重参数。根据训练得到的各维度对应的权重，概率估计模型在确定一个待识别的特征词作为新词的概率时，根据该特征词的特征数据的各维度对应的参数值以及各维度对应的权重，确定该特征词作为新词的概率。

在一些实例中，其中，所述概率估计模型根据以下公式(3)确定所述特征词作为所述预定属性特征词的概率：

其中，n为所述特征词的特征数据的维度的个数，x_i为特征数据的第i维度对应的参数值，w_i为第i维度对应的权重。

该实例中，特征数据包括多个维度，如频率，凝固度，自由度，左右邻字数量、变化率等，例如包含多个维度的特征数据进行有监督的学习训练得到模型，同时确定一个特征词作为预定属性特征词的概率时，将特征词的多维度特征数据输入概率估计模型，确定特征词作为预定属性特征词的概率，使得确定的特征词作为预定属性特征词的概率更准确，进而使得挖掘出的预定属性特征词也更准确。

在一些实例中，在上述步骤203中，在执行所述确定所述媒体内容数据中的多个待识别特征词时，包括以下步骤：

S401：将将所述媒体内容数据中媒体内容的文本内容进行分词，获取一个或多个候选特征词。

将媒体内容数据中媒体内容的文本内容进行分词处理，分词时可以使用现有的分词工具进行分词，得到一个或多个候选特征词。

S402：将所述一个或多个候选特征词中没有出现在词库106中的候选特征词作为所述待识别特征词，待识别特征词的长度不大于7个字符的长度，添加到待识别特征词集合中，所述词库106中包括一个或多个所述预定属性特征词。

对于步骤S402中获取的一个或多个候选特征词，将其中没有出现在词库106中的特征词作为潜在的所述预定属性特征词，即待识别特征词，例如，当预定属性特征词为新词时，将一个或多个候选特征词中没有出现在词库106中的特征词作为潜在新词，即待识别特征词，之后将待识别特征词使用概率估计模型进行识别。其中，所述词库106为分词词库，即对一个媒体内容的文本进行分词，进而获取该媒体内容的关键词时，对媒体内容的文本进行分词时需要用到分词词库。使用本方法提供的内容投放系统中的特征词处理方法获取的预定属性特征词，例如，新词，最后要添加到词库中，因而词库中包括一个或多个所述预定属性特征词。

S501：根据所述媒体内容确定一个或多个字符串。

该步骤与步骤S401相同，在此不再赘述。

S502：对于所述一个或多个字符串中的任一字符串，计算该字符串中任两个字符之间的关联度，根据所述任两个字符之间的关联度，将该字符串划分为一个或多个待识别特征词，添加到待识别特征词集合中，待识别特征词的长度不大于7个字符的长度。

在该实例中，通过一些算法对字符串进行分词得到待识别特征词，所述算法可以为，根据一个字符串中的字符出现的概率确定字符串对应的矩阵向量，根据该矩阵向量确定每一个字符对应特征向量，根据两个字符对应的特征向量之间的相似度确定两个字符之间的关联度，进而根据两个字符的关联度确定该两个字符是否划分到一个特征词中。此外，还可以采用互信息法及最大似然法确定字符串中两个字符之间的关联度，进而根据两个字符的关联度确定该两个字符是否划分到一个特征词中。同时也可以同时采用上述两种方法，分别得到一些待识别特征词，然后将得到的待识别特征词取交集，得到最终的待识别特征词，采用两种算法取交集的方式可以提高待识别特征词的准确性，例如，提高获取潜在新词的准确性。

在一些实例中，其中，所述特征数据包括多个维度，在上述步骤203中，在执行所述确定所述媒体内容数据中各特征词对应的特征数据时，包括步骤：

S601：针对任一特征词，根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值。

特征数据的维度可以包括：频率，凝固度，自由度，左右邻字数量、变化率中的任意组成，根据所述待识别特征词集合，确定一个特征词不同维度对应的参数值。例如，当维度中包括频率时，根据特征词在所述待识别特征词集合出现的频率，作为特征词的特征数据中对应维度对应的参数值。

在一些实例中，在上述步骤S601中，在执行所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值包括：

S701：当所述多个维度包括频率时，确定该特征词在所述待识别特征词集合中出现的频率，将其作为所述频率维度对应的参数值。

当特征数据的维度包括频率时，确定该特征词在待识别特征词集合中出现的次数，将其作为频率维度对应的参数值。

在一些实例中，在上述S601中，在执行所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值时，包括：

S801：当所述多个维度包括凝固度时，确定该特征词的一个或多个子词，确定该特征词及该特征词中各子词在所述待识别特征词集合中出现的频率；根据该特征词对应的频率及各子词对应的频率确定该特征词在所述待识别特征词集合中出现的概率及各子词在所述待识别特征词集合中出现的概率，根据该特征词对应的概率及各子词对应的概率确定该特征词的凝固度，并将其作为所述凝固度维度对应的参数值。

确定一个特征的子词时，该特征词的子词指该特征词可以被拆分的不同的词，例如，对于特征词“电影院”，该特征词可以被拆分成：电、影院、电影、院几个词，因而，特征词“电影院”对应的子词包括：电、影院、电影、院。确定特征词在待识别特征词集合中出现的频率，同时确定该特征词的各字词在待识别特征词集合中出现的频率。将特征词的频率除以待识别特征词集合中特征词的数量总和得到该特征词对应的概率，同样的可以确定特征词的各字词对应的概率。根据特征词对应的概率及特征词的各子词对应的概率，确定该特征词的凝固度。

在一些实例中，采用以下公式(4)确定该特征词的凝固度：

其中，p(w)为该特征词对应的概率，p(w_i)为该特征词的第i个子词对应的概率，n为该特征词的子词的个数，凝固度表征特征词的子词多大程度上适合组合在一起。

在一些实例中，在上述步骤S601中，在执行所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值时，包括步骤：

S901：当所述维度包括自由度时，确定该特征词的一个或多个邻字，确定所述一个或多个邻字中各邻字在所述待识别特征词集合中出现的频率，根据所述各邻字对应的频率确定所述各邻字在所有邻字中出现的概率，根据所述各邻字对应的概率确定该特征词的自由度，并将其作为所述自由度维度对应的参数值。

自由度，表征一个特征词在文本中其前后文的可灵活运用程度。例如对于特征词“被子”，如果在待识别特征词集合中统计到盖被子、掀被子，那就是有、盖、掀两个邻字。确定特征词的各邻字在所述待识别特征词集合中出现的频率，将各邻字对应的频率除以所有邻字频率的总数，得到各邻字在在所有邻字中出现的概率，进而根据各邻字对应的概率确定该特征词的自由度。

在一些实例中，所述一个或多个邻字包括一个或多个左邻字和/或一个或多个右邻字，在上述步骤S901中，在执行所述根据所述各邻字对应的概率确定该特征词的自由度时，包括以下步骤：

S1001：根据所述一个或多个左邻字中各邻字对应的概率确定该特征词的第一自由度。

特征词的邻字可以包括左邻字和右邻字，在该情况下，根据各左邻字对应的概率确定第一自由度。

S1002：根据所述一个或多个右邻字中各邻字对应的概率确定该特征词的第二自由度。

与步骤S1001相对应，根据特征词的各右邻字对应的概率确定该特征词的第二自由度。

S1003：根据所述第一自由度及所述第二自由度确定该特征词的自由度。

将第一自由度及第二自由度中较小者作为该特征词的自由度。还有一些情况，特征词只有左邻字或右邻字，或者该特征词既没有对应的左邻字也没有对应的右邻字，此时，该特征词对应的自由度为0。

在一些实例中，采用以下公式(5)确定该特征词的第一自由度及第二自由度：

其中，当计算第一自由度时，n为左邻字的个数，p_i为第i个左邻字对应的概率；当计算第二自由度时，n为右邻字的个数，p_i为第i个右邻字对应的概率。

S1101：当所述维度包括左右邻字数量时，确定该特征词的左右邻字数量，并将其作为所述左右邻字数量维度对应的参数值。

左右邻字数量为可以统计到的特征词的左右邻字种类的加和，例如对于特征词“被子”，如果在待识别特征词集合中统计到盖被子、掀被子，那就是有、盖、掀两种邻字，对应的左右邻字数量为2。当一个特征词没有统计到对应的邻字时，对应的左右邻字数量为0。

S1201：当所述维度包括变化率时，确定该特征词在所述待识别特征词集合中出现的频率，确定该频率相对于基线的变化率，将其作为所述变化率维度对应的参数值，其中，所述基线表征该特征词的历史频率平均值。

本申请提供的内容投放系统中的特征词处理方法定期运行，例如，应用在新词挖掘时，可以每天运行一次新词提取，每次运行时都会统计特征词在待识别特征词集合中出现的频率，根据多次新词提取中统计到的一个特征词的多个频率，确定该特征词的历史频率平均值，即所述基线，将当前统计得到的特征词对应的频率除以所述基线，得到该特征词的变化率。变化率表征一个特征词在当前时间相对前期的频率变化。

在一些实例中，在获取训练样本数据时，包括步骤：

S1301：获取样本媒体内容，根据该样本媒体内容确定候选样本特征词集合。

该样本媒体内容为投放过的媒体内容，根据投放过的媒体内容确定候选样本特征词的过程，与上述步骤S401-S403或S501-S502中的根据投放过的媒体内容确定待识别特征词的方式相同，在此不再赘述。

S1302：确定所述候选样本特征词集合中各候选样本特征的特征数据；

在该步骤中，确定候选样本特征词的特征数据的方式与上述确定待识别的特征词的特征数据的方式相同，在此不再赘述。

S1303：将特征数据满足预定条件的候选样本特征词作为样本特征词；

特征数据包括多个维度，为每一维度设置阈值，当一个候选样本特征词的特征数据中各维度都满足对应的阈值条件时，则将该候选样本特征词作为样本特征词，对应的候选样本特征词的特征数据作为对应样本特征词的特征数据。

S1304：将样本特征词发送到标注客户端，接收所述标注客户端发送的样本特征词的属性信息，将样本特征词对应的特征数据及对应的属性信息作为所述训练样本数据。

当维护人员通过标注客户端102登录标注网页，访问应用服务器104时，应用服务器104将待标注的所述样本特征词发送给标注客户端102，标注客户端102接收到维护人员对各样本特征词的标注后，将标注结果返回给应用服务器104，从而应用服务器获取各样本特征词的属性信息。

在一些实例中，在上述步骤203中，在执行所述根据接收到的各特征词作为所述预定属性特征词的概率，从所述多个待识别特征词中确定出预定属性特征词时，包括步骤：

S1401：根据所述多个特征词中各特征词作为所述预定属性特征词的概率确定多个候选预定属性特征词。

可以设置概率阈值，概率大于该阈值的特征词作为候选预定属性特征词。为了提高提取的预定属性特征词的准确度，将通过概率估计模型筛选后的预定属性特征词进行人工标注。

S1402：将所述多个候选预定属性特征词发送到标注客户端，接收标注客户端发送的各候选预定属性特征词的属性信息，以确定多个预定属性特征词。

当维护人员通过标注客户端102登录标注网页，访问应用服务器104时，应用服务器104将待标注的候选预定属性特征词发送给标注客户端102，标注客户端102接收到维护人员对各候选预定属性特征词的标注后，将标注结果返回给应用服务器104，从而应用服务器104获取各候选预定属性特征词的属性信息。应用服务器将标注后的各特征词保存在标注词库107中，同时将标注为预定属性特征词的特征词保存在词库106中，以在确定媒体内容的关键词时，对媒体内容的文本内容进行分词时使用。

在一些实例中，本申请提供的内容投放系统中的特征词处理方法，进一步包括以下步骤：

S1501：将所述多个候选预定属性特征词中各候选预定属性特征词的特征数据及对应的属性信息，添加到所述训练样本数据，以更新所述概率估计模型。

接收到标注客户端发送的各候选预定属性特征词的属性信息后，应用服务器104将标注后的特征词及各特征词的属性信息保存在标注词库107中，应用服务器定期从标注词库107中选取标注后的特征词，将选取的特征词的属性信息及特征数据作为训练样本数据，以更新概率估计模型。

当本申请提供的内容投放系统中的特征词处理方法应用在新词提取时，如图3所示，主要包括以下步骤：

301：抓取投放过的媒体内容，例如，新词提取每天提取一次，每天提取前一天投放过的新闻数据。

302：根据抓取的投放过的媒体内容确定待识别的特征词。

303：对于各待识别的特征词，统计待识别特征词的频率、凝固度、自由度、左右邻字数据、变化率等特征，得到各待识别特征词的特征数据。统计特征可以由应用服务器104来完成，应用服务器104也可以使用分布式统计平台来统计。

304：将各待识别特征词的特征数据输入概率估计模型，得到各待识别特征词作为新词的概率。根据该概率值从待识别特征词中提取候选新词。

305：候选新词发送到标注客户端接收标注人员的标注，接收标注客户端发送的标注结果，该标注结果即标注一个候选新词是否作为新词。

306：将标注后的新词保存在词库106中，以在确定媒体内容的关键词时，对媒体内容的文本内容进行分词时使用。

307：将标注后的特征词保存在标注词库中，标注词库中的待标注的特征词可以用以更新概率估计模型，即在标注词库中选取待标注的特征词，进而执行步骤304，以更新概率估计模型。

本申请提供的内容投放系统中的特征词处理方法可以应用在新词提取中，将提取的新词添加到词库106中，从而根据该词库确定一个媒体内容，例如新闻的关键词时，确定的新闻的关键词更准确。如图4A所示，在客户端展示的新闻内容的下方展示有新闻的关键词4001。

本申请还提供了一种内容投放系统中的特征词处理装置400，应用于应用服务器104，如图4B所示，包括：

待识别特征词获取单元401，用以获取已投放的媒体内容数据，确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据；

识别单元402，用以针对任一特征词，将该特征词的特征数据输入预先训练的概率估计模型，接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率，所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到，其中，所述属性信息用以指示对应样本特征词是否为预定属性特征词；及

采用本申请提供的内容投放系统中的特征词处理装置，通过训练样本数据训练出用以筛选预定属性特征词的概率估计模型，根据一个特征词的特征数据确定该特征词作为预定属性特征词的概率，减少了人工干预，提高了提取的预定属性特征词的准确度。

本申请还提供了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上述所述的方法。

图5示出了内容投放系统中的特征词处理装置的组成结构图。如图5所示，该计算设备包括一个或者多个处理器(CPU)502、通信模块504、存储器506、用户接口510，以及用于互联这些组件的通信总线508。

处理器502可通过通信模块504接收和发送数据以实现网络通信和/或本地通信。

用户接口510包括一个或多个输出设备512，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口510也包括一个或多个输入设备514，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器506可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器506存储处理器502可执行的指令集，包括：

操作系统516，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用518，包括内容投放系统中的特征词处理的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括内容投放系统中的特征词处理装置400的部分或全部单元或者模块。内容投放系统中的特征词处理装置400中的各单元中的至少一个单元可以存储有机器可执行指令。处理器502通过执行存储器506中各单元中至少一个单元中的机器可执行指令，进而能够实现上述各单元或模块中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图5模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种内容投放系统中的特征词处理方法，其特征在于，包括：

获取已投放的媒体内容数据；

将所述媒体内容数据中媒体内容的文本内容进行分词，获取一个或多个候选特征词；

将所述一个或多个候选特征词中没有出现在词库中的候选特征词作为待识别特征词，添加到待识别特征词集合中，所述词库中包括一个或多个预定属性特征词，所述预定属性特征词表示特征词为新词；

确定所述媒体内容数据中的多个待识别特征词对应的特征数据，所述特征数据包括频率，自由度，左右邻字数量，凝固度和变化率中至少一个，其中，任一个待识别特征词对应的频率为该待识别特征词在所述待识别特征词集合中出现的频率；

针对所述多个待识别特征词中任一特征词，将该特征词的特征数据输入预先训练的概率估计模型，接收所述概率估计模型输出的该特征词作为预定属性特征词的概率，所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到，其中，所述属性信息用以指示对应样本特征词是否为预定属性特征词；及

根据接收到的各特征词作为所述预定属性特征词的概率，从所述多个待识别特征词中的概率大于阈值的特征词中确定出预定属性特征词；

其中，所述特征数据包括多个维度；所述概率估计模型，

由所述各样本特征词的特征数据及属性信息，确定所述概率估计模型的模型参数，该模型参数包括所述多个维度中各维度对应的权重；

2.根据权利要求1所述的方法，其中，所述将所述媒体内容数据中媒体内容的文本内容进行分词，获取一个或多个候选特征词包括：

根据所述媒体内容确定一个或多个字符串；

对于所述一个或多个字符串中的任一字符串，计算该字符串中任两个字符之间的关联度，根据所述任两个字符之间的关联度，将该字符串划分为一个或多个候选特征词。

3.根据权利要求1或2所述的方法，其中，所述特征数据包括多个维度，其中，所述确定所述媒体内容数据中的多个待识别特征词对应的特征数据包括：

针对所述多个待识别特征词中任一特征词，根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值。

4.根据权利要求3所述的方法，其中，所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值包括：

当所述多个维度包括凝固度时，确定该特征词的一个或多个子词，确定该特征词及该特征词的各子词在所述待识别特征词集合中出现的频率；根据该特征词对应的频率及各子词对应的频率确定该特征词在所述待识别特征词集合中出现的概率及各子词在所述待识别特征词集合中出现的概率，根据该特征词对应的概率及各子词对应的概率确定该特征词的凝固度，并将其作为所述凝固度维度对应的参数值。

5.根据权利要求4所述的方法，其中，采用以下公式(1)确定该特征词的凝固度：

其中，p(w)为该特征词对应的概率，p(w_i)为该特征词的第i个子词对应的概率，n为该特征词的子词的个数。

6.根据权利要求3所述的方法，其中，所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值包括：

当所述维度包括自由度时，确定该特征词的一个或多个邻字，确定所述一个或多个邻字中各邻字在所述待识别特征词集合中出现的频率，根据所述各邻字对应的频率确定所述各邻字在所有邻字中出现的概率，根据所述各邻字对应的概率确定该特征词的自由度，并将其作为所述自由度维度对应的参数值。

7.根据权利要求6所述的方法，其中，所述一个或多个邻字包括一个或多个左邻字和/或一个或多个右邻字，其中，所述根据所述各邻字对应的概率确定该特征词的自由度包括：

根据所述一个或多个左邻字中各邻字对应的概率确定该特征词的第一自由度；

根据所述一个或多个右邻字中各邻字对应的概率确定该特征词的第二自由度；

根据所述第一自由度及所述第二自由度确定该特征词的自由度。

8.根据权利要求7所述的方法，其中，

其中，采用以下公式(2)确定该特征词的第一自由度及第二自由度：

9.根据权利要求3所述的方法，其中，所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值包括：

当所述维度包括左右邻字数量时，确定该特征词的左右邻字数量，并将其作为所述左右邻字数量维度对应的参数值。

10.根据权利要求3所述的方法，其中，所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值包括：

当所述维度包括变化率时，确定该特征词在所述待识别特征词集合中出现的频率，确定该频率相对于基线的变化率，将其作为所述变化率维度对应的参数值，其中，所述基线表征该特征词的历史频率平均值。

11.一种内容投放系统中的特征词处理装置，其特征在于，包括：

待识别特征词获取单元，用以获取已投放的媒体内容数据，

将所述一个或多个候选特征词中没有出现在词库中的候选特征词作为待识别特征词，添加到待识别特征词集合中，所述词库中包括一个或多个预定属性特征词，所述预定属性特征词表示特征词为新词，

识别单元，用以针对所述多个待识别特征词中任一特征词，将该特征词的特征数据输入预先训练的概率估计模型，接收所述概率估计模型输出的该特征词作为预定属性特征词的概率，所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到，其中，所述属性信息用以指示对应样本特征词是否为预定属性特征词；及

其中，所述特征数据包括多个维度；所述概率估计模型，

12.一种计算机可读存储介质，其特征在于：存储有计算机可读指令，使至少一个处理器执行如权利要求1-10任一项所述的方法。