CN111460177B

CN111460177B - 影视类表情搜索方法、装置、存储介质、计算机设备

Info

Publication number: CN111460177B
Application number: CN202010231014.XA
Authority: CN
Inventors: 李成; 龙翔
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2023-12-15
Anticipated expiration: 2040-03-27
Also published as: CN111460177A

Abstract

本申请涉及一种影视类表情搜索方法、装置、存储介质、计算机设备，该方法包括：接收用户搜索请求；获取用户搜索请求对应的搜索文本；对搜索文本进行分词得到实体文本和/或非实体文本，实体文本包括影视名和人物名，非实体文本包括动词、形容词和表示情绪的词；获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情；获取目标表情的点击率、入库时间、搜索相关度；根据目标表情的点击率、入库时间、搜索相关度对目标表情进行排序后按照降序输出。通过本申请技术方案实现了根据实体标签和非实体标签、文案标签搜索表情并通过搜索相关度、点击率、时间等维度对搜索到的表情进行综合排序，使输出给用户的表情搜索结果更准确。

Description

影视类表情搜索方法、装置、存储介质、计算机设备

技术领域

本申请涉及互联网技术领域，尤其涉及一种影视类表情搜索方法、装置、存储介质、计算机设备。

背景技术

表情搜索服务是每个提供表情资源的公司的基本功能，而标签匹配是表情搜索服务的常用方法。目前业内实现搜索功能的方式有很多，例如，工程上通常使用tf-idf、bm25等来计算搜索相关度；模型上用词向量，句向量的方式来比较搜索词和标签的相似度。影视类表情是另一类表情，具有特殊性，比如影视剧的热度、种类，播放量等因素，都是影响表情搜索的重要因素。

由于影视类表情的特殊性，但是针对影视类表情的搜索任务，目前业内的解决方案不是太多。单纯按照现有技术对影视类表情进行搜索得到的搜索结果不理想。另外，影视类表情的标签种类大致分为实体标签和非实体标签，针对不同种类的标签，表情的搜索方式如果采用相同的搜索方式，其搜索结果也是不理想。

发明内容

为了解决上述技术问题，本申请实施例提供了一种影视类表情搜索方法、装置、存储介质、计算机设备。

第一方面，本申请实施例提供了一种影视类表情搜索方法，该方法包括：

接收用户搜索请求；

获取用户搜索请求对应的搜索文本；

对搜索文本进行分词得到实体文本和/或非实体文本；

实体文本包括影视名和人物名，非实体文本包括动词、形容词和表示情绪的词；

获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情；

其中，图片库中的表情设有标签。

可选地，该方法还包括：

获取目标表情的点击率、入库时间、搜索相关度；

根据目标表情的点击率、入库时间、搜索相关度对目标表情进行排序后按照降序输出。

可选地，其中，标签包括为对应表情的描述性文本的识别标签，和为对应表情的文案文本的文案标签；

获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情，包括：

获取图片库中每个表情的识别标签和文案标签，其中，识别标签包括实体标签和非实体标签；

对每个为非实体标签的识别标签进行分词得到每个非实体标签对应的多个第一分词，对每个文案标签进行分词得到每个文案标签对应的多个第二分词；

获取图片库中与实体文本匹配的实体标签和第二分词及与非实体文本匹配的第一分词和第二分词；

将匹配的第一分词、第二分词和实体标签所对应的表情作为目标表情；

其中，实体标签包括影视名和人物名，非实体标签为不包含影视名或人物名的文本。

可选地，第二分词为实体分词或非实体分词，获取图片库中与实体文本匹配的实体标签和第二分词及与非实体文本匹配的第一分词和第二分词，包括：

将实体文本与图片库中的实体标签、为实体分词的第二分词进行字符串匹配得到匹配的实体标签、第二分词；

获取非实体文本的同义词；

将非实体文本及其同义词与图片库中的第一分词、为非实体分词的第二分词进行字符串匹配得到匹配的第一分词、第二分词；

其中，实体分词包括影视名和人物名，非实体分词包括动词、形容词和表示情绪的词。

可选地，获取非实体文本的同义词，包括：

将图片库中为非实体标签且为独立词语的识别标签作为待索引标签，独立词语包括动词、形容词、表示情绪的词；

通过已训练的句向量编码器分别对待索引标签进行编码得到各自对应的句向量，建立向量标签索引表；

通过已训练的句向量编码器获取非实体文本的句向量；

获取非实体文本的句向量与向量标签索引表中每个句向量的向量距离得到多个向量距离；

从多个向量距离中获取预设数量的最小向量距离，每个最小向量距离小于等于预设向量距离；

将预设数量的最小向量距离对应的待索引标签作为非实体文本的同义词。

可选地，获取非实体文本的同义词，包括：

通过已训练的句向量编码器分别对第一分词和/或为非实体分词的第二分词进行编码得到各自对应的句向量，建立向量标签索引表；

通过已训练的句向量编码器获取非实体文本的句向量；

将预设数量的最小向量距离对应的第一分词和/或第二分词作为非实体文本的同义词。

可选地，在通过已训练的句向量编码器分别对待索引标签进行编码得到各自对应的句向量，建立向量标签索引表之前，或，通过已训练的句向量编码器分别对第一分词和/或为非实体分词的第二分词进行编码得到各自对应的句向量，建立向量标签索引表之前，方法还包括：

对历史用户搜索词、图片库中为实体标签的文案标签进行处理得到对应的多个第一训练样本；

通过通用句向量编码器分别获取每个第一训练样本的句向量；

获取每个第一训练样本的句向量与其他第一训练样本的句向量的向量距离；

从每个第一训练样本对应的向量距离中选取第一数量的距离最小的向量距离得到第一数量的第一向量距离，从其他向量距离中选取第二数量的其他向量距离得到第二数量的第二向量距离；

获取每个第一训练样本对应的第一数量的第一样本组和第二数量的第二样本组，每个第一样本组包括对应的第一训练样本和与对应的第一训练样本的向量距离为第一向量距离的其他第一训练样本，每个第二样本组包括对应的第一训练样本和与对应的第一训练样本的向量距离为第二向量距离的其他第一训练样本；

将所有第一训练样本对应的第一样本组和第二样本组作为第二训练样本训练预设句向量编码器，直至预设句向量编码器输出的第一样本组的向量距离与对应的第一向量距离之差小于等于第一阈值及第二样本组的向量距离与对应的第二向量距离之差小于等于第二阈值，得到已训练的句向量编码器。

可选地，目标表情包括已分发表情和新上线表情，获取目标表情的点击率，包括：

根据图片库中已分发表情的点展比和展示的位置获取对应已分发表情的点击率；

获取每个已分发表情的属性；

将已知点击率和属性的已分发表情作为第三训练样本训练逻辑回归模型；

获取目标表情中新上线表情的属性；

将新上线表情的属性输入到训练好的逻辑回归模型得到新上线表情的预测点击率，将预测点击率作为新上线表情对应的点击率；

其中，属性包括表情对应的影视剧、人物及对应的影视剧的类别、播放量、热度、播放时间、播放时长、峰值热度、浏览量。

第二方面，本申请实施例提供了一种影视类表情搜索装置，该装置包括：

接收模块，用于接收用户搜索请求；

文本获取模块，用于获取用户搜索请求对应的搜索文本；

分词模块，用于对搜索文本进行分词得到实体文本和/或非实体文本，实体文本包括影视名和人物名，非实体文本包括动词、形容词和表示情绪的词；

匹配模块，用于获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情，其中，图片库中的表情设有标签。

可选地，该装置还包括：

属性获取模块，用于获取目标表情的点击率、入库时间、搜索相关度；

输出模块，用于根据目标表情的点击率、入库时间、搜索相关度对目标表情进行排序后按照降序输出。

第三方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如前面所述的方法的步骤。

第四方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时执行如前面所述的方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

对用户搜索文本进行分词，将分词得到的实体文本通过字符串匹配找到匹配的标签所对应的表情，将非实体文本通过相似度比较模型找出其对应的同义词，然后找出与非实体文本和其同义词匹配的标签所对应的表情，实现了对影视类表情进行实体文本匹配和非实体文本匹配，按照表情的标签类型对表情采用不同的搜索方式进行搜索，得到更加准确的目标表情；并且通过点击率、时间等维度对目标表情进行排序，使最终呈现给用户的搜索结果是按照降序展现给用户的，使相关度越高热度越高的表情展示在越前面，搜索结果相关度高。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例提供的一种影视类表情搜索方法的流程示意图；

图2为另一个实施例提供的一种影视类表情搜索方法的流程示意图；

图3为一个实施例提供的一种影视类表情搜索装置的结构框图；

图4为一个实施例提供的一种计算机设备的结构示意图；

图5为一个实施例提供的影视类表情搜索方法的应用环境图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例提供的一种影视类表情搜索方法的流程示意图。参考图1，该方法包括以下步骤：

S100：接收用户搜索请求。

具体地，可以接收用户输入的表情搜索请求，该用户搜索请求中可以包含关于用户需要搜索的表情的描述性文本。例如：搜索请求为“开心”，则要搜索的表情代表的是一系列开心类型的表情。当然用户搜索请求也可以是语音形式的搜索请求。

S200：获取用户搜索请求对应的搜索文本。

具体地，当用户搜索请求为语音形式的搜索请求时，需要将语音形式的搜索请求转换为文本形式的搜索请求得到搜索文本。当用户搜索请求是通过键盘输入的或触摸屏写入的，则从用户搜索请求中可以直接获取到搜索文本。

S300：对搜索文本进行分词得到实体文本和/或非实体文本。

具体地，实体文本包括影视名和人物名，非实体文本包括动词、形容词和表示情绪的词，但不局限于此。例如：搜索文本为“小明大笑”，其中“小明”是某个影视剧里面的人物，“大笑”是动词，则该搜索文本进行分词会得到实体文本“小明”和非实体文本“大笑”。

例如，搜索文本为“小明”，其中“小明”是某个影视剧里面的人物，则该搜索文本进行分词会得到实体文本“小明”。

例如，搜索文本为“开心大笑”，其中“开心”是形容词，“大笑”是动词，则该搜索文本进行分词会得到两个非实体文本“开心”和“大笑”。

S400：获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情。

具体地，图片库中每个表情都有标签，该标签为对应表情的描述性文本和文案文本，当然每个表情都有描述性文本，但不一定都有文案文本，当用户搜索请求中的实体文本与某些表情的标签匹配，或非实体文本与某些表情的标签匹配，则匹配的标签对应的表情为搜索请求对应的目标表情。此处的匹配是根据预设规则进行的匹配，并不仅仅指字符串的匹配。

图2为另一个实施例提供的一种影视类表情搜索方法的流程示意图。参考图2，该方法还包括以下步骤：

S500：获取目标表情的点击率、入库时间、搜索相关度。

具体地，根据搜索文本获取到的目标表情一般会有多个，在返回给用户搜索结果的时候，需要将这些目标表情由综合排名的降序进行展示，即排名越靠前的表情越展示在搜索结果展示界面的前面，点击率是综合排名中最重要的参考因素，而点击率会受其所在的影视剧的热度、类型、播放量、播放时间等因素的影响。入库时间为一个表情生产出来后投入使用的时间。搜索相关度为用户搜索词与表情的标签的相似性评分，可以使用tf-idf，bm25等来计算搜索相关度。

S600：根据目标表情的点击率对目标表情进行排序后按照降序输出。

具体地，对目标表情进行排序后，会按照排名的先后输出，使用户接收到的搜索结果是点击率在前的表情展示在前面，点击率在后的表情展示在后面。

在一个实施例中，标签包括为对应表情的描述性文本的识别标签，和为对应表情的文案文本的文案标签。

文案标签为表情图片上可见的文本或文字，识别标签为表情的描述性文本，一般不可见。识别标签包括实体标签和非实体标签。一个表情的识别标签不是实体标签就是非实体标签，实体标签包括影视名和人物名，非实体标签为不包含影视名或人物名的文本。表情的识别标签可以为“开心”、“哈哈”、“大笑”、“哭泣”、“太帅了”等非实体标签，也可以为“孙悟空”、“西游记”等实体标签。

在一个实施例中，步骤S400具体包括以下步骤：

获取图片库中每个表情的识别标签和文案标签。

具体地，如果表情图片上有可见的文案文本，则该文案文本为该表情的文案标签，如果表情图片上没有文案文本，则该表情没有文案标签；但是每个表情一定有描述性文本即识别标签。

对每个为非实体标签的识别标签进行分词得到每个非实体标签对应的多个第一分词，对每个文案标签进行分词得到每个文案标签对应的多个第二分词。

具体地，因为实体标签为影视名或人物名，所以为实体标签的识别标签不需要分词。为非实体标签的识别标签和文案标签可能为独立词语也可能为短语，因此需要分词。例如：为非实体标签的识别标签可以为“太帅了”、“嗯嗯”、“加油”、“高兴”等等。文案标签可以为“帅呆了”、“欧耶”、“元芳，你怎么看”等等。

分词时需要将非实体标签或文案标签中的虚词、感叹词等非名词、非动词、非形容词、非表示情绪的词去掉，分出的词为名词或动词或形容词或表示情绪的词。其中表示情绪的词例如“哈哈”、“呵呵”、“嗯嗯”、“哦”、“嗯呢”、“呜呜”、“嘻嘻”、“啦啦啦”等等。

因为非实体标签中不包含影视名或人物名，因此第一分词均为非实体分词。而文案标签可能带有人物名，因此第二分词可能为非实体分词，也可能为实体分词。实体分词为影视名或人物名，非实体分词为非影视名非人物名的动词、名词、形容词、表示情绪的词等。

获取图片库中与实体文本匹配的实体标签和第二分词及与非实体文本匹配的第一分词和第二分词；将匹配的第一分词、第二分词和实体标签所对应的表情作为目标表情。

具体地，一个表情的识别标签和文案标签分词后，该表情对应着实体标签或第一分词及第二分词。用户搜索请求中的实体文本如果与某个表情的实体标签或为实体分词的第二分词能够匹配，则该表情为目标表情；用户搜索请求中的非实体文本如果与某个表情的第一分词或为非实体分词的第二分词匹配，则该表情也作为目标表情。

在一个实施例中，获取图片库中与实体文本匹配的实体标签和第二分词及与非实体文本匹配的第一分词和第二分词，具体包括以下步骤：

获取非实体文本的同义词；

具体地，用户搜索请求对应的非实体文本可能存在很多语义相同的同义词，因此除了字符匹配，语义匹配的词所对应的表情也应该属于目标表情。例如，非实体文本“开心”，其同义词“哈哈”、“嘻嘻”所对应的表情也是表示开心这个情绪的。当然，实体文本为影视名或人物名，也可以获取影视名或人物名的通用缩写或通用简称，通用缩写或通用简称对应的表情也是目标表情。

在一个实施例中，获取非实体文本的同义词，具体包括以下步骤：

通过已训练的句向量编码器获取非实体文本的句向量；

具体地，图片库中表情的非实体标签可能为短语也可能为独立词语，选取为独立词语的非实体标签能够直接与非实体文本通过计算向量距离来判断两者是否为同义词或非同义词。向量标签索引表中的句向量非常多，因此该非实体文本的句向量与这些句向量得到的向量距离也很多，选取预设数量的前几个最小向量距离，其对应的索引标签即为与该非实体文本语义最接近的几个同义词。当然最小向量距离不能超过一个预设向量距离，在小于等于预设向量距离范围内的最小向量距离只挑选预设数量的最小向量距离，小于等于预设向量距离范围内的最小向量距离如果不足预设数量就将该预设向量距离范围内的所有最小向量距离挑选出来。

通过已训练的句向量编码器获取非实体文本的句向量；

具体地，图片库中的表情对应的第一分词和为非实体分词的第二分词都为非影视名、非人物名的动词或形容词或表示情绪的词，均为独立的词语。这些第一分词和为非实体分词的第二分词能够直接与非实体文本通过计算向量距离来判断两者是否为同义词或非同义词。向量标签索引表中的句向量非常多，因此该非实体文本的句向量与这些句向量得到的向量距离也很多，选取预设数量的前几个最小向量距离，其对应的第一分词和/或第二分词即为与该非实体文本语义最接近的几个同义词。当然最小向量距离不能超过一个预设向量距离，在小于等于预设向量距离范围内的最小向量距离只挑选预设数量的最小向量距离，小于等于预设向量距离范围内的最小向量距离如果不足预设数量就将该预设向量距离范围内的所有最小向量距离挑选出来。

在一个实施例中，在通过已训练的句向量编码器分别对待索引标签进行编码得到各自对应的句向量，建立向量标签索引表之前，或，通过已训练的句向量编码器分别对第一分词和/或为非实体分词的第二分词进行编码得到各自对应的句向量，建立向量标签索引表之前，该方法还包括以下步骤：

具体地，第一训练样本来源于历史用户搜索词和图片库中的为实体标签的文案标签，他们均为独立的词语、涉及的词范围广泛且比较容易获得。

通过现有技术的通用句向量编码器可以对每个第一训练样本进行编码得到各自对应的句向量；每个第一训练样本与其他第一训练样本的向量距离可以计算得到，从每个第一训练样本对应的多个向量距离中获取第一数量的最小向量距离得到第一数量的第一向量距离，再从其余的向量距离中任意选取第二数量的向量距离得到第二数量的第二向量距离；其中第一数量的第一向量距离为每个第一训练样本对应的多个向量距离中前几个最小向量距离。

第一训练样本和与其向量距离为第一向量距离的每个其他第一训练样本组成一个第一样本组，可以得到第一数量的第一样本组；第一训练样本和与其向量距离为第二向量距离的每个其他第一训练样本组成了一个第二样本组可以得到第二数量的第二样本组。

得到的这些第一样本组和第二样本组可以作为第二训练样本用来训练一个预设句向量编码器，调整预设编码器的各种参数，可以使预设句向量编码器最终输出的每组第一样本组的向量距离与对应的通过通用句向量编码器得到的第一向量距离之差小于等于第一阈值，及，使预设句向量编码器最终输出的每组第二样本组的向量距离与对应的通过通用句向量编码器得到的第二向量距离之差小于等于第二阈值，得到已训练的句向量编码器。

预设向量编码器是没有训练过的初始句向量编码器，将预设句向量编码器训练为已训练的句向量编码器可以使其相对于通用句向量编码器来说数据更加纯净，减少干扰。

在一个实施例中，步骤S500具体包括以下步骤：

获取每个已分发表情的属性；

获取目标表情中新上线表情的属性；

具体地，目标表情包括已分发表情和新上线表情。其中，已分发表情为有被搜索历史的表情，即有被点击搜索过。新上线表情为无被搜索历史的表情。

点展比指被被点击的次数与展现次数的比例，展现次数指曝光次数，有曝光不一定会被点击，如果一个表情展示的位置很好，但是点展比很低，则说明该表情受欢迎程度不高；如果一个表情展示的位置不好，但是点展比很高，说明该表情热度高。

点击率一定程度表征了对应表情的热度，热度又与该表情的属性有很大关联，例如，该表情对应的影视剧、人物及对应的影视剧的类别、播放量、热度、播放时间、播放时长、峰值热度、浏览量等等因素。

新上线表情因为没有曝光和点击，所以其点击率只能通过训练好的逻辑回归模型预测。逻辑回归模型是用已分发表情作为训练样本来训练的，已分发表情的点击率和属性是已知的，因此可以用来预测新上线表情的点击率。

本申请可以使用基于lucene的搜索器进行搜索，该搜索器内存储有实体词典，可以采用hanlp分词器对用户搜索文本进行分词，还可以设置虚词数据库，将用户搜索文本中的虚词去掉，减少干扰，还可以设置否定词数据库，排除否定词的干扰。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图3为一个实施例提供的一种影视类表情搜索装置的结构框图。

参考图3，该装置包括：

接收模块100，用于接收用户搜索请求。

文本获取模块200，用于获取用户搜索请求对应的搜索文本。

分词模块300，用于对搜索文本进行分词得到实体文本和/或非实体文本，实体文本包括影视名和人物名，非实体文本包括动词、形容词和表示情绪的词。

匹配模块400，用于获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情。

在一个实施例中，该装置还包括：

属性获取模块，用于获取目标表情的点击率、入库时间、搜索相关度。

输出模块，用于根据目标表情的点击率对目标表情、入库时间、搜索相关度进行排序后按照降序输出。

在一个实施例中，标签包括为对应表情的描述性文本的识别标签，和为对应表情的文案文本的文案标签；匹配模块400包括：

标签获取模块，用于获取图片库中每个表情的识别标签和文案标签，其中，识别标签包括实体标签和非实体标签。

子分词模块，用于对每个为非实体标签的识别标签进行分词得到每个非实体标签对应的多个第一分词，对每个文案标签进行分词得到每个文案标签对应的多个第二分词。

第一子匹配模块，用于获取图片库中与实体文本匹配的实体标签和第二分词及与非实体文本匹配的第一分词和第二分词。

第二子匹配模块，用于将匹配的第一分词、第二分词和实体标签所对应的表情作为目标表情。

在一个实施例中，第二分词为实体分词或非实体分词，第一子匹配模块具体包括：

第一匹配单元，用于将实体文本与图片库中的实体标签、为实体分词的第二分词进行字符串匹配得到匹配的实体标签、第二分词；

语义分析单元，用于获取非实体文本的同义词；

第二匹配单元，用于将非实体文本及其同义词与图片库中的第一分词、为非实体分词的第二分词进行字符串匹配得到匹配的第一分词、第二分词；

在一个实施例中，语义分析单元具体用于：将图片库中为非实体标签且为独立词语的识别标签作为待索引标签，独立词语包括动词、形容词、表示情绪的词；通过已训练的句向量编码器分别对待索引标签进行编码得到各自对应的句向量，建立向量标签索引表；通过已训练的句向量编码器获取非实体文本的句向量；获取非实体文本的句向量与向量标签索引表中每个句向量的向量距离得到多个向量距离；从多个向量距离中获取预设数量的最小向量距离；将预设数量的最小向量距离对应的待索引标签作为非实体文本的同义词。

在一个实施例中，语义分析单元具体用于：通过已训练的句向量编码器分别对第一分词和/或为非实体分词的第二分词进行编码得到各自对应的句向量，建立向量标签索引表；通过已训练的句向量编码器获取非实体文本的句向量；获取非实体文本的句向量与向量标签索引表中每个句向量的向量距离得到多个向量距离；从多个向量距离中获取预设数量的最小向量距离；将预设数量的最小向量距离对应的第一分词和/或第二分词作为非实体文本的同义词。

在一个实施例中，语义分析单元具体还用于：对历史用户搜索词、图片库中为实体标签的文案标签进行处理得到对应的多个第一训练样本；

获取每个第一训练样本对应的第一数量的第一向量组和第二数量的第二向量组，每个第一向量组包括对应的第一训练样本和与对应的第一训练样本的向量距离为第一向量距离的其他第一训练样本，每个第二向量组包括对应的第一训练样本和与对应的第一训练样本的向量距离为第二向量距离的其他第一训练样本；

将所有第一训练样本对应的第一向量组和第二向量组作为第二训练样本训练预设句向量编码器，直至预设句向量编码器输出的第一向量组的向量距离与对应的第一向量距离之差小于等于第一阈值及第二向量组的向量距离与对应的第二向量距离之差小于等于第二阈值，得到已训练的句向量编码器。

在一个实施例中，目标表情包括已分发表情和新上线表情，属性获取模块具体包括：

第一计算模块，用于根据图片库中已分发表情的点展比和展示的位置获取对应已分发表情的点击率；

属性获取模块，用于获取每个已分发表情的属性；

训练模块，用于将已知点击率和属性的已分发表情作为第三训练样本训练逻辑回归模型；

属性获取模块，还用于获取目标表情中新上线表情的属性；

第二计算模块，用于将新上线表情的属性输入到训练好的逻辑回归模型得到新上线表情的预测点击率，将预测点击率作为新上线表情对应的点击率；

本申请用通用句向量编码器得到训练语料，用训练语料来训练预设的句向量编码器得到较纯净的已训练的句向量编码器，最后用已训练的句向量编码器找到非实体文本的同义词。这种句向量编码方式在表情词方面的效果很好，尤其在识别近义词和反义词的情况下，在同义词的查找方面，相比较于传统的词向量手段，效果有了较大提升。准确率更高。

开发了针对影视类表情的特殊搜索方式。把影视剧的固有属性，如：热度、播放量、类别等属性也考虑进来，并且根据用户的访问日志生成点击率模型。图片的排序策略更加的健壮，同时新上线的表情也会有比较合理的排序策略。特别是对新的影视剧生成出来的表情进行点击率预测，不至于新上线表情一直排在后面。

图4为一个实施例提供的一种计算机设备的结构示意图。参考图4，该计算机设备通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现影视类表情搜索方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行影视类表情搜索方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的影视类表情搜索装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该影视类表情搜索装置的各个程序模块，比如，图3所示的接收模块100、文本获取模块200、分词模块300、匹配模块400。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的影视类表情搜索方法中的步骤。

在一个实施例中，计算机设备的存储器中还可存储组成该影视类表情搜索装置的属性获取模块、输出模块。

例如，图4所示的计算机设备可以通过如图3所示的影视类表情搜索装置中的接收模块100执行接收用户搜索请求。计算机设备可以通过文本获取模块200执行获取用户搜索请求对应的搜索文本。计算机设备可以通过分词模块300执行对搜索文本进行分词得到实体文本和/或非实体文本。计算机设备可以匹配模块400执行获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情。

在一个实施例中，计算机设备可以通过属性获取模块执行获取目标表情的点击率、入库时间、搜索相关度。计算机设备可以通过输出模块执行根据目标表情的点击率、入库时间、搜索相关度对目标表情进行排序后按照降序输出。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：接收用户搜索请求；获取用户搜索请求对应的搜索文本；对搜索文本进行分词得到实体文本和/或非实体文本，实体文本包括影视名和人物名，非实体文本包括动词、形容词和表示情绪的词；获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取目标表情的点击率、入库时间、搜索相关度；根据目标表情的点击率、入库时间、搜索相关度对目标表情进行排序后按照降序输出。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收用户搜索请求；获取用户搜索请求对应的搜索文本；对搜索文本进行分词得到实体文本和/或非实体文本，实体文本包括影视名和人物名，非实体文本包括动词、形容词和表示情绪的词；获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情。

在一个实施例中，该计算机程序被处理器执行时还实现以下步骤：获取目标表情的点击率、入库时间、搜索相关度；根据目标表情的点击率、入库时间、搜索相关度对目标表情进行排序后按照降序输出。

图5为一个实施例提供的影视类表情搜索方法的应用环境图。参考图5，该影视类表情搜索方法应用于影视类表情搜索系统。该影视类表情搜索系统包括终端10和服务器20。终端10和服务器20通过网络连接。终端10接收用户搜索请求并发送至服务器20，服务器20接收用户搜索请求；获取用户搜索请求对应的搜索文本；对搜索文本进行分词得到实体文本和/或非实体文本，实体文本包括影视名和人物名，非实体文本包括动词、形容词和表示情绪的词；获取图片库中标签与实体文本和/或非实体文本匹配的表情作为目标表情；获取目标表情的点击率、入库时间、搜索相关度；根据目标表情的点击率、入库时间、搜索相关度对目标表情进行排序后按照降序输出至终端10。终端10具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器20可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种影视类表情搜索方法，其特征在于，所述方法包括：

接收用户搜索请求；

获取所述用户搜索请求对应的搜索文本；

对所述搜索文本进行分词得到实体文本和/或非实体文本；

获取图片库中标签与所述实体文本和/或非实体文本匹配的表情作为目标表情；其中，所述图片库中的表情设有标签；

其中，所述标签包括为对应表情的描述性文本的识别标签，和为对应表情的文案文本的文案标签；

所述获取图片库中标签与所述实体文本和/或非实体文本匹配的表情作为目标表情，包括：

获取图片库中每个表情的识别标签和文案标签，其中，所述识别标签包括实体标签和非实体标签；

获取图片库中与所述实体文本匹配的实体标签和第二分词及与所述非实体文本匹配的第一分词和第二分词；

将所述匹配的第一分词、第二分词和实体标签所对应的表情作为目标表情；

其中，所述实体标签包括影视名和人物名，所述非实体标签为不包含影视名或人物名的文本。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标表情的点击率、入库时间、搜索相关度；

根据所述目标表情的点击率、入库时间、搜索相关度对目标表情进行排序后按照降序输出。

3.根据权利要求1所述的方法，其特征在于，所述第二分词为实体分词或非实体分词，所述获取图片库中与所述实体文本匹配的实体标签和第二分词及与所述非实体文本匹配的第一分词和第二分词，包括：

将所述实体文本与图片库中的实体标签、为实体分词的第二分词进行字符串匹配得到匹配的实体标签、第二分词；

获取所述非实体文本的同义词；

将所述非实体文本及其同义词与图片库中的第一分词、为非实体分词的第二分词进行字符串匹配得到匹配的第一分词、第二分词；

其中，所述实体分词包括影视名和人物名，所述非实体分词包括动词、形容词和表示情绪的词。

4.根据权利要求3所述的方法，其特征在于，所述获取所述非实体文本的同义词，包括：

将图片库中为非实体标签且为独立词语的识别标签作为待索引标签，所述独立词语包括动词、形容词、表示情绪的词；

通过已训练的句向量编码器分别对所述待索引标签进行编码得到各自对应的句向量，建立向量标签索引表；

通过所述已训练的句向量编码器获取所述非实体文本的句向量；

获取所述非实体文本的句向量与所述向量标签索引表中每个句向量的向量距离得到多个向量距离；

从所述多个向量距离中获取预设数量的最小向量距离，每个所述最小向量距离小于等于预设向量距离；

将所述预设数量的最小向量距离对应的待索引标签作为所述非实体文本的同义词。

5.根据权利要求3所述的方法，其特征在于，所述获取所述非实体文本的同义词，包括：

将所述预设数量的最小向量距离对应的第一分词和/或第二分词作为所述非实体文本的同义词。

6.根据权利要求4或5所述的方法，其特征在于，在建立向量标签索引表之前，所述方法还包括：

通过通用句向量编码器分别获取每个所述第一训练样本的句向量；

获取每个所述第一训练样本的句向量与其他第一训练样本的句向量的向量距离；

获取每个第一训练样本对应的第一数量的第一样本组和第二数量的第二样本组，每个所述第一样本组包括对应的第一训练样本和与对应的第一训练样本的向量距离为第一向量距离的其他第一训练样本，每个所述第二样本组包括对应的第一训练样本和与对应的第一训练样本的向量距离为第二向量距离的其他第一训练样本；

7.根据权利要求6所述的方法，其特征在于，所述目标表情包括已分发表情和新上线表情，所述获取所述目标表情的点击率，包括：

获取每个所述已分发表情的属性；

将已知点击率和属性的所述已分发表情作为第三训练样本训练逻辑回归模型；

获取所述目标表情中新上线表情的属性；

将所述新上线表情的属性输入到训练好的逻辑回归模型得到新上线表情的预测点击率，将所述预测点击率作为新上线表情对应的点击率；

其中，所述属性包括表情对应的影视剧、人物及对应的影视剧的类别、播放量、热度、播放时间、播放时长、峰值热度、浏览量。

8.一种影视类表情搜索装置，其特征在于，所述装置包括：

接收模块，用于接收用户搜索请求；

文本获取模块，用于获取所述用户搜索请求对应的搜索文本；

分词模块，用于对所述搜索文本进行分词得到实体文本和/或非实体文本；

匹配模块，用于获取图片库中标签与所述实体文本和/或非实体文本匹配的表情作为目标表情，其中，所述图片库中的表情设有标签；

所述匹配模块，还用于获取图片库中每个表情的识别标签和文案标签，其中，所述识别标签包括实体标签和非实体标签；

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-7任一项所述的方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-7任一项所述的方法的步骤。