CN109446399A

CN109446399A - 一种影视实体搜索方法

Info

Publication number: CN109446399A
Application number: CN201811202082.2A
Authority: CN
Inventors: 吕学强; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-03-08

Abstract

本发明涉及一种影视实体搜索方法，首先对查询串进行分类，针对查询的不同类别提取查询关键字，然后计算关键字相似度，并进行扩展得到匹配词集合，最后进行加权匹配得到搜索结果。本发明提供的影视实体搜索方法，首先对查询串进行分类，针对查询的不同类别提取查询关键字，然后计算关键字相似度，并进行扩展得到匹配词集合，最后进行加权匹配得到搜索结果，得到的结果准确率高，减少了因查询串口语化和多元化导致的检索失败率，本方法对用户查询意图理解的准确度高，在语义理解和检索结果上具有很高的准确度，可以很好地满足实际应用的需要。

Description

一种影视实体搜索方法

技术领域

本发明属于实体搜索技术领域，具体涉及一种基于词向量的影视实体搜索方法。

背景技术

发展更好的智能搜索引擎是学术界和工业界的一个长期共同目标。一个智能的搜索引擎应该满足用户的精确或模糊的要求。对于用户给出的查询串，搜索引擎应该返回一个和其语义相关的内容，而不是从字面上进行简单的匹配得到查询结果。

在互联网和智能科学高速发展的今天，隐藏在个人数字助理和机器人背后的技术，要求对用户需求和意图进行语义分析，得到准确的理解，并自动从Web检索中获取答案。2015百度世界峰会期间，百度已经推出了新的虚拟助理“度秘”，它将被整合到其最新的移动搜索APP中。公司的首席执行官李彦宏指出，将有三个核心组件参与“度秘”：整合、索引和交付。这里的索引意味着所有的综合信息和服务的索引，为用户提供更多的智能服务。换而言之，这些需要更好的方法来对所有这些信息和服务进行建模分析。例如，人们可能会寻找“适合家庭一起看的电影”、“反应战争残酷的电视剧”等。为了满足用户的意图，搜索引擎需要了解每一步电影、电视剧，检查它们是否可以被标记为带有“适合家庭一起看”和“战争残酷主题”的标签，并且检索所有影视的索引得到返回结果。

传统的实体搜索方法是根据查询串对全部网页索引进行直接匹配或是组合匹配，查询方式比较局限，没有对用户的搜索意图进行分析，对于复杂的语义表示或者口语化的查询，其搜索结果往往不尽人意。现有技术中的模型建立及分析方法均基于一般场景进行实验，缺乏对特殊场景的特殊分析，由于语义在不同场景的特点和分析方法不一样，现有技术对用户查询意图理解的准确度不高。面对海量的影视实体，迫切需要一种准确的搜索方法。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的影视实体搜索方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种影视实体搜索方法，首先对查询串进行分类，针对查询的不同类别提取查询关键字，然后计算关键字相似度，并进行扩展得到匹配词集合，最后进行加权匹配得到搜索结果。

进一步地，查询串分为基本信息适配型、内容适配型、复杂难判断型三类，分别简称为info类、content类和complex类。

进一步地，对查询串进行分类的步骤包括：

提取info类时，反查属性词表，命中即属于info类，并返回类型和匹配词，当匹配到多个属性时，以各自匹配词的并集作为匹配词；

采用手工标注加机器辅助的方式对content类和complex类进行标注；

查询串Q的类型向量设为Type_Q(I，CT，CX)，每一维I、CT、CX都是布尔类型，属于则为1，否则为0；得到每个查询串的类型向量和查询串Q每个类型的匹配词，设为q_T，T是匹配词的类型，则Q的类型表示为：

Type_Q(I，CT，CX)＝(q_I，q_CT，q_CX)。

进一步地，对content类和complex类进行标注的过程具体为：

(1)选5名人员对content类和complex类类别分别进行人工标注，然后将分类按“投票原则”进行汇总；

(2)对content类进行分词，提取出名词、形容词作为基础匹配关键字集合；

(3)对complex类查询串，标注人员分别根据内容对其进行匹配词的标注；

(4)以complex类查询串为检索目标，爬取“百度知道”相关内容，抽取网络释义标签对其进行补充；

(5)合并网络释义标签和人工标注标签作为complex类匹配关键字集合；

(6)将complex类查询串和标注词聚合，命名为“复杂类查询标注库”；

(7)使用word2vec模型对content类和complex类匹配关键字集合进行扩充，得到能充分表示该意群的扩展词集合。

进一步地，使用word2vec模型对content类和complex类匹配关键字集合进行扩充的过程包括：利用word2vec模型计算查询串中关键词的“相似词”，来扩展得到能表示意群的词语集合；用word2vec对W_trainSet进行训练，得到影视领域的词向量模型，并通过余弦相似度来计算两个元素词的相似度；其中，模型训练集W_trainSet是通过合并所有长评和短评为一个数据集，提取出中文和数字，然后进行分词得到的。

进一步地，待匹配的影视内容数据抽取为以下两种数据集：

(1)infoSet：抽取原始数据集中每部影视的基本属性信息并结构化存储

(2)ReviewSet：抽取原始数据集中每部影视的评论信息，包括豆瓣前200条热门评论和200条短评并结构化存储。

进一步地，设影视实体E在查询串Q下的第X类匹配得分为Score(X)，则对于查询串的每一类的查询匹配规则如下：

第一类是info，匹配目标集为infoSet，此类匹配影视基本属性信息，正确率较高，提取关键词直接匹配即可；设配命中次数为n，重为I，X＝info，则

Score(info)＝I*n；

第二类content和第三类complex，匹配目标集均为ReviewSet；设vec(b₁，b₂，…b_i，P₁，P₂，…P_i)为content类匹配词向量，其中第i个基本提取词为b_i，权重为B，P_i为b_i的扩展词集合；vec(m₁，m₂，…m_j，Q₁，Q₂，…Q_j)为complex类匹配词向量，其中第i个手工标注词为m_i，权重为M，Q_j为m_j的扩展词集合；每个扩展词与基本词的相似度S_k即为对应权重；词w的配命中次数为n(w)，对集合P，n(P_k)表示集合P中词k的命中次数，则

其中，对于content类，b_i是从查询串中提取的基础匹配关键字，认为是准确符合匹配目标的，赋予一个较大的权重；对于complex类，m_i为手工标注词，为非确定性匹配，赋予一个较小的权重；所有扩展词按相似度从高到低取前N个，S_k由word2vec计算得出。

进一步地，影视实体E在查询串Q下的得分为：

进一步地，所述影视实体搜索方法所用到的数据集如下：

(4)目标集DevSet：包含2000个影视查询串及实体候选集；

格式：查询串<TAB>实体名(上映日期)<TAB>…实体名(上映日期)<ENTER>；

(5)实体集EntitySet：包含24347部电影列表；

格式：实体名(上映日期)<ENTER>

(6)Word2vec训练集W_trainSet：从豆瓣爬取所有影视实体(24347部)的评论集合作为word2vec的训练语料集；

匹配数据集MatchSet：包括每部影视的基本信息集infoSet和评论集ReviewSet。

进一步地，所述影视实体搜索方法的步骤具体为：

(1)将豆瓣所有爬取的电影电视剧语料的内容简介和评论内容合并作为训练语料，过滤语料、使用Hanlp进行分词；将影视基本信息序列化到本地供info类匹配查询；

(2)用word2vec模型训练合并后的语料，得到基于影视的词向量模型；其中word2vec的训练参数包括模型向量维度为150维、CBOW模型、窗口长度5、负采样；

(3)遍历查询串，调用分类规则得到每个查询串的类型向量；

(4)遍历目标集devSet，根据查询串的类型向量对每个查询实体调用匹配规则，计算该实体在此查询串下的得分。

本发明提供的影视实体搜索方法，首先对查询串进行分类，针对查询的不同类别提取查询关键字，然后计算关键字相似度，并进行扩展得到匹配词集合，最后进行加权匹配得到搜索结果，得到的结果准确率高，减少了因查询串口语化和多元化导致的检索失败率，本方法对用户查询意图理解的准确度高，在语义理解和检索结果上具有很高的准确度，可以很好地满足实际应用的需要。

附图说明

图1为分类过程流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种影视实体搜索方法，基于影视内容分析的查询串扩展搜索方法，首先对查询串进行分类，针对查询的不同类别提取查询关键字，然后根据word2vec训练结果计算关键字相似度，并进行扩展得到匹配词集合，最后进行加权匹配得到搜寻结果。

经过对百度提供的2000个查询串进行分析，同时考虑到查询串语义的复杂性，本实施例将查询串分为基本信息(info)、内容(content)、复杂(complex)三类，具体如下：

(1)基本信息适配型(info)：此类表示用户意在查询影视的基本属性内容，匹配目标为影视的基本信息，涉及人名、导演、类型、上映时间等，查询串则如“周迅主演”、“冯小刚作品”等。

(2)内容适配型(content)：此类表示用户意在搜寻关于影视内容方面的信息，匹配目标为能描述电影内容的内容简介和评论，查询串如“关于复仇”、“关于女巫”、“人和动物”、“豪车美女”、“体现历史文化”、“抗战题材”等。

(3)复杂难判断型(complex)：此类难以通过基本信息和情节概要得到判断结果，包含大量主观因素，如“80后喜欢看”“节奏慢”“结局出人意料”“非常另类”“逼格高”“结局惊悚”“和古剑奇谭差不多”等。

分类规则：

第一类info类提取

取1000个查询串做分析，统计第一类的前缀和后缀词，得到第一类的“属性词表”，统计主要属性部分如表1所示：

表1属性词表

提取第一类时，反查属性词表，命中即属于info类，并返回类型和匹配词，其中“演员”“导演”“上映时间”等提取人名、年份数字作为匹配词，“类型”等直接作为匹配词，当匹配到多个属性时，以各自匹配词的并集作为匹配词。如查询串为“刘德华主演的电影”，则返回类型为info，匹配词集为(刘德华)，查询串为“冯小刚导演的喜剧”，则返回类型为info，匹配词集为(冯小刚，喜剧)。

第二类和第三类提取：

第二类和第三类的本质区别是，第二类content类是确定性查询，第三类complex类是非确定型查询。

本发明定义确定型查询，指查询串包含明确的内容查询对象，如对查询串“有女巫”“讲述抗战”，“女巫”、“抗战”即为明确查询对象；非确定性查询，指查询串未包含明确的内容查询对象，包括一些如受主观因素、地域文化、网络概念等影响，即使是人也很难判断的查询，如“比较难懂”、“适合小学生看”、“主角超级卡哇伊”等。

由于汉语表述的复杂性及目前语义识别发展的局限性，为了获得更好的准确度，第二类(确定性查询)和第三类(非确定查询)的区分初期采用手工标注加机器辅助的方式。标注方式如下：

(1)选5名人员对二、三类类别分别进行标注，然后将分类按“投票原则”进行汇总。

(2)对第二类进行分词，提取出名词、形容词作为基础匹配关键字集合。

(3)对第三类查询串，标注人员分别根据内容对其进行匹配词的标注。如“比较难懂”可人工标注为“高智商”“烧脑”“推理”等标签，如“适合小学生看”，可人工标注为“科教片”“校园”“教育意义”“动画”等标签。

(4)以第三类查询串为检索目标，爬取“百度知道”相关内容，抽取网络释义标签对其进行补充。

(5)合并网络释义标签和人工标注标签作为第三类匹配关键字集合。

(6)将第三类查询串和标注词聚合，命名为“复杂类查询标注库”。

(7)使用word2vec模型对第二类和第三类匹配关键字集合进行扩充，得到能充分表示该意群的扩展词集合。

本实施例采取机器扩展匹配加人工标注的方式，随着数据增加，标注数量增多，依照步骤(2)可形成一个较丰富的“复杂类查询标注库”，后续查询数据人工标注则可仍然由机器匹配完成，以此提高效率。

查询串类型数据结构及分类流程：

查询串Q的类型向量设为Type_Q(I，CT，CX)，每一维I(info)、CT(content)、CX(complex)都是布尔类型，属于则为1，否则为0。通过前两步得到每个查询串的类型向量，和查询串Q每个类型的匹配词，设为q_T，T是匹配词的类型，则Q的类型表示为：

Type_Q(I，CT，CX)＝(q_I，q_CT，q_CX) (1)；

如对查询串“非常烧脑的魔幻类电影”类型表示为：

Type_Q(1，0，1)＝{(魔幻)，()(烧脑，高智商，难懂…)}。

分类过程流程图如图1所示。

本实施例所用实体集由百度提供的24347部影视名称集合构成，通过对豆瓣爬取获得包含电影基本信息和评论信息的原始数据集。

为了高效的对查询串进行检索与匹配，本发明将待匹配的影视内容数据抽取为以下两种数据集：

注：“结构化存储”指以哈希表序列化的形式存储在本地，方便直接读取和中间计算。

模型训练集W_trainSet：合并所有长评和短评为一个数据集，提取出中文和数字，然后进行分词得到。此训练集用于word2vec训练影视词向量模型的训练语料。

对第二类和第三类匹配关键字集合进行扩充的方法如下：

通过对查询串的分类，得到了查询串的类别，和能表达用户查询意图的匹配关键词，但是匹配时一个词并不能全面概括，用户查询的意图在机器判断中，称为“意群”，该意群的全部匹配结果才是用户想要搜寻的结果。利用word2vec模型计算查询串中关键词的“相似词”，来扩展得到能表示意群的词语集合，此处的“相似词”并不只是语义上相关，还有领域相关性，它本身以影评语料为统计基础，语料本身来自用户，所以在查询匹配这个过程中，在口语化和语义多样性方面上具有良好的匹配率和准确率，并转化为词向量的形式可供直接计算相似度。例如“福尔摩斯”计算得到相似度高的词有“华生”“推理”“侦探”“谋杀”“案件”等，可以精确的表示出用户查询的相关意群。

其中Word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。用word2vec对W_trainSet影评数据集进行训练，得到影视领域的词向量模型，并通过余弦相似度来计算两个元素词的相似度。

匹配规则：

设影视实体E在查询串Q下的第X类匹配得分为Score(X)，则对于每一类的查询匹配规则如下：

第一类是info，匹配目标集为infoSet，此类匹配影视基本属性信息，正确率较高，提取关键词直接匹配即可。设配命中次数为n，权重为I，X＝info，则

Score(info)＝I*n (2)

第二类content和第三类complex，匹配目标集均为ReviewSet。设vec(b₁，b₂，…b_i，P₁，P₂，…P_i)为content类匹配词向量，其中第i个基本提取词为b_i，权重为B，P_i为b_i的扩展词集合；vec(m₁，m₂，…m_j，Q₁，Q₂，…Q_j)为complex类匹配词向量，其中第i个手工标注词为m_i，权重为M，Q_j为m_j的扩展词集合；每个扩展词与基本词的相似度S_k即为对应权重；词w的配命中次数为n(w)，对集合P，n(P_k)表示集合P中词k的命中次数，则

其中，对于content类，b_i是从查询串中提取的基础匹配关键字，认为是准确符合匹配目标的，赋予一个较大的权重；对于complex类，m_i为手工标注词，为非确定性匹配，赋予一个较小的权重。所有扩展词按相似度从高到低取前N个，S_k由word2vec计算得出。因为word2vec的训练语料本身就是整个影评分词后训练的结果，所以由此得出的相似度会比较准确。

综上，影视实体E在查询串Q下的得分为：

其中参数I、B、M的最佳值由实验得出。一般情况下查询串仅属于三种分类中的一种，复杂情况会有交集。

本实施例所用到的数据集如下：

(7)目标集DevSet：包含2000个影视查询串及实体候选集；

(8)实体集EntitySet：包含24347部电影列表；

格式：实体名(上映日期)<ENTER>

(9)Word2vec训练集W_trainSet：从豆瓣爬取所有影视实体(24347部)的评论集合作为word2vec的训练语料集；

(10)匹配数据集MatchSet：包括每部影视的基本信息集infoSet和评论集ReviewSet。

注：DevSet和EntitySet均由百度提供。

本实施例具体操作过程包括以下步骤：

(1)将豆瓣所有爬取的电影电视剧语料的内容简介和评论内容合并作为训练语料，过滤语料、使用Hanlp进行分词(将所有搜寻实体名称添加进用户词典)；将影视基本信息序列化到本地供info类匹配查询；

(2)用word2vec模型训练合并后的语料，得到基于影视的词向量模型。其中word2vec主要的训练参数如下：模型向量维度为150维、CBOW模型(速度快)、窗口长度5、负采样(对常用字有利)；

(3)遍历查询串，调用分类规则得到每个查询串的类型向量；

(4)遍历目标集devSet，根据查询串的类型向量对每个查询实体调用匹配规则，计算该实体在此查询串下的得分(为了避免语料大的得分高，爬取数据时只爬取热度最高的200条作为语料库，不够的复制补全)；

(5)按得分从高到低对结果进行排序，依据百度提供的标准结果计算MAP值。

采用平均正确率均值MAP(Mean Average Precision)作为结果的评测标准。MAP是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank越高)，MAP就可能越高。如果系统没有返回相关文档，则准确率默认为0。MAP计算公式为：

其中Avep是每一行的正确率均值，N为应该检索出的数量，n为检索出的数量，P(k)为检索出第k个出现的位置，rel(k)为前P(k)个中正确的数量；Q为主题数，此处即表示查询串的数量。

MAP值越高，表示结果越好。本实施例测试结果所用标准答案集由百度提供。本实施例在分类和训练语料中均基于电影语料进行分析和训练，故在电影领域具有更高的准确率。如对查询串“和指环王相似的电影”，普通方法只能提取“指环王魔幻双塔奇兵”等和基本信息相关的词汇，本实施例则还能从电影内容元素进行提取，其扩展匹配词为“戒灵魔幻哈里波特半兽人阿拉贡双塔奇谋甘道夫霍比特矮人远征队龙骑士比尔博炎魔宝钻毕尔博星战”等三十余个，涉及电影名、类型、人物名、电影元素等丰富内容，极大提高了搜索命中率。经过评测发现，本实施例的搜索结果的MAP值很高，远高于现有技术的方法的搜索结果的MAP值，充分说明了本方法的高效性。

本发明提出一种通过对查询串分类、扩展并计算内容相关度进行精确实体匹配的方法。通过对数据分析，对查询串进行三个层次的分类，由基本查询、确定性查询和非确定查询组成，实现对查询语义的准确理解；用word2vec模型基于影视领域计算关键词的相似词，来扩展提取的基本匹配词，减小因查询串口语化和多元化导致的匹配失败率。相比传统搜索方法，本方法在语义理解和检索结果上拥有更高的准确度。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种影视实体搜索方法，其特征在于，首先对查询串进行分类，针对查询的不同类别提取查询关键字，然后计算关键字相似度，并进行扩展得到匹配词集合，最后进行加权匹配得到搜索结果。

2.根据权利要求1所述的影视实体搜索方法，其特征在于，查询串分为基本信息适配型、内容适配型、复杂难判断型三类，分别简称为info类、content类和complex类。

3.根据权利要求1-2所述的影视实体搜索方法，其特征在于，对查询串进行分类的步骤包括：

Type_Q(I，CT，CX)＝(q_I，q_CT，q_CX)。

4.根据权利要求1-3所述的影视实体搜索方法，其特征在于，对content类和complex类进行标注的过程具体为：

5.根据权利要求1-4所述的影视实体搜索方法，其特征在于，使用word2vec模型对content类和complex类匹配关键字集合进行扩充的过程包括：利用word2vec模型计算查询串中关键词的“相似词”，来扩展得到能表示意群的词语集合；用word2vec对W_trainSet进行训练，得到影视领域的词向量模型，并通过余弦相似度来计算两个元素词的相似度；其中，模型训练集W_trainSet是通过合并所有长评和短评为一个数据集，提取出中文和数字，然后进行分词得到的。

6.根据权利要求1-5所述的影视实体搜索方法，其特征在于，待匹配的影视内容数据抽取为以下两种数据集：

7.根据权利要求1-6所述的影视实体搜索方法，其特征在于，设影视实体E在查询串Q下的第X类匹配得分为Score(X)，则对于查询串的每一类的查询匹配规则如下：

Score(info)＝I*n；

8.根据权利要求1-7所述的影视实体搜索方法，其特征在于，影视实体E在查询串Q下的得分为：

9.根据权利要求1-8所述的影视实体搜索方法，其特征在于，所述影视实体搜索方法所用到的数据集如下：

(1)目标集DevSet：包含2000个影视查询串及实体候选集；

(2)实体集EntitySet：包含24347部电影列表；

格式：实体名(上映日期)<ENTER>

(3)Word2vec训练集W_trainSet：从豆瓣爬取所有影视实体(24347部)的评论集合作为word2vec的训练语料集；

10.根据权利要求1-9所述的影视实体搜索方法，其特征在于，所述影视实体搜索方法的步骤具体为：

(3)遍历查询串，调用分类规则得到每个查询串的类型向量；