CN109446399A - 一种影视实体搜索方法 - Google Patents

一种影视实体搜索方法 Download PDF

Info

Publication number
CN109446399A
CN109446399A CN201811202082.2A CN201811202082A CN109446399A CN 109446399 A CN109446399 A CN 109446399A CN 201811202082 A CN201811202082 A CN 201811202082A CN 109446399 A CN109446399 A CN 109446399A
Authority
CN
China
Prior art keywords
video display
class
matching
word
query string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811202082.2A
Other languages
English (en)
Inventor
吕学强
董志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201811202082.2A priority Critical patent/CN109446399A/zh
Publication of CN109446399A publication Critical patent/CN109446399A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种影视实体搜索方法,首先对查询串进行分类,针对查询的不同类别提取查询关键字,然后计算关键字相似度,并进行扩展得到匹配词集合,最后进行加权匹配得到搜索结果。本发明提供的影视实体搜索方法,首先对查询串进行分类,针对查询的不同类别提取查询关键字,然后计算关键字相似度,并进行扩展得到匹配词集合,最后进行加权匹配得到搜索结果,得到的结果准确率高,减少了因查询串口语化和多元化导致的检索失败率,本方法对用户查询意图理解的准确度高,在语义理解和检索结果上具有很高的准确度,可以很好地满足实际应用的需要。

Description

一种影视实体搜索方法
技术领域
本发明属于实体搜索技术领域,具体涉及一种基于词向量的影视实体搜索方法。
背景技术
发展更好的智能搜索引擎是学术界和工业界的一个长期共同目标。一个智能的搜索引擎应该满足用户的精确或模糊的要求。对于用户给出的查询串,搜索引擎应该返回一个和其语义相关的内容,而不是从字面上进行简单的匹配得到查询结果。
在互联网和智能科学高速发展的今天,隐藏在个人数字助理和机器人背后的技术,要求对用户需求和意图进行语义分析,得到准确的理解,并自动从Web检索中获取答案。2015百度世界峰会期间,百度已经推出了新的虚拟助理“度秘”,它将被整合到其最新的移动搜索APP中。公司的首席执行官李彦宏指出,将有三个核心组件参与“度秘”:整合、索引和交付。这里的索引意味着所有的综合信息和服务的索引,为用户提供更多的智能服务。换而言之,这些需要更好的方法来对所有这些信息和服务进行建模分析。例如,人们可能会寻找“适合家庭一起看的电影”、“反应战争残酷的电视剧”等。为了满足用户的意图,搜索引擎需要了解每一步电影、电视剧,检查它们是否可以被标记为带有“适合家庭一起看”和“战争残酷主题”的标签,并且检索所有影视的索引得到返回结果。
传统的实体搜索方法是根据查询串对全部网页索引进行直接匹配或是组合匹配,查询方式比较局限,没有对用户的搜索意图进行分析,对于复杂的语义表示或者口语化的查询,其搜索结果往往不尽人意。现有技术中的模型建立及分析方法均基于一般场景进行实验,缺乏对特殊场景的特殊分析,由于语义在不同场景的特点和分析方法不一样,现有技术对用户查询意图理解的准确度不高。面对海量的影视实体,迫切需要一种准确的搜索方法。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的影视实体搜索方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种影视实体搜索方法,首先对查询串进行分类,针对查询的不同类别提取查询关键字,然后计算关键字相似度,并进行扩展得到匹配词集合,最后进行加权匹配得到搜索结果。
进一步地,查询串分为基本信息适配型、内容适配型、复杂难判断型三类,分别简称为info类、content类和complex类。
进一步地,对查询串进行分类的步骤包括:
提取info类时,反查属性词表,命中即属于info类,并返回类型和匹配词,当匹配到多个属性时,以各自匹配词的并集作为匹配词;
采用手工标注加机器辅助的方式对content类和complex类进行标注;
查询串Q的类型向量设为TypeQ(I,CT,CX),每一维I、CT、CX都是布尔类型,属于则为1,否则为0;得到每个查询串的类型向量和查询串Q每个类型的匹配词,设为qT,T是匹配词的类型,则Q的类型表示为:
TypeQ(I,CT,CX)=(qI,qCT,qCX)。
进一步地,对content类和complex类进行标注的过程具体为:
(1)选5名人员对content类和complex类类别分别进行人工标注,然后将分类按“投票原则”进行汇总;
(2)对content类进行分词,提取出名词、形容词作为基础匹配关键字集合;
(3)对complex类查询串,标注人员分别根据内容对其进行匹配词的标注;
(4)以complex类查询串为检索目标,爬取“百度知道”相关内容,抽取网络释义标签对其进行补充;
(5)合并网络释义标签和人工标注标签作为complex类匹配关键字集合;
(6)将complex类查询串和标注词聚合,命名为“复杂类查询标注库”;
(7)使用word2vec模型对content类和complex类匹配关键字集合进行扩充,得到能充分表示该意群的扩展词集合。
进一步地,使用word2vec模型对content类和complex类匹配关键字集合进行扩充的过程包括:利用word2vec模型计算查询串中关键词的“相似词”,来扩展得到能表示意群的词语集合;用word2vec对W_trainSet进行训练,得到影视领域的词向量模型,并通过余弦相似度来计算两个元素词的相似度;其中,模型训练集W_trainSet是通过合并所有长评和短评为一个数据集,提取出中文和数字,然后进行分词得到的。
进一步地,待匹配的影视内容数据抽取为以下两种数据集:
(1)infoSet:抽取原始数据集中每部影视的基本属性信息并结构化存储
(2)ReviewSet:抽取原始数据集中每部影视的评论信息,包括豆瓣前200条热门评论和200条短评并结构化存储。
进一步地,设影视实体E在查询串Q下的第X类匹配得分为Score(X),则对于查询串的每一类的查询匹配规则如下:
第一类是info,匹配目标集为infoSet,此类匹配影视基本属性信息,正确率较高,提取关键词直接匹配即可;设配命中次数为n,重为I,X=info,则
Score(info)=I*n;
第二类content和第三类complex,匹配目标集均为ReviewSet;设vec(b1,b2,…bi,P1,P2,…Pi)为content类匹配词向量,其中第i个基本提取词为bi,权重为B,Pi为bi的扩展词集合;vec(m1,m2,…mj,Q1,Q2,…Qj)为complex类匹配词向量,其中第i个手工标注词为mi,权重为M,Qj为mj的扩展词集合;每个扩展词与基本词的相似度Sk即为对应权重;词w的配命中次数为n(w),对集合P,n(Pk)表示集合P中词k的命中次数,则
其中,对于content类,bi是从查询串中提取的基础匹配关键字,认为是准确符合匹配目标的,赋予一个较大的权重;对于complex类,mi为手工标注词,为非确定性匹配,赋予一个较小的权重;所有扩展词按相似度从高到低取前N个,Sk由word2vec计算得出。
进一步地,影视实体E在查询串Q下的得分为:
进一步地,所述影视实体搜索方法所用到的数据集如下:
(4)目标集DevSet:包含2000个影视查询串及实体候选集;
格式:查询串<TAB>实体名(上映日期)<TAB>…实体名(上映日期)<ENTER>;
(5)实体集EntitySet:包含24347部电影列表;
格式:实体名(上映日期)<ENTER>
(6)Word2vec训练集W_trainSet:从豆瓣爬取所有影视实体(24347部)的评论集合作为word2vec的训练语料集;
匹配数据集MatchSet:包括每部影视的基本信息集infoSet和评论集ReviewSet。
进一步地,所述影视实体搜索方法的步骤具体为:
(1)将豆瓣所有爬取的电影电视剧语料的内容简介和评论内容合并作为训练语料,过滤语料、使用Hanlp进行分词;将影视基本信息序列化到本地供info类匹配查询;
(2)用word2vec模型训练合并后的语料,得到基于影视的词向量模型;其中word2vec的训练参数包括模型向量维度为150维、CBOW模型、窗口长度5、负采样;
(3)遍历查询串,调用分类规则得到每个查询串的类型向量;
(4)遍历目标集devSet,根据查询串的类型向量对每个查询实体调用匹配规则,计算该实体在此查询串下的得分。
本发明提供的影视实体搜索方法,首先对查询串进行分类,针对查询的不同类别提取查询关键字,然后计算关键字相似度,并进行扩展得到匹配词集合,最后进行加权匹配得到搜索结果,得到的结果准确率高,减少了因查询串口语化和多元化导致的检索失败率,本方法对用户查询意图理解的准确度高,在语义理解和检索结果上具有很高的准确度,可以很好地满足实际应用的需要。
附图说明
图1为分类过程流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种影视实体搜索方法,基于影视内容分析的查询串扩展搜索方法,首先对查询串进行分类,针对查询的不同类别提取查询关键字,然后根据word2vec训练结果计算关键字相似度,并进行扩展得到匹配词集合,最后进行加权匹配得到搜寻结果。
经过对百度提供的2000个查询串进行分析,同时考虑到查询串语义的复杂性,本实施例将查询串分为基本信息(info)、内容(content)、复杂(complex)三类,具体如下:
(1)基本信息适配型(info):此类表示用户意在查询影视的基本属性内容,匹配目标为影视的基本信息,涉及人名、导演、类型、上映时间等,查询串则如“周迅主演”、“冯小刚作品”等。
(2)内容适配型(content):此类表示用户意在搜寻关于影视内容方面的信息,匹配目标为能描述电影内容的内容简介和评论,查询串如“关于复仇”、“关于女巫”、“人和动物”、“豪车美女”、“体现历史文化”、“抗战题材”等。
(3)复杂难判断型(complex):此类难以通过基本信息和情节概要得到判断结果,包含大量主观因素,如“80后喜欢看”“节奏慢”“结局出人意料”“非常另类”“逼格高”“结局惊悚”“和古剑奇谭差不多”等。
分类规则:
第一类info类提取
取1000个查询串做分析,统计第一类的前缀和后缀词,得到第一类的“属性词表”,统计主要属性部分如表1所示:
表1属性词表
提取第一类时,反查属性词表,命中即属于info类,并返回类型和匹配词,其中“演员”“导演”“上映时间”等提取人名、年份数字作为匹配词,“类型”等直接作为匹配词,当匹配到多个属性时,以各自匹配词的并集作为匹配词。如查询串为“刘德华主演的电影”,则返回类型为info,匹配词集为(刘德华),查询串为“冯小刚导演的喜剧”,则返回类型为info,匹配词集为(冯小刚,喜剧)。
第二类和第三类提取:
第二类和第三类的本质区别是,第二类content类是确定性查询,第三类complex类是非确定型查询。
本发明定义确定型查询,指查询串包含明确的内容查询对象,如对查询串“有女巫”“讲述抗战”,“女巫”、“抗战”即为明确查询对象;非确定性查询,指查询串未包含明确的内容查询对象,包括一些如受主观因素、地域文化、网络概念等影响,即使是人也很难判断的查询,如“比较难懂”、“适合小学生看”、“主角超级卡哇伊”等。
由于汉语表述的复杂性及目前语义识别发展的局限性,为了获得更好的准确度,第二类(确定性查询)和第三类(非确定查询)的区分初期采用手工标注加机器辅助的方式。标注方式如下:
(1)选5名人员对二、三类类别分别进行标注,然后将分类按“投票原则”进行汇总。
(2)对第二类进行分词,提取出名词、形容词作为基础匹配关键字集合。
(3)对第三类查询串,标注人员分别根据内容对其进行匹配词的标注。如“比较难懂”可人工标注为“高智商”“烧脑”“推理”等标签,如“适合小学生看”,可人工标注为“科教片”“校园”“教育意义”“动画”等标签。
(4)以第三类查询串为检索目标,爬取“百度知道”相关内容,抽取网络释义标签对其进行补充。
(5)合并网络释义标签和人工标注标签作为第三类匹配关键字集合。
(6)将第三类查询串和标注词聚合,命名为“复杂类查询标注库”。
(7)使用word2vec模型对第二类和第三类匹配关键字集合进行扩充,得到能充分表示该意群的扩展词集合。
本实施例采取机器扩展匹配加人工标注的方式,随着数据增加,标注数量增多,依照步骤(2)可形成一个较丰富的“复杂类查询标注库”,后续查询数据人工标注则可仍然由机器匹配完成,以此提高效率。
查询串类型数据结构及分类流程:
查询串Q的类型向量设为TypeQ(I,CT,CX),每一维I(info)、CT(content)、CX(complex)都是布尔类型,属于则为1,否则为0。通过前两步得到每个查询串的类型向量,和查询串Q每个类型的匹配词,设为qT,T是匹配词的类型,则Q的类型表示为:
TypeQ(I,CT,CX)=(qI,qCT,qCX) (1);
如对查询串“非常烧脑的魔幻类电影”类型表示为:
TypeQ(1,0,1)={(魔幻),()(烧脑,高智商,难懂…)}。
分类过程流程图如图1所示。
本实施例所用实体集由百度提供的24347部影视名称集合构成,通过对豆瓣爬取获得包含电影基本信息和评论信息的原始数据集。
为了高效的对查询串进行检索与匹配,本发明将待匹配的影视内容数据抽取为以下两种数据集:
(1)infoSet:抽取原始数据集中每部影视的基本属性信息并结构化存储
(2)ReviewSet:抽取原始数据集中每部影视的评论信息,包括豆瓣前200条热门评论和200条短评并结构化存储。
注:“结构化存储”指以哈希表序列化的形式存储在本地,方便直接读取和中间计算。
模型训练集W_trainSet:合并所有长评和短评为一个数据集,提取出中文和数字,然后进行分词得到。此训练集用于word2vec训练影视词向量模型的训练语料。
对第二类和第三类匹配关键字集合进行扩充的方法如下:
通过对查询串的分类,得到了查询串的类别,和能表达用户查询意图的匹配关键词,但是匹配时一个词并不能全面概括,用户查询的意图在机器判断中,称为“意群”,该意群的全部匹配结果才是用户想要搜寻的结果。利用word2vec模型计算查询串中关键词的“相似词”,来扩展得到能表示意群的词语集合,此处的“相似词”并不只是语义上相关,还有领域相关性,它本身以影评语料为统计基础,语料本身来自用户,所以在查询匹配这个过程中,在口语化和语义多样性方面上具有良好的匹配率和准确率,并转化为词向量的形式可供直接计算相似度。例如“福尔摩斯”计算得到相似度高的词有“华生”“推理”“侦探”“谋杀”“案件”等,可以精确的表示出用户查询的相关意群。
其中Word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。用word2vec对W_trainSet影评数据集进行训练,得到影视领域的词向量模型,并通过余弦相似度来计算两个元素词的相似度。
匹配规则:
设影视实体E在查询串Q下的第X类匹配得分为Score(X),则对于每一类的查询匹配规则如下:
第一类是info,匹配目标集为infoSet,此类匹配影视基本属性信息,正确率较高,提取关键词直接匹配即可。设配命中次数为n,权重为I,X=info,则
Score(info)=I*n (2)
第二类content和第三类complex,匹配目标集均为ReviewSet。设vec(b1,b2,…bi,P1,P2,…Pi)为content类匹配词向量,其中第i个基本提取词为bi,权重为B,Pi为bi的扩展词集合;vec(m1,m2,…mj,Q1,Q2,…Qj)为complex类匹配词向量,其中第i个手工标注词为mi,权重为M,Qj为mj的扩展词集合;每个扩展词与基本词的相似度Sk即为对应权重;词w的配命中次数为n(w),对集合P,n(Pk)表示集合P中词k的命中次数,则
其中,对于content类,bi是从查询串中提取的基础匹配关键字,认为是准确符合匹配目标的,赋予一个较大的权重;对于complex类,mi为手工标注词,为非确定性匹配,赋予一个较小的权重。所有扩展词按相似度从高到低取前N个,Sk由word2vec计算得出。因为word2vec的训练语料本身就是整个影评分词后训练的结果,所以由此得出的相似度会比较准确。
综上,影视实体E在查询串Q下的得分为:
其中参数I、B、M的最佳值由实验得出。一般情况下查询串仅属于三种分类中的一种,复杂情况会有交集。
本实施例所用到的数据集如下:
(7)目标集DevSet:包含2000个影视查询串及实体候选集;
格式:查询串<TAB>实体名(上映日期)<TAB>…实体名(上映日期)<ENTER>;
(8)实体集EntitySet:包含24347部电影列表;
格式:实体名(上映日期)<ENTER>
(9)Word2vec训练集W_trainSet:从豆瓣爬取所有影视实体(24347部)的评论集合作为word2vec的训练语料集;
(10)匹配数据集MatchSet:包括每部影视的基本信息集infoSet和评论集ReviewSet。
注:DevSet和EntitySet均由百度提供。
本实施例具体操作过程包括以下步骤:
(1)将豆瓣所有爬取的电影电视剧语料的内容简介和评论内容合并作为训练语料,过滤语料、使用Hanlp进行分词(将所有搜寻实体名称添加进用户词典);将影视基本信息序列化到本地供info类匹配查询;
(2)用word2vec模型训练合并后的语料,得到基于影视的词向量模型。其中word2vec主要的训练参数如下:模型向量维度为150维、CBOW模型(速度快)、窗口长度5、负采样(对常用字有利);
(3)遍历查询串,调用分类规则得到每个查询串的类型向量;
(4)遍历目标集devSet,根据查询串的类型向量对每个查询实体调用匹配规则,计算该实体在此查询串下的得分(为了避免语料大的得分高,爬取数据时只爬取热度最高的200条作为语料库,不够的复制补全);
(5)按得分从高到低对结果进行排序,依据百度提供的标准结果计算MAP值。
采用平均正确率均值MAP(Mean Average Precision)作为结果的评测标准。MAP是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。MAP计算公式为:
其中Avep是每一行的正确率均值,N为应该检索出的数量,n为检索出的数量,P(k)为检索出第k个出现的位置,rel(k)为前P(k)个中正确的数量;Q为主题数,此处即表示查询串的数量。
MAP值越高,表示结果越好。本实施例测试结果所用标准答案集由百度提供。本实施例在分类和训练语料中均基于电影语料进行分析和训练,故在电影领域具有更高的准确率。如对查询串“和指环王相似的电影”,普通方法只能提取“指环王魔幻双塔奇兵”等和基本信息相关的词汇,本实施例则还能从电影内容元素进行提取,其扩展匹配词为“戒灵魔幻哈里波特半兽人阿拉贡双塔奇谋甘道夫霍比特矮人远征队龙骑士比尔博炎魔宝钻毕尔博星战”等三十余个,涉及电影名、类型、人物名、电影元素等丰富内容,极大提高了搜索命中率。经过评测发现,本实施例的搜索结果的MAP值很高,远高于现有技术的方法的搜索结果的MAP值,充分说明了本方法的高效性。
本发明提出一种通过对查询串分类、扩展并计算内容相关度进行精确实体匹配的方法。通过对数据分析,对查询串进行三个层次的分类,由基本查询、确定性查询和非确定查询组成,实现对查询语义的准确理解;用word2vec模型基于影视领域计算关键词的相似词,来扩展提取的基本匹配词,减小因查询串口语化和多元化导致的匹配失败率。相比传统搜索方法,本方法在语义理解和检索结果上拥有更高的准确度。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种影视实体搜索方法,其特征在于,首先对查询串进行分类,针对查询的不同类别提取查询关键字,然后计算关键字相似度,并进行扩展得到匹配词集合,最后进行加权匹配得到搜索结果。
2.根据权利要求1所述的影视实体搜索方法,其特征在于,查询串分为基本信息适配型、内容适配型、复杂难判断型三类,分别简称为info类、content类和complex类。
3.根据权利要求1-2所述的影视实体搜索方法,其特征在于,对查询串进行分类的步骤包括:
提取info类时,反查属性词表,命中即属于info类,并返回类型和匹配词,当匹配到多个属性时,以各自匹配词的并集作为匹配词;
采用手工标注加机器辅助的方式对content类和complex类进行标注;
查询串Q的类型向量设为TypeQ(I,CT,CX),每一维I、CT、CX都是布尔类型,属于则为1,否则为0;得到每个查询串的类型向量和查询串Q每个类型的匹配词,设为qT,T是匹配词的类型,则Q的类型表示为:
TypeQ(I,CT,CX)=(qI,qCT,qCX)。
4.根据权利要求1-3所述的影视实体搜索方法,其特征在于,对content类和complex类进行标注的过程具体为:
(1)选5名人员对content类和complex类类别分别进行人工标注,然后将分类按“投票原则”进行汇总;
(2)对content类进行分词,提取出名词、形容词作为基础匹配关键字集合;
(3)对complex类查询串,标注人员分别根据内容对其进行匹配词的标注;
(4)以complex类查询串为检索目标,爬取“百度知道”相关内容,抽取网络释义标签对其进行补充;
(5)合并网络释义标签和人工标注标签作为complex类匹配关键字集合;
(6)将complex类查询串和标注词聚合,命名为“复杂类查询标注库”;
(7)使用word2vec模型对content类和complex类匹配关键字集合进行扩充,得到能充分表示该意群的扩展词集合。
5.根据权利要求1-4所述的影视实体搜索方法,其特征在于,使用word2vec模型对content类和complex类匹配关键字集合进行扩充的过程包括:利用word2vec模型计算查询串中关键词的“相似词”,来扩展得到能表示意群的词语集合;用word2vec对W_trainSet进行训练,得到影视领域的词向量模型,并通过余弦相似度来计算两个元素词的相似度;其中,模型训练集W_trainSet是通过合并所有长评和短评为一个数据集,提取出中文和数字,然后进行分词得到的。
6.根据权利要求1-5所述的影视实体搜索方法,其特征在于,待匹配的影视内容数据抽取为以下两种数据集:
(1)infoSet:抽取原始数据集中每部影视的基本属性信息并结构化存储
(2)ReviewSet:抽取原始数据集中每部影视的评论信息,包括豆瓣前200条热门评论和200条短评并结构化存储。
7.根据权利要求1-6所述的影视实体搜索方法,其特征在于,设影视实体E在查询串Q下的第X类匹配得分为Score(X),则对于查询串的每一类的查询匹配规则如下:
第一类是info,匹配目标集为infoSet,此类匹配影视基本属性信息,正确率较高,提取关键词直接匹配即可;设配命中次数为n,重为I,X=info,则
Score(info)=I*n;
第二类content和第三类complex,匹配目标集均为ReviewSet;设vec(b1,b2,…bi,P1,P2,…Pi)为content类匹配词向量,其中第i个基本提取词为bi,权重为B,Pi为bi的扩展词集合;vec(m1,m2,…mj,Q1,Q2,…Qj)为complex类匹配词向量,其中第i个手工标注词为mi,权重为M,Qj为mj的扩展词集合;每个扩展词与基本词的相似度Sk即为对应权重;词w的配命中次数为n(w),对集合P,n(Pk)表示集合P中词k的命中次数,则
其中,对于content类,bi是从查询串中提取的基础匹配关键字,认为是准确符合匹配目标的,赋予一个较大的权重;对于complex类,mi为手工标注词,为非确定性匹配,赋予一个较小的权重;所有扩展词按相似度从高到低取前N个,Sk由word2vec计算得出。
8.根据权利要求1-7所述的影视实体搜索方法,其特征在于,影视实体E在查询串Q下的得分为:
9.根据权利要求1-8所述的影视实体搜索方法,其特征在于,所述影视实体搜索方法所用到的数据集如下:
(1)目标集DevSet:包含2000个影视查询串及实体候选集;
格式:查询串<TAB>实体名(上映日期)<TAB>…实体名(上映日期)<ENTER>;
(2)实体集EntitySet:包含24347部电影列表;
格式:实体名(上映日期)<ENTER>
(3)Word2vec训练集W_trainSet:从豆瓣爬取所有影视实体(24347部)的评论集合作为word2vec的训练语料集;
匹配数据集MatchSet:包括每部影视的基本信息集infoSet和评论集ReviewSet。
10.根据权利要求1-9所述的影视实体搜索方法,其特征在于,所述影视实体搜索方法的步骤具体为:
(1)将豆瓣所有爬取的电影电视剧语料的内容简介和评论内容合并作为训练语料,过滤语料、使用Hanlp进行分词;将影视基本信息序列化到本地供info类匹配查询;
(2)用word2vec模型训练合并后的语料,得到基于影视的词向量模型;其中word2vec的训练参数包括模型向量维度为150维、CBOW模型、窗口长度5、负采样;
(3)遍历查询串,调用分类规则得到每个查询串的类型向量;
(4)遍历目标集devSet,根据查询串的类型向量对每个查询实体调用匹配规则,计算该实体在此查询串下的得分。
CN201811202082.2A 2018-10-16 2018-10-16 一种影视实体搜索方法 Pending CN109446399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811202082.2A CN109446399A (zh) 2018-10-16 2018-10-16 一种影视实体搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811202082.2A CN109446399A (zh) 2018-10-16 2018-10-16 一种影视实体搜索方法

Publications (1)

Publication Number Publication Date
CN109446399A true CN109446399A (zh) 2019-03-08

Family

ID=65544959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811202082.2A Pending CN109446399A (zh) 2018-10-16 2018-10-16 一种影视实体搜索方法

Country Status (1)

Country Link
CN (1) CN109446399A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134888A (zh) * 2019-04-03 2019-08-16 广州朗国电子科技有限公司 树形结构节点检索方法、装置、存储介质及服务器
CN113127624A (zh) * 2021-06-16 2021-07-16 北京金山数字娱乐科技有限公司 问答模型的训练方法及装置
CN113239257A (zh) * 2021-06-07 2021-08-10 北京字跳网络技术有限公司 信息处理方法、装置、电子设备及存储介质
CN113901264A (zh) * 2021-11-12 2022-01-07 央视频融媒体发展有限公司 一种影视类属性数据源间的周期性实体匹配方法及系统
CN113239257B (zh) * 2021-06-07 2024-05-14 北京字跳网络技术有限公司 信息处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035955A (zh) * 2014-03-18 2014-09-10 北京百度网讯科技有限公司 搜索方法和装置
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
US20170308607A1 (en) * 2014-11-21 2017-10-26 Inbenta Method and System for a Semantic Search Engine
CN108491462A (zh) * 2018-03-05 2018-09-04 昆明理工大学 一种基于word2vec的语义查询扩展方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035955A (zh) * 2014-03-18 2014-09-10 北京百度网讯科技有限公司 搜索方法和装置
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
US20170308607A1 (en) * 2014-11-21 2017-10-26 Inbenta Method and System for a Semantic Search Engine
CN108491462A (zh) * 2018-03-05 2018-09-04 昆明理工大学 一种基于word2vec的语义查询扩展方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕学强 等: "基于内容和兴趣漂移模型的电影推荐算法研究", 《计算机应用研究》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134888A (zh) * 2019-04-03 2019-08-16 广州朗国电子科技有限公司 树形结构节点检索方法、装置、存储介质及服务器
CN113239257A (zh) * 2021-06-07 2021-08-10 北京字跳网络技术有限公司 信息处理方法、装置、电子设备及存储介质
CN113239257B (zh) * 2021-06-07 2024-05-14 北京字跳网络技术有限公司 信息处理方法、装置、电子设备及存储介质
CN113127624A (zh) * 2021-06-16 2021-07-16 北京金山数字娱乐科技有限公司 问答模型的训练方法及装置
CN113127624B (zh) * 2021-06-16 2021-11-16 北京金山数字娱乐科技有限公司 问答模型的训练方法及装置
CN113901264A (zh) * 2021-11-12 2022-01-07 央视频融媒体发展有限公司 一种影视类属性数据源间的周期性实体匹配方法及系统

Similar Documents

Publication Publication Date Title
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
CN105824959B (zh) 舆情监控方法及系统
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
Firan et al. Bringing order to your photos: event-driven classification of flickr images based on social knowledge
KR101173561B1 (ko) 질문 형태 및 도메인 인식 장치 및 그 방법
CN107463658B (zh) 文本分类方法及装置
CN106202413A (zh) 一种跨媒体检索方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN113553429B (zh) 一种规范化标签体系构建及文本自动标注方法
CN105843850B (zh) 搜索优化方法和装置
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN110750995B (zh) 一种基于自定义图谱的文件管理方法
CN110705292B (zh) 一种基于知识库和深度学习的实体名称提取方法
CN104376108B (zh) 一种基于6w语义标识的非结构化自然语言信息抽取方法
CN109597895B (zh) 一种基于知识图谱的公文搜索方法
CN109446399A (zh) 一种影视实体搜索方法
CN109635107A (zh) 多数据源的语义智能分析及事件场景还原的方法及装置
CN108509521A (zh) 一种自动生成文本索引的图像检索方法
CN106055560A (zh) 一种基于统计机器学习方法的分词字典数据采集方法
CN113282834A (zh) 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质
CN106339459A (zh) 基于关键词匹配进行中文网页预分类的方法
Rodriguez-Vaamonde et al. What can pictures tell us about web pages? Improving document search using images
CN110609950B (zh) 一种舆情系统搜索词推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190308