CN108881945B - 消除关键词歧义的方法、电视及可读存储介质 - Google Patents

消除关键词歧义的方法、电视及可读存储介质 Download PDF

Info

Publication number
CN108881945B
CN108881945B CN201810760657.6A CN201810760657A CN108881945B CN 108881945 B CN108881945 B CN 108881945B CN 201810760657 A CN201810760657 A CN 201810760657A CN 108881945 B CN108881945 B CN 108881945B
Authority
CN
China
Prior art keywords
keyword
dimension
database
highest
weight value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810760657.6A
Other languages
English (en)
Other versions
CN108881945A (zh
Inventor
姚凯
曾志辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Skyworth Digital Technology Co Ltd
Original Assignee
Shenzhen Skyworth Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Skyworth Digital Technology Co Ltd filed Critical Shenzhen Skyworth Digital Technology Co Ltd
Priority to CN201810760657.6A priority Critical patent/CN108881945B/zh
Publication of CN108881945A publication Critical patent/CN108881945A/zh
Application granted granted Critical
Publication of CN108881945B publication Critical patent/CN108881945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种消除关键词歧义的方法、电视及可读存储介质,消除关键词歧义的方法包括:在接收到待搜索的关键词时,若关键词数据库中存在至少两个与所述关键词对应的第一维度,则判定所述关键词为歧义关键词;基于所述第一维度对影视数据库进行检索,得到各第一维度对应的结果数量;若节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值;获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。本发明的最高权重值即最接近用户搜索意图的维度,消除了只要与关键词相关的维度都呈现出来的混乱,实现对关键词歧义的消除,尽量满足输出较符合客户预期的搜索结果。

Description

消除关键词歧义的方法、电视及可读存储介质
技术领域
本发明涉及电视技术领域,尤其涉及消除关键词歧义的方法、电视及可读存储介质。
背景技术
现在的语音搜索影视节目的产品,主要的实现方法是通过语音识别技术将音频转换成文字,再通过识别文字中的关键词,进行搜索。影视节目一般分为影视名、演员、导演、风格类型、关联热词等属性,搜索可以针对这些属性进行单独或组合检索。但是如果某个关键词在多个维度都出现的时候,一般做法会将所有可能的结果都搜索出来,大量可能不是用户要的结果,这样的体验非常不好。
发明内容
本发明的主要目的在于提供一种消除关键词歧义的方法、电视及可读存储介质,旨在解决现有技术中搜索影视节目的过程中对歧义关键词无法智能消除的技术问题。
为实现上述目的,本发明提供一种消除关键词歧义的方法,所述消除关键词歧义的方法包括以下步骤:
在接收到待搜索的关键词时,若关键词数据库中存在至少两个与所述关键词对应的第一维度,则判定所述关键词为歧义关键词;
基于所述第一维度对影视数据库进行检索,得到各第一维度对应的结果数量;
若节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值;
获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。
优选地,所述获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出的步骤包括:
对各个所述权重值进行倒序排列,并存储于维度权重数据库中;
获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。
优选地,所述获取所述维度权重数据库中的最高权重值,将所述最高权重值对应的维度输出的步骤之后,所述消除关键词歧义的方法还包括:
统计设定时长范围内的用户点播行为数据,得到统计结果;
基于所述统计结果对所述维度权重数据库进行修正。
优选地,所述统计设定时长范围内的用户点播行为数据,得到统计结果的步骤包括:
在所述设定时长范围内接收到最高权重值对应的第二维度的第一点播指令后,获取在所述设定时长范围内接收到指定维度关键词的第二点播指令;
根据所述第一点播指令产生的第一正向数据、所述设定时长范围内未点播最高权重值对应的第二维度的第一反向数据、第二点播指令产生的第二正向数据及所述设定时长范围内未点播指定维度关键词的第二反向数据,计算所述关键词对应的误判率;
若所述误判率大于1,则基于预设规则修正维度权重数据库。
优选地,所述若所述误判率大于1,则基于预设规则修正维度权重数据库的步骤包括:
若所述误判率大于1,则基于所述第一正向数据统计第一正向数据对应的第一最高维度;
基于所述第二正向数据统计第二正向数据对应的第二最高维度;
基于所述第一最高维度和所述第二最高维度计算播放次数最高维度值;
若所述播放次数最高维度值与所述维度权重数据库中的最高权重值不匹配,则采用播放次数最高维度值更新最高权重值。
优选地,所述若节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值的步骤包括:
通过影视排行榜数据获取节目热度数据库;
和/或;
通过搜索引擎搜索的热度排行榜获取节目热度数据库;
若所述节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值。
优选地,所述在接收到待搜索的关键词时,若关键词数据库中存在至少两个与所述关键词对应的第一维度,则判定所述关键词为歧义关键词步骤包括:
在接收到待搜索的关键词时,判定所述关键词是否为指定维度的关键词,若是,则输出所述关键词的指定维度;
若否,则在关键词数据库中是否存在至少两个与所述关键词对应的第一维度时,判定所述关键词为歧义关键词。
此外,为实现上述目的,本发明还提供一种电视,所述电视包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的消除关键词歧义的程序,所述消除关键词歧义的程序被所述处理器执行时实现上述中任一项所述的消除关键词歧义的方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有消除关键词歧义的程序,所述消除关键词歧义的程序被处理器执行时实现上述中任一项所述的消除关键词歧义的方法的步骤。
本发明中,针对搜索影视节目过程中输入的关键词,首选判断待搜索的关键词是否为歧义关键词,若是,则基于关键词对应的第一维度对影像数据库进行检索,同时获取节目热度数据库,并基于各个结果数量及节目热度数据库中与关键词对应的数据分别权重值,并且,将各个权重值中的最高权重值输出,最高权重值即最接近用户搜索意图的维度,消除了只要与关键词相关的维度都呈现出来的混乱,即尽可能的给出比较符合用户预期的搜索结果。本发明通过对关键词相关的维度的处理,实现对关键词歧义的消除,尽量满足输出较符合客户预期的搜索结果,使得对搜索影视节目时输入的关键词的反馈更加智能化。
附图说明
图1为本发明实施例方案涉及的电视硬件结构示意图;
图2为本发明消除关键词歧义的方法第一实施例的流程示意图;
图3为本发明消除关键词歧义的方法第二实施例的流程示意图;
图4为本发明消除关键词歧义的方法第三实施例的流程示意图;
图5为本发明消除关键词歧义的方法第四实施例的流程示意图;
图6为本发明消除关键词歧义的方法第五实施例的流程示意图;
图7为本发明消除关键词歧义的方法第七实施例的流程示意图;
图8为本发明消除关键词歧义的方法第八实施例的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的电视结构示意图。
如图1所示,该电视可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,电视还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。当然,电视还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的电视结构并不构成对电视的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及消除关键词歧义的程序。
在图1所示的电视中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的消除关键词歧义的程序,并执行以下操作:
在接收到待搜索的关键词时,若关键词数据库中存在至少两个与所述关键词对应的第一维度,则判定所述关键词为歧义关键词;
基于所述第一维度对影视数据库进行检索,得到各第一维度对应的结果数量;
若节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值;
获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。
进一步地,处理器1001可以调用存储器1005中存储的消除关键词歧义的程序,还执行以下操作:
对各个所述权重值进行倒序排列,并存储于维度权重数据库中;
获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。
进一步地,处理器1001可以调用存储器1005中存储的消除关键词歧义的程序,还执行以下操作:
统计设定时长范围内的用户点播行为数据,得到统计结果;
基于所述统计结果对所述维度权重数据库进行修正。
进一步地,处理器1001可以调用存储器1005中存储的消除关键词歧义的程序,还执行以下操作:
在所述设定时长范围内接收到最高权重值对应的第二维度的第一点播指令后,获取在所述设定时长范围内接收到指定维度关键词的第二点播指令;
根据所述第一点播指令产生的第一正向数据、所述设定时长范围内未点播最高权重值对应的第二维度的第一反向数据、第二点播指令产生的第二正向数据及所述设定时长范围内未点播指定维度关键词的第二反向数据,计算所述关键词对应的误判率;
若所述误判率大于1,则基于预设规则修正维度权重数据库。
进一步地,处理器1001可以调用存储器1005中存储的消除关键词歧义的程序,还执行以下操作:
若所述误判率大于1,则基于所述第一正向数据统计第一正向数据对应的第一最高维度;
基于所述第二正向数据统计第二正向数据对应的第二最高维度;
基于所述第一最高维度和所述第二最高维度计算播放次数最高维度值;
若所述播放次数最高维度值与所述维度权重数据库中的最高权重值不匹配,则采用播放次数最高维度值更新最高权重值。
进一步地,处理器1001可以调用存储器1005中存储的消除关键词歧义的程序,还执行以下操作:
通过影视排行榜数据获取节目热度数据库;
和/或;
通过搜索引擎搜索的热度排行榜获取节目热度数据库;
若所述节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值。
进一步地,处理器1001可以调用存储器1005中存储的消除关键词歧义的程序,还执行以下操作:
在接收到待搜索的关键词时,判定所述关键词是否为指定维度的关键词,若是,则输出所述关键词的指定维度;
若否,在判断关键词数据库中是否存在至少两个与所述关键词对应的第一维度时,判定所述关键词为歧义关键词。
进一步地,处理器1001可以调用存储器1005中存储的消除关键词歧义的程序,还执行以下操作:
基于所述第一维度对影视数据库进行检索,得到多个第一维度对应的检索结果;
统计各个第一维度对应的检索结果,得到各检索结果对应的结果数量。
参照图2,图2为本发明消除关键词歧义的方法第一实施例的流程示意图。
在第一实施例中,消除关键词歧义的方法包括:
步骤S10,在接收到待搜索的关键词时,若关键词数据库中存在至少两个与所述关键词对应的第一维度,则判定所述关键词为歧义关键词。
本实施例中,在接收到待搜索的关键词时,若关键词数据库中存在至少两个与所述关键词对应的第一维度,则判定所述关键词为歧义关键词。用户可通过语音,输入关键词,语音识别模块在接收到音频后,通过语音识别技术将音频转换成关键词对应的文字,再通过识别文字中的关键词,对关键词数据库进行检索;或是通过直接输入文字的形式输入关键词,在接收到待检索的关键词时,对关键词数据库进行检索,并且,关键词数据库中存在多种关键词对应的维度,如一个关键词对应多个维度,或者多个关键词对应一个维度;维度是指数据库中预存的属性或字段;用户输入的关键词通常分为有歧义的关键词和无歧义的关键词两种,对于无歧义的关键词,可直接输出无歧义的关键词对应的维度即可;针对有歧义的关键词,一般会存在至少两个或两个以上的第一维度,如,某明星“小明”为多栖明星,既是导演,也是演员,那么第一维度为“导演”,第二维度为“演员”,若关键词为该明星的名字,那么,在接收到关键词为该明星的名字“小明”时,检索关键词数据库,关键词数据库中存在第一维度“导演”和第二维度“演员”与该明星的名字相关,该关键词相关的维度为两个,本案的装置无法知晓用户是想要搜索该明星作为“导演”的作品,还是想搜索该明星作为“演员”的作品,因此,只输入该明星的名字时,会产生歧义,使得我们的机器无法知晓用户到底是要搜索该明星作为“导演”的作品,还是想搜索该明星作为“演员”的作品,因此,判断该关键词为歧义关键词;若接收到的关键词为“X明星导演的作品”,那么,实际上该关键词已经指定了很明确的维度,明显知晓用户的预期搜索结果,即该明星作为“导演”的第一维度为指定维度,因此,该关键词不存在歧义。
步骤S20,基于所述第一维度对影视数据库进行检索,得到各第一维度对应的结果数量。
本实施例中,基于第一维度对影视数据库进行检索,得到各第一维度对应的结果数量。在判定关键词为歧义关键词后,根据第一维度对影视数据库进行检索,影视数据库中存储有多种维度,如第一维度“导演”对应有该明星导演的15部影视剧,第二维度“演员”对应有该明星参演的30部影视剧,那么第一维度“导演”的结果数量为15,第二维度“演员”的结果数量为30。
步骤S30,获取节目热度数据库,若所述节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值。
本实施例中,若节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值。节目热度数据库可通过影视排行榜数据获得,也可以通过搜索引擎的搜索热度排行榜数据获得,如常见的“热搜”,节目热度数据库的数据会影响用户的搜索意图,因为热度可能打破人们对某个关键词的通常看法,也代表了某个关键词的含义转变。举个明显的例子,在某段时间“小明”出了热点事件,而相关的视频被疯狂点播,那么在这段时间内搜索“小明”主要的意图就可能不是他主演或者导演的视频,而是他本身作为热点词的视频。在基于第一维度对影视数据库进行检索时,如第一维度“导演”对应有该明星导演的15部影视剧,第二维度“演员”对应有该明星参演的30部影视剧,那么第一维度“导演”的结果数量为15,第二维度“演员”的结果数量为30。那么,给第一维度“导演”打1分,给第二维度“演员”打2分;而当该明星在用户输入关键词的前段时间有热点事件,如该明星最新导演的电影上映了,短期内热度上升,那么该明星作为导演,这个关键词在第一维度“导演”的得分就+10分处理,超过第二维度“演员”,从而判定用户的真正搜索意图实际为该明星导演的作品。
步骤S40,获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。
本实施例中,获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。打分是相对的。首先确定关键词重复维度数n,本例中该明星占有的维度是第一维度是“导演”和第二维度“演员”,因此n=2,针对不同维度进行检索根据得到结果数量进行降序排序,依次打分为n,n-1,n-2……1;并且,节目热度是通过获取影视排行榜数据,以及通过搜索引擎的搜索热度排行榜等数据实现,针对排行榜前十的影视,进行调整,具体调整方法为:获取这十个影视的关联的“影视名关键词”,“演员关键词”,“导演关键词”等,在对应的维度上+10分。比如关联的“演员关键词”就在演员这个维度上+10分。而为什么+10分,是因为目前我们有10个维度,即前文维度打分阶段n最大为10,+10分则必然成为得分最高维度。而对跌出排行榜前十的影视,对应关联的关键词维度得分如果>10,则做-10处理。通过上述处理,得到一个最终的维度权重数据库。
本发明中,针对搜索影视节目过程中输入的关键词,首选判断待搜索的关键词是否为歧义关键词,若是,则基于关键词对应的第一维度对影像数据库进行检索,同时获取节目热度数据库,并基于各个结果数量及节目热度数据库中与关键词对应的数据分别权重值,并且,将各个权重值中的最高权重值输出,最高权重值即最接近用户搜索意图的维度,消除了只要与关键词相关的维度都呈现出来的混乱,即尽可能的给出比较符合用户预期的搜索结果。本发明通过对关键词相关的维度的处理,实现对关键词歧义的消除,尽量满足输出较符合客户预期的搜索结果,使得对搜索影视节目时输入的关键词的反馈更加智能化。
基于第一实施例,提出本发明消除关键词歧义的方法的第二实施例,请参阅图3,步骤S40包括:
S41,对各个所述权重值进行倒序排列,并存储于维度权重数据库中;
S42,获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。
本实施例中,在计算各个权重值后,对各个权重值进行倒序排列,并存储于维度权重数据库中,维度权重数据库是事先生成的,在计算各个权重值后,在维度权重数据库中对各个权重值进行倒序排列,从而得到各个权重值中的最高权重值,即认为的最接近用户的搜索预期结果,因此,将最高权重值对应的维度输出。具体过程为:首先确定关键词重复维度数n,本例中“小明”占有的维度是第一维度是“导演”和第二维度“演员”,因此n=2,针对不同维度进行检索根据得到结果数量进行降序排序,依次打分为n,n-1,n-2……1;并且,节目热度是通过获取影视排行榜数据,以及通过搜索引擎的搜索热度排行榜等数据实现,针对排行榜前十的影视,进行调整,具体调整方法为:获取这十个影视的关联的“影视名关键词”,“演员关键词”,“导演关键词”等,在对应的维度上+10分。比如关联的“演员关键词”就在演员这个维度上+10分。而为什么+10分,是因为目前我们有10个维度,即前文维度打分阶段n最大为10,+10分则必然成为得分最高维度。而对跌出排行榜前十的影视,对应关联的关键词维度得分如果>10,则做-10处理。
基于第二实施例,提出本发明消除关键词歧义的方法的第三实施例,请参阅图4,步骤S42之后,消除关键词歧义的方法还包括:
S50,统计设定时长范围内的用户点播行为数据,得到统计结果;
S60,基于所述统计结果对所述维度权重数据库进行修正。
本实施例中,在最高权重值对应的维度输出后,用户有两种行为,一种是对最高权重值对应的维度进行点击播放,另一种是无动作,不作点击播放。当然,若用户输入的关键词无歧义,为明显意图的关键词,即指定维度的关键词,在指定维度输出后,用户同样有两种行为:一种是对指定维度进行点击播放,另一种是无动作,不作点击播放。在设定时长范围内接收到最高权重值对应的第二维度的第一点播指令后,获取在设定时长范围内接收到指定维度关键词的第二点播指令;根据第一点播指令产生的第一正向数据、设定时长范围内未点播最高权重值对应的第二维度的第一反向数据、第二点播指令产生的第二正向数据及设定时长范围内未点播指定维度关键词的第二反向数据,计算出关键词对应的误判率;若误判率大于1,则基于预设规则修正维度权重数据库。
基于第二实施例,提出本发明消除关键词歧义的方法的第四实施例,请参阅图5,步骤S50包括:
S51,在所述设定时长范围内接收到最高权重值对应的第二维度的第一点播指令后,获取在所述设定时长范围内接收到指定维度关键词的第二点播指令;
S52,根据所述第一点播指令产生的第一正向数据、所述设定时长范围内未点播最高权重值对应的第二维度的第一反向数据、第二点播指令产生的第二正向数据及所述设定时长范围内未点播指定维度关键词的第二反向数据,计算出所述关键词对应的误判率;
S53,若所述误判率大于1,则基于预设规则修正维度权重数据库。
本实施例中,在设定时长范围内接收到最高权重值对应的第二维度的第一点播指令后,获取在设定时长范围内接收到指定维度关键词的第二点播指令;根据第一点播指令产生的第一正向数据、设定时长范围内未点播最高权重值对应的第二维度的第一反向数据、第二点播指令产生的第二正向数据及设定时长范围内未点播指定维度关键词的第二反向数据,计算出关键词对应的误判率;若误判率大于1,则基于预设规则修正维度权重数据库。比如,在得到维度权重数据库后,24小时内跟踪统计用户点击行为,对权重进行修正。具体操作是:根据搜索结果产生后,用户是否发生点击,点击播放为正向数据在此关键词记作r,没有点击播放为反向数据在此关键词记作w。其中本方法产生的正反向数据记作r1、w1,非本方法产生的正反向数据记作r2、w2,r=r1+r2,w=w1+w2。当24小时内此关键词应用本方法的误判概率err=w2/(r2+w2)/(w/(r+w)),当err>1时,则采用修正方法修正权重。修正方法是在上述正向数据中区分维度分别统计,统计出播放次数最高维度,如果播放次数最高维度与当前的权重数据匹配,则不做调整。否则调换播放次数最高维度和权重最高维度的权重值。从而实现对维度权重数据库的调整,尽量接近用户的搜索意图。
基于第三实施例,提出本发明消除关键词歧义的方法的第五实施例,请参阅图6,步骤S53包括:
S531,若误判率大于1,则基于所述第一正向数据统计第一正向数据对应的第一最高维度;
S532,基于所述第二正向数据统计第二正向数据对应的第二最高维度;
S533,基于所述第一最高维度和所述第二最高维度计算出播放次数最高维度值;
S534,若所述播放次数最高维度值与所述维度权重数据库中的最高权重值不匹配,则采用播放次数最高维度更新最高权重值。
本实施例中,若误判率大于1,则基于所述第一正向数据统计第一正向数据对应的第一最高维度;基于所述第二正向数据统计第二正向数据对应的第二最高维度;基于所述第一最高维度和所述第二最高维度计算出播放次数最高维度值;播放次数最高维度值与所述维度权重数据库中的最高权重值不匹配,则采用播放次数最高维度值更新最高权重值。根据搜索结果产生后,用户是否发生点击,点击播放为正向数据在此关键词记作r,没有点击播放为反向数据在此关键词记作w。其中本方法产生的正反向数据记作r1、w1,非本方法产生的正反向数据记作r2、w2,r=r1+r2,w=w1+w2。当24小时内此关键词应用本方法的误判概率err=w2/(r2+w2)/(w/(r+w)),当err>1时,则采用修正方法修正权重。修正方法是在上述正向数据中区分维度分别统计,统计出播放次数最高维度值,如果播放次数最高维度值与当前的权重最高维度的权重值匹配,则不做调整,否则调换播放次数最高维度值和权重最高维度的权重值。从而实现对维度权重数据库的调整,尽量接近用户的搜索意图。
基于第一实施例,提出本发明消除关键词歧义的方法的第五实施例,步骤S30包括:
通过影视排行榜数据获取节目热度数据库;
和/或;
通过搜索引擎搜索的热度排行榜获取节目热度数据库;
若所述节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值。
本实施例中,获取节目热度数据库的方式为:通过影视排行榜数据获取节目热度数据库和/或通过搜索引擎搜索的热度排行榜获取节目热度数据库。热度可能打破人们对某个关键词的通常看法,也代表了某个关键词的含义转变。举个明显的例子,在某段时间“某明星”出了热点事件,而相关的视频被疯狂点播,那么在这段时间内搜索“某明星”主要的意图就可能不是他主演或者导演的视频,而是他本身作为热点词的视频。节目热度是通过获取影视排行榜数据,以及通用搜索引擎的搜索热度排行榜等数据实现。
基于第一实施例,提出本发明消除关键词歧义的方法的第七实施例,请参阅图7,步骤S10包括:
S11,在接收到待搜索的关键词时,判定所述关键词是否为指定维度的关键词;若是,则输出所述关键词的指定维度;
S12,若否,在判断关键词数据库中是否存在至少两个与所述关键词对应的第一维度时,判定所述关键词为歧义关键词。
本实施例中,在接收到待搜索的关键词时,判定所述关键词是否为指定维度的关键词;若是,则输出所述关键词的指定维度;若否,则判断关键词数据库中是否存在至少两个与所述关键词对应的第一维度;若是,则判定所述关键词为歧义关键词。比如用户搜索语句中的用户意图本身就表达得很明显的,用户输入的搜索语句就是“我想看小明导演的电影”,这意图很明显就是要搜<导演>这个维度,因此,直接输出维度“导演”,输出“小明”导演的电影;若用户输入的关键词为“小明”,那么,在接收到关键词为“小明”时,检索关键词数据库,关键词数据库中存在第一维度“导演”和第二维度“演员”与“小明”相关,该关键词相关的维度为两个,本案的装置无法知晓用户是想要搜索该明星作为“导演”的作品,还是想搜索该明星作为“演员”的作品,因此,只输入该明星的名字时,会产生歧义,需要检索关键词数据库。
基于第一实施例,提出本发明消除关键词歧义的方法的第八实施例,请参阅图8,步骤S20包括:
S21,基于所述第一维度对影视数据库进行检索,得到多个第一维度对应的检索结果;
S22,统计各个第一维度对应的检索结果,得到各检索结果对应的结果数量。
本实施例中,基于所述第一维度对影视数据库进行检索,得到多个第一维度对应的检索结果;统计各个第一维度对应的检索结果,得到各检索结果对应的结果数量。比如“小明”在维度“演员”能检索到15部电影,在维度“导演”能检索到4部电影,那么维度“导演”相对维度“演员”的分数就低,这里的分数是相对的,一般用1到歧义总维度数n,结果多的分值为n,依次降序,最低为1。例如本例中,维度“导演”打分为1,维度“演员”打分为2。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有消除关键词歧义的程序,所述消除关键词歧义的程序被处理器执行时实现如上所述的消除关键词歧义的方法的步骤。
本发明可读存储介质的具体实施例与上述消除关键词歧义的方法的各个实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台装置设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种消除关键词歧义的方法,其特征在于,所述消除关键词歧义的方法包括以下步骤:
在接收到待搜索的关键词时,若关键词数据库中存在至少两个与所述关键词对应的第一维度,则判定所述关键词为歧义关键词,其中维度为所述关键词数据库中预存的属性或字段;
基于所述第一维度对影视数据库进行检索,得到各第一维度对应的结果数量;
若节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值;
获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。
2.如权利要求1所述的消除关键词歧义的方法,其特征在于,所述获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出的步骤包括:
对各个所述权重值进行倒序排列,并存储于维度权重数据库中;
获取各个所述权重值中的最高权重值,将所述最高权重值对应的维度输出。
3.如权利要求2所述的消除关键词歧义的方法,其特征在于,所述获取所述维度权重数据库中的最高权重值,将所述最高权重值对应的维度输出的步骤之后,所述消除关键词歧义的方法还包括:
统计设定时长范围内的用户点播行为数据,得到统计结果;
基于所述统计结果对所述维度权重数据库进行修正。
4.如权利要求3所述的消除关键词歧义的方法,其特征在于,所述统计设定时长范围内的用户点播行为数据,得到统计结果的步骤包括:
在所述设定时长范围内接收到所述最高权重值对应的维度的第一点播指令后,获取在所述设定时长范围内接收到指定维度关键词的第二点播指令;
根据所述第一点播指令产生的第一正向数据、所述设定时长范围内未点播所述最高权重值对应的维度的第一反向数据、第二点播指令产生的第二正向数据及所述设定时长范围内未点播指定维度关键词的第二反向数据,计算所述关键词对应的误判率;
若所述误判率大于1,则基于预设规则修正维度权重数据库。
5.如权利要求4所述的消除关键词歧义的方法,其特征在于,所述若所述误判率大于1,则基于预设规则修正维度权重数据库的步骤包括:
若误判率大于1,则基于所述第一正向数据统计第一正向数据对应的第一最高维度;
基于所述第二正向数据统计第二正向数据对应的第二最高维度;
基于所述第一最高维度和所述第二最高维度计算播放次数最高维度值;
若所述播放次数最高维度值与所述维度权重数据库中的最高权重值不匹配,则采用播放次数最高维度值更新最高权重值。
6.如权利要求1所述的消除关键词歧义的方法,其特征在于,所述若节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值的步骤包括:
通过影视排行榜数据获取节目热度数据库;
和/或;
通过搜索引擎搜索的热度排行榜获取节目热度数据库;
若所述节目热度数据库存在与所述关键词对应的数据,则基于所述数据分别计算各个所述结果数量对应的权重值。
7.如权利要求1所述的消除关键词歧义的方法,其特征在于,所述在接收到待搜索的关键词时,若关键词数据库中存在至少两个与所述关键词对应的第一维度,则判定所述关键词为歧义关键词步骤包括:
在接收到待搜索的关键词时,判定所述关键词是否为指定维度的关键词,若是,则输出所述关键词的指定维度;
若否,则在关键词数据库中存在至少两个与所述关键词对应的第一维度时,判定所述关键词为歧义关键词。
8.如权利要求1至7中任一项所述的消除关键词歧义的方法,其特征在于,所述基于所述第一维度对影视数据库进行检索,得到各第一维度对应的结果数量的步骤包括:
基于所述第一维度对影视数据库进行检索,得到多个第一维度对应的检索结果;
统计各个第一维度对应的检索结果,得到各检索结果对应的结果数量。
9.一种电视,其特征在于,所述电视包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的消除关键词歧义的程序,所述消除关键词歧义的程序被所述处理器执行时实现如权利要求1至8中任一项所述的消除关键词歧义的方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有消除关键词歧义的程序,所述消除关键词歧义的程序被处理器执行时实现如权利要求1至8中任一项所述的消除关键词歧义的方法的步骤。
CN201810760657.6A 2018-07-11 2018-07-11 消除关键词歧义的方法、电视及可读存储介质 Active CN108881945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810760657.6A CN108881945B (zh) 2018-07-11 2018-07-11 消除关键词歧义的方法、电视及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810760657.6A CN108881945B (zh) 2018-07-11 2018-07-11 消除关键词歧义的方法、电视及可读存储介质

Publications (2)

Publication Number Publication Date
CN108881945A CN108881945A (zh) 2018-11-23
CN108881945B true CN108881945B (zh) 2020-09-22

Family

ID=64301004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810760657.6A Active CN108881945B (zh) 2018-07-11 2018-07-11 消除关键词歧义的方法、电视及可读存储介质

Country Status (1)

Country Link
CN (1) CN108881945B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184233A (zh) * 2011-05-12 2011-09-14 西北工业大学 一种基于查询结果的语义相关度计算方法
CN102521321A (zh) * 2011-12-02 2012-06-27 华中科技大学 基于检索词歧义性和用户偏好的视频搜索方法
CN103455550A (zh) * 2013-07-26 2013-12-18 百度在线网络技术(北京)有限公司 一种获取具有对比效果的图片搜索结果的方法及装置
JP2015500525A (ja) * 2011-11-30 2015-01-05 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 情報検索のための方法および装置
CN106776741A (zh) * 2016-11-18 2017-05-31 北京奇虎科技有限公司 一种搜索方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184233A (zh) * 2011-05-12 2011-09-14 西北工业大学 一种基于查询结果的语义相关度计算方法
JP2015500525A (ja) * 2011-11-30 2015-01-05 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 情報検索のための方法および装置
CN102521321A (zh) * 2011-12-02 2012-06-27 华中科技大学 基于检索词歧义性和用户偏好的视频搜索方法
CN103455550A (zh) * 2013-07-26 2013-12-18 百度在线网络技术(北京)有限公司 一种获取具有对比效果的图片搜索结果的方法及装置
CN106776741A (zh) * 2016-11-18 2017-05-31 北京奇虎科技有限公司 一种搜索方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
用户查询歧义性分析研究;郑志诚;《中国博士学位论文全文数据库 信息科技辑》;20140715;全文 *

Also Published As

Publication number Publication date
CN108881945A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
US11886474B2 (en) Method and system for processing ambiguous, multi-term search queries
US20140156277A1 (en) Information processing device and content retrieval method
US20170195737A1 (en) Method for video search and electronic device
US20120054065A1 (en) System and method for service recommendation
US10255321B2 (en) Interactive system, server and control method thereof
CN111294660B (zh) 视频片段定位方法、服务器、客户端及电子设备
CN112597396A (zh) 搜索召回排序方法、系统及计算机可读存储介质
CN107592572B (zh) 视频推荐方法、装置及其设备
CN110674345A (zh) 一种视频搜索方法、装置及服务器
CN113347464B (zh) 一种视频播放流量预测方法、装置、电子设备及存储介质
CN108881945B (zh) 消除关键词歧义的方法、电视及可读存储介质
JP2009064391A (ja) キーワード抽出装置、キーワード抽出方法、キーワード抽出プログラム、および、キーワード抽出プログラムを記録した記録媒体
JP6433270B2 (ja) コンテンツ検索結果提供システム及びコンテンツ検索結果提供方法
CN114424578A (zh) 一种视频搜索方法、控制设备及电视
WO2021128967A1 (zh) 语音识别修正方法、装置和存储介质
CN113127686B (zh) 视频搜索方法、装置、设备及存储介质
CN114528478A (zh) 一种用户查询推荐方法、装置、电子设备及存储介质
CN113707145A (zh) 显示设备及语音搜索方法
CN113312889A (zh) 报表处理方法、装置、终端和存储介质
CN112423038A (zh) 视频推荐方法、终端及存储介质
CN111103986B (zh) 用户词库管理方法及装置、输入方法及装置
CN111753069B (zh) 语义检索方法、装置、设备及存储介质
CN112883295B (zh) 一种数据处理方法、装置和介质
CN111382566B (zh) 一种站点主题的确定方法、装置和电子设备
CN116166872A (zh) 一种排序处理方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant