CN109783690A - 一种视频查询方法及装置 - Google Patents

一种视频查询方法及装置 Download PDF

Info

Publication number
CN109783690A
CN109783690A CN201910120405.1A CN201910120405A CN109783690A CN 109783690 A CN109783690 A CN 109783690A CN 201910120405 A CN201910120405 A CN 201910120405A CN 109783690 A CN109783690 A CN 109783690A
Authority
CN
China
Prior art keywords
word
processed
query
expansion
query word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910120405.1A
Other languages
English (en)
Inventor
王天畅
陈英傑
叶澄灿
何咏倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910120405.1A priority Critical patent/CN109783690A/zh
Publication of CN109783690A publication Critical patent/CN109783690A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种视频查询方法及装置,获取用户输入的待处理查询词,根据待处理查询词获取待处理扩展词,其中待处理扩展词与待处理查询词的语义相似度大于或等于预设相似度,查询与待处理查询词匹配的视频,以及与待处理扩展词匹配的视频,作为与待处理查询词对应的目标视频。因为待处理扩展词与待处理查询词的语义相似度大于或等于预设相似度,因此与待处理扩展词匹配的视频也与待处理查询词相关,因此本申请实施例可以扩充用于查询的查询词,从而得到较多的视频作为查询结果,这样用户可以有更多的选择,提高了用户的查询体验。

Description

一种视频查询方法及装置
技术领域
本发明涉及计算机领域,特别是涉及一种视频查询方法及装置。
背景技术
随着信息科技的发展,网络数据的数量也越来越多,如何从众多的网络数据中获取需要的信息,是一个重要的问题。目前,用户可以通过输入查询词来查询感兴趣的内容,例如可以通过查询词查询相关视频,从而提高获取信息的效率。
现有的视频查询方式中,可以计算用户输入的查询词和视频标题的相关程度,若相关程度较高,则认为该视频标题对应的视频是用户感兴趣的视频,将该视频作为与查询词对应的查询结果。具体的,可以对查询词和视频标题进行分词得到分词结果,再判断二者的分词结果是否匹配,若匹配则认为二者相关程度较高。例如视频标题“演唱会”可以分词得到“演唱”和“会”,而查询词“歌会”可以分词得到“歌”和“会”,其中“会”和“会”匹配,因此,“演唱会”和“歌会”的相关程度可以为50%。
在实际操作中,通过分词匹配的方式得到的查询结果较少,不能满足用户的查询需求,进而影响用户的查询体验。
发明内容
为解决上述技术问题,本申请实施例提供一种视频查询方法及装置,增加了查询结果的数量,提高用户的查询体验。
本申请实施例提供了一种视频查询方法,所述方法包括:
获取用户输入的待处理查询词;
根据所述待处理查询词获取待处理扩展词,所述待处理扩展词与所述待处理查询词的语义相似度大于或等于预设相似度;
查询与所述待处理查询词匹配的视频,以及与所述待处理扩展词匹配的视频,作为与所述待处理查询词对应的目标视频。
可选的,所述根据所述待处理查询词获取待处理扩展词,包括:
将所述待处理查询词输入机器学习模型,得到所述机器学习模型输出的待处理扩展词;所述机器学习模型基于历史查询词以及历史扩展词训练得到,所述历史扩展词为历史视频的标题文本,所述历史视频基于所述历史查询词被查询到且被用户选择。
可选的,所述机器学习模型基于以下方式训练得到:
对所述历史查询词进行分词,得到至少一个第一分词结果;
对所述历史扩展词进行分词,得到至少一个第二分词结果;
基于所述第一分词结果和所述第二分词结果的对齐关系,得到对齐词组;
基于所述对齐词组对所述机器学习模型进行训练。
可选的,所述将所述待处理查询词输入机器学习模型,得到所述机器学习模型输出的待处理扩展词,包括:
将所述待处理查询词输入机器学习模型中,以便所述机器学习模型对所述待处理查询词进行分词,得到第三分词结果以及与所述第三分词结果对齐的第四分词结果,根据所述第四分词结果得到待处理扩展词,并输出所述待处理扩展词。
可选的,所述将所述待处理查询词输入机器学习模型,得到所述机器学习模型输出的待处理扩展词,包括:
将所述待处理查询词输入机器学习模型,得到所述机器学习模型的至少一个输出结果;
利用分类模型得到所述输出结果的得分,将所述得分高于或等于阈值的输出结果作为待处理扩展词。
可选的,所述根据所述待处理查询词获取待处理扩展词,包括:
根据所述待处理查询词,在预先建立的近义词库中查找待处理扩展词,所述近义词库中包括预先对应存储的所述待处理查询词,以及与所述待处理查询词的语义相似度大于或等于预设相似度的词。
可选的,所述方法还包括:
根据与所述目标视频匹配的所述待处理查询词的数量,和与所述目标视频匹配的所述待处理扩展词的数量,确定所述目标视频与所述待处理查询词的相关度;
显示所述相关度大于或等于预设值的目标视频以供用户选择。
可选的,所述根据与所述目标视频匹配的所述待处理查询词的数量,和与所述目标视频匹配的所述待处理扩展词的数量,确定所述目标视频与所述待处理查询词的相关度,包括:
为所述待处理查询词确定第一权重,为所述待处理扩展词确定第二权重;
计算与所述目标视频匹配的所述待处理查询词的数量与第一权重的第一乘积,以及与所述目标视频匹配的所述待处理扩展词的数量与第二权重的第二乘积;
将所述第一乘积和所述第二乘积的和,作为所述目标视频与所述待处理查询词的相关度。
本申请实施例还提供了一种视频查询装置,所述装置包括:
查询词获取单元,用于获取用户输入的待处理查询词;
扩展词获取单元,用于根据所述待处理查询词获取待处理扩展词,所述待处理扩展词与所述待处理查询词的语义相似度大于或等于预设相似度;
视频查询单元,用于查询与所述待处理查询词匹配的视频,以及与所述待处理扩展词匹配的视频,作为与所述待处理查询词对应的目标视频。
可选的,所述扩展词获取单元包括:
第一扩展词获取子单元,用于将所述待处理查询词输入机器学习模型,得到所述机器学习模型输出的待处理扩展词;所述机器学习模型基于历史查询词以及历史扩展词训练得到,所述历史扩展词为历史视频的标题文本,所述历史视频基于所述历史查询词被查询到且被用户选择。
可选的,所述机器学习模型基于以下方式训练得到:
对所述历史查询词进行分词,得到至少一个第一分词结果;
对所述历史扩展词进行分词,得到至少一个第二分词结果;
基于所述第一分词结果和所述第二分词结果的对齐关系,得到对齐词组;
基于所述对齐词组对所述机器学习模型进行训练。
可选的,所述扩展词查询子单元具体用于:
将所述待处理查询词输入机器学习模型中,以便所述机器学习模型对所述待处理查询词进行分词,得到第三分词结果以及与所述第三分词结果对齐的第四分词结果,根据所述第四分词结果得到待处理扩展词,并输出所述待处理扩展词。
可选的,所述扩展词查询子单元,包括:
输入单元,用于将所述待处理查询词输入机器学习模型,得到所述机器学习模型的至少一个输出结果;
扩展词确定单元,用于利用分类模型得到所述输出结果的得分,将所述得分高于或等于阈值的输出结果作为待处理扩展词。
可选的,所述扩展词获取单元,包括:
第二扩展词获取子单元,用于根据所述待处理查询词,在预先建立的近义词库中查找待处理扩展词,所述近义词库中包括预先对应存储的所述待处理查询词,以及与所述待处理查询词的语义相似度大于或等于预设相似度的词。
可选的,所述装置还包括:
相关度确定单元,用于根据与所述目标视频匹配的所述待处理查询词的数量,和与所述目标视频匹配的所述待处理扩展词的数量,确定所述目标视频与所述待处理查询词的相关度;
显示单元,用于显示所述相关度大于或等于预设值的目标视频以供用户选择。
可选的,所述相关度确定单元,包括:
权重确定单元,用于为所述待处理查询词确定第一权重,为所述待处理扩展词确定第二权重;
计算单元,用于计算与所述目标视频匹配的所述待处理查询词的数量与第一权重的第一乘积,以及与所述目标视频匹配的所述待处理扩展词的数量与第二权重的第二乘积;
相关度确定子单元,用于将所述第一乘积和第二乘积的和,作为所述目标视频与所述待处理查询词的相关度。
本申请实施例提供了一种视频查询方法及装置,获取用户输入的待处理查询词,根据待处理查询词获取待处理扩展词,其中待处理扩展词与待处理查询词的语义相似度大于或等于预设相似度,查询与待处理查询词匹配的视频,以及与待处理扩展词匹配的视频,作为与待处理查询词对应的目标视频。因为待处理扩展词与待处理查询词的语义相似度大于或等于预设相似度,因此与待处理扩展词匹配的视频也与待处理查询词相关,因此本申请实施例可以扩充用于查询的查询词,从而得到较多的视频作为查询结果,这样用户可以有更多的选择,提高了用户的查询体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种视频查询方法的流程图;
图2为本申请实施例提供的一种视频查询装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
发明人经过研究发现,现有的视频查询方式中,可以计算用户输入的查询词和视频标题的相关程度,来确定查询词对应的视频。具体的,可以对查询词和视频标题进行分词得到分词结果,再根据二者的分词结果确定二者的相关程度,再根据相关程度确定查询词对应的视频,通常来说,相关程度较高的视频标题对应的视频可以作为查询词的查询结果。例如视频标题“演唱会”可以分词得到“演唱”和“会”,而查询词“歌会”可以分词得到“歌”和“会”,其中“会”和“会”匹配,因此,“演唱会”和“歌会”的相关程度可以为50%。从分词的角度来说,相关程度较低,因此视频标题为“演唱会”的视频不会作为查询词“歌会”的查询结果。
在实际操作中,用户输入的查询词往往由用户主观确定,表达的是用户主观的需求,例如“歌会”是用户自定义的词,而视频标题是与视频的主题相关的,例如“演唱会”是视频标题,表示视频的主题是演唱会。通常来说,用户自定义的词和视频标题存在不同表现形式而语义相同的情况,例如“演唱会”和“歌会”在语义上是相近的,但是在字面上是不同的,因此,用户在以“歌会”作为查询词时,返回的结果中不会包括标题名称为“演唱会”的视频。因此,仅仅通过分词匹配的方式来确定与查询词匹配的视频,一些符合条件的视频未能查询得到,会导致检索得到的视频的数量较少,查询到的数量较少的视频不能满足用户的查询需求,会影响用户的查询体验。
基于此,本申请实施例提供了一种视频查询方法及装置,获取用户输入的待处理查询词,根据待处理查询词获取待处理扩展词,其中待处理扩展词与待处理查询词的语义相似度大于或等于预设相似度,查询与待处理查询词匹配的视频,以及与待处理扩展词匹配的视频,作为与待处理查询词对应的目标视频。因为待处理扩展词与待处理查询词的语义相似度大于或等于预设相似度,因此与待处理扩展词匹配的视频也与待处理查询词相关,因此本申请实施例可以扩充用于查询的查询词,从而得到较多的视频作为查询结果,这样用户可以有更多的选择,提高了用户的查询体验。
下面结合附图,通过实施例来详细说明本申请实施例提供的一种视频查询方法及装置的具体实现方式。
参考图1所示为本申请实施例提供的一种视频查询方法的流程图,可以包括以下步骤。
S101,获取用户输入的待处理查询词。
待处理查询词是当前用户输入的用于查询相关视频的词,例如用户想查询某歌手的唱歌的视频,可以将“某歌手的歌会”作为待处理查询词。目前的视频查询方式中,可以通过视频的标题与待处理查询词进行匹配,得到与待处理查询词相关的视频。然而由于待处理查询词带有用户的语言习惯,能够匹配到的视频通常较少。
S102,根据待处理查询词获取待处理扩展词。
待处理扩展词是与待处理查询词具有相似的语义的词,具体的,待处理扩展词与待处理查询词的语义相似度大于或等于预设相似度,其中语义相似度可以通过语义相似度算法得到。举例来说,“歌会”的近义词可以是“演唱会”。
待处理扩展词的获取方式可以是在近义词库中查找。近义词库是预先设置的,包括预先对应存储的待处理查询词,以及与待处理查询词的语义相似度大于或等于预设相似度的词,当然,一个待处理查询词词可以对应有一个或多个语义相似度大于或等于预设相似度的词。在本申请实施例中,可以在预先设置的近义词库中,查找待处理查询词对应的近义词作为待处理查询词对应的待处理扩展词。
具体的,近义词库可以是预先根据词和词之间的语义相似度确定的,语义相似度大于或等于预设相似度的两个词可以互为近义词。当然,近义词库也可以是通过机器学习模型得到的,例如可以预先通过多个历史查询词和历史扩展词进行训练得到机器学习模型,其中历史扩展词与历史查询词的语义相似度大于或等于预设相似度。在得到机器学习模型后,将一些预设词输入机器学习模型中,得到预设词的近义词,将预设词和近义词对应存储至近义词库中。
待处理扩展词的获取方式还可以通过机器学习模型。具体的,可以将待处理查询词输入机器学习模型,得到机器学习模型输出的待处理扩展词,其中,机器学习模型基于历史查询词以及历史扩展词训练得到,历史查询词和历史扩展词的语义相似度大于或等于预设相似度。这样,得到的机器学习模型具有了近义词转换的能力,可以将输入的待处理查询词转换为输出的待处理扩展词,且待处理扩展词是待处理查询词的近义词,即待处理扩展词和待处理查询词的语义相似度大于或等于预设相似度。
本申请实施例中的待处理扩展词是为了查询视频的,为了提高查询准确性,待处理扩展词可以是视频标题所在的语义空间中的词。具体的,用于训练机器学习模型的历史查询词可以是历史查询记录中的历史查询词,而历史扩展词可以是历史视频的视频文本,历史视频基于历史查询词被查询到的,即与历史查询词匹配的,且被用户选择。也就是说,历史用户可以基于历史查询词进行视频查询,对查询到的视频中选择历史视频,历史用户选择的历史视频是符合用户的查询意图的,因此可以作为满足用户的历史视频,这样,可以将符合用户的查询意图的历史视频的标题文本作为历史查询词对应的历史扩展词,将历史查询词和历史扩展词作为一次翻译行为中的平行语料,训练得到机器学习模型。而得到的机器学习模型,可以将用户语言所在的语义空间中的词转换为视频标题所在的语义空间中的词,同时转换前的词和转换后的词具有相似的语义。
基于历史查询词以及历史扩展词训练得到机器学习模型,可以具体为,分别对历史查询词以及历史扩展词进行正则化和/或分词等预处理,再根据预处理后的结果进行机器学习模型的训练。
具体的,对历史查询词和历史扩展词进行正则化处理可以增加历史查询词和历史扩展词的数量;对历史查询词进行分词可以得到至少一个第一分词结果,对历史扩展词进行分词可以得到至少一个第二分词结果;根据历史查询词以及历史扩展词的对应关系,可以得到第一分词结果和第二分词结果的对齐关系,即得到第一分词结果和第二分词结果之间的语义关联关系,再基于第一分词结果和第二分词结果的对齐关系得到对齐词组,基于对齐词组进行训练得到机器学习模型。
其中,分词结果的对齐关系是分词结果之间的对应关系,具有对应关系的分词结果可以构成对齐词组,例如分词结果“歌会”和分词结果“演唱会”具有对应关系,可以令这两个分词结果对齐,构成对齐词组,具体实施时,可以通过GIZA++工具做双向的word-based翻译模型训练得到。
这样,将待处理查询词输入机器学习模型中后,机器学习模型可以对待处理查询词进行分词,得到第三分词结果,进而得到与第三分词结果对齐的第四分词结果,根据第四分词结果得到待处理扩展词,并输出待处理扩展词。
在本申请实施例中,机器学习模型可以是机器翻译模型,例如可以是深层神经网络中的端到端(ending to ending)模型,具体的,可以是序列到序列(Sequence toSequence,seq2seq)模型,也可以是注意力(Attention)模型,还可以是其他端到端模型。
对机器翻译模型进行训练,可以具体为,对待处理查询词进行正则化和/或分词等预处理,得到第一分词结果和第二分析结果,基于第一分词结果和第二分析结果,利用GIZA++工具进行词(word-based)翻译模型训练,得到第一分词结果和第二分词结果的对应关系,即得到了对齐的双向语料,基于对齐的双向语料进行短语(phrase-based)翻译模型训练,从而得到机器翻译模型。
在本申请实施例中,机器学习模型输出的结果可以是多个,而这些输出结果不一定有有助于查询,因此可以对输出结果进行筛选得到待处理扩展词。具体的,可以利用分类模型得到输出结果的得分,并将得分高于或等于阈值的输出结果作为待处理扩展词。具体的,分类模型可以是梯度提升树(Gradient Boosting Decision Tree,GBDT)模型,利用梯度提升树模型,可以根据输出结果和待处理扩展词,得到各个输出结果的得分。在机器学习模型为翻译模型时,其中,GBDT模型确定输出结果的得分的过程中使用的特征可以包括以下特征的至少一项:翻译模型概率、待处理查询词查询次数、待处理查询词点击率、待处理查询词长度、待处理查询词各词(term)的逆文本频率指数((Inverse DocumentFrequency,idf)、待处理查询词和输出结果的翻译距离等。
S103,查询与待处理查询词匹配的视频,以及与待处理扩展词匹配的视频。
查询与待处理查询词匹配的视频,可以通过对待处理查询词进行分词,查询到与之匹配的视频标题,将该视频标题对应的视频作为与待处理查询词匹配的视频。查询与待处理扩展词匹配的视频,可以通过对待处理扩展词进行分词,查询到与之匹配的视频标题,将该视频标题对应的视频作为与待处理扩展词匹配的视频。
由于现有技术中仅仅基于待处理查询词进行视频查询,得到的结果是与待处理查询词在字面上匹配的视频,而本申请实施例中基于待处理查询词和待处理扩展词同步进行查询,得到的结果可以是与待处理查询词在字面上匹配的视频,也可以是与待处理扩展词在字面上匹配的视频,又因为待处理扩展词与待处理查询词的语义相近,而与待处理扩展词在字面上匹配的视频,与待处理查询词在语义上也相关,因此,得到的与待处理查询词相关的视频的数量更多。
在本申请实施例中,在查询得到与待处理查询词匹配的视频,以及与待处理扩展词匹配的视频后,将查询到的视频作为与待处理查询词对应的目标视频。
作为一种可能的实现方式,可以将目标视频作为查询结果,并为用户显示查询结果,当然,在进行查询结果的显示时,可以根据实际情况对查询结果进行排序。
作为另一种可能的实现方式,也可以对查询到的目标视频进行筛选以及排序。具体的,可以根据与目标视频匹配的待处理查询词的数量,和与目标视频匹配的待处理扩展词的数量,确定目标视频与待处理查询词的相关度,显示相关度大于或等于预设值的目标视频以供用户选择,其中,目标视频的显示顺序可以根据目标视频与待处理查询词的相关度确定。
具体的,根据与目标视频匹配的待处理查询词和待处理扩展词的数量,确定目标视频与待处理查询词的相关度的规则,可以是预先设定的。
在本申请实施例中,可以根据与目标视频匹配的待处理查询词与待处理扩展词的数量,与待处理查询词与待处理扩展词的总数量的比值,来确定目标视频与待处理查询词的相关度。举例来说,待处理查询词为1个,待处理扩展词为2个,也就是说,目标视频与可以与3个词匹配,则可以令与1个词匹配的目标视频与待处理查询词的相关度为33.3%,令与2个词匹配的目标视频与待处理查询词的相关度为66.7,令与3个词均匹配的目标视频与待处理查询词的相关度为100%。
事实上,待处理查询词和待处理扩展词的重要程度可能不同,通常来说,只与待处理查询词匹配的目标视频与待处理查询词的相关度较高,只与较少个待处理扩展词匹配的目标视频与待处理查询词的相关度较低,只与较多个待处理扩展词匹配的目标视频与待处理查询词的相关度较高,同时与待处理查询词和待处理扩展词匹配的目标视频,与待处理查询词的相关度最高。
因此,在本申请实施例中,还可以为待处理查询词确定第一权重,为待处理扩展词确定第二权重,计算与目标视频匹配的待处理查询词的数量与第一权重的第一乘积,以及与目标视频匹配的待处理扩展词的数量与第二权重的第二乘积,将第一乘积和第二乘积的和,作为目标视频与待处理查询词的相关度。
举例来说,待处理查询词为1个,待处理扩展词为2个,令待处理查询词的权重为1.5,第一待处理扩展词的权重为0.9,第二待处理扩展词的权重为0.6,阈值为30%。若第一目标视频仅与待处理查询词匹配,则可以认为第一目标视频与待处理查询词的相关度为33.3%*1.5=50%;若第二目标视频与第一待处理扩展词匹配,则可以认为第二目标视频与待处理查询词的相关度为33.3%*0.9=30%;若第三目标视频与第二待处理扩展词匹配,则可以认为第三目标视频与待处理查询词的相关度为33.3%*0.6=20%;若第四目标视频同时与第一待处理扩展词和第二待处理扩展词匹配,则可以认为第四目标视频与待处理查询词的相关度为50%。则可以显示第一目标视频、第二目标视频和第四目标视频。
为了使用户较为方便的获取与待处理查询词相关度较高的目标视频,在为用户显示目标视频时,还可以按照相关度自高向低的顺序进行显示。
本申请实施例提供了一种视频查询方法,获取用户输入的待处理查询词,根据待处理查询词获取待处理扩展词,其中待处理扩展词与待处理查询词具有相似的语义,分别查询与待处理查询词匹配的视频,以及与待处理扩展词匹配的视频。因为待处理扩展词与待处理查询词具有相似的语义,因此与待处理扩展词匹配的视频也与待处理查询词相关,因此本申请实施例可以扩充用于查询的查询词,从而得到较多的视频作为查询结果,这样用户可以有更多的选择,提高了用户的查询体验。
基于以上一种视频查询方法,本申请实施例还提供了一种视频查询装置,参考图2所示,为本申请实施例提供的一种视频查询装置的结构框图,所述装置包括:
查询词获取单元110,用于获取用户输入的待处理查询词;
扩展词获取单元120,用于根据所述待处理查询词获取待处理扩展词,所述待处理扩展词与所述待处理查询词的语义相似度大于或等于预设相似度;
视频查询单元130,用于查询与所述待处理查询词匹配的视频,以及与所述待处理扩展词匹配的视频,作为与所述待处理查询词对应的目标视频。
可选的,所述扩展词获取单元包括:
第一扩展词获取子单元,用于将所述待处理查询词输入机器学习模型,得到所述机器学习模型输出的待处理扩展词;所述机器学习模型基于历史查询词以及历史扩展词训练得到,所述历史扩展词为历史视频的标题文本,所述历史视频基于所述历史查询词被查询到且被用户选择。
可选的,所述机器学习模型基于以下方式训练得到:
对所述历史查询词进行分词,得到至少一个第一分词结果;
对所述历史扩展词进行分词,得到至少一个第二分词结果;
基于所述第一分词结果和所述第二分词结果的对齐关系,得到对齐词组;
基于所述对齐词组对所述机器学习模型进行训练。
可选的,所述扩展词查询子单元具体用于:
将所述待处理查询词输入机器学习模型中,以便所述机器学习模型对所述待处理查询词进行分词,得到第三分词结果以及与所述第三分词结果对齐的第四分词结果,根据所述第四分词结果得到待处理扩展词,并输出所述待处理扩展词。
可选的,所述扩展词查询子单元,包括:
输入单元,用于将所述待处理查询词输入机器学习模型,得到所述机器学习模型的至少一个输出结果;
扩展词确定单元,用于利用分类模型得到所述输出结果的得分,将所述得分高于或等于阈值的输出结果作为待处理扩展词。
可选的,所述扩展词获取单元,包括:
第二扩展词获取子单元,用于根据所述待处理查询词,在预先建立的近义词库中查找待处理扩展词,所述近义词库中包括预先对应存储的所述待处理查询词,以及与所述待处理查询词的语义相似度大于或等于预设相似度的词。
可选的,所述装置还包括:
相关度确定单元,用于根据与所述目标视频匹配的所述待处理查询词的数量,和与所述目标视频匹配的所述待处理扩展词的数量,确定所述目标视频与所述待处理查询词的相关度;
显示单元,用于显示所述相关度大于或等于预设值的目标视频以供用户选择。
可选的,所述相关度确定单元,包括:
权重确定单元,用于为所述待处理查询词确定第一权重,为所述待处理扩展词确定第二权重;
计算单元,用于计算与所述目标视频匹配的所述待处理查询词的数量与第一权重的第一乘积,以及与所述目标视频匹配的所述待处理扩展词的数量与第二权重的第二乘积;
相关度确定子单元,用于将所述第一乘积和第二乘积的和,作为所述目标视频与所述待处理查询词的相关度。
本申请实施例提供了一种视频查询的装置,获取用户输入的待处理查询词,根据待处理查询词获取待处理扩展词,其中待处理扩展词与待处理查询词的语义相似度大于或等于预设相似度,查询与待处理查询词匹配的视频,以及与待处理扩展词匹配的视频,作为与待处理查询词对应的目标视频。因为待处理扩展词与待处理查询词的语义相似度大于或等于预设相似度,因此与待处理扩展词匹配的视频也与待处理查询词相关,因此本申请实施例可以扩充用于查询的查询词,从而得到较多的视频作为查询结果,这样用户可以有更多的选择,提高了用户的查询体验。
本申请实施例中提到的“第一……”、“第一……”等名称中的“第一”只是用来做名字标识,并不代表顺序上的第一。该规则同样适用于“第二”等。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法实施例和设备实施例而言,由于其基本相似于系统实施例,所以描述得比较简单,相关之处参见系统实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的优选实施方式,并非用于限定本申请的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (16)

1.一种视频查询方法,其特征在于,所述方法包括:
获取用户输入的待处理查询词;
根据所述待处理查询词获取待处理扩展词,所述待处理扩展词与所述待处理查询词的语义相似度大于或等于预设相似度;
查询与所述待处理查询词匹配的视频,以及与所述待处理扩展词匹配的视频,作为与所述待处理查询词对应的目标视频。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理查询词获取待处理扩展词,包括:
将所述待处理查询词输入机器学习模型,得到所述机器学习模型输出的待处理扩展词;所述机器学习模型基于历史查询词以及历史扩展词训练得到,所述历史扩展词为历史视频的标题文本,所述历史视频基于所述历史查询词被查询到且被用户选择。
3.根据权利要求2所述的方法,其特征在于,所述机器学习模型基于以下方式训练得到:
对所述历史查询词进行分词,得到至少一个第一分词结果;
对所述历史扩展词进行分词,得到至少一个第二分词结果;
基于所述第一分词结果和所述第二分词结果的对齐关系,得到对齐词组;
基于所述对齐词组对所述机器学习模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述将所述待处理查询词输入机器学习模型,得到所述机器学习模型输出的待处理扩展词,包括:
将所述待处理查询词输入机器学习模型中,以便所述机器学习模型对所述待处理查询词进行分词,得到第三分词结果以及与所述第三分词结果对齐的第四分词结果,根据所述第四分词结果得到待处理扩展词,并输出所述待处理扩展词。
5.根据权利要求2所述的方法,其特征在于,所述将所述待处理查询词输入机器学习模型,得到所述机器学习模型输出的待处理扩展词,包括:
将所述待处理查询词输入机器学习模型,得到所述机器学习模型的至少一个输出结果;
利用分类模型得到所述输出结果的得分,将所述得分高于或等于阈值的输出结果作为待处理扩展词。
6.根据权利要求1所述的方法,其特征在于,所述根据所述待处理查询词获取待处理扩展词,包括:
根据所述待处理查询词,在预先建立的近义词库中查找待处理扩展词,所述近义词库中包括预先对应存储的所述待处理查询词,以及与所述待处理查询词的语义相似度大于或等于预设相似度的词。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
根据与所述目标视频匹配的所述待处理查询词的数量,和与所述目标视频匹配的所述待处理扩展词的数量,确定所述目标视频与所述待处理查询词的相关度;
显示所述相关度大于或等于预设值的目标视频以供用户选择。
8.根据权利要求7所述的方法,其特征在于,所述根据与所述目标视频匹配的所述待处理查询词的数量,和与所述目标视频匹配的所述待处理扩展词的数量,确定所述目标视频与所述待处理查询词的相关度,包括:
为所述待处理查询词确定第一权重,为所述待处理扩展词确定第二权重;
计算与所述目标视频匹配的所述待处理查询词的数量与第一权重的第一乘积,以及与所述目标视频匹配的所述待处理扩展词的数量与第二权重的第二乘积;
将所述第一乘积和所述第二乘积的和,作为所述目标视频与所述待处理查询词的相关度。
9.一种视频查询装置,其特征在于,所述装置包括:
查询词获取单元,用于获取用户输入的待处理查询词;
扩展词获取单元,用于根据所述待处理查询词获取待处理扩展词,所述待处理扩展词与所述待处理查询词的语义相似度大于或等于预设相似度;
视频查询单元,用于查询与所述待处理查询词匹配的视频,以及与所述待处理扩展词匹配的视频,作为与所述待处理查询词对应的目标视频。
10.根据权利要求9所述的装置,其特征在于,所述扩展词获取单元包括:
第一扩展词获取子单元,用于将所述待处理查询词输入机器学习模型,得到所述机器学习模型输出的待处理扩展词;所述机器学习模型基于历史查询词以及历史扩展词训练得到,所述历史扩展词为历史视频的标题文本,所述历史视频基于所述历史查询词被查询到且被用户选择。
11.根据权利要求10所述的装置,其特征在于,所述机器学习模型基于以下方式训练得到:
对所述历史查询词进行分词,得到至少一个第一分词结果;
对所述历史扩展词进行分词,得到至少一个第二分词结果;
基于所述第一分词结果和所述第二分词结果的对齐关系,得到对齐词组;
基于所述对齐词组对所述机器学习模型进行训练。
12.根据权利要求11所述的装置,其特征在于,所述扩展词查询子单元具体用于:
将所述待处理查询词输入机器学习模型中,以便所述机器学习模型对所述待处理查询词进行分词,得到第三分词结果以及与所述第三分词结果对齐的第四分词结果,根据所述第四分词结果得到待处理扩展词,并输出所述待处理扩展词。
13.根据权利要求10所述的装置,其特征在于,所述扩展词查询子单元,包括:
输入单元,用于将所述待处理查询词输入机器学习模型,得到所述机器学习模型的至少一个输出结果;
扩展词确定单元,用于利用分类模型得到所述输出结果的得分,将所述得分高于或等于阈值的输出结果作为待处理扩展词。
14.根据权利要求9所述的装置,其特征在于,所述扩展词获取单元,包括:
第二扩展词获取子单元,用于根据所述待处理查询词,在预先建立的近义词库中查找待处理扩展词,所述近义词库中包括预先对应存储的所述待处理查询词,以及与所述待处理查询词的语义相似度大于或等于预设相似度的词。
15.根据权利要求9-14任意一项所述的装置,其特征在于,所述装置还包括:
相关度确定单元,用于根据与所述目标视频匹配的所述待处理查询词的数量,和与所述目标视频匹配的所述待处理扩展词的数量,确定所述目标视频与所述待处理查询词的相关度;
显示单元,用于显示所述相关度大于或等于预设值的目标视频以供用户选择。
16.根据权利要求15所述的装置,其特征在于,所述相关度确定单元,包括:
权重确定单元,用于为所述待处理查询词确定第一权重,为所述待处理扩展词确定第二权重;
计算单元,用于计算与所述目标视频匹配的所述待处理查询词的数量与第一权重的第一乘积,以及与所述目标视频匹配的所述待处理扩展词的数量与第二权重的第二乘积;
相关度确定子单元,用于将所述第一乘积和第二乘积的和,作为所述目标视频与所述待处理查询词的相关度。
CN201910120405.1A 2019-02-18 2019-02-18 一种视频查询方法及装置 Pending CN109783690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910120405.1A CN109783690A (zh) 2019-02-18 2019-02-18 一种视频查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910120405.1A CN109783690A (zh) 2019-02-18 2019-02-18 一种视频查询方法及装置

Publications (1)

Publication Number Publication Date
CN109783690A true CN109783690A (zh) 2019-05-21

Family

ID=66504456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910120405.1A Pending CN109783690A (zh) 2019-02-18 2019-02-18 一种视频查询方法及装置

Country Status (1)

Country Link
CN (1) CN109783690A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738042A (zh) * 2019-09-12 2020-01-31 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法
CN107577763A (zh) * 2017-09-04 2018-01-12 北京京东尚科信息技术有限公司 检索方法和装置
CN108304444A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 信息查询方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法
CN107577763A (zh) * 2017-09-04 2018-01-12 北京京东尚科信息技术有限公司 检索方法和装置
CN108304444A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 信息查询方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738042A (zh) * 2019-09-12 2020-01-31 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN110738042B (zh) * 2019-09-12 2024-01-05 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质

Similar Documents

Publication Publication Date Title
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
CN103838833B (zh) 基于相关词语语义分析的全文检索系统
Srividhya et al. Evaluating preprocessing techniques in text categorization
US8126897B2 (en) Unified inverted index for video passage retrieval
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
CN108538286A (zh) 一种语音识别的方法以及计算机
CN109829052A (zh) 一种基于人机交互的开放式对话方法和系统
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
US20200073890A1 (en) Intelligent search platforms
CN109829045A (zh) 一种问答方法和装置
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
WO2019038749A1 (en) METHOD AND SYSTEM FOR PROVIDING RE-SEGMENTED AUDIO CONTENT
CN111159381B (zh) 数据搜索方法及装置
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN109783690A (zh) 一种视频查询方法及装置
GB2568575A (en) Document search using grammatical units
Modi et al. Multimodal web content mining to filter non-learning sites using NLP
Yadav et al. A model for recapitulating audio messages using machine learning
Mokhale et al. A study on different multi-document summarization techniques
CA2669218A1 (en) Generating chinese language banners
Petkevicius et al. Intrinsic Word Embedding Model Evaluation for Lithuanian Language Using Adapted Similarity and Relatedness Benchmark Datasets.
CN117407511B (zh) 一种基于Bert模型的电力安全规程智能问答方法及系统
Wen et al. Clustering web search results using semantic information
Brock et al. Textstar: a Fast and Lightweight Graph-Based Algorithm for Extractive Summarization and Keyphrase Extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521