CN106570196B - 视频节目的搜索方法和装置 - Google Patents

视频节目的搜索方法和装置 Download PDF

Info

Publication number
CN106570196B
CN106570196B CN201611028444.1A CN201611028444A CN106570196B CN 106570196 B CN106570196 B CN 106570196B CN 201611028444 A CN201611028444 A CN 201611028444A CN 106570196 B CN106570196 B CN 106570196B
Authority
CN
China
Prior art keywords
matrix
index
description
vector
query vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611028444.1A
Other languages
English (en)
Other versions
CN106570196A (zh
Inventor
李贤�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201611028444.1A priority Critical patent/CN106570196B/zh
Publication of CN106570196A publication Critical patent/CN106570196A/zh
Application granted granted Critical
Publication of CN106570196B publication Critical patent/CN106570196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Abstract

本发明公开了一种视频节目的搜索方法,其特征在于,包括:接收用户输入的描述视频节目的描述词条;根据预设的潜在语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。相应地,本发明还公开了一种视频节目的搜索装置。采用本发明实施例,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。

Description

视频节目的搜索方法和装置
技术领域
本发明涉及计算机领域,尤其涉及视频节目的搜索方法和装置。
背景技术
在做综艺节目推荐时,ContentBase方法是一种重要的策略,主要是通过综艺内容描述的相似度进行聚类推荐,这种方法将内容相近的文本进行了聚类,现有主要是基于TF-IDF的Rocchio算法,Rocchio算法来源于向量空间模型理论,向量空间模型Vector spacemodel的基本思想为采用向量来表示一个文本,之后的处理过程就可以转化为空间中向量的运算。Rocchio算法训练的过程,其实就是建立类别特征向量的过程,对于给定的一个未知文本,生成该文本的向量,然后计算该向量与各类别特征向量的相似度,最后将该文本分到与其最相似的类别中去。
但是采用上述算法存在以缺点:Rocchio算法无法挖掘文档的潜在语义。二、它假设训练数据是绝对正确的,因为它没有任何定量衡量样本是否含有噪声的机制,因而也就对错误数据毫无抵抗力。
发明内容
本发明实施例提出的一种视频节目的搜索方法和装置,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。
本发明实施例提供的一种视频节目的搜索方法,包括:
接收用户输入的描述视频节目的描述词条;
根据预设的潜在语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
进一步地,由描述视频节目的描述文档构建成索引矩阵的过程包括:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
构建所述描述词条的查询向量的过程包括:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
进一步地,由描述视频节目的描述文档构建成索引矩阵的过程,具体为:
根据标准词条格式,对数据库存储的描述视频节目的所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多个描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
调用分词工具;
利用所述分词工具对格式调整后的所述描述文档包含的词条进行分词,获得第一词语集;
根据TF-IDF算法从所述第一词语集中提取关键词;
根据所提取的每一个关键词在每一个所述描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
进一步地,所述构建所述描述词条的查询向量,具体为:
根据标准词条格式,对所述描述词条进行格式调整;
调用分词工具;
利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
根据TF-IDF算法从所述第二词语集中提取关键词;
根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
进一步地,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度,具体为:
选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
进一步地,所述搜索方法还包括:
当数据库增加描述新的视频节目的描述文档时,对所述潜在语义索引模型进行更新。
相应地,本发明实施例还提供一种视频节目的搜索装置,包括:
用户信息接收模块,用于接收用户输入的描述视频节目的描述词条;
查询向量构建模块,用于根据预设的潜在语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
相似度计算模块,用于根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
视频节目选取模块,用于对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
进一步地,所述查询向量构建模块包括的用于根据描述视频节目的描述文档构建成索引矩阵的单元,具体用于:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
所述查询向量构建模块包括的用于构建描述词条的查询向量的单元,具体用于:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
进一步地,所述查询向量构建模块包括用于根据描述视频节目的描述文档构建成索引矩阵的单元,具体为:
第一格式调整单元,用于根据标准词条格式,对数据库存储的描述视频节目的所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多个描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
第一工具调用单元,用于调用分词工具;
第一分词单元,用于利用所述分词工具对格式调整后的所述描述文档包含的词条进行分词,获得第一词语集;
第一关键词提取单元,用于根据TF-IDF算法从所述第一词语集中提取关键词;
索引矩阵构建单元,用于根据所提取的每一个关键词在每一个所述描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
进一步地,所述查询向量构建模块还包括用于构建所述描述词条的查询向量的单元,具体为:
第二格式调整单元,用于根据标准词条格式,对所述描述词条进行格式调整;
第二工具调用单元,用于调用分词工具;
第二分词单元,用于利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
第二关键词提取单元,用于根据TF-IDF算法从所述第二词语集中提取关键词;
查询向量构建单元,用于根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
进一步地,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述相似度计算模块具体包括:
模型修订单元,用于选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
计算单元,用于对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
进一步地,所述搜索装置还包括:
模型更新模块,用于当数据库增加描述新的视频节目的描述文档时,对所述潜在语义索引模型进行更新。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的视频节目的搜索方法和装置,通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度,可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度,数值越高,则相关程度越高,进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户,并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。
附图说明
图1是本发明提供的视频节目的搜索方法的一个实施例的流程示意图;
图2是本发明提供的视频节目的搜索装置的一个实施例的结构示意图;
图3是本发明提供的视频节目的搜索装置的查询向量构建模块的一个实施例的结构示意图;
图4是本发明提供的视频节目的搜索装置的相似度计算模块的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的图像数据处理的方法的一个实施例的流程示意图;该搜索方法包括步骤S1至S3,具体包括:
S1,接收用户输入的描述视频节目的描述词条;
S2,根据预设的潜在语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;所述索引矩阵的第j列的第i个元素的数值代表第i个关键词在第j个视频节目的描述文档中出现的词频;所述查询向量为列向量,所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,且所述查询向量的第i个元素的数值代表所述第i个元素对应的关键词在所述描述词条中出现的词频;
S3,根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
S4,对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
需要说明的是,通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度,可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度,数值越高,则相关程度越高,进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户,并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。其中,上述的排序区间一般优选为排列在前的10个排序号。
进一步地,上述步骤S2中的由描述视频节目的描述文档构建成索引矩阵的过程,具体为:
根据标准词条格式,对数据库存储的描述视频节目的所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多个描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;对于对词条的格式调整,可以但不限于,将词条中的小写统一成大写、对词条中多余的空格删除、统一词条中的标点符号、将词条的全角格式或半角格式统一为一种等。
调用分词工具;优选地,所述分词工具为jieba分词工具,但不限于为此分词工具。
利用所述分词工具对格式调整后的所述描述文档包含的词条进行分词,获得第一词语集;分词工具对描述词条进行分词的模式有多种,除了按正常分词模式切分外,还可以继续长词进行切分,提高召回率,尤其对短文本,可以切出比正常切分出更多的词,对后续的输出视频节目的准确度有提升效果。
根据TF-IDF算法从所述第一词语集中提取关键词;
根据所提取的每一个关键词在每一个所述描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
需要说明的是,构建上述索引矩阵是预先根据数据库存储的描述文档构建而成的,构建过程需遵循:索引矩阵的第j列的第i个元素的数值代表第i个关键词在第j个视频节目的描述文档中出现的词频。其中,索引矩阵的第i行的所有元素所代表的同一个关键词,且不同行的元素所代表的关键词不相同。例如,假设索引矩阵的第1行的所有元素代表关键词A,索引矩阵的第1列的元素代表描述文档B,则该索引矩阵的第1行第1列的元素的数值代表关键词A在描述文档B出现的概率。
进一步地,上述步骤S2中的构建所述描述词条的查询向量,具体为:
根据标准词条格式,对所述描述词条进行格式调整;例如,将词条中的小写统一成大写、对词条中多余的空格删除、统一词条中的标点符号、将词条的全角格式或半角格式统一为一种等。
调用分词工具;优选地,所述分词工具为jieba分词工具,但不限于为此分词工具。
利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;分词工具对描述词条进行分词的模式有多种,除了按正常分词模式切分外,还可以继续长词进行切分,提高召回率,尤其对短文本,可以切出比正常切分出更多的词,对后续的输出视频节目的准确度有提升效果。
根据TF-IDF算法从所述第二词语集中提取关键词;
根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
需要说明的是,构建所述描述词条的查询向量时,要确保所述查询向量的第i个元素代表的关键词与上述潜在语义索引模型的索引矩阵的第i行元素代表的关键词相同,使得比较查询向量与索引矩阵的每一列向量的余弦相似度具有意义。
另外,构建向量的过程还需遵循以下原则:所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,且所述查询向量的第i个元素的数值代表所述第i个元素对应的关键词在所述描述词条中出现的词频;例如,在假设索引矩阵的第1行的所有元素代表关键词A,则查询向量的第1行的元素代表的关键词为关键词A,则查询向量的第1行的元素的数值代表关键词A在描述词条中出现的词频。
进一步地,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
上述步骤S3的具体实施过程具体为:
选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
需要说明的是,此处的K值是个阈值选择,可以根据实际情况选择,分解过程采用H的K秩,是让索引矩阵H的前K个最大奇异值以后的奇异值都为零。上述对潜在语义索引模型的修订,能够提高检索效率。
进一步地,所述搜索方法还包括:
当数据库增加描述新的视频节目的描述文档时,对所述潜在语义索引模型进行更新。
需要说明的是,由于视频节目会不断增加的,而对于描述新增加的视频节目的描述文档也会不断添加到数据库当中,因此需要对举在语义索引模型进行更新。
本发明实施例提供的视频节目的搜索方法,通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度,可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度,数值越高,则相关程度越高,进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户,并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。
参阅图2,是本发明提供的视频节目的搜索装置的一个实施例的结构示意图。该搜索装置能够执行上述实施例提供的视频节目的搜索方法的全部流程,该搜索装置,包括:
用户信息接收模块10,用于接收用户输入的描述视频节目的描述词条;
查询向量构建模块20,用于根据预设的潜在语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
相似度计算模块30,用于根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
视频节目选取模块40,用于对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
进一步地,所述查询向量构建模块包括的用于根据描述视频节目的描述文档构建成索引矩阵的单元,具体用于:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
所述查询向量构建模块包括的用于构建描述词条的查询向量的单元,具体用于:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
进一步地,参见图3,是本发明提供的视频节目的搜索装置的查询向量构建模块的一个实施例的结构示意图,所述查询向量构建模块20包括用于根据描述视频节目的描述文档构建成索引矩阵的单元,具体为:
第一格式调整单元21,用于根据标准词条格式,对数据库存储的描述视频节目的所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多个描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
第一工具调用单元22,用于调用分词工具;
第一分词单元23,用于利用所述分词工具对格式调整后的所述描述文档包含的词条进行分词,获得第一词语集;
第一关键词提取单元24,用于根据TF-IDF算法从所述第一词语集中提取关键词;
索引矩阵构建单元25,用于根据所提取的每一个关键词在每一个所述描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
进一步地,所述查询向量构建模块还包括用于构建所述描述词条的查询向量的单元,具体为:
第二格式调整单元26,用于根据标准词条格式,对所述描述词条进行格式调整;
第二工具调用单元27,用于调用分词工具;
第二分词单元28,用于利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
第二关键词提取单元29,用于根据TF-IDF算法从所述第二词语集中提取关键词;
查询向量构建单元31,用于根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
进一步地,参见图4,是本发明提供的视频节目的搜索装置的相似度计算模块的一个实施例的结构示意图,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述相似度计算模块30具体包括:
模型修订单元32,用于选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
计算单元33,用于对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
进一步地,所述搜索装置还包括:
模型更新模块50,用于当数据库增加描述新的视频节目的描述文档时,对所述潜在语义索引模型进行更新。
本发明实施例提供的视频节目的搜索装置,通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度,可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度,数值越高,则相关程度越高,进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户,并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的,能挖掘出文档的潜在语义,提高搜索视频节目的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种视频节目的搜索方法,其特征在于,包括:
接收用户输入的描述视频节目的描述词条;
根据预设的潜在语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户;
其中,所述构建所述描述词条的查询向量,具体包括:
根据标准词条格式,对所述描述词条进行格式调整;
调用分词工具;
利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
根据TF-IDF算法从所述第二词语集中提取关键词;
根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
2.如权利要求1所述的视频节目的搜索方法,其特征在于,
由描述视频节目的描述文档构建成索引矩阵的过程包括:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
构建所述描述词条的查询向量的过程包括:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
3.如权利要求1或2所述的视频节目的搜索方法,其特征在于,由描述视频节目的描述文档构建成索引矩阵的过程,具体为:
根据标准词条格式,对数据库存储的描述视频节目的所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多个描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
调用分词工具;
利用所述分词工具对格式调整后的所述描述文档包含的词条进行分词,获得第一词语集;
根据TF-IDF算法从所述第一词语集中提取关键词;
根据所提取的每一个关键词在每一个所述描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
4.如权利要求3所述的视频节目的搜索方法,其特征在于,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度,具体为:
选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
5.如权利要求1所述的视频节目的搜索方法,其特征在于,所述搜索方法还包括:
当数据库增加描述新的视频节目的描述文档时,对所述潜在语义索引模型进行更新。
6.一种视频节目的搜索装置,其特征在于,包括:
用户信息接收模块,用于接收用户输入的描述视频节目的描述词条;
查询向量构建模块,用于根据预设的潜在语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
相似度计算模块,用于根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
视频节目选取模块,用于对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户;
其中,所述查询向量构建模块还包括用于构建所述描述词条的查询向量的单元,具体包括:
第二格式调整单元,用于根据标准词条格式,对所述描述词条进行格式调整;
第二工具调用单元,用于调用分词工具;
第二分词单元,用于利用所述分词工具对格式调整后的所述描述词条进行分词,获得第二词语集;
第二关键词提取单元,用于根据TF-IDF算法从所述第二词语集中提取关键词;
查询向量构建单元,用于根据所提取的每一个关键词在所述描述词条中出现的词频,构建所述描述词条的查询向量。
7.如权利要求6所述的视频节目的搜索装置,其特征在于,
所述查询向量构建模块包括的用于根据描述视频节目的描述文档构建成索引矩阵的单元,具体用于:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
所述查询向量构建模块包括的用于构建描述词条的查询向量的单元,具体用于:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
8.如权利要求6或7所述的视频节目的搜索装置,其特征在于,所述查询向量构建模块包括用于根据描述视频节目的描述文档构建成索引矩阵的单元,具体为:
第一格式调整单元,用于根据标准词条格式,对数据库存储的描述视频节目的所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多个描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
第一工具调用单元,用于调用分词工具;
第一分词单元,用于利用所述分词工具对格式调整后的所述描述文档包含的词条进行分词,获得第一词语集;
第一关键词提取单元,用于根据TF-IDF算法从所述第一词语集中提取关键词;
索引矩阵构建单元,用于根据所提取的每一个关键词在每一个所述描述文档中出现的词频,构建索引矩阵;其中,所述索引矩阵的行顺序是根据关键词在所有描述文档出现的总词频进行由高到低的排列,所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
9.如权利要求8所述的视频节目的搜索装置,其特征在于,所述索引矩阵为H,则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为:H=T*S*DT;其中,T为正交矩阵,矩阵T的每一列是所述索引矩阵H的左奇异向量;S为对角矩阵,矩阵S的对角线元素是所述索引矩阵H的奇异值;D为正交矩阵,矩阵D的每一列为所述索引矩阵H的右奇异向量;所述查询向量为Q;
所述相似度计算模块具体包括:
模型修订单元,用于选取TK、SK和DK矩阵,修订所述潜在语义索引模型为HK=TK*SK*DK T;其中,TK为由矩阵T的前K列形成的矩阵,SK为由矩阵S的前K个对角线元素形成的对角矩阵,DK为由矩阵D的前K列形成的矩阵;K的数值大于所述排序区间包含的最大排序号;
计算单元,用于对于修订后的所述潜在语义索引模型的索引矩阵HK,计算所述查询向量的转置矩阵QT与所述矩阵TK相乘所得的行向量和所述矩阵DK与所述矩阵SK相乘所得矩阵的第j行向量的两行向量之间的余弦相似度,作为所述索引矩阵HK的第j列向量与所述查询向量Q的余弦相似度。
10.如权利要求6所述的视频节目的搜索装置,其特征在于,所述搜索装置还包括:
模型更新模块,用于当数据库增加描述新的视频节目的描述文档时,对所述潜在语义索引模型进行更新。
CN201611028444.1A 2016-11-18 2016-11-18 视频节目的搜索方法和装置 Active CN106570196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611028444.1A CN106570196B (zh) 2016-11-18 2016-11-18 视频节目的搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611028444.1A CN106570196B (zh) 2016-11-18 2016-11-18 视频节目的搜索方法和装置

Publications (2)

Publication Number Publication Date
CN106570196A CN106570196A (zh) 2017-04-19
CN106570196B true CN106570196B (zh) 2020-06-05

Family

ID=58542216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611028444.1A Active CN106570196B (zh) 2016-11-18 2016-11-18 视频节目的搜索方法和装置

Country Status (1)

Country Link
CN (1) CN106570196B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299328A (zh) * 2018-12-03 2019-02-01 广州华多网络科技有限公司 一种视频搜索方法、服务器、客户端及存储介质
CN109918616B (zh) * 2019-01-23 2020-01-31 中国人民解放军32801部队 一种基于语义索引精度增强的可视媒体处理方法
CN111367971A (zh) * 2020-03-30 2020-07-03 中国建设银行股份有限公司 一种基于数据挖掘的金融系统异常辅助分析方法及装置
CN112182292B (zh) * 2020-09-30 2024-02-09 百度(中国)有限公司 视频检索模型的训练方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN101527815A (zh) * 2008-03-06 2009-09-09 株式会社东芝 节目推荐装置以及节目推荐方法
CN103559196A (zh) * 2013-09-23 2014-02-05 浙江大学 一种基于多核典型相关分析的视频检索方法
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN101527815A (zh) * 2008-03-06 2009-09-09 株式会社东芝 节目推荐装置以及节目推荐方法
CN103559196A (zh) * 2013-09-23 2014-02-05 浙江大学 一种基于多核典型相关分析的视频检索方法
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法

Also Published As

Publication number Publication date
CN106570196A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106708929B (zh) 视频节目的搜索方法和装置
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN110019732B (zh) 一种智能问答方法以及相关装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111291188B (zh) 一种智能信息抽取方法及系统
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
CN106570196B (zh) 视频节目的搜索方法和装置
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN110866102A (zh) 检索处理方法
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN114997288A (zh) 一种设计资源关联方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant