CN118035487A

CN118035487A - 视频索引生成和检索方法、装置、电子设备及存储介质

Info

Publication number: CN118035487A
Application number: CN202410095743.5A
Authority: CN
Inventors: 李坤; 王昊; 周静; 李琳
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-05-14

Abstract

本公开涉及视频索引生成和检索方法、装置、电子设备及存储介质，上述方法包括：获取用户输入的视频检索信息；从视频索引信息中确定与视频检索信息相关联的多个视频；其中，视频索引信息根据从视频中提取的关键词在视频出现的位置和/或词频；基于视频索引信息获得多个视频分别与视频检索信息之间的相关度，并基于相关度确定多个视频中与视频检索信息相匹配的目标视频。本公开提供的方法通过根据关键词的位置和/或词频确定视频索引信息，从而提高视频索引信息的精确度。然后，根据视频索引信息，计算出视频检索信息与视频之间的相关度，从而提高视频检索的准确性，进而解决检索结果准确性较低的技术问题。

Description

视频索引生成和检索方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机领域，尤其涉及视频索引生成和检索方法、装置、电子设备及存储介质。

背景技术

随着数字媒体技术的蓬勃发展，越来越多的视频出现在互联网上，给用户提供了更多的选择。然而，随着视频数量的急剧增多，如何从海量的视频中检索到用户所需的目标视频成为视频平台重点关注的问题。

相关技术中，基于用户输入的关键词，在视频库中检索视频画面或音频中包含该关键词的视频，并将检索结果反馈给用户。然而，视频画面中出现的部分文字可能与视频主题的关联度较低，最终导致检索结果的准确性较低，无法很好地满足用户对视频检索的需求。

发明内容

根据本公开的第一方面，提供了一种视频索引生成和检索方法，包括：

获取用户输入的视频检索信息；

从视频索引信息中确定与所述视频检索信息相关联的多个视频；其中，所述视频索引信息根据从视频中提取的关键词在视频出现的位置和/或词频；

基于所述视频索引信息获得所述多个视频分别与所述视频检索信息之间的相关度，并基于所述相关度确定所述多个视频中与所述视频检索信息相匹配的目标视频。

根据本公开的第二方面，提供了一种视频索引生成和检索装置，包括：

数据获取模块，用于获取用户输入的视频检索信息；

数据处理模块，用于从视频索引信息中确定与所述视频检索信息相关联的多个视频；其中，所述视频索引信息根据从视频中提取的关键词在视频出现的位置和/或词频；

所述数据处理模块，还用于基于所述视频索引信息获得所述多个视频分别与所述视频检索信息之间的相关度，并基于所述相关度确定所述多个视频中与所述视频检索信息相匹配的目标视频。

根据本公开的第三方面，提供了一种电子设备，包括：

处理器；以及，

存储程序的存储器；

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据本公开示例性实施例所述的方法。

根据本公开的第四方面，提供了一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据本公开示例性实施例所述的方法。

本公开实施例中提供的一个或多个技术方案，在获取到用户输入的视频检索信息的情况下，通过从视频索引信息中确定与视频检索信息相关联的多个视频，并基于该视频索引信息获得该多个视频分别与视频检索信息之间的相关度，进而基于该相关度确定出对应的目标视频。由于视频索引信息包括关键词在视频中出现的位置和/或词频，使得获得的上述相关度会更加准确，从而能够提高视频检索的准确性。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1为本公开一示例性提供的一种视频索引生成方法的流程图；

图2为本公开一示例性提供的专业术语索引结构图；

图3为本公开一示例性提供的一种视频检索方法的流程图；

图4为本公开一示例性提供的专业术语附录框示意图；

图5为本公开一示例性提供的专业术语检索框示意图；

图6为本公开一示例性提供的全文检索框示意图；

图7为本公开一示例性提供的视频索引生成和检索方法的流程图；

图8为本公开一示例性提供的视频索引生成和检索装置的功能模块示意性框图；

图9为本公开一示例性提供的芯片的示意性框图；

图10为本公开一示例性提供的电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”“术语”“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

在介绍本公开实施例之前首先对本公开实施例中涉及到的相关名词作如下释义：

语音转文本(Speech to Text，STT)：STT技术是语音识别领域的一个重要课题，其目的是把人类语音转换成文字。

光学字符识别(Optical Character Recognition，OCR)：OCR是指通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

倒排索引(inverted index)：倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。

TF-IDF(Term Frequency/Inverse Document Frequency)：TF-IDF是一种统计方法，用以评估一个词对于一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比，但同时会随着它在语料库中出现的频率成反比。

Okapi BM25：Okapi BM25是一种基于Okapi Best Matching 25算法的搜索方法，是TF-IDF的一个变体。BM25在传统TF-IDF的基础上增加了几个可调节的参数，使其在应用上更佳灵活和强大，具有较高的实用性。这些参数包括k1和b，分别用于调节查询项频率饱和度和文档长度归一化。

二分前缀匹配：是一种用于快速查找关键词的方法。将关键词按照字典序排序，然后对关键词的前缀进行二分查找，找到匹配的前缀后，再对该前缀对应的关键词列表进行遍历，找到完全匹配的关键词。

相关技术中，基于用户输入的关键词，在视频库中检索视频画面或音频中包含该关键词的视频，并将检索结果反馈给用户。然而，视频画面中出现的部分文字可能与视频主题的关联度较低，视频的音频信息可能因为口音等原因导致转换的文本信息出现错误，最终导致检索结果的准确性较低，无法很好地满足用户对视频检索的需求。

因此，为了解决上述问题，本公开实施例首先提供了一种视频索引生成和检索方法，通过识别视频音频和演示文稿中的文字信息，对处于演示文稿不同位置或形式的文字信息分别赋予不同权重，以生成与视频内容强相关的分词索引。检索到相关视频后，以视频截图轮播的方式呈现视频匹配效果。从而生成更具针对性的索引，提升检索准确性。轮播图的呈现方式直观且交互性好，可以满足用户对视频检索的需求。

示例性的，图1为本公开一示例性提供的一种视频索引生成方法的流程图。如图1所示，索引生成方法可以包括以下步骤：

步骤S101：获取视频数据。

示例性的，视频数据可以为直播视频内容，也可以为创作者上传的录制视频内容。获取视频数据可以包括：使用摄像头或视频采集软件获取视频数据。

对于直播视频内容，可以在直播开始时，使用索引生成进程获取实时的音视频流，并将音视频流分别分离为音频流和视频流。其中，音频流包含声音信息，而视频流包含图像信息。可以使用一个编码器将音频流和视频流分别编码成不同的格式，从而对它们进行分离处理。

示例性的，还可以对音频流进行一些必要的预处理，如降噪、增强、滤波等，以提高音质和信噪比，并减少噪声干扰。

步骤S102：对音频流数据进行词频统计。

针对音频流数据，可以使用STT技术将音频流数据转换为文字形式，并对生成的文字进行分词和词频统计。为缩小后续计算量，分词和词频统计过程可以忽略语气助词和连接词。

示例性的，可以使用自然语言处理(NLP)技术，对音频流数据进行分词，将连续的语音片段切分为单词或短语。音频流分词方式可以包括基于规则的方式和基于统计的方式。基于规则的方式需要人工编写大量的词典和规则，适用于特定领域或场景；基于统计的方式则利用机器学习算法，根据语言模型和词汇表自动学习分词规则，适用于多种领域和场景，其中，机器学习算法可以包括隐马尔可夫模型(HMM)、条件随机场(CRF)、长短期记忆网络(LSTM)等。

示例性的，还可以对分词后的单词或短语进行词性标注，即给每个单词或短语赋予一个或多个词性类别，如名词、动词、形容词等。从而帮助后续的文本生成或词性分类任务。对分词后的单词或短语进行词性标注，可以利用机器学习算法，根据语言模型和标注数据自动学习标注规则进行训练。训练完成后的算法可以为STT技术生成的音频文字进行。其中，机器学习算法可以有支持向量机(SVM)、随机森林(RF)、神经网络(NN)等。

示例性的，根据分词后的单词或短语和其对应的词性类别信息，利用STT技术将音频流数据转换为对应的文本，并进行词频统计。表1为本公开一示例性提供的音频文字的词频统计表：

表1音频文字的词频统计表

分词	词频
		渲染	12
数字人	25

在一种可选的方式中，还可以使用自然语言生成(Natural LanguageGeneration，NLG)技术，将音频流数据转换为对应的文本，并进行词频统计。具体地，NLG技术可以根据预先定义好的语法结构和逻辑关系来生成文本；可以根据大量已有文本数据来学习文本模式和特征，并利用概率模型来生成文本；可以利用深度神经网络来直接从输入的音频流数据中提取特征，并输出文本。

步骤S103：对视频流数据进行词频统计和位置统计。

示例性的，可以采用目标检测技术检测视频流数据中是否存在演示文稿，或屏幕区域中是否存在文字稿件。目标检测技术是一种计算机视觉技术，用于在图像或视频中定位和识别感兴趣的对象。目标检测算法可以选择R-CNN(Region-based ConvolutionalNeural Network，基于区域的卷积神经网络)、Mask R-CNN(Mask Region-basedConvolutional Neural Network，基于区域的卷积神经网络的掩码版本)、SSD(SingleShot MultiBox Detector，单发多框检测器)等。

在视频流数据中存在演示文稿或文字稿件的情况下，可以使用OCR技术提取演示文稿或文字稿件中的文字，转换为文本格式。还可以使用OCR技术，结合文字的位置、大小以及密度等信息识别演示文稿的主题、标题和正文内容。分别对主题、标题和正文内容进行分词和词频统计，并记录每个分词在视频中出现的位置。其中，每个分词在视频流中出现的位置可以与其对应的时间戳或帧号关联起来，以便于后续处理或展示。可以使用一个时间序列数据库，如MongoDB或Cassandra，存储每个分词及其位置信息，并保持其顺序。

由于视频的连续性，如果单页文稿在屏幕中存在较长时间，只需要对每页文稿第一次出现时保存为图片，并保存到本地文件夹中。并将每页文稿第一次出现的时间保存为时间戳或帧号关联起来。

如果演示文稿为动画形式，则记录存在内容新增的每一页文档截图和新增内容出现的时间。表2为本公开一示例性提供的视频文字的词频统计表：

表2视频文字的词频统计表

分词	词频	分词出现时间	分词出现的位置	视频截图
					渲染	3	<1280，3658，7795>	<主题、标题、正文>	<a.jpg，b.jpg，c.jpg>
数字人	1	<1280>	<正文>	<a.jpg>

其中，分词出现时间为相对开始播放时间的秒数或毫秒数，例如分词出现的时间为视频流数据的第12分钟，则分词出现时间为12*60＝720s。视频截图保存吧视频截图对应的保存链接。

步骤S104：生成全文索引。

为了方便后续进行精准匹配，可以先获取视频的相关信息，如视频的标题、承办单位、主讲人、视频标签和视频描述等基础信息。其中视频标题、承办单位、主讲人、视频标签等几个字段既可以作为关键词存储，也可以转换为文本格式进行存储。

针对视频标题，用户在搜索过程中可以指定对标题进行精确检索，如不指定标题进行精确检索，则可以对用户输入的检索词句进行分词，然后和倒排索引里的关键词进行匹配，通过计算匹配相关度对检索结果进行排序，获得搜索结果。

针对承办单位、主讲人和视频标签，用户在搜索过程中可以指定对应的分类进行精确检索，获得搜索结果。

针对视频描述，在搜索过程中需要先对视频描述进行分词处理，然后模糊匹配，在音频流数据转换的文本中进行全文检索。

示例性的，可以通过预定义数据映射mappings将分词后的数据直接写入Elasticsearch数据库，生成全文索引。在本实施例中，全文索引为Elasticsearch的索引格式。

具体地，由用户预定义或由Elasticsearch引擎自主识别文档中的字段和字段支持的索引格式(如：数字、关键词、文本等)。定义完成后，在保存数据时，Elasticsearch自动对文档进行分词、创建倒排索引等操作，完成索引的生成工作。

步骤S105：生成专业术语索引。

示例性的，为后续生成专业术语索引提供数据基础，可以在系统中维护专业术语库。例如，可以定期从全国科学技术名词审定委员会的官方网站获取最新的各学科名词，并与系统自己维护的术语库进行比较，移除过时或重复的术语，补充尚未标准化的新专业术语，以保持术语库的时效性和准确性。这样，我们可以提高文本分词的质量和效率，以便于后续进行存储和检索。

进而，以OCR技术提取的文字分词为基础，查询上述表2中的分词是否存在于专业术语库中，如果不存在，则忽略该分词。如果存在，则进一步对表1进行关联，获取该分词在音频流信息中出现的词频，生成视频信息表。

还可以根据演示文稿中的主题、标题、正文和音频文字的权重，计算专业技术名词在视频中的词频权重，作为索引的评分依据。从而提高索引的相关性和排序有效性。

具体地，可以设定演示文稿中的主题权重为α，标题权重为β，正文权重为γ，音频文字权重为δ，分词在主题中出现的频次为c1，在标题中出现的频次为c2，在文稿正文中出现的频次为c3，在音频流数据转写为文本数据中出现的频次为c4，则该分词在视频中的词频权重为W＝αc1+βc2+γc3+δc4。在本实施例中，可以设置α＝10，β＝5，γ＝3，δ＝1。计算获得词频权重后，记录到视频信息表中。表3为本公开一示例性提供的视频信息表：

表3视频信息表

其中，PPT词频为该分词在PPT中出现的次数，语音词频为该分词在音频流数据中出现的次数，视频信息可以包括：视频标题、简介、标签等信息。

示例性的，获得每个分词的词频权重后，可以对视频基础信息进行整合处理，其中视频基础信息可以包括视频名称、时间、地址和主讲人等，并生成专业术语索引。

示例性的，图2为本公开一示例性提供的专业术语索引结构图。如图2所示，专业术语索引可以包括三个部分：第一部分为关键词索引，关键词索引用于通过二分前缀匹配方式找到关键词字典中的关键词。例如“SZ”为“数字人”前两个字的首字母，通过二分前缀匹配方式可以先根据关键词的第一个文字的首字母“S”，找到关键词的第一个和第二个文字的首字母“SZ”，再根据“SZ”匹配到关键词字典中的“数字人”。同理，“XR”为“渲染”两个字的首字母，通过二分前缀匹配方式可以先根据关键词的第一个文字的首字母“X”，找到关键词的第一个和第二个文字的首字母“XR”，再根据“XR”匹配到关键词字典中的“渲染”；第二部分为关键词字典，用于存储关键词以及包含关键词的倒排表地址，通过该倒排表地址可以定位到倒排表中对应的关键词；第三部分为倒排表，用于存储视频ID、关键词对应的词频、词频权重和视频位置等信息，其中，视频位置用于指向上述表3中分词对应的内容。

基于此，通过维护专业术语库，可以保证分词的质量和效率，避免出现错误或无关的分词。通过计算专业术语在视频中的词频权重，可以反映视频的相关性和重要性。通过生成专业术语索引，可以实现快速和灵活的检索，支持多种检索条件和排序方式，提高检索的效果和精度。

示例性的，图3为本公开一示例性提供的一种视频检索方法的流程图。如图3所示，视频检索方法可以包括以下步骤：

步骤S301：获取用户输入的检索词。

示例性的，当用户输入检索语句后，可以对检索语句进行分词。例如，用户输入“渲染技术在数字人产业中的应用”，则可以分词为“渲染”和“数字人”两个检索词。

步骤S302：判断检索词是否为专业术语。

可以在专业术语库中查询检索词，判断检索词是否为专业术语。如果专业术语库中有检索词，则检索词为专业术语，执行步骤S303。反之，则检索词不是专业术语，执行步骤S306。

步骤S303：执行专业术语检索。

专业术语索引生成后，可以通过此索引快速准确的查找对应的视频信息。搜索引擎通过关键词索引、关键词字段和倒排表定位到包含检索词的视频信息，并根据每个检索词对应的词频权重计算相关度信息。最后，按照相关度信息对检索结果进行排序，呈现专业术语检索结果。

示例性的，相关度信息的计算可以通过下述公式(1)表示：

其中，R表示检索词与视频信息的相关度信息；d表示存储的视频信息；k_i表示分词后的检索词；n表示分词后的检索词数量；W表示每个检索词对应的词频权重；W₀表示当检索词不存在时的词频权重，用于避免计算结果无效，在本实施例中，W₀取值0.1。

基于此，通过计算相关度信息对视频进行排序，同时显示视频的基础信息以及视频的摘要或预览，可以让用户可以快速浏览和选择感兴趣的视频。

在一种可选的方式中，还可以使用TF-IDF方式计算相关度信息。TF-IDF是一种基于词频和逆文档频率的相关度计算方式，它认为一个词在文档中出现的次数越多，且在整个语料库中出现的文档数越少，那么这个词就越能反映文档的主题，因此给予它更高的权重。

在一种可选的方式中，还可以使用Okapi BM25方式计算相关度信息。Okapi BM25是对TF-IDF的改进，它引入了两个可调参数k1和b，用于控制词频的饱和度和字段长度的归一化，使得相关度计算更加灵活和有效。

在一种可选的方式中，还可以结合空间向量模型计算相关度信息。空间向量模型是一种将文档和查询表示为向量的方法，它认为文档和查询之间的相关度可以用它们的向量夹角的余弦值来衡量，余弦值越大，相关度越高。空间向量模型的优点是可以利用线性代数的方法来进行快速的计算和排序。

最后，将词频信息TF变更为上文计算得到的词频权重，以便于对不同类型的视频进行区分和排序。

例如，有以下三个视频，每个视频都包含了主题、标题、正文和音频文字四个部分。分别用TF-IDF和Okapi BM25来计算它们对于查询“es”“相关度”的相关度得分。表4为视频信息表：

表4视频信息表

如果直接使用TF-IDF或Okapi BM25来计算相关度得分，那么D1和D2的得分相同，都高于D3，因为它们都包含了查询中的两个词“es”和“相关度”，而且词频和逆文档频率都相同。但是，如果我们使用词频权重来代替词频，那么D1的得分高于D2，因为D1的主题和标题都是“es相关度”，而D2的主题和标题都是“es相关度的优化”，根据词频权重的计算公式，D1的词频权重会大于D2的词频权重，因此D1的相关度得分也会大于D2的相关度得分。

使用TF-IDF或Okapi BM25来计算相关度信息，可以更好地区分不同视频的相关度，使得检索结果更加符合用户的期望和需求。同时，结合其他的相关度计算方式，如空间向量模型，可以提高检索的效率和效果。

为了给用户返回相关度更高的视频，可以给视频的每一部分赋予合理的权重。在实际应用中，PPT文档是主讲内容的精华，而主题和标题是对PPT内容的概括。相比之下，由于讲师在讲课时可能会分享一些与主题无关的话题，而且音频的文字识别率也可能受到口音的影响。因此，PPT内容比音频文字更能代表视频的主题和内容，而主题和标题比正文更能突出视频的重点。所以，可以根据PPT文字的不同部分，给它们分配不同的权重，进而计算词频权重，从而更准确地反映视频的相关性，提高检索的效果和精度。

步骤S304：判断是否存在匹配项。

当检索词能在专业术语库中检索到匹配项时，执行步骤S305。

当检索词不能在专业术语库中检索到匹配项时，执行步骤S306。

步骤S305：呈现专业术语检索结果。

呈现专业术语检索结果的方式可以包括：专业术语附录框和检索框。

示例性的，图4为本公开一示例性提供的专业术语附录框示意图，专业术语附录框400中包括技术领域410、检索词420和检索结果430。其中，检索结果430可以包括视频标题431，鼠标悬浮在视频标题431上时，展示检索词在视频中出现的页面轮播图432。

示例性的，图5为本公开一示例性提供的专业术语检索框示意图，专业术语检索框500中可以包括搜索框510、执行全文检索以获取更多结果按钮520、分页按钮530和检索结果540。其中，检索结果540可以包括检索词在视频中出现的页面轮播图541、视频标题542和视频基础信息543。在专业术语检索框中，单击页面轮播图541，可以播放对应视频。双击页面轮播图541，可以播放对应视频并定位到检索词第一次出现的位置，并以小点的方式在播放进度条上标记每一次出现检索词的位置。视频基础信息543可以包括视频标签、描述、时间、地址和主讲人等。

步骤S306：执行全文检索。

全文检索是根据用户输入的检索词，从大量的视频中找出与检索词相关的视频。

在本实施例中，可以使用Elasticsearch对检索词与全文索引中的关键词进行匹配，并根据匹配相关度对检索结果进行排序，返回包含相关检索词的视频。

步骤S307：判断是否存在匹配项。

当检索词能在全文索引中检索到匹配项时，执行步骤S308。

当检索词不能在全文索引中检索到匹配项时，执行步骤S309。

步骤S308：呈现全文检索结果。

示例性的，图6为本公开一示例性提供的全文检索框示意图，全文检索框中可以包括搜索框610和检索结果620。其中，检索结果620可以包括视频封面图621、视频标题622、匹配到的全文索引中的关键词623和视频基础信息624，视频基础信息624可以包括视频标签、描述、时间、地址和主讲人等。

步骤S309：提示未找到对应视频。

示例性的，在全文索引中检索不到匹配项的情况下，可以向用户提示找不到对应的视频，同时给用户一些建议，如修改检索词，使用专业术语检索，或者浏览其他相关的视频等。

其次，可以通过不同的方式来展示提示信息，如弹窗、文本、图标等。可以根据不同的场景和用户需求，来选择合适的提示方式和提示语。例如，可以使用文本的方式显示提示信息，提示信息可以为“抱歉，没有找到与您的检索词相关的视频，请尝试使用其他的检索词或分类，或者浏览我们的推荐视频”。

本公开示例性实施例中提供的一个或多个技术方案，通过识别视频音频和演示文稿中的文字信息，并根据其出现的位置赋予不同的权重，根据位置信息和权重生成专业术语索引，从而实现索引匹配的高准确性和优先级排序。

通过全文检索和专业术语检索后，通过使用视频截图轮播的方式，来呈现视频中匹配到的专业术语，可以让用户可以一眼看到视频的主要内容。同时，还可以提供单击和双击的交互方式，让用户可以快速地播放和定位到视频的相应位置，提高用户的交互性和体验。

此外，通过结合专业术语检索和全文检索的方式实现视频的检索，可以满足用户的不同检索需求，提高检索的效果和精度。附录形式的视频检索形式是指根据专业术语索引，检索出包含该专业术语的视频的列表，让用户可以快速地浏览和选择感兴趣的视频，提高检索的便利性和效率。

因此，本公开示例性实施例中提供的视频索引生成和检索方法可以通过根据关键词的位置信息和词频权重确定视频索引信息，从而提高视频索引信息的精确度。然后，根据视频索引信息，计算出视频检索信息与视频之间的相关度，从而提高视频检索的准确性，进而解决检索结果准确性较低的技术问题。

基于上述实施例，本公开还提供的一种视频索引生成和检索方法，图7为本公开一示例性提供的视频索引生成和检索方法的流程图，如图7所示，该方法可以包括如下步骤：

步骤S710：获取用户输入的视频检索信息。

实施例中，获取用户输入的视频检索信息的目的是接收用户的检索需求，即用户想要查找的视频的主题或内容。用户可以通过输入一些关键词或短语来表达自己的检索意图，比如“渲染技术在数字人产业中的应用”、“如何制作动画”等。

在检索过程中，用户可以使用自然语言来表达自己的检索需求，提高用户的体验和满意度。

步骤S720：从视频索引信息中确定与视频检索信息相关联的多个视频。其中，视频索引信息根据从视频中提取的关键词在视频出现的位置和/或词频。

实施例中，根据用户输入的视频检索信息，从视频索引信息中找出与之相关的视频。视频索引信息是一种用于存储和管理视频数据的结构，它包含了从视频中提取的关键词在视频出现的位置和/或词频。关键词在视频出现的位置可以指示关键词在视频的哪些部分出现，比如视频的标题、简介、标签、字幕、音频、图像等。词频可以指示关键词在视频中出现的次数或比例，反映了关键词的重要性或相关性。

在检索过程中，可以利用视频索引信息的结构和内容，快速地找出与用户输入的视频检索信息相关的视频，提高检索的效率和准确性。

步骤S730：基于视频索引信息获得多个视频分别与视频检索信息之间的相关度，并基于相关度确定多个视频中与视频检索信息相匹配的目标视频。

实施例中，根据视频索引信息，计算出多个视频分别与视频检索信息之间的相关度，即视频与用户检索需求的匹配程度。相关度可以根据不同的方法和指标进行计算，比如基于关键词的相似度、基于内容的相似度、基于用户的偏好等。根据相关度的大小，可以对多个视频进行排序，从而确定出与视频检索信息最匹配的目标视频，即用户最想要查看的视频。这个步骤的技术优点是可以利用视频索引信息的信息量和多样性，评估出多个视频的质量和相关性，提高检索的质量和用户满意度。

实施例中，目标视频的呈现方式具体可以参见上文步骤S305、S308和S309。

基于此，本公开示例性实施例通过从视频中提取关键词，进而根据关键词的位置和/或词频确定视频索引信息，从而提高视频索引信息的精确度。然后，根据视频索引信息，计算出视频检索信息与视频之间的相关度，从而提高视频检索的准确性，进而解决检索结果准确性较低的技术问题。

基于上述实施例，在本公开提供的又一实施例中，上述方法还可以包括：

获取待处理视频中的字符信息，并从字符信息中提取多个关键词；

获取多个关键词分别在待处理视频中出现的位置；

根据位置分别对多个关键词赋予位置权重；不同位置的关键词对应有不同的位置权重；

根据关键词和位置权重，生成视频索引信息。

实施例中，可以从视频中识别出字符内容，例如视频标题、字幕、标签、音频以及视频画面中出现的字符信息等，并从中提取出一些能够反映视频主题或内容的关键词。这些关键词可以用于后续的视频索引和检索。

示例性的，可以使用基于深度学习的视频文字检测和识别模型，在视频帧中定位和识别文字区域，并将其转换为文本。然后，可以使用基于自然语言处理的关键词提取算法，从文本中抽取出一些具有代表性和区分性的词语作为关键词。

获取多个关键词分别在待处理视频中出现的位置，这一步骤可以确定每个关键词在视频中出现的时间点或区间，例如视频的开始、中间或结尾，或者某个特定的片段。这些位置信息可以用于后续的视频索引和检索，以及对关键词进行位置权重的赋值。

示例性的，可以使用基于时间序列分析的视频关键词定位算法，根据关键词在视频文字中出现的频率和持续时间，以及视频的帧率和长度，计算出每个关键词在视频中的位置信息。

进而，可以根据关键词在视频中的位置信息，给每个关键词分配一个位置权重，表示该关键词在视频中的重要程度或相关程度。不同位置的关键词可以有不同的位置权重，例如视频的开始或结尾的关键词可能比视频的中间的关键词有更高的位置权重，因为它们可能更能概括视频的主题或内容。

示例性的，可以使用基于位置权重函数的视频关键词权重赋值算法，根据关键词在视频中的位置信息，以及一个预定义的位置权重函数，计算出每个关键词的位置权重。

最后，可以根据关键词和位置权重，生成一个视频索引信息的数据结构，用于存储和表示视频的元数据，例如视频的标题、时长、格式、关键词、位置权重等。这些视频索引信息可以用于后续的视频索引和检索，以及对视频进行分类、排序、推荐等操作。

示例性的，可以使用基于哈希表的视频索引信息生成算法，根据关键词和位置权重，构建一个哈希表，将每个关键词作为哈希表的键，将每个关键词的位置权重作为哈希表的值，同时将其他视频的元数据作为哈希表的附加信息。然后，可以使用基于序列化的视频索引信息存储算法，将哈希表转换为一个二进制文件，用于保存和传输视频索引信息。

基于此，使用基于深度学习的视频文字检测和识别模型可以自动地从视频中获取文字信息，不需要人工标注或输入。同时，利用深度学习和自然语言处理的技术，可以提高文字检测和识别的准确性和效率，以及关键词提取的质量和覆盖度。

其次，利用时间序列分析的技术，可以提高视频关键词定位的准确性和效率，以及位置信息的可靠性和可解释性。

其次，位置权重函数可以根据不同的视频类型或场景进行调整，以适应不同的视频索引和检索需求。

其次，利用哈希表和序列化的技术，提高视频索引信息生成和存储的效率和节省空间，以及视频索引信息的可扩展性和可移植性。

基于上述实施例，在本公开提供的又一实施例中，待处理视频包括视频画面和音频信息，上述方法还可以包括：

获取待处理视频中视频画面的字符信息，并从字符信息中提取第一类关键词，以及从音频信息中提取第二类关键词；

对第一类关键词赋予第一权重，并对第二类关键词赋予第二权重；第一权重大于第二权重；

根据第一类关键词和第一权重，以及第二类关键词和第二权重，生成视频索引信息。

实施例中，从视频中分别获取视频画面和音频的字符内容，例如视频画面中的标题、标签、图标等，以及音频中的对话、歌词、注释等，并从中提取出两类能够反映视频主题或内容的关键词，这些关键词可以用于后续的视频索引和检索。

示例性的，可以使用两个基于深度学习的视频文字检测和识别模型，一个用于视频画面，一个用于音频。这两个模型可以分别在视频帧和音频波形中定位和识别文字区域，并将其转换为文本。然后，可以使用两个基于自然语言处理的关键词提取算法，一个用于视频画面，一个用于音频。使用两个关键词提取算法可以分别从视频文本和音频文本中抽取出一些具有代表性和区分性的词语作为关键词。

对第一类关键词赋予第一权重，并对第二类关键词赋予第二权重，其中第一权重大于第二权重。根据关键词的来源，给每个关键词分配一个权重，用于表示该关键词在视频中的重要程度或相关程度。第一类关键词来自视频画面，第二类关键词来自音频。由于视频的音频信息可能因为口音等原因导致转换的文本信息出现错误，最终导致检索结果的准确性较低，视频画面的关键词比音频的关键词更能概括视频的主题或内容，因此，可以设置第一权重大于第二权重。

示例性的，还可以对视频画面中不同位置出现的关键词赋予不同的权重，例如，如果视频画面中出现演示文稿，则可以对演示文稿中的主题、标题、正文和音频文字赋予不同的权重。

具体地，可以设定演示文稿中的主题权重为α，标题权重为β，正文权重为γ，音频文字权重为δ，关键词在主题中出现的频次为c1，在标题中出现的频次为c2，在文稿正文中出现的频次为c3，在音频流数据转写为文本数据中出现的频次为c4，则该关键词在视频中的权重可以表示为W＝αc1+βc2+γc3+δc4。

最后，可以根据第一类关键词及其对应的第一权重，第二类关键词及其对应的第二权重，生成一个视频索引信息的数据结构，用于存储和表示视频的元数据，例如视频的标题、时长、格式、关键词、权重等。这些视频索引信息可以用于后续的视频索引和检索，以及对视频进行分类、排序、推荐等操作。

具体地，可以根据关键词和权重，构建一个哈希表，将每个关键词作为哈希表的键，将每个关键词的权重作为哈希表的值，同时将其他视频的元数据作为哈希表的附加信息。然后将哈希表转换为一个二进制文件，用于保存和传输视频索引信息。

基于此，通过利用深度学习和自然语言处理的技术，可以提高视频画面和音频的文字检测和识别的准确性和效率，以及关键词提取的质量和覆盖度。其次，利用哈希表和序列化的技术，可以提高视频索引信息生成和存储的效率和节省空间，以及视频索引信息的可扩展性和可移植性。

获取多个关键词分别在待处理视频中出现的频次；

根据频次分别对多个关键词赋予词频权重；关键词的词频权重与频次正相关；

根据关键词和词频权重，生成视频索引信息。

实施例中，从视频中识别出字符信息，例如视频标题、字幕、标签等，并从中提取出一些能够反映视频主题或内容的关键词。

具体地，针对音频流数据，可以使用STT技术将音频流数据转换为文字形式，并对生成的文字进行分词和词频统计。为缩小后续计算量，分词和词频统计过程可以忽略语气助词和连接词。

示例性的，还可以对分词后的关键词或短语进行词性标注，即给每个单词或短语赋予一个或多个词性类别，如名词、动词、形容词等。从而帮助后续的文本生成或词性分类任务。对分词后的关键词或短语进行词性标注，可以利用机器学习算法，根据语言模型和标注数据自动学习标注规则进行训练。训练完成后的算法可以为STT技术生成的音频文字进行。其中，机器学习算法可以有支持向量机(SVM)、随机森林(RF)、神经网络(NN)等。

示例性的，根据分词后的关键词或短语和其对应的词性类别信息，利用STT技术将音频流数据转换为对应的文本，并进行词频统计。

在视频流数据中存在演示文稿或文字稿件的情况下，可以使用OCR技术提取演示文稿或文字稿件中的文字，转换为文本格式。还可以使用OCR技术，结合文字的位置、大小以及密度等信息识别演示文稿的主题、标题和正文内容。分别对主题、标题和正文内容进行分词和词频统计，并记录每个关键词在视频中出现的位置。其中，每个关键词在视频流中出现的位置可以与其对应的时间戳或帧号关联起来，以便于后续处理或展示。可以使用一个时间序列数据库，如MongoDB或Cassandra，存储每个关键词及其位置信息，并保持其顺序。

示例性的，可以使用基于统计分析的视频关键词频次算法，根据关键词在视频文字中出现的次数，以及视频的帧率和长度，计算出每个关键词在视频中的频次信息。

示例性的，可以根据关键词在视频中的频次信息，给每个关键词分配一个词频权重，表示该关键词在视频中的重要程度或相关程度。关键词的词频权重与频次正相关，表示视频中出现次数越多的关键词，其词频权重越高，反之亦然。

示例性的，可以使用基于词频权重函数的视频关键词权重赋值算法，根据关键词在视频中出现的频次信息，以及一个预定义的词频权重函数，计算出每个关键词的词频权重。词频权重函数可以根据不同的视频类型或场景进行调整，以适应不同的视频索引和检索需求。

最后，可以根据关键词和词频权重，生成一个视频索引信息的数据结构，用于存储和表示视频的元数据，例如视频的标题、时长、格式、关键词、词频权重等。这些视频索引信息可以用于后续的视频索引和检索，以及对视频进行分类、排序、推荐等操作。

具体地，可以使用一个基于哈希表的视频索引信息生成算法，根据关键词和词频权重，构建一个哈希表，将每个关键词作为哈希表的键，将每个关键词的词频权重作为哈希表的值，同时将其他视频的元数据作为哈希表的附加信息。然后，使用一个基于序列化的视频索引信息存储算法，该算法可以将哈希表转换为一个二进制文件，用于保存和传输视频索引信息。

基于此，利用统计分析的技术获得每个关键词的频次，可以提高视频关键词频次的准确性和效率。利用词频权重函数的技术，可以提高视频关键词权重赋值的灵活性和适应性。利用哈希表和序列化的技术，可以提高视频索引信息生成和存储的效率和节省空间，以及视频索引信息的可扩展性和可移植性。

基于上述实施例，在本公开提供的又一实施例中，上述基于视频索引信息获得多个视频分别与视频检索信息之间的相关度，并基于相关度确定多个视频中与视频检索信息相匹配的目标视频，包括：

从视频检索信息中提取目标关键词；

通过视频索引信息，获取目标关键词分别在相关联的多个视频的权重；

基于权重确定目标关键词分别与相关联的多个视频的相关度，并基于相关度确定出目标视频。

实施例中，当用户输入检索语句后，可以对检索语句进行分词，从而获得目标关键词。例如，用户输入的视频检索信息为“渲染技术在数字人产业中的应用”，则可以分词为“渲染”和“数字人”两个检索词。

视频索引信息生成后，可以通过视频索引信息快速准确地查找目标关键词分别在相关联的多个视频的权重，并根据每个目标关键词对应的权重计算相关度。最后，按照相关度对检索结果进行排序，呈现视频检索结果。

示例性的，相关度的计算可以通过上述公式(1)表示。

基于此，使用权重来计算相关度，可以更好地区分目标关键词与不同视频之间的相关度，使得检索结果更加符合用户的期望和需求。同时，结合其他的相关度计算方式，如空间向量模型，可以提高检索的效率和效果。

基于上述实施例，在本公开提供的又一实施例中，通过视频索引信息，获取目标关键词分别在相关联的多个视频的权重，具体可以包括：

通过关键词索引，在关键词字典中获取与目标关键词相匹配的关键词，并定位关键词对应的倒排表地址；

通过倒排表地址，在倒排表中获取目标关键词对应的视频，以及在视频中的权重。

实施例中，通过视频索引信息，可以获取目标关键词分别在相关联的多个视频的权重，用于实现视频检索的功能，即根据用户输入的关键词，返回与之相关的视频列表。

在一种可选的方式中，为了提高视频检索的效率和质量，可以使用多种方法对视频索引信息进行优化，比如：

使用多级索引结构，将关键词字典和倒排表分为多个层级，从而减少检索的时间和空间开销。

使用多维索引结构，将视频索引信息按照不同的维度进行划分，比如视频的类别、时长、评分、发布时间等，从而提供更多的检索条件和过滤选项。

使用多模态索引结构，将视频索引信息与其他模态的信息进行融合，比如视频的图像、音频、文本等，从而提高检索的准确性和丰富性。

基于此，通过使用关键词索引和倒排表，可以实现快速的关键词匹配和视频定位，提高检索的速度和精度。通过使用权重，可以实现对视频的相关性评估和排序，提高检索的质量和用户满意度。通过使用多种索引结构，可以实现对视频索引信息的灵活管理和优化，提高检索的效率和质量。

基于上述实施例，在本公开提供的又一实施例中，视频索引信息包括关键词索引、关键词字典和倒排表；关键词索引用于通过前缀匹配的方式定位关键词字典中的关键词；关键词字典包括关键词以及关键词对应的倒排表地址，关键词字典用于定位关键词对应的倒排表；倒排表包括目标视频信息、关键词在目标视频中的权重以及位置。

实施例中，视频索引信息可以包括三个部分：第一部分为关键词索引，关键词索引用于通过二分前缀匹配方式找到关键词字典中的关键词。例如“SZ”为“数字人”前两个字的首字母，因此，通过二分前缀匹配方式可以根据“SZ”匹配到关键词字典中的“数字人”。同理，“XR”为“渲染”两个字的首字母，因此，通过二分前缀匹配方式可以根据“XR”匹配到关键词字典中的“渲染”；第二部分为关键词字典，用于存储关键词以及包含关键词的倒排表地址，通过该倒排表地址可以定位到倒排表中对应的关键词；第三部分为倒排表，用于存储视频ID、关键词对应的频次、词频权重和视频位置等信息，其中，视频位置可以用于指向关键词对应的PPT出现的频次、音频信息中出现的频次、出现的时间、出现的位置、视频截图、权重以及视频基础信息等内容。

基于此，通过使用二分前缀匹配方式，可以快速地找到关键词字典中的关键词，提高了检索的效率和准确性。通过使用倒排表，可以存储视频ID和关键词的相关信息，方便了后续的排序和过滤操作，提高了检索的质量和相关性。通过使用视频位置，可以指向关键词在视频中的具体出现情况，增加了检索的细节和丰富性，提高了用户的体验和满意度。

本公开示例性实施例中提供的一个或多个技术方案，通过识别视频音频和演示文稿中的文字信息，并根据其出现的位置赋予不同的权重，根据位置信息和权重生成视频索引信息，从而实现索引匹配的高准确性和优先级排序。

视频检索后，通过使用视频截图轮播的方式，来呈现视频中匹配到的关键词，可以让用户可以一眼看到视频的主要内容。同时，还可以提供单击和双击的交互方式，让用户可以快速地播放和定位到视频的相应位置，提高用户的交互性和体验。

因此，本公开示例性实施例中提供的视频索引生成和检索方法可以通过根据关键词的位置和词频确定视频索引信息，从而提高视频索引信息的精确度。然后，根据视频索引信息，计算出视频检索信息与视频之间的相关度，从而提高视频检索的准确性，进而解决检索结果准确性较低的技术问题。

上述主要从方法的角度对本公开实施例提供的方案进行了介绍。可以理解的是，为了实现上述功能，本公开示例性实施例的方法对应的装置包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对服务器进行功能单元的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，本公开示例性实施例提供一种视频索引生成和检索装置，该视频索引生成和检索装置可以为服务器或应用于服务器的芯片。图8为本公开一示例性提供的视频索引生成和检索装置的功能模块示意性框图。如图8所示，该视频索引生成和检索装置800包括：

数据获取模块810，用于获取用户输入的视频检索信息；

数据处理模块820，用于从视频索引信息中确定与所述视频检索信息相关联的多个视频；其中，所述视频索引信息根据从视频中提取的关键词在视频出现的位置和/或词频；

所述数据处理模块820，还用于基于所述视频索引信息获得所述多个视频分别与所述视频检索信息之间的相关度，并基于所述相关度确定所述多个视频中与所述视频检索信息相匹配的目标视频。

在本公开提供的又一实施例中，所述数据处理模块820，还用于获取待处理视频中的字符信息，并从所述字符信息中提取多个关键词；获取所述多个关键词分别在所述待处理视频中出现的位置；根据所述位置分别对所述多个关键词赋予位置权重；其中，不同位置的所述关键词对应有不同的位置权重；根据所述关键词和所述位置权重，生成所述视频索引信息。

在本公开提供的又一实施例中，所述待处理视频包括视频画面和音频信息；所述数据处理模块820，还用于获取所述待处理视频中视频画面的字符信息，并从所述字符信息中提取第一类关键词，以及从所述音频信息中提取第二类关键词；对所述第一类关键词赋予第一权重，并对所述第二类关键词赋予第二权重；所述第一权重大于所述第二权重；根据所述第一类关键词和所述第一权重，以及所述第二类关键词和所述第二权重，生成所述视频索引信息。

在本公开提供的又一实施例中，所述数据处理模块820，还用于获取待处理视频中的字符信息，并从所述字符信息中提取多个关键词；获取所述多个关键词分别在所述待处理视频中出现的频次；根据所述频次分别对所述多个关键词赋予词频权重；所述关键词的词频权重与频次正相关；根据所述关键词和所述词频权重，生成所述视频索引信息。

在本公开提供的又一实施例中，所述数据处理模块820，还用于从所述视频检索信息中提取目标关键词；通过所述视频索引信息，获取所述目标关键词分别在所述相关联的多个视频的权重；基于所述权重确定所述目标关键词分别与所述相关联的多个视频的相关度，并基于所述相关度确定出所述目标视频。

在本公开提供的又一实施例中，所述数据处理模块820，还用于通过关键词索引，在关键词字典中获取与所述目标关键词相匹配的关键词，并定位所述关键词对应的倒排表地址；通过所述倒排表地址，在倒排表中获取所述目标关键词对应的视频，以及在所述视频中的权重。

在本公开提供的又一实施例中，所述数据处理模块820，还用于所述视频索引信息包括关键词索引、关键词字典和倒排表；所述关键词索引用于通过前缀匹配的方式定位所述关键词字典中的关键词；所述关键词字典包括关键词以及关键词对应的倒排表地址，所述关键词字典用于定位所述关键词对应的倒排表；所述倒排表包括目标视频信息、所述关键词在所述目标视频中的权重以及所述位置。

图9为本公开一示例性提供的芯片的示意性框图。如图9所示，该芯片900包括一个或两个以上(包括两个)处理器901和通信接口902。通信接口902可以支持服务器执行上述方法中的数据收发步骤，处理器901可以支持服务器执行上述方法中的数据处理步骤。

可选的，如图9所示，该芯片900还包括存储器903，存储器903可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，NVRAM)。

在一些实施方式中，如图9所示，处理器901通过调用存储器存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。处理器901控制终端设备中任一个的处理操作，处理器还可以称为中央处理单元(central processing unit，CPU)。存储器903可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器903的一部分还可以包括NVRAM。例如应用中存储器、通信接口以及存储器通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图9中将各种总线都标为总线系统904。

上述本公开实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processing，DSP)、ASIC、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

图10为本公开一示例性提供的电子设备的结构框图，现将描述可以作为本公开的服务器或客户端的电子设备1000的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006、输出单元1007、存储单元1008以及通信单元1009。输入单元1006可以是能向电子设备1000输入信息的任何类型的设备，输入单元1006可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1007可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1008可以包括但不限于磁盘、光盘。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(PU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理。上文所描述的各个方法均可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘(Digital video disc，DVD)；还可以是半导体介质，例如，固态硬盘(solid state drive，SSD)。

尽管结合具体特征及其实施例对本公开进行了描述，显而易见的，在不脱离本公开的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本公开的示例性说明，且视为已覆盖本公开范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包括这些改动和变型在内。

Claims

1.一种视频索引生成和检索方法，其特征在于，所述方法包括：

获取用户输入的视频检索信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待处理视频中的字符信息，并从所述字符信息中提取多个关键词；

获取所述多个关键词分别在所述待处理视频中出现的位置；

根据所述位置分别对所述多个关键词赋予位置权重；其中，不同位置的所述关键词对应有不同的位置权重；

根据所述关键词和所述位置权重，生成所述视频索引信息。

3.根据权利要求2所述的方法，其特征在于，所述待处理视频包括视频画面和音频信息；所述方法还包括：

获取所述待处理视频中视频画面的字符信息，并从所述字符信息中提取第一类关键词，以及从所述音频信息中提取第二类关键词；

对所述第一类关键词赋予第一权重，并对所述第二类关键词赋予第二权重；所述第一权重大于所述第二权重；

根据所述第一类关键词和所述第一权重，以及所述第二类关键词和所述第二权重，生成所述视频索引信息。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述多个关键词分别在所述待处理视频中出现的频次；

根据所述频次分别对所述多个关键词赋予词频权重；所述关键词的词频权重与频次正相关；

根据所述关键词和所述词频权重，生成所述视频索引信息。

5.根据权利要求1所述的方法，其特征在于，所述基于所述视频索引信息获得所述多个视频分别与所述视频检索信息之间的相关度，并基于所述相关度确定所述多个视频中与所述视频检索信息相匹配的目标视频，包括：

从所述视频检索信息中提取目标关键词；

通过所述视频索引信息，获取所述目标关键词分别在所述相关联的多个视频的权重；

基于所述权重确定所述目标关键词分别与所述相关联的多个视频的相关度，并基于所述相关度确定出所述目标视频。

6.根据权利要求5所述的方法，其特征在于，所述通过所述视频索引信息，获取所述目标关键词分别在所述相关联的多个视频的权重，包括：

通过关键词索引，在关键词字典中获取与所述目标关键词相匹配的关键词，并定位所述关键词对应的倒排表地址；

通过所述倒排表地址，在倒排表中获取所述目标关键词对应的视频，以及在所述视频中的权重。

7.根据权利要求6所述的方法，其特征在于，所述视频索引信息包括关键词索引、关键词字典和倒排表；所述关键词索引用于通过前缀匹配的方式定位所述关键词字典中的关键词；所述关键词字典包括关键词以及关键词对应的倒排表地址，所述关键词字典用于定位所述关键词对应的倒排表；所述倒排表包括目标视频信息、所述关键词在所述目标视频中的权重以及所述位置。

8.一种视频索引生成和检索装置，其特征在于，包括：

数据获取模块，用于获取用户输入的视频检索信息；

9.一种电子设备，其特征在于，包括：

处理器；以及，

存储程序的存储器；

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。

10.一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。