CN110750677A

CN110750677A - 基于人工智能的音视频识别方法、系统及存储介质和服务器

Info

Publication number: CN110750677A
Application number: CN201910967345.7A
Authority: CN
Inventors: 李振阳; 李超; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-02-04
Anticipated expiration: 2039-10-12
Also published as: CN110750677B

Abstract

本发明实施例公开了基于人工智能的音视频识别方法、系统及存储介质和服务器，应用于人工智能的信息处理技术领域。音视频识别装置将待识别视频中音频信息对应的文本信息及其主题信息分别转换为文本向量和主题向量，进而得到文本信息与主题信息分别对应的语义信息，然后再根据两个语义信息确定在文本信息中与主题信息对应的文本子信息，最后识别出待识别视频中与主题信息对应内容的开始位置。通过待识别视频中音频信息对应的文本信息及其主题信息分别对应的语义信息，可以找出在文本信息中与主题信息较相似的内容即文本子信息，进而可以识别出待识别视频中重点内容的开始位置，为判断待识别视频铺垫是否过长提供了较为准确的依据。

Description

基于人工智能的音视频识别方法、系统及存储介质和服务器

技术领域

本发明涉及人工智能的信息处理技术领域，特别涉及基于人工智能的音视频识别方法、系统及存储介质和服务器。

背景技术

短视频领域是近两年兴起的信息流的关键领域，目前业界判断短视频铺垫是否过长时，主要采用文本匹配方法进行判断，文本匹配技术主要分为相似度计算、交叉型匹配和交互性匹配等。其中，相似度计算主要是将需要匹配的文本实现向量化，然后计算文本对应的向量之间的相似度的方法；而交叉型匹配是在需要匹配文本之间实现局部信息匹配，针对局部信息敏感的NLP任务有着较为显著的效果；交互性匹配一般使用孪生网络对需要匹配的文本进行信息解读，并且在结构层之间实现信息共享。

现有的基于文本匹配方法是由一定局限性的，其中，相似度计算的方法比较适合于都是短句的情况下，因为句子的向量能够足够的表示语义信息，而交叉型匹配的方法适用于局部信息敏感的情况，交互性匹配比较适用于长文本与长文本之间的匹配。可见，现有的通过文本匹配方法判断短视频的铺垫是否过长不是很准确。

发明内容

本发明实施例提供基于人工智能的音视频识别方法、系统及存储介质和服务器，实现了为判断视频的铺垫是否过长提供较准确的依据。

本发明一个实施例提供一种基于人工智能的音视频识别方法，包括：

获取待识别视频中音频信息对应的文本信息，及获取所述待识别视频的主题信息；

将所述文本信息及主题信息分别转换为文本向量和主题向量；

根据所述文本向量和主题向量分别确定所述文本信息的第一语义信息，及所述主题信息的第二语义信息；

根据所述第一语义信息和第二语义信息，确定在所述文本信息中与所述主题信息对应的文本子信息；

根据所述确定的文本子信息在所述文本信息中的位置，识别出所述待识别视频中与所述主题信息对应内容的开始位置。

本发明另一个实施例提供一种音视频识别装置，包括：

信息获取单元，用于获取待识别视频中音频信息对应的文本信息，及获取所述待识别视频的主题信息；

向量转换单元，用于将所述文本信息及主题信息分别转换为文本向量和主题向量；

语义单元，用于根据所述文本向量和主题向量分别确定所述文本信息的第一语义信息，及所述主题信息的第二语义信息；

文本确定单元，用于根据所述第一语义信息和第二语义信息，确定在所述文本信息中与所述主题信息对应的文本子信息；

位置识别单元，用于根据所述确定的文本子信息在所述文本信息中的位置，识别在所述待识别视频中与所述主题信息对应内容的开始位置。

本发明另一个实施例提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如本发明实施例所述的基于人工智能的音视频识别方法。

本发明另一个实施例提供一种服务器，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行本发明实施例所述的基于人工智能的音视频识别方法。

可见，在本实施例的方法中，音视频识别装置在对待识别视频进行识别时，会将待识别视频中音频信息对应的文本信息及其主题信息分别转换为文本向量和主题向量，进而得到文本信息与主题信息分别对应的语义信息(即第一语义信息和第二语义信息)，然后再根据两个语义信息确定在文本信息中与主题信息对应的文本子信息，最后识别出待识别视频中与主题信息对应内容的开始位置。通过待识别视频中音频信息对应的文本信息及其主题信息分别对应的语义信息，可以找出在文本信息中与主题信息较相似的内容即文本子信息，进而可以识别出待识别视频中重点内容的开始位置，为判断待识别视频铺垫是否过长提供了较为准确的依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于人工智能的音视频识别方法的示意图；

图2是本发明一个实施例提供的一种基于人工智能的音视频识别方法的流程图；

图3是本发明一个实施例中训练音视频识别模型的方法流程图；

图4是本发明应用实施例中音视频识别模型的示意图；

图5是本发明应用实施例中音视频识别方法的示意图；

图6是本发明实施例提供的一种音视频识别装置的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种基于人工智能的音视频识别方法，主要可以应用于在推荐视频特别是推荐短视频给用户终端的过程中，对需要推荐的视频进行的识别，参考图1所示，音视频识别装置具体可以采用如下方法对待识别视频进行识别：

获取待识别视频中音频信息对应的文本信息，及获取所述待识别视频的主题信息；将所述文本信息及主题信息分别转换为文本向量和主题向量；根据所述文本向量和主题向量分别确定所述文本信息的第一语义信息，及所述主题信息的第二语义信息；根据所述第一语义信息和第二语义信息，确定在所述文本信息中与所述主题信息对应的文本子信息；根据所述确定的文本子信息在所述文本信息中的位置，识别出所述待识别视频中与所述主题信息对应内容的开始位置。

这样，通过待识别视频中音频信息对应的文本信息及其主题信息分别对应的语义信息，可以找出在文本信息中与主题信息较相似的内容即文本子信息，进而可以识别出待识别视频中重点内容的开始位置，为判断待识别视频铺垫是否过长提供了较为准确的依据。

本发明实施例提供一种基于人工智能的音视频识别方法，主要是由音视频识别装置所执行的方法，流程图如图2所示，包括：

步骤101，获取待识别视频中音频信息对应的文本信息，及获取待识别视频的主题信息。

可以理解，音视频识别装置可以将任一视频作为待识别视频，主动发起本实施例的流程，从而根据识别结果判断视频的铺垫是否过长；或者，用户可以操作用户终端，使得用户终端根据用户操作，向音视频识别装置发起请求，以请求推荐视频，则音视频识别装置会将任一视频作为待识别视频，并发起本实施例的流程，从而根据识别结果判断视频的铺垫是否过长，并将铺垫较短的视频推荐给用户终端。

具体地，音视频识别装置只会将待识别视频中的音频信息转化为文本信息，比如音频为“电话”的语音信息，对应的文本信息即为“电话”等，一般文本信息为300个字符以上的信息；待识别视频的主题信息是指可以表示待识别视频主要内容的信息，可以将待识别视频的标题等可以作为主题信息，一般主题信息为40个字符以内的信息。

步骤102，将文本信息及主题信息分别转换为文本向量和主题向量。

具体地，音视频识别装置可以先将文本信息及主题信息进行分词，分别得到文本分词和主题分词，然后通过预置的音视频识别模型分别将文本分词和主题分词转化为文本向量和主题向量。

其中，在将文本分词转化为文本向量时，音视频识别装置可以通过预置的音视频识别模型分别获取文本分词中各个分词的特征提取向量和查表向量，并将文本分词的特征提取向量和查表向量拼接后形成上述的文本向量。在将主题分词转化为主题向量时，音视频识别装置可以通过预置的音视频识别模型分别获取主题分词中各个分词的特征提取向量和查表向量，并将主题分词的特征提取向量和查表向量拼接后形成上述的主题向量。

其中，特征提取向量是通过音视频识别模型按照一定的方式直接对各个分词进行特征提取得到的向量，而查表向量是通过音视频识别模型在预置的分词与向量的对应关系表中查找得到的各个分词的查表向量。

步骤103，根据文本向量和主题向量分别确定文本信息的第一语义信息，及主题信息的第二语义信息。

这里，第一语义信息用于表示待识别视频中音频信息对应的文本信息中，各个分词的上下文语义，而第二语义信息用于表示主题信息中各个分词的上下文语义。

具体地，音视频识别装置可以采用双向门控制循环单元(Bi-directional GatedRecurrent Units，Bi-GRU)等方法确定第一语义信息和第二语义信息，其中，双向Bi-GRU可以分别从文本向量的前端和后端开始运行向前和向后GRU，分别得到各个GRU的向量的隐藏信息，将得到的隐藏信息拼接后可以形成第一语义信息；双向Bi-GRU分别从主题向量的前端和后端开始运行向前和向后GRU，分别得到各个GRU的向量的隐藏信息，将得到的隐藏信息拼接后可以形成第二语义信息。

步骤104，根据第一语义信息和第二语义信息，确定在文本信息中与主题信息对应的文本子信息。这里，与主题信息对应的文本子信息是指在文本信息中包含的一部分信息，该部分信息与主题信息的内容最相似。

具体地，音视频识别装置可以先根据第一语义信息和第二语义信息，计算文本信息与主题信息之间的相似度信息；然后根据相似度信息计算文本信息相对于主题信息的第一权重信息，及主题信息相对于文本信息的第二权重信息；最后根据第一权重信息和第二权重信息，确定在文本信息与主题信息对应的文本子信息。

其中，音视频识别装置采用了双向注意力机制，计算了主题信息与文本信息相互之间的权重信息，第一权重信息可以表示文本信息的内容在主题信息中的重要程度，而第二权重信息可以表示文本信息中关于主题信息的内容的重要程度。具体地，在计算第一权重信息和第二权重信息时，音视频识别装置可以根据相似度信息及预置的计算策略可以得到两个权重信息。

例如，第一语义信息为一个矩阵H，其行高为2d，列宽为T，第二语义信息为矩阵U，其行高为2d，列宽为J，计算两个语义信息之间的相似度矩阵为S，其行高T，列宽J；Stj表示的是第一语义信息H中第t列向量h和第二语义信息U中第j列向量u的相似度值，其中，相似度矩阵的第i行表示的是第一语义信息中的第i个词语第二语义信息中每一词之间的相似度，第j列表示的是第二语义信息中第j个词与第一语义信息中的每一个词的相似度。

则在计算第一权重信息时，对相似度矩阵S的每一行元素进行归一化，比如经过softmax层进行归一化，然后用归一化后元素作为权重，对第二语义信息U的每一列元素加权求和得到新矩阵，将新矩阵中的元素拼接后即可得到第一权重信息。在计算第二权重信息时，直接取相似性矩阵S中最大的一列元素，对其进行softmax归一化，然后用归一化元素作为权重，计算第一语义信息H的加权和，然后重复T次，即可得到第二权重信息。

进一步地，音视频识别装置在根据第一权重信息和第二权重信息确定在文本信息与主题信息对应的文本子信息时，主要是将第一语义信息及两个权重信息(即第一权重信息和第二权重信息)进行拼接，比如经过一个神经网络结构，即可得到文本信息与主题信息对应的文本子信息。

步骤105，根据确定的文本子信息在文本信息中的位置，识别出待识别视频中与主题信息对应内容的开始位置。

具体地，音视频识别装置可以根据文本子信息在文本信息中的位置，确定文本子信息对应的音频信息在待识别视频对应的音频信息中的位置，比如在待识别视频开始的n秒，将确定的位置作为开始位置。

进一步地，音视频识别装置可以可以根据步骤105识别得到的开始位置，计算文本信息中文本子信息之前的文本长度与文本信息的整体长度之间的比值，如果计算的比值大于预置值，则确定待识别视频的铺垫过长；如果计算的比值小于或等于预置值，则确定待识别视频的铺垫不长。

在一个具体的实施例中，上述步骤102和105可以通过预置的音视频识别模型来实现，而音视频识别模型的训练属于人工智能的机器学习(Machine Learning,ML)的过程，其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能；机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体地，在本实施例中，音视频识别装置可以通过如下步骤进行音视频识别模型的训练，流程图如图3所示，包括：

步骤201，确定音视频识别初始模型。

可以理解，音视频识别装置在确定音视频识别初始模型时，会确定音视频识别初始模型所包括的多层结构和各层机构中参数的初始值。

具体地，音视频识别初始模型可以包括：向量嵌入层、语义编码层、交互层和输出层，其中，向量嵌入层用于对于输入的两个文本信息，分别获取两个文本信息的向量；语义编码层，用于根据向量嵌入层获取的两个文本信息的向量，分别确定两个文本信息的语义信息；交互层，用于根据语义编码层确定的两个文本信息的语义信息，确定在一个文本信息中与另一文本信息对应的文本子信息；输出层，用于根据交互层确定的文本子信息，识别出一个文本信息中另一文本信息对应内容的开始位置。其中，音视频识别初始模型中的多层结构可以是如下任一种算法结构：长短期记忆网络(LSTM，Long Short-Term Memory)、卷积神经网络(Convolutional Neural Network，CNN)、转化器(Transformer)等。

音视频识别初始模型的参数是指音视频识别初始模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如参数规模、网络层数等参数。

步骤202，确定训练样本，训练样本中多个样本视频，各个样本视频的主题信息及各个样本视频中与主题信息对应内容的开始位置。

步骤203，通过音视频识别初始模型分别识别出各个样本视频中与其主题信息对应内容的开始位置。

具体地，可以先通过音视频识别初始模型中的向量嵌入层分别将样本视频中音频信息对应的文本信息及主题信息转化为文本向量和主题向量；然后语义编码层根据文本向量和主题向量分别确定文本信息和主题信息对应的语义信息；交互层根据文本信息和主题信息对应的语义信息，确定在文本信息中与主题信息对应的文本子信息；输出层确定根据确定的文本子信息在文本信息中的位置，识别在样本视频中与主题信息对应内容的开始位置。

步骤204，根据音视频识别初始模型得到的各个样本视频中与主题信息对应内容的开始位置，及训练样本各个样本视频对应的开始位置，调整音视频识别初始模型中的参数值，以得到最终的音视频识别模型。

具体地，音视频识别装置会先根据上述步骤203中音视频识别初始模型得到的结果，及训练样本中各个样本视频对应的开始位置，计算与音视频识别初始模型相关的损失函数，该损失函数用于指示音视频识别初始模型预测各个样本视频中与主题信息对应内容的开始位置的误差，比如交叉熵损失函数等。而音视频识别初始模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的音视频识别初始模型中参数的参数值，并使得上述损失函数的计算值降至最低。

因此，在计算得到损失函数后，音视频识别装置需要根据计算的损失函数调整音视频识别初始模型中的参数值，以得到最终的音视频识别模型。具体地，当计算的损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的损失函数的函数值减小。

需要说明的是，上述步骤203到204是通过音视频识别初始模型预测的各个样本视频中与主题信息对应内容的开始位置，对音视频识别初始模型中的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤203到204，直到对参数值的调整满足一定的停止条件为止。

因此，音视频识别装置在执行了上述实施例步骤201到204之后，还需要判断当前对参数值的调整是否满足预置的停止条件，当满足时，则结束流程；当不满足时，则针对调整参数值后的音视频识别初始模型，返回执行上述步骤203到204。其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

以下以一个具体的应用实例来说明本发明中基于人工智能的音视频识别方法，在本实施例的方法中，待识别视频为短视频，且音视频识别装置中预置的音视频识别模型可以包括如图4所示的结构，具体包括：向量嵌入层(Embedding)、语义编码层(Encoding)、交互层(Interaction)及输出层(Output)，其中：

向量嵌入层，用于对于输入的两个文本信息，分别获取两个文本信息的向量，具体可以针对任一文本信息，获取任一文本信息对应分词的特征提取向量和查表向量，并将特征提取向量与查表向量拼接后形成任一文本信息的向量。

语义编码层，用于根据向量嵌入层获取的两个文本信息的向量，分别确定两个文本信息的语义信息。主要是上下文语义信息，比如通过双向门控制循环单元来确定语义信息。

交互层，用于根据语义编码层确定的两个文本信息的语义信息，确定在一个文本信息中与另一文本信息对应的文本子信息。具体地，可以引用双向注意力机制。

输出层，用于根据交互层确定的文本子信息，识别出一个文本信息中另一文本信息对应内容的开始位置。

可以理解，本实施例中的方法可以应用于视频主动推荐或视频请求过程中，本实施例中以视频请求为例来说明，参考图5所示，音视频识别装置可以通过如下步骤进行视频请求：

步骤301，用户可以通过操作用户终端，使得用户终端根据用户操作向音视频识别装置发起请求，以请求音视频识别装置推荐短视频，则音视频识别装置会将任一短视频作为待识别视频，先获取待识别视频中音频信息对应的文本信息，及获取待识别视频的主题信息，比如标题信息等。

步骤302，音视频识别装置通过预置的音视频识别模型中的向量嵌入层分别获取待识别视频和主题信息的特征提取向量(Character Embedding)和查表向量(WordEmbedding)，图4中查表向量用斜线填充的方形表示，特征提取向量用无填充的方形表示。

然后向量嵌入层将待识别视频的特征提取向量与查表向量拼接，形成一个矩阵

即为待识别视频的文本向量；并将主题信息的特征提取向量与查表向量拼接，形成另一矩阵即为主题信息的主题向量。

其中，M为文本信息的长度，N为主题信息的长度，d_w为嵌入维度。

步骤303，音视频识别模型中的语义编码层分别根据文本向量和主题向量，获取文本信息的第一语义信息，具体为一个矩阵

及主题信息的第二语义信息，具体为另一矩阵

语义编码层具体可以采用双向BiGRU得到两种语义信息。

步骤304，音视频识别模型中的交互层根据第一语义信息和第二语义信息，确定在文本信息中与主题信息对应的文本子信息。

具体地，交互层先计算第一语义信息与第二语义信息之间的相似度信息，具体为相似度矩阵S，然后再基于相似度矩阵S计算出文本信息相对于主题信息的第一权重信息和主题信息相对于主题信息的第二权重信息，接着交互层会根据两个权重信息及第一语义信息确定在文本信息中与主题信息对应的文本子信息G，具体地，可以将第一语义信息与两个权重信息拼接后，即可得到G。

进一步地，可以使用双向长短期记忆网络(Long Short-Term Memory，LSTM)来捕获G在时序上的依赖关系(即编码)，并降维。

步骤305，音视频识别模型中的输出层根据文本子信息在文本信息中的位置，识别出在待识别视频中与主题信息对应内容的开始位置。

步骤306，音视频识别装置再根据上述步骤305得到的开始位置，计算在文本信息中文本子信息之前的文本长度与文本信息的整体长度的比值，根据计算的比值判断待识别视频的铺垫是否过长。

步骤307，音视频识别装置将铺垫不长的短视频推荐给用户终端。

本发明实施例还提供一种音视频识别装置，其结构示意图如图6所示，具体可以包括：

信息获取单元10，用于获取待识别视频中音频信息对应的文本信息，及获取所述待识别视频的主题信息。

向量转换单元11，用于将所述信息获取单元10获取的文本信息及主题信息分别转换为文本向量和主题向量。

该向量转换单元11，具体用于将所述文本信息及主题信息进行分词，分别得到文本分词和主题分词；通过预置的音视频识别模型分别将所述文本分词和主题分词转化为文本向量和主题向量。

其中，向量转换单元11在得到文本向量和主题向量时，通过预置的音视频识别模型分别获取文本分词中各个分词的特征提取向量和查表向量，将所述文本分词的特征提取向量和查表向量拼接后形成所述文本向量；通过所述音视频识别模型分别获取主题分词中各个分词的特征提取向量和查表向量，将所述主题分词的特征提取向量和查表向量拼接后形成所述主题向量。

语义单元12，用于根据所述向量转换单元11转换的文本向量和主题向量分别确定所述文本信息的第一语义信息，及所述主题信息的第二语义信息。

文本确定单元13，用于根据所述语义单元12得到的第一语义信息和第二语义信息，确定在所述文本信息中与所述主题信息对应的文本子信息。

该文本确定单元13，具体用于根据所述第一语义信息和第二语义信息，计算所述文本信息与主题信息之间的相似度信息；根据所述相似度信息计算所述文本信息相对于主题信息的第一权重信息，及所述主题信息相对于文本信息的第二权重信息；根据所述第一权重信息和第二权重信息，确定在所述文本信息与主题信息对应的文本子信息。

位置识别单元14，用于根据所述文本确定单元13确定的文本子信息在所述文本信息中的位置，识别在所述待识别视频中与所述主题信息对应内容的开始位置。

进一步地，本实施例的音视频识别装置还可以包括：

铺垫判断单元15，用于根据所述位置识别单元14识别的开始位置，计算所述文本信息中所述文本子信息之前的文本长度与文本信息的整体长度之间的比值；如果所述比值大于预置值，确定所述待识别视频的铺垫过长。

训练单元16，用于确定音视频识别初始模型，所述视频初始模型包括向量嵌入层、语义编码层、交互层和输出层；确定训练样本，所述训练样本中包括多个样本视频，各个样本视频的主题信息及各个样本视频中与主题信息对应内容的开始位置；通过所述音视频识别初始模型中的向量嵌入层分别将所述样本视频中音频信息对应的文本信息及主题信息转化为文本向量和主题向量；所述语义编码层根据所述文本向量和主题向量分别确定文本信息和主题信息对应的语义信息；所述交互层根据所述文本信息和主题信息对应的语义信息，确定所述在文本信息中与主题信息对应的文本子信息；所述输出层确定根据所述确定的文本子信息在所述文本信息中的位置，识别在所述样本视频中与所述主题信息对应内容的开始位置；根据所述音视频识别初始模型得到的各个样本视频中与主题信息对应内容的开始位置，及所述训练样本中各个样本视频对应的开始位置，调整所述音视频识别初始模型中的参数值，以得到最终的音视频识别模型。

该训练单元16，还用于当对所述参数值的调整次数等于预置的次数时，或当当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

可见，本实施例的音视频识别装置在对待识别视频进行识别时，向量转换单元11会将待识别视频中音频信息对应的文本信息及其主题信息分别转换为文本向量和主题向量，进而语义单元12得到文本信息与主题信息分别对应的语义信息(即第一语义信息和第二语义信息)，然后文本确定单元13再根据两个语义信息确定在文本信息中与主题信息对应的文本子信息，最后位置识别单元14识别出待识别视频中与主题信息对应内容的开始位置。通过待识别视频中音频信息对应的文本信息及其主题信息分别对应的语义信息，可以找出在文本信息中与主题信息较相似的内容即文本子信息，进而可以识别出待识别视频中重点内容的开始位置，为判断待识别视频铺垫是否过长提供了较为准确的依据。

本发明实施例还提供一种服务器，其结构示意图如图7所示，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括音视频识别的应用程序，且该程序可以包括上述音视频识别装置中的信息获取单元10，向量转换单元11，语义单元12，文本确定单元13，位置识别单元14，铺垫判断单元15和训练单元16，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中储存的音视频识别的应用程序对应的一系列操作。

服务器还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，和/或，一个或一个以上操作系统223，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由音视频识别装置所执行的步骤可以基于该图7所示的服务器的结构。

本发明实施例还提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如上述音视频识别装置所执行的基于人工智能的音视频识别方法。

本发明实施例还提供一种服务器，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行上述音视频识别装置所执行的基于人工智能的音视频识别方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。

以上对本发明实施例所提供的基于人工智能的音视频识别方法、系统及存储介质和服务器进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于人工智能的音视频识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将所述文本信息及主题信息分别转换为文本向量和主题向量，具体包括：

将所述文本信息及主题信息进行分词，分别得到文本分词和主题分词；

通过预置的音视频识别模型分别将所述文本分词和主题分词转化为文本向量和主题向量。

3.如权利要求2所述的方法，其特征在于，所述通过预置的音视频识别模型分别将所述文本分词和主题分词转化为文本向量和主题向量，具体包括：

通过预置的音视频识别模型分别获取文本分词中各个分词的特征提取向量和查表向量，将所述文本分词的特征提取向量和查表向量拼接后形成所述文本向量；

通过所述音视频识别模型分别获取主题分词中各个分词的特征提取向量和查表向量，将所述主题分词的特征提取向量和查表向量拼接后形成所述主题向量。

4.如权利要求1所述的方法，其特征在于，所述根据所述第一语义信息和第二语义信息，确定在所述文本信息中与所述主题信息对应的文本子信息，具体包括：

根据所述第一语义信息和第二语义信息，计算所述文本信息与主题信息之间的相似度信息；

根据所述相似度信息计算所述文本信息相对于主题信息的第一权重信息，及所述主题信息相对于文本信息的第二权重信息；

根据所述第一权重信息和第二权重信息，确定在所述文本信息与主题信息对应的文本子信息。

5.如权利要求4所述的方法，其特征在于，所述相似度信息为相似度矩阵，第一语义信息为一矩阵，第二语义信息为另一矩阵；

则所述根据所述相似度信息计算所述文本信息相对于主题信息的第一权重信息，具体包括：

对所述相似度矩阵的每一行元素进行归一化，将归一化后元素作为权重，对所述第二语义信息中的每一列元素加权求和得到新矩阵，将所述新矩阵中的元素拼接后得到所述第一权重信息。

6.如权利要求5所述的方法，其特征在于，所述根据所述相似度信息计算所述主题信息相对于文本信息的第二权重信息，具体包括：

取所述相似性矩阵中最大的一列元素，将归一化后元素作为权重，计算所述第一语义信息的加权和，得到所述第二权重信息。

7.如权利要求4所述的方法，其特征在于，所述根据所述第一权重信息和第二权重信息，确定在所述文本信息与主题信息对应的文本子信息，具体包括：

将所述第一语义信息与所述第一权重信息及第二权重信息进行拼接，得到所述文本信息与主题信息对应的文本子信息。

8.如权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

根据所述识别的开始位置，计算所述文本信息中所述文本子信息之前的文本长度与文本信息的整体长度之间的比值；

如果所述比值大于预置值，确定所述待识别视频的铺垫过长。

9.如权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

确定音视频识别初始模型，所述视频初始模型包括向量嵌入层、语义编码层、交互层和输出层；

确定训练样本，所述训练样本中包括多个样本视频，各个样本视频的主题信息及各个样本视频中与主题信息对应内容的开始位置；

通过所述音视频识别初始模型中的向量嵌入层分别将所述样本视频中音频信息对应的文本信息及主题信息转化为文本向量和主题向量；所述语义编码层根据所述文本向量和主题向量分别确定文本信息和主题信息对应的语义信息；所述交互层根据所述文本信息和主题信息对应的语义信息，确定所述在文本信息中与主题信息对应的文本子信息；所述输出层确定根据所述确定的文本子信息在所述文本信息中的位置，识别在所述样本视频中与所述主题信息对应内容的开始位置；

根据所述音视频识别初始模型得到的各个样本视频中与主题信息对应内容的开始位置，及所述训练样本中各个样本视频对应的开始位置，调整所述音视频识别初始模型中的参数值，以得到最终的音视频识别模型。

10.如权利要求9所述的方法，其特征在于，当对所述参数值的调整次数等于预置的次数时，或当当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

11.一种音视频识别装置，其特征在于，包括：

12.一种存储介质，其特征在于，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如权利要求1至10任一项所述的基于人工智能的音视频识别方法。

13.一种服务器，其特征在于，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如权利要求1至10任一项所述的基于人工智能的音视频识别方法。