CN113723166A

CN113723166A - 内容识别方法、装置、计算机设备和存储介质

Info

Publication number: CN113723166A
Application number: CN202110325997.8A
Authority: CN
Inventors: 徐启东; 陈小帅
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-11-30
Also published as: US20230077849A1; WO2022199504A1

Abstract

本申请涉及一种内容识别方法、装置、计算机设备和存储介质。所述方法包括：获取待识别的目标内容中的目标文本以及文本关联数据；对所述目标文本进行特征提取，得到文本提取特征；对所述文本关联数据进行特征提取，得到关联提取特征；对所述关联提取特征与所述文本提取特征进行关联计算，基于计算得到的特征关联度得到特征关注强度；基于所述特征关注强度对所述文本提取特征进行调整，得到调整文本特征；基于所述调整文本特征进行识别，得到所述目标内容对应的内容识别结果。采用本方法能够提高内容识别的准确度。本申请中的内容识别结果可以是基于人工智能的内容识别模型识别得到的，本方案应用于视频识别领域中，可以提高视频识别的准确度。

Description

内容识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种内容识别方法、装置、计算机设备和存储介质。

背景技术

随着自然语言处理技术以及人工智能技术的发展，在很多情况下都需要对内容进行识别，例如对视频进行识别。在对内容进行识别时，可以基于人工智能的模型对内容进行识别，并可以从内容中获取所需要的信息。例如，可以对文本进行识别以从文本中获取所需要的内容实体。

目前，对内容进行识别的方法，存在不能准确识别内容的信息的情况，导致内容识别的准确度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高内容识别准确度的内容识别方法、装置、计算机设备和存储介质。

一种内容识别方法，所述方法包括：确定待识别的目标内容，获取所述目标内容中的目标文本以及与所述目标文本关联的文本关联数据；对所述目标文本进行特征提取，得到文本提取特征；对所述文本关联数据进行特征提取，得到关联提取特征；对所述关联提取特征与所述文本提取特征进行关联计算，基于计算得到的特征关联度得到所述文本提取特征对应的特征关注强度，所述特征关联度与所述特征关注强度成正相关关系；基于所述特征关注强度对所述文本提取特征进行调整，得到调整文本特征；基于所述调整文本特征进行识别，得到所述目标内容对应的内容识别结果。

一种内容识别装置，所述装置包括：目标内容确定模块，用于确定待识别的目标内容，获取所述目标内容中的目标文本以及与所述目标文本关联的文本关联数据；特征提取模块，用于对所述目标文本进行特征提取，得到文本提取特征；对所述文本关联数据进行特征提取，得到关联提取特征；特征关注强度得到模块，用于对所述关联提取特征与所述文本提取特征进行关联计算，基于计算得到的特征关联度得到所述文本提取特征对应的特征关注强度，所述特征关联度与所述特征关注强度成正相关关系；调整文本特征得到模块，用于基于所述特征关注强度对所述文本提取特征进行调整，得到调整文本特征；内容识别结果得到模块，用于基于所述调整文本特征进行识别，得到所述目标内容对应的内容识别结果。

在一些实施例中，所述内容识别结果得到模块包括：第一融合文本特征得到单元，用于对所述调整文本特征以及所述文本提取特征进行融合，得到融合文本特征；第一内容识别结果得到单元，用于基于所述融合文本特征进行识别，得到所述目标内容对应的内容识别结果。

在一些实施例中，所述第一融合文本特征得到单元，还用于对所述文本提取特征进行编码，得到第一编码特征，对所述调整文本特征进行编码，得到第二编码特征；将所述第一编码特征与所述第二编码特征进行融合，得到融合编码特征；基于所述融合编码特征得到所述调整文本特征对应的调整特征权重；基于所述调整特征权重对所述调整文本特征以及所述文本提取特征进行融合，得到融合文本特征。

在一些实施例中，所述第一编码特征是通过已训练的内容识别模型中的第一编码器编码得到的，所述第二编码特征是通过所述内容识别模型中的第二编码器编码得到的，所述第一融合文本特征得到单元，还用于将所述融合编码特征输入到所述内容识别模型中的目标激活层进行激活处理，得到目标激活值，将所述目标激活值作为所述调整文本特征对应的调整特征权重，所述激活层为所述第一编码器与所述第二编码器的共享激活层。

在一些实施例中，所述第一融合文本特征得到单元，还用于基于所述调整特征权重得到所述文本提取特征对应的文本特征权重；将所述调整特征权重与所述调整文本特征进行乘积计算，得到计算后的调整文本特征；将所述文本特征权重与所述文本提取特征进行乘积计算，得到计算后的文本提取特征；将所述计算后的调整文本特征与所述计算后的文本提取特征进行相加，得到融合文本特征。

在一些实施例中，所述目标内容为目标视频；所述目标内容确定模块包括：目标文本得到单元，用于获取所述目标视频中目标时间对应的文本，得到目标文本；文本关联数据得到单元，用于获取所述目标视频中所述目标时间对应的视频相关数据，将所述视频相关数据作为与所述目标文本关联的文本关联数据，所述视频相关数据包括视频帧或者音频帧的至少一种。

在一些实施例中，所述调整文本特征包括根据所述视频帧调整得到的第一调整文本特征以及根据所述音频帧调整得到的第二调整文本特征；所述内容识别结果得到模块包括：第二融合文本特征得到单元，用于将所述第一调整文本特征、所述第二调整文本特征以及所述文本提取特征进行融合，得到融合文本特征；第二内容识别结果得到单元，用于基于所述融合文本特征进行识别，得到所述目标内容对应的内容识别结果。

在一些实施例中，所述调整文本特征得到模块包括：特征值乘积得到单元，用于将所述特征关注强度与所述文本提取特征的各个特征值相乘，得到特征值乘积；调整文本特征得到单元，用于按照所述文本提取特征中特征值的位置对所述特征值乘积进行排列，将排列得到的特征值序列作为所述调整文本特征。

在一些实施例中，所述文本提取特征为所述目标文本中的分词对应的特征；各个调整文本特征按照分词在所述目标文本的顺序形成特征序列；所述内容识别结果得到模块包括：位置关系得到单元，用于基于所述特征序列得到各个所述分词相对于命名实体的位置关系；第三内容识别结果得到单元，用于基于各个所述位置关系从所述目标文本中获取目标命名实体，将所述目标命名实体作为所述目标内容对应的内容识别结果。

在一些实施例中，所述第三内容识别结果得到单元，还用于获取位置关系为命名实体的起始位置的分词，作为命名实体起始词；将所述命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部的分词作为命名实体组成词；将所述命名实体起始词与所述命名实体组成词进行组合，得到目标命名实体。

在一些实施例中，所述位置关系得到单元，还用于基于所述特征序列得到各个所述分词相对于命名实体的位置关系以及所述分词对应的实体类型；所述第三内容识别结果得到单元，还用于将所述命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部，且实体类型与所述命名实体起始词的类型相同的分词作为命名实体组成词。

在一些实施例中，所述特征关注强度得到模块包括：乘积运算值得到单元，用于将所述关联提取特征中的关联特征值与所述文本提取特征中对应位置的文本特征值进行乘积运算，得到乘积运算值；特征关注强度得到单元，用于对所述乘积运算值进行统计，得到所述关联提取特征与所述文本提取特征之间的特征关联度，将所述特征关联度作为所述文本提取特征对应的特征关注强度。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述内容识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述内容识别方法的步骤。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

上述内容识别方法、装置、计算机设备和存储介质，确定待识别的目标内容，获取目标内容中的目标文本以及与目标文本关联的文本关联数据，对目标文本进行特征提取，得到文本提取特征，对文本关联数据进行特征提取，得到关联提取特征，对关联提取特征与文本提取特征进行关联计算，基于计算得到的特征关联度得到文本提取特征对应的特征关注强度，特征关联度与特征关注强度成正相关关系，基于特征关注强度对文本提取特征进行调整，得到调整文本特征，基于调整文本特征进行识别，得到目标内容对应的内容识别结果。由于特征关联度与特征关注强度成正相关关系，故目标文本与文本关联数据之间的关联关系越大，特征关注强度越大，对文本提取特征越关注。从而在基于调整文本特征进行识别时，目标文本与文本关联数据之间的关联关系越大，文本关联数据对识别结果的影响程度越大，从而可以自适应的根据文本关联数据与目标文本之间的关系进行文本特征的调整，使得在内容识别时更加关注重要的文本特征，提高了内容识别的准确度。

附图说明

图1为一些实施例中内容识别方法的应用环境图；

图2为一些实施例中内容识别方法的流程示意图；

图3为一些实施例中应用内容识别方法进行视频识别的原理图；

图4为一些实施例中内容识别模型的框架图；

图5为一些实施例中内容识别模型的框架图；

图6为一些实施例中利用实体识别网络进行实体识别的原理图；

图7为一些实施例中内容识别网络的框架图；

图8为一些实施例中利用实体识别模型进行实体识别的原理图；

图9为一些实施例中内容识别装置的结构框图；

图10为一些实施例中计算机设备的内部结构图；

图11为一些实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、语音技术、自然语言处理以及机器学习等技术，具体通过如下实施例进行说明：

本申请提供的内容识别方法，可以应用于如图1所示的应用环境中。该应用环境包括终端102以及服务器104。其中，终端102以及服务器104通过网络进行通信。

具体地，服务器104可以响应于内容识别请求，获取待识别的目标内容，待识别的目标内容可以是内容识别请求中携带的，或者根据内容识别请求中携带的内容标识所获取的内容，服务器104可以获取目标内容中的目标文本以及与目标文本关联的文本关联数据，对目标文本进行特征提取，得到文本提取特征，对文本关联数据进行特征提取，得到关联提取特征，对关联提取特征与文本提取特征进行关联计算，基于计算得到的特征关联度得到文本提取特征对应的特征关注强度，特征关联度与特征关注强度成正相关关系，基于特征关注强度对文本提取特征进行调整，得到调整文本特征，基于调整文本特征进行识别，得到目标内容对应的内容识别结果，服务器104可以将内容识别结果与目标内容关联存储，例如可以将内容识别结果作为目标内容的标签。其中，内容识别请求可以是服务器104触发的，也可以是其他设备例如终端发送至服务器104的。

其中，终端102上可以安装有客户端，例如可以安装有视频客户端、浏览器客户端、即时通信客户端或者教育客户端等中的至少一个。终端102可以通过客户端响应于用户触发的内容搜索操作，向服务器104发送内容搜索请求，内容搜索请求中可以携带搜索信息，服务器104可以将搜索信息与内容识别结果进行匹配，当搜索信息与内容识别结果匹配时，将该内容识别结果对应的内容发送至终端102，终端102可以在客户端中展示服务器104返回的内容。

其中，终端102可以但不限于是笔记本电脑、智能手机、智能电视、台式电脑、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。可以理解，上述应用场景仅是一种示例，并不构成对本申请实施例提供的内容识别方法的限定，本申请实施例提供的方法还可以应用在其他应用场景中，例如本申请提供的内容识别方法可以是由终端102或服务器104执行的，还可以是由终端102与服务器104协同执行的，终端102可以将识别出的内容识别结果上传至服务器104，服务器104可以将目标内容与内容识别结果关联存储。

在一些实施例中，如图2所示，提供了一种内容识别方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

S202，确定待识别的目标内容，获取目标内容中的目标文本以及与目标文本关联的文本关联数据。

其中，内容可以是视频、音频或文本中的任意一种，内容包括文本数据，还可以包括图像数据或音频数据中的至少一种，音频数据例如可以是语音数据。当内容为视频时，内容中的文本数据可以包括视频中的字幕、弹幕、评论或标题中的至少一种，内容中的图像数据可以是视频中的视频帧，内容中的音频数据可以是视频中的配音或音乐等音频数据。当内容为音频数据时，内容中的文本数据可以是音频数据对应的文本数据，例如当内容为歌曲时，内容中的文本数据可以是歌曲对应的歌词，内容中的音频数据可以是音频帧。音频帧是对音频进行分帧得到的，分帧指的是将音频分为多个小段，每个小段为一帧。

目标内容指的是待进行识别的内容，可以是待进行身份识别的内容或待进行场景识别的内容中的至少一种，身份识别指的是对目标内容中出现的人物的身份进行识别，例如可以通过识别目标内容中出现的人物信息确定人物的身份，人物信息可以包括人物的名称或人物的人脸中的至少一种，场景识别指的是对目标内容所属的场景进行识别，例如可以通过识别目标内容中出现的地点确定场景。目标文本指的是目标内容中的文本数据，可以包括目标内容中任意时刻的文本数据，例如，当目标文本为视频时，目标文本可以包括视频中任意时刻或时间段展示的字幕、弹幕、评论或标题中的至少一种。当目标内容为歌曲时，目标文本数据可以是歌曲对应的歌词。

文本关联数据指的是目标内容中与目标文本具有关联关系的数据，例如可以包括目标内容中与目标文本具有关联关系的目标图像数据或目标音频数据中的至少一种。目标图像数据为目标内容中与目标文本具有关联关系的图像数据，目标音频数据为目标内容中与目标文本具有关联关系的音频数据。目标图像数据可以包括一张或多张图像，多张指的是至少两张，目标音频数据可以包括一段或多段音频帧，多段指的是至少两段。

关联关系可以包括时间上的关联关系。例如文本关联数据可以包括目标内容中目标文本出现的时间内所出现的数据，或者包括目标内容中与目标文本出现的时间之间的时间间隔小于时间间隔阈值的时间内所出现的数据。例如当目标内容为目标视频，目标文本为视频的字幕文本时，则文本关联数据可以为与该字幕匹配的视频帧以及语音，例如目标文本与对应的文本关联数据可以为对同一视频场景进行描述的数据。例如目标文本为目标视频中的目标时间出现的字幕时，文本关联数据可以包括目标视频中目标时间出现的数据，例如可以包括目标视频中目标时间出现的视频帧、弹幕或音频帧中的至少一种，或者包括目标视频中与目标时间之间的时间间隔小于时间间隔阈值的时间所出现的数据。时间间隔阈值可以是预先设置的，也可以根据需要设置。其中，目标视频可以是任意的视频，可以是直接拍摄得到的视频，也可以是从拍摄得到的视频中截取得到的视频片段，目标视频可以是任意类型的视频，包括但不限于是广告类的视频、电视剧类的视频或新闻类视频中的至少一种，目标视频还可以是待推送至用户的视频。目标视频中目标时间出现的视频帧可以包括一帧或多帧，目标视频中目标时间出现的音频帧可以包括一帧或多帧，多帧指的是至少两帧。

关联关系还可以包括语义上的关联关系。例如文本关联数据可以包括目标内容中与目标文本的语义匹配的数据，与目标文本的语义匹配的数据可以包括与目标文本的语义一致的数据，或者包括语义与目标文本的语义的差异小于语义差异阈值的数据。语义差异阈值可以是预先设置的，也可以根据需要设置。

具体地，服务器可以获取待进行实体识别的内容，例如待进行实体识别的视频，将待进行实体识别的内容作为待识别的目标内容，利用本申请提供的内容识别方法对待进行实体识别的内容进行识别，得到识别出的实体词，基于识别出的实体词构建知识图谱，或者可以将识别出的实体词作为目标内容对应的标签。当需要对目标内容进行推送时，可以根据目标内容对应的标签，确定目标内容所匹配的用户，将目标内容推送至该匹配用户的终端。

其中，实体(Entity)是指具有特定意义的事物，例如可以包括地名、机构名或者专有名词等中的至少一种。目标文本中可以包括一个或者多个实体，实体词为表示实体的词语。例如假设目标文本为“猴子喜欢吃香蕉”，则目标文本中包括的实体为“猴子”以及“香蕉”，“猴子”为一个实体词，“香蕉”为一个实体词。知识图谱(Knowledge Graph)是一种基于图的数据结构，包括节点(point)和边(Edge)，每个节点表示一个实体，每条边为实体与实体之间的关系。

实体识别还可以称为实体词识别或命名实体识别(Named Entity Recognition，NER)。实体词识别是自然语言处理(Natural Language Processing,NLP)领域研究的一个重要方向，进行实体词识别的方法有很多，例如包括基于词典和规则的方法，包括隐马尔科夫模型(Hidden Markov Model，HMM)、最大熵马尔科夫模型(Maximum Entropy MarkovModel，MEMM)、条件随机场(Conditional Random Fields，CRF)等机器学习方法，包括循环神经网络(RNN，Recurrent Neural Networks)和长短期记忆网络(LSTM，Long Short-TermMemory)等深度学习模型，以及包括LSTM与CRF结合的识别方法。其中，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

在一些实施例中，第一终端可以向服务器发送内容推送请求，内容推送请求中可以携带待推送的内容对应的内容标识，内容标识用于唯一识别内容，待推送的内容例如可以是待推送的视频，服务器可以响应于内容推送请求，获取内容推送请求中携带的内容标识对应的待推送的内容，作为待识别的目标内容。例如，第一终端可以展示内容推送界面，内容推送界面中可以展示推送内容获取区域以及内容推送触发控件，推送内容获取区域用于接收待推送的内容对应的内容信息，内容信息中包括一个或者多个内容标识，多个指的是至少两个，内容推送触发控件用于触发第一终端向服务器发送内容推送请求，当第一终端获取到对内容推送触发控件的触发操作时，获取推送内容获取区域中接收的内容信息，向服务器发送携带该内容信息的内容推送请求。服务器可以获取内容信息中包括的各个内容标识分别对应的内容，分别作为各个待识别的目标内容。服务器可以利用本申请提供的内容识别方法对各个待识别的内容进行识别，根据识别的结果确定与各个目标内容分别匹配的用户，将目标内容推送至所匹配的用户的终端。例如，可以将识别的结果与用户的用户画像进行匹配，当匹配成功时，将目标内容推送至该用户的终端

举例说明，当内容为视频时，内容识别方法还可以称为视频识别方法，内容推送请求还可以称为视频推送请求，内容推送界面例如可以为图3中的视频推送界面300，推送内容获取区域例如可以是图3中的区域302，内容推送触发控件例如可以是图3中的“确定”控件304，当终端获取到对“确定”控件304的点击操作时，可以向服务器发送视频推送请求，服务器根据视频识别方法对视频A和视频B进行识别，确定视频A所匹配的用户1，以及视频B所匹配的用户B，将视频A推送至用户1的终端，将视频B推送至用户2的终端。

S204，对目标文本进行特征提取，得到文本提取特征；对文本关联数据进行特征提取，得到关联提取特征。

其中，文本提取特征是对目标文本进行特征提取所得到的特征，文本提取特征可以为目标文本对应的目标分词的目标词向量进行进一步的特征提取得到的特征。目标分词是对目标文本进行切分得到的，切分的粒度可以根据需要设置，例如可以是以字、词语或句子为单位进行切分，得到切分后的文本块，将每个文本块作为一个分词。当以字为单位进行切分时，一个字对应一个文本块，即一个字为一个分词。例如，当目标文本为“我好渴”时，当以字为单位进行分词时，得到的各个分词分别为“我”、“好”以及“渴”。目标词向量为目标分词的向量表示形式。目标文本切分得到的目标分词可以有一个或多个，多个指的是至少两个。

关联提取特征是对文本关联数据进行特征提取所得到的特征。当文本关联数据为目标图像数据时，关联提取特征可以是对目标图像数据进行图像特征提取所得到的目标图像特征。当文本关联数据为目标音频数据时，关联提取特征可以是对目标音频数据进行音频特征提取所得到的目标音频特征。目标图像特征是对目标图像数据进行图像特征提取所提取的图像特征。目标音频特征是对目标音频特征进行音频特征提取所提取的音频特征。文本提取特征与关联提取特征可以是同维度的，例如可以是同维度的向量或同纬度的矩阵。

具体地，服务器可以将目标文本输入到已训练的内容识别模型中的文本特征提取网络，利用文本特征提取网络对目标文本进行特征提取，得到文本提取特征，将文本关联数据输入到已训练的内容识别模型中的关联特征提取网络中，利用关联提取网络对文本关联数据进行特征提取，得到关联提取特征。已训练的内容识别模型用于对内容进行识别，得到内容识别结果，例如用于识别视频的字幕中包括的实体词或视频的场景中的至少一种。已训练的内容识别模型中的关联特征提取网络可以有多个，例如关联特征提取网络可以包括图像特征提取网络或音频特征提取网络中的至少一种，图像特征提取网络用于提取图像的特征，音频特征提取网络用于提取音频的特征。当文本关联数据为目标图像数据时，可以将文本关联数据输入到图像特征提取网络中，将图像特征提取网络提取的图像特征作为关联提取特征。当文本关联数据为目标音频数据时，可以将文本关联数据输入到音频特征提取网络中，将音频特征提取网络提取的音频特征作为关联提取特征。

其中，文本特征提取网络、图像特征提取网络以及音频特征提取网络可以是基于人工智能的神经网络，例如可以是卷积神经网络(Convolutional Neural Networks，CNN)，当然也可以是其他类型的神经网络。文本特征提取网络例如可以是Transformer(转换器)网络或基于Transformer的双向编码器(Bidirectional Encoder Representations fromTransformers，BERT)网络。图像特征提取网络例如可以是残差卷积网络(ResNet，ResidualNetwork)。音频特征提取网络例如可以是VGG(Visual Geometry Group)卷积网络。VGG代表了牛津大学的视觉几何组(Visual Geometry Group，VGG)。例如，服务器可以对目标图像进行尺度变换，得到尺度变换后的图像，将尺度变换后的图像数据输入到残差卷积网络中进行图像特征提取，将残差卷积网络中的feature map(特征图)提取层输出的特征进行池化(pooling)，例如池化为固定尺寸的n*n大小，将池化后的特征作为关联提取特征。n为大于等于1的正数。

在一些实施例中，对目标文本进行特征提取，得到文本提取特征的步骤包括：对目标文本进行切分，得到目标分词，对目标分词进行向量转化，得到目标分词对应的目标词向量，将目标词向量作为文本提取特征。

在一些实施例中，服务器可以将目标文本输入到基于attention(注意力)的transformer模型中，transformer模型作为文本特征的编码器，可以对目标文本进行编码，得到目标文本中每个字的嵌入式(embedding)表示形式的编码特征，可以将每个字对应的编码特征作为文本提取特征。

在一些实施例中，服务器可以对目标音频数据进行频谱计算，得到目标音频数据对应的频谱图，对目标音频数据对应的频谱图进行特征提取，将提取到的特征作为关联提取特征。例如，服务器可以对目标音频数据对应的频谱图进行声谱计算，得到目标音频数据对应的声谱信息，对目标音频数据的声谱信息进行特征提取得到关联提取特征。例如，服务器可以利用hann(海宁窗)时窗对目标音频数据进行傅里叶变换得到目标音频数据对应的频谱图，通过mel(梅尔)滤波器对频谱图进行计算，得到目标音频数据对应的声谱信息，利用VGG卷积网络对声谱信息进行特征提取，将特征提取得到的音频特征作为关联提取特征。

S206，对关联提取特征与文本提取特征进行关联计算，基于计算得到的特征关联度得到文本提取特征对应的特征关注强度，特征关联度与特征关注强度成正相关关系。

其中，特征关联度是对关联提取特征与文本提取特征进行关联计算所得到的结果，关联度越大，则表示关联关系越强。特征关联度与特征关注强度成正相关关系，文本提取特征对应的目标分词不同，文本提取特征对应的特征关注强度可以不同。例如可以将特征关联度作为特征关注强度，或者对特征关联度进行线性运算或非线性运算，将运算的结果作为特征关注强度。线性运算包括加和运算或乘积运算中的至少一种，非线性运算包括指数运算或对数运算中的至少一种。正相关关系指的是：在其他条件不变的情况下，两个变量变动方向相同，一个变量由大到小变化时，另一个变量也由大到小变化。可以理解的是，这里的正相关关系是指变化的方向是一致的，但并不是要求当一个变量有一点变化，另一个变量就必须也变化。例如，可以设置当变量a为10至20时，变量b为100，当变量a为20至30时，变量b为120。这样，a与b的变化方向都是当a变大时，b也变大。但在a为10至20的范围内时，b可以是没有变化的。

特征关联度可以包括图像关联度或音频关联度中的至少一个，图像关联度指的是对目标图像特征与文本提取特征进行关联计算所得到的结果，音频关联度指的是对目音频特征与文本提取特征进行关联计算所得到的结果。特征关注强度可以包括图像关注强度或音频关注强度中的至少一个。图像关注强度基于图像关联度得到，图像关注强度与图像关联度成正相关关系，音频关注强度基于音频关联度得到，音频关注强度与音频关联度成正相关关系。特征关注强度用于反映对特征进行关注的强度，特征关注强度越大，说明在进行内容识别时，需要更加关注该特征。

关联提取特征可以包括多个有序的关联特征值，文本提取特征可以包括多个有序的文本特征值，文本特征值指的是文本提取特征中包括的特征值，关联特征值指的是关联提取特征中包括的特征值。关联提取特征与文本提取特征可以是同维度的，例如可以是同维度的向量或矩阵，也就是说，关联提取特征中所包括的关联特征值的数量，与文本提取特征中所包括的文本特征值的数量可以是相同的。例如，假设文本提取特征为向量A＝[a1,a2,a3]，关联提取特征为向量B＝[b1,b2,b3]，其中，向量A包括3个元素，分别为a1,a2和a3，向量A中的每个元素为一个文本特征值，同样的，向量B中包括3个元素，分别为b1,b2和b3，向量B中的每个元素为一个关联特征值。

具体地，关联计算可以为乘积运算或加和运算中的至少一种。当关联计算为乘积运算时，可以将关联提取特征中的关联特征值与文本提取特征中对应位置的文本特征值进行乘积运算，得到乘积运算值，对各个乘积运算值进行统计运算，例如对各个乘积运算值进行加和运算或均值运算，得到统计运算结果，基于统计运算结果得到特征关联度，例如可以将统计运算结果作为特征关联度，也可以对统计运算结果进行归一化处理，将归一化处理的结果作为特征关联度。当关联计算为加和运算时，可以将关联提取特征中的关联特征值与文本提取特征中对应位置的文本特征值进行加和运算，得到加和运算值，对各个加和运算值进行统计运算，例如可以对各个加和运算值进行加和运算或均值运算，得到统计运算结果。

在一些实施例中，目标文本切分得到的目标分词有多个，服务器可以获取根据各个目标分词分别得到的文本提取特征，将各个文本提取特征组成矩阵，将组成的矩阵作为文本提取特征矩阵，文本提取特征矩阵中的每一列为一个文本提取特征。服务器可以对关联提取特征与文本提取特征矩阵进行乘积运算，得到总乘积运算结果，基于总乘积运算结果确定各个文本提取特征分别对应的特征关联度。其中，对关联提取特征与文本提取特征矩阵进行乘积运算，得到总乘积运算结果的步骤可以包括：将文本提取特征矩阵中的文本提取特征分别与关联提取特征进行乘积运算，得到各个文本提取特征分别对应的子乘积运算结果，将各个子乘积运算结果作为总乘积运算结果。其中，将文本提取特征矩阵中的文本提取特征分别与关联提取特征进行乘积运算，得到各个文本提取特征分别对应的子乘积运算结果的步骤可以包括：将文本提取特征中的文本特征值与关联提取特征中对应位置的关联特征值进行乘积运算，得到文本提取特征对应的子乘积运算结果。基于总乘积运算结果确定各个文本提取特征分别对应的特征关联度的步骤可以包括：对总乘积运算结果中的各个子乘积运算结果进行归一化处理，得到各个归一化后的子乘积运算结果，将归一化后的子乘积运算结果作为文本提取特征对应的特征关联度。

在一些实施例中，当文本关联数据为目标图像数据，并且目标图像数据有多个时，服务器可以将各个目标图像数据对应的目标图像特征组成矩阵，将组成的矩阵作为图像特征矩阵，图像特征矩阵中的每一列为一个目标图像特征。服务器可以对目标图像特征矩阵的转置矩阵与文本提取特征矩阵进行矩阵相乘运算，得到第一乘积矩阵，对第一乘积矩阵中的各个矩阵值进行归一化处理，得到归一化后的第一乘积矩阵，基于归一化后的第一乘积矩阵确定各个文本提取特征分别对应的图像关联度，归一化后的第一乘积矩阵中包括各个文本提取特征分别对应的图像关联度。

例如，假设目标文本为“我好渴”，按照字为单元对目标文本进行切分，得到3个目标分词，分别为“我”、“好”以及“渴”，一个分词为一个文字，目标分词对应的目标词向量的维度为2，“我”对应的目标词向量为A＝(a1，a2)^T，“好”对应的目标词向量为B＝(b1，b2)^T,“渴”对应的目标词向量为C＝(c1，c2)^T，将每一个目标词向量作为一个文本提取特征，则文本提取特征矩阵feature_text可以表示为公式(1)。假设有3个目标图像数据，这3个目标图像数据可以相同也可以不同，例如为3张图像，各个目标图像数据分别对应的目标图像特征为R＝(r1，r2)^T，M＝(m1，m2)^T，N＝(n1，n2)^T，R、M以及N可以相同也可以不同，则目标图像特征矩阵feature_image可以表示为公式(2)。则第一乘积矩阵L1可以表示为公式(3)。

L1＝[feature_image]^T[feature_text] (3)

在一些实施例中，对第一乘积矩阵中的各个矩阵值进行归一化处理，得到归一化后的第一乘积矩阵的步骤包括：确定缩放因子，将第一乘积矩阵中的各个矩阵值分别除以缩放因子，得到各个矩阵值对应的缩放值，对各个缩放值进行归一化处理，将各个缩放值组成的矩阵作为归一化后的第一乘积矩阵。其中，缩放因子可以是预先设置的，也可以是根据需要设置的，例如缩放因子可以根据文本提取特征的维度确定，例如缩放因子可以与文本提取特征的维度成正相关关系，例如可以对文本提取特征的维度进行开方计算，得到缩放因子，例如可以对文本提取特征的维度进行开平方处理，将开平方处理后的结果与第一数值的比值，作为缩放因子。第一数值可以是预设设置的。归一化处理所采用的方法，可以是任意的能够将输入数据转化为0到1之间的数的函数，例如可以采用函数softmax进行归一化处理。例如，可以利用公式(4)计算得到归一化后的第一乘积矩阵L2。其中，d为文本提取特征的维度，m为第一数值。

同样的，当文本关联数据为目标音频数据，且目标音频数据有多个时，服务器可以将各个目标音频数据对应的目标音频特征组成目标音频特征矩阵，目标音频特征矩阵中的每一列为一个目标音频特征，服务器可以对目标音频特征矩阵的转置矩阵与文本提取特征矩阵进行矩阵相乘运算，得到第二乘积矩阵，对第二乘积矩阵中的各个矩阵值进行归一化处理，得到归一化后的第二乘积矩阵，基于归一化后的第二乘积矩阵确定各个文本提取特征分别对应的音频关联度，归一化后的第二乘积矩阵中包括各个文本提取特征分别对应的音频关联度。

在一些实施例中，对关联提取特征与文本提取特征进行关联计算，基于计算得到的特征关联度得到文本提取特征对应的特征关注强度包括：对关联提取特征与文本提取特征进行相似度计算，得到特征相似度，将特征相似度作为特征关联度，基于特征关联度得到文本提取特征对应的特征关注强度。例如可以按照余弦相似度计算公式，对关联提取特征与文本提取特征进行相似度计算，将计算得到的余弦相似度作为特征相似度。

S208，基于特征关注强度对文本提取特征进行调整，得到调整文本特征。

其中，调整文本特征是基于特征关注强度对文本提取特征进行调整所得到的特征，调整文本特征可以包括第一调整文本特征或第二调整文本特征中的至少一种。第一调整文本特征指的是基于图像关注强度对文本提取特征进行调整所得到的特征。第二调整文本特征指的是基于音频关注强度对文本提取特征进行调整所得到的特征。

具体地，服务器可以利用特征关注强度对文本提取特征中的各个文本特征值进行调整，得到调整文本特征，例如可以对文本特征值与特征关注强度进行线性运算，得到线性运算后的文本特征值，基于各个线性运算后的文本特征值得到调整文本特征。其中，线性运算可以包括加和运算或乘积运算中的至少一种。例如，服务器可以将特征关注强度分别与文本提取特征中的各个特征值进行乘积运算，得到各个特征值乘积，并按照文本提取特征中特征值的位置对特征值乘积进行排序，得到特征值序列，将特征值序列作为调整文本特征。文本特征值在文本提取特征中的位置与该文本特征值计算得到的特征值乘积在特征值序列中的位置相同。例如，假设文本提取特征为向量[a1,a2,a3]，则a1、a2和a3为文本提取特征中的特征值，当特征关注强度为c时，特征值序列为向量[a1*c,a2*c,a3*c]，a1*c、a2*c和a3*c为特征值乘积，a1*c在特征值序列[a1*c,a2*c,a3*c]中位置与a1在文本提取特征[a1,a2,a3]中的位置相同。

在一些实施例中，服务器可以利用归一化后的第一乘积矩阵对文本提取特征矩阵进行调整，得到第一调整文本特征矩阵，归一化后的第一乘积矩阵中包括各个文本提取特征分别对应的图像关联度，第一调整文本特征矩阵中可以包括各个文本提取特征分别对应的第一调整文本特征。例如，服务器可以对归一化后的第一乘积矩阵与文本提取特征矩阵的转置矩阵进行矩阵相乘运算，将相乘后得到的矩阵的转置矩阵作为第一调整文本特征矩阵。例如，可以采用公式(5)计算得到第一调整文本特征矩阵feature_fusion1，其中feature_fusion1表示第一调整文本特征矩阵，[feature_fusion1]^T表示feature_fusion1的转置矩阵。同样的，服务器可以利用归一化后的第二乘积矩阵与文本提取特征的转置矩阵进行矩阵相乘运算，得到第二调整文本特征矩阵，归一化后的第二乘积矩阵中包括各个文本提取特征分别对应的音频关联度，第二调整文本特征矩阵中可以包括各个文本提取特征分别对应的第二调整文本特征。例如，可以采用公式(6)计算得到第二调整文本特征矩阵feature_fusion2，其中，feature_audio为目标音频特征矩阵。[feature_audio]^T表示目标音频特征矩阵对应的转置矩阵。

S210，基于调整文本特征进行识别，得到目标内容对应的内容识别结果。

其中，内容识别结果是基于调整文本特征进行识别所得到的结果。内容识别结果可以根据识别时所采用的内容识别网络确定，内容识别网络不同，所得到的内容识别结果可以相同，也可以不同。内容识别网络可以包括场景识别网络或实体识别网络中的至少一种。场景识别网络用于识别场景，实体识别网络用于识别实体。当内容识别网络为场景识别网络时，内容识别模型还可以称为场景识别模型，当内容识别网络为实体识别网络时，内容识别模型还可以称为实体识别模型或实体词识别模型。

具体地，服务器可以将调整文本特征输入到已训练的内容识别模型的内容识别网络中，利用内容识别模型对调整文本特征进行识别，得到目标内容对应的内容识别结果。例如，当文本提取特征为目标文本中的目标分词对应的特征时，可以将各个目标分词分别对应的调整文本特征按照目标分词在目标文本中的顺序进行排序，将排序得到的序列作为特征序列，服务器可以基于特征序列进行识别，得到目标内容对应的内容识别结果，例如可以将特征序列输入到内容识别模型中的内容识别网络中，得到内容识别结果，例如当内容识别网络为实体识别网络时，可以识别出目标内容中包括的实体词。

如图4所示，展示了一个内容识别模型400，内容识别模型400包括文本特征提取网络、关联特征提取网络、关注强度计算模块、特征调整模块以及内容识别网络。其中，关注强度计算模块用于对关联提取特征与文本提取特征进行关联计算，得到特征关注强度。特征调整模块用于基于特征关注强度对文本提取特征进行调整，得到调整文本特征，将调整文本特征输入到内容识别网络中，得到目标内容对应的内容识别结果。内容识别模型400中各个网络以及模块可以是通过联合训练得到的。服务器从目标中获取目标文本以及文本关联数据，将目标文本输入到文本特征提取网络中，得到文本提取特征，将关联文本数据输入到关联特征提取网络中，得到关联提取特征，将文本提取特征以及关联提取特征输入到关注强度计算模块，得到特征关注强度，将特征关注强度以及文本提取特征输入到特征调整模块中，得到调整文本特征，将调整文本特征输入到内容识别网络中，得到内容识别结果。

在一些实施例中，服务器也可以对调整文本特征以及文本提取特征进行融合，得到融合文本特征，例如可以对调整文本特征与文本提取特征进行统计运算，例如进行加权计算或均值计算，得到融合文本特征，例如服务器可以确定调整文本特征对应的调整特征权重，基于调整特征权重对调整文本特征以及文本提取特征进行融合，得到融合文本特征，服务器可以基于融合文本特征进行识别，得到目标内容对应的内容识别结果。

在一些实施例中，调整文本特征包括第一调整文本特征以及第二调整文本特征，服务器可以基于第一调整文本特征、第二调整文本特征以及文本提取特征进行融合，例如加权计算或均值计算，得到融合文本特征。例如，调整特征权重可以包括第一调整文本特征对应的第一特征权重以及第二调整文本特征对应的第二特征权重，服务器可以基于第一特征权重对第一调整文本特征以及文本提取特征进行融合，得到第一融合特征，基于第二特征权重对第二调整文本特征以及文本提取特征进行融合，得到第二融合特征，将第一融合特征与第二融合特征进行统计运算，将统计运算的结果作为融合文本特征，例如将第一融合特征与第二融合特征中对应位置的特征值进行加和计算，得到各个加和值，按照特征值在第一融合特征或第二融合特征中的位置，对各个加和值进行排序，将排序后得到的序列作为融合文本特征。

上述内容识别方法中，确定待识别的目标内容，获取目标内容中的目标文本以及与目标文本关联的文本关联数据，对目标文本进行特征提取，得到文本提取特征，对文本关联数据进行特征提取，得到关联提取特征，对关联提取特征与文本提取特征进行关联计算，基于计算得到的特征关联度得到文本提取特征对应的特征关注强度，特征关联度与特征关注强度成正相关关系，基于特征关注强度对文本提取特征进行调整，得到调整文本特征，基于调整文本特征进行识别，得到目标内容对应的内容识别结果。由于特征关联度与特征关注强度成正相关关系，故目标文本与文本关联数据之间的关联关系越大，特征关注强度越大，对文本提取特征越关注。从而在基于调整文本特征进行识别时，目标文本与文本关联数据之间的关联关系越大，文本关联数据对识别结果的影响程度越大，从而可以自适应的根据文本关联数据与目标文本之间的关系进行文本特征的调整，使得在内容识别时更加关注重要的文本特征，提高了内容识别的准确度。

在一些实施例中，基于调整文本特征进行识别，得到目标内容对应的内容识别结果包括：对调整文本特征以及文本提取特征进行融合，得到融合文本特征；基于融合文本特征进行识别，得到目标内容对应的内容识别结果。

其中，融合文本特征是将调整文本特征与文本提取特征进行融合所得到的特征。融合文本特征、调整文本特征以及文本提取特征的维度可以相同，例如可以是相同维度的向量或矩阵。

具体地，服务器可以对调整文本特征与文本提取特征进行统计运算，例如均值运算或加和运算，将统计运算的结果作为融合文本特征。例如，服务器可以对文本提取特征进行编码，得到文本提取特征对应的编码后的特征，作为第一编码特征，可以对调整文本特征进行编码，得到调整文本特征对应的编码后的特征，作为第二编码特征，对第一编码特征以及第二编码特征进行统计运算，例如均值运算或加和运算，将运算的结果作为融合文本特征。

在一些实施例中，服务器可以将融合文本特征输入到已训练的内容识别模型的内容识别网络中，利用内容识别网络对融合文本特征进行识别，得到目标内容对应的内容识别结果。

本实施例中，对调整文本特征以及文本提取特征进行融合，得到融合文本特征，基于融合文本特征进行识别，得到目标内容对应的内容识别结果，可以提高内容识别的准确度。

在一些实施例中，对调整文本特征以及文本提取特征进行融合，得到融合文本特征包括：对文本提取特征进行编码，得到第一编码特征，对调整文本特征进行编码，得到第二编码特征；将第一编码特征与第二编码特征进行融合，得到融合编码特征；基于融合编码特征得到调整文本特征对应的调整特征权重；基于调整特征权重对调整文本特征以及文本提取特征进行融合，得到融合文本特征。

其中，第一编码特征是对文本提取特征进行编码所得到的特征。第二编码特征是对调整文本特征进行编码所得到的特征。融合编码特征是将第一编码特征与第二编码特征进行融合所得到的特征。调整特征权重基于融合编码特征得到。

具体地，内容识别模型中还可以包括第一编码器、第二编码器以及特征融合模块，特征融合模块用于对第一编码特征与第二编码特征进行融合，得到融合编码特征。服务器可以将文本提取特征输入到已训练的内容识别模型中的第一编码器进行编码，得到第一编码特征，将调整文本特征输入到已训练的内容识别模型中的第二编码器进行编码，得到第二编码特征，将第一编码特征与第二编码特征进行融合，例如可以将第一编码特征以及第二编码特征输入到特征融合模块中，得到融合编码特征。其中，第一编码器以及第二编码器可以是基于人工智能的神经网络，内容识别模型中的各个网络以及模块可以是联合训练得到的，例如第一编码器与第二编码器是联合训练得到的。

在一些实施例中，服务器可以对第一编码特征与第二编码特征进行统计运算，得到编码统计特征，例如，可以将第一编码特征与第二编码特征进行相加运算，将相加运算的结果作为融合编码特征，或者对第一编码特征与第二编码特征进行均值运算，将计算得到的均值作为融合编码特征。服务器可以基于编码统计特征确定融合编码特征，例如可以将编码统计特征作为融合编码特征。

在一些实施例中，服务器可以对融合编码特征进行归一化处理，将归一化所得到的结果作为调整文本特征对应的调整特征权重。例如，已训练的内容识别模型中可以包括激活层，激活层可以将数据进行转化为0与1之间的数据，对融合编码特征进行归一化处理，将归一化所得到的结果作为调整特征权重的步骤可以包括：将融合编码特征输入到内容识别模型的激活层中进行激活处理，将激活处理的结果作为调整文本特征对应的调整特征权重。

在一些实施例中，服务器可以将调整特征权重与调整文本特征进行乘积计算，得到计算后的调整文本特征，将计算后的调整文本特征与文本提取特征进行统计运算，例如进行加和运算或均值运算，将统计运算的结果作为融合文本特征。

在一些实施例中，服务器可以确定文本提取特征对应的文本特征权重，例如可以获取预设权重，将预设权重作为文本特征权重，预设权重可以是根据需要预先设置的权重。文本特征权重也可以是根据调整特征权重确定的，例如调整特征权重可以与文本特征权重成负相关关系，调整特征权重与文本特征权重的和可以为预设数值，预设数值可以根据需要预先设置的，例如可以是1，例如可以将预设数值减去文本特征权重所得到的结果作为文本特征权重，例如，当调整特征权重为0.3时，文本特征权重可以为0.7。其中，预设数值大于文本特征权重，并且预设数值大于调整特征权重。负相关关系指的是：在其他条件不变的情况下，两个变量变动方向相反，一个变量由大到小变化时，另一个变量由小到大变化。可以理解的是，这里的负相关关系是指变化的方向是相反的，但并不是要求当一个变量有一点变化，另一个变量就必须也变化。

在一些实施例中，第一编码器可以包括第一文本编码器或第二文本编码器中的至少一个，第二编码器可以包括图像编码器或音频编码器中的至少一个。第一编码特征可以包括第一文本特征或第二文本特征中的至少一个，第一文本特征是利用第一文本编码器对文本提取特征进行编码所得到的特征，第二文本特征是利用第二文本编码器对文本提取特征进行编码所得到的特征。第二编码特征可以包括图像编码特征或音频编码特征中的至少一个，图像编码特征是利用图像编码器对第一调整文本特征进行编码所得到的特征，音频编码特征是利用音频编码特征对第二调整文本特征进行编码所得到的特征。融合编码特征可以包括文本图像编码特征或文本音频编码特征中的至少一种。文本图像编码特征是将第一文本编码特征与图像编码特征进行融合所得到的特征。文本音频编码特征是将第二文本编码特征与音频编码特征进行融合所得到的特征。例如，当调整文本特征为第一调整文本特征时，服务器可以将文本提取特征输入到第一文本编码器进行编码，得到第一文本特征，将第一调整文本特征输入到图像编码器进行编码，得到图像编码特征，将第一文本特征与图像编码特征进行融合，得到文本图像编码特征。当调整文本特征为第二调整文本特征时，服务器可以将文本提取特征输入到第二文本编码器进行编码，得到第二文本特征，将第二调整文本特征输入到音频编码器进行编码，得到音频编码特征，将第二文本特征与音频编码特征进行融合，得到文本音频编码特征，可以将文本图像编码特征以及文本音频编码特征作为融合编码特征。其中，第一文本编码器与第二文本编码器可以为同一编码器，也可以为不同的编码器，图像编码器与音频编码器可以为同一编码器，也可以为不同的编码器。

本实施例中，对文本提取特征进行编码，得到第一编码特征，对调整文本特征进行编码，得到第二编码特征，将第一编码特征与第二编码特征进行融合，得到融合编码特征，基于融合编码特征得到调整文本特征对应的调整特征权重，基于调整特征权重对调整文本特征以及文本提取特征进行融合，得到融合文本特征，从而融合文本特征既能反映文本提取特征又能反映调整文本特征，提高了融合文本特征的表达能力，当基于调整文本特征进行识别时，可以提高识别的准确度。

在一些实施例中，第一编码特征是通过已训练的内容识别模型中的第一编码器编码得到的，第二编码特征是通过内容识别模型中的第二编码器编码得到的，基于融合编码特征得到调整文本特征对应的调整特征权重包括：将融合编码特征输入到内容识别模型中的目标激活层进行激活处理，得到目标激活值，将目标激活值作为调整文本特征对应的调整特征权重，激活层为第一编码器与第二编码器的共享激活层。

其中，激活层用于将数据转换为0与1之间的数据，可以通过激活函数实现，激活函数包括但不限于是Sigmoid函数、tanh函数或Relu函数中的至少一种。目标激活层是已训练的内容识别模型中的激活层，是第一编码器与第二编码器共享的激活层，即目标激活层集可以接收第一编码器的输出数据，又可以接收第二编码器的输出的数据。目标激活值是利用目标激活层对融合编码特征进行激活处理所得到的结果，目标激活值与融合编码特征的维度可以相同，例如可以是同维度的向量或矩阵。如图5所示，展示了一个内容识别模块500，内容识别模块500中包括关联特征提取网络、关注强度计算模块、文本特征提取网络、特征调整模块、第一编码器、第二编码器、特征融合模块、目标激活层、融合文本特征生成模块以及内容识别网络，特征融合模块用于将第一编码特征与第二编码特征进行融合得到融合编码特征，融合文本特征生成用于基于调整特征权重对调整文本特征与文本提取特征进行融合，得到融合文本特征。

具体地，目标激活层可以包括第一文本编码器与图像编码器共享的第一激活层、第二文本编码器与音频编码器共享的第二激活层中的至少一个。目标激活值可以包括对文本图像编码特征进行激活得到的第一激活值、或对文本音频编码特征进行激活得到的第二激活值中的至少一个，当融合编码特征为文本图像编码特征时，服务器可以将文本图像编码特征输入到第一激活层进行激活，得到第一激活值，将第一激活值作为第一调整文本特征对应的第一特征权重；当融合编码特征为文本音频编码特征时，服务器可以将文本音频编码特征输入到第二激活层进行激活，得到第二激活值，将第二激活值作为第二调整文本特征对应的第二特征权重，将第一特征权重以及第二特征权重作为调整特征权重。

在一些实施例中，当调整文本特征为第一调整文本特征，并且第一调整文本特征有多个时，服务器可以将第一调整文本特征矩阵与文本提取特征矩阵进行矩阵融合，例如可以将文本提取特征矩阵输入到第一文本编码器进行编码，得到第一矩阵编码特征，第一调整文本特征矩阵输入到图像编码器进行编码，得到第二矩阵编码特征，对第一矩阵编码特征与第二矩阵编码特征进行统计运算，得到第一矩阵特征统计结果，对第一矩阵特征统计结果进行归一化处理，例如可以将第一矩阵特征统计结果输入至第一激活层进行激活，得到归一化后的第一矩阵特征统计结果，归一化后的第一矩阵特征统计结果中可以包括各个第一调整文本特征分别对应的第一特征权重。例如，可以采用公式(7)计算得到归一化后的第一矩阵特征统计结果gate₁。其中，gate₁表示归一化后的第一矩阵特征统计结果，sigmoid为激活函数，

为第一文本编码器的模型参数，

为图像编码器的模型参数。

在一些实施例中，当调整文本特征为第二调整文本特征，并且第二调整文本特征有多个时，服务器可以将第二调整文本特征矩阵与文本提取特征矩阵进行矩阵融合，例如可以将文本提取特征矩阵输入到第二文本编码器进行编码，得到第三矩阵编码特征，将第二调整文本特征矩阵输入到音频编码器进行编码，得到第四矩阵编码特征，对第三矩阵编码特征与第四矩阵编码特征进行统计运算，得到第二矩阵特征统计结果，对第二矩阵特征统计结果进行归一化处理，例如可以将第一矩阵特征统计结果输入至第二激活层进行激活，得到归一化后的第二矩阵特征统计结果，归一化后的第二矩阵特征统计结果中可以包括各个第二调整文本特征分别对应的第二特征权重。例如，可以采用公式(8)计算得到归一化后的第二矩阵特征统计结果gate₂。其中，gate₂表示归一化后的第二矩阵特征统计结果，

为第二文本编码器的模型参数，

为音频编码器的模型参数。

本实施例中，将融合编码特征输入到内容识别模型中的目标激活层进行激活处理，得到目标激活值，将目标激活值作为调整文本特征对应的调整特征权重，使得调整特征权重为归一化后的值，提高了调整特征权重的合理性。

在一些实施例中，基于调整特征权重对调整文本特征以及文本提取特征进行融合，得到融合文本特征包括：基于调整特征权重得到文本提取特征对应的文本特征权重；将调整特征权重与调整文本特征进行乘积计算，得到计算后的调整文本特征；将文本特征权重与文本提取特征进行乘积计算，得到计算后的文本提取特征；将计算后的调整文本特征与计算后的文本提取特征进行相加，得到融合文本特征。

其中，文本特征权重可以根据调整特征权重确定，文本特征权重可以与调整特征权重成负相关关系，例如可以将预设数值减去文本特征权重所得到的结果作为文本特征权重。预设数值大于文本特征权重，并且预设数值大于调整特征权重。

具体地，服务器可以将调整特征权重与调整文本特征相乘后的结果，作为计算后的调整文本特征，可以将文本特征权重与文本提取特征相乘后的结果，作为计算后的文本提取特征，可以将计算后的调整文本特征与计算后的文本提取特征进行相加所得到的结果，作为融合文本特征。

在一些实施例中，调整特征权重包括第一特征权重以及第二特征权重，文本特征权重可以包括基于第一特征权重得到的第一文本权重以及基于第二特征权重得到的第二文本权重。第一文本权重与第一特征权重成负相关关系。第二文本权重与第二特征权重成负相关关系。服务器可以利用第一特征权重、第二特征权重、第一文本权重以及第二文本权重，对第一调整文本特征、第二调整文本特征以及文本提取特征进行加权计算，将加权计算的结果作为融合文本特征。例如，服务器可以利用第一特征权重以及第一文本权重对第一调整文本特征以及文本提取特征进行加权计算，得到第一加权值，利用第二特征权重以及第二文本权重对第二调整文本特征以及文本提取特征进行加权计算，得到第二加权值，将第一加权值与第二加权值相加的结果作为融合文本特征。具体地，服务器可以将第一文本权重与文本提取特征进行乘积计算，得到第一乘积值，将第一特征权重与第一调整文本特征进行乘积计算，得到第二乘积值，将第二文本权重与文本提取特征进行乘积计算，得到第三乘积值，将第二特征权重与第二调整文本特征进行乘积计算，得到第四乘积值，将第一乘积值、第二乘积值、第三乘积值以及第四乘积值进行相加，将相加后的结果作为融合文本特征。

在一些实施例中，服务器可以利用归一化后的第一矩阵特征统计结果以及归一化后的第二矩阵特征统计结果，对第一调整文本特征矩阵以及第二调整文本特征矩阵进行加权计算，得到融合文本特征矩阵，融合文本特征矩阵中可以包括各个文本提取特征分别对应的融合文本特征。例如可以利用公式(9)计算得到融合文本特征矩阵output。其中，output指的是融合文本特征矩阵。

output＝feature_fusion1·gate₁+(1-gate₁)feature_text+feature_fusion2·gate₂+(1-gate₂)feature_text (9)

本实施例中，将调整特征权重与调整文本特征进行乘积计算，得到计算后的调整文本特征，将文本特征权重与文本提取特征进行乘积计算，得到计算后的文本提取特征，将计算后的调整文本特征与计算后的文本提取特征进行相加，得到融合文本特征，由于文本特征权重是基于调整特征权重得到的，故提高了文本特征权重的准确度，从而提高了融合文本特征的准确度。

在一些实施例中，目标内容为目标视频；获取目标内容中的目标文本以及与目标文本关联的文本关联数据包括：获取目标视频中目标时间对应的文本，得到目标文本；获取目标视频中目标时间对应的视频相关数据，将视频相关数据作为与目标文本关联的文本关联数据，视频相关数据包括视频帧或者音频帧的至少一种。

其中，视频帧是组成视频的最小单元，视频有多个图像组成，视频中的一张图像称为一帧，也可以称为视频帧。目标视频可以是任意的视频，可以是直接拍摄得到的视频，也可以是从拍摄得到的视频中截取得到的视频片段，目标视频可以是任意类型的视频，包括但不限于是广告类的视频、电视剧类的视频或新闻类视频中的至少一种，目标视频还可以是待推送至用户的视频。目标时间可以是目标视频的起始时间点到终止时间点中的任意的时间点或时间段。视频相关数据指的是目标视频中目标时间展示或播放的任意的数据，可以包括目标视频中目标时间展示的视频帧或目标时间播放的音频帧中的至少一种，目标时间展示的视频帧可以包括一帧或多帧，目标时间播放的音频帧可以包括一帧或多帧。

具体地，服务器可以获取目标视频中目标时间展示的文本，作为目标文本，例如目标时间展示的字幕、弹幕或评论中的至少一种，作为目标文本。服务器可以获取目标视频中目标时间展示的视频帧或目标时间播放的音频帧中的至少一个，作为视频相关数据。

本实施例中，获取目标视频中目标时间对应的文本，得到目标文本，获取目标视频中目标时间对应的视频相关数据，将视频相关数据作为与目标文本关联的文本关联数据，由于视频相关数据包括视频帧或者音频帧的至少一种，从而获取了文本数据以及除文本数据之外的图像数据或音频数据，从而可以在文本数据的基础上结合图像数据或音频数据对视频进行识别，从而有利于提高识别的准确度。

在一些实施例中，调整文本特征包括根据视频帧调整得到的第一调整文本特征以及根据音频帧调整得到的第二调整文本特征；基于调整文本特征进行识别，得到目标内容对应的内容识别结果包括：将第一调整文本特征、第二调整文本特征以及文本提取特征进行融合，得到融合文本特征；基于融合文本特征进行识别，得到目标内容对应的内容识别结果。

具体地，服务器可以从文本关联数据中获取视频帧，对获取的视频帧进行特征提取，得到目标图像特征，基于目标图像特征得到第一调整文本特征，从文本关联数据中获取音频帧，对获取的音频帧进行特征提取，得到目标音频特征，基于目标音频特征得到第二调整文本特征。

在一些实施例中，服务器可以将第一调整文本特征、第二调整文本特征以及文本提取特征进行加权计算，将加权计算的结果作为融合文本特征。例如，服务器可以将第一文本权重与文本提取特征进行乘积计算，得到第一乘积值，将第一特征权重与第一调整文本特征进行乘积计算，得到第二乘积值，将第二文本权重与文本提取特征进行乘积计算，得到第三乘积值，将第二特征权重与第二调整文本特征进行乘积计算，得到第四乘积值，将第一乘积值、第二乘积值、第三乘积值以及第四乘积值进行相加，将相加后的结果作为融合文本特征。

本实施例中，将第一调整文本特征、第二调整文本特征以及文本提取特征进行融合，得到融合文本特征，从而使得融合文本特征是基于第一调整文本特征、第二调整文本特征以及文本提取特征这三种特征得到的，从而提高了融合文本特征的特征丰富程度，从而当基于融合文本特征进行识别时，可以提高识别的准确度。

在一些实施例中，基于特征关注强度对文本提取特征进行调整，得到调整文本特征包括：将特征关注强度与文本提取特征的各个特征值相乘，得到特征值乘积；按照文本提取特征中特征值的位置对特征值乘积进行排列，将排列得到的特征值序列作为调整文本特征。

其中，特征值乘积指的是文本特征值与特征关注强度相乘所得到的结果。特征值序列是按照文本特征值在文本提取特征中的位置对文本特征值计算得到的特征值乘积进行排列得到的。即文本特征值在文本提取特征中的位置与该文本特征值计算得到的特征值乘积在特征值序列中的位置相同。

本实施例中，将特征关注强度与文本提取特征的各个特征值相乘，得到特征值乘积，从而特征值乘积可以反映文本关联数据对文本特征值的关注程度，按照文本提取特征中特征值的位置对特征值乘积进行排列，将排列得到的特征值序列作为调整文本特征，从而调整文本特征可以反映文本关联数据对文本提取特征的关注程度。

在一些实施例中，文本提取特征为目标文本中的分词对应的特征；各个调整文本特征按照分词在目标文本的顺序形成特征序列；基于调整文本特征进行识别，得到目标内容对应的内容识别结果包括：基于特征序列得到各个分词相对于命名实体的位置关系；基于各个位置关系从目标文本中获取目标命名实体，将目标命名实体作为目标内容对应的内容识别结果。

其中，特征序列是按照目标分词在目标文本中的顺序，对目标分词对应的调整文本特征进行排序所得到的序列，目标分词指的是目标文本中的分词。命名实体(namedentity)指的是以名称为标识的实体，可以包括人名、地名或机构名中的至少一种，命名实体例如可以是“张三”、“A地区”或“B机构”。

相对于命名实体的位置关系可以包括命名实体位置或非命名实体位置的至少一种。命名实体位置指的是命名实体所在的位置，可以包括命名实体的起始位置、命名实体的结束位置或命名实体的中间位置的至少一个。命名实体的中间位置可以包括命名实体的起始位置与结束位置之间的各个位置。非命名实体位置指的是命名实体之外的分词所处的位置。

具体地，服务器可以基于特征序列，确定各个目标分词相对于命名实体的位置关系，得到各个目标分词分别对应的位置关系，从各个位置关系中，获取位置关系属于命名实体位置的位置关系对应的目标分词，作为实体分词，基于各个实体分词得到目标命名实体。

在一些实施例中，已训练的内容识别模型可以包括实体识别网络，服务器可以将特征序列输入到实体识别网络中，利用实体识别网络对特征序列中的各个调整文本特征进行位置识别，例如实体识别网络可以基于调整文本特征确定该调整文本特征对应的目标分词处于命名实体位置的概率，得到命名实体概率，将命名实体概率大于命名实体概率阈值的目标分词的位置关系确定为命名实体位置。命名实体概率阈值可以根据需要设置。实体识别网络还可以基于调整文本特征，确定该调整文本特征对应的目标分词处于命名实体的起始位置的概率，得到起始概率，将起始概率大于起始概率阈值的目标分词的位置关系确定为命名实体的起始位置。起始概率阈值可以根据需要设置。实体识别网络还可以基于调整文本特征，确定该调整文本特征对应的目标分词处于命名实体的结束位置的概率，得到结束概率，将结束概率大于结束概率阈值的目标分词的位置关系确定为命名实体的结束位置。结束概率阈值可以根据需要设置。

本实施例中，基于特征序列得到各个分词相对于命名实体的位置关系，基于各个位置关系从目标文本中获取目标命名实体，将目标命名实体作为目标内容对应的内容识别结果，从而可以基于调整文本特征形成的特征序列进行内容识别，提高了内容识别的准确度。

在一些实施例中，基于各个位置关系从目标文本中获取目标命名实体包括：获取位置关系为命名实体的起始位置的分词，作为命名实体起始词；将命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部的分词作为命名实体组成词；将命名实体起始词与命名实体组成词进行组合，得到目标命名实体。

其中，命名实体起始词指的是处于命名实体的起始位置的分词，命名实体起始词对应的后向分词指的是目标文本中排序在命名实体起始词之后的分词。命名实体组成词指的是目标文本中处于命名实体的内部的分词，命名实体的内部包括命名实体的结束位置以及命名实体的中间位置，命名实体词的结束位置与命名实体的中间位置可以为同一位置。例如，当分词为单个字时，假设目标文本为“张三喜欢花”，由于则命名实体为“张三”，为两个字，由于“张”处于命名实体的起始位置，故命名实体起始词为“张”，命名实体起始词对应的后向分词包括“三”、“喜”、“欢”以及“花”，由于“三”处于命名实体的内部，故命名实体组成词为“三”。目标命名实体是目标文本中包括的实体，是将命名实体起始词与对应的命名实体组成词组合得到的。目标文本中可以包括一个或多个目标命名实体，多个指的是至少两个。例如假设目标文本为“张三喜欢李四”，则目标文本包括2个目标命名实体，分别为“张三”以及“李四”。

具体地，服务器可以基于各个目标分词对应的位置关系，从目标文本中获取位置关系为命名实体的起始位置的分词，作为命名实体起始词，按照从前到后的排列顺序，依次从命名实体起始词的各个后向分词中获取一个后向分词，作为当前后向分词，当当前后向分词的位置关系为命名实体的内部时，将当前后向分词作为与命名实体起始词对应的命名实体组成词，当当前后向分词的位置关系为命名实体的外部时，停止从命名实体起始词的各个后向分词中获取后向分词，按照命名实体起始词以及命名实体组成词在目标文本中的位置，从前到后对命名实体起始词以及命名实体组成词进行排序，得到目标命名实体。例如，由于“张”的位置在“三”之前，因此排序得到的是“张三”，即“张三”为目标命名实体。

本实施例中，获取位置关系为命名实体的起始位置的分词，作为命名实体起始词，将命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部的分词作为命名实体组成词，将命名实体起始词与命名实体组成词进行组合，得到目标命名实体，从而可以基于调整文本特征形成的特征序列进行实体识别，提高了实体识别的准确度。

在一些实施例中，基于特征序列得到各个分词相对于命名实体的位置关系包括：基于特征序列得到各个分词相对于命名实体的位置关系以及分词对应的实体类型；将命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部的分词作为命名实体组成词包括：将命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部，且实体类型与命名实体起始词的类型相同的分词作为命名实体组成词。

其中，实体类型指的是命名实体的类型，包括人名、机构名或地名中的至少一种类型。命名实体起始词以及命名实体组成词可以分别对应有实体类型。

具体地，服务器可以对特征序列中的各个特征进行实体类型的识别，确定特征序列中的各个特征分别对应的实体类型，按照从前到后的排列顺序，依次从命名实体起始词的各个后向分词中获取一个后向分词，作为当前后向分词，当当前后向分词的位置关系为命名实体的内部，并且实体类型与命名实体起始词的实体类型相同时时，将当前后向分词作为与命名实体起始词对应的命名实体组成词，当当前后向分词的位置关系为命名实体的外部或实体类型与命名实体起始词的实体类型不同时，停止从命名实体起始词的各个后向分词中获取后向分词。

在一些实施例中，文本提取特征为目标文本中的目标分词对应的特征；各个目标分词对应的融合文本特征按照目标分词在目标文本的顺序形成融合特征序列；基于调整文本特征进行识别，得到目标内容对应的内容识别结果包括：基于融合特征序列得到各个分词相对于命名实体的位置关系；基于各个位置关系从目标文本中获取目标命名实体，将目标命名实体作为目标内容对应的内容识别结果。

在一些实施例中，可以将融合特征序列输入到实体识别网络中，实体识别网络对融合特征序列中的各个融合文本特征进行实体词的识别。实体识别网络例如可以是图6中的CRF网络，图6中，目标文本为“张小花爱笑”，融合特征序列为[h1,h2,h3,h4,h5]，h1为分词“张”对应的融合文本特征，h2为分词“小”对应的融合文本特征，h3为分词“花”对应的融合文本特征，h4为分词“爱”对应的融合文本特征，h5为分词“笑”对应的融合文本特征。将融合特征序列输入到CRF网络中进行实体识别，CRF网络可以基于融合特征序列中的各个特征对目标文本中的分分词进行打分，得到各个分词对应的分数，可以利用softmax对分词的分数进行归一化处理，得到分词对应的概率分布。利用CRF网络识别“张小花爱笑”中的人名所处的位置，CRF网络可以采用“BIO”的标注方法对“张小花爱笑”中的各个目标分词进行标注，得到各个融合文本特征对应的标注，其中，B为begin的缩写，表示实体词开始，I为inside的缩写，表示实体词内部，O为outside的缩写，表示实体词外部，如图所示“张小花爱笑”的标注为“B-PER,I-PER,I-PER,O,O”，其中，“PER”为表示实体词类型为人名。从“B-PER,I-PER,I-PER,O,O”可以确定“张小花爱笑”中的“张小花”为目标命名实体。

本实施例中，基于特征序列得到各个分词相对于命名实体的位置关系以及分词对应的实体类型，将命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部，且实体类型与命名实体起始词的类型相同的分词作为命名实体组成词，提高了实体识别的准确度。

在一些实施例中，对关联提取特征与文本提取特征进行关联计算，基于计算得到的特征关联度得到文本提取特征对应的特征关注强度包括：将关联提取特征中的关联特征值与文本提取特征中对应位置的文本特征值进行乘积运算，得到乘积运算值；对乘积运算值进行统计，得到关联提取特征与文本提取特征之间的特征关联度，将特征关联度作为文本提取特征对应的特征关注强度。

具体地，关联提取特征可以与文本提取特征为同维度的向量或矩阵，服务器可以从关联提取特征中获取目标排序处的关联特征值，作为第一目标特征值，从文本提取特征中获取目标位置处的文本特征值，作为第二目标特征值，则第二目标特征值与第二目标特征值具有位置对应关系，服务器可以对第一目标特征值与第二目标特征值的乘积运算，得到目标位置处的文本特征值与关联特征值计算得到的乘积运算值。目标位置可以是关联提取特征或文本提取特征中的任一位置，例如当关联提取特征为向量时，目标位置可以是任一排序位置，例如第一位。

在一些实施例中，服务器可以对各个乘积运算值进行统计，得到乘积统计值，对乘积统计值进行归一化处理，将归一化处理的结果作为特征关联度。

本实施例中，将关联提取特征中的关联特征值与文本提取特征中对应位置的文本特征值进行乘积运算，得到乘积运算值，对各个乘积运算值进行统计运算，得到关联提取特征与文本提取特征之间的特征关联度，将特征关联度作为文本提取特征对应的特征关注强度，从而特征关注强度可以反映准确的反映文本关联数据与目标文本之间的关联关系，从而当基于特征关注强度对文本提取特征进行调整时，可以提高调整的准确度。

在一些实施例中，提供了一种内容识别方法，包括以下步骤：

1、确定待识别的目标视频，获取目标视频中的目标文本以及与目标文本关联的目标图像数据以及目标音频数据。

2、对目标文本进行特征提取，得到文本提取特征，对目标图像数据进行特征提取，得到目标图像特征，对目标音频数据进行特征提取，得到目标音频特征。

具体地，如图7所示，展示了一个已训练的实体识别网络700，服务器可以利用已训练的实体识别模型中的文本特征提取网络对目标文本进行特征提取，得到文本提取特征，同样的可以利用图像特征提取网络对目标图像数据进行特征提取，得到目标图像特征，利用音频特征提取网络对目标音频数据进行特征提取，得到目标音频特征。

3、对目标图像特征与文本提取特征进行关联计算，得到图像关联度，将图像关联度作为图像关注强度，对目标音频特征与文本提取特征进行关联计算，得到音频关联度，将音频关联度作为音频关注强度。

具体地，如图7所示，可以利用图像关注强度计算模块，对目标图像特征与文本提取特征进行关联计算，得到图像关注强度，利用音频关注强度计算模块，对目标音频特征与文本提取特征进行关联计算得到音频关注强度。图像关注强度计算模块中包括乘积运算单元以及归一化处理单元，图像关注强度计算模块可以通过乘积运算单元对目标图像特征与文本提取特征进行乘积运算，将运算的结果输入到归一化运算单元进行归一化处理，得到图像关注强度。音频关注强度计算模块计算得到音频关注强度的过程可以参考图像关注强度计算模块，这里不再赘述。

4、基于图像关注强度对文本提取特征进行调整，得到第一调整文本特征，基于音频关注强度对文本提取特征进行调整，得到第二调整文本特征。

具体地，如图7所示，可以将图像关注强度以及文本提取特征输入第一特征调整模块，第一特征调整模块可以将图像关注强度与文本提取特征的各个特征值相乘，按照文本提取特征中特征值的位置对相乘得到的各个值进行排列得到第一调整文本特征。同样的，可以利用第二特征调整模块得到第二调整文本特征。

5、确定第一调整文本特征对应的第一特征权重，确定第二调整文本特征对应的第二特征权重。

具体地，如图7所示，服务器可以将第一调整文本特征输入到图像编码器进行编码，得到图像编码特征，将文本提取特征输入到第一文本编码器进行编码，得到第一文本特征，将第一文本特征以及图像编码特征输入到第一特征融合模块中，得到文本图像编码特征。服务器可以将第二调整文本特征输入到音频编码器进行编码，得到音频编码特征，将文本提取特征输入到第二文本编码器进行编码，得到第二文本特征，将第二文本特征以及音频编码特征输入到第二特征融合模块中，得到文本图像编码特征，将文本图像编码特征输入到第一激活层进行激活，得到第一调整文本特征对应的第一特征权重，将文本音频编码特征输入到第二激活层进行激活，得到第二调整文本特征对应的第二特征权重。

6、基于第一特征权重对第一调整文本特征以及文本提取特征进行融合，得到第一融合特征，基于第二特征权重对第二调整文本特征以及文本提取特征进行融合，得到第二融合特征，将第一融合特征与第二融合特征进行统计运算，将统计运算的结果作为融合文本特征。

具体地，如图7所示，服务器可以将第一特征权重、第一调整文本特征以及文本提取特征输入到第一融合文本特征生成模块中，得到第一融合特征，将第二特征权重、第二调整文本特征以及文本提取特征输入到第二融合文本特征生成模块中，得到第二融合特征。

7、基于融合文本特征进行命名实体识别，得到目标内容对应的目标命名实体，将目标命名实体作为目标内容对应的内容识别结果。

例如，如图8所示，目标视频为“张小花”的视频，目标文本为“张小花”的视频中的字幕“张小花爱笑”，目标图像数据为“张小花”的视频中与字幕“张小花爱笑”在时间上关联的图像，即包括“张小花”的图像，目标音频数据为“张小花”的视频中与字幕“张小花爱笑”在时间上关联的音频，即包括“张小花”的音频，将字幕“张小花爱笑”、包括“张小花”的图像以及包括“张小花”的音频输入到实体识别模型中，可以确定实体词“张小花”。

上述的内容识别方法在进行实体识别时，除了利用视频中的文本信息，例如视频中的标题、字幕或描述信息外，还利用了视频的音频特征以及图像特征，并且将多种模态特征进行融合，能更加精准有效的提取视频信息，增强实体词识别的识别效果，例如提高了实体词识别的准确度和效率。可以提升测试数据集上的准确率和召回率。其中，一种模态可以是一种数据类型，例如文本、音频以及图像分别一种模态，多模态包括至少两种模态。模态特征例如可以是文本特征、音频特征或图像特征中的任意一种。多模态特征包括至少两种模态特征。本申请提供的实体词识别模型(即实体识别模型)，可以对视频信息进行有效的提取。

本申请还提供一种应用场景，该应用场景应用上述的内容识别方法，可以对视频中的文本进行实体识别。具体地，该内容识别方法在该应用场景的应用如下：

接收针对目标视频的视频标签生成请求，响应于视频标签生成请求，使用本申请提供的内容识别方法，对目标视频进行实体词识别，得到识别出的实体词，将识别出的各个实体词作为目标视频对应的视频标签。

本申请提供的内容识别方法，应用于视频识别，可以节省获取视频信息的时间，提高理解视频信息的效率。

接收针对目标用户对应的视频推荐请求，获取候选视频，利用本申请提供的内容识别方法对候选视频进行实体词识别，将识别出的实体词作为候选视频对应的视频标签，获取目标用户对应的用户信息，当确定视频标签与用户信息匹配时，例如视频标签与用户的用户画像匹配时，向目标用户对应的终端推送该候选视频。

本申请提供的内容识别方法，应用于视频推荐中，可以为视频推荐算法提供优质特征，优化视频推荐效果。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一些实施例中，如图9所示，提供了一种内容识别装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：目标内容确定模块902、特征提取模块904、特征关注强度得到模块906、调整文本特征得到模块908和内容识别结果得到模块910，其中：目标内容确定模块902，用于确定待识别的目标内容，获取目标内容中的目标文本以及与目标文本关联的文本关联数据。特征提取模块904，用于对目标文本进行特征提取，得到文本提取特征；对文本关联数据进行特征提取，得到关联提取特征。特征关注强度得到模块906，用于对关联提取特征与文本提取特征进行关联计算，基于计算得到的特征关联度得到文本提取特征对应的特征关注强度，特征关联度与特征关注强度成正相关关系。调整文本特征得到模块908，用于基于特征关注强度对文本提取特征进行调整，得到调整文本特征。内容识别结果得到模块910，用于基于调整文本特征进行识别，得到目标内容对应的内容识别结果。

上述内容识别装置中，确定待识别的目标内容，获取目标内容中的目标文本以及与目标文本关联的文本关联数据，对目标文本进行特征提取，得到文本提取特征，对文本关联数据进行特征提取，得到关联提取特征，对关联提取特征与文本提取特征进行关联计算，基于计算得到的特征关联度得到文本提取特征对应的特征关注强度，特征关联度与特征关注强度成正相关关系，基于特征关注强度对文本提取特征进行调整，得到调整文本特征，基于调整文本特征进行识别，得到目标内容对应的内容识别结果。由于特征关联度能够反映目标文本与文本关联数据之间的关联关系的大小，特征关联度越大，则目标文本与文本关联数据之间的关联关系越大，特征关联度越小，则目标文本与文本关联数据之间的关联关系越小，而特征关联度与特征关注强度成正相关关系，故目标文本与文本关联数据之间的关联关系越大，特征关注强度越大，对文本提取特征调整的程度越大，目标文本与文本关联数据之间的关联关系越小，特征关注强度越小，对文本提取特征调整的程度越小，从而在基于调整文本特征进行识别时，目标文本与文本关联数据之间的关联关系越大，文本关联数据对识别结果的影响程度越大，目标文本与文本关联数据之间的关联关系越小，文本关联数据对识别结果的影响程度越小，从而可以自适应的根据文本关联数据与目标文本之间的关系，调整用于识别时的特征，提高识别时所用的特征的准确度，提高内容识别的准确度。

在一些实施例中，内容识别结果得到模块910包括：第一融合文本特征得到单元，用于对调整文本特征以及文本提取特征进行融合，得到融合文本特征。第一内容识别结果得到单元，用于基于融合文本特征进行识别，得到目标内容对应的内容识别结果。

在一些实施例中，第一融合文本特征得到单元，还用于对文本提取特征进行编码，得到第一编码特征，对调整文本特征进行编码，得到第二编码特征；将第一编码特征与第二编码特征进行融合，得到融合编码特征；基于融合编码特征得到调整文本特征对应的调整特征权重；基于调整特征权重对调整文本特征以及文本提取特征进行融合，得到融合文本特征。

在一些实施例中，第一编码特征是通过已训练的内容识别模型中的第一编码器编码得到的，第二编码特征是通过内容识别模型中的第二编码器编码得到的，第一融合文本特征得到单元，还用于将融合编码特征输入到内容识别模型中的目标激活层进行激活处理，得到激活值，将激活值作为调整文本特征对应的调整特征权重，激活层为第一编码器与第二编码器的共享激活层。

在一些实施例中，第一融合文本特征得到单元，还用于基于调整特征权重得到文本提取特征对应的文本特征权重；将调整特征权重与调整文本特征进行乘积计算，得到计算后的调整文本特征；将文本特征权重与文本提取特征进行乘积计算，得到计算后的文本提取特征；将计算后的调整文本特征与计算后的文本提取特征进行相加，得到融合文本特征。

在一些实施例中，目标内容为目标视频；目标内容确定模块902包括：目标文本得到单元，用于获取目标视频中目标时间对应的文本，得到目标文本。文本关联数据得到单元，用于获取目标视频中目标时间对应的视频相关数据，将视频相关数据作为与目标文本关联的文本关联数据，视频相关数据包括视频帧或者音频帧的至少一种。

在一些实施例中，调整文本特征包括根据视频帧调整得到的第一调整文本特征以及根据音频帧调整得到的第二调整文本特征；内容识别结果得到模块910包括：第二融合文本特征得到单元，用于将第一调整文本特征、第二调整文本特征以及文本提取特征进行融合，得到融合文本特征。第二内容识别结果得到单元，用于基于融合文本特征进行识别，得到目标内容对应的内容识别结果。

在一些实施例中，调整文本特征得到模块908包括：特征值乘积得到单元，用于将特征关注强度与文本提取特征的各个特征值相乘，得到特征值乘积。调整文本特征得到单元，用于按照文本提取特征中特征值的位置对特征值乘积进行排列，将排列得到的特征值序列作为调整文本特征。

本实施例中，将特征关注强度与文本提取特征的各个特征值相乘，得到特征值乘积，从而特征值乘积可以反映文本关联数据对文本特征值的关注程度，按照文本提取特征中特征值的排序对特征值乘积进行排序，将排序得到的特征值序列作为调整文本特征，从而调整文本特征可以反映文本关联数据对文本提取特征的关注程度。

在一些实施例中，文本提取特征为目标文本中的分词对应的特征；各个调整文本特征按照分词在目标文本的顺序形成特征序列；内容识别结果得到模块910包括：位置关系得到单元，用于基于特征序列得到各个分词相对于命名实体的位置关系。第三内容识别结果得到单元，用于基于各个位置关系从目标文本中获取目标命名实体，将目标命名实体作为目标内容对应的内容识别结果。

在一些实施例中，第三内容识别结果得到单元，还用于获取位置关系为命名实体的起始位置的分词，作为命名实体起始词；将命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部的分词作为命名实体组成词；将命名实体起始词与命名实体组成词进行组合，得到目标命名实体。

在一些实施例中，位置关系得到单元，还用于基于特征序列得到各个分词相对于命名实体的位置关系以及分词对应的实体类型；第三内容识别结果得到单元，还用于将命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部，且实体类型与命名实体起始词的类型相同的分词作为命名实体组成词。

在一些实施例中，特征关注强度得到模块906包括：乘积运算值得到单元，用于将关联提取特征中的关联特征值与文本提取特征中对应位置的文本特征值进行乘积运算，得到乘积运算值。特征关注强度得到单元，用于对乘积运算值进行统计，得到关联提取特征与文本提取特征之间的特征关联度，将特征关联度作为文本提取特征对应的特征关注强度。

关于内容识别装置的具体限定可以参见上文中对于内容识别方法的限定，在此不再赘述。上述内容识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储内容识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种内容识别方法。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种内容识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10和图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种内容识别方法，其特征在于，所述方法包括：

确定待识别的目标内容，获取所述目标内容中的目标文本以及与所述目标文本关联的文本关联数据；

对所述目标文本进行特征提取，得到文本提取特征；对所述文本关联数据进行特征提取，得到关联提取特征；

对所述关联提取特征与所述文本提取特征进行关联计算，基于计算得到的特征关联度得到所述文本提取特征对应的特征关注强度，所述特征关联度与所述特征关注强度成正相关关系；

基于所述特征关注强度对所述文本提取特征进行调整，得到调整文本特征；

基于所述调整文本特征进行识别，得到所述目标内容对应的内容识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述调整文本特征进行识别，得到所述目标内容对应的内容识别结果包括：

对所述调整文本特征以及所述文本提取特征进行融合，得到融合文本特征；

基于所述融合文本特征进行识别，得到所述目标内容对应的内容识别结果。

3.根据权利要求2所述的方法，其特征在于，所述对所述调整文本特征以及所述文本提取特征进行融合，得到融合文本特征包括：

对所述文本提取特征进行编码，得到第一编码特征，对所述调整文本特征进行编码，得到第二编码特征；

将所述第一编码特征与所述第二编码特征进行融合，得到融合编码特征；

基于所述融合编码特征得到所述调整文本特征对应的调整特征权重；

基于所述调整特征权重对所述调整文本特征以及所述文本提取特征进行融合，得到融合文本特征。

4.根据权利要求3所述的方法，其特征在于，所述第一编码特征是通过已训练的内容识别模型中的第一编码器编码得到的，所述第二编码特征是通过所述内容识别模型中的第二编码器编码得到的，所述基于所述融合编码特征得到所述调整文本特征对应的调整特征权重包括：

将所述融合编码特征输入到所述内容识别模型中的目标激活层进行激活处理，得到目标激活值，将所述目标激活值作为所述调整文本特征对应的调整特征权重，所述激活层为所述第一编码器与所述第二编码器的共享激活层。

5.根据权利要求3所述的方法，其特征在于，所述基于所述调整特征权重对所述调整文本特征以及所述文本提取特征进行融合，得到融合文本特征包括：

基于所述调整特征权重得到所述文本提取特征对应的文本特征权重；

将所述调整特征权重与所述调整文本特征进行乘积计算，得到计算后的调整文本特征；

将所述文本特征权重与所述文本提取特征进行乘积计算，得到计算后的文本提取特征；

将所述计算后的调整文本特征与所述计算后的文本提取特征进行相加，得到融合文本特征。

6.根据权利要求1所述的方法，其特征在于，所述目标内容为目标视频；所述获取所述目标内容中的目标文本以及与所述目标文本关联的文本关联数据包括：

获取所述目标视频中目标时间对应的文本，得到目标文本；

获取所述目标视频中所述目标时间对应的视频相关数据，将所述视频相关数据作为与所述目标文本关联的文本关联数据，所述视频相关数据包括视频帧或者音频帧的至少一种。

7.根据权利要求6所述的方法，其特征在于，所述调整文本特征包括根据所述视频帧调整得到的第一调整文本特征以及根据所述音频帧调整得到的第二调整文本特征；

所述基于所述调整文本特征进行识别，得到所述目标内容对应的内容识别结果包括：

将所述第一调整文本特征、所述第二调整文本特征以及所述文本提取特征进行融合，得到融合文本特征；

8.根据权利要求1所述的方法，其特征在于，所述基于所述特征关注强度对所述文本提取特征进行调整，得到调整文本特征包括：

将所述特征关注强度与所述文本提取特征的各个特征值相乘，得到特征值乘积；

按照所述文本提取特征中特征值的位置对所述特征值乘积进行排列，将排列得到的特征值序列作为所述调整文本特征。

9.根据权利要求1所述的方法，其特征在于，所述文本提取特征为所述目标文本中的分词对应的特征；各个调整文本特征按照分词在所述目标文本的顺序形成特征序列；所述基于所述调整文本特征进行识别，得到所述目标内容对应的内容识别结果包括：

基于所述特征序列得到各个所述分词相对于命名实体的位置关系；

基于各个所述位置关系从所述目标文本中获取目标命名实体，将所述目标命名实体作为所述目标内容对应的内容识别结果。

10.根据权利要求9所述的方法，其特征在于，所述基于各个所述位置关系从所述目标文本中获取目标命名实体包括：

获取位置关系为命名实体的起始位置的分词，作为命名实体起始词；

将所述命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部的分词作为命名实体组成词；

将所述命名实体起始词与所述命名实体组成词进行组合，得到目标命名实体。

11.根据权利要求10所述的方法，其特征在于，所述基于所述特征序列得到各个所述分词相对于命名实体的位置关系包括：

基于所述特征序列得到各个所述分词相对于命名实体的位置关系以及所述分词对应的实体类型；

所述将所述命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部的分词作为命名实体组成词包括：

将所述命名实体起始词对应的后向分词中，位置关系为处于命名实体的内部，且实体类型与所述命名实体起始词的类型相同的分词作为命名实体组成词。

12.根据权利要求1所述的方法，其特征在于，所述对所述关联提取特征与所述文本提取特征进行关联计算，基于计算得到的特征关联度得到所述文本提取特征对应的特征关注强度包括：

将所述关联提取特征中的关联特征值与所述文本提取特征中对应位置的文本特征值进行乘积运算，得到乘积运算值；

对所述乘积运算值进行统计，得到所述关联提取特征与所述文本提取特征之间的特征关联度，将所述特征关联度作为所述文本提取特征对应的特征关注强度。

13.一种内容识别装置，其特征在于，所述装置包括：

目标内容确定模块，用于确定待识别的目标内容，获取所述目标内容中的目标文本以及与所述目标文本关联的文本关联数据；

特征提取模块，用于对所述目标文本进行特征提取，得到文本提取特征；对所述文本关联数据进行特征提取，得到关联提取特征；

特征关注强度得到模块，用于对所述关联提取特征与所述文本提取特征进行关联计算，基于计算得到的特征关联度得到所述文本提取特征对应的特征关注强度，所述特征关联度与所述特征关注强度成正相关关系；

调整文本特征得到模块，用于基于所述特征关注强度对所述文本提取特征进行调整，得到调整文本特征；

内容识别结果得到模块，用于基于所述调整文本特征进行识别，得到所述目标内容对应的内容识别结果。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。