CN111723783B

CN111723783B - 一种内容识别方法和相关装置

Info

Publication number: CN111723783B
Application number: CN202010743496.7A
Authority: CN
Inventors: 田植良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2023-12-08
Anticipated expiration: 2040-07-29
Also published as: CN111723783A

Abstract

本申请实施例公开了一种内容识别方法和相关装置，针对需要识别的待识别内容，获取待识别内容的第一信息和第二信息，由于第一信息和第二信息来自不同的维度，为了综合多个维度的特征，通过将第一特征将转换到第二特征所在的目标特征空间得到第三特征。由于第三特征与第二特征均通过目标特征空间进行表达，具备了综合为多模态特征的实现基础。多模态特征能够携带待识别内容在不同维度体现的信息特点，有效特征更为丰富。根据多模态特征可以对待识别内容进行更为准确的识别，识别结果所体现的重要程度更符合用户对待识别内容的实际定位。通过对待识别内容重要程度的自动化识别，免去了人为判断的耗时，加快对终端设备中所保存无意义内容的删除效率。

Description

一种内容识别方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种内容识别方法和相关装置。

背景技术

用户可以通过终端设备所配置的各类软件实现自身需求，例如工作、社交、休闲等。随着使用软件的时间越来越长，软件会产生大量的内容需要在终端设备进行保存，例如社交类软件的记录内容、内容类软件所下载的多媒体缓存等都可能需要保存在终端设备。

然而，本地保存的这些内容中可能大部分对于用户来说是无意义的，例如大量的记录内容，如果不及时清理会长期占用终端设备宝贵的本地存储空间，造成存储空间的浪费。

目前，主要只能通过用户手动筛选出不重要的内容进行删除，非常耗时且效率低下。

发明内容

为了解决上述技术问题，本申请提供了一种内容识别方法和相关装置，实现了对待识别内容重要程度的自动化识别，免去了人为判断的耗时，大大加快对终端设备中所保存无意义内容的删除效率。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种内容识别方法，所述方法包括：

确定待识别内容对应的第一信息和第二信息，所述第一信息和所述第二信息是所述待识别内容在不同维度的信息；

确定所述第一信息对应的第一特征，所述第二信息对应的第二特征；

通过将所述第一特征转换到目标特征空间，得到第三特征；所述目标特征空间为所述第二特征所在的特征空间；

根据所述第二特征和所述第三特征确定所述待识别内容对应的多模态特征；

通过所述多模态特征对待识别内容进行识别，得到识别结果，所述识别结果用于体现所述待识别内容的重要程度。

另一方面，本申请实施例提供了一种内容识别装置，所述装置包括确定单元、转换单元和识别单元：

所述确定单元，用于确定待识别内容对应的第一信息和第二信息，所述第一信息和所述第二信息是所述待识别内容在不同维度的信息；

所述确定单元，还用于确定所述第一信息对应的第一特征，所述第二信息对应的第二特征；

所述转换单元，用于通过将所述第一特征转换到目标特征空间，得到第三特征；所述目标特征空间为所述第二特征所在的特征空间；

所述确定单元，还用于根据所述第二特征和所述第三特征确定所述待识别内容对应的多模态特征；

所述识别单元，用于通过所述多模态特征对待识别内容进行识别，得到识别结果，所述识别结果用于体现所述待识别内容的重要程度。

另一方面，本申请实施例提供了一种用于内容识别的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面中提供的方法。

由上述技术方案可以看出，针对需要识别的待识别内容，获取待识别内容的第一信息和第二信息，由于第一信息和第二信息来自不同的维度，故第一信息和第二信息分别对应的第一特征和第二特征具有不同的特征表达形式，处于不同的特征空间，为了综合多个维度的特征，通过将第一特征将转换到第二特征所在的目标特征空间，得到第三特征，由于第三特征与第二特征均通过目标特征空间进行表达，具备了综合为多模态特征的实现基础。相对于第一特征或第二特征这类单模态特征仅能携带一个维度的信息特点，基于第二特征和第三特征确定的多模态特征能够携带待识别内容在不同维度上体现的信息特点，有效特征更为丰富。根据多模态特征可以对待识别内容进行更为准确的识别，识别结果所体现的重要程度更符合用户对待识别内容的实际定位。通过对待识别内容重要程度的自动化识别，免去了人为判断的耗时，大大加快对终端设备中所保存无意义内容的删除效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种内容识别场景的示意图；

图2为本申请实施例提供的一种内容识别方法的方法流程图；

图3a为本申请实施例提供的一种音频特征提取示意图；

图3b为本申请实施例提供的一种文本特征提取示意图；

图4为本申请实施例提供的一种对抗训练的场景示意图；

图5为本申请实施例提供的一种基于模型的内容识别的场景示意图；

图6为本申请实施例提供的一种内容识别装置的装置结构图；

图7为本申请实施例提供的服务器的结构示意图；

图8为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

针对所配置软件在使用过程中产生的一些内容，终端设备会在本地进行保存。随着时间推移，保存的内容越来越多，会占据终端设备宝贵的本地存储空间，只能通过用户对内容手动进行筛选、删除，非常耗时且效率低下。

为此，本申请实施例提供了一种内容识别方法，可以自动化对待识别内容进行重要程度的识别，免去了人为判断的耗时，大大加快对终端设备中所保存无意义内容的删除效率。

本申请实施例提供的方法可以由处理设备执行，该处理设备可以是终端设备或服务器，该方法可以通过终端设备独立执行，也可以通过服务器独立执行，也可以应用于终端设备和服务器通信的网络场景，通过终端设备和服务器配合执行。终端设备具体可以为智能手机、智能穿戴设备、台式机、平板等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

本申请实施例提供的内容识别方法可以通过人工智能实现，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。本申请实施例主要涉及的人工智能软件技术主要包括语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在本申请实施例中，可以通过语音技术中的语音识别等实现从确定音频、视频内容中确定音频、视频信息。还可以通过语音识别确定出音频信息对应的文本信息。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

在本申请实施例中，可以通过NLP中的文本处理、语义理解(Semanticunderstanding)等手段确定文本信息对应的文本特征等。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。人工神经网络模型可以包括卷积神经网络(Convolutional NeuralNetwork，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deepneural network，DNN)。

在本申请实施例中，可以通过机器学习的方式训练上述各类神经网络模型，基于训练的网络模型实现特征提取、特征转换、特征融合等。

本申请实施例还可以采用人工智能云服务，所谓人工智能云服务，一般也被称作是AI即服务(AI as a Service，AIaaS)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

为了便于说明，后续实施例主要将终端设备作为前述的处理设备进行方案描述。如图1所示，在终端设备100中安装了各类应用，例如包括社交应用，视频应用等。这些应用在用户使用过程中均会生成大量内容需要在终端设备100的本地保存，这些在终端设备100本地保存的内容可以视为本申请实施例提出的待识别内容。例如图1示出场景中，通过社交软件所接收的用户a的58”音频内容就可以是一条待识别内容。

根据该待识别内容可以确定出两个维度的信息，分别为音频信息(可以为第一信息)和文本信息(可以为第二信息)，其中音频信息包括了该待识别内容在声音维度所体现的信息，文本信息可以是根据音频内容通过语音识别得出的文字。

音频信息可以通过音频特征(可以为第一特征)进行表达，文本信息可以通过文本特征(可以为第二特征)进行表达。但是，单个维度的特征(可理解为单模态特征)所携带的信息特点具有局限性，例如音频特征更注重于音频信息中的音色、音调等，而并不重视其内容本身的语义，文本特征更注重于文本本身的语义，而忽略了语音本身的音色、音调等可能对后期重要程度识别有帮助的信息。

在本申请实施例中，模态是指对信息的描述方式。例如，文本和语音是两种信息的表示形式，他们属于两种不同的模态。

基于此，本申请提出了特征融合的机制，将多个单模态特征(例如第一特征和第二特征)融合成多模态特征，即融合了不同模态特征的信息特点的特征。通过多模态特征可以更为准确的识别待识别内容的重要程度，为终端设备中的内容高效删除打下基础。

但是，不同模态的特征的计算方法不一样，因此多个模态的特征是不能够直接进行多模态特征的融合计算。故此，本申请中将音频特征转换到文本特征所在目标特征空间中，形成符合目标特征空间中特征特点的转换的文本特征(可以为第三特征)。由此，处于同一特征空间中的转换的文本特征和前述文本特征可以更好的进行融合，得到表达形式统一的多模态特征。

该多模态特征中既携带了音频特征中音色、音调这类信息，也携带了文本特征中文本语义这类信息，具有更为丰富的有效特征，从而提高了对待识别内容的重要程度识别精度，识别结果所体现的重要程度更符合用户对待识别内容的实际定位。通过对待识别内容重要程度的自动化识别，免去了人为判断的耗时，大大加快对终端设备中所保存无意义内容的删除效率。

图2为本申请实施例提供的一种内容识别方法的方法流程图，所述方法包括：

S201：确定待识别内容对应的第一信息和第二信息。

在本申请实施例中，待识别内容可以通过各类应用的使用过程中产生，且并不限定待识别内容的类型，只要可以通过多个维度的信息进行体现即可。在此前提下，待识别内容可以为各种不同类型的内容，例如可以为音频内容、图像内容或视频内容。

终端设备需要耗费存储空间来保存各类待识别内容，为了能够识别出其中不重要的待识别内容以便删除，释放终端设备的存储空间，需要获取待识别内容在不同维度下的信息。

第一信息和第二信息为待识别内容在在不同维度的信息，在本申请实施例中，第一信息和第二信息仅为示例，并不起到仅使用两个维度的信息进行重要程度识别的限定作用。在确定多模态特征时也可以使用待识别内容在更多维度下的信息，例如第三信息、第四信息等。

一个信息可以体现出待识别内容在这个信息所在维度的相关内容，所体现的相关内容具有与该维度相应的侧重。例如语音内容作为待识别内容时，音频信息可以体现该语音内容在音频维度的相关内容例如音调、音色，文本信息可以体现该待识别内容在文本维度的相关内容例如语义。

本申请实施例中并不限定哪一维度的信息作为第一信息，哪一维度的信息作为第二信息。

接下来以社交软件为例说明第一信息和第二信息的确定方式。待识别内容为移动终端中所保存的社交软件的社交内容，由于社交软件主要用于用户与用户、用户与机构间的交互，交互过程中会有连续的、交互性的会话，且会话中所使用的社交内容可以基本囊括各种可能的类型，例如包括文本、表情、语音、图像、视频等内容。

在一种可能的实现方式中，待识别内容为音频内容，终端设备确定所述待识别内容中的音频信息和所述音频信息对应的文本信息。

可以将所述音频信息作为所述第一信息，确定的文本信息作为第二信息，或者，将确定的文本信息作为所述第一信息，所述音频信息作为第二信息。

在一种可能的实现方式中，待识别内容为图像内容，终端设备确定所述待识别内容中的图像信息，以及从所述图像内容的上下文中确定与所述图像内容具有关联关系的文本信息。

由于社交软件的会话具有延续性和交互性，其中图像内容的上下文中可能具有与该图像内容关联的内容，这些内容可以从不同的角度来体现出该图像内容的重要程度或者涉及主题等，可以作为图像内容在不同维度下的信息。

故终端设备能够通过该图像内容所在会话的上下文语义作为判断关联关系的依据，例如可以将语义上与图像内容相关的其他会话内容作为与图像内容具有关联关系的内容，根据这些内容所确定出的文本信息即为与所述图像内容具有关联关系的文本信息。

可以将所述图像信息作为所述第一信息，确定的文本信息作为第二信息，或者，将确定的文本信息作为所述第一信息，所述图像信息作为第二信息。

在一种可能的实现方式中，待识别内容为视频内容，终端设备确定所述待识别内容中的视频信息，以及从所述视频内容的上下文中确定与所述视频内容具有关联关系的文本信息。

由于社交软件的会话具有延续性和交互性，其中视频内容的上下文中可能具有与该视频内容关联的内容，这些内容可以从不同的角度来体现出该视频内容的重要程度或者涉及主题等，可以作为视频内容在不同维度下的信息。

故终端设备能够通过该视频内容所在会话的上下文语义作为判断关联关系的依据，例如可以将语义上与视频内容相关的其他会话内容作为与图像内容具有关联关系的内容，根据这些内容所确定出的文本信息即为与所述视频内容具有关联关系的文本信息。

可以将所述视频信息作为所述第一信息，确定的文本信息作为第二信息，或者，将确定的文本信息作为所述第一信息，所述视频信息作为第二信息。

在上述针对确定第一信息和第二信息方式所举出的各种可能的实现方式中，由于后续需要将第一信息对应的第一特征进行跨特征空间的转换(从本特征空间向第二特征的目标特征空间的转换)，故具体采用哪一种确定第一信息和第二信息的方式，可以依据具体的应用场景或具体的计算需求确定。

S202：确定所述第一信息对应的第一特征，所述第二信息对应的第二特征。

第一特征为第一信息的一种量化表达方式，可以是向量的形式等。同理，第二特征为第二信息的一种量化表达方式，可以是向量的形式等。

具体可以采用网络模型的方式确定一个信息对应的特征。例如RNN、CNN等各类神经网络模型均可以作为从信息中提取对应特征的媒介。

在一种可能的实现方式中，终端设备可以通过RNN获取第一信息的第一特征，以及第二信息的第二特征。

如图3a所示，终端设备通过基于语音的时序建模的第一RNN确定音频信息(可以为第一信息)的音频特征(可以为第一特征)。

如图3b所示，终端设备通过基于文本的时序建模的第二RNN确定文本信息(可以为第二信息)的文本特征(可以为第二特征)。

上述第一RNN和第二RNN可以采用监督训练的方式训练得到，训练数据为标注了对应文本信息的音频信息。

S203：通过将所述第一特征转换到目标特征空间，得到第三特征。

由于第一特征和第二特征属于不同模态下的特征，终端设备确定特征所采用的计算方式并不相同，具有不同的特征表达形式，处于不同的特征空间。通过简单的拼接并不能实现得到多模态特征，故在本申请中，采用了跨特征空间进行特征转换的方式来实现得到多模态特征。

也就是说，终端设备将第一特征转换到第二特征所在目标特征空间的目的是为了可以更好的将第一特征和第二特征进行融合，从而可以通过一个特征(多模态特征)来体现出待识别内容在不同维度下的信息，携带在不同维度下的有效特征。

如前所述，本申请并不限定具体转换哪一个维度的信息的特征，故以待识别内容为社交软件中的音频内容为例，若获取了两个维度的信息，分别为音频信息和文本信息，在本申请中，可以将音频信息对应的音频特征转换到文本特征所在的目标特征空间中，也可以将文本信息对应的文本特征转换到音频特征所在的目标特征空间中。

S204：根据所述第二特征和所述第三特征确定所述待识别内容对应的多模态特征。

由于第三特征与第二特征均通过目标特征空间进行表达，第三特征和第二特征具有相似的特征表达特点，具备了综合为多模态特征的实现基础。

相对于第一特征或第二特征这类单模态特征仅能携带一个维度的信息特点，基于第二特征和第三特征确定的多模态特征能够携带待识别内容在不同维度上体现的信息特点，有效特征更为丰富。

本申请并不限定基于第二特征和第三特征确定多模态特征的方式，例如可以通过网络模型中的全连接层，通过特征拼接的方式获得多模态特征。

S205：通过所述多模态特征对待识别内容进行识别，得到识别结果，所述识别结果用于体现所述待识别内容的重要程度。

由于多模态特征所携带的有效特征涵盖多个维度，相对于单模态特征来说，多模态特征中有效特征更为丰富，根据多模态特征可以对待识别内容进行更为准确的识别，识别结果所体现的重要程度更符合用户对待识别内容的实际定位。通过对待识别内容重要程度的自动化识别，免去了人为判断的耗时，大大加快对终端设备中所保存无意义内容的删除效率。

由于通过多模态特征确定出的识别结果具有较高的可信度，可以作为删除终端设备中所保存待识别内容的依据。在本申请实施例提供了至少两种针对终端设备中所保存内容的删除方式：

第一种删除方式：终端设备基于识别结果自动删除

可以根据所述识别结果确定是否在终端设备中删除所述待识别内容。

删除的标准可以是预定的阈值，当待识别内容的识别结果满足该阈值，确定该待识别内容对于用户较为重要，将该待识别结果继续保存在终端设备中。当识别内容的识别结果不满足该阈值，终端设备确定该待识别内容对于用户并不重要，甚至是属于无意义的内容，可以将该待识别结果从终端设备中自动删除，以此释放终端设备的宝贵存储空间。

这种依据识别结果自动删除待识别内容的方式，可以在用户无感知的情况下为终端设备腾出存储空间，保持终端设备存储空间的健康程度，使得关键时刻例如急需在本地保存大容量文件时，用户具有足够的可用存储空间的可能性提高，降低临时筛选内容进行删除的窘境的出现概率。

第二种删除方式：终端设备被动或主动提示用户进行删除

通过识别结果相当于对待识别内容进行分类，例如可以从待识别内容中区分出重要内容和非重要内容。

针对非重要内容，终端设备可以被动或主动的向用户展示对应的可删除提示。

被动展示是指终端设备在确定用户具有内容删除需求时展示该可删除提示的机制。例如可以通过用户触发内容删除功能、文件整理功能时确定用户具有内容删除需求。在确定出该需求时，通过展示可删除提示，可以告知非重要内容的列表、类型或容量大小等，用户可以根据自身需求完成对非重要内容的快速删除。

主动展示是指终端设备在完成对待识别内容的重要程度识别后，主动的基于识别结果向用户展示可删除提示的机制。例如可以是针对某一软件所保存的待识别内容识别完成后，对于识别的非重要内容进行可删除提示，或者也可以是针对终端设备中全部待识别内容识别完成后，对于识别的非重要内容进行统一的可删除提示。

根据上述实施例可以看出，针对需要识别的待识别内容，获取待识别内容的第一信息和第二信息，由于第一信息和第二信息来自不同的维度，故第一信息和第二信息分别对应的第一特征和第二特征具有不同的特征表达形式，处于不同的特征空间，为了综合多个维度的特征，通过将第一特征将转换到第二特征所在的目标特征空间，得到第三特征，由于第三特征与第二特征均通过目标特征空间进行表达，具备了综合为多模态特征的实现基础。相对于第一特征或第二特征这类单模态特征仅能携带一个维度的信息特点，基于第二特征和第三特征确定的多模态特征能够携带待识别内容在不同维度上体现的信息特点，有效特征更为丰富。根据多模态特征可以对待识别内容进行更为准确的识别，识别结果所体现的重要程度更符合用户对待识别内容的实际定位。通过对待识别内容重要程度的自动化识别，免去了人为判断的耗时，大大加快对终端设备中所保存无意义内容的删除效率。

在一种可能的实现方式中，针对S203，本申请实施例提供了一种通过网络模型进行特征转换的方式，具体的，通过第一网络模型，将所述第一特征转换到所述第二特征所在的特征空间，得到第三特征。

第一网络模型是通过特定的训练方式确定的，接下来，通过介绍第一网络模型的训练方式，来说明第一网络模型所具有的准确特征转换效果。

S301：根据样本内容确定第一训练信息和第二训练信息。

样本内容可以是与S201中待识别内容相同或相似类型的内容，该样本内容具有已明确的第一训练信息和第二训练信息，其中，所述第一训练信息与所述第一信息为同一维度的信息，所述第二训练信息与所述第二信息为同一维度的信息。

例如样本内容可以是音频内容，第一训练信息为已明确的音频信息，第二训练信息为已明确的文本信息。

本实施例的整体训练系统可以如图4所示，图4所示场景是针对音频内容的模型训练场景，即通过音频内容作为样本内容进行模型训练。该场景中包括生成器和分类器，通过生成器中包括的模型，可以基于音频内容，确定音频训练信息和文本训练信息，在图4中，将音频训练信息作为第一训练信息，将文本训练信息作为第二训练信息。

S302：根据所述第一训练信息确定第一输入数据，通过第一网络模型得到第三训练特征。

在训练过程中，可以根据训练需求确定第一网络模型的构成。

例如当提取第一训练信息的第一训练特征的网络模型(例如图4中的第一RNN)已经训练完毕，或者输出的第一训练特征可信度较高时，可以将用于将第一训练特征转换为第三训练特征的模型(例如图4中的音频转文本模块)确定为第一网络模型。

例如当提取第一训练信息的第一训练特征的网络模型尚未训练完毕，或者输出的第一训练特征可信度不高时，可以将用于将第一训练特征转换为第三训练特征的模型，以及提取第一训练信息的第一训练特征的网络模型一起确定为第一网络模型。

相应的，第一输入数据可以根据第一网络模型的构成改变而改变。例如可以是图4中的音频训练信息，也可以是图4中的音频特征。

根据第一网络模型可以确定出第一训练特征对应的第三训练特征，例如在图4示出的场景中，第三训练特征为音频特征转换到文本特征所在目标特征空间中的转换后的文本特征。

S303：根据第三训练特征和所述第二训练信息对应的第二训练特征确定第二输入数据，通过第二网络模型得到针对所述第三训练特征的分类结果。

为了提高第一网络模型的特征转换精度，需要通过第二网络模型进行验证，并通过对抗训练的方式实现提高第一网络模型准确性的效果。

第二网络模型实现的是分类的作用，用于对输入的第三训练特征和第二训练特征进行分类，分类的依据是判断输入的训练特征与第二训练特征所处目标特征空间的特征特点是否相符，也就是说，分类结果用于标识所述第三训练特征符合所述目标特征空间中特征特点的程度。

例如在图4示出的场景中，作为第二网络模型的分类器可以实现对输入数据(文本特征和转换后的文本特征)进行分类的作用，以确定转换后的文本特征是否符合文本特征所处目标特征空间中的特征特点，即这个转换后的文本特征作为一个“假的”文本特征，其特征特点是不是像一个“真的”文本特征。如果确定出转换的文本特征越符合目标特征空间的特征特点，那么可以证明第一网络模型的输出越准确、可信。

S304：根据所述分类结果训练所述第一网络模型和所述第二网络模型。

根据该分类结果可以对第一网络模型和第二网络模型进行训练，训练的方式可以是对第一网络模型和第二网络模型进行对抗性的交替训练。

由于分类结果可以标识第三训练特征符合所述目标特征空间中特征特点的程度，如果符合程度过高，证明第二网络模型的分类结果与实际不符，因为实际上转换后的文本特征并不是真实意义上的文本特征。相应的，如果符合程度过低，证明第一网络模型的转换效果很差，难以起到欺骗第二网络模型的作用，所转换出的第三训练特征并不能符合本申请的实际需求：第三训练特征的特征特点与第二训练特征的特征特点的差别应该近似，这样才能确定出高质量的多模态特征。

也就是说，通过分类结果的对抗训练，会提高第二网络模型的分类识别精度，降低被欺骗的可能，同时，会提高第一网络模型的特征转换精度，提高伪装第三训练特征的能力，以期能够欺骗第二网络模型。从而通过对抗的方式，不断拔高第一网络模型和第二网络模型的质量。

故在一种可能的实现方式中，S304可以为：根据所述分类结果对所述第一网络模型进行训练；根据所述分类结果是否正确对所述第二网络模型进行训练。

为了进一步的提高对抗训练的作用，分类结果还可以用于标识所述第二训练特征符合所述目标特征空间中特征特点的程度。

由此，可以有效的矫正分类器可能出现的矫枉过正的情况，避免识别条件过于严苛，将原本真实的文本特征也识别为非文本特征，从而将第二网络模型的训练方向把控在正确的方向上。

根据本实施例可以看出，通过上述对抗训练的方式，训练后第一网络模型达到较好的特征转换效果，输出的转换后的特征能够达到“以假乱真”的作用，可以很好的满足本申请的上述实际需求。

接下来通过具体的应用场景来整体性的说明本申请的实施例，如图5所示，待识别内容为音频内容，基于该音频内容确定出作为第一信息的音频信息，和作为第二信息的文本信息。

通过第一RNN，从音频信息中确定出作为第一特征的音频特征，通过第二RNN，从文本信息中确定出作为第二特征的文本特征。

针对音频特征，通过音频转文本模块将音频特征转换到文本特征所在的目标特征空间中，得到转换后的文本特征。该音频转文本模块可以为前述训练得到的第一网络模型。或者，第一RNN和音频转文本模块一起可以作为该第一网络模型。

转换后，将通过第一RNN得到的文本特征和该转换后的文本特征一起作为输入数据，输入全联通层进行特征融合，得到该音频内容对应的多模态特征。

通过分类模型，基于多媒体特征识别音频内容的重要程度。需要强调的是，这里的分类模型和前述模型训练中提及的分类器并不是一个模型。

识别重要程度的分类模型可以采用监督式训练方式训练得到，具体的训练方式这里不再赘述。

通过识别结果所标识的重要程度，可以判定该音频内容是否可以删除。

针对上述实施例提供的内容识别方法，本申请实施例还提供了一种内容识别装置。如图6所示，图6为本申请实施例提供的一种内容识别装置的装置结构图，所述内容识别装置600包括确定单元601、转换单元602和识别单元603：

所述确定单元601，用于确定待识别内容对应的第一信息和第二信息，所述第一信息和所述第二信息是所述待识别内容在不同维度的信息；

所述确定单元601，还用于确定所述第一信息对应的第一特征，所述第二信息对应的第二特征；

所述转换单元602，用于通过将所述第一特征转换到目标特征空间，得到第三特征；所述目标特征空间为所述第二特征所在的特征空间；

所述确定单元601，还用于根据所述第二特征和所述第三特征确定所述待识别内容对应的多模态特征；

所述识别单元603，用于通过所述多模态特征对待识别内容进行识别，得到识别结果，所述识别结果用于体现所述待识别内容的重要程度。

在一种可能的实现方式中，所述装置还包括删除单元，所述删除单元用于：

根据所述识别结果确定是否在终端设备中删除所述待识别内容；或者，

若根据所述识别结果确定所述待识别内容属于非重要内容，展示对应的可删除提示。

在一种可能的实现方式中，所述待识别内容为音频内容、图像内容或视频内容。

在一种可能的实现方式中，所述待识别内容为移动终端中所保存的社交软件的社交内容，所述确定单元还用于：

若所述待识别内容为音频内容，确定所述待识别内容中的音频信息和所述音频信息对应的文本信息；

将所述音频信息作为所述第一信息，确定的文本信息作为第二信息，或者，将确定的文本信息作为所述第一信息，所述音频信息作为第二信息；

若所述待识别内容为图像内容，确定所述待识别内容中的图像信息，以及从所述图像内容的上下文中确定与所述图像内容具有关联关系的文本信息；

将所述图像信息作为所述第一信息，确定的文本信息作为第二信息，或者，将确定的文本信息作为所述第一信息，所述图像信息作为第二信息；

若所述待识别内容为视频内容，确定所述待识别内容中的视频信息，以及从所述视频内容的上下文中确定与所述视频内容具有关联关系的文本信息；

将所述视频信息作为所述第一信息，确定的文本信息作为第二信息，或者，将确定的文本信息作为所述第一信息，所述视频信息作为第二信息。

在一种可能的实现方式中，所述转换单元还用于：

通过第一网络模型，将所述第一特征转换到所述第二特征所在的特征空间，得到第三特征。

在一种可能的实现方式中，所述装置还包括训练单元，所述训练单元用于对所述第一网络模型通过如下方式训练：

根据样本内容确定第一训练信息和第二训练信息；其中，所述第一训练信息与所述第一信息为同一维度的信息，所述第二训练信息与所述第二信息为同一维度的信息；

根据所述第一训练信息确定第一输入数据，通过第一网络模型得到第三训练特征；所述第三训练特征为将所述第一训练信息对应的第一训练特征转换到所述目标特征空间的特征；

根据第三训练特征和所述第二训练信息对应的第二训练特征确定第二输入数据，通过第二网络模型得到针对所述第三训练特征的分类结果；所述分类结果用于标识所述第三训练特征符合所述目标特征空间中特征特点的程度；

根据所述分类结果训练所述第一网络模型和所述第二网络模型。

在一种可能的实现方式中，所述分类结果还用于标识所述第二训练特征符合所述目标特征空间中特征特点的程度。

在一种可能的实现方式中，所述训练单元还用于：

根据所述分类结果对所述第一网络模型进行训练；根据所述分类结果是否正确对所述第二网络模型进行训练。

可以看出，针对需要识别的待识别内容，获取待识别内容的第一信息和第二信息，由于第一信息和第二信息来自不同的维度，故第一信息和第二信息分别对应的第一特征和第二特征具有不同的特征表达形式，处于不同的特征空间，为了综合多个维度的特征，通过将第一特征将转换到第二特征所在的目标特征空间，得到第三特征，由于第三特征与第二特征均通过目标特征空间进行表达，具备了综合为多模态特征的实现基础。相对于第一特征或第二特征这类单模态特征仅能携带一个维度的信息特点，基于第二特征和第三特征确定的多模态特征能够携带待识别内容在不同维度上体现的信息特点，有效特征更为丰富。根据多模态特征可以对待识别内容进行更为准确的识别，识别结果所体现的重要程度更符合用户对待识别内容的实际定位。通过对待识别内容重要程度的自动化识别，免去了人为判断的耗时，大大加快对终端设备中所保存无意义内容的删除效率。

本申请实施例还提供了一种用于内容识别的服务器和终端设备，该服务器或终端设备可以是前述的处理设备的一种可能实现形式，下面将从硬件实体化的角度对本申请实施例提供的用于内容识别的服务器和终端设备进行介绍。

参见图7，图7是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

通过所述多模态特征对待识别内容进行识别，得到的识别结果用于体现所述待识别内容的重要程度。

可选的，CPU 1422还可以执行本申请实施例中内容识别方法任一实现方式的方法步骤。

针对上文描述的内容识别方法，本申请实施例还提供了一种用于内容识别的终端设备，以使上述内容识别方法在实际中实现以及应用。

参见图8，图8为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文缩写：PDA)等任意终端设备：

图8示出的是与本申请实施例提供的终端相关的部分结构的框图。参考图8，该终端包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图8中示出的平板电脑结构并不构成对平板电脑的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对平板电脑的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。通常，RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1580，并能接收处理器1580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1541。进一步的，触控面板1531可覆盖显示面板1541，当触控面板1531检测到在其上或附近的触摸操作后，传送给处理器1580以确定触摸事件的类型，随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图8中，触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一手机，或者将音频数据输出至存储器1520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块1570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行手机的各种功能和处理数据。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

手机还包括给各个部件供电的电源1590(比如电池)，优选的，电源可以通过电源管理系统与处理器1580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该终端所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的内容识别方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的内容识别方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的内容识别方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种内容识别方法，其特征在于，所述方法包括：

通过第一网络模型，将所述第一特征转换到所述第二特征所在的目标特征空间，得到第三特征；所述目标特征空间为所述第二特征所在的特征空间，处于同一特征空间中的第三特征与第二特征属于同一种特征，所述第三特征和所述第二特征具有相似的特征表达特点，所述第一网络模型通过如下方式训练：根据样本内容确定第一训练信息和第二训练信息；其中，所述第一训练信息与所述第一信息为同一维度的信息，所述第二训练信息与所述第二信息为同一维度的信息；根据所述第一训练信息确定第一输入数据，通过第一网络模型得到第三训练特征；所述第三训练特征为将所述第一训练信息对应的第一训练特征转换到所述目标特征空间的特征；根据第三训练特征和所述第二训练信息对应的第二训练特征确定第二输入数据，通过第二网络模型得到针对所述第三训练特征的分类结果；所述分类结果用于标识所述第三训练特征符合所述目标特征空间中特征特点的程度；根据所述分类结果训练所述第一网络模型和所述第二网络模型；

根据所述第二特征和所述第三特征确定所述待识别内容对应的多模态特征，其中，所述多模态特征为将第二特征与第三特征通过拼接方式获得的一个特征；

通过所述多模态特征对待识别内容进行识别，得到识别结果，所述识别结果用于体现所述待识别内容的重要程度；

2.根据权利要求1所述的方法，其特征在于，所述待识别内容为音频内容、图像内容或视频内容。

3.根据权利要求2所述的方法，其特征在于，所述待识别内容为移动终端中所保存的社交软件的社交内容，所述确定待识别内容对应的第一信息和第二信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述分类结果还用于标识所述第二训练特征符合所述目标特征空间中特征特点的程度。

5.根据权利要求1或4所述的方法，其特征在于，所述根据所述分类结果训练所述第一网络模型和所述第二网络模型，包括：

6.一种内容识别装置，其特征在于，所述装置包括确定单元、转换单元、删除单元和识别单元：

所述转换单元，用于通过第一网络模型，将所述第一特征转换到所述第二特征所在的目标特征空间，得到第三特征；所述目标特征空间为所述第二特征所在的特征空间，处于同一特征空间中的第三特征与第二特征属于同一种特征，所述第三特征和所述第二特征具有相似的特征表达特点，所述第一网络模型通过如下方式训练：根据样本内容确定第一训练信息和第二训练信息；其中，所述第一训练信息与所述第一信息为同一维度的信息，所述第二训练信息与所述第二信息为同一维度的信息；根据所述第一训练信息确定第一输入数据，通过第一网络模型得到第三训练特征；所述第三训练特征为将所述第一训练信息对应的第一训练特征转换到所述目标特征空间的特征；根据第三训练特征和所述第二训练信息对应的第二训练特征确定第二输入数据，通过第二网络模型得到针对所述第三训练特征的分类结果；所述分类结果用于标识所述第三训练特征符合所述目标特征空间中特征特点的程度；根据所述分类结果训练所述第一网络模型和所述第二网络模型；

所述确定单元，还用于根据所述第二特征和所述第三特征确定所述待识别内容对应的多模态特征，其中，所述多模态特征为将第二特征与第三特征通过拼接方式获得的一个特征；

所述识别单元，用于通过所述多模态特征对待识别内容进行识别，得到识别结果，所述识别结果用于体现所述待识别内容的重要程度；

所述删除单元，用于根据所述识别结果确定是否在终端设备中删除所述待识别内容；或者，若根据所述识别结果确定所述待识别内容属于非重要内容，展示对应的可删除提示。

7.根据权利要求6所述的装置，其特征在于，所述待识别内容为音频内容、图像内容或视频内容。

8.根据权利要求7所述的装置，其特征在于，所述待识别内容为移动终端中所保存的社交软件的社交内容，所述确定单元还用于：

9.根据权利要求6所述的装置，其特征在于，所述分类结果还用于标识所述第二训练特征符合所述目标特征空间中特征特点的程度。

10.根据权利要求6或9所述的装置，其特征在于，所述装置还包括训练单元，所述训练单元用于：

11.一种用于内容识别的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任意一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-5任意一项所述的方法。