CN112749326B

CN112749326B - 信息处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112749326B
Application number: CN201911120840.0A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-10-03
Anticipated expiration: 2039-11-15
Also published as: CN112749326A

Abstract

本申请提供信息处理方法、装置、计算机设备及存储介质，涉及数据处理技术领域，方法包括：获取待处理信息，确定待处理信息中的各类信息元素；将每类信息元素分别进行向量化，得到各类信息元素的特征向量；分别针对每类信息元素，获得该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度；根据各类信息元素对应的相似度，获得待处理信息与目标信息之间的相似度；根据待处理信息与目标信息之间的相似度确定待处理信息的处理结果。解构待处理信息中的各类信息元素，根据各类信息元素的向量以及各类信息元素对应的目标特征向量之间的相似度综合确定待处理信息的相似度，提高了待处理信息的查重准确率及召回准确率。

Description

信息处理方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种信息处理方法、装置、计算机设备及存储介质。

背景技术

随着移动互联网的飞速发展以及内容生产的门槛降低，内容生产产量持续攀升的背景下，各种内容生产和分发平台获得了极大的快速发展，内容生态体系持续繁荣。但是内容的大繁荣也带来了信息的过载问题。对用户来说，其需要的是有价值的信息而非千篇一律的内容，而用户会收到许多重复相近的内容，所以需要对推送给用户的内容进行判重，识别推送内容是否重复或者相近。

现有技术中使用的内容排重方法通常使用simhash方法或者其变种，比如选择图文内容当中句子最长的三句话作为图文内容的代表来计算simhash进行排重。但是对于长文本，simhash方法的识别准确率还可以，但是对于相似内容的召回不足，另外对于图文内容当中，文字很多，图片很多的内容，识别效果也很差。

综上所述，现有技术中针对推送内容的查重准确率以及召回率低。

发明内容

本申请实施例提供一种信息处理方法、装置、计算机设备及存储介质，针对推送内容的查重准确率以及召回率高。

一方面，本申请实施例提供一种信息处理方法，所述方法包括：

获取待处理信息，确定所述待处理信息中的各类信息元素；

将每类信息元素分别进行向量化，得到各类信息元素的特征向量；

分别针对每类信息元素，获得该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度，其中，该类信息元素对应的目标特征向量是根据该类目标信息元素获得的；

根据各类信息元素对应的相似度，获得所述待处理信息与目标信息之间的相似度，所述目标信息中包括各类目标信息元素；

根据所述待处理信息与目标信息之间的相似度确定所述待处理信息的处理结果。

一方面，本申请实施例提供一种信息处理装置，包括：

获取单元，用于获取待处理信息，确定所述待处理信息中的各类信息元素；

向量化单元，用于将每类信息元素分别进行向量化，得到各类信息元素的特征向量；

相似度确定单元，用于分别针对每类信息元素，获得该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度，其中，该类信息元素对应的目标特征向量是根据该类目标信息元素获得的；根据各类信息元素对应的相似度，获得所述待处理信息与目标信息之间的相似度，所述目标信息中包括各类目标信息元素；

处理结果确定单元，用于根据所述待处理信息与目标信息之间的相似度确定所述待处理信息的处理结果。

可选的，所述待处理信息中至少包括文本信息元素，

所述向量化单元还用于:

确定所述文本信息元素存在多种翻译格式；

将存在多种翻译格式的文本信息元素翻译为同一翻译格式的文本信息元素；

将翻译后的文本信息元素进行向量化，得到文本信息元素的特征向量。

可选的，所述处理结果为是否召回所述待处理信息；

所述向量化单元具体用于:

将所述文本信息元素输入至BERT模型中进行向量化，得到所述文本信息元素的特征向量。

可选的，所述处理结果为是否将所述待处理信息作为重复信息，所述向量化单元具体用于:

将每类信息元素输入至已训练的向量化网络中进行向量化，得到将各类信息元素的特征向量，其中所述已训练的向量化网络为孪生神经网络中的部分网络结构；

所述相似度确定单元具体用于：

将该类信息元素的特征向量以及该类信息元素对应的目标特征向量输入至所述已训练的判重网络，将所述判重网络的输出结果作为该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度，其中所述已训练的判重网络为所述孪生神经网络中的部分网络结构。

可选的，所述已训练判重网络至少包括第一全连接层以及第二全连接层，所述已训练的判重网络至少是将softmax函数作为损失函数进行训练得到的。

可选的，所述向量化单元还用于：

若确定所述待处理信息中的文本信息元素的字数大于所述第一阈值，且所述图像信息元素的数量小于等于所述第二阈值，所述视频信息元素的数量小于等于所述第三阈值，则将所述待处理信息中的文本信息元素向量化，得到文本信息元素的特征向量；

所述相似度确定单元具体用于：

根据文本信息元素的特征向量信息以及所述文本信息元素对应的目标特征向量之间的相似度确定所述待处理信息的处理结果。

一方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种信息处理方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述任一种信息处理方法的步骤。

本申请实施例提供的信息处理方法，能够针对待处理信息中的各类信息元素进行向量化，并根据各类信息元素向量化的结果与各类信息对应的目标向量之间的相似度来确定待处理信息的处理结果，通过上述方法可以将待处理信息按照信息元素的类别进行向量化以及相似度处理，不仅考虑了待处理信息中的文本信息元素，也考虑了其它待处理信息中的其它信息元素，例如图片信息元素、视频信息元素等等，所以与现有技术相比，除了确定待处理信息中的文本信息与其它待处理信息中文本信息的相似度，也可以确定待处理信息中的其它信息元素与其它待处理信息中其它信息元素之间的相似度，所以提高了待处理信息的查重准确率以及召回准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信息处理方法的应用场景示意图；

图2为本申请实施例提供的一种信息处理方法的流程示意图；

图3为本申请实施例提供的一种孪生网络的结构示意图；

图4为本申请实施例提供的一种通过孪生网络的结构进行判重处理或者召回处理的处理过程示意图；

图5为本申请实施例提供的一种通过孪生网络的结构进行判重处理过程示意图；

图6为本申请实施例提供的一种信息处理过程示意图；

图7为本申请实施例提供的一种信息处理过程示意图；

图8为本申请实施例提供的一种信息处理装置的结构示意图；

图9为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

流媒体：指的是一种新的媒体传送方式，有声音流、视频流、文本流、图像流、动画流等。

推送内容：指的是用户订阅的流媒体或者用户关注的流媒体公众号等推荐给用户阅读的文章，可能会包含视频或图片，文章通常是流媒体主动编辑后发布的。

媒体信息：一种推送内容，通过媒体信息的内容生产端产生，并通过媒体信息的内容消费端进行消费，媒体信息包括音频文件、视频文件等，内容消费端包括但不限于智能手机、平板电脑、便携计算机、视频网站服务器等。具体实现时，媒体信息又可以分为专业生产内容(PGC，Professional Generated Content)、用户原创内容(UGC，User GeneratedContent)以及混合的专业用户生产内容(PUGC，Professional User Generated Content)。其中，PGC泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化的媒体内容，如视频网站服务器、微博服务器上生成的内容；UGC是为了满足用户的个性化要求而产生的，用户可以使用各种智能终端上传本地或者自制的视频等；而PUGC是以UGC形式，生成相对接近PGC的专业音视频等内容。在内容分发领域，对于上述的UGC内容，分发的效率将会明显影响用户的体验。

Feeds：消息来源，又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源，是一种资料格式，网站透过它将最新资讯传播给用户，通常以时间轴方式排列，时间轴是Feed最原始最直觉也最基本的展示形式。用户能够订阅网站的先决条件是，网站提供了消息来源。将Feed汇流于聚合器(aggregator)中。对最终用户而言，聚合器是专门用来订阅网站的软件，例如RSS阅读器、feed阅读器、新闻阅读器等。

机器学习：(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

深度学习：深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

自然语言处理(NLP)：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

汉明距离：是使用在数据传输差错控制编码里面的，汉明距离是一个概念，它表示两个(相同长度)字对应位不同的数量，我们以d(x,y)表示两个字x,y之间的汉明距离。对两个字符串进行异或运算，并统计结果为1的个数，那么这个数就是汉明距离。

Simhash：Google发明的一种排重算法，利用simhash算法可以计算出一个哈希值，并通过哈希值来去确定是否相似。

孪生网络(Siamese network)：又称为连体网络，是一种特殊类型的神经网络架构，也是一种监督学习，用于度量学习。该神经网络有两个输入，将两个输入进入两个神经网络，这两个神经网络分别将输入映射到新的空间，形成输入在新的空间中的表示。通过损失函数的计算，评价两个输入的相似度。

在互联网快速发展的时代，随着内容生产的门槛降低，产量持续攀升的背景下，各种内容生产和分发平台获得了极大的快速发展，内容生态体系持续繁荣。尤其是当一个新闻事件发生后，权威新闻源会发布新闻通告，自媒体会从不同角度进行评论，一些营销号也会批量产出蹭热点的内容。但是内容的大繁荣也带来了信息的过载问题。对用户来说，其需要的是有价值的信息而非千篇一律的内容，用户可能会厌恶信息列表页中千篇一律的标题，以及了无新意的内容，尤其是重复相近的内容反复出现。从消费角度来看，甲、乙两篇内容是相似的，则甲、乙两篇内容对用户来说是具有替代性的。用户消费了甲内容之后，大概率不需要再消费乙内容了。那么，对推荐系统来说，就需要从甲、乙两篇内容中进行选择，选出应当展示给用户的内容。面对海量内容，此时就非常需要一个高效的方法，识别内容是否是重复或者相近。

目前大规模文本排重主要使用的是simhash方法或者其变种，比如选择图文内容当中句子最长的三句话作为图文内容的代表来计算simhash进行排重。但是使用simhash算法进行排重时，只能给出“相似”或者“不相似”的结果，实际应用当中，不仅需要简单的相似判断，还需要给出细粒度的相似度衡量值，方便推荐系统来做推荐打散；并且对于长文本，simhash算法的对于排重的准确率较高，但是召回的不足；另外对于图文内容当中，文字很多，图片很多的内容，识别效果也很差；另外从语义层面，很多自媒体作者为了利益获取内容流量补贴，大量存在洗稿，拼凑，试图绕过平台方提供内排重机制。通过洗稿对别人的原创内容进行篡改、删减，使其好像面目全非，但其实最有价值的部分还是抄袭的。洗稿和拼凑已经从简单的人工洗稿，比如简单的改标题，改内容，在自己加入一些思维，发展到大规模的机器洗稿，造成同样类似的内容大量泛滥。使用现有技术中的simhash算法无法识别上述洗稿内容的相似度。

基于上述现有技术的缺点，本申请的发明人构思了一种信息处理方法，在本申请中，通过分析待处理信息中包括的各类信息元素，将待处理信息解构成多类信息元素的表示，并通过各类信息元素的向量化结果以及各类信息元素对应的目标特征向量之间的相似度，综合评判待处理信息与目标特征信息之间的相似度。

通过本申请实施例中的方法，能够给出细粒度的相似度衡量值，能够得每类信息元素的相似度；另外对于图文内容，可以针对文字以及图像内容进行分别计算相似度，提高了识别结果的准确性；由于本申请实施例中是将待处理信息进行全局分析的，所以可以有效识别洗稿内容是否与目标特征信息之间存在相似性，也提高了对洗稿内容的排重准确性。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

参考图1，其为本申请实施例提供的信息处理方法的应用场景示意图。该应用场景包括终端设备101、网络服务器102以及信息处理装置103，终端设备101用于进行信息消费，网络服务器102用于生产信息，信息处理装置103用于对信息进行排重或者召回。其中，终端设备101与网络服务器102之间通过无线或有线网络连接，在本申请中，终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑等电子设备。用户可通过终端设备101中安装各种内容消费应用，例如微博、微信、QQ空间、今日头条等。

网络服务器102可以指的是某个内容消费应用对应的服务器，也可以是多个内容消费应用对应的服务器集群，由多台子服务器1021构成，网络服务器102产生各个应用推送给用户的信息。

网络服务器102与终端设备101之间存在信息处理装置103，信息处理装置103用于进行排重和召回，例如信息处理装置103可以通过某关键词对各种推送给终端设备101的信息进行召回，也可以对各种推送给终端设备101的信息进行排重，确定是否需要将相似的信息推送给终端设备101。

在本申请实施例中，处理装置103在获取到待处理信息后，解构待处理信息中的各类信息元素，根据各类信息元素的向量以及各类信息元素对应的目标特征向量之间的相似度综合确定待处理信息的相似度，可以通过该相似度对待处理信息进行召回或者排重。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

下面结合图1所示的应用场景，对本申请实施例提供的技术方案进行说明。

参考图2，本申请实施例提供一种信息处理方法，本方法可以由上述信息处理装置103执行，具体包括以下步骤：

步骤S201，获取待处理信息，确定所述待处理信息中的各类信息元素。

在本申请中，待处理信息指的是需要推送给用户的信息，可以理解为是各信息生产者，例如自媒体平台、公众号等推送给用户的媒体信息，媒体信息中包括视频文件、图片文件以及文字等等。

在本申请实施例中，将待处理信息中包括各类信息元素，例如图像元素、视频元素、语音元素以及文字元素等等，待处理信息中至少包括一种信息元素。

一种可选的实施例中，通过各类信息元素的模板将待处理信息中的各类信息元素提取出来。

在本申请实施例中，待处理信息可以是一个信息，也可以是在设定时间内接收到的多个信息，例如在5s内接收到的所有信息作为待处理信息。

步骤S202，将每类信息元素分别进行向量化，得到各类信息元素的特征向量。

在本申请实施例中，通过将各类信息元素向量化的过程，能够得到各类信息元素的特征向量。各类信息元素向量有助于能够确定各类信息元素的本质特征。

在本申请实施例中，可以将各类信息元素同时向量化，也可以针对每类信息元素进行向量化，不同类信息元素可以使用不同的向量化的方法进行向量化。例如，在本申请实施例中，文本信息元素可以使用one-hot编码方式进行向量化，也可以使用TF-IDF方法进行向量化；图像信息可以使用神经网络来进行向量化，语音信息可以首先转换为文本信息，然后对文本信息进行向量化，也可以使用神经网络或者深度学习的方法进行向量化。

一种可选的实施例中，由于推送给用户的待处理信息中通常会存在一定设定比例的图像，这些图像如果直接进行向量化，向量化的时间长，会影响信息处理的效率，所以在本申请实施例中，当待处理信息中存在图像信息元素时，首先需要确定图像信息元素的长度是否大于阈值，若是，则将图像信息元素拆分成多个子图像信息元素，然后针对每个子图像信息元素进行向量化。

设定比例为长度大于一定阈值的图像，也就是长图，将长图进行切分，切分成多个子图像，然后对各个子图像进行向量化。

一种可选的向量化的方式，将各个子图像输入至神经网络中，例如卷积神经网络CNN对子图像进行向量化。

另一种可选的实施例中，当待处理信息中包括视频信息元素时，可以将视频中的每帧视频帧作为一个图像信息元素进行向量化，当然，由于待处理信息中通常会显示视频的预览图，可以理解为视频的封面，也可以选择其中一帧作为视频的代表图像帧进行向量化，通常选择视频的封面为代表图像帧。同样的，可以通过CNN对代表图像帧进行向量化，得到向量化后的代表图像帧，并将代表图像帧的向量作为视频信息元素的向量。

另一种可选的实施例中，当待处理信息包括文本信息元素时，文本信息可能存在多种翻译版本，例如待处理信息中包括部分中文文本信息元素、英文文本信息元素以及日文文本信息元素，则需要将不同语言的文本信息转换为同一语言后进行向量化。

同样的，若是将多个信息作为待处理信息，可能存在多个信息之间的文本信息的语言差异，所以还需要将多个信息的文本信息都转换为同一个语言格式，然后进行向量化。

步骤S203，分别针对每类信息元素，获得该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度，其中，该类信息元素对应的目标特征向量是根据该类目标信息元素获得的。

具体的，在得到各类信息的特征向量后，计算各类信息的特征向量与各类信息对应的目标特征向量之间的相似度。各类信息对应的目标特征向量可以理解为是通过各类目标信息元素获得的，各类目标信息元素又是目标信息中的构成元素。

目标信息可以理解为是已经处理的，或者预存的信息，可以理解为是已经进行过信息处理，得到处理结果的信息。例如，已经处理的信息有信息1、信息2以及信息3，从而能够得到信息1中的各类信息的特征向量，信息2中的各类信息的特征向量以及信息3中的各类信息的特征向量，并具体的，将信息1中的文本类信息元素的特征向量1、将信息2中的文本类信息元素的特征向量2以及将信息3中的文本类信息元素的特征向量3都作为文本类信息元素的目标特征向量，同理，可以将信息1中的图片类信息元素的特征向量1、将信息2中的图片类信息元素的特征向量2以及将信息3中的图片类信息元素的特征向量3都作为图片类的目标特征向量。

可选的，已处理的信息的各类信息元素的特征向量是保存在数据库中的，根据各类信息元素的索引在数据库中进行查询，例如，图片类信息元素的特征向量的索引为索引1，文本类信息元素的特征向量的索引为索引2，视频类信息元素的特征向量的索引为索引3，在进行待处理信息的处理过程时，首先确定待处理信息具有的各类信息元素为文本类信息元素以及图片类信息元素，然后在确定文本类信息元素对应的特征向量的索引为2，图片类信息元素对应的特征向量的索引为1，则根据两个索引查找对应的特征向量。

步骤S204，根据各类信息元素对应的相似度，获得所述待处理信息与目标信息之间的相似度，所述目标信息中包括各类目标信息元素。

具体的，在本申请实施例中，在确定了各类信息元素对应的相似度后，根据各类信息元素对应的相似度确定待处理信息与目标信息之间的相似度，也就是说，通过各类信息元素综合确定待处理信息与目标信息之间的相似度。

在本申请实施例中，目标信息可以是一个或者多个，可以确定待处理信息与一个或者多个目标信息之间的相似度。

一种可选的确定相似度的方法，通过各类信息元素对应的相似度相加之和来确定与目标信息之间的相似度。

例如待处理信息中包括文本类信息元素以及图片类信息元素，文本类信息元素对应的相似度为70％，图片类信息元素对应的相似度为65％，则各类信息元素对应的相似度相加之和为1.35。

另一种可选的实施例中，根据各类信息元素的权重以及各类信息元素对应的相似度来确定待处理信息与目标信息之间的相似度。例如，待处理信息中包括文本类信息元素以及图片类信息元素，文本类信息元素对应的相似度为60％，图片类信息元素对应的相似度为60％，文本类信息元素的权重为0.7，图片类信息元素的权重为0.3，则待处理信息与目标信息之间的相似度为0.6*0.7+0.6*0.3＝0.6。

步骤S205，根据所述待处理信息与目标信息之间的相似度确定所述待处理信息的处理结果。

在本申请实施例中，根据待处理信息与目标信息之间的相似度确定处理结果，并根据处理结果进行决策。

具体的，在本申请实施例中，由于主要应用场景为筛选推送内容，所以处理结果通常包括召回以及判重，可以理解为召回指的是确定是否将待处理信息作为检索结果，判重指的是是否将待处理信息作为重复信息。

在本申请实施中，一种可选的实施例中，若待处理信息与目标信息之间的相似度大于设定阈值，则认为待处理信息可以被召回，或者判重该待处理信息。

另一种可选的实施例中，召回对应的阈值可以与判重对应的阈值不同，也就是说，召回对应的阈值为第一阈值，判重对应的阈值为第二阈值，在召回处理场景下，若待处理信息与目标信息之间的相似度大于第一阈值，则确定待处理信息应该被召回；同样的，在判重场景下，若待处理信息与目标信息之间的相似度大于第二阈值，则确定待处理信息应该被判重。

具体的，可以根据处理结果的不同，使用不同的向量化方式，即对本申请中的信息处理的过程进行进一步地阐释。

一种可选的实施例中，针对召回处理以及判重处理，使用相同的向量化方式，也就是说，通过本申请实施例确定的待处理信息与目标信息之间的相似度可以进行召回以及判重，也可以理解为召回和判重结果为相同的，即待处理信息若是可以被召回，则也认为该待处理信息的处理结果也是判重结果。

在上述实施例的场景下，申请人构思了一种神经网络构架，该神经网络构架可以将每类信息元素分别进行向量化，得到各类信息元素的特征向量，并且分别针对每类信息元素，获得该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度。具体的，该神经网络架构为孪生网络，孪生网络是一种相似性测量方法，该网络包含两个子网络，用于处理同时输入的两个样本。子网络具有相同的结构并共享所有参数。具体的结构如图3所示，在图3中，孪生网络中包括子网络1以及子网络2，两个网络具有相同的结构，针对不同的应用场景，可以定义不同的网络结构，例如确定文本信息内容是否需要召回或者是否被判重时，子网络可以是LSTM，确定图文信息内容是否需要召回或者是否被判重时，子网络可以是CNN。

在图3中，X₁、X₂为输入数据，可以理解为待处理信息以及目标信息，子网络1以及子网络2之间共享权重W，G_w(X₁)可以理解为是待处理信息向量化的结果，G_w(X₂)可以理解为是目标信息向量化的结果，然后通过损失函数‖Gw(X1)-Gw(X2)‖来确定待处理信息是否需要召回或者是否被判重。

在本申请实施例中，一种可选的实施例中，损失函数可以为对比损失函数，对比损失函数的具体体现形式如公式1所示：

在公式1中，d代表样本欧氏距离，y＝1时代表样本匹配，可以认为信息需要召回或者被判重，当y＝0则代表不匹配，可以认为信息不需要召回或者不会被判重，margin为设定的阈值。在本申请实施例中，由于损失对比函数能够输出相似度值，所以可以细粒度的确定各类信息元素之间的相似度。

在本申请实施例中，孪生网络为已训练的神经网络模型，通过确定已经判重或者召回的各文本信息进行训练，所以可以认为已训练的孪生网络召回率以及判重的准确性都较高。

在本申请实施例中，孪生网络中的两个子网络可以理解为向量化网络，判重或者召回处理是孪生网络的损失函数计算阶段计算的，可以认为损失函数计算阶段为孪生网络的判重网络或者是召回网络。

一种可选的实施例中，可以使用Text-CNN作为子网络，Text-CNN是利用卷积神经网络对文本进行分类的算法，Text-CNN在文本分类问题上有着更加卓越的表现。Text-CNN主要使用嵌入层、卷积层以及池化层来进行向量化。

示意性的，如图4所示，将一个目标信息以及一个待处理信息输入至孪生网络中，通过两个Text-CNN网络将目标信息以及待处理进行向量化，并通过对比损失函数确定待处理信息待与目标信息之间的相似度，并进一步确定处理信息是否需要召回或者是否被判重。

在本申请实施例中，由于目标信息以及待处理信息都存在各类信息元素，所以每类信息元素都可以使用如图4所示的孪生网络确定待处理信息与目标信息之间各类信息元素之间的相似度。

在本申请实施例中，针对图片类信息元素，可以将孪生网络进行模型迁移，得到可以确定图片类信息元素与目标信息中图片类信息元素之间的相似度，模型迁移的过程是使用两个已知相似的图像以及两个已知的不相似的图像分别作为正负样本，并且将孪生网络中的Text-CNN替换为CNN结构进行训练，完成模型迁移的过程。

另一种可选的实施例中，不同的处理结果，选择不同的向量化的方法，例如，在本申请实施例中，当处理结果为是否召回所述待处理信息，即召回过程时，将待处理信息中的文本类信息元素输入值BERT模型中进行向量化，BERT模型是Google在2018年10月发布的语言表示模型，BERT模型的全称是Bidirectional Encoder Representations fromTransformers，其基本结构由多层的双向Transformer组成。Transformer是谷歌2017年提出的架构，在机器翻译任务上取得了非常好的效果。Transformer舍弃了以往该任务上常用的CNN、RNN等神经网络结构，利用自注意力机制将文本中的上下文内容联系起来，并行处理序列中的单词符号。这样的结构使训练速度显著提升，效果也更为优秀。目前这一结构已经被广泛应用。

在本申请实施例中，将待处理信息中的文本信息通过BERT模型进行向量化，能够更加准确的理解待处理信息的上下文信息，也同样的，可以理解目标信息中的上下文信息，从而能够获得较好的召回率，并且由于BERT模型的处理速度快，所以提高了召回处理的效率。

而当处理结果为是否将所述待处理信息作为重复信息，则可以使用上述实施例介绍的孪生网络模型来进行判重。

也就是说，在本申请实施例中，当处理过程为召回处理过程，使用BERT模型进行向量化的过程，当处理过程为判重处理过程时，则使用孪生网络进行向量化的过程，孪生网络中的子网络可以为Text-CNN结构。

可选的，在本申请实施例中，由于simhash方法适用于召回以及排重图像较少的、文字较多的信息，所以在本申请实施例中，在使用本申请方法时，需要首先进行判断，即在步骤S202之前，还需要确定判重或者召回的方法是使用simhash的方法，还是使用本申请实施例中的方法。

具体的，一种可选的实施例，当待处理信息中存在多图或者多视频类信息元素，且待处理信息中的文字类信息的数据较少，也就是说，确定待处理信息中的文本信息元素的字数不大于第一阈值，和/或图像信息元素的数量大于第二阈值，和/或视频信息元素的数量大于第三阈值时，就使用本申请实施例中的信息处理方法，其它情况则使用现有技术中的simhash方法进行判重或者召回处理。其中，第一阈值、第二阈值以及第三阈值是根据应用场景来设置的。

当然，在本申请实施例中，还可以将现有技术中的simhash方法与本申请实施例中的信息处理方法进行结合，在召回时采用simhash方法进行处理，而在判重过程中使用本申请实施例中的方法进行处理。

另一种可选的实施例中，在使用本申请实施例中的信息处理方法进行中，将孪生网络的判重网络调整为双层全连接层，并使用SoftMax作为损失函数，由于有更多的非线性变换，模型判重的稳定性更高，具体的示意图如图5所示。

在图5中，增加了双层全连接层，也就是将图4中的归一化处理变成双层全连接处理，并将SoftMax作为损失函数，通过这一步骤，使得判重过程中多了非线性变化，且可以通过损失函数直接给出相似或者不相似的判重结果。

为了更好的解释本申请实施例，下面结合一种具体的实施场景描述本申请实施例提供的信息处理方法，在本申请实施例中，具体如图6所示，在信息处理过程中包括判重以及召回两个处理过程，判重过程中需要确定待处理信息中的各类信息元素，并确定各类信息是否满足短文多图的规则，可以将(1)字数<125图片>3；(2)有视频插入的待处理信息作为符合短文多图规则的待处理信息。

并且具体的，将待处理信息中的一个视频位置作为一张图片处理，且将长图换算拆分为多张子图像。采用孪生网络的方式来判断图片或者视频是否重复，孪生网络中每个子网络的输入是一幅图像，经过一系列卷积、池化、全连接层，得到最后的特征向量。为比较两幅图像，计算它们特征向量间的距离，如果该距离小于某一阈值，则表示两幅图片重复。

同时有些图片添加了部分文字，其实是同一张图片，此时通过光学字符识别OCR可以识别图片上添加的文字，如果2个图片OCR识别结果只是多了部分文字，可以认为是同一张图片。

还有对于文本内容，如果是通过不同翻译软件识别的翻译稿，通过识别转译作为同样文字处理。

在信息处理过程中，还可能遇到大量作者采用同样的写作模板和框架，通常内容结构的片首和片尾是类似，正文不一样的情况，此时，可以让头尾内容不参与内容排重，将中间部分的内容进行排重。同时，还有一些内容由于样式标记的限制，人阅读看不到隐藏的内容，但是待处理信息还包含隐藏的内容，此时对文件进行预处理和清洗的时候需要排除掉这部分内容。

在本申请实施例中，还可以确定召回规则，当待处理信息中的文字数量小于设定数量时，使用BERT模型进行召回，而当待处理信息中的文字数量大于设定数量时，还使用现有技术中的simhash的方法进行召回处理。

为了更好的解释本申请实施例，为了更好的解释本申请实施例中的信息处理方法的应用场景，本申请实施例提供一种信息处理方法的应用场景，具体如图7所示，图7示意性的给出了媒体信息处理系统700，包括媒体信息的内容生产终端711～71N、媒体信息处理装置720和媒体信息的内容消费终端731～73M。具体地，媒体信息处理装置720又包括：上下行接口服务器721、调度中心722、人工审核服务器723、判重服务器724、内容存储数据库725、召回检索服务器726。

本申请实施例中，媒体信息包括文本文件、音频文件、视频文件。媒体信息的内容生产终端711～71N为N个生成媒体信息内容的终端，包括但不限于智能手机、平板电脑、膝上型便携计算机、视频网站服务器等。每个内容生产终端向媒体信息处理装置720上传媒体信息的源文件。

在具体实现时，这些上传的媒体信息又可以是专业生产内容(PGC，ProfessionalGenerated Content)、用户原创内容(UGC，User Generated Content)以及混合的专业用户生产内容(PUGC，Professional User Generated Content)。其中，PGC泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化的媒体内容，如视频网站服务器、微博服务器上生成的内容；UGC是为了满足用户的个性化要求而产生的，用户可以使用各种智能终端上传本地或者自制的媒体信息内容等；而PUGC是以UGC形式，生成相对接近PGC的专业媒体信息内容等内容。

媒体信息的内容消费终端731～73M是指安装有媒体信息应用客户端的各种终端，例如，客户端为微博、今日头条、微信、QQ空间等应用客户端。

根据本申请实施例，如图7所示，媒体信息的整个传输过程包括如下步骤：

内容生产终端711～71N首先获取上下行接口服务器721的地址，然后将媒体信息的源文件上传到上下行接口服务器721。在具体应用时，内容生产终端711～71N在上传源文件的同时，还可以同时提交媒体相关信息，如标题、发布者、摘要、封面图、发布时间等。上下行接口服务器621将源文件存储在内容存储数据库725中。

在具体实现时，内容存储数据库726是一组分布范围很广、作为内容生产终端711～71N可以就近接入的存储服务器，在其外围还可以有CDN加速服务器进行分布式缓存加速，通过上下行内容接口服务器721将内容生产者上传的媒体信息保存起来。

此外，内容存储数据库725对源文件的内容进行标准的转码操作，转码完成后，异步返回元信息。上下行接口服务器721将媒体信息的元信息写入内容存储数据库725中。

例如，媒体信息为一文本信息文件，元信息包括文本信息文件大小、文件格式、标题、发布时间、作者等信息。内容存储数据库725作为媒体信息的核心数据库，保存有每个媒体信息的元信息。

在本申请实施例中，内容生产终端711～71N还包括上传和浏览过程当中用户阅读的行为数据，例如点击，滑动，分享，收藏，转发等操作行为数据。将这些行为数据保存在内容存储数据库725中。

上下行接口服务器721将上传的源文件提交给调度中心722，以便进行后续的内容处理和流转。

调度中心722负责媒体信息内容流转的整个调度过程，控制调度的顺序和优先级。具体的，调度中心722先后调度判重服务器724和人工审核服务器723，分别对媒体信息的内容进行机器处理和人工审核处理。

调度中心722调度判重服务器724对接收到的源文件进行机器排重处理，并接收判重服务器724的处理结果。

判重服务器724处理源文件，通过本申请实施例中的信息处理方法，对源文件中各类信息元素进行向量化，并确定各类信息元素的向量与目标特征向量之间的相似度，并进一步该源文件是否为重复的媒体信息。

调度中心722将机器排重后的处理结果同步给人工审核服务器723。

人工审核服务器723从内容存储数据库725中读取源文件的元信息，并对源文件的内容进行二次审核。

人工审核服务器723可以对判重的结果进行复核，或者，对判重结果为不重复的媒体信息内容，通过人力对内容进行二次审核，主要是对内容进行分类和标签的标注或者确认。

人工审核服务器723将人工审核的结果和状态回传给内容存储数据库725。

人工审核完成后，调度中心722启用上下行接口服务器721，将人工审核通过的媒体信息分发出去，向内容消费终端731～73M发送待显示媒体信息的索引。

这样，每个内容消费终端展示接收到的媒体信息，展示的渠道包括推荐引擎、搜索引擎或者直接展示页面。

同样的，调度中心722调度召回检索服务器726对接收到的源文件进行机器召回检索处理，并接收召回检索服务器726的处理结果。

召回检索服务器726处理源文件，通过本申请实施例中的信息处理方法，对源文件中各类信息元素进行向量化，并确定各类信息元素的向量与目标特征向量之间的相似度，并进一步该源文件是否为需要被召回的媒体信息。

调度中心722将机器召回检索处理结果同步给人工审核服务器723。

人工审核服务器723可以对召回检索结果的结果进行复核，或者，对判重结果为不需要召回的媒体信息内容，通过人力对内容进行二次审核，主要是对内容进行分类和标签的标注或者确认。

当内容消费终端731～73M的用户在浏览到通过审核后的媒体信息后，希望观看某个媒体信息时，媒体信息的整个传输过程还包括如下处理：

内容消费终端731～73M获取与上下行接口服务器122交互，获取待播放媒体信息的索引；内容消费终端731～73M根据该索引与内容存储数据库725交互，下载媒体信息内容。

此时，内容存储数据库725作为对外服务的数据源。除此之外，根据本申请实施例中，判重服务器724将从内容存储数据库725获取源文件进行相关的处理，此时，判重服务器724作为对内服务的数据源。在具体实现时，为避免相互影响，内外数据源的通路是分开部署。

基于上述实施例，参阅图8所示，本发明实施例提供一种信息处理装置800，包括：

获取单元801，用于获取待处理信息，确定所述待处理信息中的各类信息元素；

向量化单元802，用于将每类信息元素分别进行向量化，得到各类信息元素的特征向量；

相似度确定单元803，用于分别针对每类信息元素，获得该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度，其中，该类信息元素对应的目标特征向量是根据该类目标信息元素获得的；根据各类信息元素对应的相似度，获得所述待处理信息与目标信息之间的相似度，所述目标信息中包括各类目标信息元素；

处理结果确定单元804，用于根据所述待处理信息与目标信息之间的相似度确定所述待处理信息的处理结果。

可选的，所述待处理信息中至少包括文本信息元素、图像信息元素以及视频信息元素中的一类或者多类，所述向量化单元802还用于：

确定所述待处理信息中的文本信息元素的字数不大于第一阈值，和/或所述图像信息元素的数量大于第二阈值，和/或所述视频信息元素的数量大于第三阈值。

可选的，所述待处理信息中至少包括所述图像信息元素，所述向量化单元802还用于：

确定所述图像信息元素中存在任一图像信息元素的图像长度大于第四阈值；

将图像长度大于第四阈值的图像信息元素拆分为多个子图像信息元素；

将各个子图像信息元素进行向量化，得到各个子图像信息元素的特征向量。

可选的，所述待处理信息中至少包括所述视频信息元素，所述向量化单元802还用于：

将每个视频信息元素中的设定视频帧进行向量化，得到所述设定视频帧的特征向量，将所述设定视频帧的特征向量作为所述视频信息元素的特征向量。

可选的，所述待处理信息中至少包括文本信息元素，

所述向量化单元802还用于:

确定所述文本信息元素存在多种翻译格式；

可选的，所述处理结果为是否召回所述待处理信息；

所述向量化单元802具体用于:

可选的，所述处理结果为是否将所述待处理信息作为重复信息，所述向量化单元802具体用于：

所述相似度确定单元803具体用于：

可选的，所述向量化单元802还用于：

所述相似度确定单元803具体用于：

请参考图9，其示出了本申请一个实施例提供的电子设备的结构方框图。该电子设备900实现为图1中的信息处理装置102。具体来讲：

电子设备900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为电子设备900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本申请的各种实施例，所述服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的信息处理方法的指令。

基于相同的技术构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行信息处理方法的步骤。

上述计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取待处理信息，确定所述待处理信息中的各类信息元素，所述待处理信息中至少包括文本信息元素、图像信息元素以及视频信息元素中的至少两类；

确定所述待处理信息中的文本信息元素的字数不大于第一阈值，和/或所述图像信息元素的数量大于第二阈值，和/或所述视频信息元素的数量大于第三阈值；

若所述待处理信息的处理结果为是否将所述待处理信息作为重复信息，则将每类信息元素输入至已训练的向量化网络中进行向量化，得到将各类信息元素的特征向量，其中所述已训练的向量化网络为孪生神经网络中的部分网络结构；

若所述待处理信息的处理结果为是否召回所述待处理信息，则将所述文本信息元素输入至转换器Transformer的双向编码器表示BERT模型中进行向量化，得到所述文本信息元素的特征向量；

将该类信息元素的特征向量以及该类信息元素对应的目标特征向量输入至所述已训练的判重网络，将所述判重网络的输出结果作为该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度，其中，该类信息元素对应的目标特征向量是根据该类目标信息元素获得的，所述已训练的判重网络为所述孪生神经网络中的部分网络结构；

2.根据权利要求1所述的方法，其特征在于，所述待处理信息中至少包括所述图像信息元素，所述将各类信息元素进行向量化前，还包括：

所述将每类信息元素进行向量化，得到各类信息元素的特征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述待处理信息中至少包括所述视频信息元素，

4.根据权利要求1所述的方法，其特征在于，所述待处理信息中至少包括文本信息元素，

所述将每类信息元素进行向量化前，还包括：

确定所述文本信息元素存在多种翻译格式；

5.根据权利要求1所述的方法，其特征在于，所述已训练判重网络至少包括第一全连接层以及第二全连接层，所述已训练的判重网络至少是将归一化指数softmax函数作为损失函数进行训练得到的。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若确定所述待处理信息中的文本信息元素的字数大于所述第一阈值，且所述图像信息元素的数量小于等于所述第二阈值，所述视频信息元素的数量小于等于所述第三阈值，则将所述待处理信息中的文本信息元素向量化，得到文本信息元素的特征向量，并根据文本信息元素的特征向量信息以及所述文本信息元素对应的目标特征向量之间的相似度确定所述待处理信息的处理结果。

7.一种信息处理装置，其特征在于，包括：

获取单元，用于获取待处理信息，确定所述待处理信息中的各类信息元素，所述待处理信息中至少包括文本信息元素、图像信息元素以及视频信息元素中的至少两类；确定所述待处理信息中的文本信息元素的字数不大于第一阈值，和/或所述图像信息元素的数量大于第二阈值，和/或所述视频信息元素的数量大于第三阈值；

向量化单元，用于若所述待处理信息的处理结果为是否将所述待处理信息作为重复信息，则将每类信息元素输入至已训练的向量化网络中进行向量化，得到将各类信息元素的特征向量，其中所述已训练的向量化网络为孪生神经网络中的部分网络结构；若所述待处理信息的处理结果为是否召回所述待处理信息，则将所述文本信息元素输入至转换器Transformer的双向编码器表示BERT模型中进行向量化，得到所述文本信息元素的特征向量；

相似度确定单元，用于将该类信息元素的特征向量以及该类信息元素对应的目标特征向量输入至所述已训练的判重网络，将所述判重网络的输出结果作为该类信息元素的特征向量以及该类信息元素对应的目标特征向量之间的相似度，其中，该类信息元素对应的目标特征向量是根据该类目标信息元素获得的，所述已训练的判重网络为所述孪生神经网络中的部分网络结构；根据各类信息元素对应的相似度，获得所述待处理信息与目标信息之间的相似度，所述目标信息中包括各类目标信息元素；

8.根据权利要求7所述的装置，其特征在于，所述待处理信息中至少包括所述图像信息元素，所述向量化单元还用于：

9.根据权利要求7所述的装置，其特征在于，所述待处理信息中至少包括所述视频信息元素，所述向量化单元还用于：

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～6任一权利要求所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～6任一所述方法的步骤。