CN111881666B

CN111881666B - 一种信息处理方法、装置、设备及存储介质

Info

Publication number: CN111881666B
Application number: CN202010656465.8A
Authority: CN
Inventors: 吴德龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2021-08-17
Anticipated expiration: 2040-07-09
Also published as: CN111881666A

Abstract

本发明提供一种信息处理方法、装置、设备及存储介质，该方法包括：将用户历史操作信息按照操作时间进行排序，得到信息操作序列；基于信息操作序列中每个信息各自对应的信息标签，对信息操作序列进行转换，得到信息标签序列；对信息标签序列进行向量分析，得到信息标签序列中每个信息标签各自对应的标签向量；对每个信息各自对应的信息标签的标签向量进行加权处理，得到每个信息各自对应的候选信息向量；基于每个信息各自对应的候选信息向量与基于每个信息各自对应的候选信息向量确定的主成分向量，确定每个信息各自对应的目标信息向量。本发明能够提高目标信息向量确定的准确率，以便提高根据目标信息向量向用户进行相关信息推荐的准确率。

Description

一种信息处理方法、装置、设备及存储介质

技术领域

本发明属于互联网技术领域，具体涉及一种信息处理方法、装置、设备及存储介质。

背景技术

如今，各大电商、视频播放等平台用户每天都将产生海量的数据，因此如何有效地对信息(比如资讯信息)进行处理得到信息向量，以便于根据信息向量向用户进行相关信息的推荐，是当今互联网企业亟需解决的问题

现有技术主要采用信息标签(tag)进行内容上的相关推荐，其中，tag是一种比分类更具体、更准确，是可以概括信息主要内容的关键词；或者采用传统的协同过滤方法进行相关内容的推荐，通过用户点击资讯的行为来构建点击序列，然后通过产生词向量的相关模型(word to vector，word2vec)训练的方法得到信息的embedding，其中，embedding是将词表示为低维向量，该低维向量具有明显的语义。

但采用tag的方法在考虑多个标签结合时，等同看待标签信息，同时缺少语义相关性，比如一篇文章标注“火影忍者”和“鸣人”，但难找到“佐助”语义相关的词语。而协同过滤方法仅仅考虑行为相关性，没有考虑内容的相关性，无法扩充到用户没有点击或者曝光的信息上。当每次有新的信息出现时，需要重新更新信息的embedding。可见，现有技术中的方法均存在信息向量确定的准确率和可信度不高的缺陷，从而降低后续根据该信息向量向用户进行信息相关推荐的精度。

发明内容

为了实现将用户行为与信息内容进行融合确定信息对应的目标信息向量，提高信息对应的目标信息向量确定的准确率，以便提高根据目标信息向量向用户进行相关信息推荐的准确率，本发明提出一种信息处理方法、装置、设备及存储介质。

一方面，本发明提出了一种信息处理方法，所述方法包括：

将用户历史操作信息按照操作时间进行排序，得到信息操作序列；

基于所述信息操作序列中每个信息各自对应的信息标签，对所述信息操作序列进行转换，得到信息标签序列；

对所述信息标签序列进行向量分析，得到所述信息标签序列中每个信息标签各自对应的标签向量；

对每个信息各自对应的信息标签的标签向量进行加权处理，得到每个信息各自对应的候选信息向量；

基于每个信息各自对应的候选信息向量确定主成分向量；

基于每个信息各自对应的候选信息向量与所述主成分向量，确定每个信息各自对应的目标信息向量。

另一方面，本发明提出了一种信息处理装置，所述装置包括：

信息操作序列获取模块，用于将用户历史操作信息按照操作时间进行排序，得到信息操作序列；

信息标签序列获取模块，用于基于所述信息操作序列中每个信息各自对应的信息标签，对所述信息操作序列进行转换，得到信息标签序列；

标签向量获取模块，用于对所述信息标签序列进行向量分析，得到所述信息标签序列中每个信息标签各自对应的标签向量；

候选信息向量确定模块，用于对每个信息各自对应的信息标签的标签向量进行加权处理，得到每个信息各自对应的候选信息向量；

主成分向量确定模块，用于基于每个信息各自对应的候选信息向量确定主成分向量；

目标信息向量确定模块，用于基于每个信息各自对应的候选信息向量与所述主成分向量，确定每个信息各自对应的目标信息向量。

另一方面，本发明提出了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的信息处理方法。

另一方面，本发明提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的信息处理方法。

本发明实施例提出一种信息处理方法、装置、设备及存储介质，首先将用户历史操作信息按照操作时间进行排序，得到信息操作序列，接着基于所述信息操作序列中每个信息各自对应的信息标签，对所述信息操作序列进行转换，得到信息标签序列，并对所述信息标签序列进行向量分析，得到所述信息标签序列中每个信息标签各自对应的标签向量，然后对每个信息各自对应的信息标签的标签向量进行加权处理，得到每个信息各自对应的候选信息向量，最后基于每个信息各自对应的候选信息向量确定主成分向量，并基于每个信息各自对应的候选信息向量与所述主成分向量，确定每个信息各自对应的目标信息向量。可见，本发明实施例将用户操作行为与信息内容进行融合得到每个信息标签各自对应的标签向量，并通过加权和主成分去除的方式，得到每个信息各自对应的目标信息向量，用户操作行为与信息内容融合的方式使得信息标签之间具有语义相关性，目标信息向量确定的准确率较高，高准确率的目标信息向量的确定能够提高后续向用户推荐相关信息的准确率和可信度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种信息处理方法的实施环境示意图。

图2是本发明实施例提供的一种信息处理方法的流程示意图。

图3是本发明实施例提供的另一种信息处理方法的流程示意图。

图4是本发明实施例提供的另一种信息处理方法的流程示意图。

图5是本发明实施例提供的区块链系统的一个可选的结构示意图。

图6是本发明实施例提供的区块结构一个可选的示意图。

图7是本发明实施例提供的信息处理方法应用于终端某视频应用程序后，根据用户在历史时间段内点击行为+信息内容，向用户推荐进行相关资讯信息的效果示意图。

图8是本发明实施例提供的不同的信息处理方法应用于终端某视频应用程序中的相关推荐阅读时长效果(人均阅读时长)示意图。

图9是本发明实施例提供的一种信息处理装置的结构示意图。

图10是本发明实施例提供的另一种信息处理装置的结构示意图。

图11是本发明实施例提供的服务器的硬件结构框图。

具体实施方式

随着人工智能(Artificial Intelligence,AI)的研究和进步，AI在多个领域展开研究和应用。AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

具体地，本发明实施例提供的方案涉及自然语言处理(Nature Languageprocessing，NLP)和人工智能的机器学习(Machine Learning，ML)技术。NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融合语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

具体地，ML是门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，其专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ML通常包括深度学习、增强学习、迁移学习、归纳学习、示教学习等技术。

具体地，本发明实施例中的“对信息标签序列进行向量分析，得到信息标签序列中每个信息标签各自对应的标签向量”涉及NLP中的文本处理和语义理解技术。

具体地，本发明实施例提供的基于标签获取模型对信息操作序列中每个信息进行标签分析，得到每个信息各自对应的信息标签的过程、基于词向量模型对信息标签序列进行向量分析，得到信息标签序列中每个信息标签各自对应的标签向量的过程，涉及ML中的深度学习技术等。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是本发明实施例提供的一种信息处理方法的实施环境示意图。如图1所示，该实施环境至少可以包括终端01和服务器02，终端01和服务器02可以通过有线或无线通信方式进行直接或间接地连接，本发明在此不做限制。比如，终端01通过有线或无线通信方式向服务器02上传用户历史操作信息等，服务器02通过有线或无线通信方式向终端01推荐关联信息等。

具体地，终端01可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

具体地，服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

需要说明的是，图1仅仅是一种示例。

图2是本发明实施例提供的一种信息处理方法的流程示意图。本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，该方法可以包括：

S101.将用户历史操作信息按照操作时间进行排序，得到信息操作序列。

本发明实施例中的信息可以为资讯信息，其包括但不限于新闻(包括但不限于游戏、视频、娱乐、社会、科技、财经等)、动态信息、技术信息、政策、评论和学术论文等。

相应的，用户历史操作信息指的是：用户在历史时间段内操作行为对应的信息。该操作行为包括但不限于点击行为(点击行为或双击行为)、拖动行为、缩放行为等。则用户在历史时间段内操作的信息包括但不限于：用户在历史时间段内点击的信息、用户在历史时间内拖动的信息、用户在历史事件内缩放的信息。

相应地，该操作时间包括但不限于点击信息的时间、拖动信息的时间、缩放信息的时间等。

以操作行为为点击行为、信息为资讯信息为例对S101进行以下说明：

图3所示本发明实施例提供的另一种信息处理方法的流程示意图。如图3所示，在操作行为为点击行为时，S101相当于是收集用户在历史时间段内点击的信息(即历史操作信息)，将用户点击的信息按照点击时间进行排序，得到信息操作序列，具体可以为得到用户点击信息的点击行为序列。

假设用户包括用户1(user1)、用户2(user2)和用户3(user3)，信息包括资讯信息1(news1)、资讯信息2(news2)、资讯信息3(news3)等，user1先后点击了news1和news2，user2先后点击了news2和news3，user3先后点击了news1和news3，则user1、user2和user3的信息操作序列可以为：

user1news1news2

user2news2news3

user3news1news3。

S103.基于信息操作序列中每个信息各自对应的信息标签，对信息操作序列进行转换，得到信息标签序列。

具体地，在S103之前，该方法还可以包括：

获取每个信息各自对应的信息标签。

在实际应用中，信息，比如资讯信息，都有相应的信息标签(tag)，tag是一种比分类更具体、更准确，是可以概括资讯信息主要内容的关键词。

本发明实施例在S103之前，需要获取每个信息各自对应的tag。在一个可行的实施例中，可以通过机器学习的方式获取tag，具体可以为：基于标签获取模型对信息操作序列中每个信息进行标签分析，得到每个信息各自对应的信息标签，标签获取模型基于样本信息及其对应的信息标签标注结果进行学习训练得到。

在实际应用中，除了上述机器学习的方式之外，还可以通过人工标注和筛选的方式获取每个信息各自对应的信息标签。

在得到每个信息各自对应的信息标签之后，可以按照S103确定信息标签序列，具体地，如图4所示，S103可以包括：

S10301.使用每个信息各自对应的信息标签，替换信息操作序列中相应的信息。

S10303.将替换后的信息操作序列作为信息标签序列。

以操作行为为点击行为、信息为资讯信息为例对S103进行以下说明：

继续如图3所示，假设news1、news2和news3对应的信息标签分别为：

news1tag1tag2tag3

news2tag2tag3tag4

news3tag4tag3tag5，

则可以按照S10301，对S101中的信息操作序列进行变换，即用tag1tag2tag3替换信息操作序列中相应的信息(即news1)，用tag2tag3tag4替换信息操作序列中相应的信息(即news2)，用tag4tag3tag5替换信息操作序列中相应的信息(即news3)，从而得到如下信息标签序列：

user1tag1tag2tag3tag2tag3tag4

user2tag2tag3tag4tag4tag3tag5

user3tag1tag2tag3tag4tag3tag5。

本发明实施例中，通过用户操作行为+信息内容(即tag)的方式获取信息标签序列，不仅考虑用户对资讯信息的行为，同时还考虑资讯信息的多个tag，使得信息标签之间具有语义相关性，并能够扩展到用户没有点击或曝光的资讯信息上，从而使得获取的信息标签序列更加符合用户需求，进而提高后续目标信息向量确定和关联信息推荐的准确性。

S105.对信息标签序列进行向量分析，得到信息标签序列中每个信息标签各自对应的标签向量。

本发明实施例中，在得到信息标签序列之后，可以对该信息标签序列中的信息标签进行向量分析，得到每个tag各自对应的标签向量(tag embedding)。

在实际应用中，向量分析包括但不限于word2vec、独热表示(one-hotrepresentation)、神经网络语言模型、Harris提出的分布假说(DistributionalHypothesis)、Hinton提出了词的分布式表示(Neural Network Language Model，NNLM)等。

以通过word2vec对信息标签序列进行向量分析为例，则如图3和如图4所示，S105可以包括：

基于词向量模型对信息标签序列进行向量分析，得到信息标签序列中每个信息标签各自对应的标签向量。

其中，Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

Word2vec包括连续文字袋模型(Continuous Bag-of-Words Model，CBOW)和连续跳格模型(Continuous Skip-gram Model，Skip-gram)这两种训练模式。CBOW可以通过上下文来预测当前值，相当于一句话中扣掉一个词，预测该词是什么。Skip-gram可以用当前词来预测上下文，相当于是给出一个词，预测该词的前面和后面可能出现什么词。

本发明实施例通过word2vec对信息标签序列进行训练，得到信息标签序列中每个信息标签各自对应的标签向量。其中，word2vec的训练参数可以为如表1所示。

表1 word2vec的训练参数

以操作行为为点击行为、信息为资讯信息为例，则通过S105得到的每个信息标签各自对应的标签向量的格式可以如下：

tag1[0.20,0.30,0.15,-0.03…,0.11]

tag2[0.12,0.21,0.08,0.13…,0.14]

tag3[0.04,0.14,0.18,0.41…,0.84]

tag4…

tag5…

例如，一篇信息的tag为:王者荣耀和安琪拉，训练后得到的每个标签各自对应的标签向量可以如下：

王者荣耀：[-0.88,1.13,0.29,0.98,…,0.48]

安琪拉：[1.83,1.13,0.29,0.98,…,0.40]

一方面，由于Word2Vec的思想是利用一个词和它在文本中的上下文的词，其会充分考虑上下文，因此tag embedding的确定准确率和可信度较高；另一方面，由于word2vec是无监督或弱监督学习，不需要人工标注，因此处理速度较快；另一方面，由于Word2Vec所使用的维度较少，进一步提高处理速度；另一方面，Word2Vec的通用性较强，可以用在各种NLP任务中。

S107.对每个信息各自对应的信息标签的标签向量进行加权处理，得到每个信息各自对应的候选信息向量。

具体地，如图3和4所示，S107可以包括：

计算每个信息各自对应的信息标签的标签向量的平均值，得到每个信息各自对应的候选信息向量。

在实际应用中，可以通过平均向量法计算每个信息各自对应的候选信息向量。

假设某信息包含两个tag：“王者荣耀”和“安琪拉”

王者荣耀的标签向量：[-0.88,1.13,0.29,0.98,…,0.48]

安琪拉的标签向量：[1.83,1.13,0.39,0.68,…,0.40]

对王者荣耀的标签向量和安琪拉的标签向量进行平均，得到该信息的候选信息向量：[0.475,1.13,0.34,0.83,0.44]。

或，

计算每个信息各自对应的信息标签的逆文档频率。

基于每个信息各自对应的信息标签的逆文档频率和标签向量，确定每个信息各自对应的候选信息向量。

在实际应用中，还可以采用词频-逆文档频率(Term Trequency–InverseDocument Frequency，TF-IDF)计算每个信息各自对应的候选信息向量。其中，TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，TF(termfrequency)指的是tag的频率，如tag在文章出现的次数，通常为1。IDF(inverse document frequency)指的是某个tag的逆文档频率，IDF的计算公式可以如下：

IDFtag＝log((1+N)/(1+Ntag))，

其中，N表示所有信息的数目，Ntag表示出现过这个tag的信息数目。如果一个tag出现次数越小，表明它的重要性越高。

假设某信息包含两个tag：“王者荣耀”和“安琪拉”，安琪拉出现的次数更少，安琪拉得到的权重更高。如计算得到IDF权重为：“王者荣耀”：0.1，“安琪拉”：0.4，

则每个信息各自对应的候选信息向量(news_vector)的计算公式可以如下：

news_vector＝∑IDF*tag_vector，

其中，IDF表示信息标签的逆文档频率，tag_vector表示信息标签的标签向量。

通过上述公式计算得到的包含两个tag“王者荣耀”和“安琪拉”的信息的候选信息向量为：[0.82,0.565,0.305,…,0.408]。

或，

基于预设参数、每个信息各自对应的信息标签在相应的信息中出现的概率以及每个信息各自对应的信息标签的标签向量，确定每个信息各自对应的候选信息向量。

在实际应用中，还可以采用平滑倒词频加权方法(Smooth Inverse Frequencyweighting(W)，SIF)计算news_vector，计算公式可以如下：

其中，α表示超参数，经验参数为10e^-3，p(tag)表示tag在文章中出现概率，tag_vector表示信息标签的标签向量。可见与TF-DF方法类似，tag出现的越多，权重越低。

S109.基于每个信息各自对应的候选信息向量确定主成分向量。

具体地，如图3和图4所示，S109可以包括：

S10901.从信息操作序列中抽取预设数量个信息，预设数量小于信息操作序列中所包含的信息的数量。

S10903.基于奇异值分解方法对预设数量个信息对应的候选信息向量进行主成分分析，得到预设数量个信息对应的主成分向量。

在实际应用中，由于某个信息中可能包括多个tag(比如多个常见的tag和多个偏门tag，这些偏门的标签有可能更能反映该信息的特点)，某个信息中的常见的tag可能与其他信息的常见的tag之间具有一定的重叠性和相关性，如果将所有信息中的所有tag均用于确定后续的目标特征向量，则重叠性和相关性的tag的存在，会明显降低目标特征向量确定的准确性和可靠性。基于此，为了获取与信息更加吻合、更能够反映该信息特点的目标信息向量，可以采样预设数量个信息，并通过奇异值分解方法(Singular ValueDecomposition，SVD)抽取该预设数量个信息对应的候选信息向量中的主成分向量(即抽取该部分信息中具有一定重叠性和相关性的向量)。而仅抽取预设数量个信息确定主成分向量，并不是以所有信息为基础确定主成分，是为了避免对所有信息进行主成分确定引起的计算量较大，系统负担较重的缺陷。

其中，SVD是线性代数中一种重要的矩阵分解，在信号处理、统计学等领域有重要应用。SVD在某些方面与对称矩阵或厄米特矩阵(Hermite矩阵)基于特征向量的对角化类似，SVD是谱分析理论在任意矩阵上的推广。

在一个可行的实施例中，通过SVD对预设数量个信息对应的候选信息向量进行主成分分析，得到预设数量个信息对应的主成分向量的过程可以如下：

[S,V,D]＝svd(x)

Px＝S(1,1)V(:,1)D(1,:)

其中，svd(·)为求矩阵的奇异值分解函数，S表示奇异值分解所得的主值矩阵，V表示奇异值分解所得的列主成分矩阵，D表示奇异值分解所得的行主成分矩阵。S(1,1)表示主值矩阵S中第一行第一列的数值，即第一主成分的主值，V(:,1)表示列主成分矩阵V的第一列，即第一主成分的列向量，D(1,:)表示行主成分矩阵D的第一行，即第一主成分的行向量，Px表示提取出的预设数量个信息对应的候选信息向量的第一主成分，它是由第一主成分的主值S(1,1)乘以第一主成分的列向量V(:,1)再乘以第一主成分的行向量D(1,:)所得。

其中，第一主成分向量是方差最大的，如果第一主成分不足以代表该预设数量个信息对应的候选信息向量时，还可以构造出第二、三、四，……，第P个主成分，这些主成分并不相关，且相应的方差依次递减。

本发明实施例中，通过SVD进行主成分抽取，能够将高维的数据空间映射到低维的数据空间，实现数据约减和去除噪声的功能。

在另一个可行的实施例中，S109还可以通过主成分分析方法(PrincipalComponent Analysis，PCA)实现，PCA是一种数学变换的方法，它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列，用以解释资料的综合性指标。通过PCA从预设数量个信息对应的候选信息向量中的主成分向量，抽取相应的主成分的过程可以如下：

使用x表示一个列向量，其是样本x(即预设数量个信息对应的候选信息向量)在d维空间中的点。而由n个样本构成的数据集可以表示为一个d×n的矩阵XPCA，PCA是以特征值分析为基础的，即Σv＝λv，v是特征向量，λ是特征值。PCA的目标是最大化数据间累积方差。PCA的一般过程是：

将矩阵X中的元素减去所在列的均值；

计算矩阵X的协方差矩阵Σ；

计算协方差矩阵Σ的特征向量和特征值(特征向量用列向量v_d×1表示)；

将特征值从大到小排序；

保留最上面的k个特征向量(该k个特征向量保证了数据映射到特征值最大的特征向量的方向时，数据间的累积方差最大，数据映射到第二大的特征向量时，数据间的累积方差次之，且特征向量之间保持正交)构成的特征向量矩阵V_d×k；

将数据转换到上述k个特征向量构建的新空间中(V^TX＝A*_k×n+means,A是一个k×n的矩阵)。

S1011.基于每个信息各自对应的候选信息向量与主成分向量，确定每个信息各自对应的目标信息向量。

具体地，如图3和图4所示，S1011可以包括：将每个信息各自对应的候选信息向量与主成分向量的差值，作为每个信息各自对应的目标信息向量。

本发明实施例中，在得到主成分向量之后，可以每个信息各自对应的候选信息向量减去该主成分向量，从而得到每个信息各自对应的目标信息向量，计算公式可以如下：

news_vector₂＝news_vector₁-uu^T*news_vector，

其中，news_vector₁表示每个信息各自对应的候选信息向量，news_vector₂表示每个信息各自对应的目标信息向量，uu^T*news_vector表示主成分向量。

本发明实施例中，并不是将每个信息向量各自对应的候选信息向量，作为后续召回的基础，而是在候选信息向量的基础上减去主成分向量(即多个信息标签之间具有相互重叠性和相关性的内容)，这样得到的目标信息向量更能够反应信息的特点，从而提高后续向用户推荐相关信息的准确率和可信度。

本发明实施例中，如图4所示，在S1011之后，该方法还可以包括：

S1013.通过近似搜索方法召回与每个信息各自对应的目标信息向量相关的关联向量，关联向量与相应的目标信息向量之间的相似度大于预设相似阈值。

S1015.向用户推荐关联向量对应的信息。

本发明实施例中，在得到每个信息各自对应的目标信息向量之后，可以通过近似搜索方法召回与每个信息各自对应的目标信息向量相关的关联向量。

本发明实施例中的近似搜索方法包括但不限于annoy(Approximate NearestNeighbors Oh Yeah)或Facebook-faiss等。通过该近似搜索方法进行近似搜索，可以快速召回与每个信息各自对应的目标信息向量相关的N个向关联向量，即快速的进行topN召回。其中，Annoy(Approximate Nearest Neighbors Oh Yeah)是高维空间求近似最近邻的一个开源库。Facebook-faiss是脸书人工智能研究院开发的一个用于有效的相似性搜索和稠密矢量聚类的开源库。

具体地，Annoy的工作原理可以如下：

1)建立索引过程

Annoy的目标是建立一个数据结构，使得查询一个点的最近邻点的时间复杂度是次线性。Annoy通过建立一个二叉树来使得每个点查找时间复杂度是O(log n)。随机选择两个点，以这两个节点为初始中心节点，执行聚类数为2的聚类过程，最终产生收敛后两个聚类中心点。这两个聚类中心点之间连一条线段，建立一条垂直于这条线段，通过线段中心点的垂线。这条垂线把数据空间分成两部分。在多维空间的话，这条垂线可以看成等距垂直超平面。

在划分的子空间内进行不停的递归迭代继续划分，知道每个子空间最多只剩下N个数据节点。

通过多次递归迭代划分的话，最终原始数据会形成一个二叉树结构。二叉树底层是叶子节点记录原始数据节点，其他中间节点记录的是分割超平面的信息。Annoy建立这样的二叉树结构是希望满足这样的一个假设:相似的数据节点应该在二叉树上位置更接近，一个分割超平面不应该把相似的数据节点分割二叉树的不同分支上。

2)查询过程

查询过程就是不断看所要查询的节点在分割超平面的哪一边。从二叉树索引结构来看，就是从根节点不停的往叶子节点遍历的过程。通过对二叉树每个中间节点(分割超平面相关信息)和查询数据节点进行相关计算来确定二叉树遍历过程是往这个中间节点左孩子节点走还是右孩子节点走。通过以上方式完成查询过程。

3)返回最终近邻节点

所有树返回近邻点都插入到优先队列中，求并集去重,然后计算和查询点距离，最终根据距离值从近距离到远距离排序，返回Top N近邻节点集合。

假设S1013中的近似搜索方法为Annoy，则S1013中每个信息各自对应的目标信息向量相当于上述过程中的“节点”，则可以从二叉树的根节点不停的往叶子节点遍历的过程，从而确定出与每个信息各自对应的目标信息向量相关的关联向量。

本发明实施例中通过Annoy召回与每个信息各自对应的目标信息向量相关的关联向量，向量维度较小，内存占用小，能够进行快速召回。

具体地，Facebook-faiss是针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，可以支持十亿级别向量的搜索，它包含多种搜索任意大小向量集的算法，以及用于算法评估和参数调整的支持代码。

Facebook-faiss是围绕一个索引类型构建的，它存储了一组向量，并提供了一个函数，用欧几里德距离和/或点积向量比较来搜索它们。与查询向量相似的向量是与查询向量具有最低欧几里德距离的向量或与查询向量有最高的点积的向量。它也支持余弦相似，因为这是标准化向量上的点积。

假设S1013中的近似搜索方法为Facebook-faiss，则通过Facebook-faiss召回与每个信息各自对应的目标信息向量相关的关联向量，是与每个信息各自对应的目标信息向量具有最低欧几里德距离的向量或与每个信息各自对应的目标信息向量有最高的点积的向量。

本发明实施例中通过Facebook-faiss召回与每个信息各自对应的目标信息向量相关的关联向量，一方面，Faiss提供了多种相似性搜索方法，可以针对不同的使用方法，进行跨度较大的功能取舍；另一方面，Faiss可以优化内存使用和速度；另一方面，Faiss为最相关的索引方法提供了先进的GPU实现方案。

本发明实施例中，在召回与每个信息各自对应的目标信息向量相关的关联向量之后，可以向用户推荐关联向量对应的信息。

在一个可行的实施例中，S101中的信息操作序列、S102中的信息标签、S103中的信息标签序列、S105中的标签向量、S107中的候选信息向量、S109中的主成分向量、S1011中的目标信息向量、S1013中的关联向量和S1015中的关联向量对应的信息中的至少在一个可以存储于区块链系统中。参见图5，图5所示是本发明实施例提供的区块链系统的一个可选的结构示意图，多个节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在区块链系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图5示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图6，图6为本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块。

本发明实施例提供的一种信息处理方法，一方面，将用户操作行为与信息内容进行融合得到每个信息标签各自对应的标签向量，并通过加权和主成分去除的方式，得到每个信息各自对应的目标信息向量，目标信息向量确定的准确率较高，高准确率的目标信息向量的确定进而提高了向用户推荐相关信息的准确率；另一方面，通过用户操作行为+信息内容(即tag)的方式获取信息标签序列，不仅考虑用户对资讯信息的行为，同时还考虑资讯信息的多个tag，使得信息标签之间具有语义相关性，能够扩展到用户没有点击或曝光的资讯信息上，因此对冷门信息也有相关推荐结果，比如，使用300w信息训练word2vec，在实际使用过程中，可覆盖1亿以上的信息；另一方面，为了获取与信息更加吻合、更能够反映该信息特点的目标信息向量，可以采样预设数量个信息，并通过SVD抽取该预设数量个信息对应的候选信息向量中的主成分向量。此外仅抽取预设数量个信息确定主成分向量，并不是以所有信息为基础确定主成分，是为了避免对所有信息进行主成分确定引起的计算量较大，系统负担较重的缺陷；另一方面，使用加权和主成分去除的方式，使得更细致主题相似的文章聚集效应更加明显，特别是TF-IDF和SIF提升效果明显，阅读时长提升效果10％左右；另一方面，通过相似搜索方法召回相关联的信息，实验证明1个亿的资讯内容在进行相关性推荐时，平均返回时间控制在20ms内，相比暴力搜索效果提升明显。

图7所示为本发明实施例提供的信息处理方法应用于终端某视频应用程序后，根据用户在历史时间段内点击行为+信息内容，向用户推荐进行相关资讯信息的效果示意图。从图7中，可以看出，本发明实施例可以向用户推荐与其“在历史时间段内点击行为+信息内容”相关联的信息。

图8所示为本发明实施例提供的不同的信息处理方法应用于终端某视频应用程序中的相关推荐阅读时长效果(人均阅读时长)示意图：

对于用户操作行为+信息内容+平均向量法+主成分移除方法：421秒/人

对于用户操作行为+信息内容+TF-IDF+主成分移除方法：459秒/人，相比平均法提升9％。

对于用户操作行为+信息内容+SIF+主成分移除方法：464秒/人，相比平均法提升11％。

可见，用户操作行为+信息内容+SIF+主成分移除方法的人均阅读时长最长，效果最好。

如图9所示，本发明实施例提供了一种信息处理装置，该装置可以包括：

信息操作序列获取模块201，可以用于将用户历史操作信息按照操作时间进行排序，得到信息操作序列。

信息标签序列获取模块203，可以用于基于信息操作序列中每个信息各自对应的信息标签，对信息操作序列进行转换，得到信息标签序列。

具体地，信息标签序列获取模块203可以进一步包括：

替换单元，可以用于使用每个信息各自对应的信息标签，替换信息操作序列中相应的信息。

信息标签序列确定单元，可以用于将替换后的信息操作序列作为信息标签序列。

标签向量获取模块205，可以用于对信息标签序列进行向量分析，得到信息标签序列中每个信息标签各自对应的标签向量。

具体地，标签向量获取模块205可以进一步用于：

候选信息向量确定模块207，可以用于对每个信息各自对应的信息标签的标签向量进行加权处理，得到每个信息各自对应的候选信息向量。

具体地，候选信息向量确定模块207可以进一步用于：

计算每个信息各自对应的信息标签的标签向量的平均值，得到每个信息各自对应的候选信息向量；或，

计算每个信息各自对应的信息标签的逆文档频率；

基于每个信息各自对应的信息标签的逆文档频率和标签向量，确定每个信息各自对应的候选信息向量；或，

主成分向量确定模块209，可以用于基于每个信息各自对应的候选信息向量确定主成分向量。

具体地，主成分向量确定模块209可以进一步包括：

抽取单元，可以用于从信息操作序列中抽取预设数量个信息，预设数量小于信息操作序列中所包含的信息的数量。

主成分分析单元，可以用于基于奇异值分解方法对预设数量个信息对应的候选信息向量进行主成分分析，得到预设数量个信息对应的主成分向量。

目标信息向量确定模块2011，可以用于基于每个信息各自对应的候选信息向量与主成分向量，确定每个信息各自对应的目标信息向量。

具体地，目标信息向量确定模块2011可以进一步用于：将每个信息各自对应的候选信息向量与主成分向量的差值，作为每个信息各自对应的目标信息向量。

本发明实施例中，该装置还可以包括：信息标签获取模块，可以用于获取每个信息各自对应的信息标签。

具体地，信息标签获取模块可以进一步用于：基于标签获取模型对信息操作序列中每个信息进行标签分析，得到每个信息各自对应的信息标签，标签获取模型基于样本信息及其对应的信息标签标注结果进行学习训练得到。

本发明实施例中，如图10所示，该装置还可以包括：

召回模块2013，可以用于通过近似搜索方法召回与每个信息各自对应的目标信息向量相关的关联向量，关联向量与相应的目标信息向量之间的相似度大于预设相似阈值。

推荐模块2015，可以用于向用户推荐关联向量对应的信息。

需要说明的是，本发明实施例提供的装置实施例与上述方法实施例基于相同的发明构思。

本发明实施例还提供了一种数据异常分析的电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的信息处理方法。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种信息处理方法相关的至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的信息处理方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的信息处理方法。

本发明实施例所提供的信息处理方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图11是本发明实施例提供的一种信息处理方法的服务器的硬件结构框图。如图11所示，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)310(处理器310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器330，一个或一个以上存储应用程序323或数据322的存储介质320(例如一个或一个以上海量存储设备)。其中，存储器330和存储介质320可以是短暂存储或持久存储。存储在存储介质320的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器310可以设置为与存储介质320通信，在服务器300上执行存储介质320中的一系列指令操作。服务器300还可以包括一个或一个以上电源360，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口340，和/或，一个或一个以上操作系统321，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

输入输出接口340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器300的通信供应商提供的无线网络。在一个实例中，输入输出接口340包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口340可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器300还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

基于每个信息各自对应的候选信息向量，确定所述信息标签序列对应的主成分向量；

将每个信息各自对应的候选信息向量与所述主成分向量的差值，作为每个信息各自对应的目标信息向量。

2.根据权利要求1所述的方法，其特征在于，

在所述基于所述信息操作序列中每个信息各自对应的信息标签，对所述信息操作序列进行转换，得到信息标签序列之前，所述方法还包括：

获取每个信息各自对应的信息标签；

相应地，所述基于所述信息操作序列中每个信息各自对应的信息标签，对所述信息操作序列进行转换，得到信息标签序列，包括：

使用每个信息各自对应的信息标签，替换所述信息操作序列中相应的信息；

将替换后的信息操作序列作为所述信息标签序列。

3.根据权利要求2所述的方法，其特征在于，

所述获取每个信息各自对应的信息标签，包括：

基于标签获取模型对所述信息操作序列中每个信息进行标签分析，得到每个信息各自对应的信息标签，所述标签获取模型基于样本信息及其对应的信息标签标注结果进行学习训练得到；

相应地，所述对所述信息标签序列进行向量分析，得到所述信息标签序列中每个信息标签各自对应的标签向量，包括：

基于词向量模型对所述信息标签序列进行向量分析，得到所述信息标签序列中每个信息标签各自对应的标签向量。

4.根据权利要求1所述的方法，其特征在于，所述对每个信息各自对应的信息标签的标签向量进行加权处理，得到每个信息各自对应的候选信息向量，包括：

计算每个信息各自对应的信息标签的逆文档频率；

5.根据权利要求1所述的方法，其特征在于，所述基于每个信息各自对应的候选信息向量，确定所述信息标签序列对应的主成分向量，包括：

从所述信息操作序列中抽取预设数量个信息，所述预设数量小于所述信息操作序列中所包含的信息的数量；

基于奇异值分解方法对所述预设数量个信息对应的候选信息向量进行主成分分析，得到所述预设数量个信息对应的主成分向量。

6.根据权利要求1所述的方法，其特征在于，在所述将每个信息各自对应的候选信息向量与所述主成分向量的差值，作为每个信息各自对应的目标信息向量之后，所述方法还包括：

通过近似搜索方法召回与每个信息各自对应的目标信息向量相关的关联向量，所述关联向量与相应的目标信息向量之间的相似度大于预设相似阈值；

向用户推荐所述关联向量对应的信息。

7.一种信息处理装置，其特征在于，所述装置包括：

主成分向量确定模块，用于基于每个信息各自对应的候选信息向量，确定所述信息标签序列对应的主成分向量；

目标信息向量确定模块，用于将每个信息各自对应的候选信息向量与所述主成分向量的差值，作为每个信息各自对应的目标信息向量。

8.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至6任一所述的信息处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至6任一所述的信息处理方法。