CN112800234B - 信息处理方法、装置、电子设备和存储介质 - Google Patents

信息处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112800234B
CN112800234B CN202110403695.8A CN202110403695A CN112800234B CN 112800234 B CN112800234 B CN 112800234B CN 202110403695 A CN202110403695 A CN 202110403695A CN 112800234 B CN112800234 B CN 112800234B
Authority
CN
China
Prior art keywords
information
characteristic information
content
label
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110403695.8A
Other languages
English (en)
Other versions
CN112800234A (zh
Inventor
李卓聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110403695.8A priority Critical patent/CN112800234B/zh
Publication of CN112800234A publication Critical patent/CN112800234A/zh
Application granted granted Critical
Publication of CN112800234B publication Critical patent/CN112800234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种信息处理方法、装置、电子设备和存储介质;本申请实施例可以获取未发布内容的标签信息、文本描述信息以及类别信息;分别对标签信息进行词特征提取、对文本描述信息进行句特征提取、以及对类别信息进行类别特征提取,得到该未发布内容的标签特征信息、句特征信息和类别特征信息;计算标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到交叉特征信息;对标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到深度特征信息;基于交叉特征信息和深度特征信息对未发布内容进行预测处理,得到未发布内容的用户行为数据。该方案可以有效地提高信息处理的准确性。

Description

信息处理方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种信息处理方法、装置、电子设备和存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)的发展,将神经网络应用于自然语言处理系统(Natural Language Processing,NLP) 已经成为互联网应用中的一个重要的研究方向。在基于深度神经网络的自然语言处理方法中,资讯推荐问题是非常基础且重要的问题。在资讯推荐中,由于资讯每天生产的数目过多,对于没有曝光过的资讯,每天只能随机抽取一部分资讯进行曝光。因此,存在较多资讯没有曝光行为,从而导致获取不到资讯的点击率和阅读时长等用户行为统计数据,无法对受用户欢迎未曝光的资讯实现有效曝光。
发明内容
本申请实施例提供一种信息处理方法、装置、电子设备和存储介质,可以有效地提高信息处理的准确性。
本申请实施例提供一种信息处理方法,包括:
获取未发布内容的标签信息、文本描述信息以及类别信息;
分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;
计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;
对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;
基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。
相应的,本申请实施例还提供一种信息处理装置,包括:
获取单元,用于获取未发布内容的标签信息、文本描述信息以及类别信息;
提取单元,用于分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;
计算单元,用于计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;
转换单元,用于对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;
预测单元,用于基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。
可选的,在一些实施例中,所述提取单元可以包括第一提取子单元、第二提取子单元和第三提取子单元,如下:
所述第一提取子单元,用于利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述未发布内容的标签特征信息;
所述第二提取子单元,用于利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未发布内容的句特征信息;
所述第三提取子单元,用于对所述类别信息进行类别特征编码,得到所述未发布内容的类别特征信息。
可选的,在一些实施例中,所述标签信息包括至少一个内容标签,所述第一提取子单元,具体可以用于利用训练后词向量模型,将所述内容标签进行向量化处理,得到至少一个标签向量;对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息。
可选的,在一些实施例中,所述第一提取子单元,具体可以用于基于独热编码算法,确定每个内容标签的独热向量;利用训练后词向量模型对所述内容标签的独热向量进行词嵌入操作,得到每个内容标签对应的标签向量。
可选的,在一些实施例中,所述第一提取子单元,具体可以用于获取每个内容标签在所述未发布内容中的出现频率;基于预设参数和每个内容标签的出现频率,确定每个内容标签的权重;基于每个标签向量的权重对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息。
可选的,在一些实施例中,所述信息处理装置还可以包括第一训练单元,如下:
所述第一训练单元,具体可以用于获取多个语料训练样本;利用词向量模型对所述语料训练样本进行预测,得到预测中心词;计算所述预测中心词和实际中心词的损失,基于所述损失对词向量模型进行收敛,得到训练后词向量模型。
可选的,在一些实施例中,所述第二提取子单元,具体可以用于在所述文本描述信息前插入句符号,将所述句符号作为所述文本描述信息中一个字,并将所述文本描述信息中每个字输入到训练后语言模型;利用训练后语言模型,对所述文本描述信息中的每个字进行上下文解析,得到每个字对应的上下文信息和上下文特征;根据所述上下文信息和所述上下文特征计算所述每个字的注意力信息;将所述句符号的注意力信息作为所述未发布内容的句特征信息。
可选的,在一些实施例中,所述信息处理装置还可以包括第二训练单元,如下:
所述第二训练单元,具体可以用于获取多个语料训练样本的样本描述信息;对所述样本描述信息中的字进行随机掩码,得到掩码字;利用语言模型对所述样本描述信息进行上下文解析,得到预测掩码字;基于所述预测掩码字和实际掩码字,对语言模型进行收敛,得到训练后语言模型。
可选的,在一些实施例中,所述第三提取子单元,具体可以用于对所述类别信息进行独热编码,得到每个类别信息的独热向量;将所述独热向量嵌入到低维向量中,得到所述未发布内容的类别特征信息。
可选的,在一些实施例中,所述计算单元,具体可以用于利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算、以及两两之间进行交叉计算,得到第一特征信息和第二特征信息,其中,所述训练后预测模型是根据已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据训练得到的;将所述第一特征信息和第二特征信息进行融合,得到所述未发布内容的交叉特征信息。
可选的,在一些实施例中,所述训练后预测模型包括因子分解模块,所述计算单元,具体可以用于确定训练后预测模型的因子分解模块中的一阶权重和二阶权重;基于所述一阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算,得到第一特征信息;基于所述二阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行两两之间交叉计算,得到第二特征信息。
可选的,在一些实施例中,所述转换单元,具体可以用于利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行拼接,得到初始特征信息;对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息。
可选的,在一些实施例中,所述训练后预测模型包括深度模块,所述转换单元,具体可以用于获取训练后预测模型的深度模块中非线性网络层对应的权重;基于非线性网络层对应的权重,对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息。
可选的,在一些实施例中,所述信息处理装置还可以包括第三训练单元,如下:
所述第三训练单元,具体可以用于获取已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据;分别对所述标签信息、文本描述信息和类别信息进行特征提取,得到所述已发布内容的标签特征信息、字特征信息和类别特征信息;基于所述标签特征信息、文本特征信息和类别特征信息两两之间的相关性、以及已发布内容的用户行为数据,对预测模型进行训练,得到训练后预测模型。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种信息处理方法中的步骤。
此外,本申请实施例还提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请实施例提供的任一种信息处理方法中的步骤。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述信息处理方面的各种可选实现方式中提供的方法。
本实施例可以获取未发布内容的标签信息、文本描述信息以及类别信息;然后,分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;接着,计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;再对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;再然后,基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。该方案可以有效地提高信息处理的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的信息处理方法的场景示意图;
图1b是本申请实施例提供的信息处理方法的第一流程图;
图1c是本申请实施例提供的特征提取示意图;
图1d是本申请实施例提供的编码器网络的结构示例图;
图1e是本申请实施例提供的解码器网络的结构示意图;
图1f是本申请实施例提供的训练后语言模型的结构示意图;
图2a是本申请实施例提供的信息处理方法的第二流程图;
图2b是本申请实施例提供的信息处理方法的第三流程图;
图3是本申请实施例提供的信息处理装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的原理是以实施在一适当的运算环境中来举例说明。在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下该的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“单元”可看做为在该运算系统上执行的软件对象。本文该的不同组件、单元、引擎及服务可看做为在该运算系统上的实施对象。而本文该的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是某些实施例还包括没有列出的步骤或单元,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种信息处理方法、装置、电子设备和存储介质。其中,该信息处理装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
本申请实施例提供的信息处理方法涉及人工智能领域中的自然语言处理方向,可以通过对已发布内容的信息进行自然语言处理,从而实现行为信息的预测。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
其中,自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
例如,如图1a所示,首先,该集成了信息处理装置的电子设备可以获取未发布内容的标签信息、文本描述信息以及类别信息;然后,分别对所述标签信息、文本描述信息和类别信息进行特征提取,比如,分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;接着,计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;再对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;再然后,基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。由于该方案通过对未发布内容的标签信息、文本描述信息以及类别信息进行特征提取,对提取出来的特征进行两两之间的相关性计算以及构建深度特征信息,对未发布内容进行用户行为预测,进而可以对未曝光过的热门资讯的挖掘,从而挖掘出较受读者欢迎的资讯,提高资讯推荐的体验。该方案有效地提高了信息处理的准确性,准确地预测点击率和阅读时长。通过该方案,预测了未被用户点击过的资讯的点击率和阅读时长,将资讯特征的覆盖率提高为100%,以便可以在召回层,对预测高点击率的资讯进行召回,增加资讯召回内容,以及在排序层,可以补全资讯的点击率和阅读时长,提高特征覆盖率。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从信息处理装置的角度进行描述,该信息处理装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算机(Personal Computer,PC)等设备。
一种信息处理方法,包括:获取未发布内容的标签信息、文本描述信息以及类别信息;然后,分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;接着,计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;再对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;再然后,基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。
如图1b所示,该信息处理方法的具体流程可以如下:
101、获取未发布内容的标签信息、文本描述信息以及类别信息。
其中,所述未发布内容可以指的是未公之于众的内容,比如,未发布的视频、图像、文章等等,如,未发布内容可以为未曝光资讯、未曝光视频、未曝光文章等等。其中,资讯可以指的是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息。
其中,标签信息可以指的是对某一类特定群体或对象的某项特征进行的抽象分类和概括的信息,标签信息可以包括至少一个内容标签。未发布内容的标签信息可以由负责该未发布内容的管理人员对该未发布内容进行的标注标签,也可以是计算机根据对未发布内容进行分析自动标注的标签,等等。比如,未发布内容为《A朗普发布对微X禁令,T讯怎么办》的标签信息为“A朗普、微X”。
其中,文本描述信息可以指的是利用文本对未发布内容进行描述的信息,可以为未发布内容的主要内容和主旨等等。比如,未发布内容为未曝光资讯时,未曝光资讯的文本描述信息可以为资讯的标题。又比如,未发布内容为未曝光视频时,未曝光视频的文本描述信息可以为视频的标题,等等。例如,资讯的标题可以为“XX手机不香了,价格跌破发行价”。
其中,类别信息可以指的是未发布内容的其他特征信息,比如,未发布内容的一级类别、二级类别等等,未发布内容为未曝光资讯时,还可以为未曝光资讯的资讯类型。比如,类别信息可以为未发布内容属于视频类、文本类、图像类等等,也可以为未发布内容属于体育类、娱乐类、新闻类、游戏类等等。
102、分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息。
例如,具体可以对所述标签信息进行词特征提取,得到所述未发布内容的标签特征信息,对所述文本描述信息进行句特征提取,得到所述未发布内容的句特征信息,对所述类别信息进行类别特征编码,得到所述未发布内容的类别特征信息。
其中,对所述标签信息进行词特征提取可以利用训练后词向量模型进行词特征提取,例如,具体可以利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述未发布内容的标签特征信息。对所述文本描述信息进行句特征提取可以利用训练后语言模型进行句特征提取,例如,具体可以利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未发布内容的句特征信息。对所述类别信息进行类别特征编码,可以进行类别编码,例如,具体可以对所述类别信息进行类别特征编码,得到所述未发布内容的类别特征信息。
其中,所述标签信息可以包括至少一个内容标签,对所述标签信息进行词特征提取可以利用训练后词向量模型分别将内容标签转化为词向量,转化得到多个词向量,然后,需要将多个词向量加权,转化为单一的向量维度,得到标签特征向量,即未发布内容的标签特征信息。例如,步骤:“所述利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述未发布内容的标签特征信息”,具体可以利用训练后词向量模型,将所述内容标签进行向量化处理,得到至少一个标签向量;对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息。
其中,对所述内容标签进行向量化处理可以通过将内容标签输入训练后词向量模型,然后,输出标签向量。其中,输入层是一个one-hot向量,隐层是一个N维稠密向量,输出层是一个V维稠密向量,W表示词典的向量化矩阵,也是输入到隐层以及隐层到输出的权重参数,因此输入层到隐层表示对上下文词进行向量化,而隐层到输出层,表示计算上下文词与词典的每个目标词进行点积计算(softmax过程)。例如,步骤“利用训练后词向量模型,将所述内容标签进行向量化处理,得到至少一个标签向量”,具体可以基于独热编码算法,确定每个内容标签的独热向量,利用训练后词向量模型对所述内容标签的独热向量进行词嵌入操作,得到每个内容标签对应的标签向量。
其中,对向量进行加权的方法可以有很多种,比如,平均加权法、词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)加权法、平滑倒词频(smooth inverse frequency,SIF)加权法等等。
比如,平均向量法,某资讯的标签包含两个词向量“A朗普”和“微X”:
A朗普:[-0.88,1.13,0.29,0.98,…,0.48]
微X:[1.83,1.13,0.39,0.68,…,0.40]
平均后得到向量可以为:[0.475,1.13,0.34,0.83,…,0.44]
比如,TF-IDF法,TF(term frequency)可以指的是词的出现的频率,如词在文章出现的次数,这里通常为1。IDF(inverse document frequency)可以指的是某个词的逆文档频率,公式可以如下:
IDF=log((1+N)/(1+N_word))
其中,N表示所有文章的数目,N_word表示出现过这个词的文章数目。可见如果一个词出现次数越小,表明它的重要性越高。如某资讯包含两个词“A朗普”和“微X”:微X出现的次数更少,微X得到的权重更高。如计算得到IDF权重:“微X”为0.1,“A朗普”为 0.4,
资讯标签的向量为:item_vector =
Figure 957592DEST_PATH_IMAGE001
加权后得到向量为:[0.82,0.565,0.305,…,0.408]
其中,word_vector为词向量。
比如,SIF加权法,具体加权公式可以如下:
item_vector =
Figure 281257DEST_PATH_IMAGE002
其中,α超参数:经验参数为10e-3,p(word)为词在文章中出现概率,词出现的越多,权重越低。可见和TF-IDF方法类似,但经实验证明利用该方法进行加权,比TF-IDF的方法更好。
例如,步骤“对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息”,具体可以获取每个内容标签在所述未发布内容中的出现频率;基于预设参数和每个内容标签的出现频率,确定每个内容标签的权重;基于每个标签向量的权重对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息。
其中,预设参数的设定方式可以有很多种,比如,可以根据实际应用的需求灵活设置,也可以预先设置好存储在电子设备中。此外,预设参数可以内置于电子设备中,或者,也可以保存在存储器中并发送给电子设备,等等。
为了提高信息处理的效率,可以先对词向量模型进行预训练,得到训练后词向量模型,再利用训练后词向量模型,对所述标签信息进行词特征提取。可选的,该词向量模型可以由多个语料训练样本训练而成。具体可以由其他设备进行训练后,提供给该信息处理装置,或者,也可以由该信息处理装置自行进行训练;即在步骤“利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述未发布内容的标签特征信息”之前,该信息处理方法还可以包括:
获取多个语料训练样本;
利用词向量模型对所述语料训练样本进行预测,得到预测中心词;
计算所述预测中心词和实际中心词的损失,基于所述损失对词向量模型进行收敛,得到训练后词向量模型。
比如,步骤“利用词向量模型对所述语料训练样本进行预测,得到预测中心词”,具体可以对所述语料训练样本中的每个词进行独热编码,得到每个词的样本编码向量;基于预设权重矩阵和每个词的样本编码向量,分别计算每个词的初始隐层向量;将每个词的初始隐层向量进行相加,得到所述语料训练样本的隐层向量;基于所述隐层向量,利用词向量模型对所述语料训练样本进行预测,得到预测中心词。
比如,(1)词向量模型的输入层可以上下文单词的onehot Vector(即样本编码向量)。假设单词向量空间dim为V,上下文单词个数为C;(2)所有onehot Vector分别乘以共享的输入权重矩阵W(V*N矩阵,N为自己设定的数,初始化权重矩阵W);(3)所得的向量(即初始隐层向量)(因为是onehot Vector,所以为向量)相加求平均作为隐层向量,size为1*N;(4)隐层向量乘以输出权重矩阵W'{N*V},得到向量{1*V},经激活函数处理得到V-dim概率分布(因为是onehot,其中的每一维都代表着一个单词),概率最大的index(指标)所指示的单词为预测出的中间词(target word)与true label(实际中心词)的onehot进行比较,误差越小越好,然后根据误差更新权重矩阵。因此,需要定义loss function(一般为交叉熵代价函数),采用梯度下降算法更新W和W'。训练完毕后,输入层的每个单词与矩阵W相乘得到的向量的就是想要得到的词向量(word embedding),这个矩阵(所有单词的word embedding)也叫做look up table(look up table就是矩阵W),也就是说,任何一个单词的onehot乘以这个矩阵都将得到自己的词向量,即将内容标签乘以这个矩阵,得到该内容标签对应的标签向量。
其中,对所述文本描述信息进行句特征提取,可以基于预先训练好的训练后语言模型生成无监督的标题向量。其中,可以以字向量为输入,然后输入到训练后语言模型中,输出为训练后语言模型的首个向量CLS,将该向量作为整个句子的句向量,以此作为未发布内容的标题向量,即未发布内容的句特征信息。即步骤“利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未发布内容的句特征信息”具体可以包括:
在所述文本描述信息前插入句符号,将所述句符号作为所述文本描述信息中一个字,并将所述文本描述信息中每个字输入到训练后语言模型;
利用训练后语言模型,对所述文本描述信息中的每个字进行上下文解析,得到每个字对应的上下文信息和上下文特征;
根据所述上下文信息和所述上下文特征计算所述每个字的注意力信息;
将所述句符号的注意力信息作为所述未发布内容的句特征信息。
其中,若文本描述信息为中文,则文本描述信息中的每个字可以指的是每一个汉字,若文本描述信息为英文,则文本描述信息中的每个字可以指的是每一个单词,等等,以此类推。
比如,具体可以对所述文本描述信息的每个字进行位置特征提取,得到所述文本描述信息的位置特征;对所述文本描述信息的每个字进行字特征提取,得到所述文本描述信息的字特征;对所述文本描述信息中的每个字进行标记,得到所述文本描述信息的标记特征;对所述文本描述信息的位置特征、字特征和标记特征进行特征融合,得到所述文本描述信息的字特征信息,如图1c所示。然后,将所述字特征信息输入到训练后语言模型,然后,采用训练后语言模型的编码器网络对字特征信息进行特征提取。训练后语言模型的编码器网络包括至少一个第一注意力模块、至少一个第一前馈神经网络和至少一个第一残差模块,如图1d所示。比如,将字特征信息分别输入至多个第一表示子空间,采用第一注意力模块在各个第一表示子空间中对每个字的字特征信息进行特征提取,以在一个第一表示子空间中,第一注意力模块对每个字的字特征信息进行提取为例来说明,第一注意力模块对每个字的字特征信息进行降维,在降维后的字特征信息中生成查询向量、键向量和值向量,在文本描述信息中确定目标字,通过文本描述信息中剩余的字对目标字计算自注意力向量,得到目标字的初始上下文信息。
其中,目标字词的自注意机制输出的上下文信息的计算可以如下:
Figure 592153DEST_PATH_IMAGE003
其中,
Figure 393887DEST_PATH_IMAGE004
为目标字的查询向量,
Figure 473838DEST_PATH_IMAGE005
为目标字的键向量,
Figure 827459DEST_PATH_IMAGE006
为目标字的值向量,
Figure 501017DEST_PATH_IMAGE007
为目标字的键向量的维数。
通过计算公式,可以看出目标字的注意力向量即初始上下文信息可以通过该目标字的三个向量进行计算得到,比如,可以通过剩余字的键向量与目标字的查询向量进行点积,得到目标字的自注意向量集,将文本描述信息中每个字的自注意力向量集中的值再次进行降维,降维的方式可以为除以目标字的键向量的平方根来实现。对目标字的自注意向量集中的自注意向量与目标字对应的值向量相乘,将相乘后的结果进行加权求和,得到文本描述信息中选定的目标字的自注意力输出,得到目标字的初始上下文信息,重复通过上述步骤,完成对文本描述信息中剩余字的自注意力输出,最后得到文本描述信息中的每个字在不同第一表示子空间中的初始上下文信息。
在一实施例中,对各个第一表示子空间下的文本描述信息中每个字的初始上下文信息进行加权,比如,对每个字在不同的第一表示子空间下的初始上下文信息进行拼接,对拼接后的每个字的初始上下文信息进行加权,就得到融合所有第一表示子空间的每个字的融合后初始上下文信息。接着,将得到每个字的融合后初始上下文信息通过第一前馈神经网络输入到第一残差模块进行特征提取。比如,通过第一前馈神经将每个字的融合后初始上下文信息输入到第一残差模块中进行求和与归一化,得到每个字的上下文信息。
在此需要说明的是,训练后语言模型可以包括编码器网络,编码器网络可以包括第一注意力模块、第一前馈神经网络和第一残差模块。在对文本描述信息中每个字的字特征信息进行解析得到每个字的上下文特征信息的过程中,可以通过多个编码器网络串联来得到。比如,第一编码器网络将文本描述信息中每个字的字特征信息进行解析,得到每个字的第一层上下文信息,第二编码器网络将文本描述信息中每个字的第一层上下文信息重复第一编码器网络的解析或编码步骤,得到第二层上下文信息,依次类推,通过多层编码器网络的解析得到文本描述信息中每个字最终的上下文信息。其中,编码器网络的个数需要根据实际应用需求来进行设定。
在接收到最后一层编码器网络输出的上下文信息后,对文本描述信息中每个字的上下文信息进行特征提取,得到文本描述信息中每个字的初始上下文特征。比如,可以采用训练后语言模型的解码器网络对文本描述信息中每个字的上下文信息进行特征提取。训练后语言模型的解码器网络包括至少一个注意力模块、至少一个第二前馈神经网络和至少一个第二残差模块。比如,具体可以如下:
将文本描述信息中每个字的上下文信息分别输入至多个第二表示子空间,通过第二注意力模块在各个第二表示子空间中对每个字的上下文信息进行特征提取,以在一个第二表示子空间中第二注意力模块对每个字的上下文信息进行特征提取为例来说明,在每个字的上下文信息中提取键向量和值向量,解码器网络生成每个字在第二表示子空间下的中间向量,将中间向量作为查询向量。在文本描述信息中确定目标字,通过文本描述信息中剩余字对目标字计算自注意力进行解码。比如,可以通过剩余字的键向量与目标字的查询向量进行点积,得到目标字的自注意向量集,将文本描述信息中每个字的自注意力向量集中的值再次进行降维,降维的方式可以为除以目标字的键向量的平方根来实现。对目标字的自注意向量集中的自注意向量与目标字对应的值向量相乘,将相乘后的结果进行加权求和,得到文本描述信息中选定的目标字的自注意力输出,得到目标字的初始上下文信息,重复通过上述步骤,完成对文本描述信息中剩余字的自注意力输出,最后得到文本描述信息中每个字在各个第二表示子空间中的初始上下文特征。然后,对各个第二表示子空间下文本描述信息中每个字的初始上下文特征进行加权,比如,对文本描述信息中每个字在不同的第二表示子空间下的初始上下文特征进行拼接,对拼接后的每个字的初始上下文特征进行加权,就得到融合所有第二表示子空间的每个字的融合后初始上下文特征。接着,将得到的文本描述信息中每个字的融合后的初始上下文特征通过第二前馈神经网络输入到第二残差模块进行特征提取。比如,通过第二前馈神经将每个字的融合后的初始上下文特征输入到第二残差模块中进行求和与归一化,得到每个字的上下文特征。最后,将该每个字的上下文特征经过线性变换后得到每个字对应的注意力信息。
在此需要说明的是,解码器网络中的第二注意力模块也可以称之为“解码-编码注意力层”,可以将“解码-编码注意力层”、第二前馈神经网络和第二残差模块组成训练后语言模型的解码器网络,如图1e所示。在对文本描述信息中每个字的上下文信息进行特征提取得到每个字的上下文特征的过程中,可以通过多个解码器网络串联来得到。比如,第一解码器网络将文本描述信息中每个字的上下文信息进行特征提取,得到每个字的第一层上下文特征,第二解码器网络将文本描述信息中每个字的第一层上下文特征重复第一解码器网络的特征提取的步骤,得到第二层上下文特征,依次类推,通过多层解码器网络的特征提取得到文本描述信息中每个字最终输出的上下文特征。其中,解码器网络的个数根据实际应用需要来进行设定。训练后语言模型的整体网络结构可以如图1f所示。
为了提高信息处理的效率,可以先对语言模型进行预训练,得到训练后语言模型,再利用训练后语言模型,对所述文本描述信息进行句特征提取。可选的,该语言模型可以由多个语料训练样本的样本描述信息训练而成。具体可以由其他设备进行训练后,提供给该信息处理装置,或者,也可以由该信息处理装置自行进行训练;即在步骤“利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未发布内容的句特征信息”之前,还可以包括:
获取多个语料训练样本的样本描述信息;
对所述样本描述信息中的字进行随机掩码,得到掩码字;
利用语言模型对所述样本描述信息进行上下文解析,得到预测掩码字;
基于所述预测掩码字和实际掩码字,对语言模型进行收敛,得到训练后语言模型。
比如,具体可以从数据库或者网络等获取多个语料训练样本的样本描述信息;然后,对样本描述信息进行预处理,以得到输入至语言模型的每个字。其中,预处理可以包括对样本描述信息进行分词处理,得到样本描述信息中的每个字,当然,还可以进一步对这些样本描述信息进行其他的预处理操作。接着,对所述样本描述信息中的字进行随机掩码,得到掩码字,采用预设的语言模型对样本描述信息中的掩码字进行预测,得到预测掩码字。比如,具体可以通过对样本描述信息中的每个字进行特征提取,得到字的语义特征信息,然后,对字的语义特征信息进行解析,得到字的上下文信息,对字的上下文信息进行特征提取,得到字的上下文特征,再然后,根据字的上下文信息和上下文特征,计算字的注意力信息,基于字的上下文特征和注意力信息,生成样本描述信息的预测掩码字。再然后,根据预测掩码字与实际掩码字对语言模型进行收敛,得到训练后语言模型。
比如,可以通过插值损失函数,根据预测掩码字与实际掩码字对预设的语言模型进行收敛,得到训练后语言模型。比如,具体可以如下:
采用Dice函数(一种损失函数),根据该预测掩码字与实际掩码字对该语言模型中用于上下文信息输出的参数进行调整,以及通过插值损失函数,根据预测掩码字与实际掩码字对该语言模型中用于上下文特征输出的参数进行调整,得到训练后语言模型。
可选的,为了提高上下文特征的精确性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数,根据该预测掩码字与实际掩码字对该语言模型中用于上下文信息输出的参数进行调整,以及通过插值损失函数,根据预测掩码字与实际掩码字对该语言模型中用于上下文特征输出的参数进行调整,得到训练后语言模型。
其中,对所述类别信息进行类别特征编码,可以分别将未发布内容的一级类别、二级类别、资讯类型等等,经过one hot编码后,将类型嵌入到低维向量中,从而将这些特征转化为向量,得到类别特征向量,即未发布内容的类别特征信息。例如,步骤“对所述类别信息进行类别特征编码,得到所述未发布内容的类别特征信息”,具体可以包括:
对所述类别信息进行独热编码,得到每个类别信息的独热向量;
将所述独热向量嵌入到低维向量中,得到所述未发布内容的类别特征信息。
103、计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息。
其中,所述训练后预测模型可以是根据已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据训练得到的。
例如,具体可以利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算、以及两两之间进行交叉计算,得到第一特征信息和第二特征信息,其中,所述训练后预测模型是根据已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据训练得到的;将所述第一特征信息和第二特征信息进行融合,得到所述未发布内容的交叉特征信息。
例如,所述训练后预测模型可以包括因子分解模块,步骤“利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算、以及两两之间进行交叉计算,得到第一特征信息和第二特征信息”,具体可以确定训练后预测模型的因子分解模块中的一阶权重和二阶权重;基于所述一阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算,得到第一特征信息;基于所述二阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行两两之间交叉计算,得到第二特征信息。
比如,因子分解模块的一阶计算部分,可以使用权重weights['feature_bias'],直接对原始特征(即标签特征信息、文本特征信息和类别特征信息)做的一阶计算,因子分解模块的二阶计算部分,可以对经过weights['feature_embeddings']权重embedding的结果做二阶交叉计算。
比如,因子分解模块可以通过隐向量点积的方法获得2阶特征表示,因子分解模块计算的具体公式表达可以如下:
Figure 231076DEST_PATH_IMAGE008
其中,
Figure 40900DEST_PATH_IMAGE009
表示特征x的一阶特征,
Figure 565422DEST_PATH_IMAGE010
表示两两特征之间的点积,
Figure 726276DEST_PATH_IMAGE011
表示权重。其中,在二阶计算中,把两两交叉需要n^2的时间复杂度降为n。
为了提高信息处理的效率,可以先对预测模型进行预训练,得到训练后预测模型,再对未发布内容进行用户行为预测。可选的,该预测模型可以由多个语料训练样本训练而成。具体可以由其他设备进行训练后,提供给该信息处理装置,或者,也可以由该信息处理装置自行进行训练;即在步骤“利用训练后预测模型”之前,该信息处理方法还可以包括:
获取已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据;
分别对所述标签信息、文本描述信息和类别信息进行特征提取,得到所述已发布内容的标签特征信息、字特征信息和类别特征信息;
基于所述标签特征信息、文本特征信息和类别特征信息两两之间的相关性、以及已发布内容的用户行为数据,对预测模型进行训练,得到训练后预测模型。
例如,具体可以获取已发布内容的标签信息、文本描述信息、类别信息以及实际用户行为数据;利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述已发布内容的标签特征信息;利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述已发布内容的句特征信息;对所述类别信息进行类别特征编码,得到所述已发布内容的类别特征信息;基于所述标签特征信息、文本特征信息和类别特征信息两两之间的相关性,对已发布内容的用户行为数据进行预测,得到预测用户行为数据,根据所述预测用户行为数据和实际用户行为数据的损失,对预测模型进行收敛,得到训练后预测模型。
其中,行为数据(behavior data)可以是关于机体的行为和行为发生时环境的观察报告。比如,用户行为数据可以指的是用户在网站和移动手机软件(App)中对内容(如已发布内容和/或未发布内容)的浏览、点击等行为产生的数据。比如,用户行为数据可以包括用户对内容的点击率和阅读时长等等。
104、对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息。
例如,具体可以利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行拼接,得到初始特征信息;对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息。
例如,所述训练后预测模型可以包括深度模块,步骤“对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息”,具体可以;获取训练后预测模型的深度模块中非线性网络层对应的权重;基于非线性网络层对应的权重,对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息。
比如,深度模块可以为深度神经网络层,其中,深度模块的公式具体可以为:
Figure 994447DEST_PATH_IMAGE012
其中,
Figure 924356DEST_PATH_IMAGE013
表示特征x(即拼接得到的初始特征信息),
Figure 619780DEST_PATH_IMAGE014
表示第l层矩阵权重,
Figure 392564DEST_PATH_IMAGE015
表示非线性网络层,一般为Relu层,通过多层神经网络后,构建深度特征。
105、基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。
例如,具体可以基于所述交叉特征信息和所述深度特征信息对未发布内容进行点击率预测,得到所述未发布内容的预测点击率;基于所述交叉特征信息和所述深度特征信息对未发布内容进行阅读时长预测,得到所述未发布内容的预测阅读时长,以便更好地实现对未发布内容的推荐。
比如,可以结合因子分解模块和深度模块,构建训练后预测模型的输出层:
Figure 74212DEST_PATH_IMAGE016
最后,得到训练后预测模型的预测点击率和预测阅读时长。
可选的,在一实施例中,得到预测点击率和预测阅读时长后,可以用于召回和排序层,排序层可以作为点击率特征的补充,召回层可以多一路召回。比如,排序是基于每个用户分别的进行一次排序。对于每个用户,都有一批召回,然后输入未发布内容的各个特征和用户特征到排序模型,对未发布内容进行排序,以根据排序结果对用户进行未发布内容的推荐。
需要说明的是,为了提高信息处理的安全性,上述方法中数据存储均保存在区块链中。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
由上可知,本实施例可以获取未发布内容的标签信息、文本描述信息以及类别信息;然后,分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;接着,计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;再对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;再然后,基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。由于该方案利用已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据对预测模型进行训练,得到训练后预测模型,并通过对未发布内容的标签信息、文本描述信息以及类别信息进行特征提取,利用训练后预测模型对提取出来的特征进行两两之间的相关性计算以及构建深度特征信息,进而对未发布内容进行用户行为预测,以可以对未曝光过的热门内容进行挖掘,从而挖掘出较受读者欢迎的内容,提高内容推荐的体验。该方案有效地提高了信息处理的准确性,准确地预测点击率和阅读时长。通过该方案,预测了未被用户点击过的内容的点击率和阅读时长,将内容特征的覆盖率提高为100%,并且可以在召回层,对预测高点击率的内容进行召回,增加内容召回率,以及在排序层,可以补全内容的点击率和阅读时长,提高特征覆盖率。
根据上一个实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该信息处理装置具体集成在电子设备,未发布内容具体为未曝光资讯,已发布内容具体为已曝光资讯,为例进行说明。
(一)首先,可以对预设的词向量模型进行训练,具体可以如下:
例如,可以获取多个语料训练样本;利用词向量模型对所述语料训练样本进行预测,得到预测中心词;计算所述预测中心词和实际中心词的损失,基于所述损失对词向量模型进行收敛,得到训练后词向量模型。
比如,对所述语料训练样本进行预测,得到预测中心词,具体可以对所述语料训练样本中的每个词进行独热编码,得到每个词的样本编码向量;基于预设权重矩阵和每个词的样本编码向量,分别计算每个词的初始隐层向量;将每个词的初始隐层向量进行相加,得到所述语料训练样本的隐层向量;基于所述隐层向量,利用词向量模型对所述语料训练样本进行预测,得到预测中心词。
比如,(1)词向量模型的输入层可以上下文单词的onehot Vector(即样本编码向量)。假设单词向量空间dim为V,上下文单词个数为C;(2)所有onehot Vector分别乘以共享的输入权重矩阵W(V*N矩阵,N为自己设定的数,初始化权重矩阵W);(3)所得的向量(即初始隐层向量)(因为是onehot Vector,所以为向量)相加求平均作为隐层向量,size为1*N;(4)隐层向量乘以输出权重矩阵W'{N*V},得到向量{1*V},经激活函数处理得到V-dim概率分布(因为是onehot,其中的每一维都代表着一个单词),概率最大的index(指标)所指示的单词为预测出的中间词(target word)与true label(实际中心词)的onehot进行比较,误差越小越好,然后根据误差更新权重矩阵。因此,需要定义loss function(一般为交叉熵代价函数),采用梯度下降算法更新W和W'。训练完毕后,输入层的每个单词与矩阵W相乘得到的向量的就是想要得到的词向量(word embedding),这个矩阵(所有单词的word embedding)也叫做look up table(look up table就是矩阵W),也就是说,任何一个单词的onehot乘以这个矩阵都将得到自己的词向量,即将内容标签乘以这个矩阵,得到该内容标签对应的标签向量。
(二)其次,可以对预设的语言模型进行训练,具体可以如下:
例如,可以获取多个语料训练样本的样本描述信息;对所述样本描述信息中的字进行随机掩码,得到掩码字;利用语言模型对所述样本描述信息进行上下文解析,得到预测掩码字;基于所述预测掩码字和实际掩码字,对语言模型进行收敛,得到训练后语言模型。
比如,具体可以从数据库或者网络等获取多个语料训练样本的样本描述信息;然后,对样本描述信息进行预处理,以得到输入至语言模型的每个字。其中,预处理可以包括对样本描述信息进行分词处理,得到样本描述信息中的每个字,当然,还可以进一步对这些样本描述信息进行其他的预处理操作。接着,对所述样本描述信息中的字进行随机掩码,得到掩码字,采用预设的语言模型对样本描述信息中的掩码字进行预测,得到预测掩码字。比如,具体可以通过对样本描述信息中的每个字进行特征提取,得到字的语义特征信息,然后,对字的语义特征信息进行解析,得到字的上下文信息,对字的上下文信息进行特征提取,得到字的上下文特征,再然后,根据字的上下文信息和上下文特征,计算字的注意力信息,基于字的上下文特征和注意力信息,生成样本描述信息的预测掩码字。再然后,根据预测掩码字与实际掩码字对语言模型进行收敛,得到训练后语言模型。
比如,可以通过交叉熵损失函数,根据预测掩码字与实际掩码字对预设的语言模型进行收敛,得到训练后语言模型。比如,具体可以如下:
采用交叉熵损失函数,根据该预测掩码字与实际掩码字对该语言模型中用于上下文信息输出的参数进行调整,以及通过插值损失函数,根据预测掩码字与实际掩码字对该语言模型中用于上下文特征输出的参数进行调整,得到训练后语言模型。
(三)接着,可以利用训练后词向量模型和训练后语言模型对已曝光资讯的信息进行特征提取,将提取到的特征用于对预设的预测模型进行训练,具体可以如下:
例如,可以获取已曝光资讯的标签信息、文本描述信息、类别信息以及用户行为数据;分别对所述标签信息、文本描述信息和类别信息进行特征提取,得到所述已曝光资讯的标签特征信息、字特征信息和类别特征信息;基于所述标签特征信息、文本特征信息和类别特征信息两两之间的相关性、以及已曝光资讯的用户行为数据,对预测模型进行训练,得到训练后预测模型。比如,已曝光资讯可以选择最近7天的资讯,以提高模型训练的准确性,进而提高对未曝光资讯预测的准确性。
例如,具体可以获取已曝光资讯的标签信息、文本描述信息、类别信息以及实际用户行为数据;利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述已曝光资讯的标签特征信息;利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述已曝光资讯的句特征信息;对所述类别信息进行类别特征编码,得到所述已曝光资讯的类别特征信息;基于所述标签特征信息、文本特征信息和类别特征信息两两之间的相关性,对已曝光资讯的用户行为数据进行预测,得到预测用户行为数据,根据所述预测用户行为数据和实际用户行为数据的损失,对预测模型进行收敛,得到训练后预测模型。
(四)利用训练好的训练后词向量模型、训练后语言模型和训练后预测模型,便可以对未曝光资讯进行用户行为预测,具体可以参见图2a和2b。
如图2a所示,一种信息处理方法,具体流程可以如下:
201、电子设备获取未曝光资讯的标签信息、文本描述信息以及类别信息。
其中,标签信息可以指的是未曝光资讯的资讯标签。比如,未曝光资讯为《A朗普发布对微X禁令,T讯怎么办》的标签信息为“A朗普、微X”。
其中,文本描述信息可以指的是未曝光资讯的资讯标题。例如,未曝光资讯的资讯标题可以为“XX手机不香了,价格跌破发行价”。
其中,类别信息可以指的是未曝光资讯的一级类别、二级类别、资讯类型或者其他特征等等。
202、电子设备利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述未曝光资讯的标签特征信息。
其中,所述标签信息可以包括至少一个内容标签,对所述标签信息进行词特征提取可以利用训练后词向量模型分别将内容标签转化为词向量,转化得到多个词向量,然后,需要将多个词向量加权,转化为单一的向量维度,得到标签特征向量,即未曝光资讯的标签特征信息。例如,电子设备具体可以利用训练后词向量模型,将所述内容标签进行向量化处理,得到至少一个标签向量;对所述标签向量进行加权处理,得到所述未曝光资讯的标签特征信息。
其中,对所述内容标签进行向量化处理可以通过将内容标签输入训练后词向量模型,然后,输出标签向量(Tag向量或TagEmb)。其中,输入层是一个one-hot向量,隐层是一个N维稠密向量,输出层是一个V维稠密向量,W表示词典的向量化矩阵,也是输入到隐层以及隐层到输出的权重参数,因此输入层到隐层表示对上下文词进行向量化,而隐层到输出层,表示计算上下文词与词典的每个目标词进行点积计算(softmax过程)。例如,步骤“利用训练后词向量模型,将所述内容标签进行向量化处理,得到至少一个标签向量”,具体可以基于独热编码算法,确定每个内容标签的独热向量,利用训练后词向量模型对所述内容标签的独热向量进行词嵌入操作,得到每个内容标签对应的标签向量。
例如,电子设备对向量进行加权,具体可以获取每个内容标签在所述未曝光资讯中的出现频率;基于预设参数和每个内容标签的出现频率,确定每个内容标签的权重;基于每个标签向量的权重对所述标签向量进行加权处理,得到所述未曝光资讯的标签特征信息。
比如,具体加权公式可以如下:
item_vector =
Figure 983262DEST_PATH_IMAGE017
其中,α超参数:经验参数为10e-3,p(word)为词在文章中出现概率,词出现的越多,权重越低。
203、电子设备利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未曝光资讯的句特征信息。
例如,电子设备具体可以在所述文本描述信息前插入句符号,将所述句符号作为所述文本描述信息中一个字,并将所述文本描述信息中每个字输入到训练后语言模型;利用训练后语言模型,对所述文本描述信息中的每个字进行上下文解析,得到每个字对应的上下文信息和上下文特征;根据所述上下文信息和所述上下文特征计算所述每个字的注意力信息;将所述句符号的注意力信息作为所述未曝光资讯的句特征信息。
比如,可以以字向量为输入,然后输入到训练后语言模型中,输出为训练后语言模型的首个向量CLS,将该向量作为整个句子的句向量,以此作为未曝光资讯的标题向量(Title向量或TitleEmb),即未曝光资讯的句特征信息。即步骤“利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未曝光资讯的句特征信息”具体可以包括:
其中,若文本描述信息为中文,则文本描述信息中的每个字可以指的是每一个汉字,若文本描述信息为英文,则文本描述信息中的每个字可以指的是每一个单词,等等,以此类推。
比如,电子设备具体可以对所述文本描述信息的每个字进行位置特征提取,得到所述文本描述信息的位置特征;对所述文本描述信息的每个字进行字特征提取,得到所述文本描述信息的字特征;对所述文本描述信息中的每个字进行标记,得到所述文本描述信息的标记特征;对所述文本描述信息的位置特征、字特征和标记特征进行特征融合,得到所述文本描述信息的字特征信息。然后,将所述字特征信息输入到训练后语言模型,然后,采用训练后语言模型对字特征信息进行特征提取,并计算所述句符号的注意力信息。具体过程可以详见上述实施例,在此不再赘述。
204、电子设备对所述类别信息进行类别特征编码,得到所述未曝光资讯的类别特征信息。
例如,电子设备具体可以对所述类别信息进行独热编码,得到每个类别信息的独热向量;将所述独热向量嵌入到低维向量中,得到所述未曝光资讯的类别特征信息。比如,可以分别将未曝光资讯的一级类别、二级类别、资讯类型等等,经过one hot编码后,将类型嵌入到低维向量中,从而将这些特征转化为向量,得到类别特征向量,比如第一类别向量(Cat1 Emb)、第二类别向量(Cat2 Emb)、第三类别向量(Cat3 Emb)……,即未曝光资讯的类别特征信息。
205、电子设备利用训练后预测模型的因子分解模块,计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未曝光资讯的交叉特征信息。
例如,所述训练后预测模型可以包括因子分解模块,电子设备具体可以确定训练后预测模型的因子分解模块中的一阶权重和二阶权重;基于所述一阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算,得到第一特征信息;基于所述二阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行两两之间交叉计算,得到第二特征信息;将所述第一特征信息和第二特征信息进行融合,得到所述未曝光资讯的交叉特征信息。
比如,训练后预测模型可以是DeepFM(A Factorization-Machine based NeuralNetwork for CTR Prediction)模型,因子分解模块可以为FM(Factorization-Machine)模块,深度模块可以为Deep模块。
比如,如图2b所示,01是因子分解模块的一阶计算部分,可以使用权重weights['feature_bias'],直接对原始特征(即标签特征信息、文本特征信息和类别特征信息)做的一阶计算,02是对应因子分解模块的二阶计算阶段,对经过weights['feature_embeddings']权重embedding的结果做二阶交叉计算。比如,可以将TagEmb、TitleEmb、Cat1Emb、Cat2 Emb、Cat3 Emb等输入到训练后预测模型中,利用因子分解模块的一阶计算部分对TagEmb、TitleEmb、Cat1 Emb、Cat2 Emb、Cat3 Emb等进行一阶计算,利用因子分解模块的二阶计算部分对TagEmb、TitleEmb、Cat1 Emb、Cat2 Emb、Cat3 Emb等二阶两两交叉计算。
比如,因子分解模块可以通过隐向量点积的方法获得2阶特征表示,因子分解模块计算的具体公式表达可以如下:
Figure 722024DEST_PATH_IMAGE018
其中,
Figure 982104DEST_PATH_IMAGE019
表示特征x的一阶特征,
Figure 467443DEST_PATH_IMAGE020
表示两两特征之间的点积,
Figure 230999DEST_PATH_IMAGE021
表示权重。其中,在二阶计算中,把两两交叉需要n^2的时间复杂度降为n。
206、电子设备利用训练后预测模型的深度模块,对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未曝光资讯的深度特征信息。
例如,所述训练后预测模型可以包括深度模块,电子设备具体可以对所述标签特征信息、文本特征信息和类别特征信息进行拼接,得到初始特征信息;获取训练后预测模型的深度模块中非线性网络层对应的权重;基于非线性网络层对应的权重,对所述初始特征信息进行深度非线性转换处理,得到所述未曝光资讯的深度特征信息。
比如,a特征信息为:a=[1,0,0],b特征信息为b=[0,1,2,3],则对a,b进行拼接可以为concat(a,b) = [1,0,0,0,1,2,3]。然后将拼接后的特征依次进入不同的非线性层进行非线性转换。
比如,深度模块可以为深度神经网络层,其中,深度模块的公式具体可以为:
Figure 533805DEST_PATH_IMAGE022
Figure 625389DEST_PATH_IMAGE023
其中,
Figure 39052DEST_PATH_IMAGE024
表示特征x(即拼接得到的初始特征信息),
Figure 798061DEST_PATH_IMAGE025
表示第l层矩阵权重,
Figure 6189DEST_PATH_IMAGE026
表 示非线性网络层,一般为Relu层,通过多层神经网络后,构建深度特征。
207、电子设备基于所述交叉特征信息和所述深度特征信息对未曝光资讯进行预测处理,得到所述未曝光资讯的用户行为数据。
例如,电子设备具体可以基于所述交叉特征信息和所述深度特征信息对未曝光资讯进行点击率预测,得到所述未曝光资讯的预测点击率;基于所述交叉特征信息和所述深度特征信息对未曝光资讯进行阅读时长预测,得到所述未曝光资讯的预测阅读时长,以便更好地实现对为曝光资讯的推荐。
比如,可以结合因子分解模块和深度模块,构建训练后预测模型的输出层:
Figure 975282DEST_PATH_IMAGE027
Figure 802423DEST_PATH_IMAGE028
最后,利用训练后预测模型输出未曝光资讯的预测点击率和预测阅读时长。
例如,在得到预测点击率和预测阅读时长后,可以用于召回和排序层,排序层可以作为点击率特征的补充,召回层可以多一路召回,如预估热门资讯召回。比如,排序是基于每个用户分别的进行一次排序。对于每个用户,都有一批召回,然后输入未曝光资讯的各个特征和用户特征到排序模型,对未曝光资讯进行排序,以根据排序结果对用户进行未曝光资讯的推荐。
由上可知,本实施例可以获取未曝光资讯的标签信息、文本描述信息以及类别信息;然后,分别对所述标签信息、文本描述信息和类别信息进行特征提取,得到所述未曝光资讯的标签特征信息、句特征信息和类别特征信息;接着,计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未曝光资讯的交叉特征信息,其中,所述训练后预测模型是根据已曝光资讯的标签信息、文本描述信息、类别信息以及用户行为数据训练得到的;再对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未曝光资讯的深度特征信息;再然后,基于所述交叉特征信息和所述深度特征信息对未曝光资讯进行用户行为预测,得到所述未曝光资讯的预测用户行为数据。由于该方案利用已曝光资讯的标签信息、文本描述信息、类别信息以及用户行为数据对预测模型进行训练,得到训练后预测模型,并通过对曝光资讯的标签信息、文本描述信息以及类别信息进行特征提取,利用训练后预测模型对提取出来的特征进行两两之间的相关性计算以及构建深度特征信息,进而对未曝光资讯进行用户行为预测,以实现对未曝光过的热门资讯的挖掘,从而挖掘出较受读者欢迎的资讯,提高资讯推荐的体验。该方案有效地提高了信息处理的准确性,准确地预测点击率和阅读时长。通过该方案,预测了未被用户点击过的资讯的点击率和阅读时长,将资讯特征的覆盖率提高为100%,并且可以在召回层,对预测高点击率的资讯进行召回,增加资讯召回内容,以及在排序层,可以补全资讯的点击率和阅读时长,提高特征覆盖率。
为了更好地实施以上方法,相应的,本申请实施例还提供一种信息处理装置,该信息处理装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
例如,如图3所示,该信息处理装置可以包括获取单元301、提取单元302、计算单元303、转换单元304和预测单元305,如下:
获取单元301,用于获取未发布内容的标签信息、文本描述信息以及类别信息;
提取单元302,用于分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;
计算单元303,用于计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;
转换单元304,用于对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;
预测单元305,用于基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。
可选的,在一些实施例中,所述提取单元302可以包括第一提取子单元、第二提取子单元和第三提取子单元,如下:
所述第一提取子单元,用于利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述未发布内容的标签特征信息;
所述第二提取子单元,用于利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未发布内容的句特征信息;
所述第三提取子单元,用于对所述类别信息进行类别特征编码,得到所述未发布内容的类别特征信息。
可选的,在一些实施例中,所述标签信息包括至少一个内容标签,所述第一提取子单元,具体可以用于利用训练后词向量模型,将所述内容标签进行向量化处理,得到至少一个标签向量;对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息。
可选的,在一些实施例中,所述第一提取子单元,具体可以用于基于独热编码算法,确定每个内容标签的独热向量;利用训练后词向量模型对所述内容标签的独热向量进行词嵌入操作,得到每个内容标签对应的标签向量。
可选的,在一些实施例中,所述第一提取子单元,具体可以用于获取每个内容标签在所述未发布内容中的出现频率;基于预设参数和每个内容标签的出现频率,确定每个内容标签的权重;基于每个标签向量的权重对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息。
可选的,在一些实施例中,所述信息处理装置还可以包括第一训练单元,如下:
所述第一训练单元,具体可以用于获取多个语料训练样本;利用词向量模型对所述语料训练样本进行预测,得到预测中心词;计算所述预测中心词和实际中心词的损失,基于所述损失对词向量模型进行收敛,得到训练后词向量模型。
可选的,在一些实施例中,所述第二提取子单元,具体可以用于在所述文本描述信息前插入句符号,将所述句符号作为所述文本描述信息中一个字,并将所述文本描述信息中每个字输入到训练后语言模型;利用训练后语言模型,对所述文本描述信息中的每个字进行上下文解析,得到每个字对应的上下文信息和上下文特征;根据所述上下文信息和所述上下文特征计算所述每个字的注意力信息;将所述句符号的注意力信息作为所述未发布内容的句特征信息。
可选的,在一些实施例中,所述信息处理装置还可以包括第二训练单元,如下:
所述第二训练单元,具体可以用于获取多个语料训练样本的样本描述信息;对所述样本描述信息中的字进行随机掩码,得到掩码字;利用语言模型对所述样本描述信息进行上下文解析,得到预测掩码字;基于所述预测掩码字和实际掩码字,对语言模型进行收敛,得到训练后语言模型。
可选的,在一些实施例中,所述第三提取子单元,具体可以用于对所述类别信息进行独热编码,得到每个类别信息的独热向量;将所述独热向量嵌入到低维向量中,得到所述未发布内容的类别特征信息。
可选的,在一些实施例中,所述计算单元303,具体可以用于利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算、以及两两之间进行交叉计算,得到第一特征信息和第二特征信息,其中,所述训练后预测模型是根据已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据训练得到的;将所述第一特征信息和第二特征信息进行融合,得到所述未发布内容的交叉特征信息。
可选的,在一些实施例中,所述训练后预测模型包括因子分解模块,所述计算单元303,具体可以用于确定训练后预测模型的因子分解模块中的一阶权重和二阶权重;基于所述一阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算,得到第一特征信息;基于所述二阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行两两之间交叉计算,得到第二特征信息。
可选的,在一些实施例中,所述转换单元304,具体可以用于利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行拼接,得到初始特征信息;对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息。
可选的,在一些实施例中,所述训练后预测模型包括深度模块,所述转换单元304,具体可以用于获取训练后预测模型的深度模块中非线性网络层对应的权重;基于非线性网络层对应的权重,对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息。
可选的,在一些实施例中,所述信息处理装置还可以包括第三训练单元,如下:
所述第三训练单元,具体可以用于获取已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据;分别对所述标签信息、文本描述信息和类别信息进行特征提取,得到所述已发布内容的标签特征信息、字特征信息和类别特征信息;基于所述标签特征信息、文本特征信息和类别特征信息两两之间的相关性、以及已发布内容的用户行为数据,对预测模型进行训练,得到训练后预测模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例可以由获取单元301获取未发布内容的标签信息、文本描述信息以及类别信息;然后,由提取单元302分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;接着,由计算单元303计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;再由转换单元304对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;再然后,由预测单元305基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。由于该方案通过对未发布内容的标签信息、文本描述信息以及类别信息进行特征提取,对提取出来的特征进行两两之间的相关性计算以及构建深度特征信息,对未发布内容进行用户行为预测,进而可以对未曝光过的热门内容进行挖掘,从而挖掘出较受读者欢迎的内容,提高内容推荐的体验。该方案有效地提高了信息处理的准确性,准确地预测点击率和阅读时长。通过该方案,预测了未被用户点击过的内容的点击率和阅读时长,将内容特征的覆盖率提高为100%,以便可以在召回层,对预测高点击率的内容进行召回,增加内容召回率,以及在排序层,可以补全内容的点击率和阅读时长,提高特征覆盖率。
此外,本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取未发布内容的标签信息、文本描述信息以及类别信息;然后,分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;接着,计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;再对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;再然后,基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以获取未发布内容的标签信息、文本描述信息以及类别信息;然后,分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;接着,计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;再对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;再然后,基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。由于该方案通过对未发布内容的标签信息、文本描述信息以及类别信息进行特征提取,对提取出来的特征进行两两之间的相关性计算以及构建深度特征信息,对未发布内容进行用户行为预测,进而可以对未曝光过的热门内容进行挖掘,从而挖掘出较受读者欢迎的内容,提高内容推荐的体验。该方案有效地提高了信息处理的准确性,准确地预测点击率和阅读时长。通过该方案,预测了未被用户点击过的内容的点击率和阅读时长,将内容特征的覆盖率提高为100%,以便可以在召回层,对预测高点击率的内容进行召回,增加内容召回率,以及在排序层,可以补全内容的点击率和阅读时长,提高特征覆盖率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如,该指令可以执行如下步骤:
获取未发布内容的标签信息、文本描述信息以及类别信息;然后,分别对所述标签信息进行词特征提取、对所述文本描述信息进行句特征提取、以及对所述类别信息进行类别特征提取,得到所述未发布内容的标签特征信息、句特征信息和类别特征信息;接着,计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;再对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;再然后,基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息处理方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种信息处理方法,其特征在于,包括:
获取未发布内容的标签信息、文本描述信息以及类别信息;
利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述未发布内容的标签特征信息;
利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未发布内容的句特征信息;
对所述类别信息进行类别特征编码,得到所述未发布内容的类别特征信息;
计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;
对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;
基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。
2.根据权利要求1所述的方法,其特征在于,所述标签信息包括至少一个内容标签,所述利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述未发布内容的标签特征信息,包括:
利用训练后词向量模型,将所述内容标签进行向量化处理,得到至少一个标签向量;
对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息。
3.根据权利要求2所述的方法,其特征在于,所述利用训练后词向量模型,将所述内容标签进行向量化处理,得到至少一个标签向量,包括:
基于独热编码算法,确定每个内容标签的独热向量;
利用训练后词向量模型对所述内容标签的独热向量进行词嵌入操作,得到每个内容标签对应的标签向量。
4.根据权利要求2所述的方法,其特征在于,所述对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息,包括:
获取每个内容标签在所述未发布内容中的出现频率;
基于预设参数和每个内容标签的出现频率,确定每个内容标签的权重;
基于每个标签向量的权重对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息。
5.根据权利要求1所述的方法,其特征在于,所述利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未发布内容的句特征信息,包括:
在所述文本描述信息前插入句符号,将所述句符号作为所述文本描述信息中一个字,并将所述文本描述信息中每个字输入到训练后语言模型;
利用训练后语言模型,对所述文本描述信息中的每个字进行上下文解析,得到每个字对应的上下文信息和上下文特征;
根据所述上下文信息和所述上下文特征计算所述每个字的注意力信息;
将所述句符号的注意力信息作为所述未发布内容的句特征信息。
6.根据权利要求1所述的方法,其特征在于,所述对所述类别信息进行类别特征编码,得到所述未发布内容的类别特征信息,包括:
对所述类别信息进行独热编码,得到每个类别信息的独热向量;
将所述独热向量嵌入到低维向量中,得到所述未发布内容的类别特征信息。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息,包括:
利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算、以及两两之间进行交叉计算,得到第一特征信息和第二特征信息,其中,所述训练后预测模型是根据已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据训练得到的;
将所述第一特征信息和第二特征信息进行融合,得到所述未发布内容的交叉特征信息。
8.根据权利要求7所述的方法,其特征在于,所述训练后预测模型包括因子分解模块,所述利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算、以及两两之间进行交叉计算,得到第一特征信息和第二特征信息,包括:
确定训练后预测模型的因子分解模块中的一阶权重和二阶权重;
基于所述一阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行一阶计算,得到第一特征信息;
基于所述二阶权重,对所述标签特征信息、文本特征信息和类别特征信息进行两两之间交叉计算,得到第二特征信息。
9.根据权利要求1至6任一项所述的方法,其特征在于,所述对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息,包括:
利用训练后预测模型,对所述标签特征信息、文本特征信息和类别特征信息进行拼接,得到初始特征信息;
对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息。
10.根据权利要求9所述的方法,其特征在于,所述训练后预测模型包括深度模块,所述对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息,包括:
获取训练后预测模型的深度模块中非线性网络层对应的权重;
基于非线性网络层对应的权重,对所述初始特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息。
11.根据权利要求7所述的方法,其特征在于,所述利用训练后预测模型之前,还包括:
获取已发布内容的标签信息、文本描述信息、类别信息以及用户行为数据;
分别对所述标签信息、文本描述信息和类别信息进行特征提取,得到所述已发布内容的标签特征信息、字特征信息和类别特征信息;
基于所述标签特征信息、文本特征信息和类别特征信息两两之间的相关性、以及已发布内容的用户行为数据,对预测模型进行训练,得到训练后预测模型。
12.一种信息处理装置,其特征在于,包括:
获取单元,用于获取未发布内容的标签信息、文本描述信息以及类别信息;
提取单元包括第一提取子单元、第二提取子单元和第三提取子单元,如下:
所述第一提取子单元,用于利用训练后词向量模型,对所述标签信息进行词特征提取,得到所述未发布内容的标签特征信息;
所述第二提取子单元,用于利用训练后语言模型,对所述文本描述信息进行句特征提取,得到所述未发布内容的句特征信息;
所述第三提取子单元,用于对所述类别信息进行类别特征编码,得到所述未发布内容的类别特征信息;
计算单元,用于计算所述标签特征信息、文本特征信息和类别特征信息两两之间的交叉关系,得到所述未发布内容的交叉特征信息;
转换单元,用于对所述标签特征信息、文本特征信息和类别特征信息进行深度非线性转换处理,得到所述未发布内容的深度特征信息;
预测单元,用于基于所述交叉特征信息和所述深度特征信息对未发布内容进行预测处理,得到所述未发布内容的用户行为数据。
13.根据权利要求12所述的装置,其特征在于,所述标签信息包括至少一个内容标签,所述第一提取子单元,具体用于利用训练后词向量模型,将所述内容标签进行向量化处理,得到至少一个标签向量;对所述标签向量进行加权处理,得到所述未发布内容的标签特征信息。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11中任一项所述的信息处理方法中的步骤。
15.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至11任一项所述方法的步骤。
CN202110403695.8A 2021-04-15 2021-04-15 信息处理方法、装置、电子设备和存储介质 Active CN112800234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110403695.8A CN112800234B (zh) 2021-04-15 2021-04-15 信息处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110403695.8A CN112800234B (zh) 2021-04-15 2021-04-15 信息处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112800234A CN112800234A (zh) 2021-05-14
CN112800234B true CN112800234B (zh) 2021-06-22

Family

ID=75811394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110403695.8A Active CN112800234B (zh) 2021-04-15 2021-04-15 信息处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112800234B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113595770B (zh) * 2021-07-09 2023-10-10 北京百度网讯科技有限公司 群组点击率预估方法、装置、电子设备和存储介质
CN113722437B (zh) * 2021-08-31 2023-06-23 平安科技(深圳)有限公司 基于人工智能的用户标签识别方法、装置、设备及介质
CN113626564B (zh) * 2021-10-09 2021-12-17 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114357204B (zh) * 2021-11-25 2024-03-26 腾讯科技(深圳)有限公司 媒体信息的处理方法及相关设备
US20230359824A1 (en) * 2022-05-05 2023-11-09 Lemon Inc. Feature crossing for machine learning
CN115563933B (zh) * 2022-09-19 2023-12-01 中国电信股份有限公司 词编码方法、装置、存储介质与电子设备
CN117009186B (zh) * 2023-09-25 2023-12-15 张家港市得道电子有限公司 贴片机软硬件交互信息实时监控分析方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590691A (zh) * 2017-09-06 2018-01-16 晶赞广告(上海)有限公司 一种信息发布方法及装置、存储介质、终端
CN109086439A (zh) * 2018-08-15 2018-12-25 腾讯科技(深圳)有限公司 信息推荐方法及装置
CN110119511A (zh) * 2019-05-17 2019-08-13 网易传媒科技(北京)有限公司 文章热点得分的预测方法、介质、装置和计算设备
CN110489644A (zh) * 2019-08-13 2019-11-22 腾讯科技(北京)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN111008278A (zh) * 2019-11-22 2020-04-14 厦门美柚股份有限公司 内容推荐方法及装置
CN111538912A (zh) * 2020-07-07 2020-08-14 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN112328906A (zh) * 2020-11-04 2021-02-05 中国平安人寿保险股份有限公司 内容项推荐方法、装置、设备及存储介质
CN112380430A (zh) * 2020-11-10 2021-02-19 腾讯科技(北京)有限公司 基于人工智能的推荐方法、装置及电子设备
CN112487291A (zh) * 2020-11-28 2021-03-12 重庆邮电大学 一种基于大数据的个性化新闻推荐方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3087921A1 (fr) * 2018-10-31 2020-05-01 Amadeus S.A.S. Systèmes et méthodes de recommandation utilisant des modèles d'apprentissage automatique en cascade
CN110580292B (zh) * 2019-08-28 2023-11-03 腾讯科技(深圳)有限公司 一种文本标签生成方法、装置和计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590691A (zh) * 2017-09-06 2018-01-16 晶赞广告(上海)有限公司 一种信息发布方法及装置、存储介质、终端
CN109086439A (zh) * 2018-08-15 2018-12-25 腾讯科技(深圳)有限公司 信息推荐方法及装置
CN110119511A (zh) * 2019-05-17 2019-08-13 网易传媒科技(北京)有限公司 文章热点得分的预测方法、介质、装置和计算设备
CN110489644A (zh) * 2019-08-13 2019-11-22 腾讯科技(北京)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN111008278A (zh) * 2019-11-22 2020-04-14 厦门美柚股份有限公司 内容推荐方法及装置
CN111538912A (zh) * 2020-07-07 2020-08-14 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN112328906A (zh) * 2020-11-04 2021-02-05 中国平安人寿保险股份有限公司 内容项推荐方法、装置、设备及存储介质
CN112380430A (zh) * 2020-11-10 2021-02-19 腾讯科技(北京)有限公司 基于人工智能的推荐方法、装置及电子设备
CN112487291A (zh) * 2020-11-28 2021-03-12 重庆邮电大学 一种基于大数据的个性化新闻推荐方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction;Huifeng Guo;《arXiv》;20170313;第1-8页 *
Position-Aware Deep Character-Level CTR Prediction for Sponsored Search;Xiao Bai;《IEEE Xplore》;20210401;第1722-1736页 *
多值类别特征加入CTR预估模型的方法;匿名;《腾讯云》;20200117;第1-5页 *
点击预测的关键技术研究;陶竹林;《中国传媒大学学报(自然科学版)》;20191231;第72-75,79页 *

Also Published As

Publication number Publication date
CN112800234A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112800234B (zh) 信息处理方法、装置、电子设备和存储介质
CN111104512B (zh) 游戏评论的处理方法及相关设备
CN113919344B (zh) 文本处理方法和装置
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
Chen et al. Zero-shot text classification via knowledge graph embedding for social media data
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN110580292A (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN113761218B (zh) 一种实体链接的方法、装置、设备及存储介质
CN108959482A (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN113327279B (zh) 一种点云数据处理方法、装置、计算机设备及存储介质
CN111368926B (zh) 图像筛选方法、装置和计算机可读存储介质
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
Yang et al. Rits: Real-time interactive text steganography based on automatic dialogue model
CN110866119A (zh) 一种文章质量的确定方法、装置、电子设备及存储介质
CN113822315A (zh) 属性图的处理方法、装置、电子设备及可读存储介质
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
CN113128196A (zh) 文本信息处理方法及其装置、存储介质
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
CN113821587B (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN113705247B (zh) 主题模型效果评估方法、装置、设备、存储介质和产品
WO2023137918A1 (zh) 文本数据的分析方法、模型训练方法、装置及计算机设备
CN115129930A (zh) 一种视频的信息处理方法、装置、计算机设备和存储介质
CN114328820A (zh) 信息搜索方法以及相关设备
CN113761272A (zh) 一种数据处理方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40044562

Country of ref document: HK