CN115712696A - 一种数据处理方法、装置、设备及计算机可读存储介质 - Google Patents

一种数据处理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN115712696A
CN115712696A CN202110961268.1A CN202110961268A CN115712696A CN 115712696 A CN115712696 A CN 115712696A CN 202110961268 A CN202110961268 A CN 202110961268A CN 115712696 A CN115712696 A CN 115712696A
Authority
CN
China
Prior art keywords
vector
target user
data
text
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110961268.1A
Other languages
English (en)
Inventor
李烜
张新雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110961268.1A priority Critical patent/CN115712696A/zh
Publication of CN115712696A publication Critical patent/CN115712696A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及计算机可读存储介质。其中方法包括:获取与目标用户相关联的文本数据集合和多媒体数据集合,对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量,根据多媒体数据集合,确定目标用户的第二特征向量,基于第一特征向量和第二特征向量,确定目标用户的类型。可见,通过提取目标用户在多个维度的特征向量(与目标用户相关联的文本数据的特征向量以及与目标用户相关联的多媒体数据的特征向量)来对目标用户所属的类型进行预测,进而能够较好地提高目标用户标识分类的效率和准确度。

Description

一种数据处理方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种数据处理方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的不断发展,网络中每天都会出海量的多媒体资源,不同的多媒体资源具有不同的属性;例如,有些多媒体资源是搞笑的,有些多媒体资源是报道时事新闻的,还有些多媒体资源是科普的,等等。类似地,多媒体资源的生产者也具有不同的属性;例如,有的内容生产者是美食博主(专门上传美食相关多媒体资源的用户),有的内容生产者是旅游博主,还有的内容生产者是影视博主,等等。
实践发现,随着多媒体资源的生产者数量的不断增长,且一个多媒体资源的生产者往往发布了多个多媒体资源,通过人工标记的方法对多媒体资源的生产者进行分类的效率和准确度较低。
发明内容
本发明实施例提供了一种数据处理方法、装置、设备及计算机可读存储介质,能够较好地提高分类的效率和准确度。
一方面,本申请实施例提供了一种数据处理方法,包括:
获取与目标用户相关联的文本数据集合和多媒体数据集合;
对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量;
根据多媒体数据集合,确定目标用户的第二特征向量;
基于第一特征向量和第二特征向量,确定目标用户的类型。
一方面,本申请实施例提供了一种数据处理装置,该数据处理装置包括:
获取单元,用于获取与目标用户相关联的文本数据集合和多媒体数据集合;
处理单元,对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量;以及用于根据多媒体数据集合,确定目标用户的第二特征向量;以及用于基于第一特征向量和第二特征向量,确定目标用户的类型。
在一种实施方式中,文本数据集合包括与目标用户相关联的多媒体资源的摘要数据,摘要数据包括标题文本和关键帧文本,每个标题文本关联有至少一个关键帧文本;
处理单元用于,对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量,具体用于:
对摘要数据进行分词处理,得到摘要分词集合;
统计摘要分词集合中各个摘要分词在摘要数据中的第一出现参数,并根据第一出现参数构建第一语义向量;
基于第一语义向量,确定目标用户的第一特征向量。
在一种实施方式中,文本数据集合还包括标识文本;处理单元用于,基于第一语义向量,确定目标用户的第一特征向量,具体用于:
对标识文本进行分词处理,得到标识分词集合;
统计标识分词集合中各个标识分词在标识文本中的第二出现参数,并根据第二出现参数构建第二语义向量;
对第一语义向量和第二语义向量进行拼接处理,得到目标用户的第一特征向量。
在一种实施方式中,多媒体数据集合包括N条多媒体数据,N为正整数;每条多媒体数据包括一个文档;处理单元用于,根据多媒体数据集合,确定目标用户的第二特征向量,具体用于:
获取各个文档中包含的样本词的样本词向量;
根据每个文档中包含的样本词的样本词向量,确定该文档的文档向量;
对N条多媒体数据的N个文档的文档向量进行均值化处理,得到目标用户的第二特征向量。
在一种实施方式中,每个文档中包括至少两个样本词;处理单元用于,根据每个文档中包含的样本词的样本词向量,确定该文档的文档向量,具体用于:
生成目标文档的初始文档向量,目标文档是N个文档中的任一个文档;
根据初始文档向量和目标文档的第一样本词的样本词向量,预测目标文档的第二样本词的预测向量;
根据第二样本词的预测向量和目标文档中第二样本词的样本词向量之间的损失值,调整初始文档向量,得到目标文档的文档向量。
在一种实施方式中,处理单元用于,基于第一特征向量和第二特征向量,确定目标用户的类型,具体用于:
将第一特征向量和第二特征向量输入分类模型,分类模型包括Q个决策树,Q为正整数;
获取分类模型输出的目标用户的类型,目标用户的类型是根据Q个决策树的分类结果确定的,每个决策树的分类结果是该决策树对第一特征向量和第二特征向量进行分类处理得到的结果。
在一种实施方式中,每个决策树是根据该决策树对应的初始化数据子集合构建得到的;初始化数据子集合包括K个从初始化数据集合中选取的初始向量,初始化数据集合中包括S个初始向量,K,S为正整数,且K小于等于S。
在一种实施方式中,每个初始向量对应Y个属性,Y为正整数;第i个决策树的根节点的j个子节点,是根据分类属性对第i个决策树的初始化数据子集合进行划分后得到的,每个子节点对应第i个决策树的初始化数据子集合中的至少一个初始向量;分类属性是第i个决策树的候选分类属性中信息增益最大的候选分类属性;第i个决策树的候选分类属性是从Y个属性中选取的至少一个属性,i,j均为正整数,且i小于等于Q。
在一种实施方式中,分类模型的评估参数高于目标阈值,目标阈值是通过调和平均数确定的,调和平均数是根据分类模型的预测数据,以及训练数据对应的标注数据计算得到的;预测数据是分类模型对训练数据进行预测得到的数据。
相应地,本申请提供了一种智能设备,该设备包括:
处理器,用于加载并执行计算机程序;
计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时,实现上述数据处理方法。
相应地,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行上述数据处理方法。
相应地,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理方法。
本申请实施例中,获取与目标用户相关联的文本数据集合和多媒体数据集合,对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量,根据多媒体数据集合,确定目标用户的第二特征向量,基于第一特征向量和第二特征向量,确定目标用户的类型。可见,通过提取目标用户在多个维度的特征向量(与目标用户相关联的文本数据的特征向量以及与目标用户相关联的多媒体数据的特征向量)来对目标用户所属的类型进行预测,进而能够较好地提高目标用户标识分类的效率和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理的场景示意图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本申请实施例提供的另一种数据处理方法的流程示意图;
图4a为本申请实施例提供的一种获取与目标用户相关联的文本数据集合和多媒体数据集合的流程图;
图4b为本申请实施例提供的一种文本特征提取模型的架构图;
图4c为本申请实施例提供的一种分类模型的数据处理流程图;
图4d为本申请实施例提供的一种内容生产者的主页的页面图;
图5为本申请实施例提供的一种数据处理装置的结构示意图;
图6为本申请实施例提供的一种智能设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
下面对本申请实施例涉及的各术语进行阐述:
内容生产者(Content Producer,CP):所谓内容生产者,是指多媒体资源的发布者。
人设:是指人物的个人特点;在本申请中,人设的得分用于指示目标用户(内容生产者)的特征与其他用户的特征之间的特征区别度。人设得分越高,则表示目标用户的特征与其他用户的特征的之间的特征区别度越大。此外,本申请将人设得分高于或等于分数阈值(如0.8)的用户确定为具有人设的用户,将得分低于分数阈值(如0.8)的用户确定为不具有人设的用户。
召回:是指根据用户和候选资源的特征,从海量候选资源中快速找出一部分用户感兴趣的候选资源;对于本申请来说,召回是指根据工作人员需求(筛选具有人设的用户),从多媒体平台的用户中找出具有人设的用户。
多媒体资源标识(VID):在本申请中,VID是指单个多媒体资源的唯一ID,VID与多媒体资源是一一对应的关系;例如,ID1用于指代多媒体资源1,ID2用于指代多媒体资源2。
词袋模型:将所有特征词装进一个“袋子”里,不考虑其词法和语序的问题,即每个特征词都是独立的,构成一个基于映射匹配的长向量。
人工智能(Artificial Intelligence,AI):所谓AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统;其通常包括图像处理、视频处理、视频语义理解、视频内容/行为识别等技术。本申请实施例主要涉及通过光学字符识别(Optical Character Recognition,OCR)技术来识别图片、视频等内容中的文字;其中,OCR是一种识别图片、视频等内容中的文字的技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
此外,本申请实施例还涉及语音技术(Speech Technology),语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition,ASR)和语音合成技术(Text ToSpeech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。本申请实施例主要涉及通过语音技术将多媒体文件中的音频数据转换为对应的文档。
自然语言处理(Nature Language processing,NLP)。NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例主要涉及通过NLP对文本数据进行分词处理,得到文本数据对应的分词。
基于AI技术中的计算机视觉技术和机器学习技术,本申请实施例提供了一种数据处理方案,以较好地提高分类的效率和准确度。图1为本申请实施例提供的一种数据处理的场景示意图。如图1所示,本申请提供的数据处理方案可由智能设备101执行,此处的智能设备101可以是具有数据处理能力的终端或者服务器。其中,终端可以包括但不限于:智能手机(如Android手机、IOS手机等)、平板电脑、便携式个人计算机、移动互联网设备(MobileInternet Devices,简称MID)等设备,本申请实施例对此不做限定。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,本申请实施例对此不做限定。
如图1所示,智能设备101获取各个用户对应的文本数据集合和多媒体数据集合,并对每个用户对应的文本数据集合和多媒体数据集合进行数据处理,进行确定该用户所属的类型;数据管理员可以通过页面102查询属于目标类型的用户,或者对预测结果进行进一步的人工标注。在具体实现中,该数据处理方案的流程主要包括:
(1)智能设备获取与目标用户相关联的文本数据集合和多媒体数据集合;其中,与目标用户相关联的文本数据集合可以包括但不限于:目标用户的昵称、个性签名、个人介绍,以及与目标用户相关联的多媒体资源(如目标用户发布的视频)的标题文本以及关键帧文本;目标用户相关联的多媒体数据集合是基于与目标用户相关联的多媒体资源得到的,例如,与用户A关联的多媒体数据1可以是从用户A发表的文章中提取的文本,多媒体数据2可以是对用户A上传至多媒体平台中的图片或视频进行文字(图像)识别后得到的文本(如视频中的旁白),多媒体数据3可以是对用户A上传至网络中的音频进行语音识别后得到的文本。
(2)智能设备对文本数据集合中的文本数据进行分词处理(如jieba分词),并根据文本数据集合中各个分词的出现参数(如出现次数、出现频率等),确定目标用户的第一特征向量;文本数据集合包括以下至少一种:与目标用户相关联的多媒体资源的摘要数据和标识文本(如用户昵称、个性签名、个人简介等);其中,摘要数据包括(与目标用户相关联的多媒体资源的)标题文本(如多媒体资源的标题)和关键帧文本(如多媒体资源的首帧中包含的文字)。例如,智能设备可以根据摘要数据中各个分词在摘要数据中出现的次数构建目标用户的第一特征向量;又例如,摘要数据中各个分词在摘要数据中出现的次数,以及标识文本中各个分词在标识文本中出现的次数共同构建目标用户的第一特征向量。
(3)智能设备根据多媒体数据集合,确定目标用户的第二特征向量;例如,智能设备可以分别对多媒体数据集合中的多媒体数据进行特征提取,得到多媒体数据集合中各个多媒体数据的特征,并基于这些多媒体数据的特征得到目标用户的第二特征向量(如对多媒体数据的特征进行加权求和、均值化处理等);又例如,智能设备可以提取多媒体数据集合中的关键词,并基于这些关键词得到目标用户的第二特征向量。
(4)智能设备基于第一特征向量和第二特征向量,确定目标用户的类型,例如,智能设备可以将第一特征向量和第二特征向量进行合并,得到目标用户的多维特征向量,通过分类模型对目标用户的多维特征向量进行分类处理,进而根据分类结果确定目标用户的类型。例如,预测目标用户是否为内容(多媒体资源)原创作者、目标用户是否为美食博主等等。
本申请实施例中,获取与目标用户相关联的文本数据集合和多媒体数据集合,对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量,根据多媒体数据集合,确定目标用户的第二特征向量,基于第一特征向量和第二特征向量,确定目标用户的类型。可见,通过提取目标用户在多个维度的特征向量(与目标用户相关联的文本数据的特征向量以及与目标用户相关联的多媒体数据的特征向量)来对目标用户所属的类型进行预测,进而能够较好地提高目标用户标识分类的效率和准确度。
请参阅图2,图2为本申请实施例提供的一种数据处理方法的流程示意图。本申请实施例的方法应用于智能设备,该智能设备例如可以是某些用户所使用的终端设备,也可以是某些具有特殊功能的服务器。所述方法包括如下步骤:
S201、获取与目标用户相关联的文本数据集合和多媒体数据集合。
与目标用户相关联的文本数据集合可以包括但不限于:目标用户的标识文本(如目标用户的昵称、个性签名、个人介绍等),以及与目标用户相关联的多媒体资源(如目标用户发布的视频)的标题文本(如目标用户上传的视频的标题)以及关键帧文本(如目标用户上传的视频的首帧图片中的文字);与目标用户相关联的多媒体数据集合是基于与目标用户相关联的多媒体资源得到的;例如,与用户A关联的多媒体数据1可以是从用户A发表的文章中提取的文本,多媒体数据2可以是对用户A上传至多媒体平台中的图片或视频进行文字(图像)识别后得到的文本(如视频中的旁白),多媒体数据3可以是对用户A上传至网络中的音频进行语音识别后得到的文本。
S202、对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量。
文本数据集合中的文本数据可以包括但不限于:单词、短语、句子、段落等。智能设备可以通过文本分割算法(如jieba分词)对文本数据集合中的文本数据进行分词处理,得到的分词除了可以是词语以外,也可以是单独的一个字,例如,对“到某地看风景”进行拆分处理,得到的特征词包括:“到”,“某地”,“看”,“风景”(特征词的排列顺序也可以是乱序排列的)。
出现参数包括以下至少一种:分词在文本数据集合中出现的次数,分词在文本数据集合中出现的频率。
在一种实施方式中,智能设备可以根据各个分词在该分词关联的文本数据中出现的次数(如对于目标用户的昵称来说,基于目标用户的昵称得到的分词关联的文本数据为该目标用户的昵称本身;对于摘要数据来说,基于摘要得到的分词关联的文本数据为与目标用户关联的所有标题文本和关键帧文本),构建目标用户的第一特征向量;以文本数据集合中的标识文本为例,设目标用户的标识文本(昵称)为:电影王说电影,目标用户的标识的分词为:“电影”,“王”,“说”,其中“电影”出现的次数为2,“王”和“说”出现的次数为1;若分词的排列顺序为:电影,说,王,则基于目标用户的标识构建的目标用户的第一特征向量为[2,1,1];又例如,设目标用户的标识文本(昵称)为:爱旅游的小王,目标用户的标识的分词为:“爱”,“旅游”,“的”,“小王”,其中“爱”,“旅游”,“的”,“小王”出现的次数均为1;若分词的排列顺序为:旅游,小王,爱,的;则基于目标用户的标识文本构建的目标用户的第一特征向量为[1,1,1,1]。
在另一种实施方式中,智能设备可以根据分词在该分词关联的文本数据中出现的次数统计该特征词的出现频率,并基于出现频率构建目标用户的第一特征向量;以文本数据集合中的摘要数据为例,设摘要数据包括摘要1和摘要2,摘要1包括标题文本1:“炸鸡新吃法”和关键帧文本1:“炸鸡秘制蘸料”,摘要2包括标题文本2:“泡面的十种吃法”和关键帧文本2:“番茄鸡蛋泡面”,关键帧文本3:“火腿肠泡面”,则摘要数据的分词为:“炸鸡”,“新”,“吃法”,“秘制”,“蘸料”,“泡面”,“的”,“十种”,“番茄”,“鸡蛋”,“火腿肠”,其中,“炸鸡”和“吃法”的出现频率为2/15,“泡面”的出现频率为3/15,其他分词的出现频率均为1/15;设分词的排列顺序为:“炸鸡”,“新”,“十种”,“吃法”,“秘制”,“番茄”,“鸡蛋”,“火腿肠”,“的”,“蘸料”,“泡面”,则基于摘要数据构建的目标用户的第一特征向量为:[2/15,1/15,1/15,2/15,1/15,1/15,1/15,1/15,1/15,1/15,3/15]。
S203、根据多媒体数据集合,确定目标用户的第二特征向量。
在一种实施方式中,智能设备可以分别对多媒体数据集合中的多媒体数据进行特征提取(如通过特征提取模型对多媒体数据进行特征提取),得到多媒体数据集合中各个多媒体数据的特征,并基于这些多媒体数据的特征得到目标用户的第二特征向量(如对多媒体数据的特征进行加权求和、均值化处理等)。
在一个实施例中,多媒体数据集合中的每条多媒体数据包括一个文档(例如可以是该多媒体数据的旁白文档),智能设备获取各个多媒体数据的文档中样本词对应的样本词向量,并基于每个文档对应的样本词向量得到的该文档的文档向量。具体地,每个文档中包括至少两个样本词,智能设备生成目标文档的初始文档向量,并通过初始文档向量和第一样本词的样本词向量预测第二样本词的预测词向量,基于第二样本词的预测词向量和第二样本词的样本词向量之间的损失值,调整初始文档向量,得到目标文档的文档向量。在得到各个多媒体数据的文档向量后,智能设备对这些文档向量进行均值化处理,得到目标用户的第二特征向量。
在另一种实施方式中,智能设备可以提取多媒体数据集合中的关键词(如对多媒体数据进行分词处理,并将出现次数大于次数阈值的分词确定为关键词),并基于这些关键词得到目标用户的第二特征向量(如通过词袋模型)。具体的实施方式可参考步骤S202中的实施方式,在此不再赘述。
S204、基于第一特征向量和第二特征向量,确定目标用户的类型。
智能设备通过第一特征向量和第二特征向量对目标用户的类型进行预测,进而确定该目标用户的类型;例如,预测目标用户是否具有人设、目标用户是否为美食博主、目标用户是否为影视博主等等。
在一种实施方式中,智能设备可以通过分类模型(如朴素贝叶斯算法、决策树等)对第一特征向量和第二特征向量进行分类处理,进而根据分类处理确定目标用户的类型。以决策树为例,智能设备可以通过具有人设的用户的特征向量和不具有人设的用户的特征向量对决策树进行训练,然后通过训练后的决策树对目标用户的第一特征向量和第二特征向量进行分类处理,进而确定目标用户是否为具有人设的用户。
本申请实施例中,获取与目标用户相关联的文本数据集合和多媒体数据集合,对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量,根据多媒体数据集合,确定目标用户的第二特征向量,基于第一特征向量和第二特征向量,确定目标用户的类型。可见,通过提取目标用户在多个维度的特征向量(与目标用户相关联的文本数据的特征向量以及与目标用户相关联的多媒体数据的特征向量)来对目标用户所属的类型进行预测,进而能够较好地提高目标用户标识分类的效率和准确度。
请参阅图3,图3为本申请实施例提供的另一种数据处理方法的流程示意图。本申请实施例的方法应用于智能设备,该智能设备例如可以是某些用户所使用的终端设备,也可以是某些具有特殊功能的服务器。所述方法包括如下步骤:
S301、获取与目标用户相关联的文本数据集合和多媒体数据集合。
在一种实施方式中,与目标用户相关联的文本数据集合包括以下至少一种:与目标用户标识相关联的多媒体资源的标题文本、目标用户的标识文本、以及与目标用户标识相关联的多媒体资源的关键帧(如通过OCR提取封面图)文本。
图4a为本申请实施例提供的一种获取与目标用户相关联的文本数据集合和多媒体数据集合的流程图,如图4a所示,根据目标用户的身份标识(如账号、手机号等),确定与目标用户标识关联的多媒体资源集合,该多媒体资源集合可以包括多媒体平台中所有与目标用户的身份标识相关联的多媒体资源,或者包括多媒体平台中部分与目标用户的身份标识关联的多媒体资源,如与目标用户相关联的多媒体资源集合是从多媒体平台中与目标用户的身份标识相关联的多媒体资源中随机抽取的P个多媒体资源。一方面,智能设备通过对与目标用户标识关联的多媒体资源集合进行爬虫得到爬虫数据(例如,通过OCR或者语音识别技术得到多媒体资源对应的多媒体数据(如旁白文本)),并对爬虫数据进行本地存储(即存储在智能设备中),然后通过第一中台接口(Post中台接口)获取与目标用户相关联的多媒体数据集合(基于爬虫数据得到的)对应的第一待处理数据;另一方面,智能设备通过第二中台接口(Get中台接口)获取与目标用户相关联的文本数据集合(如标识文本,摘要数据等)对应的第二待处理数据;例如,智能设备可以从大数据分布式仓库中获取与目标用户的身份标识相关联的文本数据,通过开发结构化查询语言进行汇总计算后,拉取进行本地化存储。在获得第一待处理数据和第二待处理数据后,智能设备对第一待处理数据和第二待处理数据进行数据结构化处理,得到与目标用户相关联的文本数据集合和多媒体数据集合。
S302、对摘要数据进行分词处理,得到摘要分词集合。
在一种实施方式中,与目标用户相关联的文本数据集合包括与目标用户相关联的多媒体资源的摘要数据,摘要数据具体可以包括(与目标用户相关联的多媒体资源的)标题文本和(与目标用户相关联的多媒体资源的)关键帧文本,且每个标题文本关联有至少一个关键帧文本;也就是说,摘要数据是由标题文本和关键帧文本组成的。
智能设备可以通过文本分割算法(如jieba分词)对摘要数据进行分词处理,得到摘要分词集合。例如,设摘要数据包括摘要1和摘要2,摘要1包括标题文本1:“炸鸡新吃法”和关键帧文本1:“炸鸡秘制蘸料”,摘要2包括标题文本2:“泡面的十种吃法”和关键帧文本2:“番茄鸡蛋泡面”,关键帧文本3:“火腿肠泡面”,则摘要数据的分词为:“炸鸡”,“新”,“吃法”,“秘制”,“蘸料”,“泡面”,“的”,“十种”,“番茄”,“鸡蛋”,“火腿肠”。
S303、统计摘要分词集合中各个摘要分词在摘要数据中的第一出现参数,并根述第一出现参数构建第一语义向量。
第一出现参数包括以下至少一种:各个摘要分词在与目标用户相关联的摘要数据中出现的次数,各个摘要分词在与目标用户相关联的摘要数据中出现的频率。
在一种实施方式中,智能设备根据各个摘要分词在与目标用户相关联的摘要数据中出现的次数(即第一出现参数),构建第一语义向量(如向量矩阵);例如,设摘要数据包括摘要1和摘要2,摘要1包括标题文本1:“炸鸡新吃法”和关键帧文本1:“炸鸡秘制蘸料”,摘要2包括标题文本2:“泡面的十种吃法”和关键帧文本2:“番茄鸡蛋泡面”,关键帧文本3:“火腿肠泡面”,则摘要数据的分词为:“炸鸡”,“新”,“吃法”,“秘制”,“蘸料”,“泡面”,“的”,“十种”,“番茄”,“鸡蛋”,“火腿肠”,其中,“炸鸡”和“吃法”的出现次数为2,“泡面”的出现次数为3,其他分词的出现次数均为1;设分词的排列顺序为:“炸鸡”,“新”,“十种”,“吃法”,“秘制”,“番茄”,“鸡蛋”,“火腿肠”,“的”,“蘸料”,“泡面”,则基于摘要数据构建的目标用户的第一语义向量为:[2,1,1,2,1,1,1,1,1,1,3]。
在另一种实施方式中,智能设备根据各个摘要分词在与目标用户相关联的摘要数据中出现的频率(即第一出现参数),构建第一语义向量(如向量矩阵);例如,设摘要数据包括摘要1和摘要2,摘要1包括标题文本1:“炸鸡新吃法”和关键帧文本1:“炸鸡秘制蘸料”,摘要2包括标题文本2:“泡面的十种吃法”和关键帧文本2:“番茄鸡蛋泡面”,关键帧文本3:“火腿肠泡面”,则摘要数据的分词为:“炸鸡”,“新”,“吃法”,“秘制”,“蘸料”,“泡面”,“的”,“十种”,“番茄”,“鸡蛋”,“火腿肠”,其中,“炸鸡”和“吃法”的出现频率为2/15,“泡面”的出现频率为3/15,其他分词的出现频率均为1/15;设分词的排列顺序为:“炸鸡”,“新”,“十种”,“吃法”,“秘制”,“番茄”,“鸡蛋”,“火腿肠”,“的”,“蘸料”,“泡面”,则基于摘要数据构建的目标用户的第一语义向量为:[2/15,1/15,1/15,2/15,1/15,1/15,1/15,1/15,1/15,1/15,3/15]。
进一步地,智能设备可以采用加权算法(如TF-IDF(Term Frequency–InverseDocument Frequency)算法)计算各个摘要分词的权重,并根据各个摘要分词的权重对第一语义向量进行加权处理,得到加权后的第一语义向量。其中,每个摘要分词的权重随着它在摘要数据中出现的次数成正比增加,同时会随着它在语料库(基于摘要数据生成的)中出现的频率成反比下降;例如,设与用户1相关联的摘要数据包括标题文本1:“电影解说”,关键帧文本1:“XX电影”;与用户2相关联的摘要数据包括标题文本2:“电影剖析”,关键帧文本2:“YY电影”;设与用户1相关联的摘要数据的摘要分词排列顺序为:“解说”,“XX”,“电影”,则用户1的第一语义向量为[1,1,2],TF值为:1/4,1/4,2/4,IDF值为:1/2,1/2,2/2,各个摘要分词的权重(TF/IDF)为:1/2,1/2,1/2,用户1加权后的第一语义向量为[1/2,1/2,1];设与用户2相关联的摘要数据的摘要分词排列顺序为:“YY”,“电影”,“剖析”,与用户1的加权后的第一语义向量的计算方式类似,用户2加权后的第一语义向量为[1/2,1,1/2]。
S304、对标识文本进行分词处理,得到标识分词集合。
在一种实施方式中,与目标用户相关联的文本数据集合还包括标识文本,标识文本(如目标用户的昵称,个性签名,个人介绍等)。智能设备可以通过文本分割算法(如jieba分词)对标识文本进行分词处理得到标识分词集合。例如,设目标用户的标识文本(昵称)为:电影王说电影,目标用户的标识的分词为:“电影”,“王”,“说”。
S305、统计标识分词集合中各个标识分词在标识文本中的第二出现参数,并根据第二出现参数构建第二语义向量。
第二出现参数包括以下至少一种:标识分词在标识文本中出现的次数,M标识分词在标识文本中出现的频率。步骤S305的具体实施方式与步骤S303中的实施方式类似,在此不再赘述。
S306、对第一语义向量和第二语义向量进行拼接处理,得到目标用户的第一特征向量。
在一种实施方式中,智能设备直接对第一语义向量和第二语义向量进行拼接处理;例如,设第一语义向量为a维矩阵,第二语义向量为b维矩阵,则目标用户标识的第一特征向量为a+b维矩阵。在另一种实施方式中,智能设备根据各个摘要分词的权重对第一语义向量进行加权处理,根据各个标识分词的权重对第二语义向量进行加权处理,并对加权处理后的第一语义向量和第二语义向量进行拼接处理,得到目标用户标识的第一特征向量。
S307、获取各多媒体数据的文档中包含的样本词的样本词向量。
在一种是实施方式中,与目标用户相关联的多媒体数据集合包括N条多媒体数据,N为正整数;每条多媒体数据包括一个文档,且每个文档中包括至少两个样本词,智能设备获取各多媒体数据的文档中包含的样本词的样本词向量(一个样本词对应一个样本词向量),在一个实施例中,样本词向量可以是采用训练数据对初始模型进行训练后得到的。具体地,通过初始模型对训练数据进行预测,得到训练数据的预测结果,根据训练数据对应的标注数据和训练数据的预测结果之间的损失值,对初始模型中的网格参数进行调整,得到文本特征提取模型,以及样本词向量集合。
图4b为本申请实施例提供的一种文本特征提取模型的架构图。如图4b所示,文本特征提取模型通过滑动采样每次从文档中提取词语(各个词语的词向量和文档向量的长度固定),取其中一个词语作预测词,其他的词语(一个或多个)作为输入词。将输入词对应的词向量(word vector)和样本文档对应的样本文档向量(Paragraph vector)作为输入层的输入(如通过编码器得到样本文档的样本文档向量,以及样本词的词向量),将样本文档向量和本次采样的词向量(图4b中为词向量1-词向量3)相加求平均(均值化处理)或者累加(Average/Concatenate)构成一个新的向量X,进而使用这个向量X(如通过解码器)预测此次窗口内的预测词(如下一个单词)。通过预测词与样本词之间的损失值对样本文档向量和网格参数进行调整,得到初始模型收敛后的网格参数(即初始模型训练后得到的文本特征提取模型)和样本文档对应的文档向量。
S308、根据每个文档中包含的样本词的样本词向量,确定该文档的文档向量。
在一种实施方式中,智能设备生成目标文档的初始文档向量(如随机生成目标文档的初始文档向量),目标文档可以是N个文档中的任一个文档。智能设备根据初始文档向量和目标文档的第一样本词的样本词向量,预测目标文档的第二样本词的预测向量;例如,将初始文档向量和目标文档的第一样本词的样本词向量进行累加处理(直接累加或者加权累加),或者均值化处理,得到第二样本词的预测向量。在得到第二样本词的预测向量后,智能设备可以根据预测向量和目标文档的第二样本词的样本词向量之间的损失值,调整初始文档向量,得到目标文档的文档向量。
在一个实施例中,智能设备可以通过文本特征提取模型预测目标文档的文档向量。具体地,文本特征提取模型中携带有样本词向量集合、网格参数,还可以携带有样本文档向量。每一个词语、文档均采用唯一向量进行表示。请参见图4b,智能设备将目标文档的文档向量(Paragraph vector)随机初始化,并将初始文档向量和词向量1-词向量3输入文本特征提取模型中,得到预测词的预测结果,根据随机梯度下降不断迭代求得最终稳定下来的文档向量(即目标文档的文档向量)。需要说明的是,在预测过程中,文本特征提取模型里的词向量还有投影层到输出层的网格参数(如softmax weights)保持不会,在不断迭代中只会更新目标文档的文档向量(Paragraph vector),其他参数均已固定。实践发现,文本特征提取模型能够较为高效地计算出目标文档的文档向量(Paragraph vector)。
S309、对N条多媒体数据的N个文档的文档向量进行均值化处理,得到目标用户的第二特征向量。
在一种实施方式中,智能设备在得到N个文档对应的N个文档向量后,对N个文档向量进行累加,并对累加的结果进行均值化处理,得到目标用户的第二特征向量。
S310、基于第一特征向量和第二特征向量,确定目标用户的类型。
智能设备可以将第一特征向量和第二特征向量进行拼接(直接拼接或者加权拼接),得到目标用户的拼接向量,并基于该拼接向量(如通过分类器、决策树等)确定目标用户的类型。在一种实施方式中,智能设备直接将第一特征向量和第二特征向量输入分类模型,得到分类模型输出的目标用户的类型的预测结果。在另一种实施方式中,智能设备将目标用户标识的拼接向量输入分类模型,得到分类模型输出的目标用户的类型的预测结果。其中,分类模型包括Q个决策树,Q为正整数;目标用户标识的预测结果是根据Q个决策树的分类结果确定的,每个决策树的分类结果是该决策树对第一特征向量和第二特征向量(或者拼接向量)进行分类处理得到的结果。
进一步地,每个决策树是根据该决策树对应的初始化数据子集合构建得到的;初始化数据子集合包括K个从初始化数据集合中选取的初始向量,初始化数据集合中包括S个初始向量,K,S为正整数,且K小于等于S。分类模型的构造过程包括:获取初始化数据集合,初始化数据集合中的S个初始向量包括X目标类型用户的特征向量(正样本)和Z个非目标类型用户的特征向量(负样本),X,Z均为正整数,S=X+Z;根据初始化数据集合,确定Q个决策树的初始化子集合,第i个决策树的初始化子集合包括从X+Z个用户的特征向量中,选取的K个用户的特征向量(如从X+Z个用户的特征向量中有放回的随机选取K个用户的特征向量,即每个决策树的初始化子集合中可能包括同一用户的特征向量(重复特征向量)),i,K为正整数,i小于等于Q,K小于等于X+Z;根据Q个决策树的初始化子集合构造Q个决策树,每个决策树的初始化子集合对应一个决策树;对Q个决策树进行优化训练,得到分类模型。
更进一步地,每个初始向量对应Y个属性,Y为正整数;第i个决策树的根节点的j个子节点,是根据分类属性对第i个决策树的初始化数据子集合进行划分后得到的,每个子节点对应第i个决策树的初始化数据子集合中的至少一个初始向量;分类属性是第i个决策树的候选分类属性中信息增益最大的候选分类属性;第i个决策树的候选分类属性是从Y个属性中选取的至少一个属性,i,j均为正整数,且i小于等于Q。分类模型中,决策树的构造过程包括:将第i个决策树的初始化子集合确定为第i个决策树的根节点的样本数据集;从Y个属性中选取j个属性作为第i个决策树的根节点的j个候选分类属性,并将j个候选分类属性中信息增益(又叫做information divergence,relative entropy或者KLIC,在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布的差异)最大的候选分类属性确定为第i个决策树的根节点的分类属性,j为正整数,且j小于等于Y;根据第i个决策树的根节点的分类属性,将样本数据集划分为v个样本子集,并生成v个叶子节点,每个叶子节点对应一个样本子集。
下面通过一个完整的例子对分类模型的构造进行说明:1)假设有H个样本(包括正样本和负样本),H为正整数,则有放回的随机选择H个样本(每次随机选择一个样本,然后返回继续选择)作为一个决策树的训练子样本。通过该训练子样本来训练一个决策树(将训练子样本作为决策树根节点处的样本)。
2)设训练子样本中每个样本有G个属性,G为正整数,在决策树的每个节点需要分裂时,随机从这G个属性中选取出g个属性,满足条件g<<G。然后从这g个属性中采用信息增益策略(信息增益是根据信息熵得到的,属性的信息增益越大,则该属性的选择性越好)来选择1个属性作为该节点的分类属性。
3)决策树形成过程中每个节点都要按照步骤2)来进行分裂,在一次分裂过程中,如果某个节点选出来的分裂属于与该节点的父节点的分类属性相同,则将该节点确定为决策树的叶子节点,无须继续分裂。一直到决策树的所有节点不能够再分裂为止。需要说明的是,整个决策树形成过程中没有进行剪枝。
4)按照步骤1)~3)建立多个决策树,并根据这些决策树构建分类模型。
在构建完分类模型后,可以对该分类模型进行训练,训练后的分类模型评估参数高于目标阈值;该评估参数例如可以是:AUC、精准度(precision)、查全率(recall)等;其中,AUC(Area Under Curve):是指ROC(Receiver Operating Characteristic)曲线下的面积。一般使用AUC值作为模型的评价标准,AUC越接近于1,模型性能表现越好。进一步地,目标阈值可以通过调和平均数(如F1分数)来确定,调和平均数是根据分类模型的预测数据,以及训练数据对应的标注数据计算得到的;预测数据是分类模型对训练数据进行预测得到的数据。其中,调和平均数是基于精准度和召回率计算得到的;以F1分数(F1-score)为例,F1分数是分类问题的一个衡量指标。在实际应用中,常常将F1-score作为最终测评的方法。它是精准度和召回率的调和平均数,最大为1,最小为0。F1=2*Precision*Recall/(Precision+Recall)。其中,精准度(Precision)指被分类器判定正例中的正样本的比重,召回率(Recall)指的是预测的正例(正样本)与总的正例(实际总的正样本)的比值。
分类模型的训练过程包括:获取训练数据集合,训练数据集合包括训练数据和训练数据对应的标注数据;将训练数据分别输入Q个决策树,得到Q个决策树输出的预测数据;根据预测数据和标注数据计算损失值,并根据该损失值对分类模型中的参数进行调整(如对Q个决策树进行调整),得到优化训练后的分类模型。在实际应用中,对特定目标进行处理时(如Precision和Recall都均衡的情况),可以通过调和平均数,确定该特定目标对应的参数取值。
图4c为本申请实施例提供的一种分类模型的数据处理流程图。如图4c所示,智能设备将各个用户标识的特征向量(具有人设的生产者的特征向量和不具有人设的生产者的特征向量)输入分类模型,得到各个生产者(各个用户)标识的预测结果。表1为本申请实施例提供的一种预测结果表:
表1
生产者名称 等级 是否有标注 人设得分 网站链接
XXX 2 -1 0.9946 地址1
YYY 3 -1 0.9871 地址2
ZZZ 1 -1 0.9843 地址3
如表1所示,“等级”、“是否有标注”、“网站链接”为可选项,“等级”用于指示用户在多媒体平台上的等级,“是否有标注”用于指示与该用户标识关联的数据是否进行过人工标注,“网站链接”(如url)用于指示与用户关联的多媒体资源数据的网络地址(如主页地址)。生产者名称(用户标识)具有索引功能,例如,与“XXX”关联的等级为“2”,是否有标注为“-1”,人设得分为“0.9946”,网站链接为“地址1”。
图4d为本申请实施例提供的一种内容生产者的主页的页面图。如图4d所示,内容生产者的主页中包括用户标识“XXX”,区域401为用户信息摘要(如个性签名、个人简介等),区域402为与“XXX”关联的多媒体资源的展示区域,消费者可以通过触发区域402中的标识来消费对应的多媒体资源,如点击“盘点名车”来观看对应的视频,区域403为用户基本信息,可以包括“XXX”关注的用户数量、“XXX”的粉丝,以及“XXX”的虚拟资源(如虚拟币)的数量。
可选的,在实际应用中,分类模型输出目标用户标识的预测结果可以为人工标注处理提供一个可靠程度高的候选集。人设标签可在运营管理台中被运营查询,辅助决策(参见图1),人设标签作为CP为存储键(key)的媒体资源表中的重要字段,辅助后期的流量分发和CP筛选。
本申请实施例中,获取目标用户标识的数据集合,数据集合包括第一类型数据和第二类型数据,根据第一类型数据的特征词在第一类型数据中的出现参数,确定目标用户标识的第一特征向量;并根据第二类型数据中的P个文档,确定目标用户标识的第二特征向量;基于第一特征向量和第二特征向量,得到目标用户标识的预测结果。可见,通过提取与目标用户标识关联的特征词和文档的特征向量,来对目标用户标识进行预测,进而能够较好地提高目标用户标识分类的效率和准确度。此外通过对与目标用户标识关联的文本内容的向量映射,编码各类文本内容为唯一的语义向量,通过已标注的少量样本和构建的语义向量,来挖掘构建目标用户标识的召回队列。在只需少量标注样本的情况下,显著扩大召回队列中人设样本的覆盖和准确度,同时大大提升后续标准化流程的效率。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
请参见图5,图5为本申请实施例提供的一种数据处理装置的结构示意图,该装置可以搭载在图1所示的智能设备101上。图5所示的数据处理装置可以用于执行上述图2和图3所描述的方法实施例中的部分或全部功能。其中,各个单元的详细描述如下:
获取单元501,用于获取与目标用户相关联的文本数据集合和多媒体数据集合;
处理单元502,用于对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量;
以及用于根据多媒体数据集合,确定目标用户的第二特征向量;
以及用于基于第一特征向量和第二特征向量,确定目标用户的类型。
在一种实施方式中,文本数据集合包括与目标用户相关联的多媒体资源的摘要数据,摘要数据包括标题文本和关键帧文本,每个标题文本关联有至少一个关键帧文本;
处理单元502用于,对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量,具体用于:
对摘要数据进行分词处理,得到摘要分词集合;
统计摘要分词集合中各个摘要分词在摘要数据中的第一出现参数,并根据第一出现参数构建第一语义向量;
基于第一语义向量,确定目标用户的第一特征向量。
在一种实施方式中,文本数据集合还包括标识文本;处理单元502用于,基于第一语义向量,确定目标用户的第一特征向量,具体用于:
对标识文本进行分词处理,得到标识分词集合;
统计标识分词集合中各个标识分词在标识文本中的第二出现参数,并根据第二出现参数构建第二语义向量;
对第一语义向量和第二语义向量进行拼接处理,得到目标用户的第一特征向量。
在一种实施方式中,多媒体数据集合包括N条多媒体数据,N为正整数;每条多媒体数据包括一个文档;处理单元502用于,根据多媒体数据集合,确定目标用户的第二特征向量,具体用于:
获取各个文档中包含的样本词的样本词向量;
根据每个文档中包含的样本词的样本词向量,确定该文档的文档向量;
对N条多媒体数据的N个文档的文档向量进行均值化处理,得到目标用户的第二特征向量。
在一种实施方式中,每个文档中包括至少两个样本词;处理单元502用于,根据每个文档中包含的样本词的样本词向量,确定该文档的文档向量,具体用于:
生成目标文档的初始文档向量,目标文档是N个文档中的任一个文档;
根据初始文档向量和目标文档的第一样本词的样本词向量,预测目标文档的第二样本词的预测向量;
根据第二样本词的预测向量和目标文档中第二样本词的样本词向量之间的损失值,调整初始文档向量,得到目标文档的文档向量。
在一种实施方式中,处理单元502用于,基于第一特征向量和第二特征向量,确定目标用户的类型,具体用于:
将第一特征向量和第二特征向量输入分类模型,分类模型包括Q个决策树,Q为正整数;
获取分类模型输出的目标用户的类型,目标用户的类型是根据Q个决策树的分类结果确定的,每个决策树的分类结果是该决策树对第一特征向量和第二特征向量进行分类处理得到的结果。
在一种实施方式中,每个决策树是根据该决策树对应的初始化数据子集合构建得到的;初始化数据子集合包括K个从初始化数据集合中选取的初始向量,初始化数据集合中包括S个初始向量,K,S为正整数,且K小于等于S。
在一种实施方式中,每个初始向量对应Y个属性,Y为正整数;第i个决策树的根节点的j个子节点,是根据分类属性对第i个决策树的初始化数据子集合进行划分后得到的,每个子节点对应第i个决策树的初始化数据子集合中的至少一个初始向量;分类属性是第i个决策树的候选分类属性中信息增益最大的候选分类属性;第i个决策树的候选分类属性是从Y个属性中选取的至少一个属性,i,j均为正整数,且i小于等于Q。
在一种实施方式中,分类模型的评估参数高于目标阈值,目标阈值是通过调和平均数确定的,调和平均数是根据分类模型的预测数据,以及训练数据对应的标注数据计算得到的;预测数据是分类模型对训练数据进行预测得到的数据。
根据本申请的一个实施例,图2和图3所示的数据处理方法所涉及的部分步骤可由图5所示的数据处理装置中的各个单元来执行。例如,图2中所示的步骤S201可由图5所示的获取单元501执行,步骤S202-步骤S204可由图5所示的处理单元502执行。图3中所示的步骤S301和步骤S307可由图5所示的获取单元501执行,步骤S302-步骤S305和步骤S308-步骤S310可由图5所示的处理单元502执行。图5所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行如图2和图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5中所示的数据处理装置,以及来实现本申请实施例的数据处理方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算装置中,并在其中运行。
基于同一发明构思,本申请实施例中提供的数据处理装置解决问题的原理与有益效果与本申请方法实施例中数据处理装置解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
请参阅图6,图6为本申请实施例提供的一种智能设备的结构示意图,智能设备600至少包括处理器601、通信接口602和存储器603。其中,处理器601、通信接口602和存储器603可通过总线或其他方式连接。其中,处理器601(或称中央处理器(Central ProcessingUnit,CPU))是终端的计算核心以及控制核心,其可以解析终端内的各类指令以及处理终端的各类数据,例如:CPU可以用于解析用户向终端所发送的开关机指令,并控制终端进行开关机操作;再如:CPU可以在终端内部结构之间传输各类交互数据,等等。通信接口602可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等),受处理器601的控制可以用于收发数据;通信接口602还可以用于终端内部数据的传输以及交互。存储器603(Memory)是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器603既可以包括终端的内置存储器,当然也可以包括终端所支持的扩展存储器。存储器603提供存储空间,该存储空间存储了终端的操作系统,可包括但不限于:Android系统、iOS系统、Windows Phone系统等等,本申请对此并不作限定。
在本申请实施例中,处理器601通过运行存储器603中的可执行程序代码,用于执行如下操作:
通过通信接口602获取与目标用户相关联的文本数据集合和多媒体数据集合;
对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量;
根据多媒体数据集合,确定目标用户的第二特征向量;
基于第一特征向量和第二特征向量,确定目标用户的类型。
作为一种可选的实施例,文本数据集合包括与目标用户相关联的多媒体资源的摘要数据,摘要数据包括标题文本和关键帧文本,每个标题文本关联有至少一个关键帧文本;
处理器601对文本数据集合中的文本数据进行分词处理,并根据文本数据集合中各个分词的出现参数,确定目标用户的第一特征向量的具体实施例为:
对摘要数据进行分词处理,得到摘要分词集合;
统计摘要分词集合中各个摘要分词在摘要数据中的第一出现参数,并根据第一出现参数构建第一语义向量;
基于第一语义向量,确定目标用户的第一特征向量。
作为一种可选的实施例,文本数据集合还包括标识文本;处理器601基于第一语义向量,确定目标用户的第一特征向量的具体实施例为:
对标识文本进行分词处理,得到标识分词集合;
统计标识分词集合中各个标识分词在标识文本中的第二出现参数,并根据第二出现参数构建第二语义向量;
对第一语义向量和第二语义向量进行拼接处理,得到目标用户的第一特征向量。
作为一种可选的实施例,多媒体数据集合包括N条多媒体数据,N为正整数;每条多媒体数据包括一个文档;处理器601根据多媒体数据集合,确定目标用户的第二特征向量的具体实施例为:
获取各个文档中包含的样本词的样本词向量;
根据每个文档中包含的样本词的样本词向量,确定该文档的文档向量;
对N条多媒体数据的N个文档的文档向量进行均值化处理,得到目标用户的第二特征向量。
作为一种可选的实施例,每个文档中包括至少两个样本词;处理器601根据每个文档中包含的样本词的样本词向量,确定该文档的文档向量的具体实施例为:
生成目标文档的初始文档向量,目标文档是N个文档中的任一个文档;
根据初始文档向量和目标文档的第一样本词的样本词向量,预测目标文档的第二样本词的预测向量;
根据第二样本词的预测向量和目标文档中第二样本词的样本词向量之间的损失值,调整初始文档向量,得到目标文档的文档向量。
作为一种可选的实施例,处理器601基于第一特征向量和第二特征向量,确定目标用户的类型的具体实施例为:
将第一特征向量和第二特征向量输入分类模型,分类模型包括Q个决策树,Q为正整数;
获取分类模型输出的目标用户的类型,目标用户的类型是根据Q个决策树的分类结果确定的,每个决策树的分类结果是该决策树对第一特征向量和第二特征向量进行分类处理得到的结果。
作为一种可选的实施例,每个决策树是根据该决策树对应的初始化数据子集合构建得到的;初始化数据子集合包括K个从初始化数据集合中选取的初始向量,初始化数据集合中包括S个初始向量,K,S为正整数,且K小于等于S。
作为一种可选的实施例,每个初始向量对应Y个属性,Y为正整数;第i个决策树的根节点的j个子节点,是根据分类属性对第i个决策树的初始化数据子集合进行划分后得到的,每个子节点对应第i个决策树的初始化数据子集合中的至少一个初始向量;分类属性是第i个决策树的候选分类属性中信息增益最大的候选分类属性;第i个决策树的候选分类属性是从Y个属性中选取的至少一个属性,i,j均为正整数,且i小于等于Q。
作为一种可选的实施例,分类模型的评估参数高于目标阈值,目标阈值是通过调和平均数确定的,调和平均数是根据分类模型的预测数据,以及训练数据对应的标注数据计算得到的;预测数据是分类模型对训练数据进行预测得到的数据。
基于同一发明构思,本申请实施例中提供的智能设备解决问题的原理与有益效果与本申请方法实施例中数据处理方法解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有一条或多条指令,一条或多条指令适于由处理器加载并执行上述方法实施例的数据处理方法。
本申请实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例的数据处理方法。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理的方法。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,可读存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (12)

1.一种数据处理方法,其特征在于,所述方法包括:
获取与目标用户相关联的文本数据集合和多媒体数据集合;
对所述文本数据集合中的文本数据进行分词处理,并根据所述文本数据集合中各个分词的出现参数,确定所述目标用户的第一特征向量;
根据所述多媒体数据集合,确定所述目标用户的第二特征向量;
基于所述第一特征向量和所述第二特征向量,确定所述目标用户的类型。
2.如权利要求1所述的方法,其特征在于,所述文本数据集合包括与所述目标用户相关联的多媒体资源的摘要数据,所述摘要数据包括标题文本和关键帧文本,每个标题文本关联有至少一个关键帧文本;
所述对所述文本数据集合中的文本数据进行分词处理,并根据所述文本数据集合中各个分词的出现参数,确定所述目标用户的第一特征向量,包括:
对所述摘要数据进行分词处理,得到摘要分词集合;
统计所述摘要分词集合中各个摘要分词在所述摘要数据中的第一出现参数,并根据所述第一出现参数构建第一语义向量;
基于所述第一语义向量,确定所述目标用户的第一特征向量。
3.如权利要求2所述的方法,其特征在于,所述文本数据集合还包括标识文本;所述基于所述第一语义向量,确定所述目标用户的第一特征向量,包括:
对所述标识文本进行分词处理,得到标识分词集合;
统计所述标识分词集合中各个标识分词在所述标识文本中的第二出现参数,并根据所述第二出现参数构建第二语义向量;
对所述第一语义向量和所述第二语义向量进行拼接处理,得到所述目标用户的第一特征向量。
4.如权利要求1-3任一项所述的方法,其特征在于,所述多媒体数据集合包括N条多媒体数据,N为正整数;每条多媒体数据包括一个文档;所述根据所述多媒体数据集合,确定所述目标用户的第二特征向量,包括:
获取各个文档中包含的样本词的样本词向量;
根据每个文档中包含的样本词的样本词向量,确定该文档的文档向量;
对所述N条多媒体数据的N个文档的文档向量进行均值化处理,得到所述目标用户的第二特征向量。
5.如权利要求4所述的方法,其特征在于,每个文档中包括至少两个样本词;所述根据每个文档中包含的样本词的样本词向量,确定该文档的文档向量,包括:
生成目标文档的初始文档向量,所述目标文档是所述N个文档中的任一个文档;
根据所述初始文档向量和所述目标文档的第一样本词的样本词向量,预测所述目标文档的第二样本词的预测向量;
根据所述第二样本词的预测向量和所述目标文档中第二样本词的样本词向量之间的损失值,调整所述初始文档向量,得到所述目标文档的文档向量。
6.如权利要求1所述的方法,其特征在于,所述基于所述第一特征向量和所述第二特征向量,确定所述目标用户的类型,包括:
将所述第一特征向量和所述第二特征向量输入分类模型,所述分类模型包括Q个决策树,Q为正整数;
获取所述分类模型输出的所述目标用户的类型,所述目标用户的类型是根据所述Q个决策树的分类结果确定的,每个决策树的分类结果是该决策树对所述第一特征向量和所述第二特征向量进行分类处理得到的结果。
7.如权利要求6所述的方法,其特征在于,每个决策树是根据该决策树对应的初始化数据子集合构建得到的;所述初始化数据子集合包括K个从初始化数据集合中选取的初始向量,所述初始化数据集合中包括S个初始向量,K,S为正整数,且K小于等于S。
8.如权利要求7所述的方法,其特征在于,每个初始向量对应Y个属性,Y为正整数;第i个决策树的根节点的j个子节点,是根据分类属性对所述第i个决策树的初始化数据子集合进行划分后得到的,每个子节点对应所述第i个决策树的初始化数据子集合中的至少一个初始向量;所述分类属性是所述第i个决策树的候选分类属性中信息增益最大的候选分类属性;所述第i个决策树的候选分类属性是从所述Y个属性中选取的至少一个属性,i,j均为正整数,且i小于等于Q。
9.如权利要求6所述的方法,其特征在于,所述分类模型的评估参数高于目标阈值;所述目标阈值是通过调和平均数确定的,所述调和平均数是根据所述分类模型的预测数据,以及训练数据对应的标注数据计算得到的;所述预测数据是所述分类模型对所述训练数据进行预测得到的数据。
10.一种数据处理装置,其特征在于,包括:
获取单元,用于获取与目标用户相关联的文本数据集合和多媒体数据集合;
处理单元,用于对所述文本数据集合中的文本数据进行分词处理,并根据所述文本数据集合中各个分词的出现参数,确定所述目标用户的第一特征向量;以及用于根据所述多媒体数据集合,确定所述目标用户的第二特征向量;以及用于基于所述第一特征向量和所述第二特征向量,确定所述目标用户的类型。
11.一种智能设备,其特征在于,包括:存储装置和处理器;
所述存储装置中存储有计算机程序;
处理器,执行计算机程序,实现如权利要求1-9任一项所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,如权利要求1-9任一项所述的数据处理方法被实现。
CN202110961268.1A 2021-08-20 2021-08-20 一种数据处理方法、装置、设备及计算机可读存储介质 Pending CN115712696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110961268.1A CN115712696A (zh) 2021-08-20 2021-08-20 一种数据处理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110961268.1A CN115712696A (zh) 2021-08-20 2021-08-20 一种数据处理方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115712696A true CN115712696A (zh) 2023-02-24

Family

ID=85230225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110961268.1A Pending CN115712696A (zh) 2021-08-20 2021-08-20 一种数据处理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115712696A (zh)

Similar Documents

Publication Publication Date Title
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111444326B (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN114969316B (zh) 一种文本数据处理方法、装置、设备以及介质
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
CN112131430A (zh) 视频聚类方法、装置、存储介质和电子设备
CN113392651A (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN112231347A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN114357204B (zh) 媒体信息的处理方法及相关设备
CN112988954B (zh) 文本分类方法、装置、电子设备和计算机可读存储介质
CN114398505A (zh) 目标词语的确定方法、模型的训练方法、装置及电子设备
CN116205700A (zh) 目标产品的推荐方法、装置、计算机设备和存储介质
CN114281935A (zh) 搜索结果分类模型的训练方法、装置、介质及设备
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN112307738A (zh) 用于处理文本的方法和装置
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination