CN110597977B - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110597977B
CN110597977B CN201910872070.9A CN201910872070A CN110597977B CN 110597977 B CN110597977 B CN 110597977B CN 201910872070 A CN201910872070 A CN 201910872070A CN 110597977 B CN110597977 B CN 110597977B
Authority
CN
China
Prior art keywords
target
content
space
word
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910872070.9A
Other languages
English (en)
Other versions
CN110597977A (zh
Inventor
苏汉
张金超
牛成
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910872070.9A priority Critical patent/CN110597977B/zh
Publication of CN110597977A publication Critical patent/CN110597977A/zh
Application granted granted Critical
Publication of CN110597977B publication Critical patent/CN110597977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质,所述方法包括:接收目标用户对应的信息资源分析请求;响应于所述信息资源分析请求,获取所述目标用户对应的目标词语集合,所述目标词语集合中的目标词语根据所述目标用户对应的相关内容得到,所述相关内容包括所述目标用户的访问内容或者创作内容中的至少一种;获取所述目标词语集合中各个所述目标词语对应的词向量,根据所述词向量得到目标向量集合;确定所述目标向量集合对应的目标空间,根据所述目标空间量化所述目标用户对应的信息资源,上述方法可以提高信息资源分析准确度。

Description

数据处理方法、装置、计算机设备和存储介质
技术类别
本申请涉及计算机技术领域,特别是涉及数据处理方法、装置、计算机设备和存储介质。
背景技术
随着科技与信息的发展,在很多情况下都有对用户进行分析的需求,例如互联网平台根据分析得到的用户画像进行内容推送,用户也可以请求互联网平台进行分析,以获取自己的用户画像。目前,通常是根据用户的基本属性等各种用户信息进行分析。然而,用户信息比较单一,导致分析准确度低。
发明内容
基于此,有必要针对上述分析准确度低的问题,提供一种数据处理方法、装置、计算机设备和存储介质。
一种数据处理方法,所述方法包括:接收目标用户对应的信息资源分析请求;响应于所述信息资源分析请求,获取所述目标用户对应的目标词语集合,所述目标词语集合中的目标词语根据所述目标用户对应的相关内容得到,所述相关内容包括所述目标用户的访问内容或者创作内容中的至少一种;获取所述目标词语集合中各个所述目标词语对应的词向量,根据所述词向量得到目标向量集合;确定所述目标向量集合对应的目标空间,根据所述目标空间量化所述目标用户对应的信息资源。
一种数据处理装置,所述装置包括:分析请求接收模块,用于接收目标用户对应的信息资源分析请求;目标词语集合获取模块,用于响应于所述信息资源分析请求,获取所述目标用户对应的目标词语集合,所述目标词语集合中的目标词语根据所述目标用户对应的相关内容得到,所述相关内容包括所述目标用户的访问内容或者创作内容中的至少一种;目标向量集合得到模块,用于获取所述目标词语集合中各个所述目标词语对应的词向量,根据所述词向量得到目标向量集合;量化模块,用于确定所述目标向量集合对应的目标空间,根据所述目标空间量化所述目标用户对应的信息资源。
在一些实施例中,所述量化模块用于:确定包含所述目标向量集合中的向量的几何图形,根据所述几何图形的大小量化所述目标用户对应的信息资源。
在一些实施例中,所述量化模块用于:获取包含所述目标向量集合中的向量的凸包,根据所述凸包的体积量化所述目标用户对应的信息资源。
在一些实施例中,所述目标词语集合获取模块用于:获取一个或多个目标信息类别,获取所述目标用户对应的词语中,各个所述目标信息类别对应的目标词语,得到所述目标信息类别对应的目标词语集合;所述量化模块用于:根据各个所述目标信息类别分别对应的目标向量集合,确定对应的目标空间;根据所述目标信息类别对应的目标空间,量化所述目标用户在各个所述目标信息类别对应的信息资源。
在一些实施例中,所述量化模块用于:根据所述目标信息类别对应的目标空间的大小,确定所述目标用户对应的信息资源分布。
在一些实施例中,所述量化模块包括:目标空间大小获取单元,用于获取所述目标向量集合对应的目标空间的大小;标准空间大小单元,用于获取标准空间大小;评分单元,用于根据所述目标空间的大小以及所述标准空间大小确定所述目标用户对应的信息资源量评分。
在一些实施例中,所述目标词语集合根据所述目标用户在目标时间段的相关内容得到,所述量化模块包括:参考空间获取单元,用于获取参考向量集合对应的参考空间,所述参考向量集合为参考词语集合对应的向量集合,所述参考词语集合根据所述目标用户在参考时间段的相关内容得到,所述目标时间段包括所述参考时间段;过滤单元,用于从所述目标空间中过滤所述参考空间,得到剩余空间;量化单元,用于根据所述剩余空间的大小量化所述目标用户的信息资源增量。
在一些实施例中,所述信息资源分析请求中携带目标内容标签,所述目标词语集合获取模块包括:用户词语集合获取单元,用于根据所述目标内容标签确定对应的候选词语集合,获取所述目标用户对应的用户词语集合;目标词语集合获取单元,用于获取所述目标内容标签对应的候选词语集合与所述用户词语集合的交集,得到所述目标用户对应的目标词语集合。
在一些实施例中,所述装置还包括:词向量获取模块,用于获取多个候选词语分别对应的词向量;聚类模块,用于根据所述候选词语对应的词向量对所述候选词语进行聚类处理,得到多个候选词语集合;标签确定模块,用于获取包括所述候选词语集合中的候选词语的内容,得到目标内容集合,根据所述目标内容集合中内容对应的标签,确定所述候选词语集合对应的内容标签。
在一些实施例中,所述词向量获取模块用于:获取训练内容集合,所述训练内容集合包括多个训练内容;根据所述训练内容集合进行词向量训练,得到所述训练内容中的候选词语对应的词向量;所述标签确定模块用于:从所述训练内容集合中,获取包括所述候选词语集合中的候选词语的训练内容,得到目标内容集合。
在一些实施例中,所述装置还包括:推送内容集合获取模块,用于获取候选推送内容集合,根据所述候选推送内容对应的词语对应的词向量,得到更新后的目标向量集合对应的目标空间;筛选模块,用于根据更新后的目标空间相对于更新前的目标空间的空间增量,从所述候选推送内容集合中筛选得到目标推送内容;推送模块,用于将所述目标推送内容对应的内容信息推送到所述目标用户对应的终端。
在一些实施例中,所述装置由区块链节点执行,所述装置还包括:存储模块,用于获取资源量化结果,生成所述资源量化结果的结果查询码,将所述结果查询码与所述资源量化结果关联存储到数据区块中。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述数据处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述数据处理方法的步骤。
上述数据处理方法、装置、计算机设备和存储介质,目标词语集合中的目标词语是根据用户的访问内容或者创作内容的至少一个得到的,可以反映用户学习得到的词语,而词向量是对词语的向量化表示,因此通过目标用户对应的词向量对应的空间,可以准确量化用户的信息资源,提高了用户信息资源分析的准确度。
附图说明
图1为一些实施例中提供的数据处理方法的应用环境图;
图2为一些实施例中数据处理方法的流程图;
图3A为一些实施例中凸包的示意图;
图3B为一些实施例中凸包的示意图;
图4为一些实施例中根据目标空间量化目标用户对应的信息资源的流程图;
图5为一些实施例中终端的信息资源分析界面的示意图;
图6为一些实施例中数据处理方法的流程图;
图7为一些实施例中数据处理方法的流程图;
图8为一些实施例中数据处理方法对应的实施示例图;
图9为一些实施例中数据处理装置的结构框图;
图10为一些实施例中计算机设备的内部结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一集合称为第二集合,且类似地,可将第二集合称为第一集合。
图1为一些实施例中提供的数据处理方法的应用环境图,如图1所示,在该应用环境中,包括终端110以及服务器120。当用户需要对自己的知识量进行分析时,可以通过终端110向服务器发送信息资源分析请求,服务器120接收目标用户对应的信息资源分析请求,响应于信息资源分析请求,获取目标用户对应的目标词语集合,目标词语集合中的目标词语根据目标用户对应的相关内容得到,相关内容包括目标用户的访问内容或者创作内容中的至少一个。服务器120获取目标词语集合中各个目标词语对应的词向量,根据词向量得到目标向量集合,确定目标向量集合对应的目标空间,根据目标空间量化目标用户对应的信息资源,得到信息资源量化结果,服务器120将信息资源量化结果发送到终端110。
在一些实施例中,服务器120也可以是自动触发信息资源分析请求或者根据其他请求触发信息资源分析请求,例如可以是每隔预设时长触发信息资源分析请求,或者当接收到内容推送请求时触发信息资源分析请求,得到信息资源量化结果后,服务器120可以根据信息资源量化结果向用户推送内容。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110以及服务器120可以通过网络等通讯连接方式进行连接,本申请在此不做限制。
本申请实施例提供的方案还可以涉及区块链相关技术,例如可以将信息资源量化结果存储到区块链中,也可以由区块链节点执行资源分析。通过将信息资源量化结果存储到区块链的数据区块中,可以保证信息资源量化结果的安全性和可靠性,而且由于区块链的不可篡改性,可以避免恶意篡改信息资源量化结果,进而保障了查询得到的信息资源量化结果的真实性。
在一些实施例中,将信信息资源量化结果存储到区块链时,区块链节点可以生成信息资源量化结果对应的结果查询码,结果查询码可以是对信息资源量化结果进行哈希得到的,这样可以保证结果查询码的唯一性。当区块链节点接收到携带结果查询码的信息资源量化结果查询请求时,可根据结果查询码从数据区块中获取对应的信息资源量化结果,并返回到查询端。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上。其中业务请求可以是信息资源量化结果存储请求。对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
如图2所示,在一些实施例中,提出了一种数据处理方法,本实施例主要以该方法应用于上述图1中的服务器120来举例说明。具体可以包括以下步骤:
步骤S202,接收目标用户对应的信息资源分析请求。
具体地,目标用户是指需要进行信息资源分析的用户。信息资源分析请求用于对用户的信息资源进行分析。用户对应的信息资源可以用于衡量用户所具有的知识。知识是对物质世界以及精神世界探索的结果总和,知识可以通过用户所了解的信息确定。因此信息资源分析请求可以是指对用户所具有的知识进行分析的请求,信息资源分析请求可以是请求对知识的分布、知识的增量或者所学习得到知识总量进行量化。举个例子,信息资源分析请求可以是请求分析用户在不同领域的信息资本,即知识量,可以是分析当前周期所学习得到的知识量或者知识增量。信息资源分析请求中可以携带目标用户对应的用户标识。
在一些实施例中,信息资源分析请求可以是目标用户对应的终端发送的,例如当用户需要了解自己的知识体系或者想了解自己当天学习的内容对应的知识量时,可以通过终端向服务器发送信息资源分析请求。
在一些实施例中,信息资源分析请求可以是自动触发的,可以是每隔预设时长触发一次,例如可以是每天对用户的信息资源进行分析,以获取动态的用户信息画像。
在一些实施例中,信息资源分析请求可以是响应于内容推送请求触发的,例如当需要向目标用户推送内容,接收到内容推送请求时,触发信息资源分析请求。
步骤S204,响应于信息资源分析请求,获取目标用户对应的目标词语集合,目标词语集合中的目标词语根据目标用户对应的相关内容得到,相关内容包括目标用户的访问内容或者创作内容中的至少一种。
具体地,内容可以包括文本、语音或者视频中的一种或多种。用户的访问内容是指用户所访问过的内容。创造内容是指用户创作的内容,例如用户撰写的文章。用户的访问内容可以根据用户的历史访问记录确定,也可以根据用户输入得到。例如当接收到用户获取内容的请求时,可以将该内容作为用户的访问内容,存储用户的内容访问记录。当用户需要对信息资源进行分析时,也可以在终端中输入所阅读文章的链接或者文章本身,服务器根据阅读文章的链接确定对应的文章,得到访问内容。可以获取访问内容以及创造内容中的词语,组成目标词语集合。相关内容可以包括访问内容,也可以包括创造内容。相关内容可以包括多个内容,例如可以包括几十篇文章,这几十篇文章中可以包括用户浏览过的文章,也可以包括用户创作的文章。
目标词语集合中的目标词语是根据目标用户的对应的相关内容得到的。可以获取各个内容对应的词语,组成目标词语集合。对于文本,可以对文本进行分词,得到该文本对应的词语。对于语音,可以将语音转换为文本,再进行词语的提取。对于视频,可以获取该视频对应的字幕,再进行词语的提取。得到各个内容对应的词语后,这些词语组成目标词语集合。可以理解,对于在多个内容中出现的词语,即存在重复的词语时,则在组成目标词语集合时,可以删除重复词语,只保留其中的一个。
在一些实施例中,还可以对内容对应的词语进行过滤,例如可以过滤掉无特殊含义的词语,例如“好的”。当需要量化用户在特定领域的信息资源时,则可以过滤掉不属于该特定领域的词语。
在一些实施例中,当用户的相关内容有多个时,可以获取每个相关内容对应的词语,获取相关内容对应的词语的交集,过滤掉该交集中的词语。由于交集中的词语是在各个相关内容中都出现过的,因此说明该词语一般为通用词语,当需要分析用户在特定领域的信息资源时,则可以过滤掉这些通用的词语。
在一些实施例中,用户对应的相关内容可以是全部的相关内容,例如访问记录中所记录的全部内容,也可以是部分内容,如可以是在当前访问周期所访问的内容。访问周期的长度可以根据需要设置,例如一天。
步骤S206,获取目标词语集合中各个目标词语对应的词向量,根据词向量得到目标向量集合。
具体地,词向量(Word embedding)是对词语的向量化表示。这里的词向量可以是指分布式词向量(distributed word representation),每个词对应的词向量的具体数值根据训练确定,分布式词向量可以用于度量词与词之间的相似性,越相似的词语,则词向量之间的距离越近,可以利用神经网络、单词共生矩阵的降维或者概率模型等方法训练得到词向量,例如可以是利用word2vector工具训练得到词向量。对于分布式向量,词频率与词向量模长负相关,即越常出现的词越靠近向量空间中心。词向量的维数可以根据需要设置,例如可以是100维。
目标向量集合可以是由词向量组成的,也可以是对词向量进行降维处理得到的向量组成的,降维是指降低数据的维度。由于词向量的维数一般较高,因此可以对词向量进行降维处理,降低向量的维度,以减少数据处理的复杂度。例如,可以将词向量降为4维。降维算法可以是SVD(Singular Value Decomposition,奇异值分解)算法或者PCA(PrincipalComponent Analysis,主成分分析)算法等算法。
步骤S208,确定目标向量集合对应的目标空间,根据目标空间量化目标用户对应的信息资源。
具体地。目标空间是在向量空间中,目标向量集合所对应的空间。该目标空间包括了各个目标向量集合中的目标向量。例如可以为包括目标向量的最小图形,例如凸包。目标空间对应的维数可以根据具体需要设定,例如可以是四维空间。
量化是指对用户对应的信息资源进行计量,可以通过数值表示用户的信息资源量,即知识量。量化目标用户对应的信息资源可以包括以下方式的至少一种:计算用户对应的信息资源量、计算用户的信息资源丰富度、计算用户在各个领域的信息资源分布、对用户的信息资源量进行评分或者计算用户的信息资源增量等。在计算用户对应的信息资源量、计算用户的信息资源丰富度、计算用户在各个领域的信息资源分布、对用户的信息资源量进行评分以及计算用户的信息资源增量时,可以将空间的大小作为用户的信息资源量的象征,根据空间的大小计算信息资源丰富度、计算用户在各个领域的信息资源分布、对用户的信息资源量进行评分以及计算用户的信息资源增量。
在一些实施例中,在计算信息资源丰富度时,可以设置空间的大小与信息资源丰富度的变换关系,具体可以根据需要设置。例如,可以根据词典的词语或者特定类别的词语对应的空间大小、资源量最大值以及目标空间的大小确定信息资源丰富度。变换关系可以为y=n/m*k,其中y表示用户对应的信息资源丰富度,m表示所有词向量词典的所有词语或者特定类别的词语对应的空间大小,n表示目标空间大小,k表示最大丰富度,具体可以根据需要设置,例如可以设置为1,表示一个人最大的信息资源丰富度为1,当然也可以为其他数字,例如100。最大丰富度表示知晓所有自然词语或者特定类别的词语时,所对应的信息资源丰富度。通过计算信息资源丰富度,可以将知识丰富程度这一抽象概念通过数字标量表示。
在一些实施例中,在计算信息资源量时,可以设置空间的大小与信息资源量的变换关系,其中,空间的大小与信息资源量成正相关关系,即空间越大,则信息资源量越大,具体可以根据需要或者实验确定。例如,可以将体积作为信息资源量。可以设置当空间的体积为1000单位时,则信息资源量为2000。
在一些实施例中,信息资源量可以是所有类别的信息对应的信息资源量。也可以是每个信息类别分别对应的信息资源量。
在一些实施例中,可以对用户的信息资源量进行评分,可以设置空间大小与信息资源量评分的对应关系,可以根据目标空间的大小与标准空间大小的比例,计算得到信息资源量评分。标准空间大小可以是目标用户对应的历史空间的大小,可以是历史空间的平均大小,这里历史空间是指在计算目标空间之前,所计算得到的用户对应的词向量对应的空间,代表目标用户过去的信息资源量。也可以是所有用户对应空间的平均大小,代表所有用户的平均信息资源量。例如,可以将得到的目标空间的大小除以用户对应的历史空间的大小,再乘以100,得到信息资源量评分。标准空间大小也可以是词向量词典的所有词语或者特定类别的词语对应的空间大小,此时信息资源量评分表示用户的信息资源丰富度。
在一些实施例中,对用户进行信息资源分析可以是每隔预设时长分析一次,可以将当次得到的目标空间与之前得到的空间进行对比,确定用户在上一次进行信息资源分析后,到当前进行信息分析时的一段时间内,知识量的变化。
在一些实施例中,还可以获取目标向量集合各个目标向量与参考方向的角度,得到角度集合;确定角度集合对应的角度离散度,根据角度离散度确定目标用户的信息资源分散度。
具体地,参考方向可以根据需要设置,例如X轴的正方向。也可以是目标向量集合中任一目标向量对应的方向。角度离散度表示角度的离散程度,可以用角度标准差表示。角度离散度能够表示词的分散程度,因此可以反映用户的知识的分散程度,角度离散度与信息资源分散度成正相关关系,例如可以将角度离散度作为目标用户的信息资源分散度。
在一些实施例中,还可以根据量化的信息资源确定用户的“思维活跃度”或者“阅读综合指数”等指标。例如可以根据不同领域的信息资源量确定用户的思维活跃度。可以获取信息资源量超过预设信息资源量的领域的个数,个数越多,则对应的思维活跃度越大。
上述数据处理方法、装置、计算机设备和存储介质,目标词语集合中的目标词语是根据用户的访问内容或者创作内容的至少一个得到的,可以反映用户学习得到的词语,而词向量是对词语的向量化表示,因此通过目标用户对应的词向量对应的空间,可以准确量化用户的信息资源,提高了用户信息资源分析的准确度。
在一些实施例中,确定目标向量集合对应的目标空间,根据目标空间量化目标用户对应的信息资源包括:确定包含目标向量集合中的向量的几何图形,根据几何图形的大小量化目标用户对应的信息资源。
具体地,得到的几何图形是包含了目标向量集合中的向量的图形,该几何图形可以是包含目标向量集合中的向量的最小图形。几何图形的大小可以用面积、长度、高度、宽度或者体积中的至少一种表示。几何图形越大,则对应的信息资源量也越大。可以根据几何图形的大小量化目标用户对应的信息资源。例如,可以将体积作为信息资源量。
在一些实施例中,确定包含目标向量集合中的向量的几何图形,根据几何图形的大小量化目标用户对应的信息资源包括:获取包含目标向量集合中的向量的凸包,根据凸包的体积量化目标用户的信息资源。
具体地,凸包(Convex Hull)是指:在实数向量空间中,对于给定集合X,所有包含X的凸集的交集S被称为X的凸包,即包含X的最小凸集。对于一个集合D,D中任意有限个点的凸组合的全体称为D的凸包。如图3A所示,在二维欧几里得空间中,凸包可想象为一条刚好包着所有向量的橡皮圈。如图3B所示,高维空间(三维以上,包括三维)则是包围所有向量的凸状体。凸包的计算方法可以是是Graham(格雷厄姆)扫描法或者Jarvis(贾维斯)步进法。得到凸包的体积后,可以利用凸包的体积评估用户的信息资源量,即用户知识的广度。也可以利用不同信息类别的凸包的体积计算用户信息资源的分布,即知识的分布。
在一些实施例中,获取目标用户对应的目标词语集合包括:获取一个或多个目标信息类别,获取目标用户对应的词语中,各个目标信息类别对应的目标词语,得到目标信息类别对应的目标词语集合。确定目标向量集合对应的目标空间,根据目标空间量化目标用户对应的信息资源包括:根据各个目标信息类别分别对应的目标向量集合,确定对应的目标空间;根据目标信息类别对应的目标空间,量化目标用户在各个目标信息类别对应的信息资源。
具体地,信息的分类可以根据需要设置,例如可以根据领域进行分类,分为生物、计算机、化学以及物理等类别。也可以根据信息对应的话题进行分类,分为汽车、互联网以及财经等类别。一个信息类别对应一个目标词语集合,获取各个信息类别对应的目标词语集合。得到各个信息类别对应的目标词语集合后,计算每个目标信息类别对应的空间,因此可以根据每个类别对应的空间,量化目标用户在各个目标信息类别对应的信息资源。例如,确定用户在每个信息类别的信息资源量。
在一些实施例中,目标信息类别可以是用户指定的,例如信息资源分析请求中可以携带目标信息类别,目标信息类别也可以是预先设置的,例如可以设置所要分析的领域为汽车、计算机以及房产。因此可以得到汽车信息类别对应的目标空间,计算机类别对应的目标空间以及房产对应的目标空间。
在一些实施例中,可以预先设置每个信息类别对应的词语,得到用户对应的词语后,获取用户的词语与目标信息类别对应的词语的交集,得到目标信息类别对应的目标词语集合。
在一些实施例中,根据目标信息类别对应的目标空间,量化目标用户在各个目标信息类别对应的信息资源包括:根据目标信息类别对应的目标空间的大小,确定目标用户对应的信息资源分布。
具体地,信息资源分布体现了用户知识的分布,可以用于表示用户的知识体系。信息资源的分布可以用比例表示。例如可以将空间的体积作为信息资源量的象征,获取用户对应的信息资源总量,将各个目标信息类别对应的信息量除以信息资源总量,得到用户在各个信息类别对应的信息资源比例。举个实际的例子,假设A信息类别对应的体积为t1,B信息类别对应的体积为t2,C信息类别对应的体积为t3,则用户的信息资源分布为:A信息类别的比例为t1/(t1+t2+t3),B信息类别的比例为t2/(t1+t2+t3),C信息类别的比例为t3/(t1+t2+t3)。因此通过计算得到信息资源分布,可以了解用户的知识体系或者兴趣爱好。
在一些实施例中,如图4所示,根据目标空间量化目标用户对应的信息资源包括:
步骤S402,获取目标向量集合对应的目标空间的大小。
在一些实施例中,目标词语集合根据目标用户在目标时间段的相关内容得到,目标时间段是指此次信息资源分析请求所对应的时间段,时间段的长度可以根据需要设置,例如如果是每天触发一次信息资源分析请求,则目标时间段可以是过去的一天,也可以是过去的所有时间或者过去的一个月。如果是每周触发一次信息资源分析请求,则目标时间段可以是过去的一周,也可以是是过去的所有时间。因此得到的目标词语集合可以是从目标时间段所访问或者创作的内容中得到的,代表了目标时间段所学习得到的信息资源。
步骤S404,获取标准空间大小。
具体地,标准空间大小可以是预先设定的,标准空间大小相当于参考评分标准,用于对用户对应的信息资源量进行评分。标准空间大小例如可以是所有自然语言词汇对应的词向量对应的空间大小,也可以是某一个信息类别对应的所有词语的词向量所对应的空间的大小。还可以将对目标用户进行多次信息资源分析,计算得到的空间的大小的平均值,作为标准空间大小。也可以将上一次对目标用户进行信息资源分析时,所得到的空间的大小作为参考空间大小。还可以是其他用户对应的空间的大小,例如根据另一个用户B对应的词语集合,按照本申请实施例提供的方法所得到的空间的大小。因此标准空间大小可以是上述空间大小的任一个或多个
在一些实施例中,标准空间大小为参考向量集合对应的空间的大小,参考向量集合为参考词语集合对应的向量集合,参考词语集合根据目标用户在参考时间段的相关内容得到。参考时间段可以是上一次对用户进行信息资源分析所对应的时间段。可以将上一个信息资源分析周期作为参考时间段,例如将上一个星期所访问的内容对应的词语集合作为参考词语集合,则标准空间大小为对上一个内容访问周期所访问的内容进行信息资源分析时,向量集合对应的空间的大小。
步骤S406,根据目标空间的大小以及标准空间大小确定目标用户对应的信息资源量评分。
具体地,信息资源量评分反映了目标用户的信息资源量的高低,评分是根据目标空间的大小与参考空间的大小的对比得到的,例如可以是将目标空间的体积除以参考空间的体积,得到体积比例,根据体积比例得到信息资源量评分。例如可以将体积比例乘以总分,得到信息资源量评分,总分是指信息资源量评分的最大分数,例如可以是100分。
在一些实施例中,目标词语集合根据目标用户在目标时间段的相关内容得到,目标时间段为当前访问周期对应的时间段,标准空间大小是目标用户在历史访问周期对应的空间的大小,例如可以将一天作为一个访问周期。信息资源量评分反映了目标用户在当前访问周期,所学习得到的知识量与本人在其他访问周期学习得到的知识量的差异。
在一些实施例中,标准空间大小为其他用户在相同访问周期对应的词向量所对应的空间的大小,因此信息资源量评分反映了目标用户在相同访问周期中,所学习得到的知识量与其他用户学习到的知识量的差异,可以让用户了解自己在该访问周期的学习情况。
举例说明,假设根据用户A今天的访问内容进行信息资源分析,得到的凸包的总体积为80,而根据用户上一周的访问内容进行资源分析,得到的凸包总体积为100,总分为32,则今天信息资源量评分为25.6分。
如图5所示,可以向用户对应的终端返回信息资源量评分以及在各个信息类别的信息资源分布图,作为用户的信息画像,即知识画像,从而使得用户了解自己的知识体系。其中图5中,信息资源量评分为25.6,,32分表示总分。APP、创业、NLP以及短视频表示信息类别。扇形的面积越大,则表示对应的凸包体积越大。
在一些实施例中,目标词语集合根据目标用户在目标时间段的相关内容得到,根据目标空间量化目标用户对应的信息资源包括;获取参考向量集合对应的参考空间,参考向量集合为参考词语集合对应的向量集合,参考词语集合根据目标用户在参考时间段的相关内容得到,目标时间段包括参考时间段;从目标空间中过滤参考空间,得到剩余空间;根据剩余空间的大小量化目标用户的信息资源增量。
具体地,参考时间段可以是上一次对目标用户进行信息资源分析所对应的时间段,目标时间段是包括参考时间段的,例如假设参考时间段表示19年9月1日之前的时间,则目标时间段表示19年10月1日之前的时间。参考向量集合对应的参考空间是根据本申请实施例提供的方法得到的。例如可以获取用户在参考时间段访问的内容,确定参考时间段访问的内容对应的词语集合,得到该词语集合对应的词向量集合,获取该词向量集合对应的空间,作为参考空间。
剩余空间是将参考空间从目标空间中去除所对应的空间。信息资源增量用于量化用户的信息资源增加量,从而确定用户的知识量的增加。可以设置空间的大小与资源量的对应关系。例如可以设置空间的体积与资源量的关系,因此可以获取剩余空间的大小,根据剩余空间的大小确定目标用户的信息资源增量,即参考时间段之外的时间的信息资源增量。举例说明,假设上一次对用户的信息资源进行分析时,目标用户对应的凸包为凸包1,而经过一周的内容访问,在用户已有的词语集合中增加了新的词语,形成了更新后的目标词语集合,因此再次对目标用户进行信息资源分析时,目标用户对应的凸包为凸包2,如果在凸包1的基础上,凸包2对应的词向量的空间延伸了,则表示用户在过去一周学习到了新的知识。因此可以确定延伸的空间的大小,以确定用户在过去一周的知识增量。
在一些实施例中,还可以根据量化的信息资源向用户推送内容,例如,获取信息资源量低的信息类别对应的内容,作为目标推送内容。如图5所示,用户终端上可以展示4个推送的文章的信息,其中“Aaaaa”、“Bbbbb”、“Ccccc”以及“Ddddd”分别表示这4个文章的标题,账户表示这篇文章是来源于哪个公众号,“4天前”表示文章的发表时间。
在一些实施例中,信息资源请求中可以携带目标内容标签,获取目标用户对应的目标词语集合包括:根据目标内容标签确定对应的候选词语集合,获取目标用户对应的用户词语集合;获取目标内容标签对应的候选词语集合与用户词语集合的交集,得到目标用户对应的目标词语集合。
具体地,内容标签(tag)用于表示内容对应的主要内容或者特点,如一篇文章可以具有一个或多个标签,内容标签还可以表示内容的类别。例如,一篇文章的标签可以包括“周星驰”,表示该内容是关于周星驰的。一篇文章的标签也可以包括“深度学习”,表示该文章是关于深度学习的,一篇文章的标签可以包括“娱乐”,表示该文章是属于娱乐领域。候选词语集合可以有多个,可以预先设置内容标签与候选词语集合的对应关系,表示该候选词语集合对应的内容的标签。一个候选词语集合可以对应一个或多个内容标签。当得到目标内容标签之后,可以获取该目标内容标签对应的候选词语集合。例如可以获取各个内容标签对应的内容,获取该内容对应的词语,组成候选词语集合,并设置内容标签与候选内容集合的对应关系。也可以是对词典的词语进行聚类,得到多个词语类别,每个词语类别对应一个候选词语集合。获取包含候选词语集合中的一个或多个候选词语的内容,根据这些内容的标签确认候选内容集合对应的标签。
目标用户对应的用户词语是根据用户的相关内容得到的,可以从目标用户对应的相关内容中提取词语,得到用户词语集合。目标内容标签对应的候选词语集合与用户词语集合的交集是指:既属于目标内容标签对应的候选词语集合,又属于用户词语集合的词语的集合,因此目标词语集合中的词语是目标内容标签对应的候选词语集合与用户词语集合共有的词语。通过获取目标内容标签对应的候选词语集合与用户词语集合的交集,可以筛选得到目标用户在特定内容标签对应的词语,因此得到的目标空间的大小,可以用于量化用户在特定内容标签的资源量。
举例说明,可以获取包括“深度学习”标签的内容对应的词语,组成“深度学习”对应的候选词语集合。获取包括“区块链”标签的内容对应的词语,组成“区块链”对应的候选词语集合。假设用户希望了解自己在深度学习方面的知识量,则信息资源分析请求携带了“深度学习”这一内容标签,故服务器可以获取“深度学习”对应的候选词语集合。并获取用户访问的内容中的词语,组成用户词语集合,获取“深度学习”对应的候选词语集合与用户词语集合的交集,得到目标词语集合,因此可以利用对应的空间的大小,量化用户在“深度学习”方面的知识。
在一些实施例中,可以向用户推送包括该目标内容标签的内容,这样,可以提高用户在该目标内容标签方面的知识量。例如,当内容标签为“深度学习”时,则推送包括“深度学习”标签的文章或者文章链接。
在一些实施例中,如图6所示,数据处理方法还可以包括以下步骤:
步骤S602,获取多个候选词语分别对应的词向量。
具体地,候选词语可以是词向量词典中的所有词语。可以获取语料,例如从互联网平台爬取大量文章,作为语料,对这些文章进行分词,得到对应的词语,作为候选词语。然后利用词向量生成工具例如word2vector生成对应的词向量。
在一些实施例中,获取多个候选词语分别对应的词向量包括:获取训练内容集合,训练内容集合包括多个训练内容;根据训练内容集合进行词向量训练,得到训练内容中的候选词语对应的词向量。
具体地,训练内容是指用于进行词向量训练的内容,在训练得到词向量之前,可以获取大量的语料,作为训练内容。从训练内容中提取得到词语,根据词语在这些训练内容的词频构造Huffman(哈夫曼)树。其中,词频越高的词语对应的编码越短,因此越高频的词语对应的词向量越靠近向量空间的中心。在进行训练时,可以训练得到各个词对应的词向量,即可以将一个词语映射到一个高维的向量中(词向量)来代表这个词语,可以是利用word2vector进行训练。
步骤S604,根据候选词语对应的词向量对候选词语进行聚类处理,得到多个候选词语集合。
具体地,词语聚类是将词语集合分为多个类别,一个类别的词语是由相似的词语组成的。聚类算法例如可以是k均值聚类算法(k-means clustering algorithm)或者均值漂移聚类算法。k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个对象,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有对象或者小于预设数量的对象被重新分配给不同的聚类,没有或者小于预设数量的聚类中心再发生变化等。通过聚类,可以得到多个候选内容集合,一个候选内容集合代表一个类。
步骤S606,获取包括候选词语集合中的候选词语的目标内容,得到目标内容集合,根据目标内容集合中内容对应的标签确定候选词语集合对应的内容标签。
具体地,目标内容是指包括候选词语集合中的词语的内容,这些内容可包括候选词语集合中的一个或多个词语。对于每一个候选词语集合,可与获取包括候选词语的内容,组成该候选词语集合对应的目标内容集合。可以是将目标内容集合中,标签出现次数大于预设次数或者标签出现次数排序在预设排序之前的标签作为候选词语集合对应的标签,其中标签排序是按照从大到小的规则进行排序的。出现次数越多,排序越前。
举个例子,候选词语集合有10个词语,包括词语1的内容有10个,包括词语2的内容有20个……,最终得到该候选内容集合中的内容有20个,其中20个内容中有15个内容的标签包括标签1,12个内容的标签包括标签2,2个内容的标签包括标签3,则可以将标签1以及标签2作为该候选内容集合对应的标签。通过这种利用包括词语的内容的标签,表示词语集合的标签的方式,可以对词语集合进行准确的概括,表示这些词语的特征。
在一些实施例中,可以从训练内容集合中,获取包括候选词语集合中的候选词语的训练内容,得到目标内容集合。例如,可以获取语料中,包括候选词语集合中的候选词语的文章,获取这些文章的话题标签,根据这些文章的话题标签得到词语集合的标签。这样,词向量是根据训练内容训练得到的,又通过训练内容获取到这些词语集合的标签,得到的词语集合的标签准确度高,提高了信息资源量化的准确度。
在一些实施例中,如图7所示,数据处理方法还可以包括以下步骤:
步骤S702,获取候选推送内容集合,根据候选推送内容对应的词语对应的词向量,得到更新后的目标向量集合对应的目标空间。
具体地,候选内容集合可以是从多个互联网平台爬取的内容,也可以是在服务器中已存储的内容,例如服务器可以是社交应用对应的服务器,候选内容集合中的内容可以是该社交平台中的文章。可以从候选推送内容中提取得到词语,获取该词语对应的词向量,加入到目标向量集合中,也可以对词向量进行降维处理,再加入到目标向量集合中,得到更新后的目标向量集合,获取更新后的目标向量集合对应的目标空间。
步骤S704,根据更新后的目标空间相对于更新前的目标空间的空间增量,从候选推送内容集合中筛选得到目标推送内容。
具体地,可以从更新后的目标空间中过滤掉更新前的目标空间,得到剩余空间,计算该剩余空间的体积,得到空间增量。根据空间增量从候选内容集合中筛选出要推送的目标推送内容。例如可以获取空间增量大于预设增量或者空间增量排序在预设排序之前的内容,作为目标推送内容。预设增量可以根据需要设置。其中空间增量排序是按照从大到小的规则进行排序的,增量越大,排序越前。目标推送内容可以为一个或者多个。这样,目标用户对应的推送内容是可以增加用户的知识量的内容。例如,假设候选推送内容有3个,第一个候选推送内容对应的空间增量为9个单位体积,第二个候选推送内容对应的空间增量为10个单位体积,第三个候选推送内容对应的空间增量为100个单位体积,第三个候选推送内容对应的空间增量最大,则可以将第三个候选推送内容作为目标推送内容。
步骤S706,将目标推送内容对应的内容信息推送到目标用户对应的终端。
具体地,目标推送内容对应的内容信息可以是目标推送内容本身,也可以是目标推送内容的标题、图片或者链接地址中的至少一个。得到目标推送内容后,获取目标推送内容对应的内容信息,将该内容信息推送给目标用户对应的终端,以使得目标用户可以根据目标推送内容对应的内容信息访问目标内容。
本申请实施例提供的方法可以应用于内容推送中,在进行内容推送时,如果仅仅是根据用户的兴趣进行推送,那么很可能导致用户得到的内容都是重复的,用户只是重复的接收这些信息,或者获取到的只是与自己观点或经历相似的内容,推送效率低。而本申请实施例提供的方法,在进行内容推送时,可以推送让用户知识量增长大的内容,从而使得用户的知识量是不断的增长的,提高了用户信息资源获取效率。
在一些实施例中,服务器可以是区块链中的节点,数据处理方法可以由区块链节点执行。数据处理方法还包括:获取资源量化结果,生成资源量化结果的结果查询码,将结果查询码与资源量化结果关联存储到数据区块中。
具体地,资源量化结果是对用户的信息资源进行量化得到的结果,例如可以包括信息资源量、信息资源量评分或者信息资源增量中的一个或多个。数据区块是区块链节点中用来存储数据的存储模块。结果查询码用于查询资源量化结果,与资源量化结果唯一对应。资源量化结果查询码具体可以是字符串、二维码或条形码等。例如可以对资源量化结果以及用户标识进行哈希计算,得到结果查询码。区块链节点可以将结果查询码返回到用户终端中,使得用户可以根据结果查询码在区块链中查询生成的资源量化结果。
以下结合图8,对本申请实施例提供的数据处理方法进行说明,可以包括以下步骤:
1、获取训练内容集合,训练内容集合包括多个训练内容;
具体地,可以获取大量的语料,例如爬取几十万篇文章,作为训练内容。
2、根据训练内容集合进行词向量训练,得到训练内容中的候选词语对应的词向量;
具体地,可以对语料进行分词,得到语料的词语以及词频,词频可以表示词语在语料中的出现次数。根据词频构建哈夫曼树,基于哈夫曼树进行词向量模型的训练,得到对应的词向量。如图8所示,可以利用word2vector进行训练,得到用词向量表示的自然语言的所有词汇分别对应的词向量。
3、根据候选词语对应的词向量对候选词语进行聚类处理,得到多个候选词语集合;
具体地,如图8所示,可以用k均值聚类算法进行聚类,得到每个类别对应的词语集合。
4、从训练内容集合中,获取包括候选词语集合中的候选词语的训练内容,得到目标内容集合,根据目标内容集合中内容对应的标签确定候选词语集合对应的内容标签;
具体地,可以获取语料中包括候选词语集合的词语的文章,作为该词语集合对应的内容。获取这些内容对应的标签,根据内容的标签从中选取出出现次数最多的前3个标签,作为该候选词语集合对应的标签。
5、接收目标用户对应的信息资源分析请求;响应于信息资源分析请求,获取目标用户对应的目标词语集合;
具体地,可以接收用户终端发送的信息资源分析请求,分析请求中携带该用户的标识以及目标内容类别。因此如图8所示,可以获取该用户阅读的历史文章,从用户当天阅读的文章中进行预处理,例如进行分词,得到用户词语集合。然后获取该目标内容类别对应的候选词语集合,获取用户词语集合与该目标内容类别对应的候选词语集合的交集,得到目标词语集合。
6、获取目标词语集合中各个目标词语对应的词向量,根据词向量得到目标向量集合;
具体地,由于步骤2中已经生成了词向量,因此可以获取目标词语集合中各个词语对应的词向量,并对词向量进行降维处理,得到目标向量集合。
7、确定目标向量集合对应的目标空间,根据目标空间量化目标用户对应的信息资源;
具体地,如图8所示,可以计算目标向量集合对应的凸包的体积,获取该用户对应的在该信息类别的历史凸包的平均体积,将目标向量集合对应的凸包的体积除以历史凸包的平均体积,再乘以总分,得到用户在该目标内容类别的信息资源量评分,这样用户可以根据信息资源量评分,确定自己当天所学习的知识量。
8、根据信息资源量化结果进行内容推送。
具体地,可以是获取可使得用户的信息资源量增加的文章,向用户推送该文章的链接以及标题。
如图9所示,在一些实施例中,提供了一种数据处理装置,该数据处理装置可以集成于上述的服务器120中,具体可以包括分析请求接收模块902、目标词语集合获取模块904、目标向量集合得到模块906以及量化模块908。
分析请求接收模块902,用于接收目标用户对应的信息资源分析请求。
目标词语集合获取模块904,用于响应于信息资源分析请求,获取目标用户对应的目标词语集合,目标词语集合中的目标词语根据目标用户对应的相关内容得到,相关内容包括目标用户的访问内容或者创作内容中的至少一种。
目标向量集合得到模块906,用于获取目标词语集合中各个目标词语对应的词向量,根据词向量得到目标向量集合。
量化模块908,用于确定目标向量集合对应的目标空间,根据目标空间量化目标用户对应的信息资源。
在一些实施例中,量化模块908用于:确定包含目标向量集合中的向量的几何图形,根据几何图形的大小量化目标用户对应的信息资源。
在一些实施例中,量化模块908用于:获取包含目标向量集合中的向量的凸包,根据凸包的体积量化目标用户对应的信息资源。
在一些实施例中,目标词语集合获取模块904用于:获取一个或多个目标信息类别,获取目标用户对应的词语中,各个目标信息类别对应的目标词语,得到目标信息类别对应的目标词语集合;量化模块908用于:根据各个目标信息类别分别对应的目标向量集合,确定对应的目标空间;根据目标信息类别对应的目标空间,量化目标用户在各个目标信息类别对应的信息资源。
在一些实施例中,量化模块908用于:根据目标信息类别对应的目标空间的大小,确定目标用户对应的信息资源分布。
在一些实施例中,量化模块908包括:
目标空间大小获取单元,用于获取目标向量集合对应的目标空间的大小。
标准空间大小单元,用于获取标准空间大小。
评分单元,
用于根据目标空间的大小以及标准空间大小确定目标用户对应的信息资源量评分。
在一些实施例中,目标词语集合根据目标用户在目标时间段的相关内容得到,量化模块908包括:
参考空间获取单元,用于获取参考向量集合对应的参考空间,参考向量集合为参考词语集合对应的向量集合,参考词语集合根据目标用户在参考时间段的相关内容得到,目标时间段包括参考时间段。
过滤单元,用于从目标空间中过滤参考空间,得到剩余空间。
量化单元,用于根据剩余空间的大小量化目标用户的信息资源增量。
在一些实施例中,信息资源分析请求中携带目标内容标签,目标词语集合获取模块904包括:
用户词语集合获取单元,用于根据目标内容标签确定对应的候选词语集合,获取目标用户对应的用户词语集合。
目标词语集合获取单元,用于获取目标内容标签对应的候选词语集合与用户词语集合的交集,得到目标用户对应的目标词语集合。
在一些实施例中,数据处理装置还包括:
词向量获取模块,用于获取多个候选词语分别对应的词向量。
聚类模块,用于根据候选词语对应的词向量对候选词语进行聚类处理,得到多个候选词语集合。
标签确定模块,用于获取包括候选词语集合中的候选词语的内容,得到目标内容集合,根据目标内容集合中内容对应的标签,确定候选词语集合对应的内容标签。
在一些实施例中,词向量获取模块用于:获取训练内容集合,训练内容集合包括多个训练内容;根据训练内容集合进行词向量训练,得到训练内容中的候选词语对应的词向量;标签确定模块用于:从训练内容集合中,获取包括候选词语集合中的候选词语的训练内容,得到目标内容集合。
在一些实施例中,数据处理装置还包括:
推送内容集合获取模块,用于获取候选推送内容集合,根据候选推送内容对应的词语对应的词向量,得到更新后的目标向量集合对应的目标空间。
筛选模块,用于根据更新后的目标空间相对于更新前的目标空间的空间增量,从候选推送内容集合中筛选得到目标推送内容。
推送模块,用于将目标推送内容对应的内容信息推送到目标用户对应的终端。
在一些实施例中,数据处理装置由区块链节点执行,数据处理装置还包括:存储模块,用于获取资源量化结果,生成资源量化结果的结果查询码,将结果查询码与资源量化结果关联存储到数据区块中。
图10示出了一些实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图10所示,该计算机设备包括通过系统总线连接的处理器、存储器以及网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现数据处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行数据处理方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,本申请提供的数据处理装置可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据处理装置的各个程序模块,比如,图10所示的分析请求接收模块902、目标词语集合获取模块904、目标向量集合得到模块906以及量化模块908。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据处理方法中的步骤。
例如,图10所示的计算机设备可以通过如图9所示的数据处理装置中的分析请求接收模块902接收目标用户对应的信息资源分析请求。通过目标词语集合获取模块904响应于信息资源分析请求,获取目标用户对应的目标词语集合,目标词语集合中的目标词语根据目标用户对应的相关内容得到,相关内容包括目标用户的访问内容或者创作内容中的至少一种。通过目标向量集合得到模块906获取目标词语集合中各个目标词语对应的词向量,根据词向量得到目标向量集合。通过量化模块908确定目标向量集合对应的目标空间,根据目标空间量化目标用户对应的信息资源。
在一些实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据处理方法的步骤。此处数据处理方法的步骤可以是上述各个实施例的数据处理方法中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据处理方法的步骤。此处数据处理方法的步骤可以是上述各个实施例的数据处理方法中的步骤。
应该理解的是,虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (26)

1.一种数据处理方法,所述方法包括:
接收目标用户对应的信息资源分析请求,所述信息资源分析请求用于请求对所述目标用户的知识进行分析;
响应于所述信息资源分析请求,获取所述目标用户对应的目标词语集合,所述目标词语集合中的目标词语根据所述目标用户对应的相关内容得到,所述相关内容包括所述目标用户的访问内容或者创作内容中的至少一种;当所述相关内容为多个时,获取所述相关内容对应的词语的交集,过滤所述交集中的词语,得到所述目标词语集合;
获取所述目标词语集合中各个所述目标词语对应的词向量,根据所述词向量得到目标向量集合;
确定所述目标向量集合对应的目标空间,根据所述目标空间量化所述目标用户对应的信息资源,以对所述目标用户所对应的知识进行量化;
获取候选推送内容集合;所述候选推送内容集合包括多个候选推送内容;
获取所述候选推送内容对应的词语的词向量,将所述候选推送内容对应的词语的词向量加入到所述目标向量集合中,得到所述候选推送内容对应的更新后的目标向量集合;
将更新后的目标向量集合对应的目标空间作为更新后的目标空间,从更新后的目标空间过滤掉更新前的目标空间,得到剩余空间,计算所述剩余空间的空间体积,将所述空间体积作为空间增量;
从所述候选推送内容集合中筛选得到空间增量大于预设增量或者空间增量排序在预设排序之前的候选推送内容,作为目标推送内容;
将所述目标推送内容对应的内容信息推送到所述目标用户对应的终端。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标向量集合对应的目标空间,根据所述目标空间量化所述目标用户对应的信息资源包括:
确定包含所述目标向量集合中的向量的几何图形,根据所述几何图形的大小量化所述目标用户对应的信息资源。
3.根据权利要求2所述的方法,其特征在于,所述确定包含所述目标向量集合中的向量的几何图形,根据所述几何图形的大小量化所述目标用户对应的信息资源包括:
获取包含所述目标向量集合中的向量的凸包,根据所述凸包的体积量化所述目标用户对应的信息资源。
4.根据权利要求1所述的方法,其特征在于,所述获取所述目标用户对应的目标词语集合包括:
获取一个或多个目标信息类别,获取所述目标用户对应的词语中,各个所述目标信息类别对应的目标词语,得到所述目标信息类别对应的目标词语集合;
所述确定所述目标向量集合对应的目标空间,根据所述目标空间量化所述目标用户对应的信息资源包括:
根据各个所述目标信息类别分别对应的目标向量集合,确定对应的目标空间;
根据所述目标信息类别对应的目标空间,量化所述目标用户在各个所述目标信息类别对应的信息资源。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标信息类别对应的目标空间,量化所述目标用户在各个所述目标信息类别对应的信息资源包括:
根据所述目标信息类别对应的目标空间的大小,确定所述目标用户对应的信息资源分布。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标空间量化所述目标用户对应的信息资源包括:
获取所述目标向量集合对应的目标空间的大小;
获取标准空间大小;
根据所述目标空间的大小以及所述标准空间大小确定所述目标用户对应的信息资源量评分。
7.根据权利要求1所述的方法,其特征在于,所述目标词语集合根据所述目标用户在目标时间段的相关内容得到,所述根据所述目标空间量化所述目标用户对应的信息资源包括:
获取参考向量集合对应的参考空间,所述参考向量集合为参考词语集合对应的向量集合,所述参考词语集合根据所述目标用户在参考时间段的相关内容得到,所述目标时间段包括所述参考时间段;
从所述目标空间中过滤所述参考空间,得到剩余空间;
根据所述剩余空间的大小量化所述目标用户的信息资源增量。
8.根据权利要求1所述的方法,其特征在于,所述信息资源分析请求中携带目标内容标签,所述获取所述目标用户对应的目标词语集合包括:
根据所述目标内容标签确定对应的候选词语集合,获取所述目标用户对应的用户词语集合;
获取所述目标内容标签对应的候选词语集合与所述用户词语集合的交集,得到所述目标用户对应的目标词语集合。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取多个候选词语分别对应的词向量;
根据所述候选词语对应的词向量对所述候选词语进行聚类处理,得到多个候选词语集合;
获取包括所述候选词语集合中的候选词语的内容,得到目标内容集合,根据所述目标内容集合中内容对应的标签,确定所述候选词语集合对应的内容标签。
10.根据权利要求9所述的方法,其特征在于,所述获取多个候选词语分别对应的词向量包括:
获取训练内容集合,所述训练内容集合包括多个训练内容;
根据所述训练内容集合进行词向量训练,得到所述训练内容中的候选词语对应的词向量;
所述获取包括所述候选词语集合中的候选词语的内容,得到目标内容集合包括:
从所述训练内容集合中,获取包括所述候选词语集合中的候选词语的训练内容,得到目标内容集合。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标向量集合的各个目标向量与参考方向的角度,得到角度集合;
确定所述角度集合对应的角度离散度;
根据所述角度离散度确定所述目标用户的信息资源分散度;所述角度离散度与所述信息资源分散度成正相关关系。
12.根据权利要求1所述的方法,其特征在于,所述方法由区块链节点执行,所述方法还包括:
获取资源量化结果,生成所述资源量化结果的结果查询码,将所述结果查询码与所述资源量化结果关联存储到数据区块中。
13.一种数据处理装置,所述装置包括:
分析请求接收模块,用于接收目标用户对应的信息资源分析请求,所述信息资源分析请求用于请求对所述目标用户的知识进行分析;
目标词语集合获取模块,用于响应于所述信息资源分析请求,获取所述目标用户对应的目标词语集合,所述目标词语集合中的目标词语根据所述目标用户对应的相关内容得到,所述相关内容包括所述目标用户的访问内容或者创作内容中的至少一种;当所述相关内容为多个时,获取所述相关内容对应的词语的交集,过滤所述交集中的词语,得到所述目标词语集合;
目标向量集合得到模块,用于获取所述目标词语集合中各个所述目标词语对应的词向量,根据所述词向量得到目标向量集合;
量化模块,用于确定所述目标向量集合对应的目标空间,根据所述目标空间量化所述目标用户对应的信息资源,以对所述目标用户所对应的知识进行量化;
所述装置还用于:
获取候选推送内容集合;所述候选推送内容集合包括多个候选推送内容;
获取所述候选推送内容对应的词语的词向量,将所述候选推送内容对应的词语的词向量加入到所述目标向量集合中,得到所述候选推送内容对应的更新后的目标向量集合;
将更新后的目标向量集合对应的目标空间作为更新后的目标空间,从更新后的目标空间过滤掉更新前的目标空间,得到剩余空间,计算所述剩余空间的空间体积,将所述空间体积作为空间增量;
从所述候选推送内容集合中筛选得到空间增量大于预设增量或者空间增量排序在预设排序之前的候选推送内容,作为目标推送内容;
将所述目标推送内容对应的内容信息推送到所述目标用户对应的终端。
14.根据权利要求13所述的装置,其特征在于,所述量化模块用于:
确定包含所述目标向量集合中的向量的几何图形,根据所述几何图形的大小量化所述目标用户对应的信息资源。
15.根据权利要求14所述的装置,其特征在于,所述量化模块用于:
获取包含所述目标向量集合中的向量的凸包,根据所述凸包的体积量化所述目标用户对应的信息资源。
16.根据权利要求13所述的装置,其特征在于,所述目标词语集合获取模块用于:
获取一个或多个目标信息类别,获取所述目标用户对应的词语中,各个所述目标信息类别对应的目标词语,得到所述目标信息类别对应的目标词语集合;
所述确定所述目标向量集合对应的目标空间,根据所述目标空间量化所述目标用户对应的信息资源包括:
根据各个所述目标信息类别分别对应的目标向量集合,确定对应的目标空间;
根据所述目标信息类别对应的目标空间,量化所述目标用户在各个所述目标信息类别对应的信息资源。
17.根据权利要求16所述的装置,其特征在于,所述量化模块用于:
根据所述目标信息类别对应的目标空间的大小,确定所述目标用户对应的信息资源分布。
18.根据权利要求13所述的装置,其特征在于,所述量化模块包括:
目标空间大小获取单元,用于获取所述目标向量集合对应的目标空间的大小;
标准空间大小单元,用于获取标准空间大小;
评分单元,用于根据所述目标空间的大小以及所述标准空间大小确定所述目标用户对应的信息资源量评分。
19.根据权利要求13所述的装置,其特征在于,所述目标词语集合根据所述目标用户在目标时间段的相关内容得到,所述量化模块包括:
参考空间获取单元,用于获取参考向量集合对应的参考空间,所述参考向量集合为参考词语集合对应的向量集合,所述参考词语集合根据所述目标用户在参考时间段的相关内容得到,所述目标时间段包括所述参考时间段;
过滤单元,用于从所述目标空间中过滤所述参考空间,得到剩余空间;
量化单元,用于根据所述剩余空间的大小量化所述目标用户的信息资源增量。
20.根据权利要求13所述的装置,其特征在于,所述信息资源分析请求中携带目标内容标签,所述目标词语集合获取模块包括:
用户词语集合获取单元,用于根据所述目标内容标签确定对应的候选词语集合,获取所述目标用户对应的用户词语集合;
目标词语集合获取单元,用于获取所述目标内容标签对应的候选词语集合与所述用户词语集合的交集,得到所述目标用户对应的目标词语集合。
21.根据权利要求20所述的装置,其特征在于,所述装置还包括:
词向量获取模块,用于获取多个候选词语分别对应的词向量;
聚类模块,用于根据所述候选词语对应的词向量对所述候选词语进行聚类处理,得到多个候选词语集合;
标签确定模块,用于获取包括所述候选词语集合中的候选词语的内容,得到目标内容集合,根据所述目标内容集合中内容对应的标签,确定所述候选词语集合对应的内容标签。
22.根据权利要求21所述的装置,其特征在于,所述词向量获取模块用于:
获取训练内容集合,所述训练内容集合包括多个训练内容;
根据所述训练内容集合进行词向量训练,得到所述训练内容中的候选词语对应的词向量;
所述获取包括所述候选词语集合中的候选词语的内容,得到目标内容集合包括:
从所述训练内容集合中,获取包括所述候选词语集合中的候选词语的训练内容,得到目标内容集合。
23.根据权利要求13所述的装置,其特征在于,所述装置还用于:
获取所述目标向量集合的各个目标向量与参考方向的角度,得到角度集合;
确定所述角度集合对应的角度离散度;
根据所述角度离散度确定所述目标用户的信息资源分散度;所述角度离散度与所述信息资源分散度成正相关关系。
24.根据权利要求13所述的装置,其特征在于,所述装置由区块链节点执行,所述装置还包括:
存储模块,用于获取资源量化结果,生成所述资源量化结果的结果查询码,将所述结果查询码与所述资源量化结果关联存储到数据区块中。
25.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至12中任一项权利要求所述数据处理方法的步骤。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至12中任一项权利要求所述数据处理方法的步骤。
CN201910872070.9A 2019-09-16 2019-09-16 数据处理方法、装置、计算机设备和存储介质 Active CN110597977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910872070.9A CN110597977B (zh) 2019-09-16 2019-09-16 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910872070.9A CN110597977B (zh) 2019-09-16 2019-09-16 数据处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110597977A CN110597977A (zh) 2019-12-20
CN110597977B true CN110597977B (zh) 2022-01-11

Family

ID=68859882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910872070.9A Active CN110597977B (zh) 2019-09-16 2019-09-16 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110597977B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742664B (zh) * 2020-05-29 2024-03-29 钉钉控股(开曼)有限公司 监控、审计方法、设备及系统
CN112070373A (zh) * 2020-08-25 2020-12-11 深圳信息职业技术学院 区块链项目的优劣评级方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
WO2018230551A1 (ja) * 2017-06-16 2018-12-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411596A (zh) * 2010-09-21 2012-04-11 阿里巴巴集团控股有限公司 一种信息推荐方法及系统
CN105279288B (zh) * 2015-12-04 2018-08-24 深圳大学 一种基于深度神经网络的在线内容推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018230551A1 (ja) * 2017-06-16 2018-12-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN110597977A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
US11080483B1 (en) Deep machine learning generation of domain names leveraging token metadata
KR20220045035A (ko) 다수의 분류 모듈로부터 집성된 정보를 사용하는 데이터의 분류
CN115563287B (zh) 一种获取关联对象的数据处理系统
CN112131888B (zh) 分析语义情感的方法、装置、设备及存储介质
CN111242230A (zh) 基于人工智能的图像处理方法及图像分类模型训练方法
CN112052891A (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN115082041B (zh) 用户信息管理方法、装置、设备及存储介质
CN112733545A (zh) 文本分块方法、装置、计算机设备和存储介质
CN111625809A (zh) 数据授权方法及装置、电子设备、存储介质
CN112347787A (zh) 方面级别情感分类方法、装置、设备及可读存储介质
CN113657993A (zh) 信用风险识别方法、装置、设备及存储介质
CN110597977B (zh) 数据处理方法、装置、计算机设备和存储介质
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN113986660A (zh) 系统调整策略的匹配方法、装置、设备及存储介质
CN113627182A (zh) 数据匹配方法、装置、计算机设备及存储介质
CN113128196A (zh) 文本信息处理方法及其装置、存储介质
CN112507170A (zh) 基于智能决策的数据资产目录构建方法、及其相关设备
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN111310462A (zh) 用户属性的确定方法、装置、设备及存储介质
CN117217710B (zh) 一种虚拟商品与快捷服务的智能化管理方法及系统
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant