CN116976309A - 数据解析方法、装置、计算机、可读存储介质及程序产品 - Google Patents

数据解析方法、装置、计算机、可读存储介质及程序产品 Download PDF

Info

Publication number
CN116976309A
CN116976309A CN202211455214.9A CN202211455214A CN116976309A CN 116976309 A CN116976309 A CN 116976309A CN 202211455214 A CN202211455214 A CN 202211455214A CN 116976309 A CN116976309 A CN 116976309A
Authority
CN
China
Prior art keywords
data
interaction
feature
sample
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211455214.9A
Other languages
English (en)
Inventor
何宇
冯佳
黄卓彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211455214.9A priority Critical patent/CN116976309A/zh
Publication of CN116976309A publication Critical patent/CN116976309A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据解析方法、装置、计算机、可读存储介质及程序产品,涉及人工智能领域,该方法包括:检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征;获取第二互动数据的第二互动特征;一个互动场景具备一个主题内容,第一互动数据与第二互动数据均与主题内容相关联;第一互动数据的发布参数与第二互动数据的发布参数不同;第二互动特征是基于第二互动数据的第二数据模态识别得到的;第一互动数据与第二互动数据属于同一个互动场景;对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。采用本申请,可以提高数据解析的准确性。

Description

数据解析方法、装置、计算机、可读存储介质及程序产品
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据解析方法、装置、计算机、可读存储介质及程序产品。
背景技术
随着互联网技术的发展,在网络上所传播的媒体数据越来越多,人们也越来越依赖于互联网传播媒体数据,为了更好地对媒体数据进行管理,对媒体数据的解析也就极为重要。目前,一般是通过构建数据集,该数据集包括正样本及负样本,通过正样本和负样本预训练模型,对数据集进行微调,得到分类器,进而可以通过训练好的分类器,对媒体数据进行识别,得到该媒体数据的解析结果。然而由于存在媒体数据可以表述不同的含义,如“真好”可以表示真诚的夸赞,也可以表示反讽等,通过这一方式,可能就会使得对媒体数据识别的结果有误,导致媒体解析的准确性较低。
发明内容
本申请实施例提供了一种数据解析方法、装置、计算机、可读存储介质及程序产品,可以提高数据解析的准确性。
本申请实施例一方面提供了一种数据解析方法,该方法包括:
检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征;
获取第二互动数据的第二互动特征;第一互动数据与第二互动数据属于同一个互动场景;同一个互动场景具备一个主题内容,第一互动数据与第二互动数据均与主题内容相关联;第一互动数据的发布参数与第二互动数据的发布参数不同;第二互动特征是基于第二互动数据的第二数据模态所识别得到的;
对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。
本申请实施例一方面提供了一种数据解析方法,该方法包括:
检测第一互动样本的第一样本模态,将第一互动样本输入第一样本模态所对应的初始模态特征解析模型进行解析,得到第一互动样本的第一样本特征;
获取第二互动样本的第二样本特征;第一互动样本与第二互动样本属于同一个互动场景;同一个互动场景具备一个主题内容,第一互动样本与第二互动样本均与所属的互动场景的主题内容相关联;第一互动样本与第二互动样本的发布参数不同;第二样本特征是基于第二互动样本的第二样本模态所识别得到的;
在初始数据解析模型中,对第一样本特征与第二样本特征进行特征融合,得到样本融合特征,预测样本融合特征所对应的样本解析结果;
获取第一互动样本的第一样本标签,基于第一样本标签及样本解析结果,对初始模态特征解析模型及初始数据解析模型进行参数调整,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。
本申请实施例一方面提供了一种数据解析装置,该装置包括:
模态检测模块,用于检测第一互动数据的第一数据模态;
特征识别模块,用于基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征;
特征获取模块,用于获取第二互动数据的第二互动特征;第一互动数据与第二互动数据属于同一个互动场景;同一个互动场景具备一个主题内容,第一互动数据与第二互动数据均与主题内容相关联;第一互动数据的发布参数与第二互动数据的发布参数不同;第二互动特征是基于第二互动数据的第二数据模态所识别得到的;
结果预测模块,用于对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。
其中,该特征识别模块,包括:
模型解析单元,用于若第一互动数据具备一种第一数据模态,则将第一互动数据输入第一互动数据所对应的第一数据模态的模态特征解析模型进行解析处理,得到第一互动数据的第一互动特征;
该模型解析单元,还用于若第一互动数据具备k个第一数据模态,则将第一互动数据拆分为k个第一数据模态分别对应的子数据,将k个子数据分别输入k个第一数据模态的模态特征解析模型进行解析处理,得到k个子数据分别对应的第一子特征,将k个第一子特征组合成第一互动数据的第一互动特征;k为正整数。
其中,该特征获取模块,具体用于:
从特征管理队列中获取第二互动数据的第二互动特征;
该装置还包括:
特征出队模块,用于对特征管理队列所包括的互动特征进行解析,若特征管理队列所包括的互动特征满足出队条件,则对特征管理队列中满足出队条件的互动特征进行出队处理。
其中,该特征出队模块,包括:
数量获取单元,用于获取特征管理队列所包括的互动特征的数量;
数量比对单元,用于若特征管理队列所包括的互动特征的数量大于管理数量阈值,则对特征管理队列中的第三互动特征进行出队处理;第三互动数据是指位于特征管理队列中位于首位的互动数据;出队条件包括特征管理队列所包括的互动特征的数量大于管理数量阈值。
其中,该特征出队模块,包括:
时间获取单元,用于获取特征管理队列中所包括的互动特征的入队时间,获取系统网络时间;
时长确定单元,用于根据特征管理队列中所包括的互动特征的入队时间与系统网络时间,确定特征管理队列中所包括的互动特征的存储时长;
时长匹配单元,用于对存储时长大于或等于存储阈值的互动特征进行出队处理;出队条件包括存储时长大于或等于存储阈值。
其中,该装置还包括:
数据获取模块,用于获取第一互动数据所处的互动场景,在互动场景中获取与第一互动数据相关联的第二互动数据;
数据识别模块,用于检测第二互动数据的第二数据模态,基于第二互动数据的第二数据模态,识别第二互动数据的第二互动特征;
特征存储模块,用于将第二互动特征添加至特征管理队列。
其中,第二互动特征包括N个数据模态分别对应的第二子特征;N为正整数,N个数据模态包括第一数据模态及第二数据模态;该装置还包括:
范围获取模块,用于获取主数据模态及主数据模态的参考特征范围;
范围匹配模块,用于若N个数据模态中的主数据模态所对应的第二子特征,属于参与特征范围,则执行将第二互动特征添加至特征管理队列的过程。
其中,第二互动数据的数量为M;M为正整数;
该结果预测模块,包括:
特征融合单元,用于对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征;
结果预测单元,用于将第一互动特征与增强特征输入数据解析模型,基于数据解析模型对第一互动特征与增强特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。
其中,该特征融合单元,包括:
第一融合子单元,用于若M个第二互动数据分别对应的第二互动特征为特征向量,则对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征;
第二融合子单元,用于若M个第二互动数据分别对应的第二互动特征为预测结果,则对M个第二互动特征进行筛选,对符合特征筛选范围的第二互动特征进行特征融合处理,得到增强特征。
其中,该结果预测单元,包括:
特征输入子单元,用于将第一互动特征与增强特征输入数据解析模型;
系数增强子单元,用于在数据解析模型中获取特征增强系数,采用特征增强系数对增强特征进行加权处理,得到辅助特征;
融合预测子单元,用于在数据解析模型中,将辅助特征添加至第一互动特征,得到融合互动特征,将融合互动特征确定为第一互动数据的数据解析结果。
其中,该装置还包括:
结果检测模块,用于获取第二互动数据所对应的数据解析结果,基于第二互动数据所对应的数据解析结果,对融合互动特征所对应的数据解析结果进行检测;
数据管理模块,用于若融合互动特征所对应的数据解析结果与第二互动数据所对应的数据解析结果相匹配,则基于融合互动特征所对应的数据解析结果,对第一互动数据进行数据管理。
本申请实施例一方面提供了一种数据解析装置,该装置包括:
样本检测模块,用于检测第一互动样本的第一样本模态;
模态解析模块,用于将第一互动样本输入第一样本模态所对应的初始模态特征解析模型进行解析,得到第一互动样本的第一样本特征;
特征获取模块,用于获取第二互动样本的第二样本特征;第一互动样本与第二互动样本属于同一个互动场景;同一个互动场景具备一个主题内容,第一互动样本与第二互动样本均与所属的互动场景的主题内容相关联;第一互动样本与第二互动样本的发布参数不同;第二样本特征是基于第二互动样本的第二样本模态所识别得到的;
样本预测模块,用于在初始数据解析模型中,对第一样本特征与第二样本特征进行特征融合,得到样本融合特征,预测样本融合特征所对应的样本解析结果;
模型调整模块,用于获取第一互动样本的第一样本标签,基于第一样本标签及样本解析结果,对初始模态特征解析模型及初始数据解析模型进行参数调整,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。
本申请实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;
处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用该计算机程序,以使包含该处理器的计算机设备执行本申请实施例一方面中的数据解析方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例一方面中的数据解析方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。换句话说,该计算机指令被处理器执行时实现本申请实施例一方面中的各种可选方式中提供的方法。
实施本申请实施例,将具有如下有益效果:
在本申请实施例中,计算机设备可以检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征,使得对互动数据(如第一互动数据)的特征识别是基于该互动数据的数据模态进行的,也就是说,该第一互动特征可以更为精准地表示该第一互动数据的内容特征,还可以携带该第一互动数据的数据模态的特征,使得该第一互动特征更为精确。进一步,可以获取第二互动数据的第二互动特征,该第二互动数据与第一互动数据属于同一个互动场景,也就是第一互动数据与第二互动数据之间具有相关性,换句话说,第一互动数据的含义在一定程度上与第二互动数据的含义具有相似性。可以对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果,使得可以通过第二互动数据对第一互动数据进行辅助解析,利用了第一互动数据与第二互动数据之间的相关性,从而达到对第一互动数据的解析修正的效果,提高数据解析的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据解析的网络交互架构图;
图2是本申请实施例提供的一种数据解析场景示意图;
图3是本申请实施例提供的一种数据解析的方法流程图;
图4是本申请实施例提供的一种互动数据解析的场景示意图;
图5是本申请实施例提供的一种互动特征识别场景示意图;
图6是本申请实施例提供的一种可能的互动场景示意图;
图7是本申请实施例提供的一种特征融合场景示意图;
图8是本申请实施例提供的一种数据解析处理示意图;
图9是本申请实施例提供的一种数据解析的具体方法流程图;
图10是本申请实施例提供的一种模型训练流程示意图;
图11是本申请实施例提供的一种可能的模型训练场景的流程示意图;
图12是本申请实施例提供的一种数据解析装置示意图;
图13是本申请实施例提供的另一种数据解析装置示意图;
图14是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
其中,若在本申请中需要收集对象(如用户等)数据,则在收集前、收集中,显示提示界面或者弹窗,该提示界面或者弹窗用于提示用户当前正在搜集XXXX数据,仅仅在获取到用户对该提示界面或者弹窗发出确认操作后,开始执行数据获取的相关的步骤,否则结束。而且,对于获取到的用户数据,会在合理合法的场景或用途等上进行使用。可选的,在一些需要使用用户数据但未得到用户授权的场景中,还可以向用户请求授权,在授权通过时,再使用用户数据。
其中,本申请可以涉及人工智能领域的机器学习技术,通过机器学习技术实现对模型的训练及使用等。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。例如,研究对互动数据的解析过程,生成一种能以人类智能相似的方式,解析出互动数据的数据解析结果。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如,本申请中对于各个数据模态所对应的模态特征解析模型及数据解析模型等的训练及使用等,通过对模型进行训练,以使得模型不断学习新的知识或技能,进而得到训练好的模型,以用于数据解析。例如,本申请就是对用于进行数据解析的技术的学习,以得到训练好的模态特征解析模态及数据解析模型等,从而使得该模态特征解析模态及数据解析模型可以用于对互动数据进行解析。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在本申请实施例中,请参见图1,图1是本申请实施例提供的一种数据解析的网络交互架构图,如图1所示,计算机设备101可以对互动数据进行解析,其中,计算机设备101可以从该计算机设备101的存储空间中获取待解析的互动数据,也可以从任意一个业务设备中获取待解析的互动数据,如业务设备102a、业务设备102b或业务设备102c等。当然,该计算机设备101本身也可以是一个业务设备,也就是说,本申请也可以是由任意一个业务设备实现,如业务设备102a、业务设备102b或业务设备102c等。例如,计算机设备101可以响应针对第一互动数据的解析请求,获取该解析请求所携带的第一互动数据,对第一互动数据进行解析处理,得到第一互动数据的数据解析结果。或者,计算机设备101可以响应任意一个业务设备所发送的针对第一互动数据的解析请求,如假定响应业务设备102a所发送的针对第一互动数据的解析请求,对第一互动数据进行解析处理,得到第一互动数据的数据解析结果,将第一互动数据的数据解析结果发送至业务设备102a等。其中,本申请中所提及的任意一个互动数据(如第一互动数据或第二互动数据等)可以认为是一种媒体数据,可以具备一种或多种(即至少两种)数据模态,数据模态存在N个,每个互动数据可以具备N个数据模态中的一种或多种数据模态,N为正整数,N个数据模态可以包括但不限于文本模态、图片模态、链接模态、视频模态及音频模态等。
具体的,对第一互动数据的解析处理请参见图2,图2是本申请实施例提供的一种数据解析场景示意图。如图2所示,计算机设备可以检测第一互动数据201的第一数据模态202。其中,本申请中的数据模态用于表示对应的互动数据的数据类型,可以包括但不限于文本模态、图片模态、链接模态、视频模态及音频模态等,例如,第一数据模态202用于表示第一互动数据201的数据类型。其中,可以基于数据类型将互动数据划分为单模态数据及多模态数据等,单模态数据是指具备一种数据模态的互动数据,也就是单模态数据仅有一种数据类型,如文本模态,或图片模态,或视频模态等;多模态数据是指具备多种(即至少两种)数据模态的互动数据,也就是多模态数据存在多种数据类型等。计算机设备可以基于第一互动数据201的第一数据模态202,识别第一互动数据201的第一互动特征,使得该第一互动特征既可以表示第一互动数据201的内容特征,也可以表示第一互动数据201的模态特征,使得第一互动特征更为精确。进一步地,计算机设备可以获取第二互动数据203的第二互动特征,其中,该第二互动特征的识别过程,与第一互动特征的识别过程相同,也就是,第二互动特征是基于第二互动数据203的第二数据模态进行识别得到的,第一互动数据201与第二互动数据203属于同一个互动场景。其中,互动场景是指具备一个主题内容(或者说主体内容)的场景。其中,在一个内容生产场景中,伴随着某一个主题内容,附属有很多相关的客体内容,这些主题内容及客体内容所在的内容生产场景,可以统称为内容互动场景,简称互动场景,例如,该互动场景可以包括但不限于内容交互平台中的评论场景、社交平台中的讨论场景或媒体管理平台中的交互场景等,在此不做限制。其中,在同一个互动场景中,客体内容是围绕一个主题内容所产生的,可以认为客体内容之间具有相关性,其中,在该互动场景中的主题内容及客体内容可以认为是互动数据。也就是说,第一互动数据201与第二互动数据203之间具有相关性。
进一步地,计算机设备可以对第一互动特征与第二互动特征进行特征融合204,得到融合互动特征,以实现对第一互动数据的特征增强,进一步预测融合互动特征所对应的数据解析结果205,该数据解析结果205即为针对第一互动数据201的数据解析结果。相当于利用第一互动数据201与第二互动数据203之间的相关性,对第一互动数据201(即待解析的互动数据)进行辅助解析,从而提高数据解析的准确性,增强互动场景的内容识别能力。
可以理解的是,本申请实施例中所提及的计算机设备包括但不限于终端设备或服务器,业务设备包括但不限于终端设备或服务器。换句话说,计算机设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality,AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,MID),或者火车、轮船、飞行等场景下的终端设备等。如图1中所示,终端设备可以是一种笔记本电脑(如业务设备102b所示)、手机(如业务设备102c所示)或车载设备(如业务设备102a所示)等,图1仅例举出部分的设备,可选的,该业务设备102a是指位于交通工具103中的设备。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选的,本申请实施例中所涉及的数据可以存储在计算机设备中,或者可以基于云存储技术或区块链网络等对本申请实施例中所涉及的数据进行存储,在此不做限制。
进一步地,请参见图3,图3是本申请实施例提供的一种数据解析的方法流程图。如图3所示,该数据解析过程包括如下步骤:
步骤S301,检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征。
在本申请实施例中,计算机设备可以检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征,其中,该第一数据模态是指第一互动数据的数据类型。
具体的,一种方式下,计算机设备可以检测第一互动数据的k个第一数据模态,获取第一互动数据在k个第一数据模态下分别对应的第一子数据,识别k个第一子数据分别对应的第一子特征,将k个第一子特征组合成第一互动数据的第一互动特征。其中,k为正整数。具体的,若第一互动数据具备一种第一数据模态,即k为1,则将第一互动数据输入第一互动数据所对应的第一数据模态的模态特征解析模型进行解析处理,得到第一互动数据的第一互动特征。若第一互动数据具备k个第一数据模态,即k大于1,则将第一互动数据拆分为k个第一数据模态分别对应的子数据,将k个子数据分别输入k个第一数据模态的模态特征解析模型进行解析处理,得到k个子数据分别对应的第一子特征,将k个第一子特征组合成第一互动数据的第一互动特征;k为正整数。可选的,假定存在N个数据模态,N为正整数,N个数据模态包括k个第一数据模态。在将k个第一子特征组合成第一互动数据的第一互动特征时,可以获取N个数据模态分别对应的特征位置,包括k个数据模态分别对应的特征位置,在k个数据模态分别对应的特征位置处,填充k个数据模态分别对应的第一子特征,在除k个数据模态之外的数据模态对应的特征位置处,填充默认子特征,得到第一互动数据的第一互动特征。例如,假定互动特征长度为30,记作F,N为3,N个数据模态包括文本模态、图片模态及视频模态,其中,文本模态对应的特征位置为F[0:9],图片模态对应的特征位置为F[10:19],视频模态对应的特征位置为F[20:29],默认子特征为0,计算机设备获取到文本模态对应的第一子特征S1,以及图片模态对应的第一子特征S2,基于N个数据模态分别对应的特征位置,对第一子特征S1及第二子特征S2进行组合,得到第一互动特征,此处可以记作(S1,S2,0…0),其中,第一子特征S1位于F[0:9],第一子特征S2位于F[10:19]。
具体的,可以参见图4,图4是本申请实施例提供的一种互动数据解析的场景示意图。如图4所示,计算机设备可以检测第一互动数据401的第一数据模态,假定存在N个数据模态,以及N个数据模态分别对应的模态特征解析模型402,例如,数据模态1对应的模态特征解析模型1、数据模态2对应的模态特征解析模型2、…及数据模态N对应的模态特征解析模型N等。计算机设备可以将第一互动数据401,输入第一数据模态所对应的模态特征解析模型中进行解析处理,得到第一互动数据401所对应的第一互动特征403。例如,文本模态对应的模态特征解析模型可以是但不限于情感二分类模型或关键词识别解析模型等,图片模态对应的模态特征解析模型可以是但不限于残差网络(Residual Network,ResNet)或视觉几何组网络(Visual Geometry Group Network,VGG)等,在此不做限制。
举例来说,参见图5,图5是本申请实施例提供的一种互动特征识别场景示意图。如图5所示,计算机设备可以对第一互动数据501进行模态检测,得到第一互动数据501的第一数据模态,假定该第一数据模态包括文本模态及图片模态,对第一互动数据501拆分为文本模态对应的子数据,以及图片模态对应的子数据。进一步,将文本模态对应的子数据输入文本模态特征解析模型(即文本模态对应的模态特征解析模型)进行解析处理,得到文本模态对应的第一子特征,可以记作S1;将图片模态对应的子数据输入图片模态特征解析模型(即图片模态对应的模态特征解析模型)进行解析处理,得到图片模态对应的第一子特征,可以记作S2。其中,假定N为2,N个数据模态包括文本模态及图片模态,计算机设备可以将文本模态对应的第一子特征及图片模态对应的第一子特征进行组合,得到第一互动数据的第一互动特征502,此时,该第一互动特征502可以认为是(S1,S2)。
其中,第一互动特征可以为特征向量,也可以是预测结果。具体的,N个数据模态分别对应的模态特征解析模型均可以是一种用于进行向量提取的模型,此时,计算机设备可以基于k个第一数据模态分别对应的模态特征解析模型,对k个第一数据模态分别对应的子数据进行特征提取,得到k个第一数据模态分别对应的第一子特征,此时k个第一子特征可以认为是向量,计算机设备对k个第一子特征组合成为第一互动特征,第一互动特征为特征向量,用于表示第一互动数据在多模态下的特征。
或者,N个数据模态分别对应的模态特征解析模型,均可以是一种用于对互动数据进行初步解析的模型,此时,计算机设备可以在k个第一数据模态分别对应的模态特征解析模型中,分别对k个第一数据模态对应的子数据进行向量转换,得到k个第一数据模态分别对应的数据子向量,在k个第一数据模态分别对应的模态特征解析模型中,分别对k个数据子向量进行初步解析处理,得到k个第一数据模态分别对应的第一子特征,此时k个第一子特征可以认为是初步的预测结果,计算机设备对k个第一子特征组合成为第一互动特征,第一互动特征为预测结果,用于表示对第一互动数据在多模态下初步解析得到的结果。例如,以第i个数据模态为例,计算机设备可以在第i个第一数据模态对应的模态特征解析模型中,对第i个第一数据模态对应的子数据进行向量转换,得到第i个数据子向量,对第i个数据子向量进行初步解析处理,得到第i个第一子特征,同理,得到k个第一数据模态分别对应的第一子特征。举例来说,假定本申请用于对互动数据进行异常检测,其中,0~0.65表示正常数据,0.65~1表示异常数据,则第一互动数据在k个第一数据模态下分别对应的第一子特征为0~1之间的数据,例如,k个第一数据模态包括文本数据模态等,第一互动数据在文本数据模态下的第一子特征,用于表示第一互动数据所包括的文本数据模态的子数据是否为正常数据,如第i个第一子特征为0.3,表示对第一互动数据所包括的第i个数据模态下的子数据预测为正常数据。举例来说,假定本申请用于对互动数据进行分类,其中,假定包括d个预测类别,d为正整数,则第i个第一子特征可能为(P1,…Pd),分别用于表示第一互动数据所包括的第i个数据模态下的子数据,在d个预测类别分别对应的概率,如,假定d为3,d个预测类别分别为游戏类别、教育类别及影视类别,得到第i个第一子特征为(0.1,0.75,0.15),表示第一互动数据所包括的第i个数据模态下的子数据为游戏类别的概率为0.1,为教育类别的概率为0.75,为影视类别的概率为0.15。举例来说,假定本申请用于对互动数据进行评分,假定第i个第一子特征为86,则表示对第一互动数据所包括的第i个数据模态下的子数据的评分为86等。以上仅为例举的几种可能的第一子特征的示例。同理,可以得到第一互动数据所包括的k个子数据分别对应的第一子特征,将k个第一子特征组合成第一互动数据的第一互动特征,此时,该第一互动特征可以认为是预测结果。
当然可选的,另一种方式下,假定存在N个数据模态,存在(N+1)个模态特征解析模型,包括N个数据模态分别对应的模态特征解析模型及多模态特征解析模型。计算机设备可以检测第一互动数据的k个第一数据模态。若k为1,即第一互动数据具备一种数据模态,则将第一互动数据输入该第一数据模态所对应的模态特征解析模型进行解析处理,得到第一互动数据的第一互动特征;若k大于1,即第一互动数据具备至少两种数据模态,则将第一互动数据输入多模态特征解析模型进行解析处理,得到第一互动数据的第一互动特征。其中,该第一互动特征可以是特征向量,也可以是预测结果,具体可以参见上述一种方式下,对第一子特征的解析过程。
步骤S302,获取第二互动数据的第二互动特征。
在本申请实施例中,第一互动数据与第二互动数据属于同一个互动场景。其中,同一个互动场景具备一个主题内容,第一互动数据与第二互动数据均与主题内容相关联,其中,可以将第一互动数据及第二互动数据所属的互动场景记作第一互动场景,将该第一互动场景的主题内容记作第一主题内容,也就是,第一互动数据与第二互动数据均与第一主题内容相关联。第一互动数据的发布参数与第二互动数据的发布参数不同,其中,发布参数可以包括发布时间及发布对象等,发布对象用于表示发布对应的互动数据的用户,即,第一互动数据的发布时间与第一互动数据的发布时间不同,或者,第一互动数据的发布对象与第一互动数据的发布对象不同等。也就是说,第一互动数据与第二互动数据不属于同一个媒体数据,也就是第一互动数据与第二互动数据之间不存在内容连续性。例如,在同一篇文章中的两句话,属于同一个媒体数据,即该篇文章等。第二互动特征是基于第二互动数据的第二数据模态所识别得到的。
可选的,计算机设备可以从特征管理队列中获取第二互动数据的第二互动特征,该特征管理队列用于管理互动数据的互动特征,可以将该特征管理队列所管理的互动数据记作第二互动数据。其中,计算机设备可以基于第一互动数据所处的互动场景,获取第二互动数据。具体的,可以获取第一互动数据所处的互动场景,在互动场景中获取与第一互动数据相关联的第二互动数据;检测第二互动数据的第二数据模态,基于第二互动数据的第二数据模态,识别第二互动数据的第二互动特征,其中,对该第二互动特征的识别过程,可以参见步骤S301中对第一互动特征的识别过程,在此不再进行赘述。进一步地,可以将第二互动特征添加至特征管理队列。
举例来说,假定第一互动数据为“没什么可说的了!”,获取该第一互动数据所在的互动场景,假定该互动场景为“针对‘近日,某著名极限运动爱好者成功挑战高难度翼装飞行,场面惊险刺激,在场的群众无不拍手称赞!’这一新闻的评论场景”,可以获取该互动场景下的第二互动数据,如1楼评论“向运动员点赞!”、2楼评论“这是多少次训练才能成就的,真帅”、3楼评论“训练有素,厉害”、4楼评论“心理素质真好”以及5楼评论“优秀”等。计算机设备可以获取各个第二互动数据的第二互动特征。
步骤S303,对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。
在本申请实施例中,第二互动数据的数量为M;M为正整数。计算机设备可以对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征;将第一互动特征与增强特征输入数据解析模型,基于数据解析模型对第一互动特征与增强特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。其中,在对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征时,该特征融合处理可以包括但不限于特征相加、特征求最大值、特征取平均值或频率统计等。
可选的,一种增强特征的获取方式,计算机设备可以直接对M个第二互动特征进行特征融合处理,得到增强特征。或者,一种增强特征的获取方式,可以获取M个第二互动数据分别对应的数据权重,基于M个第二互动数据分别对应的数据权重,对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征。如图4所示,可以对M个第二互动数据分别对应的第二互动特征404进行特征融合处理,得到增强特征405。
举例来说,计算机设备可以获取M个第二互动数据与第一互动数据之间的分布信息,基于该分布信息,确定M个第二互动数据与第一互动数据之间的数据间距,基于M个第二互动数据与第一互动数据之间的数据间距,确定M个第二互动数据分别对应的数据权重。例如,参见图6,图6是本申请实施例提供的一种可能的互动场景示意图。如图6所示,在该互动场景中,针对主题内容存在互动数据1、互动数据2、…及互动数据5等,其中,互动数据1及互动数据5是针对主题内容的回复,互动数据2及互动数据3是针对互动数据1的回复,互动数据4是针对互动数据3的回复等,假定互动数据3为第一互动数据,互动数据1、互动数据2、互动数据4及互动数据5等为第二互动数据,计算机设备可以获取第二互动数据与第一互动数据之间的分布信息,该分布信息可以是如图6所示的架构,也可以通过主题内容作为根,基于第二互动数据、第一互动数据以及主题内容之间的互动关系构建边,生成数据分布树,将该数据分布树确定为分布信息等。进一步可以基于分布信息,确定M个第二互动数据与第一互动数据之间的数据间距,如图6中,互动数据1与互动数据3之间的数据间距为1,互动数据2与互动数据3之间的数据间距为2,互动数据4与互动数据3之间的数据间距为1,互动数据5与互动数据3之间的数据间距为3等,也就是,可以将在分布信息中,M个第二互动数据分别到第一互动数据所经过的路径长度,确定为M个第二互动数据分别与第一互动数据之间的数据间距。
或者,可以将位于同一层级下的任意两个互动数据之间的数据间距记作默认间距,将具有相邻包含关系的两个层级下的互动数据之间的数据间距记作默认间距,在此基础上,在分布信息中,获取M个第二互动数据分别对应的第二层级,与第一互动数据对应的第一层级之间的层级切换次数,基于M个第二互动数据分别对应的层级切换次数,确定M个第二互动数据分别与第一互动数据之间的数据间距。其中,相邻包含关系是指两个层级之间直接包含,如图6中互动数据2是针对互动数据1的回复,则可以认为互动数据2对应的层级与互动数据1对应的层级之间具有相邻包含关系。也就是说,可以将和第一互动数据位于同一层级且所属的上一层级相同的第二互动数据,与第一互动数据之间的数据间距记作默认间距,也就是层级切换次数为1,如图6中,互动数据2与互动数据3之间的数据间距可以认为是默认间距,如1;将和第一互动数据属于不同层级,且对应的第二层级与第一互动数据的第一层级之间存在包含关系的第二互动数据,与第一互动数据之间的数据间距记作该第二互动数据的第二层级与第一层级之间所间隔的层级数量,即层级切换次数为第二层级与第一层级之间所间隔的层级数量,如图6中,互动数据1与互动数据3之间的数据间距可以认为是1,也就是间隔的层级数量为1等。
其中,以上仅为例举的几种用于确定数据间距的方式,但不限于上述方式,例如,还可以在分布信息中,获取M个第二互动数据分别对应的第二层级,与第一互动数据对应的第一层级之间的层级切换次数,获取M个第二互动数据分别对应的产生时间,基于M个第二互动数据分别对应的层级切换次数及产生时间,确定M个第二互动数据分别与第一互动数据之间的数据间距等。进一步,可以基于M个第二互动数据与第一互动数据之间的数据间距,确定M个第二互动数据分别对应的数据权重。其中,可以认为第二互动数据与第一互动数据之间的数据间距越近,表示该第二互动数据与第一互动数据之间的相关性越大,该第二互动数据所对应的数据权重也就越大。
可选的,计算机设备可以获取M个第二互动数据分别对应的产生时间及第一互动数据的产生时间,基于M个第二互动数据分别对应的产生时间及第一互动数据的产生时间,确定M个第二互动数据分别对应的数据权重。例如,可以基于M个第二互动数据分别对应的产生时间及第一互动数据的产生时间,对M个第二互动数据与第一互动数据进行排序处理,基于排序后的M个第二互动数据与第一互动数据之间的位置间隔,确定M个第二互动数据分别对应的数据权重等。
可选的,一种增强特征的获取方式,可以基于M个第二互动数据分别对应的第二互动特征的特征类型,对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征。具体的,该特征类型可以包括特征向量及预测结果,该第二互动特征的特征类型的确定方式,可以参见第一互动特征的特征类型的确定方式。其中,若M个第二互动数据分别对应的第二互动特征为特征向量,则对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征;若M个第二互动数据分别对应的第二互动特征为预测结果,则对M个第二互动特征进行筛选,对符合特征筛选范围的第二互动特征进行特征融合处理,得到增强特征。举例来说,参见图7,图7是本申请实施例提供的一种特征融合场景示意图。如图7所示,假定M个第二互动数据分别对应的第二互动特征701包括第二互动特征T0、第二互动特征T1及第二互动特征Tr-1,其中,假定此处的第二互动特征为预测结果,N个数据模态包括文本模态及图片模态,也就是说,可以将第二互动特征T0记作T0(S1,S2),将第二互动特征T1记作T1(S1,S2),…,将第二互动特征Tr-1记作Tr-1(S1,S2),其中,S1用于表示所在的第二互动特征中文本模态对应的第二子特征,S2用于表示所在的第二互动特征中图片模态对应的第二子特征。假定特征筛选范围为文本模态对应的第二子特征大于0.5,且小于1,也就是可以记作(0.5<S1<1),对符合特征筛选范围的第二互动特征进行特征融合处理,得到增强特征,假定此处的特征融合处理为特征相加(sum),则该增强特征可以记作R=sumT(if(0.5<S1<1)),其中,R是指增强特征,sum用于表示特征相加,T表示M个第二互动数据分别对应的第二互动特征,也可以认为是特征管理队列所包括的第二互动特征,也就是该增强特征也可以记作R=∑Tif(0.5<Ti(S1)<1),∑是指特征求和sum,Ti表示M个第二互动特征中的第i个第二互动特征,用于表示第i个第二互动特征中的文本模态所对应的第二子特征。
可选的,该增强特征的获取方式不限于上述例举的几种获取方式,例如,一种增强特征的获取方式,还可以对M个第二互动特征中,属于参考特征范围的第二互动特征进行特征融合处理,得到增强特征。其中,参考特征范围是指需要保留的用于对第一互动数据进行特征增强的特征范围,也就是,采用第二互动特征属于参考特征范围的第二互动数据对第一互动数据进行特征增强。
或者,一种增强特征的获取方式下,在第二互动特征为预测结果时,可以对M个第二互动特征中属于参考特征范围的第二互动特征进行统计,得到增强特征等。
进一步地,计算机设备可以将第一互动特征与增强特征输入数据解析模型。基于数据解析模型对第一互动特征及增强特征进行解析处理,得到第一互动数据的数据解析结果。如图4所示,将第一互动特征403及增强特征405输入数据解析模型,基于数据解析模型对第一互动特征403及增强特征405进行解析处理,得到第一互动数据的数据解析结果。具体参见图8,图8是本申请实施例提供的一种数据解析处理示意图,如图8所示,可以将第二互动数据所对应的增强特征与第一互动数据所对应的第一互动特征,输入数据解析模型进行解析处理,得到数据解析结果。
可选的,计算机设备可以将第一互动特征与增强特征输入数据解析模型。在数据解析模型中获取特征增强系数,采用特征增强系数对增强特征进行加权处理,得到辅助特征。在数据解析模型中,将辅助特征添加至第一互动特征,得到融合互动特征。进一步地,可以将融合互动特征确定为第一互动数据的数据解析结果,此时,该第一互动特征的特征类型与第二互动特征的特征类型为预测结果。或者,在第一互动特征的特征类型及第二互动特征的特征类型为特征向量时,可以采用数据解析模型中训练得到的解析参数,对融合互动特征进行解析处理,预测得到第一互动数据的数据解析结果。
进一步地,可以参见图9,图9是本申请实施例提供的一种数据解析的具体方法流程图。如图9所示,该数据解析过程可以包括如下步骤:
步骤S901,响应针对第一互动数据的解析请求,获取第二互动数据。
在本申请实施例中,计算机设备响应针对第一互动数据的解析请求,可以获取第一互动数据所处的互动场景,在第一互动数据所处的互动场景(也就是上述第一互动场景)中,获取与第一互动数据相关联的第二互动数据。具体示例可以参见图3的步骤S302中的相关描述。其中,该第二互动数据可以是与第一互动数据处于同一互动场景的所有的互动数据,也就是说,可以获取第一互动数据所处的互动场景,将该互动场景中除第一互动数据之外的互动数据,确定为第二互动数据。或者,可以获取第一互动数据所处的互动场景,将该互动场景中产生时间小于第一互动数据的产生时间的互动数据,确定为第二互动数据,也就是说,如将第一互动数据的产生时间记作Tr,则第二互动数据为产生时间小于Tr的互动数据,如产生时间为T0至Tr-1的互动数据,T0至Tr-1均小于Tr。或者,可以获取第一互动数据所处的互动场景,获取该互动场景所包括的互动数据与第一互动数据之间的数据间距,基于该互动场景所包括的互动数据与第一互动数据之间的数据间距,获取增强数量阈值所对应的第二互动数据,此时,该第二互动数据的数量为M,M小于或等于增强数量阈值等,第二互动数据是与第一互动数据之间的数据间距最小的前M个互动数据。或者,可以获取第一互动数据所处的互动场景,从该互动场景中产生时间小于第一互动数据的产生时间的互动数据中,获取增强数量阈值所对应的第二互动数据,此时,第二互动数据的数量为M,M小于或等于增强数量阈值等。也就是说,由于互动场景中所包括的互动数据的数量可能未达到增强数量阈值,此时,M就会出现小于增强数量阈值的情况。
步骤S902,识别第二互动数据的第二互动特征,存储第二互动特征。
在本申请实施例中,计算机设备可以检测第二互动数据的第二数据模态,基于第二互动数据的第二数据模态,识别第二互动数据的第二互动特征,其中,该第二互动特征的识别过程可以参见图3的步骤S301中,对第一互动特征的识别过程,在此不再进行赘述。进一步,可以存储第二互动数据的第二互动特征,例如,可以将第二互动特征添加至特征管理队列。
可选的,第二互动特征包括N个数据模态分别对应的第二子特征;N为正整数,N个数据模态包括第一数据模态及第二数据模态。可以获取主数据模态及主数据模态的参考特征范围,该主数据模态是指需要进行限制存储的数据模态,可以是N个数据模态中的任意一个或多个数据模态。若N个数据模态中的主数据模态所对应的第二子特征,属于参与特征范围,则执行将第二互动特征添加至特征管理队列的过程。
进一步可选地,可以对特征管理队列所包括的互动特征进行解析,若特征管理队列所包括的互动特征满足出队条件,则对特征管理队列中满足出队条件的互动特征进行出队处理,可以提高特征管理队列的时效性。一种方式下,可以获取特征管理队列所包括的互动特征的数量;若特征管理队列所包括的互动特征的数量大于管理数量阈值,则对特征管理队列中的第三互动特征进行出队处理;第三互动数据是指位于特征管理队列中位于首位的互动数据;出队条件包括特征管理队列所包括的互动特征的数量大于管理数量阈值。或者,一种方式下,可以获取特征管理队列中所包括的互动特征的入队时间,获取系统网络时间;根据特征管理队列中所包括的互动特征的入队时间与系统网络时间,确定特征管理队列中所包括的互动特征的存储时长;对存储时长大于或等于存储阈值的互动特征进行出队处理;出队条件包括存储时长大于或等于存储阈值等。
其中,在固定特征管理队列的长度时,也就是说,固定特征管理队列所包括的第二互动特征的数量为M,如步骤S303中,该特征管理队列所包括的第二互动特征可以认为是Tr-m~Tr-1
步骤S903,检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征。
在本申请实施例中,该步骤可以参见图3的步骤S301所示的具体描述,在此不再进行赘述。
步骤S904,获取第二互动数据的第二互动特征。
在本申请实施例中,可以从特征管理队列中获取第二互动数据的第二互动特征,具体可以参见图3的步骤S302中所示的具体描述。
步骤S905,对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。
在本申请实施例中,可以参见图3的步骤S303中的具体描述,在此不再进行赘述。其中,以对M个第二互动特征中属于参考特征范围的第二互动特征进行统计为例,在步骤S302的示例中,假定第二互动数据“向运动员点赞!”的第二互动特征为0.91,第二互动数据“这是多少次训练才能成就的,真帅”的第二互动特征为0.95,第二互动数据“训练有素,厉害”的第二互动特征为0.88,第二互动数据“心理素质真好”的第二互动特征为0.82,第二互动数据“优秀”的第二互动特征为0.86,则可以将增强特征记作F2=F2+1,也就是,对属于参考特征范围的第二互动特征进行统计,假定此时得到增强特征F2为5。进一步的,对第一互动特征及增强特征进行解析处理,得到第一互动数据的数据解析结果,假定第一互动特征为0.43,特征增强系数为0.03,则可以认为融合互动特征为F=α*F2+F1,其中,α是指特征增强系数,F2是指增强特征,F1是指第一互动特征,此时,融合互动特征F=0.03*5+0.43=0.58,实现对第一互动数据的特征增强。可以将该融合互动特征确定为第一互动数据的数据解析结果。
步骤S906,基于数据解析结果,对第一互动数据进行数据管理。
在本申请实施例中,计算机设备可以基于数据解析结果,对第一互动数据进行数据管理。例如,本申请用于对互动数据进行异常检测,该解析请求用于将互动数据上传至目标应用,则该数据解析结果用于表示第一互动数据的数据检测结果,若该数据解析结果指示第一互动数据为正常数据,则将互动数据上传至目标应用;若该数据解析结果指示第一互动数据为异常数据,则输出数据异常提醒消息等。例如,本申请用于对互动数据进行分类,计算机设备响应针对互动数据的分类请求,生成对第一互动数据的解析请求,执行上述步骤S901至步骤S905,得到第一互动数据的数据解析结果,基于第一互动数据的数据解析结果,确定第一互动数据所属的目标媒体类别,将第一互动数据划分至目标媒体类别。例如,本申请用于对互动数据进行评分,计算机设备可以通过上述步骤S901至步骤S905,得到第一互动数据的数据解析结果,基于第一互动数据的数据解析结果,确定第一互动数据的数据评分等。
可选的,可以获取第二互动数据所对应的数据解析结果,基于第二互动数据所对应的数据解析结果,对融合互动特征所对应的数据解析结果进行检测。若融合互动特征所对应的数据解析结果与第二互动数据所对应的数据解析结果相匹配,则基于融合互动特征所对应的数据解析结果,对第一互动数据进行数据管理。例如,可以获取M个第二互动数据分别对应的数据解析结果的分布曲线,将第一互动数据的数据解析结果映射至该分布曲线,若第一互动数据的数据解析结果与分布曲线的偏离程度大于异常分布阈值,则确定第一互动数据对应的数据解析结果与第二互动数据对应的数据解析结果不匹配;若第一互动数据的数据解析结果与分布曲线的偏离程度小于或等于异常分布阈值,则确定第一互动数据对应的数据解析结果与第二互动数据对应的数据解析结果相匹配。
可选的,在对第一互动数据进行解析之后,可以基于第一互动数据对数据解析模型进行优化更新,提高数据解析模型的场景实时覆盖能力,进而提高数据解析的准确性。也就是说,可以在数据解析模型的使用过程中,对数据解析模型进行自更新迭代。
在本申请实施例中,计算机设备可以检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征,使得对互动数据(如第一互动数据)的特征识别是基于该互动数据的数据模态进行的,也就是说,该第一互动特征可以更为精准地表示该第一互动数据的内容特征,还可以携带该第一互动数据的数据模态的特征,使得该第一互动特征更为精确。进一步,可以获取第二互动数据的第二互动特征,该第二互动数据与第一互动数据属于同一个互动场景,也就是第一互动数据与第二互动数据之间具有相关性,换句话说,第一互动数据的含义在一定程度上与第二互动数据的含义具有相似性。可以对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果,使得可以通过第二互动数据对第一互动数据进行辅助解析,利用了第一互动数据与第二互动数据之间的相关性,从而达到对第一互动数据的解析修正的效果,提高数据解析的准确性。
其中,在图3的步骤S302中的示例,以互动特征为预测结果,增强特征是通过对第二互动特征进行统计得到的为例,该第一互动数据与第二互动数据的检测结果可以参见下表1:
表1
如表1所示,第一互动数据“没什么可说的了!”的含义可能存在两面性,也就是说,在该互动场景下,是对该极限运动爱好者的夸赞认可,是褒义,但是由于含义隐晦,可能会导致解析误差,如得到现有预测结果为0.43,被判定为贬义含义,认为是对该极限运动爱好者的嘲笑等,通过本申请,对第一互动特征进行特征增强处理,得到第一互动数据的数据解析结果为0.58,将该第一互动数据预测为褒义含义,提高数据解析的准确性,召回准确率增加10%。
总得来说,可以认为本申请大致可以分为如下步骤:
Cn=第一互动数据,可以具备一个或至少两个数据模态,如文本模态、图片模态或视频模态等,也就是获取第一互动数据,记作Cn
F2n=对特征管理队列中的第二互动特征进行特征融合处理,得到增强特征,如特征求最大值max或特征取平均值avg等,用于表示第一互动数据Cn的增强特征F2n
获取第一互动特征F1n
数据解析结果Outputn=F(Cn,F2n,F1n),此处的F()是指数据解析模型。
通过以上过程,利用围绕一个主题内容的第二互动数据与第一互动数据之间的相关性,采用第二互动数据对第一互动数据进行特征增强,提高对数据解析的准确性。
进一步地,请参见图10,图10是本申请实施例提供的一种模型训练流程示意图。如图10所示,该过程包括如下步骤:
步骤S1001,检测第一互动样本的第一样本模态,将第一互动样本输入第一样本模态所对应的初始模态特征解析模型进行解析,得到第一互动样本的第一样本特征。
在本申请实施例中,该第一样本特征的获取过程,可以参见图3及图9中第一互动特征的获取过程,在此不再进行赘述。
步骤S1002,获取第二互动样本的第二样本特征。
在本申请实施例中,该第二样本特征的获取过程,可以参见图3及图9中第二互动特征的获取过程,在此不再进行赘述。其中,第一互动样本与第二互动样本属于同一个互动场景,可以将图10及图11中所示的互动场景记作第二互动场景,用以区分上述第一互动场景。其中,同一个互动场景具备一个主题内容,此处可以记作第二主题内容,第一互动样本与第二互动样本均与所属的互动场景(即第二互动场景)的主题内容(即第二主题内容)相关联。其中,第一互动样本与第二互动样本的发布参数不同,发布参数可以包括发布时间及发布对象等。第二样本特征是基于第二互动样本的第二样本模态所识别得到的。其中,第二互动样本与第一互动样本之间的关系,可以参见图3中对第一互动数据与第二互动数据之间的关系的相关描述。
步骤S1003,在初始数据解析模型中,对第一样本特征与第二样本特征进行特征融合,得到样本融合特征,预测样本融合特征所对应的样本解析结果。
在本申请实施例中,该样本解析结果的获取过程,可以参见图3及图9中数据解析结果的获取过程,在此不再进行赘述。
步骤S1004,获取第一互动样本的第一样本标签,基于第一样本标签及样本解析结果,对初始模态特征解析模型及初始数据解析模型进行参数调整,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。
在本申请实施例中,计算机设备可以基于第一样本标签及样本解析结果,对初始模态特征解析模型及初始数据解析模型进行参数调整,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。可选的,在第一样本特征为预测结果时,可以基于第一样本标签及第一样本特征对初始模态特征解析模型进行参数调整,得到初始模态特征解析模型所对应的模态特征解析模型;基于第一样本标签与样本解析结果,对初始数据解析模型进行参数调整,得到初始数据解析模型所对应的数据解析模型。其中,该数据解析模型中的参数包括但不限于训练得到的特征增强系数等。例如,可以根据第一样本标签与样本解析结果,生成模型损失,基于模型损失对初始模态特征解析模型及初始数据解析模型进行参数调整。可选的,若初始数据解析模型的输出数据(即样本特征,如第一样本特征及第二样本特征等)的特征类型为预测结果,则还可以基于第一样本标签及第一样本特征,对第一样本模态所对应的初始模态特征解析模型进行参数调整,以提高模型训练的效率及模型的准确性。其中,对样本特征的特征类型的确定方式,可以参见图3中,对第一互动特征及第二互动特征等的特征类型的确定方式。
可选的,可以参见图11,图11是本申请实施例提供的一种可能的模型训练场景的流程示意图。如图11所示,该过程可以包括如下步骤:
步骤S1101,获取样本集群。
在本申请实施例中,计算机设备可以获取样本集群,具体的,计算机设备可以获取一个互动场景,从互动场景(即第二互动场景)中获取样本集群,该样本集群包括该互动场景(也就是第二互动场景)所包括的互动样本,获取各个互动样本所对应的样本标签。其中,该互动样本包括上述图10所示的第一互动样本及第二互动样本。
步骤S1102,将第i个互动样本确定为第一互动样本。
在本申请实施例中,计算机设备可以将第i个互动样本确定为第一互动样本,其中,i的初始值为默认值,如1。
步骤S1103,检测第一互动样本的第一样本模态,将第一互动样本输入第一样本模态所对应的初始模态特征解析模型进行解析,得到第一互动样本的第一样本特征。
在本申请实施例中,计算机设备可以检测第一互动样本的第一样本模态,将第一互动样本输入第一样本模态所对应的初始模态特征解析模型进行解析,得到第一互动样本的第一样本特征。进一步地,可以将第一样本特征添加至特征管理队列中。其中,该第一样本特征的获取过程可以参见图10的步骤S1001所示的具体描述。
步骤S1104,获取第二互动样本的第二样本特征。
在本申请实施例中,可以从特征管理队列中获取第二互动样本的第二样本特征,该第二互动样本可以认为是指样本集群中位于第i个互动样本之前的互动样本,也就是已经得到样本特征的互动样本。例如,第i个互动样本为第一个互动样本时,该第二互动样本可以认为是空,也就是此时不存在第二互动样本;第i个互动样本为第二个互动样本时,该第二互动样本可以认为包括第一个互动样本等。其中,对第二样本特征的获取过程,可以参见图10的步骤S1002中所示的相关描述。
步骤S1105,在初始数据解析模型中,对第一样本特征与第二样本特征进行特征融合,得到样本融合特征,预测样本融合特征所对应的样本解析结果。
在本申请实施例中,该过程可以参见图10中的步骤S1003所示的具体描述,在此不再进行赘述。
步骤S1106,完成对样本集群的遍历。
在本申请实施例中,检测样本集群是否完成遍历,若完成对样本集群的遍历,则执行步骤S1108;若未完成对样本集群的遍历,则执行步骤S1107。
步骤S1107,i++。
在本申请实施例中,进行i++,即i=i+1,返回执行步骤S1102,也就是对下一个互动样本进行解析处理。
步骤S1108,基于互动样本的样本标签及样本解析结果,对初始模态特征解析模型及初始数据解析模型进行参数调整,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。
在本申请实施例中,可以基于样本集群所包括的互动样本的样本标签及样本解析结果,对初始模态特征解析模型及初始数据解析模型进行参数调整,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。具体,可以参见图10中的步骤S1004的相关描述,在此不再进行赘述。
可选的,也可以在步骤S1105之后,采用第一互动样本的第一样本标签及样本解析结果,对初始模态特征解析模型及初始数据解析模型进行参数调整,再执行步骤S1106,也就是,每次进行第一互动数据的切换时,都会对初始模态特征解析模型及初始数据解析模型进行参数调整,直至完成对样本集群的遍历,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。
可选的,可以获取一个或至少两个互动场景,基于各个互动场景下的样本集群,迭代执行上述步骤S1101至步骤S1108,直至完成对初始模态特征解析模型及初始数据解析模型的训练,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。例如,在步骤S1101中,获取第j个样本集群,一个样本集群对应一个互动场景,针对第j个样本集群执行步骤S1102至步骤S1106,其中,j为正整数,在步骤S1102中,是将第j个样本集群中的第i个互动样本确定为第一互动样本。进一步,在步骤S1106中,若完成对第j个样本集群的遍历,则检测是否存在未处理的样本集群,若存在未处理的样本集群,则执行j++,即处理下一个样本集群,返回执行步骤S1101,获取第j个样本集群;若不存在未处理的样本集群,则执行步骤S1108。
或者,在针对第j个样本集群执行步骤S1108,对初始模态特征解析模型及初始数据解析模型进行参数调整,进一步检测是否存在未处理的样本集群,若存在未处理的样本集群,则执行j++,即处理下一个样本集群,返回执行步骤S1101,获取第j个样本集群;若不存在未处理的样本集群,则结束上述模型训练的过程,将此时的初始模态特征解析模型记作模态特征解析模型,将此时的初始数据解析模型记作数据解析模型。或者,在针对第j个样本集群执行步骤S1108,对初始模态特征解析模型及初始数据解析模型进行参数调整,进一步检测当前的初始模态特征解析模型及初始数据解析模型是否满足参数收敛条件,若满足参数收敛条件,则结束上述模型训练的过程,将当前的初始模态特征解析模型记作模态特征解析模型,将当前的初始数据解析模型记作数据解析模型;若不满足参数收敛条件,则执行j++,即处理下一个样本集群,返回执行步骤S1101,获取第j个样本集群等。以上为几种可选的模型训练过程,也可以采用任意一种训练过程,利用一个多多个样本集群,对初始模态特征解析模型及初始数据解析模型进行训练等。
在本申请实施例中,通过以上过程,实现了对模型的训练,基于该方式训练得到的模态特征解析模型及数据解析模型,可以用于对互动数据进行解析,且在解析过程中,采用与第一互动数据属于同一互动场景的第二互动数据,对第一互动数据进行特征增强处理,提高数据解析的准确性。
其中,用于上述图10及图11的模型训练的计算机设备,与用于上述图3及图9的模型预测的计算机设备,可以是同一个设备,也可以是不同的设备。
进一步地,请参见图12,图12是本申请实施例提供的一种数据解析装置示意图。该数据解析装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该数据解析装置可以为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示,该数据解析装置1200可以用于图3所对应实施例中的计算机设备,具体的,该装置可以包括:模态检测模块11、特征识别模块12、特征获取模块13及结果预测模块14。
模态检测模块11,用于检测第一互动数据的第一数据模态;
特征识别模块12,用于基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征;
特征获取模块13,用于获取第二互动数据的第二互动特征;第一互动数据与第二互动数据属于同一个互动场景;同一个互动场景具备一个主题内容,第一互动数据与第二互动数据均与主题内容相关联;第一互动数据的发布参数与第二互动数据的发布参数不同;第二互动特征是基于第二互动数据的第二数据模态所识别得到的;
结果预测模块14,用于对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。
其中,该特征识别模块12,包括:
模型解析单元121,用于若第一互动数据具备一种第一数据模态,则将第一互动数据输入第一互动数据所对应的第一数据模态的模态特征解析模型进行解析处理,得到第一互动数据的第一互动特征;
该模型解析单元121,还用于若第一互动数据具备k个第一数据模态,则将第一互动数据拆分为k个第一数据模态分别对应的子数据,将k个子数据分别输入k个第一数据模态的模态特征解析模型进行解析处理,得到k个子数据分别对应的第一子特征,将k个第一子特征组合成第一互动数据的第一互动特征;k为正整数。
其中,该特征获取模块13,具体用于:
从特征管理队列中获取第二互动数据的第二互动特征;
该装置1200还包括:
特征出队模块15,用于对特征管理队列所包括的互动特征进行解析,若特征管理队列所包括的互动特征满足出队条件,则对特征管理队列中满足出队条件的互动特征进行出队处理。
其中,该特征出队模块15,包括:
数量获取单元151,用于获取特征管理队列所包括的互动特征的数量;
数量比对单元152,用于若特征管理队列所包括的互动特征的数量大于管理数量阈值,则对特征管理队列中的第三互动特征进行出队处理;第三互动数据是指位于特征管理队列中位于首位的互动数据;出队条件包括特征管理队列所包括的互动特征的数量大于管理数量阈值。
其中,该特征出队模块15,包括:
时间获取单元153,用于获取特征管理队列中所包括的互动特征的入队时间,获取系统网络时间;
时长确定单元154,用于根据特征管理队列中所包括的互动特征的入队时间与系统网络时间,确定特征管理队列中所包括的互动特征的存储时长;
时长匹配单元155,用于对存储时长大于或等于存储阈值的互动特征进行出队处理;出队条件包括存储时长大于或等于存储阈值。
其中,该装置1200还包括:
数据获取模块16,用于获取第一互动数据所处的互动场景,在互动场景中获取与第一互动数据相关联的第二互动数据;
数据识别模块17,用于检测第二互动数据的第二数据模态,基于第二互动数据的第二数据模态,识别第二互动数据的第二互动特征;
特征存储模块18,用于将第二互动特征添加至特征管理队列。
其中,第二互动特征包括N个数据模态分别对应的第二子特征;N为正整数,N个数据模态包括第一数据模态及第二数据模态;该装置1200还包括:
范围获取模块19,用于获取主数据模态及主数据模态的参考特征范围;
范围匹配模块20,用于若N个数据模态中的主数据模态所对应的第二子特征,属于参与特征范围,则执行将第二互动特征添加至特征管理队列的过程。
其中,第二互动数据的数量为M;M为正整数;
该结果预测模块14,包括:
特征融合单元141,用于对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征;
结果预测单元142,用于将第一互动特征与增强特征输入数据解析模型,基于数据解析模型对第一互动特征与增强特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。
其中,该特征融合单元141,包括:
第一融合子单元1411,用于若M个第二互动数据分别对应的第二互动特征为特征向量,则对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征;
第二融合子单元1412,用于若M个第二互动数据分别对应的第二互动特征为预测结果,则对M个第二互动特征进行筛选,对符合特征筛选范围的第二互动特征进行特征融合处理,得到增强特征。
其中,该结果预测单元142,包括:
特征输入子单元1421,用于将第一互动特征与增强特征输入数据解析模型;
系数增强子单元1422,用于在数据解析模型中获取特征增强系数,采用特征增强系数对增强特征进行加权处理,得到辅助特征;
融合预测子单元1423,用于在数据解析模型中,将辅助特征添加至第一互动特征,得到融合互动特征,将融合互动特征确定为第一互动数据的数据解析结果。
其中,该装置1200还包括:
结果检测模块21,用于获取第二互动数据所对应的数据解析结果,基于第二互动数据所对应的数据解析结果,对融合互动特征所对应的数据解析结果进行检测;
数据管理模块22,用于若融合互动特征所对应的数据解析结果与第二互动数据所对应的数据解析结果相匹配,则基于融合互动特征所对应的数据解析结果,对第一互动数据进行数据管理。
本申请实施例提供了一种数据解析装置,该装置可以检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征,使得对互动数据(如第一互动数据)的特征识别是基于该互动数据的数据模态进行的,也就是说,该第一互动特征可以更为精准地表示该第一互动数据的内容特征,还可以携带该第一互动数据的数据模态的特征,使得该第一互动特征更为精确。进一步,可以获取第二互动数据的第二互动特征,该第二互动数据与第一互动数据属于同一个互动场景,也就是第一互动数据与第二互动数据之间具有相关性,换句话说,第一互动数据的含义在一定程度上与第二互动数据的含义具有相似性。可以对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果,使得可以通过第二互动数据对第一互动数据进行辅助解析,利用了第一互动数据与第二互动数据之间的相关性,从而达到对第一互动数据的解析修正的效果,提高数据解析的准确性。
进一步地,请参见图13,图13是本申请实施例提供的另一种数据解析装置示意图。该数据解析装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该数据解析装置可以为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图13所示,该数据解析装置1300可以用于图10所对应实施例中的计算机设备,具体的,该装置可以包括:样本检测模块31、模态解析模块32、特征获取模块33、样本预测模块34及模型调整模块35。
样本检测模块31,用于检测第一互动样本的第一样本模态;
模态解析模块32,用于将第一互动样本输入第一样本模态所对应的初始模态特征解析模型进行解析,得到第一互动样本的第一样本特征;
特征获取模块33,用于获取第二互动样本的第二样本特征;第一互动样本与第二互动样本属于同一个互动场景;同一个互动场景具备一个主题内容,第一互动样本与第二互动样本均与所属的互动场景的主题内容相关联;第一互动样本与第二互动样本的发布参数不同;第二样本特征是基于第二互动样本的第二样本模态所识别得到的;
样本预测模块34,用于在初始数据解析模型中,对第一样本特征与第二样本特征进行特征融合,得到样本融合特征,预测样本融合特征所对应的样本解析结果;
模型调整模块35,用于获取第一互动样本的第一样本标签,基于第一样本标签及样本解析结果,对初始模态特征解析模型及初始数据解析模型进行参数调整,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。
在本申请实施例中,该装置实现了对模型的训练,基于该方式训练得到的模态特征解析模型及数据解析模型,可以用于对互动数据进行解析,且在解析过程中,采用与第一互动数据属于同一互动场景的第二互动数据,对第一互动数据进行特征增强处理,提高数据解析的准确性。
参见图14,图14是本申请实施例提供的一种计算机设备的结构示意图。如图14所示,本申请实施例中的计算机设备可以包括:一个或多个处理器1401、存储器1402和输入输出接口1403。该处理器1401、存储器1402和输入输出接口1403通过总线1404连接。存储器1402用于存储计算机程序,该计算机程序包括程序指令,输入输出接口1403用于接收数据及输出数据,如用于计算机设备与业务设备之间进行数据交互;处理器1401用于执行存储器1402存储的程序指令。
其中,该处理器1401用于模型预测时,可以执行如下操作:
检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征;
获取第二互动数据的第二互动特征;第一互动数据与第二互动数据属于同一个互动场景;同一个互动场景具备一个主题内容,第一互动数据与第二互动数据均与主题内容相关联;第一互动数据的发布参数与第二互动数据的发布参数不同;第二互动特征是基于第二互动数据的第二数据模态所识别得到的;
对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果。
其中,该处理器1401用于模型训练时,可以执行如下操作:
检测第一互动样本的第一样本模态,将第一互动样本输入第一样本模态所对应的初始模态特征解析模型进行解析,得到第一互动样本的第一样本特征;
获取第二互动样本的第二样本特征;第一互动样本与第二互动样本属于同一个互动场景;同一个互动场景具备一个主题内容,第一互动样本与第二互动样本均与所属的互动场景的主题内容相关联;第一互动样本与第二互动样本的发布参数不同;第二样本特征是基于第二互动样本的第二样本模态所识别得到的;
在初始数据解析模型中,对第一样本特征与第二样本特征进行特征融合,得到样本融合特征,预测样本融合特征所对应的样本解析结果;
获取第一互动样本的第一样本标签,基于第一样本标签及样本解析结果,对初始模态特征解析模型及初始数据解析模型进行参数调整,得到初始模态特征解析模型所对应的模态特征解析模型,以及初始数据解析模型所对应的数据解析模型。
在一些可行的实施方式中,该处理器1401可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器1402可以包括只读存储器和随机存取存储器,并向处理器1401和输入输出接口1403提供指令和数据。存储器1402的一部分还可以包括非易失性随机存取存储器。例如,存储器1402还可以存储设备类型的信息。
具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3或图10中各个步骤所提供的实现方式,具体可参见该图3或图10中各个步骤所提供的实现方式,在此不再赘述。
本申请实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行该图3中所示方法的各个步骤,进行数据解析操作。本申请实施例可以检测第一互动数据的第一数据模态,基于第一互动数据的第一数据模态,识别第一互动数据的第一互动特征,使得对互动数据(如第一互动数据)的特征识别是基于该互动数据的数据模态进行的,也就是说,该第一互动特征可以更为精准地表示该第一互动数据的内容特征,还可以携带该第一互动数据的数据模态的特征,使得该第一互动特征更为精确。进一步,可以获取第二互动数据的第二互动特征,该第二互动数据与第一互动数据属于同一个互动场景,也就是第一互动数据与第二互动数据之间具有相关性,换句话说,第一互动数据的含义在一定程度上与第二互动数据的含义具有相似性。可以对第一互动特征与第二互动特征进行特征融合,得到融合互动特征,预测融合互动特征所对应的数据解析结果,使得可以通过第二互动数据对第一互动数据进行辅助解析,利用了第一互动数据与第二互动数据之间的相关性,从而达到对第一互动数据的解析修正的效果,提高数据解析的准确性。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行图3或图10中各个步骤所提供的数据解析方法,具体可参见该图3或图10中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,计算机程序可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
该计算机可读存储介质可以是前述任一实施例提供的数据解析装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3或图10中的各种可选方式中所提供的方法,实现了使得对互动数据(如第一互动数据)的特征识别是基于该互动数据的数据模态进行的,也就是说,该第一互动特征可以更为精准地表示该第一互动数据的内容特征,还可以携带该第一互动数据的数据模态的特征,使得该第一互动特征更为精确。进一步,该第二互动数据与第一互动数据属于同一个互动场景,也就是第一互动数据与第二互动数据之间具有相关性,换句话说,第一互动数据的含义在一定程度上与第二互动数据的含义具有相似性。使得可以通过第二互动数据对第一互动数据进行辅助解析,利用了第一互动数据与第二互动数据之间的相关性,从而达到对第一互动数据的解析修正的效果,提高数据解析的准确性。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据解析设备的处理器以产生一个机器,使得通过计算机或其他可编程数据解析设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据解析设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据解析设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (17)

1.一种数据解析方法,其特征在于,所述方法包括:
检测第一互动数据的第一数据模态,基于所述第一互动数据的第一数据模态,识别所述第一互动数据的第一互动特征;
获取第二互动数据的第二互动特征;所述第一互动数据与所述第二互动数据属于同一个互动场景;所述同一个互动场景具备一个主题内容,所述第一互动数据与所述第二互动数据均与所述主题内容相关联;所述第一互动数据的发布参数与所述第二互动数据的发布参数不同;所述第二互动特征是基于所述第二互动数据的第二数据模态所识别得到的;
对所述第一互动特征与所述第二互动特征进行特征融合,得到融合互动特征,预测所述融合互动特征所对应的数据解析结果。
2.如权利要求1所述的方法,其特征在于,所述基于所述第一互动数据的第一数据模态,识别所述第一互动数据的第一互动特征,包括:
若所述第一互动数据具备一种第一数据模态,则将所述第一互动数据输入所述第一互动数据所对应的第一数据模态的模态特征解析模型进行解析处理,得到所述第一互动数据的第一互动特征;
若所述第一互动数据具备k个第一数据模态,则将所述第一互动数据拆分为k个第一数据模态分别对应的子数据,将k个子数据分别输入所述k个第一数据模态的模态特征解析模型进行解析处理,得到所述k个子数据分别对应的第一子特征,将k个第一子特征组合成所述第一互动数据的第一互动特征;k为正整数。
3.如权利要求1所述的方法,其特征在于,所述获取第二互动数据的第二互动特征,包括:
从特征管理队列中获取第二互动数据的第二互动特征;
所述方法还包括:
对所述特征管理队列所包括的互动特征进行解析,若所述特征管理队列所包括的互动特征满足出队条件,则对所述特征管理队列中满足所述出队条件的互动特征进行出队处理。
4.如权利要求3所述的方法,其特征在于,所述对所述特征管理队列所包括的互动特征进行解析,若所述特征管理队列所包括的互动特征满足出队条件,则对所述特征管理队列中满足所述出队条件的互动特征进行出队处理,包括:
获取所述特征管理队列所包括的互动特征的数量;
若所述特征管理队列所包括的互动特征的数量大于管理数量阈值,则对所述特征管理队列中的第三互动特征进行出队处理;所述第三互动数据是指位于所述特征管理队列中位于首位的互动数据;所述出队条件包括所述特征管理队列所包括的互动特征的数量大于管理数量阈值。
5.如权利要求3所述的方法,其特征在于,所述对所述特征管理队列所包括的互动特征进行解析,若所述特征管理队列所包括的互动特征满足出队条件,则对所述特征管理队列中满足所述出队条件的互动特征进行出队处理,包括:
获取所述特征管理队列中所包括的互动特征的入队时间,获取系统网络时间;
根据所述特征管理队列中所包括的互动特征的入队时间与所述系统网络时间,确定所述特征管理队列中所包括的互动特征的存储时长;
对存储时长大于或等于存储阈值的互动特征进行出队处理;所述出队条件包括所述存储时长大于或等于存储阈值。
6.如权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述第一互动数据所处的互动场景,在所述互动场景中获取与所述第一互动数据相关联的第二互动数据;
检测所述第二互动数据的第二数据模态,基于所述第二互动数据的第二数据模态,识别所述第二互动数据的第二互动特征;
将所述第二互动特征添加至所述特征管理队列。
7.如权利要求6所述的方法,其特征在于,所述第二互动特征包括N个数据模态分别对应的第二子特征;N为正整数,所述N个数据模态包括所述第一数据模态及所述第二数据模态;所述方法还包括:
获取主数据模态及所述主数据模态的参考特征范围;
若所述N个数据模态中的主数据模态所对应的第二子特征,属于所述参与特征范围,则执行将所述第二互动特征添加至所述特征管理队列的过程。
8.如权利要求1所述的方法,其特征在于,所述第二互动数据的数量为M;M为正整数;
所述对所述第一互动特征与所述第二互动特征进行特征融合,得到融合互动特征,预测所述融合互动特征所对应的数据解析结果,包括:
对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征;
将所述第一互动特征与所述增强特征输入数据解析模型,基于所述数据解析模型对所述第一互动特征与所述增强特征进行特征融合,得到融合互动特征,预测所述融合互动特征所对应的数据解析结果。
9.如权利要求8所述的方法,其特征在于,所述对M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征,包括:
若M个第二互动数据分别对应的第二互动特征为特征向量,则对所述M个第二互动数据分别对应的第二互动特征进行特征融合处理,得到增强特征;
若所述M个第二互动数据分别对应的第二互动特征为预测结果,则对M个第二互动特征进行筛选,对符合特征筛选范围的第二互动特征进行特征融合处理,得到增强特征。
10.如权利要求8所述的方法,其特征在于,所述将所述第一互动特征与所述增强特征输入数据解析模型,基于所述数据解析模型对所述第一互动特征与所述增强特征进行特征融合,得到融合互动特征,预测所述融合互动特征所对应的数据解析结果,包括:
将所述第一互动特征与所述增强特征输入数据解析模型;
在所述数据解析模型中获取特征增强系数,采用所述特征增强系数对所述增强特征进行加权处理,得到辅助特征;
在所述数据解析模型中,将所述辅助特征添加至所述第一互动特征,得到融合互动特征,将所述融合互动特征确定为所述第一互动数据的数据解析结果。
11.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第二互动数据所对应的数据解析结果,基于所述第二互动数据所对应的数据解析结果,对所述融合互动特征所对应的数据解析结果进行检测;
若所述融合互动特征所对应的数据解析结果与所述第二互动数据所对应的数据解析结果相匹配,则基于所述融合互动特征所对应的数据解析结果,对所述第一互动数据进行数据管理。
12.一种数据解析方法,其特征在于,所述方法包括:
检测第一互动样本的第一样本模态,将所述第一互动样本输入所述第一样本模态所对应的初始模态特征解析模型进行解析,得到所述第一互动样本的第一样本特征;
获取第二互动样本的第二样本特征;所述第一互动样本与所述第二互动样本属于同一个互动场景;同一个互动场景具备一个主题内容,所述第一互动样本与所述第二互动样本均与所属的互动场景的主题内容相关联;所述第一互动样本与所述第二互动样本的发布参数不同;所述第二样本特征是基于所述第二互动样本的第二样本模态所识别得到的;
在初始数据解析模型中,对所述第一样本特征与所述第二样本特征进行特征融合,得到样本融合特征,预测所述样本融合特征所对应的样本解析结果;
获取所述第一互动样本的第一样本标签,基于所述第一样本标签及样本解析结果,对所述初始模态特征解析模型及所述初始数据解析模型进行参数调整,得到所述初始模态特征解析模型所对应的模态特征解析模型,以及所述初始数据解析模型所对应的数据解析模型。
13.一种数据解析装置,其特征在于,所述装置包括:
模态检测模块,用于检测第一互动数据的第一数据模态;
特征识别模块,用于基于所述第一互动数据的第一数据模态,识别所述第一互动数据的第一互动特征;
特征获取模块,用于获取第二互动数据的第二互动特征;所述第一互动数据与所述第二互动数据属于同一个互动场景;所述同一个互动场景具备一个主题内容,所述第一互动数据与所述第二互动数据均与所述主题内容相关联;所述第一互动数据的发布参数与所述第二互动数据的发布参数不同;所述第二互动特征是基于所述第二互动数据的第二数据模态所识别得到的;
结果预测模块,用于对所述第一互动特征与所述第二互动特征进行特征融合,得到融合互动特征,预测所述融合互动特征所对应的数据解析结果。
14.一种数据解析装置,其特征在于,所述装置包括
样本检测模块,用于检测第一互动样本的第一样本模态;
模态解析模块,用于将所述第一互动样本输入所述第一样本模态所对应的初始模态特征解析模型进行解析,得到所述第一互动样本的第一样本特征;
特征获取模块,用于获取第二互动样本的第二样本特征;所述第一互动样本与所述第二互动样本属于同一个互动场景;同一个互动场景具备一个主题内容,所述第一互动样本与所述第二互动样本均与所属的互动场景的主题内容相关联;所述第一互动样本与所述第二互动样本的发布参数不同;所述第二样本特征是基于所述第二互动样本的第二样本模态所识别得到的;
样本预测模块,用于在初始数据解析模型中,对所述第一样本特征与所述第二样本特征进行特征融合,得到样本融合特征,预测所述样本融合特征所对应的样本解析结果;
模型调整模块,用于获取所述第一互动样本的第一样本标签,基于所述第一样本标签及样本解析结果,对所述初始模态特征解析模型及所述初始数据解析模型进行参数调整,得到所述初始模态特征解析模型所对应的模态特征解析模型,以及所述初始数据解析模型所对应的数据解析模型。
15.一种计算机设备,其特征在于,包括处理器、存储器、输入输出接口;
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于接收数据及输出数据,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-11任一项所述的方法,或者执行权利要求12所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-11任一项所述的方法,或者执行权利要求12所述的方法。
17.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-11任一项所述的方法,或者执行权利要求12所述的方法。
CN202211455214.9A 2022-11-21 2022-11-21 数据解析方法、装置、计算机、可读存储介质及程序产品 Pending CN116976309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211455214.9A CN116976309A (zh) 2022-11-21 2022-11-21 数据解析方法、装置、计算机、可读存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211455214.9A CN116976309A (zh) 2022-11-21 2022-11-21 数据解析方法、装置、计算机、可读存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN116976309A true CN116976309A (zh) 2023-10-31

Family

ID=88473679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211455214.9A Pending CN116976309A (zh) 2022-11-21 2022-11-21 数据解析方法、装置、计算机、可读存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN116976309A (zh)

Similar Documents

Publication Publication Date Title
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
US10685236B2 (en) Multi-model techniques to generate video metadata
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN111680147A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN114219971B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN113362852A (zh) 一种用户属性识别方法和装置
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN113743522A (zh) 违规行为的检测方法及装置、电子设备
CN114676705B (zh) 一种对话关系处理方法、计算机及可读存储介质
CN112861474B (zh) 一种信息标注方法、装置、设备及计算机可读存储介质
CN110889717A (zh) 文本中的广告内容过滤方法、装置、电子设备及存储介质
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
CN114357301A (zh) 数据处理方法、设备及可读存储介质
CN116976309A (zh) 数据解析方法、装置、计算机、可读存储介质及程序产品
CN114417875B (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN118230224B (zh) 标签打分方法、标签打分模型训练方法和装置
CN116702785B (zh) 关系标签的处理方法和装置、存储介质及电子设备
CN116976326A (zh) 数据处理方法、装置、计算机、存储介质及程序产品
CN117216361A (zh) 推荐方法、装置、电子设备及计算机可读存储介质
CN114328915A (zh) 语料标签获取方法、装置及计算机设备
CN117171562A (zh) 意向预测模型的训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication