CN113609118A - 应用于大数据的数据优化方法及大数据服务器 - Google Patents

应用于大数据的数据优化方法及大数据服务器 Download PDF

Info

Publication number
CN113609118A
CN113609118A CN202110905010.XA CN202110905010A CN113609118A CN 113609118 A CN113609118 A CN 113609118A CN 202110905010 A CN202110905010 A CN 202110905010A CN 113609118 A CN113609118 A CN 113609118A
Authority
CN
China
Prior art keywords
service
content
data
state switching
switching frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110905010.XA
Other languages
English (en)
Inventor
高云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110905010.XA priority Critical patent/CN113609118A/zh
Publication of CN113609118A publication Critical patent/CN113609118A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本申请实施例公开的应用于大数据的数据优化方法及大数据服务器,通过获得业务需求特征,能够实现对目标服务项目内容的精细化识别,从而避免将一些流程性的冗余数据考虑在内,这样一来,通过分析内容识别结果和目标服务项目内容之间的内容分布差异信息,能够实现对目标服务项目内容精准筛选,从而确保对目标服务项目内容进行除噪时尽可能削弱除噪过程对原始内容信息的影响,进而尽可能避免目标服务项目内容中的有用内容信息的缺失。

Description

应用于大数据的数据优化方法及大数据服务器
本申请是申请号为“202110165552.8”、申请日为“ 2021年02月06日”、申请名称为“在线云服务环境下的大数据处理方法及云计算服务器”的分案申请。
技术领域
本申请涉及大数据和云服务技术领域,特别涉及一种应用于大数据的数据优化方法及大数据服务器。
背景技术
大数据(big data)和云计算(cloud computing)是数字经济时代最显著的两大标志性技术,大数据技术和云计算技术相辅相成,为现代社会的发展作出了巨大的贡献。
现目前,依附于云计算,许多业务服务可以在云端处理,不仅提高了业务办理效率,还降低了业务办理成本。而大数据挖掘能够使得各类线上业务不断地进行优化和更新,以满足社会快速发展所带来的各类业务需求。大数据挖掘(big data mining)是指从大量的数据中通过算法搜索隐藏于其中信息的过程,大数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
大数据挖掘可以应用于用户画像分析和设备状态分析等业务领域,在进行相关大数据挖掘业务之前,需要获得对应的大数据,但现目前的大数据大多携带噪声数据,为了确保大数据挖掘的精准性,需要进行数据除噪。然而基于相关的数据除噪技术得到的数据内容在后续使用时仍然存在一些缺陷。
发明内容
本申请实施例之一提供一种应用于大数据的数据优化方法,应用于大数据服务器,所述方法包括:获取携带有噪声的目标服务项目内容;
基于预先训练的噪声过滤线程确定与所述目标服务项目内容对应的服务项目指示信息;根据所述服务项目指示信息得到与所述目标服务项目内容对应的已标记的项目内容生产数据,并结合所述噪声过滤线程实现对目标服务项目内容的去噪处理。
本申请实施例之一提供一种大数据服务器,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行上述的方法。
上述应用于大数据的数据优化方法及大数据服务器,通过获取携带有噪声的目标服务项目内容,将目标服务项目内容输入至预先配置得到的噪声过滤线程,根据噪声过滤线程的输出得到对应的去噪声服务项目内容。其中,噪声过滤线程包括多个互相关联的业务环境检测模块,通过业务环境检测模块的数据分类策略,得到目标服务项目内容的各内容块类别的项目内容生产数据,项目内容生产数据作为该业务环境检测模块中信息识别策略的输入,通过信息识别策略得到各内容块类别的文档数字化信息,对文档数字化信息进行识别得到各内容块类别的服务项目指示信息,根据服务项目指示信息分别对各内容块类别的项目内容生产数据进行标记处理,得到已标记的项目内容生产数据。可以理解,该噪声过滤线程能够保持较佳的噪声数据识别和过滤性能,充分识别不同内容块类别的业务需求得到对应服务项目指示信息,通过标记处理具有较高热度的内容块同时削弱冷门内容块或错误内容块,进而有效过滤目标服务项目内容中的噪声内容,同时确保去噪声服务项目内容能够反推出目标服务项目内容的重要内容块,提高去噪声服务项目内容的内容信息还原度和服务环境匹配度。
附图说明
图1是一种应用于大数据的数据优化系统的框图。
图2是一种应用于大数据的数据优化方法和/或过程的流程图。
图3是应用于大数据的数据优化方法中配置噪声过滤线程的步骤示意图。
图4是根据本发明的一些实施例所示的一种示例性应用于大数据的数据优化装置的框图,以及
图5是根据本发明的一些实施例所示的一种示例性大数据服务器中硬件和软件组成的示意图。
具体实施方式
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
本实施例旨在针对存在噪声内容/噪声数据的服务项目内容进行噪声清洗,并且尽可能确保清洗之后的服务项目内容能够高度还原之间的数据信息,并且尽可能符合后续的数据信息应用环境,以提高与服务环境的匹配度。
本实施例所记载的技术方案可以包括以下内容:
步骤A1,获取携带有噪声的目标服务项目内容;
步骤B1,根据基于平衡样本配置文件配置的噪声过滤线程,对所述目标服务项目内容进行处理,得到已标记的项目内容生产数据;
步骤C1,通过所述噪声过滤线程以及所述已标记的项目内容生产数据,得到与所述目标服务项目内容对应的去噪声服务项目内容。
可以理解,上述方案中的噪声过滤线程可以为神经网络模型,也就是说,本方案可以借助相关的机器学习算法进行数据噪声的去除,当然,服务项目内容也可以理解为相关的业务数据。
进一步地,由于噪声过滤线程是基于平衡样本配置文件进行配置、训练和优化得到的,因此在使用噪声过滤线程时,能够确保噪声过滤线程具有较佳的噪声数据识别和过滤性能,并且确保噪声过滤线程在对目标服务项目内容进行处理时充分考虑实际的云服务环境对应的业务需求,这样一来,在对目标服务项目内容进行噪声去除时,能够准确可靠地区分出不同的噪声来源,从而根据不同的噪声来源进行相应的除噪处理,也即通过项目内容生产数据将目标服务项目内容对应的内容块的热度信息考虑在内,如此,可以确保去除的内容信息尽可能不影响目标服务项目内容的全局信息表达能力,从而确保去噪声服务项目内容能够反推出目标服务项目内容的重要内容块,提高去噪声服务项目内容的内容信息还原度和服务环境匹配度。
此外,关于本方案,还可以进行如下总结:
步骤A2,获取目标服务项目内容;
步骤B2,根据预先配置的噪声过滤线程确定与所述目标服务项目内容对应的已标记的项目内容生产数据;
步骤C2,利用所述噪声过滤线程以及所述已标记的项目内容生产数据对所述目标服务项目内容进行除噪,得到去噪声服务项目内容。
进一步地,关于本方案,还可以进行如下总结:
A3,获取携带有噪声的目标服务项目内容;
B3,基于预先训练的噪声过滤线程确定与所述目标服务项目内容对应的服务项目指示信息;
C3,根据所述服务项目指示信息得到与所述目标服务项目内容对应的已标记的项目内容生产数据,并结合所述噪声过滤线程实现对目标服务项目内容的去噪处理。
应当理解,上述步骤A1-C1所记载的技术方案,步骤A2-C2所记载的技术方案以及步骤A3-C3所记载的技术方案皆可以通过以下所示的步骤进行进一步说明,当然也可以基于以下的一些组合的实施例进行组合以得到新的技术方案,在此不作限定。下面将结合附图对本实施例的技术方案进行进一步说明。
如图1所示,在一个实施例中,提供了一种应用于大数据的数据优化系统100的通信架构示意图,该系统可以包括互相之间通信的数据采集设备110以及大数据服务器120。其中,数据采集设备110可以是智能电子设备,包括但不限于手机、平板电脑、笔记本电脑、膝式计算机、智能穿戴设备等。数据采集设备110可以有多个,比如数据采集设备110a、数据采集设备110b、数据采集设备110c以及数据采集设备110d等,数据采集设备110a、数据采集设备110b、数据采集设备110c以及数据采集设备110d可以形成数据采集设备集群,图中的数据采集设备可以为不同的类型的采集设备,在此不作限定。可以理解,大数据服务器120可以对接多数目据采集设备,也即大数据服务器120与数据采集设备的对应关系为一对多,大数据服务器120可以同步或者异步地与多数目据采集设备进行通信,以实现本实施例所提供的方法。
比如,以系统侧为执行主体,该方案所包括的技术内容可以如下:
数据采集设备基于用户操作行为,采集与所述用户操作行为对应的携带有噪声目标服务项目内容;
大数据服务器获取携带有噪声的目标服务项目内容;根据基于平衡样本配置文件配置的噪声过滤线程,对所述目标服务项目内容进行处理,得到已标记的项目内容生产数据;通过所述噪声过滤线程以及所述已标记的项目内容生产数据,得到与所述目标服务项目内容对应的去噪声服务项目内容。
可以理解,关于系统实施例的进一步描述也可以参阅以下的内容,在此不再赘述。
如图2所示,在一个实施例中,提供了一种应用于大数据的数据优化方法。本实施例主要以该方法应用于上述图1中的大数据服务器120来举例说明。参照图2,该应用于大数据的数据优化方法具体包括如下步骤S21-S26所描述的内容。
S21,获取携带有噪声的目标服务项目内容。
其中,目标服务项目内容是指携带有噪声数据/信息,需要进行噪声过滤处理的服务项目内容。目标服务项目内容具体可以是携带有噪声的交互服务项目内容,也可以是从携带有噪声的交互服务项目内容中确定出的画像标签服务项目内容。比如,当采用服务项目内容处理程序进行噪声过滤处理时,所获取的携带有噪声的目标服务项目内容为输入至服务项目内容处理程序的交互服务项目内容或确定出的画像标签服务项目内容。交互服务项目内容可以表征多端之间的业务数据交互情况,画像标签服务项目内容可以表征针对用户的个性化分析的相关数据信息。
举例而言,服务项目内容可以包括一系列的业务数据,这些业务数据可以在后期作为数据挖掘算法的输入,但是为了确保数据挖掘算法的挖掘结果的准确性和可靠性,需要进行对应的噪声处理,因此,本方案也可以看做是数据挖掘业务的前序步骤。
S22,将目标服务项目内容输入至基于平衡样本配置文件配置的噪声过滤线程;噪声过滤线程包括多个互相关联的业务环境检测模块。
应当理解,本方案中的线程可以是对应的算法模型或者人工智能网络,在本实施例中,噪声过滤线程预先基于平衡样本配置文件配置得到,噪声过滤线程可以是针对文档数字化的交互服务项目内容进行噪声过滤的线程,也可以是针对局部的画像标签服务项目内容过滤噪声的线程。可以理解,当噪声过滤线程为针对文档数字化的交互服务项目内容过滤噪声的线程时,目标服务项目内容为文档数字化的交互服务项目内容;当噪声过滤线程为针对局部的画像标签服务项目内容过滤噪声的线程时,目标服务项目内容为局部的画像标签服务项目内容。进一步地,业务环境检测模块可以理解为线程中的各个功能单元,比如,当噪声过滤线程为神经网络模型时,业务环境检测模块可以是相关的功能网络层。
其中,平衡样本配置文件中包括正例样本集和负例样本集,正例样本集是指不存在噪声的服务项目内容,负例样本集是指存在噪声的服务项目内容。进一步地,平衡样本配置文件可以对应数据处理线程和性能检测线程,数据处理线程和性能检测线程是与噪声过滤线程对应的,数据处理线程和性能检测线程可以隶属于噪声过滤线程,也即作为噪声过滤线程的一部分,数据处理线程和性能检测线程也可以与噪声过滤线程是平等的业务逻辑关系,在此不作限定。
数据处理线程用于根据相关输入得到一组尽可能完整的已清洗数据(亦或者服务项目内容),性能检测线程用于判别出输入的一组数据属于完整数据还是已清洗数据(完整数据可以理解为未进行数据清洗或者除噪处理的数据)。平衡样本配置文件配置是指由数据处理线程得到一组数据去测试性能检测线程,然后性能检测线程去判断这组数据以及对应的完整数据的检测结果,在这两个线程配置的过程中,使得两个线程的能力越来越强,最终达到稳定收敛的过程。业务环境检测模块是指由人工智能神经网络的数据分类策略、信息识别策略以及数据标记策略构成的一种功能化结构。信息识别策略具体包括用于对各内容块类别的项目内容生产数据进行处理得到各内容块类别的文档数字化信息的数字化执行单元,以及通过对文档数字化信息进行识别得到各内容块类别的服务项目指示信息的识别执行单元。在一些可能的实施例中,上述的数据分类策略、信息识别策略以及数据标记策略可以视为人工智能神经网络的各个功能层,对应实现不同的功能,比如数据分类策略可以理解为数据分类层,信息识别策略可以理解为信息识别层,数据标记策略可以理解为数据标记层。
继续参照图2,业务环境检测模块可以用于执行以下步骤:
S23,通过业务环境检测模块的数据分类策略,得到目标服务项目内容的各内容块类别的项目内容生产数据,项目内容生产数据作为该业务环境检测模块中信息识别策略的输入。
在一些可能的实现方式下,通过业务环境检测模块的数据分类策略,对输入的目标服务项目内容进行分块识别处理,得到目标服务项目内容的各内容块类别的项目内容生产数据,项目内容生产数据作为该业务环境检测模块中信息识别策略的输入。
可以理解,通过对目标服务项目内容进行分块识别处理,能够将整体的、复杂的目标服务项目内容按照不同的内容块类别进行打散,同时还能够确保各内容块类别的项目内容生产数据之间的关联性不会被破坏,这样一来,在将项目内容生产数据作为该业务环境检测模块中信息识别策略的输入时,能够有效减轻信息识别策略对目标服务项目内容的处理压力,同时还能够提高对不同项目内容生产数据的识别效率和可信度。
S24,通过信息识别策略得到各内容块类别的文档数字化信息,对文档数字化信息进行识别得到各内容块类别的服务项目指示信息。
其中,文档数字化信息是指各内容块类别的项目内容生产数据的数值分布表现形式。可以理解,大数据服务器在处理各内容块类别的项目内容生产数据之前,各内容块类别的项目内容生产数据的数据形式可能是多样化的,比如文本形式、语音形式、图像视频形式等,如果直接对这些项目内容生产数据进行处理,势必会造成一定的混乱,并且也不符合大数据服务器的默认的数据处理方式,为此,需要对各内容块类别的项目内容生产数据进行文档数字化处理。通过文档数字化处理,能够将不同形式的数据转换为统一的形式,从而便于后续的全局性和局部性分析。
进一步地,服务项目指示信息可以是针对不同内容块类别的引导信息,比如指示对应的内容块类别应当应用在哪些业务场景或者服务环境。举例而言,若内容块类别为“用户群体年龄”,那么服务项目指示信息对应的“数值计算结果为非负”则可以用于表征内容块类别应当应用在没有负值的数据业务场景中。当然,关于服务项目指示信息的其他示例,本实施例在此不作更多说明。
S25,通过业务环境检测模块的数据标记策略,根据服务项目指示信息分别对各内容块类别的项目内容生产数据进行标记处理,得到已标记的项目内容生产数据。
在一些可能的实现方式下,通过业务环境检测模块的数据标记策略,将各内容块类别的项目内容生产数据分别采用对应的服务项目指示信息的指示标签进行标记,则可以得到已标记的项目内容生产数据。
基于上述数据标记操作,得到已标记的项目内容生产数据即可进行后续处理。由于已标记的项目内容生产数据为根据各内容块类别的服务项目指示信息得到,因此能够在确保具有较高热度的内容块同时削弱冷门内容块或错误内容块。具有较高热度的内容块可以理解为使用较为频繁的内容块,冷门内容块或错误内容块可以理解为使用较少的内容块,这部分内容块存在噪声的可能性较大。
S26,通过噪声过滤线程以及已标记的项目内容生产数据,得到与目标服务项目内容对应的去噪声服务项目内容。
噪声过滤线程为已经配置好的线程,具有噪声过滤效果,通过述噪声过滤线程中的多个业务环境检测模块以及其他功能模块处理后,得到与目标服务项目内容对应的去噪声服务项目内容。这样,可以保证去噪声服务项目内容在后期的数据挖掘过程中尽可能发挥最大功效。
进一步地,在实际实施过程中,为了确保对目标服务项目内容进行除噪时尽可能削弱除噪过程对原始内容信息的影响,也即尽可能避免目标服务项目内容中的有用内容信息的缺失,在一个可能的实施方式中,步骤S26所描述的通过噪声过滤线程以及已标记的项目内容生产数据,得到与目标服务项目内容对应的去噪声服务项目内容,可以通过以下内容所描述的方法实现:获取所述已标记的项目内容生产数据对应的生产环境标签;对所述生产环境标签进行解析,得到每个生产环境标签对应的业务服务需求信息;通过所述噪声过滤线程对应的关联运行线程对每组业务需求信息进行特征提取,得到每组业务需求信息对应的业务需求特征;按照所述业务需求特征对所述目标服务项目内容进行识别,得到与所述目标服务项目内容对应的内容识别结果;根据所述内容识别结果和所述目标服务项目内容之间的内容分布差异信息,对所述目标服务项目内容进行筛选,得到所述去噪声服务项目内容。
举例而言,生产环境标签用于表征不同项目内容生产内容的生产状态。例如,生产环境标签可以是在线办公标签、远程教育标签、跨境支付标签、智慧医疗标签、智能工厂标签以及政企服务标签等,在此不作限定。进一步地,不同的生产环境标签代表了不同的业务服务需求,因此,通过对生产环境标签进行解析,能够得到对应的业务服务需求信息,也即后续的大数据挖掘侧重在于了解现目前的哪些层面的信息,比如以在线办公标签为例,在线办公标签对应的业务服务需求信息可以是“希望进行分割式的文字替换”、“希望进行拼写错误的自动标记”,亦或者“希望进行快速的会议启动”等。在此基础上,关联运行线程可以是与噪声过滤线程对应的特征提取线程,比如卷积神经网络(Convolutional NeuralNetwork,CNN)。通过获得业务需求特征,能够实现对目标服务项目内容的精细化识别,从而避免将一些流程性的冗余数据考虑在内,这样一来,通过分析内容识别结果和目标服务项目内容之间的内容分布差异信息,能够实现对目标服务项目内容精准筛选,从而确保对目标服务项目内容进行除噪时尽可能削弱除噪过程对原始内容信息的影响,进而尽可能避免目标服务项目内容中的有用内容信息的缺失。
在一些实施例中,内容分布差异信息可以通过图表的形式进行表达,在此不作限定。内容分布差异信息可以包括内容识别结果和目标服务项目内容在不同时段和/或不同数据类别下的差异信息的汇总。
在上述内容的基础上,为了准确得到内容识别结果,步骤“按照所述业务需求特征对所述目标服务项目内容进行识别,得到与所述目标服务项目内容对应的内容识别结果”,还可以通过以下方式实现。
首先,根据所述业务需求特征对应的特征类别信息从所述目标服务项目内容中获取待识别的目标业务交互数据。举例而言,目标业务交互数据是目标服务项目内容中除流程性的冗余数据之外的交互数据,目标业务交互数据携带有有价值的相关信息。
其次,确定所述目标业务交互数据的交互数据轨迹对应的目标业务状态切换频率。举例而言,所述交互数据轨迹为各个交互数据片段的业务状态切换频率均小于所述目标业务交互数据的第一全局业务状态切换频率的图数据轨迹,且所述目标业务状态切换频率为目标交互数据片段数目对应的业务状态切换频率,所述目标交互数据片段数目为所述交互数据轨迹中,各个业务状态切换频率对应的交互数据片段数目中最大的交互数据片段数目。图数据(Graphic Data)是一种以图形为对象形式的表示,能够直观地反映出不同交互状态之间的变化情况(时序变化或者内容变化)。交互数据片段可以根据目标业务交互数据的数据标识进行拆分得到,业务状态切换频率可以理解为不同的业务状态之间的切换快慢,比如,针对一些目标业务交互数据,可能对应多个不同的业务状态,这些业务状态之间的切换速率可以通过业务状态切换频率进行表示。举例而言,业务状态切换频率可以为次/s或者次/min,表示每秒或者每分钟业务状态的切换。比如,3次/min表征每分钟业务状态的切换次数为3次,也即目标业务交互数据对应的业务状态在每分钟之内由业务状态state1切换为业务状态state2(1次)、然后由业务状态state2切换为业务状态state3(2次)、进而由业务状态state3切换为业务状态state1(3次),亦或者目标业务交互数据对应的业务状态在每分钟之内由业务状态state1切换为业务状态state2(1次)、然后由业务状态state2切换为业务状态state1(2次),进而由业务状态state1切换为业务状态state3(3次)。
然后,基于所述目标业务状态切换频率与设定频率范围的区间值的比较结果,确定所述目标业务交互数据对应的业务状态切换频率范围。举例而言,区间值可以是设定频率范围的端点值,比如,设定频率范围为2~15,则区间值可以是2次/s以及15次/s,或者2次/min以及15/min。在一些可能的示例中,在所述基于所述目标业务状态切换频率与设定频率范围的区间值的比较结果,确定所述目标业务交互数据对应的业务状态切换频率范围的步骤之前,所述方法还包括:检测所述目标业务状态切换频率是否满足设定的状态切换条件。基于上述内内容,所述基于所述目标业务状态切换频率与设定频率范围的区间值的比较结果,确定所述目标业务交互数据对应的业务状态切换频率范围的步骤,可以包括:当检测出所述目标业务状态切换频率满足设定的状态切换条件时,基于所述目标业务状态切换频率与设定频率范围的区间值的比较结果,确定所述目标业务交互数据对应的业务状态切换频率范围。
进一步地,在上述内容中,检测所述目标业务状态切换频率是否满足设定的状态切换条件的步骤,包括:确定至少一组业务交互数据的交互数据轨迹对应的第一业务状态切换频率,其中,所述至少一组业务交互数据为所述目标业务交互数据的前一组业务交互数据,或者,所述目标业务交互数据的前连续的N组业务交互数据,任一组业务交互数据的交互数据轨迹对应的第一业务状态切换频率为第一交互数据片段数目对应的业务状态切换频率,所述第一交互数据片段数目为该组业务交互数据的交互数据轨迹中,各个业务状态切换频率对应的交互数据片段数目中最大的交互数据片段数目;检测所述目标业务状态切换频率与设定频率范围的区间值的比较结果,得到第一检测结果;并检测各个第一业务状态切换频率与设定频率范围的区间值的比较结果,得到第二检测结果;检测所述第一检测结果与所得到的各个第二检测结果是否均一致;若为是,判定所述目标业务状态切换频率满足设定的状态切换条件。此外,任一组业务交互数据的交互数据轨迹对应的第一业务状态切换频率的确定过程包括:针对一组业务交互数据的交互数据轨迹的多个业务状态切换频率中的每一业务状态切换频率,统计具有该业务状态切换频率的交互数据片段的第一数目;按照所述目标业务交互数据的交互数据轨迹的各个业务状态切换频率的大小,对统计所得到的多个第一数目进行排序;在完成排序后,针对每一第一数目,对包含该第一数目在内的不间断的业务状态切换频率对应的多个第一数目进行加权,并将加权结果确定为该第一数目所对应业务状态切换频率的交互数据片段数目;将所确定的最大的交互数据片段数目所对应的业务状态切换频率,确定为该组业务交互数据的交互数据轨迹对应的第一业务状态切换频率。
最后,基于所确定的业务状态切换频率范围,确定第二全局业务状态切换频率;对所述交互数据轨迹进行业务状态切换频率调整,直至所述目标业务交互数据的全局业务状态切换频率为所述第二全局业务状态切换频率时,根据所述第二全局业务状态切换频率对所述目标业务交互数据进行识别,得到与所述目标服务项目内容对应的内容识别结果。举例而言,第二全局业务状态切换频率和第一全局业务状态切换频率不同,第二全局业务状态切换频率着重考虑了状态切换过程中的业务数据的丢失情况,因此,基于第二全局业务状态切换频率对目标业务交互数据进行识别,能够确保内容识别结果尽可能携带有用的业务数据,并减少业务数据在不同状态之间切换时的丢失。
如此设计,基于上述对步骤“按照所述业务需求特征对所述目标服务项目内容进行识别,得到与所述目标服务项目内容对应的内容识别结果”的说明,能够从业务数据与业务状态的对应关系出发以实现对目标业务交互数据的识别,这样可以考虑到状态切换过程中的业务数据的丢失情况,进而确保内容识别结果尽可能携带有用的业务数据,并减少业务数据在不同状态之间切换时的丢失。
上述应用于大数据的数据优化方法,通过获取携带有噪声的目标服务项目内容,将目标服务项目内容输入至预先配置得到的噪声过滤线程,根据噪声过滤线程的输出得到对应的去噪声服务项目内容。其中,噪声过滤线程包括多个互相关联的业务环境检测模块,通过业务环境检测模块的数据分类策略,得到目标服务项目内容的各内容块类别的项目内容生产数据,项目内容生产数据作为该业务环境检测模块中信息识别策略的输入,通过信息识别策略得到各内容块类别的文档数字化信息,对文档数字化信息进行识别得到各内容块类别的服务项目指示信息,根据服务项目指示信息分别对各内容块类别的项目内容生产数据进行标记处理,得到已标记的项目内容生产数据。该噪声过滤线程保持较佳的噪声数据识别和过滤性能,充分识别不同内容块类别的业务需求得到对应服务项目指示信息,通过标记处理具有较高热度的内容块同时削弱冷门内容块或错误内容块,进而有效过滤目标服务项目内容中的噪声内容,同时确保去噪声服务项目内容能够反推出目标服务项目内容的重要内容块,提高去噪声服务项目内容的内容信息还原度和服务环境匹配度。
在相关的实施例中,还提供一种应用于大数据的数据优化方法,该实施例中,噪声过滤线程为针对局部的画像标签服务项目内容过滤噪声的线程。进一步地,该实施例所对应的方法内容如下八个步骤。
第一步,获取携带有噪声的交互服务项目内容。
在本实施例中,携带有噪声的交互服务项目内容是指包括时序连续的交互状态信息的数据。交互服务项目内容可以是针对不同的在线业务服务的内容信息,比如在线支付、在线办公、在线教育等,在此不作限定。
第二步,根据画像标签在交互服务项目内容中的对应内容信息,确定出画像标签服务项目内容,得到携带有噪声的目标服务项目内容。
在一些可能的实现方式下,通过对交互服务项目内容进行基于画像标签的内容定位,确定画像标签所处交互服务项目内容中的对应内容信息,基于所确定的对应内容信息确定出画像标签服务项目内容,将确定出的画像标签服务项目内容作为携带有噪声的目标服务项目内容。
第三步,将目标服务项目内容输入至基于平衡样本配置文件配置的噪声过滤线程;噪声过滤线程包括多个互相关联的业务环境检测模块。
第四步,通过业务环境检测模块的数据分类策略,得到目标服务项目内容的各内容块类别的项目内容生产数据,项目内容生产数据作为该业务环境检测模块中信息识别策略的输入。
第五步,通过信息识别策略得到各内容块类别的文档数字化信息,对文档数字化信息进行识别得到各内容块类别的服务项目指示信息。
第六步,通过业务环境检测模块的数据标记策略,根据服务项目指示信息分别对各内容块类别的项目内容生产数据进行标记处理,得到已标记的项目内容生产数据。
第七步,通过噪声过滤线程以及已标记的项目内容生产数据,得到与目标服务项目内容对应的去噪声服务项目内容。
第八步,整合交互服务项目内容和去噪声服务项目内容,得到过滤噪声后的交互服务项目内容。
在本实施例中,去噪声服务项目内容为过滤噪声后的画像标签服务项目内容。在一些可能的实现方式下,通过对交互服务项目内容进行基于画像标签的内容定位,确定画像标签所处交互服务项目内容中的对应内容信息,将去噪声服务项目内容替换所确定对应内容信息的画像标签服务项目内容,得到过滤噪声后的交互服务项目内容。基于画像标签服务项目内容的噪声过滤线程,能够增强线程对画像标签关联内容的处理,进而提高噪声过滤线程的噪声过滤性能。
应当理解,在上述八个步骤中,相关的技术特征可以参阅对图2的描述,在此不作赘述。
在相关的实施例中,将目标服务项目内容输入至基于平衡样本配置文件配置的噪声过滤线程的步骤之前,还包括:对目标服务项目内容进行全局调整处理。通过噪声过滤线程以及已标记的项目内容生产数据,得到与目标服务项目内容对应的去噪声服务项目内容的步骤之后,还包括:对去噪声服务项目内容进行项目内容扩充处理,将去噪声服务项目内容的扩充至目标服务项目内容的状态。可以理解,在本实施中,将目标服务项目内容输入至基于平衡样本配置文件配置的噪声过滤线程的步骤是指将全局调整处理后的目标服务项目内容输入至基于平衡样本配置文件配置的噪声过滤线程。可以理解,在进行去噪声服务项目内容的扩充时,由于已经清洗掉大部分的噪声内容,因此,当去噪声服务项目内容的状态(内容规模)与目标服务项目内容的状态(内容规模)相当时,去噪声服务项目内容的噪声率是远小于目标服务项目内容的噪声率的,这样一来,可以基于去噪声服务项目内容的内容扩充以满足更大规模的数据业务挖掘场景,同时还能够确保一定的信噪比,进而确保数据内容是尽可能干净的。
全局调整处理是指将原始服务项目内容基于同一映射格式、同一内容元素描述信息进行批量化处理。通过进行全局调整,能够确保服务项目内容在联合使用或者关联使用时不会出现兼容性问题,进而确保在项目内容的扩充过程中实现项目内容的保真。进一步地,映射格式可以根据实际需求进行调整,在此不作限定,内容元素描述信息同样可以根据实际需求进行调整,在此不作限定。
在相关的实施例中,参见图3,还提供一种应用于大数据的数据优化方法中配置噪声过滤线程的方式,具体可以包括以下步骤S31-步骤S34。
S31,获取由携带有噪声的待配置服务项目内容形成的第一配置样本文件集和由未携带噪声的待配置服务项目内容形成的第二配置样本文件集。
其中,第一配置样本文件集由多个经全局调整处理的携带有噪声的待配置服务项目内容(第一配置样本)形成的,对应地,第二配置样本文件集由多个经全局调整处理的未携带噪声的待配置服务项目内容(第二配置样本)形成,第一配置样本文件集中的配置样本和第二配置样本文件集中的配置样本一一对应,其区别仅在于是否携带有噪声。在一些可能的实现方式下,进一步地,第二配置样本可以是通过各服务项目内容获取途径获取得到的未携带噪声的待配置服务项目内容,或者由已得到的未携带噪声的待配置服务项目内容进行转换得到,第一配置样本可以是通过对第二配置样本进行加噪声处理得到;第一配置样本和第二配置样本还可以是通过交互服务项目内容对应的业务交互终端采集的大量服务项目内容样本,比如通过大型计算机、PC机等业务交互终端采集得到对应服务项目内容样本。可以理解,当配置的噪声过滤线程为针对文档数字化的交互服务项目内容过滤噪声的线程时,配置样本为文档数字化的交互服务项目内容;当配置的噪声过滤线程为针对局部的画像标签服务项目内容过滤噪声的线程时,配置样本为局部的画像标签服务项目内容。基于画像标签服务项目内容的线程配置,能够增强线程对画像标签关联内容的处理,进而提高噪声过滤线程的噪声过滤性能。
S32,将第一配置样本文件集输入至平衡样本配置文件对应的包括多个互相关联的业务环境检测模块的数据处理线程,得到过滤噪声后的过渡样本文件集。
其中,过渡样本文件集是指由与各第一配置样本对应的中间样本形成的集合。进一步地,中间样本是指由数据处理线程对第一配置样本进行去噪声处理后,得到的交互服务项目内容。
在一些可能的实现方式下,将第一配置样本文件集中的第一配置样本依次输入至平衡样本配置文件对应的包括多个互相关联的业务环境检测模块的数据处理线程,通过业务环境检测模块的数据分类策略,依次得到第一配置样本的各内容块类别的项目内容生产数据,该项目内容生产数据作为该业务环境检测模块中信息识别策略的输入。通过信息识别策略得到各内容块类别的文档数字化信息,对文档数字化信息进行识别得到各内容块类别的服务项目指示信息,进一步通过业务环境检测模块的数据标记策略,根据服务项目指示信息分别对各内容块类别的项目内容生产数据进行标记处理,得到与第一配置样本对应的已标记的项目内容生产数据。基于数据处理线程对第一配置样本对应的已标记的项目内容生产数据进一步处理,最终得到与第一配置样本对应的中间样本,所有中间样本即形成了过渡样本文件集。
S33,分别将过渡样本文件集和第二配置样本文件集输入至平衡样本配置文件对应的性能检测线程,根据性能检测线程的输出得到当前性能状态信息。
其中,性能状态信息是指用于评价噪声去除线程的去噪效果的一个局部指标,通常性能状态信息对应的损失值越小,代表噪声去除线程的去噪效果越好。对应地,当前性能状态信息是指用于评价数据处理线程的过滤噪声效果的一个全局指标,基于当前性能状态信息来调整数据处理线程中的各项线程配置数据,以达到更好的噪声过滤的效果。在本实施例中,基于不同的中间样本均会产生一个对应的当前性能状态信息。
如上,平衡样本配置文件配置是指由数据处理线程得到一组数据去测试性能检测线程,然后性能检测线程去测试这组数据以及对应的完整数据(也即没有进行除噪的服务项目内容)的检测结果。可以理解,在本实施例中,平衡样本配置文件配置的目的在于使得数据处理线程得到的中间样本,能够达到对抗性质的线程更新优化的效果。换而言之,也就是使性能检测线程难以辨别中间样本是除噪之后的服务项目内容还是除噪之前的服务项目内容。
在一些可能的实现方式下,分别将过渡样本文件集和第二配置样本文件集输入至平衡样本配置文件对应的性能检测线程,根据性能检测线程的输出调整性能检测线程的线程配置数据,得到更新后的性能检测线程;再将过渡样本文件集输入至更新后的性能检测线程,根据更新后的性能检测线程的输出得到当前性能状态信息,以根据当前性能状态信息调整数据处理线程的线程配置数据。其中,数据处理线程的线程配置数据是指数据处理线程中各业务功能模块之间的输入输出传递信息或者输出输入关联信息。比如功能模块1和功能模块2之间的输入输出的转换信息,功能模块3和功能模块5之间的某些信息的使用先后顺序等,在此不作限定。
S34,根据当前性能状态信息更新数据处理线程的线程配置数据,得到更新后的数据处理线程,并返回至步骤S32,直至满足迭代终止条件,将更新后的数据处理线程作为噪声过滤线程。
在本实施例中,根据当前性能状态信息以及设定的数据处理线程的线程配置数据调整方法,调整数据处理线程的线程配置数据,得到更新后的数据处理线程。判断是否满足设定的迭代终止条件,若满足,则结束迭代配置,将更新后的数据处理线程作为噪声过滤线程;否则返回至步骤S32,直到满足设定的迭代终止条件时,将更新后的数据处理线程作为噪声过滤线程。
其中,数据处理线程的线程配置数据调整方法包括但不限于梯度修正方法、反馈修正方法等损失函数修正算法。迭代终止条件可以是更新迭代累计值达到迭代累计阈值,也可以是数据处理线程达到设定的噪声过滤效果,在此不作限定。而设定的噪声过滤效果可以基于两方面进行设计。第一方面是除噪前后的内容大小的比例,第二方面是除噪后的业务适配性。
举例而言,除噪之前的服务项目内容R1的内容大小为1000mb,除噪之后的服务项目内容R2的内容大小为400mb,那么除噪比例可以为0.4,如果设定除噪检测比例为0.6,那么针对服务项目内容R1的除噪处理是不符合要求的。又比如,可以提取除噪之后的服务项目内容R2的全局内容特征以形成特征矩阵,然后计算与当前业务需求内容的特征矩阵的相似度,通过相似度来判断除噪后的业务适配性是否达标,比如,服务项目内容R2的特征矩阵与当前业务需求内容的特征矩阵的相似度为n%,若设定相似度为m%,且n%<m%,则可以判定针对服务项目内容R1的除噪处理不符合要求的。可以理解,噪声过滤效率应该将上述两种情况同时考虑,也即,只有同时满足设定除噪检测比例的判定条件以及设定相似度的判定条件,才可以认为数据处理线程达到设定的噪声过滤效果。
通过上述噪声过滤线程的配置方式,采用包括多个互相关联的业务环境检测模块的数据处理线程以及一个性能检测线程进行配置检测,以得到可有效过滤噪声的数据处理线程作为噪声过滤线程。同时,基于业务环境检测模块,对输入配置样本对应的各内容块类别的文档数字化信息进行识别,得到各内容块类别的服务项目指示信息,根据服务项目指示信息分别对各内容块类别的项目内容生产数据进行标记处理,得到对应的已标记的项目内容生产数据。通过标记处理具有较高热度的内容块同时削弱冷门内容块或错误内容块,能够有效过滤第一配置样本文件集中各第一配置样本中的噪声,同时能够基于中间样本还原出对应第一配置样本的关键内容块,进而提高中间样本的内容信息还原度和服务环境匹配度。
在相关的实施例中,分别将过渡样本文件集和第二配置样本文件集输入至平衡样本配置文件对应的性能检测线程,根据性能检测线程的输出得到当前性能状态信息的步骤,具体包括以下步骤S41-S43:
S41,分别将过渡样本文件集和第二配置样本文件集输入至平衡样本配置文件对应的性能检测线程,根据性能检测线程的输出得到去噪性能状态信息。
其中,去噪性能状态信息是指用于评价性能检测线程的分类处理性能的一个指标评价信息,基于去噪性能状态信息来调整性能检测线程中的各项线程配置数据,以达到更准确的分类处理性能。在本实施例中,基于不同的中间样本均会产生一个对应的去噪性能状态信息。
在一些可能的实现方式下,将过渡样本文件集中的各中间样本和第二配置样本文件集中的各第二配置样本依次输入至平衡样本配置文件对应的性能检测线程,分别得到与各中间样本和各第二配置样本对应的输出,根据中间样本及其对应的第二配置样本的输出得到去噪性能状态信息,去噪性能状态信息的数目与中间样本的数目相同。
S42,根据去噪性能状态信息更新性能检测线程的线程配置数据,得到更新后的性能检测线程。
其中,性能检测线程的线程配置数据是指性能检测线程中各业务功能模块之间的输入输出传递信息或者输出输入关联信息。在本实施例中,根据去噪性能状态信息以及设定的性能检测线程线程的配置数据调整方法,调整性能检测线程的线程配置数据,得到更新后的性能检测线程。其中,性能检测线程线程的配置数据调整方法包括但不限于梯度修正方法、反馈修正方法等修正算法。
S43,将过渡样本文件集输入至更新后的性能检测线程,根据更新后的性能检测线程的输出得到当前性能状态信息。
在得到更新后的性能检测线程后,当前的性能检测线程相较于更新之前的性能检测线程,具有较佳的分类处理性能。因此,在性能检测线程具有较好的分类处理性能之后,锁定性能检测线程的线程配置数据,再对数据处理线程进行配置。
在一些可能的实现方式下,将过渡样本文件集中各中间样本依次输入至更新后的性能检测线程,每一中间样本对应一个更新后的性能检测线程的输出,根据更新后的性能检测线程的输出得到当前性能状态信息。
在本实施例中,首先锁定数据处理线程的线程配置数据,对性能检测线程进行配置更新,使得通过配置后的性能检测线程保持分类处理性能。在配置完性能检测线程之后,再对数据处理线程进行配置更新,此时性能检测线程的线程配置数据锁定不变,而仅将数据处理线程产生的偏差结果或比较结果传递给数据处理线程,即根据更新后的性能检测线程的输出得到当前性能状态信息,基于当前性能状态信息更新数据处理线程的线程配置数据。通过性能检测线程和数据处理线程之间的互相反馈训练(对抗训练),以使得两个噪声去除线程最终达到稳定状态或者收敛状态。
在相关的实施例中,分别将过渡样本文件集和第二配置样本文件集输入至性能检测线程,根据性能检测线程的输出得到去噪性能状态信息的步骤,包括:分别将过渡样本文件集和第二配置样本文件集输入至性能检测线程,得到过渡样本文件集对应的第一性能检测结果和第二配置样本文件集的第二性能检测结果;根据第一性能检测结果和第二性能检测结果,并结合除噪线程映射关系,得到去噪性能状态信息。
其中,第一性能检测结果和第二性能检测结果分别是指中间样本和第二配置样本属于配置样本而非中间样本的性能检测结果。假设将中间样本的样本区别标签设置为x1,第二配置样本的样本区别标签设置为x2,则性能检测线程的输出为一个x1-x2之间的输出结果值,也就是说第一性能检测结果和第二性能检测结果的性能检测评价指数范围为x1-x2。性能检测线程配置的目的是使得中间样本对应的第一性能检测结果尽可能靠近于x1,使得第二配置样本的对应的第二性能检测结果尽可能靠近于x2,从而获得准确的分类处理性能。其中,性能检测结果可以是以概率的形式进行表示。
除噪线程映射关系是指根据性能检测线程的输出,计算性能检测线程的性能状态信息的函数。比如,基于交叉熵的映射关系函数,相关公式在此不再列举。
在一些可能的实现方式下,依次将过渡样本文件集中各中间样本及其样本区别标签、第二配置样本文件集中各第二配置样本及其样本区别标签输入至性能检测线程,得到过渡样本文件集对应的第一性能检测结果和第二配置样本文件集的第二性能检测结果;根据第一性能检测结果和第二性能检测结果,并结合除噪线程映射关系,得到去噪性能状态信息。
在相关的实施例中,将过渡样本文件集输入至更新后的性能检测线程,根据更新后的性能检测线程的输出得到当前性能状态信息的步骤,包括:将过渡样本文件集输入至更新后的性能检测线程,得到过渡样本文件集对应的第三性能检测结果;根据第三性能检测结果,并结合平衡样本映射关系,得到当前性能状态信息。
其中,第三性能检测结果是指中间样本属于配置样本而非中间样本的性能检测结果。平衡样本映射关系是指根据数据处理线程的输出,计算数据处理线程的性能状态信息的函数。比如,基于交叉熵的映射关系函数,可以理解,平衡样本映射关系和除噪线程映射关系可以相同也可以不相同,在此不作限定。
在一些可能的实现方式下,依次将过渡样本文件集中各中间样本及其样本区别标签输入至性能检测线程,得到过渡样本文件集对应的第三性能检测结果;根据第三性能检测结果,并结合平衡样本映射关系,得到当前性能状态信息。与性能检测线程配置时相反,在本实施例中,将中间样本的样本区别标签设置为x2,以起到主动干扰的目的,从而才能使得中间样本逐渐迭代为完整的第二配置样本。
在相关的实施例中,配置噪声过滤线程的方式还包括针对内容块比较线程的配置。进一步地,根据当前性能状态信息更新数据处理线程的线程配置数据,得到更新后的数据处理线程之前,还包括:分别将过渡样本文件集和第二配置样本文件集输入至内容块比较线程,得到过渡样本文件集和第二配置样本文件集之间的内容块比较结果。根据当前性能状态信息更新数据处理线程的线程配置数据,得到更新后的数据处理线程,包括:根据当前性能状态信息和内容块比较结果更新数据处理线程的线程配置数据,得到更新后的数据处理线程。
其中,内容块比较结果是指中间样本及其对应的第二配置样本在内容块语义信息层面存在的差异信息。可以理解,过渡样本文件集和第二配置样本文件集之间的内容块比较结果,也就是指过渡样本文件集中各中间样本及其对应的第二配置样本在内容块语义信息层面存在的差异信息。
在一些可能的实现方式下,依次将过渡样本文件集中各中间样本及其对应的第二配置样本输入至内容块比较线程,由内容块比较线程提取中间样本和对应的第二配置样本的内容块,并进行比较分析,得到各中间样本及其对应的第二配置样本之间的内容块比较结果。根据当前性能状态信息和内容块比较结果,以及设定的数据处理线程的线程配置数据调整方法,调整数据处理线程的线程配置数据,得到更新后的数据处理线程。比如,根据当前性能状态信息和内容块比较结果,采用梯度下降算法对数据处理线程的线程配置数据进行阶段性调整。
通过对中间样本及其对应的第二配置样本进行内容块比较结果的分析,提示最后得到的噪声过滤线程输出的去噪声服务项目内容进一步地维持具有较高区分度的信息,也即更准确地还原出目标服务项目内容的相关的关键内容块,从而有效提高去噪声服务项目内容的内容信息还原度,并且在交互识别的应用场景或者服务环境中,保证基于交互识别层面的数据除噪的精准性。
在另一实施例中,根据当前性能状态信息更新数据处理线程的线程配置数据,得到更新后的数据处理线程之前,还包括:对过渡样本文件集和第二配置样本文件集的内容元素进行分析,得到过渡样本文件集和第二配置样本文件集之间的内容元素比较结果。根据当前性能状态信息更新数据处理线程的线程配置数据,得到更新后的数据处理线程,包括:根据当前性能状态信息和内容元素比较结果更新数据处理线程的线程配置数据,得到更新后的数据处理线程。
其中,内容元素比较结果是指中间样本及其对应的第二配置样本各内容元素集存在的差异信息。可以理解,过渡样本文件集和第二配置样本文件集之间的内容元素比较结果,也就是指过渡样本文件集中各中间样本及其对应的第二配置样本在内容元素层面上存在的差异信息。进一步地,内容元素可以指服务内容中的不同维度的内容信息,这些维度可以根据不同的区分标准进行调整,比如内容元素按照办公维度进行分析,可以包括内容元素1“就地办公元素”和内容元素2“远程办公元素”等。又比如内容元素按照生活维度进行分析,可以包括内容元素3“办公元素”和内容元素4“业余元素”等。可以理解,关于内容元素的示例不限于以上示例。
在一些可能的实现方式下,依次对过渡样本文件集中各中间样本及其对应的第二配置样本的内容元素集进行比较结果分析,得到各中间样本及其对应的第二配置样本之间的内容元素比较结果。根据当前性能状态信息和内容元素比较结果,以及设定的数据处理线程的线程配置数据调整方法,调整数据处理线程的线程配置数据,得到更新后的数据处理线程。比如,根据当前性能状态信息和内容元素比较结果,采用前项反馈修正算法对数据处理线程线程配置数据进行调整。
在相关的实施例中,根据当前性能状态信息更新数据处理线程的线程配置数据,得到更新后的数据处理线程之前,还包括:对过渡样本文件集和第二配置样本文件集的内容元素进行分析,得到过渡样本文件集和第二配置样本文件集之间的内容元素比较结果;分别将过渡样本文件集和第二配置样本文件集输入至内容块比较线程,得到过渡样本文件集和第二配置样本文件集之间的内容块比较结果;根据当前性能状态信息更新数据处理线程的线程配置数据,得到更新后的数据处理线程,包括:根据当前性能状态信息、内容元素比较结果和内容块比较结果更新数据处理线程的线程配置数据,得到更新后的数据处理线程。
通过对对中间样本及其对应的第二配置样本进行内容块比较结果、内容元素比较结果的分析,能够确保最后得到的噪声过滤线程所还原的去噪声服务项目内容的内容还原度,避免服务项目内容出现部分缺失。
在相关的实施例中,步骤S34进一步包括以下步骤S341-S344。
S341,根据当前性能状态信息更新数据处理线程的线程配置数据,得到更新后的数据处理线程。
S342,获取当前更新迭代累计值。
S343,当更新迭代累计值小于设定的迭代累计阈值时,返回至将第一配置样本文件集输入至平衡样本配置文件对应的包括多个互相关联的业务环境检测模块的数据处理线程,得到过滤噪声的过渡样本文件集。
S344,当更新迭代累计值达到设定的迭代累计阈值时,将更新后的数据处理线程作为噪声过滤线程。
在本实施例中,每完成一次平衡样本配置文件配置就对更新迭代累计值执行自加1操作,并获取当前更新迭代累计值,判断当前更新迭代累计值是否达到迭代累计阈值,若未达到,则继续执行配置的相关步骤;否则,将更新后的数据处理线程作为噪声过滤线程,并退出上述的配置步骤。
在相关的实施例中,步骤S34之后还包括噪声过滤线程测试的步骤,该步骤具体包括:获取由携带有噪声的测试服务项目内容形成的测试样本文件集;将测试样本文件集输入至配置得到的噪声过滤线程,根据噪声过滤线程的输出得到去噪测试结果。其中,测试样本文件集由多个经全局调整处理的携带有噪声的测试服务项目内容(测试样本)形成的,测试服务项目内容与第一待配置服务项目内容为不同的服务项目内容。通过进一步对配置得到的噪声过滤线程的性能进行测试,以确定当前得到的噪声过滤线程是否满足设定的噪声过滤效果。
上述应用于大数据的数据优化方法及大数据服务器,通过获取携带有噪声的目标服务项目内容,将目标服务项目内容输入至预先配置得到的噪声过滤线程,根据噪声过滤线程的输出得到对应的去噪声服务项目内容。其中,噪声过滤线程包括多个互相关联的业务环境检测模块,通过业务环境检测模块的数据分类策略,得到目标服务项目内容的各内容块类别的项目内容生产数据,项目内容生产数据作为该业务环境检测模块中信息识别策略的输入,通过信息识别策略得到各内容块类别的文档数字化信息,对文档数字化信息进行识别得到各内容块类别的服务项目指示信息,根据服务项目指示信息分别对各内容块类别的项目内容生产数据进行标记处理,得到已标记的项目内容生产数据。可以理解,该噪声过滤线程能够保持较佳的噪声数据识别和过滤性能,充分识别不同内容块类别的业务需求得到对应服务项目指示信息,通过标记处理具有较高热度的内容块同时削弱冷门内容块或错误内容块,进而有效过滤目标服务项目内容中的噪声内容,同时确保去噪声服务项目内容能够反推出目标服务项目内容的重要内容块,提高去噪声服务项目内容的内容信息还原度和服务环境匹配度。
本发明实施例还提出了一种示例性的应用于大数据的数据优化装置,如图4所示,应用于大数据的数据优化装置400可以包括以下的功能模块。
获取模块410,用于获取携带有噪声的目标服务项目内容。
确定模块420,用于基于预先训练的噪声过滤线程确定与所述目标服务项目内容对应的服务项目指示信息。
去噪模块430,用于根据所述服务项目指示信息得到与所述目标服务项目内容对应的已标记的项目内容生产数据,并结合所述噪声过滤线程实现对目标服务项目内容的去噪处理。
可以理解,关于上述获取模块410、确定模块420以及去噪模块430的说明可以参阅上述方法实施例的描述。
进一步地,请结合参阅图5,大数据服务器120可以包括处理引擎1201、网络模块1202和存储器1203,处理引擎1201和存储器1203通过网络模块1202通信。处理引擎1201可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。网络模块1202可以促进信息和/或数据的交换。存储器1203用于存储程序,所述处理引擎1201在接收到执行指令后,执行所述程序。可以理解,图5所示的结构仅为示意,大数据服务器120还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims (10)

1.一种应用于大数据的数据优化方法,其特征在于,应用于大数据服务器,所述方法包括:
获取已标记的项目内容生产数据对应的生产环境标签;
对所述生产环境标签进行解析,得到每个生产环境标签对应的业务服务需求信息;
通过噪声过滤线程对应的关联运行线程对每组业务需求信息进行特征提取,得到每组业务需求信息对应的业务需求特征;
按照所述业务需求特征对目标服务项目内容进行识别,得到与所述目标服务项目内容对应的内容识别结果;根据所述内容识别结果和所述目标服务项目内容之间的内容分布差异信息,对所述目标服务项目内容进行筛选,得到去噪声服务项目内容。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过业务环境检测模块的数据标记策略,根据所述服务项目指示信息分别对所述各内容块类别的项目内容生产数据进行标记处理,得到已标记的项目内容生产数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取携带有噪声的目标服务项目内容;相应的,目标服务项目内容为从携带有噪声的交互服务项目内容中确定出的画像标签服务项目内容,画像标签服务项目内容表征针对用户的个性化分析的相关数据信息;
基于预先训练的噪声过滤线程确定与所述目标服务项目内容对应的服务项目指示信息。
4.根据权利要求3所述的方法,其特征在于,所述获取携带有噪声的目标服务项目内容,包括:
获取携带有噪声的交互服务项目内容;
根据画像标签在所述交互服务项目内容中的对应内容信息,确定出画像标签服务项目内容,得到携带有噪声的目标服务项目内容。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
整合所述交互服务项目内容和所述去噪声服务项目内容,得到过滤噪声后的交互服务项目内容。
6.根据权利要求1所述的方法,其特征在于,按照所述业务需求特征对所述目标服务项目内容进行识别,得到与所述目标服务项目内容对应的内容识别结果,包括:
根据所述业务需求特征对应的特征类别信息从所述目标服务项目内容中获取待识别的目标业务交互数据;
确定所述目标业务交互数据的交互数据轨迹对应的目标业务状态切换频率,其中,所述交互数据轨迹为各个交互数据片段的业务状态切换频率均小于所述目标业务交互数据的第一全局业务状态切换频率的图数据轨迹,且所述目标业务状态切换频率为目标交互数据片段数目对应的业务状态切换频率,所述目标交互数据片段数目为所述交互数据轨迹中,各个业务状态切换频率对应的交互数据片段数目中最大的交互数据片段数目;
基于所述目标业务状态切换频率与设定频率范围的区间值的比较结果,确定所述目标业务交互数据对应的业务状态切换频率范围;
基于所确定的业务状态切换频率范围,确定第二全局业务状态切换频率;对所述交互数据轨迹进行业务状态切换频率调整,直至所述目标业务交互数据的全局业务状态切换频率为所述第二全局业务状态切换频率时,根据所述第二全局业务状态切换频率对所述目标业务交互数据进行识别,得到与所述目标服务项目内容对应的内容识别结果。
7.根据权利要求6所述的方法,其特征在于,在所述基于所述目标业务状态切换频率与设定频率范围的区间值的比较结果,确定所述目标业务交互数据对应的业务状态切换频率范围的步骤之前,所述方法还包括:检测所述目标业务状态切换频率是否满足设定的状态切换条件;
所述基于所述目标业务状态切换频率与设定频率范围的区间值的比较结果,确定所述目标业务交互数据对应的业务状态切换频率范围的步骤,包括:当检测出所述目标业务状态切换频率满足设定的状态切换条件时,基于所述目标业务状态切换频率与设定频率范围的区间值的比较结果,确定所述目标业务交互数据对应的业务状态切换频率范围。
8.根据权利要求7所述的方法,其特征在于,所述检测所述目标业务状态切换频率是否满足设定的状态切换条件的步骤,包括:
确定至少一组业务交互数据的交互数据轨迹对应的第一业务状态切换频率,其中,所述至少一组业务交互数据为所述目标业务交互数据的前一组业务交互数据,或者,所述目标业务交互数据的前连续的N组业务交互数据,任一组业务交互数据的交互数据轨迹对应的第一业务状态切换频率为第一交互数据片段数目对应的业务状态切换频率,所述第一交互数据片段数目为该组业务交互数据的交互数据轨迹中,各个业务状态切换频率对应的交互数据片段数目中最大的交互数据片段数目;
检测所述目标业务状态切换频率与设定频率范围的区间值的比较结果,得到第一检测结果;并检测各个第一业务状态切换频率与设定频率范围的区间值的比较结果,得到第二检测结果;
检测所述第一检测结果与所得到的各个第二检测结果是否均一致;若为是,判定所述目标业务状态切换频率满足设定的状态切换条件。
9.根据权利要求8所述的方法,其特征在于,任一组业务交互数据的交互数据轨迹对应的第一业务状态切换频率的确定过程包括:
针对一组业务交互数据的交互数据轨迹的多个业务状态切换频率中的每一业务状态切换频率,统计具有该业务状态切换频率的交互数据片段的第一数目;
按照所述目标业务交互数据的交互数据轨迹的各个业务状态切换频率的大小,对统计所得到的多个第一数目进行排序;
在完成排序后,针对每一第一数目,对包含该第一数目在内的不间断的业务状态切换频率对应的多个第一数目进行加权,并将加权结果确定为该第一数目所对应业务状态切换频率的交互数据片段数目;
将所确定的最大的交互数据片段数目所对应的业务状态切换频率,确定为该组业务交互数据的交互数据轨迹对应的第一业务状态切换频率。
10.一种大数据服务器,其特征在于,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行权利要求1-9任一项所述的方法。
CN202110905010.XA 2021-02-06 2021-02-06 应用于大数据的数据优化方法及大数据服务器 Withdrawn CN113609118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110905010.XA CN113609118A (zh) 2021-02-06 2021-02-06 应用于大数据的数据优化方法及大数据服务器

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110905010.XA CN113609118A (zh) 2021-02-06 2021-02-06 应用于大数据的数据优化方法及大数据服务器
CN202110165552.8A CN112860675B (zh) 2021-02-06 2021-02-06 在线云服务环境下的大数据处理方法及云计算服务器

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202110165552.8A Division CN112860675B (zh) 2021-02-06 2021-02-06 在线云服务环境下的大数据处理方法及云计算服务器

Publications (1)

Publication Number Publication Date
CN113609118A true CN113609118A (zh) 2021-11-05

Family

ID=75988819

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202110905009.7A Withdrawn CN113609117A (zh) 2021-02-06 2021-02-06 基于大数据和云计算的数据除噪方法及云服务器
CN202110905010.XA Withdrawn CN113609118A (zh) 2021-02-06 2021-02-06 应用于大数据的数据优化方法及大数据服务器
CN202110165552.8A Active CN112860675B (zh) 2021-02-06 2021-02-06 在线云服务环境下的大数据处理方法及云计算服务器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110905009.7A Withdrawn CN113609117A (zh) 2021-02-06 2021-02-06 基于大数据和云计算的数据除噪方法及云服务器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110165552.8A Active CN112860675B (zh) 2021-02-06 2021-02-06 在线云服务环境下的大数据处理方法及云计算服务器

Country Status (1)

Country Link
CN (3) CN113609117A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496299A (zh) * 2022-04-14 2022-05-13 八爪鱼人工智能科技(常熟)有限公司 一种基于深度学习的防疫信息处理方法及防疫服务系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918985B (zh) * 2021-09-10 2023-07-18 广州博依特智能信息科技有限公司 一种安全管理策略生成方法及装置
CN115391810B (zh) * 2022-09-23 2023-06-30 成都坐联智城科技有限公司 一种基于大数据的数据分级加密方法及ai系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886670B2 (en) * 2014-06-30 2018-02-06 Amazon Technologies, Inc. Feature processing recipes for machine learning
CN110162556A (zh) * 2018-02-11 2019-08-23 陕西爱尚物联科技有限公司 一种有效发挥数据价值的方法
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
US10990470B2 (en) * 2018-12-11 2021-04-27 Rovi Guides, Inc. Entity resolution framework for data matching
CN111490990B (zh) * 2020-04-10 2021-02-23 上海星地通讯工程研究所 基于大数据平台的网络安全分析方法、大数据平台服务器及计算机可读存储介质
CN111698232B (zh) * 2020-06-03 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备以及存储介质
CN111984898A (zh) * 2020-06-29 2020-11-24 平安国际智慧城市科技股份有限公司 基于大数据的标签推送方法、装置、电子设备及存储介质
CN111967375A (zh) * 2020-08-14 2020-11-20 云粒智慧科技有限公司 一种基于人物画像的服务方法
CN112199395A (zh) * 2020-10-13 2021-01-08 吴俊� 一种人工智能分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496299A (zh) * 2022-04-14 2022-05-13 八爪鱼人工智能科技(常熟)有限公司 一种基于深度学习的防疫信息处理方法及防疫服务系统
CN114496299B (zh) * 2022-04-14 2022-06-21 八爪鱼人工智能科技(常熟)有限公司 一种基于深度学习的防疫信息处理方法及防疫服务系统

Also Published As

Publication number Publication date
CN113609117A (zh) 2021-11-05
CN112860675B (zh) 2021-10-26
CN112860675A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112860675B (zh) 在线云服务环境下的大数据处理方法及云计算服务器
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
EP3620982A1 (en) Sample processing method and device
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN114757432A (zh) 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统
US20060179017A1 (en) Preparing data for machine learning
CN114254146A (zh) 图像数据的分类方法、装置和系统
CN111488939A (zh) 模型训练方法、分类方法、装置及设备
CN114428860A (zh) 院前急救病例文本的识别方法、装置、终端及存储介质
CN111666748B (zh) 一种自动化分类器的构造方法以及识别决策的方法
EP3893146A1 (en) An apparatus for determining a classifier for identifying objects in an image, an apparatus for identifying objects in an image and corresponding methods
CN113377909A (zh) 释义分析模型训练方法、装置、终端设备及存储介质
CN116842520A (zh) 基于检测模型的异常感知方法、装置、设备及介质
CN115204322B (zh) 行为链路异常识别方法和装置
CN114495114B (zh) 基于ctc解码器的文本序列识别模型校准方法
CN110705631A (zh) 一种基于svm的散货船舶设备状态检测方法
CN115438239A (zh) 一种自动化异常样本筛选的异常检测方法及装置
CN114299340A (zh) 模型训练方法、图像分类方法、系统、设备及介质
Daza et al. An algorithm for detecting noise on supervised classification
CN113723431A (zh) 图像识别方法、装置以及计算机可读存储介质
EP2382587A2 (en) Method for a pattern discovery and recognition
CN117292404B (zh) 一种高精度手势数据识别方法、电子设备及存储介质
CN116431757B (zh) 基于主动学习的文本关系抽取方法、电子设备及存储介质
CN117312937A (zh) 一种基于对比学习的噪声标签分类方法
CA3153915A1 (en) Method of and system for assisting to mark model training data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211105