CN114610773A - 基于大数据的数据应用场景识别方法及云计算服务器 - Google Patents

基于大数据的数据应用场景识别方法及云计算服务器 Download PDF

Info

Publication number
CN114610773A
CN114610773A CN202210076607.2A CN202210076607A CN114610773A CN 114610773 A CN114610773 A CN 114610773A CN 202210076607 A CN202210076607 A CN 202210076607A CN 114610773 A CN114610773 A CN 114610773A
Authority
CN
China
Prior art keywords
service data
content
service
data
data characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210076607.2A
Other languages
English (en)
Inventor
龚世燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210076607.2A priority Critical patent/CN114610773A/zh
Publication of CN114610773A publication Critical patent/CN114610773A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了基于大数据的数据应用场景识别方法及云计算服务器,能够通过预先完成训练的业务数据解析模型对所述业务交互事件标识对应的关联业务数据进行数据分析和场景识别,得到i种数据应用场景的识别结果,如此,利用人工智能模型能够将业务数据的不同交互情况考虑在内,从而确保针对不同数据应用场景的精准识别,这样可以确保待分析业务数据与数据应用场景的高度相关性,进而确保业务数据与数据应用场景之间的高度匹配。

Description

基于大数据的数据应用场景识别方法及云计算服务器
本申请是申请号为“202110109932.X”、申请日为“2021年01月26日”、申请名称为“在关联云业务场景下的大数据分析方法及云计算服务器”的分案申请。
技术领域
本申请涉及云业务和大数据技术领域,特别涉及一种基于大数据的数据应用场景识别方法及云计算服务器。
背景技术
大数据时代的出现,从一些角度来看是海量数据与完美计算能力相结合的结果。具体而言,是移动互联网和物联网等产生了海量的数据,大数据计算技术完美地解决了海量数据的收集、存储、计算、分析等处理的问题。现目前,一些企业、公司也成立了与大数据相关的部门,由此可见,大数据得到了企业、公司的高度重视。
一般而言,大数据的价值在于对其进行挖掘和应用,大数据的场景应用,主要可以划分为以下几类:第一类是功能、第二类是数据源、第三类是数据分析、第四类是行业、第五类是用户画像。对于功能的大数据应用场景而言,从大数据场景应用的纵向角度出发,介绍大数据分析在各个功能领域的应用场景,重点介绍精准营销、数据风控、效率提升、决策支持、产品运营的大数据场景和案例。对于数据源的大数据应用场景而言,从数据类型和数据源角度出发,介绍当前市场上拥有数据源的公司,其数据来源、数据类型、数据应用案例。对于数据分析的大数据应用场景而言,从数据分析角度出发介绍常用的数据挖掘和统计分析方法、模型和算法,对于行业和用户画像而言,这两者是现目前主流的大数据场景应用。伴随着云计算(Cloud Computing)业务的不断完善,现目前的大数据场景应用需要结合各类关联云业务场景的进行,然而对于服务商而言,大数据的应用主要在于用户画像的挖掘,但是这一直是众多服务商的痛点。
发明人经研究分析发现,造成上述问题的主要原因是业务数据与数据应用场景的不匹配导致的,因此,为了满足服务商的用户画像挖掘需求,需要精准确定一些业务数据对应的数据应用场景。
发明内容
本申请实施例之一提供一种基于大数据的数据应用场景识别方法,应用于云计算服务器,所述云计算服务器与用户端设备以及服务商平台通信,所述方法包括:从获取的包含业务交互事件标识的待分析业务数据中提取出业务交互事件标识对应的关联业务数据;通过预先完成训练的业务数据解析模型对所述业务交互事件标识对应的关联业务数据进行数据分析和场景识别,得到i种数据应用场景的识别结果;其中,所述数据应用场景的识别结果用于指示所述服务商平台进行用户画像挖掘,以实现服务产品的优化。
本申请实施例之二提供一种云计算服务器,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行上述的方法。
本申请实施例中,由于数据分析和场景识别是基于预先完成训练的业务数据解析模型进行的,并且业务数据解析模型所处理的关联业务数据是从获取的包含业务交互事件标识的待分析业务数据中提取出的且与业务交互事件标识对应的,这样一来,利用人工智能模型能够将业务数据的不同交互情况考虑在内,从而确保针对不同数据应用场景的精准识别,这样可以确保待分析业务数据与数据应用场景的高度相关性。如此,可以确保业务数据与数据应用场景之间的高度匹配,确保服务商平台能够根据不同的数据应用场景的识别结果实现对业务数据的用户画像挖掘,满足服务商的用户画像挖掘需求,从而实现服务产品的优化。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本发明的一些实施例所示的一种示例性系统场景架构图;
图2是根据本发明的一些实施例所示的一种示例性基于大数据的数据应用场景识别方法和/或过程的流程图;
图3是根据本发明的一些实施例所示的一种示例性基于大数据的数据应用场景识别装置的框图;以及
图4是根据本发明的一些实施例所示的一种示例性云计算服务器中硬件和软件组成的示意图。
具体实施方式
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本发明实施例的基于大数据的数据应用场景识别方法可以应用于如图1所示的系统场景架构中,在该系统场景架构中包括用户端设备10、云计算服务器20和服务商平台30。
用户端设备10可以对应于云业务服务交互状态中,用于生成在云业务服务交互状态中的业务用户对应的业务数据或者操作数据,并将生成的业务数据或者操作数据传输给云计算服务器20。其中,云业务服务交互状态可以理解为用户端设备10和服务商平台30互相交互的状态,业务服务可以由服务商平台30提供。
云计算服务器20用于对用户端设备10生成的业务数据进行处理,并对该业务数据中包括的业务交互事件标识进行数据应用场景分析;或者云计算服务器20用于从用户端设备10生成的操作数据中确定业务交互事件标识,并对该业务交互事件标识进行数据应用场景分析。云计算服务器20还可以将数据应用场景分析结果发送给服务商平台30,或者根据数据应用场景分析结果生成应用场景分析报告后再发送给服务商平台30。可以理解,服务商平台30可以基于数据应用场景分析结果实现对应的用户画像挖掘,从而实现对后期的产品或者服务的更新和优化。其中,本发明实施例所提供的基于大数据的数据应用场景识别方法可以通过云计算服务器20来执行。
服务商平台30可以是云业务服务交互状态中的服务商的中心服务设备,服务商可以通过云计算服务器20的数据应用场景分析结果或者应用场景分析报告了解到业务用户在对应的业务服务交互过程中的用户画像标签,或者可以针对某一业务用户群体进行针对性的产品研发或者服务更新等。例如,对于某一业务服务产品,大部分业务用户在产品使用交互过程中产生的业务数据对应的是购物类别的数据应用场景,而对于另一业务服务产品,大部分业务用户在产品使用交互过程中产生的业务数据对应的是办公类别的数据应用场景,那么服务商既可以对这两种业务服务产品中的购物类别的数据应用场景进行针对性地产品服务升级。或者,对于某业务服务产品,购物类别的数据应用场景所对应的业务用户大部分群体都是年轻的宅男,那么在进行产品服务升级时,可以将群体瞄准到年轻的宅男,从而基于业务数据对应的购物类别的数据应用场景进行进一步的潜在兴趣需求的分析以及针对性的产品服务升级。
用户端设备10、云计算服务器20以及服务商平台30之间可以通过无线网络(Wireless network)或者有线网络(Wired network)来进行数据传输,其中,无线网络例如可以是通过无线局域网(Wireless LAN,WLAN)或者蜂窝网络等,在此不作限定。
当然,本发明实施例提供的基于大数据的数据应用场景识别方法并不限用于图1中所示的系统场景架构中,还可以用于其他可能的系统场景架构,本发明实施例并不进行限制。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
可以理解,本发明实施例所提供的基于大数据的数据应用场景识别方法的技术方案可以总结为如下内容:从获取的包含业务交互事件标识的待分析业务数据中提取出业务交互事件标识对应的关联业务数据;通过预先完成训练的业务数据解析模型对所述业务交互事件标识对应的关联业务数据进行数据分析和场景识别,得到i种数据应用场景的识别结果;其中,所述数据应用场景的识别结果用于指示服务商平台进行用户画像挖掘,以实现服务产品的优化。
本发明实施例中,由于数据分析和场景识别是基于预先完成训练的业务数据解析模型进行的,并且业务数据解析模型所处理的关联业务数据是从获取的包含业务交互事件标识的待分析业务数据中提取出的且与业务交互事件标识对应的,这样一来,利用人工智能模型能够将业务数据的不同交互情况考虑在内,从而确保针对不同数据应用场景的精准识别,这样可以确保待分析业务数据与数据应用场景的高度相关性。如此,可以确保业务数据与数据应用场景之间的高度匹配,确保服务商平台能够根据不同的数据应用场景的识别结果实现对业务数据的用户画像挖掘,满足服务商的用户画像挖掘需求,从而实现服务产品的优化。
选择性地,本发明实施例所提供的基于大数据的数据应用场景识别方法的技术方案,还可以总结为如下内容:基于待分析业务数据确定关联业务数据;基于预设业务数据解析模型确定出与所述关联业务数据对应的i种数据应用场景的识别结果;其中,所述数据应用场景的识别结果用于指示服务商平台进行用户画像挖掘,以实现服务产品的优化。
可以理解,以上两种对本方案技术的总结的进一步说明可以参阅图2所示的方法步骤。
请参见图2,本发明实施例提供一种基于大数据的数据应用场景识别方法的另一实施例,该方法可以应用于图1所示的系统场景架构中,该方法可以通过本发明实施例提供的数据应用场景分析设备来执行,该数据应用场景分析设备例如可以通过图1中所示的云计算服务器20来实现。该方法的流程描述如下。
步骤201:从获取的包含业务交互事件标识的待分析业务数据中提取出业务交互事件标识对应的关联业务数据。
本发明实施例中,待分析业务数据可以是如图1中所示的用户端设备10所生成的业务数据,或者,待分析业务数据还可以是从用户端设备10生成的操作数据中确定的包括业务交互事件标识的业务数据,或者,待分析业务数据也可以是业务用户或者其他服务商平台通过通信网络上传到云计算服务器20的业务数据。其中,待分析业务数据可以是不具有时效性的数据集,或者还可以是具有时效性的数据流,例如用户端设备10所生成的业务数据通常为操作数据,那么待分析业务数据则可以是从操作数据中确定的包括同一业务交互事件标识的具有时效性的数据流。当然,待分析业务数据的获取方式还可以包括其他可能的方式,本发明实施例对此不做限制。
由于用户端设备10所生成的业务数据或者操作数据中通常除了业务交互事件标识之外,还会包括其他的内容,例如业务服务产品信息或者竞争方推广数据等,但是这些内容对于数据应用场景分析而言是没有多大的参考价值的,并且在进行数据应用场景分析过程中所要处理的内容越多,反而还会使得数据应用场景分析速度变慢,因此为了提高数据应用场景分析过程的效率,还可以在获取业务数据之后,可以先对业务数据进行适当的数据预处理,再将数据预处理完成后的业务数据作为输入至业务数据解析模型的待分析业务数据。
在具体实施过程中,在有业务数据输入时,可以先检测到输入的业务数据中是否包括业务交互事件标识,若是输入的业务数据中包括业务交互事件标识,再对输入的业务数据进行数据预处理,若是输入的业务数据中未检测到业务交互事件标识,则跳过该业务数据,继续处理下一组输入的业务数据。从获取的包含业务交互事件标识的待分析业务数据中提取出业务交互事件标识对应的关联业务数据具体包括如下步骤:
步骤301:检测业务交互事件标识中的标识特征。
其中,标识特征的检测是指确定标识特征在业务交互事件标识中的相对位置,标识特征可以是数字或者字母,或者业务交互事件标识上的多个业务数据特征内容的拼接片段。
步骤302:业务交互事件标识的验证。
由于输入的业务数据中业务交互事件标识有可能存在偏差的情况,因此,可以通过标识特征来确定业务交互事件标识是否存在偏差。例如,当以数字作为标识特征时,可以将两个数字队列的队列中心之间的关联性指标与预设基准指标进行比对分析,若两个数字队列的队列中心之间的关联性指标与预设基准指标之间存在一定的差异,则说明业务交互事件标识存在偏差,那么可以对业务数据进行修正,以使得两个数字队列的队列中心之间的关联性指标与预设基准指标的差异尽可能消除。通过将业务数据机芯数据结构的调整,即可以使得两个数字队列的队列中心之间的关联性指标与预设基准指标的差异尽可能消除。
步骤303:业务交互事件标识的精简。
具体的,将除去业务交互事件标识之外的其他流程性标识均剔除,得到业务交互事件标识对应的关联业务数据,这样,可以减少冗余业务数据特征内容对数据应用场景分析的干扰,同时减少训练过程或者分析过程中的计算量。其中,进行标识精简时可以将业务数据按照预设的数据流量处理阈值进行精简处理,预设的数据流量处理阈值例如可以为XXXmb/s。
本发明实施例中,由于获取到的业务数据很有可能为临时数据,但是临时数据对于数据应用场景分析结果并不是决定性因素,因而在获取到临时数据时,可以将临时数据进行相应的转换,比如转换为符合分析条件的数据块,这样,可以显著减少训练过程或者分析过程中的计算量。具体的,这个临时数据的转换过程可以是在标识特征之前完成的,也可以是在标识精简之后再进行,本发明实施例对此并不做限制。
步骤202:通过业务数据解析模型从业务交互事件标识对应的关联业务数据中提取出局部业务数据特征内容和全局业务数据特征内容,其中,局部业务数据特征内容包括业务交互事件标识对应的关联业务数据中交互事件标签的画像信息以及每一个数据片段关联度的检测结果,全局业务数据特征内容包括业务交互事件标识对应的关联业务数据中交互事件状态的变化情况。
本发明实施例中,对输入的业务数据的数据预处理完成之后,则可以将数据预处理得到后的业务交互事件标识对应的关联业务数据输入至预先训练的业务数据解析模型中,进而通过业务数据解析模型从业务交互事件标识对应的关联业务数据中提取出局部业务数据特征内容和全局业务数据特征内容,其中,局部业务数据特征内容可以包括业务交互事件标识对应的关联业务数据中交互事件标签的画像信息以及每一个数据片段关联度的检测结果,全局业务数据特征内容可以包括业务交互事件标识对应的关联业务数据中交互事件状态的变化情况。
其中,业务数据解析模型是通过多个业务交互事件标识对应的训练样本集进行样本训练获得的,每一个业务交互事件标识对应的训练样本集中预先标记了i种数据应用场景的识别结果。对于业务数据解析模型的训练过程将在后续的实施例中具体进行介绍,在此不过多赘述。
步骤203:通过业务数据解析模型对提取的业务数据特征内容进行拼接,并根据业务数据解析模型中通过样本训练得到的场景识别网络对拼接后的业务数据特征内容进行场景识别,以得到i种数据应用场景的识别结果,i为大于1的正整数。
本发明实施例中,可以根据提取的业务数据特征内容进行拼接,进而根据拼接的业务数据特征内容以及样本训练得到的场景识别网络来判断业务交互事件标识对应的关联业务数据中的i种数据应用场景的识别结果。
具体的,i种数据应用场景可以为常见的数据应用场景的分类,例如i种数据应用场景可以包括购物类别场景,办公类别场景,工业生产类别场景,政务服务类别场景,游戏类别场景,智慧城市监控类别场景以及智慧医疗类别场景这7种数据应用场景,当然,i种数据应用场景也可以包括其他可能的数据应用场景,在此就不一一赘述了。
本发明实施例中,业务数据解析模型是利用多个业务交互事件标识对应的训练样本集进行训练获得的,每一个业务交互事件标识对应的训练样本集中预先标记了i种数据应用场景的识别结果。其中,对于模型的训练是指通过原始机器学习模型对训练样本集中的业务交互事件标识对应的训练样本集进行数据应用场景分析,再将数据应用场景分析结果与实际的数据应用场景结果进行比对分析,根据两者之间的差异比较结果不断对原始机器学习模型的模型参数进行更新,直至最终得到的模型的测试准确率能够满足设定的准确度要求的过程。
在通过训练样本集进行业务数据解析模型的训练之前,还需要对训练样本集中的每一个业务交互事件标识对应的训练样本集进行预先标记。
具体的,对于一个业务交互事件标识对应的训练样本集,以i种数据应用场景为购物类别,办公类别场景,工业生产类别场景,政务服务类别场景,游戏类别场景,智慧城市监控类别场景以及智慧医疗类别场景这7种数据应用场景为例,可以通过预先的历史处理记录对该业务交互事件标识对应的训练样本集的各个数据应用场景进行预先标记,这样,对于每一个业务交互事件标识对应的训练样本集,经过预先标记后,都可以得到一个7组的数据应用场景识别结果分布。例如,以其中一个业务交互事件标识对应的训练样本集预先标记得到的7种数据应用场景的识别结果为例进行说明,其中,购物类别为主要数据应用场景,办公类别场景为次主要数据应用场景,政务服务类别场景的识别结果次于办公类别场景,其他数据应用场景的识别结果皆表征不符合。
由于数据应用场景的预先标记具有的客观性较弱,为了使得预先标记的数据应用场景的识别结果分布更准确,每个业务交互事件标识对应的训练样本集可以由多个预先标记策略进行预先标记,最终取基于多个预先标记策略所预先标记的每个数据应用场景的识别结果的全局融合结果作为最终的识别结果。示例性的,对于一组业务数据,通过若干个预先标记策略进行预先标记。
可以理解,针对原始机器学习模型而言,原始机器学习模型的构成可以包括数据输入层、j个内容提取层、j个内容校正层、全连接层和模型评价层(损失层),j为正整数。下面将结合上述的原始机器学习模型对本发明实施例的模型训练过程进行描述,此外,对于每一层所进行的处理,也将在训练过程的描述中一并进行,在此先不过多赘述。
本发明实施例中,模型的训练是对训练样本集中的业务交互事件标识对应的训练样本集多次深度学习的过程,每次深度学习的过程也是对业务交互事件标识对应的训练样本集的一次分析过程。在具体实施过程中,由于训练样本集中包含的业务交互事件标识对应的训练样本集数目较多,一次机器学习的过程即会消耗大量的时间,因此在每一次学习的过程中可以仅对训练样本集中的部分业务交互事件标识对应的训练样本集进行学习。具体的,部分业务交互事件标识对应的训练样本集可以是随机从训练样本集中保留的,对于部分业务交互事件标识对应的训练样本集的数目可以根据经验进行设置,或者,还可以根据训练样本集包括的业务交互事件标识对应的训练样本集的量进行设置,此外,还可以通过预先设置的概率分布算法对训练样本集进行随机采样进行训练学习。
由于在本发明实施例中,对于不同的业务交互事件标识对应的训练样本集的学习/训练过程均是相同的,因而下面以一个业务交互事件标识对应的训练样本集为例对学习/训练过程进行描述。
步骤601:数据输入层接收业务交互事件标识对应的训练样本集。
具体的,数据输入层可以对接收的业务交互事件标识对应的训练样本集进行数据预处理,得到业务交互事件标识对应的关联业务数据,或者,数据输入层接收的业务数据还可以是经过数据预处理后的业务交互事件标识对应的关联业务数据,对于数据预处理过程可以参见上述所示的实施例部分的描述,在此不再赘述。
步骤602:通过j个内容提取层进行j次内容提取处理。
业务交互事件标识对应的关联业务数据输入数据输入层之后,即会进入第一个内容提取层进行内容提取处理。其中,对于进行数据处理的计算机设备而言,业务交互事件标识对应的训练样本集本质上是由业务数据流记录的形式进行存储的,因此后续所言的对业务交互事件标识对应的训练样本集进行的处理本质上也是基于该业务数据流记录进行的。相应的,在内容提取层中是将业务交互事件标识对应的关联业务数据的业务数据流记录按照预设时间间隔以及预设数据流量处理阈值的内容提取算法进行内容提取处理。
内容提取算法是针对业务数据流记录中的局部关联的业务数据流的处理算法(通常可以理解为卷积处理)。对于业务数据来说,局部关联的业务数据流在时间上的联系较为紧密,例如生成时刻较为接近的业务数据流通常具有相同的数据特征,从而生成时刻较为接近的业务数据流之间的相关性较强,反之生成时刻之间的时长间隔较大的业务数据流相关性则较弱,因而,可以通过对业务数据的局部关联的业务数据流进行处理,并将这些局部关联的业务数据流进行拼接,就可以得到对应的业务数据的相关特征内容。
内容提取处理是将一个预设数据流量处理阈值的内容提取算法与该轮内容提取算法的泛化指标的各个业务记录组合后进行内容识别和分析,然后再按照预设时间间隔移动到下一轮内容提取算法,并将下一轮内容提取算法与该轮内容提取算法的泛化指标的各个业务记录组合后进行进行内容识别和分析的过程。其中,内容提取算法的数据流量处理阈值越小,相当于业务数据的识别精度越高,从该业务数据中获取的特征内容的信息量也就越多,相对应的,整个内容提取处理的计算量也就越大,因而在选择内容提取算法的数据流量处理阈值时可以根据实际情况进行衡量,例如,预设数据流量处理阈值可以是10Mb/s,当然,内容提取算法的数据流量处理阈值还可以是其他可能的值。
一般而言,预设时间间隔可以设置为1min,当然,预设时间间隔也可以设置为其他的值,例如预设时间间隔可以设置为2min或者3min,本发明实施例对此不做限制。
示例性的,对于内容提取层进行内容提取处理的技术方案而言,业务交互事件标识对应的训练样本集的业务数据流记录数据流量处理阈值例如可以为15Mb/s,但是为了方便示出,选取了业务数据流记录中的部分子记录进行示出,例如数据流量处理阈值为3Mb/s的业务数据流记录,内容提取算法的预设数据流量处理阈值为5Mb/s,预设时间间隔为1min。
对业务交互事件标识对应的训练样本集的业务数据流记录进行内容提取处理时,会从第一轮内容提取算法开始,例如,将第一轮内容提取算法与该轮内容提取算法的泛化指标记录中对应部分的业务记录进行组合后再进行内容识别和分析,可得到分析结果为r4,当第一轮内容提取算法计算完成之后,基于第一轮内容提取算法的计算记录选择下一组业务数据流,再将第二轮内容提取算法与其对应的泛化指标记录进行上述处理,后续过程依次类推。完成所有内容提取算法的处理之后,即可得到内容提取处理后的业务数据特征内容块。其中,业务数据特征内容块中包括通过内容提取层提取的局部业务数据特征内容和全局业务数据特征内容,这些业务数据特征内容不同时,所对应的数据应用场景的识别结果即可能是不同的。其中,j个内容提取层中通常前几个内容提取层用于提取局部业务数据特征内容,后几个内容提取层用于提取全局业务数据特征内容,具体可以根据实际应用进行设置,例如在j为24时,可以通过前8个内容提取层来提取局部业务数据特征内容,以及通过后16个内容提取层来提取全局业务数据特征内容。
在原始机器学习模型中,可以通过对每一个内容提取算法的泛化指标记录随机配置,进而通过对原始机器学习模型进行样本训练,对泛化指标记录中的记录信息不断进行更新。
本发明实施例中,内容提取层的数目j可以根据预先进行相关业务处理进行适应性的调整,或者根据实际机器学习模型的建模训练过程进行更新。例如j可以为10,当然,j也可以为其他可能的值,比如5、15、20、21、22、23、24、25、30等。一般而言,选择在5~20这个区间较为合理,但是也不排除一些计算性能较高的计算机设备可以将内容提取层的数目设置成30。
步骤603:通过j个内容校正层进行j次内容校正处理。
由于在内容提取处理之后,所得到的内容提取处理后的业务数据特征内容块中的内容的离散度可能较大,内容块之间的干扰程度也可能较大,不利于机器学习模型的收敛,因而可以在每一个内容提取层之后,设置一个内容校正层,以将内容提取处理后的业务数据特征内容块中的内容块转换为较为集中的内容块,从而加快模型的收敛速度。
步骤604:通过至少一个全连接层得到i组的业务数据特征内容记录。
本发明实施例中,一个全连接层即是将内容校正后的业务数据特征内容块与一个预设内容记录组合的过程。其中,至少一个全连接层可以包括多个高维度的全连接层和一个i维度的全连接层,高维度的全连接层的数目例如可以为3,并且维度度例如可以为256或者512等,或者,其他可能的值,i组的全连接层的维度数i是与数据应用场景的种类i相同的,例如数据应用场景的种类i为7,则i组的全连接层的维度i也为7。可以理解,i组的业务数据特征内容记录可以理解为维度为i的业务数据特征内容记录,比如,i组的业务数据特征内容记录可以为:{记录1、记录2、记录3、...、记录i-1、记录i}。
本发明实施例中,最终通过与i组的预设内容记录组合,最终能够将内容校正后的业务数据特征内容块中的业务数据特征内容进行基于i维特征的映射处理,如此,得到的i组的业务数据特征内容记录中的i个数据泛化指标与i种数据应用场景的识别结果一一对应,从而得到i种数据应用场景的识别结果。
全连接层的处理过程实质上是对前面提取的业务数据特征内容进行拼接和分类的过程,也就是说,预设内容记录即可以对应一种场景识别网络,在训练过程中对预设内容记录进行不断的更新的过程即可以理解为是对样本训练得到场景识别网络的过程,进而使得最终得到的业务数据解析模型中的预设内容记录能够达到业务数据特征内容拼接以及分类足够准确的技术效果。
步骤605:通过模型评价层确定预测的i种数据应用场景的识别结果与预先标记的i种数据应用场景的识别结果之间的差异比较结果,并根据差异比较结果对原始机器学习模型的模型参数进行更新,以得到业务数据解析模型。
其中,预测的i种数据应用场景的识别结果即是指上述i组的业务数据特征内容记录中的i个数据泛化指标。
本发明实施例中,可以通过交叉熵损失算法确定预测的i种数据应用场景的识别结果与预先标记的i种数据应用场景的识别结果之间的差异比较结果。一般而言,其中,previous-result表征预先标记的i种数据应用场景的识别结果,text-result表征预测的i种数据应用场景的识别结果,f(previous-result,text-result)为previous-result和text-result的交叉熵,也就是预测的i种数据应用场景的识别结果与预先标记的i种数据应用场景的识别结果之间的差异比较结果,交叉熵越小,则差异比较结果对应的差异度也越小。
示例性的,若是i为3,分别为购物类别场景,办公类别场景和游戏类别场景,预测的这3种数据应用场景的识别结果依次为0.6、0.8和0.24,预先标记的这3种数据应用场景的识别结果依次为1、0和1,那么:
f(previous-result,text-result)
=-(1*log0.6+0*log0.8+1*log0.24)=0.8416。
也就是说,预测的i种数据应用场景的识别结果与预先标记的i种数据应用场景的识别结果之间的差异比较结果对应的差异度为0.8416。本发明实施例中,还可以通过欧氏距离算法来获得预测的i种数据应用场景的识别结果与预先标记的i种数据应用场景的识别结果之间的差异比较结果,当然,还可以通过其他可能的损失算法确定差异比较结果,在此就不一一例举了。
本发明实施例中,若是确定所得的差异比较结果对应的差异度大于或者等于预设差异度阈值,则根据差异比较结果对原始机器学习模型的模型参数进行更新。其中,原始机器学习模型的模型参数主要包括内容提取层中每一个内容提取算法的泛化指标记录对应的参数和全连接层中的至少一个预设内容记录对应的参数,若是内容校正层中还包括内容校正系数,则原始机器学习模型的参数则还应包括内容校正系数。具体的,可以通过梯度下降算法,举例而言,梯度下降算法中的学习率是机器学习中一个重要的参数,它影响着基于损失梯度更新机器学习模型的模型参数的速度,一般来说,学习率越大,模型的学习速度越快,但是学习率过大时,可能不能准确的对模型的参数进行更新,因而需要设置一个合适的值,一般来讲,可以在开始时将学习率设置为较大的值,例如可以将学习率设置为0.04,通过不断的训练,在差异比较结果不在发生变化时,则可以降低学习率后在继续进行训练。
本发明实施例中,获取对原始机器学习模型的模型参数的更新记录之后,则可以按照更新记录确定得到更新后的原始机器学习模型的模型参数,并根据更新后的原始机器学习模型继续进行多次样本训练,直至差异比较结果对应的差异度小于预设差异度阈值,并将最后一次更新后的原始机器学习模型作为业务数据解析模型。其中,在对进行参数的更新时,可以通过前向反馈(Backpropagation algorithm,BP)算法实现,也可以通过其他算法进行,在此不作限定。
在一种可选的实施方式中,由于对业务数据流记录或者业务数据特征内容块进行处理的过程皆是噪声抗性较低的,从而得到的业务数据解析模型实质上也是噪声抗性较低的机器学习模型。然而,实际应用中的业务数据的处理是相对复杂多变的,因此,仅通过噪声抗性较低的机器学习模型是难以准确地进行表达的,因而有必要引入噪声内容的相关协助处理指标,以提高机器学习模型的表达能力、泛化能力和模型稳定性。进一步地,在上述内容的基础上,可以通过以下步骤801-步骤806增加噪声内容剔除处理。
步骤801:数据输入层接收业务交互事件标识对应的训练样本集。步骤802:通过j个内容提取层进行j次内容提取处理。
步骤803:通过j个内容校正层进行j次内容校正处理。
步骤804:对内容校正后的业务数据特征内容块进行噪声内容剔除处理,得到噪声内容剔除后的业务数据特征内容块。
步骤805:通过至少一个全连接层得到i组的业务数据特征内容记录。
步骤806:通过模型评价层确定预测的i种数据应用场景的识别结果与预先标记的i种数据应用场景的识别结果之间的差异比较结果,并根据差异比较结果对原始机器学习模型的参数进行更新,以得到业务数据解析模型。
其中,步骤801~步骤803以及步骤805~步骤806分别与上述对应的实施例部分的内容相同,因而对于这些步骤参考对应部分的描述,在此不做过多赘述。
本发明实施例中,在每一个内容校正层之后,均可以进行一次噪声内容剔除处理,从而得到噪声内容剔除后的业务数据特征内容块,那么输入至全连接层的也就为最后一次噪声内容剔除后的业务数据特征内容块。具体的,噪声内容剔除处理通过噪声内容剔除算法来实现,噪声内容剔除算法可以采用噪声抗性较低整流算法。
通过进行噪声内容剔除处理,给训练后的机器学习模型增加噪声内容的相关协助处理指标,增加机器学习模型的噪声内容处理能力,增加业务数据解析模型的复杂度,进而提高业务数据解析模型的准确度。
在一种可选的实施方式中,由于业务数据特征内容块中存在着一些存在延时的业务数据特征内容,因而有必要对业务数据特征内容块进行时序更新处理。例如,步骤901-步骤906为增加了时序更新处理的相关步骤。
步骤901:数据输入层接收业务交互事件标识对应的训练样本集。
步骤902:通过j个内容提取层进行j次内容提取处理。
步骤903:通过j个内容校正层进行j次内容校正处理。
步骤904:对内容校正后的业务数据特征内容块进行时序更新处理,得到时序更新后的业务数据特征内容块。
步骤905:通过至少一个全连接层得到i组的业务数据特征内容记录。
步骤906:通过模型评价层确定预测的i种数据应用场景的识别结果与预先标记的i种数据应用场景的识别结果之间的差异比较结果,并根据差异比较结果对原始机器学习模型的参数进行更新,以得到业务数据解析模型。
本发明实施例中,可以在j个内容提取层中的其中一个或者几个内容提取层之后,增加一个时序更新层,得到时序更新后的业务数据特征内容块,那么输入至内容校正层的也就为时序更新后的业务数据特征内容块。例如,若是内容提取层的数目为15时,则可以在第3、6、9和12个内容提取层之后设置一个时序更新层。或者,还可以在j个内容校正层中的其中一个或者几个内容校正层之后,增加一个时序更新层,得到时序更新后的业务数据特征内容块,那么输入至全连接层的也就为时序更新后的业务数据特征内容块。
其中,步骤901~步骤903以及步骤905~步骤906分别与上述实施例部分的内容相同,因而对于这些步骤参考对应部分的描述,在此不做过多赘述。
这样,通过时序更新处理可以对业务数据特征内容块中的关联性较强的业务数据特征内容进行时序处理,进而使得时序更新处理后的业务数据特征内容块能够保留业务数据特征内容块中主要的业务数据特征内容,去除业务数据特征内容块中的存在延时的业务数据特征内容,从而减少存在延时的业务数据特征内容对模型训练的影响,那么在通过训练后的机器学习模型进行数据应用场景分析时,同样会去除这些存在延时的业务数据特征内容,减少存在延时的业务数据特征内容对分析结果的干扰,提高了训练所得的业务数据解析模型的鲁棒性。此外,由于业务数据特征内容的数目减少了,后续的计算量相应的减少,有利于加快模型训练速度以及加快数据应用场景分析速度,从而确保满足实时的业务需求。本发明实施例中,噪声内容剔除处理和时序更新处理也可以同时添加至原始机器学习模型中进行训练,本领域技术人员可以根据实际需求灵活的进行选择,本发明实施例对此不做限制。本发明实施例中,训练得到业务数据解析模型之后,还可以验证业务数据解析模型分析得到的数据应用场景的识别结果是否准确,则可以通过验证样本集对业务数据解析模型进行验证,由于验证过程实质上是与训练过程是类似的,因此不再对该过程进行赘述。若是通过验证样本集验证得到的业务数据解析模型的准确度已经能够满足设定的业务需求时,则可以将业务数据解析模型用于数据应用场景的分析。
可以理解的是,基于上述训练所得到的业务数据解析模型,对待分析业务数据进行分析得到数据应用场景分析结果的流程如下。
步骤1201:数据输入层从获取的待分析业务数据中提取业务交互事件标识对应的关联业务数据。
步骤1202:通过j个内容提取层对业务交互事件标识对应的关联业务数据的业务数据流记录进行j次内容提取处理。本发明实施例中,在业务数据解析模型训练完成之后,j个内容提取层中用于与业务数据流记录的每一个内容提取算法组合的泛化指标记录已经确定,那么在待分析业务数据的分析过程中,则是将业务交互事件标识对应的关联业务数据的业务数据流记录中的每一个内容提取算法与业务数据解析模型中确定的相应位置的泛化指标记录进行内容提取处理。其中,内容提取算法的数据流量处理阈值以及时间间隔在业务数据解析模型同样已经确定。内容提取层可以从业务交互事件标识对应的关联业务数据中提取交互事件标签的画像信息以及每一个数据片段关联度的检测结果,以及业务交互事件标识对应的关联业务数据中交互事件状态的变化情况等业务数据特征内容,以提供给后续的网络层进行数据应用场景的场景识别。
步骤1203:通过j个内容校正层对内容提取处理后的业务数据特征内容块进行j次内容校正处理。在每一个内容提取层之后,都会通过一个内容校正层对内容提取处理后的业务数据特征内容块进行内容校正处理,以加快处理过程的收敛速度,从而提高分析速度。
步骤1204:对内容校正后的业务数据特征内容块进行噪声内容剔除处理,得到噪声内容剔除后的业务数据特征内容块。
步骤1205:对噪声内容剔除后的业务数据特征内容块进行时序更新处理,得到时序更新后的业务数据特征内容块。本发明实施例中,时序更新层可以是在内容校正层、内容提取层或者噪声内容剔除算法之后,上述步骤以时序更新层在噪声内容剔除算法之后为例。时序更新层可以对业务数据特征内容块中关联性较强的业务数据特征内容进行时序处理,减少业务数据特征内容块中的存在延时的业务数据特征内容,从而减少存在延时的业务数据特征内容对分析结果的干扰,提高了训练所得的模型的鲁棒性,此外,由于业务数据特征内容数目减少了,后续的计算量相应的减少,提升了分析速度。
步骤1206:通过至少一个全连接层得到i组的业务数据特征内容记录。相同的,在业务数据解析模型训练完成之后,至少一个全连接层中的预设内容记录也已经确定,那么在待分析业务数据的分析过程中,则是将输入至全连接层中的业务数据特征内容块与业务数据解析模型中确定的预设内容记录进行组合。全连接层可以通过训练得到的预设内容记录对前序各层提取的业务数据特征内容进行拼接以及场景识别,从而输出i组的业务数据特征内容记录,i组中的每一组的记录可以代表一个数据应用场景维度的识别结果,从而得到i种数据应用场景的识别结果。
本发明实施例中,训练得到的业务数据解析模型中,主要通过内容提取层、内容校正层、噪声内容剔除算法以及时序更新层等对原始业务交互事件标识对应的关联业务数据中的局部和全局业务数据特征内容进行提取以及一定的处理,并通过全连接层将提取得到的业务数据特征内容进行拼接和分类,进而得到i种数据应用场景在原始业务交互事件标识对应的关联业务数据中出现的识别结果。其中,由于分析过程中每一个层的处理方法是与训练过程中对应部分相同的,因而针对每一个层的处理过程,可以参考训练过程中对应部分的描述,在此不过多赘述。应当理解,需要注意的是,步骤1204和步骤1205虽然在上述流程中一并示出,但需要知道的是,步骤1204和步骤1205并不是必选的步骤,此外,本领域技术人员还可以对步骤1205的执行顺序进行灵活的调整,在此不作限定。
数据应用场景分析并不仅仅用于某一业务服务产品的产品优化和升级方面,通过数据应用场景分析的结果,服务商还可以知道业务用户在对应的业务办理或者业务交互的评价情况,若负面评价对应的的业务用户较多,那么就可以根据具体的数据应用场景分析结果查找业务用户反馈负面评价的根源,进而及时进行业务优化和处理,以尽可能满足业务用户的业务需求。
综上所述,本发明实施例中,可通过业务数据解析模型对待分析业务数据中的业务交互事件标识进行数据应用场景分析,以输出多种数据应用场景在业务交互事件标识中出现的识别结果。首先,输出的数据应用场景分析结果是多种数据应用场景在业务交互事件标识中出现的识别结果,由于业务交互事件标识中可能同时存在多种数据应用场景,因而通过多种数据应用场景的识别结果分布来表达业务交互事件标识的数据应用场景能够更加准确。
其次,本发明实施例的分析过程中只需要将待分析业务数据输入到业务数据解析模型即可得到数据应用场景分析结果,相较目前首先提取业务数据特征内容,再通过业务数据特征内容进行分类的技术方案而言,操作步骤更加简洁并且方便。
此外,本发明实施例提供的业务数据解析模型中通过如内容提取层、内容校正层以及全连接层直接从业务交互事件标识对应的训练样本集中学习到复杂的业务数据特征内容表示,使得最终得到的业务数据解析模型的表达能力更强,并且通过噪声内容剔除处理增加模型的噪声抗干扰能力,进一步增强业务数据解析模型的表达能力。
如此设计,在得到了上述的数据应用场景的识别结果之后,可以将这些识别结果下发给对应的服务商平台,从而使得服务商平台基于这些识别结果对业务数据进行基于不同数据应用场景的用户画像挖掘,从而确保数据挖掘结果、业务数据、数据业务场景之间的相关性,这样可以为服务商平台后续的产品服务优化提供准确可靠的决策依据。
可以理解,在上述内容的基础上,服务商平台可以请求获取待分析业务数据以及对应的数据应用场景的识别结果,从而进行用户画像挖掘,但是,在进行用户画像挖掘时,需要确保用户的个体隐私不会泄露,因此,云计算服务器需要对待分析业务数据进行匿名化处理后再发送给服务商平台,从而避免服务商平台可能实施的过度挖掘行为导致的用户隐私泄露,为实现这一目的,该技术方案还可以包括以下内容:响应服务商平台上传的调用请求,其中,所述调用请求用于请求调用所述待分析业务数据以及所述数据应用场景的识别结果;基于所述调用请求以及所述数据应用场景的识别结果,对所述待分析业务数据进行数据防护处理,得到目标业务数据;将所述目标业务数据以及所述数据应用场景的识别结果下发至所述服务商平台,以供所述服务商平台基于所述目标业务数据进行用户画像挖掘。由此可见,由于下发的目标业务数据是经过数据防护处理的,因此能够避免服务商平台可能实施的过度挖掘行为导致的用户隐私泄露。举例而言,数据防护处理可以是匿名化处理,比如隐藏、删除或者修改待处理业务数据中的部分数据。
进一步地,在进行数据匿名化处理时,不仅需要确保用户隐私不被泄露,还需要最大程度地通过匿名化处理后的业务数据反应大部分用户的群体属性,为实现这一目的,上述步骤中的基于所述调用请求以及所述数据应用场景的识别结果,对所述待分析业务数据进行数据防护处理,得到目标业务数据,可以包括以下内容:
根据所述调用请求对应的请求事项消息以及所述数据应用场景的识别结果的应用场景标签信息,确定待分析业务数据对应的第一用户属性信息,确定参考业务数据对应的第二用户属性信息,所述第一用户属性信息和所述第二用户属性信息分别包括多个不同属性隐私等级的属性内容块,所述参考业务数据用于对待分析业务数据进行匿名化处理分析;其中,所述确定待分析业务数据对应的第一用户属性信息,确定参考业务数据对应的第二用户属性信息,包括:根据属性隐私等级阈值确定所述待分析业务数据对应的所述第一用户属性信息,所述第一用户属性信息中任意不间断的两个属性内容块之间的用户属性的属性隐私等级均值为所述属性隐私等级阈值;根据属性隐私等级阈值确定所述参考业务数据对应的所述第二用户属性信息,所述第二用户属性信息中任意不间断的两个属性内容块之间的用户属性的属性隐私等级均值为所述属性隐私等级阈值;
提取所述待分析业务数据在所述第一用户属性信息的任一属性内容块的原始用户属性标签,将所述第二用户属性信息中具有最小属性隐私等级的属性内容块确定为目标属性内容块;根据预设匿名化处理指标和数据调用记录将所述原始用户属性标签映射到所述目标属性内容块,在所述目标属性内容块中得到原始映射标签,并根据所述原始用户属性标签、所述原始映射标签,生成所述待分析业务数据和所述参考业务数据之间的数据配对指示信息;以所述原始映射标签为参考标签在所述目标属性内容块中获取敏感用户属性片段,根据所述数据配对指示信息对应的逆数据配对指示信息,将所述敏感用户属性片段映射到所述原始用户属性标签所在属性内容块,在所述原始用户属性标签所在属性内容块中得到所述敏感用户属性片段对应的目标用户属性片段,并确定所述目标用户属性片段的参考标签为目标用户属性标签;
获取所述原始用户属性标签映射到所述目标属性内容块中的属性标签匹配结果;根据所述目标用户属性片段与所述属性标签匹配结果上的多个待匹配数据安全事项对应的候选用户属性片段之间的隐私相关度,在所述第二用户属性信息中遍历所述目标用户属性标签对应的目标属性内容特征,直至获取到的所述目标属性内容特征所在属性内容块的隐私风险指数与所述目标用户属性标签在所述第一用户属性信息中的隐私风险指数一致时,停止获取下一属性内容块中的目标属性内容特征,并根据所述目标用户属性标签与最后一次获取到的目标属性内容特征之间的属性匹配结果对所述待分析业务数据进行匿名化处理,得到目标业务数据。
可以理解,在实施上述内容时,是基于参考业务数据对待分析业务数据进行匿名化处理的,因此,能够考虑属性隐私等级以及隐私风险指数(用户信息被窃取之后所产生的负面影响程度),这样在进行匿名化处理时,能够将待分析业务数据拆分为用户属性信息进行相应处理,不仅能够确保用户隐私不被泄露,还能够确保最大程度地通过匿名化处理后的业务数据反应大部分用户的群体属性,这样既保护和用户的个体隐私,也能够满足服务商平台的用户画像挖掘需求。
其次,针对上述基于大数据的数据应用场景识别方法,本发明实施例还提出了一种示例性的基于大数据的数据应用场景识别装置300,如图3所示,基于大数据的数据应用场景识别装置300可以包括以下的功能模块。
数据提取模块310,用于从获取的包含业务交互事件标识的待分析业务数据中提取出业务交互事件标识对应的关联业务数据。
特征提取模块320,用于通过业务数据解析模型从业务交互事件标识对应的关联业务数据中提取出局部业务数据特征内容和全局业务数据特征内容,其中,局部业务数据特征内容包括业务交互事件标识对应的关联业务数据中交互事件标签的画像信息以及每一个数据片段关联度的检测结果,全局业务数据特征内容包括业务交互事件标识对应的关联业务数据中交互事件状态的变化情况。
场景识别模块330,用于通过业务数据解析模型对提取的业务数据特征内容进行拼接,并根据业务数据解析模型中通过样本训练得到的场景识别网络对拼接后的业务数据特征内容进行场景识别,以得到i种数据应用场景的识别结果,i为大于1的正整数。
可以理解,上述功能模块的说说明可以参阅上述对应的方法实施例的描述。
进一步地,请结合参阅图4,云计算服务器20可以包括处理引擎21、网络模块22和存储器23,处理引擎21和存储器23通过网络模块22通信。
处理引擎21可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。例如,在一些实施例中,处理引擎21可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎21可以包括中央处理单元(Central ProcessingUnit,CPU)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer,RISC)、微处理器等或其任意组合。
网络模块22可以促进信息和/或数据的交换。在一些实施例中,网络模块22可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块22可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone SwitchedNetwork,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块22可以包括至少一个网络接入点。例如,网络模块22可以包括有线或无线网路接入点,如基站和/或网路接入点。
存储器23可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器23用于存储程序,所述处理引擎21在接收到执行指令后,执行所述程序。
可以理解,图4所示的结构仅为示意,云计算服务器20还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。
应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims (9)

1.一种基于大数据的数据应用场景识别方法,其特征在于,应用于云计算服务器,所述云计算服务器与用户端设备以及服务商平台通信,所述方法包括:
通过业务数据解析模型从业务交互事件标识对应的关联业务数据中提取出局部业务数据特征内容和全局业务数据特征内容,其中,所述局部业务数据特征内容包括所述业务交互事件标识对应的关联业务数据中交互事件标签的画像信息以及每一个数据片段关联度的检测结果,所述全局业务数据特征内容包括所述业务交互事件标识对应的关联业务数据中交互事件状态的变化情况;
通过所述业务数据解析模型对提取的业务数据特征内容进行拼接,并根据所述业务数据解析模型中通过样本训练得到的场景识别网络对拼接后的业务数据特征内容进行场景识别,以得到i种数据应用场景的识别结果,i为大于1的正整数;其中,所述业务数据解析模型是通过多个业务交互事件标识对应的训练样本集进行样本训练获得的,每一个业务交互事件标识对应的训练样本集中预先标记了i种数据应用场景的识别结果;其中,所述数据应用场景的识别结果用于指示所述服务商平台进行用户画像挖掘,以实现服务产品的优化。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从获取的包含业务交互事件标识的待分析业务数据中提取出业务交互事件标识对应的关联业务数据;相应的,待分析业务数据为所生成的业务数据或者为从用户端设备生成的操作数据中确定的包括业务交互事件标识的业务数据;
其中,关联业务数据通过检测业务交互事件标识中的标识特征,验证业务交互事件标识以及精简业务交互事件标识得到。
3.如权利要求2所述的方法,其特征在于,针对所述多个业务交互事件标识对应的训练样本集中的每一个业务交互事件标识对应的训练样本集,训练所述业务数据解析模型的过程包括如下步骤:
从业务交互事件标识对应的训练样本集中提取出所述业务交互事件标识对应的关联业务数据;
将所述业务交互事件标识对应的关联业务数据的业务数据流记录按照预设时间间隔以及预设数据流量处理阈值的内容提取算法进行j次内容提取处理,并进行j次内容校正处理,得到包括所述局部业务数据特征内容和所述全局业务数据特征内容的内容校正后的业务数据特征内容块,其中,在每一次内容提取处理完成之后,进行一次内容校正处理,j为正整数;
根据所述内容校正后的业务数据特征内容块得到i组的业务数据特征内容记录,其中,所述i组的业务数据特征内容记录中的i个数据泛化指标与所述i种数据应用场景的识别结果一一对应;
分别确定所述i个数据泛化指标,与预先标记的i种数据应用场景的识别结果之间的差异比较结果,根据所述差异比较结果对原始机器学习模型的场景识别网络进行更新,以得到所述业务数据解析模型。
4.如权利要求3所述的方法,其特征在于,根据所述内容校正后的业务数据特征内容块得到i组的业务数据特征内容记录,包括:
将所述内容校正后的业务数据特征内容块依次与至少一个预设内容记录组合,以将所述内容校正后的业务数据特征内容块中的业务数据特征内容进行拼接,得到所述i组的业务数据特征内容记录,其中,在一次组合完成之后,将组合得到的业务数据特征内容记录与下一个预设内容记录组合,且,用于最后一次组合的预设内容记录为i组的记录。
5.如权利要求3或4所述的方法,其特征在于,在根据所述内容校正后的业务数据特征内容块得到所述i组的业务数据特征内容记录之前,所述方法还包括:
对每一次内容校正处理后的业务数据特征内容块进行噪声内容剔除处理,得到噪声内容剔除后的业务数据特征内容块,其中,所述噪声内容剔除处理为将所述每一次内容校正后的业务数据特征内容块中的每个记录事项与预设业务事项进行比较,并保留所述每个记录事项与所述预设业务事项中场景泛化度较高的事项的处理过程;
以及所述根据所述内容校正后的业务数据特征内容块得到所述i组的业务数据特征内容记录,包括:根据最后一次噪声内容剔除后的业务数据特征内容块得到所述i组的业务数据特征内容记录。
6.如权利要求3或4所述的方法,其特征在于,在根据所述内容校正后的业务数据特征内容块得到i组的业务数据特征内容记录之前,所述方法还包括:
在所述j次内容提取处理中至少一次内容提取处理之后,对得到的内容提取处理后的业务数据特征内容块进行时序更新处理,得到时序更新后的业务数据特征内容块;
或者,在所述j次内容校正处理中至少一次内容校正处理之后,对得到的内容校正后的业务数据特征内容块进行时序更新处理,得到时序更新后的业务数据特征内容块;
则所述根据所述内容校正后的业务数据特征内容块得到i组的业务数据特征内容记录,包括:根据最后一次时序更新后的业务数据特征内容块得到所述i组的业务数据特征内容记录。
7.如权利要求4所述的方法,其特征在于,根据所述差异比较结果对所述原始机器学习模型的场景识别网络进行更新,以得到所述业务数据解析模型,包括:
根据所述差异比较结果确定对每一个内容提取算法的泛化指标记录以及所述至少一个预设内容记录中每个记录事项的更新记录;
对按照所述更新记录对每一个内容提取算法的泛化指标记录以及所述至少一个预设内容记录进行更新后的原始机器学习模型,继续进行多次样本训练,直至所述差异比较结果所表征的差异度小于预设差异度阈值,并将最后一次更新后的原始机器学习模型作为所述业务数据解析模型。
8.如权利要求7所述的方法,其特征在于,通过业务数据解析模型从所述业务交互事件标识对应的关联业务数据中提取出所述局部业务数据特征内容和所述全局业务数据特征内容,包括:
将所述业务交互事件标识对应的关联业务数据的业务数据流记录按照所述预设时间间隔和所述预设数据流量处理阈值的内容提取算法,与所述业务数据解析模型中的泛化指标记录进行j次内容提取处理,并进行j次内容校正处理,得到包括所述局部业务数据特征内容和所述全局业务数据特征内容的内容校正后的业务数据特征内容块;
则通过所述业务数据解析模型对提取的业务数据特征内容进行拼接,并根据所述业务数据解析模型中通过样本训练得到的场景识别网络对拼接后的业务数据特征内容进行场景识别,以得到i种数据应用场景的识别结果,包括:
将所述内容校正后的业务数据特征内容块与所述业务数据解析模型中的至少一个预设内容记录组合,以将所述内容校正后的业务数据特征内容块中的业务数据特征内容进行拼接,得到所述i组的业务数据特征内容记录,其中,所述i组的业务数据特征内容记录中的i个数据泛化指标与所述i种数据应用场景的识别结果一一对应。
9.一种云计算服务器,其特征在于,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行权利要求1-8任一项所述的方法。
CN202210076607.2A 2021-01-26 2021-01-26 基于大数据的数据应用场景识别方法及云计算服务器 Withdrawn CN114610773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210076607.2A CN114610773A (zh) 2021-01-26 2021-01-26 基于大数据的数据应用场景识别方法及云计算服务器

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210076607.2A CN114610773A (zh) 2021-01-26 2021-01-26 基于大数据的数据应用场景识别方法及云计算服务器
CN202110109932.XA CN112818023B (zh) 2021-01-26 2021-01-26 在关联云业务场景下的大数据分析方法及云计算服务器

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202110109932.XA Division CN112818023B (zh) 2021-01-26 2021-01-26 在关联云业务场景下的大数据分析方法及云计算服务器

Publications (1)

Publication Number Publication Date
CN114610773A true CN114610773A (zh) 2022-06-10

Family

ID=75859671

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202210076579.4A Withdrawn CN114610772A (zh) 2021-01-26 2021-01-26 基于大数据的用户画像挖掘方法及云计算服务器
CN202110109932.XA Active CN112818023B (zh) 2021-01-26 2021-01-26 在关联云业务场景下的大数据分析方法及云计算服务器
CN202210076607.2A Withdrawn CN114610773A (zh) 2021-01-26 2021-01-26 基于大数据的数据应用场景识别方法及云计算服务器

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN202210076579.4A Withdrawn CN114610772A (zh) 2021-01-26 2021-01-26 基于大数据的用户画像挖掘方法及云计算服务器
CN202110109932.XA Active CN112818023B (zh) 2021-01-26 2021-01-26 在关联云业务场景下的大数据分析方法及云计算服务器

Country Status (1)

Country Link
CN (3) CN114610772A (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840286B (zh) * 2021-06-16 2023-07-14 工信(北京)产业发展研究院有限公司 基于大数据的业务处理方法及服务器
CN113553609B (zh) * 2021-09-17 2022-08-02 支付宝(杭州)信息技术有限公司 基于隐私保护的多方联合进行业务预测的方法及系统
CN114168632A (zh) * 2021-12-07 2022-03-11 泰康保险集团股份有限公司 异常数据识别方法及装置、电子设备和存储介质
CN114168973A (zh) * 2021-12-21 2022-03-11 江西省锐华互联网科技有限公司 一种基于云计算的app安全漏洞分析方法及服务器
CN114415829B (zh) * 2021-12-29 2022-08-19 广州市影擎电子科技有限公司 一种跨平台的设备通用接口实现方法及系统
CN114417405B (zh) * 2022-01-11 2022-10-14 中软数智信息技术(武汉)有限公司 一种基于人工智能的隐私业务数据分析方法及服务器
CN114281553B (zh) * 2022-03-08 2022-05-13 开泰远景信息科技有限公司 一种业务处理方法、系统及云平台
CN114710542B (zh) * 2022-03-23 2023-12-26 中国工商银行股份有限公司 一种基于rpc的泛化路由mock方法及装置
CN114648364B (zh) * 2022-03-30 2023-04-18 成都净蓝科技有限公司 一种电子商务网站销售数据分析方法及系统
CN116070278A (zh) * 2022-09-14 2023-05-05 戴丽 基于大数据的信息匿名方法及服务器
CN117150551B (zh) * 2023-09-04 2024-02-27 东方魂数字科技(北京)有限公司 基于大数据的用户隐私保护方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908606A (zh) * 2017-10-31 2018-04-13 上海壹账通金融科技有限公司 基于不同信息源自动生成报表的方法和系统
CN110365755A (zh) * 2019-06-28 2019-10-22 深圳数位传媒科技有限公司 一种基于关键场景实时触发的信息推荐方法及装置
CN110413882B (zh) * 2019-07-15 2023-10-31 创新先进技术有限公司 信息推送方法、装置及设备
CN111191041A (zh) * 2019-11-22 2020-05-22 腾讯云计算(北京)有限责任公司 特征数据获取方法、数据存储方法、装置、设备及介质
CN111091351A (zh) * 2019-12-16 2020-05-01 北京政信1890智能科技有限公司 用户画像构建方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN112818023B (zh) 2022-03-18
CN114610772A (zh) 2022-06-10
CN112818023A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112818023B (zh) 在关联云业务场景下的大数据分析方法及云计算服务器
CN112633962B (zh) 业务推荐方法、装置、计算机设备和存储介质
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN111324738B (zh) 一种确定文本标签的方法和系统
CN108090351A (zh) 用于处理请求消息的方法和装置
CN112749181B (zh) 针对真实性验证和可信溯源的大数据处理方法及云服务器
CN111371767A (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN110929806A (zh) 基于人工智能的图片处理方法、装置及电子设备
CN111950295A (zh) 一种训练自然语言处理模型的方法和系统
CN114693192A (zh) 风控决策方法、装置、计算机设备和存储介质
CN113298121B (zh) 基于多数据源建模的消息发送方法、装置和电子设备
CN113472860A (zh) 大数据和数字化环境下的业务资源分配方法及服务器
CN112163019B (zh) 基于区块链的可信电子批记录处理方法及区块链服务平台
CN109726398B (zh) 一种实体识别及属性判断方法、系统、设备及介质
CN111935137B (zh) 基于大数据和人工智能的通信信息处理方法及云计算平台
CN112784990A (zh) 一种成员推断模型的训练方法
CN112905987B (zh) 账号识别方法、装置、服务器及存储介质
CN114528496B (zh) 多媒体数据处理方法、装置、设备及存储介质
CN111432080A (zh) 话单数据处理方法、电子设备及计算机可读存储介质
CN111506510B (zh) 一种软件质量确定方法和相关装置
CN113837183B (zh) 基于实时挖掘的多阶段凭证智能生成方法、系统及介质
CN115758368B (zh) 恶意破解软件的预测方法、装置、电子设备和存储介质
CN111786937B (zh) 用于识别恶意请求的方法、装置,电子设备和可读介质
CN116821689A (zh) 文本分类的数据增强方法、装置、设备及介质
CN113886779A (zh) 人员身份的识别方法、存储介质和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220610