CN116414948A - 基于云数据和人工智能的异常数据挖掘方法及软件产品 - Google Patents
基于云数据和人工智能的异常数据挖掘方法及软件产品 Download PDFInfo
- Publication number
- CN116414948A CN116414948A CN202310501913.0A CN202310501913A CN116414948A CN 116414948 A CN116414948 A CN 116414948A CN 202310501913 A CN202310501913 A CN 202310501913A CN 116414948 A CN116414948 A CN 116414948A
- Authority
- CN
- China
- Prior art keywords
- text
- abnormal
- session
- knowledge
- cloud data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 490
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000007418 data mining Methods 0.000 title claims abstract description 41
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 131
- 238000012549 training Methods 0.000 claims description 82
- 238000000605 extraction Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000005259 measurement Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明实施例涉及云数据、人工智能和大数据挖掘技术领域,提供一种基于云数据和人工智能的异常数据挖掘方法及软件产品,AI大数据挖掘服务器在人工智能专家系统的基础上引入单元化处理,能够有效减少AI大数据挖掘服务器的负载压力,一方面可以确保异常数据挖掘的精度和可信度,另一方面还可以提高异常数据挖掘的时效性并保障其他任务进程的正常运行,该异常数据挖掘技术可以适用于元宇宙服务、电子商务、数字办公、远程教育、智慧医疗等应用场景。
Description
技术领域
本发明涉及云数据、人工智能和大数据挖掘技术领域,尤其涉及一种基于云数据和人工智能的异常数据挖掘方法及软件产品。
背景技术
云数据(Cloud data)是基于云计算商业模式应用的数据集成、数据分析、数据整合、数据分配、数据预警的技术与平台的总称。在传统信息系统中,数据安全主要关注数据的加密存储和传输、安全审计和容灾备份;而在云计算架构下,除了要关注上述内容外,还有更多关注,比如数据的加密存储、数据隔离、数据迁移等关注点。
随着大数据(Big data)和云计算(Cloud computing)规模的不断扩大,针对云数据的异常风险识别对于数据安全而言非常重要,相关技术可以结合人工智能(ArtificialIntelligence)/机器学习(Machine Learning)等技术实现,但是传统的AI异常风险识别技术在面临庞大的云会话数据量时仍然存在一些缺陷。
发明内容
本发明提供一种基于云数据和人工智能的异常数据挖掘方法及软件产品,在人工智能专家系统的基础上引入单元化处理,能够有效减少AI大数据挖掘服务器的负载压力,一方面可以确保异常数据挖掘的精度和可信度,另一方面还可以提高异常数据挖掘的时效性并保障其他任务进程的正常运行,为实现上述技术目的,本发明采用如下技术方案。
第一方面是一种基于云数据和人工智能的异常数据挖掘方法,应用于AI大数据挖掘服务器,所述方法包括:
针对待挖掘云数据会话文本进行单元化处理,得到所述待挖掘云数据会话文本对应的不少于一个原始异常文本单元,所述待挖掘云数据会话文本中包括疑似风险会话事件;
在所述待挖掘云数据会话文本中,依据所述原始异常文本单元挑选各所述原始异常文本单元对应的待处理异常会话文本集;
对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的异常语义知识关系网;
将各所述异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义;
结合各所述局部知识关系网的会话语义,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的目标异常文本单元。
在一些示例中,所述在所述待挖掘云数据会话文本中,依据所述原始异常文本单元挑选各所述原始异常文本单元对应的待处理异常会话文本集之前,所述方法还包括:
对所述疑似风险会话事件进行事件标签判别,得到所述疑似风险会话事件对应的事件标签判别结果;
结合所述事件标签判别结果,确定所述疑似风险会话事件与设定的风险会话参考事件之间的共性度量值;
当所述共性度量值大于设定的共性度量阈值时,实施所述在所述待挖掘云数据会话文本中,依据所述原始异常文本单元挑选各所述原始异常文本单元对应的待处理异常会话文本集的步骤。
在一些示例中,所述对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的异常语义知识关系网,包括:
对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的量化知识关系网作为异常语义知识关系网,所述异常语义知识关系网中包括不少于一个量化知识成员;
所述将各所述异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义,包括:
依据所述异常语义知识关系网中的量化知识成员,对所述异常语义知识关系网进行关系网拆解,得到所述异常语义知识关系网对应的局部量化知识关系网,所述局部量化知识关系网中包括不少于一个量化知识成员;
依据各所述局部量化知识关系网中的所述量化知识成员、设定的扩展因子以及所述量化知识成员对应的置信分值,对各所述局部量化知识关系网进行扩展操作,得到各所述异常语义知识关系网对应的局部知识关系网;
对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义。
在一些示例中,所述对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义,包括:
依据各所述局部知识关系网,确定各所述局部知识关系网对应的异常会话文本块在所述待挖掘云数据会话文本中的分布;
结合各所述异常会话文本块的分布,对每个异常语义知识关系网对应的各所述局部知识关系网进行平均化,确定出各所述局部知识关系网对应的知识描述平均变量作为各所述局部知识关系网的会话语义。
在一些示例中,所述结合各所述局部知识关系网的会话语义,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的目标异常文本单元,包括:
结合各所述局部知识关系网的会话语义,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的不少于一个备选异常文本单元;
对各所述原始异常文本单元对应的待处理异常会话文本集进行概率特征编码,得到各所述待处理异常会话文本集对应的概率特征图;
依据各所述概率特征图以及各所述备选异常文本单元,确定各所述备选异常文本单元的确定性参数;
如果所述确定性参数大于设定的确定性阈值,则将所述备选异常文本单元作为所述疑似风险会话事件对应的目标异常文本单元。
在一些示例中,所述针对所述待挖掘云数据会话文本进行单元化处理,得到所述待挖掘云数据会话文本对应的不少于一个原始异常文本单元之前,所述方法还包括:获取文本单元化算法;
所述针对所述待挖掘云数据会话文本进行单元化处理,得到所述待挖掘云数据会话文本对应的不少于一个原始异常文本单元,包括:
通过所述文本单元化算法的知识抽取配置参量对所述待挖掘云数据会话文本进行知识抽取,生成所述待挖掘云数据会话文本对应的原始知识关系网;
依据所述文本单元化算法的异常判别配置参量,对所述原始知识关系网中的原始知识成员进行异常判别,得到所述待挖掘云数据会话文本对应的不少于一个原始异常文本单元。
在一些示例中,所述对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的异常语义知识关系网之前,所述方法还包括:获取异常文本单元识别算法;
所述对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的异常语义知识关系网,包括:通过所述异常文本单元识别算法的关系网生成配置参量,提取各所述待处理异常会话文本集对应的异常语义知识关系网;
所述将各所述异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义,包括:依据所述异常文本单元识别算法的拆解配置参量,对各所述异常语义知识关系网进行拆解,得到各所述异常语义知识关系网对应的不少于一个局部知识关系网;通过所述异常文本单元识别算法的AI编码操作配置参量对各所述局部知识关系网进行AI编码操作,生成各所述局部知识关系网的会话语义;
所述结合各所述局部知识关系网的会话语义,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的目标异常文本单元,包括:结合各所述局部知识关系网的会话语义以及所述异常文本单元识别算法的异常单元识别配置参量,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的目标异常文本单元。
在一些示例中,所述针对待挖掘云数据会话文本进行单元化处理之前,所述方法还包括:
获取拟调试的文本单元化算法、拟调试的异常文本单元识别算法以及云数据会话训练文本,所述云数据会话训练文本注释有真实异常文本单元;
通过所述拟调试的文本单元化算法对所述待挖掘云数据会话文本进行原始异常文本单元提取,得到所述云数据会话训练文本对应的不少于一个调试原始异常文本单元;
在所述云数据会话训练文本中,依据所述调试原始异常文本单元,挑选各所述调试原始异常文本单元对应的调试待处理异常会话文本集;
通过所述拟调试的异常文本单元识别算法对各所述调试待处理异常会话文本集进行目标异常文本单元提取,从各所述调试待处理异常会话文本集中确定所述待挖掘云数据会话文本对应的调试目标异常文本单元;
结合所述真实异常文本单元、所述调试原始异常文本单元和所述调试目标异常文本单元,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价;
依据所述协同训练代价,对所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法进行优化,得到调试后的文本单元化算法和调试后的异常文本单元识别算法。
在一些示例中,所述拟调试的文本单元化算法包括拟调试的事件解析子网,所述云数据会话训练文本注释有所述云数据会话训练文本中疑似风险会话训练事件与设定的风险会话参考训练事件之间的真实共性度量值;
所述依据所述真实异常文本单元、所述调试原始异常文本单元和所述调试目标异常文本单元,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价之前,所述方法还包括:通过所述拟调试的事件解析子网对所述云数据会话训练文本中的疑似风险会话训练事件进行事件解析,得到所述疑似风险会话训练事件与设定的风险会话参考训练事件之间的调试共性度量值;
所述结合所述真实异常文本单元、所述调试原始异常文本单元和所述调试目标异常文本单元,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价,包括:
依据所述真实异常文本单元和所述调试原始异常文本单元,确定第一异常文本单元识别代价;
依据所述调试共性度量值和所述真实共性度量值,确定事件解析代价;
结合所述第一异常文本单元识别代价和所述事件解析代价,得到所述拟调试的文本单元化算法对应的第一训练代价;
结合所述真实异常文本单元和所述调试目标异常文本单元,确定所述拟调试的异常文本单元识别算法对应的第二训练代价;
依据所述第一训练代价和所述第二训练代价,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价。
在上述内容的基础上,在一些可独立的实施例中,所述拟调试的异常文本单元识别算法包括拟调试的确定性推算子网,所述云数据会话训练文本注释有各指定知识成员对应的真实确定性参数,所述指定知识成员通过对所述云数据会话训练文本对应的局部知识关系网进行异常文本单元提取得到;
所述依据所述真实异常文本单元、所述调试原始异常文本单元和所述调试目标异常文本单元,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价之前,所述方法还包括:通过所述拟调试的确定性推算子网对所述调试目标异常文本单元进行确定性参数确定,得到各所述调试目标异常文本单元对应的调试确定性参数;
所述结合所述真实异常文本单元、所述调试原始异常文本单元和所述调试目标异常文本单元,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价,包括:
结合所述真实异常文本单元和所述调试原始异常文本单元,确定所述文本单元化算法对应的第一训练代价;
依据所述真实异常文本单元和所述调试目标异常文本单元,确定所述拟调试的异常文本单元识别算法对应的第二异常文本单元识别代价;
依据各所述调试目标异常文本单元对应的所述调试确定性参数和所述真实确定性参数,确定所述拟调试的异常文本单元识别算法对应的确定性参数识别代价;
结合所述第二异常文本单元识别代价和所述确定性参数识别代价,得到所述拟调试的异常文本单元识别算法对应的第二训练代价;
依据所述第一训练代价和所述第二训练代价,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价。
在上述内容的基础上,在一些可独立的实施例中,所述待挖掘云数据会话文本为待处理会话日志中的日志文本,所述疑似风险会话事件为所述待处理会话日志的网络欺诈事件,所述待处理会话日志中包含至少两个所述日志文本;
所述结合各所述局部知识关系网的会话语义,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的目标异常文本单元之后,所述方法还包括:
从所述待处理会话日志中获取与所述待挖掘云数据会话文本关联的日志文本作为新的待挖掘云数据会话文本,跳转至实施所述针对待挖掘云数据会话文本进行单元化处理,得到所述待挖掘云数据会话文本对应的不少于一个原始异常文本单元的步骤,直到确定所述新的待挖掘云数据会话文本中疑似风险会话事件对应的目标异常文本单元;
依据前一待挖掘云数据会话文本中疑似风险会话事件对应的目标异常文本单元与所述新的待挖掘云数据会话文本中疑似风险会话事件对应的目标异常文本单元,确定所述待处理会话日志中的所述网络欺诈事件的发展趋势。
在上述内容的基础上,在一些可独立的实施例中,所述对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的量化知识关系网作为异常语义知识关系网,包括:
将各所述待处理异常会话文本集拆解成会话文本子集,得到每个所述待处理异常会话文本集对应的会话文本子集簇;
对各所述会话文本子集簇中的会话文本子集进行知识抽取,得到各所述会话文本子集对应的第一知识关系网;
依据所述第一知识关系网,确定各所述待处理异常会话文本集的第二知识关系网;
依据各所述第二知识关系网确定每个所述会话文本子集簇中各所述会话文本子集对应的上下文影响系数,所述上下文影响系数用于指示每个所述待处理异常会话文本集对应的所述会话文本子集簇中的会话文本子集之间的上下文联系;
结合所述上下文影响系数,对各所述第二知识关系网进行强化处理,得到各所述待处理异常会话文本集对应的量化知识关系网。
第二方面是一种话题处理服务器,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述话题处理服务器执行第一方面的方法。
第三方面是一种用于实现基于云数据和人工智能的异常数据挖掘方法的软件产品,包括计算机程序/指令,其中,当所述计算机程序/指令被执行时,实现执行第一方面的方法。
第四方面是一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行第一方面的方法。
根据本发明的一个实施例,可以针对待挖掘云数据会话文本进行单元化处理,得到该待挖掘云数据会话文本对应的不少于一个原始异常文本单元,该待挖掘云数据会话文本中包括疑似风险会话事件,在该待挖掘云数据会话文本中,依据该原始异常文本单元挑选各该原始异常文本单元对应的待处理异常会话文本集,对各该待处理异常会话文本集进行知识抽取,得到各该待处理异常会话文本集对应的异常语义知识关系网,将各该异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各该局部知识关系网进行AI编码操作,得到各该局部知识关系网的会话语义,结合各该局部知识关系网的会话语义,确定各该待处理异常会话文本集中该疑似风险会话事件对应的目标异常文本单元。
鉴于本申请实施例将单元化处理作为预处理步骤,可以获得确保疑似风险会话事件的文本表征内容的原始异常文本单元,依据原始异常文本单元可以进一步地实现异常文本单元的精筛,且单元化处理的预处理步骤能够有效减少AI大数据挖掘服务器的负载压力,可见,一方面可以确保异常文本单元的识别准确性和可信度,另一方面还可以提高异常文本单元的识别时效性并减少服务器负载,避免针对疑似风险会话事件的异常文本单元确定影响到其他任务进程的正常实施。这样改善了传统的AI异常风险识别技术在面临庞大的云会话数据量时精度可信度低下且负载需求高的缺陷。
附图说明
图1为本发明实施例提供的基于云数据和人工智能的异常数据挖掘方法的流程示意图。
具体实施方式
以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
图1示出了本发明实施例提供的基于云数据和人工智能的异常数据挖掘方法的流程示意图,基于云数据和人工智能的异常数据挖掘方法可以通过话题处理服务器实现,话题处理服务器可以包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述话题处理服务器执行步骤201-步骤205。
步骤201、针对待挖掘云数据会话文本进行单元化处理,得到待挖掘云数据会话文本对应的不少于一个原始异常文本单元,待挖掘云数据会话文本中包括疑似风险会话事件。
本申请实施例中,异常文本单元是与待挖掘云数据会话文本中的疑似风险会话事件对应的相关文本单元,可反映在待挖掘云数据会话文本中一定文本区域内的文本内容的组合或前后联系。比如,异常文本单元可以是疑似风险会话事件表达了一部分事件描述的词语,或者,也可以是疑似风险会话事件与待挖掘云数据会话文本中其他文本单元进行区分的标签词,或者,是能够在其他含有疑似风险会话事件的类似文本中以相同或类似的形式对疑似风险会话事件进行表现的词语、短语、句子或段落等。
比如,每个异常文本单元可以是待挖掘云数据会话文本中的一个分布区域,也可以是由不少于一个词语、短语、句子或段落形成的一个文本集等。
其中,待挖掘云数据会话文本为需要进行异常文本单元识别的会话文本,待挖掘云数据会话文本中的疑似风险会话事件可以为至少一个。示例性的,疑似风险会话事件可以是网络诈骗事件、数据攻击事件、信息窃取事件等。
进一步地,云数据会话文本可以是云计算商业模式应用下的各类会话文本,比如元宇宙服务会话文本、电子商务会话文本、数字办公会话文本、远程教育会话文本、智慧医疗会话文本等。
在实际操作时,为避免AI大数据挖掘服务器的过载,可以首先采用文本单元化的步骤直接对待挖掘云数据会话文本进行处理,示例性的实现方式可以有多种,比如,“针对待挖掘云数据会话文本进行单元化处理,得到待挖掘云数据会话文本对应的不少于一个原始异常文本单元”的步骤可以包括:对待挖掘云数据会话文本进行文本知识抽取,得到待挖掘云数据会话文本的原始文本知识关系网,原始文本知识关系网中包括不少于一个原始知识成员;依据原始文本知识关系网,对原始知识成员进行知识成员分团,得到不少于一个分团基准以及分团基准对应的分团簇;结合分团基准及分团基准对应的分团簇,确定待挖掘云数据会话文本对应的不少于一个原始异常文本单元。
比如,在利用深度卷积神经网络进行单元化处理时,可以首先使用一组知识抽取层提取待挖掘云数据会话文本的原始文本知识关系网(文本知识图谱),再依据设定的超参锚点,在原始文本知识关系网中确定不少于一个锚点窗口基准及分团区域(分团基准以及分团基准对应的分团簇),再对锚点区域进行处理(比如线性回归),得到原始异常文本单元。
或者,还可以利用Transformer模型进行单元化处理,提取待挖掘云数据会话文本的原始文本知识关系网,使用K均值聚类规则对原始文本知识关系网中的知识成员进行分团,依据分团结果确定超参锚点,依据超参锚点确定分团簇,对分团簇进行处理,得到原始异常文本单元。
其中,鉴于文本单元化的技术更偏向异常文本单元的捕捉追踪,可以很好确保识别得到的异常文本单元对应的疑似风险会话事件的文本表征内容(换言之,确保文本表征内容的完整性),规避了异常文本单元出现内容缺失或者错误等问题。
在一些示例性设计思路下,文本单元化可以通过AI算法实现,步骤201之前可以包括:获取文本单元化算法。相应地,步骤“针对待挖掘云数据会话文本进行单元化处理,得到待挖掘云数据会话文本对应的不少于一个原始异常文本单元”可以包括:通过文本单元化算法的知识抽取配置参量对待挖掘云数据会话文本进行知识抽取,生成待挖掘云数据会话文本对应的原始知识关系网;依据文本单元化算法的异常判别配置参量,对原始知识关系网中的原始知识成员进行异常判别,得到待挖掘云数据会话文本对应的不少于一个原始异常文本单元。
其中,文本知识图谱,又可以理解为基于专家系统的知识特征图,指的是由待挖掘云数据会话文本的知识成员(文本特征)形成的集合。原始知识关系网的个数可以与文本单元化算法中知识抽取层的个数有关,比如有3个知识抽取层就可以产生3个原始知识关系网,或者,也可以对3个知识抽取层的输出进行知识拼接,得到知识抽取层整体对应的一个原始知识关系网等。
其中,知识抽取配置参量包含:文本单元化算法中知识抽取层的层数、动态滤波算子(卷积核)的大小、动态滤波层的通道数等。异常判别配置参量包含判别标签数、特征迁移变量等。
比如,为了确保文本单元化算法的准确性,在文本单元化算法应用之前,会对文本单元化算法进行调试,示例性的调试方案请参阅之后的相关内容。
步骤202、在待挖掘云数据会话文本中,依据原始异常文本单元挑选各原始异常文本单元对应的待处理异常会话文本集。
示例性的,可以依据单元挑选变量从待挖掘云数据会话文本中挑选各原始异常文本单元对应的待处理异常会话文本集,步骤202包括:在待挖掘云数据会话文本中,确定各原始异常文本单元的分布(各原始异常文本单元的位置);依据各原始异常文本单元的分布以及单元挑选变量,挑选各原始异常文本单元对应的待处理异常会话文本集。
其中,单元挑选变量可以是一个示例性的量化值,比如,单元挑选变量可以是8,表示以原始异常文本单元为窗口基准,挑选一个8*8的第一窗口;或者,单元挑选变量可以是一个数组,比如,单元挑选变量可以是(8,10),表示以挑选一个8*10的第二窗口等。
其中,单元挑选变量的设置可以灵活进行,在此不做限制。
其中,文本单元化方法更偏向异常文本单元的捕捉追踪,而不管输入文本中的疑似风险会话事件是不是欲识别的事件。换言之,在文本单元化方法难以输出当前文本文本的确定性参数时,所识别到的异常文本单元可能存在误差。
基于此,可以对待挖掘云数据会话文本中的疑似风险会话事件进行事件初筛,确定疑似风险会话事件是否与选定事件匹配。换言之,步骤“在待挖掘云数据会话文本中,依据原始异常文本单元挑选各原始异常文本单元对应的待处理异常会话文本集”之前,本申请实施例还可以包括对疑似风险会话事件进行判断的步骤:对疑似风险会话事件进行事件标签判别,得到疑似风险会话事件对应的事件标签判别结果;结合事件标签判别结果,确定疑似风险会话事件与设定的风险会话参考事件之间的共性度量值(相似度);当共性度量值大于设定的共性度量阈值时,执行在待挖掘云数据会话文本中,依据原始异常文本单元挑选各原始异常文本单元对应的待处理异常会话文本集的步骤。
其中,事件标签判别结果可以直接是疑似风险会话事件所属的事件类别,比如疑似风险会话事件属于第一类别(网络诈骗事件)、第二类别(信息窃取事件),或者,事件标签判别结果也可以是疑似风险会话事件的敏感词判别结果等。
对应的,当事件标签判别结果是事件类别时,可以将该事件类别与设定的风险会话参考事件的类别进行比较,如果类别相同输出共性度量值为1,类别不同输出共性度量值为0;或者,也可以将该事件类别的类别描述特征(比如信息窃取事件的全局特征)与风险会话参考事件的目标类别描述特征(比如网络诈骗事件的全局特征)进行比较,得到类别描述特征与目标类别描述特征之间的共性度量值,作为疑似风险会话事件与风险会话参考事件之间的共性度量值。
或者,当事件标签判别结果是疑似风险会话事件的敏感词判别结果时,可以将该敏感词判别结果与风险会话参考事件之间的选定敏感词判别结果(期望敏感词判别结果)进行共性度量值确定,得到疑似风险会话事件与风险会话参考事件之间的共性度量值。
比如,实际的待挖掘云数据会话文本中,疑似风险会话事件可能会存在噪声,此时,可以将疑似风险会话事件进行拆解,将拆解得到的阶段会话事件与风险会话参考事件中对应的阶段会话事件进行共性度量值比较。
在实际操作时,对疑似风险会话事件进行判断的步骤可以与针对待挖掘云数据会话文本进行单元化处理同步实现。
在一些示例性设计思路下,对疑似风险会话事件进行判断的步骤可以通过AI算法实现。可见,拟调试的文本单元化算法中可以包括拟调试的事件解析子网,云数据会话训练文本注释有云数据会话训练文本中的真实异常文本单元、和疑似风险会话训练事件与设定的风险会话参考训练事件之间的真实共性度量值;通过事件解析子网对疑似风险会话事件进行判断的步骤示例性可以包括:通过事件解析子网对待挖掘云数据会话文本中的疑似风险会话事件进行事件解析,得到疑似风险会话事件与设定的风险会话参考事件之间的共性度量值。
在调试过程中,可以通过拟调试的事件解析子网对云数据会话训练文本中的疑似风险会话训练事件进行事件解析,得到疑似风险会话训练事件与设定的风险会话参考训练事件之间的调试共性度量值;
在此基础上,拟调试的文本单元化算法的算法学习代价,可以通过如下步骤确定得到:依据真实异常文本单元和调试原始异常文本单元,确定第一异常文本单元识别代价;依据调试共性度量值和真实共性度量值,确定事件解析代价;结合第一异常文本单元识别代价和事件解析代价,得到拟调试的文本单元化算法对应的第一训练代价。
其中,拟调试的文本单元化算法除了拟调试的事件解析子网,还可以包括拟调试的文本单元定位组件,通过拟调试的文本单元定位组件,可以获得调试原始异常文本单元。
比如,在得到第一训练代价(拟调试的文本单元化算法的算法学习代价)后,可以直接对拟调试的文本单元化算法进行优化,或者,也可以在得到拟调试的异常文本单元识别算法的第二训练代价后,结合第一训练代价和第二训练代价,对拟调试的文本单元化算法和拟调试的异常文本单元识别算法做协同优化。
步骤203、对各待处理异常会话文本集进行知识抽取,得到各待处理异常会话文本集对应的异常语义知识关系网。
在实际操作时,对文本通过知识抽取得到的文本知识图谱一般是由不连续的知识成员组成的,步骤203示例性可以包括:对各待处理异常会话文本集进行知识抽取,得到各待处理异常会话文本集对应的量化知识关系网作为异常语义知识关系网,异常语义知识关系网中包括不少于一个量化知识成员;
然而,对不连续的文本知识图谱进行拆解后,直接对每个局部知识图谱进行AI编码操作时,由于局部知识图谱的分布可能存在小数,这样在进行处理事可能会积累运算偏移。因此,可以将不连续的文本知识图谱调整成连续的文本知识图谱,可以改善这一缺陷。适应性的,步骤“将各异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各局部知识关系网进行AI编码操作,得到各局部知识关系网的会话语义”,包括:依据异常语义知识关系网中的量化知识成员,对异常语义知识关系网进行关系网拆解,得到异常语义知识关系网对应的局部量化知识关系网,局部量化知识关系网中包括不少于一个量化知识成员;依据各局部量化知识关系网中的量化知识成员、设定的扩展因子以及量化知识成员对应的置信分值,对各局部量化知识关系网进行扩展操作,得到各异常语义知识关系网对应的局部知识关系网;对各局部知识关系网进行AI编码操作,得到各局部知识关系网的会话语义。
对于一些示例性思路而言,可以在得到局部知识关系网后,直接对局部知识关系网进行AI编码操作,或者,也可以在得到连续的局部知识关系网后,对局部知识关系网继续进行拆解,对拆解出的部分关系网进行AI编码操作等。
其中,对局部量化知识关系网进行扩展操作可以通过插值处理实现。
在一些示例性设计思路下,可以采用特征关注强化模型(比如注意力网络)对各待处理异常会话文本集进行知识抽取,得到各待处理异常会话文本集中对应的各会话文本子集的上下文影响系数,例如,示例性的提取过程可以为将待处理异常会话文本集的会话文本子集调整成第一知识关系网,然后,将该第一知识关系网作为会话文本子集簇中每一会话文本子集的上下文影响系数。
换言之,步骤“对各待处理异常会话文本集进行知识抽取,得到各待处理异常会话文本集对应的量化知识关系网作为异常语义知识关系网”,可以包括:将各待处理异常会话文本集拆解成会话文本子集,得到每个待处理异常会话文本集对应的会话文本子集簇;对各会话文本子集簇中的会话文本子集进行知识抽取,得到各会话文本子集对应的第一知识关系网;依据第一知识关系网,确定各待处理异常会话文本集的第二知识关系网;依据各第二知识关系网确定每个会话文本子集簇中各会话文本子集对应的上下文影响系数,上下文影响系数用于指示每个待处理异常会话文本集对应的会话文本子集簇中的会话文本子集之间的上下文联系;结合上下文影响系数,对各第二知识关系网进行强化处理,得到各待处理异常会话文本集对应的量化知识关系网。
其中,会话文本子集是对待处理异常会话文本集进行文本集拆解后得到的子集,示例性的文本集拆解策略可以由本领域技术人员依据实际需求调整,比如以一定大小的文本框对待处理异常会话文本集进行拆解,或者,将待处理异常会话文本集拆解成固定个数的会话文本子集等。
其中,第二知识关系网可以通过由第一知识关系网直接进行知识特征组合得到,或者,第二知识关系网可以通过对第一知识关系网进行强化处理(加权处理)。
比如,可以采用特征关注强化模型对第二知识关系网调整成连接特征(查询特征)、请求特征(键特征)和应答特征(值特征),比如,具体可以采用注意力模型将第二知识关系网分别与多个维度的映射变量进行聚合,得到连接特征(查询特征)、请求特征(键特征)和应答特征(值特征),将连接特征(查询特征)、请求特征(键特征)和应答特征(值特征)作为会话文本子集簇中的会话文本子集的上下文影响系数。
步骤204、将各异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各局部知识关系网进行AI编码操作,得到各局部知识关系网的会话语义。
示例性的,可以确定局部知识关系网中总的知识描述变量与局部知识关系网对应关系网大小作为各局部知识关系网的会话语义,换言之,步骤“对各局部知识关系网进行AI编码操作,得到各局部知识关系网的会话语义”,可以包括:依据各局部知识关系网,确定各局部知识关系网对应的异常会话文本块在待挖掘云数据会话文本中的分布;结合各异常会话文本块的分布,对每个异常语义知识关系网对应的各局部知识关系网进行平均化,确定出各局部知识关系网对应的知识描述平均变量作为各局部知识关系网的会话语义。
对于一些示例性思路而言,目标异常文本单元的确定可以通过AI算法实现,步骤“对各待处理异常会话文本集进行知识抽取,得到各待处理异常会话文本集对应的异常语义知识关系网”之前,方法还包括:获取异常文本单元识别算法。适应性的,步骤203-步骤205可以借助异常文本单元识别算法实现,示例性可以包括:通过异常文本单元识别算法的关系网生成配置参量,提取各待处理异常会话文本集对应的异常语义知识关系网;依据异常文本单元识别算法的拆解配置参量,对各异常语义知识关系网进行拆解,得到各异常语义知识关系网对应的不少于一个局部知识关系网;通过异常文本单元识别算法的AI编码操作配置参量对各局部知识关系网进行AI编码操作,生成各局部知识关系网的会话语义;结合各局部知识关系网的会话语义以及异常文本单元识别算法的异常单元识别配置参量,确定各待处理异常会话文本集中疑似风险会话事件对应的目标异常文本单元。
其中,关系网生成配置参量包含:异常文本单元识别算法中知识抽取层的层数、动态滤波算子的大小、动态滤波层的通道数等。拆解配置参量包含拆解个数、拆解尺寸等。AI编码操作配置参量包含平均化公式、不同文本(子)集的运算系数等。
比如,为了确保异常文本单元识别算法的质量,在异常文本单元识别算法在应用前会进行调试。
步骤205、结合各局部知识关系网的会话语义,确定各待处理异常会话文本集中疑似风险会话事件对应的目标异常文本单元。
对于一些示例而言,为了确保最后所得的目标异常文本单元的可信度,可以在确定目标异常文本单元前,对各局部知识关系网中提取出的备选异常文本单元进行确定性参数(置信度或者可信系数)核对。基于此,步骤205示例性可以包括:结合各局部知识关系网的会话语义,确定各待处理异常会话文本集中疑似风险会话事件对应的不少于一个备选异常文本单元;对各原始异常文本单元对应的待处理异常会话文本集进行概率特征编码,得到各待处理异常会话文本集对应的概率特征图;依据各概率特征图以及各备选异常文本单元,确定各备选异常文本单元的确定性参数;若确定性参数大于设定的确定性阈值,则将备选异常文本单元作为疑似风险会话事件对应的目标异常文本单元。
其中,概率特征编码具体可以是将待处理异常会话文本集处理为一维的概率特征图(正态分布图),依据概率特征图可以确定出待处理异常会话文本集内各文本单元的确定性参数。
对于一些示例性思路而言,确定性参数核对的步骤可以通过AI算法的模型实现。可见,拟调试的异常文本单元识别算法包括拟调试的确定性推算子网,云数据会话训练文本注释有真实异常文本单元、各指定知识成员对应的真实确定性参数,指定知识成员通过对云数据会话训练文本对应的局部知识关系网进行异常文本单元提取得到;确定性参数核对的步骤示例性可以包括:通过拟调试的确定性推算子网对调试目标异常文本单元进行确定性参数确定,得到各调试目标异常文本单元对应的调试确定性参数;在此基础上,拟调试的异常文本单元识别算法的算法学习代价的确定过程,示例性可以包括以下步骤:依据真实异常文本单元和调试目标异常文本单元,确定拟调试的异常文本单元识别算法对应的第二异常文本单元识别代价;依据各调试目标异常文本单元对应的调试确定性参数和真实确定性参数,确定拟调试的异常文本单元识别算法对应的确定性参数识别代价;结合第二异常文本单元识别代价和确定性参数识别代价,得到拟调试的异常文本单元识别算法对应的第二训练代价。
其中,拟调试的文本单元化算法除了拟调试的事件解析子网,还可以包括拟调试的文本单元定位组件,通过拟调试的文本单元定位组件,可以获得调试原始异常文本单元。
比如,在得到第一训练代价(拟调试的文本单元化算法的算法学习代价)后,可以直接对拟调试的异常文本单元识别算法进行优化,或者,也可以在得到拟调试的文本单元化算法的第一训练代价后,结合第一训练代价和第二训练代价,对拟调试的文本单元化算法和拟调试的异常文本单元识别算法做协同优化。
对于一些示例性思路而言,对拟调试的文本单元化算法和拟调试的异常文本单元识别算法做联合调试的步骤,示例性可以包括:获取拟调试的文本单元化算法、拟调试的异常文本单元识别算法以及云数据会话训练文本,云数据会话训练文本注释有真实异常文本单元;通过拟调试的文本单元化算法对待挖掘云数据会话文本进行原始异常文本单元提取,得到云数据会话训练文本对应的不少于一个调试原始异常文本单元;在云数据会话训练文本中,依据调试原始异常文本单元,挑选各调试原始异常文本单元对应的调试待处理异常会话文本集;通过拟调试的异常文本单元识别算法对各调试待处理异常会话文本集进行目标异常文本单元提取,从各调试待处理异常会话文本集中确定待挖掘云数据会话文本对应的调试目标异常文本单元;结合真实异常文本单元、调试原始异常文本单元和调试目标异常文本单元,确定拟调试的文本单元化算法和拟调试的异常文本单元识别算法的协同训练代价;依据协同训练代价,对拟调试的文本单元化算法和拟调试的异常文本单元识别算法进行优化,得到调试后的文本单元化算法和调试后的异常文本单元识别算法。
其中,协同训练代价可以是对第一训练代价和第二训练代价进行强化处理得到,或者,也可以是将第一训练代价和第二训练代价进行求和得到等。
对于一些示例性思路而言,待挖掘云数据会话文本为待处理会话日志中的日志文本,疑似风险会话事件为待处理会话日志的网络欺诈事件,待处理会话日志中包含至少两个日志文本;步骤“结合各局部知识关系网的会话语义,确定各待处理异常会话文本集中疑似风险会话事件对应的目标异常文本单元”之后,本申请实施例还可以包括:从待处理会话日志中获取与待挖掘云数据会话文本关联的日志文本作为新的待挖掘云数据会话文本,跳转到实施针对待挖掘云数据会话文本进行单元化处理,得到待挖掘云数据会话文本对应的不少于一个原始异常文本单元的步骤,直到确定新的待挖掘云数据会话文本中疑似风险会话事件对应的目标异常文本单元;依据前一待挖掘云数据会话文本中疑似风险会话事件对应的目标异常文本单元与新的待挖掘云数据会话文本中疑似风险会话事件对应的目标异常文本单元,确定待处理会话日志中的网络欺诈事件的发展趋势。
在实际操作时,上述思路可以很好的实现异常文本单元的识别和持续监测处理,且运算要求不高,可以提高异常数据挖掘的灵活性和可扩展性。
应用本申请实施例,可以针对待挖掘云数据会话文本进行单元化处理,得到该待挖掘云数据会话文本对应的不少于一个原始异常文本单元,该待挖掘云数据会话文本中包括疑似风险会话事件,在该待挖掘云数据会话文本中,依据该原始异常文本单元挑选各该原始异常文本单元对应的待处理异常会话文本集,对各该待处理异常会话文本集进行知识抽取,得到各该待处理异常会话文本集对应的异常语义知识关系网,将各该异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各该局部知识关系网进行AI编码操作,得到各该局部知识关系网的会话语义,结合各该局部知识关系网的会话语义,确定各该待处理异常会话文本集中该疑似风险会话事件对应的目标异常文本单元;鉴于本申请实施例将单元化处理作为预处理步骤,可以获得确保疑似风险会话事件的文本表征内容的原始异常文本单元,依据原始异常文本单元可以进一步地实现异常文本单元的精筛,且单元化处理的预处理步骤能够有效减少AI大数据挖掘服务器的负载压力,可见,一方面可以确保异常文本单元的识别准确性和可信度,另一方面还可以提高异常文本单元的识别时效性并减少服务器负载,避免针对疑似风险会话事件的异常文本单元确定影响到其他任务进程的正常实施。
本发明实施例的另一基于云数据和人工智能的异常数据挖掘方法可以包括如下内容。
步骤301、AI大数据挖掘服务器获取待挖掘云数据会话文本,针对待挖掘云数据会话文本进行单元化处理,得到待挖掘云数据会话文本对应的不少于一个原始异常文本单元。
其中,获取待挖掘云数据会话文本的思路可以有多种,比如,可以直接接收云服务系统上传的待挖掘云数据会话文本,或者,从云服务系统上传的会话日志中提取出至少一个日志文本作为待挖掘云数据会话文本,或者,接收云服务系统发送的异常文本单元识别请求,该异常文本单元识别请求携带待挖掘云数据会话文本的调用路径,依据调用路径获取待挖掘云数据会话文本等。
对于一些示例性思路而言,AI大数据挖掘服务器可以将获取到的会话文本进行适应性的拆分,仅留下疑似风险会话事件涉及的文本集(通常涉及的文本集具有一定冗余噪声,以确保疑似风险会话事件的完整性)作为待挖掘云数据会话文本。
步骤302、AI大数据挖掘服务器通过文本单元化算法对待挖掘云数据会话文本进行原始异常文本单元提取,得到待挖掘云数据会话文本对应的不少于一个原始异常文本单元。
在实际操作时,文本单元化算法中可以包括文本单元定位组件和事件解析子网。文本单元定位组件可以由不少于一个动态滤波层构成,输出待挖掘云数据会话文本中异常文本单元的定位标签。
步骤303、AI大数据挖掘服务器通过事件解析子网对待挖掘云数据会话文本中的疑似风险会话事件进行事件解析,得到疑似风险会话事件与设定的风险会话参考事件之间的共性度量值。
通过事件解析子网,可以输出对疑似风险会话事件的解析评分(共性度量值),即判断当前文本是不是符合要求的文本,比如疑似风险会话事件是不是网络诈骗事件或者信息窃取事件,依据对应的解析评分给出一个评分。
步骤304、AI大数据挖掘服务器当共性度量值大于设定的共性度量阈值时,在待挖掘云数据会话文本中,依据原始异常文本单元挑选各原始异常文本单元对应的待处理异常会话文本集。
其中,共性度量阈值可以由本领域技术人员事先设置,比如可以是解析评分或者共性度量值,比如,共性度量阈值可以是99(解析评分)或者95%(共性度量值)等。
示例性的,可以依据单元挑选变量从待挖掘云数据会话文本中挑选各原始异常文本单元对应的待处理异常会话文本集,步骤202包括:在待挖掘云数据会话文本中,确定各原始异常文本单元的分布;依据各原始异常文本单元的分布以及单元挑选变量,挑选各原始异常文本单元对应的待处理异常会话文本集。
本发明实施例中,单元挑选变量可以是一个示例性的量化值,比如,单元挑选变量可以是8,表示以原始异常文本单元为窗口基准,挑选一个8*8的第一窗口;或者,单元挑选变量可以是一个数组,比如,单元挑选变量可以是(8,20),表示挑选一个8*20的第二窗口等。
步骤305、AI大数据挖掘服务器通过异常文本单元识别算法的关系网生成配置参量,提取各待处理异常会话文本集对应的异常语义知识关系网。
在实际操作时,对文本通过知识抽取得到的文本知识图谱一般是由不连续的知识成员组成的,异常语义知识关系网中包括不少于一个量化知识成员。
比如,AI大数据挖掘服务器可以采用异常文本单元识别算法对待处理异常会话文本集进行多个维度的知识抽取,得到多个维度的局部语义向量,然后,将局部语义向量进行融合,得到待处理异常会话文本集的全局语义向量作为异常语义知识关系网。
步骤306、AI大数据挖掘服务器依据异常文本单元识别算法的拆解配置参量,对各异常语义知识关系网进行拆解,得到各异常语义知识关系网对应的不少于一个局部知识关系网。
拆解配置参量包含拆解个数、拆解规模等。
比如,为了确保异常文本单元识别算法的准确性,异常文本单元识别算法在应用前,需进行进行调试。
步骤307、AI大数据挖掘服务器通过异常文本单元识别算法的AI编码操作配置参量对各局部知识关系网进行AI编码操作,生成各局部知识关系网的会话语义。
示例性的,可以结合各异常会话文本块的分布,对每个异常语义知识关系网对应的各局部知识关系网进行平均化,确定出各局部知识关系网对应的知识描述平均变量作为各局部知识关系网的会话语义。
步骤308、AI大数据挖掘服务器结合各局部知识关系网的会话语义以及异常文本单元识别算法的异常单元识别配置参量,确定各待处理异常会话文本集中疑似风险会话事件对应的备选异常文本单元。
示例性的,可以是将知识描述变量最大的局部知识关系网作为备选异常文本单元。其中,异常文本单元可以用文本中的定位标签或者定位标签集合来进行表征。
步骤309、AI大数据挖掘服务器通过确定性推算子网确定各备选异常文本单元的确定性参数,若确定性参数大于设定的确定性阈值,则将备选异常文本单元作为疑似风险会话事件对应的目标异常文本单元。
示例性的,可以对各原始异常文本单元对应的待处理异常会话文本集进行概率特征编码,得到各待处理异常会话文本集对应的概率特征图;依据各概率特征图以及各备选异常文本单元,确定各备选异常文本单元的确定性参数。
对于一些示例而言,为了确保最后所得的目标异常文本单元的可信度,可以在确定目标异常文本单元前,对各局部知识关系网中提取出的备选异常文本单元进行确定性参数核对。
本申请实施例一方面可以确保异常文本单元的识别准确性和可信度,另一方面还可以提高异常文本单元的识别时效性并减少AI大数据挖掘服务器负载,避免针对疑似风险会话事件的异常文本单元确定影响到其他任务进程的正常实施。
本发明实施例还提供了一种用于实现基于云数据和人工智能的异常数据挖掘方法的软件产品,包括计算机程序/指令,其中,当所述计算机程序/指令被执行时,实现执行上述的方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行上述的方法。
综上,AI大数据挖掘服务器在人工智能专家系统的基础上引入单元化处理,能够有效减少AI大数据挖掘服务器的负载压力,一方面可以确保异常数据挖掘的精度和可信度,另一方面还可以提高异常数据挖掘的时效性并保障其他任务进程的正常运行,该异常数据挖掘技术可以适用于元宇宙服务、电子商务、数字办公、远程教育、智慧医疗等应用场景。
以上所述,仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式,可想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于云数据和人工智能的异常数据挖掘方法,其特征在于,应用于AI大数据挖掘服务器,所述方法包括:
针对待挖掘云数据会话文本进行单元化处理,得到所述待挖掘云数据会话文本对应的不少于一个原始异常文本单元,所述待挖掘云数据会话文本中包括疑似风险会话事件;
在所述待挖掘云数据会话文本中,依据所述原始异常文本单元挑选各所述原始异常文本单元对应的待处理异常会话文本集;
对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的异常语义知识关系网;
将各所述异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义;
结合各所述局部知识关系网的会话语义,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的目标异常文本单元。
2.如权利要求1所述的方法,其特征在于,所述在所述待挖掘云数据会话文本中,依据所述原始异常文本单元挑选各所述原始异常文本单元对应的待处理异常会话文本集之前,所述方法还包括:
对所述疑似风险会话事件进行事件标签判别,得到所述疑似风险会话事件对应的事件标签判别结果;
结合所述事件标签判别结果,确定所述疑似风险会话事件与设定的风险会话参考事件之间的共性度量值;
当所述共性度量值大于设定的共性度量阈值时,实施所述在所述待挖掘云数据会话文本中,依据所述原始异常文本单元挑选各所述原始异常文本单元对应的待处理异常会话文本集的步骤。
3.如权利要求1所述的方法,其特征在于,所述对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的异常语义知识关系网,包括:
对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的量化知识关系网作为异常语义知识关系网,所述异常语义知识关系网中包括不少于一个量化知识成员;
所述将各所述异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义,包括:
依据所述异常语义知识关系网中的量化知识成员,对所述异常语义知识关系网进行关系网拆解,得到所述异常语义知识关系网对应的局部量化知识关系网,所述局部量化知识关系网中包括不少于一个量化知识成员;
依据各所述局部量化知识关系网中的所述量化知识成员、设定的扩展因子以及所述量化知识成员对应的置信分值,对各所述局部量化知识关系网进行扩展操作,得到各所述异常语义知识关系网对应的局部知识关系网;
对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义。
4.如权利要求1所述的方法,其特征在于,所述对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义,包括:
依据各所述局部知识关系网,确定各所述局部知识关系网对应的异常会话文本块在所述待挖掘云数据会话文本中的分布;
结合各所述异常会话文本块的分布,对每个异常语义知识关系网对应的各所述局部知识关系网进行平均化,确定出各所述局部知识关系网对应的知识描述平均变量作为各所述局部知识关系网的会话语义。
5.如权利要求1-4任一项所述的方法,其特征在于,所述结合各所述局部知识关系网的会话语义,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的目标异常文本单元,包括:
结合各所述局部知识关系网的会话语义,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的不少于一个备选异常文本单元;
对各所述原始异常文本单元对应的待处理异常会话文本集进行概率特征编码,得到各所述待处理异常会话文本集对应的概率特征图;
依据各所述概率特征图以及各所述备选异常文本单元,确定各所述备选异常文本单元的确定性参数;
如果所述确定性参数大于设定的确定性阈值,则将所述备选异常文本单元作为所述疑似风险会话事件对应的目标异常文本单元。
6.如权利要求1所述的方法,其特征在于,所述针对所述待挖掘云数据会话文本进行单元化处理,得到所述待挖掘云数据会话文本对应的不少于一个原始异常文本单元之前,所述方法还包括:获取文本单元化算法;
所述针对所述待挖掘云数据会话文本进行单元化处理,得到所述待挖掘云数据会话文本对应的不少于一个原始异常文本单元,包括:
通过所述文本单元化算法的知识抽取配置参量对所述待挖掘云数据会话文本进行知识抽取,生成所述待挖掘云数据会话文本对应的原始知识关系网;
依据所述文本单元化算法的异常判别配置参量,对所述原始知识关系网中的原始知识成员进行异常判别,得到所述待挖掘云数据会话文本对应的不少于一个原始异常文本单元。
7.如权利要求6所述的方法,其特征在于,所述对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的异常语义知识关系网之前,所述方法还包括:获取异常文本单元识别算法;
所述对各所述待处理异常会话文本集进行知识抽取,得到各所述待处理异常会话文本集对应的异常语义知识关系网,包括:通过所述异常文本单元识别算法的关系网生成配置参量,提取各所述待处理异常会话文本集对应的异常语义知识关系网;
所述将各所述异常语义知识关系网分别拆解成不少于一个局部知识关系网,对各所述局部知识关系网进行AI编码操作,得到各所述局部知识关系网的会话语义,包括:依据所述异常文本单元识别算法的拆解配置参量,对各所述异常语义知识关系网进行拆解,得到各所述异常语义知识关系网对应的不少于一个局部知识关系网;通过所述异常文本单元识别算法的AI编码操作配置参量对各所述局部知识关系网进行AI编码操作,生成各所述局部知识关系网的会话语义;
所述结合各所述局部知识关系网的会话语义,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的目标异常文本单元,包括:结合各所述局部知识关系网的会话语义以及所述异常文本单元识别算法的异常单元识别配置参量,确定各所述待处理异常会话文本集中所述疑似风险会话事件对应的目标异常文本单元。
8.如权利要求7所述的方法,其特征在于,所述针对待挖掘云数据会话文本进行单元化处理之前,所述方法还包括:
获取拟调试的文本单元化算法、拟调试的异常文本单元识别算法以及云数据会话训练文本,所述云数据会话训练文本注释有真实异常文本单元;
通过所述拟调试的文本单元化算法对所述待挖掘云数据会话文本进行原始异常文本单元提取,得到所述云数据会话训练文本对应的不少于一个调试原始异常文本单元;
在所述云数据会话训练文本中,依据所述调试原始异常文本单元,挑选各所述调试原始异常文本单元对应的调试待处理异常会话文本集;
通过所述拟调试的异常文本单元识别算法对各所述调试待处理异常会话文本集进行目标异常文本单元提取,从各所述调试待处理异常会话文本集中确定所述待挖掘云数据会话文本对应的调试目标异常文本单元;
结合所述真实异常文本单元、所述调试原始异常文本单元和所述调试目标异常文本单元,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价;
依据所述协同训练代价,对所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法进行优化,得到调试后的文本单元化算法和调试后的异常文本单元识别算法;
其中,所述拟调试的文本单元化算法包括拟调试的事件解析子网,所述云数据会话训练文本注释有所述云数据会话训练文本中疑似风险会话训练事件与设定的风险会话参考训练事件之间的真实共性度量值;
所述依据所述真实异常文本单元、所述调试原始异常文本单元和所述调试目标异常文本单元,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价之前,所述方法还包括:通过所述拟调试的事件解析子网对所述云数据会话训练文本中的疑似风险会话训练事件进行事件解析,得到所述疑似风险会话训练事件与设定的风险会话参考训练事件之间的调试共性度量值;
所述结合所述真实异常文本单元、所述调试原始异常文本单元和所述调试目标异常文本单元,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价,包括:
依据所述真实异常文本单元和所述调试原始异常文本单元,确定第一异常文本单元识别代价;
依据所述调试共性度量值和所述真实共性度量值,确定事件解析代价;
结合所述第一异常文本单元识别代价和所述事件解析代价,得到所述拟调试的文本单元化算法对应的第一训练代价;
结合所述真实异常文本单元和所述调试目标异常文本单元,确定所述拟调试的异常文本单元识别算法对应的第二训练代价;
依据所述第一训练代价和所述第二训练代价,确定所述拟调试的文本单元化算法和所述拟调试的异常文本单元识别算法的协同训练代价。
9.一种用于实现基于云数据和人工智能的异常数据挖掘方法的软件产品,其特征在于,包括计算机程序/指令,其中,当所述计算机程序/指令被执行时,实现执行如权利要求1-8中一个或多个所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时如权利要求1-8中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501913.0A CN116414948A (zh) | 2023-05-06 | 2023-05-06 | 基于云数据和人工智能的异常数据挖掘方法及软件产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501913.0A CN116414948A (zh) | 2023-05-06 | 2023-05-06 | 基于云数据和人工智能的异常数据挖掘方法及软件产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116414948A true CN116414948A (zh) | 2023-07-11 |
Family
ID=87049490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310501913.0A Withdrawn CN116414948A (zh) | 2023-05-06 | 2023-05-06 | 基于云数据和人工智能的异常数据挖掘方法及软件产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116414948A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860312A (zh) * | 2023-09-05 | 2023-10-10 | 成都智慧锦城大数据有限公司 | 一种程序异常文本信息维护方法、装置及存储介质 |
CN117112605A (zh) * | 2023-09-13 | 2023-11-24 | 甘肃松鼠教育科技有限公司 | 应用于可视化数据库的交互行为大数据挖掘方法及系统 |
CN117149996A (zh) * | 2023-09-19 | 2023-12-01 | 武汉腾翔越科技有限公司 | 面向人工智能应用的人机界面数字会话挖掘方法及ai系统 |
CN117149988A (zh) * | 2023-11-01 | 2023-12-01 | 广州市威士丹利智能科技有限公司 | 基于教育数字化的数据管理处理方法及系统 |
CN117370818A (zh) * | 2023-12-05 | 2024-01-09 | 四川发展环境科学技术研究院有限公司 | 基于人工智能的供排水管网智能诊断方法及智慧环保系统 |
-
2023
- 2023-05-06 CN CN202310501913.0A patent/CN116414948A/zh not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860312A (zh) * | 2023-09-05 | 2023-10-10 | 成都智慧锦城大数据有限公司 | 一种程序异常文本信息维护方法、装置及存储介质 |
CN116860312B (zh) * | 2023-09-05 | 2023-11-07 | 成都智慧锦城大数据有限公司 | 一种程序异常文本信息维护方法、装置及存储介质 |
CN117112605A (zh) * | 2023-09-13 | 2023-11-24 | 甘肃松鼠教育科技有限公司 | 应用于可视化数据库的交互行为大数据挖掘方法及系统 |
CN117149996A (zh) * | 2023-09-19 | 2023-12-01 | 武汉腾翔越科技有限公司 | 面向人工智能应用的人机界面数字会话挖掘方法及ai系统 |
CN117149988A (zh) * | 2023-11-01 | 2023-12-01 | 广州市威士丹利智能科技有限公司 | 基于教育数字化的数据管理处理方法及系统 |
CN117149988B (zh) * | 2023-11-01 | 2024-02-27 | 广州市威士丹利智能科技有限公司 | 基于教育数字化的数据管理处理方法及系统 |
CN117370818A (zh) * | 2023-12-05 | 2024-01-09 | 四川发展环境科学技术研究院有限公司 | 基于人工智能的供排水管网智能诊断方法及智慧环保系统 |
CN117370818B (zh) * | 2023-12-05 | 2024-02-09 | 四川发展环境科学技术研究院有限公司 | 基于人工智能的供排水管网智能诊断方法及智慧环保系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116414948A (zh) | 基于云数据和人工智能的异常数据挖掘方法及软件产品 | |
CN114064487B (zh) | 一种代码缺陷检测方法 | |
CN114564726B (zh) | 一种基于大数据办公的软件漏洞分析方法及系统 | |
CN111881164B (zh) | 基于边缘计算和路径分析的数据处理方法及大数据云平台 | |
CN113687972A (zh) | 业务系统异常数据的处理方法、装置、设备及存储介质 | |
CN116362261A (zh) | 应对数字化服务项目的用户会话信息解析方法及软件产品 | |
CN115174231A (zh) | 一种基于AI Knowledge Base的网络欺诈分析方法及服务器 | |
WO2022053163A1 (en) | Distributed trace anomaly detection with self-attention based deep learning | |
CN113722719A (zh) | 针对安全拦截大数据分析的信息生成方法及人工智能系统 | |
CN114417405B (zh) | 一种基于人工智能的隐私业务数据分析方法及服务器 | |
CN115170027A (zh) | 数据分析方法、装置、设备及存储介质 | |
CN114416479A (zh) | 一种基于流外正则化的日志序列异常检测方法 | |
CN113886443A (zh) | 日志的处理方法、装置、计算机设备及存储介质 | |
CN118014129A (zh) | 故障预测模型获取方法和故障预测方法、装置和设备 | |
CN117632659A (zh) | 日志异常处理方法、装置、设备及介质 | |
CN116595224B (zh) | 针对在线业务会话的大数据存储优化方法及服务器 | |
CN115328753B (zh) | 一种故障预测方法及装置、电子设备、存储介质 | |
CN116484368A (zh) | 基于数字视觉智能的云业务操作风险识别方法及软件产品 | |
CN116483978A (zh) | 基于知识可视化的线上会话大数据存储方法及软件产品 | |
CN115408693A (zh) | 一种基于自适应计算时间策略的恶意软件检测方法及系统 | |
CN114329454A (zh) | 一种基于应用软件大数据的威胁分析方法及系统 | |
No et al. | Training-free retrieval-based log anomaly detection with pre-trained language model considering token-level information | |
CN110795941A (zh) | 一种基于外部知识的命名实体识别方法、系统及电子设备 | |
CN116384370B (zh) | 一种用于在线业务会话交互的大数据安全分析方法及系统 | |
CN118484814B (zh) | 一种切片级特征驱动的软件漏洞精准检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230711 |
|
WW01 | Invention patent application withdrawn after publication |