CN116756453A - 基于页面分析用户异常、模型训练的方法、设备和介质 - Google Patents
基于页面分析用户异常、模型训练的方法、设备和介质 Download PDFInfo
- Publication number
- CN116756453A CN116756453A CN202311038458.1A CN202311038458A CN116756453A CN 116756453 A CN116756453 A CN 116756453A CN 202311038458 A CN202311038458 A CN 202311038458A CN 116756453 A CN116756453 A CN 116756453A
- Authority
- CN
- China
- Prior art keywords
- page
- user
- score
- sequence
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 title claims abstract description 31
- 230000002159 abnormal effect Effects 0.000 claims abstract description 154
- 230000005856 abnormality Effects 0.000 claims abstract description 55
- 238000011176 pooling Methods 0.000 claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 91
- 238000012545 processing Methods 0.000 claims description 42
- 238000010606 normalization Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 23
- 238000003860 storage Methods 0.000 claims description 19
- 230000009467 reduction Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000002547 anomalous effect Effects 0.000 claims 1
- 239000004973 liquid crystal related substance Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000012300 Sequence Analysis Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000010223 real-time analysis Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供了基于页面分析用户异常、模型训练的方法、设备和介质。所述方法包括:通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识;筛选用户标识相同且会话标识相同的至少两个页面数据,在字典中查询所述至少两个页面数据对应的页面代码;基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列;将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,所述分析模型包括:编码器、投影层和池化层;在所述异常分值满足预设条件的情况下,将对应用户作为异常用户;为所述异常用户提供与异常相关的信息。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于页面分析用户异常的方法、一种基于页面的模型训练方法、一种电子设备和一种存储介质。
背景技术
随着计算机技术的发展,越来越多的用户在网络上执行各种操作,例如购物、打游戏、浏览新闻等。用户可以通过浏览器访问各种页面,也可通过应用程序(Application,APP)访问页面。
但是,如果用户在访问页面中出现问题,例如无法找到想要的内容,又如页面出现问题等,通常需要用户单独联系客服,用户可以通过在线的客服页面联系客服,也可以通过电话或其他应用反馈联系客服。通过客服可以给用户提供所需的客户服务,解决相应的问题,从而提高用户体验。
但是,目前的客户服务通常都是被动式的,即需要用户主动联系客服,才能提供客户服务,使得问题无法及时得到解决。
发明内容
本申请实施例提供了一种基于页面分析用户异常的方法,以能够及时发现异常用户。
相应的,本申请实施例还提供了一种基于页面的模型训练方法、一种电子设备和一种存储介质,用以保证上述系统的实现及应用。
为了解决上述问题,本申请实施例公开了一种基于页面分析用户异常的方法,其中,所述方法包括:通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识;筛选用户标识相同且会话标识相同的至少两个页面数据,在字典中查询所述至少两个页面数据对应的页面代码;基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列;将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,所述分析模型包括:编码器、投影层和池化层;在所述异常分值满足预设条件的情况下,将对应用户作为异常用户;为所述异常用户提供与异常相关的信息。
可选的,所述分析模型对页面序列执行以下分析处理步骤:将所述页面序列输入到编码器中,输出对应的第一分值;将所述第一分值输入到投影层进行降维处理,输出对应的第二分值;
将所述第二分值输入到池化层中,输出对应的异常分值。
可选的,所述分析模型还包括:嵌入层,所述将所述页面序列输入到编码器之前,还包括:
将所述页面序列输入到所述嵌入层中,得到对应页面向量;基于所述页面序列中各页面的顺序确定位置向量;将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
可选的,所述编码器包括:注意力层、归一化层和前向传播层;所述将所述页面序列输入到编码器中,输出对应的第一分值,包括:将所述页面序列输入到注意力层,确定各页面的第三分值;将所述页面序列和第三分值输入到第一归一化层中,确定所述页面序列的第四分值;
将所述第四分值输入到所述前向传播层,确定对应的第五分值;将所述第三分值和第五分值输入到第二归一化层中,确定所述页面序列的第一分值。
可选的,所述为所述异常用户提供与异常相关的信息,包括:基于所述页面序列分析异常原因,基于所述异常原因分析建议信息;提供所述建议信息。
可选的,将所述将对应用户作为异常用户之前,还包括:获取所述用户的历史页面序列,所述历史页面序列可基于历史日志数据确定;将所述页面序列和历史页面序列进行匹配,确定相似信息;若所述相似信息不满足相似条件,则将对应用户作为异常用户。
可选的,所述为所述异常用户提供与异常相关的信息,包括:基于页面序列的特征分析异常类型,基于所述异常类型提供以下至少一种信息:提示信息、客服入口信息。
本申请实施例还公开了一种基于页面的模型训练方法,其中,所述方法包括:通过日志解析器对历史日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识;筛选用户标识相同且会话标识相同的至少两个页面数据,在字典中查询所述至少两个页面数据对应的页面代码;基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列,作为训练数据;将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,所述分析模型包括:编码器、投影层和池化层;基于损失函数对所述用户访问信息进行计算,基于计算结果调整所述分析模型,得到满足设定条件的分析模型,以对页面序列进行分析,确定用户的异常分值,并在所述异常分值满足预设条件的情况下,将对应用户作为异常用户,提供与异常相关的信息。
可选的,所述分析模型包括:编码器、投影层和池化层,所述将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,包括:将所述页面序列输入到分析模型中,通过所述编码器进行处理,输出对应的第一分值;将所述第一分值输入到投影层进行降维处理,输出对应的第二分值;将所述第二分值输入到池化层中,输出对应的异常分值,作为用户访问信息。
可选的,所述分析模型还包括:嵌入层,所述将所述页面序列输入到编码器之前,还包括:
将所述页面序列输入到所述嵌入层中,得到对应页面向量;基于所述页面序列中各页面的顺序确定位置向量;将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
可选的,所述编码器包括:注意力层、归一化层和前向传播层;所述将所述页面序列输入到编码器中,输出对应的第一分值,包括:将所述页面序列输入到注意力层,确定各页面的第三分值;将所述页面序列和第三分值输入到第一归一化层中,确定所述页面序列的第四分值;
将所述第四分值输入到所述前向传播层,确定对应的第五分值;将所述第三分值和第五分值输入到第二归一化层中,确定所述页面序列的第一分值。
本申请实施例还公开了一种基于日志的用户检测方法,所述方法包括:从日志数据中提取页面访问的日志记录;依据所述页面访问的日志记录,确定用户访问页面的页面序列;对所述页面序列进行分析,确定用户的用户访问信息;在所述用户访问信息满足预设条件的情况下,将对应用户作为异常用户;为所述异常用户提供与异常相关的信息。
可选的,所述依据所述页面访问的日志记录,确定用户访问页面的页面序列,包括:从所述页面访问的日志记录中获取访问页面的访问数据,所述访问数据包括:页面数据、用户标识、时间戳和会话标识;按照所述访问数据,生成对应用户访问页面的页面序列。
可选的,所述按照所述访问数据,生成对应用户访问页面的页面序列,包括:对所述访问数据进行分析,确定用户标识相同且会话标识相同的至少两个页面数据;将所述至少两个页面数据按照时间戳排序,生成对应的页面序列。
可选的,所述将所述至少两个页面数据按照时间戳排序,生成对应的页面序列,包括:在字典中查询所述页面数据对应的页面代码;将各页面代码按照时间戳的先后顺序进行排列,并拼接用户标识和会话标识,生成页面序列。
可选的,所述对所述页面序列进行分析,确定用户的用户访问信息,包括:将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,作为用户访问信息。
可选的,所述分析模型包括:编码器、投影层和池化层,所述分析模型对页面序列执行以下分析处理步骤:将所述页面序列输入到编码器中,输出对应的第一分值;将所述第一分值输入到投影层进行降维处理,输出对应的第二分值;将所述第二分值输入到池化层中,输出对应的异常分值。
可选的,所述分析模型还包括:嵌入层,所述将所述页面序列输入到编码器之前,还包括:将所述页面序列输入到所述嵌入层中,得到对应页面向量;基于所述页面序列中各页面的顺序确定位置向量;将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
可选的,所述编码器包括:注意力层、归一化层和前向传播层;所述将所述页面序列输入到编码器中,输出对应的第一分值,包括:将所述页面序列输入到注意力层,确定各页面的第三分值;将所述页面序列和第三分值输入到第一归一化层中,确定所述页面序列的第四分值;
将所述第四分值输入到所述前向传播层,确定对应的第五分值;将所述第三分值和第五分值输入到第二归一化层中,确定所述页面序列的第一分值。
可选的,所述为所述异常用户提供与异常相关的信息,包括:基于所述页面序列分析异常原因,基于所述异常原因分析建议信息;提供所述建议信息。
可选的,所述依据所述页面访问的日志记录,确定用户访问页面的页面序列,包括:通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识;在字典中查询页面数据对应的页面代码;基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列。
可选的,还包括:获取所述用户的历史页面序列,所述历史页面序列可基于历史日志数据确定;将所述页面序列和历史页面序列进行匹配,确定相似信息;基于所述相似信息确定是否满足预设条件。
可选的,所述为所述异常用户提供与异常相关的信息,包括:基于页面序列的特征分析异常类型,基于所述异常类型提供以下至少一种信息:提示信息、客服入口信息。
本申请实施例还提供了一种基于日志的模型训练方法,所述方法包括:基于日志数据确定训练数据,所述训练数据包括页面序列;将所述页面序列输入到分析模型中进行分析,输出所述用户的用户访问信息;基于损失函数对所述用户访问信息进行计算,基于计算结果调整所述分析模型,得到满足设定条件的分析模型,以对页面序列进行分析,确定用户的用户访问信息,并在用户访问信息满足预设条件的情况下,将对应用户作为异常用户,提供与异常相关的信息。
可选的,所述分析模型包括:编码器、投影层和池化层,所述将所述页面序列输入到分析模型中进行分析,输出所述用户的用户访问信息,包括:将所述页面序列输入到分析模型中,通过所述编码器进行处理,输出对应的第一分值;将所述第一分值输入到投影层进行降维处理,输出对应的第二分值;将所述第二分值输入到池化层中,输出对应的异常分值,作为用户访问信息。
可选的,所述分析模型还包括:嵌入层,所述通过所述编码器进行处理之前,还包括:将所述页面序列输入到所述嵌入层中,得到对应页面向量;基于所述页面序列中各页面的顺序确定位置向量;将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
可选的,所述编码器包括:注意力层、归一化层和前向传播层;所述通过所述编码器进行处理,输出对应的第一分值,包括:将所述拼接向量输入到注意力层,确定各页面的第三分值;将所述拼接向量和第三分值输入到第一归一化层中,确定所述拼接向量的第四分值;将所述第四分值输入到所述前向传播层,确定对应的第五分值;将所述第三分值和第五分值输入到第二归一化层中,确定所述拼接向量的第一分值。
可选的,基于损失函数对所述用户访问信息进行计算,基于计算结果调整所述分析模型,包括:基于交叉熵函数对所述用户访问信息计算损失信息,基于所述损失信息调整所述分析模型的参数。
可选的,所述依据所述页面访问的日志记录,确定用户访问页面的页面序列,包括:通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识;在字典中查询页面数据对应的页面代码;基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列。
可选的,所述依据所述页面访问的日志记录,确定用户访问页面的页面序列,包括:从所述页面访问的日志记录中获取访问页面的访问数据,所述访问数据包括:页面数据、用户标识、时间戳和会话标识;按照所述访问数据,生成对应用户访问页面的页面序列。
可选的,所述按照所述访问数据,生成对应用户访问页面的页面序列,包括:对所述访问数据进行分析,确定用户标识相同且会话标识相同的至少两个页面数据;将所述至少两个页面数据按照时间戳排序,生成对应的页面序列。
可选的,所述将所述页面数据按照时间戳排序,生成对应的页面序列,包括:在字典中查询所述页面数据对应的页面代码;将各页面代码按照时间戳的先后顺序进行排列,并拼接用户标识和会话标识,生成页面序列。
本申请实施例还公开了一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如本申请实施例所述的方法。
本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如本申请实施例所述的方法。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例中,通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识,然后筛选用户标识相同且会话标识相同的至少两个页面数据,在字典中查询所述至少两个页面数据对应的页面代码,再基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列,该页面序列能够体验用户针对页面的访问顺序,然后将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,所述分析模型包括:编码器、投影层和池化层,在所述异常分值满足预设条件的情况下,将对应用户作为异常用户,能够基于页面分析存在异常的用户,并且为所述异常用户提供与异常相关的信息,无需用户自行寻求解决的方式,能够及时发现异常并提供对应的信息,提高了访问效率和用户体验。
附图说明
图1是本申请实施例的一种基于页面分析用户异常的方法的步骤流程图;
图2是本申请实施例的一种基于页面的模型训练方法的步骤流程图;
图3是本申请实施例的一种序列编码器的示例的示意图;
图4是本申请实施例的一种分析模型示例的示意图;
图5是本申请可选实施例的一种基于页面分析用户异常的方法的步骤流程图;
图6是本申请实施例的一种基于页面分析用户异常的方法示例的示意图;
图7是本申请实施例的另一种基于页面分析用户异常的方法的步骤流程图;
图8是本申请的一种基于页面分析用户异常的方法实施例的步骤流程图;
图9是本申请的一种基于页面的模型训练方法实施例的步骤流程图;
图10是本申请一个实施例提供的示例性装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例可以应用于针对各种页面的访问处理中。当用户访问页面时,能够基于日志数据自动检测存在异常的用户,从而给用户提供与异常相关的信息,快速的解决用户的问题。本申请实施例可以应用于各种页面浏览、访问场景中,例如应用于各种旅游网站的页面、各种购物网站的页面、各种社交网站的页面等。以用户浏览旅游网站为例,用户在网站中可以购买机票、火车票等各种交通票,也可购买景点门票等,还可浏览游记、景点等各种旅游信息。用户在浏览过程中可能存在一些问题,例如在浏览一些游记时想要查看景点信息,但找不到入口,需要在多个页面之间跳转查询等,或者游记中的入口不能使用等,影响用户体验。
参照图1,示出了本申请实施例的一种基于页面分析用户异常的方法的步骤流程图。
步骤102,从日志数据中提取页面访问的日志记录。
在用户浏览页面时系统可基于用户的浏览情况,将对应的日志记录添加到日志数据中。可获取日志数据,从日志数据中提取用户访问页面的日志记录。该日志记录中记录用户访问日志的时间、会话、页面等数据,从而便于后续分析使用。如图5所示,结合序列编码器对日志进行分析生成页面序列,在基于分析模型对页面序列进行处理得到对应的异常分值,确定异常用户。
步骤104,依据所述页面访问的日志记录,确定用户访问页面的页面序列。
对日志记录进行分析,可以提取用户访问页面的页面序列。其中,从所述页面访问的日志记录中获取访问页面的访问数据,所述访问数据包括:页面数据、用户标识、时间戳和会话标识;按照所述访问数据,生成对应用户访问页面的页面序列。
日志数据的每条日志记录中记录用户的操作情况,即用户在访问系统浏览页面时系统会记录用户的访问情况,得到对应的日志记录。因此对日志数据进行分析,确定用户访问页面的访问数据。其中,该访问数据为日志中记录的用户访问的页面的数据。该访问数据包括:页面数据、用户标识、时间戳和会话标识。用户在一次会话中可能会访问多个页面,因此一个用户同一次会话对应访问的多个页面,对应的用户标识和会话标识相同。本申请实施例中,可通过日志解析器对日志数据进行解析,获取日志记录中的访问数据。
其中,所述按照所述访问数据,生成对应用户访问页面的页面序列,包括:确定用户标识和会话标识的相同的页面数据;将所述页面数据按照时间戳排序,生成对应的页面序列。可基于用户在一个会话中访问的各页面构建页面序列。每个日志记录对应可提取用户标识、会话标识、时间戳和页面数据。可确定属于同一用户标识和同一会话标识的页面数据,按照时间戳确定时间前后顺序,将页面数据进行排布,得到页面序列,该页面序列中包括用户标识和会话标识。其中,一个示例中,可以将用户标识、会话标识放到页面序列的头或尾,并将各页面数据按照时间戳的顺序排列,构成页面序列。另外一个实施例中,可以用户标识、会话标识和页面数据构成一个元素,将各元素按照页面的时间戳顺序排列,生成页面序列。
步骤106,对所述页面序列进行分析,确定用户的用户访问信息。
其中,用户访问信息指的是基于页面序列所确定的用户针对页面的访问情况信息。该用户访问信息可以通过多种形式体现,例如分值、访问的信息描述、相似信息等。因此,可以对页面序列进行分析,例如通过分析模型进行分析处理,又如,对页面序列与各异常类型的页面序列进行匹配,确定相似度等,从而得到相应的用户访问信息,例如将模型输出的异常分值作为用户访问信息,又如将相似度作为用户访问信息等。
步骤108,在所述用户访问信息满足预设条件的情况下,将对应用户作为异常用户。
本申请实施例中,还可设置异常阈值,该异常阈值为出现异常情况的阈值,从而设置预设条件为异常分值超出异常阈值、相似度超出异常阈值等。将异常分值或相似度与异常阈值进行比较,若异常分值或相似度超出异常阈值,则确定满足预设条件,若异常分值或相似度未超出异常阈值,则确定不满足预设条件。将满足预设条件的情况下,将对应用户作为异常用户。
本申请实施例中,还可将多种方式相结合,从而更加准确的确定异常用户。
在另外一些实施例中,有一些用户可能存在一些异常的访问习惯,因此还可以对异常用户进行分析,判断该用户是否确实存在异常。因此对于异常分值超出异常阈值的用户,还可获取该异常用户的历史页面序列,该历史页面序列可基于历史日志数据确定,提取和生成方式与上述步骤类似,因此不再赘述。可以将该分值异常的用户序列与历史用户序列进行匹配,确定相似信息,基于相似信息与相似条件进行比较,确定异常情况。
其中,两个序列的相似信息可基于预设方式分析,例如基于访问页面的类型以及顺序等分析,又如可以确定两个序列的向量,计算向量距离等,得到对应的相似度等相似信息。若相似度满足相似阈值,则确定该页面序列为用户的正常访问习惯,可以确定为不满足相似条件。如果该相似度不满足相似阈值,则不是用户的正常访问习惯,确定为满足相似条件。其中,该正常访问习惯为用户通常访问页面的习惯,例如用户通常的访问习惯是搜索,查看搜索结果中各条目,点击条目浏览页面,返回查看其他条目,下单等,可以确定对应的访问习惯信息。而如果用户在某次访问中的路径是搜索、刷新、返回、搜索、刷新、退出,则异常分值会超出阈值,与该用户的访问习惯也不匹配,可以作为异常用户,为其提供帮助。
步骤110,为所述异常用户提供与异常相关的信息。
针对异常用户,可以提供与异常相关的信息,如提示信息、主动的客户服务等。一个示例中,可以在确定出异常用户后,提供提示信息或客服入口等与异常相关的信息,该提示信息可提供能够寻求客户帮助,例如“遇到困难了可以联系客户XXX”,其中可以包括客服入口或联系的方式等。
本申请另外一些实施例中,可预先分析与客服标签关联的页面序列的特征,从而针对异常分值的用户,可基于页面序列的特征分析异常类型,进而确定对应提供的信息。其中,异常类型包括功能查询类、故障类、错误上报类等。从而基于异常类型可以确定对应的提示信息、客服等,提供相应的信息,从而无需用户自行查找客户,能够提供处理效率。
综上,从日志数据中提取页面访问的日志记录,然后依据所述页面访问的日志记录,确定用户访问页面的页面序列,该页面序列能够体验用户针对页面的访问顺序,然后对所述页面序列进行分析,确定用户的用户访问信息,在所述用户访问信息满足预设条件的情况下,将对应用户作为异常用户,能够基于页面分析存在异常的用户,并且为所述异常用户提供与异常相关的信息,无需用户自行寻求解决的方式,能够及时发现异常并提供对应的信息,提高了访问效率和用户体验。
本申请实施例可基于日志数据来分析用户对页面的访问情况,进而确定出异常用户。本实施例可构建分析模型,基于训练数据训练该分析模型,从而在得到满足上线条件的分析模型后,可以为用户提供实时的分析检测服务,确定异常用户。
本申请实施例公开了一种基于日志的模型训练方法,能够训练分析模型,从而结合日志来分析异常用户。如图2所示。
步骤202,基于日志数据确定训练数据。
本申请实施例中可基于日志数据构成训练数据。其中,可以获取系统在一段时间内的日志数据,例如获取1个月、3个月、1年等时间段的日志数据。日志数据的每条日志记录中记录页面的访问情况,如用户在访问系统浏览页面时系统会记录访问的页面等,得到对应的日志记录。因此对日志数据进行分析,确定用户访问页面的访问数据。其中,该访问数据为日志中记录的用户访问的页面的数据。该访问数据包括:页面数据、用户标识、时间戳和会话标识。其中,页面数据是页面访问相关的数据,可以包括页面标识、访问操作等数据,用户标识为该用户的唯一标识。时间戳为页面的访问时间。会话标识为用户访问页面对应会话的标识。用户在一次会话中可能会访问多个页面,因此一个用户同一次会话对应访问的多个页面,对应的用户标识和会话标识相同。本申请实施例中,可通过日志解析器对日志数据进行解析,获取日志记录中的访问数据。
本申请实施例中,还可获取在该时间段内的客户服务数据,从该客户服务数据中获取对应的用户标识和时间信息,即基于用户标识和时间信息与日志记录建立关联,例如进行绑定,或者添加标签等,从而能够确定发生问题的用户对应的客户服务记录。
本申请实施例中,用户在一次会话中可能面临问题而寻找客服帮助,其所面临的问题可能是各种各样的,例如页面出现故障,又如用户查找不到功能入口等。因此,本申请实施例中,可基于用户在一个会话中的页面构建页面序列。每个日志记录对应可提取用户标识、会话标识、时间戳和页面数据。可确定属于同一用户标识和会话标识的页面数据,按照时间戳来确定时间前后顺序,将页面数据进行排布,得到页面序列,该页面序列中包括用户标识和会话标识。
本申请实施例中,可以为页面代码,从而便于后续的模型分析处理。可预先设置页面词典,该页面词典用于对页面进行编码,每个页面与一个唯一页面代码相关联。其中,一个示例中可基于页面标识与页面代码关联。另外一些示例中,可以将页面标识和访问操作构成页面名称,例如页面标识为01,其访问操作包括:打开页面、跳转页面等,相应可对应页面名称打开页面01、跳转页面01等。从而将页面名称与页面代码关联。从而能够基于页面数据在页面字段中查询页面代码。相应可构成由用户标识、页面标识以及按照时间戳排序的页面代码构成的页面序列。
一个可选实施例中,可基于序列编码器对日志数据进行分析,构建页面序列。如图3所示的一种序列编码器,该序列编码器包括日志解析器、字典构建器、字典更新器、页面字典和页面编码器。所述日志解析器用于解析页面访问日志,从页面访问日志的日志数据中提取访问数据,包括用户ID、会话ID、时间戳和页面数据。页面字典由字典构建器构建,其中,在训练阶段就可构建该页面字段,页面字段随着训练以及后续的使用更新。页面字典存储了页面数据和页面代码的一一映射关系。页面编码器利用页面字典对序列中的页面进行编码。
步骤204,将所述页面序列输入到分析模型中进行分析,输出所述用户的用户访问信息。
本申请实施例中,可预先构建分析模型,该分析模型用于分析异常用户。该分析模型可基于各种神经网络、机器学习等算法构建。该模型也可通过多种算法共同确定,例如通过分析、打分等多种方式。
一个可选实施例中,所述分析模型包括编码器、投影层和池化层,如图4所示。其中,所述编码器用于对页面序列进行分析,确定页面之间的相关性,从而对页面进行打分。投影层用于进行降维处理。平均池化层用于将整个序列降到一维,也就得到了最后每一个序列的得分。所述分析模型对页面序列执行以下分析处理步骤:将所述页面序列输入到编码器中,输出对应的第一分值;将所述第一分值输入到投影层中进行降维处理,输出对应的第二分值;将所述第二分值输入到池化层中,输出对应的异常分值。
在另外一些实施例中,还可以在编码器之前添加一个嵌入层,从而将编码序列转换为向量。所述将所述页面序列输入到编码器之前,还包括:将所述页面序列输入到所述嵌入层中,得到对应页面向量;基于所述页面序列中各页面的顺序确定位置向量;将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
一个示例中,所述编码器可基于注意力机制构建,例如采用Transformer编码器。如基于注意力模型构建编码器。又如,基于多头注意力机制构建编码器,还可添加其他处理层。例如编码器由多头注意力层、两个相加-层归一化层,和一个前向传播层构成。其中,相加-层归一化层可以是一种带有层归一化的残差结构,前向传播层可以是一个两层全连接神经网络。
在一个可选实施例中,分析模型包括:Transformer编码器、向量的线性投影层和平均池化层、和打分层组成,打分层最终输出一个用户的异常得分,最终根据异常得分判断每一个用户是否遇见了问题。
在训练过程中,假设给定个样本的情况下,其中,样本指的是用户的页面序列,/>个样本来自没有问题的正常用户:/>,而/>个样本来自有问题的异常用户:/>,其中/>。则训练过程的所有样本为:。训练的目标是学习一个模型:/>,使得,其中/>,/>,/>代表输入空间,即样本的集合所在的输入空间,/>是输出空间,本示例中输出空间即为实数空间,代表的含义是输出的值在实数范围内。对于每个样本/>,/>,其中/>,/>。/>是第/>页,/>是/>中页面的数量,/>是/>的输出。
将页面序列输入到嵌入层中,输出一个维度为d的输出向量,针对输入向量中的每个页面对应确定一个位置向量,该位置向量可基于页面对应的时间戳确定,即按照页面序列中页面的顺序确定位置向量,从而给输出向量中每个页面的页面向量拼接对应的位置向量,得到拼接向量。然后将拼接向量输入到编码器中。
一个示例中,Transformer编码器是一种具有完整的注意力机制和易于并行加速的模型。在自注意力机制中,每个页面都有能力关注页面序列中的所有其他页面。因此,它学习页面序列中页面之间的相关性的能力。具体来说,对于每个样本,使用的模型表示为,其中/>,/>表示可学习参数。为了实现输出信息/>,我们首先计算位置向量:
其中,,/>且/>。/>是矩阵/>的偶数列的元素,/>是矩阵/>的偶数列的元素。
然后,将位置向量合并到每个页面向量中,得到拼接向量/>:
其中,,/>。
所述编码器包括:注意力层、归一化层和前向传播层;该归一化层包括第一归一化层和第二归一化层。其中,所述将所述页面序列输入到编码器中,输出对应的第一分值,包括:将所述页面序列输入到注意力层,确定各页面的第三分值;将所述页面序列和第三分值输入到第一归一化层中,确定所述页面序列的第四分值;将所述第四分值输入到所述前向传播层,确定对应的第五分值;将所述第三分值和第五分值输入到第二归一化层中,确定所述页面序列的第一分值。
相应,对于每个,多头注意力中每个头/>的输出/>可以形式化表示为:
其中,。/>是点积注意力,q为查询query,k为关键词key,v是值value,注意力机制即给定一个和任务相关的查询Query向量q,通过计算与Key的注意力分布并附加在Value上,从而计算注意力值Attention Value。
多头注意力的输出为:
其中,,/>是头的数量,/>。设置/>。
然后,将和/>馈送到相加-层归一化层、前向传播层和另一个相加-层归一化层中:
其中,是相加-层归一化层的输出。/>和/>。/>是模型/>的输出,即第一分值。
该第一分值中包括页面序列中每个页面的第一分值。但是,该第一分值是基于多维向量确定的多维度的分值,因此可以对第一分值进行降维处理,可以将所述第一分值输入到投影层进行降维处理,输出对应的第二分值。
本申请实施例中,可基于投影层实现对第一分值的降维处理。其中,设函数:
,其中/>,/>是可学习参数。投影层的输出即为每一个序列中的页面的第二分值。
后续,再综合序列中每一个页面的第二分值即可得到最终序列的综合分值,即异常分值。其中,可设置池化层来确定用户对于页面浏览的异常分值。可以使用直接汇聚或使用分类向量(CLS)策略可以产生相当的结果,因此添加一个池化层来获取X的最终异常分值:
)
其中,,/>是池化函数。
从而可基于上述方式构建分析模型并采用训练数据进行训练。
步骤206,基于损失函数对所述用户访问信息进行计算,基于计算结果调整所述分析模型。
然后可以通过损失函数、反向传播等方式等对该模型的参数进行调整。该损失函数可基于距离、概率等确定,如余弦距离,熵函数等。一个示例中,采用改进的二元交叉熵(BCE)损失,为正常样本(正常分值的用户)和异常样本(异常分值的用户)分别分配不同的惩罚。该策略增强了识别正样本的能力,同时最小化了假正样本的数量:
其中,表示每个样本的损失,而/>表示真实标签,/>表示被判定为异常的概率。此外,/>对应于批次大小,/>是一个超参数,用于调节权重。该真实标签即样本的分值正常或异常的标签,例如包括标签为0和1的所有的值。
其中,真实标签基于训练数据中客户服务记录确定,可以在确定页面序列对应是否存在客服记录,对具有客服记录的页面序列设置对应的客服标签,还可在标签中设置客户对应的类型,如功能查询类、故障类、错误上报类等。
从而能够基于损失函数调整分析模型,得到满足条件的分析模型,可以上线进行实时的分析,然后为有需要的异常用户提供服务。
在上述实施例的基础上,本申请实施例提供了一种基于日志的用户检测方法,能够结合日志数据和分析模型,检测用户在访问网页时的异常情况并提供帮助。
参照图5,示出了本申请可选实施例的一种基于页面分析用户异常的方法的步骤流程图。
步骤502,从日志数据中提取页面访问的日志记录。
在用户浏览页面时系统可基于用户的浏览情况,将对应的日志记录添加到日志数据中。可获取日志数据,从日志数据中提取用户访问页面的日志记录。该日志记录中记录用户访问日志的时间、会话、页面等数据,从而便于后续分析使用。如图6所示,结合序列编码器对日志进行分析生成页面序列,在基于分析模型对页面序列进行处理得到对应的异常分值,确定异常用户。
步骤504,依据所述页面访问的日志记录,确定用户访问页面的页面序列。
对日志记录进行分析,可以提取用户访问页面的页面序列。其中,从所述页面访问的日志记录中获取访问页面的访问数据,所述访问数据包括:页面数据、用户标识、时间戳和会话标识;按照所述访问数据,生成对应用户访问页面的页面序列。
日志数据的每条日志记录中记录用户的操作情况,即用户在访问系统浏览页面时系统会记录用户的访问情况,得到对应的日志记录。因此对日志数据进行分析,确定用户访问页面的访问数据。其中,该访问数据为日志中记录的用户访问的页面的数据。该访问数据包括:页面数据、用户标识、时间戳和会话标识。用户在一次会话中可能会访问多个页面,因此一个用户同一次会话对应访问的多个页面,对应的用户标识和会话标识相同。本申请实施例中,可通过日志解析器对日志数据进行解析,获取日志记录中的访问数据。
其中,所述按照所述访问数据,生成对应用户访问页面的页面序列,包括:对所述访问数据进行分析,确定用户标识相同且会话标识相同的至少两个页面数据;将所述至少两个页面数据按照时间戳排序,生成对应的页面序列。可基于用户在一个会话中访问的页面构建页面序列。每个日志记录对应可提取用户标识、会话标识、时间戳和页面数据。可确定属于同一用户标识和会话标识的页面数据,按照时间戳确定时间前后顺序,将页面数据进行排布,得到页面序列,该页面序列中包括用户标识和会话标识。其中,一个示例中,可以将用户标识、会话标识放到页面序列的头或尾,并将各页面数据按照时间戳的顺序排列,构成页面序列。另外一个实施例中,可以用户标识、会话标识和页面数据构成一个元素,将各元素按照页面的时间戳顺序排列,生成页面序列。
其中,还预先构建有页面字典,所述将所述页面数据按照时间戳排序,生成对应的页面序列,包括:在字典中查询所述页面数据对应的页面代码;将各页面代码按照时间戳的先后顺序进行排列,并拼接用户标识和会话标识,生成页面序列。可以基于页面数据在字典中查询页面代码,然后采用该页面代码替换页面数据,与用户标识、会话标识构成页面序列。
在一个可选实施例中,可基于如图2所示的序列编码器对日志数据进行分析确定页面序列。其中,通过日志解析器对日志数据进行解析,确定访问数据,然后基于该访问数据从页面字段中查询页面代码,在基于页面编码器对用户标识、会话标识、时间戳和页面代码进行编码,确定对应的页面数据。
步骤506,采用分析模型对所述页面序列进行分析,确定用户的用户访问信息。
其中,用户访问信息指的是基于页面序列所确定的用户针对页面的访问情况信息。该用户访问信息可以通过多种形式体现,例如分值等。因此,可以将页面序列输入到分析模型中进行分析处理,输出对应的异常分值作为用户访问信息。
其中,所述分析模型包括:编码器、投影层和池化层,所述分析模型对页面序列执行以下分析处理步骤:将所述页面序列输入到编码器中,输出对应的第一分值;将所述第一分值输入到投影层进行降维处理,输出对应的第二分值;将所述第二分值输入到池化层中,输出对应的异常分值。所述分析模型还包括:嵌入层,所述将所述页面序列输入到编码器之前,还包括:将所述页面序列输入到所述嵌入层中,得到对应页面向量;基于所述页面序列中各页面的顺序确定位置向量;将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
一个示例中,可以先对页面序列转换,确定对应的页面向量,然后输入到基于注意力机制的编码器中。另一个示例中,在分析模型中包括嵌入层,从而将页面序列输入到所述嵌入层中进行转换,得到对应的页面向量,该页面向量包括每个页面对应的页面向量。还可针对每个页面的页面向量确定位置向量,然后将将位置向量合并到每个页面的页面向量中,得到拼接向量。
将拼接向量输入到基于注意力机制的编码器中,输出对应的第一分值。其中,所述编码器包括:注意力层、归一化层和前向传播层,则将所述页面序列输入到注意力层,确定各页面的第三分值;将所述页面序列和第三分值输入到第一归一化层中,确定所述页面序列的第四分值;将所述第四分值输入到所述前向传播层,确定对应的第五分值;将所述第三分值和第五分值输入到第二归一化层中,确定所述页面序列的第一分值。将拼接向量输入到基于多头注意力机制构建的注意力层中,得到对应的第三分值。然后将第三分值和页面序列输入到第一相加-层归一化层,确定所述页面序列的第四分值,然后将所述第四分值输入到所述前向传播层,确定对应的第五分值,然后将所述第三分值和第五分值输入到第二归一化层中,得到对应的第一分值。
然后将将所述第一分值输入到投影层进行降维处理,输出对应的第二分值,然后将第二分值输入到池化层中进行处理,输出对应的异常分值。
步骤508,在所述用户访问信息满足预设条件的情况下,将对应用户作为异常用户。
本申请实施例中,还可设置异常阈值,该异常阈值为出现异常情况的阈值,从而设置预设条件为异常分值超出异常阈值。将异常分值与异常阈值进行比较,若异常分值超出异常阈值,则确定满足预设条件,若异常分值未超出异常阈值,则确定不满足预设条件。将满足预设条件的情况下,将对应用户作为异常用户。
在另外一些实施例中,有一些用户可能存在一些异常的访问习惯,因此还可以对异常用户进行分析,判断该用户是否确实存在异常。因此对于异常分值超出异常阈值的用户,还可获取该异常用户的历史页面序列,该历史页面序列可基于历史日志数据确定,提取和生成方式与上述步骤类似,因此不再赘述。可以将该分值异常的用户序列与历史用户序列进行匹配,确定相似信息,基于相似信息确定异常情况。
其中,两个序列的相似信息可基于方式分析,例如基于访问页面的类型以及顺序等分析,又如可以确定两个序列的向量,计算向量距离等,得到对应的相似度等相似信息。若相似度满足相似阈值,则确定该页面序列为用户的正常访问习惯,可以确定为不满足预设条件。如果该相似度不满足相似阈值,则不是用户的正常访问习惯,确定为满足预设条件。
步骤510,为所述异常用户提供与异常相关的信息。
针对异常用户,可以提供与异常相关的信息,如提示信息、主动的客户服务等。一个示例中,可以在确定出异常用户后,提供提示信息或客服入口等与异常相关的信息,该提示信息可提供能够寻求客户帮助,例如“遇到困难了可以联系客户XXX”,其中可以包括客服入口或联系的方式等。
本申请另外一些实施例中,可预先分析与客服标签关联的页面序列的特征,从而针对异常分值的用户,可基于页面序列的特征分析异常类型,进而确定对应提供的信息。其中,异常类型包括功能查询类、故障类、错误上报类等。从而基于异常类型可以确定对应的提示信息、客服等,提供相应的信息,从而无需用户自行查找客户,能够提供处理效率。
综上,从日志数据中提取页面访问的日志记录,然后依据所述页面访问的日志记录,确定用户访问页面的页面序列,该页面序列能够体验用户针对页面的访问顺序,然后采用分析模型对所述页面序列进行分析,确定用户的用户访问信息,在所述用户访问信息满足预设条件的情况下,将对应用户作为异常用户,能够基于页面分析存在异常的用户,并且为所述异常用户提供与异常相关的信息,无需用户自行寻求解决的方式,能够及时发现异常并提供对应的信息,提高了访问效率和用户体验。
在上述实施例的基础上,本申请实施例还提供了一种基于日志的用户检测方法,能够结合日志分析异常用户并提供相应的帮助。
参照图7,示出了本申请实施例的另一种基于页面分析用户异常的方法的步骤流程图。
步骤702,从日志数据中提取页面访问的日志记录。
步骤704,基于日志解析器对日志数据进行解析,提取访问页面的访问数据,所述访问数据包括:页面数据、用户标识、时间戳和会话标识。
步骤706,对所述访问数据进行分析,确定用户标识相同且会话标识相同的至少两个页面数据。
步骤708,在页面字典中查询所述页面数据对应的页面代码。
步骤710,采用页面编码器将各页面代码按照时间戳的先后顺序进行排列,并拼接用户标识和会话标识,生成页面序列。
步骤712,将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,作为用户访问信息。
步骤714,判断所述异常分值是否大于异常阈值。
若是,执行步骤716,若否,结束该流程,可继续对用户的访问进行检测。
步骤716,采用所述异常分值对应的页面序列与所述用户的历史页面序列进行比对,确定相似信息。
步骤718,判断所述相似信息是否满足相似阈值。
若是,结束该流程,后续可继续对用户的访问进行检测。若否,执行步骤720。
步骤720,将对应用户作为异常用户。
步骤722,基于所述页面序列分析异常原因,基于所述异常原因分析建议信息。
步骤724,提供所述建议信息。
其中,可以将页面序列和历史页序列进行匹配,确定异常类型,基于异常类型结合页面序列确定异常原因,从而可以基于异常原因分析建议信息,然后提供该建议信息,从而能够帮助用户快速解决问题。
综上,基于页面访问日志可以检测存在问题的用户。利用Transformer提取页面之间的关系,实现高效和高效果的检测。
在上述实施例的基础上,本实施例提供了一种基于页面分析用户异常的方法,能够基于页面确定属于同一会话的页面序列,从而基于用户在一次会话所访问的页面,发现用户的异常情况。
参照图8,示出了本申请的一种基于页面分析用户异常的方法实施例的步骤流程图。
步骤802,通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识。
步骤804,筛选用户标识相同且会话标识相同的至少两个页面数据,在字典中查询所述至少两个页面数据对应的页面代码。
步骤806,基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列。
步骤808,将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,所述分析模型包括:编码器、投影层和池化层。
步骤810,在所述异常分值满足预设条件的情况下,将对应用户作为异常用户。
为所述异常用户提供与异常相关的信息。
步骤812,为所述异常用户提供与异常相关的信息。
通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识,然后筛选用户标识相同且会话标识相同的至少两个页面数据,在字典中查询所述至少两个页面数据对应的页面代码,再基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列,该页面序列能够体验用户针对页面的访问顺序,然后将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,所述分析模型包括:编码器、投影层和池化层,在所述异常分值满足预设条件的情况下,将对应用户作为异常用户,能够基于页面分析存在异常的用户,并且为所述异常用户提供与异常相关的信息,无需用户自行寻求解决的方式,能够及时发现异常并提供对应的信息,提高了访问效率和用户体验。
在上述实施例的基础上,本实施例提供了一种基于页面模型训练方法方法,能够基于页面确定属于同一会话的页面序列,从而基于用户在一次会话所访问的页面训练分析模型,便于后续用户在访问页面时能够基于页面的访问路径,及时发现用户的异常情况。
参照图9,示出了本申请的一种基于页面分析用户异常的方法实施例的步骤流程图。
步骤902,通过日志解析器对历史日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识。
步骤904,筛选用户标识相同且会话标识相同的至少两个页面数据,在字典中查询所述至少两个页面数据对应的页面代码。
步骤906,基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列,作为训练数据。
步骤908,将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,所述分析模型包括:编码器、投影层和池化层。
步骤910,基于损失函数对所述异常分值进行计算,基于计算结果调整所述分析模型,得到满足设定条件的分析模型,以对页面序列进行分析,确定用户的异常分值,并在所述异常分值满足预设条件的情况下,将对应用户作为异常用户,提供与异常相关的信息。
本申请实施例中,给定每个用户的页面访问日志提取页面序列作为输入,输出一个异常分值,指示该用户是否存在问题。根据实验的评估结果表明,其可以实现每秒约2702个用户的预测速度,并获得74.70%的正确结果占比。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种基于日志的用户检测装置,应用于服务端设备等电子设备中,所述装置包括:
日志提取模块,用于从日志数据中提取页面访问的日志记录;
序列生成模块,用于依据所述页面访问的日志记录,确定用户访问页面的页面序列;
序列分析模块,用于对所述页面序列进行分析,确定用户的用户访问信息;
异常确定模块,用于在所述用户访问信息满足预设条件的情况下,将对应用户作为异常用户;
信息提供模块,用于为所述异常用户提供与异常相关的信息。
综上,从日志数据中提取页面访问的日志记录,然后依据所述页面访问的日志记录,确定用户访问页面的页面序列,该页面序列能够体验用户针对页面的访问顺序,然后对所述页面序列进行分析,确定用户的用户访问信息,在所述用户访问信息满足预设条件的情况下,将对应用户作为异常用户,能够基于页面分析存在异常的用户,并且为所述异常用户提供与异常相关的信息,无需用户自行寻求解决的方式,能够及时发现异常并提供对应的信息,提高了访问效率和用户体验。
可选的,所述序列生成模块,用于从所述页面访问的日志记录中获取访问页面的访问数据,所述访问数据包括:页面数据、用户标识、时间戳和会话标识;按照所述访问数据,生成对应用户访问页面的页面序列。
可选的,所述序列生成模块,用于对所述访问数据进行分析,确定用户标识相同且会话标识相同的至少两个页面数据;将所述至少两个页面数据按照时间戳排序,生成对应的页面序列。
可选的,所述序列生成模块,用于在字典中查询所述页面数据对应的页面代码;将各页面代码按照时间戳的先后顺序进行排列,并拼接用户标识和会话标识,生成页面序列。
可选的,所述序列分析模块,用于将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,作为用户访问信息。
可选的,所述分析模型包括:编码器、投影层和池化层,所述序列分析模块,用于将所述页面序列输入到编码器中,输出对应的第一分值;将所述第一分值输入到投影层进行降维处理,输出对应的第二分值;将所述第二分值输入到池化层中,输出对应的异常分值。
可选的,所述分析模型还包括:嵌入层,序列分析模块,用于将所述页面序列输入到编码器之前,将所述页面序列输入到所述嵌入层中,得到对应页面向量;基于所述页面序列中各页面的顺序确定位置向量;将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
可选的,所述编码器包括:注意力层、归一化层和前向传播层;所述序列分析模块,用于将所述页面序列输入到注意力层,确定各页面的第三分值;将所述页面序列和第三分值输入到第一归一化层中,确定所述页面序列的第四分值;将所述第四分值输入到所述前向传播层,确定对应的第五分值;将所述第三分值和第五分值输入到第二归一化层中,确定所述页面序列的第一分值。
可选的,所述信息提供模块,用于基于所述页面序列分析异常原因,基于所述异常原因分析建议信息;提供所述建议信息。
可选的,所述序列生成模块,用于通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识;在字典中查询页面数据对应的页面代码;基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列。
可选的,所述异常确定模块,还用于获取所述用户的历史页面序列,所述历史页面序列可基于历史日志数据确定;将所述页面序列和历史页面序列进行匹配,确定相似信息;基于所述相似信息确定是否满足预设条件。
可选的,所述信息提供模块,用于基于页面序列的特征分析异常类型,基于所述异常类型提供以下至少一种信息:提示信息、客服入口信息。
基于页面访问日志可以检测存在问题的用户。利用Transformer提取页面之间的关系,实现高效和高效果的检测。
在上述实施例的基础上,本实施例还提供了一种基于日志的模型训练装置,应用于服务端设备等电子设备中,所述装置包括:
日志分析模块,用于基于日志数据确定训练数据,所述训练数据包括页面序列;
模型处理模块,用于将所述页面序列输入到分析模型中进行分析,输出所述用户的用户访问信息;
损失调整模块,用于基于损失函数对所述用户访问信息进行计算,基于计算结果调整所述分析模型。
可选的,所述分析模型包括:编码器、投影层和池化层,所述模型处理模块,用于将所述页面序列输入到分析模型中,通过所述编码器进行处理,输出对应的第一分值;将所述第一分值输入到投影层进行降维处理,输出对应的第二分值;将所述第二分值输入到池化层中,输出对应的异常分值,作为用户访问信息。
可选的,所述分析模型还包括:嵌入层,所述模型处理模块,用于所述通过所述编码器进行处理之前,将所述页面序列输入到所述嵌入层中,得到对应页面向量;基于所述页面序列中各页面的顺序确定位置向量;将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
可选的,所述编码器包括:注意力层、归一化层和前向传播层;所述模型处理模块,用于将所述拼接向量输入到注意力层,确定各页面的第三分值;将所述拼接向量和第三分值输入到第一归一化层中,确定所述拼接向量的第四分值;将所述第四分值输入到所述前向传播层,确定对应的第五分值;将所述第三分值和第五分值输入到第二归一化层中,确定所述拼接向量的第一分值。
可选的,所述损失调整模块,用于基于交叉熵函数对所述用户访问信息计算损失信息,基于所述损失信息调整所述分析模型的参数。
可选的,所述日志分析模块,用于通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识;在字典中查询页面数据对应的页面代码;基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列。
可选的,所述日志分析模块,用于从所述页面访问的日志记录中获取访问页面的访问数据,所述访问数据包括:页面数据、用户标识、时间戳和会话标识;按照所述访问数据,生成对应用户访问页面的页面序列。
可选的,所述日志分析模块,用于对所述访问数据进行分析,确定用户标识相同且会话标识相同的至少两个页面数据;将所述至少两个页面数据按照时间戳排序,生成对应的页面序列。
可选的,所述日志分析模块,用于在字典中查询所述页面数据对应的页面代码;将各页面代码按照时间戳的先后顺序进行排列,并拼接用户标识和会话标识,生成页面序列。
能够基于损失函数调整分析模型,得到满足条件的分析模型,可以上线进行实时的分析,然后为有需要的异常用户提供服务。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如本申请实施例所述的方法。
本申请实施例还提供了一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如本申请实施例所述的方法。本申请实施例中,所述电子设备包括服务器、终端设备等设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集群)、终端等电子设备。图10示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1000。
对于一个实施例,图10示出了示例性装置1000,该装置具有一个或多个处理器1002、被耦合到(一个或多个)处理器1002中的至少一个的控制模块(芯片组)1004、被耦合到控制模块1004的存储器1006、被耦合到控制模块1004的非易失性存储器(NVM)/存储设备1008、被耦合到控制模块1004的一个或多个输入/输出设备1010,以及被耦合到控制模块1004的网络接口1012。
处理器1002可包括一个或多个单核或多核处理器,处理器1002可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1000能够作为本申请实施例中所述服务端、终端等设备。
在一些实施例中,装置1000可包括具有指令1014的一个或多个计算机可读介质(例如,存储器1006或NVM/存储设备1008)以及与该一个或多个计算机可读介质相合并被配置为执行指令1014以实现模块从而执行本公开中所述的动作的一个或多个处理器1002。
对于一个实施例,控制模块1004可包括任意适当的接口控制器,以向(一个或多个)处理器1002中的至少一个和/或与控制模块1004通信的任意适当的设备或组件提供任意适当的接口。
控制模块1004可包括存储器控制器模块,以向存储器1006提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1006可被用于例如为装置1000加载和存储数据和/或指令1014。对于一个实施例,存储器1006可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1006可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块1004可包括一个或多个输入/输出控制器,以向NVM/存储设备1008及(一个或多个)输入/输出设备1010提供接口。
例如,NVM/存储设备1008可被用于存储数据和/或指令1014。NVM/存储设备1008可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1008可包括作为装置1000被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1008可通过网络经由(一个或多个)输入/输出设备1010进行访问。
(一个或多个)输入/输出设备1010可为装置1000提供接口以与任意其他适当的设备通信,输入/输出设备1010可以包括通信组件、音频组件、传感器组件等。网络接口1012可为装置1000提供接口以通过一个或多个网络通信,装置1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如蓝牙、WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1002中的至少一个可与控制模块1004的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1002中的至少一个可与控制模块1004的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1002中的至少一个可与控制模块1004的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1002中的至少一个可与控制模块1004的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置1000可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1000可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1000包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
本申请实施例还提供了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的方法。本申请实施例中存储器中可存储各种数据,如目标文件、文件与应用关联数据等各种数据,还可包括用户行为数据等,从而为各种处理提供数据基础。
本申请实施例还提供了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于页面分析用户异常的方法、一种基于页面的模型训练方法、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种基于页面分析用户异常的方法,其中,所述方法包括:
通过日志解析器对日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识;
筛选用户标识相同且会话标识相同的至少两个页面数据,在字典中查询所述至少两个页面数据对应的页面代码;
基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列;
将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,所述分析模型包括:编码器、投影层和池化层;
在所述异常分值满足预设条件的情况下,将对应用户作为异常用户;
为所述异常用户提供与异常相关的信息。
2.根据权利要求1所述的方法,其中,所述分析模型对页面序列执行以下分析处理步骤:
将所述页面序列输入到编码器中,输出对应的第一分值;
将所述第一分值输入到投影层进行降维处理,输出对应的第二分值;
将所述第二分值输入到池化层中,输出对应的异常分值。
3.根据权利要求2所述的方法,其中,所述分析模型还包括:嵌入层,
所述将所述页面序列输入到编码器之前,还包括:
将所述页面序列输入到所述嵌入层中,得到对应页面向量;
基于所述页面序列中各页面的顺序确定位置向量;
将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
4.根据权利要求2所述的方法,其中,所述编码器包括:注意力层、归一化层和前向传播层;
所述将所述页面序列输入到编码器中,输出对应的第一分值,包括:
将所述页面序列输入到注意力层,确定各页面的第三分值;
将所述页面序列和第三分值输入到第一归一化层中,确定所述页面序列的第四分值;
将所述第四分值输入到所述前向传播层,确定对应的第五分值;
将所述第三分值和第五分值输入到第二归一化层中,确定所述页面序列的第一分值。
5.根据权利要求1所述的方法,其中,所述为所述异常用户提供与异常相关的信息,包括:
基于所述页面序列分析异常原因,基于所述异常原因分析建议信息;
提供所述建议信息。
6.根据权利要求1所述的方法,其中,所述将对应用户作为异常用户之前,还包括:
获取所述用户的历史页面序列,所述历史页面序列可基于历史日志数据确定;
将所述页面序列和历史页面序列进行匹配,确定相似信息;
若所述相似信息不满足相似条件,则将对应用户作为异常用户。
7.根据权利要求1所述的方法,其中,所述为所述异常用户提供与异常相关的信息,包括:
基于页面序列的特征分析异常类型,基于所述异常类型提供以下至少一种信息:提示信息、客服入口信息。
8.一种基于页面的模型训练方法,其中,所述方法包括:
通过日志解析器对历史日志数据进行解析,确定访问数据,访问数据包括:页面数据、用户标识、时间戳和会话标识;
筛选用户标识相同且会话标识相同的至少两个页面数据,在字典中查询所述至少两个页面数据对应的页面代码;
基于时间戳,采用页面编码器对页面代码、用户标识和会话标识进行编码处理,生成页面序列,作为训练数据;
将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,所述分析模型包括:编码器、投影层和池化层;
基于损失函数对所述异常分值进行计算,基于计算结果调整所述分析模型,得到满足设定条件的分析模型,以对页面序列进行分析,确定用户的异常分值,并在所述异常分值满足预设条件的情况下,将对应用户作为异常用户,提供与异常相关的信息。
9.根据权利要求8所述的方法,其中,所述分析模型包括:编码器、投影层和池化层,所述将所述页面序列输入到分析模型中进行分析,输出所述用户的异常分值,包括:
将所述页面序列输入到分析模型中,通过所述编码器进行处理,输出对应的第一分值;
将所述第一分值输入到投影层进行降维处理,输出对应的第二分值;
将所述第二分值输入到池化层中,输出对应的异常分值。
10.根据权利要求9所述的方法,其中,所述分析模型还包括:嵌入层,
所述将所述页面序列输入到编码器之前,还包括:
将所述页面序列输入到所述嵌入层中,得到对应页面向量;
基于所述页面序列中各页面的顺序确定位置向量;
将所述位置向量和所述页面向量拼接,得到对应的拼接向量。
11.根据权利要求9所述的方法,其中,所述编码器包括:注意力层、归一化层和前向传播层;
所述将所述页面序列输入到编码器中,输出对应的第一分值,包括:
将所述页面序列输入到注意力层,确定各页面的第三分值;
将所述页面序列和第三分值输入到第一归一化层中,确定所述页面序列的第四分值;
将所述第四分值输入到所述前向传播层,确定对应的第五分值;
将所述第三分值和第五分值输入到第二归一化层中,确定所述页面序列的第一分值。
12.一种电子设备,其中,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-11中任一项所述的方法。
13.一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311038458.1A CN116756453A (zh) | 2023-08-16 | 2023-08-16 | 基于页面分析用户异常、模型训练的方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311038458.1A CN116756453A (zh) | 2023-08-16 | 2023-08-16 | 基于页面分析用户异常、模型训练的方法、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116756453A true CN116756453A (zh) | 2023-09-15 |
Family
ID=87948228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311038458.1A Pending CN116756453A (zh) | 2023-08-16 | 2023-08-16 | 基于页面分析用户异常、模型训练的方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756453A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446228A (zh) * | 2016-10-08 | 2017-02-22 | 中国工商银行股份有限公司 | 一种web页面数据的采集分析方法及装置 |
CN110472175A (zh) * | 2019-07-03 | 2019-11-19 | 平安证券股份有限公司 | 用户行为分析方法及终端设备 |
CN110874325A (zh) * | 2019-10-31 | 2020-03-10 | 北方工业大学 | 一种基于用户会话的Web应用测试用例扩充方法 |
CN112003834A (zh) * | 2020-07-30 | 2020-11-27 | 瑞数信息技术(上海)有限公司 | 异常行为检测方法和装置 |
CN113722193A (zh) * | 2020-05-29 | 2021-11-30 | 北京沃东天骏信息技术有限公司 | 检测页面异常的方法和装置 |
CN114579963A (zh) * | 2022-03-09 | 2022-06-03 | 携程旅游信息技术(上海)有限公司 | 基于数据挖掘的用户行为分析方法、系统、设备及介质 |
CN115147130A (zh) * | 2022-07-01 | 2022-10-04 | 阿里巴巴(中国)有限公司 | 问题预测方法、设备、存储介质及程序产品 |
-
2023
- 2023-08-16 CN CN202311038458.1A patent/CN116756453A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446228A (zh) * | 2016-10-08 | 2017-02-22 | 中国工商银行股份有限公司 | 一种web页面数据的采集分析方法及装置 |
CN110472175A (zh) * | 2019-07-03 | 2019-11-19 | 平安证券股份有限公司 | 用户行为分析方法及终端设备 |
CN110874325A (zh) * | 2019-10-31 | 2020-03-10 | 北方工业大学 | 一种基于用户会话的Web应用测试用例扩充方法 |
CN113722193A (zh) * | 2020-05-29 | 2021-11-30 | 北京沃东天骏信息技术有限公司 | 检测页面异常的方法和装置 |
CN112003834A (zh) * | 2020-07-30 | 2020-11-27 | 瑞数信息技术(上海)有限公司 | 异常行为检测方法和装置 |
CN114579963A (zh) * | 2022-03-09 | 2022-06-03 | 携程旅游信息技术(上海)有限公司 | 基于数据挖掘的用户行为分析方法、系统、设备及介质 |
CN115147130A (zh) * | 2022-07-01 | 2022-10-04 | 阿里巴巴(中国)有限公司 | 问题预测方法、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bolón-Canedo et al. | Feature selection for high-dimensional data | |
CN105989040B (zh) | 智能问答的方法、装置及系统 | |
US20190392258A1 (en) | Method and apparatus for generating information | |
US8645353B2 (en) | Anchor image identification for vertical video search | |
CN110019943B (zh) | 视频推荐方法、装置、电子设备和存储介质 | |
CN107153656B (zh) | 一种信息搜索方法和装置 | |
CN114896454B (zh) | 一种基于标签分析的短视频数据推荐方法及系统 | |
CN112364204A (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
WO2019072098A1 (zh) | 一种识别核心产品词的方法和系统 | |
US20220108222A1 (en) | Systems and methods for detecting prejudice bias in machine-learning models | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN114218958A (zh) | 工单处理方法、装置、设备和存储介质 | |
CN113268667A (zh) | 一种基于中文评论情感引导的序列推荐方法及系统 | |
CN111651981B (zh) | 数据的审核方法、装置及设备 | |
CN115631011A (zh) | 一种基于互联网的产品推送方法及系统 | |
CN112330442A (zh) | 基于超长行为序列的建模方法及装置、终端、存储介质 | |
CN116756453A (zh) | 基于页面分析用户异常、模型训练的方法、设备和介质 | |
US20210056149A1 (en) | Search system, search method, and program | |
CN112035740A (zh) | 项目使用时长预测方法、装置、设备及存储介质 | |
CN114912452A (zh) | 一种实体识别、信息抽取的方法和装置 | |
CN113761918A (zh) | 一种数据处理方法及装置 | |
CN113742576B (zh) | 基于跨平台的内容推荐方法、装置、设备及存储介质 | |
CN110633446B (zh) | 网页栏目识别模型训练方法、使用方法、装置和存储介质 | |
CN116822502B (zh) | 网页内容识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |