CN114417817B - 一种会话信息切割方法和装置 - Google Patents

一种会话信息切割方法和装置 Download PDF

Info

Publication number
CN114417817B
CN114417817B CN202111670144.4A CN202111670144A CN114417817B CN 114417817 B CN114417817 B CN 114417817B CN 202111670144 A CN202111670144 A CN 202111670144A CN 114417817 B CN114417817 B CN 114417817B
Authority
CN
China
Prior art keywords
data
meta
event
sample set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111670144.4A
Other languages
English (en)
Other versions
CN114417817A (zh
Inventor
仲籽彦
龚滨
魏丫丫
张明哲
洪迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202111670144.4A priority Critical patent/CN114417817B/zh
Publication of CN114417817A publication Critical patent/CN114417817A/zh
Application granted granted Critical
Publication of CN114417817B publication Critical patent/CN114417817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供了一种会话信息切割方法和装置,所述方法包括:计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;针对每一类型的元事件,抽取预设数量的元事件作为样本集合;提取所述样本集合中所述元事件的特征数据;采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型;在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息。本发明实施例能够实现采用历史行为数据训练得到目标模型,采用目标模型输出与待切割行为数据匹配的会话信息,以实现智能化切割行为数据得到会话信息。

Description

一种会话信息切割方法和装置
技术领域
本发明涉及数据分析技术领域,特别是涉及一种会话信息切割方法和一种会话信息切割装置。
背景技术
目前最常用的会话信息切割方法有间隔时间切割方法和始末事件切割方法。
间隔时间切割方法:间隔时间切割方法是给定一个明确的间隔时间,将用户行为数据按间隔时间进行切割计算,最终得出会话信息切割结果的方法。间隔时间通常根据运营经验或用户的使用习惯进行定义,这种方法计算量小、性能很高、技术实现简单,但缺点是会话信息分割精准度较差,往往会将一次用户使用分为若干会话信息或将多次用户使用行为归为一次会话信息。
始末事件切割方法:始末事件切割方法相对于间隔时间切割方法在精准度方面有了较大的提升,是通过定义开始事件和结束事件,将符合始末事件及其中间过程所发生的一系列事件组合切割为一个会话信息的方法。这种方法在保留会话信息完整性方面有了较大的提升,但缺点是无法完全预测用户行为轨迹,不能保证用户一定会产生开始事件和结束事件,如定义创建订单为开始事件,付款完成为结束事件,若用户放弃付款,则不能满足切割条件,无法准确切割出会话信息。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种会话信息切割方法和相应的一种会话信息切割装置。
为了解决上述问题,本发明实施例公开了一种会话信息切割方法,包括:
计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;
针对每一类型的元事件,抽取预设数量的元事件作为样本集合;
提取所述样本集合中所述元事件的特征数据;
采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型;
在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息。
可选地,在所述抽取预设数量的元事件作为样本集合的步骤之后,所述方法还包括:
按照三西格玛准则对所述样本集合进行数据清洗。
可选地,在所述采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型之前,所述方法还包括:
对清洗后的样本集合进行线性变换,以对所述清洗后的样本集合进行标准化处理。
可选地,所述采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型的步骤,包括:
按照预设比例将经过所述标准化后处理的样本集合划分训练集和测试集;
构建与所述深度学习模型匹配的整体损失函数;
采用所述训练集对所述深度学习模型进行训练,得到已训练的深度学习模型,以及训练信息;
采用所述已训练的深度学习模型对所述训练集进行预测,得到预测结果;
依据所述测试集、所述训练信息、所述预测结果和所述整体损失函数,计算整体损失值;
当所述整体损失值小于预设目标值时,确定所述已训练的深度学习模型为目标模型。
可选地,所述训练信息包含迭代次数;
所述整体损失函数为:
Figure BDA0003449444080000021
N为迭代次数,L1为置信度损失函数,x为预测结果以及测试集之间的距离,c为置信度,l为预测结果,g为测试集,L2为欧式距离损失函数。
可选地,所述深度学习模型包括:输入层、4个数据处理层以及输出层;
所述数据处理层包括3*3卷积层、池化层以及sigmoid层。
可选地,所述深度学习模型还包括第一选择单元、第二选择单元、第一数据融合单元、第二数据融合单元、第三数据融合单元;所述第一数据融合单元、第二数据融合单元、第三数据融合单元依次设置于所述4个数据处理层之间;
所述第一选择单元用于将所述第二数据融合单元输出的特征数据传递至所述第一数据融合单元或者第三数据融合单元;
所述第二选择单元用于将所述输入层输出的特征数据传递至所述第一数据融合单元或者第二数据融合单元。
本发明实施例还公开了一种会话信息切割装置,包括:
元事件停留时长计算模块,用于计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;
数据采样模块,用于针对每一类型的元事件,抽取预设数量的元事件作为样本集合;
特征提取模块,用于提取所述样本集合中所述元事件的特征数据;
模型训练模块,用于采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型;
模型预测模块,用于在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息。
本发明实施例还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的会话信息切割方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的会话信息切割方法的步骤。
本发明实施例包括以下优点:
通过计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;针对每一类型的元事件,抽取预设数量的元事件作为样本集合;提取所述样本集合中所述元事件的特征数据;采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型,从而训练得到能够切割用户行为数据并输出会话信息的目标模型,通过上述过程得到目标模型后,在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息,从而实现智能化切割用户的行为数据,得到准确完整的会话信息,相对于现有技术中会话信息切割方式,更加灵活和准确。
附图说明
图1是本发明的一种会话信息切割方法实施例的步骤流程图;
图2是本发明的另一种会话信息切割方法实施例的步骤流程图;
图3是本发明提供的一种深度学习模型框架图;
图4是本发明的一种会话信息切割装置实施例的结构框图;
图5是本发明的另一种会话信息切割装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
随着互联网的普及及5G(5th Generation Mobile Communication Technology,第五代移动通信技术)网络普及加快、如果能够准确的获取用户的行为分析数据,并执行针对性的营销策略,对特定用户进行个性化推荐和精准推送,营销成功率会显著提升。用户的行为分析,即了解用户具体干了什么事情;以进行针对性的做出精细化运营调整。对于用户行为数据分析,通常以事件为最小单位,以“点”的方式呈现,遵循4W1H方法:Who(谁)、When(何时)、Where(何地)、How(怎样)、What(是什么),即谁在何时何地干了何事。例如:张三今天早上在XX软件充值100元话费,李四昨天晚上10点在XX软件使用积分兑换了礼品。用户行为分析可以使用现有的比较成熟的技术实现。但是对用户行为进行分析的基础是得到准确的用户行为序列。
为了得到上述数据,对原始日志文件进行会话信息切割是十分必要的。但是有一些分析需求是无法通过“点”的方式来描述的,例如:用户平均使用几次APP(Application,应用程序)?每次平均访问了几个页面?每次使用平均使用时长是多久?在某个页面平均停留时长?上述需求需要将用户的单点行为串联起来形成一个整体进行“线”型分析,即用户在某段时间内做了哪些事情,这是会话信息分析的最大意义。会话信息分析的关键点在于如何将用户行为切割成一个一个的会话信息。
参照图1,示出了本发明的一种会话信息切割方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;
元事件为某个单一事件,是用户行为的最小分析单元,如点击某个按钮、跳转到某个页面等事件,称为元事件。
停留时长为从一个元事件跳转到下一个元事件所经过的时长,如打开商品详情页到离开商品详情页所用耗时。
可以通过如下方式计算元事件的停留时长:借助CDH 6.3.2平台,使用MapReduce计算引擎,选定最近14天的埋点数据即历史行为数据。先将单一用户产生的所有行为数据按照发生时间排序得到元时间序列,再将下一个元事件的发生时间减去当前元事件的发生时间,得出当前元事件的停留时长,以毫秒为单位,采用整型表示。
进而得到元事件序列中每一个元事件的停留时长,例如:0-100ms用户A点击功能图标T1。则第一个元事件的停留时长为100ms;第二个元事件即用户暂停元事件的停留时长为420ms;520-650ms时点击功能图标T3,则第三个元事件的停留时长为100ms;650ms-15s用户阅读页面P1,则第四个元事件的停留时长为14350ms。
可以理解的是,可以对元事件划分成不同类型,针对每一种类型均可以通过如上方式计算各个类型的元事件的停留时长。
步骤102,针对每一类型的元事件,抽取预设数量的元事件作为样本集合;
由于服务器中数据量太多,如果将所有数据都作为样本,则数据量太大降低训练效率。采样可以起到数据降维、简化问题的作用,在发明实施例中可以先剔除数据坏点,例如对于历史日志每一条日志对应的异常元事件序列(涉嫌机器人的规律性访问)作为进行剔除处理,再对这些剩下的历史日志采用随机采样方法,从历史日志中针对每一类型(超链接点击、超链接的深度跳转点击行为)的元事件,随机抽取每个元事件各1000条数据作为样本集合。
在实际中,采样也可以使用其他采样方法,如间隔采样等采样方法;另外采样数量也不仅限于1000条,本发明实施例对具体的采样方法,采样数量、样本集容量不作限定。
为了进一步提高采样的针对性,可以针对一个或多个用户进行分别采样,得到针对单一客户的样本集合,并在后续步骤中分别训练用户一一对应的神经网络模型。
步骤103,提取所述样本集合中所述元事件的特征数据;
特征数据为用于描述元事件特征的数据。在下面步骤中以各类型元事件停留时长的平均值为特征数据对本发明实施例做进一步说明,可以理解的是,还可以采用其他信息作为特征数据,包括但不限于操作事件(比如:点击操作)。
步骤104,采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型;
可以预先构建深度学习模型,然后采用样本集合以及特征数据作为模型输入数据以对深度学习模型进行训练,当经训练的深度学习模型满足预设条件时,确定深度学习模型已完成训练,并将该已完成训练的深度学习模型确定为目标模型。
步骤105,在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息。
在得到目标模型之后,在获取到需要进行会话信息切割的待切割行为数据时,将所述待切割行为数据输入至目标模型进行处理,目标模型能够输出与待切割数据匹配的会话信息,以实现采用目标模型切割行为数据得到会话信息,从而提供一种智能化切割会话信息的方式。
在本发明实施例中,通过计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;针对每一类型的元事件,抽取预设数量的元事件作为样本集合;提取所述样本集合中所述元事件的特征数据;采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型,从而训练得到能够切割用户行为数据并输出会话信息的目标模型,通过上述过程得到目标模型后,在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息,从而实现智能化切割用户的行为数据,得到准确完整的会话信息,相对于现有技术中会话信息切割方式,更加灵活和准确。
在本发明实施例由于深度学习模型具有自学习功能,深度学习模型能够自动学习会话信息的特征,进而在不断切割行为数据输出会话信息的同时,学习会话信息的特征,使得切割得到的会话信息更具准确性,并且能够较好的判定用户行为的连贯性,将连贯行为切割到同一个会话信息中,便于更好的分析跳出率、退出率、会话信息时长、会话信息深度、会话信息内事件时长及会话信息初始事件和属性等。
参照图2,示出了本发明的一种会话信息切割方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201,计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;
步骤202,针对每一类型的元事件,抽取预设数量的元事件作为样本集合;
步骤203,按照三西格玛准则对所述样本集合进行数据清洗;
在采集行为数据过程中,由于SDK(Software Development Kit,软件开发工具包)采集或APP异常等原因,可能会产生元事件停留事件极小或极大的情况,对样本数据按元事件进行分组,可以依据三西格玛准则(即3sigma原则),过滤掉各元事件中停留时长过大或过小的数据记录,消除异常数据对模型效果产生的影响
其中,三西格玛原理如下:
若数据(本发明实施例中的样本集合中的停留时长数据)服从正态分布,则异常值被定义为一组结果值中与平均值的偏差超过三倍标准差的值。即在正态分布的假设下,距离平均值三倍(如标准差)之外的值出现的概率很小(如下式(1)),因此可认为是异常值。
P(|x-μ|>3σ)≤0.003(1)
若数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述(这就使该原理可以适用于不同的业务场景,只是需要根据经验来确定k sigma中的k值,这个k值就可以认为是阈值)。
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974;
其中在正态分布中σ代表标准差,μ代表均值x=μ即为正态分布图像的对称轴对应的数值。
具体的,可以将数值分布在(μ-3σ,μ+3σ)范围之外的元数据作为异常数据剔除。
进一步的,可以将时间长度、历史总次数、历史频率作为元事件异常值剔除的类型。
步骤204,对清洗后的样本集合进行线性变换,以对所述清洗后的样本集合进行标准化处理;
当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱值水平低指标的作用,因此,为了保证结果的可靠性,需要对原始数据进行标准化处理。
在本发明实施例中,由于各元事件的停留时长不一,且差距较大,为便于模型计算,使用min-max方法对数据进行线性变换,将停留时长映射到[0,1]之间。
可以按照如下式(2)进行线性变换
Figure BDA0003449444080000091
其中,xi为进行标准化处理前各个元事件的停留时长,yi为xi映射的停留时长。
步骤205,提取所述样本集合中所述元事件的特征数据;
提取标准化后的样本集合中的特征数据。
步骤206,采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型;
采用标准化后的样本集合以及提取到的特征数据对预设的深度学习模型进行训练,得到目标模型。
步骤207,在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息。
在本发明的一种可选实施例中,步骤206可以包括:
子步骤S11,按照预设比例将经过所述标准化后处理的样本集合划分训练集和测试集;
将标准化后的样本集合按照预设比例划分训练集和测试集,训练集用于训练深度学习模型,测试集用于验证经过训练的深度学习模型的处理效果。
例如:预设比例为5:1,则可以将标准化后的样本集合按照训练集与测试集之间比例为5:1进行划分。
子步骤S12,构建与所述深度学习模型匹配的整体损失函数;
子步骤S13,采用所述训练集对所述深度学习模型进行训练,得到已训练的深度学习模型,以及训练信息;
训练信息为与深度学习模型训练过程相关的信息。
其中,在采用训练集训练深度学习模型时,可以设定学习率learning_rate在[0.05,0.2],每隔0.05取值。
子步骤S14,采用所述已训练的深度学习模型对所述训练集进行预测,得到预测结果;
子步骤S15,依据所述测试集、所述训练信息、所述预测结果和所述整体损失函数,计算整体损失值;
子步骤S16,当所述整体损失值小于预设目标值时,确定所述已训练的深度学习模型为目标模型。
在本发明的一种可选实施例中,所述训练信息包含迭代次数;
所述整体损失函数为:
Figure BDA0003449444080000101
N为迭代次数,L1为置信度损失函数,x为预测结果以及测试集之间的距离,c为置信度,l为预测结果,g为测试集(真实结果),L2为欧式距离损失函数。
参照图3,示出了本发明提供的一种深度学习模型框架图。
在本发明的一种可选实施例中,所述深度学习模型包括:输入层310、4个数据处理层320以及输出层330;所述数据处理层320包括3*3卷积层、池化层以及sigmoid层。
在本发明的一种可选实施例中,所述深度学习模型还包括第一选择单元341、第二选择单元342、第一数据融合单元351、第二数据融合单元352、第三数据融合单元353;所述第一数据融合单元、第二数据融合单元、第三数据融合单元依次设置于所述4个数据处理层之间;
所述4个数据处理层包括与所述输入层连接的第一数据处理层321,以及依次排序的第二数据处理层322、第三数据处理层323、第四数据处理层324;
所述第一选择单元341用于将所述第二数据融合单元352输出的特征数据传递至所述第一数据融合单元351或者第三数据融合单元353;
所述第二选择单元351用于将所述输入层输出的特征数据传递至所述第一数据融合单元351或者第二数据融合单元352。
第一选择单元341、第二选择单元342均为一个小型的卷积神经网络,包括1个6*6卷积层,1个5*5卷积层,3个3*3卷积层,2个1*1卷积层,3个池化层,1个ReLU激活层,1个Dropout层,1个全连接层。除2个1*1卷积层外的其余卷积层后均连接一个ReLU激活层,所有池化层均采用最大池化方式。第一选择单元341、第二选择单元342将选择出的数据沿图所示方向传递,传递次数取决于其当前次输出与上一次输出之间的距离是否大于设定阈值。选择单元的传递方向取决于当前次输出与上一次输出之间的距离是否大于平均距离的设定倍数,如果大于则往左传递(即第一选择单元341用于将特征数据传递至第一数据融合单元351,第二选择单元351用于将特征数据传递至第一数据融合单元351),如果小于则向右传递(即第一选择单元341用于特征数据传递至第三数据融合单元353,第二选择单元351用于将特征数据传递至第二数据融合单元352)。
通过选择单元将选择出特征数据与上一数据处理层的输出数据进行数据融合后,可以使对应的特征数据更加明显,再二次卷积可以提取出更丰富的特征数据;而选择出的另外的不那么明显特征数据无需进行二次卷积即可继续向右传递,可以在进一步提高模型运行效率的同时,提高准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种会话信息切割装置实施例的结构框图,具体可以包括如下模块:
元事件停留时长计算模块401,用于计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;
数据采样模块402,用于针对每一类型的元事件,抽取预设数量的元事件作为样本集合;
特征提取模块403,用于提取所述样本集合中所述元事件的特征数据;
模型训练模块404,用于采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型;
模型预测模块405,用于在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息。
参照图5,示出了本发明的另一种会话信息切割装置实施例的结构框图,具体可以包括如下模块:
元事件停留时长计算模块501,用于计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;
数据采样模块502,用于针对每一类型的元事件,抽取预设数量的元事件作为样本集合;
数据清洗模块503,用于按照三西格玛准则对所述样本集合进行数据清洗;
数据标准化模块504,用于对清洗后的样本集合进行线性变换,以对所述清洗后的样本集合进行标准化处理;
特征提取模块505,用于提取所述样本集合中所述元事件的特征数据;
模型训练模块506,用于采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型;
模型预测模块507,用于在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息。
在本发明的一种可选实施例中,模型训练模块506可以包括:
样本集合划分子模块,用于按照预设比例将经过所述标准化后处理的样本集合划分训练集和测试集;
整体损失函数构建子模块,用于构建与所述深度学习模型匹配的整体损失函数;
训练子模块,用于采用所述训练集对所述深度学习模型进行训练,得到已训练的深度学习模型,以及训练信息;
预测子模块,用于采用所述已训练的深度学习模型对所述训练集进行预测,得到预测结果;
整体损失值计算子模块,用于依据所述测试集、所述训练信息、所述预测结果和所述整体损失函数,计算整体损失值;
目标模型确定子模块,用于当所述整体损失值小于预设目标值时,确定所述已训练的深度学习模型为目标模型。
在本发明的一种可选实施例中,所述训练信息包含迭代次数;
所述整体损失函数为:
Figure BDA0003449444080000131
N为迭代次数,L1为置信度损失函数,x为预测结果以及测试集之间的距离,c为置信度,l为预测结果,g为测试集,L2为欧式距离损失函数。
在本发明的一种可选实施例中,所述深度学习模型包括:输入层、4个数据处理层以及输出层;
所述数据处理层包括3*3卷积层、池化层以及sigmoid层。
在本发明的一种可选实施例中,所述深度学习模型还包括第一选择单元、第二选择单元、第一数据融合单元、第二数据融合单元、第三数据融合单元;所述第一数据融合单元、第二数据融合单元、第三数据融合单元依次设置于所述4个数据处理层之间;
所述第一选择单元用于将所述第二数据融合单元输出的特征数据传递至所述第一数据融合单元或者第三数据融合单元;
所述第二选择单元用于将所述输入层输出的特征数据传递至所述第一数据融合单元或者第二数据融合单元。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,包括:包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述会话信息切割方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述会话信息切割方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种会话信息切割方法和一种会话信息切割装置、电子设备和介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种会话信息切割方法,其特征在于,包括:
计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行为的最小单元;
针对每一类型的元事件,抽取预设数量的元事件作为样本集合;
提取所述样本集合中所述元事件的特征数据;所述元事件的特征数据为各类型元事件停留时长的平均值;
采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型;
在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息。
2.根据权利要求1所述的方法,其特征在于,在所述抽取预设数量的元事件作为样本集合的步骤之后,所述方法还包括:
按照三西格玛准则对所述样本集合进行数据清洗。
3.根据权利要求2所述的方法,其特征在于,在所述采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型之前,所述方法还包括:
对清洗后的样本集合进行线性变换,以对所述清洗后的样本集合进行标准化处理。
4.根据权利要求3所述的方法,其特征在于,所述采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型的步骤,包括:
按照预设比例将经过所述标准化处理后的样本集合划分训练集和测试集;
构建与所述深度学习模型匹配的整体损失函数;
采用所述训练集对所述深度学习模型进行训练,得到已训练的深度学习模型,以及训练信息;
采用所述已训练的深度学习模型对所述训练集进行预测,得到预测结果;
依据所述测试集、所述训练信息、所述预测结果和所述整体损失函数,计算整体损失值;
当所述整体损失值小于预设目标值时,确定所述已训练的深度学习模型为目标模型。
5.根据权利要求4所述的方法,其特征在于,所述训练信息包含迭代次数;
所述整体损失函数为:
Figure FDA0004118358970000021
N为迭代次数,L1为置信度损失函数,x为预测结果以及测试集之间的距离,c为置信度,l为预测结果,g为测试集,L2为欧式距离损失函数。
6.根据权利要求3所述的方法,其特征在于,所述深度学习模型包括:输入层、4个数据处理层以及输出层;
所述数据处理层包括3*3卷积层、池化层以及sigmoid层。
7.根据权利要求6所述的方法,其特征在于,所述深度学习模型还包括第一选择单元、第二选择单元、第一数据融合单元、第二数据融合单元、第三数据融合单元;所述第一数据融合单元、第二数据融合单元、第三数据融合单元依次设置于所述4个数据处理层之间;
所述第一选择单元用于将所述第二数据融合单元输出的特征数据传递至所述第一数据融合单元或者第三数据融合单元;
所述第二选择单元用于将所述输入层输出的特征数据传递至所述第一数据融合单元或者第二数据融合单元。
8.一种会话信息切割装置,其特征在于,包括:
元事件停留时长计算模块,用于计算采集的历史行为数据中包含的至少一种类型的元事件的停留时长;所述元事件为用户行的最小单元;
数据采样模块,用于针对每一类型的元事件,抽取预设数量的元事件作为样本集合;
特征提取模块,用于提取所述样本集合中所述元事件的特征数据;所述元事件的特征数据为各类型元事件停留时长的平均值;
模型训练模块,用于采用所述样本集合以及所述特征数据对预设的深度学习模型进行训练,得到目标模型;
模型预测模块,用于在获取到待切割行为数据时,采用所述目标模型对所述待切割行为数据进行处理,得到会话信息。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的会话信息切割方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的会话信息切割方法的步骤。
CN202111670144.4A 2021-12-30 2021-12-30 一种会话信息切割方法和装置 Active CN114417817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111670144.4A CN114417817B (zh) 2021-12-30 2021-12-30 一种会话信息切割方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111670144.4A CN114417817B (zh) 2021-12-30 2021-12-30 一种会话信息切割方法和装置

Publications (2)

Publication Number Publication Date
CN114417817A CN114417817A (zh) 2022-04-29
CN114417817B true CN114417817B (zh) 2023-05-16

Family

ID=81270731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111670144.4A Active CN114417817B (zh) 2021-12-30 2021-12-30 一种会话信息切割方法和装置

Country Status (1)

Country Link
CN (1) CN114417817B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944915A (zh) * 2017-11-21 2018-04-20 北京深极智能科技有限公司 一种游戏用户行为分析方法及计算机可读存储介质
CN110958136A (zh) * 2019-11-11 2020-04-03 国网山东省电力公司信息通信公司 一种基于深度学习的日志分析预警方法
WO2021164253A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 用户行为实时多维度分析方法、装置及存储介质
CN113408658A (zh) * 2021-07-14 2021-09-17 国网吉林省电力有限公司营销服务中心 一种基于数据挖掘技术的自动化窃电识别方法
CN113705250A (zh) * 2021-10-29 2021-11-26 北京明略昭辉科技有限公司 会话内容识别方法、装置、设备及计算机可读介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831214B (zh) * 2006-10-05 2017-05-10 斯普兰克公司 时间序列搜索引擎
CN107392311B (zh) * 2016-05-17 2020-06-30 创新先进技术有限公司 序列切分的方法和装置
CN106126544B (zh) * 2016-06-15 2020-01-24 晶赞广告(上海)有限公司 一种互联网内容的投放方法及装置
US20180268318A1 (en) * 2017-03-17 2018-09-20 Adobe Systems Incorporated Training classification algorithms to predict end-user behavior based on historical conversation data
US10645109B1 (en) * 2017-03-31 2020-05-05 Exabeam, Inc. System, method, and computer program for detection of anomalous user network activity based on multiple data sources
CN110968571A (zh) * 2018-09-28 2020-04-07 广州威阿科技有限公司 面向金融信息服务的大数据分析与处理平台
CN110110372B (zh) * 2019-04-09 2023-04-18 华东师范大学 一种用户时序行为自动切分预测方法
US11429699B2 (en) * 2020-04-13 2022-08-30 International Business Machines Corporation Systems and methods for authentication of a user based on free text
CN112733018B (zh) * 2020-12-31 2022-12-06 哈尔滨工程大学 一种基于图神经网络gnn和多任务学习的会话推荐方法
CN112800666A (zh) * 2021-01-18 2021-05-14 上海派拉软件股份有限公司 日志行为分析的训练方法、身份安全风险预测方法
CN113822464A (zh) * 2021-08-11 2021-12-21 大箴(杭州)科技有限公司 用户信息的处理方法及装置、电子设备、存储介质
CN113761383B (zh) * 2021-10-13 2023-06-20 中国人民大学 一种基于统一用户行为建模的搜索和推荐融合系统
CN114529077A (zh) * 2022-02-15 2022-05-24 哈尔滨工程大学 一种基于会话内异构行为的点击率预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944915A (zh) * 2017-11-21 2018-04-20 北京深极智能科技有限公司 一种游戏用户行为分析方法及计算机可读存储介质
CN110958136A (zh) * 2019-11-11 2020-04-03 国网山东省电力公司信息通信公司 一种基于深度学习的日志分析预警方法
WO2021164253A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 用户行为实时多维度分析方法、装置及存储介质
CN113408658A (zh) * 2021-07-14 2021-09-17 国网吉林省电力有限公司营销服务中心 一种基于数据挖掘技术的自动化窃电识别方法
CN113705250A (zh) * 2021-10-29 2021-11-26 北京明略昭辉科技有限公司 会话内容识别方法、装置、设备及计算机可读介质

Also Published As

Publication number Publication date
CN114417817A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
JP2004157814A (ja) 決定木生成方法およびモデル構造生成装置
US9740986B2 (en) System and method for deducing user interaction patterns based on limited activities
CN108197177A (zh) 业务对象的监测方法、装置、存储介质和计算机设备
CN111967271A (zh) 分析结果的生成方法、装置、设备及可读存储介质
CN115034496A (zh) 基于GCN-Transformer的城市轨道交通节假日短时客流预测方法
CN115221396A (zh) 基于人工智能的信息推荐方法、装置及电子设备
CN114637911A (zh) 一种注意力融合感知网络的下一个兴趣点推荐方法
CN111291138A (zh) 更新关系网络的方法及装置
CN115062779A (zh) 基于动态知识图谱的事件预测方法及装置
CN114417817B (zh) 一种会话信息切割方法和装置
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN107734534B (zh) 一种网络负荷评估方法及装置
CN116956994A (zh) 业务平台扩容预测方法及装置
CN113239272B (zh) 一种网络管控系统的意图预测方法和意图预测装置
CN115659060A (zh) 一种基于动态图神经网络的信息推荐方法及系统
AU2020335019B2 (en) Evaluation method based on mobile news client and system thereof
CN112925831A (zh) 基于云计算服务的大数据挖掘方法及大数据挖掘服务系统
JP2008187612A (ja) トラヒック分析モデルの構築方法、装置および構築プログラムならびにその記憶媒体
CN114580533A (zh) 特征提取模型的训练方法、装置、设备、介质及程序产品
CN114969494A (zh) 有效行为确定方法、装置、设备及存储介质
CN113794900B (zh) 视频处理方法和装置
CN112149818B (zh) 威胁识别结果评估方法和装置
CN110309311A (zh) 一种事件处理策略确定方法及装置
CN112822045B (zh) 基于多特征混合神经网络的内容传播热区预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant