CN112559840B - 上网行为识别方法、装置、计算设备及计算机存储介质 - Google Patents

上网行为识别方法、装置、计算设备及计算机存储介质 Download PDF

Info

Publication number
CN112559840B
CN112559840B CN201910854664.7A CN201910854664A CN112559840B CN 112559840 B CN112559840 B CN 112559840B CN 201910854664 A CN201910854664 A CN 201910854664A CN 112559840 B CN112559840 B CN 112559840B
Authority
CN
China
Prior art keywords
internet
internet surfing
characteristic information
access
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910854664.7A
Other languages
English (en)
Other versions
CN112559840A (zh
Inventor
齐希
朱骏
施文驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910854664.7A priority Critical patent/CN112559840B/zh
Publication of CN112559840A publication Critical patent/CN112559840A/zh
Application granted granted Critical
Publication of CN112559840B publication Critical patent/CN112559840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明实施例涉及人工智能技术领域,公开了一种上网行为识别方法、装置、计算设备及计算机存储介质,该方法包括:控制上网设备访问目标应用软件,以获取上网行为数据,所述上网行为数据包括上网特征信息及所述上网特征信息对应的访问类型;对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据;根据所述训练数据训练深度神经网络模型,得到识别模型;根据所述识别模型对用户的上网行为进行识别。通过上述方式,本发明实施例实现了自动获取用户的上网行为数据,并通过训练识别模型对用户的上网行为进行识别。

Description

上网行为识别方法、装置、计算设备及计算机存储介质
技术领域
本发明实施例涉及人工智能技术领域,具体涉及一种上网行为识别方法、装置、计算设备及计算机存储介质。
背景技术
用户在使用手机访问上网软件时,会在运营商网络中产生用户日志,根据用户日志能够分析出用户的上网行为。目前,通过深度包检测技术(Deep Packer Inspection,DPI)在运营商网络中解析出的数据,仅能够分析用户粗粒度的行为,例如,访问的上网软件名称等,更细粒度的行为,例如,用户的具体点击内容,则需要人工方式完成。图1示出了人工获取用户上网行为的流程图,如图1所示,数据分析师定期访问上网软件,并通过抓包工具对上网软件进行抓包分析,形成特征库;将特征库加载进计算引擎,以对通过DPI解析出的数据进行正则匹配,并根据匹配结果得到用户上网行为标签。
现有技术的行为分析需要人工介入,花费时间较长;用户上网行为标签通过与特征库匹配完成,当特征库中存储的上网软件的特征不全面时,用户上网行为标签的识别率低。
发明内容
鉴于上述问题,本发明实施例提供了一种上网行为识别方法、装置、计算设备及计算机存储介质,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种上网行为识别方法,所述方法包括:
控制上网设备访问目标应用软件,以获取上网行为数据,所述上网行为数据包括上网特征信息及所述上网特征信息对应的访问类型;
对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据;
根据所述训练数据训练深度神经网络模型,得到识别模型;
根据所述识别模型对用户的上网行为进行识别。
在一种可选的方式中,所述控制上网设备访问目标应用软件,以获取上网行为数据,包括:
根据预先定义的访问规则控制上网设备访问目标应用软件,得到访问日志,所述预先定义的访问规则包括访问命令和访问类型之间的对应关系;
从所述访问日志中提取所述上网行为数据。
在一种可选的方式中,在对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据之前,所述方法还包括:
通过预设的正则表达式对所述上网特征信息进行过滤;
所述对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据,包括:
对过滤后的所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据。
在一种可选的方式中,所述对所述上网特征信息及所述上网特征信息对应的访问类型进行编码,得到训练数据,包括:
在预设的编码库中获取所述上网特征信息对应的编码;
将所述上网特征信息在所述预设的编码库中对应的编码进行转换,得到标准格式的编码,所述转换包括对齐和归一化;
根据预设编码规则对所述访问类型进行编码,得到访问类型标识;
将所述标准格式的编码及所述访问类型标识之间的对应关系作为训练数据。
在一种可选的方式中,在根据所述训练数据训练深度神经网络模型,得到识别模型之前,所述方法还包括:
对所述训练数据进行降维,得到降维后的所述训练数据;
所述根据所述训练数据训练深度神经网络模型,包括:根据降维后的所述训练数据训练深度神经网络模型,得到识别模型。
在一种可选的方式中,所述根据所述训练数据训练深度神经网络模型,得到识别模型,包括:
构建深度神经网络模型架构;
初始化所述深度神经网络模型的权重;
将所述训练数据划分为多组,每一组包括多个训练数据,将一组训练数据的上网特征信息输入所述深度神经网络模型,根据输入的所述训练数据和所述权重得到输出结果;
根据所述输出结果与所述上网特征信息对应的访问类型编码计算损失函数值;
根据所述损失函数值更新所述深度神经网络模型的权重,并输入另一组训练数据的上网特征信息,直至所述损失函数值最小;
将使所述损失函数值最小的权重作为所述深度神经网络模型的权重;
将构建的深度神经网络模型架构和该深度神经网络模型的权重作为识别模型。
在一种可选的方式中,根据所述识别模型对用户的上网行为进行识别,包括:
获取用户的上网特征信息;
将所述用户的上网特征信息输入所述识别模型,得到所述用户的上网特征信息对应于每一访问类型的概率;
将所述概率最大值作为所述用户的访问类型。
根据本发明实施例的另一方面,提供了一种上网行为识别装置,所述装置包括:
控制模块,用于控制上网设备访问目标应用软件,以获取上网行为数据,所述上网行为数据包括上网特征信息及所述上网特征信息对应的访问类型;
编码模块,用于对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据;
训练模块,用于根据所述训练数据训练深度神经网络模型,得到识别模型;
识别模块,用于根据所述识别模型对用户的上网行为进行识别。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的一种上网行为识别方法对应的操作。
根据本发明实施例的还一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行上述的一种上网行为识别方法对应的操作。
本发明实施例通过控制上网设备访问目标应用软件,以获取上网行为数据,与现有的通过人工方式获取上网行为数据的方式相比,无需人工介入,节省了人力成本;对上网行为数据中的上网特征信息及上网特征信息对应的访问类型进行编码,得到训练数据,根据训练数据训练深度神经网络模型,得到识别模型,根据识别模型对用户的上网行为进行识别。本发明实施例训练得到的识别模型包括了目标应用软件的所有上网特征信息,与现有技术中通过数据库匹配方式进行识别的方法相比,识别的准确率更高。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了人工获取用户上网行为的流程图;
图2示出了本发明第一实施例提供的一种上网行为识别方法的流程图;
图3示出了本发明第二实施例提供的一种上网行为识别方法的流程图;
图4示出了本发明第三实施例提供的一种上网行为识别方法的流程图;
图5示出了本发明第四实施例提供的一种上网行为识别方法装置的流程功能框图;
图6示出了本发明第五实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图2示出了本发明第一实施例的一种上网行为识别方法的流程图,如图2所示,该方法包括以下步骤:
步骤110:控制上网设备访问目标应用软件,以获取上网行为数据,上网行为数据包括上网特征信息及上网特征信息对应的访问类型。
在本步骤中,上网设备是安装有上网软件的终端设备,例如,手机。目标应用软件是指上网设备的软件商城中的热门软件,例如,排行榜上排名最高的软件。目标应用软件的数量可以是一个,也可以是多个。上网行为数据包括上网特征信息及上网特征信息对应的访问类型,上网特征信息是上网设备访问目标应用软件时获取的关键信息,包括访问的目标应用软件的名称、上网设备的机型、网络抓包URL等。访问类型是指具体的上网点击行为,例如,下载、分享、点赞等。当目标应用软件的数量是多个时,为了区分不同目标应用软件的访问类型,访问类型中还包括软件名称,例如,A软件下载、B软件下载。每一次访问目标应用软件生成一组上网行为数据,该组上网行为数据包括了本次访问目标应用软件的上网特征信息及上网特征信息对应的访问类型。执行本发明实施例的设备预先设置有模拟访问脚本以及自动化抓包工具,模拟访问脚本预先定义了访问命令和访问类型之间的对应关系,当运行该模拟脚本时,可以通过预先定义的访问命令执行该访问命令对应的访问类型。在实际实施过程中,模拟访问脚本可以通过Python中的模拟访问软件包实现,例如,Python中的Requests包实现模拟访问。以执行本发明实施例的设备为计算机,上网设备为手机,目标应用软件为淘宝软件为例,访问类型包括:搜索、订购、加购物车等。将计算机与手机连接,手机通过计算机热点代理上网,通过预先定义好的模拟访问脚本,由计算机控制手机访问淘宝软件,同时,计算机端形成的访问日志,通过自动化抓包工具从访问日志中可以提取上网行为数据。抓包工具可以使用常见的网络抓包工具,例如,fiddler、wireshark等。
该步骤120:对上网特征信息及上网特征信息对应的访问类型编码,得到训练数据。
在本步骤中,上网特征信息包含了上网设备访问目标应用软件时获取的多维关键信息,对每一维关键信息分别进行编码。在一些实施例中,对关键信息的编码是从预设的编码库中获取的,例如,通过字典编码时,不同的文本可以通过字典编码对应的编码库转换为相应的索引值,以“微信”为例,将“微信”两个字符使用字典编码时,生成诸如“微-3819”、“信-2315”的索引值。可以理解的是,对关键信息进行编码的目的是为了区分不同的关键信息,因此,编码方式也可以人为设定,例如,不同的上网特征信息中包含的上网协议的类型不同,包括TCP协议、UDP协议、HTTP协议等,在对协议进行编码时,可以将每一协议对应到编码的一个数据位上,以TCP协议、UDP协议、HTTP协议三个协议为例,使用三个数据位进行编码,分别为100、010和001,即协议对应的数据位为1。在对每一维的关键信息编码之后,不同维度的编码对应的数据长度不同,数量级也不同,直接使用该编码形成的训练数据无法训练识别模型,因此,将所有维度的编码通过对齐转换为同一长度,通过归一化将所有维度的编码的数量级转换为统一范围。在一些实施例中,通过将每个维度相较于其他维度缺失的长度补0的方式对齐。通过均值归一化将所有维度的编码的数量级转换到统一范围。以其中一个维度的均值归一化为例,均值归一化的具体公式为:x′=(x-μ)/(Xmax-Xmin),其中Xmax和Xmin分别为该维度中所有分量的最大和最小值,μ为该维度所有分量的均值,x为该维度中的一个分量,x′为该分量均值归一化后对应的值。
在对访问类型进行编码时,如果目标应用软件的数量为一个,则编码可以使用一个数字或字母进行编码,例如,浏览、下载、分享、点赞、评论分别使用1、2、3、4、5进行编码。如果目标应用软件的数量为多个,则编码包括目标应用软件标识,例如,对于软件A、B、C三种软件,每一软件分别对应有浏览、下载、分享、点赞、评论五种访问类型,则进行编码时,需要使用两个数字或字母组合编码,例如,分别使用A1、B1、C1、A2...B5、C5进行编码。
步骤130:根据训练数据训练深度神经网络模型,得到识别模型。
深度神经网络是包含有多个隐藏层的神经网络,在训练深度神经网络模型时,需要建立深度神经网络架构,包括确定隐藏层的层数、每一层神经元的个数以及每一层的激活函数。在一种实施例中,构建的深度神经网络模型包括输入层、多个隐藏层及输出层,输入层用于输入上网特征信息,输入层的神经元个数与上网特征信息的维度相同,隐藏层设置的层数可以由本领域技术人员人为设定,不同个数的隐藏层影响识别模型的识别效果。在实施过程中,可以通过尝试更新的方式确定识别效果最好的设置方式,即,分别对包含不同个数隐藏层的深度神经网络进行训练,并对比训练得到的识别模型的识别效果,确定识别效果最好的识别模型。隐藏层的作用是用于减弱或删除与上网行为无关的上网特征信息,并保留相关的上网特征信息,例如,减弱或删除时间特征、端口特征等与上网行为无关的上网特征信息,保留上网软件名称、上网协议等相关的上网特征信息。在一种实施方式中,隐藏层的激活函数使用pathinfo函数。输出层用以输出最终的结果,该输出结果是每一组上网特征信息对应于每一种访问类型的概率,输出层使用归一化指数函数softmax函数作为激活函数,以便根据输出结果中的概率最大值确定输出的访问类型。
在确定深度神经网络的架构后,初始化相邻两层的每一神经元的权重,将训练数据分批输入深度神经网络中进行训练,每一批包含多个训练数据的上网特征信息。上网特征信息输入深度神经网络模型后,与权重作用,并通过每一层的激活函数,最终输出每一个训练数据对应于每一种访问类型的概率,概率最大值即为该训练数据对应的输出访问类型。根据该输出访问类型与该训练数据对应的访问类型标签,计算损失函数,根据损失函数值调整权重,输入另一批训练数据,继续训练,直至损失函数值最小。其中,损失函数的种类有多种,例如,对数损失函数、指数损失函数、交叉熵损失函数等。在一种实施方式中,选择对数损失函数作为本发明实施例的损失函数。交叉熵损失函数的具体公式为:其中,/>表示期望输出,一般情况下期望输出为1,yi表示实际输出的概率值,k表示一批训练数据中包含的训练数据的数量。将损失函数值最小的权重作为该深度神经网络模型的权重。
步骤140:将构建的深度神经网络模型架构和该深度神经网络模型的权重作为识别模型。
步骤150:根据识别模型对用户的上网行为进行识别。
在本步骤中,将获取的用户的上网特征信息输入识别模型,得到该上网特征信息对应于每一访问类型的概率,将概率最大值对应的访问类型作为该用户此次上网行为的访问类型。
本发明实施例通过控制上网设备访问目标应用软件,以获取上网行为数据,与现有的通过人工方式获取上网行为数据的方式相比,无需人工介入,节省了人力成本;对上网行为数据中的上网特征信息及上网特征信息对应的访问类型进行编码,得到训练数据,根据训练数据训练深度神经网络模型,得到识别模型,根据识别模型对用户的上网行为进行识别。本发明实施例训练得到的识别模型包括了目标应用软件的所有上网特征信息,与现有技术中通过数据库匹配方式进行识别的方法相比,识别的准确率更高。
图3示出了本发明第二实施例的一种上网行为识别方法的流程图,如图3所示,本发明实施例包括以下步骤:
步骤210:控制上网设备访问目标应用软件,以获取上网行为数据,上网行为数据包括上网特征信息及上网特征信息对应的访问类型。
步骤220:通过预设的正则表达式对上网特征信息进行过滤。
正则表达式是对字符串进行操作的一种逻辑公式,通过预先定义好的一些字符以及字符的组合形成规则字符串,通过该字符串对上网特征信息进行过滤。当控制上网设备访问目标应用软件时,如果上网设备识别出爬虫,从而拒绝访问,则得到的上网特征信息为空数据,此时,预设的正则表达式为空,用于将得到的上网特征信息与该预设的正则表达式进行匹配,如果匹配成功,则将该上网信息剔除。
步骤230:对过滤后的上网特征信息及上网特征信息对应的访问类型编码,得到训练数据。
步骤240:根据训练数据训练深度神经网络模型,得到识别模型。
步骤250:根据识别模型对用户的上网行为进行识别。
本发明实施例通过预设的正则表达式对上网特征信息进行特征匹配,从而过滤掉一些空数据,保证了训练数据的有效性。
图4示出了本发明第三实施例的一种上网行为识别方法的流程图,如图4所示,本发明实施例包括以下步骤:
步骤310:控制上网设备访问目标应用软件,以获取上网行为数据,上网行为数据包括上网特征信息及上网特征信息对应的访问类型。
步骤320:对上网特征信息及上网特征信息对应的访问类型编码,得到训练数据。
步骤310至步骤320的描述请参考第一实施例中步骤110至步骤120的描述,为了描述简洁,在此不再赘述。
步骤330:对训练数据进行降维,得到降维后的训练数据。
本步骤中可以使用多种方式对训练数据进行降维,例如,使用传统的降维算法,主成分分析法、奇异值分解法等。为了最大可能的保留训练数据中包含的信息,本发明实施例使用嵌入操作Embedding进行降维,将Embedding层设置为深度神经网络输入层之后的一个单独的隐藏层,输入层与Embedding层之间的权重与训练识别模型的时,其余层之间的权重同时进行训练。由于对各维度的上网特征信息进行了对齐,因此,训练数据中的上网特征信息包含有大量的零值,Embedding操作可以被理解为将包含有大量零值的训练数据与一个矩阵相乘,得到一个不包含零值的低维稠密矩阵,该矩阵相当于输入层与Embedding层之间的权重。
步骤340:根据降维后的训练数据训练深度神经网络模型,得到识别模型。
步骤350:根据识别模型对用户上网行为进行识别。
步骤340至步骤350的描述请参考第一实施例中的步骤140至步骤150的说明,为陈述简便,在此不再赘述。
本发明实施例通过将训练数据进行降维得到降维后的训练数据,并使用降维后的训练数据训练识别模型。降维后的训练数据相较于降维之前的训练数据具有较少的特征维度,从而降低了训练过程的复杂度。
图5示出了本发明第四实施例的一种上网行为识别装置的功能框图。如图5所示,该装置包括:控制模块410、编码模块420、训练模块430和识别模块440。控制模块410,用于控制上网设备访问目标应用软件,以获取上网行为数据,所述上网行为数据包括上网特征信息及所述上网特征信息对应的访问类型。编码模块420,用于对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据。训练模块430,用于根据所述训练数据训练深度神经网络模型,得到识别模型。识别模块440,用于根据所述识别模型对用户的上网行为进行识别。
在一种可选的方式中,控制模块430进一步用于:
根据预先定义的访问规则控制上网设备访问目标应用软件,得到访问日志,所述预先定义的访问规则包括访问命令和访问类型之间的对应关系;
从所述访问日志中提取所述上网行为数据。
在一种可选的方式中,所述装置还包括过滤模块450,用于通过预设的正则表达式对所述上网特征信息进行过滤;
所述编码模块420进一步用于:
对过滤后的所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据。
在一种可选的方式中,编码模块420进一步用于:
在预设的编码库中获取所述上网特征信息对应的编码;
将所述上网特征信息在所述预设的编码库中对应的编码进行转换,得到标准格式的编码,所述转换包括对齐和归一化;
根据预设编码规则对所述访问类型进行编码,得到访问类型标识;
将所述标准格式的编码及所述访问类型标识之间的对应关系作为训练数据。
在一种可选的方式中,所述装置还包括降维模块460,用于对所述训练数据进行降维,得到降维后的所述训练数据。
训练模块430进一步用于根据降维后的所述训练数据训练深度神经网络模型,得到识别模型。
在一种可选的方式中,训练模块430进一步用于:
构建深度神经网络模型架构;
初始化所述深度神经网络模型的权重;
将所述训练数据划分为多组,每一组包括多个训练数据,将一组训练数据的上网特征信息输入所述深度神经网络模型,根据输入的所述训练数据和所述权重得到输出结果;
根据所述输出结果与所述上网特征信息对应的访问类型编码计算损失函数值;
根据所述损失函数值更新所述深度神经网络模型的权重,并输入另一组训练数据的上网特征信息,直至所述损失函数值最小;
将使所述损失函数值最小的权重作为所述深度神经网络模型的权重;
将构建的深度神经网络模型架构和该深度神经网络模型的权重作为识别模型。
在一种可选的方式中,识别模块440进一步用于:
获取用户的上网特征信息;
将所述用户的上网特征信息输入所述识别模型,得到所述用户的上网特征信息对应于每一访问类型的概率;
将所述概率最大值作为所述用户的访问类型。
本发明实施例通过控制模块410控制上网设备访问目标应用软件,以获取上网行为数据,与现有的通过人工方式获取上网行为数据的方式相比,无需人工介入,节省了人力成本;通过编码模块420对上网行为数据中的上网特征信息及上网特征信息对应的访问类型进行编码,得到训练数据,根据训练模块430训练深度神经网络模型,得到识别模型,根据识别模块440对用户的上网行为进行识别。本发明实施例训练得到的识别模型包括了目标应用软件的所有上网特征信息,与现有技术中通过数据库匹配方式进行识别的方法相比,识别的准确率更高。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的一种上网行为识别方法。
图6示出了本发明第五实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图6所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述用于上网行为识别方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行图2中的步骤110~步骤150、图3中的步骤210~步骤250、图4中的步骤310~步骤350,以及实现图5中的模块410~模块460的功能。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (9)

1.一种上网行为识别方法,其特征在于,所述方法应用于计算机设备中,所述方法包括:
根据预先定义的访问命令控制上网设备执行所述访问命令对应的访问类型访问目标应用软件,以得到访问日志,从所述访问日志中提取上网行为数据,所述上网行为数据包括上网特征信息及所述上网特征信息对应的所述访问类型;其中,目标应用软件是指上网设备的软件商城中的热门软件,所述计算机设备预先设置有模拟访问脚本以及自动抓包工具,模拟访问脚本预先定义了访问命令和访问类型之间的对应关系;
对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据;
根据所述训练数据训练深度神经网络模型,得到识别模型;其中,所述深度神经网络模型包括输入层、多个隐藏层及输出层,输出层使用归一化指数函数softmax函数作为激活函数;
根据所述识别模型对用户的上网行为进行识别。
2.根据权利要求1所述的方法,其特征在于,在对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据之前,所述方法还包括:
通过预设的正则表达式对所述上网特征信息进行过滤;
所述对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据,包括:
对过滤后的所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述上网特征信息及所述上网特征信息对应的访问类型进行编码,得到训练数据,包括:
在预设的编码库中获取所述上网特征信息对应的编码;
将所述上网特征信息在所述预设的编码库中对应的编码进行转换,得到标准格式的编码,所述转换包括对齐和归一化;
根据预设编码规则对所述访问类型进行编码,得到访问类型标识;
将所述标准格式的编码及所述访问类型标识之间的对应关系作为所述训练数据。
4.根据权利要求1所述的方法,其特征在于,在根据所述训练数据训练深度神经网络模型,得到识别模型之前,所述方法还包括:
对所述训练数据进行降维,得到降维后的所述训练数据;
所述根据所述训练数据训练深度神经网络模型,包括:
根据降维后的所述训练数据训练深度神经网络模型,得到识别模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据训练深度神经网络模型,得到识别模型,包括:
构建深度神经网络模型架构;
初始化所述深度神经网络模型的权重;
将所述训练数据划分为多组,每一组包括多个训练数据,将一组训练数据的上网特征信息输入所述深度神经网络模型,根据输入的所述训练数据和所述权重得到输出结果;
根据所述输出结果与所述上网特征信息对应的访问类型编码计算损失函数值;
根据所述损失函数值更新所述深度神经网络模型的权重,并输入另一组训练数据的上网特征信息,直至所述损失函数值最小;
将使所述损失函数值最小的权重作为所述深度神经网络模型的权重;
将构建的深度神经网络模型架构和该深度神经网络模型的权重作为识别模型。
6.根据权利要求1所述的方法,其特征在于,根据所述识别模型对用户的上网行为进行识别,包括:
获取用户的上网特征信息;
将所述用户的上网特征信息输入所述识别模型,得到所述用户的上网特征信息对应于每一访问类型的概率;
将所述概率最大值对应的访问类型作为所述用户的访问类型。
7.一种上网行为识别装置,其特征在于,所述装置应用于计算机设备中,所述装置包括:
控制模块,用于根据预先定义的访问命令控制上网设备执行所述访问命令对应的访问类型访问目标应用软件,得到访问日志,从所述访问日志中提取上网行为数据,所述上网行为数据包括上网特征信息及所述上网特征信息对应的所述访问类型;其中,目标应用软件是指上网设备的软件商城中的热门软件,其中所述计算机设备预先设置有模拟访问脚本以及自动抓包工具,模拟访问脚本预先定义了访问命令和访问类型之间的对应关系;
编码模块,用于对所述上网特征信息及所述上网特征信息对应的访问类型编码,得到训练数据;
训练模块,用于根据所述训练数据训练深度神经网络模型,得到识别模型;其中,所述深度神经网络模型包括输入层、多个隐藏层及输出层,输出层使用归一化指数函数softmax函数作为激活函数;
识别模块,用于根据所述识别模型对用户的上网行为进行识别。
8.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6任一项所述的一种上网行为识别方法对应的操作。
9.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-6任一项所述的一种上网行为识别方法对应的操作。
CN201910854664.7A 2019-09-10 2019-09-10 上网行为识别方法、装置、计算设备及计算机存储介质 Active CN112559840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854664.7A CN112559840B (zh) 2019-09-10 2019-09-10 上网行为识别方法、装置、计算设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854664.7A CN112559840B (zh) 2019-09-10 2019-09-10 上网行为识别方法、装置、计算设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112559840A CN112559840A (zh) 2021-03-26
CN112559840B true CN112559840B (zh) 2023-08-18

Family

ID=75029002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854664.7A Active CN112559840B (zh) 2019-09-10 2019-09-10 上网行为识别方法、装置、计算设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112559840B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156611A (zh) * 2015-03-25 2016-11-23 北京奇虎科技有限公司 智能手机应用程序的动态分析方法及系统
CN107045607A (zh) * 2016-12-13 2017-08-15 全球能源互联网研究院 应用异常行为识别模型建立方法及装置、识别方法及装置
CN108205707A (zh) * 2017-09-27 2018-06-26 深圳市商汤科技有限公司 生成深度神经网络的方法、装置和计算机可读存储介质
CN108280160A (zh) * 2018-01-17 2018-07-13 北京小度信息科技有限公司 一种消息推送方法、装置、服务器和计算机可读存储介质
CN109861957A (zh) * 2018-11-06 2019-06-07 中国科学院信息工程研究所 一种移动应用私有加密协议的用户行为精细化分类方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808639B (zh) * 2016-02-24 2021-02-09 平安科技(深圳)有限公司 网络访问行为识别方法和装置
US11521221B2 (en) * 2018-03-01 2022-12-06 Adobe Inc. Predictive modeling with entity representations computed from neural network models simultaneously trained on multiple tasks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156611A (zh) * 2015-03-25 2016-11-23 北京奇虎科技有限公司 智能手机应用程序的动态分析方法及系统
CN107045607A (zh) * 2016-12-13 2017-08-15 全球能源互联网研究院 应用异常行为识别模型建立方法及装置、识别方法及装置
CN108205707A (zh) * 2017-09-27 2018-06-26 深圳市商汤科技有限公司 生成深度神经网络的方法、装置和计算机可读存储介质
CN108280160A (zh) * 2018-01-17 2018-07-13 北京小度信息科技有限公司 一种消息推送方法、装置、服务器和计算机可读存储介质
CN109861957A (zh) * 2018-11-06 2019-06-07 中国科学院信息工程研究所 一种移动应用私有加密协议的用户行为精细化分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张志等.5.1.4 实现ADB对手机的基本操作.《Android移动应用测试实战》.西安电子科技大学出版社,2017, *

Also Published As

Publication number Publication date
CN112559840A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN111191791B (zh) 基于机器学习模型的图片分类方法、装置及设备
EP4145308A1 (en) Search recommendation model training method, and search result sorting method and device
WO2022068623A1 (zh) 一种模型训练方法及相关设备
CN108021806B (zh) 一种恶意安装包的识别方法和装置
WO2021174774A1 (zh) 神经网络关系抽取方法、计算机设备及可读存储介质
KR102250728B1 (ko) 샘플 처리 방법, 장치, 기기 및 저장 매체
CN111125598A (zh) 数据智能查询方法、装置、设备及存储介质
CN111738403B (zh) 一种神经网络的优化方法及相关设备
EP3888016A1 (en) Dynamic reconfiguration training computer architecture
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN110659667A (zh) 图片分类模型训练方法、系统和计算机设备
CN111914159A (zh) 一种信息推荐方法及终端
CN111126626A (zh) 一种训练方法、装置、服务器、平台及存储介质
CN111461979A (zh) 验证码图像去噪识别方法、电子装置及存储介质
CN114419363A (zh) 基于无标注样本数据的目标分类模型训练方法及装置
WO2021042895A1 (zh) 基于神经网络的验证码识别方法、系统及计算机设备
CN112115266A (zh) 恶意网址的分类方法、装置、计算机设备和可读存储介质
CN113723603A (zh) 一种更新参数的方法、装置及存储介质
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN112559840B (zh) 上网行为识别方法、装置、计算设备及计算机存储介质
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
CN116343221A (zh) 证件信息自动录入方法和装置、电子设备及存储介质
CN110889316A (zh) 一种目标对象识别方法、装置及存储介质
CN113468604A (zh) 基于人工智能的大数据隐私信息解析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant