CN107766928A - 一种基于人工神经网络模型和ua信息的终端识别方法 - Google Patents
一种基于人工神经网络模型和ua信息的终端识别方法 Download PDFInfo
- Publication number
- CN107766928A CN107766928A CN201711011866.2A CN201711011866A CN107766928A CN 107766928 A CN107766928 A CN 107766928A CN 201711011866 A CN201711011866 A CN 201711011866A CN 107766928 A CN107766928 A CN 107766928A
- Authority
- CN
- China
- Prior art keywords
- neuron
- network model
- terminal
- nerve network
- output neuron
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种基于人工神经网络模型和UA信息的终端识别方法,包括:1、构建人工神经网络模型;2、当匹配时,从UA信息中提取出特征字符串,将所有的特征字符串通过分词算法进行分词;3、将分词后的每个特征字符串作为人工神经网络模型的输入神经元依次进行输入,对每个输入神经元进行激发传导,当传导到某个输出神经元时,如果该输出神经元的激发值大于设定的阈值,则对应的输出神经元被激活,进入步骤4,否则,输出神经元未被激活;4、若被激发的输出神经元的个数为1,则识别出其终端,并输出终端信息;否则识别出激发值最大的输出神经元,识别出终端,并输出终端信息。本发明能使得匹配性能和效率得到明显提高。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种基于人工神经网络模型和UA信息的终端识别方法。
背景技术
目前电信DPI项目需要针对用户终端类型来进行大数据统计分析,其中用户终端类型的识别是整个技术的关键。目前,主流的终端识别方案是根据用户上网使用的浏览器发起的HTTP的请求包头中的User-Agent信息(简称UA,中文名为用户代理,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)来进行匹配识别。而之前的UA识别是通过匹配正则库来进行识别,需要将UA与特征正则库里的正则循环进行匹配,由于正则本身效率就比较低下,加之循环匹配(之前的正则库里收录的正则大约有3000多条,对应大约市面上3000多款用户终端,但很难将市面上的终端型号全部囊括)使得这种方式匹配的效率与准确率都不高,而且对于正则库的维护需要掌握一定的正则编写能力,而正则的编写,即使是研发人员,大部分也不是十分精通,故对于人力成本也相对较高。
发明内容
本发明要解决的技术问题,在于提供一种基于人工神经网络模型和UA信息的终端识别方法,构建一个由特征字符串作为输入神经元,终端信息作为输出神经元的人工神经网络模型,并利用神经网络传导的方式来得到最终的终端结果,使用神经网络传导比起利用一条条正则去匹配,其性能和效率得到明显提高。
本发明的问题是这样实现的:
一种基于人工神经网络模型和UA信息的终端识别方法,包括如下步骤:
步骤1、构建人工神经网络模型,在人工神经网络模型中创建复数个特征字符串、复数个终端型号以及特征字符串和终端型号之间对应的传导关系;将UA信息中的特征字符串作为输入神经元,将终端型号作为输出神经元,输入神经元与输出神经元之间通过神经网络进行传导;
步骤2、当匹配UA信息与终端时,从用户上网产生的UA信息中提取出相应的特征字符串,将所有的特征字符串通过分词算法进行分词;
步骤3、将分词后的每个特征字符串作为人工神经网络模型的输入神经元依次进行输入,由神经网络对每个输入神经元进行激发传导,当传导到某个输出神经元时,如果该输出神经元的激发值大于设定的阈值,则对应的输出神经元被激活,进入步骤4,否则,输出神经元未被激活;
步骤4、若被激发的输出神经元的个数为1,则根据该输出神经元对应的终端型号识别出其终端,并输出其终端信息;若输出神经元的个数大于1,则判断输出神经元的激发值的大小,识别出激发值最大的输出神经元,获得其对应的终端型号,根据终端型号识别出终端,并输出其终端信息。
进一步地,所述步骤4之后还包括:
步骤5、通过算法将新的特征字符串自动添加入人工神经网络模型中作为输入神经元或将新的终端型号自动添加入人工神经网络模型中作为输出神经元,并建立相应的传导关系。
进一步地,所述步骤2中将所有的特征字符串通过分词算法进行分词具体为:
将所有的特征字符串加入到一个分词Hash词库中,通过逆向最大匹配算法或正向最大匹配算法进行分词分割。
本发明的优点在于:基于人工神经网络模型的UA匹配利用的是将UA信息中的一些特征字符串与对应的终端联系起来,构建成一个由特征字符串作为输入神经元,终端信息作为输出神经元,中间相互连接传导的人工神经网络模型,并利用神经网络传导的方式来得到最终的终端结果,使用神经网络传导比起利用一条条正则去匹配,其性能和效率得到明显提高,而且人工神经网络模型是通过将已有的特征字符串,通过算法自动构建出一个逻辑数学模型,对于后期维护人员来说只需要添加新的特征字符串,再重新通过算法将特征字符串自动加入神经网络节点,而不需要去学习和维护正则库。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明的人工神经网络模型结构图。
图2为本发明一种基于人工神经网络模型和UA信息的终端识别方法执行流程图。
具体实施方式
为使得本发明更明显易懂,现以一优选实施例,并配合附图作详细说明如下。
如图1和图2所示,本发明的一种基于人工神经网络模型和UA信息的终端识别方法,包括如下步骤:
步骤1、构建人工神经网络模型,在人工神经网络模型中创建复数个特征字符串、复数个终端型号以及特征字符串和终端型号之间对应的传导关系;将UA信息中的特征字符串作为输入神经元,将终端型号作为输出神经元,输入神经元与输出神经元之间通过神经网络进行传导;
(对应同一终端型号的特征字符串作为一组列入一个特征文件中,如图1所示:特征文件1中包含有终端型号1以及和终端型号1对应的特征字符串n,特征文件2中包含有终端型号2以及和终端型号2对应的特征字符串1、特征字符串2和特征字符串3,特征文件3中包含有终端型号3以及和终端型号3对应的特征字符串3和特征字符串n-1,……特征文件n中包含有终端型号n以及和终端型号n对应的特征字符串1和特征字符串n;将各特征文件通过程序进行加载,存储于内存中,供匹配时进行查找;维护只需要对特征文件中的特征字符串做添加即可,后期需要维护较大的特征库时比如数据量在十万记录以上,可以使用数据库来进行存储)
步骤2、当匹配UA信息与终端时,从用户上网产生的UA信息中提取出相应的特征字符串,将所有的特征字符串通过分词算法进行分词;
如:一个用户的上网产生的UA信息记录为“Dalvik/1.6.0(Linux;U;Android 4.3;H30-C00Build/HuaweiH30-C00”(虽然UA信息里面不包含中文,但是里面有很多非空格的分割符,还有两个词直接连在一起的情况,例如:HuaweiH30-C00应该是Huawei,H30,C00这三个词,所以需要使用分词算法进行分词),其中的特征字符串为“H30”、“C00”和“Huawei”,这里的特征字符串类似于UA信息中的关键字,一款终端可以有多个特征字符串,特征字符串越多,匹配到的终端准确性也就越高;将HuaweiH30-C00加入到一个分词Hash词库中,通过逆向最大匹配算法或正向最大匹配算法进行分词分割,得到:Huawei,H30,C00;
或者先就将“Dalvik/1.6.0(Linux;U;Android 4.3;H30-C00 Build/HuaweiH30-C00”加入到一个分词Hash词库中,通过逆向最大匹配算法或正向最大匹配算法进行分词分割,得到如:Dalvik,1.6.0,Linux,U,Android,4.3,H30,C00,Build,Huawei,H30,C00),再提取出分词后对应的特征字符串:Huawei,H30,C00;
步骤3、将分词后的每个特征字符串(Huawei,H30,C00)作为人工神经网络模型的输入神经元依次进行输入(特征字符串为神经网络模型的输入条件),由神经网络对每个输入神经元进行激发传导,当传导到某个输出神经元时,如果该输出神经元的激发值大于设定的阈值(激发值就是每一个输出神经元有一个状态值,当它的每一个输入神经元将信息传导到这个输出神经元的时候,它的状态值就会根据其传导下来的信息发生改变,如:终端型号2对应的特征字符串1、特征字符串2和特征字符串3,输入特征字符串1时,终端型号2的激发值为3,再输入特征字符串2时,终端型号2的激发值会相应地变为4,再次输入特征字符串3时,终端型号2的激发值会相应地变为5),则对应的输出神经元被激活,进入步骤4,否则,输出神经元未被激活;
步骤4、若被激发的输出神经元的个数为1,则根据该输出神经元对应的终端型号识别出其终端,并输出其终端信息,如:HW-荣耀3C(H30-C00/1GB RAM/电信3G);若输出神经元的个数大于1,则判断输出神经元的激发值的大小,识别出激发值最大的输出神经元,获得其对应的终端型号,根据终端型号识别出终端,并输出其终端信息;
步骤5、通过算法将新的特征字符串自动添加入人工神经网络模型中作为输入神经元或将新的终端型号自动添加入人工神经网络模型中作为输出神经元,并建立相应的传导关系(添加新的特征字符串和新的终端型号到对应的特征文件中进行存储和查找)。
综上所述,本发明的优点如下:
基于人工神经网络模型的UA匹配利用的是将UA信息中的一些特征字符串与对应的终端联系起来,构建成一个由特征字符串作为输入神经元,终端信息作为输出神经元,中间相互连接传导的人工神经网络模型,并利用神经网络传导的方式来得到最终的终端结果,使用神经网络传导比起利用一条条正则去匹配,其性能和效率得到明显提高,而且人工神经网络模型是通过将已有的特征字符串,通过算法自动构建出一个逻辑数学模型,对于后期维护人员来说只需要添加新的特征字符串,再重新通过算法将特征字符串自动加入神经网络节点,而不需要去学习和维护正则库。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (3)
1.一种基于人工神经网络模型和UA信息的终端识别方法,其特征在于:包括如下步骤:
步骤1、构建人工神经网络模型,在人工神经网络模型中创建复数个特征字符串、复数个终端型号以及特征字符串和终端型号之间对应的传导关系;将UA信息中的特征字符串作为输入神经元,将终端型号作为输出神经元,输入神经元与输出神经元之间通过神经网络进行传导;
步骤2、当匹配UA信息与终端时,从用户上网产生的UA信息中提取出相应的特征字符串,将所有的特征字符串通过分词算法进行分词;
步骤3、将分词后的每个特征字符串作为人工神经网络模型的输入神经元依次进行输入,由神经网络对每个输入神经元进行激发传导,当传导到某个输出神经元时,如果该输出神经元的激发值大于设定的阈值,则对应的输出神经元被激活,进入步骤4,否则,输出神经元未被激活;
步骤4、若被激发的输出神经元的个数为1,则根据该输出神经元对应的终端型号识别出其终端,并输出其终端信息;若输出神经元的个数大于1,则判断输出神经元的激发值的大小,识别出激发值最大的输出神经元,获得其对应的终端型号,根据终端型号识别出终端,并输出其终端信息。
2.如权利要求1所述的一种基于人工神经网络模型和UA信息的终端识别方法,其特征在于:所述步骤4之后还包括:
步骤5、通过算法将新的特征字符串自动添加入人工神经网络模型中作为输入神经元或将新的终端型号自动添加入人工神经网络模型中作为输出神经元,并建立相应的传导关系。
3.如权利要求1所述的一种基于人工神经网络模型和UA信息的终端识别方法,其特征在于:所述步骤2中将所有的特征字符串通过分词算法进行分词具体为:
将所有的特征字符串加入到一个分词Hash词库中,通过逆向最大匹配算法或正向最大匹配算法进行分词分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711011866.2A CN107766928A (zh) | 2017-10-25 | 2017-10-25 | 一种基于人工神经网络模型和ua信息的终端识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711011866.2A CN107766928A (zh) | 2017-10-25 | 2017-10-25 | 一种基于人工神经网络模型和ua信息的终端识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107766928A true CN107766928A (zh) | 2018-03-06 |
Family
ID=61270628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711011866.2A Pending CN107766928A (zh) | 2017-10-25 | 2017-10-25 | 一种基于人工神经网络模型和ua信息的终端识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766928A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359462A (zh) * | 2018-09-29 | 2019-02-19 | 武汉极意网络科技有限公司 | 虚假设备识别方法、设备、存储介质及装置 |
CN109582844A (zh) * | 2018-11-07 | 2019-04-05 | 北京三快在线科技有限公司 | 一种识别爬虫的方法、装置及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030204A (zh) * | 2006-02-27 | 2007-09-05 | 株式会社日立制作所 | 在用户终端设备上生成用户界面的入口服务器和方法 |
CN101365190A (zh) * | 2007-08-08 | 2009-02-11 | 上海亿动信息技术有限公司 | 手机终端的用户手机信息字符串的检索匹配方法和装置 |
CN102932775A (zh) * | 2012-11-16 | 2013-02-13 | 广州市通联技术发展有限公司 | 一种利用imei与ua结合进行终端识别的方法及装置 |
CN107122375A (zh) * | 2016-12-12 | 2017-09-01 | 南京理工大学 | 基于图像特征的图像主体的识别方法 |
CN107145968A (zh) * | 2017-04-13 | 2017-09-08 | 河海大学常州校区 | 基于bp神经网络的光伏设备生命周期费用预测方法及系统 |
-
2017
- 2017-10-25 CN CN201711011866.2A patent/CN107766928A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030204A (zh) * | 2006-02-27 | 2007-09-05 | 株式会社日立制作所 | 在用户终端设备上生成用户界面的入口服务器和方法 |
CN101365190A (zh) * | 2007-08-08 | 2009-02-11 | 上海亿动信息技术有限公司 | 手机终端的用户手机信息字符串的检索匹配方法和装置 |
CN102932775A (zh) * | 2012-11-16 | 2013-02-13 | 广州市通联技术发展有限公司 | 一种利用imei与ua结合进行终端识别的方法及装置 |
CN107122375A (zh) * | 2016-12-12 | 2017-09-01 | 南京理工大学 | 基于图像特征的图像主体的识别方法 |
CN107145968A (zh) * | 2017-04-13 | 2017-09-08 | 河海大学常州校区 | 基于bp神经网络的光伏设备生命周期费用预测方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359462A (zh) * | 2018-09-29 | 2019-02-19 | 武汉极意网络科技有限公司 | 虚假设备识别方法、设备、存储介质及装置 |
CN109359462B (zh) * | 2018-09-29 | 2020-10-16 | 武汉极意网络科技有限公司 | 虚假设备识别方法、设备、存储介质及装置 |
CN109582844A (zh) * | 2018-11-07 | 2019-04-05 | 北京三快在线科技有限公司 | 一种识别爬虫的方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230205610A1 (en) | Systems and methods for removing identifiable information | |
CN109413028A (zh) | 基于卷积神经网络算法的sql注入检测方法 | |
CN109831392B (zh) | 半监督网络流量分类方法 | |
CN108897732B (zh) | 语句类型识别方法和装置、存储介质及电子装置 | |
Hu et al. | CLD-Net: a network combining CNN and LSTM for internet encrypted traffic classification | |
CN109408811A (zh) | 一种数据处理方法及服务器 | |
CN110532564A (zh) | 一种基于cnn和lstm混合模型的应用层协议在线识别方法 | |
CN112580328A (zh) | 事件信息的抽取方法及装置、存储介质、电子设备 | |
CN108063768A (zh) | 基于网络基因技术的网络恶意行为识别方法及装置 | |
CN107257390A (zh) | 一种url地址的解析方法和系统 | |
CN108229170A (zh) | 利用大数据和神经网络的软件分析方法和装置 | |
CN108319518A (zh) | 基于循环神经网络的文件碎片分类方法及装置 | |
CN110298041A (zh) | 垃圾文本过滤方法、装置、电子设备及存储介质 | |
CN107766928A (zh) | 一种基于人工神经网络模型和ua信息的终端识别方法 | |
CN105045808A (zh) | 一种复合规则集匹配方法和系统 | |
CN114297079A (zh) | 基于时间卷积网络的xss模糊测试用例生成方法 | |
CN110472230B (zh) | 中文文本的识别方法及装置 | |
CN112104602A (zh) | 一种基于cnn迁移学习的网络入侵检测方法 | |
Graham et al. | Finding and visualizing graph clusters using pagerank optimization | |
CN114817808A (zh) | 非法网站识别方法、装置、电子装置和存储介质 | |
CN113254649B (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN110413994A (zh) | 热点话题生成方法、装置、计算机设备和存储介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN115314268B (zh) | 基于流量指纹和行为的恶意加密流量检测方法和系统 | |
CN115238799A (zh) | 基于ai随机森林恶意流量检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 350000 12, 89 Avenue, Wufeng street, Gulou District, Fuzhou, Fujian. Applicant after: China Electric fufu Mdt InfoTech Ltd Address before: 350000 12, 89 Avenue, Wufeng street, Gulou District, Fuzhou, Fujian. Applicant before: Fujian Fushitong Information Software Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180306 |
|
RJ01 | Rejection of invention patent application after publication |