CN107766928A

CN107766928A - 一种基于人工神经网络模型和ua信息的终端识别方法

Info

Publication number: CN107766928A
Application number: CN201711011866.2A
Authority: CN
Inventors: 郑炎
Original assignee: Fujian Fujitsu Communication Software Co Ltd
Current assignee: Fujian Fujitsu Communication Software Co Ltd
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2018-03-06

Abstract

本发明提供一种基于人工神经网络模型和UA信息的终端识别方法，包括：1、构建人工神经网络模型；2、当匹配时，从UA信息中提取出特征字符串，将所有的特征字符串通过分词算法进行分词；3、将分词后的每个特征字符串作为人工神经网络模型的输入神经元依次进行输入，对每个输入神经元进行激发传导，当传导到某个输出神经元时，如果该输出神经元的激发值大于设定的阈值，则对应的输出神经元被激活，进入步骤4，否则，输出神经元未被激活；4、若被激发的输出神经元的个数为1，则识别出其终端，并输出终端信息；否则识别出激发值最大的输出神经元，识别出终端，并输出终端信息。本发明能使得匹配性能和效率得到明显提高。

Description

一种基于人工神经网络模型和UA信息的终端识别方法

技术领域

本发明涉及通信技术领域，尤其涉及一种基于人工神经网络模型和UA信息的终端识别方法。

背景技术

目前电信DPI项目需要针对用户终端类型来进行大数据统计分析，其中用户终端类型的识别是整个技术的关键。目前，主流的终端识别方案是根据用户上网使用的浏览器发起的HTTP的请求包头中的User-Agent信息(简称UA，中文名为用户代理，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)来进行匹配识别。而之前的UA识别是通过匹配正则库来进行识别，需要将UA与特征正则库里的正则循环进行匹配，由于正则本身效率就比较低下，加之循环匹配(之前的正则库里收录的正则大约有3000多条，对应大约市面上3000多款用户终端，但很难将市面上的终端型号全部囊括)使得这种方式匹配的效率与准确率都不高，而且对于正则库的维护需要掌握一定的正则编写能力，而正则的编写，即使是研发人员，大部分也不是十分精通，故对于人力成本也相对较高。

发明内容

本发明要解决的技术问题，在于提供一种基于人工神经网络模型和UA信息的终端识别方法，构建一个由特征字符串作为输入神经元，终端信息作为输出神经元的人工神经网络模型，并利用神经网络传导的方式来得到最终的终端结果，使用神经网络传导比起利用一条条正则去匹配，其性能和效率得到明显提高。

本发明的问题是这样实现的：

一种基于人工神经网络模型和UA信息的终端识别方法，包括如下步骤：

步骤1、构建人工神经网络模型，在人工神经网络模型中创建复数个特征字符串、复数个终端型号以及特征字符串和终端型号之间对应的传导关系；将UA信息中的特征字符串作为输入神经元，将终端型号作为输出神经元，输入神经元与输出神经元之间通过神经网络进行传导；

步骤2、当匹配UA信息与终端时，从用户上网产生的UA信息中提取出相应的特征字符串，将所有的特征字符串通过分词算法进行分词；

步骤3、将分词后的每个特征字符串作为人工神经网络模型的输入神经元依次进行输入，由神经网络对每个输入神经元进行激发传导，当传导到某个输出神经元时，如果该输出神经元的激发值大于设定的阈值，则对应的输出神经元被激活，进入步骤4，否则，输出神经元未被激活；

步骤4、若被激发的输出神经元的个数为1，则根据该输出神经元对应的终端型号识别出其终端，并输出其终端信息；若输出神经元的个数大于1，则判断输出神经元的激发值的大小，识别出激发值最大的输出神经元，获得其对应的终端型号，根据终端型号识别出终端，并输出其终端信息。

进一步地，所述步骤4之后还包括：

步骤5、通过算法将新的特征字符串自动添加入人工神经网络模型中作为输入神经元或将新的终端型号自动添加入人工神经网络模型中作为输出神经元，并建立相应的传导关系。

进一步地，所述步骤2中将所有的特征字符串通过分词算法进行分词具体为：

将所有的特征字符串加入到一个分词Hash词库中，通过逆向最大匹配算法或正向最大匹配算法进行分词分割。

本发明的优点在于：基于人工神经网络模型的UA匹配利用的是将UA信息中的一些特征字符串与对应的终端联系起来，构建成一个由特征字符串作为输入神经元，终端信息作为输出神经元，中间相互连接传导的人工神经网络模型，并利用神经网络传导的方式来得到最终的终端结果，使用神经网络传导比起利用一条条正则去匹配，其性能和效率得到明显提高，而且人工神经网络模型是通过将已有的特征字符串，通过算法自动构建出一个逻辑数学模型，对于后期维护人员来说只需要添加新的特征字符串，再重新通过算法将特征字符串自动加入神经网络节点，而不需要去学习和维护正则库。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明的人工神经网络模型结构图。

图2为本发明一种基于人工神经网络模型和UA信息的终端识别方法执行流程图。

具体实施方式

为使得本发明更明显易懂，现以一优选实施例，并配合附图作详细说明如下。

如图1和图2所示，本发明的一种基于人工神经网络模型和UA信息的终端识别方法，包括如下步骤：

(对应同一终端型号的特征字符串作为一组列入一个特征文件中，如图1所示：特征文件1中包含有终端型号1以及和终端型号1对应的特征字符串n，特征文件2中包含有终端型号2以及和终端型号2对应的特征字符串1、特征字符串2和特征字符串3，特征文件3中包含有终端型号3以及和终端型号3对应的特征字符串3和特征字符串n-1,……特征文件n中包含有终端型号n以及和终端型号n对应的特征字符串1和特征字符串n；将各特征文件通过程序进行加载，存储于内存中，供匹配时进行查找；维护只需要对特征文件中的特征字符串做添加即可，后期需要维护较大的特征库时比如数据量在十万记录以上，可以使用数据库来进行存储)

如：一个用户的上网产生的UA信息记录为“Dalvik/1.6.0(Linux；U；Android 4.3；H30-C00Build/HuaweiH30-C00”(虽然UA信息里面不包含中文，但是里面有很多非空格的分割符，还有两个词直接连在一起的情况，例如：HuaweiH30-C00应该是Huawei，H30，C00这三个词，所以需要使用分词算法进行分词)，其中的特征字符串为“H30”、“C00”和“Huawei”，这里的特征字符串类似于UA信息中的关键字，一款终端可以有多个特征字符串，特征字符串越多，匹配到的终端准确性也就越高；将HuaweiH30-C00加入到一个分词Hash词库中，通过逆向最大匹配算法或正向最大匹配算法进行分词分割，得到：Huawei,H30,C00；

或者先就将“Dalvik/1.6.0(Linux；U；Android 4.3；H30-C00 Build/HuaweiH30-C00”加入到一个分词Hash词库中，通过逆向最大匹配算法或正向最大匹配算法进行分词分割，得到如：Dalvik，1.6.0,Linux,U,Android,4.3,H30,C00,Build,Huawei,H30,C00)，再提取出分词后对应的特征字符串：Huawei,H30,C00；

步骤3、将分词后的每个特征字符串(Huawei,H30,C00)作为人工神经网络模型的输入神经元依次进行输入(特征字符串为神经网络模型的输入条件)，由神经网络对每个输入神经元进行激发传导，当传导到某个输出神经元时，如果该输出神经元的激发值大于设定的阈值(激发值就是每一个输出神经元有一个状态值，当它的每一个输入神经元将信息传导到这个输出神经元的时候，它的状态值就会根据其传导下来的信息发生改变，如：终端型号2对应的特征字符串1、特征字符串2和特征字符串3，输入特征字符串1时，终端型号2的激发值为3，再输入特征字符串2时，终端型号2的激发值会相应地变为4，再次输入特征字符串3时，终端型号2的激发值会相应地变为5)，则对应的输出神经元被激活，进入步骤4，否则，输出神经元未被激活；

步骤4、若被激发的输出神经元的个数为1，则根据该输出神经元对应的终端型号识别出其终端，并输出其终端信息，如：HW-荣耀3C(H30-C00/1GB RAM/电信3G)；若输出神经元的个数大于1，则判断输出神经元的激发值的大小，识别出激发值最大的输出神经元，获得其对应的终端型号，根据终端型号识别出终端，并输出其终端信息；

步骤5、通过算法将新的特征字符串自动添加入人工神经网络模型中作为输入神经元或将新的终端型号自动添加入人工神经网络模型中作为输出神经元，并建立相应的传导关系(添加新的特征字符串和新的终端型号到对应的特征文件中进行存储和查找)。

综上所述，本发明的优点如下：

基于人工神经网络模型的UA匹配利用的是将UA信息中的一些特征字符串与对应的终端联系起来，构建成一个由特征字符串作为输入神经元，终端信息作为输出神经元，中间相互连接传导的人工神经网络模型，并利用神经网络传导的方式来得到最终的终端结果，使用神经网络传导比起利用一条条正则去匹配，其性能和效率得到明显提高，而且人工神经网络模型是通过将已有的特征字符串，通过算法自动构建出一个逻辑数学模型，对于后期维护人员来说只需要添加新的特征字符串，再重新通过算法将特征字符串自动加入神经网络节点，而不需要去学习和维护正则库。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于人工神经网络模型和UA信息的终端识别方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于人工神经网络模型和UA信息的终端识别方法，其特征在于：所述步骤4之后还包括：

3.如权利要求1所述的一种基于人工神经网络模型和UA信息的终端识别方法，其特征在于：所述步骤2中将所有的特征字符串通过分词算法进行分词具体为：