CN106022349A

CN106022349A - 用于设备类型确定的方法和系统

Info

Publication number: CN106022349A
Application number: CN201610177921.4A
Authority: CN
Inventors: 李展雄; K·莱文斯基; H·辛格; 邓永昇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2015-03-27
Filing date: 2016-03-25
Publication date: 2016-10-12
Anticipated expiration: 2036-03-25
Also published as: US20160283853A1; CN106022349B; US10489714B2

Abstract

本公开涉及用于设备类型确定的方法和系统。方法包括识别来自第一设备的日志流，其中第一设备具有未知设备类型。所述方法还包括识别来自第一设备的日志流中的特征。所述方法还包括根据识别的来自第一设备的日志流的特征和来自多个已知设备类型的日志流中的特征的匹配，确定来自第一设备的日志流是由特定设备类型创建的概率。

Description

用于设备类型确定的方法和系统

技术领域

本发明涉及日志流，更具体地，涉及根据日志流确定设备类型。

背景技术

在计算技术中，日志文件是记录在操作系统或其它软件运行中发生的事件或者通信软件的不同用户之间的消息的文件。日志记录(logging)是记录日志的动作。在最简单的情况下，消息由计算设备写入单个日志文件中。

事件日志记录在系统的执行中发生的事件，以便提供可用于了解系统的活动和诊断问题的审计线索。事件日志是了解复杂系统的活动所必需的，尤其是对用户交互很少的应用(比如服务器应用)来说更是如此。

多数数据库系统保持某种类型的事务日志，所述事务日志并不主要意在作为供以后分析之用的审计线索，也并不意在为人类可读。事务日志记录对于所保存的数据的变化，以允许数据库从崩溃或其它数据错误进行恢复，并按一致的状态保持所保存的数据。从而，数据库系统通常既具有一般的事件日志，又具有事务日志。

依据Srinivasan等的US 8,589,436 B2，已知在数据流中进行基于正则表达式的模式匹配，该专利教导用于在一个或多个数据流中检测模式的技术。可利用正则表达式指定待检测的模式。在运行时期间，处理在数据流中接收的事件，以检测数据流中的指定模式的发生。

发明内容

本发明的实施例公开一种用于设备类型确定的方法。在一个实施例中，按照本发明，计算机实现的方法包括通过一个或多个计算机处理器识别来自第一设备的日志流，其中第一设备具有未知设备类型。所述方法还包括通过一个或多个计算机处理器识别来自第一设备的日志流中的特征。所述方法还包括通过一个或多个计算机处理器，根据识别的来自第一设备的日志流的特征与来自多个已知设备类型的日志流中的特征的匹配，确定来自第一设备的日志流是由特定设备类型创建的概率。

在又一个实施例中，计算机程序产品包括识别来自第一设备的日志流的程序指令，其中第一设备具有未知设备类型。所述计算机程序产品包括识别来自第一设备的日志流中的特征的程序指令。所述计算机程序产品包括根据识别的来自第一设备的日志流的特征与来自多个已知设备类型的日志流中的特征的匹配，确定来自第一设备的日志流是由特定设备类型创建的概率的程序指令。

在另一个实施例中，计算机系统包括识别来自第一设备的日志流的程序指令，其中第一设备具有未知设备类型。所述计算机系统包括识别来自第一设备的日志流中的特征的程序指令。所述计算机系统包括根据识别的来自第一设备的日志流的特征与来自多个已知设备类型的日志流中的特征的匹配，确定来自第一设备的日志流是由特定设备类型创建的概率的程序指令。

在另一个实施例中，所述方法包括通过一个或多个计算机处理器识别来自已知设备类型的各设备的一个或多个日志流。所述方法包括通过一个或多个计算机处理器识别来自已知设备类型的各设备的一个或多个日志流中的一个或多个特征。所述方法包括通过一个或多个计算机处理器，根据来自已知设备类型的一个或多个日志流中的一个或多个特征，生成用于确定来自未知设备类型的日志流对应于来自已知设备类型的日志流的概率的矩阵。

在另一个实施例中，其中在确定来自第一设备的日志流是由特定设备类型创建的概率时，所述方法包括通过一个或多个计算机处理器，根据生成的加权日志流特征的矩阵，确定来自第一设备的日志流是由特定设备类型创建的概率。

在另一个实施例中，其中在识别来自第一设备的日志流中的特征时，所述方法包括通过一个或多个计算机处理器识别日志流中的一个或多个元素，其中所述一个或多个元素包含日志流的功能部分。所述方法包括通过一个或多个计算机处理器识别下述至少之一：日志流中的一个或多个变量、日志流中的元素的位置、日志流中的元素之间的距离和日志流中的特征的模式。

在另一个实施例中，其中在生成矩阵时，所述方法还包括通过一个或多个计算机处理器，根据来自未知客户端设备类型的日志流中的识别特征与来自已知客户端设备类型的一个或多个日志流的一个或多个特征的共性，对来自未知客户端设备类型的日志流中的一个或多个识别特征加权。所述方法还包括通过一个或多个计算机处理器，生成包含来自已知设备类型的日志流的一个或多个加权特征以及来自第一设备类型的日志流的一个或多个加权特征的矩阵。

附图说明

图1是按照本发明的实施例图解说明分布式数据处理环境的功能方框图；

图2是按照本发明的实施例描述在图1的分布式数据处理环境内，生成日志指纹图谱数据库的程序的操作步骤的流程图；

图3是按照本发明的实施例描述在图1的分布式数据处理环境内，根据日志流确定设备类型的程序的操作步骤的流程图；

图4按照本发明的实施例描述通用设备日志；

图5按照本发明的实施例描述已被标记化(tokenized)的通用设备日志；

图6按照本发明的实施例描述来自标记化的设备日志的特性；

图7按照本发明的实施例描述从标记化的设备日志的特性生成的初始的指纹图谱矩阵；

图8按照本发明的实施例描述例证的日志特征权向量；

图9按照本发明的实施例描述从标记化的设备日志的特性生成的归一化的指纹图谱矩阵；

图10按照本发明的实施例描述利用日志特征权向量确定设备类型的概率的例证等式；

图11按照本发明的实施例描述利用日志特征权向量，确定设备类型的概率的等式的例证应用形式；

图12按照本发明的实施例描述表示设备特征的相互关系的例证示图；

图13按照本发明的实施例描述表示日志流源于特定设备的概率的欧拉图；和

图14按照本发明的实施例描述图1的客户端设备、服务器和web服务器的组件的方框图。

具体实施方式

本发明的实施例认识到可能理想的是确定正在创建日志流的设备的类型。一旦从日志流确定了设备类型，可以运行进一步的测试，以确定创建日志流的实际设备。本发明的实施例认识到随着日志流的数量增大，利用解析器识别日志流需要大量的资源。

本发明的实施例的实现可以采取各种形式，下面参考附图，讨论例证实现的细节。

图1是按照本发明的一个实施例，图解说明分布式数据处理环境(一般地表示为100)的功能方框图。图1只提供一种实现的例示，但不意味对其中可实现不同实施例的环境的任何限制。本领域的技术人员可以作出对于所描述环境的许多修改，而不脱离权利要求书所记载的本发明的范围。

分布式数据处理环境100包括通过网络112互连的服务器102和客户端设备104、106和108。网络112例如代表电信网络、局域网(LAN)、诸如因特网之类的广域网(WAN)或者这三者的组合，并包括有线、无线和/或光纤连接。网络112包括能够接收和传送数据、语音和/或视频信号(包括包含语音、数据和视频信息的多媒体信号)的一个或多个有线和/或无线网络。

在描述的实施例中，服务器102是管理服务器、web服务器、或者能够接收、分析和发送数据的任意其它电子设备或计算系统中的一个或多个。在这个实施例中，服务器102接收日志流，并确定正在创建该日志流的设备类型的概率。在其它实施例中，服务器102代表比如在云计算环境中利用多个计算机作为服务器系统的服务器计算系统。在另一个实施例中，服务器102代表膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、桌上型计算机、个人数字助手(PDA)、智能电话机或者能够经网络112与客户端设备通信的任何可编程电子设备。在另一个实施例中，服务器102代表利用群集的计算机和组件充当单一的无缝资源池的计算系统。服务器102包括按照本发明的实施例，如参考图14进一步详细描述和说明的组件。服务器102包括日志程序120和数据库140。

在描述的分布式数据处理环境100中，日志程序120驻留于服务器102上，并根据接收的日志流确定设备类型的概率。在各个实施例中，日志程序120接收来自客户端设备(例如，客户端设备104)的包含日志流的信息，日志程序120确定创建所述日志流的客户端设备的设备类型的概率。在一个例子中，日志程序120可确定接收的日志流中的特性产生该日志流源于移动电话机的高概率。在另一个例子中，日志程序120可通过显示多种设备类型(例如，移动电话机、膝上型计算机、平板计算机、桌上型计算机等)的概率，确定日志流源于特定类型的设备的概率。在一些实施例中，日志程序120可根据实时日志流或保存的日志流，确定设备类型的概率。下面参考图2和3，进一步详细地描述和说明日志程序120。

在描述的实施例中，数据库140驻留于服务器102上。在另一个实施例中，数据库140可驻留于分布式数据处理环境100中的其他地方，比如驻留于服务器102、客户端设备104、106、108内，或者独立地作为能够经网络112与服务器102和/或客户端设备104、106和108通信的单独数据库。数据库是数据的有组织集合。数据库140是利用能够保存由服务器102和客户端设备104、106和108访问和利用的数据的任意种类的存储设备(比如数据库服务器、硬盘驱动器或闪存)实现的。在其它实施例中，数据库140代表服务器102内的多个存储设备。数据库140保存诸如训练日志、日志流、预定标记、日志特性、初始的指纹图谱矩阵、归一化的指纹图谱矩阵、设备类型指纹等之类的信息。数据库140包括标记142、训练日志流144、初始的指纹图谱矩阵146、归一化的指纹图谱矩阵148和新日志流150。

在描述的分布式数据处理环境100中，标记142驻留于数据库140上，是与日志流的元素、串或数值相关的标记项。在各个实施例中，标记可由替换日志流中的元素的日志程序120的管理员预置。训练日志流144也驻留于数据库140中，是日志程序120用于创建设备类型的指纹的日志流。初始的指纹图谱矩阵146驻留于数据库140上，用于输入日志流指纹。归一化的指纹图谱矩阵148位于数据库140上，是日志程序120已把所有指纹信息输入矩阵中之后的指纹图谱矩阵。

在描述的实施例中，客户端设备104、106和108是桌上型计算机、膝上型计算机、平板计算机、专用计算机服务器、智能电话机、或者能够经网络112与服务器102通信和与分布式数据处理环境100内的各个组件和设备通信的任意可编程电子设备中的一个或多个。通常，客户端设备104、106和108代表能够执行机器可读程序指令并且能够经网络(比如网络112)与其它计算设备通信的任意可编程电子设备或者可编程电子设备的组合。客户端设备104、106和108可包括按照本发明的实施例，如参考图14进一步详细描述和说明的组件。在实施例中，客户端设备104经网络112，把日志流发送给服务器102和/或日志程序120。

图2是按照本发明的实施例描述作为日志程序120的功能的程序200的操作步骤的流程图。程序200在服务器102上工作，并生成日志指纹图谱数据库。在各个实施例中，日志程序120的管理员可向数据库添加训练日志，以改进或创建指纹图谱，比如归一化的指纹图谱矩阵148。在一些实施例中，程序200可在新的训练日志被添加到数据库中之后，开始图2的操作步骤。在一些实施例中，可在程序300发现日志流的低匹配概率(例如1％)之后，开始图2的操作步骤。在一个实施例中，程序200可在预置时间开始图2的操作步骤。

程序200接收训练日志流(步骤202)。在各个实施例中，程序200可从日志程序120的管理员接收训练日志流。在一个例子中，日志程序120的管理员把训练日志流(例如，训练日志流144)输入程序200中。在另一个例子中，日志程序120的管理员把训练日志流输入数据库(例如，数据库140)中。在一些实施例中，程序可从客户端设备(比如客户端设备104)接收训练日志流。在其它实施例中，在程序300已确定日志流与已知类型的设备的匹配的概率较低之后，程序200可从程序300接收训练日志流。

程序200用预定元素替换训练设备日志中的元素(步骤204)。程序200用与训练日志流中的原始元素相关的预定元素(也称为标记(例如，标记142))，替换训练日志流(例如，训练日志流144)中的元素。每个标记代表训练设备日志的串、数值和/或元素。图4描述未让标记替换设备日志内的元素的日志流。图5描述在程序200用也称为标记的预定元素替换训练设备日志中的元素之后的相同日志流。用预定元素替换日志流中的元素被称为使日志流标记化。在各个实施例中，标记由管理员预置，以与特定的元素、数值和/或串相关。

在一些实施例中，日志流可能包含预先未知的相当大量的计算机名称、时间戳、代码等。自然语言处理器可能不能辨别某些符号。程序200用易于理解的标记替换元素。在一个例子中，每一行是流中的单独的独立事件。在流中的行的开始处，程序200生成[start_line]标记，并在结尾处生成[end_line]标记。随后，程序200在空格和标点符号处拆分行，并顺序地生成各个部分的对应标记。串的将对应于串的代码中的常数的任意部分对检测来说非常有用，因为串是程序的输出。程序200从诸如'{'、'['、':'的符号以及符号的组合，生成标记。在一些实施例中，程序200改变日志流的诸如因特网协议(IP)地址和时间戳等之类的部分。在一个例子中，程序200为在特定位置遇到的数字生成特殊的标记(例如，[number]标记)，因为数字不可能在稍后的步骤中相互匹配。类似地，代替流中的IP地址，程序200生成[ip_address]标记以及[month]标记。用标记替换元素是有利的，因为它允许相似特征的生成。

程序200识别日志特性(步骤206)。在一些实施例中，程序200从标记化的日志流(例如，在训练日志流144已被标记化之后的训练日志流144)中识别日志特性。在一个例子中，程序200识别标记位置、标记的相互关系、标记的数目、标记的类型等。图6是程序200从图5中的标记化日志流的第一行中识别的特性的例子。在一些实施例中，程序200可识别标记化的特性，比如日期、时间、对(pair)、位置数据、IP地址、端口号等。在一个例子中，程序200的算法可识别诸如日期和时间、标记、标记位置、标记之间的相对距离等之类的变量。在各个实施例中，程序200对日志流中的每一行重复识别变量的处理，从而为日志流中的每一行创建诸如图6之类的图表。在另外的实施例中，程序200对所有的设备日志重复步骤206。识别日志特性是有利的，因为特性可被用于创建指纹矩阵。

程序200生成训练设备日志的初始的指纹图谱矩阵(步骤208)。在各个实施例中，程序200为来自已知设备的每个训练设备日志生成训练设备日志的指纹图谱矩阵。例如，10个训练设备日志已知来自于特定设备。程序200生成每个已知设备的指纹图谱矩阵。在一些实施例中，程序200提取日志特性(例如，在m×n维的指纹图谱矩阵(例如，图7)中编译的所有已知设备(例如，D1,D2,D3,…,Dm)和各个设备的对应日志(例如，L1,L2,L3,…,Lm)的特征F1,F2,F3,…,Fn)。

程序200从一批训练设备日志生成归一化的日志指纹图谱(步骤210)。在各个实施例中，程序200根据初始的指纹图谱矩阵，生成归一化的日志指纹图谱。在一些实施例中，程序200除去初始的指纹图谱矩阵中为所有设备所共有的日志特性。在一个例子中，程序200从初始的指纹图谱矩阵(例如，图7中描述的初始的指纹图谱矩阵146)中除去某一特性。在这个例子中，F3的值为1，对于所有日志流L1-Lm来说都相同。

在一些实施例中，程序200可向日志特性赋予加权值。在一个例子中，程序200向指示设备的类型的特性赋予较高的加权值，而向为多个设备类型所共有的特性赋予较低的加权值。在另一个例子中，标记对(比如[Device]{＝>}[WindowsDHCP])具有相对于单个标记(比如[WindowsDHCPDeviceReader])关联的较高的加权值。在另一个例子中，与较罕见的标记对(例如，检测到的特洛伊木马)相比，程序200较低地加权常见的标记对(例如，用户)。图8是其中0≤Wfi≤1的日志特性权向量的例子。在各个实施例中，程序200把各个日志流(例如，初始的指纹图谱矩阵146日志流L1-Lm)乘以特性的加权值。在一个例子中，在图9中描述了把日志流乘以特性的加权值的初始的指纹图谱矩阵。生成归一化的日志指纹图谱是有利的，因为它提供对照未知日志流的特征进行比较的基础。

图3是按照本发明的实施例描述作为日志程序120的功能的程序300的操作步骤的流程图。程序300在服务器102上工作，并根据日志流确定设备类型的概率。在各个实施例中，在日志程序120收到新日志流(例如，新日志流150)之后，可开始程序300的操作步骤。在其它实施例中，当日志程序120的管理员提示日志程序120确定保存在数据库中的新日志流(例如，保存在数据库140中的新日志流150)的设备类型时，可开始程序300的操作步骤。在其它实施例中，在触发程序300确定创建日志流的各个设备类型的概率的预置时间之后，可开始程序300的操作步骤。

程序300接收日志流(步骤302)。在各个实施例中，程序300从经网络(例如，网络112)连接到服务器(例如，服务器102)的客户端设备接收日志流。在一些实施例中，日志流可被保存在数据库(例如，数据库140)中，程序300可识别日志流(例如，新日志流150)。在一个例子中，程序(未图示)可把连接到服务器(例如，服务器102)的客户端设备的日志流保存在数据库(例如，数据库140)中，程序300识别还未被程序300处理的新日志流(例如，新日志流150)。

程序300用预定元素替换日志流中的元素(步骤304)。程序300用与日志流中的原始元素相关的也称为标记(例如，标记142)的预定元素，替换日志流(例如，新日志流150)中的元素。每个标记代表日志流的串、数值或元素。图4描述未让标记替换设备日志内的元素的日志流。图5描述在程序300用也称为标记的预定元素替换日志流中的元素之后的相同日志流。用预定元素替换日志流中的元素被称为使日志流标记化。在各个实施例中，标记由管理员预置，以与特定的元素、数值或串相关。

在一些实施例中，日志流可能包含预先未知的相当大量的计算机名称、时间戳、代码等。自然语言处理器可能不能辨别某些符号。程序300用易于理解的标记替换元素。在一个例子中，每一行是流中的单独的独立事件。在流中的行的开始处，程序300生成[start_line]标记，并在结尾处生成[end_line]标记。随后，程序300在空格和标点符号处拆分行，并顺序地生成各个部分的对应标记。串的将对应于串的代码中的常数的任意部分对检测来说非常有用，因为串是程序的输出。程序300从诸如'{'、'['、':'的符号以及符号的组合，生成标记，这是有利的。在一些实施例中，程序300改变日志流的诸如因特网协议(IP)地址和时间戳之类的部分。在一个例子中，程序300为在特定位置遇到的数字生成特殊的标记：[number]标记，因为数字不可能在稍后的步骤中相互匹配。类似地，代替流中的IP地址，程序300生成[ip_address]标记以及[month]标记。

程序300识别日志特性(步骤306)。在一些实施例中，程序300从标记化的日志流(例如，在新日志流150已被标记化之后的新日志流150)中识别日志流特性。在一个例子中，程序300识别标记位置、标记的相互关系、标记的数目、标记的类型等。图6是程序300从图5中的标记化日志流的第一行中识别的特性的例子。在一些实施例中，程序300可识别标记化的特性，比如日期、时间、对、位置数据、IP地址、端口号等。在一个例子中，程序300的算法可识别诸如日期和时间、标记、标记位置、标记之间的相对距离等之类的变量。在各个实施例中，程序300对日志流中的每一行重复识别变量的处理，从而为日志流中的每一行创建诸如图6之类的图表。在另外的实施例中，程序300对于所有日志流重复步骤306。

程序300根据与指纹图谱相关的识别的日志特性，确定设备类型的概率(步骤308)。在各个实施例中，程序300确定设备类型(例如，移动电话机、膝上型计算机、桌上型计算机等)的概率(例如，100％、90％、5％等)。在一些实施例中，当比较日志流特性和归一化的指纹图谱矩阵(例如，归一化的指纹图谱矩阵148)时，程序300根据日志流特性确定设备类型的概率。

在一个例子中，程序300对于接收的日志流(例如，图11的流1/S1、流2/S2、流3/S3、流4/S4、流5/S5、流6/S6)，确定匹配和不匹配的特性的总数。在这个例子中，Sdevice_i表示还未被检测的设备流。Sdevice_i可与S1、S2、S3等相关。程序300利用归一化的指纹图谱矩阵(例如，归一化的指纹图谱矩阵148、图9中描述的Fmap)，确定Sdevice_i的概率。程序300确定日志流S1的条件概率，已知日志流Sdevice_i，其中i＝1、2、3、…、m。条件概率可被描述成P(S1│Sdevice_i)＝P(S1∩Sdevice_i)/P(Sdevice_i)。为了程序300确定有利于S1和Sdevice_i两者的特征命中的数目(例如，PS1∩Sdevice_i)，程序300可重新整理等式，以读取P(S1∩Sdevice_i)＝P(S1│Sdevice_i)x P(Sdevice_i)。上述等式可被读为P(S1∩Sdevice_i)＝((S1中的特征(F)命中的数目)/(S1中的特征命中+错失的总数))x((Sdevice_i中的特征命中的数目)/(Sdevice_i中的特征命中+错失的总数))，其中P(S1│Sdevice_i)计算自日志流特征提取算法。P(Sdevice_i)可从归一化的指纹图谱矩阵(例如，如图9中所示的归一化的指纹图谱矩阵148)得到。通过图10的等式，可得到P(Sdevice_i)的例子。在另一个例子中，如图11中所示，程序300利用图9中的Fmap的行2，计算设备(例如，未图示的设备2)的概率。在各个实施例中，程序300通过利用相同的特性的数目以及不同的特性的数目，确定日志流源于某一类型的设备的概率。

在另一个例子中，程序300利用图13的欧拉图确定概率，其中日志流S1-S6产生自具有设备指纹(例如，DF1)的设备(例如，设备1)来确定概率。在图13中，流S1具有为1的概率，指示S1来自于设备1。S2具有为0.6的概率，指示S2产生自设备1的概率为60％。S3具有为0.95的概率，指示S3产生自设备1的概率为95％。S4具有为0.05的概率，指示S4产生自设备1的概率为5％。S5具有为0.8的概率，指示S5产生自设备1的概率为80％。S6具有为0的概率，指示S6产生自设备1的概率为0％。根据与指纹图谱相关的识别的日志特性确定设备类型的概率是有利的，因为它提供对于大量设备日志的设备类型的概率的确定。

在一些实施例中，程序300根据欧拉图中与来自未知设备类型的日志流相比的已知设备类型的日志流中的特征的变化，确定设备类型是已知设备类型的概率。例如，来自于第一已知设备类型的一个日志流包含特定的特征。来自第二已知设备类型的另一个日志流包含一些相同的特征，但也包含一些独特的特征。在这个例子中，程序300比较未知设备日志流特征与第一和第二已知设备特征，并根据日志流共同具有的各个特征来确定该日志流源于第一或第二已知设备的概率。

程序300更新归一化的指纹图谱(步骤310)。在各个实施例中，程序300用新日志流、特性和设备类型，更新归一化的指纹图谱。在一个例子中，程序300确定该日志流由任意已知设备类型生成的概率较低(例如，5％)。在这个例子中，程序300可发送提示日志程序120的管理员确定创建该低概率日志流的设备的类型的数据。程序300可随后把附加信息添加到数据库(例如，数据库140)和归一化的指纹图谱矩阵(例如，归一化的指纹图谱矩阵148)中，以便允许未来的类似日志流指示设备的类型。在一些实施例中，程序300把所有的日志流添加到归一化的指纹图谱矩阵中。

图4描述由日志程序120收集的例证日志流。在一些实施例中，日志程序120可把诸如原始设备日志L1之类的日志流保存在数据库140中。图4还描述新日志流150或训练日志流144的一次迭代。在一个例子中，图4描述可在步骤202或302中接收的日志流。

图5描述已被标记化的例证日志流，比如图4中描述的日志流。在一些实施例中，日志程序120可把标记化的日志流保存在数据库(比如数据库140)中。在一个例子中，图5描述已在步骤204或304中生成的日志流。

图6描述来自标记化的日志流(比如图5中的标记化的日志流)的特性。来自图5的特性用F1-F17描述和标注。特性也被称为特征。在一个例子中，图6描述在步骤206或306中的识别的特征。

图7描述从标记化的设备日志的特性生成的初始指纹图谱矩阵。特性也可被称为特征和/或元素。在一个例子中，图7描述初始的指纹图谱矩阵，比如在步骤208中生成的初始的指纹图谱矩阵。

图8描述例证的日志特征权向量。在一个例子中，作为确定日志流由特定类型的设备创建的概率的一部分，日志程序120把日志流的特征乘以权向量。在一个例子中，图8描述在步骤210中使用的日志特征权向量。

图9描述从标记化的设备日志的特性生成的归一化的指纹图谱矩阵。在一个例子中，在对于多个日志流把权向量乘以日志流的特征之后，日志程序120创建归一化的指纹图谱矩阵，比如图9中描述的指纹图谱矩阵。在一个例子中，图9描述归一化的指纹图谱矩阵，比如在步骤210中生成的指纹图谱矩阵。

图10描述用于利用日志特征权向量确定设备类型的概率的例证等式。图10中的等式图解说明确定创建日志流的设备的类型的概率的一种例证方式。在一个例子中，图10描述用于确定设备类型的概率的例证等式，比如在步骤308中使用的等式。

图11描述利用日志特征权向量确定设备类型的概率的等式的例证应用形式。图11是来自图10的输入了日志权向量的等式。在一个例子中，图11描述用于确定设备类型的概率的例证等式，比如在步骤308中使用的等式。

图12描述表示设备特征的相互关系的例证示图。所述例证示图描述特征重叠的多个设备。例如，属于D2的设备的特性和属于D1和D8的设备的特性重叠。图12图解说明共享概率，例如，源于D2的日志流可具有源于D8的高概率(例如，80％)和源于D2的更高概率(例如，90％)。图12描述包括基于来自日志流的数据的例证表现设备(比如D1、D2、D3、D4、D5、D6、D7、D8、D9、D10、Di、Dm和Dm-1)的设备空间。在一个例子中，图12描述如在步骤308中讨论的设备特征的关系。

图13描述表示日志流源于特定设备的概率的欧拉图。图13表示与单一设备类型相比的日志流的表现。在一个例子中，图13描述如在步骤308中讨论的日志流源于某个设备的概率。

图14按照本发明的例证实施例描述代表服务器102和客户端设备104、106及108的计算机1400的各个组件的方框图。应理解图14只提供一种实现的例示，并不意味对于其中可实现不同实施例的环境的任何限制。可作出对于描述的实施例的许多修改。

计算机1400包括提供计算机处理器1404、存储器1406、永久存储设备1408、通信单元1410和输入/输出(I/O)接口1412之间的通信的通信架构1402。通信架构1402可用为在处理器(比如，微处理器、通信设备和网络处理器等)、系统存储器、外设和系统内的任何其它硬件组件之间传送数据和/或控制信息而设计的任意体系结构实现。例如，可用一条或多条总线实现通信架构1402。

存储器1406和永久存储设备1408是计算机可读存储介质。在这个实施例中，存储器1406包括随机存取存储器(RAM)1414和高速缓冲存储器1416。通常，存储器1406可包括任何适当的易失性或非易失性计算机可读存储介质。软件和数据1422被保存在永久存储设备1408中，供处理器1404借助存储器1406中的一个或多个存储器访问和/或执行。就服务器102而论，软件和数据1422代表日志程序120和数据库140。

在本实施例中，永久存储设备1408包括磁硬盘驱动器。另一方面，或者除了磁硬盘驱动器之外，永久存储设备1408可包括固态硬驱动器、半导体存储器件、只读存储器(ROM)、可擦可编程只读存储器(EPROM)、闪存或者能够保存程序指令或数字信息的任何其它计算机可读存储介质。

永久存储设备1408使用的介质也可以是可拆卸的。例如，可拆卸的硬驱动器可用于永久存储设备1408。其它例子包括插入驱动器中以便转移到也是永久存储设备1408的一部分的另一个计算机可读存储介质上的光盘和磁盘、拇指驱动器和智能卡。

在这些例子中，通信单元1410提供与其它数据处理系统或设备的通信。在这些例子中，通信单元1410包括一个或多个网络接口卡。通信单元1410可通过利用物理和/或无线通信链路提供通信。软件和数据1422可通过通信单元1410下载到永久存储设备1408。

I/O接口1412允许与可连接到计算机1400的其它设备的数据输入和输出。例如，I/O接口1412可提供与外部设备1418(比如键盘、小键盘、触摸屏和/或某种其它的适当输入设备)的连接。外部设备1418还可包括便携式计算机可读存储介质，比如拇指驱动器、便携式光盘或磁盘和存储卡。软件和数据1422可被保存在这样的便携式计算机可读存储介质上，并可经I/O接口1412被加载到永久存储设备1408上。I/O接口1412也连接到显示器1420。

显示器1420提供向用户显示数据的机构，例如可以是计算机监视器。

这里说明的程序是基于为其在本发明的具体实施例中实现所述程序的应用识别的。不过，应理解仅仅为了方便起见，使用了这里的任何特定的程序命名，从而，本发明不应局限于仅仅用在由这样的命名识别和/或暗示的任何特定应用中。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可保持和保存供指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意适当组合。计算机可读存储介质的更具体例子(非穷举列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字通用光盘(DVD)、记忆棒、软盘、机械编码设备(例如其上记录有指令的打孔卡或凹槽内凸起结构)以及上述的任意适当组合。这里所使用的计算机可读存储介质不被解释成瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光缆的光脉冲)或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可从计算机可读存储介质下载到各个计算/处理设备，或者通过网络(例如因特网、局域网、广域网和/或无线网)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发所述计算机可读程序指令，以便保存在各个计算/处理设备内的计算机可读存储介质中。

用于执行本发明操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者用一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言(诸如Smalltalk、C++等)以及常规的过程式编程语言(诸如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户计算机上执行、部分在用户计算机上执行、作为独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息使电子电路(例如包括可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))个性化，所述电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参考按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图，描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器，从而生产出一种机器，使得通过计算机或其它可编程数据处理设备的处理器执行的这些指令产生用于实现在流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令保存在计算机可读存储介质中，这些指令使得计算机、可编程数据处理设备和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质包括一个制造品，所述制造品包括实现在流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可把计算机可读程序指令加载到计算机、其它可编程数据处理设备或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的处理，从而在计算机、其它可编程装置或其它设备上执行的指令实现在流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图图解说明按照本发明的各个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在一些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，连续表示的两个方框实际上可以基本并行地执行，或者有时也可以按相反的顺序执行各个方框，这依所涉及的功能而定。还要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。为了举例说明，给出了本发明的各个实施例的说明，不过，所述说明不是详尽的或者局限于公开的实施例。对本领域的普通技术人员来说，许多修改和变化是显而易见的，而不脱离本发明的精神和范围。选择了这里使用的术语，以最好地解释实施例的原理、实际应用或者比起在市场中见到的各种技术的技术改进，或者使本领域的其他普通技术人员能够理解这里公开的实施例。

Claims

1.一种用于设备类型确定的方法，所述方法包括：

通过一个或多个计算机处理器识别来自第一设备的日志流，其中第一设备具有未知设备类型；

通过一个或多个计算机处理器识别来自第一设备的日志流中的特征；和

通过一个或多个计算机处理器，根据识别的来自第一设备的日志流的特征与来自多个已知设备类型的日志流中的特征的匹配，确定来自第一设备的日志流是由特定设备类型创建的概率。

2.按照权利要求1所述的方法，还包括：

通过一个或多个计算机处理器识别来自已知设备类型的各设备的一个或多个日志流；

通过一个或多个计算机处理器识别来自已知设备类型的各设备的一个或多个日志流中的一个或多个特征；和

通过一个或多个计算机处理器，根据来自已知设备类型的一个或多个日志流中的一个或多个特征，生成用于确定来自未知设备类型的日志流对应于来自已知设备类型的日志流的概率的矩阵。

3.按照权利要求2所述的方法，其中确定来自第一设备的日志流是由特定设备类型创建的概率还包括：

通过一个或多个计算机处理器，根据生成的加权日志流特征的矩阵，确定来自第一设备的日志流是由特定设备类型创建的概率。

4.按照权利要求1所述的方法，其中识别来自第一设备的日志流中的特征还包括：

通过一个或多个计算机处理器识别日志流中的一个或多个元素，其中所述一个或多个元素包含日志流的功能部分；和

通过一个或多个计算机处理器识别下述至少之一：日志流中的一个或多个变量、日志流中的元素的位置、日志流中的元素之间的距离和日志流中的特征的模式。

5.按照权利要求1所述的方法，其中确定来自第一设备的日志流是由特定设备类型创建的概率还包括：

通过一个或多个计算机处理器识别随设备类型而变的日志流的一个或多个特征；和

通过一个或多个计算机处理器，根据识别的随设备类型而变的日志流的一个或多个特征，生成欧拉图。

6.按照权利要求1所述的方法，还包括：

通过一个或多个计算机处理器识别源于第一设备的多个日志流；和

通过一个或多个计算机处理器，确定源于第一设备的多个日志流对应于已知设备类型的概率。

7.按照权利要求6所述的方法，其中确定源于第一设备的多个日志流对应于已知设备的概率还包括：

通过一个或多个计算机处理器识别所述多个日志流中的对应于特定已知设备类型的一个或多个日志流；

通过一个或多个计算机处理器识别所述多个日志流中的不对应于特定已知设备类型的一个或多个日志流；和

通过一个或多个计算机处理器，根据识别的所述多个日志流中的对应于特定已知设备类型的一个或多个日志流与识别的所述多个日志流中的不对应于特定已知设备类型的一个或多个日志流，确定源于第一设备的多个日志流对应于特定已知设备类型的概率。

8.按照权利要求2所述的方法，其中生成矩阵还包括：

通过一个或多个计算机处理器，根据来自未知客户端设备类型的日志流中的识别特征与来自已知客户端设备类型的一个或多个日志流的一个或多个特征的共性，对来自未知客户端设备类型的日志流中的一个或多个识别特征加权；和

通过一个或多个计算机处理器，生成包含来自已知设备类型的日志流的一个或多个加权特征以及来自第一设备类型的日志流的一个或多个加权特征的矩阵。

9.一种用于设备类型确定的计算机系统，所述计算机系统包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；

保存在计算机可读存储介质上供所述一个或多个计算机处理器中的至少一个处理器执行的程序指令，所述程序指令包括：

识别来自第一设备的日志流的程序指令，其中第一设备具有未知设备类型；

识别来自第一设备的日志流中的特征的程序指令；和

根据识别的来自第一设备的日志流的特征与来自多个已知设备类型的日志流中的特征的匹配，确定来自第一设备的日志流是由特定设备类型创建的概率的程序指令。

10.按照权利要求9所述的计算机系统，还包括程序指令，用于：

识别来自已知设备类型的各设备的一个或多个日志流；

识别来自已知设备类型的各设备的一个或多个日志流中的一个或多个特征；和

根据来自已知设备类型的一个或多个日志流中的一个或多个特征，生成用于确定来自未知设备类型的日志流对应于来自已知设备类型的日志流的概率的矩阵。

11.按照权利要求10所述的计算机系统，其中确定来自第一设备的日志流是由特定设备类型创建的概率的程序指令还包括程序指令，用于：

根据生成的加权日志流特征的矩阵，确定来自第一设备的日志流是由特定设备类型创建的概率。

12.按照权利要求9所述的计算机系统，其中识别来自第一设备的日志流中的特征的程序指令还包括程序指令，用于：

识别日志流中的一个或多个元素，其中所述一个或多个元素包含日志流的功能部分；和

识别下述至少之一：日志流中的一个或多个变量、日志流中的元素的位置、日志流中的元素之间的距离和日志流中的特征的模式。

13.按照权利要求9所述的计算机系统，其中确定来自第一设备的日志流是由特定设备类型创建的概率的程序指令还包括程序指令，用于：

识别随设备类型而变的日志流的一个或多个特征；和

根据识别的随设备类型而变的日志流的一个或多个特征，生成欧拉图。

14.按照权利要求9述的计算机系统，还包括程序指令，用于：

识别源于第一设备的多个日志流；和

确定源于第一设备的多个日志流对应于已知设备类型的概率。

15.按照权利要求14所述的计算机系统，其中确定源于第一设备的多个日志流对应于已知设备的概率的程序指令还包括程序指令，用于：

识别所述多个日志流中的对应于特定已知设备类型的一个或多个日志流；

识别所述多个日志流中的不对应于特定已知设备类型的一个或多个日志流；和

根据识别的所述多个日志流中的对应于特定已知设备类型的一个或多个日志流与识别的所述多个日志流中的不对应于特定已知设备类型的一个或多个日志流，确定源于第一设备的多个日志流对应于特定已知设备类型的概率。

16.按照权利要求10所述的计算机系统，其中生成矩阵的程序指令还包括程序指令，用于：

根据来自未知客户端设备类型的日志流中的识别特征与来自已知客户端设备类型的一个或多个日志流的一个或多个特征的共性，对来自未知客户端设备类型的日志流中的一个或多个识别特征加权；和

生成包含来自已知设备类型的日志流的一个或多个加权特征以及来自第一设备类型的日志流的一个或多个加权特征的矩阵。