CN110365645B - 一种车联网协议关键词识别方法及装置 - Google Patents

一种车联网协议关键词识别方法及装置 Download PDF

Info

Publication number
CN110365645B
CN110365645B CN201910491594.3A CN201910491594A CN110365645B CN 110365645 B CN110365645 B CN 110365645B CN 201910491594 A CN201910491594 A CN 201910491594A CN 110365645 B CN110365645 B CN 110365645B
Authority
CN
China
Prior art keywords
keyword
internet
vehicles
protocol
vehicles protocol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910491594.3A
Other languages
English (en)
Other versions
CN110365645A (zh
Inventor
李政
吴昊
吴志敏
李承泽
范乐君
袁静
赵怀瑾
王智勇
江秋情
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201910491594.3A priority Critical patent/CN110365645B/zh
Publication of CN110365645A publication Critical patent/CN110365645A/zh
Application granted granted Critical
Publication of CN110365645B publication Critical patent/CN110365645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Abstract

本发明公开了一种车联网协议关键词识别方法及装置,具体包括:预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标;提取车辆与车联网服务器交互的未知车联网协议应用层数据报文后,将属于同一未知车联网协议类型的各数据报文根据长度标识字段进行变长字段查找,并根据字节取值变化率进行关键词字段界定,得到属于同一未知车联网协议的多个关键词;获取每个未知车联网协议关键词的中心点坐标;根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别。采用本发明能够对未知车联网协议数据报文中的关键词进行准确高效识别。

Description

一种车联网协议关键词识别方法及装置
技术领域
本发明涉及车联网技术领域,特别涉及一种车联网协议关键词识别方法及装置。
背景技术
车联网是利用先进传感技术、网络技术、计算技术、控制技术、智能技术、安全技术对道路和交通进行全面感知,实现大范围、大容量数据的交互,以提供智能化交通管理、智能动态信息服务和车辆智能化控制的一体化网络,是物联网技术在交通领域的典型应用。随着科学技术的发展,车联网已经成为未来机动车网络的主要发展方向。
近年来,车联网被认为是物联网体系中最有产业潜力、市场需求最明确的领域之一,是信息化与工业化深度融合的重要方向,具有应用空间广、产业潜力大、社会效益强的特点,对促进汽车和信息通信产业创新发展,构建汽车和交通服务新模式新业态,推动自动驾驶技术创新和应用,提高交通效率和安全水平具有重要意义。
车联网业务数据以移动网络作为传输载体,车联网业务数据识别技术能够从大量网络流量数据中准确提取与联网车有关的信息,剔除无关流量。使用车联网业务数据识别技术从网络中获取联网车辆的数据,并对数据进行实时分析,能够对联网车辆进行位置监控,运行管理,安全预警等管理,从整体上把控车联网安全态势。
车联网目前处于起步发展状态,针对车联网的协议没有形成统一的规范,联网车辆和服务器通信采用各种各样的协议进行通信,其中存在大量的私有协议通信数据,这类协议通常使用二进制格式,无法直接从数据中获取关键数据,目前对于车联网中关键数据提取的主要方法如下。
1、规则解析法
在已知车辆和服务器之间使用的通信协议格式的情况下,依照协议格式对数据进行解析,从中提取车辆上传服务器的关键词。
2、手动协议格式破解+规则解析
通过抓取车辆和服务器之间的通信数据,对数据进行手动离线分析,主要使用手段有:序列对比法和指令分析法。序列对比法:对同一类终端和服务器通信的多个数据包进行纵向对比,同时对不同终端和服务器通信的数据包进行横向对比,发现其中具有公共特征的序列。报文指令分析法:抓取终端上传数据的同时在终端上操作执行不同的操作,分析不同操作所带来的协议字段的变化。手动分析需要耗费大量时间和操作,能够处理的数据量较少,会导致因样本过少而带来的关键词误识别,误提取问题。
3、基于关键词字段格式的提取方法
车辆向服务器上传的数据通常包含各类关键字段,这些字段可能是车辆的车牌号,车架号,速度,经纬度,里程等信息,而这些字段通常有着较为固定的格式,如固定长度,相近的取值范围。通过收集已知车联网协议的关键字段格式,依据先验知识指定每种关键信息应该具有的字段格式和字段内容,通过精确匹配的方法从待测报文中提取满足车联网关键词格式的字段数据。
根据以上描述,现有技术有以下不足:
(1)难以高效从私有协议中提取关键词
手动分析的方法难以处理大,对于传输的关键词较多,数据包长度较长的情况,手动分析需要耗费大量的时间。同时手动分析无法对大量样本进行分析,在协议格式破解过程中可能存在以个例代表全体的情况。
(2)关键词提取错误率和漏判率较高
基于关键词的字段格式提取依赖于关键词提取的准确度和关键词序列与协议报文格式的相似度。关键词提取的准确度受多种因素的影响,例如使用分隔符方法获取关键词受分隔符选择的影响。对于文本类协议,关键词的分隔符通常容易发现,但对于二进制协议,关键词可能为字段或字段组合并且不存在分隔符,导致带来较大误差。
基于字段格式的关键词提取方法严格按照先验知识作为检验标准,该关键词提取方法容易对格式有出入的字段进行漏判。有协议中传输的关键词格式与先验知识中的关键词格式有较大差别,如长度不同,上下阈值不同,数值单位不同等情况,这种情况下使用基于字段格式的关键词提取方式十分容易出现关键词漏判。
发明内容
有鉴于此,本发明的发明目的是:能够对未知车联网协议数据报文中的关键词进行准确高效识别。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明提供了一种车联网协议关键词识别方法,该方法包括:
预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标;
提取车辆与车联网服务器交互的未知车联网协议应用层数据报文后,将属于同一未知车联网协议类型的各数据报文根据长度标识字段进行变长字段查找,并根据字节取值变化率进行关键词字段界定,得到属于同一未知车联网协议的多个关键词;
获取每个未知车联网协议关键词的中心点坐标;
根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别。
本发明还提供了一种车联网协议关键词识别装置,该装置包括:
采样模块,预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标;
处理模块,提取车辆与车联网服务器交互的未知车联网协议应用层数据报文后,将属于同一未知车联网协议类型的各数据报文根据长度标识字段进行变长字段查找,并根据字节取值变化率进行关键词字段界定,得到属于同一未知车联网协议的多个关键词;获取每个未知车联网协议关键词的中心点坐标;
聚类模块,根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别。
由上述的技术方案可见,本发明预先确定每个已知车联网协议关键词的中心点坐标;提取未知车联网协议应用层数据报文后,将属于同一未知车联网协议类型的各数据报文根据长度标识字段进行变长字段查找,并根据字节取值变化率进行关键词字段界定,得到属于同一未知车联网协议的多个关键词;获取每个未知车联网协议关键词的中心点坐标;根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别。本发明的方案具有识别未知车联网协议关键词的能力,而且,一方面,由于本发明采用了变长字段查找以及根据字节取值变化率进行关键词字段界定,能够高效准确地对未知车联网协议进行字段分割;另一方面,本发明采用聚类算法对样本车联网关键词进行统计和对待测关键词进行相似度判断,能够有效地降低关键词的漏判率和误判率,更加精确地提取车联网协议中的关键词。
附图说明
图1为本发明提出的一种车联网协议关键词识别方法的流程示意图。
图2为本发明提出的一种车联网协议关键词识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案、及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
目前的车联网私有协议识别技术较为局限,暂时没有能够对车联网私有协议格式进行自动挖掘或关键词自动提取的工具或研究成果,无法满足大量获取车联网数据的需求。本发明的车联网协议关键词识别方法,首先使用已知车联网协议中常见的关键词的数据格式作为先验知识,提取常见关键词的长短,数值,偏移量作为特征,对每一种已知车联网协议关键词进行中心点坐标计算。接着查找属于同一未知车联网协议类型的各数据报文中的变长字段,利用字节数值变化率作为字段边界判断条件,对未知车联网协议二进制域中的字段进行进一步划分得到未知车联网协议关键词。接着对属于同一未知车联网协议类型的各数据报文中的同一关键词,计算其中心点坐标。最后计算该关键词中心点和已知车联网协议关键词中心点的距离,依据距离判断该类关键词属于哪一种车联网关键词。
本发明实施例提出的一种车联网协议关键词识别方法,其流程示意图如图1所示,该方法包括:
步骤11、预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标。
一些典型关键词如经纬度、身份证号、车辆速度、姓名、发证机构、手机号、车牌号、车架号、剩余电量、行驶里程、剩余油量、高度、电池温度、电池电压、最高电池电压、最低电池电压等。
其中,预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标,对于已知车联网协议中任一关键词,具体包括:
采集预定数量个该关键词的样本;每个样本特征包括该关键词的长度、数值以及偏移量维度;根据所采集的样本数量,将所采集的样本特征在每一维度上进行平均得到该关键词的中心点坐标。
本步骤中,每个关键词的样本采集的越多,中心点坐标获取的越准确,所以每个关键词,尽量找出大量样本在10000个以上。将一个关键词样本的特征包括长度,数值,偏移量表示成一个坐标点(长度,数值,偏移量),也就是说关键词样本的特征有三个维度。同一个关键词,不同样本特征在三个维度上的值不同,将该关键词的大量样本在每一个维度上取平均值得到该个关键词的中心点坐标。
步骤12、提取车辆与车联网服务器交互的未知车联网协议应用层数据报文后,将属于同一未知车联网协议类型的各数据报文根据长度标识字段进行变长字段查找,并根据字节取值变化率进行关键词字段界定,得到属于同一未知车联网协议的多个关键词。
本发明可以通过以pcap文件或者流量的方式接收车辆与车联网服务器交互的报文,在车辆与车联网服务器交互的报文中,包括TCP建立连接报文,也包括应用层数据报文,由于关键词位于应用层数据报文中,所以本步骤中,需要去掉无关报文,提取车辆与车联网服务器交互的未知车联网协议应用层数据报文。
其中,属于同一未知车联网协议类型的各数据报文为携带有同一服务器IP地址和服务器端口的数据报文。
本步骤中根据字节取值变化率进行关键词字段界定,具体包括:
在将属于同一未知车联网协议类型的各数据报文中的变长字段去掉之后,将各数据报文中剩下的报文序列字节对齐,获取相同长度的报文序列;
将报文序列中具有相同字节取值变化率的相邻字节界定为同一关键词字段;所述字节取值变化率为每个字节取值的变化次数与报文序列个数的比值;所界定的关键词字段为定长关键词字段。
步骤13、获取每个未知车联网协议关键词的中心点坐标。
所述属于同一未知车联网协议的多个关键词包括变长关键词和定长关键词;变长关键词为在各报文中长度变化的关键词,定长关键词为在各报文中长度不变的关键词。
本步骤中所述获取每个未知车联网协议关键词的中心点坐标具体包括:
对于属于同一未知车联网协议类型的各数据报文,根据各数据报文的数量,将其中每一关键词的特征在每一维度上进行平均,得到每一关键词的中心点坐标。
步骤14、根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别。
对于其中任一未知车联网协议关键词,本步骤属于聚类处理操作,具体包括:根据该未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定该未知车联网协议关键词与每个已知车联网协议关键词的相似度,将相似度最高的已知车联网协议关键词作为该未知车联网协议关键词所属关键词类别。
相似度的判断,是通过该未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标的距离来判断的,距离越近相似度越高。进一步地,可以设定相似度阈值,如果该未知车联网协议关键词的中心点坐标与相似度最高的已知车联网协议关键词的中心点距离仍然大于相似度阈值,则认为该未知车联网协议关键词并不与该相似度最高的已知车联网协议关键词同类,确定该未知车联网协议关键词属于未知类关键词。
至此,完成了本发明的车联网协议关键词识别方法。相对于手动破解和基于字段格式的关键词提取方法,本方法能够更高效的提取关键词,同时能够有效降低关键词的误判和漏判率。
为清楚说明本发明,下面列举具体场景进行说明。
1)对于已知车联网协议中任一关键词,采集预定数量个该关键词的样本;每个样本特征包括该关键词的长度、数值以及偏移量维度;根据所采集的样本数量,将所采集的样本特征在每一维度上进行平均得到该关键词的中心点坐标。
例如,关键词经纬度,在一个样本中,16进制表示为0x06 0x0a 0x01 0x09,长度为4byte,值为101318921,首字节处于报文中的第19位(从0开始)。因此,经纬度该样本特征为(4,101318921,19),表示成一个坐标点为(Xi,Yi,Zi),作为第i个样本,假设采集M个经纬度样本,则i∈M,M为自然数。经纬度这个关键词的中心点坐标为(∑Xi)/M,∑Yi/M,∑Zi/M)。
同理,确定每个已知车联网协议关键词的中心点坐标。因此,将得到的每个已知车联网协议关键词的中心点坐标放入集合E中,E={P1,P2,P3....Pn}。Pn指的是第n个已知车联网协议关键词的中心点坐标。
2)提取车辆与车联网服务器交互的未知车联网协议应用层数据报文后,将属于同一未知车联网协议类型的各数据报文归为一类。也就是说,将携带有同一服务器IP地址和服务器端口的数据报文归为一类。
3)将属于同一未知车联网协议类型的各数据报文根据长度标识字段进行变长字段查找,并根据字节取值变化率进行关键词字段界定,得到属于同一未知车联网协议的多个关键词。
3.1)变长字段查找
未知车联网协议一般采用二进制格式,二进制格式中存在不定长的字段,这时候字段前方需要使用1-2个byte对其进行长度标识,由于车联网传输数据通常长度较少,此处默认长度标识为1byte。
0x04 0xaa 0xbb 0xcc 0xab
上面这个串中,第一个字节为长度标识,后面字节为字段本身,其长度为4byte。满足关系为:标识的值=字段的长度,且字段紧跟在长度标识后方。
变长字段查找方法为:
从报文的首部开始假定字节L为长度字段(一般为1~2个字节),根据字节L的取值截取相应长度的字节序列S作为目的字段,当满足如下条件之一即可结束本次搜索:1)字节L的取值对应的长度超出了搜索范围;2)序列S的后续字节个数小于默认长度,默认长度设置为2。
每次搜索结果用长度向量(offset,count)的形式保存,其中offset表示首个长度字段的位置,count表示变长域中(L,S)组合的个数。最终迭代搜索之后得到一个长度向量集合。每一条序列报文都对应这样一个向量集合,若集合存在交集,那么该交集就是最终识别的变长域中的长度字段。
样例:拿到了6个A种未知车联网协议的应用层数据包为S1-S6,其中S1-S6如下:
S1:0x23 0x04 0x12 0x23 0x24 0x34 0x89 0x91 0x08 0x87 0x01 0x00 0x00
S2:0x23 0x05 0x13 0x23 0x34 0x23 0x78 0x89 0x91 0x08 0x87 0x010x000x00
S3:0x23 0x01 0x34 0xbb 0xcc 0xac 0x89 0x91 0x08 0x87
S4:0x23 0x02 0x34 0x11 0x3b 0xcc 0xac 0x89 0x91 0x08 0x87
S5:0x23 0x02 0x34 0x89 0x3b 0xcc 0xac 0x81 0x91 0x08 0x87
S6:0x23 0x02 0x34 0x91 0xbb 0xcc 0x0c 0x89 0x91 0x08 0x87
使用上述方法后,确定报文的第二个字节为长度标识字段,则将每个报文的第二个字节开始后面的K个字节去除,其中K为长度标识字段的值。去除的部分也作为未知车联网协议的一个关键词,即变长关键词。
去除变长字段(包括长度标识字段)后每个报文长度会相同,表示如下:
0x23 0x89 0x91 0x08 0x87 0x01 0x00 0x00
0x23 0x89 0x91 0x08 0x87 0x01 0x00 0x00
0x23 0xbb 0xcc 0xac 0x89 0x91 0x08 0x87
0x23 0x3b 0xcc 0x0c 0x89 0x91 0x08 0x87
0x23 0x3b 0xcc 0xac 0x81 0x91 0x08 0x87
0x23 0xbb 0xcc 0x0c 0x89 0x91 0x08 0x87
3.2)关键词字段界定
计算每个对齐字节的字节取值变化率θj,θj=Vj/N,其中Vj表示第j个字节取值的变化次数,N表示序列个数。
如上6个对齐报文序列,每个报文序列有8个字节
第一个字节,其字节取值变化率为0(全是0x23)
第二个字节,其字节取值变化率为(3-1)/6=33.3%(一共有三种取值,变化了两次)
第三个字节,其字节取值变化率为(2-1)/6=16.6%(一共有2种取值,变化了一次)
以此类推,第六、七、八个字节,每个字节取值变化率为(2-1)/6=16.6%(一共有2种取值,变化了一次)
考虑到同一字段中取值变化率相似的特点,将变化率差值不超过α的连续字节划分为同一个字段,α初始值设定为10%。
按照此方法,上图关键词划分结果为:1,2,3,4-5,6-8,即,得到5个定长关键词,字节1作为第1个关键词,字节2作为第2个关键词,字节3作为第3个关键词,字节4-5作为第4个关键词,字节6-8作为第5个关键词。
Figure BDA0002087211020000101
4)获取每个未知车联网协议关键词的中心点坐标。
在上述例子中,对于定长关键词界定有5个,需要获取这5个关键词的中心点坐标Qm。将得到的每个未知车联网协议关键词的中心点坐标放入集合W中,W={Q1,Q2,Q3.....Qm},Qm指的是第m个未知车联网协议关键词的中心点坐标。
如上所述,每个关键词有6个报文序列,例如,第2个关键词的6个字节分别为:0x890x89 0xbb 0x3b 0x3b 0x3b,坐标分别为(1,137,1)(1,137,1)(1,187,1)(1,59,1)(1,59,1)(1,59,1),如果用(xi,yi,zi)表示每个坐标,则计算这6个坐标点的中心点坐标,即Q2的值为(∑xi)/6,∑yi/6,∑zi/6),i的取值为1到6。
同理,前述查找到的变长关键词中心点坐标也是根据上述方法得到,记为Q6。所以,在本实施例中,W={Q1,Q2,Q3.....Q6},Q1至Q5是5个定长关键词的中心点坐标,Q6是变长关键词中心点坐标。
5)根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别。
对于W={Q1,Q2,Q3.....Qm}中每个未知车联网协议关键词的中心点坐标,计算与E={P1,P2,P3....Pn}中每个已知车联网协议关键词的中心点坐标的欧式距离,如果Qm与Pn之间的距离最近,且小于相似度阈值β,则Qm对应的第m个未知车联网协议关键词属于Pn对应的第n个已知车联网协议关键词,否则属于未知类关键词。
基于相同的发明构思,本发明提出了一种车联网协议关键词识别装置,其结构示意图如图2所示,该装置包括:
采样模块201,预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标;
处理模块202,提取车辆与车联网服务器交互的未知车联网协议应用层数据报文后,将属于同一未知车联网协议类型的各数据报文根据长度标识字段进行变长字段查找,并根据字节取值变化率进行关键词字段界定,得到属于同一未知车联网协议的多个关键词;获取每个未知车联网协议关键词的中心点坐标;
聚类模块203,根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别。
所述采样模块201预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标,对于已知车联网协议中任一关键词,具体用于:采集预定数量个该关键词的样本;每个样本特征包括该关键词的长度、数值以及偏移量维度;根据所采集的样本数量,将所采集的样本特征在每一维度上进行平均得到该关键词的中心点坐标。
所述处理模块202根据字节取值变化率进行关键词字段界定,具体用于:
在将属于同一未知车联网协议类型的各数据报文中的变长字段去掉之后,将各数据报文中剩下的报文序列字节对齐,获取相同长度的报文序列;
将报文序列中具有相同字节取值变化率的相邻字节界定为同一关键词字段;所述字节取值变化率为每个字节取值的变化次数与报文序列个数的比值;所界定的关键词字段为定长关键词字段。
所述属于同一未知车联网协议的多个关键词包括变长关键词和定长关键词;
所述处理模块202获取每个未知车联网协议关键词的中心点坐标具体包括:
对于属于同一未知车联网协议类型的各数据报文,根据各数据报文的数量,将其中每一关键词的特征在每一维度上进行平均,得到每一关键词的中心点坐标。
所述聚类模块203根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别,对于其中任一未知车联网协议关键词,具体用于:
根据该未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定该未知车联网协议关键词与每个已知车联网协议关键词的相似度,将相似度最高的已知车联网协议关键词作为该未知车联网协议关键词所属关键词类别。
综上,本发明的有益效果为:
一、本发明采用了变长字段查找以及根据字节取值变化率进行关键词字段界定,能够高效准确地对未知车联网协议进行字段分割。
二、本发明采用聚类算法对样本车联网关键词进行统计和对待测关键词进行相似度判断,能够有效地降低关键词的漏判率和误判率,更加精确地提取车联网协议中的关键词。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种车联网协议关键词识别方法,其特征在于,该方法包括:
预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标;
提取车辆与车联网服务器交互的未知车联网协议应用层数据报文后,将属于同一未知车联网协议类型的各数据报文根据长度标识字段进行变长字段查找,并根据字节取值变化率进行关键词字段界定,得到属于同一未知车联网协议的多个关键词;
获取每个未知车联网协议关键词的中心点坐标;
根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别;
其中,根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别,对于其中任一未知车联网协议关键词,具体包括:
根据该未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定该未知车联网协议关键词与每个已知车联网协议关键词的相似度,将相似度最高的已知车联网协议关键词作为该未知车联网协议关键词所属关键词类别。
2.如权利要求1所述的方法,其特征在于,所述预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标,对于已知车联网协议中任一关键词,具体包括:
采集预定数量个该关键词的样本;每个样本特征包括该关键词的长度、数值以及偏移量维度;
根据所采集的样本数量,将所采集的样本特征在每一维度上进行平均得到该关键词的中心点坐标。
3.如权利要求1所述的方法,其特征在于,属于同一未知车联网协议类型的各数据报文为携带有同一服务器IP地址和服务器端口的数据报文。
4.如权利要求1所述的方法,其特征在于,所述根据字节取值变化率进行关键词字段界定,具体包括:
在将属于同一未知车联网协议类型的各数据报文中的变长字段去掉之后,将各数据报文中剩下的报文序列字节对齐,获取相同长度的报文序列;
将报文序列中具有相同字节取值变化率的相邻字节界定为同一关键词字段;所述字节取值变化率为每个字节取值的变化次数与报文序列个数的比值;所界定的关键词字段为定长关键词字段。
5.如权利要求1所述的方法,其特征在于,
所述属于同一未知车联网协议的多个关键词包括变长关键词和定长关键词;
所述获取每个未知车联网协议关键词的中心点坐标具体包括:
对于属于同一未知车联网协议类型的各数据报文,根据各数据报文的数量,将其中每一关键词的特征在每一维度上进行平均,得到每一关键词的中心点坐标。
6.一种车联网协议关键词识别装置,其特征在于,该装置包括:
采样模块,预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标;
处理模块,提取车辆与车联网服务器交互的未知车联网协议应用层数据报文后,将属于同一未知车联网协议类型的各数据报文根据长度标识字段进行变长字段查找,并根据字节取值变化率进行关键词字段界定,得到属于同一未知车联网协议的多个关键词;获取每个未知车联网协议关键词的中心点坐标;
聚类模块,根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别;
其中,所述聚类模块根据每个未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定每个未知车联网协议关键词所属关键词类别,对于其中任一未知车联网协议关键词,具体用于:
根据该未知车联网协议关键词的中心点坐标和每个已知车联网协议关键词的中心点坐标确定该未知车联网协议关键词与每个已知车联网协议关键词的相似度,将相似度最高的已知车联网协议关键词作为该未知车联网协议关键词所属关键词类别。
7.如权利要求6所述的装置,其特征在于,所述采样模块预先根据已知车联网协议中每个关键词特征确定每个已知车联网协议关键词的中心点坐标,对于已知车联网协议中任一关键词,具体用于:
采集预定数量个该关键词的样本;每个样本特征包括该关键词的长度、数值以及偏移量维度;
根据所采集的样本数量,将所采集的样本特征在每一维度上进行平均得到该关键词的中心点坐标。
8.如权利要求6所述的装置,其特征在于,所述处理模块根据字节取值变化率进行关键词字段界定,具体用于:
在将属于同一未知车联网协议类型的各数据报文中的变长字段去掉之后,将各数据报文中剩下的报文序列字节对齐,获取相同长度的报文序列;
将报文序列中具有相同字节取值变化率的相邻字节界定为同一关键词字段;所述字节取值变化率为每个字节取值的变化次数与报文序列个数的比值;所界定的关键词字段为定长关键词字段。
9.如权利要求6所述的装置,其特征在于,
所述属于同一未知车联网协议的多个关键词包括变长关键词和定长关键词;
所述处理模块获取每个未知车联网协议关键词的中心点坐标具体包括:
对于属于同一未知车联网协议类型的各数据报文,根据各数据报文的数量,将其中每一关键词的特征在每一维度上进行平均,得到每一关键词的中心点坐标。
CN201910491594.3A 2019-06-06 2019-06-06 一种车联网协议关键词识别方法及装置 Active CN110365645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910491594.3A CN110365645B (zh) 2019-06-06 2019-06-06 一种车联网协议关键词识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910491594.3A CN110365645B (zh) 2019-06-06 2019-06-06 一种车联网协议关键词识别方法及装置

Publications (2)

Publication Number Publication Date
CN110365645A CN110365645A (zh) 2019-10-22
CN110365645B true CN110365645B (zh) 2021-06-04

Family

ID=68215911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910491594.3A Active CN110365645B (zh) 2019-06-06 2019-06-06 一种车联网协议关键词识别方法及装置

Country Status (1)

Country Link
CN (1) CN110365645B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111740956B (zh) * 2020-05-19 2023-05-26 腾讯科技(深圳)有限公司 车辆通信方法、装置、计算机可读介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488861A (zh) * 2008-12-19 2009-07-22 中山大学 一种网络未知应用的关键词提取方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3897946B2 (ja) * 2000-01-17 2007-03-28 アルパイン株式会社 緊急情報送信システム
CN101442535B (zh) * 2008-12-19 2012-06-27 中山大学 一种基于关键词序列的应用识别与跟踪方法
CN105282123B (zh) * 2014-07-24 2018-11-16 亿阳安全技术有限公司 一种网络协议识别方法和装置
CN104159232B (zh) * 2014-09-01 2015-06-03 电子科技大学 二进制消息数据的协议格式识别方法
US20180143033A1 (en) * 2016-06-30 2018-05-24 Faraday&Future Inc. Method and system for lane-based vehicle navigation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488861A (zh) * 2008-12-19 2009-07-22 中山大学 一种网络未知应用的关键词提取方法

Also Published As

Publication number Publication date
CN110365645A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN101741744B (zh) 一种网络流量识别方法
CN101645806B (zh) Dpi和dfi相结合的网络流量分类系统及分类方法
CN110011962B (zh) 一种车联网业务数据的识别方法
CN104156389B (zh) 基于Hadoop平台的深度包检测系统及方法
CN111506599B (zh) 基于规则匹配和深度学习的工控设备识别方法及系统
CN110034966B (zh) 一种基于机器学习的数据流分类方法及系统
CN105373588B (zh) 快递分拣装置及方法
CN101605126B (zh) 一种多协议数据分类识别的方法和系统
CN113645232B (zh) 一种面向工业互联网的智能化流量监测方法、系统及存储介质
CN111159243B (zh) 用户类型识别方法、装置、设备及存储介质
CN112667750A (zh) 一种报文类别的确定、识别方法及装置
CN110365645B (zh) 一种车联网协议关键词识别方法及装置
CN113706100B (zh) 配电网物联终端设备实时探测识别方法与系统
CN111585832A (zh) 一种基于语义预挖掘的工控协议逆向分析方法
CN109660656A (zh) 一种智能终端应用程序识别方法
CN114186617B (zh) 一种基于分布式深度学习的机械故障诊断方法
CN112861894A (zh) 一种数据流分类方法、装置及系统
CN106789416A (zh) 工控系统专用协议识别方法与系统
CN109887292A (zh) 车辆类型的识别方法及系统
CN111581475B (zh) 一种识别标识解析流量的系统及方法
CN112434049A (zh) 表格数据存储方法、装置、存储介质及电子装置
CN115622926A (zh) 一种基于网络流量的工控协议逆向分析方法
CN111314109A (zh) 一种基于弱密钥的大规模物联网设备固件识别方法
CN114666273B (zh) 一种面向应用层未知网络协议的流量分类方法
CN1612135A (zh) 入侵检测(保护)产品与防火墙产品中的协议识别技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant