CN107403013A - Web业务行为的识别方法及装置 - Google Patents

Web业务行为的识别方法及装置 Download PDF

Info

Publication number
CN107403013A
CN107403013A CN201710647783.6A CN201710647783A CN107403013A CN 107403013 A CN107403013 A CN 107403013A CN 201710647783 A CN201710647783 A CN 201710647783A CN 107403013 A CN107403013 A CN 107403013A
Authority
CN
China
Prior art keywords
word
page
catalogue
business
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710647783.6A
Other languages
English (en)
Inventor
王华东
范渊
龙文洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN201710647783.6A priority Critical patent/CN107403013A/zh
Publication of CN107403013A publication Critical patent/CN107403013A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种Web业务行为的识别方法及装置,涉及网络信息安全的技术领域,该方法包括:获取Web业务的统一资源定位符;对统一资源定位符进行解析,得到目录单词和页面信息,其中,页面信息包括以下至少之一:页面名称,请求参数,页面元素;将目录单词与目录单词字典库进行匹配,以将目录单词翻译成业务目录,并将页面信息与页面单词字典库进行匹配,以将页面信息翻译成业务单词;基于业务目录和业务单词识别Web业务的业务行为,缓解了现有技术中存在的Web业务行为识别准确率较低的技术问题。

Description

Web业务行为的识别方法及装置
技术领域
本发明涉及网络信息安全的技术领域,尤其是涉及一种Web业务行为的识别方法及装置。
背景技术
随着网络技术的发展,网络信息技术的进步对人与社会的发展产生了巨大影响,深刻改变了人与社会生活的各个方面,特别是企业Web应用。当今的企业Web应用需要很高的发行循环,因此通常会需要一个用户行为、用户状态的识别模型,来实现自动化管理或智能管理。例如,自动化对Web应用进行测试和智能关联等操作。挖掘这样的模型是一种挑战,现在通常的做法:一、从现有的应用中提取该模型,但对于大型的ERP或CRM应用系统中提取需要巨大的工作量,任务艰巨低效。二、过程爬虫,爬虫是一种通用的从多用户企业Web应用中挖掘行为模式的途径。但爬出来的行为模式并不能准确转换成Web业务语言即用户在操作何种用户,因此爬出来的行为模式可读性极差。
发明内容
有鉴于此,本发明的目的在于提供一种Web业务行为的识别方法及装置,以缓解现有技术中存在的Web业务行为识别准确率较低的技术问题。
第一方面,本发明实施例提供了一种Web业务行为的识别方法,包括:获取Web业务的统一资源定位符;对所述统一资源定位符进行解析,得到目录单词和页面信息,其中,所述页面信息包括以下至少之一:页面名称,请求参数,页面元素;将所述目录单词与目录单词字典库进行匹配,以将所述目录单词翻译成业务目录,并将所述页面信息与页面单词字典库进行匹配,以将所述页面信息翻译成业务单词;基于所述业务目录和所述业务单词识别所述Web业务的业务行为。
进一步地,对所述统一资源定位符进行解析,得到目录单词和页面信息包括:在所述统一资源定位符中识别多个标识符;将所述多个标识符中任意两个相邻的标识符之间的单词作为所述目录单词;将所述统一资源定位符中除所述目录单词之外的单词作为所述页面信息。
进一步地,将所述目录单词与目录单词字典库进行匹配,以将所述目录单词翻译成业务目录包括:在所述目录单词字典库中查找与所述目录单词相匹配的第一目标单词;在查找到所述第一目标单词的情况下,在所述目录单词字典库中查找所述目标单词的解释信息,并将所述目标单词的解释信息作为所述目录单词的业务解释信息;基于至少一个所述目录单词的业务解释信息确定所述业务目录。
进一步地,在查找到所述第一目标单词的情况下,所述方法还包括:将所述目录单词更新至所述目录单词字典库中;确定所述目录单词的业务解释信息,并将所述目录单词的业务解释信息更新至所述目录单词字典库中。
进一步地,将所述页面信息与页面单词字典库进行匹配,以将所述页面信息翻译成业务单词包括:采用分词规则对所述页面信息进行分词处理,得到页面单词,其中,所述分词规则为采用Web应用页面命名规则定义的分词规则;在所述页面单词字典库中查找与所述页面单词相匹配的第二目标单词;在查找到所述第二目标单词的情况下,在所述页面单词字典库中查找所述第二目标单词的解释信息,并将所述第二目标单词的解释信息作为所述页面单词的解释信息;基于至少一个所述页面单词的解释信息确定所述业务单词。
进一步地,在查找到所述第二目标单词的情况下,所述方法还包括:将所述页面单词更新至所述页面单词字典库中;确定所述页面单词的解释信息,并将所述页面单词的解释信息更新至所述页面单词字典库中。
进一步地,获取Web业务的统一资源定位符包括:获取Web应用的访问流量;在所述访问流量中解析所述Web业务的统一资源定位符。
第二方面,本发明实施例还提供一种Web业务行为的识别装置,包括:获取单元,用于获取Web业务的统一资源定位符;解析单元,用于对所述统一资源定位符进行解析,得到目录单词和页面信息,其中,所述页面信息包括以下至少之一:页面名称,请求参数,页面元素;匹配单元,用于将所述目录单词与目录单词字典库进行匹配,以将所述目录单词翻译成业务目录,并将所述页面信息与页面单词字典库进行匹配,以将所述页面信息翻译成业务单词;识别单元,用于基于所述业务目录和所述业务单词识别所述Web业务的业务行为。
进一步地,所述解析单元用于:在所述统一资源定位符中识别多个标识符;将所述多个标识符中任意两个相邻的标识符之间的单词作为所述目录单词;将所述统一资源定位符中除所述目录单词之外的单词作为所述页面信息。
进一步地,所述匹配单元用于:在所述目录单词字典库中查找与所述目录单词相匹配的第一目标单词;在查找到所述第一目标单词的情况下,在所述目录单词字典库中查找所述目标单词的解释信息,并将所述目标单词的解释信息作为所述目录单词的业务解释信息;基于至少一个所述目录单词的业务解释信息确定所述业务目录。
在本发明实施例中,首先获取Web业务的统一资源定位符;然后,对统一资源定位符进行解析,得到目录单词和页面信息,其中,页面信息包括以下至少之一:页面名称,请求参数,页面元素;接下来,将目录单词与目录单词字典库进行匹配,以将目录单词翻译成业务目录,并将页面信息与页面单词字典库进行匹配,以将页面信息翻译成业务单词;最后,基于业务目录和业务单词识别Web业务的业务行为。本发明实施例中,通过对流量中截取到的用户信息、URL信息,进一步进行分析能够准确、直观、高效地识别用户在web应用中的业务操作行为,进而能够高效、直观地识别Web业务行为,并提高识别准确率,进而缓解了现有技术中存在的Web业务行为识别准确率较低的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种Web业务行为的识别方法的流程图;
图2是根据本发明实施例的一种Web业务行为的识别方法的示意图;
图3是根据本发明实施例的一种Web业务行为的识别装置的示意图;
图4是根据本发明实施例的一种Web业务行为的识别装置中获取单元的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
根据本发明实施例,提供了一种Web业务行为的识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种Web业务行为的识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取Web业务的统一资源定位符;
在本发明实施例中,Web业务为在企业Web页面所请求的业务。
步骤S104,对统一资源定位符进行解析,得到目录单词和页面信息,其中,页面信息包括以下至少之一:页面名称,请求参数,页面元素;
步骤S106,将目录单词与目录单词字典库进行匹配,以将目录单词翻译成业务目录,并将页面信息与页面单词字典库进行匹配,以将页面信息翻译成业务单词;
步骤S108,基于业务目录和业务单词识别Web业务的业务行为。
在本发明实施例中,首先获取Web业务的统一资源定位符;然后,对统一资源定位符进行解析,得到目录单词和页面信息,其中,页面信息包括以下至少之一:页面名称,请求参数,页面元素;接下来,将目录单词与目录单词字典库进行匹配,以将目录单词翻译成业务目录,并将页面信息与页面单词字典库进行匹配,以将页面信息翻译成业务单词;最后,基于业务目录和业务单词识别Web业务的业务行为。本发明实施例中,通过对流量中截取到的用户信息、URL信息,进一步进行分析能够准确、直观、高效地识别用户在web应用中的业务操作行为,进而能够高效、直观地识别Web业务行为,并提高识别准确率,进而缓解了现有技术中存在的Web业务行为识别准确率较低的技术问题。
在一个实施例中,上述步骤S102,即,获取Web业务的统一资源定位符包括如下步骤:
步骤S1021,获取Web应用的访问流量;
步骤S1022,在访问流量中解析Web业务的统一资源定位符。
具体地,由于Web应用中的每个Web业务都会对应一个统一资源定位符URL。因此,在本发明实施例中,可以获取该Web应用的访问流量,然后,对Web应用的访问流量进行解析,得到解析信息,其中,解析信息包括但不限于以下:URL、用户名、sessionID。
例如,对客户关系管理系统CRM的访问流量进行解析得到以下信息:统一资源定位符URL:/crm/message/charge/DetailList.jsp;用户名:189****5678。
在获取Web业务的统一资源定位符之后,就可以对统一资源定位符进行解析,得到目录单词和页面信息,具体地,对统一资源定位符进行解析,得到目录单词和页面信息包括如下步骤:
步骤S1041,在统一资源定位符中识别多个标识符;
步骤S1042,将多个标识符中任意两个相邻的标识符之间的单词作为目录单词;
步骤S1043,将统一资源定位符中除目录单词之外的单词作为页面信息。
在本发明实施例中,由于每个URL对应不同的页面文件,页面文件存放的目录在URL中用“/”标识。因此,可以在URL中,通过匹配“/”符号来清分出URL所处的目录单词、页面名称。
具体地,首先在URL中识别多个标识符,例如,“/”符号;然后,将多个标识符中任意两个标识符之间的单词作为目录单词,并将统一资源定位符中除了目录单词之外的单词作为页面信息。
例如,上述URL:/crm/message/charge/DetailList.jsp,在该URL中,位于“/”标识之间的词语为:crm,message和charge,因此,将该三个词语作为目录单词;并将DetailList.jsp作为页面信息。也就是说,页面信息并不是任意两个相邻的标识符之间的单词。
通过上述处理处理之后,对URL:/crm/message/charge/DetailList.jsp进行解析之后,得到的目录单词为:crm、message、charge,得到的页面信息:DetailList.jsp。需要说明的是,页面信息包括页面名称,请求参数和页面元素。
需要说明的是,一些复杂的URL中可能会携带一些请求参数,此时,可以将URL分词出请求参数关键字,然后,再字典库中找到该关键字单词的解释。
例如,一个URL为:/crm/message/charge/DetailList.jsp?month=6;此时,首先分词到month及对应的值,此时的请求参数即为:Month和对应的数值6。
进一步需要说明的是,如果URL中包含对应的页面元素的关键字,此时,可以对该关键字进行分词处理,然后,在字典库中找到该关键字的单词解释,最终,可以发现该页面界面的主题功能。比如:页面界面包含title元素,title的value就是该界面主题功能。
在一个可选实施方式中,将目录单词与目录单词字典库进行匹配,以将目录单词翻译成业务目录包括如下步骤:
步骤S11,在目录单词字典库中查找与目录单词相匹配的第一目标单词;
步骤S12,在查找到第一目标单词的情况下,在目录单词字典库中查找目标单词的解释信息,并将目标单词的解释信息作为目录单词的业务解释信息;
步骤S13,基于至少一个目录单词的业务解释信息确定业务目录。
步骤S14,在查找到第一目标单词的情况下,将目录单词更新至目录单词字典库中;以及,确定目录单词的业务解释信息,并将目录单词的业务解释信息更新至目录单词字典库中。
在本发明实施例中,首先将步骤S104中清分出的目录单词,分别与目录单词字典库中的单词进行匹配,从而将目录单词翻译成业务目录。
目录单词字典库是用于对Web应用中页面文件所处的目录进行翻译。在目录单词字典库中包含多个目录单词,以及每个目录单词的中文解释,除此之外,还可能包含其他的数据信息。目录单词字典库是的目录单词是通过人工整理已有的单词、识别到未知单词进行补充形成的字典库。
例如,URL为:/crm/message/charge/DetailList.jsp,对其进行解析得到目录单词和页面信息,其中,crm,message和charge为目录单词,DetailList.jsp为页面信息。
此时,可以将目录单词与目录单词字典库中的目录单词进行匹配,如果在目录单词字典库中匹配到该目录单词,则在目录单词字典库对应的位置处查找该目录单词的解释信息。
例如,在目录单词字典库中查找到该crm的解释信息为:客户关系管理系统;message的解释信息为:短信;charge的解释信息为:计费。
如果匹配失败,则将未匹配成功的目录单词更新至目录单词字典库中,并为未匹配成功目录单词添加对应的解释信息。
需要说明的是,添加未匹配成功目录单词的解释信息的方式有多种,在本发明实施例中,对应的解释方式主要通过以下两种方式搜集:一种是转发给专业业务人员进行补充;另外一种是通过目录单词意思猜测业务解释。
在一个可选实施方式中,步骤S106,将页面信息与页面单词字典库进行匹配,以将页面信息翻译成业务单词包括如下步骤:
步骤S21,采用分词规则对页面信息进行分词处理,得到页面单词,其中,分词规则为采用Web应用页面命名规则定义的分词规则;
步骤S22,在页面单词字典库中查找与页面单词相匹配的第二目标单词;
步骤S23,在查找到第二目标单词的情况下,在页面单词字典库中查找第二目标单词的解释信息,并将第二目标单词的解释信息作为页面单词的解释信息;
步骤S24,基于至少一个页面单词的解释信息确定业务单词。
步骤S25,在查找到第二目标单词的情况下,将页面单词更新至页面单词字典库中;并确定页面单词的解释信息,并将页面单词的解释信息更新至页面单词字典库中。
在本发明实施例中,首先将步骤S104中清分出的页面信息,分别与页面单词字典库中的单词进行匹配,从而将页面信息翻译成业务单词。
在本发明实施例中,首先按照分词规则,将步骤S104中清分出来的页面信息,进行进一步的分词处理。其中,该分词规则为通过观察和总结Web应用的页面命名规则而定义的分词规则。根据该分词规则可以清分页面信息名称里包含的单词。
例如,在上述URL中:URL为:/crm/message/charge/DetailList.jsp,提取到的页面信息为:DetailList。此时,可以按照分词规则对该页面信息进行分词处理,得到分词:detail、list。
在得到上述分词之后,可以将该分词结果分别与页面单词字典库中的单词匹配,从而将页面单词翻译成业务单词。
在本发明实施例中,页面单词字典库是用于对Web应用中的页面文件名称进行翻译。在该页面单词字典库中包括但不限于以下:页面单词、单词解释。其中,页面单词字典库中的页面单词字典是通过人工整理已有的单词、识别到未知单词进行补充形成。
此时,可以将页面信息与页面单词字典库中的业务单词进行匹配,如果在页面单词字典库中匹配到该分词,则在页面单词字典库对应的位置处查找该分词的解释信息。
例如,在页面单词字典库中查找到该detail的解释信息为:详细;list的解释信息为:清单。
如果匹配失败,则将未匹配成功的页面信息更新至页面单词字典库中。并为未匹配成功页面信息添加对应的解释信息。
需要说明的是,添加未匹配成功页面信息的解释信息的方式有多种,在本发明实施例中,对应的解释方式主要通过以下两种方式搜集:一种是转发给专业业务人员进行补充;另外一种是通过目录单词意思猜测业务解释。
在本发明实施例中,在通过上述步骤S106对URL中的目录单词和页面名称进行业务解释后,基本能确定出该Web业务的业务行为。
例如,URL:/crm/message/charge/DetailList.jsp对应的业务行为:在客户关系管理系统中列出短信计费明细。
当URL中携带请求参数时,例如:/crm/message/charge/DetailList.jsp?month=6,此时,对应的业务行为:在客户关系管理系统中列出六月份短信计费明细。
本发明实施例中,通过对流量中截取到的用户信息、URL信息,进一步进行分析能够准确、直观、高效地识别用户在web应用中的业务操作行为,进而能够高效、直观地识别Web业务行为,并提高识别准确率,进而缓解了现有技术中存在的Web业务行为识别准确率较低的技术问题。
综上各实施例提供的Web业务行为的识别方法,为了直观理解上述过程,以图2所示的Web业务行为的识别方法的示意图为例进行说明,该方法主要包括:
1、获取Web应用的访问流量;
2、解析访问流量;Web应用的每个业务都会对应一个URL。通过获取该web应用的访问流量,可以解析到的信息,包括但不限于以下:URL、用户名、sessionID。
3、分析URL;对步骤2中的URL进行分析,具体包括下述步骤:
A1、分词URL:由于每个URL对应不同的页面文件,页面文件存放的目录在URL中用“/”标识。将URL通过匹配“/”清分出URL所处的目录单词和页面名称。
A2、匹配目录单词字典库:将步骤A1中清分出的目录单词,分别与目录单词字典库中的单词匹配,从而将目录单词翻译成业务目录。
A3、更新目录单词字典库:将步骤A1清分出的目录单词,分别与目录单词字典库中的单词匹配,如果匹配失败,则将未匹配成功的目录单词更新至目录单词字典库。未匹配成功目录单词对应的解释通过两种方式搜集:一、转发给专业业务人员进行补充;二、通过目录单词意思猜测业务解释。
B1、分词页面名称:将步骤A1清分出来的页面名称,进行进一步的分词。通过观察、总结web应用页面命名规则,定义页面名称分词规则。根据分词规则清分页面名称里包含的单词。
B2、匹配页面单词字典库:将步骤B1清分出的页面单词,分别与目录字典库中的单词匹配,从而将页面单词翻译成业务单词。
B3、更新页面单词字典库:将步骤B1清分出的页面单词,分别与页面单词字典库中的单词匹配,如果匹配失败,则将未匹配成功的页面单词更新至页面单词字典库。未匹配成功页面单词对应的解释通过两种方式搜集:一、转发给专业业务人员进行补充;二、通过页面单词意思猜测业务解释。
B3、匹配页面单词字典库:将步骤A1清分出的目录单词,分别与目录单词字典库中的单词匹配,从而将目录单词翻译成业务目录。
总结业务行为:通过上述步骤得到的目录单词和页面名称进行业务解释后,基本能100%总结出该URL的业务行为。具体实现过程如上,这里不再赘述。
需要说明的是,一些复杂的URL中可能会携带一些请求参数,此时,可以将URL分词出请求参数关键字,然后,再字典库中找到该关键字单词的解释。
例如,一个URL为:/crm/message/charge/DetailList.jsp?month=6;此时,首先分词到month及对应的值,此时的请求参数即为:Month和对应的数值6。
进一步需要说明的是,如果URL中包含对应的页面元素的关键字,此时,可以对该关键字进行分词处理,然后,在字典库中找到该关键字的单词解释,最终,可以发现该页面界面的主题功能。比如:页面界面包含title元素,Title的value就是该界面主题功能。
由此可见,针对现有技术的不足,本发明采用一种提高web业务行为识别准确率的方法,通过对流量中截取到的用户信息、URL信息,进一步进行分析能够准确、直观、高效地识别用户在web应用中的业务操作行为。
实施例二:
本发明实施例还提供了一种Web业务行为的识别装置,该Web业务行为的识别装置主要用于执行本发明实施例上述内容所提供的Web业务行为的识别方法,以下对本发明实施例提供的Web业务行为的识别装置做具体介绍。
图3是根据本发明实施例的一种Web业务行为的识别装置的示意图,如图3所示,该Web业务行为的识别装置主要包括:获取单元31,解析单元32,匹配单元33和识别单元34,其中:
获取单元31,用于获取Web业务的统一资源定位符;
解析单元32,用于对统一资源定位符进行解析,得到目录单词和页面信息,其中,页面信息包括以下至少之一:页面名称,请求参数,页面元素;
匹配单元33,用于将目录单词与目录单词字典库进行匹配,以将目录单词翻译成业务目录,并将页面信息与页面单词字典库进行匹配,以将页面信息翻译成业务单词;
识别单元34,用于基于业务目录和业务单词识别Web业务的业务行为。
在本发明实施例中,首先获取Web业务的统一资源定位符;然后,对统一资源定位符进行解析,得到目录单词和页面信息,其中,页面信息包括以下至少之一:页面名称,请求参数,页面元素;接下来,将目录单词与目录单词字典库进行匹配,以将目录单词翻译成业务目录,并将页面信息与页面单词字典库进行匹配,以将页面信息翻译成业务单词;最后,基于业务目录和业务单词识别Web业务的业务行为。本发明实施例中,通过对流量中截取到的用户信息、URL信息,进一步进行分析能够准确、直观、高效地识别用户在web应用中的业务操作行为,进而能够高效、直观地识别Web业务行为,并提高识别准确率,进而缓解了现有技术中存在的Web业务行为识别准确率较低的技术问题。
可选地,解析单元用于:在统一资源定位符中识别多个标识符;将多个标识符中任意两个相邻的标识符之间的单词作为目录单词;将统一资源定位符中除目录单词之外的单词作为页面信息。
可选地,匹配单元用于:在目录单词字典库中查找与目录单词相匹配的第一目标单词;在查找到第一目标单词的情况下,在目录单词字典库中查找目标单词的解释信息,并将目标单词的解释信息作为目录单词的业务解释信息;基于至少一个目录单词的业务解释信息确定业务目录。
可选地,匹配单元还用于:在查找到第一目标单词的情况下,将目录单词更新至目录单词字典库中;确定目录单词的业务解释信息,并将目录单词的业务解释信息更新至目录单词字典库中。
可选地,匹配单元还用于:采用分词规则对页面信息进行分词处理,得到页面单词,其中,分词规则为采用Web应用页面命名规则定义的分词规则;在页面单词字典库中查找与页面单词相匹配的第二目标单词;在查找到第二目标单词的情况下,在页面单词字典库中查找第二目标单词的解释信息,并将第二目标单词的解释信息作为页面单词的解释信息;基于至少一个页面单词的解释信息确定业务单词。
可选地,匹配单元还用于:在查找到第二目标单词的情况下,将页面单词更新至页面单词字典库中;确定页面单词的解释信息,并将页面单词的解释信息更新至页面单词字典库中。
可选地,如图4所示,获取单元包括:获取模块41,用于获取Web应用的访问流量;解析模块42,用于在访问流量中解析Web业务的统一资源定位符。
本发明实施例提供的Web业务行为的识别装置,与上述实施例提供的Web业务行为的识别方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的一种Web业务行为的识别方法及装置的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种Web业务行为的识别方法,其特征在于,包括:
获取Web业务的统一资源定位符;
对所述统一资源定位符进行解析,得到目录单词和页面信息,其中,所述页面信息包括以下至少之一:页面名称,请求参数,页面元素;
将所述目录单词与目录单词字典库进行匹配,以将所述目录单词翻译成业务目录,并将所述页面信息与页面单词字典库进行匹配,以将所述页面信息翻译成业务单词;
基于所述业务目录和所述业务单词识别所述Web业务的业务行为。
2.根据权利要求1所述的方法,其特征在于,对所述统一资源定位符进行解析,得到目录单词和页面信息包括:
在所述统一资源定位符中识别多个标识符;
将所述多个标识符中任意两个相邻的标识符之间的单词作为所述目录单词;
将所述统一资源定位符中除所述目录单词之外的单词作为所述页面信息。
3.根据权利要求2所述的方法,其特征在于,将所述目录单词与目录单词字典库进行匹配,以将所述目录单词翻译成业务目录包括:
在所述目录单词字典库中查找与所述目录单词相匹配的第一目标单词;
在查找到所述第一目标单词的情况下,在所述目录单词字典库中查找所述目标单词的解释信息,并将所述目标单词的解释信息作为所述目录单词的业务解释信息;
基于至少一个所述目录单词的业务解释信息确定所述业务目录。
4.根据权利要求3所述的方法,其特征在于,在查找到所述第一目标单词的情况下,所述方法还包括:
将所述目录单词更新至所述目录单词字典库中;
确定所述目录单词的业务解释信息,并将所述目录单词的业务解释信息更新至所述目录单词字典库中。
5.根据权利要求2所述的方法,其特征在于,将所述页面信息与页面单词字典库进行匹配,以将所述页面信息翻译成业务单词包括:
采用分词规则对所述页面信息进行分词处理,得到页面单词,其中,所述分词规则为采用Web应用页面命名规则定义的分词规则;
在所述页面单词字典库中查找与所述页面单词相匹配的第二目标单词;
在查找到所述第二目标单词的情况下,在所述页面单词字典库中查找所述第二目标单词的解释信息,并将所述第二目标单词的解释信息作为所述页面单词的解释信息;
基于至少一个所述页面单词的解释信息确定所述业务单词。
6.根据权利要求5所述的方法,其特征在于,在查找到所述第二目标单词的情况下,所述方法还包括:
将所述页面单词更新至所述页面单词字典库中;
确定所述页面单词的解释信息,并将所述页面单词的解释信息更新至所述页面单词字典库中。
7.根据权利要求1所述的方法,其特征在于,获取Web业务的统一资源定位符包括:
获取Web应用的访问流量;
在所述访问流量中解析所述Web业务的统一资源定位符。
8.一种Web业务行为的识别装置,其特征在于,包括:
获取单元,用于获取Web业务的统一资源定位符;
解析单元,用于对所述统一资源定位符进行解析,得到目录单词和页面信息,其中,所述页面信息包括以下至少之一:页面名称,请求参数,页面元素;
匹配单元,用于将所述目录单词与目录单词字典库进行匹配,以将所述目录单词翻译成业务目录,并将所述页面信息与页面单词字典库进行匹配,以将所述页面信息翻译成业务单词;
识别单元,用于基于所述业务目录和所述业务单词识别所述Web业务的业务行为。
9.根据权利要求8所述的装置,其特征在于,所述解析单元用于:
在所述统一资源定位符中识别多个标识符;
将所述多个标识符中任意两个相邻的标识符之间的单词作为所述目录单词;
将所述统一资源定位符中除所述目录单词之外的单词作为所述页面信息。
10.根据权利要求9所述的装置,其特征在于,所述匹配单元用于:
在所述目录单词字典库中查找与所述目录单词相匹配的第一目标单词;
在查找到所述第一目标单词的情况下,在所述目录单词字典库中查找所述目标单词的解释信息,并将所述目标单词的解释信息作为所述目录单词的业务解释信息;
基于至少一个所述目录单词的业务解释信息确定所述业务目录。
CN201710647783.6A 2017-08-01 2017-08-01 Web业务行为的识别方法及装置 Pending CN107403013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710647783.6A CN107403013A (zh) 2017-08-01 2017-08-01 Web业务行为的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710647783.6A CN107403013A (zh) 2017-08-01 2017-08-01 Web业务行为的识别方法及装置

Publications (1)

Publication Number Publication Date
CN107403013A true CN107403013A (zh) 2017-11-28

Family

ID=60402384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710647783.6A Pending CN107403013A (zh) 2017-08-01 2017-08-01 Web业务行为的识别方法及装置

Country Status (1)

Country Link
CN (1) CN107403013A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100391A (zh) * 2019-05-31 2020-12-18 阿里巴巴集团控股有限公司 用户意图识别方法、装置、服务端、客户端及终端设备
CN112149419A (zh) * 2020-09-30 2020-12-29 中国工商银行股份有限公司 字段的规范化自动命名方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102185762A (zh) * 2011-04-19 2011-09-14 北京网康科技有限公司 用户数据发送行为的识别与提取及其处理设备
JP2012014437A (ja) * 2010-06-30 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> データ転送装置及びアクセス解析方法
CN104052737A (zh) * 2014-05-19 2014-09-17 北京网康科技有限公司 一种网络数据报文的处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014437A (ja) * 2010-06-30 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> データ転送装置及びアクセス解析方法
CN102185762A (zh) * 2011-04-19 2011-09-14 北京网康科技有限公司 用户数据发送行为的识别与提取及其处理设备
CN104052737A (zh) * 2014-05-19 2014-09-17 北京网康科技有限公司 一种网络数据报文的处理方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100391A (zh) * 2019-05-31 2020-12-18 阿里巴巴集团控股有限公司 用户意图识别方法、装置、服务端、客户端及终端设备
CN112100391B (zh) * 2019-05-31 2023-06-13 阿里巴巴集团控股有限公司 用户意图识别方法、装置、服务端、客户端及终端设备
CN112149419A (zh) * 2020-09-30 2020-12-29 中国工商银行股份有限公司 字段的规范化自动命名方法、装置及系统
CN112149419B (zh) * 2020-09-30 2024-03-08 中国工商银行股份有限公司 字段的规范化自动命名方法、装置及系统

Similar Documents

Publication Publication Date Title
US11907244B2 (en) Modifying field definitions to include post-processing instructions
US10740075B2 (en) Systems and methods for code clustering analysis and transformation
US11726760B2 (en) Systems and methods for entry point-based code analysis and transformation
US11436006B2 (en) Systems and methods for code analysis heat map interfaces
CN106919555B (zh) 用于日志流内包含的数据的字段提取的系统和方法
CN104133772A (zh) 一种自动生成测试数据的方法
CN102647414B (zh) 协议解析方法、设备及系统
CN108228166A (zh) 一种基于模板的后端代码生成方法及系统
CN106982150A (zh) 一种基于Hadoop的移动互联网用户行为分析方法
CN110007906B (zh) 脚本文件的处理方法、装置和服务器
CN104102701B (zh) 一种基于hive的历史数据存档与查询方法
CN104572644A (zh) 数据库更新装置和数据库更新方法
CN101853289A (zh) 一种数据库审计方法和设备
CN111507083A (zh) 文本解析方法、装置、设备及存储介质
Kamalabalan et al. Tool support for traceability of software artefacts
CN106055375A (zh) 应用程序安装方法及装置
CN107403013A (zh) Web业务行为的识别方法及装置
CN112015382B (zh) 一种处理器构架解析方法、装置、设备及储存介质
CN104484156B (zh) 多语言公式的编辑方法、编辑系统和多语言公式编辑器
CN110110153A (zh) 一种节点搜索的方法和装置
US20110161304A1 (en) Deployment and compliance manager
CN114168122A (zh) 数据脚本的生成方法及装置
CN111352818B (zh) 应用程序性能分析方法、装置、存储介质及电子设备
CN103577406B (zh) 一种管理非结构化数据的方法及装置
CN109144489B (zh) 基于Yang语言模型的状态数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171128