CN108255888B - 一种数据处理方法及系统 - Google Patents

一种数据处理方法及系统 Download PDF

Info

Publication number
CN108255888B
CN108255888B CN201611256290.1A CN201611256290A CN108255888B CN 108255888 B CN108255888 B CN 108255888B CN 201611256290 A CN201611256290 A CN 201611256290A CN 108255888 B CN108255888 B CN 108255888B
Authority
CN
China
Prior art keywords
data
behavior
target object
category
category data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611256290.1A
Other languages
English (en)
Other versions
CN108255888A (zh
Inventor
陈熹荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611256290.1A priority Critical patent/CN108255888B/zh
Publication of CN108255888A publication Critical patent/CN108255888A/zh
Application granted granted Critical
Publication of CN108255888B publication Critical patent/CN108255888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种数据处理方法及系统,用于对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省存储空间。本发明实施例方法包括:获取网页行为数据;根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;判断类别数据是否大于预置长度;若大于,则根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。

Description

一种数据处理方法及系统
技术领域
本发明涉及数据压缩领域,尤其涉及一种数据处理方法及系统。
背景技术
会话Session记录用户访问网页的一组行为,是网页分析的基础单位。系统会为用户访问网页创建一个Session,并为包含的访问行为创建不同类型的行为对象,如网页浏览PageViewObject,鼠标滚动MouseScrollObject,鼠标点击MouseClickObject,电子订单EcomObject,站内搜索SiteSearchObject等。然而由于用户访问行为的复杂化,一个Session往往包含数千个访问对象,而其中大多数的对象并不需要全量存储。
现有技术并不会对Session中的数据进行分析然后对数据进行压缩,使得很多意义不大的信息占用存储空间。
发明内容
本发明实施例提供了一种数据处理方法及系统,用于对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省存储空间。
本发明实施例第一方面提供了一种数据处理方法,具体包括:
获取网页行为数据;
根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;
判断类别数据是否大于预置长度;
若大于,则根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
本发明实施例第二方面提供了一种数据处理系统,具体包括:
获取单元,用于获取网页行为数据;
分类单元,用于根据预置规则对获取单元获取到的网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;
判断单元,用于判断类别数据是否大于预置长度;
压缩单元,用于当类别数据大于预置长度时,根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
本发明实施例第三方面提供了一种数据处理系统,具体包括:
输入装置、输出装置、处理器和存储器;
处理器通过调用存储器存储的操作指令,用于执行如下步骤:
获取网页行为数据;
根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;
判断类别数据是否大于预置长度;
若大于,则根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,系统首先获取网页行为数据;根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;然后判断类别数据是否大于预置长度;若大于,则根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
附图说明
图1为本发明实施例中网络结构示意图;
图2为本发明实施例中数据处理方法一个实施例示意图;
图3为本发明实施例中数据处理方法另一实施例示意图;
图4为本发明实施例中数据处理方法另一实施例示意图;
图5为本发明实施例中数据处理方法另一实施例示意图;
图6为本发明实施例中系统一个实施例示意图;
图7为本发明实施例中系统另一个实施例示意图;
图8为本发明实施例中系统另一个实施例示意图;
图9为本发明实施例中系统另一个实施例示意图;
图10为本发明实施例中系统另一个实施例示意图;
图11为本发明实施例中系统另一个实施例示意图。
具体实施方式
本发明实施例提供了一种数据处理方法及系统,用于对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省存储空间。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例可应用于如图1所示的网络架构,该网络架构中,用户可通过用户设备(例如个人计算机、笔记本电脑、平板电脑、手机等)连接网络访问网页。
本发明实施例中,系统首先获取网页行为数据;根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;然后判断类别数据是否大于预置长度;若大于,则根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
请参阅图2,本发明实施例中数据处理方法一个实施例包括:
201、获取网页行为数据。
本实施例中,用户在终端浏览网页数据时,系统将获取用户浏览网页数据时产生的行为数据。
202、根据预置规则对网页行为数据进行分类。
本实施例中,当系统获取到网页行为数据之后,将根据预置规则对网页行为数据进行分类,得到匹配数据和类别数据,其中,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据。
需要说明的是,预置规则存有网页行为数据与优先级的对应关系,其中与预置规则相匹配的网页行为数据优先级比较高,系统在浏览记录里会先显示优先级高的网页行为数据(匹配数据)。
203、判断类别数据是否大于预置长度。若大于,则执行步骤204;若小于,则执行步骤205。
本实施例中,当系统根据预置规则对网页行为数据进行分类,并得到匹配数据和类别数据之后,将判断类别数据是否大于预置长度。
需要说明的是,预置长度的长度可以是100,也可以为其他数目,例如150,具体此处不做限定。
204、根据权重数据库对类别数据中的目标对象进行压缩处理。
本实施例中,当系统判断类别数据大于预置长度之后,将根据权重数据库对类别数据中的目标对象进行压缩处理,其中,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
需要说明的是,系统对目标对象进行压缩处理之后,将继续执行步骤203,直到类别数据的长度小于预置长度。
205、不对目标对象进行压缩处理。
本实施例中,当系统判断类别数据不大于预置长度之后,将不对目标对象进行压缩处理。
本发明实施例中,系统首先获取网页行为数据;根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;然后判断类别数据是否大于预置长度;若大于,则根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
请参阅图3,本发明实施例中数据处理方法另一个实施例包括:
301、获取网页行为数据。
本实施例中,用户在终端浏览网页数据时,系统将获取用户浏览网页数据时产生的行为数据。
302、将行为对象的名称缩写依次添加到缩写字段中。
本实施例中,系统获取到网页行为数据,将行为对象的名称缩写依次添加到缩写字段中,得到缩写后的行为对象。
例如,系统获取到的网页行为数据有:
“PageViewObject→MouseScrollObject→MouseScrollObject→MouseScrollObject→MouseClickObject→PageViewObject→SiteSearchObject→EcomObject。”
将该行为对象的名称缩写依次添加到缩写字段后,得到:“pv-ms-ms-ms-mc-pv-ss-ecom”。
303、根据预置规则对网页行为数据进行分类。
本实施例中,当系统获取到网页行为数据之后,将根据预置规则对网页行为数据进行分类,得到匹配数据和类别数据,其中,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据。
需要说明的是,预置规则存有网页行为数据与优先级的对应关系,其中与预置规则相匹配的网页行为数据优先级比较高,系统在浏览记录里会先显示优先级高的网页行为数据(匹配数据)。
需要说明的是,系统根据预置规则对网页行为数据进行分类之后,会检查分类结果中是否有匹配数据,如果有,则为匹配数据打上匹配关键对象Matched-Key-Object标签。
根据Matched-Key-Object的数目来决定是否需要为类别数据对象打上类别关键对象Type-Key-Object标签,规则如下:
1)Matched-Key-Object的数目>=ShowNum(显示数目),不打标签,转下一步。
2)Matched-Key-Object的数目<ShowNum,则根据预置类别库为类别数据中类别优先级排名靠前的(ShowNum-Matched-Key-Object的数目)个行为对象打上Type-Key-Object标签。其中,预置类别库存有类别数据与该数据的等级关系。
类别优先级指不同种类的类别数据的优先级,例如订单>搜索>网页浏览。匹配优先级高于类别优先级。
304、判断类别数据是否大于预置长度。
本实施例中,当系统根据预置规则对网页行为数据进行分类,并得到匹配数据和类别数据之后,将判断类别数据是否大于预置长度。
需要说明的是,预置长度的长度可以是100,也可以为其他数目,例如150,具体此处不做限定。
需要说明的是,该需要判断长度的类别数据为打上了Type-Key-Object标签的数据和没有标签的数据。
305、根据权重数据库对类别数据中的目标对象进行压缩处理。
本实施例中,当系统判断类别数据大于预置长度之后,将根据权重数据库对类别数据中的目标对象进行压缩处理,其中,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
需要说明的是,根据权重数据库对类别数据中的目标对象进行压缩处理具体过程包括:根据权重数据库从类别数据中查找权重最低且未被进行过压缩处理的行为对象,得到目标对象;仅保留首次出现的目标对象,并将后面的目标对象的个数累加到首次出现的目标对象中,完成对目标对象的压缩处理。
需要说明的是,如果系统执行过压缩处理之后,判断出类别数据依然大于预置长度,则根据权重数据库对类别数据中的目标对象再次进行压缩处理。此时的目标对象为未进行过压缩处理的,且权重在所有未压缩过的行为对象中最低的对象。
例如,系统获取到网页行为数据并进行缩写处理之后,得到如下序列:“pv-3ms-2pv-3ms-pv-2ss-pv-3ecom-3ms-pv”,假如判断该数据大于预置长度,则查找当前权重最低且未执行过压缩的行为对象,得到“ms”,对其进行压缩,得到“pv-9ms-2pv-pv-2ss-pv-3ecom-pv”。接着执行1次合并,得到:“pv-9ms-3pv-2ss-pv-3ecom-pv”。假如该序列依旧过长,则再次执行压缩,此时权重最低的是“pv”,压缩后得到“6pv-9ms-2ss-3ecom”。合并操作发现没有可合并的对象,原样输出。
306、不对目标对象进行压缩处理。
本实施例中,当系统判断类别数据不大于预置长度之后,将不对目标对象进行压缩处理。
需要说明的是,系统在浏览记录里会先显示优先级高的网页行为数据(匹配数据),并且当打上Matched-Key-Object标签的匹配数据小于ShowNum时,将按照类别优先级给一定数目(ShowNum-Matched-Key-Object)打上Type-Key-Object标签。其中打上Matched-Key-Object标签和Type-Key-Object标签的网页行为数据为在ShowNum中显示的数据。使得匹配数据和优先级较高的类别数据突出现实,便于用户识别这两类数据,方便用户获取网页行为数据的核心内容。
本发明实施例中,系统首先获取网页行为数据;根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;然后判断类别数据是否大于预置长度;若大于,则根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
请参阅图4,本发明实施例中数据处理方法另一个实施例包括:
401、获取网页行为数据。
402、将行为对象的名称缩写依次添加到缩写字段中。
403、根据预置规则对网页行为数据进行分类。
404、判断类别数据是否大于预置长度。
405、根据权重数据库对类别数据中的目标对象进行压缩处理。
本实施例中,步骤401至步骤405与图3中步骤301至步骤305类似,具体此处不做赘述。
406、在类别数据中查找是否存在相邻的且类型相同的行为对象。
本实施例中,当根据权重数据库对类别数据中的目标对象进行压缩处理之后,将在该进行过压缩处理的类别数据中查找是否存在相邻的且类型相同的行为对象。
407、对相邻的且类型相同的行为对象进行合并处理。
本实施例中,当系统在该进行过压缩处理的类别数据中查找存在相邻的且类型相同的行为对象之后,将对该相邻的且类型相同的行为对象进行合并处理。
需要说明的是,系统进行合并处理之后,将继续执行步骤404,直到类别数据小于预置长度。
408、不对目标对象进行压缩处理。
本实施例中,当系统判断类别数据不大于预置长度之后,将不对目标对象进行压缩处理。
需要说明的是,系统在浏览记录里会先显示优先级高的网页行为数据(匹配数据),并且当打上Matched-Key-Object标签的匹配数据小于ShowNum时,将按照类别优先级给一定数目(ShowNum-Matched-Key-Object)打上Type-Key-Object标签。其中打上Matched-Key-Object标签和Type-Key-Object标签的网页行为数据为在ShowNum中显示的数据。使得匹配数据和优先级较高的类别数据突出现实,便于用户识别这两类数据,方便用户获取网页行为数据的核心内容。
本发明实施例中,系统首先获取网页行为数据;根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;然后判断类别数据是否大于预置长度;若大于,则根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
请参阅图5,本发明实施例中数据处理方法另一个实施例包括:
501、获取网页行为数据。
502、将行为对象的名称缩写依次添加到缩写字段中。
503、根据预置规则对网页行为数据进行分类。
504、判断类别数据是否大于预置长度。
505、根据权重数据库对类别数据中的目标对象进行压缩处理。
本实施例中,步骤501至步骤505与图3中步骤301至步骤305类似,具体此处不做赘述。
506、给进行过压缩处理的目标对象添加第一压缩标记。
本实施例中,当系统根据权重数据库对类别数据中的目标对象进行压缩处理时,同时会为该进行过压缩处理的目标对象添加第一压缩标记,该第一压缩标记指示该目标对象进行过压缩处理。
507、在类别数据中查找是否存在相邻的且类型相同的行为对象。
508、对相邻的且类型相同的行为对象进行合并处理。
本实施例中,步骤507与步骤508与图4中步骤406与步骤407类似,具体此处不做赘述。
509、不对目标对象进行压缩处理。
本实施例中,当系统判断类别数据不大于预置长度之后,将不对目标对象进行压缩处理。
需要说明的是,系统在浏览记录里会先显示优先级高的网页行为数据(匹配数据),并且当打上Matched-Key-Object标签的匹配数据小于ShowNum时,将按照类别优先级给一定数目(ShowNum-Matched-Key-Object)打上Type-Key-Object标签。其中打上Matched-Key-Object标签和Type-Key-Object标签的网页行为数据为在ShowNum中显示的数据。使得匹配数据和优先级较高的类别数据突出现实,便于用户识别这两类数据,方便用户获取网页行为数据的核心内容。
510、根据第一压缩标记给类别数据添加第二压缩标记。
本实施例中,当系统判断类别数据小于预置长度之后,将根据类别数据中的行为对象是否含有第一压缩标记判断该类别数据是否被压缩过,当判断出该类别数据中存在第一压缩标记,将给类别数据添加第二压缩标记。
其中,第二压缩标记指示该类别数据包含压缩过的行为对象且压缩完成,第二压缩标记添加在类别数据的前端。例如,对于压缩合并后的数据:“6pv-9ms-2ss-3ecom”,假如第二压缩标记为compress字段,则打上第二压缩标记之后为“compress-6pv-9ms-2ss-3ecom”。此时表明该字段压缩完成。
本发明实施例中,系统首先获取网页行为数据;根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;然后判断类别数据是否大于预置长度;若大于,则根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
上面对本发明实施例中的数据处理方法进行了描述,下面对本发明实施例中的系统进行描述,请参阅图6,本发明实施例中的系统的一个实施例包括:
获取单元601,用于获取网页行为数据;
分类单元602,用于根据预置规则对获取单元获取到的网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;
判断单元603,用于判断类别数据是否大于预置长度;
压缩单元604,用于当类别数据大于预置长度时,根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
本发明实施例中,获取单元601获取网页行为数据;分类单元602根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;判断单元603判断类别数据是否大于预置长度;若大于,则压缩单元604根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
请参阅图7,本发明实施例中系统的另一个实施例包括:
获取单元701,用于获取网页行为数据;
分类单元702,用于根据预置规则对获取单元获取到的网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;
判断单元703,用于判断类别数据是否大于预置长度;
压缩单元704,用于当类别数据大于预置长度时,根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
其中,压缩单元704包括:
查找子单元7041,用于根据权重数据库从类别数据中查找权重最低且未被进行过压缩处理的行为对象,得到目标对象;
压缩子单元7042,用于仅保留首次出现的目标对象,并将后面的目标对象的个数累加到首次出现的目标对象中,完成对目标对象的压缩处理。
本发明实施例中,获取单元701获取网页行为数据;分类单元702根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;判断单元703判断类别数据是否大于预置长度;若大于,则压缩单元704根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
请参阅图8,本发明实施例中系统的另一个实施例包括:
获取单元801,用于获取网页行为数据;
缩写单元802,用于将行为对象的名称缩写依次添加到缩写字段中,得到缩写后的行为对象。
分类单元803,用于根据预置规则对获取单元获取到的网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;
判断单元804,用于判断类别数据是否大于预置长度;
压缩单元805,用于当类别数据大于预置长度时,根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
其中,压缩单元805包括:
查找子单元8051,用于根据权重数据库从类别数据中查找权重最低且未被进行过压缩处理的行为对象,得到目标对象;
压缩子单元8052,用于仅保留首次出现的目标对象,并将后面的目标对象的个数累加到首次出现的目标对象中,完成对目标对象的压缩处理。
本发明实施例中,获取单元801获取网页行为数据;缩写单元802将行为对象的名称缩写依次添加到缩写字段中,得到缩写后的行为对象,分类单元803根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;判断单元804判断类别数据是否大于预置长度;若大于,则压缩单元805根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
请参阅图9,本发明实施例中系统的另一个实施例包括:
获取单元901,用于获取网页行为数据;
缩写单元902,用于将行为对象的名称缩写依次添加到缩写字段中,得到缩写后的行为对象。
分类单元903,用于根据预置规则对获取单元获取到的网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;
判断单元904,用于判断类别数据是否大于预置长度;
压缩单元905,用于当类别数据大于预置长度时,根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
其中,压缩单元905包括:
查找子单元9051,用于根据权重数据库从类别数据中查找权重最低且未被进行过压缩处理的行为对象,得到目标对象;
压缩子单元9052,用于仅保留首次出现的目标对象,并将后面的目标对象的个数累加到首次出现的目标对象中,完成对目标对象的压缩处理。
查找单元906,用于在类别数据中查找是否存在相邻的且类型相同的行为对象;
合并单元907,用于当存在相邻的且类型相同的行为对象时,对相邻的且类型相同的行为对象进行合并处理。
本发明实施例中,获取单元901获取网页行为数据;缩写单元902将行为对象的名称缩写依次添加到缩写字段中,得到缩写后的行为对象,分类单元903根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;判断单元904判断类别数据是否大于预置长度;若大于,则压缩单元905根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
请参阅图10,本发明实施例中系统的另一个实施例包括:
获取单元1001,用于获取网页行为数据;
缩写单元1002,用于将行为对象的名称缩写依次添加到缩写字段中,得到缩写后的行为对象。
分类单元1003,用于根据预置规则对获取单元获取到的网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;
判断单元1004,用于判断类别数据是否大于预置长度;
压缩单元1005,用于当类别数据大于预置长度时,根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。
其中,压缩单元1005包括:
查找子单元10051,用于根据权重数据库从类别数据中查找权重最低且未被进行过压缩处理的行为对象,得到目标对象;
压缩子单元10052,用于仅保留首次出现的目标对象,并将后面的目标对象的个数累加到首次出现的目标对象中,完成对目标对象的压缩处理。
第一标记单元1006,用于给进行过压缩处理的目标对象添加第一压缩标记;
查找单元1007,用于在类别数据中查找是否存在相邻的且类型相同的行为对象;
合并单元1008,用于当存在相邻的且类型相同的行为对象时,对相邻的且类型相同的行为对象进行合并处理。
第二标记单元1009,用于根据第一压缩标记给类别数据添加第二压缩标记。
本发明实施例中,获取单元1001获取网页行为数据;缩写单元1002将行为对象的名称缩写依次添加到缩写字段中,得到缩写后的行为对象,分类单元1003根据预置规则对网页行为数据进行分类,得到分类结果,分类结果包括匹配数据和类别数据,匹配数据为与预置规则相对应的数据,类别数据为不与预置规则对应的数据;判断单元1004判断类别数据是否大于预置长度;若大于,则压缩单元1005根据权重数据库对类别数据中的目标对象进行压缩处理,权重数据库存有行为对象与权重的对应关系,目标对象属于行为对象,且目标对象未被进行过压缩处理。本发明实施例中,系统对获取到的网页行为数据进行分析,根据分析结果对行为对象进行压缩处理,节省了存储空间。
请参阅图11,图11是本发明实施例提供的一种系统结构示意图,该系统1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对系统中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在系统1100上执行存储介质1130中的一系列指令操作。
系统1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由系统所执行的步骤可以基于该图11所示的系统结构。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不进行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)进行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
获取网页行为数据;
根据预置规则对所述网页行为数据进行分类,得到分类结果,所述分类结果包括匹配数据和类别数据,所述匹配数据为与预置规则相对应的数据,所述类别数据为不与所述预置规则对应的数据;
判断所述类别数据是否大于预置长度;
若大于,则根据权重数据库对所述类别数据中的目标对象进行压缩处理,所述权重数据库存有行为对象与权重的对应关系,所述目标对象属于所述行为对象,且所述目标对象未被进行过压缩处理;
所述根据权重数据库对所述类别数据中的目标对象进行压缩处理包括:
根据所述权重数据库从所述类别数据中查找权重最低且未被进行过压缩处理的所述行为对象,得到所述目标对象;
仅保留首次出现的所述目标对象,并将后面的目标对象的个数累加到首次出现的目标对象中,完成对所述目标对象的压缩处理。
2.根据权利要求 1 所述的数据处理方法,其特征在于,所述获取网页行为数据之后,所述方法还包括:
将所述行为对象的名称缩写依次添加到缩写字段中,得到缩写后的所述行为对象。
3.根据权利要求 1 至 2 中任一项所述的数据处理方法,其特征在于,所述根据权重数据库对所述类别数据中的目标对象进行压缩处理之后,所述方法还包括:
在所述类别数据中查找是否存在相邻的且类型相同的行为对象;
若存在,则对所述相邻的且类型相同的行为对象进行合并处理。
4.根据权利要求 1 至 2 中任一项所述的数据处理方法,其特征在于,所述根据权重数据库对所述类别数据中的目标对象进行压缩处理之后,所述方法还包括:
给所述进行过压缩处理的目标对象添加第一压缩标记;
当判断所述类别数据小于预置长度时,根据所述第一压缩标记给所述类别数据添加第二压缩标记。
5.一种数据处理系统,其特征在于,包括:
获取单元,用于获取网页行为数据;
分类单元,用于根据预置规则对所述获取单元获取到的所述网页行为数据进行分类,得到分类结果,所述分类结果包括匹配数据和类别数据,所述匹配数据为与预置规则相对应的数据,所述类别数据为不与所述预置规则对应的数据;
判断单元,用于判断所述类别数据是否大于预置长度;
压缩单元,用于当所述类别数据大于预置长度时,根据权重数据库对所述类别数据中的目标对象进行压缩处理,所述权重数据库存有行为对象与权重的对应关系,所述目标对象属于所述行为对象,且所述目标对象未被进行过压缩处理;
所述压缩单元包括:
查找子单元,用于根据所述权重数据库从所述类别数据中查找权重最低且未被进行过压缩处理的所述行为对象,得到所述目标对象;压缩子单元,用于仅保留首次出现的所述目标对象,并将后面的目标对象的个数累加到首次出现的目标对象中,完成对所述目标对象的压缩处理。
6.根据权利要求 5 所述的系统,其特征在于,所述系统还包括:
缩写单元,用于将所述行为对象的名称缩写依次添加到缩写字段中,得到缩写后的所述行为对象。
7.根据权利要求 5 至 6 中任一项所述的系统,其特征在于,所述系统还包括:
查找单元,用于在所述类别数据中查找是否存在相邻的且类型相同的行为对象;
合并单元,用于当存在相邻的且类型相同的行为对象时,对所述相邻的且类型相同的行为对象进行合并处理。
8.根据权利要求 5 至 6 中任一项所述的系统,其特征在于,所述系统还包括:
第一标记单元,用于给所述进行过压缩处理的目标对象添加第一压缩标记;
第二标记单元,用于根据所述第一压缩标记给所述类别数据添加第二压缩标记。
CN201611256290.1A 2016-12-29 2016-12-29 一种数据处理方法及系统 Active CN108255888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611256290.1A CN108255888B (zh) 2016-12-29 2016-12-29 一种数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611256290.1A CN108255888B (zh) 2016-12-29 2016-12-29 一种数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN108255888A CN108255888A (zh) 2018-07-06
CN108255888B true CN108255888B (zh) 2021-08-17

Family

ID=62720893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611256290.1A Active CN108255888B (zh) 2016-12-29 2016-12-29 一种数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN108255888B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118202339A (zh) * 2021-10-28 2024-06-14 华为技术有限公司 一种数据库数据的压缩方法及存储设备
CN115292392B (zh) * 2022-10-10 2022-12-16 南通海隼信息科技有限公司 用于智能仓储的数据管理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792182B2 (en) * 2013-01-31 2017-10-17 Hewlett Packard Enterprise Development Lp Checkpoint generation
CN104965863B (zh) * 2015-06-05 2019-04-26 北京奇虎科技有限公司 一种对象聚类方法和装置
CN106156791B (zh) * 2016-06-15 2021-03-30 北京京东尚科信息技术有限公司 业务数据分类方法和装置

Also Published As

Publication number Publication date
CN108255888A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN107657048B (zh) 用户识别方法及装置
WO2020232879A1 (zh) 风险传导关联图谱优化方法、装置、计算机设备和存储介质
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
CN107844565B (zh) 商品搜索方法和装置
US20170132638A1 (en) Relevant information acquisition method and apparatus, and storage medium
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN105574089B (zh) 知识图谱的生成方法及装置、对象对比方法及装置
CN106991175B (zh) 一种客户信息挖掘方法、装置、设备以及存储介质
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN109086377B (zh) 设备画像的生成方法、装置及计算设备
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN107911448A (zh) 一种内容推送方法及装置
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN108288208A (zh) 基于图像内容的展示对象确定方法、装置、介质及设备
CN104462396A (zh) 字符串处理方法和装置
CN108255888B (zh) 一种数据处理方法及系统
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
CN114741544A (zh) 图像检索方法、检索库构建方法、装置、电子设备及介质
CN110297953A (zh) 产品信息推荐方法、装置、计算机设备以及存储介质
CN112749258A (zh) 数据搜索的方法和装置、电子设备和存储介质
US11328005B2 (en) Machine learning (ML) based expansion of a data set
CN111177566A (zh) 一种信息处理方法、装置、电子设备及存储介质
CN111783786A (zh) 图片的识别方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant