CN108307081B - 骚扰数据批量处理方法及装置 - Google Patents

骚扰数据批量处理方法及装置 Download PDF

Info

Publication number
CN108307081B
CN108307081B CN201810155504.9A CN201810155504A CN108307081B CN 108307081 B CN108307081 B CN 108307081B CN 201810155504 A CN201810155504 A CN 201810155504A CN 108307081 B CN108307081 B CN 108307081B
Authority
CN
China
Prior art keywords
data
different
processed
processing
distributors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810155504.9A
Other languages
English (en)
Other versions
CN108307081A (zh
Inventor
韦祎
张歆明
闫绍华
李振博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201810155504.9A priority Critical patent/CN108307081B/zh
Publication of CN108307081A publication Critical patent/CN108307081A/zh
Application granted granted Critical
Publication of CN108307081B publication Critical patent/CN108307081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • H04M3/4365Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it based on information specified by the calling party, e.g. priority or subject
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种骚扰数据批量处理方法,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,针对不同数据源批量数据(垃圾短信和电话)录入系统时,通过将相同数据标识(例如电话号码的key)的数据由同一个进程来处理,由此保证高并发性并且保证数据一致性。

Description

骚扰数据批量处理方法及装置
技术领域
本发明涉及通信技术领域,具体涉及一种骚扰数据批量处理方法及装置。
背景技术
随着通信技术的发展,手机等通信终端变得越来越普及,对人们的学习工作生活等方面都产生不可忽略的影响。然而,一些不法分子正是利用手机的普及牟取私利。目前,存在很多利用自动机器或通过人工恶意拨打电话、发送骚扰短信,给用户生活带来诸多骚扰,甚至带来财产等方面的损失。目前手机等终端上可安装防骚扰电话或短信的安全软件,当有骚扰电话接入时客对用户进行“该号码可能是骚扰电话”等提醒。当用户发现某个号码可能是骚扰电话时,也可举报该号码。在安全软件的后台服务器侧,每时每刻会收到不同数据源(不同运营方、第三方平台等)提交的批量数据处理请求,请求对疑似骚扰号码的数据进行识别。如何在后台服务器对不同数据源提交的批量数据进行有效录入及分析,是本领域技术人员需要解决的一个技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的骚扰数据批量处理方法及装置。
依据本发明的一个方面,提供一种骚扰数据批量处理方法,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:
从不同数据源接收到多个数据处理请求;
根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;
按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。
在一种可选方式中,所述设置不同的数据传输队列分别对各个数据标识对应的各批数据进行处理,包括:
将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;
为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;
其中,各个数据处理进程并行运行。
在一种可选方式中,还包括:
对所述数据传输队列进行流量监控;
当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。
在一种可选方式中,还包括:
为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。
在一种可选方式中,还包括:
获取所述数据处理进程或备份进程处理后的数据;
将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,
将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统对数据进行线下分析。
在一种可选方式中,所述计算出各个待处理的数据的数据标识包括:
解析所述数据得到骚扰电话或垃圾短信所属的电话号码;
根据所属的电话号码进行关键字计算,得到所述数据标识。
在一种可选方式中,所述根据所述多个数据处理请求,获取到多个待处理的数据,包括:
由多个分发器从不同数据源获取到所述多个待处理的数据;其中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中。
在一种可选方式中,所述将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中,包括:
对各个数据的各个数据标识进行归一化操作;
将数据标识归一化操作结果进行冗余校验;
按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。
在一种可选方式中,还包括:
根据不同数据源的优先级,控制所述分发器优先获取优先级高的数据源的数据。
依据本发明的另一个方面,提供一种骚扰数据批量处理装置,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:
请求接收单元,用于从不同数据源接收到多个数据处理请求;
数据获取单元,用于根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;
数据处理单元,用于按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。
在一种可选方式中,所述数据处理单元具体用于:将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;其中,各个数据处理进程并行运行。
在一种可选方式中,还包括:
流量监控单元,用于对所述数据传输队列进行流量监控;
告警单元,用于当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。
在一种可选方式中,还包括:
备份进程设置单元,用于为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。
在一种可选方式中,还包括:
数据分析单元,用于获取所述数据处理进程或备份进程处理后的数据;将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统对数据进行线下分析。
在一种可选方式中,所述数据获取单元具体用于:解析所述数据得到骚扰电话或垃圾短信所属的电话号码;根据所属的电话号码进行关键字计算,得到所述数据标识。
在一种可选方式中,所述数据获取单元具体用于:由多个分发器从不同数据源获取到所述多个待处理的数据;其中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中。
在一种可选方式中,所述数据获取单元具体用于:对各个数据的各个数据标识进行归一化操作;将数据标识归一化操作结果进行冗余校验;按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。
在一种可选方式中,还包括:
数据获取控制单元,用于根据不同数据源的优先级,控制所述分发器优先获取优先级高的数据源的数据。
可见,本发明实施例提供的骚扰数据批量处理方法,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,针对不同数据源批量数据(垃圾短信和电话)录入系统时,通过将相同数据标识(例如电话号码的key)的数据由同一个进程来处理,由此保证高并发性并且保证数据一致性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的骚扰数据批量处理方法流程图;
图2示出了根据本发明一个实施例的骚扰数据批量处理方法实例场景示意图;以及,
图3示出了根据本发明一个实施例的骚扰数据批量处理装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如前所述,在安全软件的后台服务器侧,每时每刻会收到不同数据源(不同运营方、第三方平台等)提交的批量数据处理请求,请求对疑似骚扰号码的数据进行识别。在后台服务器需要对不同数据源提交的批量数据进行有效录入及分析。如果对数据进行并行处理,可一定程度上保证处理效率,但是却不能保证数据的一致性;如果对数据进行串行处理,就一定程度上牺牲处理效率。
本发明实施例提供一种骚扰数据批量处理方法,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理;该方法在服务端实现。参见图1,该方法包括步骤S101-S103。
S101:从不同数据源接收到多个数据处理请求。
数据源包括但不限于后台服务器、第三方服务器、运营商服务器等。不同的数据源提交数据处理请求,请求对初步标记为骚扰电话或垃圾短信的数据进行处理。
S102:根据多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识。
对于骚扰电话或垃圾短信为例,数据标识(key)可以是电话号码或者是根据电话号码提取的特征信息。例如,首先解析数据得到骚扰电话或垃圾短信所属的电话号码;然后根据所属的电话号码进行关键字计算,得到数据标识。数据标识主要是为了对数据进行划分(分批),便于后续设置不同的数据传输队列对各批数据进行分别处理,由此保证数据的一致性。
在一种可选方式中,可通过多个分发器接收大量来自不同数据源的数据,然后再分发到相应的数据传输队列。例如设置10个分发器同时接收来自各个数据源的数据;这样设置的好处在于可以高效接收数据以及高效分发数据至后续的数据传输队列。为了避免某个(些)分发器过于忙碌而其他分发器过于空闲的情况,需要通过流量策略保证数据被均匀分配到各个分发器。
在一种可选方式中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中,具体采用如下方式:
(1)对各个数据的各个数据标识进行归一化操作;
(2)将数据标识归一化操作结果进行冗余校验;
(3)按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。
例如,首先对数据的key进行md5计算,也就是对key先进行归一化操作,然后再对md5值进行crc32运算,这一步主要是解决key均匀分配问题。
另外,在分发器接收不同数据源数据时,还可针对不同数据源的优先级进行数据接收控制。例如,根据不同数据源的优先级,控制分发器优先获取优先级高的数据源的数据。其中,数据源的优先级可以根据数据源的可信度或信用确定。
S103:按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。
在一种可选方式中,将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;其中,各个数据处理进程并行运行。
由于将具有相同数据标识的数据放在同一个队列中,然后由于每个队列只有对应的一个进程来处理,也就是相当于同一个key由同一个进程来处理。放在队列中的好处一个是做成了异步处理,解决高并发的问题,另一个是数据的更新在队列里是按照时间先后顺序排列的,这样可以保证数据的一致性。一个进程对应一个队列,这个进程只顺序的处理和它对应的队列的消息,一个进程和哪个队列对应可预先配置。
为了保证每个数据传输队列的正常运行,可对数据传输队列进行流量监控。在一种可选方式中,通过对所述数据传输队列进行流量监控,当数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。例如,对队列进行监控,当发现队列有比较严重的堆积的时候,导致数据录入延时很慢的话,就会产生告警,这个告警会通过邮件或者短信的方式通知到业务负责人,也就是给用户发邮件和短信。
在一种可选方式中,还可以为各个数据处理进程设置备份进程,以避免数据处理进程故障等情况造成的数据处理不及时的问题。因此,为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动备份进程对数据进行处理。例如,进程1是主进程,进程2是备用进程,为了保证高可用,进程2在进程1处理失败时被启动。
在一种可选方式中,当各个数据处理进程完成数据处理之后,还包括:
(1)获取数据处理进程或备份进程处理后的数据;
(2)将处理后的数据以压缩二进制形式存入第一分析系统,由第一分析系统对数据进行线上分析;和/或,
(3)将处理后的数据以明文形式存入第二分析系统,由第二分析系统对数据进行线下分析。
参见图2,为本发明实施例骚扰数据批量处理方法一个实例场景示意图。
在图2中,整个骚扰数据批量处理系统包括数据生产模块201、数据传输模块202、数据消费模块203、数据分析模块204以及告警模块205。
数据生产模块201用于接收各个数据源发起的数据处理请求并获取到数据。在具体实现中,可在数据生产模块201中设置多个分发器2011(分发器1、2、3…);每个分发器接收到数据后将数据按照数据标识分配到对应的数据传输队列2021中。其中,为了保证数据均匀分配到各个分发器2011中,可首先对数据的key进行md5计算,也就是对key先进行归一化操作,然后再对md5值进行crc32运算,然后按照crc32运算结果分配相应数据到各个分发器中。此外,可以根据不同数据源的优先级,控制分发器优先获取优先级高的数据源的数据。其中,数据源的优先级可以根据数据源的可信度或信用确定。
数据传输模块202中包括多个数据传输队列2021。每个数据传输队列2021从分发器2021接收具有相同数据标识的数据、并传输至数据处理进程20311。一个进程对应一个队列,一个进程和哪个队列对应可预先配置。
数据消费模块203包括主进程池2031和备用进程池2032。主进程池2031中包括与各个数据传输队列2021对应的多个数据处理进程20311;在备用进程池2032中为每个数据处理进程20311设置一个备用进程20321。由于将具有相同数据标识的数据放在同一个队列中,然后由于每个队列只有对应的一个进程来处理,也就是相当于同一个key由同一个进程来处理。放在队列中的好处一个是做成了异步处理,解决高并发的问题,另一个是数据的更新在队列里是按照时间先后顺序排列的,这样可以保证数据的一致性。
数据分析模块204可对数据处理进程处理后的数据进行存储和分析。例如,在数据分析模块204设置两个数据分析系统:第一数据分析系统和第二数据分析系统。其中:将处理后的数据以压缩二进制形式存入第一数据分析系统,由第一数据分析系统对数据进行线上分析;将处理后的数据以明文形式存入第二数据分析系统,由第二数据分析系统对数据进行线下分析。
告警模块205可对数据传输队列2021进行监控并告警。为了保证每个数据传输队列的正常运行,可对数据传输队列2021进行流量监控。通过对数据传输队列2021进行流量监控,当数据传输队列2021中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。例如,对队列进行监控,当发现队列有比较严重的堆积的时候,导致数据录入延时很慢的话,就会产生告警,这个告警会通过邮件或者短信的方式通知到业务负责人,也就是给用户发邮件和短信。
可见,本发明实施例提供的骚扰数据批量处理方法,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,针对不同数据源批量数据(垃圾短信和电话)录入系统时,通过将相同数据标识(例如电话号码的key)的数据由同一个进程来处理,由此保证高并发性并且保证数据一致性。
与上述方法相对应,本发明实施例还提供一种骚扰数据批量处理装置,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,参见图3,包括:
请求接收单元301,用于从不同数据源接收到多个数据处理请求;
数据获取单元302,用于根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;
数据处理单元303,用于按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。
在一种可选方式中,所述数据处理单元303具体用于:将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;其中,各个数据处理进程并行运行。
在一种可选方式中,还包括:
流量监控单元304,用于对所述数据传输队列进行流量监控;
告警单元305,用于当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。
在一种可选方式中,还包括:
备份进程设置单元306,用于为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。
在一种可选方式中,还包括:
数据分析单元307,用于获取所述数据处理进程或备份进程处理后的数据;将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统对数据进行线下分析。
在一种可选方式中,所述数据获取单元302具体用于:解析所述数据得到骚扰电话或垃圾短信所属的电话号码;根据所属的电话号码进行关键字计算,得到所述数据标识。
在一种可选方式中,所述数据获取单元302具体用于:由多个分发器从不同数据源获取到所述多个待处理的数据;其中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中。
在一种可选方式中,所述数据获取单元302具体用于:对各个数据的各个数据标识进行归一化操作;将数据标识归一化操作结果进行冗余校验;按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。
在一种可选方式中,还包括:
数据获取控制单元308,用于根据不同数据源的优先级,控制所述分发器优先获取优先级高的数据源的数据。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的插件调用通知栏的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
A1、一种骚扰数据批量处理方法,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:
从不同数据源接收到多个数据处理请求;
根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;
按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。
A2、根据A1所述的方法,所述设置不同的数据传输队列分别对各个数据标识对应的各批数据进行处理,包括:
将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;
为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;
其中,各个数据处理进程并行运行。
A3、根据A2所述的方法,还包括:
对所述数据传输队列进行流量监控;
当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。
A4、根据A2所述的方法,还包括:
为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。
A5、根据A4所述的方法,还包括:
获取所述数据处理进程或备份进程处理后的数据;
将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,
将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统对数据进行线下分析。
A6、根据A1所述的方法,所述计算出各个待处理的数据的数据标识包括:
解析所述数据得到骚扰电话或垃圾短信所属的电话号码;
根据所属的电话号码进行关键字计算,得到所述数据标识。
A7、根据A1-A6任一项所述的方法,所述根据所述多个数据处理请求,获取到多个待处理的数据,包括:
由多个分发器从不同数据源获取到所述多个待处理的数据;其中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中。
A8、根据A7所述的方法,所述将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中,包括:
对各个数据的各个数据标识进行归一化操作;
将数据标识归一化操作结果进行冗余校验;
按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。
A9、根据A7所述的方法,还包括:
根据不同数据源的优先级,控制所述分发器优先获取优先级高的数据源的数据。
B10、一种骚扰数据批量处理装置,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:
请求接收单元,用于从不同数据源接收到多个数据处理请求;
数据获取单元,用于根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;
数据处理单元,用于按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。
B11、根据B10所述的装置,所述数据处理单元具体用于:将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;其中,各个数据处理进程并行运行。
B12、根据B11所述的装置,还包括:
流量监控单元,用于对所述数据传输队列进行流量监控;
告警单元,用于当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。
B13、根据B11所述的装置,还包括:
备份进程设置单元,用于为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。
B14、根据B13所述的装置,还包括:
数据分析单元,用于获取所述数据处理进程或备份进程处理后的数据;将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统对数据进行线下分析。
B15、根据B10所述的装置,所述数据获取单元具体用于:解析所述数据得到骚扰电话或垃圾短信所属的电话号码;根据所属的电话号码进行关键字计算,得到所述数据标识。
B16、B10-B15任一项所述的装置,所述数据获取单元具体用于:由多个分发器从不同数据源获取到所述多个待处理的数据;其中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中。
B17、根据B16所述的装置,所述数据获取单元具体用于:对各个数据的各个数据标识进行归一化操作;将数据标识归一化操作结果进行冗余校验;按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。
B18、根据B16所述的方法,还包括:
数据获取控制单元,用于根据不同数据源的优先级,控制所述分发器优先获取优先级高的数据源的数据。

Claims (16)

1.一种骚扰数据批量处理方法,其特征在于,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:
从不同数据源接收到多个数据处理请求;
根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;
按照数据标识将数据划分为多批数据,将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;其中,各个数据处理进程并行运行。
2.根据权利要求1所述的方法,其特征在于,还包括:
对所述数据传输队列进行流量监控;
当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。
3.根据权利要求1所述的方法,其特征在于,还包括:
为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。
4.根据权利要求3所述的方法,其特征在于,还包括:
获取所述数据处理进程或备份进程处理后的数据;
将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,
将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统对数据进行线下分析。
5.根据权利要求1所述的方法,其特征在于,所述计算出各个待处理的数据的数据标识包括:
解析所述数据得到骚扰电话或垃圾短信所属的电话号码;
根据所属的电话号码进行关键字计算,得到所述数据标识。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述多个数据处理请求,获取到多个待处理的数据,包括:
由多个分发器从不同数据源获取到所述多个待处理的数据;其中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中。
7.根据权利要求6所述的方法,其特征在于,所述将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中,包括:
对各个数据的各个数据标识进行归一化操作;
将数据标识归一化操作结果进行冗余校验;
按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。
8.根据权利要求6所述的方法,其特征在于,还包括:
根据不同数据源的优先级,控制所述分发器优先获取优先级高的数据源的数据。
9.一种骚扰数据批量处理装置,其特征在于,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:
请求接收单元,用于从不同数据源接收到多个数据处理请求;
数据获取单元,用于根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;
数据处理单元,用于按照数据标识将数据划分为多批数据,将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;其中,各个数据处理进程并行运行。
10.根据权利要求9所述的装置,其特征在于,还包括:
流量监控单元,用于对所述数据传输队列进行流量监控;
告警单元,用于当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。
11.根据权利要求9所述的装置,其特征在于,还包括:
备份进程设置单元,用于为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。
12.根据权利要求11所述的装置,其特征在于,还包括:
数据分析单元,用于获取所述数据处理进程或备份进程处理后的数据;将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统对数据进行线下分析。
13.根据权利要求9所述的装置,其特征在于,所述数据获取单元具体用于:解析所述数据得到骚扰电话或垃圾短信所属的电话号码;根据所属的电话号码进行关键字计算,得到所述数据标识。
14.根据权利要求9-13任一项所述的装置,其特征在于,所述数据获取单元具体用于:由多个分发器从不同数据源获取到所述多个待处理的数据;其中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中。
15.根据权利要求14所述的装置,其特征在于,所述数据获取单元具体用于:对各个数据的各个数据标识进行归一化操作;将数据标识归一化操作结果进行冗余校验;按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。
16.根据权利要求14所述的装置,其特征在于,还包括:
数据获取控制单元,用于根据不同数据源的优先级,控制所述分发器优先获取优先级高的数据源的数据。
CN201810155504.9A 2018-02-23 2018-02-23 骚扰数据批量处理方法及装置 Active CN108307081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810155504.9A CN108307081B (zh) 2018-02-23 2018-02-23 骚扰数据批量处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810155504.9A CN108307081B (zh) 2018-02-23 2018-02-23 骚扰数据批量处理方法及装置

Publications (2)

Publication Number Publication Date
CN108307081A CN108307081A (zh) 2018-07-20
CN108307081B true CN108307081B (zh) 2021-01-29

Family

ID=62848730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810155504.9A Active CN108307081B (zh) 2018-02-23 2018-02-23 骚扰数据批量处理方法及装置

Country Status (1)

Country Link
CN (1) CN108307081B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422243B (zh) * 2020-11-22 2021-08-13 广州技象科技有限公司 基于进程优化的数据传输方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014121630A1 (en) * 2013-02-06 2014-08-14 Tencent Technology (Shenzhen) Company Limited Method and device for transferring file
CN107465692A (zh) * 2017-09-15 2017-12-12 湖北省楚天云有限公司 统一用户身份认证方法、系统以及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9229977B2 (en) * 2012-08-02 2016-01-05 Rule 14 Real-time and adaptive data mining
CN104462121B (zh) * 2013-09-18 2019-04-30 腾讯科技(深圳)有限公司 数据处理方法、装置及系统
CN103605715B (zh) * 2013-11-14 2017-09-08 北京国双科技有限公司 用于多个数据源的数据整合处理方法和装置
CN106202324B (zh) * 2016-06-30 2020-10-30 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN107341255B (zh) * 2017-07-11 2021-04-02 北京小度信息科技有限公司 键值数据处理方法、装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014121630A1 (en) * 2013-02-06 2014-08-14 Tencent Technology (Shenzhen) Company Limited Method and device for transferring file
CN107465692A (zh) * 2017-09-15 2017-12-12 湖北省楚天云有限公司 统一用户身份认证方法、系统以及存储介质

Also Published As

Publication number Publication date
CN108307081A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN110838065A (zh) 一种交易数据处理方法及装置
CN110808922A (zh) 一种消息处理方法、装置、存储介质及电子设备
CN109669835B (zh) MySQL数据库监控方法、装置、设备及可读存储介质
CN111698126B (zh) 信息监控方法、系统及计算机可读存储介质
CN111225029A (zh) 一种动态消息推送方法、系统和汽车诊断服务器
CN112286770A (zh) 告警通知的方法、装置、计算机设备及存储介质
CN108616668B (zh) 监控拨打任务的方法、电子装置及计算机可读存储介质
CN111835790A (zh) 一种风险识别方法、装置及系统
CN111641678A (zh) 任务调度方法、装置、电子设备及介质
CN108307081B (zh) 骚扰数据批量处理方法及装置
EP3998754A1 (en) Data distribution method, electronic device, and storage medium
CN108881929B (zh) 一种设置直播间登录提示的方法和装置
CN109670932B (zh) 信贷数据核算方法、装置、系统和计算机存储介质
CN109359799B (zh) 保单调单处理方法、装置、计算机设备及存储介质
US20150120607A1 (en) System and method for customer event email consolidation and delivery
CN111611123B (zh) 数据处理方法、数据处理系统及设备
CN115658745A (zh) 数据处理方法、装置、计算机设备和计算机可读存储介质
CN113268317B (zh) 一种任务处理方法、装置及电子设备
CN108021407B (zh) 基于网络设备的业务处理方法及装置
CN116483544B (zh) 任务处理方法、装置、计算机设备和存储介质
CN112511312A (zh) 一种可组装的共识方法及系统
CN111432357A (zh) 信息处理方法、系统及计算设备
CN114827065B (zh) 基于统一通信信道的实时通信方法及相关设备
CN116166891B (zh) 基于房地产管理系统的事件重推方法及相关装置
CN116308394B (zh) 标签关联方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant