CN114741380A - 通信业务数据稽核方法及装置 - Google Patents

通信业务数据稽核方法及装置 Download PDF

Info

Publication number
CN114741380A
CN114741380A CN202210384106.0A CN202210384106A CN114741380A CN 114741380 A CN114741380 A CN 114741380A CN 202210384106 A CN202210384106 A CN 202210384106A CN 114741380 A CN114741380 A CN 114741380A
Authority
CN
China
Prior art keywords
auditing
data
service
audit
communication service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210384106.0A
Other languages
English (en)
Inventor
沈治廷
朱峰炜
谭杰
黄恒杰
李家明
王健
王楷波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202210384106.0A priority Critical patent/CN114741380A/zh
Publication of CN114741380A publication Critical patent/CN114741380A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种通信业务数据稽核方法及装置,其中,方法包括:获取用户的通信业务数据以及所述通信业务数据所属的业务类别;采用稽核集,判断所述业务类别是否为第一次被稽核的业务类别,所述稽核集中包括未被稽核过的全部业务类别;若所述业务类别是第一次被稽核的业务类别,则采用预设的人工稽核模型对所述通信业务数据进行稽核以获得稽核结果;若所述业务类别不是第一次被稽核的业务类别,则采用机器学习稽核模型对所述通信业务数据进行稽核以获得稽核结果;其中,所述机器学习稽核模型是采用多个已被稽核过的业务类别所对应的通信业务数据训练得到的。本申请的方法解决了业务规则的频繁变动给人工稽核模型的升级维护带来巨大压力的问题。

Description

通信业务数据稽核方法及装置
技术领域
本申请涉及通信业务管理技术领域,尤其涉及一种通信业务数据稽核方法及装置。
背景技术
在电信行业中,对用户的通信业务数据的稽核(如出账稽核)是确保通信业务稳态发展的重要管理技术手段。
现有的出账稽核方法主要为基于业务规则的人工稽核模型方法。示例性地,一种通信业务对应一个业务规则。稽核人员将业务规则属性相同的业务规则归为一个业务类别,并基于业务类别对应的业务规则,为每一个业务类别对应编写一个稽核程序(即人工稽核模型)。稽核人员基于用户的通信业务数据所属的业务类别,采用业务类别对应的人工稽核模型对用户的通信业务数据进行稽核,获得稽核结果(如出账正常或出账异常),以便于后续处理。当人工稽核模型对应业务规则发生变动,如出现新业务规则,则需升级该人工稽核模型或新建新的人工稽核模型以满足通信业务数据精准稽核的需求。
然而,用户业务需求场景的频繁变化,促使频繁产生新业务规则,即促使业务规则频繁变动。业务规则的频繁变动给人工稽核模型的升级维护带来巨大的压力,进而影响通信业务数据的稽核时效性。
发明内容
本申请提供一种通信业务数据稽核方法及装置,以解决业务规则的频繁变动给人工稽核模型的升级维护带来巨大的压力的问题,确保业务规则频繁变动下通信业务数据的稽核时效性。
第一方面,本申请提供一种通信业务数据稽核方法,包括:
获取用户的通信业务数据以及所述通信业务数据所属的业务类别;
采用稽核集,判断所述业务类别是否为第一次被稽核的业务类别,所述稽核集中包括未被稽核过的全部业务类别;
若所述业务类别是第一次被稽核的业务类别,则采用预设的人工稽核模型对所述通信业务数据进行稽核以获得稽核结果;
若所述业务类别不是第一次被稽核的业务类别,则采用机器学习稽核模型对所述通信业务数据进行稽核以获得稽核结果;
其中,所述机器学习稽核模型是采用多个已被稽核过的业务类别所对应的通信业务数据训练得到的。
可选的,所述通信业务数据包括实际出账值和多个业务参数值;所述稽核结果为出账正常、需再次确认、出账异常中的任一种结果;
所述采用机器学习稽核模型对所述通信业务数据进行稽核以获得稽核结果,包括:
对所述通信业务数据进行输入处理,获得由实际出账特征值q和多个业务参数特征值Pi组成的多维特征向量P;
将所述多维特征向量输入所述机器学习稽核模型,获得出账正常的稽核概率值γ;
基于所述稽核概率值γ,确定所述稽核概率值γ对应的稽核结果;
其中,i为自然数。
可选的,所述基于所述稽核概率值γ,确定所述稽核概率值γ对应的稽核结果,包括:
将所述稽核概率值γ与预设阈值δ0进行对比,按如下方式确定稽核结果:
若δ0<γ,则确定稽核结果为出账正常;
若γ≤δ0,则确定稽核结果为出账异常。
可选的,所述基于所述稽核概率值γ,确定所述稽核概率值γ对应的稽核结果,包括:
将所述稽核概率值γ与预设的下限阈值δL和上限阈值δH进行对比,按如下方式确定稽核结果:
若δH<γ,则确定稽核结果为出账正常;
若δL≤γ≤δH,则确定稽核结果为需再次确认;
若γ<δL,则确定稽核结果为出账异常。
可选的,在所述采用预设的人工稽核模型或所述机器学习稽核模型对所述通信业务数据进行稽核以获得稽核结果之前,所述方法还包括:
对所述通信业务数据进行数据清洗,获得对应的纯净数据。
可选的,所述稽核结果包括需再次确认的稽核结果;在确定所述稽核结果为需再次确认之后,所述方法还包括:
对所述通信业务数据进行修正处理,获得修正业务数据;
基于所述修正业务数据对应的业务类别,采用预设的人工稽核模型或所述机器学习稽核模型对所述修正业务数据进行稽核以获得对应稽核结果。
可选的,在所述获得稽核结果之后,所述方法还包括:
基于出账异常的稽核结果所对应的通信业务数据,生成所述稽核结果对应用户的异常用户工单,以通知所述用户归属地的工单处理人员进行处理。
第二方面,本申请提供一种通信业务数据稽核设备,应用于通信业务数据稽核系统,所述系统包括稽核设备和至少一个数据采集设备;所述稽核设备包括:
数据收发单元、数据稽核单元和数据修正单元;其中,
所述数据收发单元,用于从至少一个数据采集设备获取用户的通信业务数据以及所述通信业务数据所属的业务类别;采用稽核集,判断所述业务类别是否为第一次被稽核的业务类别,并将所述通信业务数据和业务类别的判断结果发送到所述数据稽核单元;所述稽核集中包括未被稽核过的全部业务类别;
所述数据稽核单元,用于基于所述通信业务数据业务类别的判断结果,采用预设的人工稽核模型对业务类别是第一次被稽核业务类别的通信业务数据进行稽核,以获得稽核结果;或,采用机器学习稽核模型对业务类别不是第一次被稽核业务类别的通信业务数据进行稽核以获得稽核结果;并将稽核结果发送给数据收发单元;其中,所述机器学习稽核模型是采用多个已被稽核过的业务类别所对应的通信业务数据训练得到的;所述稽核结果为出账正常、需再次确认、出账异常中的任一种结果;
所述数据收发单元,还用于将稽核结果为出账异常的通信业务数据生成所述稽核结果对应用户的异常用户工单,以通知所述用户归属地的工单处理人员进行处理。
可选的,所述稽核设备还包括数据修正单元;
所述数据收发单元,还用于将稽核结果为需再次确认的通信业务数据发送到所述数据修正单元;
所述数据修正单元,用于对所收到的通信业务数据进行修正处理,获得修正业务数据,并将所述修正业务数据发送到所述数据收发单元;
所述数据收发单元,还用于将所述修正业务数据发送到所述数据稽核单元;
所述数据稽核单元,还用于基于所述修正业务数据对应的业务类别,采用预设的人工稽核模型或所述机器学习稽核模型对所述修正业务数据进行稽核以获得对应稽核结果。
可选的,所述数据收发单元包括数据收发模块、数据清洗模块、数据输入模块;所述数据稽核单元包括人工稽核模块和机器学习稽核模块;其中,
所述数据收发模块,用于从至少一个数据采集设备获取用户的通信业务数据以及所述通信业务数据所属的业务类别;并采用稽核集,判断所述业务类别是否为第一次被稽核的业务类别;
所述数据清洗模块,用于对所述通信业务数据按如下方式进行数据清洗,获得对应的纯净数据:
对所述通信业务数据进行冲突数据识别,若在所述通信业务数据中未识别出冲突数据,则确定所述通信业务数据为一次清洗数据;所述通信业务数据包括实际出账值和多个业务参数各自对应的业务参数值;所述冲突数据为同一业务参数对应的多个不同的业务参数值;对所述一次清洗数据进行二次清洗,获得纯净数据;所述二次清洗包括数据标准化转换、缺失数据补全、无效数据剔除;
所述数据输入模块,用于基于所述纯净数据所属的业务类别,将业务类别是第一次被稽核业务类别的纯净数据,输入所述人工稽核模块以获得稽核结果;或,对业务类别不是第一次被稽核业务类别的纯净数据进行输入处理,获得对应的多维特征向量,并将所述多维特征向量输入所述机器学习稽核模块以获得稽核结果;所述多维特征向量P是由实际出账特征值q和多个业务参数特征值Pi组成的;其中,i为自然数;
所述人工稽核模块,用于采用预设的人工稽核模型对所输入的纯净数据进行稽核以获得稽核结果;
所述机器学习稽核模块,用于采用多层前馈神经网络模型对所输入的纯净数据进行稽核以获得稽核结果;所述多层前馈神经网络模型包括输入层、至少一个隐藏层、归一化层和输出层;所述隐藏层的节点激活函数为线性整流函数;所述归一化层的激活函数为归一化指数softmax函数。
第三方面,本申请提供一种通信业务数据稽核装置,包括:
处理器和存储器;
所述存储器存储所述处理器可执行的可执行指令;
其中,所述处理器执行所述存储器存储的可执行指令,使得所述处理器执行如上所述的方法。
本申请提供的通信业务数据稽核方法及装置,通过对获取的各用户的通信业务数据的业务类别,进行是否为第一次被稽核的业务类别判断,并基于判断结果,采用预设的人工稽核模型或机器学习稽核模型对各用户的通信业务数据进行稽核以获得各用户的稽核结果。其中,机器学习稽核模型适用于训练样本对应的业务类别所涵盖的通信业务所对应的用户通信业务数据的稽核,在业务类别无变动仅业务类别下属通信业务频繁变动的情况下,无需对机器学习稽核模型升级即可确保对新通信业务下属用户通信业务数据的准确稽核;而本申请中的人工稽核模型仅用于第一次被稽核的新增业务类别的通信业务数据的稽核。本申请解决了业务规则的频繁变动给人工稽核模型的升级维护带来巨大的压力的问题,确保了业务规则频繁变动下通信业务数据的稽核时效性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的通信业务数据稽核系统架构图;
图2为本申请实施例提供的通信业务数据稽核方法流程图;
图3为本申请实施例提供的通信业务数据稽核设备结构图;
图4为本申请实施例提供的BP神经网络模型结构图;
图5为本申请实施例提供的通信业务数据稽核装置结构图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着通信行业的技术革新以及互联网的发展,用户业务需求场景也在随之频繁变化。为满足用户频繁新增的业务需求,运营商也在频繁增加新的通信业务,即增加新的业务规则或对原有业务规则进行变更。若预设好的人工稽核模型不涵盖新的业务规则,该人工稽核模型则无法对新业务规则对应的用户通信业务数据进行准确稽核。在现有技术中,为了确保人工稽核模型对新业务规则对应的用户通信业务数据进行准确稽核,常采用如下方式对人工稽核模型进行维护:若新业务规则不属于已有的任何一个业务类别,即新增了业务类别,则需基于新业务规则,为新增业务类别新建一个对应的人工稽核模型;若新业务规则没有致使业务类别的新增,则需基于新业务规则,对新业务规则所属业务类别对应的预设好的人工稽核模型进行升级。
无论是新增业务规则还是对原有业务规则的变更,这些业务规则的变动不可避免带来了,新建人工稽核模型或对预设好的人工稽核模型进行升级的需求。人工稽核模型的维护频率通常与业务规则变动频率相当。所以,即使业务规则的变动不涉及原有业务类别的变化(如没有新增业务类别),业务规则的频繁变动也会给人工稽核模型的升级维护带来巨大的压力,进而影响通信业务数据的稽核时效性。
对此,本申请提供一种通信业务数据稽核方法,通过对用户的通信业务数据所属的业务类别进行判断,确定出用户的通信业务数据业务类别是否是第一次被稽核的业务类别,若用户通信业务数据的业务类别是第一次被稽核的业务类别,则采用预设的人工稽核模型对该通信业务数据进行稽核以获得稽核结果;反之,若用户通信业务数据的业务类别不是第一次被稽核的业务类别,则采用机器学习稽核模型对该通信业务数据进行稽核以获得稽核结果。其中,机器学习稽核模型是采用多个已被稽核过的业务类别所对应的通信业务数据训练得到的,该机器学习稽核模型适用于训练所用的通信业务数据对应业务类别所对应的所有通信业务。也就是说,该机器学习稽核模型所适用的业务类别下属的通信业务的变动,不会影响该机器学习稽核模型对其所适用业务类别下属的所有通信业务的准确稽核。即,机器学习稽核模型所适用的业务类别下属的通信业务发生变动,该机器学习稽核模型无需随之进行同频率升级,甚至无需升级。本申请提供的通信业务数据稽核方法,可以在业务规则的变动不涉及原有业务类别变化的情况下,解决业务规则的频繁变动给人工稽核模型的升级维护带来巨大压力的问题,确保业务规则频繁变动下通信业务数据的稽核时效性。
下面结合部分实施例对本申请提供的通信业务数据稽核方法进行说明。
图1为本申请实施例提供的通信业务数据稽核系统架构图。如图1所示,该系统包括:稽核设备11、至少一个数据采集设备12,其中数据采集设备12可以是运营商总部处理通信业务的中心业务系统(也称为主系统)中的数据采集设备12,也可以是各地区运营部门处理通信业务的地区业务系统(如地区业务系统1、地区业务系统2、…、地区业务系统n,n为自然数)中的数据采集设备12。当稽核人员需要对中心业务系统中某一通信业务某一时段的各用户的通信业务数据进行稽核时,稽核人员通过中心业务系统向稽核设备11发送稽核请求,如稽核人员通过中心业务系统的数据采集设备12向稽核设备11发送稽核请求;相应地,当稽核人员需要对某一地区业务系统中某一通信业务某一时段的各用户的通信业务数据进行稽核时,稽核人员通过该地区业务系统向稽核设备11发送稽核请求,如稽核人员通过该地区业务系统的数据采集设备12向稽核设备11发送稽核请求。其中,稽核请求包括:发送该稽核请求的中心业务系统或地区业务系统的系统标识、发送稽核请求的设备标识、通信业务标识、时间段(如某年某月)。通常,地区业务系统的数据采集设备12会与中心业务系统的数据采集设备12定期进行通信业务数据同步。稽核设备11收到稽核请求后,基于稽核请求,从系统标识对应的数据采集设备12获取对应的各用户的通信业务数据和通信业务数据所属的业务类别。其中,通信业务数据包括实际出账值和多个业务参数各自对应的业务参数值(简称:参数值)。稽核设备11采用稽核集判断通信业务数据所属的业务类别是否为第一次被稽核的业务类别。该稽核集中包括未被稽核过的全部业务类别。若稽核设备11判断确定该业务类别是第一次被稽核的业务类别,则采用预设的人工稽核模型分别对各用户的通信业务数据进行稽核以获得各用户的稽核结果;若稽核设备11判断确定该业务类别不是第一次被稽核的业务类别,则采用机器学习稽核模型分别对各用户的通信业务数据进行稽核以获得各用户的稽核结果。其中,机器学习稽核模型是采用多个已被稽核过的业务类别所对应的通信业务数据训练得到的。
由于第一次被稽核的业务类别通常是新增的业务类别,对应的用户数量相对已被稽核过的业务类别而言用户数量较少,采用预设的人工稽核模型对第一次被稽核业务类别的用户的通信业务数据进行稽核,准确而高效。但对于已被稽核过的业务类别而言,用户数量较大,且存在业务类别下的通信业务频繁变动的情况,人工稽核模型升级维护压力较大。而采用多个已被稽核过的业务类别所对应的通信业务数据组成的训练样本,训练得到的机器学习稽核模型,适用于训练样本对应的业务类别所涵盖的用户通信业务数据的稽核。也就是说,在业务类别无变动仅业务类别下属通信业务频繁变动的情况下,无需对机器学习稽核模型升级即可确保对新通信业务下属用户通信业务数据的准确稽核。
在本申请提供的方法中,人工稽核模型仅适用于新增业务类别,即人工稽核模型是在新增业务类别后,针对该新增业务类别新建或升级而成的。当人工稽核模型对应业务类别的通信业务数据在第一次被稽核以后,若该业务类别下属通信业务发生变动,需对该业务类别下属通信业务数据进行再一次稽核,则只需基于该业务类别的通信业务数据,对机器学习稽核模型训练样本的更新和模型训练。并采用模型训练后的机器学习稽核模型对该业务类别的通信业务数据进行稽核即可,而无需针对该业务类别下属通信业务的变动,对该业务类别对应的人工稽核模型进行升级。通常新增业务类别的频率低,相应地,需新建或升级人工稽核模型的频率也低,不会对人工稽核模型的新建或升级造成压力。
本申请提供的通信业务数据稽核方法,通过对获取的各用户的通信业务数据的业务类别,进行是否为第一次被稽核的业务类别判断,并基于判断结果,采用预设的人工稽核模型或机器学习稽核模型对各用户的通信业务数据进行稽核以获得各用户的稽核结果。其中,机器学习稽核模型适用于训练样本对应的业务类别所涵盖的通信业务所对应的用户通信业务数据的稽核,在业务类别无变动仅业务类别下属通信业务频繁变动的情况下,无需对机器学习稽核模型升级即可确保对新通信业务下属用户通信业务数据的准确稽核;而人工稽核模型仅用于第一次被稽核的新增业务类别的通信业务数据的稽核。本申请提供的方法解决了业务规则的频繁变动给人工稽核模型的升级维护带来巨大的压力的问题,进而确保了业务规则频繁变动下通信业务数据的稽核时效性。
下面结合图2对本申请提供的通信业务数据稽核方法进行详细说明。图2为本申请实施例提供的通信业务数据稽核方法流程图。对各用户的通信业务数据进行稽核的具体流程如图2所示。图2所示实施例的执行主体为图1所示实施例中的稽核设备11。如图2所示,该方法包括:
S201、获取用户的通信业务数据以及通信业务数据所属的业务类别。
具体而言,稽核设备11从中心业务系统的数据采集设备12或地区业务系统的数据采集设备12获取用户的通信业务数据以及通信业务数据所属的业务类别。
可选地,稽核设备11从中心业务系统和地区业务系统,这两个系统的数据采集设备12获取同一用户在通信业务数据以及通信业务数据所属的业务类别。也就是说,该用户的通信业务数据可以是由来自两个不同系统的数据采集设备12上的通信业务数据所组成的。
由于地区业务系统中的数据采集设备12是根据地方性业务需求特征而定制的地方定制设备,地方定制设备上设置的数据传输接口差异会导致用户的通信业务数据无法全部通过数据传输接口传送到稽核设备11。对此,在获得地区业务系统授权的情况下,稽核设备11可以通过爬虫技术从地区业务系统的数据采集设备12上获取完整的待稽核的用户通信业务数据。
为便于后续稽核,在对通信业务数据进行稽核前,可以对各通信业务数据进行预处理。
进一步地,稽核设备11在采用预设的人工稽核模型或机器学习稽核模型对通信业务数据进行稽核以获得稽核结果之前,稽核设备11可以先对通信业务数据进行数据清洗,获得对应的纯净数据。
示例性地,若用户的通信业务数据仅来自于中心业务系统的数据采集设备12或地区业务系统的数据采集设备12,则采用常规清洗方式对用户的通信业务数据进行清洗,获得纯净数据。常规清洗方式包括数据标准化转换、缺失数据补全、无效数据剔除。
对用户的通信业务数据进行常规清洗的示例如下步骤(1)-(3)所示:
(1)数据标准化转换:由于稽核设备11从数据采集设备12获取的通信业务数据通常包含了整型、浮点型、日期型、字符串等多种类型的数据。但无论是人工稽核模型还是机器学习稽核模型,输入信息的数据类型要求是数字类型的。因此需对日期型和字符串进行标准化转换,以将所有类型的数据统一转化为数字类型,以便于后续模型输入特征的构造和输入。
示例性地,日期型数据的标准化转换示例:①采用正则匹配方式将以字符串表达的日期型数据转为日期数组;②对日期数组进行进一步精简获得精简日期:如当待稽核时间段为某月时,将日期数组中的年和月信息删除,仅保留日、时、分、秒信息;③对精简日期进行偏移量计算,获得数字类型日期:如当待稽核时间段为某月时,从该月1日0秒开始,以秒为单位计算偏移量,如“2021-10-01 01:00:00”计算转化为数字类型日期“3600”。
字符串类型数据的标准化转换示例:字符串类型数据往往用来表示带有实际意义的信息,如通信地点、短信的业务类型(如“短信”、“彩信”)和呼叫类型(如“发送”、“接收”等)等。对此,可以将字符串类型数据采用数字编码转换方式进行标准化转换。例如,采用城市编码转换通信地点,如将用通信地点“北京”、“广州”分别转换为城市编码“010”、“020”;采用从0开始的数字为每种业务参数(如业务类型、呼叫类型)枚举、编码转换。
(2)缺失数据补全:无论是人工稽核模型,还是机器学习稽核模型,均需适用于其适用的业务类别所对应的所有业务规则。一个模型通常需同时适用于多个业务规则,则待输入模型的特征向量为包含模型所适用的多个业务规则的所有业务参数维度的特征。而用户的通信业务数据仅对应于一个业务规则,对此,为保持输入模型的输入特征维度的一致性,需基于模型的输入特征,对用户的通信业务数据进行缺失维度的数据补全。例如,固定网络、宽带号码在使用流量这一维度的数据是缺失的,则直接对缺失数据采用补零方式进行缺失数据补全。即若用户A的通信业务为固网,则在用户A的通信业务数据基础上,执行添加业务参数为“使用流量”、对应业务参数值为“0”的数据补全操作。
(3)无效数据剔除:若稽核设备11从数据采集设备12获取的通信业务数据存在关键数据缺失的情况,如通信业务标识码(即产品编码)、实际出账参数值缺失,则判定该通信业务数据为无效数据,直接将该通信业务数据剔除。可选地,剔除了通信业务数据可以生成用户异常工单,以通知用户归属地人员进行处理。
可选地,若用户的通信业务数据是由来自中心业务系统和地区业务系统这两个不同系统的数据采集设备12上的通信业务数据所组成的。则对通信业务数据按如下步骤I-II所示方式进行数据清洗,获得对应的纯净数据:
I、对通信业务数据进行一次清洗,获得一次清洗数据。
一次清洗是考虑了通信业务的业务场景设置的清洗方式。在本方案中,由于用户的通信业务数据是由中心业务系统和地区业务系统的数据采集设备12所采集的该用户的数据所组成的。虽然地区业务系统与中心业务系统会定期进行数据同步,但不可避免存在突发故障导致数据同步失败、地区业务系统新旧业务更新升级导致数据丢失,进而导致中心业务系统和地区业务系统中该用户通信业务数据不一致,无法确定用户的准确通信业务数据。对于同一用户在地区业务系统与中心业务系统中通信业务数据不一致的情况,由于无法确定该用户在待稽核时间段准确的通信业务数据,因此不适用于直接采用人工稽核模型或机器学习稽核模型对通信业务数据进行稽核,而需将该通信业务数据从待稽核的通信业务数据中剔除,待确定该用户准确的通信业务数据后再进行稽核。
稽核设备11对通信业务数据进行一次清洗,获得一次清洗数据示例如下:稽核设备11对通信业务数据进行冲突数据识别,若在通信业务数据中未识别出冲突数据,则确定通信业务数据为一次清洗数据。其中,冲突数据为同一业务参数对应的多个不同的业务参数值。通信业务数据包括实际出账值和多个业务参数各自对应的业务参数值。通常而言,同一用户的同一业务参数对应一个业务参数值,同一用户的同一业务参数对应多个不同的业务参数值时,说明该用户的通信业务参数是来自于不同的数据采集设备,且在不同数据采集设备上存在冲突。若同一用户在地区业务系统与中心业务系统中通信业务数据一致,不存在冲突数据,则说明该用户的通信业务数据是准确的,可以直接用于稽核。
可选地,若一次清洗数据的用户标识码,为运营商开展新业务所用的测试号码,则基于测试号码的特殊标识,采用正则匹配测试号码并将测试号码对应通信业务数据剔除,而无需用于后续步骤S202-S204的稽核。
II、对一次清洗数据进行二次清洗,获得纯净数据。
稽核设备11对通信业务数据进行一次清洗,确定出一次清洗数据后;对一次清洗数据进行二次清洗,即采用上述常规清洗方式对一次清洗数据进行清洗,获得纯净数据。
S202、判断业务类别是否为第一次被稽核的业务类别。
具体而言,稽核设备11采用稽核集,判断业务类别是否为第一次被稽核的业务类别,若判断结果为是,则进行步骤S203;若判断结果为否,则进行步骤S204。
其中,稽核集中包括未被稽核过的全部业务类别。
S203、采用预设的人工稽核模型对通信业务数据进行稽核以获得稽核结果。
具体而言,稽核设备11完成步骤S202以后,若业务类别是第一次被稽核的业务类别,则采用预设的人工稽核模型对通信业务数据进行稽核以获得稽核结果。即稽核设备11将通信业务数据对应的纯净数据输入预设的人工稽核模型以稽核获得稽核结果。
示例性地,稽核设备11采用预设的人工稽核模型对通信业务数据对应的纯净数据进行稽核,获得纯净数据对应的稽核出账值Qj。稽核设备11按公式
Figure BDA0003594034010000121
计算得到该纯净数据的出账正常的稽核概率值γ。稽核设备11将稽核概率值γ与预设的下限阈值δL和上限阈值δH在人工稽核模型中进行如下对比,确定稽核结果:
若δH<γ,则确定稽核结果为出账正常;
若δL≤γ≤δH,则确定稽核结果为需再次确认;
若γ<δL,则确定稽核结果为出账异常。
示例性地,下限阈值δL可以为50%,上限阈值δH可以为80%。
其中,Q为通信业务数据或纯净数据中的实际出账值。
由于第一次被稽核的业务类别的业务通常为新通信业务,而新通信业务在应用初期用户量较少,可用于机器学习稽核模型训练的样本较少,不利于机器学习稽核模型的训练,因此,采用人工稽核模型对该业务类别的通信业务数据进行稽核是优选高效的方法。通常,运营商新开发一种新业务类别的业务后,会为该新业务类别设计人工稽核模型,并将该新业务类别添加到稽核集中。待该新业务类别用户数量积累到其对应通信业务数据可用于机器学习稽核模型训练后(如该业务类别下属通信业务发生变动后),可基于该业务类别用户对应的通信业务数据对机器学习稽核模型训练样本进行更新和模型训练,并将该业务类别从稽核集中移除。采用更新的训练样本进行模型训练后的机器学习稽核模型,即可用于对该业务类别的通信业务数据进行稽核。
可选地,稽核结果为出账正常、需再次确认、出账异常中的任一种结果。
S204、采用机器学习稽核模型对通信业务数据进行稽核以获得稽核结果。
具体而言,稽核设备11完成步骤S202以后,若业务类别不是第一次被稽核的业务类别,则采用机器学习稽核模型对通信业务数据进行稽核以获得稽核结果。
其中,机器学习稽核模型是采用多个已被稽核过的业务类别所对应的通信业务数据训练得到的。通信业务数据包括实际出账值和多个业务参数值。
可选地,稽核结果可以为出账正常、需再次确认、出账异常中的任一种结果。
通信业务数据通过步骤S201的清洗处理,成为纯净数据,其数据可靠性、一致性和格式得到了有效保证。纯净数据中各业务参数的参数值的位数差异较大,如通信业务数据中,产品编码参数值为88888888,折扣率参数值为0到1的保留两位小数的值,则产品编码参数值和折扣率参数值的位数一个为8,一个为3,两者相差较大。纯净数据中各业务参数的参数值的位数差异,对于后续机器学习稽核模型训练的速度和拟合效果会产生一定影响。对此,可以对纯净数据进行输入处理后,再采用机器学习稽核模型对输入处理后的纯净数据进行稽核。
可选地,稽核设备11采用机器学习稽核模型对通信业务数据进行稽核以获得稽核结果的流程如S2041-S2043所示:
S2041、对通信业务数据进行输入处理,获得由实际出账特征值q和多个业务参数特征值Pi组成的多维特征向量P。
具体而言,稽核设备11对通信业务数据进行输入处理,获得由实际出账特征值q和多个业务参数特征值Pi组成的多维特征向量P。
其中,业务参数特征值在本申请中简称为:特征值。
示例性地,输入处理包括对通信业务数据中各业务参数值的标准化处理获得标准化参数值,并基于标准参数值构建多维特征向量。
其中,对通信业务数据中各业务参数值的标准化处理包括:位数较多的参数值降位处理、对参数值单位的统一标准处理,示例说明如下。
对位数较多的参数值降位处理:例如,建立通信业务类型到稽核业务类型的标识映射关系,将诸如产品编码之类位数较多的编码映射到位数降低后的稽核业务类型编码。
对参数值单位的统一标准处理:例如,用户通信业务数据中“使用流量”这一参数的参数值,在不同用户的通信业务数据中所采用的单位不用,有的用户通信业务数据中使用流量单位为KB,而有的用户通信业务数据中使用流量单位为MB或GB。由于通信业务中流量收费以MB为基本单位,因此,对于涉及流量的业务参数,采用基于单位KB的科学计数法表示流量,其中基本数值保留两位小数,幂次方取3的倍数。如将参数值“1,000KB”表示为“(1.0,3)”,将参数值“50,101,000KB”表示为“(50.10,6)”。
通过对通信业务数据的输入处理,可以将通信业务数据中各参数值规范到预设的取值范围,便于后续机器学习稽核模型的模型训练和稽核处理。
稽核设备11对通信业务数据中各业务参数值的标准化处理获得标准化参数值后,基于标准参数值构建如下表1所示的多维特征向量。该多维向量特征是由实际出账特征值q和多个业务参数特征值Pi组成的。其中,实际出账特征值q与对应通信业务数据或纯净数据中的实际出账值Q相等。
表1用户A的多维特征向量
Figure BDA0003594034010000151
也就是说,用户A的多维特征向量P=[0,0,6,0,1,6,1,…,112,3,0,0,0,…,0,0,0,…,20,0.3,0,0,0,0,0,0,…,100]。
多维特征向量中的特征维度即特征值个数,是由机器学习稽核模型所适用的业务规则所确定的。每一个用户的通信业务数据对应的多维特征向量中特征维度均相同。每个多维特征向量均包含了机器学习稽核模型所适用的业务规则的所有业务参数。通常而言,新通信业务的业务规则往往是对原有业务参数的参数值改变而成的,如将表1所示的业务参数“套餐折扣率”的参数值(或特征值P64)从0.3提高到0.6,将业务参数“赠款”的参数值(或特征值P63)从20提高到60,虽然业务规则变化了,形成了新的通信业务,但其业务参数并未改变,且业务类别也未改变。对此,在业务参数不变的情况下,通过业务参数值改变形成的新通信业务,并不会改变机器学习稽核模型的适用范围和稽核精准性。
S2042、将多维特征向量输入机器学习稽核模型,获得出账正常的稽核概率值γ。
具体而言,稽核设备11将多维特征向量输入机器学习稽核模型,获得出账正常的稽核概率值γ。
S2043、基于稽核概率值γ,确定稽核概率值γ对应的稽核结果。
具体而言,稽核设备11基于稽核概率值γ,确定稽核概率值γ所对应的稽核结果。
可选地,稽核设备11将步骤S2042获得的稽核概率值γ与预设阈值δ0进行对比,按如下方式确定稽核结果:
若δ0<γ,则确定稽核结果为出账正常;
若γ≤δ0,则确定稽核结果为出账异常。
示例性地,稽核设备11将稽核概率值γ与预设阈值δ0在机器学习稽核模型中进行如下对比,确定稽核结果:
若δ0<γ,则确定稽核结果为出账正常;
若γ≤δ0,则确定稽核结果为出账异常。
示例性地,预设阈值δ0可以为80%。
在机器学习稽核模型的模型训练中,优选将稽核概率值γ与预设阈值δ0进行对比的方式来确定稽核结果,可以提高模型训练的效率。
可选地,稽核设备11将步骤S2042获得的稽核概率值γ与预设的下限阈值δL和上限阈值δH进行对比,按如下方式确定稽核结果:
若δH<γ,则确定稽核结果为出账正常;
若δL≤γ≤δH,则确定稽核结果为需再次确认;
若γ<δL,则确定稽核结果为出账异常。
示例性地,稽核设备11将稽核概率值γ与预设的下限阈值δL和上限阈值δH在机器学习稽核模型中进行如下对比,确定稽核结果:
若δH<γ,则确定稽核结果为出账正常;
若δL≤γ≤δH,则确定稽核结果为需再次确认;
若γ<δL,则确定稽核结果为出账异常。
示例性地,下限阈值δL可以为50%,上限阈值δH可以为80%。
通过预设的上限阈值和下限阈值,确定出需再次确认的稽核结果,以挑选出出账异常幅度较小用户的通信业务数据,以对其自动修正后的修正业务数据进行稽核,若对应稽核结果为出账正常,则将极大减小工单处理人员的用户异常工单处理工作量。
在机器学习稽核模型的模型应用阶段,可以采用预设的上限阈值δH和下限阈值δL来确定稽核结果的方式是优选的方式。
通过步骤S2043确定稽核结果之后,若稽核结果为出账异常,稽核设备11基于出账异常的稽核结果所对应的通信业务数据,生成稽核结果对应用户的异常用户工单,以通知用户归属地的工单处理人员进行处理;若稽核结果为出账正常,则稽核设备11将用户的稽核结果发送给请求稽核的业务系统(如中心业务系统或地区业务系统n)。例如,稽核设备11基于出账正常的稽核结果所对应的通信业务数据,生成稽核结果对应用户的稽核工单,并将稽核工单发送给请求稽核的业务系统(如中心业务系统或地区业务系统n)。
稽核结果包括需再次确认的稽核结果,通过步骤S2043确定稽核结果为需再次确认之后,稽核设备11对稽核结果对应的通信业务数据进行修正处理,获得修正业务数据。稽核设备11基于该修正业务数据对应的业务类别,采用预设的人工稽核模型或机器学习稽核模型对该修正业务数据进行稽核以获得对应稽核结果。若对修正业务数据稽核后稽核结果为出账异常或需再次确认,则稽核设备11基于稽核结果所对应的通信业务数据,生成稽核结果对应用户的异常用户工单,以通知用户归属地的工单处理人员进行处理;若对修正业务数据稽核后稽核结果为出账正常,则将用户的稽核结果、修正业务数据以及稽核次数等信息发送给请求稽核的业务系统(如中心业务系统或地区业务系统),例如,稽核设备11基于对修正业务数据稽核后稽核结果为出账正常的通信业务数据,生成稽核工单发送给请求稽核的业务系统(如中心业务系统或地区业务系统n),该稽核工单涵盖用户的稽核结果、修正业务数据以及稽核次数等信息。
下面结合具体实例对本申请提供的通信业务数据稽核方法的技术效果进行说明。
稽核设备11获取了三位用户(假设为用户A、B、C)的通信业务数据。获得出账正常的稽核概率值γ。稽核设备11预设下限阈值δL=50%,上限阈值δH=80%。稽核设备11对用户A、B、C各自的通信业务数据分别进行数据清洗后,获得如表2-4所示的纯净数据。
表2用户A的纯净数据
Figure BDA0003594034010000181
表3用户B的纯净数据
Figure BDA0003594034010000191
表4用户C的纯净数据
Figure BDA0003594034010000201
其中,用户A的通信业务数据所属的业务规则为:畅爽冰激凌5G套餐399元套餐业务规则;
用户B的通信业务数据所属的业务规则为:广东500M宽带包月5G融合专用产品业务规则;
用户C的通信业务数据所属的业务规则为:广东沃企云呼产品业务规则。
稽核设备11判断确定用户C的通信业务数据所属的业务类别是第一次被稽核的业务类别,判断确定用户A和用户B的通信业务数据所属的业务类别不是第一次被稽核的业务类别。
于是,稽核设备11采用预设的人工稽核模型对用户C的纯净数据进行稽核,获得用户C的稽核出账值为67.86,以及出账正常的稽核结果。
稽核设备11分别将用户A和用户B的纯净数据进行输入处理后,得到用户A和用户B各自的多维特征向量。稽核设备11采用机器学习稽核模型分别对输入的用户A和用户B各自的多维特征向量进行稽核,分别获得用户A的稽核概率值92.18%,以及用户A的出账正常的稽核结果;用户B稽核概率值15.64%,以及用户B的出账异常的稽核结果。
本申请提供的通信业务数据稽核方法,通过对获取的用户通信业务数据进行清洗处理获得纯净数据,然后基于纯净数据对应的业务类别,判断采用人工稽核模型或机器学习稽核模型进行稽核获得稽核结果。其中,在将纯净数据输入机器学习稽核模型之前,对纯净数据进行输入处理,获得多维特征向量,确保了机器学习稽核模型对用户通信业务数据稽核的高效性和准确性,输入机器学习稽核模型的多维特征向量涵盖了该模型所适用的所有业务规则的业务参数,在业务参数不变的情况下,业务参数值改变形成的新通信业务,并不会改变机器学习稽核模型的适用范围和稽核精准性。本申请解决了业务类别没有新增情况系,业务规则的频繁变动给人工稽核模型的升级维护带来巨大的压力的问题,确保了通信业务数据的稽核高效性。
本申请还提供一种通信业务数据稽核设备。该稽核设备应用于如图1所示的通信业务数据稽核系统,该系统包括稽核设备和至少一个数据采集设备。图3为本申请实施例提供的通信业务数据稽核设备结构图。图4为本申请实施例提供的BP神经网络模型结构图。下面结合图1、图3和图4对本申请提供的通信业务数据稽核设备进行说明。如图3所示,该稽核设备包括:数据收发单元31、数据稽核单元32和数据修正单元33。其中,
数据收发单元31,用于从至少一个数据采集设备12(如图1所示)获取用户的通信业务数据以及通信业务数据所属的业务类别;采用稽核集,判断业务类别是否为第一次被稽核的业务类别,并将通信业务数据和业务类别的判断结果发送到数据稽核单元32。稽核集中包括未被稽核过的全部业务类别。
数据稽核单元32,用于基于通信业务数据业务类别的判断结果,采用预设的人工稽核模型对业务类别是第一次被稽核业务类别的通信业务数据进行稽核,以获得稽核结果;或,采用机器学习稽核模型对业务类别不是第一次被稽核业务类别的通信业务数据进行稽核以获得稽核结果;并将稽核结果发送给数据收发单元31。其中,机器学习稽核模型是采用多个已被稽核过的业务类别所对应的通信业务数据训练得到的。稽核结果为出账正常、需再次确认、出账异常中的任一种结果。
数据收发单元31,还用于将稽核结果为出账异常的通信业务数据生成稽核结果对应用户的异常用户工单,以通知用户归属地的工单处理人员进行处理。
可选地,数据收发单元31,还用于将稽核结果为出账正常的通信业务数据,生成并发送稽核结果对应用户的稽核工单。
可选地,稽核设备还包括数据修正单元33。
数据收发单元31,还用于将稽核结果为需再次确认的通信业务数据发送到数据修正单元33。
数据修正单元33,用于对所收到的通信业务数据进行修正处理,获得修正业务数据,并将修正业务数据发送到数据收发单元31。
数据收发单元31,还用于将修正业务数据发送到数据稽核单元32。
数据稽核单元32,还用于基于修正业务数据对应的业务类别,采用预设的人工稽核模型或机器学习稽核模型对修正业务数据进行稽核以获得对应稽核结果。
可选地,数据收发单元31包括数据收发模块311、数据清洗模块312、数据输入模块313;数据稽核单元32包括人工稽核模块321和机器学习稽核模块322。其中,
数据收发模块311,用于从至少一个数据采集设备12(如图1所示)获取用户的通信业务数据以及通信业务数据所属的业务类别;并采用稽核集,判断业务类别是否为第一次被稽核的业务类别。
数据清洗模块312,用于对通信业务数据按如下方式进行数据清洗,获得对应的纯净数据:
对通信业务数据进行冲突数据识别,若在通信业务数据中未识别出冲突数据,则确定该通信业务数据为一次清洗数据。其中,通信业务数据包括实际出账值和多个业务参数各自对应的业务参数值;冲突数据为同一业务参数对应的多个不同的业务参数值。对一次清洗数据进行二次清洗,获得纯净数据;二次清洗包括数据标准化转换、缺失数据补全、无效数据剔除。
数据输入模块313,用于基于纯净数据所属的业务类别,将业务类别是第一次被稽核业务类别的纯净数据,输入人工稽核模块321以获得稽核结果;或,对业务类别不是第一次被稽核业务类别的纯净数据进行输入处理,获得对应的多维特征向量,并将多维特征向量输入机器学习稽核模块322以获得稽核结果。其中,多维特征向量P是由实际出账特征值P0和多个业务参数特征值Pi组成的;i为自然数。
人工稽核模块321,用于采用预设的人工稽核模型对所输入的纯净数据进行稽核以获得稽核结果。
机器学习稽核模块322,用于采用如图4所示的多层前馈神经网络(BackPropagationNeural Network,简称:BP神经网络)模型对所输入的纯净数据进行稽核以获得稽核结果。多层前馈神经网络模型包括输入层、至少一个隐藏层、归一化层和输出层。隐藏层的节点激活函数为线性整流函数(即ReLU函数)。归一化层的激活函数为归一化指数(softmax)函数,归一化层也称为softmax层。输入层和隐藏层均设置有多个神经元或节点。
隐藏层的节点激活函数为ReLU函数,ReLU函数为:
Figure BDA0003594034010000231
在通信业务中,在x>0时,ReLU(x)与x呈线性关系,和通信业务实际出账与业务使用量之间的线性关系匹配度较高;且x<0时,ReLU(x)=0,可表征为通信业务中免费资源量或阶梯型扣费的开关。机器学习稽核模块322采用ReLU函数作为隐藏层的节点激活函数,可以确保机器学习稽核模型对通信业务数据的稽核精准性。softmax层用于将上一隐藏层的神经元输出映射处理为出账正常概率值和出账异常概率值。其中,正常概率值即出账正常的稽核概率值γ;出账正常概率值+出账异常概率值=1。输出层,用于基于出账正常的稽核概率值γ,按图2所示实施例中的步骤S2043确定稽核结果并输出稽核结果。
可选地,机器学习稽核模块322,还可以用于采用与BP神经网络模型功能相当的其他机器学习算法模型对所输入的纯净数据进行稽核以获得稽核结果。
本申请提供的通信业务数据稽核设备,其具体实现原理和技术效果与图2所示实施例的实现原理和技术效果类似,本实施例此处不再赘述。此外,本申请提供的通信业务数据稽核设备,采用机器学习稽核模型为BP神经网络模型,BP神经网络模型的算法原理与通信业务的出账算法匹配度高,进一步确保了机器学习稽核模型对通信业务数据稽核的更高精度。
本申请实施例还提供一种通信业务数据稽核装置。图5为本申请实施例提供的通信业务数据稽核装置结构图。如图5所示,该稽核装置包括处理器51和存储器52,存储器52存储有处理器51可执行指令,使得该处理器51可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。应理解,上述处理器51可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器52可能包含高速随机存取存储器(英文:Random Access Memory,简称:RAM),也可能还包括非易失性存储器(英文:Non-volatile memory,简称:NVM),例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
本申请实施例还提供一种存储介质,该存储介质中存储有计算机执行指令,这些计算机执行指令被处理器执行时,实现上述的通信业务数据稽核方法。存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(英文:Static Random-Access Memory,简称:SRAM),电可擦除可编程只读存储器(英文:Electrically-Erasable Programmable Read-Only Memory,简称:EEPROM),可擦除可编程只读存储器(英文:Erasable Programmable Read-Only Memory,简称:EPROM),可编程只读存储器(英文:Programmable Read-Only Memory,简称:PROM),只读存储器(英文:Read-Only Memory,简称:ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(英文:Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本申请实施例还提供一种程序产品,如计算机程序,该计算机程序被处理器执行时实现本申请所涵盖的通信业务数据稽核方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施方式对本发明已经进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述实施方式所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施方式技术方案的范围。

Claims (11)

1.一种通信业务数据稽核方法,其特征在于,包括:
获取用户的通信业务数据以及所述通信业务数据所属的业务类别;
采用稽核集,判断所述业务类别是否为第一次被稽核的业务类别,所述稽核集中包括未被稽核过的全部业务类别;
若所述业务类别是第一次被稽核的业务类别,则采用预设的人工稽核模型对所述通信业务数据进行稽核以获得稽核结果;
若所述业务类别不是第一次被稽核的业务类别,则采用机器学习稽核模型对所述通信业务数据进行稽核以获得稽核结果;
其中,所述机器学习稽核模型是采用多个已被稽核过的业务类别所对应的通信业务数据训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述通信业务数据包括实际出账值和多个业务参数值;所述稽核结果为出账正常、需再次确认、出账异常中的任一种结果;
所述采用机器学习稽核模型对所述通信业务数据进行稽核以获得稽核结果,包括:
对所述通信业务数据进行输入处理,获得由实际出账特征值q和多个业务参数特征值Pi组成的多维特征向量P;
将所述多维特征向量输入所述机器学习稽核模型,获得出账正常的稽核概率值γ;
基于所述稽核概率值γ,确定所述稽核概率值γ对应的稽核结果;
其中,i为自然数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述稽核概率值γ,确定所述稽核概率值γ对应的稽核结果,包括:
将所述稽核概率值γ与预设阈值δ0进行对比,按如下方式确定稽核结果:
若δ0<γ,则确定稽核结果为出账正常;
若γ≤δ0,则确定稽核结果为出账异常。
4.根据权利要求2所述的方法,其特征在于,所述基于所述稽核概率值γ,确定所述稽核概率值γ对应的稽核结果,包括:
将所述稽核概率值γ与预设的下限阈值δL和上限阈值δH进行对比,按如下方式确定稽核结果:
若δH<γ,则确定稽核结果为出账正常;
若δL≤γ≤δH,则确定稽核结果为需再次确认;
若γ<δL,则确定稽核结果为出账异常。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述采用预设的人工稽核模型或所述机器学习稽核模型对所述通信业务数据进行稽核以获得稽核结果之前,所述方法还包括:
对所述通信业务数据进行数据清洗,获得对应的纯净数据。
6.根据权利要求1、2、4任一项所述的方法,其特征在于,所述稽核结果包括需再次确认的稽核结果;在确定所述稽核结果为需再次确认之后,所述方法还包括:
对所述通信业务数据进行修正处理,获得修正业务数据;
基于所述修正业务数据对应的业务类别,采用预设的人工稽核模型或所述机器学习稽核模型对所述修正业务数据进行稽核以获得对应稽核结果。
7.根据权利要求5所述的方法,其特征在于,在所述获得稽核结果之后,所述方法还包括:
基于出账异常的稽核结果所对应的通信业务数据,生成所述稽核结果对应用户的异常用户工单,以通知所述用户归属地的工单处理人员进行处理。
8.一种通信业务数据稽核设备,其特征在于,应用于通信业务数据稽核系统,所述系统包括稽核设备和至少一个数据采集设备;所述稽核设备包括:数据收发单元、数据稽核单元和数据修正单元;其中,
所述数据收发单元,用于从至少一个数据采集设备获取用户的通信业务数据以及所述通信业务数据所属的业务类别;采用稽核集,判断所述业务类别是否为第一次被稽核的业务类别,并将所述通信业务数据和业务类别的判断结果发送到所述数据稽核单元;所述稽核集中包括未被稽核过的全部业务类别;
所述数据稽核单元,用于基于所述通信业务数据业务类别的判断结果,采用预设的人工稽核模型对业务类别是第一次被稽核业务类别的通信业务数据进行稽核,以获得稽核结果;或,采用机器学习稽核模型对业务类别不是第一次被稽核业务类别的通信业务数据进行稽核以获得稽核结果;并将稽核结果发送给数据收发单元;其中,所述机器学习稽核模型是采用多个已被稽核过的业务类别所对应的通信业务数据训练得到的;所述稽核结果为出账正常、需再次确认、出账异常中的任一种结果;
所述数据收发单元,还用于将稽核结果为出账异常的通信业务数据生成所述稽核结果对应用户的异常用户工单,以通知所述用户归属地的工单处理人员进行处理。
9.根据权利要求8所述的稽核设备,其特征在于,所述稽核设备还包括数据修正单元;
所述数据收发单元,还用于将稽核结果为需再次确认的通信业务数据发送到所述数据修正单元;
所述数据修正单元,用于对所收到的通信业务数据进行修正处理,获得修正业务数据,并将所述修正业务数据发送到所述数据收发单元;
所述数据收发单元,还用于将所述修正业务数据发送到所述数据稽核单元;
所述数据稽核单元,还用于基于所述修正业务数据对应的业务类别,采用预设的人工稽核模型或所述机器学习稽核模型对所述修正业务数据进行稽核以获得对应稽核结果。
10.根据权利要求8或9所述的稽核设备,其特征在于,所述数据收发单元包括数据收发模块、数据清洗模块、数据输入模块;所述数据稽核单元包括人工稽核模块和机器学习稽核模块;其中,
所述数据收发模块,用于从至少一个数据采集设备获取用户的通信业务数据以及所述通信业务数据所属的业务类别;并采用稽核集,判断所述业务类别是否为第一次被稽核的业务类别;
所述数据清洗模块,用于对所述通信业务数据按如下方式进行数据清洗,获得对应的纯净数据:
对所述通信业务数据进行冲突数据识别,若在所述通信业务数据中未识别出冲突数据,则确定所述通信业务数据为一次清洗数据;所述通信业务数据包括实际出账值和多个业务参数各自对应的业务参数值;所述冲突数据为同一业务参数对应的多个不同的业务参数值;对所述一次清洗数据进行二次清洗,获得纯净数据;所述二次清洗包括数据标准化转换、缺失数据补全、无效数据剔除;
所述数据输入模块,用于基于所述纯净数据所属的业务类别,将业务类别是第一次被稽核业务类别的纯净数据,输入所述人工稽核模块以获得稽核结果;或,对业务类别不是第一次被稽核业务类别的纯净数据进行输入处理,获得对应的多维特征向量,并将所述多维特征向量输入所述机器学习稽核模块以获得稽核结果;所述多维特征向量P是由实际出账特征值q和多个业务参数特征值Pi组成的;其中,i为自然数;
所述人工稽核模块,用于采用预设的人工稽核模型对所输入的纯净数据进行稽核以获得稽核结果;
所述机器学习稽核模块,用于采用多层前馈神经网络模型对所输入的纯净数据进行稽核以获得稽核结果;所述多层前馈神经网络模型包括输入层、至少一个隐藏层、归一化层和输出层;所述隐藏层的节点激活函数为线性整流函数;所述归一化层的激活函数为归一化指数softmax函数。
11.一种通信业务数据稽核装置,其特征在于,包括:
处理器和存储器;
所述存储器存储所述处理器可执行的可执行指令;
其中,所述处理器执行所述存储器存储的可执行指令,使得所述处理器执行如权利要求1-7任一项所述的方法。
CN202210384106.0A 2022-04-13 2022-04-13 通信业务数据稽核方法及装置 Pending CN114741380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210384106.0A CN114741380A (zh) 2022-04-13 2022-04-13 通信业务数据稽核方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210384106.0A CN114741380A (zh) 2022-04-13 2022-04-13 通信业务数据稽核方法及装置

Publications (1)

Publication Number Publication Date
CN114741380A true CN114741380A (zh) 2022-07-12

Family

ID=82281888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210384106.0A Pending CN114741380A (zh) 2022-04-13 2022-04-13 通信业务数据稽核方法及装置

Country Status (1)

Country Link
CN (1) CN114741380A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645230A (zh) * 2023-06-06 2023-08-25 中国铁塔股份有限公司成都市分公司 一种通信基站营帐全流程的管理方法及终端设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645230A (zh) * 2023-06-06 2023-08-25 中国铁塔股份有限公司成都市分公司 一种通信基站营帐全流程的管理方法及终端设备
CN116645230B (zh) * 2023-06-06 2024-04-16 中国铁塔股份有限公司成都市分公司 一种通信基站营帐全流程的管理方法及终端设备

Similar Documents

Publication Publication Date Title
CN110991170B (zh) 基于电子病历信息的中文疾病名称智能标准化方法与系统
WO2020168851A1 (zh) 行为识别
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN109658050A (zh) 一种工资报告的管理方法及设备
CN207424928U (zh) 一种智能比对财务审计系统
CN112235159B (zh) 网关质量画像生成方法、系统、网络设备和存储介质
CN113849702B (zh) 一种确定目标数据的方法、装置、电子设备及存储介质
CN114741380A (zh) 通信业务数据稽核方法及装置
CN116126552A (zh) 基于Storm的海量气象观测数据处理方法和装置
CN115330540A (zh) 一种处理交易数据的方法和装置
CN115529232A (zh) 汇聚分流设备的管控方法、装置及存储介质
CN113240259B (zh) 规则策略组的生成方法、系统及电子设备
CN109697224B (zh) 一种账单消息处理方法、装置和存储介质
CN114416852A (zh) 数据处理方法、装置、设备及介质
CN109583773A (zh) 一种纳税信用积分确定的方法、系统及相关装置
WO2015029969A1 (ja) データ処理装置及びデータ処理方法及びプログラム
CN111640031A (zh) 跨系统的理赔数据处理方法、装置及相关设备
CN115271514A (zh) 通讯企业的监控方法、装置、电子设备及存储介质
CN111429125B (zh) 账户管理方法、装置、存储介质及电子设备
CN101938367B (zh) 电信网络中综合网管实现下级网管性能接入的方法及系统
CN109670980B (zh) 一种充电业务数据的处理方法、系统及设备
CN109785099B (zh) 一种自动对业务数据信息进行处理的方法及系统
CN117114858B (zh) 基于aviator表达式的计算检查公式的配置化实现方法
CN110401727B (zh) 一种ip地址分析方法和装置
CN116032780A (zh) 网络设备巡检方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination