CN106294823B - 用于大数据清洗的异常检测和消除的方法 - Google Patents

用于大数据清洗的异常检测和消除的方法 Download PDF

Info

Publication number
CN106294823B
CN106294823B CN201610680008.6A CN201610680008A CN106294823B CN 106294823 B CN106294823 B CN 106294823B CN 201610680008 A CN201610680008 A CN 201610680008A CN 106294823 B CN106294823 B CN 106294823B
Authority
CN
China
Prior art keywords
address
information
module
processing terminal
telecommunication network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610680008.6A
Other languages
English (en)
Other versions
CN106294823A (zh
Inventor
刘春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Cloud Letter To Mdt Infotech Ltd
Original Assignee
Shanghai Cloud Letter To Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Cloud Letter To Mdt Infotech Ltd filed Critical Shanghai Cloud Letter To Mdt Infotech Ltd
Priority to CN201610680008.6A priority Critical patent/CN106294823B/zh
Publication of CN106294823A publication Critical patent/CN106294823A/zh
Application granted granted Critical
Publication of CN106294823B publication Critical patent/CN106294823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用于大数据清洗的异常检测和消除的方法,首先构建用于大数据分析的数据挖掘平台,其包括配置给会员的连接在电信网络上的手机、智能终端和电信网络服务器,其中手机、智能终端和电信网络服务器之间通过电信网络建立通信连接,而互联网通过接入网关或升级的接入侧设备与所述电信网络连接,互联网内包含有邮件服务器,前台处理终端和后台服务器连接在所述电信网络或者互联网上。结合其余方法兼具语音识别回应、文本抓取优化、多形态数据跨库比对互通这样的功能,是一款集成多格式辨别、高速自动化处理、多样数据适配功能的智能挖掘方式。

Description

用于大数据清洗的异常检测和消除的方法
技术领域
本发明涉及一种数据挖掘技术领域,尤其是涉及一种用于大数据清洗的异常检测和消除的方法。
背景技术
随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对数字化信息进行组织和整理。数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。在数据挖掘过程中,根据数据挖掘目的或实际业务需求,需要使用不同的数据挖掘算法。在数据挖掘平台设计初期,为提高数据挖掘平台的处理能力,使数据挖掘平台满足各种数据挖掘目的,常常需要在数据挖掘平台中引入多个固定的数据挖掘算法。数据挖掘是一个减少数据错误和不一致性的过程,主要任务是检测并删除或改正将转入数据库的脏数据。另外,对这些脏数据进行分析归类,并反馈给业务系统,也能帮助业务系统更好的定位代码的缺陷,改进业务流程,从而提高数据的质量。
发明内容
本发明所要解决的技术问题在于提供一种用于大数据清洗的异常检测和消除的方法,兼具语音识别回应、文本抓取优化、多形态数据跨库比对互通这样的功能,是一款集成多格式辨别、高速自动化处理、多样数据适配功能的智能挖掘方式。
为解决上述技术问题,本发明的技术解决方案是:
一种用于大数据清洗的异常检测和消除的方法,具体如下:
首先构建用于大数据分析的数据挖掘平台,其包括配置给会员的连接在电信网络上的手机、智能终端和电信网络服务器,其中手机、智能终端和电信网络服务器之间通过电信网络建立通信连接,而互联网通过接入网关或升级的接入侧设备与所述电信网络连接,互联网内包含有邮件服务器,前台处理终端和后台服务器连接在所述电信网络或者互联网上,另外所述前台处理终端内包括有智能语音识别模块、ETL模块、TTS语音合成模块、模拟机器人控制模块、邮箱域名逻辑判断及检测模块、会员信息和机器人模拟发送系统,所述会员信息包括会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述后台服务器上具有包含地理信息的数据库、邮箱域名数据库、邮编数据库、所有会员的会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述地理信息包括有地理属性的词库、核心地理信息、以及过去出现过的反映错误地理信息的词条,另外地理信息还包括过去出现过的反映错误地理信息的词条所对应的正确的地址、在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系,过去出现过的错误的邮件地址;所述邮箱域名数据库中包括有过去出现过的错误的邮件地址和与之对应的正确的邮件地址;
当会员通过智能终端对前台处理终端发送信息来时,所述前台处理终端自动运行ETL模块来提取有效信息,若提取出的有效信息中包括有地址信息,就启动模拟机器人控制模块进行地址标准化处理和地址清洗,所述地址标准化处理就是把地址信息用地址信息中的地址所在省、市、区或者县、街道以及门牌号来表示,所述地址清洗就是把标准化处理的地址信息发送到所述后台服务器中,若标准化处理的地址信息中带有同义数据,后台服务器就通过在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系中判定出同义数据,若标准化处理的地址信息和包含地理信息的数据库中的过去出现过的反映错误地理信息的词条存在一致的,就把标准化处理的地址信息纠正为与之一致的过去出现过的反映错误地理信息的词条所对应的正确的地址,另外还结合邮编数据库把标准化处理的地址信息对应的邮编查询出来,并把标准化处理的地址信息及其对应的邮编返回前台处理终端;
若提取出的有效信息中包括有邮件地址,就用邮箱域名逻辑判断及检测模块进行对邮件地址的格式进行检测,如果邮件地址存在格式错误,就改正成正确格式,然后启动机器人模拟发送系统把邮件地址发送到后台服务器中,邮件地址若同邮箱域名数据库中的过去出现过的错误的邮件地址有相一致的,就替换成和与之该过去出现过的错误的邮件地址对应的正确的邮件地址,然后把正确的邮件地址返回前台处理终端;
另外在有效信息中包括有会员ID和会员手机号码时,在所述把准化处理的地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把准化处理的地址信息和所有会员的会员通讯地址进行对比,如果没有相匹配的会员通讯地址,就对前台处理终端发出请求来启动智能语音交互核对功能来进行通讯地址核对;
另外在有效信息中包括有会员ID和会员手机号码时,在所述把邮箱地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把邮箱地址信息和所有会员的会员的邮箱域名进行对比,如果没有相匹配的会员的邮箱域名,就对前台处理终端发出请求来启动智能语音交互核对功能来进行邮箱核对。
所述启动智能语音交互核对功能来进行通讯地址核对就是通过智能语音交互与消费者进行确认,得到正确的通讯地址和邮编,具体的就是通过启动所述前台处理终端内的智能语音识别模块和TTS语音合成模块,让智能语音识别模块就操纵手机卡模块经由电信网络服务器来对会员手机号码对应的手机进行测拨,在该手机经由电信网络服务器来对前台处理终端返回正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音时,智能语音识别模块就把这些正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音转化成各自对应的提示正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的文字信息,并把这些文字信息通过TTS语音合成模块合成为语音播放出来,还能把这样的文字信息和此时的本地时间发送到后台服务器中存储,在正常拨通号码的条件下,通过所述前台处理终端录入交互信息并经过TTS语音合成模块转化成语音信息播放出来,智能语音识别模块并把该语音信息和录入的交互信息经由电信网络服务器发送到会员手机号码对应的手机中分别进行播放和显示,在会员通过手机进行回复而传递回前台处理终端的语音信息首先同该会员的声音特征样本进行对比,如果是该会员的声音特征样本,就把接收到的语音信息进行播放并经由智能语音识别模块进行转化成文本信息来显示,这样交互直至获取到会员正确的通讯地址和邮编,然后发送到后台服务器中存储,如果不是该会员的声音特征样本,就结束沟通。
所述启动智能语音交互核对功能来进行通讯地址核对就是通过智能语音交互与消费者进行确认,得到正确的邮箱地址信息,具体的就是通过启动所述前台处理终端内的智能语音识别模块和TTS语音合成模块,让智能语音识别模块就操纵手机卡模块经由电信网络服务器来对会员手机号码对应的手机进行测拨,在该手机经由电信网络服务器来对前台处理终端返回正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音时,智能语音识别模块就把这些正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音转化成各自对应的提示正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的文字信息,并把这些文字信息通过TTS语音合成模块合成为语音播放出来,还能把这样的文字信息和此时的本地时间发送到后台服务器中存储,在正常拨通号码的条件下,通过所述前台处理终端录入交互信息并经过TTS语音合成模块转化成语音信息播放出来,智能语音识别模块并把该语音信息和录入的交互信息经由电信网络服务器发送到会员手机号码对应的手机中分别进行播放和显示,在会员通过手机进行回复而传递回前台处理终端的语音信息首先同该会员的声音特征样本进行对比,如果是该会员的声音特征样本,就把接收到的语音信息进行播放并经由智能语音识别模块进行转化成文本信息来显示,这样交互直至获取到会员正确的邮箱地址信息,然后发送到后台服务器中存储,如果不是该会员的声音特征样本,就结束沟通
经由本发明的结构,与现有技术相比,本发明的优点在于:
在需要和人进行沟通核实数据的清洗环节,运用现在已有的技术实现人机对话,对人的回答进行识别和判定并及时给出答复,同时完成数据的校验和缺陷修复。将通讯地址出现的种种错漏问题,高速地自动删除、归类、补充,转换之后,最终将输出一套标准的绿色的数据库。利用方法代替传统以人工电话的数据清洗方式,显著提高数据清洗工作的效率,同时减少人力成本,从而实现数据清洗的高效率低成本。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
用于大数据清洗的异常检测和消除的方法,具体如下:
首先构建用于大数据分析的数据挖掘平台,其包括配置给会员的连接在电信网络上的手机、智能终端和电信网络服务器,其中手机、智能终端和电信网络服务器之间通过电信网络建立通信连接,而互联网通过接入网关或升级的接入侧设备与所述电信网络连接,互联网内包含有邮件服务器,前台处理终端和后台服务器连接在所述电信网络或者互联网上,另外所述前台处理终端内包括有智能语音识别模块、ETL模块、TTS语音合成模块、模拟机器人控制模块、邮箱域名逻辑判断及检测模块、会员信息和机器人模拟发送系统,所述会员信息包括会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述后台服务器上具有包含地理信息的数据库、邮箱域名数据库、邮编数据库、所有会员的会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述地理信息包括有地理属性的词库、核心地理信息、以及过去出现过的反映错误地理信息的词条,另外地理信息还包括过去出现过的反映错误地理信息的词条所对应的正确的地址、在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系,过去出现过的错误的邮件地址;所述邮箱域名数据库中包括有过去出现过的错误的邮件地址和与之对应的正确的邮件地址;
当会员通过智能终端对前台处理终端发送信息来时,所述前台处理终端自动运行ETL模块来提取有效信息,若提取出的有效信息中包括有地址信息,就启动模拟机器人控制模块进行地址标准化处理和地址清洗,所述地址标准化处理就是把地址信息用地址信息中的地址所在省、市、区或者县、街道以及门牌号来表示,所述地址清洗就是把标准化处理的地址信息发送到所述后台服务器中,若标准化处理的地址信息中带有同义数据,后台服务器就通过在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系中判定出同义数据,若标准化处理的地址信息和包含地理信息的数据库中的过去出现过的反映错误地理信息的词条存在一致的,就把标准化处理的地址信息纠正为与之一致的过去出现过的反映错误地理信息的词条所对应的正确的地址,另外还结合邮编数据库把标准化处理的地址信息对应的邮编查询出来,并把标准化处理的地址信息及其对应的邮编返回前台处理终端;这样可针对会员通讯地址字段出现的缺漏、错误进行智能补齐,并运用数据标准化技术,将杂乱、重复的地址数据进行系统自动整理和规范。此外,系统还能集成了全国最新最全的邮编数据库,通过加载运行自主研发的地址信息字段智能读取识别系统,可实现数据库自动访问,进行邮编查询工作,完成邮政编码精确地校对、补齐和匹配。
比如对于“徐汇区斜土路1223号”和“上海市之俊大厦”这两条数据,平台通过调用地理信息数据库很快能判定为同义数据,甚至之后遇到“上海市黄浦区斜土路1223号之骏大厦”这样的数据时,平台还能将其中的分区错误“黄浦区”和错字“骏”识别出来,同时结合全面的邮政编码库进行邮编查询,最后调动将其标准化输出为“上海市徐汇区斜土路1223号之俊大厦,200032”。
若提取出的有效信息中包括有邮件地址,就用邮箱域名逻辑判断及检测模块进行对邮件地址的格式进行检测,如果邮件地址存在格式错误,就改正成正确格式,然后启动机器人模拟发送系统把邮件地址发送到后台服务器中,邮件地址若同邮箱域名数据库中的过去出现过的错误的邮件地址有相一致的,就替换成和与之该过去出现过的错误的邮件地址对应的正确的邮件地址,然后把正确的邮件地址返回前台处理终端;可针对网易、雅虎、新浪等在内的个人和企业公开邮箱域名进行智能检测,通过集成海量公开邮箱域名数据库,运用逻辑运算技术,对格式错误的无效地址进行剔除,同时还可基于邮箱域名数据库,对失准域名进行近似值匹配,并进行正确域名智能补齐,为企业提供更人性化的数据挖掘和清洗工作。
比如当看到Ber ry.zh@iclud.com这样的邮件地址,平台也会迅速调用域名逻辑判断系统进行检测,再结合邮箱域名数据库进行检测,删除空格,更正域名,自动将其输出为Berry.zh@icloud.com。
另外在有效信息中包括有会员ID和会员手机号码时,在所述把准化处理的地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把准化处理的地址信息和所有会员的会员通讯地址进行对比,如果没有相匹配的会员通讯地址,就对前台处理终端发出请求来启动智能语音交互核对功能来进行通讯地址核对;
另外在有效信息中包括有会员ID和会员手机号码时,在所述把邮箱地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把邮箱地址信息和所有会员的会员的邮箱域名进行对比,如果没有相匹配的会员的邮箱域名,就对前台处理终端发出请求来启动智能语音交互核对功能来进行邮箱核对。
所述启动智能语音交互核对功能来进行通讯地址核对就是通过智能语音交互与消费者进行确认,得到正确的通讯地址和邮编,具体的就是通过启动所述前台处理终端内的智能语音识别模块和TTS语音合成模块,让智能语音识别模块就操纵手机卡模块经由电信网络服务器来对会员手机号码对应的手机进行测拨,在该手机经由电信网络服务器来对前台处理终端返回正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音时,智能语音识别模块就把这些正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音转化成各自对应的提示正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的文字信息,并把这些文字信息通过TTS语音合成模块合成为语音播放出来,还能把这样的文字信息和此时的本地时间发送到后台服务器中存储,这样也能起到提供完整数据报告,方便企业对会员留存状态进行及时掌握,并可通过会员手机号码状态执行属性分类跟踪管理,在正常拨通号码的条件下,通过所述前台处理终端录入交互信息并经过TTS语音合成模块转化成语音信息播放出来,智能语音识别模块并把该语音信息和录入的交互信息经由电信网络服务器发送到会员手机号码对应的手机中分别进行播放和显示,在会员通过手机进行回复而传递回前台处理终端的语音信息首先同该会员的声音特征样本进行对比,如果是该会员的声音特征样本,就把接收到的语音信息进行播放并经由智能语音识别模块进行转化成文本信息来显示,这样交互直至获取到会员正确的通讯地址和邮编,然后发送到后台服务器中存储,如果不是该会员的声音特征样本,就结束沟通。
所述启动智能语音交互核对功能来进行通讯地址核对就是通过智能语音交互与消费者进行确认,得到正确的邮箱地址信息,具体的就是通过启动所述前台处理终端内的智能语音识别模块和TTS语音合成模块,让智能语音识别模块就操纵手机卡模块经由电信网络服务器来对会员手机号码对应的手机进行测拨,在该手机经由电信网络服务器来对前台处理终端返回正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音时,智能语音识别模块就把这些正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音转化成各自对应的提示正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的文字信息,并把这些文字信息通过TTS语音合成模块合成为语音播放出来,还能把这样的文字信息和此时的本地时间发送到后台服务器中存储,这样也能起到提供完整数据报告,方便企业对会员留存状态进行及时掌握,并可通过会员手机号码状态执行属性分类跟踪管理,在正常拨通号码的条件下,通过所述前台处理终端录入交互信息并经过TTS语音合成模块转化成语音信息播放出来,智能语音识别模块并把该语音信息和录入的交互信息经由电信网络服务器发送到会员手机号码对应的手机中分别进行播放和显示,在会员通过手机进行回复而传递回前台处理终端的语音信息首先同该会员的声音特征样本进行对比,如果是该会员的声音特征样本,就把接收到的语音信息进行播放并经由智能语音识别模块进行转化成文本信息来显示,这样交互直至获取到会员正确的邮箱地址信息,然后发送到后台服务器中存储,如果不是该会员的声音特征样本,就结束沟通。
智能语音识别模块对原本的手机号码清洗领域中,凭机器测拨进行正常号码、关机、停机、空号、来电提醒、呼入限制等十余种号码状态识别反馈的系统进行了有力补充,不仅可以判断号码的状态,还能判断人与号码的匹配状态,完成了分辨机器信号到分辨真实语音的巨大跨越。
为了对语音进行准确辨识,平台还集成全国八大方言语系,共计二十余种小方言的语法特征和海量语音库,由机器自动记忆及学习系统理解掌握,再用每一次清洗结果来“反哺”机器大脑,由此平台也可以在不断的学习及验证中得到优化。
平台对接收和判断的结果完成输出反馈。在与数据相关人核实信息时,根据不同的应答结果,通过自然语言处理和智能语音识别,会做出个性化的不同应答。
如相关人确认这条数据,平台会在表明来意后,将需要分步传达的通知信息一次送达,比如相关人希望了解的活动或账户变动的通知信息;对于错误的相关人,平台会礼貌性解释情况并结束沟通;对不确定的信息,还会用其他问题进行二次验证。另外,这些应答语音的拟真程度和反应速度都与真人无异,保证整个沟通过程顺畅快速,不会造成对数据相关人的困扰,更加人性化。
数据挖掘的最终目的是让数据库恢复健康,并千方百计提高它的质量,平台可以在辨识出清洗结果后,运用ETL标准化技术调动数据模型对数据库的“蛀点”进行修补优化。
像前文提到的电子邮件地址和通讯地址出现的种种错漏问题,高速地自动删除、归类、补充,转换之后,最终将输出一套标准的绿色的数据库。
同时,平台的多线程并行系统还将数据清洗提升到前所未有的效率。它能以每分钟百万字的处理速度,24小时不间断运转,高速准确过筛人力无法负荷的数据。这也是大数据清洗机器人相对于人力的独特优势。
①面向企业或者公共政府部门,提供数据分析结果的服务
定位在某一具体行业,通过大量数据支持,对数据进行挖掘分析后预测相关主体的行为,以开展业务;利用数据挖掘技术帮助客户开拓精准营销或者新业务。
②面向个人,提供基于数据分析的服务
面向零售商、政府部门、公共机构提供基于地点的人员流动数据:以时间为维度(小时/天/月/年),在特定区域的人员人口统计数据(性别、年龄)和行动等数据。
该平台典型的实用案例为海淘,从国外寄送到国内的货物,因报关的身份信息不正确、国内地址不正确、联系方式不正确等,导致出现无法报关、无法收货,而货物退回海外成本非常高,通过该平台可以有效解决此问题。
(1)地址标准化
国内用户在海淘网站上下单后,数据挖掘平台立即自动对配送地址进行标准化和清洗,将用户输入的非标准的地址标准化为xx省xx市/区xx路/街xx楼xx号。并与数据挖掘平台的全国地址数据库进行匹配,对于匹配不到的地址信息,将启动智能语音交互核对。
例如表1所示:
表1
(2)报关信息清洗
报关需核对用户的身份信息,数据挖掘平台将用户提供的身份证姓名信息,与公安数据库进行比对,对于匹配不到的用户身份信息,将启动智能语音交互核对。
例如表2所示:
表2
(3)智能语音清洗
通过智能语音交互与消费者进行确认,得到正确的身份、地址和邮编等信息。
客户提交的注册信息包括会员姓名、邮箱、收货地址,需要对每个会员的这三条信息进行数据清洗。
例如如下所示:
数据挖掘平台:您好,这里是海淘网客户服务中心,您是【王小帅先生吗?】(语音播放+TTS)
客户:是的(语义识别)
数据挖掘平台:【412985127@qq.com】是您的邮箱地址吗?(语音播放+TTS)
客户:对的(语义识别)
数据挖掘平台:【上海市徐汇区斜土路之俊大厦1802室】是您的收货地址吗?(语音播放+TTS)
客户:不是,换了。(语义识别)
数据挖掘平台:您现在的收货地址是哪里?(语音播放)
客户:徐汇区斜土路之俊大厦905室(语音播放+地址标准化)
数据挖掘平台:您的收货地址更改为【上海市徐汇区斜土路之俊大厦905室】(语音播放+TTS)
客户:嗯,对的(语义识别)
数据挖掘平台:感谢您的接听与配合,海淘网祝您购物愉快,再见!(语音播放)电话结束,根据电话的结果,通过ETL标准化流程将此客户的信息优化为:
若一个平台年平均新增会员数量为100万,如果利用传统的呼叫中心进行数据清洗工作的话,每条信息需要5分钟语音通话。总共需要1000万分钟语音通话。呼叫中心以500分钟/人/天,每年按照250天工作计算。则总共需要40个客服人员一年的工作量。而利用本平台部署1000条并行线路,则只需要10天即可完成所有的工作。大幅度提升数据清洗效率的同时也大大减少人力消耗,相应减少企业的办公场地、办公用品等费用,从而极大地减低了企业大数据清洗的成本。每年可以节约因地址无效导致的货物损失的数百万元费用。
可见,通过本平台,在需要和人进行沟通核实数据的清洗环节,运用现在已有的技术实现人机对话,对人的回答进行识别和判定并及时给出答复,同时完成数据的校验和“蛀点”修复。将通讯地址出现的种种错漏问题,高速地自动删除、归类、补充,转换之后,最终将输出一套标准的绿色的数据库。利用云信留客WinRobot机器人智能清洗数据挖掘平台代替传统以人工电话的数据清洗方式,显著提高数据清洗工作的效率,同时减少人力成本,从而实现数据清洗的高效率低成本。
通过智能语音识别模块,加载计算机机器人控制系统,实现对会员手机号码的零干扰自动测拨,运用信号音自动分析和处理技术,将模拟信号转化成数字识别信号,实现对会员手机号码进行包括正常号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通、受限数据等十余种状态识别反馈,并提供完整数据报告,方便企业对会员留存状态进行及时掌握,并可通过会员手机号码状态执行属性分类跟踪管理。
(2)传统地址清洗功能
通过集成海量公开地理信息数据库,内嵌230个地理属性词库、9800万条地址信息核心词汇、860万组错误词条,构建了大规模的地址数值模型,基于模型匹配原理,可针对会员通讯地址字段出现的缺漏、错误进行智能补齐,并运用数据标准化技术,将杂乱、重复的地址数据进行系统自动整理和规范。此外,系统还集成了全国最新最全的邮编数据库,通过加载运行自主研发的地址信息字段智能读取识别系统,可实现数据库自动访问,进行邮编查询工作,完成邮政编码精确地校对、补齐和匹配。
(3)互联网数据清洗功能
通过邮箱域名逻辑判断及检测模块,加载计算机机器人模拟发送系统,可针对网易、雅虎、新浪等在内的个人和企业公开邮箱域名进行智能检测,通过集成海量公开邮箱域名数据库,运用逻辑运算技术,对格式错误的无效地址进行剔除,同时还可基于邮箱域名数据库,对失准域名进行近似值匹配,并进行正确域名智能补齐,为企业提供更人性化的数据清洗工作。
所述前台处理终端包括计算机、PDA或前台服务器。
所述会员通过智能终端对前台处理终端发送的信息为文本、图片或者视频信息。
所述有效信息包括地址信息或者邮件地址。
所述会员ID为身份证号。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (7)

1.一种用于大数据清洗的异常检测和消除的方法,其特征在于用于大数据清洗的异常检测和消除的方法,具体如下:
首先构建用于大数据分析的数据挖掘平台,其包括配置给会员的连接在电信网络上的手机、智能终端和电信网络服务器,其中手机、智能终端和电信网络服务器之间通过电信网络建立通信连接,而互联网通过接入网关或升级的接入侧设备与所述电信网络连接,互联网内包含有邮件服务器,前台处理终端和后台服务器连接在所述电信网络或者互联网上,另外所述前台处理终端内包括有智能语音识别模块、ETL模块、TTS语音合成模块、模拟机器人控制模块、邮箱域名逻辑判断及检测模块、会员信息和机器人模拟发送系统,所述会员信息包括会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述后台服务器上具有包含地理信息的数据库、邮箱域名数据库、邮编数据库、所有会员的会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述地理信息包括有地理属性的词库、核心地理信息、以及过去出现过的反映错误地理信息的词条,另外地理信息还包括过去出现过的反映错误地理信息的词条所对应的正确的地址、在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系,过去出现过的错误的邮件地址;所述邮箱域名数据库中包括有过去出现过的错误的邮件地址和与之对应的正确的邮件地址;
当会员通过智能终端对前台处理终端发送信息来时,所述前台处理终端自动运行ETL模块来提取有效信息,若提取出的有效信息中包括有地址信息,就启动模拟机器人控制模块进行地址标准化处理和地址清洗,所述地址标准化处理就是把地址信息用地址信息中的地址所在省、市、区或者县、街道以及门牌号来表示,所述地址清洗就是把标准化处理的地址信息发送到所述后台服务器中,若标准化处理的地址信息中带有同义数据,后台服务器就通过在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系中判定出同义数据,若标准化处理的地址信息和包含地理信息的数据库中的过去出现过的反映错误地理信息的词条存在一致的,就把标准化处理的地址信息纠正为与之一致的过去出现过的反映错误地理信息的词条所对应的正确的地址,另外还结合邮编数据库把标准化处理的地址信息对应的邮编查询出来,并把标准化处理的地址信息及其对应的邮编返回前台处理终端;
若提取出的有效信息中包括有邮件地址,就用邮箱域名逻辑判断及检测模块进行对邮件地址的格式进行检测,如果邮件地址存在格式错误,就改正成正确格式,然后启动机器人模拟发送系统把邮件地址发送到后台服务器中,邮件地址若同邮箱域名数据库中的过去出现过的错误的邮件地址有相一致的,就替换成和与之该过去出现过的错误的邮件地址对应的正确的邮件地址,然后把正确的邮件地址返回前台处理终端;
另外在有效信息中包括有会员ID和会员手机号码时,在所述把标准化处理的地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把标准化处理的地址信息和所有会员的会员通讯地址进行对比,如果没有相匹配的会员通讯地址,就对前台处理终端发出请求来启动智能语音交互核对功能来进行通讯地址核对;
另外在有效信息中包括有会员ID和会员手机号码时,在所述把邮件地址发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把邮件地址和所有会员的会员的邮箱域名进行对比,如果没有相匹配的会员的邮箱域名,就对前台处理终端发出请求来启动智能语音交互核对功能来进行邮箱核对。
2.根据权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于所述启动智能语音交互核对功能来进行通讯地址核对就是通过智能语音交互与消费者进行确认,得到正确的通讯地址和邮编,具体的就是通过启动所述前台处理终端内的智能语音识别模块和TTS语音合成模块,让智能语音识别模块就操纵手机卡模块经由电信网络服务器来对会员手机号码对应的手机进行测拨,在该手机经由电信网络服务器来对前台处理终端返回正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音时,智能语音识别模块就把这些正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音转化成各自对应的提示正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的文字信息,并把这些文字信息通过TTS语音合成模块合成为语音播放出来,还能把这样的文字信息和此时的本地时间发送到后台服务器中存储,在正常拨通号码的条件下,通过所述前台处理终端录入交互信息并经过TTS语音合成模块转化成语音信息播放出来,智能语音识别模块并把该语音信息和录入的交互信息经由电信网络服务器发送到会员手机号码对应的手机中分别进行播放和显示,在会员通过手机进行回复而传递回前台处理终端的语音信息首先同该会员的声音特征样本进行对比,如果是该会员的声音特征样本,就把接收到的语音信息进行播放并经由智能语音识别模块进行转化成文本信息来显示,这样交互直至获取到会员正确的通讯地址和邮编,然后发送到后台服务器中存储,如果不是该会员的声音特征样本,就结束沟通。
3.根据权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于所述启动智能语音交互核对功能来进行通讯地址核对就是通过智能语音交互与消费者进行确认,得到正确的邮箱地址信息,具体的就是通过启动所述前台处理终端内的智能语音识别模块和TTS语音合成模块,让智能语音识别模块就操纵手机卡模块经由电信网络服务器来对会员手机号码对应的手机进行测拨,在该手机经由电信网络服务器来对前台处理终端返回正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音时,智能语音识别模块就把这些正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音转化成各自对应的提示正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的文字信息,并把这些文字信息通过TTS语音合成模块合成为语音播放出来,还能把这样的文字信息和此时的本地时间发送到后台服务器中存储,在正常拨通号码的条件下,通过所述前台处理终端录入交互信息并经过TTS语音合成模块转化成语音信息播放出来,智能语音识别模块并把该语音信息和录入的交互信息经由电信网络服务器发送到会员手机号码对应的手机中分别进行播放和显示,在会员通过手机进行回复而传递回前台处理终端的语音信息首先同该会员的声音特征样本进行对比,如果是该会员的声音特征样本,就把接收到的语音信息进行播放并经由智能语音识别模块进行转化成文本信息来显示,这样交互直至获取到会员正确的邮箱地址信息,然后发送到后台服务器中存储,如果不是该会员的声音特征样本,就结束沟通。
4.根据权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于所述前台处理终端包括计算机、PDA或前台服务器。
5.根据权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于所述会员通过智能终端对前台处理终端发送的信息为文本、图片或者视频信息。
6.根据权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于所述有效信息包括地址信息或者邮件地址。
7.根据权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于所述会员ID为身份证号。
CN201610680008.6A 2016-08-17 2016-08-17 用于大数据清洗的异常检测和消除的方法 Active CN106294823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610680008.6A CN106294823B (zh) 2016-08-17 2016-08-17 用于大数据清洗的异常检测和消除的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610680008.6A CN106294823B (zh) 2016-08-17 2016-08-17 用于大数据清洗的异常检测和消除的方法

Publications (2)

Publication Number Publication Date
CN106294823A CN106294823A (zh) 2017-01-04
CN106294823B true CN106294823B (zh) 2019-03-22

Family

ID=57678772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610680008.6A Active CN106294823B (zh) 2016-08-17 2016-08-17 用于大数据清洗的异常检测和消除的方法

Country Status (1)

Country Link
CN (1) CN106294823B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797875A (zh) * 2017-04-17 2018-03-13 平安科技(深圳)有限公司 一种大数据管理方法、终端以及设备
CN107463705A (zh) * 2017-08-17 2017-12-12 陕西优百信息技术有限公司 一种数据清洗方法
CN107943973A (zh) * 2017-11-28 2018-04-20 上海云信留客信息科技有限公司 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN108228825B (zh) * 2018-01-02 2019-02-15 北京市燃气集团有限责任公司 一种基于分词的用户地址数据清洗方法
CN108920410A (zh) * 2018-06-22 2018-11-30 华北理工大学 一种大数据处理装置及方法
CN110837829B (zh) * 2018-08-17 2022-09-23 珠海格力电器股份有限公司 扫地机器人的控制方法和系统
CN110895927B (zh) * 2018-09-13 2022-03-15 宁波欧依安盾安全科技有限公司 一种远程语音沟通失误智能预防系统
CN109639910B (zh) * 2018-10-19 2021-12-24 平安科技(深圳)有限公司 数据交互方法、设备、存储介质及装置
CN109657947B (zh) * 2018-12-06 2021-03-16 西安交通大学 一种面向企业行业分类的异常检测方法
CN110310643B (zh) * 2019-05-18 2021-04-30 江苏网进科技股份有限公司 车牌语音识别系统及其方法
CN111125197A (zh) * 2019-12-27 2020-05-08 成都康赛信息技术有限公司 基于mic和mp的数据集异常数据处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331815A (zh) * 2014-10-24 2015-02-04 上海微肯网络科技有限公司 会员识别系统以及会员管理设备
CN105488697A (zh) * 2015-12-09 2016-04-13 焦点科技股份有限公司 一种基于客户行为特征的潜在客户挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331815A (zh) * 2014-10-24 2015-02-04 上海微肯网络科技有限公司 会员识别系统以及会员管理设备
CN105488697A (zh) * 2015-12-09 2016-04-13 焦点科技股份有限公司 一种基于客户行为特征的潜在客户挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Data Cleaning:Problems and Current Approaches;Erhard Rahm et al.;《Data Engineering》;20001231;第23卷(第4期);第273-281页
数据挖掘过程中数据清洗的研究;孟龙梅;《通化师范学院学报》;20150430;第36卷(第2期);第7-10页

Also Published As

Publication number Publication date
CN106294823A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106294823B (zh) 用于大数据清洗的异常检测和消除的方法
CN109887153B (zh) 一种财税处理方法和处理系统
US20240095530A1 (en) Systems and methods for automated reservation rebooking
CN107943973A (zh) 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN101207838B (zh) 基于发送方和接收方关系的消息转发
CN103188125B (zh) 邮件系统以及邮件生成和发送的方法
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN106572001B (zh) 一种智能客服的对话方法及系统
CN105824756B (zh) 一种基于代码依赖关系的过时需求自动检测方法及系统
CN107146064A (zh) 待办事项提醒方法及服务器
CN107800765A (zh) 一种信息处理方法、终端及系统
CN108038748A (zh) 用于辅助应答交互界面显示方法及设备
CN102044018A (zh) 一种用于产品可靠性设计的知识收集模板及准则提取方法
CN109902747B (zh) 一种身份识别方法、装置、设备及计算机可读存储介质
CN106845742A (zh) 旅馆一体化管理系统
CN109902213A (zh) 实时公交服务线路推荐方法、装置与电子设备
CN109815268A (zh) 一种交易制裁名单匹配系统
CN113838461B (zh) 智能语音交互方法、装置、设备和计算机存储介质
CN114841128A (zh) 基于人工智能的业务交互方法、装置、设备、介质及产品
CN111652399A (zh) 一种办税服务厅人脸识别无感刷脸取号的实现系统
CN112052346A (zh) 实有人员库的更新方法、装置、电子设备及存储介质
CN116090993A (zh) 一种审批流程配置方法及系统
CN107886232B (zh) 客服的服务质量评价方法和系统
US20220358527A1 (en) Method for predicting sales order

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant