CN107943973A - 一种大数据智能清洗系统及云机器人智能清洗服务平台 - Google Patents

一种大数据智能清洗系统及云机器人智能清洗服务平台 Download PDF

Info

Publication number
CN107943973A
CN107943973A CN201711218069.1A CN201711218069A CN107943973A CN 107943973 A CN107943973 A CN 107943973A CN 201711218069 A CN201711218069 A CN 201711218069A CN 107943973 A CN107943973 A CN 107943973A
Authority
CN
China
Prior art keywords
data
module
cleaning
prerinse
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711218069.1A
Other languages
English (en)
Inventor
汤寒林
刘春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Winnerlook Information Technology Co ltd
Original Assignee
Shanghai Winnerlook Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Winnerlook Information Technology Co ltd filed Critical Shanghai Winnerlook Information Technology Co ltd
Priority to CN201711218069.1A priority Critical patent/CN107943973A/zh
Publication of CN107943973A publication Critical patent/CN107943973A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种大数据智能清洗系统及云机器人智能清洗服务平台,属于大数据处理领域,包括:输入模块,用于提供给用户输入至少一种预清洗数据;数据处理模块,连接输入模块,用于从所述预清洗数据中自动扫描提取目标字段,并处理得到可分析模型;存储模块,连接数据处理模块,包括至少一个数据库,每个数据库分别用于存储一种预清洗数据及相应的多个可分析模型,以及分别用于存储保护对应每种预清洗数据的多个标准数据模型;清洗模块,连接存储模块,用于对预清洗数据进行清洗处理以得到标准化数据并输出匹配信息,清洗处理包括模型匹配处理和语音核对处理。本发明的有益效果:大幅度提升数据清洗效率的同时也大大减少清洗成本。

Description

一种大数据智能清洗系统及云机器人智能清洗服务平台
技术领域
本发明涉及大数据服务技术领域,尤其涉及一种大数据智能清洗系统及云机器人智能清洗服务平台。
背景技术
随着大数据时代的到来,数据的规模变得庞大,数据的增长速度变快,数据的类型和结构也更加繁多。在增长的过程中,数据量的叠加造成了大量数据的重复,存在许多垃圾数据或者说无用的数据。另外,数据中存在的不完整的、错误的、近似的数据信息需要补全、修正、转换。因此,需要从现有的大数据量中清洗出对应的数据,通过数据清洗能够实现对大数据进行降噪,主要是将重复的数据、不完整的数据和错误的数据进行排除,从而得到一致性较高的数据。
现有的数据清洗工作多采用人工方式,清洗效率较低。
发明内容
针对现有技术中存在的问题,本发明提供了一种大数据智能清洗系统。
本发明采用如下技术方案:
一种大数据智能清洗系统,包括:
输入模块,所述输入模块用于提供给用户输入至少一种预清洗数据,每种所述预清洗数据分别对应一唯一的业务类型;
数据处理模块,所述数据处理模块连接所述输入模块,用于从所述预清洗数据中自动扫描提取目标字段,并处理得到可分析模型;
存储模块,所述存储模块连接所述数据处理模块,包括至少一个数据库,每个所述数据库分别用于存储一种所述预清洗数据及相应的所述多个可分析模型,以及分别用于存储保护对应每种所述预清洗数据的多个标准数据模型;
清洗模块,所述清洗模块连接所述存储模块,用于对所述预清洗数据进行清洗处理以得到标准化数据并输出匹配信息,所述清洗处理包括模型匹配处理和语音核对处理。
优选的,所述多种预清洗数据的数据类型包括所述多种预清洗数据的数据类型包括文本数据、图像数据及语音数据。
优选的,所述数据处理模块利用数据仓库技术从所述预清洗数据中自动扫描提取所述目标字段,并根据预设的分类算法对所述目标字段处理得到所述可分析模型。
优选的,所述清洗模块包括:
模型匹配单元,用于根据所述多个标准数据模型对所述多个可分析模型进行所述模型匹配处理,以使每个所述可分析模型分别与一所述标准数据模型匹配并得到相应的所述标准化数据,以及用于输出第一匹配结果;
语音核对单元,所述语音核对单元连接所述模型匹配单元,用于接收所述第一匹配结果并在所述第一匹配结果为失败时,利用语音合成技术和语义识别技术根据所述有效信息对关联于所述有效信息的所述用户进行语音核对处理,以使每个所述可分析模型分别与一所述标准数据模型匹配并得到相应的所述标准化数据并在匹配失败时删除所述可分析模型及相应的所述预清洗数据,以及用于输出第二匹配结果;
所述匹配信息包括所述第一匹配结果和所述第二匹配结果。
优选的,所述大数据智能清洗系统还包括:
更新模块,所述更新模块连接所述存储模块和所述清洗模块,用于利用深度学习技术根据所述第一匹配结果和所述第二匹配结果分别对所述清洗处理的处理规则进行更新;
所述存储模块还用于存储更新后的所述清洗处理的处理规则。
优选的,所述大数据智能清洗系统还包括:
分析模块,所述分析模块连接清洗模块,用于根据所述第一匹配结果和所述第二匹配结果对所述预清洗数据进行分析处理以得到数据分析报告。
优选的,所述大数据智能清洗系统还包括:
云端加速模块,所述云端加速模块连接所述清洗模块,所述云端加速模块用于根据预设的业务需求调整所述清洗模块的进行所述清洗处理的速度。
优选的,一种云机器人智能清洗服务平台,采用上述的大数据智能清洗系统。
本发明的有益效果:大幅度提升数据清洗效率的同时也大大减少人力消耗,相应减少企业的办公场地、办公用品等费用,从而极大地减低了企业大数据清洗的成本,为用户提供高效、便捷、准确的标准化数据。
附图说明
图1为本发明的一种优选实施例中,大数据智能清洗系统的功能模块示意图;
图2为本发明的一种优选实施例中,清洗模块的功能模块示意图。
具体实施方式
需要说明的是,在不冲突的情况下,下述技术方案,技术特征之间可以相互组合。
下面结合附图对本发明的具体实施方式作进一步的说明:
如图1所示,一种大数据智能清洗系统,包括:
输入模块1,上述输入模块1用于提供给用户输入至少一种预清洗数据,每种上述预清洗数据分别对应一唯一的业务类型;
数据处理模块2,上述数据处理模块2连接上述输入模块1,用于对上述预清洗数据进行归一处理,以得到相应的多个可分析模型;
存储模块3,上述存储模块3连接上述数据处理模块2,包括至少一个数据库,每个上述数据库分别用于存储一种上述预清洗数据及相应的上述多个可分析模型,以及分别用于存储保护对应每种上述预清洗数据的多个标准数据模型;
清洗模块4,上述清洗模块4连接上述存储模块3,用于对上述预清洗数据进行清洗处理以得到标准化数据并输出匹配信息,上述清洗处理包括模型匹配处理和语音核对处理。
在本实施例中,对于企业而言,在大数据量的业务需求中,客户的满意度取决于数据的完整度以及查看所需信息的响应速度。为了提高这方面的需求,进行数据规则分析,从而制定不同的业务类型的清洗规则来满足各个业务口。通过机器学习在清洗过程中持续更新清洗规则,在清洗时,通过从预清洗数据中处理得到可分析模型并将可分析模型与标准数据模型进行比对处理,从而得到标准化数据并输出匹配信息。
本发明的大数据智能清洗系统可应用于云机器人智能清洗服务平台,以下内容中的平台可理解为安装有大数据智能清洗系统的云机器人智能清洗服务平台,应用大数据智能清洗系统的机器人智能清洗服务平台是兼具语音识别回应、文本抓取优化、多形态数据跨库比对互通等功能,集成多格式辨别、高速自动化处理、多样数据适配功能的智能清洗平台,应用大数据智能清洗系统的云机器人智能清洗服务平台能够大幅度提升数据清洗效率的同时也大大减少人力消耗,相应减少企业的办公场地、办公用品等费用,从而极大地减低了企业大数据清洗的成本,为用户提供高效、便捷、准确的标准化数据。
较佳的实施例中,上述多种预清洗数据的数据类型包括文本数据、图像数据及语音数据,预清洗数据可以是各个行业的行业动态数据。
较佳的实施例中,上述数据处理模块2利用数据仓库技术从上述预清洗数据中自动扫描提取上述目标字段,并根据预设的分类算法对上述目标字段处理得到上述可分析模型。
如图2所示,较佳的实施例中,上述清洗模块4包括:
模型匹配单元,用于根据上述多个标准数据模型对上述多个可分析模型进行上述模型匹配处理,以使每个上述可分析模型分别与一上述标准数据模型匹配并得到相应的上述标准化数据,以及用于输出第一匹配结果;
语音核对单元,上述语音核对单元连接上述模型匹配单元,用于接收上述第一匹配结果并在上述第一匹配结果为失败时,利用语音合成技术和语义识别技术根据上述有效信息对关联于上述有效信息的上述用户进行语音核对处理,以使每个上述可分析模型分别与一上述标准数据模型匹配并得到相应的上述标准化数据并在匹配失败时删除上述可分析模型及相应的上述预清洗数据,以及用于输出第二匹配结果;
上述匹配信息包括上述第一匹配结果和上述第二匹配结果。
在本实施例中,运用国内先进的智能语音识别技术,可聆听语音数据,并通过语义分析精准转化为可处理信号,反馈给清洗模块4做后续处理。
同时可以与目标人智能应答交互,不断核实确认数据有效性并做好标记。根据目标人的不同反应情况,可调用应答模型数据库针对性地自动应答,替代人力工作。示例:“请问是张先生吗。”“对,是我。”——正确数据——“感谢您的接听,这里是XX公司。”“请问是张先生吗。”“不是,你打错了。”——错误数据——“抱歉打扰了。”。
经过识别校对,语音聆听,应答验证等环节后,实时修正模块可对问题数据进行合并、剔除、修正、补充处理,运用ETL标准化技术输出正确规范的数据库。如对错误数据“上海市斜土路122号之骏大厦”,经过更新修正,可自动转化为正确数据“上海市徐汇区斜土路1223号之俊大厦,200032。”
较佳的实施例中,上述大数据智能清洗系统还包括:
更新模块5,上述更新模块5连接上述存储模块3和上述清洗模块4,用于利用深度学习技术根据上述第一匹配结果和上述第二匹配结果分别对上述清洗处理的处理规则进行更新;
上述存储模块3还用于存储更新后的上述清洗处理的处理规则。
在本实施例中,全面嵌入地理信息、语音、图像等多数据模型库,可根据不同业务需求自动备份、归类、分配接收到的数据。结合机器学习和自然语言理解,在清洗过程中记忆不同结构数据的处理规则、指令,经过归纳和试验后还可智能学习扩展新的规则,以统筹支配整个清洗平台的运算及反应过程。
较佳的实施例中,上述大数据智能清洗系统还包括:
分析模块6,上述分析模块6连接清洗模块4,用于根据上述第一匹配结果和上述第二匹配结果对上述预清洗数据进行分析处理以得到数据分析报告。
较佳的实施例中,上述大数据智能清洗系统还包括:
云端加速模块7,上述云端加速模块7连接上述清洗模块4,上述云端加速模块7用于根据预设的业务需求调整上述清洗模块4的进行上述清洗处理的速度。
在本实施例中,采用弹性云服务器,可根据不同的业务需求弹性伸缩,在高QPS高并发的基础上合理配置服务器资源,保证系统7*24 小时以每秒钟百万字的处理速度运行。
较佳的实施例中,一种云机器人智能清洗服务平台,采用上述的大数据智能清洗系统。
大数据智能清洗系统具有如下功能:
在本实施例中,基于云智能机器人系统的大数据清洗平台,运用机器学习、智能语音识别、自然语言处理等技术,对会员管理涉及到的多维度数据进行清洗、标准化及深度挖掘,解决数据冗余、错漏、失效、孤立等问题,帮助企业建立绿色优质数据库,有效节省成本并提升营销效果。该机器人的包括功能眼睛功能(自动扫描转化功能)、耳朵功能(自动语音聆听识别功能)、大脑功能(自动学习功能)、双手功能(自动更新修正功能)、嘴巴功能(自动语音对话功能)、双腿功能(云运算加速功能),是基于云端数据处理技术、机器智能学习技术、自然语义分析技术及人机交互技术的互联网“虚拟机器人”。
该机器人基于语音技术+数据清洗技术、数据挖掘技术,其中,语音技术包括TTS技术、实时语音识别技术、实时语义分析技术,数据清洗技术提供地址智能分析校对服务、手机号码状态识别服务、电子邮箱状态识别服务,数据挖掘技术用于消费能力分析、消费者满意度调查。
预清洗数据可为文本、图片、语音、地址邮编、电话号码,清洗模块4最终输出的清洗结果,分析模块6最终输出数据分析报告即清洗报告。
眼睛功能包括消歧、实体分辨、对象合并、模糊匹配、记录链接、数据整合;耳朵功能包括语音识别、声纹识别、噪声处理、语音合成、特征提取、模式匹配;大脑功能包括质量评估、隐私保护、价值评估、数据世系、数据安全、数据追源、语义分析、机器学习、数据挖掘、NLP、深度学习、数据脱敏、聚类、近邻学习;双手功能包括数据分类、资源调度、进度跟踪;双腿功能包括加速引擎、云平台、大数据平台;通过上述功能可实现输出清洗结果和清洗报告(数据分析报告)。一台云智能机器人系统的大数据清洗平台运行时相当于10000 人7d*24h的工作量,应用场景包括基本信息清洗校对、会员信息识别、客户服务和问卷调查、数据价值评估、自动化营销系统。
关于基于云智能机器人系统的大数据清洗平台的主要功能介绍如下:
(1)语音智能识别清洗功能
通过清洗模块4中的语音核对单元(语音核对单元具有智能语音识别功能),加载云机器人控制系统,实现对会员手机号码的零干扰自动测拨,运用信号音自动分析和处理技术,将模拟信号转化成数字识别信号,实现对会员手机号码进行包括正常号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通、受限数据等十余种状态识别反馈,并提供完整数据报告,方便企业对会员留存状态进行及时掌握,并可通过会员手机号码状态执行属性分类跟踪管理。
(2)地址清洗功能
通过集成海量公开地理信息数据库(存储模块3中的一种数据库),内嵌230个地理属性词库、9800万条地址信息核心词汇、860 万组错误词条,构建了大规模的地址数值模型(即标准数据模型),基于模型匹配原理,可针对会员通讯地址字段出现的缺漏、错误进行智能补齐,并运用数据标准化技术,将杂乱、重复的地址数据进行系统自动整理和规范。此外,系统还集成了全国最新最全的邮编数据库 (存储模块3中的一种数据库),通过加载运行地址信息字段智能读取识别系统(即数据处理模块2),可实现数据库自动访问,进行邮编查询工作,完成邮政编码精确地校对、补齐和匹配。
(3)互联网数据清洗功能
通过清洗模块4中的邮箱域名逻辑判断及检测功能,加载计算机机器人模拟发送系统,可针对网易、雅虎、新浪等在内的个人和企业公开邮箱域名进行智能检测,通过集成海量公开邮箱域名数据库,运用逻辑运算技术,对格式错误的无效地址进行剔除,同时还可基于邮箱域名数据库,对失准域名进行近似值匹配,并进行正确域名智能补齐,为企业提供更人性化的数据清洗工作。
大数据智能清洗系统具有如下技术水平:
(1)ETL数据抽取
当平台接收到文本、图片、视频等信息,自动运用ETL
(Extract-Transform-Load,数据仓库技术)技术提取有效信息(即目标字段),运用各种分类算法在大数据平台上将其转换为可分析模型,再进行判断处理。
比如对于“徐汇区斜土路1223号”和“上海市之俊大厦”这两条数据,平台通过调用地理信息数据库很快能判定为同义数据,甚至之后遇到“上海市黄浦区斜土路1223号之骏大厦”这样的数据时,平台还能将其中的分区错误“黄浦区”和错字“骏”识别出来,同时结合全面的邮政编码库进行邮编查询,最后调动“四肢”,将其标准化输出为“上海市徐汇区斜土路1223号之俊大厦,200032”
再比如当看到Ber ry.zh@iclud.com这样的邮件地址,平台也会迅速调用清洗模块4中的域名逻辑判断系统进行检测,再结合邮箱域名数据库进行逻辑运算,剔去空格,更正域名,自动将其输出为 Berry.zh@icloud.com。
(2)TTS语音合成和语义识别技术
TTS是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话,清洗模块4中的语音辨识系统在对原本的手机号码清洗领域中,凭机器测拨进行正常号码、关机、停机、空号、来电提醒、呼入限制等十余种号码状态识别反馈的系统进行了有力补充,不仅可以判断号码的状态,还能判断人与号码的匹配状态,完成了分辨机器信号到分辨真实语音的巨大跨越。
为了对语音进行准确辨识,平台还集成全国八大方言语系,共计二十余种小方言的语法特征和海量语音库,由更新模块5中的机器自动记忆及学习系统理解掌握,再用每一次清洗结果来“反哺”机器大脑,由此平台也可以在不断的学习及验证中得到优化。
(3)自然语言处理和智能语音识别
平台对接收和判断的结果完成输出反馈。在与数据相关人核实信息时,根据不同的应答结果,通过自然语言处理和智能语音识别,会做出个性化的不同应答。
如相关人确认这条数据,平台会在表明来意后,将需要分步传达的通知信息一次送达,比如相关人希望了解的活动或账户变动的通知信息;对于错误的相关人,平台会礼貌性解释情况并结束沟通;对不确定的信息,还会用其他问题进行二次验证。另外,这些应答语音的拟真程度和反应速度都与真人无异,保证整个沟通过程顺畅快速,不会造成对数据相关人的困扰,更加人性化。
(4)ETL标准化技术
数据清洗的最终目的是让数据库恢复健康,并千方百计提高它的质量,所以四肢的存在尤为必要。平台可以在辨识出清洗结果后,运用ETL标准化技术调动数据模型对数据库的“蛀点”进行修补优化。
像前文提到的电子邮件地址和通讯地址出现的种种错漏问题,高速地自动删除、归类、补充,转换之后,最终将输出一套标准的绿色的数据库。
同时,平台的多线程并行系统还将数据清洗提升到前所未有的效率。它能以每分钟百万字的处理速度,24小时不间断运转,高速准确过筛人力无法负荷的数据。这也是大数据清洗机器人相对于人力的独特优势。
(5)机器识别和机器学习系统
作为赋予整个平台灵性的大脑,在整套系统中承担了最核心的调配指挥职责。它不仅要“记住”所有形态的数据所对应的匹配信息库和机器学习库,通过机器深度学习来“理解”每种数据所需的规则,还要“学会”按需分工,并在一次次的清洗过程中不断优化系统。综上,云机器人智能清洗服务平台面向企业或者公共政府部门,提供数据分析结果的服务
定位在某一具体行业,通过大量数据支持,对数据进行挖掘分析后预测相关主体的行为,以开展业务;利用数据挖掘技术帮助客户开拓精准营销或者新业务。
还可以面向个人,提供基于数据分析的服务
面向零售商、政府部门、公共机构提供基于地点的人员流动数据:以时间为维度(小时/天/月/年),在特定区域的人员人口统计数据(性别、年龄)和行动等数据。
在一个具体实施例中,该实用案例为海淘,从国外寄送到国内的货物,因报关的身份信息不正确、国内地址不正确、联系方式不正确等,导致出现无法报关、无法收货,而货物退回海外成本非常高,通过云机器人智能清洗服务平台可以有效解决此问题。解决方法通过云机器人智能清洗服务平台对国内地址先进行比对,发现有疑问、错误地址,通过智能语音交互与消费者进行最终确认,得到正确地址和邮编。具体的:
(1)地址标准化
国内用户在海淘网站上下单后,服务平台立即自动对配送地址进行标准化和清洗,将用户输入的非标准的地址标准化为**省**市/区** 路/街**楼**号。并与服务平台的全国地址数据库进行匹配,对于匹配不到的地址信息,将启动智能语音交互核对。预处理数据中的地址信息清洗前后的对照如下表1所示,
表1地址信息清洗前后的对照
(2)报关信息清洗
报关需核对用户的身份信息,服务平台将用户提供的身份证姓名信息,与公安数据库进行比对,对于匹配不到的用户身份信息,将启动智能语音交互核对。预处理数据中的报关信息清洗清洗前后的对照如下表2所示,
序号 姓名 身份证号码 公安数据库匹配结果 后续操作
1 王** 341181198804****** 匹配成功 验证成功
2 张** 421548198505****** 匹配成功 验证成功
3 赵** 320651199012****** 匹配不成功 语音核对
4 郑** 341889198306****** 匹配成功 验证成功
表2报关信息清洗前后的对照
(3)智能语音清洗
通过智能语音交互与消费者进行确认,得到正确的身份、地址和邮编等信息。
客户提交的注册信息包括会员姓名、邮箱、收货地址,需要对每个会员的这三条信息进行数据清洗。
例如:
大数据清洗服务平台:您好,这里是海淘网客户服务中心,您是【王**先生吗?】(此处运用语音播放+TTS)
客户:是的(此处运用语义识别)
大数据清洗服务平台:【412******@qq.com】是您的邮箱地址吗? (此处运用语音播放+TTS)
客户:对的(此处运用语义识别)
大数据清洗服务平台:【*市*区*路*大厦*室】是您的收货地址吗?(此处运用语音播放+TTS)
客户:不是,换了。(此处运用语义识别)
大数据清洗服务平台:您现在的收货地址是哪里?(此处运用语音播放)
客户:*区*路*大厦*室(此处运用语音播放+地址标准化)
大数据清洗服务平台:您的收货地址更改为【*市*区*路*大厦*室】 (此处运用语音播放+TTS)
客户:嗯,对的(此处运用语义识别)
大数据清洗服务平台:感谢您的接听与配合,海淘网祝您购物愉快,再见!(此处运用语音播放)电话结束,根据电话的结果,通过 ETL标准化流程将此客户的信息优化为:
姓名:王**
邮箱:412******@qq.com
收货地址:*市*区*路*大厦*室
海淘网每年平均新增会员数量为100万,如果利用传统的呼叫中心进行数据清洗工作的话,每条信息需要5分钟语音通话。总共需要 1000万分钟语音通话。呼叫中心以500分钟/人/天,每年按照250 天工作计算。则总共需要40个客服人员一年的工作量。而利用云机器人智能清洗服务平台部署1000条并行线路,则只需要10天即可完成所有的工作。大幅度提升数据清洗效率的同时也大大减少人力消耗,相应减少企业的办公场地、办公用品等费用,从而极大地减低了企业大数据清洗的成本。每年可以节约因地址无效导致的货物损失的数百万元费用。
在另一个实施例中,该实用案例为快递配送,快递员的时间浪费在地址不正确的送货线路上、家里没人的重复投递上、跟收货人员的反复电话沟通上,通过后端接入云智能机器人智能清洗服务平台的手机APP,可以对收件人的地址进行修正、确认,并通过语音交互了解最佳投递时间,节约投递成本
在另一个实施例中,该实用案例为自动化营销—金融行业的销售线索挖掘,保险公司的坐席电话营销,电话拒绝率很高,导致销售转化率很低团队,需要连续不断的进行,通过云智能机器人智能清洗服务平台的智能语音交互和IVR流程设置,可以先对目标群体进行初步沟通,筛选出高意向群体进行二次跟进。此举可以帮助企业大大降低人员成本,销售转化率可以提升40%以上
在另一个实施例中,该实用案例为电商防刷单,由于无法识别注册用户中,哪些是刷单者,不确定这些疑似刷单者购买后是否要发货,发货则意味着可能造成成本浪费,将云智能机器人智能清洗服务平台接入电商系统的下单环节,当消费者下单填写手机号码时,及时对手机号码的状态进行验证,如返回结果判断疑似刷单者,将直接屏蔽该订单。
可见,通过云机器人智能清洗服务平台,在需要和人进行沟通核实数据的清洗环节,运用现在已有的技术实现人机对话,对人的回答进行识别和判定并及时给出答复,同时完成数据的校验和“蛀点”修复。将通讯地址出现的种种错漏问题,高速地自动删除、归类、补充,转换之后,最终将输出一套标准的绿色的数据库。利用云机器人智能清洗服务平台代替传统以人工电话的数据清洗方式,显著提高数据清洗工作的效率,同时减少人力成本,从而实现数据清洗的高效率低成本。
云机器人智能清洗服务平台,利用大数据清洗创新技术,打造大数据清洗先进产品,同时会带动原始数据采集行业(如摄像头/传感器等硬件设备采集数据,人工数据收集等),原始数据加工(如人工处理纸质文档为电子文档等)等整个大数据清洗产业链发展。既会带动下游劳动力密集型企业发展,又会带动相关技术型大数据清洗企业的发展。有利于对未来大数据清洗技术新技术的研究,积极推动国内企业和研究院所参与到国内标准过程中,将理论技术与实际应用相结合,打造一批大数据先进产品,培育一批大数据骨干企业,为将来的产业化解决关键技术难点积累经验。因此,对于本平台的执行将预期在这一新兴技术领域取得较多具有自主知识产权的技术成果,不仅能推动该技术标准化的过程,推动我国大数据清洗技术的标准化,形成若干新的大数据清洗技术标准。云智能大数据清洗技术会带动原始数据采集行业(如摄像头/传感器等硬件设备采集数据,人工数据收集等),原始数据加工(如人工处理纸质文档为电子文档等)等整个大数据清洗产业链发展。同时,数千亿级别的大数据清洗市场将会带动近万人的就业。
通过说明和附图,给出了具体实施方式的特定结构的典型实施例,基于本发明精神,还可作其他的转换。尽管上述发明提出了现有的较佳实施例,然而,这些内容并不作为局限。
对于本领域的技术人员而言,阅读上述说明后,各种变化和修正无疑将显而易见。因此,所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容,都应认为仍属本发明的意图和范围内。

Claims (8)

1.一种大数据智能清洗系统,其特征在于,包括:
输入模块,所述输入模块用于提供给用户输入至少一种预清洗数据,每种所述预清洗数据分别对应一唯一的业务类型;
数据处理模块,所述数据处理模块连接所述输入模块,用于从所述预清洗数据中自动扫描提取目标字段,并处理得到可分析模型;
存储模块,所述存储模块连接所述数据处理模块,包括至少一个数据库,每个所述数据库分别用于存储一种所述预清洗数据及相应的所述多个可分析模型,以及分别用于存储保护对应每种所述预清洗数据的多个标准数据模型;
清洗模块,所述清洗模块连接所述存储模块,用于对所述预清洗数据进行清洗处理以得到标准化数据并输出匹配信息,所述清洗处理包括模型匹配处理和语音核对处理。
2.根据权利要求1所述的大数据智能清洗系统,其特征在于,所述多种预清洗数据的数据类型包括文本数据、图像数据及语音数据。
3.根据权利要求1所述的大数据智能清洗系统,其特征在于,所述数据处理模块利用数据仓库技术从所述预清洗数据中自动扫描提取所述目标字段,并根据预设的分类算法对所述目标字段处理得到所述可分析模型。
4.根据权利要求1所述的大数据智能清洗系统,其特征在于,所述清洗模块包括:
模型匹配单元,用于根据所述多个标准数据模型对所述多个可分析模型进行所述模型匹配处理,以使每个所述可分析模型分别与一所述标准数据模型匹配并得到相应的所述标准化数据,以及用于输出第一匹配结果;
语音核对单元,所述语音核对单元连接所述模型匹配单元,用于接收所述第一匹配结果并在所述第一匹配结果为失败时,利用语音合成技术和语义识别技术根据所述有效信息对关联于所述有效信息的所述用户进行语音核对处理,以使每个所述可分析模型分别与一所述标准数据模型匹配并得到相应的所述标准化数据并在匹配失败时删除所述可分析模型及相应的所述预清洗数据,以及用于输出第二匹配结果;
所述匹配信息包括所述第一匹配结果和所述第二匹配结果。
5.根据权利要求4所述的大数据智能清洗系统,其特征在于,所述大数据智能清洗系统还包括:
更新模块,所述更新模块连接所述存储模块和所述清洗模块,用于利用深度学习技术根据所述第一匹配结果和所述第二匹配结果分别对所述清洗处理的处理规则进行更新;
所述存储模块还用于存储更新后的所述清洗处理的处理规则。
6.根据权利要求4所述的大数据智能清洗系统,其特征在于,所述大数据智能清洗系统还包括:
分析模块,所述分析模块连接清洗模块,用于根据所述第一匹配结果和所述第二匹配结果对所述预清洗数据进行分析处理以得到数据分析报告。
7.根据权利要求4所述的大数据智能清洗系统,其特征在于,所述大数据智能清洗系统还包括:
云端加速模块,所述云端加速模块连接所述清洗模块,所述云端加速模块用于根据预设的业务需求调整所述清洗模块的进行所述清洗处理的速度。
8.一种云机器人智能清洗服务平台,采用如权利要求1-7中任意一项所述的大数据智能清洗系统。
CN201711218069.1A 2017-11-28 2017-11-28 一种大数据智能清洗系统及云机器人智能清洗服务平台 Pending CN107943973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711218069.1A CN107943973A (zh) 2017-11-28 2017-11-28 一种大数据智能清洗系统及云机器人智能清洗服务平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711218069.1A CN107943973A (zh) 2017-11-28 2017-11-28 一种大数据智能清洗系统及云机器人智能清洗服务平台

Publications (1)

Publication Number Publication Date
CN107943973A true CN107943973A (zh) 2018-04-20

Family

ID=61949407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711218069.1A Pending CN107943973A (zh) 2017-11-28 2017-11-28 一种大数据智能清洗系统及云机器人智能清洗服务平台

Country Status (1)

Country Link
CN (1) CN107943973A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359103A (zh) * 2018-09-04 2019-02-19 河南智云数据信息技术股份有限公司 一种数据聚合清洗方法及系统
CN110347665A (zh) * 2019-06-27 2019-10-18 杭州数跑科技有限公司 销售线索清洗方法、装置、电子设备及存储介质
CN110851519A (zh) * 2019-11-18 2020-02-28 上海新炬网络信息技术股份有限公司 基于nlp自然语言通过etl工具进行数据处理的方法
CN111125769A (zh) * 2019-12-27 2020-05-08 上海轻维软件有限公司 基于oracle数据库的海量数据脱敏方法
CN111291099A (zh) * 2020-05-13 2020-06-16 中邮消费金融有限公司 一种地址模糊匹配方法、系统及计算机设备
CN111431771A (zh) * 2020-04-07 2020-07-17 江苏省互联网行业管理服务中心 一种抗噪音干扰的城域网数据核验装置
CN111444189A (zh) * 2020-04-17 2020-07-24 贝壳技术有限公司 数据处理方法、装置、介质和电子设备
CN112486969A (zh) * 2020-12-01 2021-03-12 李孔雀 应用于大数据和深度学习的数据清洗方法及云服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279972A1 (en) * 2013-03-15 2014-09-18 Teradata Us, Inc. Cleansing and standardizing data
CN104966172A (zh) * 2015-07-21 2015-10-07 上海融甸信息科技有限公司 一种用于企业经营数据分析的大数据可视化分析处理系统
CN105677710A (zh) * 2015-12-28 2016-06-15 曙光信息产业(北京)有限公司 大数据的处理方法和系统
CN106202569A (zh) * 2016-08-09 2016-12-07 北京北信源软件股份有限公司 一种基于大数据量的清洗方法
CN106294823A (zh) * 2016-08-17 2017-01-04 上海云信留客信息科技有限公司 用于大数据清洗的异常检测和消除的方法
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279972A1 (en) * 2013-03-15 2014-09-18 Teradata Us, Inc. Cleansing and standardizing data
CN104966172A (zh) * 2015-07-21 2015-10-07 上海融甸信息科技有限公司 一种用于企业经营数据分析的大数据可视化分析处理系统
CN105677710A (zh) * 2015-12-28 2016-06-15 曙光信息产业(北京)有限公司 大数据的处理方法和系统
CN106202569A (zh) * 2016-08-09 2016-12-07 北京北信源软件股份有限公司 一种基于大数据量的清洗方法
CN106294823A (zh) * 2016-08-17 2017-01-04 上海云信留客信息科技有限公司 用于大数据清洗的异常检测和消除的方法
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
匿名: ""国内首个大数据清洗机器人WinRoboter面世在即"", 《HTTP://WWW.NOCOM.CN/GZNEWS/20160114/167953.HTML》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359103A (zh) * 2018-09-04 2019-02-19 河南智云数据信息技术股份有限公司 一种数据聚合清洗方法及系统
CN110347665A (zh) * 2019-06-27 2019-10-18 杭州数跑科技有限公司 销售线索清洗方法、装置、电子设备及存储介质
CN110851519A (zh) * 2019-11-18 2020-02-28 上海新炬网络信息技术股份有限公司 基于nlp自然语言通过etl工具进行数据处理的方法
CN111125769A (zh) * 2019-12-27 2020-05-08 上海轻维软件有限公司 基于oracle数据库的海量数据脱敏方法
CN111125769B (zh) * 2019-12-27 2023-09-19 上海轻维软件有限公司 基于oracle数据库的海量数据脱敏方法
CN111431771A (zh) * 2020-04-07 2020-07-17 江苏省互联网行业管理服务中心 一种抗噪音干扰的城域网数据核验装置
CN111444189A (zh) * 2020-04-17 2020-07-24 贝壳技术有限公司 数据处理方法、装置、介质和电子设备
CN111291099A (zh) * 2020-05-13 2020-06-16 中邮消费金融有限公司 一种地址模糊匹配方法、系统及计算机设备
CN111291099B (zh) * 2020-05-13 2020-08-14 中邮消费金融有限公司 一种地址模糊匹配方法、系统及计算机设备
CN112486969A (zh) * 2020-12-01 2021-03-12 李孔雀 应用于大数据和深度学习的数据清洗方法及云服务器
CN112486969B (zh) * 2020-12-01 2021-08-03 罗嗣扬 应用于大数据和深度学习的数据清洗方法及云服务器

Similar Documents

Publication Publication Date Title
CN107943973A (zh) 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN106294823B (zh) 用于大数据清洗的异常检测和消除的方法
US11593763B2 (en) Automated electronic mail assistant
CN107220353B (zh) 一种智能客服机器人满意度自动评价方法及系统
CN106295807A (zh) 一种信息处理的方法及装置
CN106572001B (zh) 一种智能客服的对话方法及系统
CN107463661A (zh) 数据的导入方法及装置
CN105931068A (zh) 一种持卡人消费画像的生成方法及装置
CN108345640A (zh) 一种基于神经网络语义分析的问答语料库构建方法
CN108038748A (zh) 用于辅助应答交互界面显示方法及设备
CN107067124A (zh) 企业组织架构自动生成的方法及其系统
CN109922213A (zh) 语音咨询时的数据处理方法、装置、存储介质及终端设备
CN107025601A (zh) 数据核对方法、装置及设备
CN114741482B (zh) 基于招标信息的中标信息匹配方法、系统、设备及介质
CN112036923A (zh) 一种服务评价方法、系统、装置及存储介质
CN112434501A (zh) 工单智能生成的方法、装置、电子设备及介质
AU2021105938A4 (en) Automatic and dynamic contextual analysis of sentiment of social content and feedback reviews based on machine learning model
CN114265921A (zh) 问答知识库构建方法及其装置、设备、介质、产品
CN113537878A (zh) 包裹派送方法、装置、设备及存储介质
CN109727594A (zh) 语音处理方法及装置
CN110362828B (zh) 网络资讯风险识别方法及系统
CN109446229B (zh) 基于大数据和深度学习的认定方法和机器人系统
CN113379432B (zh) 一种基于机器学习的销售系统客户匹配方法
CN115471148A (zh) 数据处理方法、装置、设备及存储介质
CN109600428A (zh) 一种自动化上传附件并匹配关联的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420