CN106649386A - 一种客户信息搜索云系统 - Google Patents
一种客户信息搜索云系统 Download PDFInfo
- Publication number
- CN106649386A CN106649386A CN201510735834.1A CN201510735834A CN106649386A CN 106649386 A CN106649386 A CN 106649386A CN 201510735834 A CN201510735834 A CN 201510735834A CN 106649386 A CN106649386 A CN 106649386A
- Authority
- CN
- China
- Prior art keywords
- customer information
- cloud system
- data
- searches
- information according
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种客户信息搜索云系统,加快客户数据从数据库服务器提取客户信息时服务器的响应时间,减少数据库服务器的查询压力。其技术方案为:客户信息搜索云系统通过云端存储结合客户端应用程序的方式对需要查询客户信息的应用提供基础数据的服务,系统包括:数据清洗装置,基于非关系型数据库对客户信息进行数据清洗;搜索装置,包括以全文索引引擎为基础实现文本检索应用服务的服务器和分布式客户搜索云系统。
Description
技术领域
本发明涉及一种信息搜索服务,尤其涉及一种采用云存储和客户端应用程序(API)的方式对客户信息提供搜索服务的系统。
背景技术
随着电商行业的迅猛发展,也带动物流快递行业进入飞速发展时期,但是由于客户信息的庞大数据量,使得客户数据在从数据库服务器使用传统的T-Sql语句提取客户信息时,响应时间从几秒到几分钟不等,极大的损害终端客户体验,且拖慢了数据库服务器,给服务器造成了压力,也极大的增加了开发和运维成本,耗费了大量的人力和时间来进行服务器的维护,同时也阻碍了快递行业迈向信息化和自动化的步伐。
另外由于各行业不断出现的客户信息泄露等情况,使客户信息的安全性以及保密性越来越受到各行业的高度重视,进而在电子商务市场迅猛发展的时期,如何确保客户信息的安全性也成了长期困扰着快递行业的问题。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种客户信息搜索云系统,加快客户数据从数据库服务器提取客户信息时服务器的响应时间,减少数据库服务器的查询压力。
本发明的技术方案:本发明揭示了一种客户信息搜索云系统,通过云端存储结合客户端应用程序的方式对需要查询客户信息的应用提供基础数据的服务,系统包括:
数据清洗装置,基于非关系型数据库对客户信息进行数据清洗;
搜索装置,包括以全文索引引擎为基础实现文本检索应用服务的服务器和分布式客户搜索云系统。
根据本发明的客户信息搜索云系统的一实施例,数据清洗装置通过ReplicaSet模式和Sharding分片机制构建MongoDB集群,对客户信息的数据进行过滤,将重复出现的数据去重,将不规范的数据进行规范化。
根据本发明的客户信息搜索云系统的一实施例,客户信息的数据分布在每一Sharding分片上以实现负载均衡,通过多组工作定时抽取客户信息的数据并进行去重和规范化的操作。
根据本发明的客户信息搜索云系统的一实施例,搜索装置中的全文索引引擎是Lucene全文索引引擎,以Lucene全文索引引擎为基础构建了实现了文本检索应用服务的Solr服务器。
根据本发明的客户信息搜索云系统的一实施例,分布式客户搜索云系统以ZooKeeper为基础来实现。
本发明对比现有技术有如下的有益效果:本发明通过采用云存储结合客户端API的方式对需要查询客户信息的应用提供基础数据的服务,可以解决客户数据在从数据库服务器提取客户信息时,服务器响应时间长的问题,同时也可以缓解服务器的压力,提高终端客户体验。
附图说明
图1示出了本发明的客户信息搜索云系统的较佳实施例的原理图。
图2示出了客户信息搜索云系统中的数据清洗装置的实现原理。
图3示出了客户信息搜索云系统中的搜索装置的实现原理。
具体实施方式
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的客户信息搜索云系统的较佳实施例的原理。请参见图1,本实施例的客户信息搜索云系统包括:数据清洗装置1以及搜索装置2。
数据清洗装置1是基于非关系型数据库(NoSQL)MongoDB对客户信息进行数据清洗,例如,对客户的收发件人信息数据,切分开收发件人信息后的数据进行规范客户手机号码(将手机号码或者固定电话可能出现的例如全角字符或者转半角字符等的非法字符过滤,以提升数据质量),规范客户收发件地址(收发件客户地址信息中存在着大量的非地址字符以及较大量的不规范写法的地址)。其具体原理如图2所示,数据清洗装置1通过Replica Set模式和Sharding分片机制构建MongoDB集群,对客户信息的数据进行过滤,即,将重复出现的数据去重,对不规范的数据进行规范化。Mongo DB是目前在IT行业非常流行的一种非关系型数据库(NoSql),其灵活的数据存储方式备受当前IT从业人员的青睐。Mongo DB很好的实现了面向对象的思想(OO思想),在Mongo DB中每一条记录都是一个Document对象。Mongo DB最大的优势在于所有的数据持久操作都无需开发人员手动编写SQL语句,直接调用方法就可以轻松的实现CRUD操作。Replica Set是MongoDB的高可用性架构。Sharding基本上是针对开源数据库的扩展性解决方案。
客户信息的数据分布在每一Sharding分片上以实现负载均衡,通过多组工作(job)定时抽取客户信息的数据并进行去重和规范化的操作,以提升数据质量。
在通过数据清洗提升了数据质量之后,系统接着运行搜索装置2。
如图3所示,搜索装置2包括采用基于Java等应用的以全文索引引擎为基础实现文本检索应用服务的服务器21和分布式客户搜索云系统22。服务器21中的全文索引引擎是Lucene全文索引引擎,以Lucene全文索引引擎为基础构建了实现了文本检索应用服务的Solr服务器。Lucene是apache软件基金会4jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引,也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。因为Solr和SolrCloud在构建大规模分布式搜索在互联网行业应用中有着极为成功的案例。而且Solr和SolrCloud在大规模批量写入数据速度非常快,比较适合大规模数据批量写入。当用户可以把客户数据提交给任一Solr Replica,如果它不是leader,它会把数据请求转给本Shard的leader,leader会把数据路由给本Shard的每个Solr Replica,多组job定时提交索引。在建立了Lucene索引之后,系统在查询数据信息时将快速的得到信息。
分布式客户搜索云系统22以ZooKeeper为基础来实现。ZooKeeper是一个分布式的、开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
本发明的客户信息搜索云系统通过MongoDB客户数据清洗去重和建立Lucene索引,可以快速准确的得到想要的数据信息,提高了终端客户体验,同时减少了服务器的查询压力。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
Claims (5)
1.一种客户信息搜索云系统,通过云端存储结合客户端应用程序的方式对需要查询客户信息的应用提供基础数据的服务,系统包括:
数据清洗装置,基于非关系型数据库对客户信息进行数据清洗;
搜索装置,包括以全文索引引擎为基础实现文本检索应用服务的服务器和分布式客户搜索云系统。
2.根据权利要求1所述的客户信息搜索云系统,其特征在于,数据清洗装置通过Replica Set模式和Sharding分片机制构建MongoDB集群,对客户信息的数据进行过滤,将重复出现的数据去重,将不规范的数据进行规范化。
3.根据权利要求2所述的客户信息搜索云系统,其特征在于,客户信息的数据分布在每一Sharding分片上以实现负载均衡,通过多组工作定时抽取客户信息的数据并进行去重和规范化的操作。
4.根据权利要求1所述的客户信息搜索云系统,其特征在于,搜索装置中的全文索引引擎是Lucene全文索引引擎,以Lucene全文索引引擎为基础构建了实现了文本检索应用服务的Solr服务器。
5.根据权利要求1所述的客户信息搜索云系统,其特征在于,分布式客户搜索云系统以ZooKeeper为基础来实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510735834.1A CN106649386A (zh) | 2015-11-03 | 2015-11-03 | 一种客户信息搜索云系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510735834.1A CN106649386A (zh) | 2015-11-03 | 2015-11-03 | 一种客户信息搜索云系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649386A true CN106649386A (zh) | 2017-05-10 |
Family
ID=58810113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510735834.1A Pending CN106649386A (zh) | 2015-11-03 | 2015-11-03 | 一种客户信息搜索云系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649386A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480164A (zh) * | 2017-06-20 | 2017-12-15 | 华迪计算机集团有限公司 | 一种查询物流数据的方法和系统 |
CN112100161A (zh) * | 2019-09-17 | 2020-12-18 | 上海寻梦信息技术有限公司 | 数据处理方法及系统、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412933A (zh) * | 2013-08-20 | 2013-11-27 | 南京物联网应用研究院有限公司 | 一种云搜索平台 |
US9152667B1 (en) * | 2013-03-15 | 2015-10-06 | A9.Com, Inc. | Cloud search analytics |
-
2015
- 2015-11-03 CN CN201510735834.1A patent/CN106649386A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9152667B1 (en) * | 2013-03-15 | 2015-10-06 | A9.Com, Inc. | Cloud search analytics |
CN103412933A (zh) * | 2013-08-20 | 2013-11-27 | 南京物联网应用研究院有限公司 | 一种云搜索平台 |
Non-Patent Citations (2)
Title |
---|
胡小春 等: ""基于NoSQL的大数据应用设计与性能保障方案研究"", 《广西大学学报:自然科学版》 * |
黄沈滨 等: ""大数据云清洗系统的设计与实现"", 《智能计算机与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480164A (zh) * | 2017-06-20 | 2017-12-15 | 华迪计算机集团有限公司 | 一种查询物流数据的方法和系统 |
CN112100161A (zh) * | 2019-09-17 | 2020-12-18 | 上海寻梦信息技术有限公司 | 数据处理方法及系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893349B (zh) | 类目标签匹配映射方法及装置 | |
US11620321B2 (en) | Artificial intelligence based method and apparatus for processing information | |
CN104516910B (zh) | 在客户端服务器环境中推荐内容 | |
CN104298478B (zh) | 基于文件名对存储库动作的推断 | |
US9384473B2 (en) | Methods and systems for creating online unified contact and communication management (CM) platform | |
CN104765729B (zh) | 一种跨平台微博社区账户匹配方法 | |
CN108334489B (zh) | 文本核心词识别方法和装置 | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
WO2022116435A1 (zh) | 标题生成方法、装置、电子设备及存储介质 | |
CN101958848A (zh) | 具有协作约束的社交社区生成的回答系统 | |
US20190163699A1 (en) | Method and apparatus for information interaction | |
CN111488995B (zh) | 用于评估联合训练模型的方法、装置和系统 | |
US10353874B2 (en) | Method and apparatus for associating information | |
US9910922B2 (en) | Analysis of user's data to recommend connections | |
CN107203574A (zh) | 数据管理和数据分析的聚合 | |
US20160357749A1 (en) | Associating keywords from communication content with communication participants | |
WO2021136318A1 (zh) | 一种面向数字人文的电子邮件历史事件轴生成方法及装置 | |
CN111339743B (zh) | 一种账号生成的方法和装置 | |
CN112784589A (zh) | 一种训练样本的生成方法、装置及电子设备 | |
CN106649386A (zh) | 一种客户信息搜索云系统 | |
US10706078B2 (en) | Bidirectional integration of information between a microblog and a data repository | |
CN106095772A (zh) | 一种http协议信息提取的方法和装置 | |
CN113326363A (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
US9715490B2 (en) | Automating multilingual indexing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |
|
RJ01 | Rejection of invention patent application after publication |