CN110019094A

CN110019094A - 话单检索方法、系统、电子设备及存储介质

Info

Publication number: CN110019094A
Application number: CN201711465375.5A
Authority: CN
Inventors: 廖锋; 郑敏; 朱建中; 崔志顺; 徐睿
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-07-16

Abstract

本发明的实施例提供了一种话单检索方法、系统、电子设备及存储介质，话单检索方法包括接收话单检索指令，其中，所述话单检索指令中包括目标话单的第一标识的类型和第二标识的类型；若判断获知针对目标话单的检索范围大于预设阈值，则根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单；根据所述目标话单的第二标识的类型，对所述一次话单中的全部话单进行二次检索，得到目标话单，其中，所述话单的数据格式均为第一数据格式，且所述第一数据格式由各类第二标识组成。本发明能够支持对海量话单中所有字段进行自定义检索，并能够有效减少话单检索过程中的人工参与工作，进而能够有效提高话单检索的准确性。

Description

话单检索方法、系统、电子设备及存储介质

技术领域

本发明实施例涉及业务数据检索技术领域，具体涉及一种话单检索方法、系统、电子设备及存储介质。

背景技术

在业务支撑系统的日常运营支撑活动中，涉及到运维人员需要对系统各环节产生的各种话单进行检索、分析和处理，因为问题场景的差异，导致每次需要检索话单的条件不尽相同。

目前针对上述需求，一般是采用以下方式进行处理：

方式1.将一定周期内的话单记录保存到关系性数据库中，每次根据问题需要，编写不同的SQL语句来查询和导出需要的话单记录。

方式2.将话单记录文件直接保存到文件系统中，每次根据问题需要，人工后台编写解析和提取脚本，从文件中提取出所需要的话单记录。

但是，现有方式的话单检索的整个过程都需要人工参与，每次根据不同问题场景，都需要运维人员编写不同的语句或脚本，检索效率低下，对于运维人员技术能力要求比较高，且随着支撑系统的云化建设，要求系统需要去IOE、去高端存储、去小型机，通过开源数据库、分布式技术及X86机来替换进行替代。这种趋势下，现有技术的数据库方式必然不可行，需要采用文件之类的方式替代，但文件系统这种单节点架构比较落后，必然会因节点数据增多带来话单存放机制复杂且人工话单检索困难的问题。

发明内容

针对现有技术中的缺陷，本发明的实施例提供一种话单检索方法、系统、电子设备及存储介质，能够支持对海量话单中所有字段进行自定义检索，并能够有效减少话单检索过程中的人工参与工作，进而能够有效提高话单检索的准确性。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供了一种话单检索方法，所述话单检索方法包括：

接收话单检索指令，其中，所述话单检索指令中包括目标话单的第一标识的类型和第二标识的类型；

若判断获知针对目标话单的检索范围大于预设阈值，则根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单，其中，所述HBase数据库中存储有各话单与各类第一标识之间的一一对应关系；

以及，根据所述目标话单的第二标识的类型，对所述一次话单中的全部话单进行二次检索，得到目标话单，其中，所述话单的数据格式均为第一数据格式，且所述第一数据格式由各类第二标识组成。

第二方面，本发明提供了一种话单检索系统，所述话单检索系统包括：

话单检索指令接收模块，用于接收话单检索指令，其中，所述话单检索指令中包括目标话单的第一标识的类型和第二标识的类型；

一次检索模块，用于在判断获知针对目标话单的检索范围大于预设阈值时，根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单，其中，所述HBase数据库中存储有各话单与各类第一标识之间的一一对应关系；

二次检索模块，用于根据所述目标话单的第二标识的类型，对所述一次话单中的全部话单进行二次检索，得到目标话单，其中，所述话单的数据格式均为第一数据格式，且所述第一数据格式由各类第二标识组成。

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述话单检索方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述话单检索方法的步骤。

由上述技术方案可知，本发明实施例所述的一种话单检索方法，通过接收话单检索指令，其中，所述话单检索指令中包括目标话单的第一标识的类型和第二标识的类型；若判断获知针对目标话单的检索范围大于预设阈值，则根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单；根据所述目标话单的第二标识的类型，对所述一次话单中的全部话单进行二次检索，得到目标话单，其中，所述话单的数据格式均为第一数据格式，且所述第一数据格式由各类第二标识组成；能够支持对海量话单中所有字段进行自定义检索，并能够有效减少话单检索过程中的人工参与工作，进而能够有效提高话单检索的准确性，降低了话单检索降低了操作复杂度、人员技术能力要求，进而降低了话单检索的错误结果发生风险。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的实施例一中的一种话单检索方法的流程示意图；

图2是本发明的MapReduce分布式架构示意图；

图3是本发明的话单格式定义示意图；

图4是本发明的具体应用实例中的前台检索任务发布界面示意图；

图5是本发明的具体应用实例中的新增话单检索任务界面示意图；

图6是本发明的具体应用实例中的任务执行状态界面示意图；

图7是本发明的具体应用实例中的话单检索处理过程示意图；

图8是本发明的实施例二中的话单检索系统的流程示意图；

图9本发明实施例三的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例一提供一种话单检索方法的具体实施方式，参见图1，所述话单检索方法具体包括如下内容：

步骤100：接收话单检索指令，其中，所述话单检索指令中包括目标话单的第一标识的类型和第二标识的类型。

在步骤100中，所述话单检索系统接收话单检索指令，且话单检索指令中包括目标话单的第一标识的类型和第二标识的类型。可以理解的是，所述第一标识是存储在HBase数据库中的，且所述第一标识用于一次检索，所述第二标识是存储在第一数据格式中的，且第二标识用于二次检索。

可以理解的是，为了进一步提高二次检索的准确性，所述话单检索指令中可以包含多类第一标识和多类第二标识，这样标识的类型越多，获取的话单也越为精准。

在一种具体举例中，参见图2，运维人员通过前台界面定义话单检索条件及检索任务，系统根据和检索条件生成以JSON定义的话单检索指令，话单检索指令通过Hadoop的MapReduce机制分布式执行，对HBASE中数据以Key值进行第一次检索，再通过JSON中定义其它条件进行话单记录解析，二次检索得到最终符合条件的话单。合并生成结果文件，以供运维人员使用。

另外，本实施例基于云计算技术，利用X86服务器组成的、具有庞大存储和计算能力的Hadoop集群来存储各种话单文件，并通过通用的话单格式定义和话单检索JSON定义，由MapReduce框架自动完成话单记录的检索、输出。其中，Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributed File System)，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上；而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求，可以以流的形式访问(streaming access)文件系统中的数据；Hadoop的框架的核心设计就是：HDFS和MapReduce，其中的HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

步骤200：若判断获知针对目标话单的检索范围大于预设阈值，则根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单，其中，所述HBase数据库中存储有各话单与各类第一标识之间的一一对应关系，HBase是一个分布式的、面向列的开源数据库，该技术来源于Fay Chang所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

在步骤200中，所述话单检索系统判断针对目标话单的检索范围是都大于所述预设阈值，若是，则根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单，其中，所述HBase数据库中存储有各话单与各类第一标识之间的一一对应关系，在一种具体举例中，所述第一标识可以是由不同的字段组成的唯一对应编码。

在一种具体举例中，针对HBASE为以Key-Value方式存储的特性，HBase数据库的设计可以参见表1：

表1

其中，行键-rowkey：由几个字段组成话单唯一码，其中：

小时2位，为00点到23点；

号码：20位，组成方式为先对号码进行15位左补空格，再将前11位逆序+后4位构成15位号码段，不够20位尾部补空格；

分类2位：标准单、negw、boss、dno、dsu、dcc等，转换成固定数字；

话单类型：各类话单中的类型，包括语音，短彩等；

话单时间：YYYYMMDDHHMMSS；

唯一序列20位，通过数据库序列+本地序列号实现；

FilenNme：文件名；

Cdr：整条话单内容；

失效数据按天删除，避免删除时检索数据，将话单表设置为天表，删除数据时直接drop表即可。HBase数据以键值对方式存储，为话单数据在HBase中均匀存储以及考虑话单检索场景，键值前段设计为小时+号码特殊处理，可以达到快速按号码以及时段检索的要求。

步骤300：根据所述目标话单的第二标识的类型，对所述一次话单中的全部话单进行二次检索，得到目标话单，其中，所述话单的数据格式均为第一数据格式，且所述第一数据格式由各类第二标识组成。

在步骤300中，所述话单检索系统根据所述目标话单的第二标识的类型，对所述一次话单中的全部话单进行二次检索，得到目标话单。可以理解是是，所述第一数据格式可以几大类，例如：参见图3，话单类型、业务类型、头尾记录等关联的话单行定义，且每个大类下又可以包括多个小类，其中的小类即为第二标识，也就是说，在确定第二标识的类型之后，既可以在符合第一数据格式的话单中找到对应的目标话单，在图3中，话单文件定义实体用于描述各种话单文件的基本信息，包括话单类型、业务类型及头尾记录和体记录所关联的话单行定义；话单行定义实体用于描述话单文件中内容记录行的基本信息，包括格式类型、是字符分隔下的分隔符等；话单字段定义用于描述话单中所包括的所有字段属性定义，其中的起始位置和长度只有在话单格式是被事先定义的情况下才有应用的意义。

从上述描述可知，本发明的实施例提供的话单检索方法，能够支持对海量话单中所有字段进行自定义检索，并能够有效减少话单检索过程中的人工参与工作，进而能够有效提高话单检索的准确性，降低了话单检索降低了操作复杂度、人员技术能力要求，进而降低了话单检索的错误结果发生风险。

在一种具体实施方式中，本发明的话单检索方法中的步骤200具体包括如下内容：

步骤201：读取所述话单检索指令，若获知所述话单检索指令中的第一标识有两类及以上，则根据该两类及以上的第一标识判断针对该目标话单的检索范围是否大于预设阈值。

步骤202：若针对该目标话单的检索范围大于预设阈值，则根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单，其中，所述HBase数据库中存储有各话单与各类第一标识之间的一一对应关系。

在一种具体实施方式中，本发明的话单检索方法还具体包括如下内容：

若判断获知针对目标话单的检索范围小于或等于所述预设阈值，则根据目标话单的第一标识的类型在HBase数据库中直接进行扫描，得到目标话单。

在上述描述中，对于提供目标号码以及话单类型和话单时间等可预判检索范围较小以及数量偏小的情况，则直接对HBase服务器进行扫描过滤，但对于扫描范围较大或处理过程复杂的任务，则Hadoop集群发布MapReduce任务。

在一种具体实施方式中，本发明的话单检索方法中的步骤100具体包括如下内容：

步骤101：接收话单检索任务，其中，所述话单检索任务中包括目标话单的第一标识的类型和第二标识的类型。

步骤102：根据所述话单检索任务，生成数据格式为Json格式的话单检索指令。

步骤400：将目标话单发送至文件服务器，使得所述话单检索指令的发出方经该文件服务器下载得到所述目标话单。

以及，在得到一次话单后，将所述一次话单存储至HDFS分布式文件系统中；以及，在得到目标话单后，将所述目标话单也存储至所述HDFS分布式文件系统中；在进行一次检索及二次检索的过程中，实时显示检索过程的执行进度，并实时将检索过程记录在操作日志中。

从上述描述可知，本发明的实施例提供的话单检索方法，能够支持对海量话单中所有字段进行自定义检索，并能够有效减少话单检索过程中的人工参与工作，进而能够有效提高话单检索的准确性。

为进一步的说明本方案，本发明还提供一种话单检索方法的具体应用实例，具体包括如下内容：

(1)前台检索任务发布：

在前台界面实现话单检索任务查询以及发布，界面参见图4。

(2)在任务管理界面可新增话单检索任务、监控任务执行状态、查看话单检索条件以及下载话单检索结果。

(3)点击“新增话单检索任务”，话单检索任务配置界面，在界面中可配置按号码或按范围话单检索，并支持各类话单的全字段条件筛选功能，参见图5。

(4)提交任务后可以查看任务执行状态，并提供中止任务操作，参见图6。

其中，任务中的话单检索条件是以JSON格式进行发布的，格式如下表2所示：

表2

(5)话单检索处理

提供多种话单检索机制，可能使用多种策略进行数据检索，且检索过程参见图7：

操作员在前台配置好话单检索任务，将任务发布到数据库，其中话单检索条件以JSON格式存储，如提取20170410这0点到3点的negw01话单的数据，并匹配话单字段中文件标识等于aabbcc.z并且交换机标识不等于的话单数据，则话单检索数据如下表3所示：

表3

1)Was进行话单检索策略判断：

1-1)对于提供目标号码以及话单类型和话单时间等可预判检索范围较小以及数量偏小的情况，则直接由was链接HBase服务器进行扫描过滤。

1-2)对于扫描范围较大或处理过程复杂的任务，was链接Hadoop集群发布MapReduce任务。

2)话单检索过程中解析话单检索条件JSON信息，如果检索时间范围跨天，需要分成多表扫描并过滤处理，将通过common公用条件在HBase中检索到的话单，根据进行二次匹配检索处理，匹配条件的话单记录保存到文件中，如果文件数过大，需要装文件切割。

3)将结果文件放到文件服务器中。

4)更新任务执行结果，通过MapReduce过程检索时，调用Hadoop集群接口获取任务执行进度，用于前台展示进度百分比。

5)话单检索任务记录详细的操作日志用于信息审计。

从上述描述可知，本发明的实施例提供的话单检索方法，以JSON有层次的数据特性定义一种用于话单检索的条件数据结构，通过多组数据保存当前检索话单所需要的所有条件。这一点需予以保护；以及，根据JSON格式的检索条件定义，根据一个common分组条件以key值方式从HBase中第一次提取数据；根据一到多个conditions分组条件，对第一次的数据进行二次检索。这一点需予以保护；能够基于分布式计算能力框架符合现有技术发展趋势，提高生产效率，节省成本，易于扩展；通过灵活、通用的可配置化能力，减少检索过程中的人工参与环节，降低了操作复杂度、人员技术能力要求，进而降低了话单检索的错误结果发生风险，提高准确性，以及，通过标准化、流程化的话单检索过程，记录对于用户话单这种敏感信息的详细操作日志，便于审计。

本发明的实施例二提供一种能够实现上述话单检索方法中全部步骤的话单检索系统的具体实施方式，参见图8，所述话单检索系统具体包括如下内容：

话单检索指令接收模块10，用于接收话单检索指令，其中，所述话单检索指令中包括目标话单的第一标识的类型和第二标识的类型；

一次检索模块20，用于在判断获知针对目标话单的检索范围是否大于预设阈值时，根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单，其中，所述HBase数据库中存储有各话单与各类第一标识之间的一一对应关系；

二次检索模块30，用于根据所述目标话单的第二标识的类型，对所述一次话单中的全部话单进行二次检索，得到目标话单，其中，所述话单的数据格式均为第一数据格式，且所述第一数据格式由各类第二标识组成。

本实施例中的话单检索系统的实施例具体可以用于执行上述话单检索方法的实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

从上述描述可知，本发明的实施例提供的话单检索系统，能够支持对海量话单中所有字段进行自定义检索，并能够有效减少话单检索过程中的人工参与工作，进而能够有效提高话单检索的准确性，降低了话单检索降低了操作复杂度、人员技术能力要求，进而降低了话单检索的错误结果发生风险。

本发明的实施例三提供能够实现上述用于话单检索方法中全部步骤的一种电子设备的具体实施方式，参见图9，所述电子设备具体包括如下内容：

处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604；

其中，所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信；所述通信接口603用于实现客户端及服务器等相关设备之间的信息传输；

所述处理器601用于调用所述存储器602中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例一中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤200：若判断获知针对目标话单的检索范围大于预设阈值，则根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单，其中，所述HBase数据库中存储有各话单与各类第一标识之间的一一对应关系。

从上述描述可知，本发明的实施例提供的电子设备，能够支持对海量话单中所有字段进行自定义检索，并能够有效减少话单检索过程中的人工参与工作，进而能够有效提高话单检索的准确性，降低了话单检索降低了操作复杂度、人员技术能力要求，进而降低了话单检索的错误结果发生风险。

本发明的实施例四提供能够实现上述话单检索方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例一的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本发明的实施例提供的计算机可读存储介质，能够支持对海量话单中所有字段进行自定义检索，并能够有效减少话单检索过程中的人工参与工作，进而能够有效提高话单检索的准确性，降低了话单检索降低了操作复杂度、人员技术能力要求，进而降低了话单检索的错误结果发生风险。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的话单检索系统等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台大数据传输设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种话单检索方法，其特征在于，所述话单检索方法包括：

2.根据权利要求1所述的话单检索方法，其特征在于，所述若判断获知针对目标话单的检索范围大于预设阈值，则根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单，其中，所述HBase数据库中存储有各话单与各类第一标识之间的一一对应关系，包括：

读取所述话单检索指令，若获知所述话单检索指令中的第一标识有两类及以上，则根据该两类及以上的第一标识判断针对该目标话单的检索范围是否大于预设阈值；

若针对该目标话单的检索范围大于预设阈值，则根据所述目标话单的第一标识，通过MapReduce计算框架在HBase数据库中进行一次检索，得到一次话单，其中，所述HBase数据库中存储有各话单与各类第一标识之间的一一对应关系。

3.根据权利要求1所述的话单检索方法，其特征在于，所述话单检索方法还包括：

4.根据权利要求1所述的话单检索方法，其特征在于，所述接收话单检索指令，其中，所述话单检索指令中包括目标话单的第一标识的类型和第二标识的类型，包括：

接收话单检索任务，其中，所述话单检索任务中包括目标话单的第一标识的类型和第二标识的类型；

以及，根据所述话单检索任务，生成数据格式为Json格式的话单检索指令。

5.根据权利要求1至4任一项所述的话单检索方法，其特征在于，所述话单检索方法还包括：

将目标话单发送至文件服务器，使得所述话单检索指令的发出方经该文件服务器下载得到所述目标话单。

6.根据权利要求1所述的话单检索方法，其特征在于，所述话单检索方法还包括：

在得到一次话单后，将所述一次话单存储至HDFS分布式文件系统中；

以及，在得到目标话单后，将所述目标话单也存储至所述HDFS分布式文件系统中。

7.根据权利要求1所述的话单检索方法，其特征在于，所述话单检索方法还包括：

在进行一次检索及二次检索的过程中，实时显示检索过程的执行进度，并实时将检索过程记录在操作日志中。

8.一种话单检索系统，其特征在于，所述话单检索系统包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述话单检索方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述话单检索方法的步骤。