CN110597765A

CN110597765A - 一种大零售呼叫中心异构数据源数据处理方法及装置

Info

Publication number: CN110597765A
Application number: CN201910718792.9A
Authority: CN
Inventors: 王青峰
Original assignee: Ziguang West Data (nanjing) Co Ltd
Current assignee: Unisplendour Western Digital Co ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-12-20

Abstract

本发明公开了一种大零售呼叫中心异构数据源数据处理方法及装置，其中，大零售呼叫中心异构数据源数据处理方法包括通过SDK将后端NAS存储数据平滑过渡到对象存储系统，并生成客户文本文件；基于LSTM网络将语音信息中的语音内容识别为语音文本文件；基于客户号和来电号码关联客户文本文件和语音文本文件，并生成合并文本文件；解析合并文本文件，并根据解析后的文本内容和音频文件上的标签，生成客户一次通话记录信息的元数据信息，并上传至对象存储系统；根据客户输入的检索信息，输出对应的文本内容和关联的音频文件，用于有效整合异构数据源中的海量业务数据，分析挖掘，基于用户行为分析实现精确营销。

Description

一种大零售呼叫中心异构数据源数据处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种大零售呼叫中心异构数据源数据处理方法及装置。

背景技术

大零售是指企业以互联网为依托，通过运用大数据、人工智能等技术手段，对商品、流通与销售过程进行升级改造，并对线上服务、线下体验以及现代物流进行深度融合。总而言之，大零售就是以大数据为驱动，通过新科技发展和用户体验的升级，改造零售业形态。

大零售的数据除了从客户的消费习惯、搜索习惯中获得，从呼叫中心的客户反馈中获取的信息更加地真实。但是现在的大零售呼叫中心异构数据源中的业务数据海量，无法得到有效整合。

发明内容

本发明的目的在于提供一种大零售呼叫中心异构数据源数据处理方法及装置，通过改变了大零售呼叫中心语音文件从传统NAS存储方式转向对象存储方式，同时通过整合文本文件、语音文件两种不同数据类型和结构的数据，进行语音识别、内容抽取、数据关联等操作后，提供异构数据源的高级检索功能用于有效整合异构数据源中的海量业务数据，分析挖掘，基于用户行为分析实现精确营销。

第一方面，本发明实施例提供了一种大零售呼叫中心异构数据源数据处理方法，包括：

获取后端NAS存储数据，并通过SDK将所述后端NAS存储数据平滑过渡到对象存储系统，并获取客户信息，生成客户文本文件，其中，所述客户信息包括客户姓名、手机号码、家庭号码、工作号码、证件类型或证件号码中的一种或多种；

获取语音信息，并上传至数据处理平台进行分析处理；其中，上传至数据处理平台进行分析处理，包括：

基于LSTM网络将所述语音信息中的语音内容识别为语音文本文件，所述语音信息是从呼叫中心系统采集得来的；

基于客户号和来电号码关联客户文本文件和语音文本文件，并生成合并文本文件，其中，所述合并文本文件包括客户号、手机号码、家庭号码、工作号码、证件类型、证件号码、客户名称、呼叫编号、语音导航内容、语音内容、呼入时间、开始时间或结束时间的文本文件中的一种或多种；

获取所述合并文本文件，解析所述合并文本文件，并根据解析后的文本内容和音频文件上的标签，生成客户一次通话记录信息的元数据信息，并上传至对象存储系统；

获取元数据信息内的文本内容和音频文件，根据客户输入的检索信息，输出对应的文本内容和关联的音频文件。

在一实施方式中，所述获取语音信息，并上传至数据处理平台进行分析处理之前，所述方法还包括：

将所述语音信息根据客户号和来电号码打上标签。

在一实施方式中，获取元数据信息内的文本内容和音频文件，根据客户输入的检索信息，输出对应的文本内容和关联的音频文件，其中，根据客户输入的检索信息，包括：

根据客户输入的关键字检索信息或逻辑关系检索信息中的一种或两种。

在一实施方式中，基于LSTM网络将所述语音信息中的语音内容识别为语音文本文件，包括：

所述语音内容内的wav格式音频的每一帧进入LSTM神经网络时，携带第一个目标特征值，第一个目标特征值与LSTM神经网络内的特征值进行计算，输出语音特征值，将多个帧获得的语音特征值合并且对合并结果进行文字与语音比对结果校验与分析得到语音对应的文字信息。

第二方面，本发明实施例提供一种大零售呼叫中心异构数据源数据处理装置，包括对象存储系统、SDK模块、数据采集模块、标记模块、语音识别模块、关联模块、解析模块和检索模块，所述SDK模块与所述对象存储系统连接，所述数据采集模块与所述标记模块连接，所述标记模块与所述语音识别模块连接，所述关联模块与所述SDK模块、所述语音识别模块和所述解析模块均连接，所述检索模块与所述解析模块连接；

所述对象存储系统，用于存储处理数据；

所述SDK模块，用于将后端NAS存储平滑过渡到所述对象存储系统，并获取客户信息，生成客户文本文件；

所述数据采集模块，用于从呼叫中心系统采集语音信息；

所述标记模块，用于将语音信息进行标记上传至数据服务平台；

所述语音识别模块，用于基于LSTM网络将所述语音信息中的语音内容识别为语音文本文件；

所述关联模块，用于基于客户号和来电号码关联客户文本文件和语音文本文件，并生成合并文本文件；

所述解析模块，用于解析合并文本文件，生成客户一次通话记录信息的元数据信息；

所述检索模块，用于根据所述元数据信息实现全文索引。

在一实施方式中，所述检索模块包括模糊检索模块和高级检索模块，所述模糊检索模块，用于通过关键词检索客户信息和语言内容；

所述高级检索模块，用于用户自定义索引标签，根据逻辑关系进行组合检索。

第三方面，本发明实施例提供了一种终端，包括处理器、用户接口和存储器，所述处理器、所述用户接口和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面任一项的所述大零售呼叫中心异构数据源数据处理方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面任一项的所述大零售呼叫中心异构数据源数据处理方法。

本发明的一种大零售呼叫中心异构数据源数据处理方法及装置，通过SDK 将后端NAS存储数据平滑过渡到对象存储系统，并生成客户文本文件；基于LSTM网络将语音信息中的语音内容识别为语音文本文件；基于客户号和来电号码关联客户文本文件和语音文本文件，并生成合并文本文件；解析合并文本文件，并根据解析后的文本内容和音频文件上的标签，生成客户一次通话记录信息的元数据信息，并上传至对象存储系统；根据客户输入的检索信息，输出对应的文本内容和关联的音频文件，用于有效整合异构数据源中的海量业务数据，分析挖掘，基于用户行为分析实现精确营销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种大零售呼叫中心异构数据源数据处理方法的流程示意图；

图2是本发明实施例提供的一种大零售呼叫中心异构数据源数据处理装置的结构示意图；

图3是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

为更好地理解本发明实施例，先对其所涉及的相关概念做如下说明：

SDK是软件开发工具包，是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。

请参与图1，图1是本发明实施例提供的一种大零售呼叫中心异构数据源数据处理方法的流程示意图。具体的，如图1所示，所述大零售呼叫中心异构数据源数据处理方法可以包括以下步骤：

S101、获取后端NAS存储数据，并通过SDK将所述后端NAS存储数据平滑过渡到对象存储系统，并获取客户信息，生成客户文本文件。

本发明实施例中，不同的业务系统数据通过IBM Filenet接口传输数据，通过SDK将对象存储Amazon S3的存储接口，转换为兼容IBM Filenet接口的形式，使用户原有业务的后端NAS存储平滑过渡到对象存储，无缝对接原有业务系统，无需修改原有业务的client端调用代码，只需更改导入的jar包，即可正常工作。IBM Filenet在第一次连接时，需要对用户名和密码进行校验，校验成功后会在客户端内保存校验通过的信息，以后的每次请求都将带着这个校验通过信息。这个信息时效较长，能保证用户在后续的操作中无需进行再次校验。为了满足Filenet连接特性，SDK采用将用户名和密码保存在连接对象中，每次连接时都利用该对象进行校验，这样可以保证连接不会出现超时或失效的情况，同时以后每次读写请求操作不需再次传入校验。IBM Filenet数据包括Domain、 ObjectStore、Folder、Document，而对象存储中只有Bucket和Object。为了实现对象存储的中的S3数据结构与IBMFilenet数据结构更好的衔接，将S3中的 Bucket与IBM Filenet中的ObjectStore建立一一对应关系，每个Object对应 Document和Folder以及Document中的每个文件。为了实现业务系统对存储在对象存储中的数据进行操作，通过SDK将S3接口转换为兼容Filenet接口形式。数据操作包括：创建、上传、下载、删除、重命名、查询等。通过SDK将数据存储至对象存储系统的同时，将从业务系统中抽取的客户信息发送数据服务平台。所述客户信息包括：客户姓名、手机号码、家庭号码、工作号码、证件类型、证件号码等。最后生成客户文本文件。

S102、获取语音信息，基于LSTM网络将所述语音信息中的语音内容识别为语音文本文件。

本发明实施例中，获取语音信息，将所述语音信息根据客户号和来电号码打上标签。所述语音信息是从呼叫中心系统采集得来的，呼叫中心系统，当客户拨打客服热线并使用语音导航自助服务流程时，每一条语音导航会生成一个.wav音频文件并保存在呼叫中心系统语音平台的语音文件目录里。所述语音内容内的wav格式音频的每一帧进入LSTM神经网络时，携带第一个目标特征值，第一个目标特征值与LSTM神经网络内的特征值进行计算，输出语音特征值，将多个帧获得的语音特征值合并且对合并结果进行文字与语音比对结果校验与分析得到语音对应的文字信息，克服了方言、发音不全、有背景噪音等问题。

具体为基于深度学习的语音识别技术。语音识别采用的深度学习架构是 LSTM网络，LSTM网络(长短期记忆深度学习网络)，是一种特殊的RNN(循环神经网络)神经网络，这个网络可以极大避免RNN网络在上下文(在音频中，上下文指的是音频文件的帧)学习中造成的前后关联过密从而导致在输出结果错误的情况，因LSTM存在“遗忘”功能，在该神经网络进行训练的时候减轻距离近的前后文联系，加强距离远的前后文联系，在进行新输入的识别时，更有机会从更多的前后文中进行预测。例如当wav格式音频的每一帧进入LSTM 神经网络的时候都会携带13个特征值，这十三个特征值会在LSTM神经网络中与前面进入的神经网络的特征值进行计算，从而获得一个输出结果，这个输出结果就是这一帧语音的特征值，再将多个帧获得的特征值合并且对合并结果进行文字与语音比对结果校验与分析就可以获得语音对应的文字信息。

S103、基于客户号和来电号码关联客户文本文件和语音文本文件，并生成合并文本文件。

本发明实施例中，在T+1日通过客户号和来电号码关联T日语音文本文件，同时识别语音文本文件中的语音内容，并与SDK获取到的客户信息合并，生成合并文本文件，所述合并文本文件包括客户号、手机号码、家庭号码、工作号码、证件类型、证件号码、客户名称、呼叫编号、语音导航内容、语音内容、呼入时间、开始时间或结束时间的文本文件中的一种或多种。由于语音信息是每天定时一次性提供，一次性会有大量语音信息需要进行语音内容识别，这会导致大量处理请求积压，影响系统性能。为了解决这个问题，将处理音频文件的压力平滑到一天中的每个时段，音频分析与识别的压力也被同时平滑处理。从呼叫中心系统中获取语音信息，把每个语音信息的语音内容识别为对应文本。所述文本文件和所述语音文本文件的关联是基于异构数据源实现的，异构数据源中的数据源包括文本文件源和音频文件源。两种数据的类型不一样，但是通过在两者之间建立关联关系，使得这两种类型的文件之间有着信息的联系。通过特定的方式将有密切关系的两种不同数据类型的信息联系在一起并且构造成一种有关联属性的新式数据结构，称为“异构”。异构的特点包括：异构不会改变原本数据，原始的数据不会因为信息关联而改变任何内容，异构功能会通过建立元数据关联来记录不同的数据之间的联系；异构的数据具有兼容多种数据格式的优势；异构功能建立的元数据关联(不同数据的关联信息)需要有单独系统进行维护。

S104、获取所述合并文本文件，解析所述合并文本文件，并根据解析后的文本内容和音频文件上的标签，生成客户一次通话记录信息的元数据信息，并上传至对象存储系统。

本发明实施例中，数据服务平台，对获取到的合并文本文件进行解析，解析成以客户的一次通话记录作为一个文本文件，文本内容包括客户信息和语音信息，数据服务平台会抽取每个解析后的文本内容和音频文件上的标签，即语音文件唯一标识符，生成客户一次通话记录对应的一条元数据信息，此时，客户文本文件和语音文本文件已成功建立关联关系。数据服务平台将经过分析后的元数据信息和打上标签的语音文本文件上传至对象存储系统，同时元数据信息会被更新至数据服务平台的数据索引模块，并建立键值对，实现数据索引、排序、聚合查询等功能。

S105、获取元数据信息内的文本内容和音频文件，根据客户输入的检索信息，输出对应的文本内容和关联的音频文件。

本发明实施例中，本类型的数据与语音数据结合在一起，构建了一个数据源异构。这使得在进行内容检索时，可以从文本文件中检索关键字，再从查找到的文本文件的元数据信息，获取与文本关联的语音文件。根据客户输入的检索信息，包括：根据客户输入的关键字检索信息或逻辑关系检索信息中的一种或两种。根据客户输入的关键字检索信息，会在文本文件中进行关键词匹配，将检索匹配到关键词的文本以及关联的音频都展示出来。根据客户输入的逻辑关系检索信息，支持多字段按照相应逻辑关系进行组合检索，逻辑关系包括 AND、OR、NOT三种，支持通过客户号、客户姓名、电话号码、证件类型、身份证号或语音内容进行精准匹配。索引结果展示命中关键词的所有语音文本文件，每条检索结果，支持展示客户拨打大零售呼叫中心系统产生的一条或多条语音记录，每条语音支持在线播放。语音播放需要将存储在对象存储系统的语音文本文件，下载到客户端进行播放。

本发明实施例中，通过SDK将后端NAS存储数据平滑过渡到对象存储系统，并生成客户文本文件；基于LSTM网络将语音信息中的语音内容识别为语音文本文件；基于客户号和来电号码关联客户文本文件和语音文本文件，并生成合并文本文件；解析合并文本文件，并根据解析后的文本内容和音频文件上的标签，生成客户一次通话记录信息的元数据信息，并上传至对象存储系统；根据客户输入的检索信息，输出对应的文本内容和关联的音频文件，用于有效整合异构数据源中的海量业务数据，分析挖掘，基于用户行为分析实现精确营销。

请参阅图2，是本发明实施例提供的一种大零售呼叫中心异构数据源数据处理装置200的结构示意图，包括用于执行上述大零售呼叫中心异构数据源数据处理方法的系统和模块。具体的，本发明实施例的大零售呼叫中心异构数据源数据处理装置200可以包括：对象存储系统202、SDK模块201、数据采集模块 203、标记模块204、语音识别模块205、关联模块206、解析模块207和检索模块208，所述SDK模块201与所述对象存储系统202连接，所述数据采集模块 203与所述标记模块204连接，所述标记模块204与所述语音识别模块205连接，所述关联模块206与所述SDK模块201、所述语音识别模块205和所述解析模块207均连接，所述检索模块208与所述解析模块207连接；

所述对象存储系统202，用于存储处理数据，所述对象存储系统202，替换客户原有NAS存储系统，提供海量非结构化数据存储。为了提高对象存储系统 202Bucket存储Object的数量以及提高海量小文件读写性能，采用海量小文件合并方案，可以设置小文件的基本阈值以及小文件合并大文件的大小，从而解决 Object数量限制和小文件读写性能问题。

所述SDK模块201，用于将后端NAS存储平滑过渡到所述对象存储系统 202，并获取客户信息，生成客户文本文件，具体为通过SDK实现在IBM Filenet 和对象存储Amazon S3两者之间的衔接。SDK将Amazon S3的存储接口，转换为兼容Filenet接口的形式，使用户原有业务的后端NAS存储平滑过渡到对象存储，无缝对接原有业务系统，无需修改原有业务的client端调用代码，只需更改导入的jar包，即可正常工作；

所述数据采集模块203，用于从呼叫中心系统采集语音信息，具体为定时收集T日所有语音信息；

所述标记模块204，用于将语音信息进行标记上传至数据服务平台；具体为于T+1日将收集到的语音信息打上标签上传至数据服务平台；

所述语音识别模块205，用于基于LSTM网络将所述语音信息中的语音内容识别为语音文本文件；

所述关联模块206，用于基于客户号和来电号码关联客户文本文件和语音文本文件，并生成合并文本文件；

所述解析模块207，用于解析合并文本文件，生成客户一次通话记录信息的元数据信息；

所述检索模块208，用于根据所述元数据信息实现全文索引。

在一实施方式中，所述检索模块208包括模糊检索模块208和高级检索模块208，所述模糊检索模块208，用于通过关键词检索客户信息和语言内容；所述模糊检索模块208提供了关键词检索，会在文本文件中进行关键词匹配，将检索匹配到关键词的文本以及关联的音频文件都展示出来。

所述高级检索模块208，用于用户自定义索引标签，根据逻辑关系进行组合检索。所述高级检索模块208提供自定义关键词以及逻辑关系检索的功能，这个功能提供高精度的检索匹配，进行带有逻辑处理的内容查找，逻辑处理有但不仅限于“与、或、非”这些逻辑处理内容。在处理中可以在关键词之间添加“与或非”逻辑来达到检索精度的提高。在查找到相关的文本后会通过元数据关联找到对应音频文件。

具体的，所述大零售呼叫中心异构数据源数据处理装置200可通过上述系统和模块实现上述图1所示实施例中的大零售呼叫中心异构数据源数据处理方法中的部分或全部步骤，应理解，本发明实施例是对应方法实施例的装置实施例，对方法实施例的描述，也适用于本发明实施例。

请参阅图3，图3是是本发明实施例提供的一种终端300的结构示意图。所述终端300用于执行上述的方法。如图3所示，本实施例中的终端300可以包括：一个或多个处理器301和存储器303。可选的，所述终端300还可包括一个或多个用户接口302。上述处理器301、用户接口302和存储器303可通过总线 304连接，或者可以通过其他方式连接，图3中以总线304方式进行示例说明。

其中，所述处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器301、数字信号处理器301(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器301可以是微处理器301或者该处理器301也可以是任何常规的处理器301等。

所述用户接口302可用于收发信息或信令的交互，以及信号的接收和传递，用户接口302可包括接收器和发射器，用于与其他设备进行通信。所述存储器 303可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的存储程序(比如文字存储功能、位置存储功能等)；存储数据区可存储根据终端300的使用所创建的数据(比如图像数据、文字数据) 等，并可以包括应用存储程序等。此外，存储器303可以包括高速随机存取存储器303，还可以包括非易失性存储器303，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述存储器303还用于存储程序指令。所述处理器301可以调用上述存储器303存储的程序指令，实现如本发明实施例所示的大零售呼叫中心异构数据源数据处理方法。

其中，处理器301可用于调用所述程序指令执行以下步骤：获取后端NAS 存储数据，并通过SDK将所述后端NAS存储数据平滑过渡到对象存储系统202，并获取客户信息，生成客户文本文件，其中，所述客户信息包括客户姓名、手机号码、家庭号码、工作号码、证件类型或证件号码中的一种或多种；

获取所述合并文本文件，解析所述合并文本文件，并根据解析后的文本内容和音频文件上的标签，生成客户一次通话记录信息的元数据信息，并上传至对象存储系统202；

在一实施方式中，所述获取语音信息，并上传至数据处理平台进行分析处理之前，处理器301可用于调用所述程序指令执行以下步骤：将所述语音信息根据客户号和来电号码打上标签。

在一实施方式中，基于LSTM网络将所述语音信息中的语音内容识别为语音文本文件，处理器301可用于调用所述程序指令执行以下步骤：所述语音内容内的wav格式音频的每一帧进入LSTM神经网络时，携带第一个目标特征值，第一个目标特征值与LSTM神经网络内的特征值进行计算，输出语音特征值，将多个帧获得的语音特征值合并且对合并结果进行文字与语音比对结果校验与分析得到语音对应的文字信息。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器301执行时可实现图1所对应实施例中描述的大零售呼叫中心异构数据源数据处理方法中的部分或全部步骤，也可实现本发明图2所示实施例的大零售呼叫中心异构数据源数据处理装置200的功能，也可实现本发明图3所示实施例的终端的功能，此处不赘述。

所述计算机可读存储介质可以是前述实施例所述大零售呼叫中心异构数据源数据处理装置200或者终端300的内部存储单元，例如大零售呼叫中心异构数据源数据处理装置200或者终端300的硬盘或内存。所述计算机可读存储介质也可以是所述大零售呼叫中心异构数据源数据处理装置200或者终端300的外部存储设备，例如所述大零售呼叫中心异构数据源数据处理装置200或者终端300上配备的插接式硬盘，智能存储卡(Smart MediaCard，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法中的部分或全部步骤。

在本申请中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和 B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种大零售呼叫中心异构数据源数据处理方法，其特征在于，包括：

2.如权利要求1所述的大零售呼叫中心异构数据源数据处理方法，其特征在于，获取语音信息，并上传至数据处理平台进行分析处理之前，所述方法还包括：

将所述语音信息根据客户号和来电号码打上标签。

3.如权利要求1所述的大零售呼叫中心异构数据源数据处理方法，其特征在于，获取元数据信息内的文本内容和音频文件，根据客户输入的检索信息，输出对应的文本内容和关联的音频文件，其中，根据客户输入的检索信息，包括：

4.如权利要求1所述的大零售呼叫中心异构数据源数据处理方法，其特征在于，基于LSTM网络将所述语音信息中的语音内容识别为语音文本文件，包括：

5.一种大零售呼叫中心异构数据源数据处理装置，其特征在于，

包括对象存储系统、SDK模块、数据采集模块、标记模块、语音识别模块、关联模块、解析模块和检索模块，所述SDK模块与所述对象存储系统连接，所述数据采集模块与所述标记模块连接，所述标记模块与所述语音识别模块连接，所述关联模块与所述SDK模块、所述语音识别模块和所述解析模块均连接，所述检索模块与所述解析模块连接；

所述对象存储系统，用于存储处理数据；

所述数据采集模块，用于从呼叫中心系统采集语音信息；

所述检索模块，用于根据所述元数据信息实现全文索引。

6.如权利要求5所述的大零售呼叫中心异构数据源数据处理装置，其特征在于，

所述检索模块包括模糊检索模块和高级检索模块，所述模糊检索模块，用于通过关键词检索客户信息和语言内容；