CN109410953A

CN109410953A - 一种多媒体竖式播放系统

Info

Publication number: CN109410953A
Application number: CN201811577196.5A
Authority: CN
Inventors: 周骥; 徐莎; 吴义君; 冯亚洲; 张顺龙; 李长春; 李彤; 方锦文; 樊萍
Original assignee: Shanghai Dixi Technology Co Ltd
Current assignee: Shanghai Dixi Technology Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-03-01

Abstract

本发明提供一种多媒体竖式播放系统，包括：网络交换机、录音系统、语音引擎，所述网络交换机将语音和数据镜像到录音系统，录音系统将生成的来去话记录转发给语音引擎，语音引擎将来去话识别成对应的文本内容，所述录音系统包括录音及存储模块、录音转发模块，所述语音引擎包括全文转写模块。本发明利用语音分析引擎实现非结构化的语音文件到结构化的文本信息的转换，通过点击文字实现语音播放位置的自由切换及快速定位，可视化测听界面中可以实现关键词高亮功能，可直观显示通话内容、关键字和情绪状态标志。

Description

一种多媒体竖式播放系统

技术领域

本发明涉及多媒体播放系统技术领域，具体为一种多媒体竖式播放系统。

背景技术

目前市面上针对呼叫中心录音或其他应用领域的录音，声音播放软件都是以横向轴作为时间轴，或者录音文字内容与横向式播放时间轴无关联显示和互动操作。随着呼叫中心应用技术及人工智能的发展，更多的客户希望通过语音识别引擎将声音转变为文字，拓展声音内容的数据挖掘。传统文字的播放也是以横向轴做时间轴播放文字，当声音与文字甚至增加视频需要同屏播放时，横向时间轴的播放就无法直观的满足用户的需要。

发明内容

本发明所解决的技术问题在于提供一种多媒体竖式播放系统，以解决上述背景技术中提出的问题。

本发明所解决的技术问题采用以下技术方案来实现：一种多媒体竖式播放系统，包括：网络交换机、录音系统、语音引擎，所述网络交换机将语音和数据镜像到录音系统，录音系统将生成的来去话记录转发给语音引擎，语音引擎将来去话识别成对应的文本内容，所述录音系统包括录音及存储模块、录音转发模块，所述语音引擎包括全文转写模块

所述录音及存储模块通过网络交换机的镜像功能，收取IP话机通话过程中产生的语音载波流和呼叫控制信令，利用服务器的CPU和内存资源，将线路的语音数据软解成用户定义的语音格式，录音系统将话音采集后，通过数字压缩处理将语音信息以数字信号方式先存储在本地硬盘上，再按设定的时间间隔自动备份到存储中心。

所述录音转发模块在录音系统上部署语音转发接口，通过转发接口将来去话分离的语音数据转发给语音引擎，语音引擎首先将分离后的语音通过声学模型转换为对应的汉语音标符号，音标信息再通过超大词汇网络的语言模型识别出最终对应的结构化文本内容，文本内容包括来去话分离的文字，时长，语速等信息，再返回给录音系统进行存储。

所述录音系统将文本信息写入智能质检系统的ES数据库中，质检系统根据检索条件对录音文本记录进行查询，并实现语音和文字的同屏展示，录音内容按对话角色区分，分段显示；语音播放时相应文字的光标伴随；关键词在对话文本中高亮显示，点击可定位调听；可以在测听过程中实现任意位置的快速定位；清晰标记坐席与客户对话时的冲突时间。

与现有技术相比，本发明的有益效果是：本发明利用语音分析引擎实现非结构化的语音文件到结构化的文本信息的转换，通过点击文字实现语音播放位置的自由切换及快速定位，可视化测听界面中可以实现关键词高亮功能，可直观显示通话内容、关键字和各种标签。

附图说明

图1为本发明的结构原理图。

图2为本发明的全文转写过程示意图。

图3为本发明的录音可视化播放效果示意图。

具体实施方式

为了使本发明的实现技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明，在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以两个元件内部的连通。

如图1～3所示，一种多媒体竖式播放系统，包括：网络交换机、录音系统、语音引擎，所述网络交换机将语音和数据镜像到录音系统，录音系统将生成的来去话记录转发给语音引擎，语音引擎将来去话识别成对应的文本内容，所述录音系统包括录音及存储模块、录音转发模块，所述语音引擎包括全文转写模块。

所述录音转发模块在录音系统上部署语音转发接口，通过转发接口将来去话分离的语音数据发给语音引擎，语音引擎首先将分离后的语音通过声学模型转换为对应的汉语音标符号，音标信息再通过超大词汇网络的语言模型识别出最终对应的结构化文本内容，文本内容包括来去话分离的文字，时长，语速等信息，再返回给录音系统进行存储。

本发明通过部署录音服务程序在服务器端，借助各种录音方式(模拟线、IP等)对通话进行录音，并且做到来去话分离录制存储；将来去话录音转发给语音分析引擎，通过声学模型转换为对应的汉语音标符号、音标信息，再通过超大词汇网络的语言模型识别出最终对应的文本内容；通过改变常见的多媒体播放水平时间轴为竖式时间轴的方式，在时间轴左右两侧分离显示来去话方文本内容，可完整清晰的展示各方通话文字内容和时间点，同时可随音频播放定位时间轴以及高亮显示对应的文字内容，点击内容也可直接定位时间轴和由此播放音频。通话声音、内容、时间轴可视化同屏展示并同步播放，可根据文本测听过程中实现任意位置的快速定位。

本发明利用语音分析引擎实现非结构化的语音文件到结构化的文本信息的转换，通过点击文字实现语音播放位置的自由切换及快速定位，可视化测听界面中可以实现关键词高亮功能，可直观显示通话内容、关键字和各种标签，辅助质检人员质检，直接定位质检问题点和出现处，缩短测听时间。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明的要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种多媒体竖式播放系统，包括：网络交换机、录音系统、语音引擎，其特征在于：所述网络交换机将语音和数据镜像到录音系统，录音系统将生成的来去话记录转发给语音引擎，语音引擎将来去话识别成对应的文本内容，所述录音系统包括录音及存储模块、录音转发模块，所述语音引擎包括全文转写模块。

2.根据权利要求1所述的一种多媒体竖式播放系统，其特征在于：所述录音及存储模块通过网络交换机的镜像功能，收取IP话机通话过程中产生的语音载波流和呼叫控制信令，利用服务器的CPU和内存资源，将线路的语音数据软解成用户定义的语音格式，录音系统将话音采集后，通过数字压缩处理将语音信息以数字信号方式先存储在本地硬盘上，再按设定的时间间隔自动备份到存储中心。

3.根据权利要求1所述的一种多媒体竖式播放系统，其特征在于：所述录音转发模块在录音系统上部署语音转发接口，通过转发接口将来去话分离的语音数据转发给语音引擎，语音引擎首先将分离后的语音通过声学模型转换为对应的汉语音标符号，音标信息再通过超大词汇网络的语言模型识别出最终对应的结构化文本内容，文本内容包括来去话分离的文字，时长，语速等信息，再返回给录音系统进行存储。

4.根据权利要求1所述的一种多媒体竖式播放系统，其特征在于：所述录音系统将文本信息写入智能质检系统的ES数据库中，质检系统根据检索条件对录音文本记录进行查询，并实现语音和文字的同屏展示，录音内容按对话角色区分，分段显示；语音播放时相应文字的光标伴随；关键词在对话文本中高亮显示，点击可定位调听；可以在测听过程中实现任意位置的快速定位；清晰标记坐席与客户对话时的冲突时间。