CN109410953A - 一种多媒体竖式播放系统 - Google Patents
一种多媒体竖式播放系统 Download PDFInfo
- Publication number
- CN109410953A CN109410953A CN201811577196.5A CN201811577196A CN109410953A CN 109410953 A CN109410953 A CN 109410953A CN 201811577196 A CN201811577196 A CN 201811577196A CN 109410953 A CN109410953 A CN 109410953A
- Authority
- CN
- China
- Prior art keywords
- recording
- text
- voice
- recording system
- speech engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012076 audiometry Methods 0.000 claims abstract description 8
- 238000013518 transcription Methods 0.000 claims abstract description 5
- 230000035897 transcription Effects 0.000 claims abstract description 5
- 238000007689 inspection Methods 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 7
- 230000011664 signaling Effects 0.000 claims description 6
- 235000021167 banquet Nutrition 0.000 claims description 3
- 230000006854 communication Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 abstract description 3
- 238000012800 visualization Methods 0.000 abstract description 2
- 230000002996 emotional effect Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42221—Conversation recording systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种多媒体竖式播放系统,包括:网络交换机、录音系统、语音引擎,所述网络交换机将语音和数据镜像到录音系统,录音系统将生成的来去话记录转发给语音引擎,语音引擎将来去话识别成对应的文本内容,所述录音系统包括录音及存储模块、录音转发模块,所述语音引擎包括全文转写模块。本发明利用语音分析引擎实现非结构化的语音文件到结构化的文本信息的转换,通过点击文字实现语音播放位置的自由切换及快速定位,可视化测听界面中可以实现关键词高亮功能,可直观显示通话内容、关键字和情绪状态标志。
Description
技术领域
本发明涉及多媒体播放系统技术领域,具体为一种多媒体竖式播放系统。
背景技术
目前市面上针对呼叫中心录音或其他应用领域的录音,声音播放软件都是以横向轴作为时间轴,或者录音文字内容与横向式播放时间轴无关联显示和互动操作。随着呼叫中心应用技术及人工智能的发展,更多的客户希望通过语音识别引擎将声音转变为文字,拓展声音内容的数据挖掘。传统文字的播放也是以横向轴做时间轴播放文字,当声音与文字甚至增加视频需要同屏播放时,横向时间轴的播放就无法直观的满足用户的需要。
发明内容
本发明所解决的技术问题在于提供一种多媒体竖式播放系统,以解决上述背景技术中提出的问题。
本发明所解决的技术问题采用以下技术方案来实现:一种多媒体竖式播放系统,包括:网络交换机、录音系统、语音引擎,所述网络交换机将语音和数据镜像到录音系统,录音系统将生成的来去话记录转发给语音引擎,语音引擎将来去话识别成对应的文本内容,所述录音系统包括录音及存储模块、录音转发模块,所述语音引擎包括全文转写模块
所述录音及存储模块通过网络交换机的镜像功能,收取IP话机通话过程中产生的语音载波流和呼叫控制信令,利用服务器的CPU和内存资源,将线路的语音数据软解成用户定义的语音格式,录音系统将话音采集后,通过数字压缩处理将语音信息以数字信号方式先存储在本地硬盘上,再按设定的时间间隔自动备份到存储中心。
所述录音转发模块在录音系统上部署语音转发接口,通过转发接口将来去话分离的语音数据转发给语音引擎,语音引擎首先将分离后的语音通过声学模型转换为对应的汉语音标符号,音标信息再通过超大词汇网络的语言模型识别出最终对应的结构化文本内容,文本内容包括来去话分离的文字,时长,语速等信息,再返回给录音系统进行存储。
所述录音系统将文本信息写入智能质检系统的ES数据库中,质检系统根据检索条件对录音文本记录进行查询,并实现语音和文字的同屏展示,录音内容按对话角色区分,分段显示;语音播放时相应文字的光标伴随;关键词在对话文本中高亮显示,点击可定位调听;可以在测听过程中实现任意位置的快速定位;清晰标记坐席与客户对话时的冲突时间。
与现有技术相比,本发明的有益效果是:本发明利用语音分析引擎实现非结构化的语音文件到结构化的文本信息的转换,通过点击文字实现语音播放位置的自由切换及快速定位,可视化测听界面中可以实现关键词高亮功能,可直观显示通话内容、关键字和各种标签。
附图说明
图1为本发明的结构原理图。
图2为本发明的全文转写过程示意图。
图3为本发明的录音可视化播放效果示意图。
具体实施方式
为了使本发明的实现技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明,在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以两个元件内部的连通。
如图1~3所示,一种多媒体竖式播放系统,包括:网络交换机、录音系统、语音引擎,所述网络交换机将语音和数据镜像到录音系统,录音系统将生成的来去话记录转发给语音引擎,语音引擎将来去话识别成对应的文本内容,所述录音系统包括录音及存储模块、录音转发模块,所述语音引擎包括全文转写模块。
所述录音及存储模块通过网络交换机的镜像功能,收取IP话机通话过程中产生的语音载波流和呼叫控制信令,利用服务器的CPU和内存资源,将线路的语音数据软解成用户定义的语音格式,录音系统将话音采集后,通过数字压缩处理将语音信息以数字信号方式先存储在本地硬盘上,再按设定的时间间隔自动备份到存储中心。
所述录音转发模块在录音系统上部署语音转发接口,通过转发接口将来去话分离的语音数据发给语音引擎,语音引擎首先将分离后的语音通过声学模型转换为对应的汉语音标符号,音标信息再通过超大词汇网络的语言模型识别出最终对应的结构化文本内容,文本内容包括来去话分离的文字,时长,语速等信息,再返回给录音系统进行存储。
所述录音系统将文本信息写入智能质检系统的ES数据库中,质检系统根据检索条件对录音文本记录进行查询,并实现语音和文字的同屏展示,录音内容按对话角色区分,分段显示;语音播放时相应文字的光标伴随;关键词在对话文本中高亮显示,点击可定位调听;可以在测听过程中实现任意位置的快速定位;清晰标记坐席与客户对话时的冲突时间。
本发明通过部署录音服务程序在服务器端,借助各种录音方式(模拟线、IP等)对通话进行录音,并且做到来去话分离录制存储;将来去话录音转发给语音分析引擎,通过声学模型转换为对应的汉语音标符号、音标信息,再通过超大词汇网络的语言模型识别出最终对应的文本内容;通过改变常见的多媒体播放水平时间轴为竖式时间轴的方式,在时间轴左右两侧分离显示来去话方文本内容,可完整清晰的展示各方通话文字内容和时间点,同时可随音频播放定位时间轴以及高亮显示对应的文字内容,点击内容也可直接定位时间轴和由此播放音频。通话声音、内容、时间轴可视化同屏展示并同步播放,可根据文本测听过程中实现任意位置的快速定位。
本发明利用语音分析引擎实现非结构化的语音文件到结构化的文本信息的转换,通过点击文字实现语音播放位置的自由切换及快速定位,可视化测听界面中可以实现关键词高亮功能,可直观显示通话内容、关键字和各种标签,辅助质检人员质检,直接定位质检问题点和出现处,缩短测听时间。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明的要求保护范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种多媒体竖式播放系统,包括:网络交换机、录音系统、语音引擎,其特征在于:所述网络交换机将语音和数据镜像到录音系统,录音系统将生成的来去话记录转发给语音引擎,语音引擎将来去话识别成对应的文本内容,所述录音系统包括录音及存储模块、录音转发模块,所述语音引擎包括全文转写模块。
2.根据权利要求1所述的一种多媒体竖式播放系统,其特征在于:所述录音及存储模块通过网络交换机的镜像功能,收取IP话机通话过程中产生的语音载波流和呼叫控制信令,利用服务器的CPU和内存资源,将线路的语音数据软解成用户定义的语音格式,录音系统将话音采集后,通过数字压缩处理将语音信息以数字信号方式先存储在本地硬盘上,再按设定的时间间隔自动备份到存储中心。
3.根据权利要求1所述的一种多媒体竖式播放系统,其特征在于:所述录音转发模块在录音系统上部署语音转发接口,通过转发接口将来去话分离的语音数据转发给语音引擎,语音引擎首先将分离后的语音通过声学模型转换为对应的汉语音标符号,音标信息再通过超大词汇网络的语言模型识别出最终对应的结构化文本内容,文本内容包括来去话分离的文字,时长,语速等信息,再返回给录音系统进行存储。
4.根据权利要求1所述的一种多媒体竖式播放系统,其特征在于:所述录音系统将文本信息写入智能质检系统的ES数据库中,质检系统根据检索条件对录音文本记录进行查询,并实现语音和文字的同屏展示,录音内容按对话角色区分,分段显示;语音播放时相应文字的光标伴随;关键词在对话文本中高亮显示,点击可定位调听;可以在测听过程中实现任意位置的快速定位;清晰标记坐席与客户对话时的冲突时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811577196.5A CN109410953A (zh) | 2018-12-21 | 2018-12-21 | 一种多媒体竖式播放系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811577196.5A CN109410953A (zh) | 2018-12-21 | 2018-12-21 | 一种多媒体竖式播放系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109410953A true CN109410953A (zh) | 2019-03-01 |
Family
ID=65461168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811577196.5A Pending CN109410953A (zh) | 2018-12-21 | 2018-12-21 | 一种多媒体竖式播放系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109410953A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111263009A (zh) * | 2020-01-17 | 2020-06-09 | 北京三快在线科技有限公司 | 电话录音的质检方法、装置、设备及介质 |
CN111787168A (zh) * | 2020-06-28 | 2020-10-16 | 上海安录宇高数据技术有限公司 | 一种基于人工智能技术的语音识别质检分配方法 |
CN112188011A (zh) * | 2019-07-04 | 2021-01-05 | 北京航天长峰科技工业集团有限公司 | 一种基于语音识别的呼叫中心质检考核方法 |
CN112287162A (zh) * | 2020-10-27 | 2021-01-29 | 维沃移动通信有限公司 | 消息搜索方法、装置和电子设备 |
CN113571061A (zh) * | 2020-04-28 | 2021-10-29 | 阿里巴巴集团控股有限公司 | 语音转写文本编辑系统、方法、装置及设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285212A (ja) * | 2006-02-14 | 2006-10-19 | Mitsubishi Electric Information Systems Corp | オペレータ業務支援システムとしてコンピュータを機能させるためのプログラム |
CN101119266A (zh) * | 2007-08-31 | 2008-02-06 | 烽火通信科技股份有限公司 | 一种移动终端结合家庭网关控制多媒体播放的方法和系统 |
US20090099845A1 (en) * | 2007-10-16 | 2009-04-16 | Alex Kiran George | Methods and system for capturing voice files and rendering them searchable by keyword or phrase |
CN102082879A (zh) * | 2009-11-27 | 2011-06-01 | 华为技术有限公司 | 呼叫中心语音检测的方法、装置及系统 |
CN103929555A (zh) * | 2014-04-28 | 2014-07-16 | 广东佳和通信技术有限公司 | 一种ip录音系统语音流镜像方法 |
CN105653729A (zh) * | 2016-01-28 | 2016-06-08 | 努比亚技术有限公司 | 一种录音文件索引的装置及方法 |
CN105681532A (zh) * | 2016-03-07 | 2016-06-15 | 上海携程商务有限公司 | 基于Softpbx的呼叫中心的录音系统及方法 |
CN106024009A (zh) * | 2016-04-29 | 2016-10-12 | 北京小米移动软件有限公司 | 音频处理方法及装置 |
CN106448683A (zh) * | 2016-09-30 | 2017-02-22 | 珠海市魅族科技有限公司 | 查看多媒体文件中录音的方法及装置 |
CN106981291A (zh) * | 2017-03-30 | 2017-07-25 | 上海航动科技有限公司 | 一种基于语音识别的智能核单质检系统 |
-
2018
- 2018-12-21 CN CN201811577196.5A patent/CN109410953A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285212A (ja) * | 2006-02-14 | 2006-10-19 | Mitsubishi Electric Information Systems Corp | オペレータ業務支援システムとしてコンピュータを機能させるためのプログラム |
CN101119266A (zh) * | 2007-08-31 | 2008-02-06 | 烽火通信科技股份有限公司 | 一种移动终端结合家庭网关控制多媒体播放的方法和系统 |
US20090099845A1 (en) * | 2007-10-16 | 2009-04-16 | Alex Kiran George | Methods and system for capturing voice files and rendering them searchable by keyword or phrase |
CN102082879A (zh) * | 2009-11-27 | 2011-06-01 | 华为技术有限公司 | 呼叫中心语音检测的方法、装置及系统 |
CN103929555A (zh) * | 2014-04-28 | 2014-07-16 | 广东佳和通信技术有限公司 | 一种ip录音系统语音流镜像方法 |
CN105653729A (zh) * | 2016-01-28 | 2016-06-08 | 努比亚技术有限公司 | 一种录音文件索引的装置及方法 |
CN105681532A (zh) * | 2016-03-07 | 2016-06-15 | 上海携程商务有限公司 | 基于Softpbx的呼叫中心的录音系统及方法 |
CN106024009A (zh) * | 2016-04-29 | 2016-10-12 | 北京小米移动软件有限公司 | 音频处理方法及装置 |
CN106448683A (zh) * | 2016-09-30 | 2017-02-22 | 珠海市魅族科技有限公司 | 查看多媒体文件中录音的方法及装置 |
CN106981291A (zh) * | 2017-03-30 | 2017-07-25 | 上海航动科技有限公司 | 一种基于语音识别的智能核单质检系统 |
Non-Patent Citations (1)
Title |
---|
张霄军 等: "《计算机辅助翻译理论与实践》", 31 July 2013, 陕西师范大学出版总社有限公司 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112188011A (zh) * | 2019-07-04 | 2021-01-05 | 北京航天长峰科技工业集团有限公司 | 一种基于语音识别的呼叫中心质检考核方法 |
CN111263009A (zh) * | 2020-01-17 | 2020-06-09 | 北京三快在线科技有限公司 | 电话录音的质检方法、装置、设备及介质 |
CN111263009B (zh) * | 2020-01-17 | 2022-03-18 | 北京三快在线科技有限公司 | 电话录音的质检方法、装置、设备及介质 |
CN113571061A (zh) * | 2020-04-28 | 2021-10-29 | 阿里巴巴集团控股有限公司 | 语音转写文本编辑系统、方法、装置及设备 |
CN111787168A (zh) * | 2020-06-28 | 2020-10-16 | 上海安录宇高数据技术有限公司 | 一种基于人工智能技术的语音识别质检分配方法 |
CN111787168B (zh) * | 2020-06-28 | 2024-09-06 | 上海安录宇高数据技术有限公司 | 一种基于人工智能技术的语音识别质检分配方法 |
CN112287162A (zh) * | 2020-10-27 | 2021-01-29 | 维沃移动通信有限公司 | 消息搜索方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410953A (zh) | 一种多媒体竖式播放系统 | |
US8886011B2 (en) | System and method for question detection based video segmentation, search and collaboration in a video processing environment | |
US11350178B2 (en) | Content providing server, content providing terminal and content providing method | |
WO2023011094A1 (zh) | 视频编辑方法、装置、电子设备以及存储介质 | |
US8528018B2 (en) | System and method for evaluating visual worthiness of video data in a network environment | |
US10192544B2 (en) | Method and system for constructing a language model | |
WO2020238209A1 (zh) | 音频处理的方法、系统及相关设备 | |
US20190221214A1 (en) | Visualization of audio announcements using augmented reality | |
JP2023539820A (ja) | インタラクティブ情報処理方法、装置、機器、及び媒体 | |
US20120030244A1 (en) | System and method for visualization of tag metadata associated with a media event | |
JP2021131528A (ja) | ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
WO2015030962A1 (en) | Providing an electronic summary of source content | |
CN113259740A (zh) | 一种多媒体处理方法、装置、设备及介质 | |
CN105446146A (zh) | 基于语义分析的智能终端控制方法、系统及智能终端 | |
US20220353101A1 (en) | Automated Recording Highlights For Conferences | |
US7827297B2 (en) | Multimedia linking and synchronization method, presentation and editing apparatus | |
US11405227B2 (en) | Smart query buffering mechanism | |
CN113552984A (zh) | 文本提取方法、装置、设备及介质 | |
CN116070020A (zh) | 基于知识图谱的食材推荐方法、设备及存储介质 | |
CN110245334B (zh) | 用于输出信息的方法和装置 | |
CN111246024A (zh) | 一种通话过程中的互动点播交互方法、系统及装置 | |
US11899716B2 (en) | Content providing server, content providing terminal, and content providing method | |
US20220019803A1 (en) | Method and apparatus for analyzing video scenario | |
CN113014853B (zh) | 互动信息处理方法、装置、电子设备及存储介质 | |
CN111787167A (zh) | 一种基于人工智能技术的语音识别打标分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 201107 room 607, No.2 Lane 268, Taihong Road, Minhang District, Shanghai Applicant after: Shanghai anluyu high data Technology Co.,Ltd. Address before: 201107 room 607, No.2 Lane 268, Taihong Road, Minhang District, Shanghai Applicant before: SHANGHAI DIXI TECHNOLOGY Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |