CN106412678A - 一种视频新闻实时转写存储方法及系统 - Google Patents

一种视频新闻实时转写存储方法及系统 Download PDF

Info

Publication number
CN106412678A
CN106412678A CN201610826198.8A CN201610826198A CN106412678A CN 106412678 A CN106412678 A CN 106412678A CN 201610826198 A CN201610826198 A CN 201610826198A CN 106412678 A CN106412678 A CN 106412678A
Authority
CN
China
Prior art keywords
video
news
local client
file
word message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610826198.8A
Other languages
English (en)
Inventor
虞焰兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Voice Communication Information Technology Co Ltd
Original Assignee
Anhui Voice Communication Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Voice Communication Information Technology Co Ltd filed Critical Anhui Voice Communication Information Technology Co Ltd
Priority to CN201610826198.8A priority Critical patent/CN106412678A/zh
Publication of CN106412678A publication Critical patent/CN106412678A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4351Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reassembling additional data, e.g. rebuilding an executable program from recovered modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams

Abstract

本发明公开了一种视频新闻实时转写存储系统,通过本地客户端将直播视频流转换为视频文件存储,并提取其中的音频文件,发送到语音识别服务器进行转写,得到文字信息返回到本地客户端,本地客户端将接收到的文字信息与视频文件进行合成,生成带字幕的视频文件,供用户查看,使无法及时观看新闻直播的用户可在空闲时观看,并且提供字幕,方便聋哑人阅读新闻;同时,本地客户端将文字信息单独保存为文本文件,存储在本地硬盘内,供用户查阅,为没有时间观看视频的用户提供文字阅读新闻,为用户实时阅读新闻提供便利。

Description

一种视频新闻实时转写存储方法及系统
技术领域
本发明属于语音识别技术领域,涉及一种新闻转写方法及系统,具体是一种视频新闻实时转写存储方法及系统。
背景技术
新闻直播,指不经过预先录音或者录像将事件现场情况、演播室播讲或表演同步播出的广播电视传播形式。视频新闻直播一般通过流媒体服务器向用户在线直播新闻,用户通过客户端观看视频新闻,但是,当用户因一些原因无法实时观看视频新闻,用户又想了解新闻内容时,需要提供一种可将视频新闻直播实时存储,并转写为文本,提供文字阅读和视频观看两种方式供用户选择的系统,本案由此产生。
发明内容
本发明的目的在于提供一种操作简单、使用方便的视频新闻实时转写存储方法及系统。
本发明的目的可以通过以下技术方案实现:
一种视频新闻实时转写存储方法,包括以下步骤:
步骤S1,视频新闻通过流媒体服务器输出视频流到本地客户端进行播放;
步骤S2,本地客户端对接收到的视频流进行编码,生成视频文件存储在本地硬盘内;
步骤S3,本地客户端通过音频提取模块对视频文件进行处理,提取其中的音频数据,生成音频文件;
步骤S4,本地客户端将音频文件发送到语音识别服务器,语音识别服务器对音频文件进行转写,生成文字信息;
步骤S5,语音识别服务器通过文字校正模块对文字信息进行校正,并将校正后的文字信息发送到本地客户端;
步骤S6,本地客户端将接收到的文字信息与视频文件进行合成,生成带字幕的视频文件,同时将文字信息单独保存为文本文件,存储在本地硬盘内,供用户查阅。
一种视频新闻实时转写存储系统,包括通过网络连接的流媒体服务器、本地客户端和语音识别服务器;
所述的流媒体服务器,接收到新闻现场的实时视频信号,并以流式协议向本地客户端进行直播,输出视频流到本地客户端;
所述的本地客户端包括
视频编码模块,用于对接收到的视频流进行编码,生成视频文件;
本地硬盘,用于存储视频文件和文本文件;
音频提取模块,用于对生成的视频文件进行处理,提取其中的音频数据,生成音频文件,并发送到语音识别服务器;
文本编辑模块,用于接收语音识别服务器返回的文字信息,并对文字信息进行处理,生成文本文件,存储到本地硬盘;
以及字幕嵌入模块,用于接收语音识别服务器返回的文字信息,并对文字信息进行处理,生成字幕文件,并将字幕文件嵌入视频文件内,生成带字幕的视频文件;
所述的语音识别服务器包括
语音识别模块,用于接收本地客户端发送的音频文件,并对音频文件的声音信息进行识别,转写为文字信息;
语义理解模块,根据转写的文字信息,判断文字的内涵,理解新闻的真实意义,输出语义理解信息;
文字校正模块,根据语音识别模块转写的文字信息和语义理解模块的输出的语义理解信息,对转写文字进行校正,并发送到本地客户端。
进一步地,所述的语音识别服务器采用讯飞在线语音识别服务器。
本发明的有益效果:本发明提供的一种视频新闻实时转写存储系统,通过本地客户端将直播视频流转换为视频文件存储,并提取其中的音频文件,发送到语音识别服务器进行转写,得到文字信息返回到本地客户端,本地客户端将接收到的文字信息与视频文件进行合成,生成带字幕的视频文件,供用户查看,使无法及时观看新闻直播的用户可在空闲时观看,并且提供字幕,方便聋哑人阅读新闻;同时,本地客户端将文字信息单独保存为文本文件,存储在本地硬盘内,供用户查阅,为没有时间观看视频的用户提供文字阅读新闻,为用户实时阅读新闻提供便利。
附图说明
下面结合附图和具体实施例对本发明作进一步详细描述。
图1是本发明的系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供了一种视频新闻实时转写存储方法,包括以下步骤:
步骤S1,视频新闻通过流媒体服务器输出视频流到本地客户端进行播放。
步骤S2,本地客户端对接收到的视频流进行编码,生成视频文件存储在本地硬盘内。
步骤S3,本地客户端通过音频提取模块对视频文件进行处理,提取其中的音频数据,生成音频文件。
步骤S4,本地客户端将音频文件发送到语音识别服务器,语音识别服务器对音频文件进行转写,生成文字信息。
步骤S5,语音识别服务器通过文字校正模块对文字信息进行校正,并将校正后的文字信息发送到本地客户端。
步骤S6,本地客户端将接收到的文字信息与视频文件进行合成,生成带字幕的视频文件,同时将文字信息单独保存为文本文件,存储在本地硬盘内,供用户查阅。
如图1所示,一种视频新闻实时转写存储系统,包括通过网络连接的流媒体服务器、本地客户端和语音识别服务器,本地客户端安装在用户本地计算机内。
流媒体服务器,接收到新闻现场的实时视频信号,并以流式协议(RTP/RTSP、MMS、RTMP等)向本地客户端进行直播,输出视频流到本地客户端。
本地客户端包括视频编码模块、本地硬盘、音频提取模块、文本编辑模块以及字幕嵌入模块。
视频编码模块,用于对接收到的视频流进行编码,生成视频文件。
本地硬盘,用于存储视频文件和文本文件。
音频提取模块,用于对生成的视频文件进行处理,提取其中的音频数据,生成音频文件,并发送到语音识别服务器。
文本编辑模块,用于接收语音识别服务器返回的文字信息,并对文字信息进行处理,生成文本文件。
字幕嵌入模块,用于接收语音识别服务器返回的文字信息,并对文字信息进行处理,生成字幕文件,并将字幕文件嵌入视频文件内,生成带字幕的视频文件。
语音识别服务器,使用讯飞在线语音识别服务器,包括语音识别模块、语义理解模块以及文字校正模块。
语音识别模块,用于接收本地客户端发送的音频文件,并对音频文件的声音信息进行识别,转写为文字信息。
语义理解模块,根据转写的文字信息,基于场景应用技术,判断文字的内涵,理解新闻的真实意义,输出语义理解信息。
文字校正模块,根据语音识别模块转写的文字信息和语义理解模块的输出的语义理解信息,对转写文字进行校正,并发送到本地客户端。
本发明提供的一种视频新闻实时转写存储系统,通过本地客户端将直播视频流转换为视频文件存储,并提取其中的音频文件,发送到语音识别服务器进行转写,得到文字信息返回到本地客户端,本地客户端将接收到的文字信息与视频文件进行合成,生成带字幕的视频文件,供用户查看,使无法及时观看新闻直播的用户可在空闲时观看,并且提供字幕,方便聋哑人阅读新闻;同时,本地客户端将文字信息单独保存为文本文件,存储在本地硬盘内,供用户查阅,为没有时间观看视频的用户提供文字阅读新闻,为用户实时阅读新闻提供便利。
为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然,在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
以上所描述的装置实施方式仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (3)

1.一种视频新闻实时转写存储方法,其特征在于,包括以下步骤:
步骤S1,视频新闻通过流媒体服务器输出视频流到本地客户端进行播放;
步骤S2,本地客户端对接收到的视频流进行编码,生成视频文件存储在本地硬盘内;
步骤S3,本地客户端通过音频提取模块对视频文件进行处理,提取其中的音频数据,生成音频文件;
步骤S4,本地客户端将音频文件发送到语音识别服务器,语音识别服务器对音频文件进行转写,生成文字信息;
步骤S5,语音识别服务器通过文字校正模块对文字信息进行校正,并将校正后的文字信息发送到本地客户端;
步骤S6,本地客户端将接收到的文字信息与视频文件进行合成,生成带字幕的视频文件,同时将文字信息单独保存为文本文件,存储在本地硬盘内,供用户查阅。
2.一种视频新闻实时转写存储系统,其特征在于:包括通过网络连接的流媒体服务器、本地客户端和语音识别服务器;
所述的流媒体服务器,接收到新闻现场的实时视频信号,并以流式协议向本地客户端进行直播,输出视频流到本地客户端;
所述的本地客户端包括
视频编码模块,用于对接收到的视频流进行编码,生成视频文件;
本地硬盘,用于存储视频文件和文本文件;
音频提取模块,用于对生成的视频文件进行处理,提取其中的音频数据,生成音频文件,并发送到语音识别服务器;
文本编辑模块,用于接收语音识别服务器返回的文字信息,并对文字信息进行处理,生成文本文件,存储到本地硬盘;
以及字幕嵌入模块,用于接收语音识别服务器返回的文字信息,并对文字信息进行处理,生成字幕文件,并将字幕文件嵌入视频文件内,生成带字幕的视频文件;
所述的语音识别服务器包括
语音识别模块,用于接收本地客户端发送的音频文件,并对音频文件的声音信息进行识别,转写为文字信息;
语义理解模块,根据转写的文字信息,判断文字的内涵,理解新闻的真实意义,输出语义理解信息;
文字校正模块,根据语音识别模块转写的文字信息和语义理解模块的输出的语义理解信息,对转写文字进行校正,并发送到本地客户端。
3.根据权利要求2所述的一种视频新闻实时转写存储系统,其特征在于:所述的语音识别服务器采用讯飞在线语音识别服务器。
CN201610826198.8A 2016-09-14 2016-09-14 一种视频新闻实时转写存储方法及系统 Pending CN106412678A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610826198.8A CN106412678A (zh) 2016-09-14 2016-09-14 一种视频新闻实时转写存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610826198.8A CN106412678A (zh) 2016-09-14 2016-09-14 一种视频新闻实时转写存储方法及系统

Publications (1)

Publication Number Publication Date
CN106412678A true CN106412678A (zh) 2017-02-15

Family

ID=57997306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610826198.8A Pending CN106412678A (zh) 2016-09-14 2016-09-14 一种视频新闻实时转写存储方法及系统

Country Status (1)

Country Link
CN (1) CN106412678A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107820112A (zh) * 2017-11-15 2018-03-20 安徽声讯信息技术有限公司 一种音频文字直播系统
CN108924583A (zh) * 2018-07-19 2018-11-30 腾讯科技(深圳)有限公司 视频文件生成方法及其设备、系统、存储介质
CN109657181A (zh) * 2018-12-13 2019-04-19 平安科技(深圳)有限公司 互联网信息链式存储方法、装置、计算机设备及存储介质
CN110121097A (zh) * 2019-05-13 2019-08-13 深圳市亿联智能有限公司 具有无障碍功能的多媒体播放装置及方法
CN112825551A (zh) * 2019-11-21 2021-05-21 中国科学院沈阳计算技术研究所有限公司 一种视频会议重要内容提示及转写存储的方法及系统
CN113674744A (zh) * 2021-08-20 2021-11-19 天津讯飞极智科技有限公司 语音转写方法、装置、拾音转写设备与存储介质
WO2021249323A1 (zh) * 2020-06-09 2021-12-16 北京字节跳动网络技术有限公司 一种信息处理方法、系统、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101854515A (zh) * 2010-05-14 2010-10-06 武汉宽信科技有限公司 电视节目远程录制方法
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN103561217A (zh) * 2013-10-14 2014-02-05 深圳创维数字技术股份有限公司 一种生成字幕的方法及终端
US20140142941A1 (en) * 2009-11-18 2014-05-22 Google Inc. Generation of timed text using speech-to-text technology, and applications thereof
CN105895090A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 语音信号处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140142941A1 (en) * 2009-11-18 2014-05-22 Google Inc. Generation of timed text using speech-to-text technology, and applications thereof
CN101854515A (zh) * 2010-05-14 2010-10-06 武汉宽信科技有限公司 电视节目远程录制方法
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN103561217A (zh) * 2013-10-14 2014-02-05 深圳创维数字技术股份有限公司 一种生成字幕的方法及终端
CN105895090A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 语音信号处理方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107820112A (zh) * 2017-11-15 2018-03-20 安徽声讯信息技术有限公司 一种音频文字直播系统
CN108924583A (zh) * 2018-07-19 2018-11-30 腾讯科技(深圳)有限公司 视频文件生成方法及其设备、系统、存储介质
CN108924583B (zh) * 2018-07-19 2021-12-17 腾讯科技(深圳)有限公司 视频文件生成方法及其设备、系统、存储介质
CN109657181A (zh) * 2018-12-13 2019-04-19 平安科技(深圳)有限公司 互联网信息链式存储方法、装置、计算机设备及存储介质
CN110121097A (zh) * 2019-05-13 2019-08-13 深圳市亿联智能有限公司 具有无障碍功能的多媒体播放装置及方法
CN112825551A (zh) * 2019-11-21 2021-05-21 中国科学院沈阳计算技术研究所有限公司 一种视频会议重要内容提示及转写存储的方法及系统
CN112825551B (zh) * 2019-11-21 2023-05-26 中国科学院沈阳计算技术研究所有限公司 一种视频会议重要内容提示及转写存储的方法及系统
WO2021249323A1 (zh) * 2020-06-09 2021-12-16 北京字节跳动网络技术有限公司 一种信息处理方法、系统、装置、电子设备及存储介质
US11900945B2 (en) 2020-06-09 2024-02-13 Beijing Bytedance Network Technology Co., Ltd. Information processing method, system, apparatus, electronic device and storage medium
CN113674744A (zh) * 2021-08-20 2021-11-19 天津讯飞极智科技有限公司 语音转写方法、装置、拾音转写设备与存储介质

Similar Documents

Publication Publication Date Title
CN106412678A (zh) 一种视频新闻实时转写存储方法及系统
CN106340294A (zh) 基于同步翻译的新闻直播字幕在线制作系统
US9478256B1 (en) Video editing processor for video cloud server
US9462307B2 (en) ABR live to VOD system and method
US10034028B2 (en) Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
US7035804B2 (en) Systems and methods for automated audio transcription, translation, and transfer
US9021536B2 (en) Process for subtitling streaming video content
US20160212501A1 (en) Enabling Delivery and Synchronization of Auxiliary Content Associated with Multimedia Data
CN102802044A (zh) 视频处理方法、终端及字幕服务器
CN106340291A (zh) 一种双语字幕制作方法及系统
Footen et al. The service-oriented media enterprise: SOA, BPM, and web services in professional media systems
US11564010B2 (en) Systems and methods for applying behavioral-based parental controls for media assets
CN102752540A (zh) 一种基于人脸识别技术的自动编目方法
EP3748978A1 (en) Screen recording method, client, and terminal device
CN105611395A (zh) 一种mp4格式视频在线播放的方法及系统
CN109743529A (zh) 一种多功能视频会议系统
US11356721B2 (en) Techniques for automatically removing content from closed-caption data embedded in a video signal
CN103716647A (zh) 一种在播放多声道环绕声视频、音频时获得双声道立体声效果的方法
CN102262344A (zh) 可即时分享所播放投影片影像的投影机
CN105812857B (zh) 动态交互讲座系统
CN105007524A (zh) 一种视频处理方法及装置
CN108900866A (zh) 一种基于融媒体服务平台的多级数据直播系统
CN103731677A (zh) 一种在播放双声道立体声视频、音频时获得多声道环绕声效果的方法
McNaughton ‘Constipated, studio-bound, wall-confined, rigid’: The Influence of British Actors’ Equity on BBC Television Drama, 1948–72
KR100874024B1 (ko) 대화형 콘텐츠를 중계하는 중계기, 방법 및 그 기록매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170215

RJ01 Rejection of invention patent application after publication