CN107820112A - 一种音频文字直播系统 - Google Patents

一种音频文字直播系统 Download PDF

Info

Publication number
CN107820112A
CN107820112A CN201711131745.1A CN201711131745A CN107820112A CN 107820112 A CN107820112 A CN 107820112A CN 201711131745 A CN201711131745 A CN 201711131745A CN 107820112 A CN107820112 A CN 107820112A
Authority
CN
China
Prior art keywords
audio
word
unit
server
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711131745.1A
Other languages
English (en)
Inventor
虞焰兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Voice Communication Information Technology Co Ltd
Original Assignee
Anhui Voice Communication Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Voice Communication Information Technology Co Ltd filed Critical Anhui Voice Communication Information Technology Co Ltd
Priority to CN201711131745.1A priority Critical patent/CN107820112A/zh
Publication of CN107820112A publication Critical patent/CN107820112A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明公开了一种音频文字直播系统,涉及语音文字同步技术领域。包括用于识别语音并将音频转写为文字的语音识别服务器;用于采集音频并将转写文字进行分发的音频采集终端;用于录音并推送音频的音频服务器;音频服务器包括录音单元、解码单元和音频推送器;用于音频文字合成、修正以及分发的中心服务器;用于播放音频和显示文字信息的终端设备。本发明通过设置音频采集终端采集音频传输至语音识别服务器进行语音识别,并转写成文字,通过中心服务器将音频数据和文字信息进行合成和校正,同步进行合成、播放、显示文字、校正;将校正后的文件推送至终端设备;实时同步性好,实现了音频文字直播。

Description

一种音频文字直播系统
技术领域
本发明属于语音文字同步技术领域,特别是涉及一种音频文字直播系统。
背景技术
语音文字是基于音频输入,然后进行文字转换的操作,有助于将音频与文字同时显示的技术,而非经过后期处理的语音文字同步技术。将语音音频数据转换成文字信息进行显示的方式,现有技术存在转换错误率高,语音音频与文字同步延时性长。
发明内容
本发明的目的在于提供一种音频文字直播系统,通过设置音频采集终端采集音频传输至语音识别服务器进行语音识别,并转写成文字,通过中心服务器将音频数据和文字信息进行合成和校正,同步进行合成、播放、显示文字、校正;将校正后的文件推送至终端设备;实时同步性好,实现了音频文字直播,解决了现有的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种音频文字直播系统,包括用于识别语音并将音频转写为文字的语音识别服务器;用于采集音频并将转写文字进行分发的音频采集终端;所述音频采集终端嵌入有音频采集模块、文字分发器和通信模块;所述音频采集终端将音频采集模块采集的音频文件通过通信模块传输至语音识别服务器;所述文字分发器将语音识别服务器返回的文字进行分发;用于录音并推送音频的音频服务器;所述音频服务器包括录音单元、解码单元和音频推送器;所述录音单元将音频采集模块采集的音频文件进行保存;所述解码单元对音频采集文件采集的音频进行解码;所述音频推送器将音频文件进行推送;用于音频文字合成、修正以及分发的中心服务器;所述中心服务器包括合成单元、修正单元和推送单元;所述合成单元将音频推送器推送的音频数据和文字分发器分发的文字数据进行合成;所述修正单元对合成单元后的文件进行校正修改;所述推送单元将校正后的文件推送至终端设备;用于播放音频和显示文字信息的终端设备。
进一步地,所述语音识别服务器将音频采集终端传输的音频数据进行识别和转写成文字,并同步将转写文字返回至音频采集终端。
进一步地,所述文字分发器将语音识别服务器返回的文字分发至中心服务器,一边传输一边推送,方便提高了同步率。
进一步地,所述音频推送器将解码后的音频数据推送至中心服务器,同时进行录音、解码和音频推送。
进一步地,所述解码单元将音频采集终端传输的音频数据进行解码,并将音频数据内嵌入时间信息,时间信息为时间戳。
进一步地,所述合成单元根据解码后的音频数据时间信息将音频推送器推送的音频数据信息和文字分发器分发的文字数据信息合成为音频文字同步播放的文件。
进一步地,所述合成单元将合成后的文字实时传输至修正单元,所述修正单元对合成文件进行实时校正,并将校正后的数据信息通过推送单元实时同步推送至若干个终端设备;实现了同步合成、播放、文字显示、文字校正和文件推送。
进一步地,所述通信模块包括有线网络或WIFI无线网络或3G/4G移动网络。
进一步地,所述终端设备采用电脑或手机或智能平板。
本发明具有以下有益效果:
本发明通过设置音频采集终端采集音频传输至语音识别服务器进行语音识别,并转写成文字,通过中心服务器将音频数据和文字信息进行合成和校正,同步进行合成、播放、显示文字、校正;将校正后的文件推送至终端设备;实时同步性好,实现了音频文字直播。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅图1所示,本发明为一种音频文字直播系统,包括用于识别语音并将音频转写为文字的语音识别服务器;用于采集音频并将转写文字进行分发的音频采集终端;音频采集终端嵌入有音频采集模块、文字分发器和通信模块;音频采集终端将音频采集模块采集的音频文件通过通信模块传输至语音识别服务器;文字分发器将语音识别服务器返回的文字进行分发;用于录音并推送音频的音频服务器;音频服务器包括录音单元、解码单元和音频推送器;录音单元将音频采集模块采集的音频文件进行保存;解码单元对音频采集文件采集的音频进行解码;音频推送器将音频文件进行推送;用于音频文字合成、修正以及分发的中心服务器;中心服务器包括合成单元、修正单元和推送单元;合成单元将音频推送器推送的音频数据和文字分发器分发的文字数据进行合成;修正单元对合成单元后的文件进行校正修改;推送单元将校正后的文件推送至终端设备;用于播放音频和显示文字信息的终端设备。
其中,语音识别服务器将音频采集终端传输的音频数据进行识别和转写成文字,并同步将转写文字返回至音频采集终端。
其中,文字分发器将语音识别服务器返回的文字分发至中心服务器,一边传输一边推送,方便提高了同步率。
其中,音频推送器将解码后的音频数据推送至中心服务器,同时进行录音、解码和音频推送。
其中,解码单元将音频采集终端传输的音频数据进行解码,并将音频数据内嵌入时间信息。
其中,合成单元根据解码后的音频数据时间信息将音频推送器推送的音频数据信息和文字分发器分发的文字数据信息合成为音频文字同步播放的文件。
其中,合成单元将合成后的文字实时传输至修正单元,修正单元对合成文件进行实时校正,并将校正后的数据信息通过推送单元实时同步推送至若干个终端设备;实现了同步合成、播放、文字显示、文字校正和文件推送。
其中,通信模块包括有线网络或WIFI无线网络或3G/4G移动网络。
其中,终端设备采用电脑或手机或智能平板。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (9)

1.一种音频文字直播系统,其特征在于,包括:
用于识别语音并将音频转写为文字的语音识别服务器;
用于采集音频并将转写文字进行分发的音频采集终端;所述音频采集终端嵌入有音频采集模块、文字分发器和通信模块;所述音频采集终端将音频采集模块采集的音频文件通过通信模块传输至语音识别服务器;所述文字分发器将语音识别服务器返回的文字进行分发;
用于录音并推送音频的音频服务器;所述音频服务器包括录音单元、解码单元和音频推送器;所述录音单元将音频采集模块采集的音频文件进行保存;所述解码单元对音频采集文件采集的音频进行解码;所述音频推送器将音频文件进行推送;
用于音频文字合成、修正以及分发的中心服务器;所述中心服务器包括合成单元、修正单元和推送单元;所述合成单元将音频推送器推送的音频数据和文字分发器分发的文字数据进行合成;所述修正单元对合成单元后的文件进行校正修改;所述推送单元将校正后的文件推送至终端设备;
用于播放音频和显示文字信息的终端设备。
2.根据权利要求1所述的一种音频文字直播系统,其特征在于,所述语音识别服务器将音频采集终端传输的音频数据进行识别和转写成文字,并同步将转写文字返回至音频采集终端。
3.根据权利要求1所述的一种音频文字直播系统,其特征在于,所述文字分发器将语音识别服务器返回的文字分发至中心服务器。
4.根据权利要求1所述的一种音频文字直播系统,其特征在于,所述音频推送器将解码后的音频数据推送至中心服务器。
5.根据权利要求1所述的一种音频文字直播系统,其特征在于,所述解码单元将音频采集终端传输的音频数据进行解码,并将音频数据内嵌入时间信息。
6.根据权利要求1所述的一种音频文字直播系统,其特征在于,所述合成单元根据解码后的音频数据时间信息将音频推送器推送的音频数据信息和文字分发器分发的文字数据信息合成为音频文字同步播放的文件。
7.根据权利要求1所述的一种音频文字直播系统,其特征在于,所述合成单元将合成后的文字实时传输至修正单元,所述修正单元对合成文件进行实时校正,并将校正后的数据信息通过推送单元实时同步推送至若干个终端设备。
8.根据权利要求1所述的一种音频文字直播系统,其特征在于,所述通信模块包括有线网络或WIFI无线网络或3G/4G移动网络。
9.根据权利要求1所述的一种音频文字直播系统,其特征在于,所述终端设备采用电脑或手机或智能平板。
CN201711131745.1A 2017-11-15 2017-11-15 一种音频文字直播系统 Pending CN107820112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711131745.1A CN107820112A (zh) 2017-11-15 2017-11-15 一种音频文字直播系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711131745.1A CN107820112A (zh) 2017-11-15 2017-11-15 一种音频文字直播系统

Publications (1)

Publication Number Publication Date
CN107820112A true CN107820112A (zh) 2018-03-20

Family

ID=61609764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711131745.1A Pending CN107820112A (zh) 2017-11-15 2017-11-15 一种音频文字直播系统

Country Status (1)

Country Link
CN (1) CN107820112A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166583A (zh) * 2018-08-30 2019-01-08 安徽声讯信息技术有限公司 一种语音双平台文字同步直播系统及方法
CN109756519A (zh) * 2019-03-13 2019-05-14 安徽声讯信息技术有限公司 一种会议用文字直播系统
CN110164020A (zh) * 2019-05-24 2019-08-23 北京达佳互联信息技术有限公司 投票创建方法、装置、计算机设备及计算机可读存储介质
CN110390930A (zh) * 2018-04-15 2019-10-29 高翔 一种音频文字校对的方法和系统
CN111863043A (zh) * 2020-07-29 2020-10-30 安徽听见科技有限公司 音频转写文件生成方法、相关设备及可读存储介质
CN112637620A (zh) * 2020-12-09 2021-04-09 杭州艾耕科技有限公司 一种对音视频流中物品和语言实时识别分析的方法与装置
CN115567470A (zh) * 2022-09-21 2023-01-03 润芯微科技(江苏)有限公司 一种音频丢包补偿处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327181A (zh) * 2013-06-08 2013-09-25 广东欧珀移动通信有限公司 可提高用户获知语音信息效率的语音聊天方法
CN104427294A (zh) * 2013-08-29 2015-03-18 中兴通讯股份有限公司 支持电视会议同声传译的方法及云端服务器
KR101618777B1 (ko) * 2015-08-26 2016-05-09 (주)에스알포스트 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
CN106412678A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 一种视频新闻实时转写存储方法及系统
CN106453043A (zh) * 2016-09-29 2017-02-22 安徽声讯信息技术有限公司 基于多语言转换的即时通信系统
CN107220228A (zh) * 2017-06-13 2017-09-29 深圳市鹰硕技术有限公司 一种教学录播数据修正装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327181A (zh) * 2013-06-08 2013-09-25 广东欧珀移动通信有限公司 可提高用户获知语音信息效率的语音聊天方法
CN104427294A (zh) * 2013-08-29 2015-03-18 中兴通讯股份有限公司 支持电视会议同声传译的方法及云端服务器
KR101618777B1 (ko) * 2015-08-26 2016-05-09 (주)에스알포스트 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
CN106412678A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 一种视频新闻实时转写存储方法及系统
CN106453043A (zh) * 2016-09-29 2017-02-22 安徽声讯信息技术有限公司 基于多语言转换的即时通信系统
CN107220228A (zh) * 2017-06-13 2017-09-29 深圳市鹰硕技术有限公司 一种教学录播数据修正装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390930A (zh) * 2018-04-15 2019-10-29 高翔 一种音频文字校对的方法和系统
CN109166583A (zh) * 2018-08-30 2019-01-08 安徽声讯信息技术有限公司 一种语音双平台文字同步直播系统及方法
CN109756519A (zh) * 2019-03-13 2019-05-14 安徽声讯信息技术有限公司 一种会议用文字直播系统
CN110164020A (zh) * 2019-05-24 2019-08-23 北京达佳互联信息技术有限公司 投票创建方法、装置、计算机设备及计算机可读存储介质
US11263852B2 (en) 2019-05-24 2022-03-01 Beijing Dajia Internet Information Technology Co., Ltd. Method, electronic device, and computer readable storage medium for creating a vote
CN111863043A (zh) * 2020-07-29 2020-10-30 安徽听见科技有限公司 音频转写文件生成方法、相关设备及可读存储介质
CN111863043B (zh) * 2020-07-29 2022-09-23 安徽听见科技有限公司 音频转写文件生成方法、相关设备及可读存储介质
CN112637620A (zh) * 2020-12-09 2021-04-09 杭州艾耕科技有限公司 一种对音视频流中物品和语言实时识别分析的方法与装置
CN115567470A (zh) * 2022-09-21 2023-01-03 润芯微科技(江苏)有限公司 一种音频丢包补偿处理方法及系统

Similar Documents

Publication Publication Date Title
CN107820112A (zh) 一种音频文字直播系统
CN100412852C (zh) 网络上的多种媒体的同步合成存储发布系统及操作该系统的方法
CN103024601B (zh) 信息采集系统
CN104053014A (zh) 一种基于移动终端的直播系统、方法和移动终端
CN103338348A (zh) 一种网络音视频会议的实现方法、系统和服务器
CN103024454B (zh) 在广播电视节目中向受众传送互动入口信息的方法及其系统
CN102347913B (zh) 一种语音和文字内容混排消息的实现方法
CN101009824A (zh) 一种音/视频数据的网络传输方法
CN105306110A (zh) 一种实现音乐同步播放的方法及系统
CN101098470A (zh) 一种基于p2p技术的流媒体节目播放/接收方法及装置
CN104361847A (zh) 一种通过音频进行互动的广告播放系统以及方法
CN102802039A (zh) 多路视频混合解码输出方法及装置
CN103931202A (zh) 信息处理装置、信息处理方法、信息提供装置和信息提供系统
CN105681817A (zh) 一种智能终端视音频采集传输播放系统和方法
CN109327706A (zh) 基于dtmb的直播节目信号接收方法及系统
CN104683823A (zh) 一种多屏联动音视频同步系统
CN104837046A (zh) 多媒体文件的处理方法和装置
CN103826084A (zh) 一种音频编码方法
CN110111614A (zh) 一种音视频教学实现音屏同步的方法和系统
CN101754024B (zh) 一种复用装置及复用方法
CN104010214B (zh) 一种共享视频的方法及共享端、接收端
CN107959821A (zh) 一种基于云技术的会议可视对讲系统
CN108337529A (zh) 一种基于ios系统的视频直播中界面的交互方法及直播客户端
CN105898233B (zh) 一种视频监控中的音视频播放方法及装置
CN201349326Y (zh) 一种音频存储系统及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180320

RJ01 Rejection of invention patent application after publication