CN110415706A - 一种在视频通话中实时叠加字幕的技术及其应用 - Google Patents

一种在视频通话中实时叠加字幕的技术及其应用 Download PDF

Info

Publication number
CN110415706A
CN110415706A CN201910731851.6A CN201910731851A CN110415706A CN 110415706 A CN110415706 A CN 110415706A CN 201910731851 A CN201910731851 A CN 201910731851A CN 110415706 A CN110415706 A CN 110415706A
Authority
CN
China
Prior art keywords
text
algorithm
video
real
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910731851.6A
Other languages
English (en)
Inventor
谢锋
黄胜男
李璟
苏耀飞
乐程胜
张意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou First Information Technology Co Ltd
Original Assignee
Changzhou First Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou First Information Technology Co Ltd filed Critical Changzhou First Information Technology Co Ltd
Priority to CN201910731851.6A priority Critical patent/CN110415706A/zh
Publication of CN110415706A publication Critical patent/CN110415706A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone

Abstract

本发明公开了一种在视频通话中实时叠加字幕的技术及其应用,包括字幕软件,包括以下实现步骤:S1:语音识别算法,通过机器学习算法,实时捕捉视频中的音频数据,将音频数据转换成具有实际意义的语言数据;S2:文字转化算法,对提取的语音数据通过算法处理后实时转换成文字信息;S3:字幕显示算法,对文字信息进行实时逐字或逐词显示;S4:自动断句算法,通过对音频文件分析,获取一句话的起始及停顿点;S5:文字和音视频叠加算法,文字直接叠加显示于视频界面上形成视频字幕,视频界面不指定文字字幕显示位置。该在视频通话中实时叠加字幕的技术及其应用,可以在获取完整句子后对已显示的所有字符按完整句子意思进行更新。

Description

一种在视频通话中实时叠加字幕的技术及其应用
技术领域
本发明涉及视频通话技术领域,具体为一种在视频通话中实时叠加字幕的技术及其应用。
背景技术
时代在进步,我们的沟通方式也在不断地发生着变化。仅以短信和电话语音进行远程沟通的2G时代已成为历史,伴随着3G通信地出现,人们的沟通方式进入了视频远程通信的时代,后面又经过智能设备的爆发和4G通信的发展,直到如今5G时代的来临,视频通信的使用频率变得极其广泛,人们对视频通信的依赖也越来越大。
虽然视频通信已慢慢取代仅文字和语音的通信方式,但视频通信往往也存在一些弊端和不尽如人意的地方。由于智能手机形式的限制,喇叭和麦克风均在机体上,如不借助耳机或其他设备时,如需摄像头捕捉使用者的头部,或者需要看着屏幕内的对方说话,则需要把设备放到离耳朵比较远的地方,然而又需要听清对方的声音,就不得不外放声音,即开启扬声器,这样有如下弊端:如果在比较嘈杂的地方,就算开启了扬声器也听不清对方的声音,对方也可能听不清自己的声音,这样双方可能需要面临来回重复说话的尴尬,而且沟通效率大大降低。
此外,对于一些特殊人群,比如失聪人士,在进行视频通话时无法获取对方的语音信息,使视频通话难以惠及这部分群体。
发明内容
针对现有技术的不足,本发明提供了一种在视频通话中实时叠加字幕的技术及其应用,使用后。
为实现以上目的,本发明通过以下技术方案予以实现:一种在视频通话中实时叠加字幕的技术,包括字幕软件,包括以下实现步骤:
S1:语音识别算法,通过机器学习算法,实时捕捉视频中的音频数据,将音频数据转换成具有实际意义的语言数据;
S2:文字转化算法,对提取的语音数据通过算法处理后实时转换成文字信息;
S3:字幕显示算法,对文字信息进行实时逐字或逐词显示;
S4:自动断句算法,通过对音频文件分析,获取一句话的起始及停顿点;
S5:文字和音视频叠加算法,文字直接叠加显示于视频界面上形成视频字幕,视频界面不指定文字字幕显示位置,同时不指定字幕显示行数与字体大小。
优选的,所述文字转化算法还包括整句转化算法,随着语音数据的不断完善,在后续识别到完整句子后根据大致句意将所识别的文本内容更新显示。
优选的,所述文字和音视频叠加算法还包括重力感应,其可识别设备的重力方向,则字幕可以根据重力方向调节叠加显示的方向,并以当前字体大小根据屏幕尺寸自动调节单行显示的字符个数。
优选的,还包括文本内容保存算法,可以选中文字信息保存为文本文件以便后期查看。
优选的,所述语音识别算法包括获取视频通话中的音频数据,从音频数据中提取声音特征并与语音库对比。
优选的,所述字幕显示算法包括识别的第一句话文字显示于第一行,识别的第二句话文字显示于第二行,第二行文字显示完整后将第一行文字删除,第一行文字删除后,将第二行文字提升至第一行,空余下的第二行显示新文字。
优选的,一种在视频通话中实时叠加字幕的应用,包括以下应用步骤:
A1:在设备终端上利用视频通话软件发起视频通话;
A2:点击字幕软件“显示字幕”的控制键,应用程序获取音频软件;
A3:语音识别算法对提取的语音数据通过算法处理后实时转换成文字信息;
A4:文字直接叠加显示于视频界面上形成视频字幕。
本发明提供了一种在视频通话中实时叠加字幕的技术及其应用。具备以下有益效果:
该在视频通话中实时叠加字幕的技术及其应用,结合了深度学习的语音识别并实时转换为文本的技术,并且其可以在获取完整句子后对已显示的所有字符按完整句子意思进行更新,创新性地将这种技术应用到视频通话领域,并采用字幕叠加的技术方案,灵活地将字幕展现到视频图像上,解决前面所提及用户的苦恼。
附图说明
图1为本发明整体流程图;
图2为本发明语音识别流程图;
图3为本发明字幕叠加形式示意图。
具体实施方式
以下实施例所用材料,方法和仪器,未经特殊说明,均为本领域常规材料,方法和仪器,本领域普通技术人员均可通过商业渠道获得。
在本发明以下的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”和“竖着”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明以下的描述中,需要说明的是,除非另有明确规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接连接,亦可以是通过中间媒介间接连接,可以是两个部件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1-3所示,一种在视频通话中实时叠加字幕的技术,包括字幕软件,包括以下实现步骤:
S1:语音识别算法,通过机器学习算法,实时捕捉视频中的音频数据,将音频数据转换成具有实际意义的语言数据;
S2:文字转化算法,对提取的语音数据通过算法处理后实时转换成文字信息;
S3:字幕显示算法,对文字信息进行实时逐字或逐词显示;
S4:自动断句算法,通过对音频文件分析,获取一句话的起始及停顿点;
S5:文字和音视频叠加算法,文字直接叠加显示于视频界面上形成视频字幕,视频界面不指定文字字幕显示位置,同时不指定字幕显示行数与字体大小。
实施例2:
在实施例1的基础上,文字转化算法还包括整句转化算法,随着语音数据的不断完善,在后续识别到完整句子后根据大致句意将所识别的文本内容更新显示。
实施例3:
在实施例1、2的基础上,文字和音视频叠加算法还包括重力感应,其可识别设备的重力方向,则字幕可以根据重力方向调节叠加显示的方向,并以当前字体大小根据屏幕尺寸自动调节单行显示的字符个数。
实施例4:
在实施例1-3的基础上,还包括文本内容保存算法,可以选中文字信息保存为文本文件以便后期查看。
实施例5:
在实施例1-4的基础上,语音识别算法包括获取视频通话中的音频数据,从音频数据中提取声音特征并与语音库对比。
实施例6:
在实施例1-5的基础上,字幕显示算法包括识别的第一句话文字显示于第一行,识别的第二句话文字显示于第二行,第二行文字显示完整后将第一行文字删除,第一行文字删除后,将第二行文字提升至第一行,空余下的第二行显示新文字。
实施例7:
在实施例1-6的基础上,一种在视频通话中实时叠加字幕的应用,包括以下应用步骤:
A1:在设备终端上利用视频通话软件发起视频通话;
A2:点击字幕软件“显示字幕”的控制键,应用程序获取音频软件;
A3:语音识别算法对提取的语音数据通过算法处理后实时转换成文字信息;
A4:文字直接叠加显示于视频界面上形成视频字幕。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种在视频通话中实时叠加字幕的技术,包括字幕软件,其特征在于:包括以下实现步骤:
S1:语音识别算法,通过机器学习算法,实时捕捉视频中的音频数据,将音频数据转换成具有实际意义的语言数据;
S2:文字转化算法,对提取的语音数据通过算法处理后实时转换成文字信息;
S3:字幕显示算法,对文字信息进行实时逐字或逐词显示;
S4:自动断句算法,通过对音频文件分析,获取一句话的起始及停顿点;
S5:文字和音视频叠加算法,文字直接叠加显示于视频界面上形成视频字幕,视频界面不指定文字字幕显示位置,同时不指定字幕显示行数与字体大小。
2.根据权利要求1所述的一种在视频通话中实时叠加字幕的技术,其特征在于:所述文字转化算法还包括整句转化算法,随着语音数据的不断完善,在后续识别到完整句子后根据大致句意将所识别的文本内容更新显示。
3.根据权利要求2所述的一种在视频通话中实时叠加字幕的技术,其特征在于:所述文字和音视频叠加算法还包括重力感应,其可识别设备的重力方向,则字幕可以根据重力方向调节叠加显示的方向,并以当前字体大小根据屏幕尺寸自动调节单行显示的字符个数。
4.根据权利要求3所述的一种在视频通话中实时叠加字幕的技术,其特征在于:还包括文本内容保存算法,可以选中文字信息保存为文本文件以便后期查看。
5.根据权利要求3所述的一种在视频通话中实时叠加字幕的技术,其特征在于:所述语音识别算法包括获取视频通话中的音频数据,从音频数据中提取声音特征并与语音库对比。
6.根据权利要求3所述的一种在视频通话中实时叠加字幕的技术,其特征在于:所述字幕显示算法包括识别的第一句话文字显示于第一行,识别的第二句话文字显示于第二行,第二行文字显示完整后将第一行文字删除,第一行文字删除后,将第二行文字提升至第一行,空余下的第二行显示新文字。
7.根据权利要求7所述的一种在视频通话中实时叠加字幕的应用,其特征在于:包括以下应用步骤:
A1:在设备终端上利用视频通话软件发起视频通话;
A2:点击字幕软件“显示字幕”的控制键,应用程序获取音频软件;
A3:语音识别算法对提取的语音数据通过算法处理后实时转换成文字信息;
A4:文字直接叠加显示于视频界面上形成视频字幕。
CN201910731851.6A 2019-08-08 2019-08-08 一种在视频通话中实时叠加字幕的技术及其应用 Pending CN110415706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910731851.6A CN110415706A (zh) 2019-08-08 2019-08-08 一种在视频通话中实时叠加字幕的技术及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910731851.6A CN110415706A (zh) 2019-08-08 2019-08-08 一种在视频通话中实时叠加字幕的技术及其应用

Publications (1)

Publication Number Publication Date
CN110415706A true CN110415706A (zh) 2019-11-05

Family

ID=68366689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910731851.6A Pending CN110415706A (zh) 2019-08-08 2019-08-08 一种在视频通话中实时叠加字幕的技术及其应用

Country Status (1)

Country Link
CN (1) CN110415706A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415665A (zh) * 2020-04-07 2020-07-14 浙江国贸云商控股有限公司 视频通话的语音处理方法、装置及电子设备
CN111556372A (zh) * 2020-04-20 2020-08-18 北京甲骨今声科技有限公司 为视音频节目实时添加字幕的方法和装置
CN111698446A (zh) * 2020-05-26 2020-09-22 上海智勘科技有限公司 在实时视频中同时进行文本信息传输的方法及系统
CN112702468A (zh) * 2020-12-25 2021-04-23 维沃移动通信有限公司 一种通话控制方法及其装置
CN112800263A (zh) * 2021-02-03 2021-05-14 上海艾麒信息科技股份有限公司 一种基于人工智能的视频合成系统、方法及介质
WO2021135515A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 音视频通话的处理方法、系统、编解码器及存储装置
WO2021249323A1 (zh) * 2020-06-09 2021-12-16 北京字节跳动网络技术有限公司 一种信息处理方法、系统、装置、电子设备及存储介质
WO2022260883A1 (en) * 2021-06-06 2022-12-15 Apple Inc. Audio transcription for electronic conferencing
US11876632B2 (en) 2021-06-06 2024-01-16 Apple Inc. Audio transcription for electronic conferencing

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2850821A1 (fr) * 2003-02-04 2004-08-06 France Telecom Systeme de sous-titrage dynamique de signaux de television et radiophoniques
CN101175264A (zh) * 2006-10-31 2008-05-07 上海晨兴电子科技有限公司 一种可视通信的装置
CN101500127A (zh) * 2008-01-28 2009-08-05 德信智能手机技术(北京)有限公司 一种视频电话中同步显示字幕的方法
CN101931779A (zh) * 2009-06-23 2010-12-29 中兴通讯股份有限公司 一种可视电话及其通讯方法
CN103685985A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 通话方法、发送装置、接收装置、语音处理和终端设备
CN104780335A (zh) * 2015-03-26 2015-07-15 中兴通讯股份有限公司 一种WebRTC P2P音视频通话的方法及装置
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法
US9525830B1 (en) * 2015-11-12 2016-12-20 Captioncall Llc Captioning communication systems
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106504754A (zh) * 2016-09-29 2017-03-15 浙江大学 一种根据音频输出的实时字幕生成方法
CN106713818A (zh) * 2017-02-21 2017-05-24 福建江夏学院 视频通话中语音处理系统及其方法
CN107172377A (zh) * 2017-06-30 2017-09-15 福州瑞芯微电子股份有限公司 一种视频通话的数据处理方法和装置
CN107205131A (zh) * 2016-03-18 2017-09-26 中兴通讯股份有限公司 一种实现视频通话的方法、装置和系统
CN108418791A (zh) * 2018-01-27 2018-08-17 惠州Tcl移动通信有限公司 具有添加字幕功能的通信方法及移动终端

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2850821A1 (fr) * 2003-02-04 2004-08-06 France Telecom Systeme de sous-titrage dynamique de signaux de television et radiophoniques
CN101175264A (zh) * 2006-10-31 2008-05-07 上海晨兴电子科技有限公司 一种可视通信的装置
CN101500127A (zh) * 2008-01-28 2009-08-05 德信智能手机技术(北京)有限公司 一种视频电话中同步显示字幕的方法
CN101931779A (zh) * 2009-06-23 2010-12-29 中兴通讯股份有限公司 一种可视电话及其通讯方法
CN103685985A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 通话方法、发送装置、接收装置、语音处理和终端设备
CN104780335A (zh) * 2015-03-26 2015-07-15 中兴通讯股份有限公司 一种WebRTC P2P音视频通话的方法及装置
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法
US9525830B1 (en) * 2015-11-12 2016-12-20 Captioncall Llc Captioning communication systems
CN107205131A (zh) * 2016-03-18 2017-09-26 中兴通讯股份有限公司 一种实现视频通话的方法、装置和系统
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106504754A (zh) * 2016-09-29 2017-03-15 浙江大学 一种根据音频输出的实时字幕生成方法
CN106713818A (zh) * 2017-02-21 2017-05-24 福建江夏学院 视频通话中语音处理系统及其方法
CN107172377A (zh) * 2017-06-30 2017-09-15 福州瑞芯微电子股份有限公司 一种视频通话的数据处理方法和装置
CN108418791A (zh) * 2018-01-27 2018-08-17 惠州Tcl移动通信有限公司 具有添加字幕功能的通信方法及移动终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨磊: "《数字媒体技术概论》", 30 September 2017, 中国铁道出版社 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415665A (zh) * 2020-04-07 2020-07-14 浙江国贸云商控股有限公司 视频通话的语音处理方法、装置及电子设备
CN111556372A (zh) * 2020-04-20 2020-08-18 北京甲骨今声科技有限公司 为视音频节目实时添加字幕的方法和装置
CN111698446A (zh) * 2020-05-26 2020-09-22 上海智勘科技有限公司 在实时视频中同时进行文本信息传输的方法及系统
CN111698446B (zh) * 2020-05-26 2021-09-21 上海智勘科技有限公司 在实时视频中同时进行文本信息传输的方法
WO2021249323A1 (zh) * 2020-06-09 2021-12-16 北京字节跳动网络技术有限公司 一种信息处理方法、系统、装置、电子设备及存储介质
US11900945B2 (en) 2020-06-09 2024-02-13 Beijing Bytedance Network Technology Co., Ltd. Information processing method, system, apparatus, electronic device and storage medium
JP7448672B2 (ja) 2020-06-09 2024-03-12 北京字節跳動網絡技術有限公司 情報処理方法、システム、装置、電子機器及び記憶媒体
WO2021135515A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 音视频通话的处理方法、系统、编解码器及存储装置
CN112702468A (zh) * 2020-12-25 2021-04-23 维沃移动通信有限公司 一种通话控制方法及其装置
CN112800263A (zh) * 2021-02-03 2021-05-14 上海艾麒信息科技股份有限公司 一种基于人工智能的视频合成系统、方法及介质
WO2022260883A1 (en) * 2021-06-06 2022-12-15 Apple Inc. Audio transcription for electronic conferencing
US11876632B2 (en) 2021-06-06 2024-01-16 Apple Inc. Audio transcription for electronic conferencing

Similar Documents

Publication Publication Date Title
CN110415706A (zh) 一种在视频通话中实时叠加字幕的技术及其应用
JP3844431B2 (ja) 発話認識に基づいたキャプションシステム
CN106331893B (zh) 实时字幕显示方法及系统
US20140171036A1 (en) Method of communication
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
US20030198320A1 (en) Relay for personal interpreter
CN104811559B (zh) 降噪方法、通信方法及移动终端
CN105957514A (zh) 一种便携式聋哑人交流设备
HK1054813A1 (en) Language independent voice-based user interface
WO2003079328A1 (fr) Appareil, procede et programme de conversion audio video
US11528568B1 (en) Assisted hearing aid with synthetic substitution
US10453459B2 (en) Interpreting assistant system
CN112037788B (zh) 一种语音纠正融合方法
Huang et al. Audio-visual speech recognition using an infrared headset
CN1932976B (zh) 一种实现视音频处理中字幕与语音同步的方法和系统
CN114157920A (zh) 一种展示手语的播放方法、装置、智能电视及存储介质
CN110349565B (zh) 一种面向听障人士的辅助发音学习方法及其系统
CN104615252A (zh) 控制方法、控制装置、穿戴式电子设备及电子设备
CN101894566A (zh) 一种基于共振峰频率的汉语普通话复韵母可视化方法
CN104427125A (zh) 一种接听来电的方法及移动终端
CN107274886B (zh) 一种语音识别方法和装置
CN112466306B (zh) 会议纪要生成方法、装置、计算机设备及存储介质
TW201102836A (en) Content adaptive multimedia processing system and method for the same
KR20140093459A (ko) 자동 통역 방법
CN113179444B (zh) 一种基于语音识别的音字同步方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105

RJ01 Rejection of invention patent application after publication