CN117956216A - 一种字幕的展示方法、装置、电子设备和存储介质 - Google Patents
一种字幕的展示方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117956216A CN117956216A CN202211365932.7A CN202211365932A CN117956216A CN 117956216 A CN117956216 A CN 117956216A CN 202211365932 A CN202211365932 A CN 202211365932A CN 117956216 A CN117956216 A CN 117956216A
- Authority
- CN
- China
- Prior art keywords
- keyboard
- interface
- information
- application
- subtitle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 165
- 238000003860 storage Methods 0.000 title claims abstract description 29
- 230000001960 triggered effect Effects 0.000 claims abstract description 64
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000012905 input function Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 35
- 230000000694 effects Effects 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 65
- 230000006870 function Effects 0.000 description 48
- 238000012545 processing Methods 0.000 description 15
- 230000003993 interaction Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000007667 floating Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 208000032041 Hearing impaired Diseases 0.000 description 5
- 239000000725 suspension Substances 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000007084 physiological dysfunction Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及互联网技术领域,尤其涉及一种字幕的展示方法、装置、电子设备和存储介质,用以提出一种针对多媒体内容的字幕展示方法,高效便捷的实现多媒体内容的播放。其中,方法包括:呈现第一应用的播放界面,并通过播放界面播放多媒体内容;响应于通过目标应用触发的键盘调起操作,呈现键盘界面,目标应用为任一具有输入功能的应用;响应于通过键盘界面触发的字幕展示操作,在键盘界面呈现针对多媒体内容的字幕信息,且字幕信息与多媒体内容的当前播放内容同步显示,字幕信息是通过对多媒体内容中的声音信息识别得到的。本申请利用输入法可跨应用调起键盘这一特性,在播放多媒体内容的过程中,通过调起键盘界面同步展示相应的字幕,简单便捷。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种字幕的展示方法、装置、电子设备和存储介质。
背景技术
随着互联网技术的飞速发展,越来越多的应用程序(application,APP)也应运而生。对象可以通过互联网等渠道,随时随地使用各类APP进行娱乐、学习、直播等。
以对象使用视频APP观看直播为例,对于一些特殊对象,如具有听力障碍的对象(简称听障对象)而言,由于这些对象自身无法或听不清声音,导致直播过程中主播说了什么话,对象是无法听到的,进而失去观看直播的意义。又或者,对象在观看无字幕的视频、收听无字幕的音频等多媒体内容时,受周围环境等的影响无法听清声音时,也会影响对象的使用体验。
在面对上述情形时,目前只能通过两台设备来操作,其中一台设备播放多媒体内容,另一台设备开启语音转文字功能,但这种方式下,对象需要同时观看两台设备,难以同时顾及,且操作复杂。
因而,如何提供一种字幕展示方法,高效便捷的实现多媒体内容的播放是亟待解决的。
发明内容
本申请实施例提供一种字幕的展示方法、装置、电子设备和存储介质,用以提出一种针对多媒体内容的字幕展示方法,高效便捷的实现多媒体内容的播放。
本申请实施例提供的一种字幕的展示方法,包括:
呈现第一应用的播放界面,并通过所述播放界面播放多媒体内容;
响应于通过目标应用触发的键盘调起操作,呈现键盘界面,所述目标应用为任意一个具有输入功能的应用;
响应于通过所述键盘界面触发的字幕展示操作,在所述键盘界面呈现针对所述多媒体内容的字幕信息,且所述字幕信息与所述多媒体内容的当前播放内容同步显示,其中,所述字幕信息是通过对所述多媒体内容中的声音信息进行识别得到的。
本申请实施例提供的一种字幕的展示装置,包括:
第一展示单元,用于呈现第一应用的播放界面,并通过所述播放界面播放多媒体内容;
第二展示单元,用于响应于通过目标应用触发的键盘调起操作,呈现键盘界面,所述目标应用为任意一个具有输入功能的应用;
第三展示单元,用于响应于通过所述键盘界面触发的字幕展示操作,在所述键盘界面呈现针对所述多媒体内容的字幕信息,且所述字幕信息与所述多媒体内容的当前播放内容同步显示,其中,所述字幕信息是通过对所述多媒体内容中的声音信息进行识别得到的。
可选的,若所述目标应用为第一应用,所述第二展示单元具体用于:
响应于通过所述播放界面中的输入区域触发的键盘调起操作,在所述播放界面中,以子界面的形式呈现所述键盘界面。
可选的,所述第一展示单元具体用于:
在第二应用的操作界面中的第一区域,以子界面的形式呈现所述第一应用的播放界面。
若所述目标应用为第二应用,则所述第二展示单元具体用于:
响应于通过所述第二应用触发的键盘调起操作,在所述操作界面中的第二区域,以子界面的形式呈现所述键盘界面。
可选的,所述字幕信息包括字幕文本;所述装置还包括:
字幕应用单元,用于响应于针对所述字幕信息中目标字幕文本的选中操作,及针对目标位置的插入操作,在所述目标位置插入所述目标字幕文本,所述目标位置为任意一个界面中的可插入位置。
可选的,所述键盘界面中显示有虚拟键盘;所述第三展示单元具体用于:
响应于通过所述虚拟键盘触发的字幕展示操作,在所述键盘界面呈现针对所述多媒体内容的字幕信息。
可选的,所述字幕信息包括字幕文本;所述第三展示单元具体用于:
在所述键盘界面展示语音识别状态标识,及针对所述多媒体内容中当前播放内容的字幕文本,所述语音识别状态标识用于表征当前正在对所述多媒体内容进行语音识别。
可选的,所述装置还包括:
查看单元,用于响应于针对所述键盘界面的预设操作,在所述键盘界面中呈现历史字幕信息,所述历史字幕信息为所述键盘界面当前呈现的字幕信息之前已展示的,针对所述多媒体内容的字幕信息。
可选的,所述第三展示单元具体用于:
在所述键盘界面呈现针对所述多媒体内容的第一字幕信息及第二字幕信息;
其中,所述第一字幕信息是对所述多媒体内容进行语音识别得到的,所述第二字幕信息是对所述多媒体内容的语音识别结果进行语种转换得到的。
可选的,若所述多媒体内容对应不同的讲话对象,则所述第三展示单元具体用于:
在所述键盘界面中,通过以下至少一种方式呈现针对不同讲话对象的字幕信息:
针对不同的讲话对象,结合各自的身份标识呈现各自的字幕信息;
针对不同的讲话对象,在所述键盘界面中的不同子区域呈现各自的字幕信息;
针对不同的讲话对象,通过不同样式的聊天框呈现各自的字幕信息。
可选的,所述第三展示单元具体用于:
在所述键盘界面中,基于与所述虚拟键盘的使用对象相匹配的字幕样式,呈现所述针对所述多媒体内容的字幕信息。
可选的,所述第三展示单元还用于:
在所述键盘界面呈现至少一种展示模式,并突出显示当前采用的展示模式;其中,所述展示模式表示所述字幕信息和虚拟键盘在所述键盘界面中的展示方式。
可选的,所述展示模式包括以下至少一种:
展示字幕信息,展示虚拟键盘,展示字幕信息和虚拟键盘。
可选的,所述第三展示单元还用于:
响应于针对所述展示模式的切换操作,若由其他展示模式切换为展示虚拟键盘的展示模式,则在所述键盘界面中展示所述虚拟键盘,并取消所述字幕信息的展示。
可选的,所述第三展示单元具体用于:
若所述目标应用为多媒体类应用,则在所述键盘界面中呈现针对所述多媒体内容的字幕信息;
若所述目标应用为非多媒体类应用,则在所述键盘界面中的字幕区域呈现针对所述多媒体内容的字幕信息,以及在所述键盘界面中的键盘区域呈现所述虚拟键盘。
可选的,所述第三展示单元还用于通过如下方式获得所述字幕信息:
在所述多媒体内容的播放过程中,对所述多媒体内容当前播放的声音信息进行录音;
将录音信息发送给服务器,并接收所述服务器返回的字幕信息,所述字幕信息是所述服务器对所述录音信息进行识别获得的。
可选的,所述第三展示单元还用于:
在所述将录音信息发送给服务器之前,对所述录音信息进行语音活性检测,去除所述录音信息中的无效录音片段,所述无效录音片段为不含有语音的录音片段。
可选的,所述装置还包括:
确定单元,用于在所述第二展示单元响应于通过目标应用触发的键盘调起操作之后,在所述第三展示单元响应于通过所述键盘界面触发的字幕展示操作之前,确定在预设时长内,未曾响应过针对所述键盘界面的字幕展示操作。
可选的,若在所述预设时长内,响应过针对所述键盘界面的字幕展示操作,则所述第二展示单元还用于:
在响应于通过目标应用触发的键盘调起操作之后,呈现键盘界面,并在所述键盘界面呈现针对所述多媒体内容的字幕信息。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种字幕的展示方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种字幕的展示方法的步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种字幕的展示方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种字幕的展示方法、装置、电子设备和存储介质。本申请基于输入法可跨应用调起键盘的独有特性,将字幕展示功能配置于输入法应用中,以键盘的显示区域作为悬浮字幕的载体。进而,即可将第一应用所播放的多媒体内容进行语音识别得到的结果,以字幕信息的形式直接展示在键盘界面中。具体地,在通过第一应用的播放界面播放多媒体内容的基础上,通过任意一个已启动的应用调起键盘界面,进而,即可通过该键盘界面触发字幕展示功能,在键盘界面中展示相应的字幕信息,该过程无需使用两个设备来进行操作,操作简单便捷,且输入法可以在任何应用(具备输入框)之上展示键盘的这一特性,不受设备自身系统版本的限制,具有普适性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中的一种应用场景示意图;
图2为本申请实施例中的一种字幕的展示方法的实施流程图;
图3A为本申请实施例中的一种短视频APP的播放界面示意图;
图3B为本申请实施例中的另一种短视频APP的播放界面示意图;
图3C为本申请实施例中的一种听书APP的播放界面示意图;
图4A为本申请实施例中的一种键盘界面展示方式的示意图;
图4B为本申请实施例中的另一种键盘界面展示方式的示意图;
图5为本申请实施例中的又一种键盘界面展示方式的示意图;
图6A为本申请实施例中的一种提示页面;
图6B为本申请实施例中的一种设置页面;
图7A为本申请实施例中的一种字幕信息的效果图;
图7B为本申请时候中的另一种字幕信息的效果图;
图8为本申请实施例中的一种历史字幕信息的查看方式示意图;
图9为本申请实施例中的一种字幕信息的展示方式示意图;
图10A为本申请实施例中的第一种多讲话对象对应字幕信息的示意图;
图10B为本申请实施例中的第二种多讲话对象对应字幕信息的示意图;
图10C为本申请实施例中的第三种多讲话对象对应字幕信息的示意图;
图11为本申请实施例中的一种展示模式与字幕信息的示意图;
图12A所示,其为本申请实施例中的一种第一展示模式对应的效果图;
图12B为本申请实施例中的另一种第一展示模式对应的效果图;
图13为本申请实施例中的又一种第一展示模式对应的效果图;
图14为本申请实施例中的一种第二展示模式对应的效果图;
图15A为本申请实施例中的一种字幕文本的摘录过程示意图;
图15B为本申请实施例中的另一种字幕文本的摘录过程示意图;
图15C为本申请实施例中的又一种字幕文本的摘录过程示意图;
图16为本申请实施例中的一种展示模式的切换过程示意图;
图17A为本申请实施例中的一种字幕展示场景示意图;
图17B为本申请实施例中的另一种字幕展示场景示意图;
图18为本申请实施例中的又一种字幕展示场景示意图;
图19为本申请实施例中的一种字幕展示过程的交互时序图;
图20为本申请实施例中的一种语音识别过程的交互时序图;
图21为本申请实施例中的一种字幕的展示装置的组成结构示意图;
图22为本申请实施例中的一种电子设备的组成结构示意图;
图23为本申请实施例中的另一种电子设备的组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
多媒体内容:表示网络中可以向外界发布、传递、储存的,组合两种或两种以上媒体的信息内容,使用的媒体包括文字、图片、照片、声音(包含音乐、语音旁白、特殊音效)、动画和影片,以及程式所提供的互动功能等。需要说明的是,本申请中的多媒体内容是包含声音信息的,例如直播、电视、电影、音乐等影音内容。
应用,即应用程序,可以完成某项或多项业务的计算机程序,一般具有可视的显示界面,能与对象进行交互,比如电子地图和日历等都可以称为应用。其中,有些应用需要对象安装到所使用的终端设备上才可以使用,有些则并不需要进行应用安装,例如,某些社交应用中的各个小程序、网页等。小程序不需要下载安装即可使用,对象扫一扫或者搜一下即可打开应用。
多媒体类应用:指具有多媒体内容的播放功能的应用,例如直播APP、听书APP等。
非多媒体类应用:指不具有多媒体内容播放功能的应用,例如备忘录。
字幕信息:字幕是指以文字形式显示电视、电影等多媒体内容中的对话等非影像内容。在本申请实施例中,字幕信息至少包含字幕文本,即对多媒体内容所包含的声音信息进行识别得到的文字,还可进一步显示讲话对象的身份标识等。
键盘界面:是一个面向对象的,用于呈现虚拟键盘的界面。本申请中,基于输入法应用(含第三方输入法应用或系统自带的输入法应用)可跨应用调起键盘的独有特性,对相关技术中的键盘界面进一步进行了开发定制,本申请中的键盘界面不仅可呈现虚拟键盘,还可用于展示字幕信息。
虚拟键盘:并不是键盘实体,而是在“屏幕”上显示的一种虚拟的键盘,也可称作软键盘,通过软件模拟键盘通过鼠标点击输入字符,如图4A中所示的键盘,即为本申请中所列举的一种虚拟键盘。
播放界面:是一个面向对象的,用于播放多媒体内容的界面,该界面中还可设置有输入区域,如评论区、弹幕区等,对象不仅可以通过该界面播放多媒体内容,还可进一步通过输入区域触发键盘调起操作,进而通过虚拟键盘发表弹幕、评论等;此外,还可触发人工智能(Artificial Intelligence,AI)字幕的展示。
操作界面:是一个面向对象的,应用系统和对象之间进行交互和信息交换的媒介,它实现信息的内部形式与人类可以接受形式之间的转换,目的是使得对象能够方便有效率地去操作应用以达成双向之交互,完成所希望借助应用完成之工作。不同应用的操作界面用于向对象展示不同的内容,实现对象与应用之间不同的信息交互。
悬浮字幕:语音转文字后的一种呈现形式,一般以小弹窗的形态悬浮在系统之上(桌面、任意页面)。
视频悬浮控件:一些系统独有的视频控件,该视频控件悬浮在桌面或应用之上,一般承载的是视频内容,可随意拖动位置和改变窗口大小,主要是为了对象一边看视频一边浏览或操作其他应用时使用的。
画中画:iOS14、iOS15系统独有的视频悬浮窗,该悬浮窗悬浮在桌面或应用之上,一般承载的是视频内容,可随意拖动位置和改变窗口大小,主要是为了对象一边看视频一边浏览或操作其他应用时使用的。
语音活性检测(Voice activity detection,VAD):也称为speech activitydetection or speech detection,是一项用于语音处理的技术,目的是检测语音信号是否存在。
下面对本申请实施例的设计思想进行简要介绍:
随着互联网技术的飞速发展,越来越多的APP也应运而生。对象可以通过互联网等渠道,随时随地使用各类APP进行娱乐、学习、直播等。
以对象使用视频APP观看直播为例,在一些特殊场景下,对象无法听清主播在直播过程中所说的内容,进而影响对象的观看体验。
在面对上述情形时,目前在iOS设备中,由于系统限制,A应用之上无法展示B应用的悬浮窗。因此iOS对象(比如听障人群)在同一台设备的A应用(内容平台)中看视频的同时,无法使用B应用的语音转文字功能,即无法“听”到视频中的声音信息,这对于听障群体来说是极大的痛点。
目前听障对象只有两种理论方式“听”视频中的声音信息:
一种是通过两台设备完成看视频和“听”视频信息,但这种方式的设备成本和操作成本太高。
另一种是通过iOS14、iOS15系统自带的视频悬浮控件变相实现的悬浮字幕,但这种受制于系统版本,只能满足某一部分对象(如用户)。
有鉴于此,本申请实施例提出了一种字幕的展示方法、装置、电子设备和存储介质。本申请基于输入法可跨应用调起键盘的独有特性,将字幕展示功能配置于输入法应用中,以键盘的显示区域作为悬浮字幕的载体。进而,即可将第一应用所播放的多媒体内容进行语音识别得到的结果,以字幕信息的形式直接展示在键盘界面中。具体地,在通过第一应用的播放界面播放多媒体内容的基础上,通过任意一个已启动的应用调起键盘界面,进而,即可通过该键盘界面触发字幕展示功能,在键盘界面中展示相应的字幕信息,该过程无需使用两个设备来进行操作,操作简单便捷,且输入法可以在任何应用(具备输入框)之上展示键盘的这一特性,不受设备自身系统版本的限制,具有普适性。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。
在本申请实施例中,终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有字幕展示相关的应用,该应用可以是软件(例如浏览器、视频APP、听书APP、音频APP等),也可以是网页、小程序等,服务器120则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行字幕展示的服务器,本申请不做具体限定。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请各实施例中的字幕的展示方法可以由电子设备执行,该电子设备可以为终端设备110或者服务器120,即,该方法可以由终端设备110或者服务器120单独执行,也可以由终端设备110和服务器120共同执行。例如终端设备110上安装有多个应用,其中第一应用为多媒体类应用,可用于播放多媒体内容。具体的,首先在终端设备110上启动第一应用,并通过第一应用播放多媒体内容,继而,通过该终端设备上任意一个已启动的,具有输入功能的应用,即可调起键盘界面。进而,即可通过键盘界面触发字幕展示的功能,该情况下,还可进一步启用输入法应用的录音功能(若具有录音权限则无需重复启用该功能),对当前播放的多媒体内容进行录音,并将录音信息发送给服务器,由服务器对接收到的录音进行语音识别,转换为文字,并返回给终端设备,以通过终端设备,在该键盘界面中实时展示针对当前所播放的多媒体内容的字幕信息。
其中,服务器对录音转文字获得的结果发送给终端设备时,具体可以先发送给终端设备上安装的输入法应用,继而通过输入法应用发送给输入法宿主应用,即触发调起键盘的目标应用,进而呈现在键盘界面的。
在一种可选的实施方式中,终端设备110与服务器120之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。
需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。
本申请实施例中,当服务器的数量为多个时,多个服务器可组成为一区块链,而服务器为区块链上的节点;如本申请实施例所公开的字幕的展示方法,其中所涉及的相关数据都可保存于区块链上,例如,字幕信息、录音信息等。
此外,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的字幕的展示方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参阅图2所示,为本申请实施例中的一种字幕的展示方法的实施流程图,以终端设备为执行主体为例,该方法的具体实施流程如下:
S21:终端设备呈现第一应用的播放界面,并通过播放界面播放多媒体内容。
其中,第一应用为多媒体类应用,即可以播放多媒体内容的应用,如短视频APP、视频APP、音频APP、听书APP等,本申请中的多媒体内容具体是指含声音信息的内容,如影音作品、直播、有声电子书、音乐等。
以第一应用为短视频APP为例,主播可通过该短视频APP进行直播,观众可通过该短视频APP观看主播直播。本申请实施例中,第一应用的播放界面可以直接在终端设备的桌面中全屏呈现,如图3A所示,其为本申请实施例中的一种短视频APP的播放界面示意图;此外,也可以画中画或小窗等方式呈现。如对象在图3A所示的播放界面的展示状态下,点击Home键(具有回到主屏幕功能的键)后,即可回到终端设备的桌面,以画中画的方式呈现该播放界面,如图3B所示,其为本申请实施例中的另一种短视频APP的播放界面示意图。
又如,以第一应用为听书APP为例,听书APP中有很多娱乐内容、学习内容、有声电子书等,如对象可通过听书APP收听有声电子书,如图3C所示,其为本申请实施例中的一种听书APP的播放界面示意图。
S22:终端设备响应于通过目标应用触发的键盘调起操作,呈现键盘界面。
其中,目标应用为任意一个具有输入功能的应用。
本申请是基于输入法的独有的跨应用调起键盘这一特性,也即输入法可以在具备输入功能(如具备输入框)的任何应用之上展示键盘的,在此底层基础上实现语音转文字功能的。
以终端设备为手机为例,手机中输入法的虚拟键盘可以覆盖在其它App的上面,键盘界面的大小可以调整,且键盘界面内显示的内容可以开发定制。
基于输入法的上述特性,本申请对输入法应用的键盘界面进行了适应性的开发,在键盘界面内显示的内容进行了改进,键盘界面中不仅可以显示虚拟键盘,还可进一步显示用于触发字幕展示操作的按钮、针对多媒体内容的字幕信息等内容。
在实施该步骤时,可通过任意一个已启动的,具有输入功能的应用,即可在终端设备中调用键盘应用,呈现键盘界面。进一步地,即可通过键盘界面触发字幕展示操作,在键盘界面中呈现字幕信息。
需要说明的是,本申请实施例中的字幕的展示方法可适用于各类操作系统,且不受系统版本的限制,本文主要是以iOS系统为例的。
在实际应用中,iOS系统不支持悬浮窗,无法将一个字幕条覆盖在其它APP上面。而使用本申请实施例中的字幕展示方式,借助键盘的显示区域作为字幕的载体,即可实现AI字幕的功能,具体如下:
S23:终端设备响应于通过键盘界面触发的字幕展示操作,在键盘界面呈现针对多媒体内容的字幕信息,且字幕信息与多媒体内容的当前播放内容同步显示。
其中,字幕信息是通过对多媒体内容中的声音信息进行识别得到的。
在本申请实施例中,键盘界面中所显示的字幕信息与该多媒体内容当前的播放画面同步,也即,键盘界面中至少包括针对该多媒体内容当前播放内容的声音信息进行识别得到的语音识别结果,此外还可进一步包括当前播放内容之前的一些声音信息的语音识别结果。
此外,本申请实施例中的字幕信息至少包括对该声音信息进行语音转文字得到的字幕文本,还可进一步包括该多媒体内容中讲话对象的身份标识等信息,以区分不同的讲话对象,等等,本文不做具体限定。
本申请基于输入法可跨应用调起键盘的独有特性,将字幕展示功能配置于输入法应用中,进而,即可将第一应用所播放的多媒体内容进行语音识别得到的结果,以字幕信息的形式直接展示在键盘界面中。该过程无需使用两个设备来进行操作,操作简单便捷,且无需开启过多的进程,可以有效减少性能和设备电量的消耗,减少设备卡顿和发热的情况发生;并且,输入法可以在任何应用(具备输入框)之上展示键盘的这一特性,不受设备自身系统版本的限制,具有普适性。
下面对本申请实施例中的字幕展示方法进行展开说明:
考虑到本申请实施例中的目标应用可以是任意一个具有输入功能的应用,该应用可以是上述第一应用,还可以是除第一应用外的其他具有输入功能的应用,可记作第二应用。下面分情况进行说明:
(一)在目标应用为第一应用时,步骤S22的一种可选的实施方式如下:
终端设备响应于通过播放界面中的输入区域触发的键盘调起操作,在播放界面中,以子界面的形式呈现键盘界面。
其中,输入区域可以是弹幕区、评论区等可调起键盘的区域,也即具有输入功能的区域。
如图4A所示,其为本申请实施例中的一种键盘界面展示方式的示意图。其中,图4A中是以第一应用为直播APP为例的,当前正在播放主播小白的直播,观众可通过左侧所示界面中S4a部分的输入框发表弹幕,虚线框所示的S4a部分即为当前播放界面中的(弹幕)输入区域,对象可点击S4a区域,触发键盘调起操作,进而呈现如右侧所示的界面,其中,键盘界面S41是以子界面的形式呈现在当前播放界面中的,该子界面可以是浮层等形式。
进而,对象即可通过该键盘界面触发相应的字幕展示操作,具体触发方式有很多种,下面简单列举两种:
触发方式一、在图4A中,右侧界面所示的S4b,为本申请实施例中的一种AI字幕的触发按钮,对象可点击该按钮触发字幕展示操作,进而在键盘界面中呈现与第一应用中播放的多媒体内容相关的字幕信息。
其中,图4A中所示的S4b按钮是呈现在键盘界面的一级界面的,当然,该按钮还可以呈现在二级界面或更深层的子级界面中。
触发方式二、如图4B所示,其为本申请实施例中的另一种键盘界面展示方式的示意图。对象点击输入区域触发键盘调起操作后,还可呈现如图4B中左侧所示的界面,其中键盘界面S42即为一级界面,在一级界面中未直接显示AI字幕的触发按钮,需要由对象通过点击S4c所示的S标进一步触发二级界面的展示,如图4B中右侧界面所示,图4B中右侧所示的S4b即为在二级界面中显示的AI字幕的触发按钮,对象可点击该按钮触发字幕展示操作,进而在键盘界面中呈现与第一应用中播放的多媒体内容相关的字幕信息。
上述图4A和图4B中所列举的S4b按钮,为本申请实施例中的一种悬浮字幕入口,即悬浮字幕功能的按钮(UIButton)入口,如图4A中所示,可直接将该入口添加至输入法键盘中的顶部工具栏,也可在打开的二级界面AI服务中加入,如图4B所示。
需要说明的是,上述所列举的几种悬浮字幕入口及相应的字幕展示操作的触发方式都只是简单的举例说明,具体还可以是预设手势触发、语音指令触发等,本文不做具体限定。
(二)该目标应用为第二应用。在该情况下,可在第二应用的操作界面中的第一区域,以子界面的形式呈现第一应用的播放界面。
在目标应用为第二应用时,步骤S22的一种可选的实施方式如下:
响应于通过第二应用触发的键盘调起操作,在操作界面中的第二区域,以子界面的形式呈现键盘界面。例如,第一应用的播放界面可通过画中画的方式,悬浮在第二应用的操作界面中。
需要说明的是,通过第二应用触发的键盘调起操作可以在启动第二应用的同时触发(即设置打开第二应用即可调起键盘),也可由对象通过第二应用中的输入区域触发等等,本文不做具限定。
以第二应用为备忘录为例,参阅图5所示,其为本申请实施例中的又一种键盘界面展示方式的示意图。在图5左侧所示界面中,第一应用的播放界面是以画中画的方式,在终端设备的桌面悬浮显示的,当对象点击桌面中的备忘录,并通过备忘录触发键盘调起操作后,即可呈现图5右侧所示的界面,即备忘录的操作界面,其中,S51所示为第一应用的播放界面,是以子界面的形式,呈现在备忘录的操作界面中的第一区域的,S52所示为键盘界面,也是以子界面的形式,呈现在备忘录的操作界面中的第二区域的。其中,图5中省略了通过第二应用触发键盘调起操作的过程,具体可以是任意一种触发方式,本文不做具体限定,且本申请也不对第一应用的播放界面的展示方式进行具体限定。
在上述实施方式中,通过任意一个带有输入功能的应用,即可调起键盘界面,进而展示字幕信息,基于上述方式,可以有效改善一些具有生理功能障碍的听障群体的生活,丰富他们的娱乐和学习生活,也可以方便对象在一些特殊场景下观看多媒体内容等,为对象们的生活带来极大的便利。
此外,该方式的实施无需多台设备,如,只需要一台手机即可完成任意视频应用上开启悬浮字幕。且,本申请中的字幕信息是可以悬浮在系统桌面之上的,所以可以在任何时候解锁屏幕即可看到悬浮字幕中的声音转文字信息,而该过程也不需要来回打开应用,在多个应用之间来回切换,路径短操作简单,整体体验更优。
在目标应用为第二应用时,既可以是对象直接通过第二应用首次触发字幕展示操作的情况,也可以是对象通过第一应用首次触发字幕展示操作后,从第一应用(多媒体类应用,如短视频APP)切换到第二应用(其它应用,如备忘录)的情况,本文不做具体限定。
例如由短视频APP切换到备忘录为例,短视频APP的直播间有评论框(输入框),此时对象点击输入框(调起输入法键盘),再找到更多功能-AI字幕功能,即可开启悬浮字幕(即开启语音转文字功能),对象便可一边看视频一边实时“听”视频中声音信息,而不在需要退出当前应用回到桌面,再找到语音转文字的应用并打开,再回到视频直播应用中。
可选的,在响应于通过目标应用触发的键盘调起操作之后,响应于通过键盘界面触发的字幕展示操作之前,还需确定本次的字幕展示操作为在预设时长内,针对键盘界面触发的第一次字幕展示操作,也即确定在预设时长内,未曾响应过针对键盘界面的字幕展示操作。
如目标应用为第一应用,且在预设时长(如预设时长为1个小时)内,通过目标应用触发的字幕展示操作为首次,即可在响应该触发操作后再呈现键盘界面。
若本次字幕展示操作并非预设时长内,针对键盘界面触发的第一次字幕展示操作,则无需重复触发,也即在响应于通过目标应用触发的键盘调起操作之后,可直接呈现键盘界面,并在键盘界面呈现针对多媒体内容的字幕信息。
如对象通过第一应用触发字幕展示操作后,回到桌面,将第一应用切换为画中画方式显示,之后,在预设时长内又通过第二应用再次调起键盘,该方式下,则无需重复触发字幕展示操作,通过第二应用激活输入法时,即可直接呈现键盘界面,并在键盘界面呈现针对多媒体内容的字幕信息。
需要说明的是,上述方式的设定可有效减小对象触发操作的次数,提高效率。
可选的,在键盘界面中显示有虚拟键盘的情况下,步骤S23的一种可选的实施方式为:响应于通过虚拟键盘触发的字幕展示操作,在键盘界面呈现针对多媒体内容的字幕信息。
如图4A中,通过点击虚拟键盘顶部工具栏中的AI字幕按钮S4b,即可触发字幕展示操作,在键盘界面呈现针对多媒体内容的字幕信息;又如图4B中,通过点击虚拟键盘对应的二级界面中的AI字幕按钮S4b,即可触发字幕展示操作,在键盘界面呈现针对多媒体内容的字幕信息,等等。
在上述实施方式中,通过对输入法对应的键盘界面的开发定制,可在虚拟键盘中配置相应的AI字幕按钮,以便对象可以快速触发AI字幕功能,查看字幕信息。
此外,在应用于iOS系统的情况下,对象触发AI字幕功能,如点击悬浮字幕按钮的时候,需判断对象是否有完全访问权限,判断逻辑核心代码如下:
需要说明的是,上述所列举的判断逻辑核心代码只是本申请实施例给出的一种完全访问权限的判断方式,其他可实现完全访问权限判断逻辑的代码同样适用于本申请实施例,在此不做具体限定。
在对象具有完全访问权限的情况下,则可继续执行后续步骤,如果对象没有完全访问权限的情况下,则直接请求对象授权完全访问权限。
如图6A所示,为本申请实施例中的一种提示页面,提示通过2步开启语音输入:首先点击[键盘],进而开启[允许完全访问]。
若对象点击图6A所示的[立即开启],则直接跳转系统开启完全访问设置页面去开启。如图6B所示,其为本申请实施例中的一种设置页面,以SX输入法APP为例,具体的跳转过程,所需调用核心代码如下:
[self openURL:settingUrl completionHandler:nil]
其中,openURL为iOS中实现页面跳转的接口。
需要说明的是,上述针对权限的设置只是简单举例,具体应用过程中需要根据实际系统及需求而定,本文不做具体限定。
本申请中,在键盘界面展示的字幕信息的样式可根据实际需求灵活设置,本文中是以整个形态为黑底白字为例的,且该部分是置于屏幕的底部的,用以避开主播头像,当然,其他合适的位置也同样适用,本文不做具体限定。
参阅图7A所示,其为本申请实施例中的一种字幕信息的效果图。其中,图7A是以第一应用为可用于直播的短视频APP为例的,在播放直播的过程中,在该播放界面底部以黑底白字的形式,展示了相关的字幕,如图7A中的“我年轻时候就用这个面膜补水哈,朋友们如果喜欢的话,就赶紧点下面购买入口”。
可选的,字幕信息至少包括字幕文本,除了在键盘界面中展示当前播放内容的字幕文本之外,为了便于对象了解当前多媒体内容的识别状态,还可进一步显示在键盘界面中展示语音识别状态标识,该标识用于表征当前正在对该多媒体内容进行语音识别。
如图7B所示,其为本申请时候中的另一种字幕信息的效果图。其中,图7B是以第一应用为听书APP为例的,在播放有声电子书的过程中,对象可通过在播放界面中点击评论框(即调起输入法键盘),进而再找到AI字幕功能,即可在当前播放界面开启悬浮字幕的功能,在该播放界面底部以黑底白字的形式,展示相关的字幕,如图7B中的“只见那小伙嗖的一下冲了过去,把那老头搀扶起来,并拍了拍身上”,其中,图7B中虚线框标记的S70,即为本申请实施例中的一种语音识别状态标识,在播放界面中有讲话对象讲话时,该标识可闪烁,以提示对象当前正在进行语音识别。
对于一些特殊对象而言,这些对象可能会由于该类APP在播放内容时并不展示对应的文字信息,导致不知道当前收听的是什么内容,甚至会放弃该类APP的使用,而基于本申请中的方法,即可解决上述问题,对象可通过悬浮字幕实时“听”到有声的内容,满足对象的生活和学习的需求等。
可选的,键盘界面中的字幕区域可仅展示最近两行文字结果,如有新的文字结果则将前者上移,此外,对象也可以在字幕区域执行预设操作,来回看历史记录,方便对象更全更准确的理解声音信息。
一种可选的实施方式为,响应于针对键盘界面的预设操作,在键盘界面中呈现历史字幕信息,历史字幕信息为键盘界面当前呈现的字幕信息之前已展示的,针对多媒体内容的字幕信息。
在本申请实施例中,预设操作可以是语音指令、预设手势操作、长按、滑动、针对界面中预设按钮的点击操作等,本文不做具体限定。
下面以预设操作为下滑为例,如图8所示,其为本申请实施例中的一种历史字幕信息的查看方式示意图。图8中上方的键盘界面所呈现的为多媒体内容当前视频画面相关的两行文字结果,对象想要查看之前主播所说的话时,可通过针对键盘界面中任意位置(也可以是设定区域)触发的下滑操作,下拉查看历史字幕信息。如图8中下方的键盘界面所示,通过下滑查看了当前之前的三行字幕文本。若对象还想要继续查看其它历史字幕信息时,可进一步下滑;此外,对象还可通过上滑将不想看的字幕信息进行上移等。
在上述实施方式中,对象滑动字幕回看历史时,并不会触发键盘界面的移动,操作更加顺畅,整体体验更优。
需要说明的是,上述所列举的查看历史字幕信息的方式只是举例说明,任何一种基于针对键盘界面的预设操作查看历史字幕信息的方式都适用于本申请实施例,在此不做具体限定。
此外需要说明的是,上述所列举的样式也只是简单的举例说明,实际上字幕区域的大小、文字颜色、字体、背景颜色、字号等样式都可由对象根据自身需求自行设置,本文不做具体限定。并且该方案不受iOS系统版本限制,因此可以在iOS任意版本中任意应用中使用该悬浮字幕功能。
除了上述可查看历史字幕信息的功能外,本申请还进一步增加了翻译字幕的功能。
在本申请中,对多媒体内容的语音识别,是指将多媒体内容中的声音信息转换为初始语言(指多媒体内容的声音信息所对应的语言)的文本,除此之外,为了便于对象理解和查看,还可进一步对语音识别结果进行翻译,一种可选的实施方式为:
在键盘界面呈现针对多媒体内容的第一字幕信息及第二字幕信息。
其中,第一字幕信息是对多媒体内容进行语音识别得到的,即初始语言的语音识别结果,第二字幕信息是对多媒体内容的语音识别结果进行语种转换得到的,即相关的翻译结果,具体可转换的语种可自行设置,也可根据对象的输入习惯智能设置等,本文不做具体限定。本申请中为简单区分,翻译后的语言可记作目标语言。
例如,在主播说话时,通过进行声音识别和语义识别(统称为语音识别),获得第一文字结果,对应第一字幕信息,此外还可设定其他语种识别比如:中文语音转为英文,英文语音转中文等等),获得第二文字结果,对应第二字幕信息。
需要说明的是,第一字幕信息和第二字幕信息可以同时呈现,也可默认只呈现第一字幕信息,在对象需要查看第二字幕信息时,再触发第二字幕信息的呈现。具体的触发方式有很多,如设置一个“查看翻译文本”的按钮,由对象点击触发,又或者是语音触发等,本文不做具体限定。
下面以第一字幕信息和第二字幕信息同时呈现为例,比如显示英文的同时显示中文。如图9所示,其为本申请实施例中的一种字幕信息的展示方式示意图。图9是以初始语言为中文,目标语言为英文为例简单示例的。其中,键盘界面中虚线上方的即为第一字幕信息,虚线下方的即为对第一字幕信息进行语种转换得到的第二字幕信息。
需要说明的是,上述所列举的第一字幕信息和第二字幕信息的展示方式只是简单的举例说明,任何一种相关的展示方式都适用于本申请实施例,在此不做具体限定。
上述都是以该多媒体内容中包含一个讲话对象为例的,讲话对象即该内容中讲话的对象,如主播、演员、虚拟人物、动画角色、旁白等。在很多情况下,实际一段声音信息中可存在多个讲话对象。
可选的,若多媒体内容对应不同的讲话对象,则在键盘界面可通过不同的方式,对不同讲话对象所说的内容进行区别显示,基于此,可通过以下至少一种方式,在键盘界面中呈现针对不同讲话对象的字幕信息:
呈现方式一、针对不同的讲话对象,结合各自的身份标识呈现各自的字幕信息。
其中,身份标识指用于唯一标识该讲话对象身份的信息,可以是头像、昵称、名称等。
参阅图10A所示,其为本申请实施例中的第一种多讲话对象对应字幕信息的示意图。其中,虚线框S100中的内容为本申请中所列举的一种身份标识的示例,如讲话人A为一个讲话对象,讲话人B为一个讲话对象,讲话人C为又一个讲话对象。
呈现方式二、针对不同的讲话对象,在键盘界面中的不同子区域呈现各自的字幕信息。
参阅图10B所示,其为本申请实施例中的第二种多讲话对象对应字幕信息的示意图。其中,图10B是以两个讲话对象为例,可采用类似聊天界面的方式,呈现不同讲话对象的字幕信息,如讲话人A的字幕在键盘界面中的左侧子区域显示,讲话人B的字幕在键盘界面中的右侧子区域显示,通过左右对话气泡(聊天框的一种)的方式区分不同的讲话对象。
此外,也可将呈现方式二与呈现方式一组合使用,如图10B中,除了分区域呈现各讲话对象的字幕信息外,还进一步呈现了各自的身份标识,如通过矩形框表示的讲话人A、讲话人B。
呈现方式三、针对不同的讲话对象,通过不同样式的聊天框呈现各自的字幕信息。
其中,聊天框是键盘界面中用于呈现各条字幕信息的,聊天框的样式具体可以指聊天框的形状、聊天框的颜色及聊天框内文字的颜色(一般与聊天框的颜色相关)等。
参阅图10C所示,其为本申请实施例中的第三种多讲话对象对应字幕信息的示意图。其中,图10C列举了三个讲话对象,不同的讲话对象对应的聊天框的样式不同。
此外,也可将呈现方式三与呈现方式一组合使用,如图10C中,除了通过不同聊天框区别呈现各讲话对象的字幕信息外,还进一步呈现了各自的身份标识,如通过矩形框表示的讲话人A、讲话人B、讲话人C。
需要说明的是,上述所列举的几种呈现方式还可两两组合,或三个组合使用,本文不做具体限定。
在上述实施方式中,通过不同的字幕呈现方式,来键盘界面中展示不同讲话对象的字幕信息,可便于对象快速区分不同的讲话对象,更加便捷的了解多媒体内容。
可选的,在键盘界面呈现针对多媒体内容的字幕信息时,还可基于与虚拟键盘的使用对象相匹配的字幕样式来呈现。
其中,字幕样式可以指字幕文本的文字颜色、文字字体、字号等。
本申请中,可根据输入法的使用对象的个人属性,如对象的年龄、性别等,匹配适宜的字幕样式。如男性匹配的字幕文本的颜色偏蓝,女性匹配的字幕文本的颜色偏粉;又如,老人匹配的字幕文本的字体偏大,等等;本文不做具体限定。
此外,还可结合使用对象的个人属性,将语音识别结果进行词库匹配,基于对象的常用词库,对语音识别结果进行匹配或纠正,如语音识别结果为A词语,根据对象的常用词库,纠正为B词语,等等。
基于上述实施方式,可以保证生成的字幕信息更加贴合对象的个人习惯,体验更佳。
并且,在当前播放多媒体内容的声音过大的情况下,还可提示声音过大,如在界面中显示弹窗提示“当前播放音量过大”等,以向对象进行提示。
本申请中,在上述基础上,还可设置针对键盘界面的不同展示模式,以适用于各种不同的应用界面,便于对象更加清晰的查看字幕信息的同时,不影响多媒体内容的观看。
一种可选的实施方式为,除了在键盘界面呈现针对多媒体内容的字幕信息,还进一步呈现至少一种展示模式,并突出显示当前采用的展示模式。
其中,展示模式表示字幕信息和虚拟键盘在键盘界面中的展示方式,包括但不限于以下至少一种:
第一展示模式(即字幕模式)、第二展示模式(即键盘+字幕模式)、第三展示模式(即(回到)键盘模式)。
例如图11所示,其为本申请实施例中的一种展示模式与字幕信息的示意图。图11中虚线上方为一种键盘界面的示例,表示在字幕信息的底部(也可以是键盘界面中的其它位置),通过不同的模式按钮来表征不同的展示模式,如果对象还想输入文字,或者不想再使用虚拟键盘,又或者不想再查看字幕信息等时,则可点击字幕底部的模式按钮切换相应的展示模式。虚线下方是为了方便介绍各类展示模式,将各模式按钮放大的效果示意,其中,第一个模式按钮为回到键盘模式,也即第三展示模式;第二个模式按钮为字幕模式,也即第一展示模式,第三个模式按钮为键盘+字幕模式,也即第二键盘模式。
其中,本文是以加粗显示模式按钮的方式,来突出显示当前采用的展示模式,除此之外,还可以采用高亮、放大等方式,本文不做具体限定。
下面分别对各种展示模式进行说明:
一、第一展示模式:展示字幕信息,表示在键盘界面中只展示字幕信息,不展示虚拟键盘。
参阅图12A所示,其为本申请实施例中的一种第一展示模式对应的效果图。以短视频APP为例,在使用短视频APP直播时,可采用图12A所示的方式,在键盘界面中只展示字幕信息,不展示虚拟键盘。
参阅图12B所示,其为本申请实施例中的另一种第一展示模式对应的效果图。仍以短视频APP为例,在使用短视频APP直播时,还可采用图12B所示的方式,在键盘界面中只展示字幕信息,不展示虚拟键盘。但是,为了方便对象发表弹幕、评论等,进一步在字幕信息之上展示输入框,支持对象输入文字,使得对象可以一边“听”多媒体内容,一边做笔记或聊天或发送弹幕、发布评论等。
可选的,除了点击底部不同的模式按钮进行模式切换外,对象点击输入框时,也可触发由第一展示模式到第二展示模式的切换操作,进一步呈现虚拟键盘等,本文不做具体限定。
参阅图13所示,其为本申请实施例中的又一种第一展示模式对应的效果图。图13是以备忘录为例,在使用短视频APP直播时,可将直播的播放界面通过画中画的方式,显示在备忘录的操作界面中的第一区域S131的,在该操作界面中的第二区域S132,进一步展示字幕信息,不展示虚拟键盘。
二、第二展示模式(即键盘+字幕模式):展示字幕信息和虚拟键盘,表示在键盘界面中同时展示字幕信息和虚拟键盘。
参阅图14所示,其为本申请实施例中的一种第二展示模式对应的效果图,仍以备忘录为例,在备忘录的操作界面中的第一区域可显示短视频APP的播放界面,在该操作界面中的第二区域中呈现键盘界面,并且,在该键盘界面中的键盘区域S142呈现虚拟键盘,在字幕区域S141呈现字幕信息。
该模式支持对象输入文字,使得对象可以一边“听”多媒体内容,一边做笔记或聊天或发送弹幕、发布评论等。
本申请中的字幕信息至少包括字幕文本,在上述所列举的第一展示模式和第二展示模式下,还可进一步将键盘界面中显示的AI字幕进行摘录,如在内容分享APP/备忘录等场景下,摘录字幕信息中的目标字幕文本,这里的目标字幕文本可以是当前键盘界面中所显示的全部字幕文本,也可以由对象自行选择,下文主要是以当前键盘界面中所显示的全部字幕文本为例的。
一种可选的实施方式为,响应于针对字幕信息中目标字幕文本的选中操作,及针对目标位置的插入操作,在目标位置插入目标字幕文本。
其中,该目标位置为任意一个界面中的可插入位置,如可以是桌面、播放界面、键盘界面、操作界面等中的任意一个可粘贴文字的位置,由对象自行选择即可,本文不做具体限定。
参阅图15A-图15C所示,其为本申请实施例中的几种字幕文本的摘录过程示意图。
如,在图15A中左侧所示界面,键盘界面中还可进一步显示有复制按钮,对象可通过该复制按钮,触发针对字幕信息中目标字幕文本的选中操作,复制当前键盘界面中的字幕信息,并呈现如图15A中右侧所示的界面,提示“当前字幕复制成功”。
进而,对象在备忘录中的目标位置(如图15B中左侧界面所示)进行长按,弹出图15B右侧界面所示的操作提示,提示选择、粘贴、全选等。
如图15C所示,当对象选择粘贴时,即可触发相应的插入操作,将从键盘界面中复制到备忘录中。
上述是以目标字幕文本为当前键盘界面中所呈现的全部字幕文本为例的,此外,对象也可在点击复制按钮后,自行选择所需的一部分字幕文本;并且,除上述通过复制按钮进行选择的方式外,对象还可通过长按等方式进行选择,本文不做具体限定。
需要说明的是,上述是以复制到操作界面中的目标位置为例的,该目标位置还可是键盘界面中的输入框、播放界面或桌面中的可编辑区域等,通过该方式,可选择字幕中的文本复制到输入框中进行加工输出。
第三展示模式(即键盘模式):展示虚拟键盘,表示在键盘界面中只展示虚拟键盘,不展示字幕信息。
如图4A右侧所示的界面、图4B左侧所示的界面等,图5右侧所示的界面等,都是只展示虚拟键盘。未展示字幕信息的展示模式。
在上述实施方式中,不同展示模式可由对象自由切换,适用于对象的各种需求,且无需进行各种应用之间的切换,简单便捷,具有普适性。
可选的,在由其它展示模式切换为第三展示模式的情况下:
响应于针对展示模式的切换操作,若由其他展示模式切换为展示虚拟键盘的展示模式,则在键盘界面中展示虚拟键盘,并取消字幕信息的展示。
参阅图16所示,其为本申请实施例中的一种展示模式的切换过程示意图。
如图16所示,当前所采用的展示模式为上述所列举的第二展示模式,即在键盘界面中同时展示字幕信息和虚拟键盘,当对象点击第三展示模式按钮时,即可由第二展示模式切换为第三展示模式,切换为如图16右侧所示的界面,仅在键盘界面中呈现虚拟键盘,而不再呈现字幕信息。
在该情况下,若对象之后仍想查看字幕信息,则需要由对象重新触发字幕展示操作,如可进一步通过字幕展示按钮等触发AI字幕功能的启动,等等。
本申请中,字幕信息和虚拟键盘的展示模式可以在上述基础让对象自由切换,除了点击键盘界面底部的模式按钮进行模式切换外,也可采用其他切换方式,本文不做具体限定。
可选的,第一展示模式需要执行的核心代码为:
[self hiddenKeyboardView];//隐藏虚拟键盘view
[self showSuspensionView];//展示悬浮字幕view
第二展示模式需要执行的核心代码为:
[self showKeyboardView];//展示虚拟键盘view
[self showSuspensionView];//展示悬浮字幕view
第三展示模式需要执行的核心代码为:
[self showKeyboardView];//展示虚拟键盘view
[self hiddenSuspensionView];//隐藏悬浮字幕view
需要说明的是,上述所列举的代码只是简单举例说明,本文不做具体限定。
上述实施例中,对象触发字幕展示操作后,并未限定具体是采用第一展示模式和第二展示模式。可选的,还可结合不同应用的功能特性,将目标应用分为多媒体类应用和非多媒体类应用,针对不同类型的应用,采用不同的展示模式。其中,多媒体类应用指可以播放多媒体内容(含声音信息)的应用,例如视频类应用、音频类应用等;非多媒体类应用则是指不可播放多媒体内容的应用,例如备忘录等。
针对不同类型的应用,采用不同的展示模式时,一种可选的实施方式如下:
若目标应用为多媒体类应用,则默认采用第一展示模式,即在键盘界面中呈现针对多媒体内容的字幕信息。
若目标应用为非多媒体类应用,则默认采用第二展示模式,即在键盘界面中的字幕区域呈现针对多媒体内容的字幕信息,以及在键盘界面中的键盘区域呈现虚拟键盘。
以目标应用为多媒体类应用为例,如图12A或图12B所示,在对象触发AI字幕功能后,呈现如图12A或图12B所示的界面,键盘界面以子界面的形式,悬浮于目标应用的播放界面底部,并且,仅在键盘界面中呈现字幕信息,而不展示虚拟键盘,以尽可能减少悬浮的键盘界面对播放界面中画面的遮挡。
上述都是以目标应用为直播APP为例的,又如,目标应用还可以为内容分享APP,对象们可在内容分享平台发布一些内容记录日常生活的视频,该情况下,对象浏览某一视频时,可直接播放该视频,也可通过小窗等方式呈现播放界面来播放视频,在此基础上,对象还可通过点击评论区触发字幕展示操作,进而在浏览视频的过程中,通过键盘界面查看相关的字幕信息。如图17A所示,其为本申请实施例中的一种字幕展示场景示意图,图17A中是以直接在内容分享模块中播放某一视频为例,该情况下,对象点击评论调起键盘界面,并通过键盘界面触发字幕展示操作后(图17A中省略了字幕展示操作的触发过程),即可呈现如图17A右侧界面,在底部展示字幕信息。
又如,通过小窗等方式,在目标应用中悬浮播放直播视频时,如图17B所示,其为本申请实施例中的另一种字幕展示场景示意图,图17A中以目标应用为聊天APP为例,在此基础上,对象还可通过点击输入区触发字幕展示操作,进而在浏览视频的过程中,通过键盘界面查看相关的字幕信息。
此外,在图17B所示的基础上,对象还可将字幕信息粘贴至聊天界面的输入框中,如图18所示,其为本申请实施例中的又一种字幕展示场景示意图,通过该功能可以使对象快速编辑、发布聊天消息。
在上述实施方式中,针对多媒体类应用,采用第一展示方式呈现字幕信息,可在播放多媒体内容并呈现字幕的同时,有效减少针对所播放多媒体内容的遮挡。
以目标应用为非多媒体类应用为例,在对象触发AI字幕功能后,可呈现如图14所示的界面,键盘界面以子界面的形式,悬浮于目标应用的播放界面底部,并且,在键盘界面中呈现字幕信息和虚拟键盘,不仅便于对象查看多媒体内容及相关字幕,还可便于对象通过虚拟键盘编辑相关内容,操作简单便捷。
需要说明的是,上述所列举的几种应用场景只是简单的举例说明,本文不做具体限定。
下面对本申请实施例中字幕信息的获取方式进行说明:
可选的,字幕信息可由服务器进行语音识别得到,终端设备在多媒体内容的播放过程中,可对多媒体内容当前播放的声音信息进行录音;进而,将录音信息发送给服务器;服务器接收到终端设备发送的录音信息后,即可进行语音识别,如采用自动语音识别(Automated Speech Recognition,ASR)技术,将录音信息转为文字,获得语音识别结果,并将语音识别结果返回给终端设备;终端设备在接收到服务器返回的语音识别结果后,在键盘界面呈现相应的字幕信息。
在将录音信息转文本时,服务器还可结合输入法的使用对象的个人属性,将语音识别结果进行词库匹配,基于对象的常用词库,对语音识别结果进行匹配或纠正,具体可参见上述实施例,重复之处不再赘述。
可选的,终端设备在将录音信息发送给服务器之前,还可对录音信息进行VAD处理,去除录音信息中的无效录音片段(即不含有语音的录音片段),进而,仅将含有语音的有效录音片段发送给服务器进行语音识别,以提高服务器的处理效率。
下面对本申请中终端设备与服务器的交互进行详细说明:
参阅图19所示,其为本申请实施例中的一种字幕展示过程的交互时序图。该交互图中是以终端设备上所安装的宿主APP(即上述中的目标应用)、输入法APP及服务器这三方之间的交互为例进行举例说明的,该方法的具体实施流程可分为两大部分:
(一)启动语音:
本申请利用了键盘能常驻系统前台的特性,对象在虚拟键盘上点击AI字幕按钮的情况下,终端设备接收到点击事件之后,启动输入法APP,进而输入法APP保持后台运行,并返回宿主APP,该部分可通过上述所列举的openURL来实现。
(二)启动识别:
在本申请中,跳入输入法APP之后,可进一步启动识别,然后跳回宿主APP,以便展示AI悬浮字幕的UI。
其中,本文是以iOS系统为例的,由于iOS工作机制局限,在全屏应用才可以开始录音,输入法键盘不是全屏应用,无法直接开启录音。因而,本申请中从键盘进入AI字幕功能时,可先跳转到输入法的一个全屏页面开启录音后,然后再跳转回到输入法键盘界面即可规避iOS系统的限制。也即,可跳转到输入法APP启动识别,该过程首先需要启动录音,具体地启动过程如下:
可先通过openURL("sogouime://AI_script")接口跳转到输入法APP全屏页面,提示录音权限授权,对象需要同意授权录音,授权成功后开启录音功能。其中,openURL括号中的是跳转的目标页面的别名。
上述语音录音服务的启动过程的关键逻辑核心代码如下:
//获取录音权限
[[AVAudioSession sharedInstance]recordPermission]
//开启录音
AudioQueueStart(mQueue,NULL)
需要说明的是,上述所列举的代码只是举例说明,可根据实际应用灵活调整,本文不做具体限定。
在通过上述过程启动输入法APP的录音权限后,输入法APP保持后台运行,进而可回跳到宿主APP开启展示字幕UI(如图11所列举的界面,在未启动语音识别服务的情况下,该UI中可不显示字幕),进而,启动语音识别服务,将语音识别结果上屏展示。
启动识别后,输入法APP即可启动录音,返回启动录音状态结果并返回宿主APP,再通过宿主APP开启识别,通过输入法APP发送录音信息至服务器进行语音识别,输入法APP通过服务器获取到语音识别结果之后,通过CFMessagePort传输数据到宿主APP,然后将语音识别结果上屏,展示到键盘的悬浮字幕的字幕区域,为对象实现了AI悬浮字幕服务。
具体地,首先回跳宿主APP开启展示字幕UI:在输入法App中启动录音成功之后需要回跳到宿主APP,进入宿主APP之后,键盘端收到跳回宿主APP的消息可直接在键盘界面中,将字幕的view加载出来进行显示,相关的执行代码如下:
进而,开启实时语音识别:字幕UI展示完成之后,通过CFMessagePort将信息传递到输入法APP,在输入法APP启动识别服务核心代码如下:
//键盘端发送消息到输入法APP
CFMessagePortSendRequest(remotePort,messageID,sendData,0,0,NULL,NULL);
//输入法APP启动语音识别服务
[[SogouSpeechAPI sharedInstance]
startSpeechRecognitionWithMode:zh-cn-code]
进而,执行ASR:输入法APP启动识别服务成功之后,通过系统的录音接口获取到正在播放的音视频播放声音后,将录音数据(也即录音信息)以每500毫秒的音频数据使用opus算法进行压缩处理并发送到服务器,服务器接受到音频数据后,使用腾讯AI交互部的录音转文字功能识别录音中的语音内容,转成文字,将文字作为语音识别结果发回给输入法APP。
其中,opus是一种音频有损压缩格式,具有音频占用空间少,保真度较高的特点,除此之外,也可采用其他压缩格式,本文不做具体限定。
需要说明的是,本申请中的ASR识别过程,不仅可以针对当前播放多媒体内容的识别,还可进一步识别话外音、内录外录等,相关的识别结果也可作为第三字幕信息进行展示,本文不做具体限定。
进而,进行字幕展示:当语音识别结果返回时,输入法APP将语音识别结果通过CGMessagePort传递到键盘中,然后键盘将结果进行展示。核心代码如下:
//App传递结果到键盘通信代码
CFMessagePortSendRequest(remotePort,messageID,sendData,0,0,NULL,NULL);
//字幕区域展示字幕
myLabel.text=sendData.finalResult
需要说明的是,上述所列举的代码只是举例说明,本文不做具体限定。
下面以终端设备为手机为例,对上述所列举的语音识别过程进行简单说明:
参阅图20所示,其为本申请实施例中的一种语音识别过程的交互时序图。该交互图中是以对象、手机和服务器这三方之间的交互为例进行举例说明的,以目标应用为第一应用,第一应用为音视频APP为例,语音识别的流程如下:
1.对象打开手机中音视频APP;
2.使用VAD技术对语音进行检测;
3.手机截取有效音频(即含有语音的录音片段)发送到服务器(具体可通过http发送到服务器);
4.语音识别;
具体的,服务器上有ASR语音识别服务,可将语音转成文字,然后发送到对象手机上。
5.服务器将识别出来的文字发送到手机;
6.手机将文字显示在字幕区域。
需要说明的是,上述所列举的交互过程只是简单的举例说明,本文不做具体限定。
此外可以理解的是,在本申请的具体实施方式中,涉及到对象的输入属性等与对象相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
基于相同的发明构思,本申请实施例还提供一种字幕的展示装置。如图21所示,其为字幕的展示装置2100的结构示意图,可以包括:
第一展示单元2101,用于呈现第一应用的播放界面,并通过播放界面播放多媒体内容;
第二展示单元2102,用于响应于通过目标应用触发的键盘调起操作,呈现键盘界面,目标应用为任意一个具有输入功能的应用;
第三展示单元2103,用于响应于通过键盘界面触发的字幕展示操作,在键盘界面呈现针对多媒体内容的字幕信息,且字幕信息与多媒体内容的当前播放内容同步显示,其中,字幕信息是通过对多媒体内容中的声音信息进行识别得到的。
可选的,若所述目标应用为第一应用,则第二展示单元2102具体用于:
响应于通过播放界面中的输入区域触发的键盘调起操作,在播放界面中,以子界面的形式呈现键盘界面。
可选的,第一展示单元2101具体用于:
在第二应用的操作界面中的第一区域,以子界面的形式呈现第一应用的播放界面。
若所述目标应用为第二应用,则第二展示单元2102具体用于:
响应于通过第二应用触发的键盘调起操作,在操作界面中的第二区域,以子界面的形式呈现键盘界面。
可选的,键盘界面中显示有虚拟键盘;第三展示单元2103具体用于:
响应于通过虚拟键盘触发的字幕展示操作,在键盘界面呈现针对多媒体内容的字幕信息。
可选的,字幕信息包括字幕文本;装置还包括:
字幕应用单元2104,用于响应于针对字幕信息中目标字幕文本的选中操作,及针对目标位置的插入操作,在目标位置插入目标字幕文本,目标位置为任意一个界面中的可插入位置。
可选的,字幕信息包括字幕文本;第三展示单元2103具体用于:
在键盘界面展示语音识别状态标识,及针对多媒体内容中当前播放内容的字幕文本,语音识别状态标识用于表征当前正在对多媒体内容进行语音识别。
可选的,装置还包括:
查看单元2105,用于响应于针对键盘界面的预设操作,在键盘界面中呈现历史字幕信息,历史字幕信息为键盘界面当前呈现的字幕信息之前已展示的,针对多媒体内容的字幕信息。
可选的,第三展示单元2103具体用于:
在键盘界面呈现针对多媒体内容的第一字幕信息及第二字幕信息;
其中,第一字幕信息是对多媒体内容进行语音识别得到的,第二字幕信息是对多媒体内容的语音识别结果进行语种转换得到的。
可选的,若多媒体内容对应不同的讲话对象,则第三展示单元2103具体用于:
在键盘界面中,通过以下至少一种方式呈现针对不同讲话对象的字幕信息:
针对不同的讲话对象,结合各自的身份标识呈现各自的字幕信息;
针对不同的讲话对象,在键盘界面中的不同子区域呈现各自的字幕信息;
针对不同的讲话对象,通过不同样式的聊天框呈现各自的字幕信息。
可选的,第三展示单元2103具体用于:
在键盘界面中,基于与虚拟键盘的使用对象相匹配的字幕样式,呈现针对多媒体内容的字幕信息。
可选的,第三展示单元2103还用于:
在键盘界面呈现至少一种展示模式,并突出显示当前采用的展示模式;其中,展示模式表示字幕信息和虚拟键盘在键盘界面中的展示方式。
可选的,展示模式包括以下至少一种:
展示字幕信息,展示虚拟键盘,展示字幕信息和虚拟键盘。
可选的,第三展示单元2103还用于:
响应于针对展示模式的切换操作,若由其他展示模式切换为展示虚拟键盘的展示模式,则在键盘界面中展示虚拟键盘,并取消字幕信息的展示。
可选的,第三展示单元2103具体用于:
若目标应用为多媒体类应用,则在键盘界面中呈现针对多媒体内容的字幕信息;
若目标应用为非多媒体类应用,则在键盘界面中的字幕区域呈现针对多媒体内容的字幕信息,以及在键盘界面中的键盘区域呈现虚拟键盘。
可选的,第三展示单元2103还用于通过如下方式获得字幕信息:
在多媒体内容的播放过程中,对多媒体内容当前播放的声音信息进行录音;
将录音信息发送给服务器,并接收服务器返回的字幕信息,字幕信息是服务器对录音信息进行识别获得的。
可选的,第三展示单元2103还用于:
在将录音信息发送给服务器之前,对录音信息进行语音活性检测,去除录音信息中的无效录音片段,无效录音片段为不含有语音的录音片段。
可选的,装置还包括:
确定单元2106,用于在第二展示单元2102响应于通过目标应用触发的键盘调起操作之后,在第三展示单元2103响应于通过键盘界面触发的字幕展示操作之前,确定在预设时长内,未曾响应过针对键盘界面的字幕展示操作。
可选的,若在预设时长内,响应过针对键盘界面的字幕展示操作,则第二展示单元2102还用于:
在响应于通过目标应用触发的键盘调起操作之后,呈现键盘界面,并在键盘界面呈现针对多媒体内容的字幕信息。
在本申请中,基于输入法可跨应用调起键盘的独有特性,将字幕展示功能配置于输入法应用中,进而,即可将第一应用所播放的多媒体内容进行语音识别得到的结果,以字幕信息的形式直接展示在键盘界面中。具体地,在通过第一应用的播放界面播放多媒体内容的基础上,通过任意一个已启动的应用调起键盘界面,进而,即可通过该键盘界面触发字幕展示功能,在键盘界面中展示相应的字幕信息,该过程无需使用两个设备来进行操作,操作简单便捷,且输入法可以在任何应用(具备输入框)之上展示键盘的这一特性,不受设备自身系统版本的限制,具有普适性。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的字幕的展示方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器120。在该实施例中,电子设备的结构可以如图22所示,包括存储器2201,通讯模块2203以及一个或多个处理器2202。
存储器2201,用于存储处理器2202执行的计算机程序。存储器2201可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器2201可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器2201也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器2201是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器2201可以是上述存储器的组合。
处理器2202,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器2202,用于调用存储器2201中存储的计算机程序时实现上述字幕的展示方法。
通讯模块2203用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器2201、通讯模块2203和处理器2202之间的具体连接介质。本申请实施例在图22中以存储器2201和处理器2202之间通过总线2204连接,总线2204在图22中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线2204可以分为地址总线、数据总线、控制总线等。为便于描述,图22中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器2201中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的字幕的展示方法。处理器2202用于执行上述的字幕的展示方法,如图2所示。
在另一种实施例中,电子设备也可以是其他电子设备,如图1所示的终端设备110。在该实施例中,电子设备的结构可以如图23所示,包括:通信组件2310、存储器2320、显示单元2330、摄像头2340、传感器2350、音频电路2360、蓝牙模块2370、处理器2380等部件。
通信组件2310用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助用户收发信息。
存储器2320可用于存储软件程序及数据。处理器2380通过运行存储在存储器2320的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。存储器2320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器2320存储有使得终端设备110能运行的操作系统。本申请中存储器2320可以存储操作系统及各种应用程序,还可以存储执行本申请实施例字幕的展示方法的计算机程序。
显示单元2330还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元2330可以包括设置在终端设备110正面的显示屏2332。其中,显示屏2332可以采用液晶显示器、发光二极管等形式来配置。显示单元2330可以用于显示本申请实施例中的播放界面、操作界面、键盘界面等。
显示单元2330还可用于接收输入的数字或字符信息,产生与终端设备110的用户设置以及功能控制有关的信号输入,具体地,显示单元2330可以包括设置在终端设备110正面的触控屏2331,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触控屏2331可以覆盖在显示屏2332之上,也可以将触控屏2331与显示屏2332集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元2330可以显示应用程序以及对应的操作步骤。
摄像头2340可用于捕获静态图像,用户可以将摄像头2340拍摄的图像通过应用发布。摄像头2340可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器2380转换成数字图像信号。
终端设备还可以包括至少一种传感器2350,比如加速度传感器2351、距离传感器2352、指纹传感器2353、温度传感器2354。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路2360、扬声器2361、传声器2362可提供用户与终端设备110之间的音频接口。音频电路2360可将接收到的音频数据转换后的电信号,传输到扬声器2361,由扬声器2361转换为声音信号输出。终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器2362将收集的声音信号转换为电信号,由音频电路2360接收后转换为音频数据,再将音频数据输出至通信组件2310以发送给比如另一终端设备110,或者将音频数据输出至存储器2320以便进一步处理。
蓝牙模块2370用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块2370与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器2380是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器2320内的软件程序,以及调用存储在存储器2320内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器2380可包括一个或多个处理单元;处理器2380还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器2380中。本申请中处理器2380可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的字幕的展示方法。另外,处理器2380与显示单元2330耦接。
在一些可能的实施方式中,本申请提供的字幕的展示方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的字幕的展示方法中的步骤,例如,电子设备可以执行如图2所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品,该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (22)
1.一种字幕的展示方法,其特征在于,该方法包括:
呈现第一应用的播放界面,并通过所述播放界面播放多媒体内容;
响应于通过目标应用触发的键盘调起操作,呈现键盘界面,所述目标应用为任意一个具有输入功能的应用;
响应于通过所述键盘界面触发的字幕展示操作,在所述键盘界面呈现针对所述多媒体内容的字幕信息,且所述字幕信息与所述多媒体内容的当前播放内容同步显示,其中,所述字幕信息是通过对所述多媒体内容中的声音信息进行识别得到的。
2.如权利要求1所述的方法,其特征在于,若所述目标应用为第一应用,则所述响应于通过目标应用触发的键盘调起操作,呈现键盘界面,包括:
响应于通过所述播放界面中的输入区域触发的键盘调起操作,在所述播放界面中,以子界面的形式呈现所述键盘界面。
3.如权利要求1所述的方法,其特征在于,所述呈现第一应用的播放界面,包括:
在第二应用的操作界面中的第一区域,以子界面的形式呈现所述第一应用的播放界面;
若所述目标应用为第二应用,则所述响应于通过目标应用触发的键盘调起操作,呈现键盘界面,包括:
响应于通过所述第二应用触发的键盘调起操作,在所述操作界面中的第二区域,以子界面的形式呈现所述键盘界面。
4.如权利要求1所述的方法,其特征在于,所述字幕信息包括字幕文本;所述方法还包括:
响应于针对所述字幕信息中目标字幕文本的选中操作,及针对目标位置的插入操作,在所述目标位置插入所述目标字幕文本,所述目标位置为任意一个界面中的可插入位置。
5.如权利要求1所述的方法,其特征在于,所述键盘界面中显示有虚拟键盘;所述响应于通过所述键盘界面触发的字幕展示操作,在所述键盘界面呈现针对所述多媒体内容的字幕信息,包括:
响应于通过所述虚拟键盘触发的字幕展示操作,在所述键盘界面呈现针对所述多媒体内容的字幕信息。
6.如权利要求1所述的方法,其特征在于,所述字幕信息包括字幕文本;所述在所述键盘界面呈现针对所述多媒体内容的字幕信息,包括:
在所述键盘界面展示语音识别状态标识,及针对所述多媒体内容中当前播放内容的字幕文本,所述语音识别状态标识用于表征当前正在对所述多媒体内容进行语音识别。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
响应于针对所述键盘界面的预设操作,在所述键盘界面中呈现历史字幕信息,所述历史字幕信息为所述键盘界面当前呈现的字幕信息之前已展示的,针对所述多媒体内容的字幕信息。
8.如权利要求1所述的方法,其特征在于,所述在所述键盘界面呈现针对所述多媒体内容的字幕信息,包括:
在所述键盘界面呈现针对所述多媒体内容的第一字幕信息及第二字幕信息;
其中,所述第一字幕信息是对所述多媒体内容进行语音识别得到的,所述第二字幕信息是对所述多媒体内容的语音识别结果进行语种转换得到的。
9.如权利要求1所述的方法,其特征在于,若所述多媒体内容对应不同的讲话对象,则所述在所述键盘界面呈现针对所述多媒体内容的字幕信息,包括:
在所述键盘界面中,通过以下至少一种方式呈现针对不同讲话对象的字幕信息:
针对不同的讲话对象,结合各自的身份标识呈现各自的字幕信息;
针对不同的讲话对象,在所述键盘界面中的不同子区域呈现各自的字幕信息;
针对不同的讲话对象,通过不同样式的聊天框呈现各自的字幕信息。
10.如权利要求1所述的方法,其特征在于,所述在所述键盘界面呈现针对所述多媒体内容的字幕信息,包括:
在所述键盘界面中,基于与所述虚拟键盘的使用对象相匹配的字幕样式,呈现所述针对所述多媒体内容的字幕信息。
11.如权利要求1所述的方法,其特征在于,所述在所述键盘界面呈现针对所述多媒体内容的字幕信息,还包括:
在所述键盘界面呈现至少一种展示模式,并突出显示当前采用的展示模式;其中,所述展示模式表示所述字幕信息和虚拟键盘在所述键盘界面中的展示方式。
12.如权利要求11所述的方法,其特征在于,所述展示模式包括以下至少一种:
展示字幕信息,展示虚拟键盘,展示字幕信息和虚拟键盘。
13.如权利要求12所述的方法,其特征在于,所述方法还包括:
响应于针对所述展示模式的切换操作,若由其他展示模式切换为展示虚拟键盘的展示模式,则在所述键盘界面中展示所述虚拟键盘,并取消所述字幕信息的展示。
14.如权利要求1所述的方法,其特征在于,所述在所述键盘界面呈现针对所述多媒体内容的字幕信息,包括:
若所述目标应用为多媒体类应用,则在所述键盘界面中呈现针对所述多媒体内容的字幕信息;
若所述目标应用为非多媒体类应用,则在所述键盘界面中的字幕区域呈现针对所述多媒体内容的字幕信息,以及在所述键盘界面中的键盘区域呈现所述虚拟键盘。
15.如权利要求1~14任一项所述的方法,其特征在于,所述字幕信息是通过如下方式获得的:
在所述多媒体内容的播放过程中,对所述多媒体内容当前播放的声音信息进行录音;
将录音信息发送给服务器,并接收所述服务器返回的字幕信息,所述字幕信息是所述服务器对所述录音信息进行识别获得的。
16.如权利要求15所述的方法,其特征在于,在所述将录音信息发送给服务器之前,还包括:
对所述录音信息进行语音活性检测,去除所述录音信息中的无效录音片段,所述无效录音片段为不含有语音的录音片段。
17.如权利要求1~14任一项所述的方法,其特征在于,在所述响应于通过目标应用触发的键盘调起操作之后,所述响应于通过所述键盘界面触发的字幕展示操作之前,还包括:
确定在预设时长内,未曾响应过针对所述键盘界面的字幕展示操作。
18.如权利要求17所述的方法,其特征在于,若在所述预设时长内,响应过针对所述键盘界面的字幕展示操作,则所述方法还包括:
在响应于通过目标应用触发的键盘调起操作之后,呈现键盘界面,并在所述键盘界面呈现针对所述多媒体内容的字幕信息。
19.一种字幕的展示装置,其特征在于,包括:
第一展示单元,用于呈现第一应用的播放界面,并通过所述播放界面播放多媒体内容;
第二展示单元,用于响应于通过目标应用触发的键盘调起操作,呈现键盘界面,所述目标应用为任意一个具有输入功能的应用;
第三展示单元,用于响应于通过所述键盘界面触发的字幕展示操作,在所述键盘界面呈现针对所述多媒体内容的字幕信息,且所述字幕信息与所述多媒体内容的当前播放内容同步显示,其中,所述字幕信息是通过对所述多媒体内容中的声音信息进行识别得到的。
20.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~18中任一所述方法的步骤。
21.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~18中任一所述方法的步骤。
22.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行权利要求1~18中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365932.7A CN117956216A (zh) | 2022-10-31 | 2022-10-31 | 一种字幕的展示方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365932.7A CN117956216A (zh) | 2022-10-31 | 2022-10-31 | 一种字幕的展示方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117956216A true CN117956216A (zh) | 2024-04-30 |
Family
ID=90790959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211365932.7A Pending CN117956216A (zh) | 2022-10-31 | 2022-10-31 | 一种字幕的展示方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117956216A (zh) |
-
2022
- 2022-10-31 CN CN202211365932.7A patent/CN117956216A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650816B2 (en) | Performing tasks and returning audio and visual feedbacks based on voice command | |
CN109729420B (zh) | 图片处理方法及装置、移动终端及计算机可读存储介质 | |
WO2021068558A1 (zh) | 一种同声字幕翻译方法、智能电视及存储介质 | |
CN108847214B (zh) | 语音处理方法、客户端、装置、终端、服务器和存储介质 | |
CN111930994A (zh) | 视频编辑的处理方法、装置、电子设备及存储介质 | |
CN111294606B (zh) | 直播处理方法、装置、直播客户端及介质 | |
CN112752121B (zh) | 一种视频封面生成方法及装置 | |
CN109614470B (zh) | 回答信息的处理方法、装置、终端及可读存储介质 | |
CN108962220A (zh) | 多媒体文件播放场景下的文本显示方法及装置 | |
CN111654715A (zh) | 直播的视频处理方法、装置、电子设备及存储介质 | |
WO2021057957A1 (zh) | 视频通话方法、装置、计算机设备和存储介质 | |
CN112163086A (zh) | 多意图的识别方法、显示设备 | |
CN114930867A (zh) | 一种录屏方法、装置及计算机可读存储介质 | |
CN110968362B (zh) | 应用运行方法、装置及存储介质 | |
CN108376091A (zh) | 组件运行方法、装置、设备及计算机存储介质 | |
US20230300429A1 (en) | Multimedia content sharing method and apparatus, device, and medium | |
CN111107283B (zh) | 一种信息显示方法、电子设备及存储介质 | |
CN113066491A (zh) | 显示设备及语音交互方法 | |
CN115278346B (zh) | 在直播间发送评论和接收评论的方法及相关设备 | |
CN117956216A (zh) | 一种字幕的展示方法、装置、电子设备和存储介质 | |
CN112764549B (zh) | 翻译方法、装置、介质和近眼显示设备 | |
US20210377454A1 (en) | Capturing method and device | |
CN114373464A (zh) | 文本展示方法、装置、电子设备及存储介质 | |
CN113628622A (zh) | 语音交互方法、装置、电子设备及存储介质 | |
CN113079400A (zh) | 显示设备、服务器及语音交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |