CN111464876B - 翻译文本字幕流式展示方法、装置以及设备 - Google Patents
翻译文本字幕流式展示方法、装置以及设备 Download PDFInfo
- Publication number
- CN111464876B CN111464876B CN202010246958.4A CN202010246958A CN111464876B CN 111464876 B CN111464876 B CN 111464876B CN 202010246958 A CN202010246958 A CN 202010246958A CN 111464876 B CN111464876 B CN 111464876B
- Authority
- CN
- China
- Prior art keywords
- word
- speed
- text
- subtitle
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Controls And Circuits For Display Device (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种翻译文本字幕流式展示方法、装置以及设备,主要构思立足于从字幕端入手,将翻译引擎给出的翻译文本做流式展示设计。具体是将翻译引擎发送的已翻译的目标文本存入预设的字幕缓冲区,再检测当前缓冲区内的总字词数,由此数据自适应配置相应的出字速度策略,所谓出字速度策略,即是可以按此策略持续地从字幕缓冲区中按序抽取并展示目标文本的逐个字词,从而达到流式字幕输出效果。本发明规避了翻译引擎的影响,可适应各语种翻译场景,并且基于缓冲字数进行自动调整,并以字词为单位逐个展示,因而可以避免在字幕实时输出时,短时展示较大量文本的情况,进而有效改善了字幕展示效果、改善了用户的阅读体验。
Description
技术领域
本发明涉及实时字幕处理技术领域,尤其涉及一种翻译文本字幕流式展示方法、装置以及设备。
背景技术
当下人工智能技术发展迅猛,语音识别(语音转写、听写)和机器翻译技术,已在诸多领域广泛应用。尤其在实时处理场景,例如会议、教学、演讲等,均可在发言人说话的过程中进行高效的识别和翻译,并在屏幕等载体上在线展示出字幕。
目前,针对识别转写的字幕展示技术已相对成熟、完善,例如由语音转写引擎实时将语音转写为文本,并由字幕展示控件在屏幕上动态地随着发言人说话的进程进行近乎同步地展示,这种输出字幕的效果即为流式展示,其优势在于使得观看字幕的用户可以流畅、自然地浏览字幕,具有较佳的字幕阅读体验。
然而,转写识别过程的字幕展示可以完全依赖转写引擎的处理能力,即由语音信号识别出一个字,就可以直接将该一个字展示出来,因此对于字幕展示层面无需做过多设计和考虑。但面对翻译场景则有所不同,翻译过程需要先识别出语音,再利用识别结果进行翻译,然后再展示翻译后的目标文本,也即是要经由识别引擎和翻译引擎至少两个环节的处理,由于此过程生成的目标字幕与发言人说话进程会存在一定的延时性,因而现有的实时翻译场景多是将翻译引擎的整句翻译结果直接输出,由此导致了目前的翻译文本(即目标文本)字幕展示效果不佳、阅读体验较差。
对此,虽然理论上可以从提升引擎(主要是翻译引擎)的处理能力入手解决上述缺陷,但因为涉及的语种、方言种类较多,难以覆盖如此庞大的需求量,尤其是,若将机器翻译效率做到与识别引擎等同,从技术能力和资源成本上来说也较为不现实。
发明内容
鉴于上述,本发明旨在提供一种翻译文本字幕流式展示方法、装置以及设备,并相应地提出一种计算机可读存储介质以及计算机程序产品,通过这些方面可以规避对引擎处理的依赖性,而仅从字幕控制层面改善翻译文本的实时展示效果,以此提升用户的阅读体验。
本发明采用的技术方案如下:
第一方面,本发明提供了一种翻译文本字幕流式展示方法,包括:
实时从翻译引擎接收目标文本;
将所述目标文本存入预设的字幕缓冲区;
根据当前所述字幕缓冲区的总字词数,确定出字速度策略;
基于所述出字速度策略,持续地从所述字幕缓冲区中按序抽取并展示所述目标文本的逐个字词。
在其中一种可能的实现方式中,所述根据当前所述字幕缓冲区的总字词数,确定出字速度策略包括:
当检测出所述总字词数小于等于预设的最佳缓冲文本字词数时,按照预设的标准的出字速度展示字幕;
当检测出所述总字词数大于预设的最佳缓冲文本字词数时,重新计算出字速度,并按新的出字速度展示字幕。
在其中一种可能的实现方式中,所述重新计算出字速度包括:
按当前所述字幕缓冲区的总字词数与所述最佳缓冲文本字词数的比例,设定速度系数;
基于所述速度系数,提升标准的出字速度。
在其中一种可能的实现方式中,所述出字速度包括如下参数:字词抽取频率以及字词吐出量;
所述字词抽取频率为单位时间内从所述字幕缓冲区抽取字词的次数;
所述字词吐出量为每次抽取出并逐个展示的字词数。
在其中一种可能的实现方式中,所述重新计算出字速度包括:增大所述字词抽取频率以及所述字词吐出量,且使所述字词抽取频率的增幅相对较缓,使所述字词吐出量的增幅相对较快。
第二方面,本发明提供了一种翻译文本字幕流式展示装置,包括:
目标文本接收模块,用于实时从翻译引擎接收目标文本;
文本缓冲模块,用于将所述目标文本存入预设的字幕缓冲区;
出字速度决策模块,用于根据当前所述字幕缓冲区的总字词数,确定出字速度策略;
取词展示模块,用于基于所述出字速度策略,持续地从所述字幕缓冲区中按序抽取并展示所述目标文本的逐个字词。
在其中一种可能的实现方式中,所述出字速度决策模块包括:
标注出字速度单元,用于当检测出所述总字词数小于等于预设的最佳缓冲文本字词数时,按照预设的标准的出字速度展示字幕;
出字速度更新单元,用于当检测出所述总字词数大于预设的最佳缓冲文本字词数时,重新计算出字速度,并按新的出字速度展示字幕。
在其中一种可能的实现方式中,所述出字速度更新单元包括:
系数设定组件,用于按当前所述字幕缓冲区的总字词数与所述最佳缓冲文本字词数的比例,设定速度系数;
出字速度计算组件,用于基于所述速度系数,提升标准的出字速度。
在其中一种可能的实现方式中,所述出字速度包括如下参数:字词抽取频率以及字词吐出量;
所述字词抽取频率为单位时间内从所述字幕缓冲区抽取字词的次数;
所述字词吐出量为每次抽取出并逐个展示的字词数。
在其中一种可能的实现方式中,所述出字速度更新单元具体用于增大所述字词抽取频率以及所述字词吐出量,且使所述字词抽取频率的增幅相对较缓,使所述字词吐出量的增幅相对较快。
第三方面,本发明提供了一种翻译文本字幕流式展示设备,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第五方面,本发明还提供了一种计算机程序产品,当所述计算机程序产品被计算机执行时,用于执行第一方面或者第一方面的任一可能实现方式中的所述方法。
在第五方面的一种可能的设计中,该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上,也可以部分或者全部存储在不与处理器封装在一起的存储介质上。
本发明的构思立足于从字幕取词、输出的层面做出改进,也即是从字幕端入手,将翻译引擎给出的翻译文本做流式展示设计。具体是将翻译引擎发送的已翻译的目标文本存入预设的字幕缓冲区,再检测当前缓冲区内的总字词数,由此数据自适应配置相应的出字速度策略,所谓出字速度策略,即是可以按此策略持续地从字幕缓冲区中按序抽取并展示目标文本的逐个字词,从而达到流式字幕输出效果。本发明规避了翻译引擎的影响(例如不受语种、翻译引擎版本、引擎厂商等限制),可适应各语种翻译场景。并且基于缓冲字数进行自动调整,并以字词为单位逐个展示,因此可以在保证字幕实时输出的连贯性及时效性基础上,避免短时展示较大量文本出现,使得翻译字幕的展示效果更加接近语音转写的出字效果甚至发言人的发言进程,进而改善了用户的阅读体验。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的翻译文本字幕流式展示方法的实施例的流程图;
图2为本发明提供的翻译文本字幕流式展示装置的实施例的方框图;
图3为本发明提供的翻译文本字幕流式展示设备的实施例的示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在对本发明技术方案进行说明之前,先对相关技术信息做具体的介绍,接续前文背景,在诸如会议等应用场景中,机器翻译任务是将连续的、大量的源语言语音自动翻译为目标语言,即根据完整的源语言文本语句,最终得到相对应的完整的目标语言文本语句。此过程并不是针对单一的单词进行翻译,而是需要结合发言人所说的上下文内容进行翻译,才能获得准确且合乎目标语言习惯的翻译结果,因而本发明提出了相应的技术目标,即实时输出的翻译文本字幕既要求尽量能与发言人的发言进程匹配,又需要有规划地展示出便于阅读的文本。
然而目前的字幕展示技术由于缺少对字幕可读性的考虑,尤其是缺少针对实时翻译场景中目标语言用户的阅读体验做合理规划,因而现有的字幕展示技术只是较为粗糙地基于翻译引擎的整句目标文本输出,并且不能灵活地对实时展示的字幕中的文字数量进行约束和调整,导致某些情况下输出的文字量骤增,使用户很难轻松阅览字幕;再有,针对双语字幕场景,翻译后的整句字幕展示效果与实时转写字幕的展示效果很难做到同步,再者,由于完整语句的长度存在差异,因而整句展示时间也是不一的,综合以上种种,皆会导致用户阅读体验变差。
鉴于此,本发明的核心构思在于从字幕端提供一种自适应策略,即是将翻译引擎给出的翻译文本,经由对字词数的考察和调控,使得能够按一定取词和输出规则以目标文本的字词为单位进行流式展示。
针对前述核心构思,本发明提供了至少一种翻译文本字幕流式展示方法的实施例,如图1所示,可以包括如下步骤:
步骤S1、实时从翻译引擎接收目标文本。
因为本发明不对翻译引擎本身提出改进,因此依然可采用现有的机器翻译机制,例如当源语言的断句文本产生后翻译引擎才进行翻译,并得到相应的目标语言文本(本发明称为目标文本)。并且,对象语种也不在本发明中作出限制,因此上述翻译机制也非唯一方式,在实际操作中可以根据不同的翻译场景需求采用对应的翻译方式以得到所述目标文本。
步骤S2、将所述目标文本存入预设的字幕缓冲区。
设置字幕缓冲区的目的是将翻译引擎发送来的目标文本加入至该数据区域,以等待经由后续步骤进行流式展示,而非直接地将翻译引擎提供的翻译文本以字幕形式输出。再有,如前所述,由于并不限定翻译引擎定的处理方式,因此此处接收到的目标文本可以但不限于若干单句,并且存入字幕缓冲区也是以相应单位的目标文本存入,例如将一个一个单句的目标文本在所述字幕缓冲区中以先进先出的规则持续加入,也即是仅是在此示例中字幕缓冲区的每一项为一个单句。其中,所述字幕缓冲区在形式上可以但不限于数据队列等,例如可以预设若干缓冲文本队列用于缓存实时接收到的目标文本。
步骤S3、根据当前所述字幕缓冲区的总字词数,确定出字速度策略。
步骤S4、基于所述出字速度策略,持续地从所述字幕缓冲区中按序抽取并展示所述目标文本的逐个字词。
关于上面两步骤需先说明的是,因为字幕缓冲区是实时接收前端提供的目标文本,所以本实施例中强调出是以当前时刻检测出的字幕缓冲区的总字词数作为调控出字速度的关键条件之一。也就意味着,在某些实施方式中总字词数可能是指在前一时刻被取出字词后缓冲数据区域的字词总数,或者在某些实施方式中总字词数可能是指接收到新加入的目标文本后的缓冲数据区域的字词总数。当然,本领域技术人员可以理解的是,在实际应用中,接收新目标文本、取出目标文本形成字幕等过程是一种连续的、动态的状态,因此,所述“当前所述字幕缓冲区的总字词数”可以不聚焦于某一上述具体状态,而仅需关注在触发检测字幕缓冲区内总字词数的此时此刻的真实状态,无关乎是取出后和/或是加入后。
接续前文,当由检测出的字幕缓冲区内的总字词数,确定出预设的出字速度策略后,便可以遵从既定的与速度相关的规则取词,例如从字幕缓冲区中不断地取出首个单句中的字词,当首个单句字词被取尽,则从字幕缓冲区内的第二个单句开始继续取字词,直至字幕缓冲区中所有字词被取尽;而被取出的字词也可以遵从既定的与速度相关的规则输出为流式字幕,需指出,这里所称“展示所述目标文本的逐个字词”是指流式展示的效果,即呈现在用户眼前的字幕是以字词为单位一个一个顺畅显示出来的,该技术特征并非是指取一个字词展示一个字词,然后再取下一个字词再展示。
此外,在按照某种出字速度策略取词、输出的过程中,可能仍会有新的目标文本被追加到字幕缓冲区,例如存至缓冲文本队列的尾部,那么上述过程将持续进行。对此可按上述说明理解,此处不作赘述,而需要进一步补充的有如下两点:
其一、在上述实施例中,提及字词、出字等关于处理对象单位的表述,这里需说明,在实际应用中并不严格区分是字或是词,因为本发明可适应多种语种的翻译场景,而在某些语种中字或词皆可以是处理单位,例如对于汉语,可以是以单字或单个词汇作为上述取出、输出的“字词”,且“出字速度”即是指输出并展示单字或单个词汇的速度;而在某些语种中多是以单词为单位的(而非单个字母),例如对于英语等语种,取出、输出的“字词”优选为单词,且所述“出字速度”优选是指输出并展示单词的速度。据此可知,该实施例中的表述仅是本领域技术表达上的习惯,其核心含义是指目标语言的最小处理单位。
其二、结合本领域技术而言,通常完成取词、输出动作的主体可以是由一个或多个以软件和/或硬件设置的取词器来实现,因而在后文中介绍其他实施例时可能会采用“取词器”这个概念进行说明;但可理解的是,后文提及此概念并非是对各实施例及技术构思的限制。
对于上述步骤S3,具体可以是由所述总字词数的多寡,进行不同出字速度策略的配置,也即是本发明的构思之一是不能一成不变或未经合理规划地采用某种统一的出字速度方式取词、展示字幕。据此可以设计为当字幕缓冲区内的总字词数越多应按一定合理规则相应地提升出字速度,尤其是,可以结合用户体验角度进行方案设计:
无论源语言内容多或少、篇幅长或短,均期望达到当源语言的转写停止时,目标文本的流式输出也能在较短的时间内停止;或如果转写持续进行,那么源语言的某段文本转写(或流式展示)后,立刻或不久就可以看到相对应的目标文本开始流式展示,那么此时用户的阅读体验较佳。
据此,一些实施例中的实现方式可以通过设置一个标准的出字速度以及最佳缓冲文本字词数作为自适应调控出字速度的基准。此处需先做说明的是:
(1)所述标准的出字速度,可以根据目标语言的某场景下的口语语速(例如但不限于利用搜索引擎检索查得某目标语言的新闻播报的一般口语速度)设计相应的出字速度,也即是给出一种合理且普遍能被用户接受的目标文本流式出字速度,进一步地,实际操作中可设为exp_oral_velocity。举例来说,中文可以是4.5个字/s左右,英文可以是2.5个词/s左右。可以理解的是,此处仅是以中英文场景为例,具体可以根据不同的翻译语种和实际效果进行调整。
(2)所述最佳缓冲文本字词数,如前文所述,在源语言的实时语音翻译过程中,源语言文本的字幕输出通常要早于目标语言文本(即翻译文本、目标文本)的字幕输出,也即是说,当目标文本展示的时候,源语言文本可能已经完成展示了。理想地,目标文本的最佳展示时机是与相应的源语言文本同时展示。但是在目前的机器翻译技术前提下,目标语言的字幕展示时机多是延后的,即当源语言转写停止时,源语言的字幕输出可以达到几乎同步停止,而目标文本则需要按照一定的速度输出且要持续一段时间,如果没有新的目标文本追加,则需要持续到字幕缓冲区为空。
那么,如果这个持续的时间较长,则会降低用户体验。因而本发明在某些实施方式中的提出新的技术目标,即使得翻译文本的字幕展示持续时间较短,以便尽量与源语言文本甚至发言人讲话进程做到最小延迟。为此,考虑为字幕缓冲区预先设置一个字词数量阈值,也即是预先基于场景需求给定一个最佳缓冲文本字词数,在实际操作中可设best_buffer_text_count,其值则可根据实际效果进行确定。
基于此,上述步骤S3的一些较佳实施方式,可以是当检测出所述总字词数(实际操作中可设为buffer_text_count,可以是指包含了新加入目标文本后和/或已取出字词后的当前剩余字词总数)小于等于预设的最佳缓冲文本字词数best_buffer_text_count时,则保持流式出字速度以标准的固定速度输出,即按照预设的标准的出字速度exp_oral_velocity展示字幕;而当检测出所述总字词数大于预设的最佳缓冲文本字词数时,此时,字幕缓冲区的消耗速度或流式展示速度需要适当增大,即需要重新计算新的出字速度,并按此新的出字速度展示字幕。
关于重新计算出字速度,目标是明确的,即提升出字速度,那么实现方式则可以有多种选择,例如通过增加取词的频率和/或增加吐出量,对于此两个与出字速度相关的参数将在后文具体展开,此处本发明先提供至少一种重新计算出字速度的思路:可以按当前所述字幕缓冲区的总字词数buffer_text_count与所述最佳缓冲文本字词数best_buffer_text_count的比例,设定速度系数(在实际操作中可设为a),并基于该速度系数,提升标准的出字速度。
具体来说,速度系数a与字幕缓冲区的字词数量相关,且a的作用在本实施例中是用来调控所述“标准的出字速度”。那么如前文所述,理想的目标是可以在(best_buffer_text_count/exp_oral_velcocity)时间内完成出字,那么
best_buffer_text_count/exp_oral_velcocity
=buffer_text_count/(a*exp_oral_velocity)
由此获得a=buffer_text_count/best_buffer_text_count。这里还需进一步说明,其一、当按标准的出字速度输出时,即a=1;其二、虽然重新计算的理念是缓冲文本剩余字词数越多,出字速度需要相应增加才能够保证目标文本的消耗速度大于产生速度,但是,更优地还需要进一步兼顾流式出字的效果以及用户的阅读体验,不能一味地提升出字速度。也即是说,如果翻译产生的目标文本较长或字幕缓冲区内已经积累了一定量的文本,那么不能够盲目地增加流式出字速度,以免用户无法正常阅读。为此,可以为重新计算出字速度设置极限阈值,例如可设极限流式出字速度为flow_text_velocity_limit,从而保证用户可以正常阅读,当然,其值可根据实际效果进行确定。
那么,在重新计算出字速度的过程中,更佳地,应使目标文本的流式出字速度被调控在标准的出字速度与极限流式出字速度之间。即重新计算出的新的出字速度为:a*exp_oral_velocity≤flow_text_velocity_limit。如果翻译产生的目标文本很长(可能由一些非正常因素导致)或字幕缓冲区内已经积累了大量的文本,则a*exp_oral_velocity可能会大于flow_text_velocity_limit,此时可以强制将重新计算的出字速度限制为极限流式出字速度。
关于前文提及的与出字速度相关的两个参数:字词抽取频率以及字词吐出量,还可以进一步说明的是,无论重新计算或保持标准出字速度,流式出字速度的实际表现均可能来自字词抽取频率flow_text_frequency和/或字词吐出量flow_text_chunk(前提是不考虑翻译引擎的能力)。其中所述字词抽取频率是指单位时间内从所述字幕缓冲区抽取字词的次数,在实际应用时每秒取多少次,可换算成每多少毫秒取词一次,并可以用小数表示;而所述字词吐出量是指每次抽取出并逐个展示的字词数(这里又一次强调出逐个展示并非是指仅取一个且仅出一个,而是无论每次取多少,展示的效果是逐个展示),在实际应用中字词吐出量的值如果是小数,则可向上取整。基于上述,在某些实施例中可以但不限于认为出字速度(包括标准的出字速度以及重新计算的出字速度)是指二者乘积:flow_text_frequency*flow_text_chunk。提升出字速度,也即是意味着增大字词抽取频率和/或字词吐出量。
然而,本发明经试验发现,如果当单一提升取词器的字词抽取频率后,目标文本的流式输出速度虽然会加快,但用户往往看不过来,阅读体验欠佳。故此认为不能单一且机械地线性增大字词抽取频率。而且,由深入分析得出,通常用户有能力一次性阅读多个字词或语句,因而认为吐词量的变化空间则相对较大。即本发明在某些较佳实施例中的设计思路是,流式出字速度的增大(速度系数a增大)后,可以同时增大所述字词抽取频率以及所述字词吐出量,但需使所述字词抽取频率的增幅相对较缓,使所述字词吐出量的增幅相对较快。从实现角度,以前述基于速度系数a提升标准的出字速度为例,可以使用对数关系处理该速度系数a与字词抽取频率的关系。
这里仅给出相应公式作为示意:
设定出字速度flow_text_velocity
flow_text_velocity=a*exp_oral_velocity
flow_text_frequency=(ln(a)+1)*exp_oral_velocity
flow_text_chunk=flow_text_velocity/flow_text_frequency
经由上述公式可以体现出当速度系数增加后,其自然对数增加缓慢,使得字词抽取频率相对缓慢增加,而字词吐出量则相对地较快增加。
这里需补充,上述公式以及两个参数同步增速仅为示意,为了达到出字增速效果还可采用其他手段,例如降低取词频率但明显增速吐词量等,对此本发明不做限定。
最后,综上所述,本发明的构思立足于从字幕取词、输出的层面做出改进,也即是从字幕端入手,将翻译引擎给出的翻译文本做流式展示设计。具体是将翻译引擎发送的已翻译的目标文本存入预设的字幕缓冲区,再检测当前缓冲区内的总字词数,由此数据自适应配置相应的出字速度策略,所谓出字速度策略,即是可以按此策略持续地从字幕缓冲区中按序抽取并展示目标文本的逐个字词,从而达到流式字幕输出效果。本发明规避了翻译引擎的影响(例如不受语种、翻译引擎版本、引擎厂商等限制),可适应各语种翻译场景。并且基于缓冲字数进行自动调整,并以字词为单位逐个展示,因此可以在保证字幕实时输出的连贯性及时效性基础上,避免短时展示较大量文本出现,使得翻译字幕的展示效果更加接近语音转写的出字效果甚至发言人的发言进程,进而改善了用户的阅读体验。
相应于上述各实施例及优选方案,本发明还提供了一种翻译文本字幕流式展示装置的实施例,如图2所示,具体可以包括如下部件:
目标文本接收模块1,用于实时从翻译引擎接收目标文本;
文本缓冲模块2,用于将所述目标文本存入预设的字幕缓冲区;
出字速度决策模块3,用于根据当前所述字幕缓冲区的总字词数,确定出字速度策略;
取词展示模块4,用于基于所述出字速度策略,持续地从所述字幕缓冲区中按序抽取并展示所述目标文本的逐个字词。
在其中一种可能的实现方式中,所述出字速度决策模块包括:
标注出字速度单元,用于当检测出所述总字词数小于等于预设的最佳缓冲文本字词数时,按照预设的标准的出字速度展示字幕;
出字速度更新单元,用于当检测出所述总字词数大于预设的最佳缓冲文本字词数时,重新计算出字速度,并按新的出字速度展示字幕。
在其中一种可能的实现方式中,所述出字速度更新单元包括:
系数设定组件,用于按当前所述字幕缓冲区的总字词数与所述最佳缓冲文本字词数的比例,设定速度系数;
出字速度计算组件,用于基于所述速度系数,提升标准的出字速度。
在其中一种可能的实现方式中,所述出字速度包括如下参数:字词抽取频率以及字词吐出量;
所述字词抽取频率为单位时间内从所述字幕缓冲区抽取字词的次数;
所述字词吐出量为每次抽取出并逐个展示的字词数。
在其中一种可能的实现方式中,所述出字速度更新单元具体用于增大所述字词抽取频率以及所述字词吐出量,且使所述字词抽取频率的增幅相对较缓,使所述字词吐出量的增幅相对较快。
应理解以上图2所示的翻译文本字幕流式展示装置的各个部件的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些部件可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明适用于多种实施方式,本发明以下述载体作为示意性说明:
(1)一种翻译文本字幕流式展示设备,其可以包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行前述实施例或等效实施方式的步骤/功能。
图3为本发明翻译文本字幕流式展示设备的实施例的结构示意图,其中,该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为PC、服务器、智能终端(手机、平板、手表、眼镜等)、智能电视、音响、音箱、机顶盒、遥控器、智慧屏、柜员机、机器人、无人机、ICV、智能(汽)车及车载设备等。本实施例对翻译文本字幕流式展示设备的具体形式不作限定。
具体如图3所示,翻译文本字幕流式展示设备900包括处理器910和存储器930。其中,处理器910和存储器930之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器930用于存储计算机程序,该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置,更常见的是彼此独立的部件,处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时,该存储器930也可以集成在处理器910中,或者,独立于处理器910。
除此之外,为了使得翻译文本字幕流式展示设备900的功能更加完善,该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个,所述音频电路还可以包括扬声器982、麦克风984等。其中,显示单元970可以包括显示屏。
进一步地,上述翻译文本字幕流式展示设备900还可以包括电源950,用于给该设备900中的各种器件或电路提供电能。
应理解,图3所示的翻译文本字幕流式展示设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能,可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,图3所示的翻译文本字幕流式展示设备900中的处理器910可以是片上系统SOC,该处理器910中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中再作介绍。
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器930中。
(2)一种可读存储介质,在可读存储介质上存储有计算机程序或上述装置,当计算机程序或上述装置被执行时,使得计算机执行前述实施例或等效实施方式的步骤/功能。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
(3)一种计算机程序产品(该产品可以包括上述装置),该计算机程序产品在终端设备上运行时,使终端设备执行前述实施例或等效实施方式的翻译文本字幕流式展示方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP;接续前文,上述设备/终端可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且,该计算机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括特定集成电路ASIC,或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatile memory),例如非可移动磁盘、U盘、移动硬盘、光盘等,以及只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)等。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。尤其,对于装置、设备等实施例而言,由于其基本相似于方法实施例,所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (12)
1.一种翻译文本字幕流式展示方法,其特征在于,包括:
实时从翻译引擎接收目标文本;
将所述目标文本存入预设的字幕缓冲区;
根据当前所述字幕缓冲区的总字词数,确定出字速度策略;
基于所述出字速度策略,持续地从所述字幕缓冲区中按序抽取并展示所述目标文本的逐个字词。
2.根据权利要求1所述的翻译文本字幕流式展示方法,其特征在于,所述根据当前所述字幕缓冲区的总字词数,确定出字速度策略包括:
当检测出所述总字词数小于等于预设的最佳缓冲文本字词数时,按照预设的标准的出字速度展示字幕;
当检测出所述总字词数大于预设的最佳缓冲文本字词数时,重新计算出字速度,并按新的出字速度展示字幕。
3.根据权利要求2所述的翻译文本字幕流式展示方法,其特征在于,所述重新计算出字速度包括:
按当前所述字幕缓冲区的总字词数与所述最佳缓冲文本字词数的比例,设定速度系数;
基于所述速度系数,提升标准的出字速度。
4.根据权利要求2或3所述的翻译文本字幕流式展示方法,其特征在于,所述出字速度包括如下参数:字词抽取频率以及字词吐出量;
所述字词抽取频率为单位时间内从所述字幕缓冲区抽取字词的次数;
所述字词吐出量为每次抽取出并逐个展示的字词数。
5.根据权利要求4所述的翻译文本字幕流式展示方法,其特征在于,所述重新计算出字速度包括:增大所述字词抽取频率以及所述字词吐出量,且使所述字词抽取频率的增幅相对较缓,使所述字词吐出量的增幅相对较快。
6.一种翻译文本字幕流式展示装置,其特征在于,包括:
目标文本接收模块,用于实时从翻译引擎接收目标文本;
文本缓冲模块,用于将所述目标文本存入预设的字幕缓冲区;
出字速度决策模块,用于根据当前所述字幕缓冲区的总字词数,确定出字速度策略;
取词展示模块,用于基于所述出字速度策略,持续地从所述字幕缓冲区中按序抽取并展示所述目标文本的逐个字词。
7.根据权利要求6所述的翻译文本字幕流式展示装置,其特征在于,所述出字速度决策模块包括:
标注出字速度单元,用于当检测出所述总字词数小于等于预设的最佳缓冲文本字词数时,按照预设的标准的出字速度展示字幕;
出字速度更新单元,用于当检测出所述总字词数大于预设的最佳缓冲文本字词数时,重新计算出字速度,并按新的出字速度展示字幕。
8.根据权利要求7所述的翻译文本字幕流式展示装置,其特征在于,所述出字速度更新单元包括:
系数设定组件,用于按当前所述字幕缓冲区的总字词数与所述最佳缓冲文本字词数的比例,设定速度系数;
出字速度计算组件,用于基于所述速度系数,提升标准的出字速度。
9.根据权利要求7或8所述的翻译文本字幕流式展示装置,其特征在于,所述出字速度包括如下参数:字词抽取频率以及字词吐出量;
所述字词抽取频率为单位时间内从所述字幕缓冲区抽取字词的次数;
所述字词吐出量为每次抽取出并逐个展示的字词数。
10.根据权利要求9所述的翻译文本字幕流式展示装置,其特征在于,所述出字速度更新单元具体用于增大所述字词抽取频率以及所述字词吐出量,且使所述字词抽取频率的增幅相对较缓,使所述字词吐出量的增幅相对较快。
11.一种翻译文本字幕流式展示设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如权利要求1~5任一项所述的翻译文本字幕流式展示方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1~5任一项所述的翻译文本字幕流式展示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246958.4A CN111464876B (zh) | 2020-03-31 | 2020-03-31 | 翻译文本字幕流式展示方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246958.4A CN111464876B (zh) | 2020-03-31 | 2020-03-31 | 翻译文本字幕流式展示方法、装置以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111464876A CN111464876A (zh) | 2020-07-28 |
CN111464876B true CN111464876B (zh) | 2022-04-29 |
Family
ID=71679481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010246958.4A Active CN111464876B (zh) | 2020-03-31 | 2020-03-31 | 翻译文本字幕流式展示方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111464876B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986656B (zh) * | 2020-08-31 | 2021-07-30 | 上海松鼠课堂人工智能科技有限公司 | 教学视频自动字幕处理方法与系统 |
CN112131891B (zh) * | 2020-09-24 | 2024-04-30 | 安徽听见科技有限公司 | 翻译方向自动切换方法、装置以及设备 |
CN112887779B (zh) * | 2021-01-20 | 2022-11-18 | 杭州小众圈科技有限公司 | 基于语音节奏进行自动滚动字幕的方法、系统及装置 |
CN112908306B (zh) * | 2021-01-30 | 2023-03-21 | 云知声智能科技股份有限公司 | 优化上屏效果的语音识别方法、设备、终端与存储介质 |
CN112908337B (zh) * | 2021-01-31 | 2023-05-26 | 云知声智能科技股份有限公司 | 语音识别文本的展示方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1246236A (zh) * | 1996-12-19 | 2000-03-01 | 汤姆森消费电子有限公司 | 提供用于文字显示的调整上卷速率的方法和装置 |
CN103544978A (zh) * | 2013-11-07 | 2014-01-29 | 上海斐讯数据通信技术有限公司 | 一种多媒体文件制作、播放方法及智能终端 |
CN107484035A (zh) * | 2017-08-17 | 2017-12-15 | 深圳Tcl数字技术有限公司 | 隐藏字幕显示方法、装置及计算机可读存储介质 |
CN108769776A (zh) * | 2018-05-31 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 标题字幕检测方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2177037B1 (en) * | 2007-08-09 | 2011-01-19 | Inlet Technologies | Preserving captioning through video transcoding |
US9696881B2 (en) * | 2013-01-15 | 2017-07-04 | Viki, Inc. | System and method for captioning media |
IL225480A (en) * | 2013-03-24 | 2015-04-30 | Igal Nir | A method and system for automatically adding captions to broadcast media content |
CN107644016A (zh) * | 2017-10-19 | 2018-01-30 | 维沃移动通信有限公司 | 一种多媒体字幕翻译方法、多媒体字幕查找方法及装置 |
-
2020
- 2020-03-31 CN CN202010246958.4A patent/CN111464876B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1246236A (zh) * | 1996-12-19 | 2000-03-01 | 汤姆森消费电子有限公司 | 提供用于文字显示的调整上卷速率的方法和装置 |
CN103544978A (zh) * | 2013-11-07 | 2014-01-29 | 上海斐讯数据通信技术有限公司 | 一种多媒体文件制作、播放方法及智能终端 |
CN107484035A (zh) * | 2017-08-17 | 2017-12-15 | 深圳Tcl数字技术有限公司 | 隐藏字幕显示方法、装置及计算机可读存储介质 |
CN108769776A (zh) * | 2018-05-31 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 标题字幕检测方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111464876A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111464876B (zh) | 翻译文本字幕流式展示方法、装置以及设备 | |
US10950230B2 (en) | Information processing device and information processing method | |
EP4086897A2 (en) | Recognizing accented speech | |
EP2869298A1 (en) | Information identification method and apparatus | |
US8606560B2 (en) | Automatic simultaneous interpertation system | |
CN113035199B (zh) | 音频处理方法、装置、设备及可读存储介质 | |
CN110299152A (zh) | 人机对话的输出控制方法、装置、电子设备及存储介质 | |
US11804228B2 (en) | Phoneme-based speaker model adaptation method and device | |
US12100385B2 (en) | Systems, methods and interfaces for multilingual processing | |
US12136415B2 (en) | Mixture model attention for flexible streaming and non-streaming automatic speech recognition | |
KR20200142282A (ko) | 컨텐츠 번역 서비스를 제공하는 전자 장치 및 그 제어 방법 | |
WO2023151424A1 (zh) | 视频的音画面播放速率调整方法及装置 | |
KR20190074508A (ko) | 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법 | |
CN112837674B (zh) | 语音识别方法、装置及相关系统和设备 | |
CN113207044A (zh) | 视频处理方法、装置、电子设备和存储介质 | |
US20190043527A1 (en) | Routing audio streams based on semantically generated result sets | |
KR20230087577A (ko) | 장면 설명의 재생 제어 | |
CN112233649B (zh) | 机器同声传译输出音频动态合成方法、装置以及设备 | |
CN112530421B (zh) | 语音识别方法、电子设备及存储装置 | |
US20240046931A1 (en) | Voice interaction method and apparatus | |
JP6946898B2 (ja) | 表示態様決定装置、表示装置、表示態様決定方法及びプログラム | |
CN115762497A (zh) | 语音识别方法、装置、人机交互设备和存储介质 | |
CN115910083A (zh) | 一种实时语音转换方法、装置、电子设备及介质 | |
CN111161737A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
US20240098315A1 (en) | Keyword-based object insertion into a video stream |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |