CN114912416B - 语音翻译结果显示方法、装置、电子设备及存储介质 - Google Patents

语音翻译结果显示方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114912416B
CN114912416B CN202210839100.8A CN202210839100A CN114912416B CN 114912416 B CN114912416 B CN 114912416B CN 202210839100 A CN202210839100 A CN 202210839100A CN 114912416 B CN114912416 B CN 114912416B
Authority
CN
China
Prior art keywords
translated
display
preset
current
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210839100.8A
Other languages
English (en)
Other versions
CN114912416A (zh
Inventor
刘天一
吴斐
梁祥龙
娄身强
陆希炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing LLvision Technology Co ltd
Original Assignee
Beijing LLvision Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing LLvision Technology Co ltd filed Critical Beijing LLvision Technology Co ltd
Priority to CN202210839100.8A priority Critical patent/CN114912416B/zh
Publication of CN114912416A publication Critical patent/CN114912416A/zh
Application granted granted Critical
Publication of CN114912416B publication Critical patent/CN114912416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请提供一种语音翻译结果显示方法、装置、电子设备及存储介质。所述方法包括:获取音频数据,对音频数据进行识别,得到翻译文字;将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中;若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且确定当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示。本申请提供的方案可以解决近眼显示设备的语音翻译结果的文字显示方式容易导致使用者眼睛疲劳的技术问题,提升使用者体验感。

Description

语音翻译结果显示方法、装置、电子设备及存储介质
技术领域
本申请涉及AR眼镜技术领域,具体涉及一种语音翻译结果显示方法、装置、电子设备及存储介质。
背景技术
AR眼镜是增强现实(Augmented Reality)应用的一种新型眼镜,目前市面上的AR眼镜基本都具有显示、拍照、视频通话、处理文字信息、电子邮件、游戏娱乐等多样化功能。AR眼镜可以在显示现实景象的基础上,同时显示虚拟场景,用户甚至可以与虚拟场景进行交互,是未来智能硬件产品的一种新形态。随着AR眼镜的使用频率越来越高,用户在AR眼镜上进行文字阅读时需要进行抬眼阅读,长时间容易导致用户眼镜疲劳,而且在文字较多的情况下用户难以快速定位到自己需要阅读的内容,降低用户的使用体验感。
现有技术中,提出了一种音频文字直播系统,包括用于识别语音并将音频转写为文字的语音识别服务器;用于采集音频并将转写文字进行分发的音频采集终端;用于录音并推送音频的音频服务器;音频服务器包括录音单元、解码单元和音频推送器;用于音频文字合成、修正以及分发的中心服务器;用于播放音频和显示文字信息的终端设备。
上述现有技术存在以下缺点:
该方案无法优化AR眼镜的语音翻译结果的文字显示方式,容易导致用户的眼睛在使用AR眼镜进行语音翻译时疲劳,影响用户的使用体验感。
发明内容
本申请实施例提供一种语音翻译结果显示方法、装置、电子设备及存储介质,用以解决近眼显示设备的语音翻译结果的文字显示方式容易导致使用者眼睛疲劳的技术问题,提升使用者体验感。
第一方面,本申请实施例提供一种语音翻译结果显示方法,包括:
获取音频数据,对音频数据进行识别,得到翻译文字;
将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中;
若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且确定当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示。
在一种实施例中,将当前视窗底部显示行中的翻译文字上移预设行数,包括:
将当前视窗底部显示行中的翻译文字按照目标移动速度上移预设行数,目标移动速度与音频数据的语速呈正比,且按照目标移动速度将当前视窗底部显示行中的翻译文字上移预设行数对应的移动耗时小于或等于预设耗时上限。
在一种实施例中,将当前视窗底部显示行中的翻译文字上移预设行数之后,包括:
控制上移预设行数之后的翻译文字的停留时长为移动耗时。
在一种实施例中,确定当前翻译文字对应的语句未结束之前包括:
检测音频数据中每一发音之间的间隔时长;
若间隔时长大于或等于预设停顿上限时长,则确定当前翻译文字对应的语句结束;
若间隔时长小于预设停顿上限时长,则确定当前翻译文字对应的语句未结束。
在一种实施例中,确定当前翻译文字对应的语句结束之后,还包括:
将当前视窗底部显示行中的翻译文字进行校正,得到校正识别语句,并将当前视窗底部显示行中的翻译文字更新为校正识别语句;
将校正识别语句的显示色相由第一色相更新为第二色相,第一色相为当前视窗底部显示行中的翻译文字的原有色相,第二色相用于向近眼显示设备的使用者传递当前翻译文字对应的语句翻译完毕的信号。
在一种实施例中,将校正识别语句的显示色相由第一色相更新为第二色相之后,还包括:
设置第一校正识别语句的色彩饱和度高于第二校正识别语句的色彩饱和度,第二校正识别语句为先于第一校正识别语句完成校正的语句。
在一种实施例中,获取音频数据之前,包括:
通过近眼显示设备的声音采集设备采集待翻译音源,基于待翻译音源形成音频数据。
第二方面,本申请实施例提供一种语音翻译结果显示装置,包括:
翻译模块,用于获取音频数据,对音频数据进行识别,得到翻译文字;
翻译文字显示模块,用于将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中;
若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且检测当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的语音翻译结果显示方法的步骤。
第四方面,本申请实施例提供一种非暂时性机器可读存储介质,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的语音翻译结果显示方法的步骤。
本申请实施例提供的语音翻译结果显示方法、装置、电子设备及存储介质,通过获取音频数据,对音频数据进行识别,得到翻译文字,将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中,若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且确定当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示,解决了近眼显示设备的使用者在进行语音翻译是需要抬眼阅读文字的问题,减轻使用者的阅读疲惫感,提升使用者的使用舒适度,提升使用者体验感。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语音翻译结果显示方法的流程示意图之一;
图2是本申请实施例提供的语音翻译结果显示方法的流程示意图之二;
图3是本申请实施例提供的语音翻译结果显示方法的流程示意图之三;
图4是本申请实施例提供的语音翻译结果显示装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的语音翻译结果显示方法的流程示意图之一。参照图1,本申请实施例提供一种语音翻译结果显示方法,可以包括:
步骤101、获取音频数据,对音频数据进行识别,得到翻译文字。
在本申请实施例中,可以通过近眼显示设备的声音采集设备,例如微型麦克风来采集待翻译音源,待翻译音源可以是交流现场中的声音,也可以是需要翻译的录音,可以理解的是,对于声音的采集方式以及待翻译音源的种类是多样的,在实际应用中,需根据实际应用情况选择合适的声音的采集方式以及确定待翻译音源的种类,此处不作唯一限定。进一步地,基于待翻译音源形成音频数据,其转换方式可以是通过模数转换的方式,也可以是其他的方式,此处不作唯一限定。
在本申请实施例中,对音频数据进行识别的方式可以是将音频数据传输至ASR引擎进行识别,ASR是指自动语音识别技术,是一种将人的语音转换为文本的技术,在实际应用中,对音频数据进行识别的方式是多样的,需根据实际应用情况选择合适的方式进行识别,此处不作唯一限定。
步骤102、将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中。
可以理解的是,当翻译文字显示在视窗底部显示行中时,使用者无需进行抬眼阅读,大大减弱了使用者的眼睛疲劳感。近眼显示设备可以是AR眼镜,也可以是其他近眼的可穿戴设备,此处不作唯一限定。在本申请实施例中,可以在目视视窗区域范围内限定文本框的宽度来实现分行列的效果,假设目视视窗区域范围内可用于设置文本框的总宽度是640像素,字体设置为38号字体,则可以在目视视窗区域范围内设置6至8行的文本框,每行文本框可以容纳16个文字,以上关于目视视窗区域范围内设置文本框的方式仅为示例性的,在实际应用中,需根据实际应用情况进行文本框设定,此处不作唯一限定。也可以理解的是,视窗底部显示行即是使用者佩戴近眼显示设备之后近眼显示设备上靠近嘴巴一端的底部一行文本框,相应地,视窗顶部行列即是使用者佩戴近眼显示设备之后近眼显示设备上靠近头顶一端的顶部一行文本框。
若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且确定当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示,可以理解的是,最新翻译的文字会在视窗底部显示行中进行显示,可以是从左到右依次顺序显示,也可以是从右到左依次顺序显示,假设视窗底部显示行可以容纳16个文字,即预设上限文字量设置为16,则将当前视窗底部显示行中的16个文字向上移预设行数,预设行数可以设置为1也可以设置为2,不作唯一限定,使得视窗底部显示行能够重新空出,后续翻译出来的文字能够显示在视窗底部显示行之中,如此类推,直至当前翻译文字对应的语句结束。
从上述实施例可以看出以下有益效果:
通过获取音频数据,对音频数据进行识别,得到翻译文字,将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中,若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且确定当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示,解决了近眼显示设备的使用者在进行语音翻译是需要抬眼阅读文字的问题,减轻使用者的阅读疲惫感,提升使用者的使用舒适度,提升使用者体验感。
为了便于理解,以下提供了语音翻译结果显示方法的一个实施例来进行说明,在实际应用中,会对翻译文字的上移速度以及上移后的停留时长进行进一步设计。
图2为本申请实施例提供的语音翻译结果显示方法的流程示意图之二。参照图2,本申请实施例提供一种语音翻译结果显示方法,可以包括:
步骤201、获取音频数据,对音频数据进行识别,得到翻译文字。
在本申请实施例中,步骤201的具体内容与步骤101中的内容相似,此处不作赘述。
步骤202、将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中。
在本申请实施例中,确定当前翻译文字对应的语句未结束之前,需要检测音频数据中每一发音之间的间隔时长,通过该间隔时长来判断当前翻译文字对应的语句是否已经结束,具体地,若间隔时长大于或等于预设停顿上限时长,则确定当前翻译文字对应的语句结束;若间隔时长小于预设停顿上限时长,则确定当前翻译文字对应的语句未结束,且在当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量的情况下执行上移换行。
步骤203、将当前视窗底部显示行中的翻译文字按照目标移动速度上移预设行数。
在本申请实施例中,目标移动速度与音频数据的语速呈正比,即音频数据的语速越快,目标移动速度越快,也因为目标移动速度与音频数据的语速呈正比的原因,有可能会出现语速很慢的情况,导致目标移动速度也很慢,导致观感不佳,因此需要限制按照目标移动速度将当前视窗底部显示行中的翻译文字上移预设行数对应的移动耗时小于或等于预设耗时上限,假设按照当前目标移动速度来上移的话移动耗时需要达到600ms,而预设耗时上限设置为500ms,因此,需要按照将移动耗时更替为预设耗时上限来调整目标移动速度,防止上移速度过慢而影响阅读观感,以上关于目标移动速度的假设性描述仅为更好理解技术方案,在实际应用中,预设耗时上限需根据实际应用情况进行设定,此处不作唯一限定。
步骤204、控制上移预设行数之后的翻译文字的停留时长为移动耗时。
假若音频数据持续进行翻译,翻译文本由于换行或者断句的原因不断向上移动,为了提升使用者阅读的舒适性,上移预设行数之后的翻译文字需要做一定时间的停留,在本申请实施例中,设置上移预设行数之后的翻译文字的停留时长与当前上移的翻译文字对应的移动耗时相等,假设当前上移的翻译文字对应的移动耗时为300ms,那么上移预设行数之后的翻译文字的停留时长也为300ms,之后才可以继续执行后续的上移换行。可以理解的是,在实际应用中,停留时长和移动耗时也可以是1.5:1或者1:1.5的关系,需根据实际应用情况设置停留时长和移动耗时之间的比例关系,停留时长和移动耗时之间的时间偏移不超过50%即可,此处不作唯一限定。
从上述实施例中可以看出以下有益效果:
通过获取音频数据,对音频数据进行识别,得到翻译文字,将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中,将当前视窗底部显示行中的翻译文字按照目标移动速度上移预设行数,控制上移预设行数之后的翻译文字的停留时长为移动耗时,有效提升使用者的阅读舒适度,减轻使用者的眼睛疲惫感,提升使用者的使用体验感。
为了便于理解,以下提供了语音翻译结果显示方法的一个实施例来进行说明,在实际应用中,在确定当前翻译文字对应的语句结束之后,会进行校正处理,并将校正后的文字的色相进行更新,以将正在进行翻译的文字和已经翻译完毕并完成校准的文字区分来来,有利于使用者能够快速定位到当前正在翻译的文字或者已经校准的文字,提升使用者阅读效率。
图3为本申请实施例提供的语音翻译结果显示方法的流程示意图之三。参照图3,本申请实施例提供一种语音翻译结果显示方法,可以包括:
步骤301、确定当前翻译文字对应的语句结束之后,将当前视窗底部显示行中的翻译文字进行校正。
可以理解的是,翻译文字是针对一句话中的每一个发音来进行翻译的,可能会翻译成同音字,但是与上下文并不衔接,表达意思存在差异,因此在当前翻译文字对应的语句结束之后,需要对整句话进行校正,使得语句通顺,语义表达清晰,从而得到校正识别语句,并将当前视窗底部显示行中的翻译文字更新为校正识别语句,从而提升使用者的阅读体验感。
步骤302、将校正识别语句的显示色相由第一色相更新为第二色相。
在本申请实施例中,第一色相为当前视窗底部显示行中的翻译文字的原有色相,第一色相可以设置为蓝色、红色或绿色等彩色,第二色相用于向近眼显示设备的使用者传递当前翻译文字对应的语句翻译完毕的信号,第二色相可以设置为黑色或者白色等颜色,只需要第一色相和第二色相不一致即可,对第一色相和第二色相的色相设置方式不作唯一限定。
步骤303、设置第一校正识别语句的色彩饱和度高于第二校正识别语句的色彩饱和度。
第二校正识别语句为先于第一校正识别语句完成校正的语句,可以理解的是,越旧的校正识别语句使用者的关注程度越低,为了使得使用者更能迅速定位到最新的校正识别语句,在本申请实施例中,通过改变校正识别语句显示的色彩饱和度来进行区分,假设第二校正识别语句是3秒前完成校正的语句,而第一校正识别语句是1秒前完成校正的语句,则第二校正识别语句的色彩饱和度低于第一校正识别语句的色彩饱和度。
另外,翻译文字换行以及历史校正识别语句向上移动过程中,可以应呈现缓入、缓出的动效特性,进一步增强使用者的阅读体验。
从上述实施例中可以看出以下有益效果:
通过确定当前翻译文字对应的语句结束之后,将当前视窗底部显示行中的翻译文字进行校正,将校正识别语句的显示色相由第一色相更新为第二色相,设置第一校正识别语句的色彩饱和度高于第二校正识别语句的色彩饱和度,进一步提升使用者的阅读效率以及阅读舒适度,提升使用者的使用体验感。
下面对本申请实施例提供的语音翻译结果显示装置进行描述,下文描述的语音翻译结果显示装置与上文描述的语音翻译结果显示方法可相互对应参照。
图4为本申请实施例提供的语音翻译结果显示装置的结构示意图。参照图4,本申请实施例提供一种语音翻译结果显示装置,可以包括:
翻译模块410,用于获取音频数据,对音频数据进行识别,得到翻译文字;
翻译文字显示模块420,用于将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中;
若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且检测当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示。
本申请实施例提供的语音翻译结果显示装置,通过获取音频数据,对音频数据进行识别,得到翻译文字,将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中,若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且确定当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示,解决了近眼显示设备的使用者在进行语音翻译是需要抬眼阅读文字的问题,减轻使用者的阅读疲惫感,提升使用者的使用舒适度,提升使用者体验感。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communication Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的计算机程序,以执行语音翻译结果显示方法的步骤,例如包括:
获取音频数据,对音频数据进行识别,得到翻译文字;
将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中;
若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且确定当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的语音翻译结果显示方法的步骤,例如包括:
获取音频数据,对音频数据进行识别,得到翻译文字;
将翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中;
若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且确定当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在视窗底部显示行中显示。
所述非暂时性机器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (7)

1.一种语音翻译结果显示方法,其特征在于,包括:
获取音频数据,对所述音频数据进行识别,得到翻译文字;
将所述翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中;
检测所述音频数据中每一发音之间的间隔时长;若所述间隔时长大于或等于预设停顿上限时长,则确定当前翻译文字对应的语句结束;若所述间隔时长小于所述预设停顿上限时长,则确定当前翻译文字对应的语句未结束;
若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且确定当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在所述视窗底部显示行中显示;
其中,所述将当前视窗底部显示行中的翻译文字上移预设行数,包括:
将当前视窗底部显示行中的翻译文字按照目标移动速度上移所述预设行数,所述目标移动速度与所述音频数据的语速呈正比,且按照所述目标移动速度将当前视窗底部显示行中的翻译文字上移所述预设行数对应的移动耗时小于或等于预设耗时上限;
其中,所述将当前视窗底部显示行中的翻译文字上移预设行数之后,包括:
控制上移所述预设行数之后的翻译文字的停留时长为所述移动耗时。
2.根据权利要求1所述的语音翻译结果显示方法,其特征在于,
所述确定当前翻译文字对应的语句结束之后,还包括:
将当前视窗底部显示行中的翻译文字进行校正,得到校正识别语句,并将当前视窗底部显示行中的翻译文字更新为所述校正识别语句;
将所述校正识别语句的显示色相由第一色相更新为第二色相,所述第一色相为当前视窗底部显示行中的翻译文字的原有色相。
3.根据权利要求2所述的语音翻译结果显示方法,其特征在于,
所述将所述校正识别语句的显示色相由第一色相更新为第二色相之后,还包括:
设置第一校正识别语句的色彩饱和度高于第二校正识别语句的色彩饱和度,所述第二校正识别语句为先于所述第一校正识别语句完成校正的语句。
4.根据权利要求1所述的语音翻译结果显示方法,其特征在于,
所述获取音频数据之前,包括:
通过所述近眼显示设备的声音采集设备采集待翻译音源,基于所述待翻译音源形成所述音频数据。
5.一种语音翻译结果显示装置,其特征在于,包括:
翻译模块,用于获取音频数据,对所述音频数据进行识别,得到翻译文字;
翻译文字显示模块,用于将所述翻译文字按照预设显示方向依次显示在近眼显示设备的目视视窗区域的视窗底部显示行中;
检测所述音频数据中每一发音之间的间隔时长;若所述间隔时长大于或等于预设停顿上限时长,则确定当前翻译文字对应的语句结束;若所述间隔时长小于所述预设停顿上限时长,则确定当前翻译文字对应的语句未结束;
若当前视窗底部显示行中的翻译文字的累积文字量达到预设上限文字量,且检测当前翻译文字对应的语句未结束,则将当前视窗底部显示行中的翻译文字上移预设行数,使得当前翻译文字对应的语句的剩余文字能够在所述视窗底部显示行中显示;
其中,所述将当前视窗底部显示行中的翻译文字上移预设行数,包括:
将当前视窗底部显示行中的翻译文字按照目标移动速度上移所述预设行数,所述目标移动速度与所述音频数据的语速呈正比,且按照所述目标移动速度将当前视窗底部显示行中的翻译文字上移所述预设行数对应的移动耗时小于或等于预设耗时上限;
其中,所述将当前视窗底部显示行中的翻译文字上移预设行数之后,包括:
控制上移所述预设行数之后的翻译文字的停留时长为所述移动耗时。
6.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的语音翻译结果显示方法的步骤。
7.一种非暂时性机器可读存储介质,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的语音翻译结果显示方法的步骤。
CN202210839100.8A 2022-07-18 2022-07-18 语音翻译结果显示方法、装置、电子设备及存储介质 Active CN114912416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210839100.8A CN114912416B (zh) 2022-07-18 2022-07-18 语音翻译结果显示方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210839100.8A CN114912416B (zh) 2022-07-18 2022-07-18 语音翻译结果显示方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114912416A CN114912416A (zh) 2022-08-16
CN114912416B true CN114912416B (zh) 2022-11-29

Family

ID=82771725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210839100.8A Active CN114912416B (zh) 2022-07-18 2022-07-18 语音翻译结果显示方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114912416B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101867656A (zh) * 2010-06-23 2010-10-20 深圳市五巨科技有限公司 一种移动终端歌曲播放的方法和装置
CN104461424A (zh) * 2014-12-01 2015-03-25 上海斐讯数据通信技术有限公司 一种在单元格中显示旋转字符串的系统及方法
CN106663410A (zh) * 2014-04-23 2017-05-10 诺基亚技术有限公司 头戴式显示器上的信息显示
CN113093387A (zh) * 2021-04-12 2021-07-09 深圳市东鲤科技有限公司 翻译ar眼镜及其文本翻译方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101867632A (zh) * 2009-06-12 2010-10-20 刘越 一种手机语音即时翻译系统和翻译方法
JPWO2011033834A1 (ja) * 2009-09-18 2013-02-07 日本電気株式会社 音声翻訳システム、音声翻訳方法および記録媒体
CN110532573B (zh) * 2018-12-29 2022-10-11 苏州七星天专利运营管理有限责任公司 一种翻译方法和系统
US11675563B2 (en) * 2019-06-01 2023-06-13 Apple Inc. User interfaces for content applications
CN113988007A (zh) * 2021-12-29 2022-01-28 苏州浪潮智能科技有限公司 一种文本显示方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101867656A (zh) * 2010-06-23 2010-10-20 深圳市五巨科技有限公司 一种移动终端歌曲播放的方法和装置
CN106663410A (zh) * 2014-04-23 2017-05-10 诺基亚技术有限公司 头戴式显示器上的信息显示
CN104461424A (zh) * 2014-12-01 2015-03-25 上海斐讯数据通信技术有限公司 一种在单元格中显示旋转字符串的系统及方法
CN113093387A (zh) * 2021-04-12 2021-07-09 深圳市东鲤科技有限公司 翻译ar眼镜及其文本翻译方法

Also Published As

Publication number Publication date
CN114912416A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN110970018B (zh) 语音识别方法和装置
CN107773982B (zh) 游戏语音交互方法及装置
CN109147802B (zh) 一种播放语速调节方法及装置
CN106653052A (zh) 虚拟人脸动画的生成方法及装置
WO2018108013A1 (zh) 一种媒体显示方法及终端
CN106534548A (zh) 语音纠错方法和装置
CN109743617A (zh) 一种视频播放的跳转导航方法和设备
CN108733650A (zh) 个性化词获取方法及装置
CN114157920B (zh) 一种展示手语的播放方法、装置、智能电视及存储介质
CN110784662A (zh) 一种视频背景的更换方法、系统、装置和存储介质
CN109151366B (zh) 一种视频通话的声音处理方法、存储介质和服务器
CN108831459A (zh) 语音识别方法及装置
CN114373444B (zh) 一种基于蒙太奇的语音合成方法、系统及设备
CN117131271A (zh) 一种内容生成方法及系统
CN105100647A (zh) 一种校正字幕的方法及终端
CN114912416B (zh) 语音翻译结果显示方法、装置、电子设备及存储介质
CN111460094A (zh) 一种基于tts的音频拼接优化的方法及其装置
CN114398952A (zh) 训练文本生成方法、装置、电子设备及存储介质
CN114449313A (zh) 视频的音画面播放速率调整方法及装置
CN112233649B (zh) 机器同声传译输出音频动态合成方法、装置以及设备
CN117854492A (zh) 一种基于大模型的智能交互方法、系统、设备及存储介质
CN117201706A (zh) 基于控制策略的数字人合成方法、系统、设备及介质
CN117641073A (zh) 视频封面生成方法、装置、设备及存储介质
CN107426200A (zh) 一种多媒体数据处理方法和装置
CN106020809A (zh) 网络游戏文学生成系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant