CN116631403A - 一种数据处理方法、装置及电子设备 - Google Patents

一种数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN116631403A
CN116631403A CN202310633302.1A CN202310633302A CN116631403A CN 116631403 A CN116631403 A CN 116631403A CN 202310633302 A CN202310633302 A CN 202310633302A CN 116631403 A CN116631403 A CN 116631403A
Authority
CN
China
Prior art keywords
characters
target character
audio data
target
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310633302.1A
Other languages
English (en)
Inventor
徐杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202310633302.1A priority Critical patent/CN116631403A/zh
Publication of CN116631403A publication Critical patent/CN116631403A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种数据处理方法,包括:获得音频数据;解析所述音频数据,获得一组字符;所述一组字符包括多个字符;基于所述音频数据进行输出;基于所述音频数据进行输出的过程,显示目标字符;所述目标字符与所述一组字符中的部分相关。

Description

一种数据处理方法、装置及电子设备
技术领域
本申请涉及数据处理领域,更具体的说,是涉及一种数据处理方法、装置及电子设备。
背景技术
对于涉及音视频播放的软硬件产品,将音频信息以可视化的文字形式进行呈现能够提高用户粘度。例如,对于会议软件,实时字幕为在跨国会议中的用户更好理解发言内容提供了很大的帮助。但是,当前的可视化的字幕显示模式较为单一和固定,难以满足用户的实际需求。
发明内容
有鉴于此,本申请提供如下技术方案:
一种数据处理方法,包括:
获得音频数据;
解析所述音频数据,获得一组字符;所述一组字符包括多个字符;
基于所述音频数据进行输出;
基于所述音频数据进行输出的过程,显示目标字符;所述目标字符与所述一组字符中的部分相关。
可选地,解析所述音频数据,得到一组字符,包括:
解析所述音频数据的语音数据,获得与所述语音数据对应的多个第一字符,所述语音数据与所述多个第一字符对应同一种语言类别;
或者,
解析所述音频数据的语音数据,获得与所述语音数据对应的多个第一字符;所述语音数据与所述多个第一字符对应同一种语言类别;
获得与所述多个第一字符对应的多个第二字符,所述多个第一字符与所述多个第二字符的语言类别不同。
可选地,基于所述音频数据进行输出的过程,显示目标字符,包括如下一种:
如果基于所述音频数据进行输出为音频输出所述音频数据,基于所述音频输出所述音频数据的过程,同步显示目标字符;所述目标字符为如下一种:多个第一字符的部分,多个第二字符的部分;
如果基于所述音频数据进行输出为音频输出所述音频数据以及同步显示输出所述多个第一字符,基于所述音频输出所述音频数据以及同步显示输出所述多个第一字符的过程,显示目标字符;所述目标字符为多个第二字符的部分;
如果基于所述音频数据进行输出为显示输出所述多个第一字符,基于所述显示输出所述多个第一字符的过程,显示目标字符;所述目标字符为多个第二字符的部分。
可选地,显示目标字符之前,包括:
从所述多个第一字符中确定属于第一目标集合的第一目标字符;
将所述第一目标字符作为所述目标字符。
可选地,显示目标字符之前,包括:
从所述多个第一字符中确定属于第一目标集合的第一目标字符;
从所述多个第二字符中确定与所述第一目标字符对应的第二目标字符;
将所述第二目标字符作为所述目标字符。
可选地,显示目标字符之前,包括:
从所述多个第一字符中确定属于第一目标集合的第一目标字符;
获得与所述第一目标字符对应的至少两个第二目标字符;所述第一目标字符与所述第二目标字符的语言类别不同;
基于所述音频数据的语义从所述两个第二目标字符中确定出一个所述第二目标字符作为所述目标字符。
可选地,显示所述目标字符之后,包括:
获得针对所述目标字符的删除指令,所述删除指令用于指示删除显示的所述目标字符;
基于所述删除指令将所述第一目标字符从所述第一目标集合中删除;所述第一目标集合与目标用户对应。
可选地,显示目标字符之前,包括:
确定所述音频数据的附属信息;
基于所述附属信息确定所述目标字符;不同的所述附属信息对应的所述目标字符中的字符数量不同。
本申请还公开了一种数据处理装置,包括:
音频获得模块,用于获得音频数据;
音频解析模块,用于解析所述音频数据,获得一组字符;所述一组字符包括多个字符;
数据输出模块,用于基于所述音频数据进行输出;
字符显示模块,用于基于所述音频数据进行输出的过程,显示目标字符;所述目标字符与所述一组字符中的部分相关。
进一步地,本申请还公开一种电子设备,包括:
显示屏;
处理器,所述处理器用于执行程序指令,所述执行程序指令包括:获得音频数据;解析所述音频数据,获得一组字符;所述一组字符包括多个字符;基于所述音频数据进行输出;基于所述音频数据进行输出的过程,显示目标字符;所述目标字符与所述一组字符中的部分相关。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种数据处理方法的流程图;
图2为本申请实施例公开的一个确定目标字符的流程图;
图3为本申请实施例公开的另一个确定目标字符的流程图;
图4为本申请实施例公开的又一个确定目标字符的流程图;
图5为本申请实施例公开的调整第一目标集合的流程图;
图6为本申请实施例公开的一个数据处理方法的流程示意图;
图7为本申请实施例公开的一种数据处理装置的结构示意图;
图8为本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例可以应用于电子设备,本申请对该电子设备的产品形式不做限定,可以包括但并不局限于智能手机、平板电脑、可穿戴设备、个人计算机(personalcomputer,PC)、上网本等,可以依据应用需求选择。
图1为本申请实施例公开的一种数据处理方法的流程图。参见图1所示,数据处理方法可以包括:
步骤101:获得音频数据。
所述音频数据可以是多种场景下某对象说话得到的音频数据,例如可以是跨国在线会议、外语网课,观看外语视频等场景下的音频数据。对于在线会议等这种需要实时交互的场景,所述音频数据由讲话一侧用户的终端设备经网络传送至所述数据处理方法的执行主体设备侧。对于单纯播放音视频文件这种无需实时交互的场景,所述音频数据为在执行主体设备侧进行播放的音视频文件中的音频。
步骤102:解析所述音频数据,获得一组字符;所述一组字符包括多个字符。
所述音频数据自身可携带对应的字符数据,例如,对于某外语歌曲作品,其自身除了音频内容外,还包括歌词内容,该歌词内容即音频数据自身携带的对应的字符数据,通过解析可以直接获得。
或者,所述音频数据仅单纯的具有音频内容,例如,在与外国友人视频的场景中,外国友人侧的语音采集设备收集到外国友人的声音数据,得到所述音频数据并通过网络传送至本申请所述数据处理方法的执行主体设备侧。这种情况下,对音频数据的解析过程,至少采用了语音识别技术,以得到所述音频内容对应的字符内容。解析所述音频数据获得一组字符的过程,可以理解为将语音信息转换为文本信息的过程。
所述一组字符为对应所述音频数据完整内容的字符,也即,所述音频数据中的每个字词都有对应的字符处于所述一组字符中。一个示例中,音频数据对应的一组字符可以是“Whatistheproblemsolvedbyyourinvention”。
步骤103:基于所述音频数据进行输出。
本实施例中,基于所述音频数据进行输出的输出内容并没有固定限制,但输出内容至少与所述音频数据相关。例如,基于所述音频数据输出的输出内容可以包括所述音频数据,也可以不包括所述音频数据,但包括与音频数据相关的字符。在后面的实施例内容中,将对基于所述音频数据进行输出的几种实现进行详细介绍,在此不再过多说明。
步骤104:基于所述音频数据进行输出的过程,显示目标字符;所述目标字符与所述一组字符中的部分相关。
所述目标字符可以是所述一组字符中的部分字符,也可以不是所述一组字符中的字符,但与所述一组字符中的部分字符相关,如所述目标字符可以是所述一组字符中部分字符的译文字符。一个示例中,解析所述音频数据得到的一组字符为“Whatarethedrawbacksofsuchknownsolutions”,其中“drawbacks”相对于其他词汇的难度更高,则目标字符可以仅包括“drawbacks”,或者目标字符可以仅包括“drawbacks”的译文“缺点”,或者,目标字符可以包括“drawbacks”和译文“缺点”,以给观看者提供其可能陌生词汇的提示,帮助观看者更好的理解音频数据的内容。
本实施例所述数据处理方法在输出音频数据的过程中,可以仅显示与音频数据对应文本内容部分相关的目标字符,该目标字符可以是用户不熟悉或不认识的词汇,而对于用户熟知的词汇则不再显示,这样不仅节省了用户的阅读精力,同时能够有效帮助用户理解其不熟知的词汇,不会影响用户对音频数据的整体理解。
上述实施例中,所述解析所述音频数据,得到一组字符,可以包括:解析所述音频数据的语音数据,获得与所述语音数据对应的多个第一字符,所述语音数据与所述多个第一字符对应同一种语言类别。该实现即解析音频数据得到与音频数据对应的文本内容的过程,所述多个第一字符即为所述音频数据的文本内容。
在本实现中,仅解析获得了与音频数据的语音数据属于同一种语言类别的第一字符,则后续在基于所述音频数据进行输出的过程中,显示的目标字符可以为所述多个第一字符中的部分字符。
例如,对于多个第一字符“Brieflydescribethecoreideaofyourinvention”,其中的“Briefly”和“core”为英文水平一般用户不熟知或不认识的词汇,则显示的目标字符可以仅包括“Briefly”和“core”。此外,考虑到若单纯仅显示“Briefly”和“core”,用户可能不明确这两个词汇在句子中的位置,不利于用户理解文意。因此在实际应用中,可以在显示的目标字符中添加位置标记信息,以表征目标字符在对应句子中的位置,如可以显示“Briefly——core————”,从而用户能够清楚的知道两个目标字符的位置,帮助用户更好的理解语义。
另一个实现中,所述解析所述音频数据,得到一组字符,可以包括:解析所述音频数据的语音数据,获得与所述语音数据对应的多个第一字符;所述语音数据与所述多个第一字符对应同一种语言类别;获得与所述多个第一字符对应的多个第二字符,所述多个第一字符与所述多个第二字符的语言类别不同。
本实现中,所述音频数据对应的语言种类并不是当前用户所熟知或者能够无障碍理解的语言种类,因此经过申请方案公开的数据处理方法,能够帮助用户更好的理解所述音频数据对应的语义。得到的一组字符不仅包括与音频数据的语音数据属于统一语言类别的多个第一字符,还包括与音频数据的语音数据不同语言类别的多个第二字符,所述多个第二字符可以理解为所述多个第一字符的译文。其中的第二字符,可以是通过本地具有翻译功能的模块翻译得到的,也可以是针对某第一字符在网络上执行查找获得的,本申请对其获得方式并不做固定限制。
本实施例详细介绍了解析音频数据得到一组字符的不同实现,也给出了不同实现下后续呈现目标字符的相关内容,便于领域内技术人员更好的理解并实施本申请技术方案。
前述实施例内容中,所述基于所述音频数据进行输出的过程,显示目标字符,可以包括:如果基于所述音频数据进行输出为音频输出所述音频数据,基于所述音频输出所述音频数据的过程,同步显示目标字符;所述目标字符为如下一种:多个第一字符的部分,多个第二字符的部分。
例如,对于多个第一字符“Brieflydescribethecoreideaofyourinvention”其对应的多个第二字符为“简要地描述你的方案的核心要点”,对应显示的目标字符可以为“简要地”和“核心”,也可以是“Briefly”和“core”。
此外,目标字符还可以同时包括相对应的部分第一字符和部分第二字符,则最终显示屏上的呈现内容可以是“Briefly(简要地)——core(核心)————”。当然,其中的中文也可以不设置在英文字符后面,也可以设置在对应英文的上方或下方,本申请对此不做固定限制。
另一个实现中,基于所述音频数据进行输出的过程,显示目标字符,包括:如果基于所述音频数据进行输出为音频输出所述音频数据以及同步显示输出所述多个第一字符,基于所述音频输出所述音频数据以及同步显示输出所述多个第一字符的过程,显示目标字符;所述目标字符为多个第二字符的部分。
本实现中,在输出音频数据的同时,还会同步显示输出音频数据对应的完整的文本内容,也即所述多个第一字符。在此基础上,显示的目标字符为多个第二字符的部分,也即将超出用户外语词汇级别的外语词汇的译文输出。如显示屏上输出的字符内容为“Briefly(简要地)describethecore(核心)idea ofyourinvention”,其中的中文也可以设置在对应英文的上方或下方。
又一个实现中,基于所述音频数据进行输出的过程,显示目标字符,包括:如果基于所述音频数据进行输出为显示输出所述多个第一字符,基于所述显示输出所述多个第一字符的过程,显示目标字符;所述目标字符为多个第二字符的部分。
在一些特殊场合,如公共办公区域,用户可能没有携带耳机设备,并且不方便开启扩音器,因此需要开启静音模式。这种模式下,音频数据的语音数据并不会输出,因此可以控制仅输出所述多个第一字符,也即语音数据对应的文本数据;在此基础上,显示的目标字符为多个第二字符的部分,也即将多个第一字符中用户可能不认识的词汇对应的译文也显示出来,帮助用户理解语义。
前述内容详细介绍了在音频数据不同的输出场景中目标字符的实现,显示目标字符不同的实现可以基于用户的选择或配置来确定,目标字符多样化的实现方式不仅能够满足不同用户的喜好,也能够适用于不同的应用场景。
图2为本申请实施例公开的一个确定目标字符的流程图。参见图2所示,在显示目标字符之前,确定目标字符可以包括:
步骤201:从所述多个第一字符中确定属于第一目标集合的第一目标字符。
其中,所述第一目标集合可以是与当前用户的外语水平对应的词汇集合,具体的,可以是用户不熟知或不认识的外语词汇集合(如生词库)。例如,多个第一字符为“Citeanyrelevanttechnicaldocumentsorreferences”,其中属于第一目标集合的词汇可以包括“relevant”、“documents”和“references”。
步骤202:将所述第一目标字符作为所述目标字符。
沿用前述例子,仅将“relevant”、“documents”和“references”作为目标字符,并在音频数据输出的过程中显示。例如,在基于所述音频数据进行输出为音频输出所述音频数据的实现中,基于所述音频输出所述音频数据(“Citeanyrelevanttechnicaldocumentsorreferences”的语音)的过程中,同步显示“relevant”、“documents”和“references”。
图3为本申请实施例公开的另一个确定目标字符的流程图。参见图3所示,在显示目标字符之前,确定目标字符可以包括:
步骤301:从所述多个第一字符中确定属于第一目标集合的第一目标字符。
与前一个实现中相同,所述第一目标集合可以是与当前用户的外语水平对应的词汇集合,具体的,可以是用户不熟知或不认识的外语词汇集合。
步骤302:从所述多个第二字符中确定与所述第一目标字符对应的第二目标字符。
本实现中,最终需要呈现的目标字符为与所述音频数据的语音数据的语言种类不同的部分译文,因此在确定了第一目标字符后,需要从多个第二字符中确定与第一目标字符对应的第二目标字符。
步骤303:将所述第二目标字符作为所述目标字符。
将所述第二目标字符作为所述目标字符,这样在基于所述音频数据进行输出为音频输出所述音频数据的实现中,输出所述音频数据的过程,同步显示目标字符,也即所述第二目标字符。
例如,确定的第一目标字符为“relevant”、“documents”和“references”,对应的第二目标字符为“相关的”、“文件”和“参考资料”,将这3个译文词汇确定为目标字符。例如,在音频输出所述音频数据(“Citeanyrelevant technicaldocumentsorreferences”的语音)的过程中,可以仅同步显示“相关的”、“文件”和“参考资料”,也可以在显示“Citeanyrelevanttechnicaldocuments orreferences”时在相应位置同步显示“相关的”、“文件”和“参考资料”。
图4为本申请实施例公开的又一个确定目标字符的流程图。参见图4所示,在显示目标字符之前,确定目标字符可以包括:
步骤401:从所述多个第一字符中确定属于第一目标集合的第一目标字符。
步骤402:获得与所述第一目标字符对应的至少两个第二目标字符;所述第一目标字符与所述第二目标字符的语言类别不同。
在一些外语语种中,同一个单词可能具有多个译文意思,例如,对于appropriate这个单词,其具有两个译文解释,第一个是“适当的;合适的;恰当的”,第二个是“盗用;挪用;占用;侵吞”。如前文所述,这里获得第二目标字符的方式可以是通过本地具有翻译功能的模块翻译得到的,也可以是直接执行查找进程获得的。
步骤403:基于所述音频数据的语义从所述两个第二目标字符中确定出一个所述第二目标字符作为所述目标字符。
在将某个第一目标字符对应的译文作为目标字符显示时,不可能将第一目标字符所有的译文解释都显示输出,因此需要从多个译文解释中选择出一个最合适的译文解释作为目标字符输出。如针对“appropriate”这个第一目标字符,可以基于前后文,分析整体音频数据的语义,从而从“appropriate”的两个译文解释中选择正确的译文作为目标字符。如音频数据对应的多个第一字符为“Describehowyourinventionworks,andhowitcouldbeimplemented,usingtext,diagramsandflowchartsasappropriate”,对应的多个第二字符为“描述:采用适当的文字,框图,流程图来描述你的方案是如何工作的,该方案要怎么做就可以获得实施,如何实现的”,因此,对于其中的第一目标字符“appropriate”,其对应的第二目标字符,也即目标字符为“适当的”。
前述内容介绍了确定目标字符的多种实现,但这并不构成对确定目标字符的固定限制,实际应用场景中,还可以存在多种不脱离本申请方案构思的其他实现。
其他实现中,确定目标字符还可以结合产生所述音频数据设备侧的用户数据来进行。具体的,可以确定所述音频数据的附属信息;基于所述附属信息确定所述目标字符;不同的所述附属信息对应的所述目标字符中的字符数量不同。其中,所述附属信息表征所述音频数据的来源用户的客户端的IP地址,或者,所述附属信息表征所述音频数据的来源用户的国家。
也就是说,针对同一来源用户的同一音频数据最终显示的目标字符中包括的字符数量可能是不同的。在线会议场景下,假设一个A国家的来源用户在发言,B国家的用户为输出用户,在输出用户需要显示译文的场景下,虽然都是翻译为B国家语言,但A国家的人说B国家语言和B国家的人说B国家语言时显示的中文数量是不同的。也就是说,若附属信息表征音频数据对应的来源用户的客户端的IP地址不属于B国家,或者表征音频数据对应的来源用户的国家不属于B国家,则可以确定,来源用户用A国家语言讲话的发音方式及语调习惯等可能与数据处理方法执行主体设备侧的B国家的输出用户不同,则对于B国家的输出用户平时可能熟知的词汇,如“invention”,在来源用户的音频数据的语音输出过程中,由于发音习惯等的不同,当前用户可能也无法识别出该词汇内容,因此也需要将该词汇作为目标字符或者将该词汇的译文解释作为目标字符,在显示时,仅显示该词汇或者仅显示该词汇的译文解释,再或者同时显示该词汇及对应的译文解释。而若附属信息表征音频数据对应的来源用户的客户端的IP地址属于B国家,或者表征音频数据对应的来源用户的国家属于B国家,由于近似的外语发音习惯,则当前用户能够清楚识别出音频数据的语音中的“invention”,因此无需再将该单词的译文解释作为目标字符。也即,基于音频数据对应的来源用户的附属信息的不同,目标字符中包括的字符数量也不相同。
其他实现中,数据处理方法在显示目标字符之后,还可以包括调整第一目标集合的流程。图5为本申请实施例公开的调整第一目标集合的流程图。
参见图5所示,可以包括:
步骤501:获得针对所述目标字符的删除指令,所述删除指令用于指示删除显示的所述目标字符。
在目标字符显示后,用户可能发现目标字符显示的词汇为其认识并理解的词汇,无需针对该词汇进行显示,因此可以针对该词汇触发一个删除指令,使得第一目标集合中不再包含该词汇,这样后续再出现此词汇时,由于其已不在所述第一目标集合中,因此也不再会将其作为目标字符进行显示输出。
步骤502:基于所述删除指令将所述第一目标字符从所述第一目标集合中删除;所述第一目标集合与目标用户对应。
例如,对于多个第一字符“Whatarethedrawbacksofsuchknownsolutions”,在对应音频数据输出的过程中,显示出目标字符“drawbacks”,用户看到后,认识该单词,知晓其译文解释为“缺点”,则可以触发针对该单词的删除指令,控制将“drawbacks”从第一目标集合中删除。
需要说明的是,由于音频数据的输出是一个持续进行的流程,为了不影响用户接收并理解音频数据内容,触发删除目标字符的指令可以简化设计。例如,常规的删除操作需要首先“选中”目标字符,然后右键触发功能菜单,从中选择“删除”;而本实施例中,可以设置用户触发“选择”目标字符,就可以对其执行删除,如用户通过触控屏点击一下目标字符,或者通过鼠标控制光标指向目标字符并点击鼠标左键,就可以执行对目标字符进行删除。
此外,在基于所述音频数据进行输出为音频输出所述音频数据以及同步显示输出所述多个第一字符的实现中,显示屏上显示的字符包括多个第一字符和部分第二字符,在某个第一字符没有给出对应的译文解释而用户又不认识该字符对应的单词时,同样可以通过点击选择该单词而使其显示出译文解释,并将该单词添加进入所述第一目标集合;这样,下次再遇到这个单词时,就会将其译文作为目标字符进行显示,帮助用户更好的理解音频数据内容。
上述内容介绍了调整第一目标集合的实现,第一目标集合的实时调整,使得其更加适配当前用户,能够在后续的应用中更加准确的为用户呈现出满足其实际需求的目标字符,提升用户的使用满意度。
一个实际应用中,数据处理方法的流程示意图如图6所示。结合图6所示内容,在需要将英文翻译为中文并以实时字幕显示部分中文的应用场景中,数据处理方法实施之前,可以在初次使用之前给用户进行一个简单的英语词汇量评级。当翻译后显示实时字幕时,先判断要显示的英文词汇的等级是否高于评级,如果不高于评级,则判断该英文词汇是否位于用户的生词本中,如果不在生词本中,说明用户熟悉该英文词汇,如此一来就无需显示该英文词汇对应的中文解释。如果高于评级,则判断该英文词汇是否位于用户的熟词本中,如果在熟词本中,同样说明用户熟悉该英文词汇,如此一来也无需显示该英文词汇对应的中文解释,如果不在熟词本中,说明用户不熟悉该英文词汇,如此一来就需要显示该英文词汇对应的中文解释。在实际使用过程中,会有判断错误的情况,此时用户可以自行纠错。当用户遇到不认识的单词但是并未显示中文时,可以点击一下英语词汇,软件会将该英文词汇加入个性化生词库并显示中文,下次再出现该英文词汇时也会显示中文。当用户遇到认识的英文词汇但仍然显示了中文解释时,可以点击一下中文解释,软件会将此单词加入个性化熟词库,下次再出现该英文词汇就不会显示中文解释了。用户也可以自行编译生词库和熟词库。
本申请实施例所述数据处理方法,应用中对具有一定外语基础但是仍然有很多不认识单词的用户具有很好的适用性,以英语到中文翻译为例,可以在显示英语原文的基础上,把用户不认识的单词的中文解释标注在单词旁边。用户依然以阅读英文字幕为主,只有在碰到不认识的单词时可以看到中文解释。这样既可以起到锻炼用户英语能力的作用又可以帮助用户理解当前听到的内容。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了一种装置,下面给出具体的实施例进行详细说明。
图7为本申请实施例公开的一种数据处理装置的结构示意图。参见图7所示,数据处理装置70可以包括:
音频获得模块701,用于获得音频数据。
音频解析模块702,用于解析所述音频数据,获得一组字符;所述一组字符包括多个字符。
数据输出模块703,用于基于所述音频数据进行输出。
字符显示模块704,用于基于所述音频数据进行输出的过程,显示目标字符;所述目标字符与所述一组字符中的部分相关。
本实施例所述数据处理装置在输出音频数据的过程中,可以仅显示与音频数据对应文本内容部分相关的目标字符,该目标字符可以是用户不熟悉或不认识的词汇,而对于用户熟知的词汇则不再显示,这样不仅节省了用户的阅读精力,同时能够有效帮助用户理解其不熟知的词汇,不会影响用户对音频数据的整体理解。
一个实现中,音频解析模块具体可用于:解析所述音频数据的语音数据,获得与所述语音数据对应的多个第一字符,所述语音数据与所述多个第一字符对应同一种语言类别;或者,解析所述音频数据的语音数据,获得与所述语音数据对应的多个第一字符;所述语音数据与所述多个第一字符对应同一种语言类别,获得与所述多个第一字符对应的多个第二字符,所述多个第一字符与所述多个第二字符的语言类别不同。
一个实现中,字符显示模块具体可用于:如果基于所述音频数据进行输出为音频输出所述音频数据,基于所述音频输出所述音频数据的过程,同步显示目标字符;所述目标字符为如下一种:多个第一字符的部分,多个第二字符的部分;如果基于所述音频数据进行输出为音频输出所述音频数据以及同步显示输出所述多个第一字符,基于所述音频输出所述音频数据以及同步显示输出所述多个第一字符的过程,显示目标字符;所述目标字符为多个第二字符的部分;如果基于所述音频数据进行输出为显示输出所述多个第一字符,基于所述显示输出所述多个第一字符的过程,显示目标字符;所述目标字符为多个第二字符的部分。
一个实现中,装置还可以包括:字符确定模块,用于从所述多个第一字符中确定属于第一目标集合的第一目标字符;将所述第一目标字符作为所述目标字符。
一个实现中,字符确定模块用于:从所述多个第一字符中确定属于第一目标集合的第一目标字符;从所述多个第二字符中确定与所述第一目标字符对应的第二目标字符;将所述第二目标字符作为所述目标字符。
一个实现中,字符确定模块用于:从所述多个第一字符中确定属于第一目标集合的第一目标字符;获得与所述第一目标字符对应的至少两个第二目标字符;所述第一目标字符与所述第二目标字符的语言类别不同;基于所述音频数据的语义从所述两个第二目标字符中确定出一个所述第二目标字符作为所述目标字符。
一个实现中,装置还可以包括:集合调整模块,用于获得针对所述目标字符的删除指令,所述删除指令用于指示删除显示的所述目标字符;基于所述删除指令将所述第一目标字符从所述第一目标集合中删除;所述第一目标集合与目标用户对应。
一个实现中,字符确定模块具体可用于:
确定所述音频数据的附属信息;基于所述附属信息确定所述目标字符;不同的所述附属信息对应的所述目标字符中的字符数量不同。
上述数据处理装置及其各个模块的具体实现可参见方法实施例中相应部分的内容介绍,在此不再重复赘述。
上述实施例中的所述的任意一种数据处理装置包括处理器和存储器,上述实施例中的音频获得模块、音频解析模块、数据输出模块、字符显示模块、集合调整模块、字符确定模块等均作为程序模块存储在存储器中,由处理器执行存储在所述存储器中的上述程序模块来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序模块。内核可以设置一个或多个,通过调整内核参数来实现回访数据的处理。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
在示例性实施例中,还提供了一种计算机可读存储介质,可直接加载到计算机的内部存储器,其中含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述数据处理方法任一实施例所示步骤。
在示例性实施例中,还提供一种计算机程序产品,可直接加载到计算机的内部存储器,其中含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述所述的数据处理方法任一实施例所示步骤。
进一步,本申请实施例提供了一种电子设备。图8为本申请实施例公开的一种电子设备的结构示意图。参见图8所示,电子设备包括至少一个处理器801、以及显示屏802、总线803;其中,处理器、显示屏通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的数据处理方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,包括:
获得音频数据;
解析所述音频数据,获得一组字符;所述一组字符包括多个字符;
基于所述音频数据进行输出;
基于所述音频数据进行输出的过程,显示目标字符;所述目标字符与所述一组字符中的部分相关。
2.根据权利要求1所述的数据处理方法,解析所述音频数据,得到一组字符,包括:
解析所述音频数据的语音数据,获得与所述语音数据对应的多个第一字符,所述语音数据与所述多个第一字符对应同一种语言类别;
或者,
解析所述音频数据的语音数据,获得与所述语音数据对应的多个第一字符;所述语音数据与所述多个第一字符对应同一种语言类别;
获得与所述多个第一字符对应的多个第二字符,所述多个第一字符与所述多个第二字符的语言类别不同。
3.根据权利要求2所述的数据处理方法,基于所述音频数据进行输出的过程,显示目标字符,包括如下一种:
如果基于所述音频数据进行输出为音频输出所述音频数据,基于所述音频输出所述音频数据的过程,同步显示目标字符;所述目标字符为如下一种:多个第一字符的部分,多个第二字符的部分;
如果基于所述音频数据进行输出为音频输出所述音频数据以及同步显示输出所述多个第一字符,基于所述音频输出所述音频数据以及同步显示输出所述多个第一字符的过程,显示目标字符;所述目标字符为多个第二字符的部分;
如果基于所述音频数据进行输出为显示输出所述多个第一字符,基于所述显示输出所述多个第一字符的过程,显示目标字符;所述目标字符为多个第二字符的部分。
4.根据权利要求3所述的数据处理方法,显示目标字符之前,包括:
从所述多个第一字符中确定属于第一目标集合的第一目标字符;
将所述第一目标字符作为所述目标字符。
5.根据权利要求3所述的数据处理方法,显示目标字符之前,包括:
从所述多个第一字符中确定属于第一目标集合的第一目标字符;
从所述多个第二字符中确定与所述第一目标字符对应的第二目标字符;
将所述第二目标字符作为所述目标字符。
6.根据权利要求2所述的数据处理方法,显示目标字符之前,包括:
从所述多个第一字符中确定属于第一目标集合的第一目标字符;
获得与所述第一目标字符对应的至少两个第二目标字符;所述第一目标字符与所述第二目标字符的语言类别不同;
基于所述音频数据的语义从所述两个第二目标字符中确定出一个所述第二目标字符作为所述目标字符。
7.根据权利要求4-6任一项所述的数据处理方法,显示所述目标字符之后,包括:
获得针对所述目标字符的删除指令,所述删除指令用于指示删除显示的所述目标字符;
基于所述删除指令将所述第一目标字符从所述第一目标集合中删除;所述第一目标集合与目标用户对应。
8.根据权利要求1所述的数据处理方法,显示目标字符之前,包括:
确定所述音频数据的附属信息;
基于所述附属信息确定所述目标字符;不同的所述附属信息对应的所述目标字符中的字符数量不同。
9.一种数据处理装置,包括:
音频获得模块,用于获得音频数据;
音频解析模块,用于解析所述音频数据,获得一组字符;所述一组字符包括多个字符;
数据输出模块,用于基于所述音频数据进行输出;
字符显示模块,用于基于所述音频数据进行输出的过程,显示目标字符;所述目标字符与所述一组字符中的部分相关。
10.一种电子设备,包括:
显示屏;
处理器,所述处理器用于执行程序指令,所述执行程序指令包括:获得音频数据;解析所述音频数据,获得一组字符;所述一组字符包括多个字符;
基于所述音频数据进行输出;基于所述音频数据进行输出的过程,显示目标字符;所述目标字符与所述一组字符中的部分相关。
CN202310633302.1A 2023-05-31 2023-05-31 一种数据处理方法、装置及电子设备 Pending CN116631403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310633302.1A CN116631403A (zh) 2023-05-31 2023-05-31 一种数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310633302.1A CN116631403A (zh) 2023-05-31 2023-05-31 一种数据处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN116631403A true CN116631403A (zh) 2023-08-22

Family

ID=87597069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310633302.1A Pending CN116631403A (zh) 2023-05-31 2023-05-31 一种数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116631403A (zh)

Similar Documents

Publication Publication Date Title
JP6675463B2 (ja) 自然言語の双方向確率的な書換えおよび選択
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
KR101279759B1 (ko) 컴퓨터 시스템에 의해 구현가능한 방법, 컴퓨팅 시스템에 의해 실행가능한 명령어들을 포함하는 매체 및 컴퓨팅 시스템
CN106251869B (zh) 语音处理方法及装置
US20140258892A1 (en) Resource locator suggestions from input character sequence
US9548052B2 (en) Ebook interaction using speech recognition
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
CN1742273A (zh) 多模态语音-语音语言翻译和显示
CN109979450B (zh) 信息处理方法、装置及电子设备
CN101465068A (zh) 用于确定电子设备中增补内容的方法
CN111898388A (zh) 视频字幕翻译编辑方法、装置、电子设备及存储介质
CN110059224B (zh) 投影仪设备的视频检索方法、装置、设备及存储介质
JP6676093B2 (ja) 異言語間コミュニケーション支援装置及びシステム
KR20120077794A (ko) 자동 번역 시스템에서 중국어 문장의 단어의 뜻을 제공하는 방법, 번역 장치 및 단말기, 그리고 이 방법을 실행시키기 위한 프로그램을 저장한 기록매체
CN116631403A (zh) 一种数据处理方法、装置及电子设备
JP5533377B2 (ja) 音声合成装置、音声合成プログラムおよび音声合成方法
KR20220139246A (ko) 개인화된 검색 브라우저 기반 언어 학습 방법 및 시스템
CN113438532A (zh) 视频处理、视频播放方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination