CN111841006A

CN111841006A - 多媒体处理方法以及电子系统

Info

Publication number: CN111841006A
Application number: CN201910317732.6A
Authority: CN
Inventors: 曾姸菁; 周思廷; 林上尧; 黄士诚
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2020-10-30

Abstract

本发明公开了一种多媒体处理方法以及电子系统。电子系统包括主机、音频输出装置以及显示器。主机包括音频处理模块、中继处理模块、智能解译引擎以及驱动器。音频处理模块用来取得主机所执行的应用程序所处理的音频串流中的对应于第一语言的音频数据。智能解译引擎用来将对应于第一语言的该音频数据转换为对应于第二语言的文字数据。中继处理模块用来将对应于第二语言的文字数据传送至显示器显示。驱动器用来将对应于第一语言的音频数据转换为对应于第一语言的模拟语音信号并将对应于第一语言的模拟语音信号输出至音频输出装置播放。

Description

多媒体处理方法以及电子系统

技术领域

本发明涉及一种多媒体处理方法以及电子系统，尤其涉及一种通过撷取游戏中音频数据，递交至智能解译引擎以辨识出人声并进行神经机器翻译可提升使用者体验的多媒体处理方法以及电子系统。

背景技术

随着科技的发展及人们生活水平的提高，计算机系统除满足人们工作需求外，近来也越来越多应用至游戏产业，例如专为电子游戏开发的电子竞技计算机便是其中之一。进一步地，在子竞技游戏当中，同一团队中的玩家与玩家之间的互动是非常重要的。然而，当不同玩家使用不同语言时往往容易产生沟通不良的问题而导致战绩不佳的结果。因此，现有技术实有改进的必要。

发明内容

因此，本发明提供一种可提升用户体验的多媒体处理方法以及电子系统，以解决上述问题。

本发明公开一种电子系统，包括︰一主机，包括︰一音频处理模块，用来取得该主机所执行的一应用程序所处理的音频串流中的对应于一第一语言的一音频数据；一中继处理模块，用来自该音频处理模块接收对应于该第一语言的该音频数据；一智能解译引擎，用来自该中继处理模块接收对应于该第一语言的该音频数据并将对应于该第一语言的该音频数据转换为对应于一第二语言的一文字数据，其中该智能解译引擎将对应于该第二语言的该文字数据传送至该中继处理模块；以及一驱动器，用来将对应于该第一语言的该音频数据转换为对应于该第一语言的一模拟语音信号并输出对应于该第一语言的该模拟语音信号；一音频输出装置，用来播放对应于该第一语言的该模拟语音信号；以及一显示器，用来自该中继处理模块接收对应于该第二语言的该文字数据并显示出对应于该第二语言的该文字数据。

本发明还公开一种多媒体处理方法，用于一电子系统，该电子系统包括一主机，该主机包括一音频处理模块、一中继处理模块、一智能解译引擎以及一驱动器，该多媒体处理方法包括︰利用该音频处理模块取得该主机所执行的一应用程序所处理的音频串流中的对应于一第一语言的一音频数据以及传送对应于该第一语言的该音频数据至该中继处理模块以及该驱动器；利用该中继处理模块传送对应于该第一语言的该音频数据至该智能解译引擎；利用该智能解译引擎将对应于该第一语言的该音频数据转换为对应于一第二语言的一文字数据，并将对应于该第二语言的该文字数据传送至该中继处理模块；利用该中继处理模块将对应于该第二语言的该文字数据传送至该电子系统的一显示器以供显示；以及利用该驱动器将对应于该第一语言的该音频数据转换为对应于该第一语言的一模拟语音信号并输出对应于该第一语言的该模拟语音信号至该电子系统的一音频输出装置以供播放。

本发明还公开一种电子系统，包括︰一音频输入装置，用来采集目前环境的语音以产生对应于一第一语言的一模拟语音信号；以及一主机，包括︰一驱动器，用来自该音频输入装置接收对应于该第一语言的该模拟语音信号并将对应于该第一语言的该模拟语音信号转换为对应于该第一语言的一音频数据；一音频处理模块，用来自该驱动器取得对应于该第一语言的该音频数据；一中继处理模块，用来自该音频处理模块接收对应于该第一语言的该音频数据；一智能解译引擎，用来自该中继处理模块接收对应于该第一语言的该音频数据并将对应于该第一语言的该音频数据转换为对应于一第二语言的一音频数据；其中，该中继处理模块自该智能解译引擎接收对应于该第二语言的该音频数据并将对应于该第二语言的该音频数据传送至该音频处理模块以及该音频处理模块将对应于该第二语言的该音频数据提供至该主机所执行的一应用程序。

本发明还公开一种多媒体处理方法，用于一电子系统，该电子系统包括一主机，该主机包括一音频处理模块、一中继处理模块、一智能解译引擎以及一驱动器，该多媒体处理方法包括︰利用该音频输入装置来采集目前环境的语音以产生对应于一第一语言的一模拟语音信号；利用该驱动器自该音频输入装置接收对应于该第一语言的该模拟语音信号并将对应于该第一语言的该模拟语音信号转换为对应于该第一语言的一音频数据；利用该音频处理模块自该驱动器取得对应于该第一语言的该音频数据并传送至该中继处理模块；利用该音频处理模块传送对应于该第一语言的该音频数据至该智能解译引擎；利用该智能解译引擎将对应于该第一语言的该音频数据转换为对应于一第二语言的一音频数据并将对应于该第二语言的该音频数据传送至该中继处理模块；利用该中继处理模块将对应于该第二语言的该音频数据传送至该音频处理模块；以及利用该音频处理模块将对应于该第二语言的该音频数据提供至该主机所执行的一应用程序。

附图说明

图1为本发明实施例的电子系统的示意图。

图2为图1中的智能解译引擎设置在云端服务器的实施例示意图。

图3为图1中的电子系统运作在第一运作模式的第一实施例示意图。

图4为图1中的电子系统运作在第二运作模式的第一实施例示意图。

图5为图1中的电子系统运作在第一运作模式的第二实施例示意图。

图6为图1中的电子系统运作在第二运作模式的第二实施例示意图。

图7为图1中的智能解译引擎的一实施例示意图。

图8至图10分别为本发明实施例的电子系统使用在实时在线游戏的示意图。

其中，附图标记说明如下：

1 电子系统

10 主机

100 应用程序

102 音频处理模块

1022 音频引擎

1024 虚拟驱动器

104 中继处理模块

106 智能解译引擎

1060 噪声抑制模块

1062 人声辨识模块

1064 语音转文字转换器

1066 自然语言处理模块

1068 翻译器

1070 文字转语音转换器

1072 文字数据库

108 驱动器

20 音频输出装置

30 音频输入装置

40 显示器

400A、400B、400C、400D 显示区域

50 云端服务器

S_LO、S_REMOTE' 模拟语音信号

S_LO'、S_{LO_O}、S_REMOTE 音频数据

TXT_REMOTE 文字数据

UA、UB、UC 使用者

具体实施方式

在说明书及后续的权利要求书当中使用了某些词汇来指称特定的组件。本领域技术人员应可理解，制造商可能会用不同的名词来称呼同样的组件。本说明书及后续的权利要求书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的基准。在通篇说明书及后续的权利要求书当中所提及的“包含”或“包括”为一开放式的用语，故应解释成“包括但不限定于”。另外，“耦接”一词在此包含任何直接及间接的电气连接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表该第一装置可直接电气连接于该第二装置，或通过其他装置或连接手段间接地电气连接至该第二装置。

请参考图1，图1为本发明实施例的一电子系统1的示意图。电子系统1包含有一主机10、一音频输出装置20、一音频输入装置30以及一显示器40。主机10可为一桌面计算机、一笔记本电脑、一行动通信装置，但不以此为限。主机10包含有一应用程序100、一音频处理模块102、一中继处理模块104、一智能解译引擎106以及一驱动器(driver)108。应用程序100可被储存在主机10的一储存装置(未绘示于图中)，并由主机10的一处理电路(未绘示于图中)所执行。应用程序100经配置以处理音频串流(audio stream)。音频串流对应于第一语言。所述音频串流中的音频数据或语音数据可被分类为多个声音类型(soundcategory)。音频处理模块102可由应用程序100所处理的音频串流中提取出一至少声音类型的音频数据(或语音数据)以做为对应于第一语言的一音频数据。音频处理模块102将所取得的对应于第一语言的音频数据传送至中继处理模块104。中继处理模块104再将所取得的对应于第一语言的音频数据传送至智能解译引擎106做处理。此外，音频处理模块102可将所取得的对应于第一语言的音频数据传送至驱动器108。驱动器108将音频处理模块102所提取出的对应于第一语言的音频数据转换为对应于第一语言的一模拟语音信号并将对应于第一语言的模拟语音信号输出至音频输出装置20。例如，驱动器108可利用一传输接口(例如一通用串行总线(Universal Serial Bus，USB)传输接口)将对应于第一语言的模拟语音信号提供至音频输出装置20。

音频输出装置20用来播放对应于第一语言的模拟语音信号。音频输出装置20可为一耳机或一喇叭，但不以此为限。音频输入装置30用来采集目前环境的语音以产生对应于一第一语言的一模拟语音信号。音频输入装置30可为一麦克风，但不以此为限。此外，音频输出装置20、音频输入装置30以及显示器40可通过有线通信或无线通信方式链接至主机10。音频输出装置20与音频输入装置30可以整合在同一机构件上，例如以一耳机麦克风形式来实现。

音频输入装置30可将所采集对应于一第一语言的一模拟语音信号传送至驱动器108。驱动器108可将音频输入装置30所取得的对应于第一语言的模拟语音信号转换为对应于第一语言的音频数据并将对应于第一语言的音频数据传送至音频处理模块102。当音频处理模块102由驱动器108接收对应于第一语言的音频数据后，会将对应于第一语言的音频数据传送至中继处理模块104。当中继处理模块104自音频处理模块102接收到对应于第一语言的音频数据后，会将对应于第一语言的音频数据传送至将智能解译引擎106。

智能解译引擎106可将对应于第一语言的音频数据转换为对应于一第二语言的一文字数据。智能解译引擎106亦可进一步地将对应于第二语言的文字数据转换为对应于第二语言的音频数据。智能解译引擎106可整合于中继处理模块104之中。智能解译引擎106亦可设置于一云端装置当中，以处理中继处理模块104所传送的数据。例如，在一实施例中，请参考图2，图2为图1的智能解译引擎106的一变化实施例示意图。如图2所示，智能解译引擎106设置在一云端服务器(cloud server)50当中，如此一来，中继处理模块104可通过无线或有线网络与智能解译引擎106通信传送相关数据。

请参考图3，图3为图1的电子系统1运作在一第一运作(Rendering mode)模式时的第一实施例示意图。如图3所示，音频处理模块102包含有一音频引擎(audio engine)1022。例如，音频引擎1022可为一音频处理对象(Audio Processing Object，APO)。在第一运作模式中，音频处理模块102的音频引擎1022可由应用程序100所处理的音频串流中提取出一第一声音类型的音频数据以做为对应于第一语言的一音频数据S_REMOTE。举例来说，微软公司的窗口操作系统Windows 10中的音频数据的音频类型包含电影(movie)类型、媒体(media)类型、游戏聊天(game chat)类型、语音(speech)类型、通信(communication)类型、警报(alert)类型、音效(sound effects)类型、游戏媒体(game media)类型、游戏效果(gameeffect)类型、其他(others)类型等音讯类型。依据所属音频，每一音频数据可配置一对应声音类型卷标(tag of sound category)。音频引擎1022可由音频串流中提取出至少一声音类型的音频数据以做为对应于第一语言的一音频数据S_REMOTE。在一实施例中，音频引擎1022可依据音频数据所配置的声音类型卷标，将应用程序100所处理的音频串流中的所有游戏聊天类型的音频数据提取出来做为对应于第一语言的一音频数据S_REMOTE。在另一实施例中，音频引擎1022可依据音频数据所配置的声音类型卷标，将应用程序100所处理的音频串流中的所有游戏聊天类型的音频数据、通信类型的音频数据以及其他类型的音频数据类型提取出来做为对应于第一语言的一音频数据S_REMOTE。

举例来说，请继续参考图1及图3。若应用程序100为一游戏软件。音频引擎1022包含一串流效果(Stream effects(SFX))音频处理对象。如表1所示，SFX音频处理对象可自应用程序100接收游戏中的声音数据并对游戏的声音数据进行音效处理。例如，SFX音频处理对象可取得配置有游戏聊天类型的声音类型卷标的声音数据(例如表1中的玩家声音数据)并对所取得的声音数据进行音效处理。在进行音效处理之前，SFX音频处理对象将配置有游戏聊天类型的声音类型卷标的声音数据复制出来做为对应于第一语言的一音频数据S_REMOTE。也就是说，音频引擎1022可利用音频处理对象自音频串流中提取出所需声音类型的音频数据，同时，音频引擎1022仅由音频串流中提取出所需声音类型的音频数据而没有对所取得的音频数据进行特殊处理。

表1

进一步地，音频引擎1022将所取得的对应于第一语言的音频数据S_REMOTE传送至中继处理模块104以及驱动器108。中继处理模块104将对应于第一语言的音频数据S_REMOTE传送至智能解译引擎106。智能解译引擎106将对应于第一语言的音频数据S_REMOTE转换为对应于一第二语言的一文字数据TXT_REMOTE。并将对应于第二语言的文字数据TXT_REMOTE传送至中继处理模块104。中继处理模块104再将对应于第二语言的文字数据TXT_REMOTE提供至显示器40。显示器40显示对应于第二语言的文字数据TXT_REMOTE给用户观看。由于音频数据S_REMOTE为数字信号，驱动器108将所接收到的对应于第一语言的音频数据S_REMOTE转换为对应于第一语言的模拟语音信号S_REMOTE'，其中模拟语音信号S_REMOTE'为模拟信号。例如，驱动器108包含一数字模拟转换器(未绘示于图中)。数字模拟转换器可将所接收到的对应于第一语言的音频数据S_REMOTE转换为对应于第一语言的模拟语音信号S_REMOTE'。接着，驱动器108将所转换出的对应于第一语言的模拟语音信号S_REMOTE'传送至音频输出装置20。音频输出装置20播放对应于第一语言的模拟语音信号S_REMOTE'给用户聆听。

举例来说，若第一语言为英文，第二语言为中文。音频处理模块102于取得英文的音频数据S_REMOTE后，通过中继处理模块104将英文的音频数据S_REMOTE提供至智能解译引擎106。智能解译引擎106将英文的音频数据S_REMOTE转换为中文的文字数据TXT_REMOTE，以让显示器40显示中文的文字数据TXT_REMOTE。同时，驱动器108将英文的音频数据S_REMOTE转换出成英文的模拟语音信号S_REMOTE'以传送至音频输出装置20播放。如此一来，当熟悉第二语言的用户在使用电子系统1时会听到音频输出装置20所播放对应于第一语言的模拟语音信号S_REMOTE'，同时也会看到显示器40所显示的对应于第二语言的文字数据TXT_TREMOTE。在此情况下，即使使用者听不懂第一语言的模拟语音信号S_REMOTE'，仍能在看到显示器40所显示的对应于第二语言的文字数据TXT_REMOTE而得以知晓第一语言的音频数据S_REMOTE所传达的信息。

请参考图4，图4为图1的电子系统1运作在一第二运作模式(Capturing mode)时的第一实施例示意图。如图4所示，音频处理模块102包含有一音频引擎1022。例如，音频引擎1022可为一音频处理对象。在第二运作模式中，音频输入装置30采集目前环境中的语音以产生对应于一第一语言的一模拟语音信号S_LO。音频输入装置30将对应于第一语言的模拟语音信号S_LO传送至主机10的驱动器108。由于模拟语音信号S_LO为模拟信号，驱动器108将所接收到的对应于第一语言的模拟语音信号S_LO转换为对应于第一语言的音频数据S_LO'，其中音频数据S_LO'为数字信号。例如，驱动器108包含一模拟数字转换器(未绘示于图中)，模拟数字转换器可将所接收到的对应于第一语言的模拟语音信号S_LO转换为对应于第一语言的音频数据S_LO'。接着，驱动器108将所转换出的对应于第一语言的音频数据S_LO'传送至音频引擎1022。音频引擎1022再将对应于第一语言的音频数据S_LO'传送至中继处理模块104。中继处理模块104将对应于第一语言的音频数据S_LO'传送至智能解译引擎106。

智能解译引擎106将对应于第一语言的音频数据S_LO'转换为对应于一第二语言的音频数据S_{LO_O}。在一实施例中，智能解译引擎106可将对应于第一语言的音频数据S_LO'转换为对应于第一语言的文字数据。接着，将对应于第一语言的文字数据转换为对应于第二语言的文字数据，再将对应于第二语言的文字数据转换为对应于第二语言的音频数据S_{LO_O}。在另一实施例中，智能解译引擎106可将对应于第一语言的音频数据S_LO'转换为对应于第二语言的文字数据，再将对应于第二语言的文字数据转换为对应于第二语言的音频数据S_{LO_O}。进一步地，智能解译引擎106将对应于第二语言的音频数据S_{LO_O}传送至中继处理模块104。中继处理模块104再将对应于第二语言的音频数据S_{LO_O}传送至音频引擎1022。音频引擎1022将对应于第二语言的音频数据S_{LO_O}提供至应用程序100，再通过应用程序100将对应于第二语言的音频数据S_{LO_O}提供至外部装置。如此一来，当外部装置的用户熟悉第二语言，外部装置的用户在听到电子系统1所输出的对应于第二语言的音频数据S_{LO_O}便能知晓电子系统1的用户所传达的信息。

简言之，当电子系统1运作在第一运作(Rendering mode)模式时，音频处理模块102将音频串流中对应于第一语言的音频数据S_REMOTE传送至中继处理模块104。当电子系统1运作于第二运作模式中(Capturing mode)时，音频处理模块102将驱动器108所转换出的对应于第一语言的音频数据S_LO'传送至中继处理模块104，并且由中继处理模块104接收取得对应于第二语言的音频数据S_{LO_O}来提供至应用程序100。由于中继处理模块104设置于主机10之中，对应于第一语言的音频数据S_REMOTE以及驱动器108所转换出的对应于第一语言的音频数据S_LO'是由音频处理模块102传送至中继处理模块104，而不需经由驱动器108来传送。另一方面，在第一运作(Rendering mode)模式中，中继处理模块104将对应于第一语言的音频数据_SREMOTE传送至智能解译引擎106，并将智能解译引擎所转换出的对应于第二语言的文字数据TXT_REMOTE提供至显示器40显示。于第二运作模式中(Capturing mode)中，中继处理模块104将对应于第一语言的音频数据S_LO'传送至智能解译引擎106，并将智能解译引擎所转换出的对应于第二语言的音频数据S_{LO_O}提供至音频处理模块102。换言之，中继处理模块104可统筹分配安排智能解译引擎106的输入与输出，以实现相关数据转换程序。

请参考图5，图5为图1的电子系统1运作在第一运作模式时的第二实施例示意图。如图5所示，音频处理模块102包含有一音频引擎1022以及一虚拟驱动器1024。例如，音频引擎1022可为一音频处理对象。在一实施例中，音频引擎1022可为操作系统(operatingsystem)的用户模式(user mode)组件，音频引擎1022可在用户模式下执行。虚拟驱动器1024可为操作系统的一内核模式(kernel mode)组件。虚拟驱动器1024可在内核模式下执行。在第一运作模式(Rendering mode)中，音频引擎1022可由应用程序100所处理的音频串流中提取出至少一声音类型的音频数据以做为对应于第一语言的一音频数据S_REMOTE。音频引擎1022可利用音频处理对象自音频串流中提取出所需声音类型的音频数据，同时，音频引擎1022仅由音频串流中提取出所需声音类型的音频数据而没有对所取得的音频数据进行特殊处理。接着，虚拟驱动器1024拦截该音频处理对象所取得的对应于第一语言的音频数据S_REMOTE。进一步地，虚拟驱动器1024将对应于第一语言的音频数据S_REMOTE传送至中继处理模块104以及驱动器108。也就是说，虚拟驱动器1024自音频引擎1022处拦截取得对应于第一语言的音频数据S_REMOTE，并原封不动地将对应于第一语言的音频数据S_REMOTE提供至中继处理模块104与驱动器108。

中继处理模块104将对应于第一语言的音频数据S_REMOTE传送至智能解译引擎106。智能解译引擎106将对应于第一语言的音频数据S_REMOTE转换为对应于一第二语言的一文字数据TXT_REMOTE并将对应于第二语言的文字数据TXT_REMOTE传送至中继处理模块104。中继处理模块104再将对应于第二语言的文字数据TXT_REMOTE提供至显示器40。显示器40显示对应于第二语言的文字数据TXT_REMOTE给用户观看。此外，由于音频数据S_REMOTE为数字信号，驱动器108将所接收到的对应于第一语言的音频数据S_REMOTE转换为对应于第一语言的模拟语音信号S_REMOTE'，其中模拟语音信号S_REMOTE'为模拟信号。例如，驱动器108包含一数字模拟转换器(未绘示于图中)。数字模拟转换器可将所接收到的对应于第一语言的音频数据S_REMOTE转换为对应于第一语言的模拟语音信号S_REMOTE'。接着，驱动器108将所转换出的对应于第一语言的模拟语音信号S_REMOTE'传送至音频输出装置20。音频输出装置20播放对应于第一语言的音频数据S_REMOTE'给用户聆听。换言之，当熟悉第二语言的用户在使用电子系统1时会听到音频输出装置20所播放对应于第一语言的模拟语音信号S_REMOTE'，同时也会看到显示器40所显示的对应于第二语言的文字数据TXT_TREMOTE。在此情况下，即使使用者听不懂第一语言的模拟语音信号S_REMOTE'，仍能在看到显示器40所显示的对应于第二语言的文字数据TXT_REMOTE而得以知晓第一语言的音频数据S_REMOTE所传达的信息。

请参考图6，图6为图1的电子系统1运作在一第二运作模式时的第二实施例示意图。如图6所示，音频处理模块102包含有一音频引擎1022以及一虚拟驱动器1024。例如，音频引擎1022可为一音频处理对象。在一实施例中，音频引擎1022可为操作系统的用户模式组件。音频引擎1022可在用户模式下执行。虚拟驱动器1024可为操作系统的内核模式组件。虚拟驱动器1024可在内核模式下执行。在第二运作模式(Capturing mode)中，音频输入装置30采集目前环境中的语音以产生对应于一第一语言的一模拟语音信号S_LO。音频输入装置30将对应于第一语言的模拟语音信号S_LO传送至主机10的驱动器108。由于模拟语音信号S_LO为模拟信号，驱动器108将所接收到的对应于第一语言的模拟语音信号S_LO转换为对应于第一语言的音频数据S_LO'，其中音频数据S_LO'为数字信号。例如，驱动器108包含一模拟数字转换器(未绘示于图中)，模拟数字转换器可将所接收到的对应于第一语言的模拟语音信号S_LO转换为对应于第一语言的音频数据S_LO'。接着，虚拟驱动器1024拦截驱动器108将所转换出的对应于第一语言的音频数据S_LO'。虚拟驱动器1024再将对应于第一语言的音频数据S_LO'原封不动地传送至中继处理模块104。例如，用户可在操作系统(例如窗口操作系统Windows)的平台上开发设置一虚拟驱动器1024，以置于驱动层(driver layer)上，虚拟驱动器利用软件仿真一个硬件(例如语音输入设备30)来取代原有的软件。如此一来，当虚拟驱动器1024拦截到驱动器1024所转换出的音频数据后会将对应于第一语言的音频数据S_LO'原封不动地传送至中继处理模块104。

中继处理模块104将对应于第一语言的音频数据S_LO'传送至智能解译引擎106。智能解译引擎106将对应于第一语言的音频数据S_LO'转换为对应于一第二语言的音频数据S_{LO_O}。进一步地，智能解译引擎106将对应于第二语言的音频数据S_{LO_O}传送至中继处理模块104。中继处理模块104将对应于第二语言的音频数据S_{LO_O}传送至虚拟驱动器1024。虚拟驱动器1024再将对应于第二语言的音频数据S_{LO_O}'原封不动地传送至音频引擎1022。音频引擎1022将对应于第二语言的音频数据S_{LO_O}提供至应用程序100。再通过应用程序100将对应于第二语言的音频数据S_{LO_O}提供至外部装置。如此一来，当外部装置的用户熟悉第二语言，外部装置的用户在听到电子系统1所输出的对应于第二语言的音频数据S_{LO_O}便能知晓电子系统1的用户所传达的信息。

请参考图7，图7为图1中的智能解译引擎106的一实施例示意图。智能解译引擎106包含有噪声抑制模块1060、人声辨识(vocal identification)模块1062、语音转文字转换器1064、自然语言处理(Natural Language Processing，NLP)模块1066、翻译器1068、文字转语音转换器1070以及文字数据库1072。当电子系统1运作在第一运作模式时，音频处理模块102将对应于第一语言的音频数据S_REMOTE传送至中继处理模块104。中继处理模块104将对应于第一语言的音频数据S_REMOTE传送至智能解译引擎106。噪声抑制模块1060可将对应于第一语言的音频数据S_REMOTE进行一噪声抑制程序，以降低音频数据的噪声成份。人声辨识模块1062对经噪声抑制处理过的对应于第一语言的音频数据S_REMOTE进行一人声辨识程序，以产生对应于第一语言的一人声辨识数据。所述人声辨识数据为音频数据S_REMOTE的中经人声辨识模块1062判断为人声的音频数据。此外，倘若无噪声抑制需求，智能解译引擎106亦可将所接收到的音频数据S_REMOTE直接提供予人声辨识模块1062进行处理。语音转文字转换器1064将对应于第一语言的一人声辨识数据转换为对应于第一语言的文字数据。对应于第一语言的文字数据报含至少一文字。

自然语言处理模块1066将对应于第一语言的文字数据转换为对应于第一语言的术语文字数据。例如，自然语言处理模块1066可根据主机10目前所执行的应用程序100来将对应于第一语言的文字数据转换为对应于第一语言的术语文字数据。其中，主机10可通知智能解译引擎106有关于主机10目前正执行中的应用程序100的信息。或是，智能解译引擎106可询问主机10目前正执行中的应用程序100。举例来说，智能解译引擎106可根据主机10目前所执行的应用程序100以及语音转文字转换器1064所转换出的对应于第一语言的文字数据查询文字数据库1072。其中，文字数据库1072包含有对应于第一语言与多个应用程序的多个文字样本以及对应的术语文字。例如，对应于一第一应用程序与第一语言的一第一语音样本会有对应于第一语言的一第一术语文字。对应于一第二应用程序与第一语言的一第二文字样本会有对应于第一语言的一第二术语文字，依此类推。其中，每一文字样本包含至少一文字，且每一术语文字包含至少一文字。在此情况下，自然语言处理模块1066将主机10目前所执行的应用程序100与对应于第一语言的文字数据与文字数据库1072的文字样本比对，以找出符合的结果进而决定出相应的术语文字。

当对应于第一语言的文字数据的一文字符合文字数据库1072的多个文字样本当中的一第一文字样本且主机10目前所执行的应用程序100符合第一语音样本所对应的应用程序时，自然语言处理模块1066将对应于第一语言的文字数据的该文字转换成第一语音样本所对应的术语文字。当对应于第一语言的文字数据的多个文字符合术语文字数据库1072的多个文字样本当中的一第一文字样本且主机10目前所执行的应用程序100符合一第一语音样本所对应的应用程序时，自然语言处理模块1066将对应于第一语言的文字数据的该多个文字转换成第一语音样本所对应的术语文字。接着，翻译器1068将对应于第一语言的术语文字数据转换为对应于一第二语言的文字数据TXT_REMOTE。如此一来，第二语言的文字数据TXT_REMOTE可经由中继处理模块104而被提供至显示器40以供显示给用户观看。

举例来说，请参考下列表2，表2为文字数据库1072的一实施例。假设第一语言为英文及第二语言为中文。第一应用程序为英雄联盟(League of Legends)游戏软件，第二应用程序为当个创世神(Minecraft)游戏软件，第三应用程序为仿真城市(SimCity)游戏软件，第四应用程序为一般应用程序，例如，在本实施例中，第四应用程序可为第五应用程序之外的其他应用程序，即第四应用程序所对应的术语文字为日常生活(daily life)用语而非专属于特定游戏软件内组件、道具、角色的术语，以及第五应用程序为PUBG(PLAYER UNKNOWN'S BATTLE GROUNDS)游戏软件。若英文的文字数据中的文字为“Flash”并且主机10所应用的应用程序100为第一应用程序时，则自然语言处理模块1066所转换出的英文的第一应用程序的专属术语文字为“Flash”，而翻译器1068将第一应用程序的专属术语文字“Flash”转换为中文的文字“闪现”。若英文的文字数据中的文字为“Flash”并且主机10所应用的应用程序100为第二应用程序时，则自然语言处理模块1066所转换出的英文的第二应用程序的专属术语文字为“Accelerator”，而翻译器1068将第二应用程序的专属术语文字“Accelerator”转换为中文的文字“加速器”。换言之，不同的术语文字可以套用在不同的应用程序之中。因此，使用者可因应需求自行挑选不同文字数据库(或称语言包)来提供智能解译引擎106进行相关转换。并且，智能解译引擎106亦可侦测应用程序的种类来进行相应文字数据库的切换。若英文的文字数据中的文字为“Feeder”并且主机10所应用的应用程序100为第一应用程序时，则自然语言处理模块1066所转换出的英文的第一应用程序的专属术语文字为“Fertilizer”，而翻译器1068将第一应用程序的专属术语文字“Fertilizer”转换为中文的文字“肥料”。若英文的文字数据中的文字为“Feeder”并且主机10所应用的应用程序100为第三应用程序时，则自然语言处理模块1066所转换出的英文的第三应用程序的专属术语文字为“Feeder”，而翻译器1068将第三应用程序的专属术语文字“Feeder”转换为中文的文字“喂养者”。

表2

请参考图8，图8为本发明实施例的电子系统1使用在一实时在线(联机)游戏的一示意图。其中使用者UA说英文并且看得懂英文，使用者UB说中文并且看得懂中文，以及使用者UC说德文并且看得懂德文。使用者UA、使用者UB以及使用者UC分别执行第一应用程序(例如为英雄联盟(League of Legends)游戏软件)。其中，用户UB使用本发明的电子系统1来执行第一应用程序。电子系统1运作在第一运作模式(Rendering mode)，在执行实时在线游戏当中，使用者UA以英文说了“use flash”后，相应的模拟语音信号被产生并经由网络传送到用户UB所使用的电子系统1。用户UB所使用的电子系统将模拟语音信号转成数字的音频数据S_REMOTE。由于主机10目前是执行第一应用程序，据此智能解译引擎106将英文的音频数据“flash”转换为中文文字“闪现”。并且，智能解译引擎106在查询文字数据库1072后，将英文的音频数据“use”转换为中文文字“使用”。因此使用者UB通过音频输出装置20播放会听到包含有英文的“use flash”的模拟语音信号S_REMOTE'。而显示器的40显示区域400A会显示出包含有“使用”等文字，并且显示器的40显示区域400B会显示出包含有“闪现”等文字。如此一来，虽然使用者UB听不懂英文，但是在听到音频输出装置20播放出的模拟语音信号(内容为“use flash”)时，通过看到显示器40所显示“使用闪现”等文字而能了解用户UA目前所说的意思。如此一来，电子系统1不仅可进行一般语音转换为文字，更能提供不同应用时机使用相应的术语转换而能更贴近使用者的需求，使用者更能融入游戏情境。

请参考图9，图9为本发明实施例的电子系统1使用在一实时在线游戏的又一示意图。其中使用者UA说英文并且看得懂英文，使用者UB说中文并且看得懂中文，以及使用者UC说德文并且看得懂德文。使用者UA、使用者UB以及使用者UC分别执行第二应用程序(当个创世神(Minecraft)游戏软件。其中，用户UB使用本发明的电子系统1来执行第二应用程序。在执行实时在线游戏当中，使用者UA以英文说了“use flash”后，相应的模拟语音信号被产生并经由网络传送到用户UB所使用的电子系统1。用户UB所使用的电子系统将模拟语音信号转成数字的音频数据S_REMOTE。由于主机10目前是执行第二应用程序，据此智能解译引擎106将英文的音频数据“flash”转换为中文文字“加速器”。并且智能解译引擎106在查询文字数据库1072后，将英文的音频数据“use”转换为中文文字“使用”。因此使用者UB通过音频输出装置20播放会听到包含有英文的“use flash”的模拟语音信号S_REMOTEE'。而显示器的40显示区域400C会显示出包含有“使用”等文字，并且显示器的40显示区域400D会显示出包含有“加速器”等文字。如此一来，虽然使用者UB听不懂英文，但是在听到音频输出装置20播放出的模拟语音信号(内容为“use flash”)时，通过看到显示器40所显示“使用加速器”等文字而能了解用户UA目前所说的意思。

请继续参考图4、图6以及图7，当电子系统1运作在第二运作模式(Capturingmode)时，驱动器108将所转换出的对应于第一语言的音频数据S_LO'传送至音频处理模块102。音频处理模块102再将对应于第一语言的音频数据S_LO'传送至中继处理模块104。中继处理模块104将对应于第一语言的音频数据S_LO'传送至智能解译引擎106。噪声抑制模块1060可将对应于第一语言的音频数据S_LO'进行一噪声抑制程序，以降低音频数据的噪声成份。人声辨识模块1062对经噪声抑制处理过的对应于第一语言的音频数据S_LO'进行一人声辨识程序，以产生对应于第一语言的一人声辨识数据。语音转文字转换器1064将对应于第一语言的一人声辨识数据转换为对应于第一语言的文字数据。如前所述，自然语言处理模块1066将对应于第一语言的文字数据转换为对应于第一语言的术语文字数据。翻译器1068将对应于第一语言的术语文字数据转换为对应于一第二语言的文字数据。接着，文字转语音转换器1070将对应于第二语言的文字数据转换为对应于第二语言的音频数据S_{LO_O}。智能解译引擎106将对应于第二语言的音频数据S_{LO_O}传送至中继处理模块104。中继处理模块104再将对应于第二语言的音频数据S_{LO_O}传送至音频处理模块102。音频处理模块102将对应于第二语言的音频数据S_{LO_O}提供至应用程序100，再通过应用程序100将对应于第二语言的音频数据S_{LO_O}提供至外部装置。如此一来，当外部装置的用户熟悉第二语言，外部装置的用户在听到电子系统1所输出的对应于第二语言的音频数据S_{LO_O}便能知晓电子系统1的用户所传达的信息。

请参考图10，图10为本发明实施例的电子系统1使用在一实时在线游戏的又一示意图。其中使用者UA说英文并且看得懂英文，使用者UB说中文并且看得懂中文，以及使用者UC说德文并且看得懂德文。使用者UA、使用者UB以及使用者UC分别来执行第一应用程序(例如为英雄联盟(League of Legends)游戏软件)。其中，用户UA使用本发明的电子系统1来执行第一应用程序。在执行实时在线游戏当中，使用者UA以英文说了“use flash”后，相应的模拟语音信号被产生，并且经由驱动器108转换为英文的数字音频数据，由于主机10目前是执行第一应用程序，据此智能解译引擎106将英文的音频数据“flash”转换为中文的音频数据“闪现”。如此一来，用户UB在听到电子系统1所输出的中文的音频数据(内容为“使用闪现”)便能知晓使用者UA所传达的信息。

综上所述，本发明实施例可让用户在使用电子系统1时会听到音频输出装置20所播放对应于第一语言的模拟音频数据并且看到显示器40所显示的对应于第二语言的文字数据。如此一来，即使用户听不懂第一语言的音频数据，仍能在看到显示器40所显示的对应于第二语言的文字数据后而得以知晓第一语言的音频数据所传达的信息。同时，可将使用者所输入的对应于第一语言的模拟音频数据转换成对应于第二语言的音频数据，以让其他用户可了解本发明实施例通过撷取游戏中音频数据，递交至智能解译引擎以辨识出人声并进行神经机器翻译，使用者所传达的信息。因此本发明实施例将可为使用不同语言的用户之间的带来良好互动关系，并有效提升使用者体验。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电子系统，包括︰

一主机，包括︰

一音频处理模块，用来取得该主机所执行的一应用程序所处理的音频串流中的对应于一第一语言的一音频数据；

一中继处理模块，用来自该音频处理模块接收对应于该第一语言的该音频数据；

一智能解译引擎，用来自该中继处理模块接收对应于该第一语言的该音频数据并将对应于该第一语言的该音频数据转换为对应于一第二语言的一文字数据，其中该智能解译引擎将对应于该第二语言的该文字数据传送至该中继处理模块；以及

一驱动器，用来将对应于该第一语言的该音频数据转换为对应于该第一语言的一模拟语音信号并输出对应于该第一语言的该模拟语音信号；

一音频输出装置，用来播放对应于该第一语言的该模拟语音信号；以及

一显示器，用来自该中继处理模块接收对应于该第二语言的该文字数据并显示出对应于该第二语言的该文字数据。

2.根据权利要求1所述的电子系统，其特征在于，该音频处理模块包括一音频引擎，用来自该主机所执行的该应用程序所处理的音频串流中提取出对应于该第一语言的该音频数据并将对应于该第一语言的该音频数据传送至该中继处理模块。

3.根据权利要求1所述的电子系统，其特征在于，该音频处理模块包括︰

一音频引擎，用来自该主机所执行的该应用程序所处理的音频串流中提取出对应于该第一语言的该音频数据；以及

一虚拟驱动器，用来拦截该音频处理对象所提取出的对应于该第一语言的该音频数据，并将所拦截到的对应于该第一语言的该音频数据传送至该中继处理模块。

4.根据权利要求1所述的电子系统，其特征在于，该智能解译引擎设置于一云端服务器之中。

5.一种多媒体处理方法，用于一电子系统，该电子系统包括一主机，该主机包括一音频处理模块、一中继处理模块、一智能解译引擎以及一驱动器，该多媒体处理方法包括︰

利用该音频处理模块取得该主机所执行的一应用程序所处理的音频串流中的对应于一第一语言的一音频数据以及传送对应于该第一语言的该音频数据至该中继处理模块以及该驱动器；

利用该中继处理模块传送对应于该第一语言的该音频数据至该智能解译引擎；

利用该智能解译引擎将对应于该第一语言的该音频数据转换为对应于一第二语言的一文字数据，并将对应于该第二语言的该文字数据传送至该中继处理模块；

利用该中继处理模块将对应于该第二语言的该文字数据传送至该电子系统的一显示器以供显示；以及

利用该驱动器将对应于该第一语言的该音频数据转换为对应于该第一语言的一模拟语音信号并输出对应于该第一语言的该模拟语音信号至该电子系统的一音频输出装置以供播放。

6.根据权利要求5所述的多媒体处理方法，其特征在于，该音频处理模块包括一音频引擎，该音频引擎自该主机所执行的该应用程序所处理的音频串流中提取出对应于该第一语言的该音频数据并将对应于该第一语言的该音频数据传送至该中继处理模块。

7.根据权利要求5所述的多媒体处理方法，其特征在于，该音频处理模块包括一音频引擎以及一虚拟驱动器，该音频引擎自该主机所执行的该应用程序所处理的音频串流中提取出对应于该第一语言的该音频数据，以及该虚拟驱动器拦截该音频处理对象所提取出的对应于该第一语言的该音频数据并将所拦截到的对应于该第一语言的该音频数据传送至该中继处理模块。

8.一种电子系统，包括︰

一音频输入装置，用来采集目前环境的语音以产生对应于一第一语言的一模拟语音信号；以及

一主机，包括︰

一驱动器，用来自该音频输入装置接收对应于该第一语言的该模拟语音信号并将对应于该第一语言的该模拟语音信号转换为对应于该第一语言的一音频数据；

一音频处理模块，用来自该驱动器取得对应于该第一语言的该音频数据；

一智能解译引擎，用来自该中继处理模块接收对应于该第一语言的该音频数据并将对应于该第一语言的该音频数据转换为对应于一第二语言的一音频数据；

其中，该中继处理模块自该智能解译引擎接收对应于该第二语言的该音频数据并将对应于该第二语言的该音频数据传送至该音频处理模块以及该音频处理模块将对应于该第二语言的该音频数据提供至该主机所执行的一应用程序。

9.根据权利要求8所述的电子系统，其特征在于，该音频处理模块包括一音频引擎，用来自该驱动器接收对应于该第一语言的该音频数据并将该第一语言的该音频数据传送至该中继处理模块，以及自该中继处理模块接收对应于该第二语言的该音频数据并将对应于该第二语言的该音频数据提供至该主机所执行的该应用程序。

10.根据权利要求8所述的电子系统，其中该音频处理模块包括一虚拟驱动器以及一音频引擎，该虚拟驱动器自该驱动器拦截对应于该第一语言的该音频数据，将该第一语言的该音频数据传送至该中继处理模块以及自该中继处理模块接收对应于该第二语言的该音频数据，以及该音频引擎自该虚拟驱动器接收对应于该第二语言的该音频数据并将对应于该第二语言的该音频数据提供至该主机所执行的该应用程序。

11.根据权利要求8所述的电子系统，其特征在于，该智能解译引擎设置于一云端服务器之中。

12.一种多媒体处理方法，用于一电子系统，该电子系统包括一主机，该主机包括一音频处理模块、一中继处理模块、一智能解译引擎以及一驱动器，该多媒体处理方法包括︰

利用该音频输入装置来采集目前环境的语音以产生对应于一第一语言的一模拟语音信号；

利用该驱动器自该音频输入装置接收对应于该第一语言的该模拟语音信号并将对应于该第一语言的该模拟语音信号转换为对应于该第一语言的一音频数据；

利用该音频处理模块自该驱动器取得对应于该第一语言的该音频数据并传送至该中继处理模块；

利用该音频处理模块传送对应于该第一语言的该音频数据至该智能解译引擎；

利用该智能解译引擎将对应于该第一语言的该音频数据转换为对应于一第二语言的一音频数据并将对应于该第二语言的该音频数据传送至该中继处理模块；

利用该中继处理模块将对应于该第二语言的该音频数据传送至该音频处理模块；以及

利用该音频处理模块将对应于该第二语言的该音频数据提供至该主机所执行的一应用程序。

13.根据权利要求12所述的多媒体处理方法，其特征在于，该音频处理模块包括一音频引擎，该音频引擎自该驱动器接收对应于该第一语言的该音频数据并将该第一语言的该音频数据传送至该中继处理模块以及自该中继处理模块接收对应于该第二语言的该音频数据并将对应于该第二语言的该音频数据提供至该主机所执行的该应用程序。

14.根据权利要求12所述的多媒体处理方法，其特征在于，该音频处理模块包括一虚拟驱动器以及一音频引擎，该虚拟驱动器自该驱动器拦截对应于该第一语言的该音频数据，将该第一语言的该音频数据传送至该中继处理模块以及自该中继处理模块接收对应于该第二语言的该音频数据，以及该音频引擎自该虚拟驱动器接收对应于该第二语言的该音频数据并将对应于该第二语言的该音频数据提供至该主机所执行的该应用程序。