CN117877487A

CN117877487A - 语音识别系统、方法、电子设备和计算机可读存储介质

Info

Publication number: CN117877487A
Application number: CN202311813122.8A
Authority: CN
Inventors: 戴恩斌
Original assignee: Hangzhou Electronic Soul Network Technology Co Ltd
Current assignee: Hangzhou Electronic Soul Network Technology Co Ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-04-12

Abstract

本申请涉及一种语音识别系统、方法、电子设备和计算机可读存储介质。其中，该语音识别系统包括语音识别模块、游戏引擎模块；所述语音识别模块与所述游戏引擎模块通讯连接，用于对所接收到的目标音频数据进行识别，并将识别结果发送至所述游戏引擎模块；所述语音识别模块是根据预先获取的语音识别模型搭建的本地服务器；所述游戏引擎模块与所述语音识别模块通过Websocket网络传输协议进行数据传输，所述游戏引擎模块用于获取原始音频数据，对所述原始音频数据进行处理得到所述目标音频数据，并将所述目标音频数据发送至所述语音识别模块。

Description

语音识别系统、方法、电子设备和计算机可读存储介质

技术领域

本申请涉及人工智能领域，特别是涉及语音识别系统、方法、电子设备和计算机可读存储介质。

背景技术

随着人工智能的不断发展和应用，人工智能语音识别技术在各个领域都有较大的应用需求。在游戏领域，游戏引擎中缺乏相关的语音识别功能，阻碍了相关应用的开发。

现有的游戏引擎中实现语音识别，通常通过接入第三方付费服务器在线实现语音识别，或者接入集成Whisper语音识别插件，在本地进行语音识别。第三方付费服务器所需的费用较高，接入WhisperWhisper插件存在安装包占用存储空间较大的问题。而且两种方式都存在高时延的问题，不能实现语音识别功能的自定义扩展。

现有的游戏引擎中的语音识别方式存在应用效果不佳，不利于用户体验的问题。

发明内容

本申请实施例提供了一种语音识别系统、方法、电子设备和计算机可读存储介质，以至少解决相关技术中应用效果不佳，不利于用户体验的问题。

第一方面，本申请实施例提供了一种语音识别系统，系统包括语音识别模块、游戏引擎模块；

所述语音识别模块与所述游戏引擎模块通讯连接，用于对所接收到的目标音频数据进行识别，并将识别结果发送至所述游戏引擎模块；所述语音识别模块是根据预先获取的语音识别模型搭建的本地服务器；

所述游戏引擎模块与所述语音识别模块通过Websocket网络传输协议进行数据传输，所述游戏引擎模块用于获取原始音频数据，对所述原始音频数据进行处理得到所述目标音频数据，并将所述目标音频数据发送至所述语音识别模块。

在一实施例中，所述语音识别模块包括语音识别模型；所述语音识别模型包括主模型和辅助模型；

所述主模型用于对所述目标音频数据进行识别；

所述辅助模型用于对所述主模型的识别结果进行优化。

在一实施例中，所述辅助模型包括多人语音识别模型、标点符号恢复模型、逆文本正则化模型中至少一项。

在一实施例中，所述游戏引擎模块包括第一音频获取单元，所述第一音频获取单元用于获取音频文件作为原始音频数据，将所述音频文件转换为目标格式获取目标音频数据，并将所述目标音频数据发送至所述语音识别模块。

在一实施例中，所述游戏引擎模块包括第二音频获取单元，所述第二音频获取单元用于调用麦克风的接口，获取语音数据作为原始音频文件，对所述语音数据进行逐帧处理，将处理后的语音数据转换为目标音频数据，并将所述目标音频数据发送至所述语音识别模块。

在一实施例中，所述第二音频获取单元被配置为：按照预设时长将所述目标音频数据划分为不同段，依次将每段目标音频数据发送至所述语音识别模块。

在一实施例中，所述系统还包括应用模块；

所述应用模块用于根据用户操作生成相应的指令，以控制所述游戏引擎模块根据所述指令获取原始音频数据；

还用于接收所述语音识别模块发送的所述识别结果，根据所述识别结果进行下一步操作。

第二方面，本申请实施例提供了一种语音识别方法，所述方法应用于第一方面所述的语音识别系统，所述方法包括：

通过所述语音识别系统中的语音识别模块接收所述语音识别系统中的游戏引擎模块发送的目标音频数据；

通过所述语音识别模块对所述目标音频数据进行识别，并将识别结果发送至所述游戏引擎模块；

所述语音识别模块与所述游戏引擎模块之间通过Websocket网络传输协议进行数据传输。

第三方面，本申请实施例提供了一种电子设备，包括：存储器，处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的语音识别系统。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的语音识别系统。

本申请实施例提供的语音识别系统、方法、电子设备和计算机可读存储介质至少具有以下技术效果。

本申请提供的语音识别系统，通过搭建本地服务器作为语音识别模块，对游戏引擎模块所涉及的语音数据进行识别，并且通过Websocket网络传输协议实现游戏引擎模块和语音识别模块之间的数据通信。以本地服务器代替第三方付费服务器和语音识别插件，避免了高额费用和安装包体积较大的问题，同时自主搭建的本地服务器可以根据需求部署所需的语音识别模型，以实现语音识别功能的自定义扩展。以Websocket技术为基础实现数据通信功能，解决了高时延的问题。以此方式，提高了游戏引擎中语音识别功能的应用效果，有利于提高用户体验。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据一示例性实施例示出的语音识别系统的结构图；

图2为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

第一方面，本申请实施例提供了一种语音识别系统，图1是根据一示例性实施例示出的语音识别系统的结构图，如图1所示，系统包括语音识别模块100、游戏引擎模块200。可选地，游戏引擎模块200包括但不限于Unity3D引擎和Unreal游戏引擎。

语音识别模块100与游戏引擎模块200通讯连接，用于对所接收到的目标音频数据进行识别，并将识别结果发送至游戏引擎模块；语音识别模块是根据预先获取的语音识别模型搭建的本地服务器。

可选地，通过Websocket网络传输协议实现语音识别模块100和游戏引擎模块200之间的通讯连接。语音识别模块主要包括语言识别模型和多人语言识别模型等模型，可以根据具体需求选择不同的开源语音识别模型，也可以自己训练模型作为语音识别模型。可选地，通过Docker搭建语音识别服务器，具体包括：在Docker中拉取工程镜像、配置参数并启动服务。

以此方式，搭建本地服务器作为语音识别模块，对目标音频数据进行识别，并且通过Websocket网络传输协议实现语音识别模块与游戏引擎模块之间的数据传输。自主搭建的本地的语音识别服务器可以根据具体需求定制语音识别模型，具有较高的可控性和可扩展性。同时基于WebSocket的服务器通信，具有低延迟的优势，可以进行全双工通信，实现同时进行双向数据传输。

在一个示例中，语音识别模块100包括语音识别模型；语音识别模型包括主模型和辅助模型。主模型用于对目标音频数据进行识别。辅助模型用于对主模型的识别结果进行优化。

可选地，语音识别模型可以根据具体的应用需求进行选择。主模型包括但不限于Paraformer和Non-autoregressive等语音识别模型中的一种，辅助模型包括多人语音识别模型、标点符号恢复模型、逆文本正则化模型等，通过辅助模型对主模型的识别结果进行二次识别，以达到更优的效果。

以此方式，自主选择和设计语音识别模型，提高语音识别系统的可控性和可扩展性。并且以辅助模型对主模型的识别结果进行优化，以提高语音识别的准确率。通过辅助模型可以使语音识别模块实现标点预测、支持逆文本正则化以及支持文字时间戳，使得识别结果更加符合书写习惯并且便于根据时间戳进行文字归纳。提高了语音识别模块在游戏引擎中的应用效果，有利于提高用户体验感。

在一个示例中，辅助模型包括多人语音识别模型、标点符号恢复模型、逆文本正则化模型中至少一项。以此方式，对语音识别模型的识别结果进行进一步优化，通过辅助模型对语音识别模型的功能进行自定义扩展，提高语音识别模型的识别效果，以及在游戏引擎中的应用效果。

游戏引擎模块200与语音识别模块100通过Websocket网络传输协议进行数据传输，游戏引擎模块200用于获取原始音频数据，对原始音频数据进行处理得到目标音频数据，并将目标音频数据发送至语音识别模块。

可选地，游戏引擎模块200包括但不限于Unity3D引擎和Unreal游戏引擎。通过Websocket网络传输协议实现语音识别模块100和游戏引擎模块200之间的数据传输。以此方式，实现游戏引擎模块与语音识别模块之间的通信连接和数据传输，并且基于Websocket的数据传输具有低时延和实时性高的优点，可以实现全双工通信，支持数据同时双向传输，有利于提高语音识别系统的实时性。

在一个示例中，游戏引擎模块200包括第一音频获取单元，第一音频获取单元用于获取音频文件作为原始音频数据，将音频文件转换为目标格式获取目标音频数据，并将目标音频数据发送至语音识别模块。

可选地，当对音频文件进行识别时，通过游戏引擎获取音频文件，将音频文件作为AudioClip数据对象，并将数据对象格式转换为wav格式的byte数据作为目标音频数据，将目标音频数据发送至语音识别模块。在该实施例中，通过游戏引擎模块获取音频文件，并对音频文件进行处理发送至语音识别模块，便于语音识别模块对音频文件进行识别，从而有利于后续对应用模块的开发和应用。

在一个示例中，游戏引擎模块200包括第二音频获取单元，第二音频获取单元用于调用麦克风的接口，获取语音数据作为原始音频文件，对语音数据进行逐帧处理，将处理后的语音数据转换为目标音频数据，并将目标音频数据发送至语音识别模块。

可选地，当对实时语音进行识别时，设备的麦克风需要保持开启状态，通过调用MicroPhone的API获取实时语音数据，通过Unity协程或aysn方法对实时语音数据进行逐帧处理，并对将处理后的数据转换为AudioClip数据对象发送至语音识别模块。通过逐帧处理实时语音数据可以获取清晰的流式数据，从而便于语音识别模块实现实时流式语音识别。以此方式，实现通过游戏引擎模块实时监听语音数据，配合Websocket数据传输以实现低延迟的流式语音识别，有利于后续对应用模块的开发和应用。

在一个示例中，第二音频获取单元被配置为：按照预设时长将目标音频数据划分为不同段，依次将每段目标音频数据发送至语音识别模块。可选地，将目标音频数据按照预设时长划分为多段数据，依次将每段数据发送至语音识别模块，语音识别模块每识别完一段数据，便将识别结果返回至游戏引擎模块。以此方式，实现边录入语音边识别，达到实时语音识别，在后续应用模块应用时，可以一边录入语音一边显示语音识别的结果，而不必等待整条语音录入完毕。从而提高语音识别模块在游戏引擎中的应用效果，有利于提高用户体验感。

在一个示例中，系统还包括应用模块，应用模块用于根据用户操作生成相应的指令，以控制游戏引擎模块根据所述指令获取原始音频数据。还用于接收语音识别模块发送的识别结果，根据识别结果进行下一步操作。

可选地，应用模块可以为3D游戏中的玩家与角色对话功能，当用户长按麦克风时，调用MicroPhone的API获取实时语音数据，通过游戏引擎模块对语音数据进行处理，通过语音识别模块对处理后的语音数据进行识别，应用模块接受语音识别的结果实时显示在目标区域，并根据识别结果生成角色的回答。以此方式，实现语音识别功能的实际应用。

综上所述，本申请自主选择和设计语音识别模型100，通过辅助模型对主模型的识别结果进行优化，以及对语音识别模型的功能进行自定义扩展，提高语音识别模型的识别效果，以及语音识别系统的可控性和可扩展性。同时基于WebSocket通信协议实现游戏引擎模块200与语音识别模块100之间的通信连接和数据传输，具有低延迟的优势。游戏引擎模块200实时监听语音数据，配合Websocket数据传输以实现低延迟的流式语音识别，从而在应用模块可以实现实时语音识别。以此方式，提高了语音识别模块在游戏引擎中的应用效果，有利于后续对应用模块的开发和应用，以及提高用户体验感。

第二方面，本申请实施例提供了一种语音识别方法，方法应用于第一方面的语音识别系统，方法包括：

通过语音识别系统中的语音识别模块接收语音识别系统中的游戏引擎模块发送的目标音频数据。

通过语音识别模块对目标音频数据进行识别，并将识别结果发送至游戏引擎模块。

语音识别模块与所游戏引擎模块之间通过Websocket网络传输协议进行数据传输。

在一个示例中，语音识别模块包括语音识别模型；语音识别模型包括主模型和辅助模型；通过主模型用于对目标音频数据进行识别；通过辅助模型用于对主模型的识别结果进行优化。

在一个示例中，辅助模型包括多人语音识别模型、标点符号恢复模型、逆文本正则化模型中至少一项。

在一个示例中，游戏引擎模块包括第一音频获取单元，通过第一音频获取单元用于获取音频文件作为原始音频数据，将音频文件转换为目标格式获取目标音频数据，并将目标音频数据发送至语音识别模块。

在一个示例中，游戏引擎模块包括第二音频获取单元，通过第二音频获取单元用于调用麦克风的接口，获取语音数据作为原始音频文件，对语音数据进行逐帧处理，将处理后的语音数据转换为目标音频数据，并将目标音频数据发送至语音识别模块。

在一个示例中，第二音频获取单元被配置为：按照预设时长将目标音频数据划分为不同段，依次将每段目标音频数据发送至语音识别模块。

在一个示例中，方法还包括：通过应用模块根据用户操作生成相应的指令，以控制游戏引擎模块根据指令获取原始音频数据；接收语音识别模块发送的识别结果，根据识别结果进行下一步操作。

综上所述，本申请自主选择和设计语音识别模型，通过辅助模型对主模型的识别结果进行优化，以及对语音识别模型的功能进行自定义扩展，提高语音识别模型的识别效果，以及语音识别系统的可控性和可扩展性。同时基于WebSocket通信协议实现游戏引擎模块与语音识别模块之间的通信连接和数据传输，具有低延迟的优势。游戏引擎模块实时监听语音数据，配合Websocket数据传输以实现低延迟的流式语音识别，从而在应用模块可以实现实时语音识别。以此方式，提高了语音识别模块在游戏引擎中的应用效果，有利于后续对应用模块的开发和应用，以及提高用户体验感。

第三方面，本申请实施例提供了一种电子设备，图2为本申请实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面提供的语音识别系统，图2显示的电子设备60仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

电子设备60可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备60的组件可以包括但不限于：上述至少一个处理器61、上述至少一个存储器62、连接不同系统组件(包括存储器62和处理器61)的总线63。

总线63包括数据总线、地址总线和控制总线。

存储器62可以包括易失性存储器，例如随机存取存储器(RAM)621和/或高速缓存存储器622，还可以进一步包括只读存储器(ROM)623。

存储器62还可以包括具有一组(至少一个)程序模块624的程序/实用工具625，这样的程序模块624包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器61通过运行存储在存储器62中的计算机程序，从而执行各种功能应用以及数据处理，例如本申请第一方面的语音识别系统。

电子设备60也可以与一个或多个外部设备64(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口65进行。并且，模型生成的设备60还可以通过网络适配器66与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器66通过总线63与模型生成的设备60的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备60使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面的燃气轮机故障预警模型构建方法和第一方面的语音识别系统。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使终端设备执行实现如第一方面的语音识别系统的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别系统，其特征在于，系统包括语音识别模块、游戏引擎模块；

2.根据权利要求1所述的语音识别系统，其特征在于，所述语音识别模块包括语音识别模型；所述语音识别模型包括主模型和辅助模型；

所述主模型用于对所述目标音频数据进行识别；

所述辅助模型用于对所述主模型的识别结果进行优化。

3.根据权利要求2所述的语音识别系统，其特征在于，所述辅助模型包括多人语音识别模型、标点符号恢复模型、逆文本正则化模型中至少一项。

4.根据权利要求1所述的语音识别系统，其特征在于，所述游戏引擎模块包括第一音频获取单元；

所述第一音频获取单元用于获取音频文件作为原始音频数据，将所述音频文件转换为目标格式获取目标音频数据，并将所述目标音频数据发送至所述语音识别模块。

5.根据权利要求1所述的语音识别系统，其特征在于，所述游戏引擎模块包括第二音频获取单元，

所述第二音频获取单元用于调用麦克风的接口，获取语音数据作为原始音频文件，对所述语音数据进行逐帧处理，将处理后的语音数据转换为目标音频数据，并将所述目标音频数据发送至所述语音识别模块。

6.根据权利要求5所述的语音识别系统，其特征在于，所述第二音频获取单元被配置为：按照预设时长将所述目标音频数据划分为不同段，依次将每段目标音频数据发送至所述语音识别模块。

7.根据权利要求1所述的语音识别系统，其特征在于，所述系统还包括应用模块；

8.一种语音识别方法，其特征在于，所述方法应用于权利要求1～7中任一项所述的语音识别系统，所述方法包括：

9.一种电子设备，其特征在于，包括：

存储器，

处理器，以及

存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的语音识别系统。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的语音识别系统。