CN114566157A

CN114566157A - 声音处理方法、声音处理系统、设备和计算机可读介质

Info

Publication number: CN114566157A
Application number: CN202111325637.4A
Authority: CN
Inventors: 田美乔
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-05-31

Abstract

本公开提供了一种声音处理方法，包括：获取声音数据；利用预设的语音识别模型对声音数据进行识别，得到声音数据中的至少一个语音数据；利用预设的语句识别模型识别每个语音数据的语句类型；对于每个语音数据，根据识别出的语句类型确定对语音数据中的至少部分数据进行声音增强，和/或对语音数据中的至少部分数据进行声音减弱。本公开还提供了一种声音处理系统、电子设备和计算机可读介质。

Description

声音处理方法、声音处理系统、设备和计算机可读介质

技术领域

本公开涉及语音分析处理技术领域，特别涉及一种声音处理方法、声音处理系统、电子设备和计算机可读介质。

背景技术

5G无线通信技术当前已明确有三大应用场景，包括增强移动宽带(enhancedMobile Broadband，简称eMBB)、海量机器类通信 (massive Machine Type ofCommunication，简称mMTC)和高可靠低延时通信(ultra-Reliable Low LatencyCommunications，简称 uRLLC)。

现阶段，在声音处理过程中，通常声音处理的针对性不强、准确性不高，声音处理后音量过小很可能无法传达到使用者处，并且处理较机械化，而且存在耗时过长的问题。

发明内容

本公开旨在至少解决现有技术中存在的技术问题之一，提出了一种声音处理方法、声音处理系统、电子设备和计算机可读介质。

为实现上述目的，第一方面，本公开实施例提供了一种声音处理方法，包括：

获取声音数据；

利用预设的语音识别模型对所述声音数据进行识别，得到所述声音数据中的至少一个语音数据；

利用预设的语句识别模型识别每个所述语音数据的语句类型；

对于每个所述语音数据，根据识别出的语句类型确定对所述语音数据中的至少部分数据进行声音增强，和/或对所述语音数据中的至少部分数据进行声音减弱。

在一些实施例中，在所述利用预设的语音识别模型对所述声音数据进行识别，得到所述声音数据中的至少一个语音数据之前，还包括：

获取所述声音数据的声音分贝以及当前时段对应的预设分贝区间；

将所述声音数据中的、声音分贝不属于所述预设分贝区间的数据进行屏蔽。

在一些实施例中，所述利用预设的语句识别模型识别每个所述语音数据的语句类型，包括：

利用所述语句识别模型，至少根据所述语音数据对应的声音分贝和所述预设分贝区间，识别所述语音数据的语句类型。

在一些实施例中，所述利用预设的语音识别模型对所述声音数据进行识别，得到所述声音数据中的语音数据以及所述语音数据对应的至少一个目标语句，包括：

利用所述语音识别模型，对所述声音数据进行语音识别，得到所述至少一个语音数据，其中，所述语音识别包括：自然语言识别、语义识别和语境识别中的至少一者。

对于每个所述语音数据：确定该语音数据中的至少一个字词分段，并获取预先存储的、与每个所述字词分段相对应的至少一个候选字词；

利用所述语句识别模型，从每个所述字词分段所对应的全部候选字词中选择一者，组成目标语句；

根据所述目标语句确定该语音数据的语句类型。

在一些实施例中，所述利用所述语句识别模型，从每个所述字词分段所对应的全部候选字词中选择一者，组成目标语句，包括；

将该语音数据与字词信息进行匹配，得到字词匹配信息，其中，所述字词信息与所述至少一个候选字词相对应；

对所述字词匹配信息进行匹配评价，得到匹配度最高的字词匹配结果；

对所述字词匹配结果进行无监督学习，并在满足预设的递归条件后，输出与所述字词匹配结果对应的组句方案；

根据输出的所述组句方案，从每个所述字词分段所对应的全部候选字词中选择一者，组成所述目标语句。

在一些实施例中，所述将该语音数据与字词信息进行匹配，得到字词匹配信息，包括：

采用如下公式：

将该语音数据与所述字词信息进行匹配；其中，i、j和t为变量系数，且i∈[0,m]，j∈[0,n]，t∈[0,p]，m、n和p为变量系数对应的最大值；k表示递归次数且k∈[1,h]，h为递归阈值；

表示该语音数据与所述字词信息的匹配度；

表示该语音数据；

表示所述字词信息。

在一些实施例中，所述对所述字词匹配信息进行匹配评价，得到匹配度最高的字词匹配结果，包括：

采用如下公式：

对所述字词匹配信息进行匹配评价；其中，

为根据所述匹配度生成的原有组句方案，Mind^T表示所述字词匹配结果。

在一些实施例中，所述对所述字词匹配结果进行无监督学习，包括：

采用如下公式：

对所述字词匹配结果进行无监督学习；其中，

为当前递归阶段待输出的组句方案，T^{min G}表示历史递归最小值；

对所述递归次数进行加1处理；其中，响应于递归次数大于或等于预设的递归阈值，输出当前递归阶段待输出的组句方案；响应于递归次数小于所述递归阈值，再次执行所述将该语音数据与预设的字词信息进行匹配，得到字词匹配信息的步骤。

第二方面，本公开实施例还提供了一种声音处理系统，包括：主控制器和多个从控制器；所述主控制器和所述多个从控制器通过 5G网络连接；

所述主控制器，用于采集声音数据，和/或接收所述多个从控制器发送的声音数据；利用预设的语音识别模型对所述声音数据进行识别，得到所述声音数据中的至少一个语音数据；利用预设的语句识别模型识别每个所述语音数据的语句类型；对于每个所述语音数据，根据识别出的语句类型确定对所述语音数据中的至少部分数据进行声音增强，和/或对所述语音数据中的至少部分数据进行声音减弱；

所述从控制器，用于采集声音数据并发送至所述主控制器。

在一些实施例中，所述主控制器，还用于播放处理后的所述语音数据，和/或将处理后的所述语音数据发送至所述多个从控制器；

所述从控制器，还用于播放主控制器发送的所述语音数据。

第三方面，本公开实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例中任一所述的声音处理方法。

第四方面，本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如上述实施例中任一所述的声音处理方法。

本公开具有以下有益效果：

本公开实施例提供了一种声音处理方法、声音处理系统、电子设备和计算机可读介质,可用于利用语音识别模型识别声音数据中的语音数据，利用语句识别模型识别语音数据的语句类型，由此可根据识别出的语句类型确定对语音数据中的至少部分数据进行声音处理，包括针对性地增强和减弱，实现通过多个神经网络模型准确地识别语音数据以及识别语句类型，提升了声音处理的精确性，针对不同语句类型可做不同处理，提升了声音处理的灵活性。

附图说明

图1为本公开实施例提供的一种声音处理方法的流程图；

图2为本公开实施例提供的另一种声音处理方法的流程图；

图3为本公开实施例步骤S2的一种具体实施方法流程图；

图4为本公开实施例步骤S2的一种具体实施方法流程图；

图5为本公开实施例步骤S302的一种具体实施方法流程图；

图6为本公开实施例提供的一种声音处理系统的结构框图；

图7为本公开实施例提供的一种电子设备的组成框图；

图8为本公开实施例提供的一种计算机可读介质的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的声音处理方法、声音处理系统、电子设备和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

将理解的是，虽然本文可以使用术语第一、第二等来描述各种元件，但这些元件不应当受限于这些术语。这些术语仅用于区分一个元件和另一元件。因此，在不背离本公开的指教的情况下，下文讨论的第一元件、第一组件或第一模块可称为第二元件、第二组件或第二模块。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语) 的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

图1为本公开实施例提供的一种声音处理方法的流程图。如图1 所示，该方法包括：

步骤S1、获取声音数据。

其中，获取声音数据包括实时采集声音数据、接受控制端或其他组件设备传输的声音数据以及从预设存储区中读取声音数据等多种方式。

步骤S2、利用预设的语音识别模型对声音数据进行识别，得到声音数据中的至少一个语音数据。

其中，声音数据中的语音数据即声音数据中具有完整语义或符合情景表达的、成段的语音数据。

具体地，对应于实际应用，声音数据中可包括环境声数据、噪声数据和语音数据等多种数据，其分别对应不同的声音类型，本公开的声音处理方法着重对语音数据进行分析处理，特别地，该语音数据对应人声，可为采集到的由人直接发出的声音，或通过其他声音播放设备发出的人声。

步骤S3、利用预设的语句识别模型识别每个语音数据的语句类型。

其中，基于语句识别模型以及语音数据对应的语句，确定语音数据的语句类型，语句即语音数据中对应的文字为单一分句的数据，语句同样表现为声音形式。

在一些实施例中，根据声音处理需求，语句类型可划分为有效语音和无效语音，有效语音包括特定音色的语音、指定人物的语音、对话式语音、独白式语音等。

步骤S4、对于每个语音数据，根据识别出的语句类型确定对语音数据中的至少部分数据进行声音增强，和/或对语音数据中的至少部分数据进行声音减弱。

其中，对应于上述的语句类型，基于步骤S4可执行特定音色语音、指定人物语音、对话式语音、独白式语音等类型语音的声音增强或声音减弱，可应用于多种场景，包括日常防噪、教室、会议室、视听表演、演唱会等。

本公开实施例提供了一种声音处理方法，该方法可用于获取声音数据，利用语音识别模型识别声音数据中的语音数据，利用语句识别模型识别语音数据的语句类型，由此可根据识别出的语句类型确定对语音数据中的至少部分数据进行声音处理，包括针对性地增强和减弱，实现通过多个神经网络模型准确地识别语音数据以及识别语句类型，提升了声音处理的精确性，针对不同语句类型可做不同处理，提升了声音处理的灵活性。

图2为本公开实施例提供的另一种声音处理方法的流程图。如图2所示，该方法为基于图1所示方法的一种具体化可选实施方案。具体地，该方法不仅包括步骤S1至步骤S4，在步骤S2，利用预设的语音识别模型对声音数据进行识别，得到声音数据中的至少一个语音数据的步骤之前，还包括步骤S201和步骤S202。下面仅针对步骤S201 进行详细描述。

步骤S201、获取声音数据的声音分贝以及当前时段对应的预设分贝区间。

其中，声音数据的声音分贝是指完整的声音数据的声音分贝，其可直观地表现为声音分贝曲线，如时间-分贝曲线；当前时段可根据控制端配置确定，如划分有睡眠时段、白天时段、频繁活动时段等，不同时段具有不同的预设分贝区间(单位dB)，如睡眠时段对应 [0,19]，白天时段对应[20,59]、频繁活动时段对应[20,64]等；其可根据具体时刻对时段进行划分，控制端配置可基于使用者手动配置，或可基于使用者的使用习惯自动配置；具体地，针对超过人类承受范围，过于尖锐、过于嘈杂的声音，如分贝超过65dB的声音，可在各时段直接屏蔽。

步骤S202、将声音数据中的、声音分贝不属于预设分贝区间的数据进行屏蔽。

其中，屏蔽对应利用声波进行噪声处理的过程，具体地，应用与原有声波相反的相位，相同的波频可进行抗噪。在一些实施例中，可利用双信道对简单、单一化声音进行屏蔽处理；在音源情况复杂、具有多个音源的情境下，可利用多信道实时对多音源的声音进行屏蔽处理。

在一些实施例中，在步骤S201，获取声音数据的声音分贝以及当前时段对应的预设分贝区间的步骤中的基础上，步骤S3，利用预设的语句识别模型识别每个语音数据的语句类型的步骤，包括：利用语句识别模型，至少根据语音数据对应的声音分贝和预设分贝区间，识别语音数据的语句类型。其中，利用语句识别模型，在语音数据对应的语句的基础上，还至少根据语音数据对应的声音分贝和预设分贝区间，识别语音数据的语句类型。

图3为本公开实施例步骤S2的一种具体实施方法流程图。如图 3所示，步骤S2，利用预设的语音识别模型对声音数据进行识别，得到声音数据中的至少一个语音数据的步骤，包括：步骤S203。

步骤S203、利用语音识别模型，对声音数据进行语音识别，得到至少一个语音数据。

其中，语音识别包括：自然语言识别、语义识别和语境识别中的至少一者。在一些实施例中，语音识别还包括对语音不清晰、模糊的句子进行分解，剔除掉卡顿重复的部分，基于单个字母或词句进行上下文语音匹配，由此实现语音数据的识别和预处理。

图4为本公开实施例步骤S3的一种具体实施方法流程图。如图4所示，步骤S3，利用预设的语句识别模型识别每个语音数据的语句类型的步骤，包括：步骤S301至步骤S303。

其中，对于声音数据中的每个语音数据，均执行步骤S301至步骤S303。

步骤S301、确定该语音数据中的至少一个字词分段，并获取预先存储的、与每个字词分段相对应的至少一个候选字词。

其中，一个字词分段可包括一个字、一个词或一个短语，由于存在一音多字的情况，故字词分段可能对应多个候选字词，该候选字词可来源于预先装载的字词库，以及可来源于语句识别模型先期训练、历史学习过程中积累的数据。

步骤S302、利用语句识别模型，从每个字词分段所对应的全部候选字词中选择一者，组成目标语句。

其中，利用语句识别模型确定句意、语境、说话习惯等最最贴合的组句方案，由此挑选出各特征最匹配的候选字词组成目标语句。

步骤S303、根据目标语句确定该语音数据的语句类型。

在一些实施例中，结合步骤S201，根据目标语句语音数据对应的声音分贝和预设分贝区间，确定该语音数据的语句类型。

图5为本公开实施例步骤S302的一种具体实施方法流程图。如图5所示，步骤S302，利用语句识别模型，从每个字词分段所对应的全部候选字词中选择一者，组成目标语句的步骤，包括：步骤S3021 至步骤S3024。

步骤S3021、将该语音数据与字词信息进行匹配，得到字词匹配信息。

其中，字词信息与该至少一个候选字词相对应，具体地，字词信息表征了全部候选字词的多种特征，包括关键字词特征、语境特征、人物习惯特征等。

在一些实施例中，步骤S3021，将该语音数据与字词信息进行匹配，得到字词匹配信息的步骤，包括：

采用如下公式：

表示该语音数据与字词信息的匹配度，也即是字词匹配信息；

表示该语音数据；

表示字词信息。

步骤S3022、对字词匹配信息进行匹配评价，得到匹配度最高的字词匹配结果。

在一些实施例中，步骤S3022，对字词匹配信息进行匹配评价，得到匹配度最高的字词匹配结果的步骤，包括：

采用如下公式：

对字词匹配信息进行匹配评价；其中，

为根据匹配度生成的原有组句方案，Mind^T表示字词匹配结果。

步骤S3023、对字词匹配结果进行无监督学习，并在满足预设的递归条件后，输出与字词匹配结果对应的组句方案。

在一些实施例中，步骤S3023中，对字词匹配结果进行无监督学习的步骤，包括：

采用如下公式：

对字词匹配结果进行无监督学习；其中，

为当前递归阶段待输出的组句方案，T^{min G}表示历史递归最小值。

以及，对递归次数进行加1处理；其中，响应于递归次数大于或等于预设的递归阈值，输出当前递归阶段待输出的组句方案；响应于递归次数小于递归阈值，再次执行步骤S3021，将该语音数据与预设的字词信息进行匹配，得到字词匹配信息的步骤。

步骤S3024、根据输出的组句方案，从每个字词分段所对应的全部候选字词中选择一者，组成目标语句。

其中，在进行多次递归后，将得到的与字词匹配信息最为匹配的组句方案输出，并根据该组句方案挑选候选字词组成目标语句，由此确定语音数据的语句类型。

本公开实施例提供了一种声音处理方法，该方法可用于识别声音数据中的语音数据，确定语音数据对应的候选字词，基于使用无监督学习方法生成最为匹配的组句方案，由此得到正确的目标语句，提升语句类型判断的准确性，增加语音数据处理的精确性。

本公开实施例还提供了一种声音处理系统，该声音处理系统包括：主控制器和多个从控制器；其中，主控制器和多个从控制器通过 5G网络连接。具体地，其可应用如上述实施例中任一的声音处理方法。

具体地，主控制器用于采集声音数据，和/或接收多个从控制器发送的声音数据；利用预设的语音识别模型对声音数据进行识别，得到声音数据中的至少一个语音数据；利用预设的语句识别模型识别每个语音数据的语句类型；对于每个语音数据，根据识别出的语句类型确定对语音数据中的至少部分数据进行声音增强，和/或对语音数据中的至少部分数据进行声音减弱。

从控制器用于采集声音数据并发送至主控制器。

在一些实施例中，声音处理系统还包括存储器，用于进行声音的存储。

图6为本公开实施例提供的另一种声音处理系统的结构示意图。如图6所示，其示出了在室内环境下主控制器和多个从控制器的一种分布方式。其从声音波长、频率、大小、清晰度等方面进行考虑，基础目标是可以实现室内全覆盖。在一些实施例中，根据场景场地的不同，室内室外面积的不同，可适应性地进行主控制器和从控制器的分布、数量调整。

在一些实施例中，主控制器还用于播放处理后的语音数据，和/ 或将处理后的语音数据发送至多个从控制器，其中，处理后的语音数据包括：声音增强后的语音数据，部分数据经声音增强后的语音数据，声音减弱后的语音数据，部分数据经声音减弱后的语音数据，部分数据经声音增强、部分数据经声音减弱后的语音数据；相应地，从控制器还用于播放主控制器发送的语音数据。

本公开实施例提供了一种声音处理系统，该方法可用于基于5G 网络实现系统内部各组件，具体地，主控制器和多个从控制器，语句、语音、声音等数据的实时传输更新，提升数据传输效率，同时，基于多个控制器及网络模型的设置可提升声音处理的精确性。

图7为本公开实施例提供的一种电子设备的组成框图。如图7 所示，该电子设备包括：

一个或多个处理器101；

存储器102，其上存储有一个或多个程序，当该一个或多个程序被该一个或多个处理器执行，使得该一个或多个处理器101实现如上述实施例中任一的声音处理方法；

一个或多个I/O接口103，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

其中，处理器101为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器102为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR 等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)103连接在处理器101与存储器102间，能实现处理器101与存储器102的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器101、存储器102和I/O接口103通过总线104相互连接，进而与计算设备的其它组件连接。

图8为本公开实施例提供的一种计算机可读介质的组成框图。该计算机可读介质上存储有计算机程序，其中，该计算机程序在被处理器执行时实现如上述实施例中任一的声音处理方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块 /单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在非瞬态计算机可读介质上，非瞬态计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、 CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。