CN114566157A - 声音处理方法、声音处理系统、设备和计算机可读介质 - Google Patents

声音处理方法、声音处理系统、设备和计算机可读介质 Download PDF

Info

Publication number
CN114566157A
CN114566157A CN202111325637.4A CN202111325637A CN114566157A CN 114566157 A CN114566157 A CN 114566157A CN 202111325637 A CN202111325637 A CN 202111325637A CN 114566157 A CN114566157 A CN 114566157A
Authority
CN
China
Prior art keywords
sound
data
voice data
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111325637.4A
Other languages
English (en)
Inventor
田美乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111325637.4A priority Critical patent/CN114566157A/zh
Publication of CN114566157A publication Critical patent/CN114566157A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种声音处理方法,包括:获取声音数据;利用预设的语音识别模型对声音数据进行识别,得到声音数据中的至少一个语音数据;利用预设的语句识别模型识别每个语音数据的语句类型;对于每个语音数据,根据识别出的语句类型确定对语音数据中的至少部分数据进行声音增强,和/或对语音数据中的至少部分数据进行声音减弱。本公开还提供了一种声音处理系统、电子设备和计算机可读介质。

Description

声音处理方法、声音处理系统、设备和计算机可读介质
技术领域
本公开涉及语音分析处理技术领域,特别涉及一种声音处理方 法、声音处理系统、电子设备和计算机可读介质。
背景技术
5G无线通信技术当前已明确有三大应用场景,包括增强移动宽 带(enhancedMobile Broadband,简称eMBB)、海量机器类通信 (massive Machine Type ofCommunication,简称mMTC)和高可靠 低延时通信(ultra-Reliable Low LatencyCommunications,简称 uRLLC)。
现阶段,在声音处理过程中,通常声音处理的针对性不强、准 确性不高,声音处理后音量过小很可能无法传达到使用者处,并且处 理较机械化,而且存在耗时过长的问题。
发明内容
本公开旨在至少解决现有技术中存在的技术问题之一,提出了 一种声音处理方法、声音处理系统、电子设备和计算机可读介质。
为实现上述目的,第一方面,本公开实施例提供了一种声音处 理方法,包括:
获取声音数据;
利用预设的语音识别模型对所述声音数据进行识别,得到所述 声音数据中的至少一个语音数据;
利用预设的语句识别模型识别每个所述语音数据的语句类型;
对于每个所述语音数据,根据识别出的语句类型确定对所述语 音数据中的至少部分数据进行声音增强,和/或对所述语音数据中的 至少部分数据进行声音减弱。
在一些实施例中,在所述利用预设的语音识别模型对所述声音 数据进行识别,得到所述声音数据中的至少一个语音数据之前,还包 括:
获取所述声音数据的声音分贝以及当前时段对应的预设分贝区 间;
将所述声音数据中的、声音分贝不属于所述预设分贝区间的数 据进行屏蔽。
在一些实施例中,所述利用预设的语句识别模型识别每个所述 语音数据的语句类型,包括:
利用所述语句识别模型,至少根据所述语音数据对应的声音分 贝和所述预设分贝区间,识别所述语音数据的语句类型。
在一些实施例中,所述利用预设的语音识别模型对所述声音数 据进行识别,得到所述声音数据中的语音数据以及所述语音数据对应 的至少一个目标语句,包括:
利用所述语音识别模型,对所述声音数据进行语音识别,得到 所述至少一个语音数据,其中,所述语音识别包括:自然语言识别、 语义识别和语境识别中的至少一者。
在一些实施例中,所述利用预设的语句识别模型识别每个所述 语音数据的语句类型,包括:
对于每个所述语音数据:确定该语音数据中的至少一个字词分 段,并获取预先存储的、与每个所述字词分段相对应的至少一个候选 字词;
利用所述语句识别模型,从每个所述字词分段所对应的全部候 选字词中选择一者,组成目标语句;
根据所述目标语句确定该语音数据的语句类型。
在一些实施例中,所述利用所述语句识别模型,从每个所述字 词分段所对应的全部候选字词中选择一者,组成目标语句,包括;
将该语音数据与字词信息进行匹配,得到字词匹配信息,其中, 所述字词信息与所述至少一个候选字词相对应;
对所述字词匹配信息进行匹配评价,得到匹配度最高的字词匹 配结果;
对所述字词匹配结果进行无监督学习,并在满足预设的递归条 件后,输出与所述字词匹配结果对应的组句方案;
根据输出的所述组句方案,从每个所述字词分段所对应的全部 候选字词中选择一者,组成所述目标语句。
在一些实施例中,所述将该语音数据与字词信息进行匹配,得 到字词匹配信息,包括:
采用如下公式:
Figure BDA0003346846880000031
将该语音数据与所述字词信息进行匹配;其中,i、j和t为变 量系数,且i∈[0,m],j∈[0,n],t∈[0,p],m、n和p为变量系数对应的 最大值;k表示递归次数且k∈[1,h],h为递归阈值;
Figure BDA0003346846880000032
表示该语音数 据与所述字词信息的匹配度;
Figure BDA0003346846880000033
表示该语音数据;
Figure BDA0003346846880000034
表示所述字词 信息。
在一些实施例中,所述对所述字词匹配信息进行匹配评价,得 到匹配度最高的字词匹配结果,包括:
采用如下公式:
Figure BDA0003346846880000035
对所述字词匹配信息进行匹配评价;其中,
Figure BDA0003346846880000036
为根据所述匹配度生成的原有组句方案,MindT表示所述字词匹配结 果。
在一些实施例中,所述对所述字词匹配结果进行无监督学习, 包括:
采用如下公式:
Figure BDA0003346846880000037
对所述字词匹配结果进行无监督学习;其中,
Figure BDA0003346846880000041
为当前递归阶段待输出的组句方案,Tmin G表 示历史递归最小值;
对所述递归次数进行加1处理;其中,响应于递归次数大于或 等于预设的递归阈值,输出当前递归阶段待输出的组句方案;响应于 递归次数小于所述递归阈值,再次执行所述将该语音数据与预设的字 词信息进行匹配,得到字词匹配信息的步骤。
第二方面,本公开实施例还提供了一种声音处理系统,包括: 主控制器和多个从控制器;所述主控制器和所述多个从控制器通过 5G网络连接;
所述主控制器,用于采集声音数据,和/或接收所述多个从控制 器发送的声音数据;利用预设的语音识别模型对所述声音数据进行识 别,得到所述声音数据中的至少一个语音数据;利用预设的语句识别 模型识别每个所述语音数据的语句类型;对于每个所述语音数据,根 据识别出的语句类型确定对所述语音数据中的至少部分数据进行声 音增强,和/或对所述语音数据中的至少部分数据进行声音减弱;
所述从控制器,用于采集声音数据并发送至所述主控制器。
在一些实施例中,所述主控制器,还用于播放处理后的所述语 音数据,和/或将处理后的所述语音数据发送至所述多个从控制器;
所述从控制器,还用于播放主控制器发送的所述语音数据。
第三方面,本公开实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所 述一个或多个处理器实现如上述实施例中任一所述的声音处理方法。
第四方面,本公开实施例还提供了一种计算机可读介质,其上 存储有计算机程序,其中,所述程序被执行时实现如上述实施例中任 一所述的声音处理方法。
本公开具有以下有益效果:
本公开实施例提供了一种声音处理方法、声音处理系统、电子 设备和计算机可读介质,可用于利用语音识别模型识别声音数据中的 语音数据,利用语句识别模型识别语音数据的语句类型,由此可根据 识别出的语句类型确定对语音数据中的至少部分数据进行声音处理, 包括针对性地增强和减弱,实现通过多个神经网络模型准确地识别语 音数据以及识别语句类型,提升了声音处理的精确性,针对不同语句 类型可做不同处理,提升了声音处理的灵活性。
附图说明
图1为本公开实施例提供的一种声音处理方法的流程图;
图2为本公开实施例提供的另一种声音处理方法的流程图;
图3为本公开实施例步骤S2的一种具体实施方法流程图;
图4为本公开实施例步骤S2的一种具体实施方法流程图;
图5为本公开实施例步骤S302的一种具体实施方法流程图;
图6为本公开实施例提供的一种声音处理系统的结构框图;
图7为本公开实施例提供的一种电子设备的组成框图;
图8为本公开实施例提供的一种计算机可读介质的组成框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,下面结 合附图对本公开提供的声音处理方法、声音处理系统、电子设备和计 算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例 实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实 施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将 使本领域技术人员充分理解本公开的范围。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公 开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形 式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术 语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特 征、整体、步骤、操作、元件、组件和/或其群组。
将理解的是,虽然本文可以使用术语第一、第二等来描述各种 元件,但这些元件不应当受限于这些术语。这些术语仅用于区分一个 元件和另一元件。因此,在不背离本公开的指教的情况下,下文讨论 的第一元件、第一组件或第一模块可称为第二元件、第二组件或第二 模块。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语) 的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如 那些在常用字典中限定的那些术语应当被解释为具有与其在相关技 术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化 或过度形式上的含义,除非本文明确如此限定。
图1为本公开实施例提供的一种声音处理方法的流程图。如图1 所示,该方法包括:
步骤S1、获取声音数据。
其中,获取声音数据包括实时采集声音数据、接受控制端或其 他组件设备传输的声音数据以及从预设存储区中读取声音数据等多 种方式。
步骤S2、利用预设的语音识别模型对声音数据进行识别,得到 声音数据中的至少一个语音数据。
其中,声音数据中的语音数据即声音数据中具有完整语义或符 合情景表达的、成段的语音数据。
具体地,对应于实际应用,声音数据中可包括环境声数据、噪 声数据和语音数据等多种数据,其分别对应不同的声音类型,本公开 的声音处理方法着重对语音数据进行分析处理,特别地,该语音数据 对应人声,可为采集到的由人直接发出的声音,或通过其他声音播放 设备发出的人声。
步骤S3、利用预设的语句识别模型识别每个语音数据的语句类 型。
其中,基于语句识别模型以及语音数据对应的语句,确定语音 数据的语句类型,语句即语音数据中对应的文字为单一分句的数据, 语句同样表现为声音形式。
在一些实施例中,根据声音处理需求,语句类型可划分为有效 语音和无效语音,有效语音包括特定音色的语音、指定人物的语音、 对话式语音、独白式语音等。
步骤S4、对于每个语音数据,根据识别出的语句类型确定对语 音数据中的至少部分数据进行声音增强,和/或对语音数据中的至少 部分数据进行声音减弱。
其中,对应于上述的语句类型,基于步骤S4可执行特定音色语 音、指定人物语音、对话式语音、独白式语音等类型语音的声音增强 或声音减弱,可应用于多种场景,包括日常防噪、教室、会议室、视 听表演、演唱会等。
本公开实施例提供了一种声音处理方法,该方法可用于获取声 音数据,利用语音识别模型识别声音数据中的语音数据,利用语句识 别模型识别语音数据的语句类型,由此可根据识别出的语句类型确定 对语音数据中的至少部分数据进行声音处理,包括针对性地增强和减 弱,实现通过多个神经网络模型准确地识别语音数据以及识别语句类 型,提升了声音处理的精确性,针对不同语句类型可做不同处理,提 升了声音处理的灵活性。
图2为本公开实施例提供的另一种声音处理方法的流程图。如 图2所示,该方法为基于图1所示方法的一种具体化可选实施方案。 具体地,该方法不仅包括步骤S1至步骤S4,在步骤S2,利用预设的 语音识别模型对声音数据进行识别,得到声音数据中的至少一个语音 数据的步骤之前,还包括步骤S201和步骤S202。下面仅针对步骤S201 进行详细描述。
步骤S201、获取声音数据的声音分贝以及当前时段对应的预设 分贝区间。
其中,声音数据的声音分贝是指完整的声音数据的声音分贝, 其可直观地表现为声音分贝曲线,如时间-分贝曲线;当前时段可根 据控制端配置确定,如划分有睡眠时段、白天时段、频繁活动时段等, 不同时段具有不同的预设分贝区间(单位dB),如睡眠时段对应 [0,19],白天时段对应[20,59]、频繁活动时段对应[20,64]等;其可 根据具体时刻对时段进行划分,控制端配置可基于使用者手动配置, 或可基于使用者的使用习惯自动配置;具体地,针对超过人类承受范 围,过于尖锐、过于嘈杂的声音,如分贝超过65dB的声音,可在各 时段直接屏蔽。
步骤S202、将声音数据中的、声音分贝不属于预设分贝区间的 数据进行屏蔽。
其中,屏蔽对应利用声波进行噪声处理的过程,具体地,应用 与原有声波相反的相位,相同的波频可进行抗噪。在一些实施例中, 可利用双信道对简单、单一化声音进行屏蔽处理;在音源情况复杂、 具有多个音源的情境下,可利用多信道实时对多音源的声音进行屏蔽 处理。
在一些实施例中,在步骤S201,获取声音数据的声音分贝以及 当前时段对应的预设分贝区间的步骤中的基础上,步骤S3,利用预 设的语句识别模型识别每个语音数据的语句类型的步骤,包括:利用 语句识别模型,至少根据语音数据对应的声音分贝和预设分贝区间, 识别语音数据的语句类型。其中,利用语句识别模型,在语音数据对 应的语句的基础上,还至少根据语音数据对应的声音分贝和预设分贝 区间,识别语音数据的语句类型。
图3为本公开实施例步骤S2的一种具体实施方法流程图。如图 3所示,步骤S2,利用预设的语音识别模型对声音数据进行识别,得 到声音数据中的至少一个语音数据的步骤,包括:步骤S203。
步骤S203、利用语音识别模型,对声音数据进行语音识别,得 到至少一个语音数据。
其中,语音识别包括:自然语言识别、语义识别和语境识别中 的至少一者。在一些实施例中,语音识别还包括对语音不清晰、模糊 的句子进行分解,剔除掉卡顿重复的部分,基于单个字母或词句进行 上下文语音匹配,由此实现语音数据的识别和预处理。
图4为本公开实施例步骤S3的一种具体实施方法流程图。如图4所示,步骤S3,利用预设的语句识别模型识别每个语音数据的语句 类型的步骤,包括:步骤S301至步骤S303。
其中,对于声音数据中的每个语音数据,均执行步骤S301至步 骤S303。
步骤S301、确定该语音数据中的至少一个字词分段,并获取预 先存储的、与每个字词分段相对应的至少一个候选字词。
其中,一个字词分段可包括一个字、一个词或一个短语,由于 存在一音多字的情况,故字词分段可能对应多个候选字词,该候选字 词可来源于预先装载的字词库,以及可来源于语句识别模型先期训练、 历史学习过程中积累的数据。
步骤S302、利用语句识别模型,从每个字词分段所对应的全部 候选字词中选择一者,组成目标语句。
其中,利用语句识别模型确定句意、语境、说话习惯等最最贴 合的组句方案,由此挑选出各特征最匹配的候选字词组成目标语句。
步骤S303、根据目标语句确定该语音数据的语句类型。
在一些实施例中,结合步骤S201,根据目标语句语音数据对应 的声音分贝和预设分贝区间,确定该语音数据的语句类型。
图5为本公开实施例步骤S302的一种具体实施方法流程图。如 图5所示,步骤S302,利用语句识别模型,从每个字词分段所对应 的全部候选字词中选择一者,组成目标语句的步骤,包括:步骤S3021 至步骤S3024。
步骤S3021、将该语音数据与字词信息进行匹配,得到字词匹配 信息。
其中,字词信息与该至少一个候选字词相对应,具体地,字词 信息表征了全部候选字词的多种特征,包括关键字词特征、语境特征、 人物习惯特征等。
在一些实施例中,步骤S3021,将该语音数据与字词信息进行匹 配,得到字词匹配信息的步骤,包括:
采用如下公式:
Figure BDA0003346846880000101
将该语音数据与所述字词信息进行匹配;其中,i、j和t为变 量系数,且i∈[0,m],j∈[0,n],t∈[0,p],m、n和p为变量系数对应的 最大值;k表示递归次数且k∈[1,h],h为递归阈值;
Figure BDA0003346846880000102
表示该语音数 据与字词信息的匹配度,也即是字词匹配信息;
Figure BDA0003346846880000103
表示该语音数据;
Figure BDA0003346846880000104
表示字词信息。
步骤S3022、对字词匹配信息进行匹配评价,得到匹配度最高的 字词匹配结果。
在一些实施例中,步骤S3022,对字词匹配信息进行匹配评价, 得到匹配度最高的字词匹配结果的步骤,包括:
采用如下公式:
Figure BDA0003346846880000105
对字词匹配信息进行匹配评价;其中,
Figure BDA0003346846880000106
为 根据匹配度生成的原有组句方案,MindT表示字词匹配结果。
步骤S3023、对字词匹配结果进行无监督学习,并在满足预设的 递归条件后,输出与字词匹配结果对应的组句方案。
在一些实施例中,步骤S3023中,对字词匹配结果进行无监督 学习的步骤,包括:
采用如下公式:
Figure BDA0003346846880000107
对字词匹配结果进行无监督学习;其中,
Figure BDA0003346846880000108
为当前递归阶段待输出的组句方案,Tmin G表示历史递归最小值。
以及,对递归次数进行加1处理;其中,响应于递归次数大于 或等于预设的递归阈值,输出当前递归阶段待输出的组句方案;响应 于递归次数小于递归阈值,再次执行步骤S3021,将该语音数据与预 设的字词信息进行匹配,得到字词匹配信息的步骤。
步骤S3024、根据输出的组句方案,从每个字词分段所对应的全 部候选字词中选择一者,组成目标语句。
其中,在进行多次递归后,将得到的与字词匹配信息最为匹配 的组句方案输出,并根据该组句方案挑选候选字词组成目标语句,由 此确定语音数据的语句类型。
本公开实施例提供了一种声音处理方法,该方法可用于识别声 音数据中的语音数据,确定语音数据对应的候选字词,基于使用无监 督学习方法生成最为匹配的组句方案,由此得到正确的目标语句,提 升语句类型判断的准确性,增加语音数据处理的精确性。
本公开实施例还提供了一种声音处理系统,该声音处理系统包 括:主控制器和多个从控制器;其中,主控制器和多个从控制器通过 5G网络连接。具体地,其可应用如上述实施例中任一的声音处理方 法。
具体地,主控制器用于采集声音数据,和/或接收多个从控制器 发送的声音数据;利用预设的语音识别模型对声音数据进行识别,得 到声音数据中的至少一个语音数据;利用预设的语句识别模型识别每 个语音数据的语句类型;对于每个语音数据,根据识别出的语句类型 确定对语音数据中的至少部分数据进行声音增强,和/或对语音数据 中的至少部分数据进行声音减弱。
从控制器用于采集声音数据并发送至主控制器。
在一些实施例中,声音处理系统还包括存储器,用于进行声音 的存储。
图6为本公开实施例提供的另一种声音处理系统的结构示意图。 如图6所示,其示出了在室内环境下主控制器和多个从控制器的一种 分布方式。其从声音波长、频率、大小、清晰度等方面进行考虑,基 础目标是可以实现室内全覆盖。在一些实施例中,根据场景场地的不 同,室内室外面积的不同,可适应性地进行主控制器和从控制器的分 布、数量调整。
在一些实施例中,主控制器还用于播放处理后的语音数据,和/ 或将处理后的语音数据发送至多个从控制器,其中,处理后的语音数 据包括:声音增强后的语音数据,部分数据经声音增强后的语音数据, 声音减弱后的语音数据,部分数据经声音减弱后的语音数据,部分数 据经声音增强、部分数据经声音减弱后的语音数据;相应地,从控制 器还用于播放主控制器发送的语音数据。
本公开实施例提供了一种声音处理系统,该方法可用于基于5G 网络实现系统内部各组件,具体地,主控制器和多个从控制器,语句、 语音、声音等数据的实时传输更新,提升数据传输效率,同时,基于 多个控制器及网络模型的设置可提升声音处理的精确性。
图7为本公开实施例提供的一种电子设备的组成框图。如图7 所示,该电子设备包括:
一个或多个处理器101;
存储器102,其上存储有一个或多个程序,当该一个或多个程序 被该一个或多个处理器执行,使得该一个或多个处理器101实现如上 述实施例中任一的声音处理方法;
一个或多个I/O接口103,连接在处理器与存储器之间,配置为 实现处理器与存储器的信息交互。
其中,处理器101为具有数据处理能力的器件,其包括但不限 于中央处理器(CPU)等;存储器102为具有数据存储能力的器件, 其包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR 等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、 闪存(FLASH);I/O接口(读写接口)103连接在处理器101与存 储器102间,能实现处理器101与存储器102的信息交互,其包括但 不限于数据总线(Bus)等。
在一些实施例中,处理器101、存储器102和I/O接口103通过 总线104相互连接,进而与计算设备的其它组件连接。
图8为本公开实施例提供的一种计算机可读介质的组成框图。 该计算机可读介质上存储有计算机程序,其中,该计算机程序在被处 理器执行时实现如上述实施例中任一的声音处理方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或 某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件 及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块 /单元之间的划分不一定对应于物理组件的划分;例如,一个物理组 件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作 执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央 处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件, 或者被实施为集成电路,如专用集成电路。这样的软件可以分布在非 瞬态计算机可读介质上,非瞬态计算机可读介质可以包括计算机存储 介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技 术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算 机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中 实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质 包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、 CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘 存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计 算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载 波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任 何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它 们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。 在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出, 否则可单独使用与特定实施例相结合描述的特征、特性和/或元素, 或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因 此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公 开的范围的情况下,可进行各种形式和细节上的改变。

Claims (13)

1.一种声音处理方法,其中,包括:
获取声音数据;
利用预设的语音识别模型对所述声音数据进行识别,得到所述声音数据中的至少一个语音数据;
利用预设的语句识别模型识别每个所述语音数据的语句类型;
对于每个所述语音数据,根据识别出的语句类型确定对所述语音数据中的至少部分数据进行声音增强,和/或对所述语音数据中的至少部分数据进行声音减弱。
2.根据权利要求1所述的声音处理方法,其中,在所述利用预设的语音识别模型对所述声音数据进行识别,得到所述声音数据中的至少一个语音数据之前,还包括:
获取所述声音数据的声音分贝以及当前时段对应的预设分贝区间;
将所述声音数据中的、声音分贝不属于所述预设分贝区间的数据进行屏蔽。
3.根据权利要求2所述的声音处理方法,其中,所述利用预设的语句识别模型识别每个所述语音数据的语句类型,包括:
利用所述语句识别模型,至少根据所述语音数据对应的声音分贝和所述预设分贝区间,识别所述语音数据的语句类型。
4.根据权利要求1所述的声音处理方法,其中,所述利用预设的语音识别模型对所述声音数据进行识别,得到所述声音数据中的语音数据以及所述语音数据对应的至少一个目标语句,包括:
利用所述语音识别模型,对所述声音数据进行语音识别,得到所述至少一个语音数据,其中,所述语音识别包括:自然语言识别、语义识别和语境识别中的至少一者。
5.根据权利要求1至4中任意一项所述的声音处理方法,其中,所述利用预设的语句识别模型识别每个所述语音数据的语句类型,包括:
对于每个所述语音数据:确定该语音数据中的至少一个字词分段,并获取预先存储的、与每个所述字词分段相对应的至少一个候选字词;
利用所述语句识别模型,从每个所述字词分段所对应的全部候选字词中选择一者,组成目标语句;
根据所述目标语句确定该语音数据的语句类型。
6.根据权利要求5所述的声音处理方法,其中,所述利用所述语句识别模型,从每个所述字词分段所对应的全部候选字词中选择一者,组成目标语句,包括;
将该语音数据与字词信息进行匹配,得到字词匹配信息,其中,所述字词信息与所述至少一个候选字词相对应;
对所述字词匹配信息进行匹配评价,得到匹配度最高的字词匹配结果;
对所述字词匹配结果进行无监督学习,并在满足预设的递归条件后,输出与所述字词匹配结果对应的组句方案;
根据输出的所述组句方案,从每个所述字词分段所对应的全部候选字词中选择一者,组成所述目标语句。
7.根据权利要求6所述的声音处理方法,其中,所述将该语音数据与字词信息进行匹配,得到字词匹配信息,包括:
采用如下公式:
Figure FDA0003346846870000021
将该语音数据与所述字词信息进行匹配;其中,i、j和t为变量系数,且i∈[0,m],j∈[0,n],t∈[0,p],m、n和p为变量系数对应的最大值;k表示递归次数且k∈[1,h],h为递归阈值;
Figure FDA0003346846870000031
表示该语音数据与所述字词信息的匹配度;
Figure FDA0003346846870000032
表示该语音数据;
Figure FDA0003346846870000033
表示所述字词信息。
8.根据权利要求7所述的声音处理方法,其中,所述对所述字词匹配信息进行匹配评价,得到匹配度最高的字词匹配结果,包括:
采用如下公式:
Figure FDA0003346846870000034
对所述字词匹配信息进行匹配评价;其中,
Figure FDA0003346846870000035
为根据所述匹配度生成的原有组句方案,MindT表示所述字词匹配结果。
9.根据权利要求8所述的声音处理方法,其中,所述对所述字词匹配结果进行无监督学习,包括:
采用如下公式:
Figure FDA0003346846870000036
对所述字词匹配结果进行无监督学习;其中,
Figure FDA0003346846870000037
为当前递归阶段待输出的组句方案,TminG表示历史递归最小值;
对所述递归次数进行加1处理;其中,响应于递归次数大于或等于预设的递归阈值,输出当前递归阶段待输出的组句方案;响应于递归次数小于所述递归阈值,再次执行所述将该语音数据与预设的字词信息进行匹配,得到字词匹配信息的步骤。
10.一种声音处理系统,其中,包括:主控制器和多个从控制器;所述主控制器和所述多个从控制器通过5G网络连接;
所述主控制器,用于采集声音数据,和/或接收所述多个从控制器发送的声音数据;利用预设的语音识别模型对所述声音数据进行识别,得到所述声音数据中的至少一个语音数据;利用预设的语句识别模型识别每个所述语音数据的语句类型;对于每个所述语音数据,根据识别出的语句类型确定对所述语音数据中的至少部分数据进行声音增强,和/或对所述语音数据中的至少部分数据进行声音减弱;
所述从控制器,用于采集声音数据并发送至所述主控制器。
11.根据权利要求10所述的声音处理系统,其中,
所述主控制器,还用于播放处理后的所述语音数据,和/或将处理后的所述语音数据发送至所述多个从控制器;
所述从控制器,还用于播放主控制器发送的所述语音数据。
12.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任意一项所述的声音处理方法。
13.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如权利要求1-9中任意一项所述的声音处理方法。
CN202111325637.4A 2021-11-10 2021-11-10 声音处理方法、声音处理系统、设备和计算机可读介质 Pending CN114566157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111325637.4A CN114566157A (zh) 2021-11-10 2021-11-10 声音处理方法、声音处理系统、设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111325637.4A CN114566157A (zh) 2021-11-10 2021-11-10 声音处理方法、声音处理系统、设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN114566157A true CN114566157A (zh) 2022-05-31

Family

ID=81711411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111325637.4A Pending CN114566157A (zh) 2021-11-10 2021-11-10 声音处理方法、声音处理系统、设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN114566157A (zh)

Similar Documents

Publication Publication Date Title
CN107329996B (zh) 一种基于模糊神经网络的聊天机器人系统与聊天方法
CN110880329B (zh) 一种音频识别方法及设备、存储介质
US10178228B2 (en) Method and apparatus for classifying telephone dialing test audio based on artificial intelligence
US20180350346A1 (en) Speech recognition method based on artifical intelligence and terminal
CN111243590A (zh) 一种会议记录的生成方法及设备
CN109087670A (zh) 情绪分析方法、系统、服务器及存储介质
US20220115002A1 (en) Speech recognition method, speech recognition device, and electronic equipment
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN105654955B (zh) 语音识别方法及装置
CN112599152B (zh) 语音数据标注方法、系统、电子设备及存储介质
CN113205803B (zh) 一种具有自适应降噪能力的语音识别方法及装置
CN111540342A (zh) 一种能量阈值调整方法、装置、设备及介质
CN113112992B (zh) 一种语音识别方法、装置、存储介质和服务器
CN110992940B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN113571047A (zh) 一种音频数据的处理方法、装置及设备
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
CN111554270B (zh) 训练样本筛选方法及电子设备
CN109741761B (zh) 声音处理方法和装置
CN112420056A (zh) 基于变分自编码器的说话人身份鉴别方法、系统及无人机
CN111462736B (zh) 基于语音的图像生成方法、装置和电子设备
CN114566157A (zh) 声音处理方法、声音处理系统、设备和计算机可读介质
CN113889081A (zh) 语音识别方法、介质、装置和计算设备
CN114049882A (zh) 降噪模型训练方法、装置及存储介质
CN110060662B (zh) 语音识别方法及装置
WO2020250220A1 (en) Sound analysis for determination of sound sources and sound isolation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination