CN113077802A - 一种信息处理方法和装置 - Google Patents

一种信息处理方法和装置 Download PDF

Info

Publication number
CN113077802A
CN113077802A CN202110281157.6A CN202110281157A CN113077802A CN 113077802 A CN113077802 A CN 113077802A CN 202110281157 A CN202110281157 A CN 202110281157A CN 113077802 A CN113077802 A CN 113077802A
Authority
CN
China
Prior art keywords
voice
granularity
activation
voice signal
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110281157.6A
Other languages
English (en)
Other versions
CN113077802B (zh
Inventor
张银平
杨琳
汪俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202110281157.6A priority Critical patent/CN113077802B/zh
Publication of CN113077802A publication Critical patent/CN113077802A/zh
Application granted granted Critical
Publication of CN113077802B publication Critical patent/CN113077802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种信息处理方法和装置,包括:以各个区域为单位,对电子设备采集到的第一语音信号进行语音增强处理,获得各个区域分别对应的第二语音信号;根据各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;对候选区域后续对应的第三语音信号进行语音增强处理,获得对应候选区域的第四语音信号;若确定第二语音信号与第四语音信号属于同一个目标对象,则对候选区域进行细粒度划分调整;根据细粒度划分调整结果更新第一规则。通过多次对目标对象的语音信号增强、激活和区域细粒度调整处理,可逐步精确目标对象的方向位置,从而能提高后续的语音激活性能以及语音交互体验。

Description

一种信息处理方法和装置
技术领域
本发明涉及语音交互技术领域,尤其涉及一种信息处理方法和装置。
背景技术
在如智能音箱的远场语音交互和低信噪比语音交互场景中,相关技术很难判断目标说话人的准确位置,从而很难用beamforming(波束成形)等语音增强技术对目标说话人的语音进行增强,使得语音激活性能以及后续的语音交互体验不佳,无法满足实际应用需要。
发明内容
本发明实施例提供了一种信息处理方法和装置,具有提高后续的语音激活性能以及语音交互体验的技术效果。
本发明提供一种信息处理方法,应用于具有语音采集功能的电子设备,所述电子设备的语音采集的角度范围按第一规则被划分成多个区域,所述方法包括:以各个区域为单位,对所述电子设备采集到的第一语音信号进行语音增强处理,获得所述各个区域分别对应的第二语音信号;根据所述各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;对所述候选区域后续对应的第三语音信号进行语音增强处理,获得对应所述候选区域的第四语音信号;若确定所述第二语音信号与第四语音信号属于同一个目标对象,则对所述候选区域进行细粒度划分调整;根据所述细粒度划分调整结果更新所述第一规则,更新后的所述第一规则用作下一次的语音激活处理。
在一可实施方式中,所述根据各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域,包括:根据预设语音激活算法计算各个区域分别对应的第二语音信号的激活分数,将所述激活分数达到预设分数阈值的第二语音信号所对应的区域确定为被激活的候选区域。
在一可实施方式中,在对所述候选区域进行细粒度划分调整之前,所述方法还包括:记录所述语音采集的角度范围内被划分的各个区域的被激活次数;对激活次数大于等于第一阈值的区域进行细粒度划分调整。
在一可实施方式中,在进行细粒度划分调整的过程中,所述方法还包括:判断所述激活次数大于等于第一阈值的各区域粒度是否达到粒度下限;对于未达到所述粒度下限的区域,按粒度划分规则划分为多个子区域,其中所述子区域的粒度不低于所述粒度下限;对于达到所述粒度下限的区域,不执行所述细粒度划分调整。
在一可实施方式中,所述方法还包括:对激活次数小于等于第二阈值的区域进行粗粒度划分调整;根据所述粗粒度划分调整结果更新所述第一规则。
在一可实施方式中,所述对激活次数小于等于第二阈值的区域进行粗粒度划分调整,包括:判断所述激活次数小于等于第二阈值的各区域粒度是否达到粒度上限;对于未达到所述粒度上限的区域,将相邻的区域按粒度合并规则进行合并,其中所述合并后的区域粒度不高于所述粒度上限;对于达到所述粒度上限的区域,不执行所述粗粒度划分调整。
在一可实施方式中,所述第一规则的初始配置为:按初始粒度,将所述电子设备的语音采集的角度范围平均划分成多个区域。
在一可实施方式中,所述方法还包括:判断所述候选区域对应的第四语音信号是否为交互类语音,以及所述交互类语音与所述第二语音信号的属性近似度是否达到预设的近似度阈值,在判断结果为是时,执行与所述交互类语音对应的后续交互类操作。
在一可实施方式中,通过以下方式确定所述候选区域对应的第四语音信号是否为交互类语音:判断所述候选区域对应的第四语音信号是否有后续有效语音,在判断结果为是时,对所述后续有效语音进行自动语音识别ASR处理获得ASR识别结果,对所述ASR识别结果进行自然语言处理NLP分析,判断所述NLP分析结果是否为交互类语句,若所述NLP分析结果为交互类语句,则确定所述候选区域对应的第四语音信号为交互类语音。
本发明另一方面提供一种信息处理装置,应用于具有语音采集功能的电子设备,所述电子设备的语音采集的角度范围按第一规则被划分成多个区域,包括:第一语音增强模块,用于以各个区域为单位,对所述电子设备采集到的第一语音信号进行语音增强处理,获得所述各个区域分别对应的第二语音信号;激活处理模块,用于根据所述各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;第二语音增强模块,用于对所述候选区域后续对应的第三语音信号进行语音增强处理,获得对应所述候选区域的第四语音信号;粒度划分调整模块,用于若确定所述第二语音信号与第四语音信号属于同一个目标对象,则对所述候选区域进行细粒度划分调整;规则更新模块,用于根据所述细粒度划分调整结果更新所述第一规则,更新后的所述第一规则用作下一次的语音激活处理。
在本发明实施例中,本方案首先通过电子设备将所采集到的语音信号按照规定角度划分为多个区域,对每个区域所对应的第一语音信号进行语音增强处理,以去除噪声干扰进而得到尽可能纯净的第二语音信号,对第二语音信号进行语音激活处理,并将所激活的区域作为候选区域,对候选区域后续所对应的第三语音信号再次进行语音增强处理,得到尽可能纯净的第四语音信号,当确认第二语音信号和第四语音信号为同一个目标对象所发出时,则对候选区域进一步进行细粒度划分,使得在后续语音采集过程中更加注重采集经细粒度划分后区域的语音信号,相对弱化采集其他区域的语音信号,重复上述步骤不断进行细粒度划分,可逐步精确定位到语音发出的具体位置,即目标对象的具体位置,后续应用时,即可着重对经细粒度划分区域所采集的语音进行语音增强、激活处理,进而在远场语音交互和低信噪比语音交互场景中提高后续的语音激活性能以及语音交互体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种信息处理方法的实现流程示意图;
图2为本发明实施例一种信息处理方法中区域划分示意图;
图3为本发明实施例一种信息处理方法中区域细粒度划分示意图;
图4为本发明实施例一种信息处理方法中区域粗粒度划分示意图;
图5为本发明实施例一种信息处理方法中交互类语音判断过程示意图;
图6为本发明实施例一种信息处理装置中结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种信息处理方法,应用于具有语音采集功能的电子设备,电子设备的语音采集的角度范围按第一规则被划分成多个区域,方法包括:
步骤101,以各个区域为单位,对电子设备采集到的第一语音信号进行语音增强处理,获得各个区域分别对应的第二语音信号;
步骤102,根据各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;
步骤103,对候选区域后续对应的第三语音信号进行语音增强处理,获得对应候选区域的第四语音信号;
步骤104,若确定第二语音信号与第四语音信号属于同一个目标对象,则对候选区域进行细粒度划分调整;
步骤105,根据细粒度划分调整结果更新第一规则,更新后的第一规则用作下一次的语音激活处理。
本实施例中,本发明所应用的电子设备包括智能音箱、智能电视、智能机器人等智能设备,电子设备的语音采集功能可通过麦克风等语音采集设备实现,其中麦克风数量设置为多个,多个麦克风组合形成麦克风阵列,阵列方式可以是圆形、方形、球形等等,用于令每个麦克风采集空间中对应规定区域内的语音信号,可参考图2所示,图2中麦克风数量设置为6个,每个麦克风采集各自的区域,并且采集角度范围60°。第一规则为预先设置的规则,用于通过波束成形技术划分每个麦克风的采集角度,以调整每个麦克风的采集区域。
在步骤101中,在通过麦克风阵列采集到空间中各个区域内的第一语音信号之后,对每个第一语音信号均进行语音增强处理,其中语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用语音信号的技术,最终提取到尽可能纯净的第二语音信号。
在步骤102中,在获取到对应各个区域的第二语音信号之后,对每个第二语音信号进行语音激活处理,其中语音激活方式可以是利用语音识别技术中的声学模型对第二语音信号与预设的激活词进行音素序列匹配,分别得到表征两者匹配度的激活分数,激活分数越高表示第二语音信号与激活词匹配度越高,将激活分数大于预设阈值的区域设为候选区域。
在步骤103中,在确定候选区域之后,对每个候选区域对应麦克风所采集到的第三语音信号进行再次语音增强处理,从第三语音信号中提取到尽可能纯净的第四语音信号,其中针对第三语音信号的语音增强处理方式与处理第一语音信号的方式相同,在此不重复描述。
在步骤104中,在获取到第二语音信号和第四语音信号之后,判断第二语音信号和第四语音信号是否属于同一个目标对象,判断方式可以是通过现有的声纹识别技术对第二语音信号和第四语音信号的声学特征进行分析对比,若分析结果表示第二语音信号和第四语音信号的声学特征接近,则判定第二语音信号和第四语音信号属于同一个目标对象,其中目标对象可以是人,也可以是动物或者是具备语音交互功能的智能设备如语音机器人。当判定第二语音信号和第四语音信号属于同一个目标对象之后,对已经激活的候选区域再进行细粒度划分调整,具体为对候选区域的采集角度进行细粒度调整,可结合图2和图3所示,若经步骤102后区域1和区域2为候选区域,并且区域1和区域2所采集的第二语音信号和第四语音信号均属于同一个目标对象,则对区域1和区域2进行角度细粒度划分调整,图3中,将区域1和区域2中原先区域角度间隔为60°区域划分调整至间隔15°子区域,需要说明的是,本发明的细粒度调整方式不仅限于图3中的划分方式。
在步骤105中,根据细粒度划分调整结果更新第一规则,仍参考图2和图3作为例子说明,可见划分图2的第一规则为将每个麦克风采集间隔60°范围的区域,更新后的第一规则为通过波束成形技术对于区域1和区域2调整为多个采集间隔角度为15°的子区域。在划分调整之后,重复上述步骤101~105,以逐步精确识别目标对象的方向。
由此,本方案首先通过电子设备将所采集到的语音信号按照规定角度划分为多个区域,对每个区域所对应的第一语音信号进行语音增强处理,以去除噪声干扰进而得到尽可能纯净的第二语音信号,对第二语音信号进行语音激活处理,并将所激活的区域作为候选区域,对候选区域后续所对应的第三语音信号再次进行语音增强处理,得到尽可能纯净的第四语音信号,当确认第二语音信号和第四语音信号为同一个目标对象所发出时,则对候选区域进一步进行细粒度划分,使得在后续语音采集过程中更加注重采集经细粒度划分后区域的语音信号,相对弱化采集其他区域的语音信号,重复上述步骤不断进行细粒度划分,可逐步精确定位到语音发出的具体位置,即目标对象的具体位置,后续应用时,即可着重对经细粒度划分区域所采集的语音进行语音增强、激活处理,进而在远场语音交互和低信噪比语音交互场景中提高后续的语音激活性能以及语音交互体验。
现以一基于电子设备为智能音箱的具体应用场景为例:
参考图2所示,设智能音箱按照第一规则将整个采集区域划分为以60°为角度间隔的6个采集区域,此时用户(即目标对象)在位置A说出第一句话,如“你好,联想”,6个区域分别对第一句话做语音增强和语音激活,假设经分析后判定区域1和区域2被激活,即表示用户位于整个区域中0~120°之间的某个位置,将区域1和区域2列为候选区域,此时用户再发出第二句话,如“今天天气怎么样?”,接着对区域1和区域2所采集到的第二句话再次进行语音增强处理并确定上述两句话是否为同一用户所发出,若判断为是,则对区域1和区域2进行细粒度划分,划分方式可参考图3所示,即通过波束成形技术将原有的两个区域细致划分为以15°为角度间隔的8个子区域,当然划分方式不仅限于此种方式。8个子区域采集到用户的后续语音后,并在前一次细粒度划分的基础上重复上述步骤,以逐步精确用户的说话位置。设重复一定次数后,确定用户的位置在0~15°的区域内,后续应用时,即可着重对0~15°的区域所采集的语音进行语音增强、激活以及后续的交互处理,进而在远场语音交互和低信噪比语音交互场景中提高后续的语音激活性能以及语音交互体验。
在一可实施方式中,根据各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域,包括:
根据预设语音激活算法计算各个区域分别对应的第二语音信号的激活分数,将激活分数达到预设分数阈值的第二语音信号所对应的区域确定为被激活的候选区域。
本实施例中,步骤102中的预设激活算法可以为现有声学模型对第二语音信号以及预设激活词的特征匹配算法,还可以是通过专用于识别语音信号中是否含有激活词的神经网络模型对第二语音信号的识别算法,其中该神经网络模型的训练方式大致为:
将大量的语音训练素材组输入神经网络模型中进行训练,得到输出语音信号的激活词识别结果,其中语音训练素材组包括激活词以及包含激活词的语音信号。
训练过程中,若识别结果与激活词的差别较大,则继续用训练素材进行训练,继续调整神经网络模型中的权重参数,直至识别结果与激活词的差别小于预设值,即可完成训练。
针对预设激活算法为声学模型或者神经网络模型,激活分数均表示为第二语音信号与预设激活词匹配程度,匹配程度越高,激活分数越高。将激活分数达到预设分数阈值的第二语音信号所对应的区域确定为被激活的候选区域,其中预设分数阈值为固定值。
在一可实施方式中,在对候选区域进行细粒度划分调整之前,方法还包括:
记录语音采集的角度范围内被划分的各个区域的被激活次数;
对激活次数大于等于第一阈值的区域进行细粒度划分调整。
本实施例中,考虑到目标对象可能在发出语音信号的同时正在进行位置移动,若只对一次激活的区域进行细粒度调整,仍不能精确定位到目标对象的位置或者说重新定位到目标对象需要花费更多的计算量,因此在对候选区域进行细粒度划分调整之前,还需记录每个已划分区域的被激活次数,对激活次数大于等于第一阈值的区域进行细粒度划分调整,其中第一阈值可根据实际情况调整,可以是1,也可以是其他的数值。仍以图2和图3为例说明,假设目标对象在区域1内发出了语音信号并且区域1被激活了一次,接着目标对象移动至区域2并在区域2中发出了多次语音信号,区域2被激活多次,那么可确定区域2为目标对象经常出现的位置,因此对区域2进行细粒度划分调整,以精确识别目标对象的位置。
在一可实施方式中,在进行细粒度划分调整的过程中,方法还包括:
判断激活次数大于等于第一阈值的各区域粒度是否达到粒度下限;
对于未达到粒度下限的区域,按粒度划分规则划分为多个子区域,其中子区域的粒度不低于粒度下限;
对于达到粒度下限的区域,不执行细粒度划分调整。
本实施例中,粒度下限为预先设置,以图3所示,假设设定的粒度下限为15°,那么针对区域3~区域6若需要细粒度调整时,可将这些区域进一步调整至多个角度间隔不低于15°的子区域,针对区域1和区域2,区域1和区域2当前的粒度已经达到粒度下限15°,则当区域1和区域2若需要细粒度调整时,不再执行细粒度划分调整操作。
在一可实施方式中,方法还包括:
对激活次数小于等于第二阈值的区域进行粗粒度划分调整;
根据粗粒度划分调整结果更新第一规则。
本实施例中,第二阈值为固定值并且为预先设置,需要说明的是,第二阈值可以与上述第一阈值的数值相同或不同。
激活次数小于等于第二阈值的区域基本被认定为目标对象不经常出现的位置,则对这些区域进行粗粒度划分调整,其中粗粒度划分调整与细粒度划分调整的概念正好相反,粗粒度划分调整为对各个区域的角度范围进行扩大,扩大方式具体为相邻两个满足粗粒度调整的区域进行合并处理,可结合图4所示,假设区域4和区域5的激活次数小于等于第二阈值,则对区域4和区域5进行合并处理,粗粒度的划分调整可减少针对非重视区域的计算量,进而提高识别重视区域的效率。
得到粗粒度划分调整结果之后,更新第一规则,并且继续重复上述步骤101~105。
在一可实施方式中,对激活次数小于等于第二阈值的区域进行粗粒度划分调整,包括:
判断激活次数小于等于第二阈值的各区域粒度是否达到粒度上限;
对于未达到粒度上限的区域,将相邻的区域按粒度合并规则进行合并,其中合并后的区域粒度不高于粒度上限;
对于达到粒度上限的区域,不执行粗粒度划分调整。
本实施例中,粒度上限也同样为预先设置,以图4所示,假设设定的粒度下限为120°,若区域3和区域4需要粗粒度调整时,可将这些区域进行合并,并且合并后的区域角度间隔不高于120°,针对区域4和区域5的当前的粒度已经达到粒度上限120°,则当区域4和区域5若需要粗粒度调整时,不再执行粗粒度划分调整操作。
在一可实施方式中,第一规则的初始配置为:按初始粒度,将电子设备的语音采集的角度范围平均划分成多个区域。
本实施例中,结合图2所示,图2所设置的第一规则为:初始粒度为60°,且将电子设备的语音采集的角度范围平均划分成6个区域。需要说明的是,第一规则的初始配置不仅限于图2的配置方式。
在一可实施方式中,方法还包括:
判断候选区域对应的第四语音信号是否为交互类语音,以及交互类语音与第二语音信号的属性近似度是否达到预设的近似度阈值,在判断结果为是时,执行与交互类语音对应的后续交互类操作。
本实施例中,该步骤具体在步骤105之后,交互类语音为至少双方之间一问一答的语音,判断是否为交互类语音的方式为:可参考图5所示,判断候选区域对应的第四语音信号是否有后续有效语音,在判断结果为是时,对后续有效语音进行自动语音识别ASR处理获得ASR识别结果,对ASR识别结果进行自然语言处理NLP分析,判断NLP分析结果是否为交互类语句,若NLP分析结果为交互类语句,则确定候选区域对应的第四语音信号为交互类语音,并且可进行后续电子设备和目标对象的交互操作。
其中,有效语音具体为有意义的、非模糊不清的语音,判断方式可以通过现有的意图识别模型对后续语音进行意图识别,得到意图信息,若存在意图信息,则判定为有效语音,反之,则判定为无效语音。自然语言处理NLP分析具体可以为规则引擎,判断时,规则引擎可将后续语音与预存的交互类语音进行相似度匹配,若匹配成功,则判定为交互类语音,反之则判定为非交互类语音。
进一步地,若上述判断过程中存在一项不满足条件,则判定步骤102的激活操作无效,并且放弃这次激活。
除了判断候选区域对应的第四语音信号是否为交互类语音之外,还需交互类语音与第二语音信号的属性近似度是否达到预设的近似度阈值,其中属性近似度具体为语音特征,包括音调、响度、音色特征,这些特征可通过现有声纹识别技术提取得到,并仍借助声纹识别技术判断后续交互类语音和第二语音信号各自的特征的相似度,若相似度达到预设的近似度阈值,则执行与交互类语音对应的后续交互类操作。
交互操作具体包括例如语音机器人的天气查询操作、智能音箱的切歌操作等等。
如图6所示,本发明另一方面提供一种信息处理装置,应用于具有语音采集功能的电子设备,电子设备的语音采集的角度范围按第一规则被划分成多个区域,包括:
第一语音增强模块201,用于以各个区域为单位,对电子设备采集到的第一语音信号进行语音增强处理,获得各个区域分别对应的第二语音信号;
激活处理模块202,用于根据各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;
第二语音增强模块203,用于对候选区域后续对应的第三语音信号进行语音增强处理,获得对应候选区域的第四语音信号;
粒度划分调整模块204,用于若确定第二语音信号与第四语音信号属于同一个目标对象,则对候选区域进行细粒度划分调整;
规则更新模块205,用于根据细粒度划分调整结果更新第一规则,更新后的第一规则用作下一次的语音激活处理。
本实施例中,本发明所应用的电子设备包括智能音箱、智能电视、智能机器人等智能设备,电子设备的语音采集功能可通过麦克风等语音采集设备实现,其中麦克风数量设置为多个,多个麦克风组合形成麦克风阵列,阵列方式可以是圆形、方形、球形等等,用于令每个麦克风采集空间中对应规定区域内的语音信号,可参考图2所示,图2中麦克风数量设置为6个,每个麦克风采集各自的区域,并且采集角度范围60°。第一规则为预先设置的规则,用于通过波束成形技术划分每个麦克风的采集角度,以调整每个麦克风的采集区域。
在第一语音增强模块201中,在通过麦克风阵列采集到空间中各个区域内的第一语音信号之后,对每个第一语音信号均进行语音增强处理,其中语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用语音信号的技术,最终提取到尽可能纯净的第二语音信号。
在激活处理模块202中,在获取到对应各个区域的第二语音信号之后,对每个第二语音信号进行语音激活处理,其中语音激活方式可以是利用语音识别技术中的声学模型对第二语音信号与预设的激活词进行音素序列匹配,分别得到表征两者匹配度的激活分数,激活分数越高表示第二语音信号与激活词匹配度越高,将激活分数大于预设阈值的区域设为候选区域。
在第二语音增强模块203中,在确定候选区域之后,对每个候选区域对应麦克风所采集到的第三语音信号进行再次语音增强处理,从第三语音信号中提取到尽可能纯净的第四语音信号,其中针对第三语音信号的语音增强处理方式与处理第一语音信号的方式相同,在此不重复描述。
在粒度划分调整模块204中,在获取到第二语音信号和第四语音信号之后,判断第二语音信号和第四语音信号是否属于同一个目标对象,判断方式可以是通过现有的声纹识别技术对第二语音信号和第四语音信号的声学特征进行分析对比,若分析结果表示第二语音信号和第四语音信号的声学特征接近,则判定第二语音信号和第四语音信号属于同一个目标对象,其中目标对象可以是人,也可以是动物或者是具备语音交互功能的智能设备如语音机器人。当判定第二语音信号和第四语音信号属于同一个目标对象之后,对已经激活的候选区域再进行细粒度划分调整,具体为对候选区域的采集角度进行细粒度调整,可结合图2和图3所示,若经激活处理模块202处理后区域1和区域2为候选区域,并且区域1和区域2所采集的第二语音信号和第四语音信号均属于同一个目标对象,则对区域1和区域2进行角度细粒度划分调整,图3中,将区域1和区域2中原先区域角度间隔为60°区域划分调整至间隔15°子区域,需要说明的是,本发明的细粒度调整方式不仅限于图3中的划分方式。
在规则更新模块205中,根据细粒度划分调整结果更新第一规则,仍参考图2和图3作为例子说明,可见划分图2的第一规则为将每个麦克风采集间隔60°范围的区域,更新后的第一规则为通过波束成形技术对于区域1和区域2调整为多个采集间隔角度为15°的子区域。在划分调整之后,重复依次执行上述五个模块,以逐步精确识别目标对象的方向。
由此,本方案首先通过电子设备将所采集到的语音信号按照规定角度划分为多个区域,对每个区域所对应的第一语音信号进行语音增强处理,以去除噪声干扰进而得到尽可能纯净的第二语音信号,对第二语音信号进行语音激活处理,并将所激活的区域作为候选区域,对候选区域后续所对应的第三语音信号再次进行语音增强处理,得到尽可能纯净的第四语音信号,当确认第二语音信号和第四语音信号为同一个目标对象所发出时,则对候选区域进一步进行细粒度划分,使得在后续语音采集过程中更加注重采集经细粒度划分后区域的语音信号,相对弱化采集其他区域的语音信号,重复上述步骤不断进行细粒度划分,可逐步精确定位到语音发出的具体位置,即目标对象的具体位置,后续应用时,即可着重对经细粒度划分区域所采集的语音进行语音增强、激活处理,进而在远场语音交互和低信噪比语音交互场景中提高后续的语音激活性能以及语音交互体验。
在一可实施方式中,激活处理模块202,具体用于:
根据预设语音激活算法计算各个区域分别对应的第二语音信号的激活分数,将激活分数达到预设分数阈值的第二语音信号所对应的区域确定为被激活的候选区域。
本实施例中,激活处理模块202中的预设激活算法可以为现有声学模型对第二语音信号以及预设激活词的特征匹配算法,还可以是通过专用于识别语音信号中是否含有激活词的神经网络模型对第二语音信号的识别算法,其中该神经网络模型的训练方式大致为:
将大量的语音训练素材组输入神经网络模型中进行训练,得到输出语音信号的激活词识别结果,其中语音训练素材组包括激活词以及包含激活词的语音信号。
训练过程中,若识别结果与激活词的差别较大,则继续用训练素材进行训练,继续调整神经网络模型中的权重参数,直至识别结果与激活词的差别小于预设值,即可完成训练。
针对预设激活算法为声学模型或者神经网络模型,激活分数均表示为第二语音信号与预设激活词匹配程度,匹配程度越高,激活分数越高。将激活分数达到预设分数阈值的第二语音信号所对应的区域确定为被激活的候选区域,其中预设分数阈值为固定值。
在一可实施方式中,粒度划分调整模块204在执行对所述候选区域进行细粒度划分调整之前,还具体用于:
记录语音采集的角度范围内被划分的各个区域的被激活次数;
对激活次数大于等于第一阈值的区域进行细粒度划分调整。
本实施例中,考虑到目标对象可能在发出语音信号的同时正在进行位置移动,若只对一次激活的区域进行细粒度调整,仍不能精确定位到目标对象的位置或者说重新定位到目标对象需要花费更多的计算量,因此在对候选区域进行细粒度划分调整之前,还需记录每个已划分区域的被激活次数,对激活次数大于等于第一阈值的区域进行细粒度划分调整,其中第一阈值可根据实际情况调整,可以是1,也可以是其他的数值。仍以图2和图3为例说明,假设目标对象在区域1内发出了语音信号并且区域1被激活了一次,接着目标对象移动至区域2并在区域2中发出了多次语音信号,区域2被激活多次,那么可确定区域2为目标对象经常出现的位置,因此对区域2进行细粒度划分调整,以精确识别目标对象的位置。
在一可实施方式中,粒度划分调整模块204在进行细粒度划分调整的过程中,还具体用于:
判断激活次数大于等于第一阈值的各区域粒度是否达到粒度下限;
对于未达到粒度下限的区域,按粒度划分规则划分为多个子区域,其中子区域的粒度不低于粒度下限;
对于达到粒度下限的区域,不执行细粒度划分调整。
本实施例中,粒度下限为预先设置,以图3所示,假设设定的粒度下限为15°,那么针对区域3~区域6若需要细粒度调整时,可将这些区域进一步调整至多个角度间隔不低于15°的子区域,针对区域1和区域2,区域1和区域2当前的粒度已经达到粒度下限15°,则当区域1和区域2若需要细粒度调整时,不再执行细粒度划分调整操作。
在一可实施方式中,粒度划分调整模块204,还具体用于:
对激活次数小于等于第二阈值的区域进行粗粒度划分调整;
根据粗粒度划分调整结果更新第一规则。
本实施例中,第二阈值为固定值并且为预先设置,需要说明的是,第二阈值可以与上述第一阈值的数值相同或不同。
激活次数小于等于第二阈值的区域基本被认定为目标对象不经常出现的位置,则对这些区域进行粗粒度划分调整,其中粗粒度划分调整与细粒度划分调整的概念正好相反,粗粒度划分调整为对各个区域的角度范围进行扩大,扩大方式具体为相邻两个满足粗粒度调整的区域进行合并处理,可结合图4所示,假设区域4和区域5的激活次数小于等于第二阈值,则对区域4和区域5进行合并处理,粗粒度的划分调整可减少针对非重视区域的计算量,进而提高识别重视区域的效率。
得到粗粒度划分调整结果之后,更新第一规则,并且继续重复上述201~205模块。
在一可实施方式中,对激活次数小于等于第二阈值的区域进行粗粒度划分调整,粒度划分调整模块204还具体用于:
判断激活次数小于等于第二阈值的各区域粒度是否达到粒度上限;
对于未达到粒度上限的区域,将相邻的区域按粒度合并规则进行合并,其中合并后的区域粒度不高于粒度上限;
对于达到粒度上限的区域,不执行粗粒度划分调整。
本实施例中,粒度上限也同样为预先设置,以图4所示,假设设定的粒度下限为120°,若区域3和区域4需要粗粒度调整时,可将这些区域进行合并,并且合并后的区域角度间隔不高于120°,针对区域4和区域5的当前的粒度已经达到粒度上限120°,则当区域4和区域5若需要粗粒度调整时,不再执行粗粒度划分调整操作。
在一可实施方式中,第一规则的初始配置为:按初始粒度,将电子设备的语音采集的角度范围平均划分成多个区域。
本实施例中,结合图2所示,图2所设置的第一规则为:初始粒度为60°,且将电子设备的语音采集的角度范围平均划分成6个区域。需要说明的是,第一规则的初始配置不仅限于图2的配置方式。
在一可实施方式中,装置还包括语音判断模块206:
语音判断模块206具体用于判断候选区域对应的第四语音信号是否为交互类语音,以及交互类语音与第二语音信号的属性近似度是否达到预设的近似度阈值,在判断结果为是时,执行与交互类语音对应的后续交互类操作。
本实施例中,该模块具体在执行规则更新模块205之后,交互类语音为至少双方之间一问一答的语音,判断是否为交互类语音的方式为:可参考图5所示,判断候选区域对应的第四语音信号是否有后续有效语音,在判断结果为是时,对后续有效语音进行自动语音识别ASR处理获得ASR识别结果,对ASR识别结果进行自然语言处理NLP分析,判断NLP分析结果是否为交互类语句,若NLP分析结果为交互类语句,则确定候选区域对应的第四语音信号为交互类语音,并且可进行后续电子设备和目标对象的交互操作。
其中,有效语音具体为有意义的、非模糊不清的语音,判断方式可以通过现有的意图识别模型对后续语音进行意图识别,得到意图信息,若存在意图信息,则判定为有效语音,反之,则判定为无效语音。自然语言处理NLP分析具体可以为规则引擎,判断时,规则引擎可将后续语音与预存的交互类语音进行相似度匹配,若匹配成功,则判定为交互类语音,反之则判定为非交互类语音。
进一步地,若上述判断过程中存在一项不满足条件,则判定激活处理模块202的激活操作无效,并且放弃这次激活。
除了判断候选区域对应的第四语音信号是否为交互类语音之外,还需交互类语音与第二语音信号的属性近似度是否达到预设的近似度阈值,其中属性近似度具体为语音特征,包括音调、响度、音色特征,这些特征可通过现有声纹识别技术提取得到,并仍借助声纹识别技术判断后续交互类语音和第二语音信号各自的特征的相似度,若相似度达到预设的近似度阈值,则执行与交互类语音对应的后续交互类操作。
交互操作具体包括例如语音机器人的天气查询操作、智能音箱的切歌操作等等。
本发明另一方面提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述方法步骤。
本实施例中,电子设备应用于具有语音采集功能的电子设备,电子设备的语音采集的角度范围按第一规则被划分成多个区域,指令存储于存储器中,当指令被执行时用于:以各个区域为单位,对所述电子设备采集到的第一语音信号进行语音增强处理,获得所述各个区域分别对应的第二语音信号;根据所述各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;对所述候选区域后续对应的第三语音信号进行语音增强处理,获得对应所述候选区域的第四语音信号;若确定所述第二语音信号与第四语音信号属于同一个目标对象,则对所述候选区域进行细粒度划分调整;根据所述细粒度划分调整结果更新所述第一规则,更新后的所述第一规则用作下一次的语音激活处理。
由此,本方案首先通过电子设备将所采集到的语音信号按照规定角度划分为多个区域,对每个区域所对应的第一语音信号进行语音增强处理,以去除噪声干扰进而得到尽可能纯净的第二语音信号,对第二语音信号进行语音激活处理,并将所激活的区域作为候选区域,对候选区域后续所对应的第三语音信号再次进行语音增强处理,得到尽可能纯净的第四语音信号,当确认第二语音信号和第四语音信号为同一个目标对象所发出时,则对候选区域进一步进行细粒度划分,使得在后续语音采集过程中更加注重采集经细粒度划分后区域的语音信号,相对弱化采集其他区域的语音信号,重复上述步骤不断进行细粒度划分,可逐步精确定位到语音发出的具体位置,即目标对象的具体位置,后续应用时,即可着重对经细粒度划分区域所采集的语音进行语音增强、激活处理,进而在远场语音交互和低信噪比语音交互场景中提高后续的语音激活性能以及语音交互体验。
本发明另一方面提供一种计算机存储介质,存储介质存储有计算机可执行指令,当指令被执行时用执行上述信息处理方法。
本实施例中,计算机存储介质应用于具有语音采集功能的电子设备,电子设备的语音采集的角度范围按第一规则被划分成多个区域,指令存储于存储器中,当指令被执行时用于:以各个区域为单位,对所述电子设备采集到的第一语音信号进行语音增强处理,获得所述各个区域分别对应的第二语音信号;根据所述各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;对所述候选区域后续对应的第三语音信号进行语音增强处理,获得对应所述候选区域的第四语音信号;若确定所述第二语音信号与第四语音信号属于同一个目标对象,则对所述候选区域进行细粒度划分调整;根据所述细粒度划分调整结果更新所述第一规则,更新后的所述第一规则用作下一次的语音激活处理。
由此,本方案首先通过电子设备将所采集到的语音信号按照规定角度划分为多个区域,对每个区域所对应的第一语音信号进行语音增强处理,以去除噪声干扰进而得到尽可能纯净的第二语音信号,对第二语音信号进行语音激活处理,并将所激活的区域作为候选区域,对候选区域后续所对应的第三语音信号再次进行语音增强处理,得到尽可能纯净的第四语音信号,当确认第二语音信号和第四语音信号为同一个目标对象所发出时,则对候选区域进一步进行细粒度划分,使得在后续语音采集过程中更加注重采集经细粒度划分后区域的语音信号,相对弱化采集其他区域的语音信号,重复上述步骤不断进行细粒度划分,可逐步精确定位到语音发出的具体位置,即目标对象的具体位置,后续应用时,即可着重对经细粒度划分区域所采集的语音进行语音增强、激活处理,进而在远场语音交互和低信噪比语音交互场景中提高后续的语音激活性能以及语音交互体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种信息处理方法,应用于具有语音采集功能的电子设备,所述电子设备的语音采集的角度范围按第一规则被划分成多个区域,所述方法包括:
以各个区域为单位,对所述电子设备采集到的第一语音信号进行语音增强处理,获得所述各个区域分别对应的第二语音信号;
根据所述各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;
对所述候选区域后续对应的第三语音信号进行语音增强处理,获得对应所述候选区域的第四语音信号;
若确定所述第二语音信号与第四语音信号属于同一个目标对象,则对所述候选区域进行细粒度划分调整;
根据所述细粒度划分调整结果更新所述第一规则,更新后的所述第一规则用作下一次的语音激活处理。
2.根据权利要求1所述信息处理方法,所述根据各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域,包括:
根据预设语音激活算法计算各个区域分别对应的第二语音信号的激活分数,将所述激活分数达到预设分数阈值的第二语音信号所对应的区域确定为被激活的候选区域。
3.根据权利要求1所述信息处理方法,在对所述候选区域进行细粒度划分调整之前,所述方法还包括:
记录所述语音采集的角度范围内被划分的各个区域的被激活次数;
对激活次数大于等于第一阈值的区域进行细粒度划分调整。
4.根据权利要求3所述信息处理方法,在进行细粒度划分调整的过程中,所述方法还包括:
判断所述激活次数大于等于第一阈值的各区域粒度是否达到粒度下限;
对于未达到所述粒度下限的区域,按粒度划分规则划分为多个子区域,其中所述子区域的粒度不低于所述粒度下限;
对于达到所述粒度下限的区域,不执行所述细粒度划分调整。
5.根据权利要求3所述信息处理方法,所述方法还包括:
对激活次数小于等于第二阈值的区域进行粗粒度划分调整;
根据所述粗粒度划分调整结果更新所述第一规则。
6.根据权利要求5所述信息处理方法,所述对激活次数小于等于第二阈值的区域进行粗粒度划分调整,包括:
判断所述激活次数小于等于第二阈值的各区域粒度是否达到粒度上限;
对于未达到所述粒度上限的区域,将相邻的区域按粒度合并规则进行合并,其中所述合并后的区域粒度不高于所述粒度上限;
对于达到所述粒度上限的区域,不执行所述粗粒度划分调整。
7.根据权利要求1所述信息处理方法,所述第一规则的初始配置为:按初始粒度,将所述电子设备的语音采集的角度范围平均划分成多个区域。
8.根据权利要求1所述信息处理方法,所述方法还包括:
判断所述候选区域对应的第四语音信号是否为交互类语音,以及所述交互类语音与所述第二语音信号的属性近似度是否达到预设的近似度阈值,在判断结果为是时,执行与所述交互类语音对应的后续交互类操作。
9.根据权利要求8所述信息处理方法,通过以下方式确定所述候选区域对应的第四语音信号是否为交互类语音:
判断所述候选区域对应的第四语音信号是否有后续有效语音,在判断结果为是时,对所述后续有效语音进行自动语音识别ASR处理获得ASR识别结果,对所述ASR识别结果进行自然语言处理NLP分析,判断所述NLP分析结果是否为交互类语句,若所述NLP分析结果为交互类语句,则确定所述候选区域对应的第四语音信号为交互类语音。
10.一种信息处理装置,应用于具有语音采集功能的电子设备,所述电子设备的语音采集的角度范围按第一规则被划分成多个区域,包括:
第一语音增强模块,用于以各个区域为单位,对所述电子设备采集到的第一语音信号进行语音增强处理,获得所述各个区域分别对应的第二语音信号;
激活处理模块,用于根据所述各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;
第二语音增强模块,用于对所述候选区域后续对应的第三语音信号进行语音增强处理,获得对应所述候选区域的第四语音信号;
粒度划分调整模块,用于若确定所述第二语音信号与第四语音信号属于同一个目标对象,则对所述候选区域进行细粒度划分调整;
规则更新模块,用于根据所述细粒度划分调整结果更新所述第一规则,更新后的所述第一规则用作下一次的语音激活处理。
CN202110281157.6A 2021-03-16 2021-03-16 一种信息处理方法和装置 Active CN113077802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110281157.6A CN113077802B (zh) 2021-03-16 2021-03-16 一种信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110281157.6A CN113077802B (zh) 2021-03-16 2021-03-16 一种信息处理方法和装置

Publications (2)

Publication Number Publication Date
CN113077802A true CN113077802A (zh) 2021-07-06
CN113077802B CN113077802B (zh) 2023-10-24

Family

ID=76612619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110281157.6A Active CN113077802B (zh) 2021-03-16 2021-03-16 一种信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN113077802B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138254A1 (en) * 1997-07-18 2002-09-26 Takehiko Isaka Method and apparatus for processing speech signals
CN1805278A (zh) * 2005-01-14 2006-07-19 三星电子株式会社 使用波束形成算法来记录信号的方法和设备
US9659576B1 (en) * 2016-06-13 2017-05-23 Biamp Systems Corporation Beam forming and acoustic echo cancellation with mutual adaptation control
CN107257996A (zh) * 2015-03-26 2017-10-17 英特尔公司 环境敏感自动语音识别的方法和系统
CN109257682A (zh) * 2018-09-29 2019-01-22 歌尔科技有限公司 拾音调节方法、控制终端及计算机可读存储介质
CN110176234A (zh) * 2019-05-30 2019-08-27 芋头科技(杭州)有限公司 移动智能终端的控制方法、装置、控制器、介质及终端
CN110223686A (zh) * 2019-05-31 2019-09-10 联想(北京)有限公司 语音识别方法、语音识别装置和电子设备
CN111257830A (zh) * 2018-12-03 2020-06-09 南京理工大学 基于预先设定ap位置的wifi定位算法
WO2020192721A1 (zh) * 2019-03-28 2020-10-01 华为技术有限公司 一种语音唤醒方法、装置、设备及介质
CN112020864A (zh) * 2018-04-13 2020-12-01 伯斯有限公司 麦克风阵列中的智能波束控制
CN112313524A (zh) * 2018-06-13 2021-02-02 奥兰治 给定声学环境中声源的定位

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138254A1 (en) * 1997-07-18 2002-09-26 Takehiko Isaka Method and apparatus for processing speech signals
CN1805278A (zh) * 2005-01-14 2006-07-19 三星电子株式会社 使用波束形成算法来记录信号的方法和设备
CN107257996A (zh) * 2015-03-26 2017-10-17 英特尔公司 环境敏感自动语音识别的方法和系统
US9659576B1 (en) * 2016-06-13 2017-05-23 Biamp Systems Corporation Beam forming and acoustic echo cancellation with mutual adaptation control
CN112020864A (zh) * 2018-04-13 2020-12-01 伯斯有限公司 麦克风阵列中的智能波束控制
CN112313524A (zh) * 2018-06-13 2021-02-02 奥兰治 给定声学环境中声源的定位
CN109257682A (zh) * 2018-09-29 2019-01-22 歌尔科技有限公司 拾音调节方法、控制终端及计算机可读存储介质
CN111257830A (zh) * 2018-12-03 2020-06-09 南京理工大学 基于预先设定ap位置的wifi定位算法
WO2020192721A1 (zh) * 2019-03-28 2020-10-01 华为技术有限公司 一种语音唤醒方法、装置、设备及介质
CN110176234A (zh) * 2019-05-30 2019-08-27 芋头科技(杭州)有限公司 移动智能终端的控制方法、装置、控制器、介质及终端
CN110223686A (zh) * 2019-05-31 2019-09-10 联想(北京)有限公司 语音识别方法、语音识别装置和电子设备

Also Published As

Publication number Publication date
CN113077802B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN110379412B (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
EP3482392B1 (en) Method and system for automatically diarising a sound recording
Kim et al. Audio classification based on MPEG-7 spectral basis representations
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN110503970A (zh) 一种音频数据处理方法、装置及存储介质
CN110556103A (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN111798860B (zh) 音频信号处理方法、装置、设备及存储介质
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN113205803B (zh) 一种具有自适应降噪能力的语音识别方法及装置
US20220148611A1 (en) Speech enhancement using clustering of cues
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
Battaglino et al. Acoustic context recognition using local binary pattern codebooks
Poorjam et al. A parametric approach for classification of distortions in pathological voices
CN112420056A (zh) 基于变分自编码器的说话人身份鉴别方法、系统及无人机
CN109741761B (zh) 声音处理方法和装置
CN113077802B (zh) 一种信息处理方法和装置
CN111785302A (zh) 说话人分离方法、装置及电子设备
CN111192569B (zh) 双麦语音特征提取方法、装置、计算机设备和存储介质
KR101184394B1 (ko) 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법
CN111354353A (zh) 一种语音数据处理方法及装置
CN113380244A (zh) 一种设备播放音量的智能调节方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant