CN117198287B

CN117198287B - 一种用于智能体的人机交互的语音识别系统

Info

Publication number: CN117198287B
Application number: CN202311111296.XA
Authority: CN
Inventors: 孙志明; 陈海涛; 雷铜; 王彬
Original assignee: Nanjing Huizhi Mutual Entertainment Network Technology Co ltd
Current assignee: Nanjing Huizhi Mutual Entertainment Network Technology Co ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2024-07-05
Anticipated expiration: 2043-08-30
Also published as: CN117198287A

Abstract

本发明属于语音识别领域，公开了一种用于智能体的人机交互的语音识别系统，包括麦克风和麦克风控制器；麦克风控制器用于控制麦克风进行开启或关闭；当麦克风关闭后，计算麦克风下一次开启的时间间隔：麦克风开启后，若麦克风控制器在连续的S秒内没有收到麦克风传输过来的振幅大于设定的振幅阈值声音信号，则控制麦克风关闭；麦克风用于在开启时，采集智能体所处环境的声音，得到声音信号，并将声音信号传输至麦克风控制器。本发明的智能体在进行语音交互的过程中，并不是采用一直获取环境中的声音的方式来实现及时交互，而是通过间歇性开启麦克风的方式来获取智能体所处环境的声音信号，从而降低智能体的功耗。

Description

一种用于智能体的人机交互的语音识别系统

技术领域

本发明涉及语音识别领域，尤其涉及一种用于智能体的人机交互的语音识别系统。

背景技术

智能体是指驻留在某一环境下，能持续自主地发挥作用，具备驻留性、反应性、社会性、主动性等特征的计算实体。与智能体进行人机交互可以通过交互界面进行，也可以通过语音识别的方式进行。但是，采用语音识别的方式进行交互时，现有技术一般需要保持获取麦克风处于工作状态，一直对智能体所处环境中的声音进行采集和识别，以保证能够及时对使用者所发出的声音进行响应。显然，这样会增加智能体的功耗，当智能体采用电池进行供电时，会影响智能体的续航。

发明内容

本发明的目的在于公开一种用于智能体的人机交互的语音识别系统，解决如何降低采用语音识别的方式进行交互时，智能体的功耗的问题。

为了达到上述目的，本发明提供如下技术方案：

本发明提供了一种用于智能体的人机交互的语音识别系统，包括麦克风和麦克风控制器；

麦克风控制器用于采用如下方式控制麦克风进行开启或关闭：

当麦克风关闭后，计算麦克风下一次开启的时间间隔：

时间间隔的计算方式为：

若numfa_n+1-numfb_n+1大于0，则使用如下公式计算时间间隔：

itreim_n+1和itreim_n分别表示麦克风第n+1次开启和第n次开启的时间间隔，numfa_n+1和numfb_n+1分别表示麦克风在时间区间[cmpt_n+1-H,cmpt_n+1]和[cmpt_n+1-2H,cmpt_n+1-H]得到所有的声音信号中，包含预设的词语的数量，α、β表示预设的第一权重和第二权重，sdnum表示预设的数量，lentfa_n+1表示麦克风在时间区间[cmpt_n+1-H,cmpt_n+1]内得到所有的声音信号中，振幅大于预设的振幅阈值的声音信号的长度；lentcyc表示设定的时间长度，sdlent表示设定的时间间隔；H表示设定的时间区间参数；cmpt_n+1表示麦克风第n次关闭的时刻；

若numfa_n+1-numfb_n+1小于0，则使用如下公式计算时间间隔：

若numfa_n+1-numfb_n+1等于0，则麦克风第n+1次开启的时间间隔与第n次开启的时间间隔相同；

麦克风控制器实时判断当前的时刻与麦克风第n次关闭的时刻之间的差值是否等于itreim_n+1，若是，则控制麦克风开启；

麦克风开启后，若麦克风控制器在连续的S秒内没有收到麦克风传输过来的振幅大于设定的振幅阈值声音信号，则控制麦克风关闭；

麦克风用于在开启时，采集智能体所处环境的声音，得到声音信号，并将声音信号传输至麦克风控制器。

优选地，还包括预处理模块；

麦克风控制器用于将声音信号传输至预处理模块；

预处理模块用于对声音信号进行预处理，得到经过预处理的声音信号。

优选地，还包括特征提取模块；

特征提取模块用于获取经过预处理的声音信号的声音特征。

优选地，还包括特征识别模块；

特征识别模块用于对声音特征进行识别，获得声音特征所对应的文字。

优选地，还包括组合模块；

组合模块用于对特征识别模块所获得的文字进行组合，得到声音信号所对应的文本信息。

优选地，还包括处理模块；

处理模块用于对文本信息进行处理，得到处理结果。

优选地，还包括展示模块；

展示模块用于对处理结果进行展示。

优选地，展示模块包括显示设备和声音播放设备。

与现有技术相比，本发明的智能体在进行语音交互的过程中，并不是采用一直获取环境中的声音的方式来实现及时交互，而是通过间歇性开启麦克风的方式来获取智能体所处环境的声音信号。而且开启的时间间隔能够随着声音信号的变化而变化，从而能够在用户与智能体进行交互的频率较高时，采用较小的时间间隔来开启麦克风，从而能够及时地作出响应，而在用户与智能体交互的频率较低时，采用较大的时间间隔来开启麦克风，从而进一步降低智能体的功耗。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种用于智能体的人机交互的语音识别系统的第一种示意图。

图2为本发明的一种用于智能体的人机交互的语音识别系统的第二种示意图。

图3为本发明的一种用于智能体的人机交互的语音识别系统的第三种示意图。

图4为本发明的一种用于智能体的人机交互的语音识别系统的第四种示意图。

图5为本发明的一种用于智能体的人机交互的语音识别系统的第五种示意图。

图6为本发明的一种用于智能体的人机交互的语音识别系统的第六种示意图。

图7为本发明的一种用于智能体的人机交互的语音识别系统的第七种示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示的一种实施例，本发明提供了一种用于智能体的人机交互的语音识别系统，包括麦克风和麦克风控制器；

当麦克风关闭后，计算麦克风下一次开启的时间间隔：

时间间隔的计算方式为：

若numfa_n+1-numfb_n+1大于0，则使用如下公式计算时间间隔：

若numfa_n+1-numfb_n+1小于0，则使用如下公式计算时间间隔：

具体的，n大于等于2。第一次控制麦克风开启和第二次控制麦克风开启时，采用的是固定数值的时间间隔，例如2S。

本发明的智能体在进行语音交互的过程中，并不是采用一直获取环境中的声音的方式来实现及时交互，而是通过间歇性开启麦克风的方式来获取智能体所处环境的声音信号。而且开启的时间间隔能够随着声音信号的变化而变化，从而能够在用户与智能体进行交互的频率较高时，采用较小的时间间隔来开启麦克风，从而能够及时地作出响应，而在用户与智能体交互的频率较低时，采用较大的时间间隔来开启麦克风，从而进一步降低智能体的功耗。

具体的，lentcyc的取值可以与H相同。H的取值可以是1小时。

振幅阈值能够将响度过小的声音信号排除掉，从而使得时间间隔的结果更加准确。振幅可以通过分贝来描述，在本发明中，振幅阈值可以设置为30分贝。

在时间间隔的计算过程中，当numfa_n+1-numfb_n+1大于0时，表示接收到声音信号中，包含预设的词语的数量比较多，此时，表示用户在时间区间[cmpt_n+1-H,cmpt_n+1]内较高频率地与智能体进行语音交互，因此，本发明适当地降低时间间隔，便于智能体能够更加及时地对用户所发出的语音进行响应。当numfa_n+1-numfb_n+1小于0时，表示接收到声音信号中，包含预设的词语的数量比较少，表示用户在时间区间[cmpt_n+1-H,cmpt_n+1]内与智能体进行语音交互的频率比较低，此时，本发明会增大时间间隔的数值，有利于降低智能体的功耗。

而且，在时间间隔变化的过程中，变化的幅度是与上述两个时间区间中出现的预设的词语的数量以及振幅大于预设的振幅阈值的声音信号的长度有关，在numfa_n+1-numfb_n+1大于0是，两个时间区间中出现的预设的词语的数量的差距越大，振幅大于预设的振幅阈值的声音信号的长度越大，则时间间隔的变化幅度越大，在numfa_n+1-numfb_n+1小于0时，两个时间区间中出现的预设的词语的数量的差距越大，振幅大于预设的振幅阈值的声音信号的长度越短，则时间间隔的变化幅度越大。这样便能够实现时间间隔随着实际的声音信号的情况的变化而变化，有利于进一步地节约智能体的功耗。

具体的，第一权重的数值可以为0.4，第二权重的数值可以是0.6。

优选地，预设的词语可以是用户给智能体的起的名称，该名称作为智能体的唤醒词。

优选地，用户与智能体进行交互时，交互的语句包括唤醒词和操作语句，当麦克风控制器对一段声音信号进行识别时，若识别到唤醒词，则向智能体的控制模块发送唤醒信号，使得智能体从休眠状态转入工作状态。

操作语句即为用于需要让智能体进行计算的语句，操作语句可以是用于查询路线的语句、查询价格的语句等。

优选地，时间间隔的取值区间为[miwrd,mawrd]，当计算出的时间间隔小于miwrd时，则将miwrd作为时间间隔，当计算出的时间间隔大于mawrd时，则将mawrd作为时间间隔。

mawrd表示朗读完唤醒词的所需要的时间长度的最小值，miwrd大于0且小于mawrd，miwrd可以是0.1S，mawrd可以设置为1S。

优选地，如图2所示，还包括预处理模块；

麦克风控制器用于将声音信号传输至预处理模块；

优选地，对声音信号进行预处理，得到经过预处理的声音信号，包括：

对于一段连续的声音信号A，依次对声音信号A进行预加重、分帧和加窗操作，获得多个声音帧；

将所有的声音帧作为经过预处理的声音信号。

优选地，对于声音信号A，对其进行分帧操作的过程如下：

用L表示预设的帧长，L∈[10ms,40ms]；

对于第m帧声音帧，其起始时刻str_m的计算函数为：

str_m-1和end_m-1分别表示表示第m-1帧声音帧的起始时刻和结束时刻，ampl_t表示时间区间[str_m-1,end_m-1]内，第t毫秒的声音信号的振幅，ampl_ave表示从时间区间[str_m-1,end_m-1]内，以一毫秒为间隔所获得的所有声音信号的振幅的均值，ampl_max和ampl_min分别表示从时间区间[str_m-1,end_m-1]内，以一毫秒为间隔所获得的所有声音信号的振幅的最大值和最小值，Φ表示预设的分帧间隔；

则第m帧声音帧所对应的时间区间为[str_m,str_m+L]。

具体的，m大于等于2。第一帧声音帧所对应的时间区间为[0,L]。

在本发明中，相邻的两个声音帧之间的起始时刻的差值并不是固定的，因为对于第m-1帧声音帧，当其对应的声音信号的振幅变化比较小时，表示其属于同一句话的概率比较大，此时，本发明会缩短第m帧声音帧的起始时刻与第m帧声音帧的起始时刻之间的间隔，从而使得第m帧声音帧与第m-1帧声音帧之间的过渡更为自然，有利于获得更加准确的语音识别结果。而当第m-1帧声音帧对应的声音信号的振幅变化比较大时，本发明会延长第m帧声音帧的起始时刻与第m帧声音帧的起始时刻之间的间隔，以减少获得的声音帧的数量，从而提高对智能体的用户的语音命令进行识别的速度。

因此，本发明的上述计算方式在语音识别的准确率和识别速度之间的取得了很好的平衡。提高了智能体的语音识别性能。

具体的，预设的分帧间隔可以是20ms。

优选地，如图3所示，还包括特征提取模块；

特征提取模块用于获取经过预处理的声音信号的声音特征。

具体的，特征提取模块可以采用STFT算法、MFCC算法、LPC算法等算法来获取经过预处理的声音信号的声音特征。

优选地，如图4所示，还包括特征识别模块；

具体的，可以采用基于参数模型的隐马尔可夫模型、基于非参数模型的矢量量化算法等技术来对声音特征进行识别，获得声音特征所对应的文字。

优选地，如图5所示，还包括组合模块；

具体的，组合模块根据文字所对应的时刻，按照时刻从早到晚的顺序进行组合，得到声音信号所对应的文本信息。

具体的，文字所对应的时刻为文字所对应的语音信号的获取时刻。

优选地，如图6所示，还包括处理模块；

处理模块用于对文本信息进行处理，得到处理结果。

具体的，处理模块为智能体中进行指令处理的模块，例如，当文本信息为查询天气的语音指令时，处理模块便自动在网络上查找文本信息中所包含的地点的天气情况，并将天气情况作为处理结果。

优选地，如图7所示，还包括展示模块；

展示模块用于对处理结果进行展示。

优选地，展示模块包括显示设备和声音播放设备。

具体的，还是以上面的查询天气的语音指令为例，可以通过显示设备来显示处理模块得到的天气情况，也可以通过声音播放设备将天气情况播放给用户听。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种用于智能体的人机交互的语音识别系统，其特征在于，包括麦克风和麦克风控制器；

当麦克风关闭后，计算麦克风下一次开启的时间间隔：

时间间隔的计算方式为：

若numfa_n+1-numfb_n+1大于0，则使用如下公式计算时间间隔：

itreim_n+1和itreim_n分别表示麦克风第n+1次开启和第n次开启的时间间隔，numfa_n+1和numfb_n+1分别表示麦克风在时间区间[cmpt_n+1-H,cmpt_n+1]和[cmpt_n+1-2H,cmpt_n+1-H]得到所有的声音信号中，包含唤醒词的数量，α、β表示预设的第一权重和第二权重，sdnum表示唤醒词的预设数量，lentfa_n+1表示麦克风在时间区间[cmpt_n+1-H,cmpt_n+1]内得到所有的声音信号中，振幅大于预设的振幅阈值的声音信号的长度；lentcyc表示设定的时间长度，sdlent表示设定的时间间隔；H表示设定的时间区间参数；cmpt_n+1表示麦克风第n次关闭的时刻；

若numfa_n+1-numfb_n+1小于0，则使用如下公式计算时间间隔：

2.根据权利要求1所述的一种用于智能体的人机交互的语音识别系统，其特征在于，还包括预处理模块；

麦克风控制器用于将声音信号传输至预处理模块；

3.根据权利要求2所述的一种用于智能体的人机交互的语音识别系统，其特征在于，还包括特征提取模块；

特征提取模块用于获取经过预处理的声音信号的声音特征。

4.根据权利要求3所述的一种用于智能体的人机交互的语音识别系统，其特征在于，还包括特征识别模块；

5.根据权利要求4所述的一种用于智能体的人机交互的语音识别系统，其特征在于，还包括组合模块；

6.根据权利要求5所述的一种用于智能体的人机交互的语音识别系统，其特征在于，还包括处理模块；

处理模块用于对文本信息进行处理，得到处理结果。

7.根据权利要求6所述的一种用于智能体的人机交互的语音识别系统，其特征在于，还包括展示模块；

展示模块用于对处理结果进行展示。

8.根据权利要求7所述的一种用于智能体的人机交互的语音识别系统，其特征在于，展示模块包括显示设备和声音播放设备。