CN110767240B - 儿童口音识别的设备控制方法、设备、存储介质及装置 - Google Patents
儿童口音识别的设备控制方法、设备、存储介质及装置 Download PDFInfo
- Publication number
- CN110767240B CN110767240B CN201911064279.9A CN201911064279A CN110767240B CN 110767240 B CN110767240 B CN 110767240B CN 201911064279 A CN201911064279 A CN 201911064279A CN 110767240 B CN110767240 B CN 110767240B
- Authority
- CN
- China
- Prior art keywords
- child
- voice
- recognition
- text
- accent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本发明公开了一种儿童口音识别的设备控制方法、设备、存储介质及装置,该方法通过获取用户的语音指令,根据语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式,能够准确区分说话者是否是儿童;在当前交互模式处于儿童模式时,会对用户的语音指令进行语音识别,获得与语音指令对应的至少两个文本信息,对文本信息进行拼接,基于预设内容源对拼接结果进行自然语言处理,获得交互信息,执行与交互信息对应的设备操作。本实施例在当前交互模式处于儿童模式时,不再将语音指令对应的各文本信息作为独立的信息,而是将其进行拼接后,对所述拼接结果进行自然语言处理,从而提高了儿童语音的识别性能,提高执行对应设备操作的准确性。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种儿童口音识别的设备控制方法、设备、存储介质及装置。
背景技术
空调、电风扇等家电设备已成为人们必不可少的产品,随着人工智能技术的快速发展,具备语音识别功能的家电产品也层出不穷,极大的改善着我们与家电产品的交互和体验。
语音识别功能应用于家庭环境,不仅可以提供本机设备的控制功能,同时也可以提供丰富的内容源及第三方服务,儿童语音的声学和语言学特性随着年龄急剧变化,而且与成人之间存在很大的差异。儿童的说话特点从直观上来说,儿童语音的语速普遍较慢,一字一顿较多,有较严重的稚音;从声道特征来说,儿童的声道长度比成年人的短。由于这些原因,直接采用目前的系统来识别儿童语音,识别性能明显较低,导致儿童语音智能控制设备操作准确率低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种儿童口音识别的设备控制方法、设备、存储介质及装置,旨在解决现有技术中目前的系统来识别儿童语音,识别性能明显较低,导致儿童语音智能控制设备操作准确率低的技术问题。
为实现上述目的,本发明提供一种儿童口音识别的设备控制方法,所述儿童口音识别的设备控制方法包括以下步骤:
获取用户的语音指令;
根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式;
在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息;
对所述文本信息进行拼接,获得拼接结果;
基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息;
执行与所述交互信息对应的设备操作。
优选地,所述基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息的步骤,包括:
对所述拼接结果进行文字删减处理,获得多个进行删减处理后的删减文本;
从多个所述删减文本中选取待处理文本;
基于预设内容源对所述待处理文本进行自然语言处理,获得交互信息。
优选地,所述从多个所述删减文本中选取待处理文本的步骤,包括:
对所述删减文本进行遍历;
计算遍历到的当前删减文本与预设语句集合中各语句的匹配率;
将计算的匹配率中的最大值作为所述当前删减文本的匹配率;
在对所述删减文本遍历结束后,将匹配率最高的删减文本作为待处理文本。
优选地,所述根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式的步骤,包括:
根据所述语音指令,通过基于深度识别技术的唤醒词识别模型进行类型识别,在类型识别结果为儿童时,将所述当前交互模式设置为儿童模式;或,对所述语音指令进行语音识别,在语音识别结果中具有预设语句时,将所述当前交互模式设置为儿童模式。
优选地,所述获取用户的语音指令的步骤之前,所述儿童口音识别的设备控制方法还包括:
通过麦克风确定声源位置;
根据所述目标声源位置采用波束成形算法通过麦克风采集语音指令。
优选地,所述获取用户的语音指令的步骤,包括:
通过预设语音端点检测算法获取用户的语音指令,所述预设语音端点检测算法为增加空挡时间窗口长度的语音端点检测算法。
优选地,所述在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息的步骤之后,所述儿童口音识别的设备控制方法还包括:
将所述语音指令标记为儿童口音;
根据标记为儿童口音的所述语音指令对所述基于深度识别技术的唤醒词识别模型进行训练。
此外,为实现上述目的,本发明还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的儿童口音识别的设备控制程序,所述儿童口音识别的设备控制程序配置为实现如上文所述的儿童口音识别的设备控制方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有儿童口音识别的设备控制程序,所述儿童口音识别的设备控制程序被处理器执行时实现如上文所述的儿童口音识别的设备控制方法的步骤。
此外,为实现上述目的,本发明还提出一种儿童口音识别的设备控制装置,所述儿童口音识别的设备控制装置包括:
指令获取模块,用于获取用户的语音指令;
模式识别模块,用于根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式;
语音识别模块,用于在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息;
文本拼接模块,用于对所述文本信息进行拼接,获得拼接结果;
语言处理模块,用于基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息;
执行操作模块,用于执行与所述交互信息对应的设备操作。
本发明中,通过获取用户的语音指令,根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式,能够准确区分说话者是否是儿童;在当前交互模式处于儿童模式时,会对用户的语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息,对所述文本信息进行拼接,基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息,执行与所述交互信息对应的设备操作。本实施例在当前交互模式处于儿童模式时,不再将语音指令对应的各文本信息作为独立的信息,而是将其进行拼接后,对所述拼接结果进行自然语言处理,从而提高了儿童语音的识别性能,提高执行对应设备操作的准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端设备的结构示意图;
图2为本发明儿童口音识别的设备控制方法第一实施例的流程示意图;
图3为本发明儿童口音识别的设备控制方法第二实施例的流程示意图;
图4为本发明儿童口音识别的设备控制方法第三实施例的流程示意图;
图5为本发明儿童口音识别的设备控制装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图。
如图1所示,该终端设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及儿童口音识别的设备控制程序。
在图1所示的终端设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述终端设备通过处理器1001调用存储器1005中存储的儿童口音识别的设备控制程序,并执行本发明实施例提供的儿童口音识别的设备控制方法。
所述终端设备通过处理器1001调用存储器1005中存储的儿童口音识别的设备控制程序,并执行以下操作:
获取用户的语音指令;
根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式;
在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息;
对所述文本信息进行拼接,获得拼接结果;
基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息;
执行与所述交互信息对应的设备操作。
进一步地,所述终端设备通过处理器1001调用存储器1005中存储的儿童口音识别的设备控制程序,还执行以下操作:
对所述拼接结果进行文字删减处理,获得多个进行删减处理后的删减文本;
从多个所述删减文本中选取待处理文本;
基于预设内容源对所述待处理文本进行自然语言处理,获得交互信息。
进一步地,所述终端设备通过处理器1001调用存储器1005中存储的儿童口音识别的设备控制程序,还执行以下操作:
对所述删减文本进行遍历;
计算遍历到的当前删减文本与预设语句集合中各语句的匹配率;
将计算的匹配率中的最大值作为所述当前删减文本的匹配率;
在对所述删减文本遍历结束后,将匹配率最高的删减文本作为待处理文本。
进一步地,所述终端设备通过处理器1001调用存储器1005中存储的儿童口音识别的设备控制程序,还执行以下操作:
根据所述语音指令,通过基于深度识别技术的唤醒词识别模型进行类型识别,在类型识别结果为儿童时,将所述当前交互模式设置为儿童模式;或,对所述语音指令进行语音识别,在语音识别结果中具有预设语句时,将所述当前交互模式设置为儿童模式。
进一步地,所述终端设备通过处理器1001调用存储器1005中存储的儿童口音识别的设备控制程序,还执行以下操作:
通过麦克风确定声源位置;
根据所述目标声源位置采用波束成形算法通过麦克风采集语音指令。
进一步地,所述终端设备通过处理器1001调用存储器1005中存储的儿童口音识别的设备控制程序,还执行以下操作:
通过预设语音端点检测算法获取用户的语音指令,所述预设语音端点检测算法为增加空挡时间窗口长度的语音端点检测算法。
进一步地,所述终端设备通过处理器1001调用存储器1005中存储的儿童口音识别的设备控制程序,还执行以下操作:
将所述语音指令标记为儿童口音;
根据标记为儿童口音的所述语音指令对所述基于深度识别技术的唤醒词识别模型进行训练。
进一步地,所述终端设备通过处理器1001调用存储器1005中存储的儿童口音识别的设备控制程序,还执行以下操作:
本实施例获取用户的语音指令,根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式,能够准确区分说话者是否是儿童;在当前交互模式处于儿童模式时,会对用户的语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息,对所述文本信息进行拼接,基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息,执行与所述交互信息对应的设备操作。本实施例在当前交互模式处于儿童模式时,不再将语音指令对应的各文本信息作为独立的信息,而是将其进行拼接后,对所述拼接结果进行自然语言处理,从而提高了儿童语音的识别性能,提高执行对应设备操作的准确性。
基于上述硬件结构,提出本发明儿童口音识别的设备控制方法的实施例。
参照图2,图2为本发明儿童口音识别的设备控制方法第一实施例的流程示意图,提出本发明儿童口音识别的设备控制方法第一实施例。
在第一实施例中,所述儿童口音识别的设备控制方法包括以下步骤:
S10:获取用户的语音指令。
需要说明的是,本实施例的执行主体是所述终端设备,所述终端设备可以是空调、电风扇或者冰箱等家电设备,本实施例对此不加以限制。对于交互模式而言,可划分为成人模式和儿童模式,所述成人模式即为现有技术中的语音交互模式,所述儿童模式即为可按照本实施例的方法进行语音识别的模式。
可理解的是,语音交互设备在进行语音指令的获取时,通常会通过预设语音端点检测(Voice Activity Detection,VAD)算法获取用户的语音指令,其目的是从一段给定的语音中找出起始点和结束点,为后续的处理做必要的准备,成人由于思想体系与语言系统已经成熟,说话方式是明确的,传统的VAD算法可以有效的判别成人一段语音的开始结束,若当前交互模式处于儿童模式,而儿童与成人之间存在很大的差异。儿童的说话特点是语速普遍较慢,一字一顿较多,且在表达连续的意图时,说话中间会有意象不到的停顿,从而造成传统VAD算法只能检测到前面说的一段语音而漏掉后面的一段语音,为了避免该问题,从而采集到儿童完整的语音指令,此时,可通过预设语音端点检测算法获取用户的语音指令,所述预设语音端点检测算法为增加空挡时间窗口长度的语音端点检测算法,所述增加空挡时间窗口长度可理解为相比传统VAD算法而言,其空挡时间窗口长度有所增加,例如:传统空挡时间窗口长度为1秒,此时,增加空挡时间窗口长度可设置为2秒、3秒等时长,使得端点检测算法对于语音片段中的未发音部分及静默部分时间容忍度加大,从而算法上可以给声音片段更多的空挡时间窗口,实现容纳儿童连续语音片段中更多空挡时间,提高得到一段儿童连续语音的能力,最终获得“更长”的语音指令。
S20:根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式。
应理解的是,为了识别所述交互模式,可获取大量的成人语音样本和儿童语音样本,通过这些样本通过深度识别技术对预设模型进行训练,从而获得基于深度识别技术的唤醒词识别模型,经过训练获得的所述基于深度识别技术的唤醒词识别模型,不仅实现了成人口音的唤醒词的识别,而且实现了儿童口音的唤醒词识别,并可以根据儿童发音的特性自适应识别话者是否为儿童,可通过向在线识别服务传递说话人身份参数,该参数传输至云端触发后端语音识别引擎调整识别机制,实现对说话人前后语句的智能拼接识别,加强对连续语音的语义理解能力,最终加强云端语音识别的准确率。
S30:在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息。
可理解的是,在所述交互模式为儿童模式时,由于儿童的语言通常情况下会存在停顿,故而,对所述语音指令进行语音识别,可获得与所述语音指令对应的至少两个文本信息,例如:语音指令为“给我讲……个故事”,此时,可获得两个文本信息,分别为“给我讲”和“个故事”两个文本信息。
S40:对所述文本信息进行拼接,获得拼接结果。
在具体实现中,在对所述文本信息进行拼接后,即可获得拼接结果“给我讲个故事”。
假设按照成人模式的语音交互模式会将上述两个文本信息作为分别独立的信息,分别寻找对应的交互结果,但由于上述两个文本信息单独来看并没有组成有效的控制指令,故而,对所述控制命令不会有任何的响应。
S50:基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息。
可理解的是,对于所述自然语言处理可采用本地处理的方式实现,也就是说,在终端设备本地设置自然语言处理以及存储内容源的部件,通过这种方式,需要增加终端设备的处理负担,但可在不连网状态下进行自然语言处理。
当然,对于所述自然语言处理,还可采用服务器处理的方式实现,也就是说,设置一个用于进行自然语言处理的服务器,服务器可与终端设备进行数据交互,此时,服务器可在网络中寻找更加丰富的内容源,但由于其需要进行数据交互,故而,需要保证终端设备处于连网状态下。
应理解的是,按照上述拼接结果“给我讲个故事”而言,在基于预设内容源对所述拼接结果进行自然语言处理后,即可从预设内容源中查找到一个故事,并将查找到的故事作为交互信息。
由于儿童对于内容质量的分辨能力不足,而语音系统中通常存在很大一部分适用于成人的内容源,混用同一套内容源的情况下,儿童必然会接触到很多成人内容源,而这部分内容很可能并非是儿童自己想要寻找的,并且成人内容源可能包含了很多儿童不宜的资源,整体降低了语音产品对儿童用户的使用体验,为解决上述问题,本实施例中,可在步骤S40之前,可选择适合儿童的内容源对所述拼接结果进行自然语言处理,从而对儿童屏蔽掉部分不适合的成人内容,实现试听净化,保护儿童尚未成熟的认知体系。
在具体实现中,可能需要即时抓取内容源,在抓取内容源时,可通过关键词的匹配来对内容源打标签,例如:“成人”标签或“儿童”标签,此时,可将具有预设标签(即“儿童”标签)的内容源作为预设内容源,所述预设标签为用于表征内容源适合儿童的标签。
当然,还有一种情况是,可预先建立适合儿童的预设儿童内容源集合,此时,可直接将预设儿童内容源集合中的内容源作为预设内容源。
S60:执行与所述交互信息对应的设备操作。
在具体实现中,所述交互信息通常为用户说出的对所述终端设备的操作指令,例如:打开空调,则所述终端设备执行与所述交互信息对应的设备操作,即执行打开空调的操作。
本实施例获取用户的语音指令,根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式,能够准确区分说话者是否是儿童;在当前交互模式处于儿童模式时,会对用户的语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息,对所述文本信息进行拼接,基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息,执行与所述交互信息对应的设备操作。本实施例在当前交互模式处于儿童模式时,不再将语音指令对应的各文本信息作为独立的信息,而是将其进行拼接后,对所述拼接结果进行自然语言处理,从而提高了儿童语音的识别性能,提高执行对应设备操作的准确性。
参照图3,图3为本发明儿童口音识别的设备控制方法第二实施例的流程示意图,基于上述图2所示的实施例,提出本发明儿童口音识别的设备控制方法的第二实施例。
在第二实施例中,步骤S50包括:
S51:对所述拼接结果进行文字删减处理,获得多个进行删减处理后的删减文本。
S52:从多个所述删减文本中选取待处理文本。
S53:基于预设内容源对所述待处理文本进行自然语言处理,获得交互信息。
需要说明的是,由于儿童的语言还可能会出现停顿较多的情况,故而,对所述语音指令进行语音识别,可获得与所述语音指令对应的至少两个文本信息,例如:语音指令为“给我讲……嗯嗯……讲……个故事”,此时,可获得四个文本信息,分别为“给我讲”、“嗯嗯”、“讲”和“个故事”四个文本信息,故而,拼接结果为“给我讲嗯嗯讲个故事”,但直接进行自然语言处理,会难以确定用户的意图,因此,本实施例中可先对所述拼接结果进行文字删减处理,获得多个进行删减处理后的删减文本,例如:删减文本分别为“给我讲嗯讲个故事”、“给我讲讲个故事”、“给我嗯讲个故事”和“给我讲个故事”。
为了保证选取的待处理文本是最有可能能够确定用户的意图的,本实施例中,可先对所述删减文本进行遍历,再计算遍历到的当前删减文本与预设语句集合中各语句的匹配率,将计算的匹配率中的最大值作为所述当前删减文本的匹配率,最后在对所述删减文本遍历结束后,将匹配率最高的删减文本作为待处理文本。
可理解的是,所述预设语句集合中的各语句可理解为较为标准的语句,例如:“给我讲个故事”、“给我放首歌曲”等。
在计算遍历到的当前删减文本与预设语句集合中各语句的匹配率时,可按照匹配的字数来计算匹配率,例如:在当前删减文本为“给我讲嗯讲个故事”时,其与预设语句集合中的“给我讲个故事”的匹配字数为6,由于当前删减文本的总字数为8,此时匹配度可计算为6/8=75%;在当前删减文本为“给我讲讲个故事”时,其与预设语句集合中的“给我讲个故事”的匹配字数为6,由于当前删减文本的总字数为7,此时匹配度可计算为6/7=86%;在当前删减文本为“给我嗯讲个故事”时,其与预设语句集合中的“给我讲个故事”的匹配字数为6,由于当前删减文本的总字数为7,此时匹配度可计算为6/7=86%;在当前删减文本为“给我讲个故事”时,其与预设语句集合中的“给我讲个故事”的匹配字数为6,由于当前删减文本的总字数为6,此时匹配度可计算为6/6=100%。
本实施例通过对所述拼接结果进行文字删减处理,获得多个进行删减处理后的删减文本,从多个所述删减文本中选取待处理文本,再基于预设内容源对所述待处理文本进行自然语言处理,获得交互信息,能够保证在儿童的语言出现停顿较多时,准确识别用户意图。
参照图4,图4为本发明儿童口音识别的设备控制方法第三实施例的流程示意图,基于上述图2所示的实施例,提出本发明儿童口音识别的设备控制方法的第三实施例。
在第三实施例中,所述步骤S20,包括:
S21:根据所述语音指令,通过基于深度识别技术的唤醒词识别模型进行类型识别,在类型识别结果为儿童时,将所述当前交互模式设置为儿童模式;或,对所述语音指令进行语音识别,在语音识别结果中具有预设语句时,将所述当前交互模式设置为儿童模式。
可理解的是,由于儿童的声音音量可能较低,为了获得更加准确的语音指令,本实施例中,在所述步骤S20之前,还可通过麦克风确定声源位置,再根据所述目标声源位置采用波束成形算法通过麦克风采集语音指令。
当然,在采用波束成形算法之前时,还可先对麦克风采集到的语音指令预先进行回声消除、抗混响、降噪及人声增强及自动增益控制等处理。
其中,所述波束成形算法是阵列信号处理的一个非常重要的技术,其主要功能包括形成基阵系统的方向性,进行空域滤波,抑制空间干扰与环境噪声,提高信噪比。
需要说明的是,对于儿童模式的触发而言,可采用多种方式,以下以两种方式为例进行说明。
第一种方式为:基于语音指令的特点来触发的方式。也就是说,在获取用户的语音指令后,可根据所述语音指令通过基于深度识别技术的唤醒词识别模型进行类型识别,在类型识别结果为儿童时,将当前交互模式设置为儿童模式。
在具体实现中,由于儿童语音的声学和语言学特性随着年龄急剧变化,而且与成人之间存在很大的差异。儿童的说话特点从直观上来说,儿童语音的语速普遍较慢,一字一顿较多,有较严重的稚音;从声道特征来说,儿童的声道长度比成年人的短,故而,本实施例中,可获取大量的成人语音样本和儿童语音样本,通过这些样本通过深度识别技术对预设模型进行训练,从而获得基于深度识别技术的唤醒词识别模型。
第二种方式为:基于语音内容来触发的方式。也就是说,在获取用户的语音指令后,可对所述语音指令进行语音识别,在语音识别结果中具有预设语句时,将当前交互模式设置为儿童模式。
可理解的是,所述预设语句即为“开启儿童模式”及“启动儿童模式”等语句。
在本实施例中,在所述步骤S30之后,还包括:
将所述语音指令标记为儿童口音;
根据标记为儿童口音的所述语音指令对所述基于深度识别技术的唤醒词识别模型进行训练。
需要说明的是,为了提高所述基于深度识别技术的唤醒词识别模型的识别能力,可在所述交互模式为儿童模式时,对所述语音指令进行标记,再根据标记为儿童口音的所述语音指令对所述基于深度识别技术的唤醒词识别模型进行训练,从而提高所述基于深度识别技术的唤醒词识别模型识别的准确性。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有儿童口音识别的设备控制程序,所述儿童口音识别的设备控制程序被处理器执行时实现如下步骤:
获取用户的语音指令;
根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式;
在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息;
对所述文本信息进行拼接,获得拼接结果;
基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息;
执行与所述交互信息对应的设备操作。
上述存储介质中的儿童口音识别的设备控制程序被处理器执行时用于实现上述方法中的各个步骤,在此不再赘述。
此外,参照图5,本发明实施例还提出一种儿童口音识别的设备控制装置,所述儿童口音识别的设备控制装置包括:
指令获取模块610,用于获取用户的语音指令;
模式识别模块620,用于根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式;
语音识别模块630,用于在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息;
文本拼接模块640,用于对所述文本信息进行拼接,获得拼接结果;
语言处理模块650,用于基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息;
执行操作模块660,用于执行与所述交互信息对应的设备操作。
本实施例获取用户的语音指令,根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式,能够准确区分说话者是否是儿童;在当前交互模式处于儿童模式时,会对用户的语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息,对所述文本信息进行拼接,基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息,执行与所述交互信息对应的设备操作。本实施例在当前交互模式处于儿童模式时,不再将语音指令对应的各文本信息作为独立的信息,而是将其进行拼接后,对所述拼接结果进行自然语言处理,从而提高了儿童语音的识别性能,提高执行对应设备操作的准确性。
本发明所述儿童口音识别的设备控制装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种儿童口音识别的设备控制方法,其特征在于,所述儿童口音识别的设备控制方法包括以下步骤:
获取用户的语音指令;
根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式,所述基于深度识别技术的唤醒词识别模型实现了儿童口音的唤醒词识别;
在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息;
对所述文本信息进行拼接,获得拼接结果;
基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息;
执行与所述交互信息对应的设备操作。
2.如权利要求1所述的儿童口音识别的设备控制方法,其特征在于,所述基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息的步骤,包括:
对所述拼接结果进行文字删减处理,获得多个进行删减处理后的删减文本;
从多个所述删减文本中选取待处理文本;
基于预设内容源对所述待处理文本进行自然语言处理,获得交互信息。
3.如权利要求2所述的儿童口音识别的设备控制方法,其特征在于,所述从多个所述删减文本中选取待处理文本的步骤,包括:
对所述删减文本进行遍历;
计算遍历到的当前删减文本与预设语句集合中各语句的匹配率;
将计算的匹配率中的最大值作为所述当前删减文本的匹配率;
在对所述删减文本遍历结束后,将匹配率最高的删减文本作为待处理文本。
4.如权利要求1~3中任一项所述的儿童口音识别的设备控制方法,其特征在于,所述根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式的步骤,包括:
根据所述语音指令,通过基于深度识别技术的唤醒词识别模型进行类型识别,在类型识别结果为儿童时,将所述当前交互模式设置为儿童模式;或,对所述语音指令进行语音识别,在语音识别结果中具有预设语句时,将所述当前交互模式设置为儿童模式。
5.如权利要求1~3中任一项所述的儿童口音识别的设备控制方法,其特征在于,所述获取用户的语音指令的步骤之前,所述儿童口音识别的设备控制方法还包括:
通过麦克风确定目标声源位置;
根据所述目标声源位置采用波束成形算法通过麦克风采集语音指令。
6.如权利要求1~3中任一项所述的儿童口音识别的设备控制方法,其特征在于,所述获取用户的语音指令的步骤,包括:
通过预设语音端点检测算法获取用户的语音指令,所述预设语音端点检测算法为增加空挡时间窗口长度的语音端点检测算法。
7.如权利要求1~3中任一项所述的儿童口音识别的设备控制方法,其特征在于,所述在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息的步骤之后,所述儿童口音识别的设备控制方法还包括:
将所述语音指令标记为儿童口音;
根据标记为儿童口音的所述语音指令对所述基于深度识别技术的唤醒词识别模型进行训练。
8.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的儿童口音识别的设备控制程序,所述儿童口音识别的设备控制程序被所述处理器执行时实现如权利要求1至7中任一项所述的儿童口音识别的设备控制方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有儿童口音识别的设备控制程序,所述儿童口音识别的设备控制程序被处理器执行时实现如权利要求1至7中任一项所述的儿童口音识别的设备控制方法的步骤。
10.一种儿童口音识别的设备控制装置,其特征在于,所述儿童口音识别的设备控制装置包括:
指令获取模块,用于获取用户的语音指令;
模式识别模块,用于根据所述语音指令,通过基于深度识别技术的唤醒词识别模型识别交互模式,所述基于深度识别技术的唤醒词识别模型实现了儿童口音的唤醒词识别;
语音识别模块,用于在所述交互模式为儿童模式时,对所述语音指令进行语音识别,获得与所述语音指令对应的至少两个文本信息;
文本拼接模块,用于对所述文本信息进行拼接,获得拼接结果;
语言处理模块,用于基于预设内容源对所述拼接结果进行自然语言处理,获得交互信息;
执行操作模块,用于执行与所述交互信息对应的设备操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911064279.9A CN110767240B (zh) | 2019-10-31 | 2019-10-31 | 儿童口音识别的设备控制方法、设备、存储介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911064279.9A CN110767240B (zh) | 2019-10-31 | 2019-10-31 | 儿童口音识别的设备控制方法、设备、存储介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110767240A CN110767240A (zh) | 2020-02-07 |
CN110767240B true CN110767240B (zh) | 2021-12-03 |
Family
ID=69335474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911064279.9A Active CN110767240B (zh) | 2019-10-31 | 2019-10-31 | 儿童口音识别的设备控制方法、设备、存储介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110767240B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611208A (zh) * | 2020-05-27 | 2020-09-01 | 北京太极华保科技股份有限公司 | 文件存储与查询的方法及装置、存储介质 |
CN111986659A (zh) * | 2020-07-16 | 2020-11-24 | 百度在线网络技术(北京)有限公司 | 建立音频生成模型的方法以及装置 |
CN115312031A (zh) * | 2022-07-22 | 2022-11-08 | 东北大学 | 基于深度学习的自然语言处理方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0917129A2 (en) * | 1997-11-17 | 1999-05-19 | International Business Machines Corporation | Method and apparatus for adapting a speech recognizer to the pronunciation of an non native speaker |
CN107146602A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
JP2018031985A (ja) * | 2016-08-26 | 2018-03-01 | 恒次 國分 | 音声認識補完システム |
CN107818779A (zh) * | 2017-09-15 | 2018-03-20 | 北京理工大学 | 一种婴幼儿啼哭声检测方法、装置、设备及介质 |
CN109979437A (zh) * | 2019-03-01 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN110136694A (zh) * | 2018-02-09 | 2019-08-16 | 上海鑫蓝海自动化科技有限公司 | 一种语音识别处理设备的测试装置 |
CN110660393A (zh) * | 2019-10-31 | 2020-01-07 | 广东美的制冷设备有限公司 | 语音交互方法、装置、设备及存储介质 |
-
2019
- 2019-10-31 CN CN201911064279.9A patent/CN110767240B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0917129A2 (en) * | 1997-11-17 | 1999-05-19 | International Business Machines Corporation | Method and apparatus for adapting a speech recognizer to the pronunciation of an non native speaker |
JP2018031985A (ja) * | 2016-08-26 | 2018-03-01 | 恒次 國分 | 音声認識補完システム |
CN107146602A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN107818779A (zh) * | 2017-09-15 | 2018-03-20 | 北京理工大学 | 一种婴幼儿啼哭声检测方法、装置、设备及介质 |
CN110136694A (zh) * | 2018-02-09 | 2019-08-16 | 上海鑫蓝海自动化科技有限公司 | 一种语音识别处理设备的测试装置 |
CN109979437A (zh) * | 2019-03-01 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN110660393A (zh) * | 2019-10-31 | 2020-01-07 | 广东美的制冷设备有限公司 | 语音交互方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
"Improvements in children"s speech recognition performance";S. Das 等;《Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing》;19980515;全文 * |
智能对话系统架构及算法;黄毅等;《北京邮电大学学报》;20190630(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110767240A (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102509464B1 (ko) | 발언 분류기 | |
US11669300B1 (en) | Wake word detection configuration | |
EP2550651B1 (en) | Context based voice activity detection sensitivity | |
CN110767240B (zh) | 儿童口音识别的设备控制方法、设备、存储介质及装置 | |
JP4166153B2 (ja) | 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法 | |
US20200184967A1 (en) | Speech processing system | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
US11574637B1 (en) | Spoken language understanding models | |
US11302329B1 (en) | Acoustic event detection | |
US10755704B2 (en) | Information processing apparatus | |
CN112825248A (zh) | 语音处理方法、模型训练方法、界面显示方法及设备 | |
CN112614514B (zh) | 有效语音片段检测方法、相关设备及可读存储介质 | |
US20240029732A1 (en) | Speech-processing system | |
US20240029743A1 (en) | Intermediate data for inter-device speech processing | |
US11315552B1 (en) | Responding with unresponsive content | |
CN110660393B (zh) | 语音交互方法、装置、设备及存储介质 | |
CN112002349A (zh) | 一种语音端点检测方法及装置 | |
CN116417003A (zh) | 语音交互系统、方法、电子设备和存储介质 | |
CN116917984A (zh) | 交互式内容输出 | |
KR20210042523A (ko) | 전자 장치 및 이의 제어 방법 | |
US11783824B1 (en) | Cross-assistant command processing | |
US20230360633A1 (en) | Speech processing techniques | |
CN117882131A (zh) | 多个唤醒词检测 | |
US11735178B1 (en) | Speech-processing system | |
US11430435B1 (en) | Prompts for user feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |