CN112562692A

CN112562692A - 一种可语音识别的信息转化方法和装置

Info

Publication number: CN112562692A
Application number: CN202011148047.4A
Authority: CN
Inventors: 汪正; 仲昌燕; 陈云; 刘利祥; 陈林
Original assignee: Anhui Runiu Technology Co ltd
Current assignee: Anhui Runiu Technology Co ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-03-26

Abstract

本发明公开了一种可语音识别的信息转化方法和装置，包括当采集到多个人员的语音数据时，将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，获取对应用户的标准人脸图像数据，将实时人脸图像数据与标准人脸图像数据进行对比；检测实时视频中是否出现人脸面部表情；检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化，有效区分录音和现场语音数据；在将目标语音数据发送至语音识别模块之前，判断目标语音数据的有效性，避免用户在情绪不稳时发出的错误指令，提高体验度；且语音识别模块中语音识别的关键词拆分识别以及有效关键词汇总的方法，能够实现快速语音识别，使用稳定。

Description

一种可语音识别的信息转化方法和装置

技术领域

本发明涉及语音识别技术领域，具体为一种可语音识别的信息转化方法和装置。

背景技术

随着人工智能技术的爆发和语音技术的逐渐成熟，以对话流为主的类人式对话交互已经成为一种新型的交互方式，主流的智能设备交互模式正在从遥控器、触摸式交互向语音交互的融合或者转变。

现有技术方案中，当语音识别现场比较嘈杂或者同时说话的人数较多时，无法很好的识别想要识别的人的语音，识别精度很低，不能保证识别语音清晰和准确，导致用户在语音控制一些智能设备时，调控反应慢，影响使用感受，语音识别速度还有待提高；且单纯的语音识别无法区分录音与现场语音数据，从而发生陌生人用录音欺骗语音识别系统控制智能设备调控的情况；

因此，需要设计一种基于语音识别的信息转化方法和装置。

发明内容

针对现有技术存在的不足，本发明目的是提供一种可语音识别的信息转化方法和装置。本发明能够保证在现场环境嘈杂或者说话人数较多时，能够清楚的识别出特定人的语音，并有效保证识别精确度高，在对语音优先级最高的人员的语音数据进行转化处理之前，判断目标语音数据的有效性，避免用户在情绪不稳时发出的错误指令，提高体验度，而且语音识别模块中语音识别的关键词拆分识别以及有效关键词汇总的方法，不仅能够实现快速语音识别，而且不会发生执行元件控制混乱的情况，整个装置语音识别快速，使用稳定；而且通过图像分析模块和视频分析模块对实时人脸人脸图像数据和实时视频进行分析，有效区分录音和现场语音数据，提高语音识别的准确性。

本发明的目的可以通过以下技术方案实现：一种可语音识别的信息转化方法，包括如下步骤：

步骤一：将若干语音采集单元分别安装在室内的不同位置，用于实时采集室内人员的语音数据，并将获取的语音数据发送至控制器；

步骤二：当采集到多个人员的语音数据时，将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹，并将其标记为目标声纹，根据语音声纹库找出该目标声纹对应的用户信息；所述用户信息包括姓名、标准人脸图像数据和语音识别优先级；

步骤三：获取该目标声纹对应用户的标准人脸图像数据，通过摄像头实时获取室内的实时视频，并从实时视频内获取实时人脸图像数据，将实时人脸图像数据与标准人脸图像数据进行对比；包括：

S31：将多个人员的实时人脸图像数据与标准人脸图像数据进行对比，检测所述标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配；

S32：若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配，则表示该目标声纹对应用户不在现场，生成假音信号，对该目标声纹对应的语音数据不进行信息转化；

S33：若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配，则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频；继续对实时视频进行分析；

步骤四：检测实时视频中是否出现人脸面部表情；

若检测到实时视频中没有人脸面部表情且保持预设时间以上，则生成假面信号，对该目标声纹对应的语音数据不进行信息转化；

若检测到实时视频中有人脸面部表情且在预设时间以内出现表情，则获取实时视频中人员的口型信息，继续对口型信息进行分析；

步骤五：检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化，包括：

S51：若实时视频中人员的口型信息在采集到语音数据时未发生变化且保持预设时间以上，则生成假音信号，对该目标声纹对应的语音数据不进行信息转化；

S52：若实时视频中人员的口型信息在采集到语音数据时同步发生变化，则将采集到的语音数据标记为现场语音数据，对该目标声纹对应的现场语音数据进行信息转化；

步骤六：将该目标声纹对应的现场语音数据标记为目标语音数据，将目标语音数据发送至语音识别模块中的每个识别单元，四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别，然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号，控制器接收控制信号后对对应的智能设备进行调控。

进一步地，在对该目标声纹对应的现场语音数据进行信息转化之前，该方法还包括：

根据目标声纹对应的用户信息确定对应的现场语音数据的语音识别优先级的排序，并优先识别优先级最高的用户对应的现场语音数据。

进一步地，在将目标语音数据发送至语音识别模块中的每个识别单元之前，该方法还包括：

判断目标语音数据的有效性；

若有效，则将目标语音数据发送至语音识别模块；

若无效，则重新采集语音数据。

进一步地，所述判断目标语音数据的有效性，具体步骤为：

SS1：对目标语音数据进行降噪增强处理；

SS2：获取目标语音数据中每个元音的采集时间并标记为T_i；i＝1，…，n；

利用公式C_i＝T_i+1-T_i计算得到相邻两个元音的时间差并标记为单次间隔C_i；

SS3：设定相邻两个元音的预设间隔时长为YT；计算出C_i与预设间隔时长YT的差值得到间隔时长差WJT_i，若所有的WJT_i均小于预设间隔时长差值，即目标语音数据有效，否则目标语音数据无效；

SS4：获取目标语音数据中每个元音的强度并标记为Q_i，得到元音强度信息组；按照标准差计算公式计算得到实时Q_i信息组的标准差α，当α小于预设值时，处于待验证状态；

SS5：当Q_i处于待验证状态时，将Q_i按照从高到低的顺序排序，获取Q_i的最大值并标记为Qmax，获取Q_i的最小值并标记为Qmin；

SS6：设定每个元音的预设强度为QS，计算出Q_i与预设强度QS的差值得到强度差QJi，若所有的QJi均小于预设强度差值且Qmax与Qmin的差值小于预设强度差值，即目标语音数据有效，否则目标语音数据无效。

进一步地，语音识别模块包括名词识别单元、动词识别单元、数量词识别单元和形容词识别单元，名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别与数据库和信息汇总处理单元相连接；

名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别用于识别语音信息中的名词、动词、数量词和形容词；

一种可语音识别的信息转化装置，包括语音采集模块、语音分析模块、图像采集模块、图像分析模块、视频分析模块、语音声纹库、数据库、语音识别模块、控制器、判断模块以及报警模块；

所述语音采集模块包括安装在室内的不同位置的若干语音采集单元，所述语音采集单元用于实时采集室内人员的语音数据，并将获取的语音数据发送至控制器；

所述语音分析模块用于获取多个人员的语音数据，并将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹，并将其标记为目标声纹，根据语音声纹库找出该目标声纹对应的用户信息，获取该目标声纹对应用户的标准人脸图像数据；

所述图像采集模块为摄像头，用于实时获取室内的实时视频，并从实时视频内获取实时人脸图像数据；图像采集模块用于将实时人脸图像数据传输至图像分析模块，所述图像分析模块用于将实时人脸图像数据与标准人脸图像数据进行对比，具体步骤为：

D1：将多个人员的实时人脸图像数据与标准人脸图像数据进行对比，检测所述标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配；

D2：若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配，则表示该目标声纹对应用户不在现场，生成假音信号，对该目标声纹对应的语音数据不进行信息转化；

D3：若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配，则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频；继续对实时视频进行分析；

所述视频分析模块用于对实时视频进行分析，检测实时视频中是否出现人脸面部表情，具体步骤为：

DD1：若检测到实时视频中没有人脸面部表情且保持预设时间以上，则生成假面信号；

DD2：若检测到实时视频中有人脸面部表情且在预设时间以内出现表情，则获取实时视频中人员的口型信息，继续对口型信息进行分析；

DD3：检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化；

若实时视频中人员的口型信息在采集到语音数据时未发生变化且保持预设时间以上，则生成假音信号；

若实时视频中人员的口型信息在采集到语音数据时同步发生变化，则将采集到的语音数据标记为现场语音数据，并将现场语音数据传输至语音识别模块；

所述语音识别模块用于接收目标语音数据并对目标语音数据进行信息转化，四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别，然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号，控制器接收控制信号后对对应的智能设备进行调控，所述控制器用于接收控制信号后对对应的智能设备进行调控；

所述判断模块用于判断现场语音数据的语音识别优先级，并优先识别语音识别优先级最高的用户对应的现场语音数据；

所述语音识别模块还用于判断目标语音数据的有效性，若有效，则将目标语音数据发送至语音识别模块；若无效，则重新采集语音数据；

所述控制器用于接收假面信号、假音信号并在接收到假面信号、假音信号后产生报警指令控制报警模块进行报警。

本发明的有益效果是：

1、本发明通过将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹，并将其标记为目标声纹，获取该目标声纹对应用户的标准人脸图像数据，再实时获取室内的实时视频，并从实时视频内获取实时人脸图像数据，将实时人脸图像数据与标准人脸图像数据进行对比，若匹配，则获取对应人员的实时视频；检测实时视频中是否出现人脸面部表情；若检测到实时视频中有人脸面部表情且在预设时间以内出现表情，则获取实时视频中人员的口型信息，检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化，若是，则将采集到的语音数据标记为现场语音数据，对该目标声纹对应的现场语音数据进行信息转化，有效区分录音与现场语音数据，防止出现陌生人用录音欺骗语音识别模块控制智能设备调控的情况；

2、本发明在对该目标声纹对应的现场语音数据进行信息转化之前，根据目标声纹对应的用户信息确定对应的现场语音数据的语音识别优先级的排序，并优先识别优先级最高的用户对应的现场语音数据，再判断目标语音数据是否有效，若有效，则将目标语音数据发送至语音识别模块中的每个识别单元，四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别，然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号，控制器接收控制信号后对对应的智能设备进行调控；本发明通过建立语音声纹库，设定识别语音优先级顺序，能够保证在现场环境嘈杂或者说话人数较多时，能够清楚的识别出特定人的语音，并有效保证识别精确度高，在对语音优先级最高的人员的语音数据进行转化处理之前，判断目标语音数据的有效性，避免用户在情绪不稳时发出的错误指令，提高体验度，而且语音识别模块中语音识别的关键词拆分识别以及有效关键词汇总的方法，不仅能够实现快速语音识别，而且不会发生执行元件控制混乱的情况，整个装置语音识别快速，使用稳定。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种可语音识别的信息转化方法，包括如下步骤：

步骤二：当采集到多个人员的语音数据时，将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹，并将其标记为目标声纹，根据语音声纹库找出该目标声纹对应的用户信息；用户信息包括姓名、标准人脸图像数据和语音识别优先级；

S31：将多个人员的实时人脸图像数据与标准人脸图像数据进行对比，检测标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配；

S32：若标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配，则表示该目标声纹对应用户不在现场，生成假音信号，对该目标声纹对应的语音数据不进行信息转化；

S33：若标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配，则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频；继续对实时视频进行分析；

步骤四：检测实时视频中是否出现人脸面部表情；

步骤六：将该目标声纹对应的现场语音数据标记为目标语音数据，将目标语音数据发送至语音识别模块中的每个识别单元，四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别，然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号，控制器接收控制信号后对对应的智能设备进行调控；

语音识别模块包括名词识别单元、动词识别单元、数量词识别单元和形容词识别单元，名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别与数据库和信息汇总处理单元相连接；

在对该目标声纹对应的现场语音数据进行信息转化之前，该方法还包括：

根据目标声纹对应的用户信息确定对应的现场语音数据的语音识别优先级的排序，并优先识别优先级最高的用户对应的现场语音数据；

在将目标语音数据发送至语音识别模块中的每个识别单元之前，该方法还包括：

判断目标语音数据的有效性；

若有效，则将目标语音数据发送至语音识别模块；

若无效，则重新采集语音数据；

判断目标语音数据的有效性，具体步骤为：

SS1：对目标语音数据进行降噪增强处理；

SS6：设定每个元音的预设强度为QS，计算出Q_i与预设强度QS的差值得到强度差QJi，若所有的QJi均小于预设强度差值且Qmax与Qmin的差值小于预设强度差值，即目标语音数据有效，否则目标语音数据无效；

该方法还包括：

H1：获取多个人员的语音数据并标记为k，k＝1，……，n；获取语音数据中的敏感词组Mkg，g＝1，……，n；

H2：将敏感词组M11、M12、……、Mnn组成一个数组，将该数组中的敏感词组一一与数据库中的预设敏感词组进行比对匹配；

H3：当数组中的敏感词组与预设敏感词组匹配成功时，则生成异常信号发送至控制器；

H4：控制器接收到异常信号后产生报警指令加载至报警模块，报警模块接收报警指令后进行报警；

语音采集模块包括安装在室内的不同位置的若干语音采集单元，语音采集单元用于实时采集室内人员的语音数据，并将获取的语音数据发送至控制器；

语音分析模块用于获取多个人员的语音数据，并将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹，并将其标记为目标声纹，根据语音声纹库找出该目标声纹对应的用户信息，获取该目标声纹对应用户的标准人脸图像数据；

图像采集模块为摄像头，用于实时获取室内的实时视频，并从实时视频内获取实时人脸图像数据；图像采集模块用于将实时人脸图像数据传输至图像分析模块，图像分析模块用于将实时人脸图像数据与标准人脸图像数据进行对比，具体步骤为：

D1：将多个人员的实时人脸图像数据与标准人脸图像数据进行对比，检测标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配；

D2：若标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配，则表示该目标声纹对应用户不在现场，生成假音信号，对该目标声纹对应的语音数据不进行信息转化；

D3：若标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配，则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频；继续对实时视频进行分析；

视频分析模块用于对实时视频进行分析，检测实时视频中是否出现人脸面部表情，具体步骤为：

语音识别模块用于接收目标语音数据并对目标语音数据进行信息转化；控制器用于接收控制信号后对对应的智能设备进行调控；

判断模块用于判断现场语音数据的语音识别优先级，并优先识别语音识别优先级最高的用户对应的现场语音数据；

语音识别模块还用于判断目标语音数据的有效性，具体步骤为：

F1：对目标语音数据进行降噪增强处理；

F2：获取目标语音数据中每个元音的采集时间并标记为T_i；i＝1，…，n；

F3：设定相邻两个元音的预设间隔时长为YT；计算出C_i与预设间隔时长YT的差值得到间隔时长差WJT_i，若所有的WJT_i均小于预设间隔时长差值，即目标语音数据有效，否则目标语音数据无效；

F4：获取目标语音数据中每个元音的强度并标记为Q_i，得到元音强度信息组；按照标准差计算公式计算得到实时Q_i信息组的标准差α，当α小于预设值时，处于待验证状态；

F5：当Q_i处于待验证状态时，将Q_i按照从高到低的顺序排序，获取Q_i的最大值并标记为Qmax，获取Q_i的最小值并标记为Qmin；

F6：设定每个元音的预设强度为QS，计算出Q_i与预设强度QS的差值得到强度差QJi，若所有的QJi均小于预设强度差值且Qmax与Qmin的差值小于预设强度差值，即目标语音数据有效，否则目标语音数据无效；

语音分析模块还用于分析多个人员的语音数据中的敏感词组，具体工作步骤为：

FF1：获取多个人员的语音数据并标记为k，k＝1，……，n；获取语音数据中的敏感词组Mkg，g＝1，……，n；

FF2：将敏感词组M11、M12、……、Mnn组成一个数组，将该数组中的敏感词组一一与数据库中的预设敏感词组进行比对匹配；

FF3：当数组中的敏感词组与预设敏感词组匹配成功时，则生成异常信号发送至控制器；

FF4：控制器接收到异常信号后产生报警指令加载至报警模块，报警模块接收报警指令后进行报警。

控制器用于接收假面信号、假音信号并在接收到假面信号、假音信号后产生报警指令控制报警模块进行报警。

一种可语音识别的信息转化方法和装置，在工作时，首先实时采集室内人员的语音数据，将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹，并将其标记为目标声纹，根据语音声纹库找出该目标声纹对应的用户信息，获取该目标声纹对应用户的标准人脸图像数据，通过摄像头实时获取室内的实时视频，并从实时视频内获取实时人脸图像数据，将实时人脸图像数据与标准人脸图像数据进行对比，若匹配，则获取对应人员的实时视频；检测实时视频中是否出现人脸面部表情；若检测到实时视频中有人脸面部表情且在预设时间以内出现表情，则获取实时视频中人员的口型信息，检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化，若是，则将采集到的语音数据标记为现场语音数据，对该目标声纹对应的现场语音数据进行信息转化，防止出现陌生人用录音欺骗语音识别模块控制智能设备调控的情况；

在对该目标声纹对应的现场语音数据进行信息转化之前，根据目标声纹对应的用户信息确定对应的现场语音数据的语音识别优先级的排序，并优先识别优先级最高的用户对应的现场语音数据，再判断目标语音数据是否有效，若有效，则将目标语音数据发送至语音识别模块中的每个识别单元，四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别，然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号，控制器接收控制信号后对对应的智能设备进行调控；本发明通过建立语音声纹库，设定识别语音优先级顺序，能够保证在现场环境嘈杂或者说话人数较多时，能够清楚的识别出特定人的语音，并有效保证识别精确度高，在对语音优先级最高的人员的语音数据进行转化处理之前，判断目标语音数据的有效性，避免用户在情绪不稳时发出的错误指令，提高体验度，而且语音识别模块中语音识别的关键词拆分识别以及有效关键词汇总的方法，不仅能够实现快速语音识别，而且不会发生执行元件控制混乱的情况，整个装置语音识别快速，使用稳定。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种可语音识别的信息转化方法，其特征在于，包括如下步骤：

步骤四：检测实时视频中是否出现人脸面部表情；

2.根据权利要求1所述的一种可语音识别的信息转化方法，其特征在于，在对该目标声纹对应的现场语音数据进行信息转化之前，该方法还包括：

3.根据权利要求1所述的一种可语音识别的信息转化方法，其特征在于，在将目标语音数据发送至语音识别模块中的每个识别单元之前，该方法还包括：

判断目标语音数据的有效性；

若有效，则将目标语音数据发送至语音识别模块；

若无效，则重新采集语音数据。

4.根据权利要求3所述的一种可语音识别的信息转化方法，其特征在于，所述判断目标语音数据的有效性，具体步骤为：

SS1：对目标语音数据进行降噪增强处理；

5.根据权利要求1所述的一种可语音识别的信息转化方法，其特征在于，所述语音识别模块包括名词识别单元、动词识别单元、数量词识别单元和形容词识别单元，所述名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别与数据库和信息汇总处理单元相连接；

所述名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别用于识别语音信息中的名词、动词、数量词和形容词。

6.一种可语音识别的信息转化装置，其特征在于，包括语音采集模块、语音分析模块、图像采集模块、图像分析模块、视频分析模块、语音声纹库、数据库、语音识别模块、控制器、判断模块以及报警模块；