CN112562692A - 一种可语音识别的信息转化方法和装置 - Google Patents

一种可语音识别的信息转化方法和装置 Download PDF

Info

Publication number
CN112562692A
CN112562692A CN202011148047.4A CN202011148047A CN112562692A CN 112562692 A CN112562692 A CN 112562692A CN 202011148047 A CN202011148047 A CN 202011148047A CN 112562692 A CN112562692 A CN 112562692A
Authority
CN
China
Prior art keywords
real
voice
voice data
time
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011148047.4A
Other languages
English (en)
Inventor
汪正
仲昌燕
陈云
刘利祥
陈林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Runiu Technology Co ltd
Original Assignee
Anhui Runiu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Runiu Technology Co ltd filed Critical Anhui Runiu Technology Co ltd
Priority to CN202011148047.4A priority Critical patent/CN112562692A/zh
Publication of CN112562692A publication Critical patent/CN112562692A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

本发明公开了一种可语音识别的信息转化方法和装置,包括当采集到多个人员的语音数据时,将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,获取对应用户的标准人脸图像数据,将实时人脸图像数据与标准人脸图像数据进行对比;检测实时视频中是否出现人脸面部表情;检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化,有效区分录音和现场语音数据;在将目标语音数据发送至语音识别模块之前,判断目标语音数据的有效性,避免用户在情绪不稳时发出的错误指令,提高体验度;且语音识别模块中语音识别的关键词拆分识别以及有效关键词汇总的方法,能够实现快速语音识别,使用稳定。

Description

一种可语音识别的信息转化方法和装置
技术领域
本发明涉及语音识别技术领域,具体为一种可语音识别的信息转化方法和装置。
背景技术
随着人工智能技术的爆发和语音技术的逐渐成熟,以对话流为主的类人式对话交互已经成为一种新型的交互方式,主流的智能设备交互模式正在从遥控器、触摸式交互向语音交互的融合或者转变。
现有技术方案中,当语音识别现场比较嘈杂或者同时说话的人数较多时,无法很好的识别想要识别的人的语音,识别精度很低,不能保证识别语音清晰和准确,导致用户在语音控制一些智能设备时,调控反应慢,影响使用感受,语音识别速度还有待提高;且单纯的语音识别无法区分录音与现场语音数据,从而发生陌生人用录音欺骗语音识别系统控制智能设备调控的情况;
因此,需要设计一种基于语音识别的信息转化方法和装置。
发明内容
针对现有技术存在的不足,本发明目的是提供一种可语音识别的信息转化方法和装置。本发明能够保证在现场环境嘈杂或者说话人数较多时,能够清楚的识别出特定人的语音,并有效保证识别精确度高,在对语音优先级最高的人员的语音数据进行转化处理之前,判断目标语音数据的有效性,避免用户在情绪不稳时发出的错误指令,提高体验度,而且语音识别模块中语音识别的关键词拆分识别以及有效关键词汇总的方法,不仅能够实现快速语音识别,而且不会发生执行元件控制混乱的情况,整个装置语音识别快速,使用稳定;而且通过图像分析模块和视频分析模块对实时人脸人脸图像数据和实时视频进行分析,有效区分录音和现场语音数据,提高语音识别的准确性。
本发明的目的可以通过以下技术方案实现:一种可语音识别的信息转化方法,包括如下步骤:
步骤一:将若干语音采集单元分别安装在室内的不同位置,用于实时采集室内人员的语音数据,并将获取的语音数据发送至控制器;
步骤二:当采集到多个人员的语音数据时,将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹,并将其标记为目标声纹,根据语音声纹库找出该目标声纹对应的用户信息;所述用户信息包括姓名、标准人脸图像数据和语音识别优先级;
步骤三:获取该目标声纹对应用户的标准人脸图像数据,通过摄像头实时获取室内的实时视频,并从实时视频内获取实时人脸图像数据,将实时人脸图像数据与标准人脸图像数据进行对比;包括:
S31:将多个人员的实时人脸图像数据与标准人脸图像数据进行对比,检测所述标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配;
S32:若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配,则表示该目标声纹对应用户不在现场,生成假音信号,对该目标声纹对应的语音数据不进行信息转化;
S33:若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配,则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频;继续对实时视频进行分析;
步骤四:检测实时视频中是否出现人脸面部表情;
若检测到实时视频中没有人脸面部表情且保持预设时间以上,则生成假面信号,对该目标声纹对应的语音数据不进行信息转化;
若检测到实时视频中有人脸面部表情且在预设时间以内出现表情,则获取实时视频中人员的口型信息,继续对口型信息进行分析;
步骤五:检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化,包括:
S51:若实时视频中人员的口型信息在采集到语音数据时未发生变化且保持预设时间以上,则生成假音信号,对该目标声纹对应的语音数据不进行信息转化;
S52:若实时视频中人员的口型信息在采集到语音数据时同步发生变化,则将采集到的语音数据标记为现场语音数据,对该目标声纹对应的现场语音数据进行信息转化;
步骤六:将该目标声纹对应的现场语音数据标记为目标语音数据,将目标语音数据发送至语音识别模块中的每个识别单元,四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别,然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号,控制器接收控制信号后对对应的智能设备进行调控。
进一步地,在对该目标声纹对应的现场语音数据进行信息转化之前,该方法还包括:
根据目标声纹对应的用户信息确定对应的现场语音数据的语音识别优先级的排序,并优先识别优先级最高的用户对应的现场语音数据。
进一步地,在将目标语音数据发送至语音识别模块中的每个识别单元之前,该方法还包括:
判断目标语音数据的有效性;
若有效,则将目标语音数据发送至语音识别模块;
若无效,则重新采集语音数据。
进一步地,所述判断目标语音数据的有效性,具体步骤为:
SS1:对目标语音数据进行降噪增强处理;
SS2:获取目标语音数据中每个元音的采集时间并标记为Ti;i=1,…,n;
利用公式Ci=Ti+1-Ti计算得到相邻两个元音的时间差并标记为单次间隔Ci
SS3:设定相邻两个元音的预设间隔时长为YT;计算出Ci与预设间隔时长YT的差值得到间隔时长差WJTi,若所有的WJTi均小于预设间隔时长差值,即目标语音数据有效,否则目标语音数据无效;
SS4:获取目标语音数据中每个元音的强度并标记为Qi,得到元音强度信息组;按照标准差计算公式计算得到实时Qi信息组的标准差α,当α小于预设值时,处于待验证状态;
SS5:当Qi处于待验证状态时,将Qi按照从高到低的顺序排序,获取Qi的最大值并标记为Qmax,获取Qi的最小值并标记为Qmin;
SS6:设定每个元音的预设强度为QS,计算出Qi与预设强度QS的差值得到强度差QJi,若所有的QJi均小于预设强度差值且Qmax与Qmin的差值小于预设强度差值,即目标语音数据有效,否则目标语音数据无效。
进一步地,语音识别模块包括名词识别单元、动词识别单元、数量词识别单元和形容词识别单元,名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别与数据库和信息汇总处理单元相连接;
名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别用于识别语音信息中的名词、动词、数量词和形容词;
一种可语音识别的信息转化装置,包括语音采集模块、语音分析模块、图像采集模块、图像分析模块、视频分析模块、语音声纹库、数据库、语音识别模块、控制器、判断模块以及报警模块;
所述语音采集模块包括安装在室内的不同位置的若干语音采集单元,所述语音采集单元用于实时采集室内人员的语音数据,并将获取的语音数据发送至控制器;
所述语音分析模块用于获取多个人员的语音数据,并将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹,并将其标记为目标声纹,根据语音声纹库找出该目标声纹对应的用户信息,获取该目标声纹对应用户的标准人脸图像数据;
所述图像采集模块为摄像头,用于实时获取室内的实时视频,并从实时视频内获取实时人脸图像数据;图像采集模块用于将实时人脸图像数据传输至图像分析模块,所述图像分析模块用于将实时人脸图像数据与标准人脸图像数据进行对比,具体步骤为:
D1:将多个人员的实时人脸图像数据与标准人脸图像数据进行对比,检测所述标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配;
D2:若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配,则表示该目标声纹对应用户不在现场,生成假音信号,对该目标声纹对应的语音数据不进行信息转化;
D3:若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配,则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频;继续对实时视频进行分析;
所述视频分析模块用于对实时视频进行分析,检测实时视频中是否出现人脸面部表情,具体步骤为:
DD1:若检测到实时视频中没有人脸面部表情且保持预设时间以上,则生成假面信号;
DD2:若检测到实时视频中有人脸面部表情且在预设时间以内出现表情,则获取实时视频中人员的口型信息,继续对口型信息进行分析;
DD3:检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化;
若实时视频中人员的口型信息在采集到语音数据时未发生变化且保持预设时间以上,则生成假音信号;
若实时视频中人员的口型信息在采集到语音数据时同步发生变化,则将采集到的语音数据标记为现场语音数据,并将现场语音数据传输至语音识别模块;
所述语音识别模块用于接收目标语音数据并对目标语音数据进行信息转化,四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别,然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号,控制器接收控制信号后对对应的智能设备进行调控,所述控制器用于接收控制信号后对对应的智能设备进行调控;
所述判断模块用于判断现场语音数据的语音识别优先级,并优先识别语音识别优先级最高的用户对应的现场语音数据;
所述语音识别模块还用于判断目标语音数据的有效性,若有效,则将目标语音数据发送至语音识别模块;若无效,则重新采集语音数据;
所述控制器用于接收假面信号、假音信号并在接收到假面信号、假音信号后产生报警指令控制报警模块进行报警。
本发明的有益效果是:
1、本发明通过将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹,并将其标记为目标声纹,获取该目标声纹对应用户的标准人脸图像数据,再实时获取室内的实时视频,并从实时视频内获取实时人脸图像数据,将实时人脸图像数据与标准人脸图像数据进行对比,若匹配,则获取对应人员的实时视频;检测实时视频中是否出现人脸面部表情;若检测到实时视频中有人脸面部表情且在预设时间以内出现表情,则获取实时视频中人员的口型信息,检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化,若是,则将采集到的语音数据标记为现场语音数据,对该目标声纹对应的现场语音数据进行信息转化,有效区分录音与现场语音数据,防止出现陌生人用录音欺骗语音识别模块控制智能设备调控的情况;
2、本发明在对该目标声纹对应的现场语音数据进行信息转化之前,根据目标声纹对应的用户信息确定对应的现场语音数据的语音识别优先级的排序,并优先识别优先级最高的用户对应的现场语音数据,再判断目标语音数据是否有效,若有效,则将目标语音数据发送至语音识别模块中的每个识别单元,四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别,然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号,控制器接收控制信号后对对应的智能设备进行调控;本发明通过建立语音声纹库,设定识别语音优先级顺序,能够保证在现场环境嘈杂或者说话人数较多时,能够清楚的识别出特定人的语音,并有效保证识别精确度高,在对语音优先级最高的人员的语音数据进行转化处理之前,判断目标语音数据的有效性,避免用户在情绪不稳时发出的错误指令,提高体验度,而且语音识别模块中语音识别的关键词拆分识别以及有效关键词汇总的方法,不仅能够实现快速语音识别,而且不会发生执行元件控制混乱的情况,整个装置语音识别快速,使用稳定。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种可语音识别的信息转化方法,包括如下步骤:
步骤一:将若干语音采集单元分别安装在室内的不同位置,用于实时采集室内人员的语音数据,并将获取的语音数据发送至控制器;
步骤二:当采集到多个人员的语音数据时,将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹,并将其标记为目标声纹,根据语音声纹库找出该目标声纹对应的用户信息;用户信息包括姓名、标准人脸图像数据和语音识别优先级;
步骤三:获取该目标声纹对应用户的标准人脸图像数据,通过摄像头实时获取室内的实时视频,并从实时视频内获取实时人脸图像数据,将实时人脸图像数据与标准人脸图像数据进行对比;包括:
S31:将多个人员的实时人脸图像数据与标准人脸图像数据进行对比,检测标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配;
S32:若标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配,则表示该目标声纹对应用户不在现场,生成假音信号,对该目标声纹对应的语音数据不进行信息转化;
S33:若标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配,则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频;继续对实时视频进行分析;
步骤四:检测实时视频中是否出现人脸面部表情;
若检测到实时视频中没有人脸面部表情且保持预设时间以上,则生成假面信号,对该目标声纹对应的语音数据不进行信息转化;
若检测到实时视频中有人脸面部表情且在预设时间以内出现表情,则获取实时视频中人员的口型信息,继续对口型信息进行分析;
步骤五:检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化,包括:
S51:若实时视频中人员的口型信息在采集到语音数据时未发生变化且保持预设时间以上,则生成假音信号,对该目标声纹对应的语音数据不进行信息转化;
S52:若实时视频中人员的口型信息在采集到语音数据时同步发生变化,则将采集到的语音数据标记为现场语音数据,对该目标声纹对应的现场语音数据进行信息转化;
步骤六:将该目标声纹对应的现场语音数据标记为目标语音数据,将目标语音数据发送至语音识别模块中的每个识别单元,四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别,然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号,控制器接收控制信号后对对应的智能设备进行调控;
语音识别模块包括名词识别单元、动词识别单元、数量词识别单元和形容词识别单元,名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别与数据库和信息汇总处理单元相连接;
名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别用于识别语音信息中的名词、动词、数量词和形容词;
在对该目标声纹对应的现场语音数据进行信息转化之前,该方法还包括:
根据目标声纹对应的用户信息确定对应的现场语音数据的语音识别优先级的排序,并优先识别优先级最高的用户对应的现场语音数据;
在将目标语音数据发送至语音识别模块中的每个识别单元之前,该方法还包括:
判断目标语音数据的有效性;
若有效,则将目标语音数据发送至语音识别模块;
若无效,则重新采集语音数据;
判断目标语音数据的有效性,具体步骤为:
SS1:对目标语音数据进行降噪增强处理;
SS2:获取目标语音数据中每个元音的采集时间并标记为Ti;i=1,…,n;
利用公式Ci=Ti+1-Ti计算得到相邻两个元音的时间差并标记为单次间隔Ci
SS3:设定相邻两个元音的预设间隔时长为YT;计算出Ci与预设间隔时长YT的差值得到间隔时长差WJTi,若所有的WJTi均小于预设间隔时长差值,即目标语音数据有效,否则目标语音数据无效;
SS4:获取目标语音数据中每个元音的强度并标记为Qi,得到元音强度信息组;按照标准差计算公式计算得到实时Qi信息组的标准差α,当α小于预设值时,处于待验证状态;
SS5:当Qi处于待验证状态时,将Qi按照从高到低的顺序排序,获取Qi的最大值并标记为Qmax,获取Qi的最小值并标记为Qmin;
SS6:设定每个元音的预设强度为QS,计算出Qi与预设强度QS的差值得到强度差QJi,若所有的QJi均小于预设强度差值且Qmax与Qmin的差值小于预设强度差值,即目标语音数据有效,否则目标语音数据无效;
该方法还包括:
H1:获取多个人员的语音数据并标记为k,k=1,……,n;获取语音数据中的敏感词组Mkg,g=1,……,n;
H2:将敏感词组M11、M12、……、Mnn组成一个数组,将该数组中的敏感词组一一与数据库中的预设敏感词组进行比对匹配;
H3:当数组中的敏感词组与预设敏感词组匹配成功时,则生成异常信号发送至控制器;
H4:控制器接收到异常信号后产生报警指令加载至报警模块,报警模块接收报警指令后进行报警;
一种可语音识别的信息转化装置,包括语音采集模块、语音分析模块、图像采集模块、图像分析模块、视频分析模块、语音声纹库、数据库、语音识别模块、控制器、判断模块以及报警模块;
语音采集模块包括安装在室内的不同位置的若干语音采集单元,语音采集单元用于实时采集室内人员的语音数据,并将获取的语音数据发送至控制器;
语音分析模块用于获取多个人员的语音数据,并将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹,并将其标记为目标声纹,根据语音声纹库找出该目标声纹对应的用户信息,获取该目标声纹对应用户的标准人脸图像数据;
图像采集模块为摄像头,用于实时获取室内的实时视频,并从实时视频内获取实时人脸图像数据;图像采集模块用于将实时人脸图像数据传输至图像分析模块,图像分析模块用于将实时人脸图像数据与标准人脸图像数据进行对比,具体步骤为:
D1:将多个人员的实时人脸图像数据与标准人脸图像数据进行对比,检测标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配;
D2:若标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配,则表示该目标声纹对应用户不在现场,生成假音信号,对该目标声纹对应的语音数据不进行信息转化;
D3:若标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配,则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频;继续对实时视频进行分析;
视频分析模块用于对实时视频进行分析,检测实时视频中是否出现人脸面部表情,具体步骤为:
DD1:若检测到实时视频中没有人脸面部表情且保持预设时间以上,则生成假面信号;
DD2:若检测到实时视频中有人脸面部表情且在预设时间以内出现表情,则获取实时视频中人员的口型信息,继续对口型信息进行分析;
DD3:检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化;
若实时视频中人员的口型信息在采集到语音数据时未发生变化且保持预设时间以上,则生成假音信号;
若实时视频中人员的口型信息在采集到语音数据时同步发生变化,则将采集到的语音数据标记为现场语音数据,并将现场语音数据传输至语音识别模块;
语音识别模块用于接收目标语音数据并对目标语音数据进行信息转化;控制器用于接收控制信号后对对应的智能设备进行调控;
判断模块用于判断现场语音数据的语音识别优先级,并优先识别语音识别优先级最高的用户对应的现场语音数据;
语音识别模块还用于判断目标语音数据的有效性,具体步骤为:
F1:对目标语音数据进行降噪增强处理;
F2:获取目标语音数据中每个元音的采集时间并标记为Ti;i=1,…,n;
利用公式Ci=Ti+1-Ti计算得到相邻两个元音的时间差并标记为单次间隔Ci
F3:设定相邻两个元音的预设间隔时长为YT;计算出Ci与预设间隔时长YT的差值得到间隔时长差WJTi,若所有的WJTi均小于预设间隔时长差值,即目标语音数据有效,否则目标语音数据无效;
F4:获取目标语音数据中每个元音的强度并标记为Qi,得到元音强度信息组;按照标准差计算公式计算得到实时Qi信息组的标准差α,当α小于预设值时,处于待验证状态;
F5:当Qi处于待验证状态时,将Qi按照从高到低的顺序排序,获取Qi的最大值并标记为Qmax,获取Qi的最小值并标记为Qmin;
F6:设定每个元音的预设强度为QS,计算出Qi与预设强度QS的差值得到强度差QJi,若所有的QJi均小于预设强度差值且Qmax与Qmin的差值小于预设强度差值,即目标语音数据有效,否则目标语音数据无效;
语音分析模块还用于分析多个人员的语音数据中的敏感词组,具体工作步骤为:
FF1:获取多个人员的语音数据并标记为k,k=1,……,n;获取语音数据中的敏感词组Mkg,g=1,……,n;
FF2:将敏感词组M11、M12、……、Mnn组成一个数组,将该数组中的敏感词组一一与数据库中的预设敏感词组进行比对匹配;
FF3:当数组中的敏感词组与预设敏感词组匹配成功时,则生成异常信号发送至控制器;
FF4:控制器接收到异常信号后产生报警指令加载至报警模块,报警模块接收报警指令后进行报警。
控制器用于接收假面信号、假音信号并在接收到假面信号、假音信号后产生报警指令控制报警模块进行报警。
一种可语音识别的信息转化方法和装置,在工作时,首先实时采集室内人员的语音数据,将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹,并将其标记为目标声纹,根据语音声纹库找出该目标声纹对应的用户信息,获取该目标声纹对应用户的标准人脸图像数据,通过摄像头实时获取室内的实时视频,并从实时视频内获取实时人脸图像数据,将实时人脸图像数据与标准人脸图像数据进行对比,若匹配,则获取对应人员的实时视频;检测实时视频中是否出现人脸面部表情;若检测到实时视频中有人脸面部表情且在预设时间以内出现表情,则获取实时视频中人员的口型信息,检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化,若是,则将采集到的语音数据标记为现场语音数据,对该目标声纹对应的现场语音数据进行信息转化,防止出现陌生人用录音欺骗语音识别模块控制智能设备调控的情况;
在对该目标声纹对应的现场语音数据进行信息转化之前,根据目标声纹对应的用户信息确定对应的现场语音数据的语音识别优先级的排序,并优先识别优先级最高的用户对应的现场语音数据,再判断目标语音数据是否有效,若有效,则将目标语音数据发送至语音识别模块中的每个识别单元,四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别,然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号,控制器接收控制信号后对对应的智能设备进行调控;本发明通过建立语音声纹库,设定识别语音优先级顺序,能够保证在现场环境嘈杂或者说话人数较多时,能够清楚的识别出特定人的语音,并有效保证识别精确度高,在对语音优先级最高的人员的语音数据进行转化处理之前,判断目标语音数据的有效性,避免用户在情绪不稳时发出的错误指令,提高体验度,而且语音识别模块中语音识别的关键词拆分识别以及有效关键词汇总的方法,不仅能够实现快速语音识别,而且不会发生执行元件控制混乱的情况,整个装置语音识别快速,使用稳定。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种可语音识别的信息转化方法,其特征在于,包括如下步骤:
步骤一:将若干语音采集单元分别安装在室内的不同位置,用于实时采集室内人员的语音数据,并将获取的语音数据发送至控制器;
步骤二:当采集到多个人员的语音数据时,将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹,并将其标记为目标声纹,根据语音声纹库找出该目标声纹对应的用户信息;所述用户信息包括姓名、标准人脸图像数据和语音识别优先级;
步骤三:获取该目标声纹对应用户的标准人脸图像数据,通过摄像头实时获取室内的实时视频,并从实时视频内获取实时人脸图像数据,将实时人脸图像数据与标准人脸图像数据进行对比;包括:
S31:将多个人员的实时人脸图像数据与标准人脸图像数据进行对比,检测所述标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配;
S32:若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配,则表示该目标声纹对应用户不在现场,生成假音信号,对该目标声纹对应的语音数据不进行信息转化;
S33:若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配,则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频;继续对实时视频进行分析;
步骤四:检测实时视频中是否出现人脸面部表情;
若检测到实时视频中没有人脸面部表情且保持预设时间以上,则生成假面信号,对该目标声纹对应的语音数据不进行信息转化;
若检测到实时视频中有人脸面部表情且在预设时间以内出现表情,则获取实时视频中人员的口型信息,继续对口型信息进行分析;
步骤五:检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化,包括:
S51:若实时视频中人员的口型信息在采集到语音数据时未发生变化且保持预设时间以上,则生成假音信号,对该目标声纹对应的语音数据不进行信息转化;
S52:若实时视频中人员的口型信息在采集到语音数据时同步发生变化,则将采集到的语音数据标记为现场语音数据,对该目标声纹对应的现场语音数据进行信息转化;
步骤六:将该目标声纹对应的现场语音数据标记为目标语音数据,将目标语音数据发送至语音识别模块中的每个识别单元,四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别,然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号,控制器接收控制信号后对对应的智能设备进行调控。
2.根据权利要求1所述的一种可语音识别的信息转化方法,其特征在于,在对该目标声纹对应的现场语音数据进行信息转化之前,该方法还包括:
根据目标声纹对应的用户信息确定对应的现场语音数据的语音识别优先级的排序,并优先识别优先级最高的用户对应的现场语音数据。
3.根据权利要求1所述的一种可语音识别的信息转化方法,其特征在于,在将目标语音数据发送至语音识别模块中的每个识别单元之前,该方法还包括:
判断目标语音数据的有效性;
若有效,则将目标语音数据发送至语音识别模块;
若无效,则重新采集语音数据。
4.根据权利要求3所述的一种可语音识别的信息转化方法,其特征在于,所述判断目标语音数据的有效性,具体步骤为:
SS1:对目标语音数据进行降噪增强处理;
SS2:获取目标语音数据中每个元音的采集时间并标记为Ti;i=1,…,n;
利用公式Ci=Ti+1-Ti计算得到相邻两个元音的时间差并标记为单次间隔Ci
SS3:设定相邻两个元音的预设间隔时长为YT;计算出Ci与预设间隔时长YT的差值得到间隔时长差WJTi,若所有的WJTi均小于预设间隔时长差值,即目标语音数据有效,否则目标语音数据无效;
SS4:获取目标语音数据中每个元音的强度并标记为Qi,得到元音强度信息组;按照标准差计算公式计算得到实时Qi信息组的标准差α,当α小于预设值时,处于待验证状态;
SS5:当Qi处于待验证状态时,将Qi按照从高到低的顺序排序,获取Qi的最大值并标记为Qmax,获取Qi的最小值并标记为Qmin;
SS6:设定每个元音的预设强度为QS,计算出Qi与预设强度QS的差值得到强度差QJi,若所有的QJi均小于预设强度差值且Qmax与Qmin的差值小于预设强度差值,即目标语音数据有效,否则目标语音数据无效。
5.根据权利要求1所述的一种可语音识别的信息转化方法,其特征在于,所述语音识别模块包括名词识别单元、动词识别单元、数量词识别单元和形容词识别单元,所述名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别与数据库和信息汇总处理单元相连接;
所述名词识别单元、动词识别单元、数量词识别单元和形容词识别单元分别用于识别语音信息中的名词、动词、数量词和形容词。
6.一种可语音识别的信息转化装置,其特征在于,包括语音采集模块、语音分析模块、图像采集模块、图像分析模块、视频分析模块、语音声纹库、数据库、语音识别模块、控制器、判断模块以及报警模块;
所述语音采集模块包括安装在室内的不同位置的若干语音采集单元,所述语音采集单元用于实时采集室内人员的语音数据,并将获取的语音数据发送至控制器;
所述语音分析模块用于获取多个人员的语音数据,并将每个人员的语音数据的声纹与预先建立的语音声纹库中的声纹进行对比,找出相同的声纹,并将其标记为目标声纹,根据语音声纹库找出该目标声纹对应的用户信息,获取该目标声纹对应用户的标准人脸图像数据;
所述图像采集模块为摄像头,用于实时获取室内的实时视频,并从实时视频内获取实时人脸图像数据;图像采集模块用于将实时人脸图像数据传输至图像分析模块,所述图像分析模块用于将实时人脸图像数据与标准人脸图像数据进行对比,具体步骤为:
D1:将多个人员的实时人脸图像数据与标准人脸图像数据进行对比,检测所述标准人脸图像数据是否与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配;
D2:若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据均不匹配,则表示该目标声纹对应用户不在现场,生成假音信号,对该目标声纹对应的语音数据不进行信息转化;
D3:若所述标准人脸图像数据与多个人员的实时人脸图像数据中的任一个实时人脸图像数据相匹配,则获取与标准人脸图像数据相匹配的实时人脸图像数据对应的人员的实时视频;继续对实时视频进行分析;
所述视频分析模块用于对实时视频进行分析,检测实时视频中是否出现人脸面部表情,具体步骤为:
DD1:若检测到实时视频中没有人脸面部表情且保持预设时间以上,则生成假面信号;
DD2:若检测到实时视频中有人脸面部表情且在预设时间以内出现表情,则获取实时视频中人员的口型信息,继续对口型信息进行分析;
DD3:检测实时视频中人员的口型信息是否在采集到语音数据时同步发生变化;
若实时视频中人员的口型信息在采集到语音数据时未发生变化且保持预设时间以上,则生成假音信号;
若实时视频中人员的口型信息在采集到语音数据时同步发生变化,则将采集到的语音数据标记为现场语音数据,并将现场语音数据传输至语音识别模块;
所述语音识别模块用于接收目标语音数据并对目标语音数据进行信息转化,四个识别单元根据数据库对于目标语音数据进行多种关键词的单独识别,然后经信息汇总处理单元将有效的关键词提取并生成相应的控制信号,控制器接收控制信号后对对应的智能设备进行调控,所述控制器用于接收控制信号后对对应的智能设备进行调控;
所述判断模块用于判断现场语音数据的语音识别优先级,并优先识别语音识别优先级最高的用户对应的现场语音数据;
所述语音识别模块还用于判断目标语音数据的有效性,若有效,则将目标语音数据发送至语音识别模块;若无效,则重新采集语音数据;
所述控制器用于接收假面信号、假音信号并在接收到假面信号、假音信号后产生报警指令控制报警模块进行报警。
CN202011148047.4A 2020-10-23 2020-10-23 一种可语音识别的信息转化方法和装置 Withdrawn CN112562692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011148047.4A CN112562692A (zh) 2020-10-23 2020-10-23 一种可语音识别的信息转化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011148047.4A CN112562692A (zh) 2020-10-23 2020-10-23 一种可语音识别的信息转化方法和装置

Publications (1)

Publication Number Publication Date
CN112562692A true CN112562692A (zh) 2021-03-26

Family

ID=75041360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011148047.4A Withdrawn CN112562692A (zh) 2020-10-23 2020-10-23 一种可语音识别的信息转化方法和装置

Country Status (1)

Country Link
CN (1) CN112562692A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160853A (zh) * 2021-03-31 2021-07-23 深圳鱼亮科技有限公司 一种基于实时人脸辅助的语音端点检测方法
CN113242361A (zh) * 2021-07-13 2021-08-10 腾讯科技(深圳)有限公司 一种视频处理方法、装置以及计算机可读存储介质
CN113542604A (zh) * 2021-07-12 2021-10-22 口碑(上海)信息技术有限公司 视频对焦方法及装置
CN113742687A (zh) * 2021-08-31 2021-12-03 深圳时空数字科技有限公司 一种基于人工智能的物联网控制方法及系统
CN117370961A (zh) * 2023-12-05 2024-01-09 江西五十铃汽车有限公司 一种车辆语音交互方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160853A (zh) * 2021-03-31 2021-07-23 深圳鱼亮科技有限公司 一种基于实时人脸辅助的语音端点检测方法
CN113542604A (zh) * 2021-07-12 2021-10-22 口碑(上海)信息技术有限公司 视频对焦方法及装置
CN113242361A (zh) * 2021-07-13 2021-08-10 腾讯科技(深圳)有限公司 一种视频处理方法、装置以及计算机可读存储介质
CN113242361B (zh) * 2021-07-13 2021-09-24 腾讯科技(深圳)有限公司 一种视频处理方法、装置以及计算机可读存储介质
CN113742687A (zh) * 2021-08-31 2021-12-03 深圳时空数字科技有限公司 一种基于人工智能的物联网控制方法及系统
CN117370961A (zh) * 2023-12-05 2024-01-09 江西五十铃汽车有限公司 一种车辆语音交互方法及系统
CN117370961B (zh) * 2023-12-05 2024-03-15 江西五十铃汽车有限公司 一种车辆语音交互方法及系统

Similar Documents

Publication Publication Date Title
CN112562692A (zh) 一种可语音识别的信息转化方法和装置
Prajwal et al. Learning individual speaking styles for accurate lip to speech synthesis
CN106251874B (zh) 一种语音门禁和安静环境监控方法及系统
CA2085842C (en) Neural network-based speech token recognition system and method
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
JP2006048065A (ja) 音声対話式言語指導法及び装置
KR20130022607A (ko) 입술 이미지를 이용한 음성 인식 장치 및 이의 음성 인식 방법
JP2010256391A (ja) 音声情報処理装置
US20080004879A1 (en) Method for assessing learner's pronunciation through voice and image
US20120078625A1 (en) Waveform analysis of speech
KR20200087623A (ko) 외국어 교육을 위한 발음 정확도 평가 장치 및 방법
JPH0792988A (ja) 音声検出装置と映像切り替え装置
US20190103110A1 (en) Information processing device, information processing method, and program
CN108831212B (zh) 一种口语教学辅助装置及方法
Roy et al. Learning audio-visual associations using mutual information
CN110853669B (zh) 音频识别方法、装置及设备
Al-Shayea et al. Speaker identification: A novel fusion samples approach
Shirakata et al. Japanese sentence dataset for lip-reading
Wei et al. A neural prosody encoder for end-to-end dialogue act classification
CN108647346A (zh) 一种用于可穿戴电子设备的老年人语音交互方法和系统
Harada et al. VoiceLabel: using speech to label mobile sensor data
JPS5939760B2 (ja) 音声認識装置
US6816831B1 (en) Language learning apparatus and method therefor
WO2023276159A1 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
Zheng et al. A robust keyword detection system for criminal scene analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210326

WW01 Invention patent application withdrawn after publication