CN117219113A - 语音处理方法、装置、电子设备及存储介质 - Google Patents
语音处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117219113A CN117219113A CN202311222474.6A CN202311222474A CN117219113A CN 117219113 A CN117219113 A CN 117219113A CN 202311222474 A CN202311222474 A CN 202311222474A CN 117219113 A CN117219113 A CN 117219113A
- Authority
- CN
- China
- Prior art keywords
- voice information
- user
- target
- voice
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 12
- 238000012795 verification Methods 0.000 claims abstract description 26
- 238000001914 filtration Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 41
- 238000004458 analytical method Methods 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 14
- 230000009471 action Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及一种语音处理方法、装置、电子设备及存储介质,通过获取预设地域范围的第一语音信息和用户人脸动态图像,第一语音信息用于确定第一语义,以此基于用户人脸动态图像确定唇部动态图像集合和唇部动态图像集合对应的第二语义集合,并在第二语义集合中包含第一语义的情况下,将第一语义对应的用户确定为目标用户,基于目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征,基于目标声纹特征进行语音过滤处理,得到预设地域范围对应的目标语音信息;通过第一语义与第二语义集合的对比判断,确定出目标用户,接着再确定目标用户的目标声纹特征,根据目标声纹特征进行语音过滤处理,以此实现了提高对目标用户的语音识别精准度的效果。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
随着社会的发展,智能化控制场景越来越丰富。语音控制作为目前常规的智能控制方式,逐渐添加至各类产品中,例如移动设备、音响、家电、汽车等,而大多数语音控制的场景会存在较多无关用户发出的无关语音,此时会存在影响识别目标用户输入的语音的识别效率,以车辆为例,车辆通常被放置于室外,而室外会存在较多的无关用户的说话声,此时车主在进行语音控制时,车主发出的语音会被其他无关用户的说话声影响,导致语音识别时存在识别错误或无法识别等识别精准度低的问题。
发明内容
为了解决上述技术问题,本申请提供了一种语音处理方法、装置、电子设备及存储介质。
第一方面,本申请提供了一种语音处理方法,所述方法包括:
获取预设地域范围的第一语音信息和用户人脸动态图像,所述第一语音信息用于确定第一语义;
基于所述用户人脸动态图像,确定唇部动态图像集合和所述唇部动态图像集合对应的第二语义集合;
在所述第二语义集合中包含所述第一语义的情况下,将所述第一语义对应的用户确定为目标用户;
基于所述目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征;
基于所述目标声纹特征进行语音过滤处理,得到所述预设地域范围对应的目标语音信息。
可选的,所述基于所述目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征,包括:
输出交互提示信息,所述交互提示信息用于提示所述目标用户输入语音;
获取所述目标用户输入的第二语音信息;
提取所述第二语音信息中的初始声纹特征;
验证所述初始声纹特征是否属于预设声纹数据库中的注册声纹特征;
在所述初始声纹特征属于所述注册声纹特征的情况下,将所述初始声纹特征确定为所述目标声纹特征。
可选的,所述唇部动态图像集合包含至少一个用户的唇部动态图像,所述基于所述用户人脸动态图像,确定唇部动态图像集合和所述唇部动态图像集合对应的第二语义集合,包括:
提取所述用户人脸动态图像中的唇部图像;
采用同一用户的所述唇部图像,生成所述同一用户对应的唇部动态图像;
对所述唇部动态图像进行语义分析,得到所述唇部动态图像对应的第二语义;
基于所述第二语义生成所述第二语义集合。
可选的,所述获取预设地域范围的第一语音信息,包括:
获取所述预设地域范围的用户语音信息;
确定所述用户语音信息的用户语义;
在所述用户语义属于预设语义的情况下,将所述用户语音信息确定为所述第一语音信息。
可选的,所述基于所述目标声纹特征进行语音过滤处理,得到所述预设地域范围对应的目标语音信息,包括:
获取所述预设地域范围的第三语音信息,所述第三语音信息包含至少一个用户语音信息;
确定每一个用户语音信息的声纹特征;
在所述用户语音信息的声纹特征与所述目标声纹特征不匹配的情况下,过滤所述用户语音信息;
在所述用户语音信息的声纹特征与所述目标声纹特征相匹配的情况下,将所述用户语音信息确定为所述目标语音信息。
可选的,所述得到所述预设地域范围对应的目标语音信息,之后还包括:
确定预设时长内,所述目标语音信息是否为空;
在所述目标语音信息为空的情况下,返回执行所述获取所述预设地域范围的所述第一语音信息和所述用户人脸动态图像的步骤;
在所述目标语音信息不为空的情况下,基于所述目标语音信息确定控制指令。
可选的,所述确定唇部动态图像集合和所述唇部动态图像集合对应的第二语义集合之后还包括:
在所述第二语义集合中不包含所述第一语义的情况下,返回执行所述获取所述预设地域范围的所述第一语音信息和所述用户人脸动态图像的步骤。
第二方面,本申请提供了一种语音处理装置,所述装置包括:
获取模块,用于获取预设地域范围的第一语音信息和用户人脸动态图像,所述第一语音信息用于确定第一语义;
第一确定模块,用于基于所述用户人脸动态图像,确定唇部动态图像集合和所述唇部动态图像集合对应的第二语义集合;
第二确定模块,用于在所述第二语义集合中包含所述第一语义的情况下,将所述第一语义对应的用户确定为目标用户;
验证模块,用于基于所述目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征;
过滤模块,用于基于所述目标声纹特征进行语音过滤处理,得到所述预设地域范围对应的目标语音信息。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的方法,通过获取预设地域范围的第一语音信息和用户人脸动态图像,第一语音信息用于确定第一语义,以此基于用户人脸动态图像确定唇部动态图像集合和唇部动态图像集合对应的第二语义集合,并在第二语义集合中包含第一语义的情况下,将第一语义对应的用户确定为目标用户,基于目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征,基于目标声纹特征进行语音过滤处理,得到预设地域范围对应的目标语音信息;由此,在语音识别的过程中不仅会根据语言信息确定第一语义,还会根据唇部动态图像确定第二语义集合,通过第一语义与第二语义集合的对比判断,确定出目标用户,起到提高目标用户的识别效率,接着再确定目标用户的目标声纹特征,起到根据目标声纹特征进行语音过滤处理的作用,以此实现了提高对目标用户的语音识别精准度的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语音处理方法的流程示意图;
图2为本申请另一实施例提供的一种语音处理方法的流程示意图;
图3为本申请另一实施例提供的一种语音处理方法的流程示意图;
图4为本申请另一实施例提供的一种语音处理方法的流程示意图;
图5为本申请实施例提供的一种语音处理装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
语音控制逐渐渗透至生活中的各方各面,例如移动终端的语音控制、车辆控制系统的语音控制、智能机器人的语音控制等,而在以上各类语音控制的场景下,均是会存在无关用户在周围发出语音的情况,例如车辆控制时,车主通过说出“打开车门”的语音,此时车主附近的用户A说出来“打开微信窗口”,该情况下车辆采集到的语音是“打开车门”以及“打开微信窗口”叠加后的语音,会导致车辆错误识别为“打开车窗”或无法识别语音等问题,或者是车主并未对着车辆,而是背着车辆与其他说出“那我10分钟后开车接你”,此时车辆采集该语音错误识别为“开启车辆”,造成误启动车辆的问题,其他不同的应用场景也会存在相类似的语音识别问题,在此不一一说明,也即现有的语音识别方式,识别过程较为单一,对目标用户以及目标用户说出的语音存在识别精度低、误差大的问题。
图1为本申请实施例提供的一种语音处理方法的流程示意图。
如图1所示的,本申请公开一实施例,提供了一种语音处理方法,所述方法可以包括:
S110:获取预设地域范围的第一语音信息和用户人脸动态图像,第一语音信息用于确定第一语义。
本实施例中的语音处理方法可以应用于需要进行语音识别的终端,例如车辆终端、移动终端等。预设地域范围表示语音采集的范围,对于不同的应用主体可以设置不同的预设地域范围,例如移动终端的预设地域范围可以是30厘米、50厘米等,车辆终端的预设地域范围可以是1米、2米、3米等;第一语音信息和用户人脸动态图像表示在预设地域范围内用户的语言和人脸动态图像,具体的获取方式,可以是通过麦克风阵列获取预设地域范围的第一语音信息,以及通过摄像头获取用户人脸动态图像,对于车辆应用场景而言,麦克风可以设置于左边后视镜形成麦克风阵列,从而准确地捕捉嘈杂环境中的第一语音信息,而摄像头可以安装于车外B柱外与人等高位置,保证能清晰的采集到用户人脸动态图像;接着,对第一语言信息进行语义分析,得到第一语义,也即第一语义可以是表示第一语音信息的文本。
由于预设地域范围内可能会存在多个不同的用户发出的语音,例如车辆应用场景下,在车辆熄火停车的状态下,为了降低停车时的功耗,通常会将各个功耗模块进入休眠状态,此时只有在将车辆唤醒后进入唤醒状态时,才能唤醒各个功能模块执行相关的指令,例如车辆在熄火停车的状态下,若车主发出“打开车窗”的语音,由于车辆的控制装置都处于休眠状态,车窗控制模块也处于休眠状态,也即无法执行该操作,此时需要唤醒车辆,例如通过预设的唤醒词对车辆进行唤醒,唤醒词可以是“你好,启动车辆”,“你好,我的爱车”等,车辆在识别到唤醒词的情况下则可以将车辆从车辆熄火停车的状态转换为唤醒状态,此时车窗控制模块也被唤醒,则可以执行打开车窗的指令;因此在车辆熄火停车的状态下,需要进行唤醒操作。
在一实施例中,S110获取预设地域范围的第一语音信息,可以包括:
获取预设地域范围的用户语音信息;
确定用户语音信息的用户语义;
在用户语义属于预设语义的情况下,将用户语音信息确定为第一语音信息。
本实施例中,应用场景为车辆处于熄火停车的状态下,首先会获取预设地域范围的用户语音信息,该用户语音信息表示在预设地域范围的各个用户发出的语音;接着,对用户语音信息进行语义分析,得到用户语音信息的用户语义,用户语义表示用户语音信息表达的文本;然后,判断该用户语义是否属于预设语义,其中预设语义表示预设的唤醒词,例如你好手机、你好汽车等;在用户语义不属于预设语义的情况下,说明当前并未接收到唤醒词的语音,此时可以不作出任何响应,而在用户语义属于预设语义的情况下,说明当前获取的语音为唤醒词语音,此时可以将用户语音信息确定为第一语音信息,以进行后续分析;由此起到检测预设地域范围内是否存在有用户输出第一语音信息的作用。
由于,在日常对话或者是其他用户与其他设备进行语音交互的过程中时常会说出第一语义的语音,或者是误检测到第一语义的语音信息,均会存在导致语音识别错误的问题。
S120:基于用户人脸动态图像,确定唇部动态图像集合和唇部动态图像集合对应的第二语义集合。
本实施例中,在获取得到用户人脸动态图像后,基于用户人脸动态图像确定出唇部动态图像集合,以及对唇部动态图像集合进行语义分析得到唇部动态图像集合对应的第二语义集合,其中,用户人脸动态图像可以是多个用户的人脸动态图像,因此唇部动态图像集合可以是包括多个用户的唇部动态图像的集合,同理第二语义集合中的第二语义则是表示在预设地域范围内各个用户的唇部动态图像语义分析后的语义;由此,本实施例不再局限于对语音进行语义分析,还会对唇部动态图像进行语义分析,起到了多维度语义分析的作用。
如图2所示,在一实施例中,唇部动态图像集合包含至少一个用户的唇部动态图像,S120基于用户人脸动态图像,确定唇部动态图像集合和唇部动态图像集合对应的第二语义集合,可以包括:
S121:提取用户人脸动态图像中的唇部图像;
S122:采用同一用户的唇部图像,生成同一用户对应的唇部动态图像;
S123:对唇部动态图像进行语义分析,得到唇部动态图像对应的第二语义;
S124:基于第二语义生成第二语义集合。
本实施例中,由于预设地域范围可能存在多个用户,因此采集的人脸动态图像以及根据人脸动态图像确定唇部动态图像也会是多个用户,也即唇部动态图像集合包含至少一个用户的唇部动态图像;确定第二语义的过程中,首先,提取用户人脸动态图像中的唇部图像,并根据同一用户的唇部图像,生成同一用户对应的唇部动态图像,也即多个用户对应的唇部动态图像为唇部动态图像集合;接着,对唇部动态图像进行语义分析,得到唇部动态图像对应的第二语义,其中具体的语义分析方式可以是结合神经网络,例如将唇部图片序列与音素进行建模,首先将汉字转换成音素即将汉字转换成拼音,然后将拼音进一步转换成音素具体为通过一个矩形范围内的二位坐标来对汉字进行定位,之后基于卷积神经网络以LSTM层为核心建立端到端的唇语识别网络,将人脸图像作为卷积神经网络输入,由最后一层神经网络所获取的特征信息作为输入传到神经网络的LSTM层,从而获取序列时域信息,最后基于softmax分类器生成相应的中文标签信息作为第二语义,以上仅为示例说明,具体实施时还可以采用其他网络模块、分析模块进行语音分析;最后,对每个不同用户的唇部图像均进行上述语义分析处理,得到第二语义,以此将得到的第二语义的集合作为第二语义集合,因此第二语义集合表示的是在预设地域范围内对各个用户唇部动作分析得到的语义集合。
S130:在第二语义集合中包含第一语义的情况下,将第一语义对应的用户确定为目标用户。
本实施例中,在得到第一语义和第二语义集合后,可以判断第二语义中是否包含第一语义,起到确定用户是否正在朝向控制设备说出预设语义的语音,在第二语义中包含第一语义的情况,说明当前获取到了表示预设语义的第一语音信息以及表示预设语义的唇部动态图像,也即用户正在朝向待控制设备输入语音,则可以将该用户确定为目标用户;反之在第二语义集合中不包含第一语义的情况下,则是说明用户并未朝向待控制设备输入预设语义的语音,此时可以返回执行S110获取预设地域范围的第一语音信息和用户人脸动态图像的步骤,以进行持续检测;以此,通过第一语义和第二语义集合的对比判断,起到了避免单独进行语音分析存在精准度低的问题,还避免了用户未朝向待控制设备而是其他话语中恰巧输出预设语义的语音导致错误识别的问题,实现了提高语言识别的精准度的效果。
S140:基于目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征。
本实施例中,在确定目标用户后,需要验证当前目标用户是否为具备权限或是预先注册的用户,此时可以通过获取目标用户输入的第二语音信息进行声纹验证,对第二语音信息的声纹进行验证,判断第二语音信息的声纹是否为预设的声纹特征,若是,则可以将第二语音信息的声纹特征确定为目标声纹特征,由此起到了对目标用户进行声纹验证的作用,例如车辆控制的场景中,若非车主的无关用户A,恰好朝向车辆说出来第一语义的语音,此时则会将用户A确定为目标用户,接着对于用户A输入的第二语音信息进行声纹验证,由于用户A的声纹特征属于未预先注册或者非权限用户的声纹特征,因此无法将用户A的声纹特征确定为目标声纹特征。
如图3所示,在一实施例中,S140基于目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征,可以包括:
S141:输出交互提示信息,交互提示信息用于提示目标用户输入语音;
S142:获取目标用户输入的第二语音信息;
S143:提取第二语音信息中的初始声纹特征;
S144:验证初始声纹特征是否属于预设声纹数据库中的注册声纹特征;
S145:在初始声纹特征属于注册声纹特征的情况下,将初始声纹特征确定为目标声纹特征。
本实施例中,对目标用户的声纹验证过程可以是,首先输出交互提示信息,交互提示信息用于提示目标用户输入预设的验证语音,例如提示语音、提示文本等,具体的提示内容可以是“请说,我是本人”、“请说,我是车主”等,其中“我是本人”、“我是车主”则为验证语音,以此起到提示目标用户说出验证语音的作用;接着,目标用户可以根据交互提示信息输入第二语音信息,第二语音信息表示用户说出的验证语音;然后,提取第二语音信息中的初始声纹特征,并验证初始声纹特征是否属于预设声纹数据库中的注册声纹特征,其中预设声纹数据库中的注册声纹特征为预先确定具备权限或者已注册的用户的声纹特征,因此在初始声纹特征属于预设声纹数据库中的注册声纹特征的情况下,说明目标用户属于具备权限或者已注册的用户,此时可以将初始声纹特征确定为目标声纹特征;以此起到验证目标用户是否为具备权限或者已注册的用户的作用;由于验证语音是预设的语音内容,因此对于该语音的声纹特征的验证过程可以预先通过网络模型进行训练,以此起到高精准度验证初始声纹特征是否属于预设声纹数据库中的注册声纹特征的作用;另外,也可以是根据第一语音信息确定初始声纹特征,进行上述的验证初始声纹特征是否属于预设声纹数据库中的注册声纹特征及其后续步骤。
S150:基于目标声纹特征进行语音过滤处理,得到预设地域范围对应的目标语音信息。
本实施例中,在确定目标声纹特征后,则可以基于目标声纹特征进行语音过滤处理,得到预设地域范围对应的目标语音信息,在语音过滤处理的过程中,是以目标声纹特征为基准,将与目标声纹特征不匹配的声纹特征进行过滤,以此得到预设地域范围对应的目标语音信息;需要说明的是,在确定声纹特征是否与目标声纹特征匹配的过程中,可以是根据匹配程度进行判断,例如匹配程度大于90%则认为匹配,或者是大于95%则认为匹配。
在具体实施时,语音过滤处理可以是通过麦克风阵列采集和处理多路语音信号,对语音信号进行降噪及增强;飞行时间测距(TOF,Time Of Flight)检测模块检测预设地域范围的用户,并生成人员位置信息通过雷达信号处理波达方向估计(DOA,Direction OfArrival)计算模块产生当前的DOA区间数据,计算基于上述麦克风阵列输入的数据和基于DOA计算模块产生的数据,过滤与目标声纹特征不匹配的声纹特征。
如图4所示,在一实施例中,S150基于目标声纹特征进行语音过滤处理,得到预设地域范围对应的目标语音信息,可以包括:
S151:获取预设地域范围的第三语音信息,第三语音信息包含至少一个用户语音信息;
S152:确定每一个用户语音信息的声纹特征;
S153:在用户语音信息的声纹特征与目标声纹特征不匹配的情况下,过滤用户语音信息;
S154:在用户语音信息的声纹特征与目标声纹特征相匹配的情况下,将用户语音信息确定为目标语音信息。
本实施例中,在确定目标声纹特征后,持续获取预设地域范围的第三语音信息,由于预设地域范围内可能会存在除目标用户之外的其他用户的情况,因此第三语音信息包含至少一个用户语音信息;接着,确定每一个用户语音信息的声纹特征,并判断每一个用户语音信息的声纹特征均与目标声纹特征是否匹配,在用户语音信息的声纹特征与目标声纹特征不匹配的情况下,说明该声纹特征的用户语言信息并不是目标用户发出的语音信息,此时可以过滤改用户语音信息;而在用户语音信息的声纹特征与目标声纹特征相匹配的情况下,说明该声纹特征的用户语言信息是目标用户发出的语音信息,此时将该用户语音信息确定为目标语音信息;以此起到从包括有一个或多个用户语音信息的第三语音信息中,提取出目标用户发出的语音信息,并确定为目标语音信息的作用,也即实现了可以在人多嘈杂的环境中进行语音交互时能够精准锁定目标用户发出的语音信息,以此进行语音交互的效果。
另外,第三语音信息可以表示第一语音信息或者是在确定目标声纹特征后所再次采集的语音信息,在第三语音信息表示第一语音信息的情况下,则是在S110之后会将第一语音信息进行存储,在执行S150时,将存储的第一语音信息做为第三语音信息执行S150,以此起到对用户预先说出的语音信息进行响应的作用,实现了简化语音交互流程,提高语音交互效率的效果。
在一实施例中,S150得到预设地域范围对应的目标语音信息,之后还可以包括:
确定预设时长内,目标语音信息是否为空;
在目标语音信息为空的情况下,返回执行获取预设地域范围的第一语音信息和用户人脸动态图像的步骤;
在目标语音信息不为空的情况下,基于目标语音信息确定控制指令。
本实施例中,由于确定目标声纹特征后,若间隔较长时间都未获得目标语音信息,说明目标用户长时间未输入语音信息,此时若持续检测目标语音信息可能会存在误识别的问题,因此为了确保目标语言信息的实时有效性,可以确定预设时长内,目标语音信息是否为空,在目标语音信息为空的情况下,说明目标用户在预设时长内均为进行语音输入,可以确认目标用户暂时无需语音交互或者用户已离开等情况,此时则可以返回执行S110获取预设地域范围的第一语音信息和用户人脸动态图像的步骤,进行循环检测;而在目标语音信息不为空的情况下,说明在预设时长内用户有输入语音,此时可以基于目标语音信息确定控制指令,以此根据控制指令执行对应的操作。
如图5所示的,本申请还公开一实施例,提供了一种语音处理装置,所述装置可以包括:
获取模块510,用于获取预设地域范围的第一语音信息和用户人脸动态图像,第一语音信息用于确定第一语义;
第一确定模块520,用于基于用户人脸动态图像,确定唇部动态图像集合和唇部动态图像集合对应的第二语义集合;
第二确定模块530,用于在第二语义集合中包含第一语义的情况下,将第一语义对应的用户确定为目标用户;
验证模块540,用于基于目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征;
过滤模块550,用于基于目标声纹特征进行语音过滤处理,得到预设地域范围对应的目标语音信息。
在一实施例中,验证模块540可以包括:
输出单元,用于输出交互提示信息,交互提示信息用于提示目标用户输入语音;
第一获取单元,用于获取目标用户输入的第二语音信息;
第一提取单元,用于提取第二语音信息中的初始声纹特征;
验证单元,用于验证初始声纹特征是否属于预设声纹数据库中的注册声纹特征;
第一确定单元,用于在初始声纹特征属于预设所述注册声纹特征的情况下,将初始声纹特征确定为目标声纹特征。
在一实施例中,唇部动态图像集合包含至少一个用户的唇部动态图像,第一确定模块520可以包括:
第二提取单元,用于提取用户人脸动态图像中的唇部图像;
第一生成单元,用于采用同一用户的唇部图像,生成同一用户对应的唇部动态图像;
第二确定单元,用于对唇部动态图像进行语义分析,得到唇部动态图像对应的第二语义;
第二生成单元,用于基于第二语义生成第二语义集合。
在一实施例中,获取模块510可以包括:
第二获取单元,用于获取预设地域范围的用户语音信息;
第三确定单元,用于确定用户语音信息的用户语义;
第四确定单元,用于在用户语义属于预设语义的情况下,将用户语音信息确定为第一语音信息。
在一实施例中,过滤模块550可以包括:
第三获取单元,用于获取预设地域范围的第三语音信息,第三语音信息包含至少一个用户语音信息;
第五确定单元,用于确定每一个用户语音信息的声纹特征;
过滤单元,用于在用户语音信息的声纹特征与目标声纹特征不匹配的情况下,过滤用户语音信息;
第六确定单元,用于在用户语音信息的声纹特征与目标声纹特征相匹配的情况下,将用户语音信息确定为目标语音信息。
在一实施例中,所述装置还可以包括:
第三确定模块,用于确定预设时长内,目标语音信息是否为空;
第一返回模块,用于在目标语音信息为空的情况下,返回执行获取预设地域范围的第一语音信息和用户人脸动态图像的步骤;
第四确定模块,用于在目标语音信息不为空的情况下,基于目标语音信息确定控制指令。
在一实施例中,所述装置还可以包括:
第二返回模块,用于在第二语义集合中不包含第一语义的情况下,返回执行获取预设地域范围的第一语音信息和用户人脸动态图像的步骤。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
如图6所示,本申请实施例提供了一种电子设备,包括处理器610、通信接口620、存储器630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信,存储器630,用于存放计算机程序;
在本申请一个实施例中,处理器610,用于执行存储器630上所存放的程序时,实现前述任意一个方法实施例提供的方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述对本说明书实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音处理方法,其特征在于,所述方法包括:
获取预设地域范围的第一语音信息和用户人脸动态图像,所述第一语音信息用于确定第一语义;
基于所述用户人脸动态图像,确定唇部动态图像集合和所述唇部动态图像集合对应的第二语义集合;
在所述第二语义集合中包含所述第一语义的情况下,将所述第一语义对应的用户确定为目标用户;
基于所述目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征;
基于所述目标声纹特征进行语音过滤处理,得到所述预设地域范围对应的目标语音信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征,包括:
输出交互提示信息,所述交互提示信息用于提示所述目标用户输入语音;
获取所述目标用户输入的第二语音信息;
提取所述第二语音信息中的初始声纹特征;
验证所述初始声纹特征是否属于预设声纹数据库中的注册声纹特征;
在所述初始声纹特征属于所述注册声纹特征的情况下,将所述初始声纹特征确定为所述目标声纹特征。
3.根据权利要求1所述的方法,其特征在于,所述唇部动态图像集合包含至少一个用户的唇部动态图像,所述基于所述用户人脸动态图像,确定唇部动态图像集合和所述唇部动态图像集合对应的第二语义集合,包括:
提取所述用户人脸动态图像中的唇部图像;
采用同一用户的所述唇部图像,生成所述同一用户对应的唇部动态图像;
对所述唇部动态图像进行语义分析,得到所述唇部动态图像对应的第二语义;
基于所述第二语义生成所述第二语义集合。
4.根据权利要求1所述的方法,其特征在于,所述获取预设地域范围的第一语音信息,包括:
获取所述预设地域范围的用户语音信息;
确定所述用户语音信息的用户语义;
在所述用户语义属于预设语义的情况下,将所述用户语音信息确定为所述第一语音信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标声纹特征进行语音过滤处理,得到所述预设地域范围对应的目标语音信息,包括:
获取所述预设地域范围的第三语音信息,所述第三语音信息包含至少一个用户语音信息;
确定每一个用户语音信息的声纹特征;
在所述用户语音信息的声纹特征与所述目标声纹特征不匹配的情况下,过滤所述用户语音信息;
在所述用户语音信息的声纹特征与所述目标声纹特征相匹配的情况下,将所述用户语音信息确定为所述目标语音信息。
6.根据权利要求1所述的方法,其特征在于,所述得到所述预设地域范围对应的目标语音信息,之后还包括:
确定预设时长内,所述目标语音信息是否为空;
在所述目标语音信息为空的情况下,返回执行所述获取所述预设地域范围的所述第一语音信息和所述用户人脸动态图像的步骤;
在所述目标语音信息不为空的情况下,基于所述目标语音信息确定控制指令。
7.根据权利要求1所述的方法,其特征在于,所述确定唇部动态图像集合和所述唇部动态图像集合对应的第二语义集合之后还包括:
在所述第二语义集合中不包含所述第一语义的情况下,返回执行所述获取所述预设地域范围的所述第一语音信息和所述用户人脸动态图像的步骤。
8.一种语音处理装置,其特征在于,所述装置包括:
获取模块,用于获取预设地域范围的第一语音信息和用户人脸动态图像,所述第一语音信息用于确定第一语义;
第一确定模块,用于基于所述用户人脸动态图像,确定唇部动态图像集合和所述唇部动态图像集合对应的第二语义集合;
第二确定模块,用于在所述第二语义集合中包含所述第一语义的情况下,将所述第一语义对应的用户确定为目标用户;
验证模块,用于基于所述目标用户输入的第二语音信息进行声纹验证,得到目标声纹特征;
过滤模块,用于基于所述目标声纹特征进行语音过滤处理,得到所述预设地域范围对应的目标语音信息。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311222474.6A CN117219113A (zh) | 2023-09-20 | 2023-09-20 | 语音处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311222474.6A CN117219113A (zh) | 2023-09-20 | 2023-09-20 | 语音处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117219113A true CN117219113A (zh) | 2023-12-12 |
Family
ID=89050725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311222474.6A Pending CN117219113A (zh) | 2023-09-20 | 2023-09-20 | 语音处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117219113A (zh) |
-
2023
- 2023-09-20 CN CN202311222474.6A patent/CN117219113A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326289B (zh) | 免唤醒语音交互方法、装置、设备及存储介质 | |
CN107316643B (zh) | 语音交互方法及装置 | |
CN105632486B (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN111028842B (zh) | 触发语音交互响应的方法及设备 | |
CN110544468B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN111210829A (zh) | 语音识别方法、装置、系统、设备和计算机可读存储介质 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN112669822B (zh) | 音频处理方法、装置、电子设备和存储介质 | |
CN113643704A (zh) | 车机语音系统的测试方法、上位机、系统和存储介质 | |
CN114724564A (zh) | 语音处理方法、装置和系统 | |
CN112185425B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN113838462B (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
CN117198285A (zh) | 设备唤醒方法、装置、设备、介质及车辆 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN112740321A (zh) | 唤醒设备的方法、装置、存储介质及电子设备 | |
CN117219113A (zh) | 语音处理方法、装置、电子设备及存储介质 | |
CN116129942A (zh) | 语音交互设备和语音交互方法 | |
CN115132197B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN115985317A (zh) | 信息处理方法、装置、车辆及存储介质 | |
CN114420121A (zh) | 语音交互方法、电子设备和存储介质 | |
CN115841814A (zh) | 语音交互方法及电子设备 | |
US20150039312A1 (en) | Controlling speech dialog using an additional sensor | |
CN116189680B (zh) | 一种展演智能设备的语音唤醒方法 | |
CN116705013B (zh) | 语音唤醒词的检测方法、装置、存储介质和电子设备 | |
CN113129896B (zh) | 一种语音交互方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |