CN106782569A

CN106782569A - 一种基于声纹注册的增强现实方法及装置

Info

Publication number: CN106782569A
Application number: CN201611106579.5A
Authority: CN
Inventors: 谢柯; 徐泽明; 苏波
Original assignee: Shenzhen Augmented Reality Technology Co Ltd
Current assignee: Shenzhen Augmented Reality Technology Co Ltd
Priority date: 2016-12-06
Filing date: 2016-12-06
Publication date: 2017-05-31

Abstract

本发明适用于增强现实技术领域，提供了一种基于声纹注册的增强现实方法及装置，所述方法包括：获取拾音装置采集的现场使用者语音数据，并从所述使用者语音数据中提取使用者声纹特征信息；将所述用者声纹特征信息与预先保存的管理者声纹特征信息进行匹配，判断所述使用者是否为终端设备管理者；当所述使用者为终端设备管理者时，将所述使用者语音数据与声音数据库中的预设语音数据进行匹配，匹配成功时获取与所述预设语音数据对应的情景信息；将所述情景信息通过增强现实技术进行展示。本发明实施例解决了现有的AR语音识别并不限定人员，任何人说出相同的话都能触发AR场景的问题。

Description

一种基于声纹注册的增强现实方法及装置

技术领域

本发明属于增强现实技术领域，尤其涉及一种基于声纹注册的增强现实方法及装置。

背景技术

目前增强现实技术(AR)的应用逐渐广泛，比如在AR游戏中，为了提高AR游戏的可玩性，在游戏场景中加入语音识别技术，使用语音指令来触发不同的AR游戏场景。

对于某些时候，我们希望仅有指定权限的人说出某些话时才触发相应的AR场景。不同的人使用语音指令操作不同的游戏对象，并在在其对应的现实场景中叠加炫酷的游戏效果，这样就使得游戏的娱乐性大大增强。

但是现有的AR语音识别并不限定人员，任何人说出相同的话都能触发AR场景。

因此，现有技术还有待发展。

发明内容

本发明实施例提供一种基于声纹注册的增强现实方法及装置，旨在解决现有的AR语音识别并不限定人员，任何人说出相同的话都能触发AR场景的问题。

本发明实施例是这样实现的，一种基于声纹注册的增强现实方法，其中，所述方法包括下述步骤：

获取拾音装置采集的现场使用者语音数据，并从所述使用者语音数据中提取使用者声纹特征信息；

将所述用者声纹特征信息与预先保存的管理者声纹特征信息进行匹配，判断所述使用者是否为终端设备管理者；

当所述使用者为终端设备管理者时，将所述使用者语音数据与声音数据库中的预设语音数据进行匹配，匹配成功时获取与所述预设语音数据对应的情景信息；

将所述情景信息通过增强现实技术进行展示；

所述情景信息包括文字、图片、语音、视频中任一种或多种组合。

进一步的，将所述使用者语音数据与声音数据库中的预设语音数据进行匹配包括下述步骤：

获取使用者语音数据中的唤醒词；

将所述唤醒词与声音数据库中的预设唤醒词进行匹配；

匹配成功则对所述唤醒词之后的使用者语音数据与声音数据库中的预设语音数据进行匹配；

当所述使用者语音数据与所述预设语音数据匹配成功时，获取与所述预设语音数据对应的情景信息；

所述唤醒词为预设于声音数据库中的固定词语。

进一步的，对所述唤醒词之后的使用者语音数据与声音数据库中的预设语音数据进行匹配包括下述步骤：

依次获取使用者语音数据中单个字的波形图；

将所述单个字的波形图和预存于声音数据库中语音数据的单字波形图的横轴纵轴归一化，得到含有多个直方的两个直方图；

计算所述两个直方图中的所有对应直方的均方误差，并进行匹配判断；

当所述均方误差小于预设的阈值，则认定两个字匹配；

重复上述步骤，直到所述使用者语音数据中最后一个字也匹配；

所述均方误差公式为：

其中Dn为使用者语音数据单个字直方图中的单个直方值，

dn为预存于声音数据库中语音数据单字直方图中的单个直方值，

n为直方个数。

进一步的，所述声纹特征信息提取采用线性预侧系数或者梅尔频率倒谱系数方式提取。

本发明实施还提供一种基于声纹注册的增强现实装置，其中，所述装置包括：

声纹特征获取模块，用于获取拾音装置采集的现场使用者语音数据，并从所述使用者语音数据中提取使用者声纹特征信息；

声纹特征匹配模块，用于将所述用者声纹特征信息与预先保存的管理者声纹特征信息进行匹配，判断所述使用者是否为终端设备管理者；

语音匹配与情景获取模块，用于当所述使用者为终端设备管理者时，将所述使用者语音数据与声音数据库中的预设语音数据进行匹配，匹配成功时获取与所述预设语音数据对应的情景信息；

展示模块，用于将所述情景信息通过增强现实技术进行展示；

进一步的，所述语音匹配与场景获取模块包括：

唤醒词获取模块，用于获取使用者语音数据中的唤醒词；

唤醒词匹配模块，用于将所述唤醒词与声音数据库中的预设唤醒词进行匹配；

语音匹配模块，用于当匹配成功时则对所述唤醒词之后的使用者语音数据与声音数据库中的预设语音数据进行匹配；

语音情景信息获取模块，用于当所述使用者语音数据与所述预设语音数据匹配成功时，获取与所述预设语音数据对应的情景信息；

所述唤醒词为预设于声音数据库中的固定词语。

进一步的，所述语音匹配模板包括：

波形图获取模块，用于依次获取使用者语音数据中单个字的波形图；

直方图生成模块，用于将所述单个字的波形图和预存于声音数据库中语音数据的单字波形图的横轴纵轴归一化，得到含有多个直方的两个直方图；

均方误差生成模块，用于计算所述两个直方图中的所有对应直方的均方误差，并进行匹配判断；

匹配判断模块，用于当所述均方误差小于预设的阈值，则认定两个字匹配；

循环模块，用于重复上述步骤，直到所述使用者语音数据中最后一个字也匹配；

所述均方误差公式为：

其中Dn为使用者语音数据单个字直方图中的单个直方值，

n为直方个数。

本发明实施例的基于声纹注册的增强现实方法，将拾音装置采集的现场使用者语音数据提取使用者声纹特征信息，并与预先保存的管理者声纹特征信息进行匹配，当所述使用者为终端设备管理者时将所述使用者语音数据与声音数据库中的预设语音数据进行匹配，匹配成功时获取与所述预设语音数据对应的情景信息并通过增强现实技术进行展示，使得AR语音识别能够限定于特定的人员进行语音控制，仅有指定权限的人说出某些话时才触发相应的AR场景，不同的人使用语音指令操作不同的游戏对象，并在在其对应的现实场景中叠加炫酷的游戏效果，大大增强了AR游戏的娱乐性和体验感。

附图说明

图1是本发明实施例提供的基于声纹注册的增强现实方法的流程图；

图2是本发明实施例提供的使用者语音数据与预设语音数据进行匹配的流程图；

图3是本发明实施例提供的唤醒词之后的使用者语音数据与声音数据库中的预设语音数据进行匹配的流程图；

图4是本发明实施例提供的基于声纹注册的增强现实装置的结构图；

图5是本发明实施例提供的语音匹配与场景获取模块的结构图；

图6是本发明实施例提供的语音匹配模块的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的基于声纹注册的增强现实方法的实现流程，

在步骤S101中，获取拾音装置采集的现场使用者语音数据，并从所述使用者语音数据中提取使用者声纹特征信息；

本发明实施例中的拾音装置可以是与AR设备连接的独立语音采集设备如专用的MIC，也可以是集成于AR设备上的语音采集模块，采集到AR设备使用者的语音数据后，传输给AR设备进行声纹特征信息的提取。

在本发明实施例中，所述声纹特征信息提取采用线性预侧系数或者梅尔频率倒谱系数方式提取。

在步骤S102中，将所述用者声纹特征信息与预先保存的管理者声纹特征信息进行匹配，判断所述使用者是否为终端设备管理者；

在提取使用者的声纹特征信息后，与预先存储的管理者声纹特征信息进行匹配，进行AR设备使用者身份的识别，使用者身份包括该设备的管理者和非管理者，管理者才有权使用该AR设备进行语音控制，一台AR设备的管理者可以有多个，管理者的身份为预先设置并保存，管理者声纹特征信息以及身份识别数据可以存储于本地的AR设备，也可以存储于与AR设备网络连接的服务器端。

在步骤S103中，当所述使用者为终端设备管理者时，将所述使用者语音数据与声音数据库中的预设语音数据进行匹配，匹配成功时获取与所述预设语音数据对应的情景信息；

只有当使用者的声纹特征信息与AR设备管理者的声纹特征信息匹配成功时，才会对使用者的全部语音数据继续进行语音的识别，与声音数据库中预先保存的语音数据进行匹配，如果声音数据库中保存有该段语音，则获取该语音对应的情景信息，在本发明实施例中，所述情景信息包括文字、图片、语音、视频中任一种或多种组合。在本发明的其他实施例中，声音数据库中预先保存的语音数据的对应数据也可以是执行指令用以控制AR设备的操作。

在步骤S104中，将所述情景信息通过增强现实技术进行展示；

将步骤S103中获取的情景信息通过AR技术在AR设备终端进行展示。

图2示出了本发明实施例提供的使用者语音数据与声音数据库中的预设语音数据进行匹配的实现流程，

在步骤S201中，获取使用者语音数据中的唤醒词；

本发明实施例中，会首先识别使用者语音数据中是否存在唤醒词，所述唤醒词为预设于声音数据库中的固定词语，如一段AR游戏的语音起始控制语音指令“开始”，只有存在“开始”这个唤醒词时，才对使用者语音数据中的后续语音进行识别匹配。

在步骤S202中，将所述唤醒词与声音数据库中的预设唤醒词进行匹配；

在步骤S203中，匹配成功则对所述唤醒词之后的使用者语音数据与声音数据库中的预设语音数据进行匹配；

在步骤S204中，当所述使用者语音数据与所述预设语音数据匹配成功时，获取与所述预设语音数据对应的情景信息；

图3示出了本发明实施例提供的唤醒词之后的使用者语音数据与声音数据库中的预设语音数据进行匹配的实现流程，

在步骤S301中，依次获取使用者语音数据中单个字的波形图；

在对使用者语音数据中唤醒词之后的语音数据进行逐字的识别。

在步骤S302中，将所述单个字的波形图和预存于声音数据库中语音数据的单字波形图的横轴纵轴归一化，得到含有多个直方的两个直方图；

在步骤S303中，计算所述两个直方图中的所有对应直方的均方误差，并进行匹配判断；

所述均方误差公式为：

其中Dn为使用者语音数据单个字直方图中的单个直方值，

n为直方个数。

在步骤S304中，当所述均方误差小于预设的阈值，则认定两个字匹配；

在本发明实施例中，如果识别计算过程中存在多个小于预设阈值的值，则取均方误差最小的值为匹配的字。

在步骤S305中，重复上述步骤，直到所述使用者语音数据中最后一个字也匹配。

图4示出了本发明实施例提供的基于声纹注册的增强现实装置的结构，包括：

声纹特征获取模块41，用于获取拾音装置采集的现场使用者语音数据，并从所述使用者语音数据中提取使用者声纹特征信息；

声纹特征匹配模块42，用于将所述用者声纹特征信息与预先保存的管理者声纹特征信息进行匹配，判断所述使用者是否为终端设备管理者；

语音匹配与情景获取模块43，用于当所述使用者为终端设备管理者时，将所述使用者语音数据与声音数据库中的预设语音数据进行匹配，匹配成功时获取与所述预设语音数据对应的情景信息；

展示模块44，用于将所述情景信息通过增强现实技术进行展示；

图5示出了本发明实施例提供的语音匹配与场景获取模块的结构，包括：

唤醒词获取模块51，用于获取使用者语音数据中的唤醒词；

唤醒词匹配模块52，用于将所述唤醒词与声音数据库中的预设唤醒词进行匹配；

语音匹配模块53，用于当匹配成功时则对所述唤醒词之后的使用者语音数据与声音数据库中的预设语音数据进行匹配；

语音情景信息获取模块54，用于当所述使用者语音数据与所述预设语音数据匹配成功时，获取与所述预设语音数据对应的情景信息；

所述唤醒词为预设于声音数据库中的固定词语。

图6示出了本发明实施例提供的语音匹配模块的结构，包括：

波形图获取模块531，用于依次获取使用者语音数据中单个字的波形图；

直方图生成模块532，用于将所述单个字的波形图和预存于声音数据库中语音数据的单字波形图的横轴纵轴归一化，得到含有多个直方的两个直方图；

均方误差生成模块533，用于计算所述两个直方图中的所有对应直方的均方误差，并进行匹配判断；

匹配判断模块534，用于当所述均方误差小于预设的阈值，则认定两个字匹配；

循环模块535，用于重复上述步骤，直到所述使用者语音数据中最后一个字也匹配；

所述均方误差公式为：

其中Dn为使用者语音数据单个字直方图中的单个直方值，

n为直方个数。

本发明实施例提供的基于声纹注册的增强现实方法及装置，将拾音装置采集的现场使用者语音数据提取使用者声纹特征信息，并与预先保存的管理者声纹特征信息进行匹配，当所述使用者为终端设备管理者时将所述使用者语音数据与声音数据库中的预设语音数据进行匹配，匹配成功时获取与所述预设语音数据对应的情景信息并通过增强现实技术进行展示，使得AR语音识别能够限定于特定的人员进行语音控制，仅有指定权限的人说出某些话时才触发相应的AR场景，不同的人使用语音指令操作不同的游戏对象，并在在其对应的现实场景中叠加炫酷的游戏效果，大大增强了AR游戏的娱乐性和体验感。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声纹注册的增强现实方法，其特征在于，所述方法包括下述步骤：

将所述情景信息通过增强现实技术进行展示；

2.根据权利要求1所述的基于声纹注册的增强现实方法，其特征在于，将所述使用者语音数据与声音数据库中的预设语音数据进行匹配包括下述步骤：

获取使用者语音数据中的唤醒词；

将所述唤醒词与声音数据库中的预设唤醒词进行匹配；

所述唤醒词为预设于声音数据库中的固定词语。

3.根据权利要求2所述的基于声纹注册的增强现实方法，其特征在于，对所述唤醒词之后的使用者语音数据与声音数据库中的预设语音数据进行匹配包括下述步骤：

依次获取使用者语音数据中单个字的波形图；

当所述均方误差小于预设的阈值，则认定两个字匹配；

所述均方误差公式为：

其中Dn为使用者语音数据单个字直方图中的单个直方值，

n为直方个数。

4.根据权利要求1所述的基于声纹注册的增强现实方法，其特征在于，所述声纹特征信息提取采用线性预侧系数或者梅尔频率倒谱系数方式提取。

5.一种基于声纹注册的增强现实装置，其特征在于，所述装置包括：

6.根据权利要求5所述的基于声纹注册的增强现实装置，其特征在于，所述语音匹配与场景获取模块包括：

唤醒词获取模块，用于获取使用者语音数据中的唤醒词；

所述唤醒词为预设于声音数据库中的固定词语。

7.根据权利要求6所述的基于声纹注册的增强现实装置，其特征在于，所述语音匹配模板包括：

所述均方误差公式为：

其中Dn为使用者语音数据单个字直方图中的单个直方值，

n为直方个数。

8.根据权利要求5所述的基于声纹注册的增强现实装置，其特征在于，所述声纹特征信息提取采用线性预侧系数或者梅尔频率倒谱系数方式提取。