CN112270921B

CN112270921B - 一种自动语音开关控制系统

Info

Publication number: CN112270921B
Application number: CN202011229967.9A
Authority: CN
Inventors: 徐健明
Original assignee: Guangzhou Institute of Technology
Current assignee: Guangzhou Institute of Technology
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2024-01-02
Anticipated expiration: 2040-11-06
Also published as: CN112270921A

Abstract

本发明提供了一种自动语音开关控制系统，包括控制器、用户端、语音模块、驱动机构和通信协议，用户端通过通信协议与控制器控制连接，语音模块与控制器控制连接，控制器与驱动机构驱动连接。本发明通过语音识别装置的识别后，并搭配语音存储装置、验证装置和通信装置的配合，使得整个语音控制系统进行控制，保证整个系统的精确的控制，语音识别装置识别各个语音记录的音素后通过各个语音进行识别，再利用通信装置对整个装置进行集中的控制，驱动控制开发的通断，实现高效的控制效果，通过语音识别装置的语音识别方法对冠外各个语音记录进行识别把并对各个语音对应的音素块进行识别，保证各个语音进行不同的控制效果。

Description

一种自动语音开关控制系统

技术领域

本发明涉及语音开关技术领域，尤其涉及一种自动语音开关控制系统。

背景技术

现有技术通过WiFi直接控制的控制方式，控制的终端数量少，而且WiFi信号的衰减较快，传输距离短。控制终端设计需采用一个终端一个WiFi芯片，生产成本高，售卖价格高。要实现语音控制需要购买语音助手，价格高，不能够对控制的数据进行记录，且该记录极大的不方便用户和维修人员查看。如CN201510815428.6现有技术公开了一种语音控制方法及语音控制系统，目前市面上的作业系统多有提供个人语音助理系统。这些个人语音助理系统除了可提供对答的功能之外，由于声音控制具有人性化且简单操作的特点，利用声控来控制其他装置的方式越来越普遍。例如，智能家庭服务或是物联网即有提供声控功能。然而，一般个人语音助理系统的设计仅考虑用户位于装置附近的情况，故也仅是通过配置在装置上的收音器及发音器以与用户进行对话。一旦用户不在装置附近，便无法使用个人语音助理系统的功能。现有技术虽可通过蓝牙装置来操作个人语音助理系统，但受限于蓝牙技术的传输距离，仍只能提供在近端的用户对个人语音助理系统进行操作。另一种典型的如US07801730B1的现有技术公开的一种汽车语音识别控制系统，由于这样的装置是由语音识别进行控制，因此即使当驱动期间，也能够对汽车实现容易操作而不危及完全。根据常规的语音识别控制系统，通过把预寄存的CD播放器、MD播放器和汽车导航仪连接到专用总线，通过语音识别就可以控制它们的输入/输出。然而，根据常规的语音识别控制系统，只有在语音识别控制系统中先前寄存的整个的语音识别电子设备的每一个都连接到专用总线，才识别它们，从而通过语音识别执行控制。因此，当已经连接了适合于语音识别的任何未寄存的电子设备(例如，新型电子或其它的公司出品的设备)时，由于仅存在已寄存的电子设备的控制信息，因此不识别这个装置。因此，即使该电子设备是适合于语音识别的那些电子设备，也会出现某些问题，包括：寄存手续复杂；和随每个装置的类型而寄存的内容是不同的问题，因此通过语音识别就不可能对它们执行正确的控制。再来看如JP2001042884A的现有技术公开的一种语音识别控制系统，该系统控制具有事先记录的语音识别表的每个电子设备的输入/输出，在每个电子设备中预先储存操作者的语音作为期望值。该控制系统包括输入操作者的语音输入装置，以及通过识别由该语音输入装置输入的操作者的语音控制电子设备的输入/输出的控制装置。当已经把任何未寄存的电子设备连接到该控制装置时，控制该电子设备的输入/输出。而且根据操作者的语音与该语音识别表的比较结果控制该电子设备的输入/输出。另外，该设备可能由于平台或者硬件原因的限制无法通过软件升级来实现语音控制的功能。此外，目前，该设备若想要实现语音控制功能，一般要安装有语音识别系统，比较复杂，成本较高，语音控制所支持的内容有限，识别的范围和识别率也不高。

为了解决本领域普遍存在语音识别不高、识别方法不佳和语音控制存在的缺陷等等问题，作出了本发明。

发明内容

本发明的目的在于，针对目前自动语音开关控制系统所存在的不足，提出了一种自动语音开关控制系统。

为了克服现有技术的不足，本发明采用如下技术方案：

一种自动语音开关控制系统，包括控制器、用户端、语音模块、驱动机构和通信协议，所述用户端通过所述通信协议与所述控制器控制连接，所述语音模块与所述控制器控制连接，所述控制器与所述驱动机构驱动连接。

可选的，所述语音模块包括语音识别装置、语音存储装置、验证装置和通信装置，所述语音存储装置存储所述语音识别装置的记录的各条语音记录，各个所述存储装置连接并形成所述语音存储库，所述验证装置负责验证所述语音存储装置内的语音记录，所述通信装置与所述控制器通信连接。

可选的，所述语音识别装置还包括语音识别方法，所述语音识别方法包括：计算出存储在所述语音存储库中的语音特征以及基于所述语音特征训练好的区别模型确定所述语音记录中的身份特征。

可选的，所述区别模型的训练包括：构建语音数据库，所述语音数据库包括多个语音以及每个语音对应的标志，所述标志指示所述身份的特征信息。

可选的，所述区别模型的训练中：所述计算语音数据库中的每个语音记录的语音特征包括：将每个语音记录的音高归一化；在音高归一化后的每个语音记录中采集第一预定数目的不同尺寸的音素块；以及计算每个音素块的语音特征，所述基于所述标签和所计算的每个语音记录的语音特征构建训练集包括：基于每个音素块的标签和所计算的每个音素块的语音特征构建训练集，其中，每个音素块的标签为其所源自的语音的标签。

可选的，所述计算给定每个音素块的语音特征包括：将每个语音记录的音高归一化；在音高归一化后的每个语音记录中采集第二预定数目的不同尺寸的音素块以及计算每个音素块的语音特征。

可选的，所述基于所计算的音素特征利用训练好的区别模型确定所述给定语音记录中的语音中的音素包括：将所计算的所述第二预定数目的音素块的语音特征分别输入到所述区别模型以得到多个识别结果；以及对所述多个识别结果取平均值作为所述给定语音记录中的语音的最终识别结果。

本发明所取得的有益效果是：

1.通过语音识别装置的识别后，并搭配语音存储装置、验证装置和通信装置的配合，使得整个语音控制系统进行控制，保证整个系统的精确的控制；

2.所述语音识别装置识别各个语音记录的音素后通过各个语音进行识别，再利用通信装置对整个装置进行集中的控制，驱动控制开发的通断，实现高效的控制效果；

3.通过语音识别装置的语音识别方法对冠外各个语音记录进行识别把并对各个语音对应的音素块进行识别，保证各个语音进行不同的控制效果。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在不同的视图中，相同的附图标记指定对应的部分。

图1为本发明的一种自动语音开关控制系统的控制框图。

图2为本发明的一种自动语音开关控制系统的所述客户端的工作流程图。

图3为本发明的一种自动语音开关控制系统的控制器工作的工作流程图。

图4为本发明的一种自动语音开关控制系统的所述语音识别装置的工作流程图。

具体实施方式

为了使得本发明的目的.技术方案及优点更加清楚明白，以下结合其实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。对于本领域技术人员而言，在查阅以下详细描述之后，本实施例的其它系统.方法和/或特征将变得显而易见。旨在所有此类附加的系统.方法.特征和优点都包括在本说明书内.包括在本发明的范围内，并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征，并且这些特征根据以下将详细描述将是显而易见的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”.“下”.“左”.“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位.以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例一：一种自动语音开关控制系统，包括控制器、用户端、语音模块、驱动机构和通信协议，所述用户端通过所述通信协议与所述控制器控制连接，所述语音模块与所述控制器控制连接，所述控制器与所述驱动机构驱动连接。所述语音模块包括语音识别装置、语音存储装置、验证装置和通信装置，所述语音存储装置存储所述语音识别装置的记录的各条语音记录，各个所述存储装置连接并形成所述语音存储库，所述验证装置负责验证所述语音存储装置内的语音记录，所述通信装置与所述控制器通信连接。所述语音识别装置还包括语音识别方法，所述语音识别方法包括：计算出存储在所述语音存储库中的语音特征以及基于所述语音特征训练好的区别模型确定所述语音记录中的身份特征。所述区别模型的训练包括：构建语音数据库，所述语音数据库包括多个语音以及每个语音对应的标志，所述标志指示所述身份的特征信息。所述区别模型的训练中：所述计算语音数据库中的每个语音记录的语音特征包括：将每个语音记录的音高归一化；在音高归一化后的每个语音记录中采集第一预定数目的不同尺寸的音素块；以及计算每个音素块的语音特征，所述基于所述标签和所计算的每个语音记录的语音特征构建训练集包括：基于每个音素块的标签和所计算的每个音素块的语音特征构建训练集，其中，每个音素块的标签为其所源自的语音的标签。所述计算给定每个音素块的语音特征包括：将每个语音记录的音高归一化；在音高归一化后的每个语音记录中采集第二预定数目的不同尺寸的音素块以及计算每个音素块的语音特征。所述基于所计算的音素特征利用训练好的区别模型确定所述给定语音记录中的语音中的音素包括：将所计算的所述第二预定数目的音素块的语音特征分别输入到所述区别模型以得到多个识别结果；以及对所述多个识别结果取平均值作为所述给定语音记录中的语音的最终识别结果。

实施例二：一种自动语音开关控制系统，包括控制器、用户端、语音模块、驱动机构和通信协议，所述用户端通过所述通信协议与所述控制器控制连接，所述语音模块与所述控制器控制连接，所述控制器与所述驱动机构驱动连接。所述语音模块包括语音识别装置、语音存储装置、验证装置和通信装置，所述语音存储装置存储所述语音识别装置的记录的各条语音记录，各个所述存储装置连接并形成所述语音存储库，所述验证装置负责验证所述语音存储装置内的语音记录，所述通信装置与所述控制器通信连接。在本实施例中，所述通信装置包括WiFi模块、信号调理装置，所述信号调理装置，优选的采用长距离传输的过程中不会衰减的传输装置，在本实施例中，所述传输装置采用最佳的传播距离为一百米的范围内进行传播而不会存在信号衰减的现象。另外，本实施例中，还设有记录设备开机开、关的情况，使得整个设备能够在记录并保存在专门记录的存储器中，当操作人员或者设备拥有者对设备进行维护时，能够调出设备的使用记录，方便对整个设备进行维护。另外，所述设备还设有语音助手设计，该语音设计助手设计为硬件和软件两种，用户可以将APP设计为语音人机交互模式进行语音开关控制，也可以购买硬件语音助手，使得开关控制更方便，具体的，用户端与所述控制器进行控制连接，在连接的过程中，通过停TCP协议进行连接，保证所述用户端与所述控制器连接的质量，更加的保证连接链路的高效的工作。所述控制器也在实时的接收所述语音模块对周围环境进行的识别并把多余的噪音进行初步的过滤，保证进入所述语音存储装置中的语音记录不会太多、太杂。同时，也对整个装置的控制质量起到提高的作用。所述控制器把整理后的语音进行整理形成控制流，利用若干个信号调理装置进行信号的传输。当所述信后调理装置接收到上一个所述信号调理装置后，能够配对并形成传输的链路，形成一个稳定的控制流。所述装置还设有验证装置，所述验证装置通过验证语音记录中的音素的分贝进行分别，同时，生成一个检验码。所述检验码是跟随所述控制流中的全过程，当控制的操作进行完毕并对所述开关控制进行控制后，该验证码就会失效。失效后的所述验证码在下一次的验证中再次的使用中，不会生效。客户端分别提取验证码包括非校验部分G和校验部分H，然后根据非校验部分G和流水号计算HMAC，核对计算的HMAC是否与H部分相等，若二者不同，则判断验证码为非法验证码，重新向服务器发出验证码生成请求；若二者相等，则判断收到的为合法的验证码，然后将验证码的非校验部分呈现给用户。用户在客户端相应位置输入自己的ID和密码等个人信息，并根据验证码的验证信息输入相应内容。客户端根据用户的输入的验证信息和用户信息及流水号计算验证信息的HMAC作为验证信息的校验部分。校验部分与验证信息一起生成带校验的验证信息，客户端将用户的个人信息和带校验的验证信息加密后传输给服务器。带校验的验证码也可以由客户端本身产生，这时要求客户端包含验证码生成单元，当用户登录系统时，客户端根据用户的输入生成相应的验证码。所述控制器收到客户端传来的验证码之后，首先判断客户端的返回是否超时，若客户端的返回超时，则提示客户端返回超时并重新产生验证码发送给客户端；若通信未超时，则对客户端发来的内容进行解密，判断用户输入的验证信息是否正确，若验证信息不正确，则提示客户端返回的验证信息错误并重新产生验证码发送给客户端；若验证信息正确，则进一步核对用户的ID和密码是否正确，若用户的ID或密码是否错误，则提示客户端用户输入的ID或密码错误并重新产生验证码发送给客户端；若用户的ID和密码都正确，则通知客户端进入服务引导界面，然后用户可以选择发起控制操作。另外，所述客户端在与所述控制器进行连接的过程中，所述客户端能够进行采音的操作，保证所有音能够进入所述控制器中

所述语音识别装置还包括语音识别方法，所述语音识别方法包括：计算出存储在所述语音存储库中的语音特征以及基于所述语音特征训练好的区别模型确定所述语音记录中的身份特征。具体的，所述训练模型能够在日程的训练的过程中，进行针对性的操作，使得所述训练的所述区别模型更加的高效且可靠。在上述的区别模型中，所述区别模型需要进行多次的训练并在训练中，把所述区别模型的最佳的工作状态训练到最佳的状态。

所述区别模型的训练包括：构建语音数据库，所述语音数据库包括多个语音以及每个语音对应的标志，所述标志指示所述身份的特征信息。

所述区别模型的训练中：所述计算语音数据库中的每个语音记录的语音特征包括：将每个语音记录的音高归一化；在音高归一化后的每个语音记录中采集第一预定数目的不同尺寸的音素块；以及计算每个音素块的语音特征，所述基于所述标签和所计算的每个语音记录的语音特征构建训练集包括：基于每个音素块的标签和所计算的每个音素块的语音特征构建训练集，其中，每个音素块的标签为其所源自的语音的标签。具体的，现在回到字体识别方法，在训练的步骤中所述区别模型可以通过训练得到。

步骤一：计算给定语音记录的音素特征。示例性地，区别模型的训练可以包括如下步骤1～4：(1)：收集一组包含音素的录音片段。对于每一帧音素片段进行标注，标注标签指明其中的语音记录的音素，构建一个音素数据库。(2)：对于音素数据库中的每一帧音素I，计算其特征x，特征的计算方法类似于上文所述的对音素的特征和/或音高特征的计算，因此此处不再赘述。(3)：将所有语音的特征和标签汇总，得到一个训练集，所述训练集可以表示为：S＝{xi,yi},i＝1,2,...N，其中N为音素数据库中音素的数目，xi为音素I i的特征向量，yi为音素I i的标签，该标签指明音素I i中的音素的音高和特征。(4)：采用随机森林算法，在训练集S上训练一个区别模型。基于训练好的区别模型，对于给定的区别音素J，在步骤二中可以将在步骤一计算得到的音素特征x(J)输入到区别模型，得到识别结果y(J)。y(J)指明区别音素J中的音素的特征。根据本发明的一个实施例，在区别模型的训练中，步骤(2)可以包括：将每个语音记录的音高归一化；在音高归一化后的每个语音记录中采集第一预定数目的不同尺寸的音素块；以及计算每个音素块的语音特征。例如，对于音素特征数据库中的音素I，对其进行高度归一化，例如将其音高缩放到标准音高(如32DB)，同时保持其音量比不变。在高度归一化之后的音素中随机采集P个不同尺度的音素块(也即子音素)，其中P为参数，其典型值例如可以为50。这些音素块的音高和音量相等，音高和音量壁的特征例如可以在区间[16,64]内随机变化。所述计算给定每个音素块的语音特征包括：将每个语音记录的音高归一化；在音高归一化后的每个语音记录中采集第二预定数目的不同尺寸的音素块以及计算每个音素块的语音特征。所述基于所计算的音素特征利用训练好的区别模型确定所述给定语音记录中的语音中的音素包括：将所计算的所述第二预定数目的音素块的语音特征分别输入到所述区别模型以得到多个识别结果；以及对所述多个识别结果取平均值作为所述给定语音记录中的语音的最终识别结果。

综上所述，本发明的一种自动语音开关控制系统，通过语音识别装置的识别后，并搭配语音存储装置、验证装置和通信装置的配合，使得整个语音控制系统进行控制，保证整个系统的精确的控制；所述语音识别装置识别各个语音记录的音素后通过各个语音进行识别，再利用通信装置对整个装置进行集中的控制，驱动控制开发的通断，实现高效的控制效果；通过语音识别装置的语音识别方法对冠外各个语音记录进行识别把并对各个语音对应的音素块进行识别，保证各个语音进行不同的控制效果。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。也就是说上面讨论的方法，系统和设备是示例。各种配置可以适当地省略，替换或添加各种过程或组件。例如，在替代配置中，可以以与所描述的顺序不同的顺序执行方法，和/或可以添加，省略和/或组合各种部件。而且，关于某些配置描述的特征可以以各种其他配置组合，如可以以类似的方式组合配置的不同方面和元素。此外，随着技术发展其中的元素可以更新，即许多元素是示例，并不限制本公开或权利要求的范围。

在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置例如，已经示出了众所周知的电路，过程，算法，结构和技术而没有不必要的细节，以避免模糊配置。该描述仅提供示例配置，并且不限制权利要求的范围，适用性或配置。相反，前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置进行各种改变。

综上，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种自动语音开关控制系统，包括控制器、用户端、语音模块、驱动机构和通信协议，其特征在于，所述用户端通过所述通信协议与所述控制器控制连接，所述语音模块与所述控制器控制连接，所述控制器与所述驱动机构驱动连接；

所述语音模块包括语音识别装置、语音存储装置、验证装置和通信装置，所述语音存储装置存储所述语音识别装置的记录的各条语音记录，各个所述存储装置连接并形成语音存储库，所述验证装置负责验证所述语音存储装置内的语音记录，所述通信装置与所述控制器通信连接；

所述语音识别装置还包括语音识别方法，所述语音识别方法包括：计算出存储在所述语音存储库中的语音特征以及基于所述语音特征训练好的区别模型确定所述语音记录中的身份特征；

其中，区别模型的训练包括以下步骤：

收集一组包含音素的录音片段，对于每一帧音素片段进行标注，标注标签指明其中的语音记录的音素，构建一个音素数据库；

对于音素数据库中的每一帧音素I，计算每一帧音素I的特征x；

将所有语音的特征和标签汇总，得到一个训练集，所述训练集表示为：S＝{xi,yi},i＝1,2,...N，其中N为音素数据库中音素的数目，xi为音素I i的特征向量，yi为音素I i的标签，该标签指明音素I i中的音素的音高和特征；

采用随机森林算法，在训练集S上训练一个区别模型；

其中，区别模型的训练中：计算语音数据库中的每个语音记录的语音特征包括：将每个语音记录的音高归一化；在音高归一化后的每个语音记录中采集第一预定数目的不同尺寸的音素块；以及计算每个音素块的语音特征，基于所述标签和所计算的每个语音记录的语音特征构建训练集包括：基于每个音素块的标签和所计算的每个音素块的语音特征构建训练集，其中，每个音素块的标签为其所源自的语音的标签；

所述基于所计算的音素特征利用训练好的区别模型确定给定语音记录中的语音中的音素包括：将所计算的第二预定数目的音素块的语音特征分别输入到所述区别模型以得到多个识别结果；以及对所述多个识别结果取平均值作为所述给定语音记录中的语音的最终识别结果。

2.如权利要求1所述的一种自动语音开关控制系统，其特征在于，所述区别模型的训练包括：构建语音数据库，所述语音数据库包括多个语音以及每个语音对应的标志，所述标志指示所述身份的特征信息。

3.如权利要求2所述的一种自动语音开关控制系统，其特征在于，计算给定每个音素块的语音特征包括：将每个语音记录的音高归一化；在音高归一化后的每个语音记录中采集第二预定数目的不同尺寸的音素块以及计算每个音素块的语音特征。

4.如权利要求3所述的一种自动语音开关控制系统，其特征在于，所述基于所计算的音素特征利用训练好的区别模型确定所述给定语音记录中的语音中的音素包括：将所计算的所述第二预定数目的音素块的语音特征分别输入到所述区别模型以得到多个识别结果；以及对所述多个识别结果取平均值作为所述给定语音记录中的语音的最终识别结果。