CN116564280B

CN116564280B - 基于语音识别的显示器控制方法、装置以及计算机设备

Info

Publication number: CN116564280B
Application number: CN202310813392.2A
Authority: CN
Inventors: 刘建华
Original assignee: Shenzhen Ostar Display Electronics Co ltd
Current assignee: Shenzhen Ostar Display Electronics Co ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-08
Anticipated expiration: 2043-07-05
Also published as: CN116564280A

Abstract

本发明提供一种基于语音识别的显示器控制方法、装置以及计算机设备，包括在显示器上发出语音提醒，提醒用户是否进行控制权限的配置；若用户选择进行控制权限的配置时，获取显示器的设备号；基于显示器的设备号生成一个配置编号，将配置编号分割为第一配置编号以及第二配置编号；将第一配置编号发送至与显示器绑定的管理终端；采集用户通过语音输入的目标配置编号，将目标配置编号与第二配置编号进行组合得到组合配置编号；判断与配置编号是否相同，若相同，则提取出对应的语音特征；将语音特征存储在数据库中，并针对语音特征对应的用户配置控制权限。在本发明中，为用户配置控制权限，避免多人同时进行语音控制时造成显示器控制混乱。

Description

基于语音识别的显示器控制方法、装置以及计算机设备

技术领域

本发明涉及语音识别技术领域，特别涉及一种基于语音识别的显示器控制方法、装置以及计算机设备。

背景技术

随着显示器技术的成熟，显示器的使用进入各行各业中。传统的显示器控制方法需要使用鼠标、遥控器、键盘等外设进行操作，操作过程繁琐，且需要手动输入指令。

随着智能家居和人机交互技术的不断发展，语音识别技术在各种场景中得到了广泛应用。目前，市面上已经有一些可以通过语音控制电视、空调等家电设备的产品，但是针对显示器的语音控制技术尚未得到很好的解决。尤为重要的是，通过语音控制显示器由于控制权限不好划分，会造成多人同时进行语音控制时造成显示器控制混乱。

发明内容

本发明的主要目的为提供一种基于语音识别的显示器控制方法、装置以及计算机设备，旨在克服通过语音控制显示器的控制权限不好划分的缺陷。

为实现上述目的，本发明提供了一种基于语音识别的显示器控制方法，包括以下步骤：

在显示器上发出语音提醒，提醒用户是否进行控制权限的配置；

采集用户的应答语音信息，并进行语音识别，得到对应的识别结果；若所述识别结果为所述用户选择进行控制权限的配置时，获取显示器的设备号；

基于所述显示器的设备号生成一个配置编号，将所述配置编号分割为第一配置编号以及第二配置编号；将所述第一配置编号发送至与所述显示器绑定的管理终端；

发出语音提醒，提示用户语音输入所述第一配置编号；其中，所述用户在管理终端获取所述第一配置编号；

采集用户通过语音输入的目标配置编号，并将所述目标配置编号与第二配置编号进行组合，得到组合配置编号；

判断所述组合配置编号与所述配置编号是否相同，若相同，则从所述用户的语音中提取出对应的语音特征；

将所述语音特征存储在数据库中，并针对所述语音特征对应的所述用户配置控制权限；其中，具有所述控制权限的所述用户可通过语音信息对显示器进行控制。

进一步地，所述将所述语音特征存储在数据库中，并针对所述语音特征对应的所述用户配置控制权限的步骤之后，还包括：

采集用户的语音控制信息；

基于降噪模型对所述语音控制信息进行降噪处理，得到降噪语音，对所述降噪语音进行特征提取，得到对应的语音特征；

基于所述语音特征，判断所述用户是否具有控制权限；若具有，则基于语音识别模型对所述降噪语音进行语音识别，得到对应的文本信息；基于所述文本信息匹配对应的控制指令，以对显示器进行控制。

进一步地，所述降噪模型以及语音识别模型的训练方式，包括：

获取训练语音数据；其中，所述训练语音数据包括训练语音以及对应的语音标签；

将所述训练语音输入至语音嵌入层中，得到对应的第一特征向量；

将所述第一特征向量输入至语音编码器中，编码得到对应的第一编码特征向量；

将所述第一编码特征向量输入至语音解码器中，解码得到对应的解码数据；其中，所述解码数据为语音数据；

将所述解码数据输入至所述语音嵌入层中，得到对应的第二特征向量；

将所述第二特征向量输入至语音编码器中，编码得到对应的第二编码特征向量；

将所述第一编码特征向量、第二编码特征向量以及所述训练语音对应的语音标签输入至分类层中，基于反向传播算法迭代进行训练，调整所述语音解码器、语音解码器以及分类层的模型参数，直至模型收敛；将所述语音嵌入层、语音编码器以及分类层组成的模型作为语音识别模型；将所述语音嵌入层以及所述语音解码器组成的模型作为降噪模型。

获取初始语音识别模型集以及初始降噪模型；其中，所述初始语音识别模型集中包括多个初始语音识别模型，各个所述初始语音识别模型包括全连接层以及分类层；

将所述训练语音输入至各个所述初始语音识别模型中，通过各个所述始语音识别模型的全连接层提取对应的语音特征，并输入至各自对应的分类层中进行预测分类，使得预测分类的结果与对应的语音标签相同，得到训练完成的语音识别模型集；其中，语音识别模型集中的任意一个模型均可作为一个语音识别模型；

基于训练完成的语音识别模型集中的各个语音识别模型的全连接层提取所述训练语音的训练特征；将各个所述语音识别模型的全连接层提取的训练特征进行融合计算，得到对应的融合特征；

将所述融合特征以及所述训练语音对应的文本内容，输入至所述初始降噪模型中进行训练，模型收敛之后得到训练完成的降噪模型。

进一步地，所述方法还包括：

接收路由器依序发送的多个信标信号，多个信标信号按照发送顺序组成信标序列；

对所述信标序列末尾的信标信号分别进行检测，检测各个信标信号中是否包括第一指定数据；

若包括第一指定数据，则检测出包括第一指定数据的信标信号数量为x，作为第一数量；

从所述信标序列中，检测出排列在第x位上的目标信标信号；

对所述目标信标信号进行解析，获取所述目标信标信号中携带的路由名称以及路由密码；

基于路由名称以及路由密码，接入所述路由器提供的网络中。

进一步地，所述对所述目标信标信号进行解析的步骤，包括：

对所述信标序列中所有的信标信号进行检测，检测所述信标序列中包括第二指定数据的第二数量，以及检测所述信标序列中包括空白信标信号的第三数量；

基于编码表，对所述第一数量、第二数量以及第三数量分别进行编码，得到第一编码、第二编码以及第三编码；

将所述第一编码、第二编码以及第三编码进行组合，得到组合编码；

将所述组合编码作为解密密码，对所述目标信标信号进行解密，得到目标信标信号中携带的数据；其中，所述信标序列中的信标信号中只有所述目标信标信号经过加密处理。

进一步地，所述基于所述显示器的设备号生成一个配置编号的步骤，包括：

获取所述显示器的设备类型；基于所述设备类型在数据库中匹配对应的设备号提取规则；其中，数据库中存储有设备类型与设备号提取规则的对应关系；

基于所述设备号提取规则对所述设备号进行提取，从中提取出多个字符并组合得到组合字符；

基于所述设备类型在数据库中匹配对应的解码表；其中，数据库中存储有设备类型与解码表的对应关系；

基于匹配出的所述解码表对所述组合字符进行解码，得到对应的解码数字作为所述配置编号。

本发明还提供了一种基于语音识别的显示器控制装置，包括：

第一提醒单元，用于在显示器上发出语音提醒，提醒用户是否进行控制权限的配置；

第一采集单元，用于采集用户的应答语音信息，并进行语音识别，得到对应的识别结果；若所述识别结果为所述用户选择进行控制权限的配置时，获取显示器的设备号；

生成单元，用于基于所述显示器的设备号生成一个配置编号，将所述配置编号分割为第一配置编号以及第二配置编号；将所述第一配置编号发送至与所述显示器绑定的管理终端；

第二提醒单元，用于发出语音提醒，提示用户语音输入所述第一配置编号；其中，所述用户在管理终端获取所述第一配置编号；

第三提醒单元，用于采集用户通过语音输入的目标配置编号，并将所述目标配置编号与第二配置编号进行组合，得到组合配置编号；

判断单元，用于判断所述组合配置编号与所述配置编号是否相同，若相同，则从所述用户的语音中提取出对应的语音特征；

配置单元，用于将所述语音特征存储在数据库中，并针对所述语音特征对应的所述用户配置控制权限；其中，具有所述控制权限的所述用户可通过语音信息对显示器进行控制。

进一步地，还包括：

接收单元，用于接收路由器依序发送的多个信标信号，多个信标信号按照发送顺序组成信标序列；

第一检测单元，用于对所述信标序列末尾的信标信号分别进行检测，检测各个信标信号中是否包括第一指定数据；

第二检测单元，用于若包括第一指定数据，则检测出包括第一指定数据的信标信号数量为x，作为第一数量；

第三检测单元，用于从所述信标序列中，检测出排列在第x位上的目标信标信号；

解析单元，用于对所述目标信标信号进行解析，获取所述目标信标信号中携带的路由名称以及路由密码；

接入单元，用于基于路由名称以及路由密码，接入所述路由器提供的网络中。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明提供的基于语音识别的显示器控制方法、装置以及计算机设备，包括在显示器上发出语音提醒，提醒用户是否进行控制权限的配置；采集用户的应答语音信息，并进行语音识别，得到对应的识别结果；若所述识别结果为所述用户选择进行控制权限的配置时，获取显示器的设备号；基于所述显示器的设备号生成一个配置编号，将所述配置编号分割为第一配置编号以及第二配置编号；将所述第一配置编号发送至与所述显示器绑定的管理终端；发出语音提醒，提示用户语音输入所述第一配置编号；其中，所述用户在管理终端获取所述第一配置编号；采集用户通过语音输入的目标配置编号，并将所述目标配置编号与第二配置编号进行组合，得到组合配置编号；判断所述组合配置编号与所述配置编号是否相同，若相同，则从所述用户的语音中提取出对应的语音特征；将所述语音特征存储在数据库中，并针对所述语音特征对应的所述用户配置控制权限；其中，具有所述控制权限的所述用户可通过语音信息对显示器进行控制。在本发明中，为用户配置控制权限，具有控制权限的用户才可以通过语音信息对显示器进行控制；避免了多人同时进行语音控制时造成显示器控制混乱。

附图说明

图1是本发明一实施例中基于语音识别的显示器控制方法步骤示意图；

图2是本发明一实施例中基于语音识别的显示器控制装置结构框图；

图3是本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明一实施例中提供了一种基于语音识别的显示器控制方法，包括以下步骤：

步骤S1，在显示器上发出语音提醒，提醒用户是否进行控制权限的配置；

步骤S2，采集用户的应答语音信息，并进行语音识别，得到对应的识别结果；若所述识别结果为所述用户选择进行控制权限的配置时，获取显示器的设备号；

步骤S3，基于所述显示器的设备号生成一个配置编号，将所述配置编号分割为第一配置编号以及第二配置编号；将所述第一配置编号发送至与所述显示器绑定的管理终端；

步骤S4，发出语音提醒，提示用户语音输入所述第一配置编号；其中，所述用户在管理终端获取所述第一配置编号；

步骤S5，采集用户通过语音输入的目标配置编号，并将所述目标配置编号与第二配置编号进行组合，得到组合配置编号；

步骤S6，判断所述组合配置编号与所述配置编号是否相同，若相同，则从所述用户的语音中提取出对应的语音特征；

步骤S7，将所述语音特征存储在数据库中，并针对所述语音特征对应的所述用户配置控制权限；其中，具有所述控制权限的所述用户可通过语音信息对显示器进行控制。

在本实施例中，上述方案应用于显示器中对用户的控制权限进行配置；上述控制权限指的是用户可以通过发出语音信息进行控制的权限。可以理解的是，不具备上述控制权限的用户则无法通过语音信息进行显示器的控制，基于此，可以避免多人同时进行语音控制时造成的显示器控制混乱。

如上述步骤S1-S2所述的，首先上述显示器上设置有麦克风等音频装置，可以发出语音提醒，以提醒用户是否进行控制权限的配置。用户在接收到上述语音提醒之后，可以选择进行控制权限的配置，也可以选择不进行控制权限的配置。在本实施例中，用户可以通过发出语音信息进行应答，即发出对应的应答语音信息。显示器采集到上述应答语音信息之后，进行语音识别，得到对应的识别结果；上述识别结果即为用户选择是否进行控制权限的配置的选择结果。当上述识别结果为所述用户选择进行控制权限的配置时，获取显示器的设备号。进而如上述步骤S3所述的，采用预设的编号生成规则，基于所述显示器的设备号生成一个配置编号，采用预设分割规则将所述配置编号分割为第一配置编号以及第二配置编号；将所述第一配置编号发送至与所述显示器绑定的管理终端。将上述配置编号分割为第一配置编号以及第二配置编号的作用在于避免上述第一配置编号以及第二配置编号同时泄露。上述管理终端是上述显示器的归属用户的终端；任何用户若想要获取显示器的控制权限，则必须从上述管理终端获取上述第一配置编号。

如上述步骤S4-S7所述的，显示器发出语音提醒，提示用户语音输入所述第一配置编号；其中，所述用户在管理终端获取所述第一配置编号，若获取不到正确的第一配置编号，则该用户无法进行控制权限的配置；进而，采集用户通过语音输入的目标配置编号，并将所述目标配置编号与第二配置编号按照预设组合方式进行组合，得到组合配置编号；再判断所述组合配置编号与所述配置编号是否相同，若相同，则表明该用户具备管理终端上的管理用户认可的控制权限，此时可以为该用户赋予显示器的控制权限。最后，从所述用户的语音中提取出对应的语音特征；将所述语音特征存储在数据库中，并针对所述语音特征对应的所述用户配置控制权限；其中，具有所述控制权限的所述用户可通过语音信息对显示器进行控制。

在一实施例中，所述将所述语音特征存储在数据库中，并针对所述语音特征对应的所述用户配置控制权限的步骤之后，还包括：

采集用户的语音控制信息；

在本实施例中，为用户配置好控制权限之后，用户便可以基于语音信息进行显示器的控制。具体地，在实际使用中，可以采集用户的语音控制信息，为了提升后续语音识别的效果，还需要基于降噪模型对所述语音控制信息进行降噪处理，得到降噪语音；进而对所述降噪语音进行特征提取，得到对应的语音特征；基于所述语音特征，判断所述用户是否具有控制权限；若具有，则进一步地采用预先训练完成的语音识别模型对所述降噪语音进行语音识别，得到对应的文本信息；基于所述文本信息匹配对应的控制指令，以对显示器进行控制。例如上述文本信息为调大音量、关闭显示器等，其对应的显示器控制指令则为调大音量、关闭显示器。

在一实施例中，所述降噪模型以及语音识别模型的训练方式，包括：

在本实施例中，基于上述联合训练降噪模型以及语音识别模型的训练方式，可以使用同一个训练数据进行训练，降低训练数据获取难度、效率。同时，上述语音解码器还可以解码得到对应的解码数据，该解码数据也是语音数据，其与训练数据具有对应的语音标签，区别仅在于，上述解码数据经过降噪处理，数据更加纯净，更有利于模型的训练。可以理解的是，上述解码数据也可以用于上述语音识别模型的训练，即输入一份训练数据，可以得到两份训练语音识别模型的训练数据，显著增加了训练数据量，有助于模型快速收敛。同时，还可以联合训练得到上述降噪模型，提升模型训练效率。

在一实施例中，上述显示器还需要接入路由器的WiFi网络中，现有技术中需要手动输入对应的WiFi名称、WiFi密码，比较繁琐。在本实施例中，提供一种自动接入路由器提供的网络的方案。具体地，所述方法还包括：

对所述信标序列末尾的信标信号分别进行检测，检测各个信标信号中是否包括第一指定数据；可以理解的是，上述末尾的信标信号指的是上述信标序列中排列在后的预设个数的信标信号的统称，例如，末尾的20、30个信标信号等。可以理解的是，上述预设个数大于x。

若包括第一指定数据，则检测出包括第一指定数据的信标信号数量为x，作为第一数量；例如第一数量为5，则x为5。

从所述信标序列中，检测出排列在第x位上的目标信标信号；例如，排列在第5位上的信标信号作为目标信标信号。

基于路由名称以及路由密码，接入所述路由器提供的网络中。基于上述方案，实现了显示器自动接入路由器网络。且上述方式接入简单，安全性也较高，不容易被人窃取网络密码。

在一实施例中，所述对所述目标信标信号进行解析的步骤，包括：

基于编码表，对所述第一数量、第二数量以及第三数量分别进行编码，得到第一编码、第二编码以及第三编码；上述编码表可以是预先自定义的，也可以是采用行业内通用的，在此不进行赘述。

在本实施例中，提出上述自动对目标信标信号进行解密处理的方案，上述解密过程可以自动生成上述解密密码。而上述解密密码的生成是根据上述信标序列的信号属性所生成的；也就是说，接收到上述路由器依序发送的多个信标信号，便可以采用上述特定的规则进行解密密码的自动生成。而无需保存、传输上述解密密码，降低了密码泄露的风险，提升了网络密码的安全性。

在一具体实施例中，所述基于所述显示器的设备号生成一个配置编号的步骤，包括：

在本实施例中，生成上述配置编号的时，需要根据显示器的设备类型，匹配对应的设备号提取规则以及解码表。将配置编号与设备类型关联起来。则后续可以根据设备类型以及设备号按照对应的生成规则，再次生成上述配置编号，便于后续稽查、验证。

参照图2，本发明一实施例中还提供了一种基于语音识别的显示器控制装置，包括：

进一步地，还包括：

在本实施例中，上述装置实施例中的各个单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、显示屏、输入装置、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储本实施例中对应的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语音识别的显示器控制方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于语音识别的显示器控制方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本发明实施例中提供的基于语音识别的显示器控制方法、装置以及计算机设备，包括在显示器上发出语音提醒，提醒用户是否进行控制权限的配置；采集用户的应答语音信息，并进行语音识别，得到对应的识别结果；若所述识别结果为所述用户选择进行控制权限的配置时，获取显示器的设备号；基于所述显示器的设备号生成一个配置编号，将所述配置编号分割为第一配置编号以及第二配置编号；将所述第一配置编号发送至与所述显示器绑定的管理终端；发出语音提醒，提示用户语音输入所述第一配置编号；其中，所述用户在管理终端获取所述第一配置编号；采集用户通过语音输入的目标配置编号，并将所述目标配置编号与第二配置编号进行组合，得到组合配置编号；判断所述组合配置编号与所述配置编号是否相同，若相同，则从所述用户的语音中提取出对应的语音特征；将所述语音特征存储在数据库中，并针对所述语音特征对应的所述用户配置控制权限；其中，具有所述控制权限的所述用户可通过语音信息对显示器进行控制。在本发明中，为用户配置控制权限，具有控制权限的用户才可以通过语音信息对显示器进行控制；避免了多人同时进行语音控制时造成显示器控制混乱。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于语音识别的显示器控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语音识别的显示器控制方法，其特征在于，所述将所述语音特征存储在数据库中，并针对所述语音特征对应的所述用户配置控制权限的步骤之后，还包括：

采集用户的语音控制信息；

3.根据权利要求2所述的基于语音识别的显示器控制方法，其特征在于，所述降噪模型以及语音识别模型的训练方式，包括：

4.根据权利要求2所述的基于语音识别的显示器控制方法，其特征在于，所述降噪模型以及语音识别模型的训练方式，包括：

5.根据权利要求1所述的基于语音识别的显示器控制方法，其特征在于，所述方法还包括：

从所述信标序列中，检测出排列在第x位上的目标信标信号；

6.根据权利要求5所述的基于语音识别的显示器控制方法，其特征在于，所述对所述目标信标信号进行解析的步骤，包括：

7.根据权利要求1所述的基于语音识别的显示器控制方法，其特征在于，所述基于所述显示器的设备号生成一个配置编号的步骤，包括：

8.一种基于语音识别的显示器控制装置，其特征在于，包括：

9.根据权利要求8所述的基于语音识别的显示器控制装置，其特征在于，还包括：

10.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。