CN111968645B

CN111968645B - 一种个性化的语音控制系统

Info

Publication number: CN111968645B
Application number: CN202010941301.XA
Authority: CN
Inventors: 陈良
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2022-11-11
Anticipated expiration: 2040-09-09
Also published as: CN111968645A

Abstract

本发明涉及语音识别技术领域，具体公开了一种个性化的语音控制系统，通过对采集到的家庭成员的基础语音信息进行特征提取得到的声纹特征信息和方言类别进行关联存储，用于区分每个家庭成员所习惯说的方言类别。在正常使用时，对采集到的语音信息进行声纹特征识别，得到声纹特征信息，根据声纹特征信息获取该用户的方言类别，即可根据方言类别信息调用同类别的方言库，使用调用的方言库对该用户的语音信息进行翻译获取语音指令。采用本发明的技术方案可通过提取用户说话声音的声纹特征信息自动调用与该用户所说同类别方言的方言库，进而对用户所说的语音信息进行翻译，实现自动识别，更加智能便捷。

Description

一种个性化的语音控制系统

技术领域

本发明涉及语音识别技术领域，特别涉及一种个性化的语音控制系统。

背景技术

语音控制，通俗的理解方式为机器识别人说的话，执行相应的指令，以实现语音控制。语音控制离不开语音识别技术的发展，如今，随着语音识别技术的不断发展，语音助手被应用到各种电子设备上，如智能手机、电脑和智能电器等。语音识别、语音输入、语音转换等功能给人们的生活带来了极大的便利。

但在实际生活应用中，语音识别通常只能识别如普通话等通用语言，对于一些区域性的方言而言，由于同一含义的方言发音与之相同意义的普通话的发音通常是不同的，导致语音助手不能对口音过重的地方方言的真实含义识别不清。

当前，虽然也出现方言识别转换系统，但是这种系统需要在使用时自选所需识别的语言类别，如需要识别闽南话，则需要选择识别闽南话，然后，对语音助手说出控制电子设备运行的语音指令，语音助手才能够识别出指令的意思，正确的控制设备的运行。这种方式虽然看是解决了语音助手不能识别方言的问题。

但在实际生活中，组建家庭的成员可能来自不同的地区，即同一家庭成员所说的口音存在差异，若这种情况下在家中采用语音控制家中的电子设备运行时，需要不断更换语音助手识别的语言类别，极为不便。尤其是对于老年人而言，年轻人可以采用通用的普通话进行克服，但对于老年人而言，方言口音已经根深蒂固了，很难改变老年人的发音习惯，造成老年人不能正常的使用语音指令控制家中的电子设备运行。

发明内容

为解决如何让语音控制系统能够自动识别不同类别的语音的技术问题，本发明提供一种个性化的语音控制系统。

本发明基础方案如下：

一种个性化的语音控制系统，包括语音采集模块、数据库、指令识别模块和控制模块，还包括特征提取模块和指令分析模块，其中：

语音采集模块用于采集用户的基础语音信息，基础语音信息包括方言类别信息；

特征提取模块用于对基础语音信息进行特征提取得到声纹特征信息和方言类别，并将声纹特征信息和方言类别进行关联存储至数据库；

数据库用于存储语音指令库、语音识别模型、声纹特征信息、方言类别和与方言类别相关联的方言库，语音指令库包括关联存储的语音指令和执行指令；

语音采集模块还用于采集用户的语音信息；

特征提取模块还用于对语音信息进行特征提取得到声纹特征信息；

指令分析模块用于根据从语音信息中提取得到的声纹特征信息调用方言库；

指令识别模块用于通过语音识别模型对语音信息进行识别得到语音文本信息，然后将语音文本信息通过调用的方言库进行翻译得到语音指令；

指令生成模块用于根据语音指令在语音指令库中匹配出执行指令；

控制模块用于根据执行指令控制设备工作。

基础方案的有益效果为：本方案通过对家庭成员的声纹特征进行采集，并将采集到的声纹特征信息和该家庭成员的方言类别信息关联存储，用于区分每个家庭成员所习惯说的方言类别。在本系统开始正常使用时，对采集到的语音信息进行声纹特征识别，得到声纹特征信息，根据声纹特征信息获取该用户的方言类别，即可根据方言类别调用同类别的方言库，使用调用的方言库对经过语音识别模型识别得到的语音文本信息进行翻译获取语音指令。相对于现有技术需要用户自选方言类别的方式，本方案可通过提取用户说话声音的声纹特征自动接入与该用户说话的同方言类别的方言库，进而对用户所说的语音信息进行翻译，实现自动识别，更加智能便捷。

进一步，方言库包括原始方言库和填充方言库，原始方言库为预设的方言翻译词库，方言填充库为根据用户所说方言的含义独立设置的方言翻译词库；

语音采集模块还用于采集用户的通话信息；

特征提取模块还用于对采集到的通话信息进行声纹特征提取，得到声纹特征信息；

还包括方言库填充模块，方言库填充模块用于根据通话信息中提取出的声纹特征信息从数据库中调用用户对应的方言填充库，然后将通话信息通过原始方言库进行翻译，得到翻译文本信息，将翻译文本信息反馈给用户确认，若用户对翻译文本信息进行修改，则将修改后的翻译文本信息填充至填充方言库。

有益效果：说同一种方言的不同用户，由于个人习惯和经历不同，所说部分语言的含义存在差异。本技术方案通过对原始方言库翻译不准的翻译文本信息，由用户修正，并将修正后的翻译文本信息填充至填充方言库中，从而填充方言库成为用户的个性化方言识别库，从而使得后续对用户所说方言进行翻译时，更加贴合用户说话的习惯，使得方言库对用户的语音信息翻译的更加准确。

进一步，指令识别模块优先使用填充方言库对语音文本信息进行翻译，若识别得到的语音文本信息经填充方言库未全部翻译时，将未翻译的语音文本信息使用原始方言库进行翻译。

有益效果：通过这种方式，翻译出用户的语音信息更加贴合用户个人所要表达的含义。

进一步，还包括模型生成模块和去噪模块，其中：

语音采集模块还用于采集多种环境下的噪声样本；

模型生成模块用于将多种环境下的噪声样本进行随机组合，生成多种噪声样本合成的噪音样本信息，然后使用噪音样本信息对深度神经网络进行训练，以生成噪音识别模型；

去噪模块用于将采集到的语音信息通过噪音识别模型识别出噪音信息，并去除语音信息中识别出的噪音信息，得到去噪后的语音信息。

有益效果：通过对语音信息进行去噪处理，可以降低噪音信息对语音信息的干扰，提高后续语音信息的指令识别的精准性。

进一步，还包括特征更新模块，特征更新模块用于在预设时间段内计算当前提取到的声纹特征信息和已存储声纹特征信息的相似度，若相似度达到预设相似度阈值时，将提取到的声纹特征信息替换相似度最高的已存储的声纹特征信息。

有益效果：随着人的成长或者生病可引起说话的声纹产生细微改变，通过在一段时间后对用户的声纹特征信息进行校准，从而使得对用户的声纹特征信息的识别的准确度保持较高的精度。

进一步，方言填充模块还用于当用户对翻译文本信息进行修改时，获取并记录翻译文本信息中修改部分修改前的原始文本信息和修改后的修改文本信息，然后抓取翻译文本信息中高频词汇作为与修改文本信息相关联的语境信息；

指令识别模块还用于提取语音文本信息中的高频词汇，并根据高频词汇查找对应的语境信息，若查找到对应的语境信息，首先根据语境信息在填充方言库查找关联的修改文本信息对语音文本信息中对应文本进行翻译，然后再使用填充方言库对语音文本信息中其他部分的文本进行翻译。

有益效果：不同语境下的同一种语言存在不同的含义，通过识别语音文本信息中的语境信息，从而针对性的对语音文本信息进行翻译，使得翻译的准确度更高。

进一步，还包括语音识别模块和异常提醒模块，其中：

语音识别模块用于识别出语音信息中的异常语音，异常语音包括危险语音和怪异语音，危险语音包括呼救声，怪异语音包括尖叫；

异常提示模块用于在语音信息中出现危险语音时，产生报警信息，在出现怪异语音时，发出问候提示音，并接收用户反馈语音，若用户反馈语音为有异常时，向用户的关联用户发送异常报警信息。

有益效果：采用本技术方案，用户在家出现异常情况，如遭遇入室抢劫等危险情况时，通过呼救，即可自动产生报警信息，报警信息可对歹徒的行为起到警示作用，为对用户的救助争取时间。另外，若是用户在家中突发疾病，或者摔倒等突发情况时，与该用户关联的用户可接收到异常警报信息，对在家出现突发情况的用户进行帮扶。

进一步，还包括指令更改模块，指令更改模块用于更改执行指令对应的语音指令。

有益效果：用户可以按照自己的喜好更改执行指令对应的语音指令，如语音指令“开启”对应“开启”的执行指令，而用户更改语音指令“打开”作为“开启”执行指令对应的语音指令，使得更加适应不同用户的表述习惯。

进一步，指令更改模块将执行指令对应更改的语音指令根据声纹特征信息进行关联存储至数据库。

有益效果：根据声纹特征信息对更改的语音指令进行关联存储，从而实现不同使用用户所更改的语音指令分开存储，以及分开识别，对不同使用用户所更改的语音指令的识别互不干扰。

进一步，指令更改模块可为一条执行指令设置多条语音指令，同一声纹特征信息关联的不同执行指令所对应的语音指令互不相同。

有益效果：当一条执行指令对应一条语音指令时，用户若是忘记该语音指令时，便无法得到对应的执行指令控制设备做相应的工作，本技术方案通过可让用户对同一天执行指令设置多条语音指令，从而防止出现用户遗忘无法获取对应执行指令的情况。

附图说明

图1为一种个性化的语音控制系统实施例一的逻辑框图；

图2为一种个性化的语音控制系统实施例二的逻辑框图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

一种个性化的语音控制系统，如图1所示，包括语音采集模块、数据库、指令识别模块、控制模块、特征提取模块、指令分析模块、模型生成模块、方言库填充模块、特征更新模块、去噪模块和指令更改模块，其中：

准备阶段：语音采集模块用于采集用户的基础语音信息，基础语音信息包括方言类别信息；语音采集模块还用于采集多种环境下的噪音样本；语音采集模块还用于采集多种环境下的噪音样本。

特征提取模块用于对基础语音信息进行特征提取得到声纹特征信息和方言类别，并将声纹特征信息和方言类别进行关联存储至数据库；特征提取模块还用于对采集到的通话信息进行声纹特征提取，得到声纹特征信息；

模型生成模块用于将多种环境下的噪声样本进行随机组合，生成多种噪声样本合成的噪音样本信息，然后使用噪音样本信息对深度神经网络进行训练，以生成噪音识别模型。多种环境下的噪声样本包括厨房的抽油烟机的声音、倒水的声音等，卧室或者客厅吸尘器的声音等。

数据库用于存储语音指令库、语音识别模型、声纹特征信息、方言类别和与方言类别相关联的方言库，语音指令库包括关联存储的语音指令和执行指令；方言库包括原始方言库和填充方言库，原始方言库为预设的方言翻译词库，方言填充库为根据用户所说方言的含义独立设置的方言翻译词库。

方言库自学习阶段：语音采集模块还用于采集用户的通话信息，

方言库填充模块用于根据通话信息中提取出的声纹特征信息从数据库中调用用户对应的方言填充库，然后将通话信息通过原始方言库进行翻译，得到翻译文本信息，将翻译文本信息反馈给用户确认，若用户对翻译文本信息进行修改，则将修改后的翻译文本信息填充至填充方言库。方言填充模块还用于当用户对翻译文本信息进行修改时，获取并记录翻译文本信息中修改部分修改前的原始文本信息和修改后的修改文本信息，然后抓取翻译文本信息中高频词汇作为与修改文本信息相关联的语境信息。

声纹数据更新阶段：特征更新模块用于在预设时间段内计算当前提取到的声纹特征信息和已存储声纹特征信息的相似度，若相似度达到预设相似度阈值时，将提取到的声纹特征信息替换相似度最高的已存储的声纹特征信息。

使用阶段：语音采集模块还用于采集用户的语音信息；

指令识别模块用于通过语音识别模型对语音信息进行识别得到语音文本信息，然后将语音文本信息通过调用的方言库进行翻译得到语音指令；指令识别模块优先使用填充方言库对语音文本信息进行翻译，若识别得到的语音文本信息经填充方言库未全部翻译时，将未翻译的语音文本信息使用原始方言库进行翻译。指令识别模块还用于提取语音文本信息中的高频词汇，并根据高频词汇查找对应的语境信息，若查找到对应的语境信息，首先根据语境信息在填充方言库查找关联的修改文本信息对语音文本信息中对应文本进行翻译，然后再使用填充方言库对语音文本信息中其他部分的文本进行翻译。

控制模块用于根据执行指令控制设备工作。

指令更改模块，指令更改模块用于更改执行指令对应的语音指令。指令更改模块将执行指令对应更改的语音指令根据声纹特征信息进行关联存储至数据库。并且，指令更改模块可为一条执行指令设置多条语音指令，同一声纹特征信息关联的不同执行指令所对应的语音指令互不相同。如开启空调的执行指令对应的语音指令，用户可设置“热”、“开启空调”和“打开空调”等。

实施例二

与实施例一的区别之处在于：如图2所示，还包括语音识别模块和异常提示模块，其中：

当用户独自家时，若遭遇抢劫事件，或者生命受到威胁时，通过呼救，异常提示模块即可自动产生报警信息进行报警，相对于出现事故，还要拿手机报警，更加方便，高效。另外，用户在家突然摔倒，或者碰撞，又或者家中出现其它轻度事故而发生的尖叫等声音时，异常提示模块向关联的用户发送异常报警信息，以告知该用户相关联的用户，请求帮助。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种个性化的语音控制系统，包括语音采集模块、数据库、指令识别模块和控制模块，还包括特征提取模块和指令分析模块，其中：

数据库用于存储语音指令库、语音识别模型、声纹特征信息、方言类别和与方言类别相关联的方言库，语音指令库包括关联存储的语音指令和执行指令；方言库包括原始方言库和填充方言库；

语音采集模块还用于采集用户的语音信息；

控制模块用于根据执行指令控制设备工作；

原始方言库为预设的方言翻译词库，方言填充库为根据用户所说方言的含义独立设置的方言翻译词库；

语音采集模块还用于采集用户的通话信息；

指令识别模块优先使用填充方言库对语音文本信息进行翻译，若识别得到的语音文本信息经填充方言库未全部翻译时，将未翻译的语音文本信息使用原始方言库进行翻译。

2.根据权利要求1所述的一种个性化的语音控制系统，其特征在于：还包括模型生成模块和去噪模块，其中：

语音采集模块还用于采集多种环境下的噪声样本；

3.根据权利要求1所述的一种个性化的语音控制系统，其特征在于：还包括特征更新模块，特征更新模块用于在预设时间段内计算当前提取到的声纹特征信息和已存储声纹特征信息的相似度，若相似度达到预设相似度阈值时，将提取到的声纹特征信息替换相似度最高的已存储的声纹特征信息。

4.根据权利要求1所述的一种个性化的语音控制系统，其特征在于：方言填充模块还用于当用户对翻译文本信息进行修改时，获取并记录翻译文本信息中修改部分修改前的原始文本信息和修改后的修改文本信息，然后抓取翻译文本信息中高频词汇作为与修改文本信息相关联的语境信息；

5.根据权利要求1所述的一种个性化的语音控制系统，其特征在于：还包括语音识别模块和异常提示模块，其中：

6.根据权利要求1所述的一种个性化的语音控制系统，其特征在于：还包括指令更改模块，指令更改模块用于更改执行指令对应的语音指令。

7.根据权利要求6所述的一种个性化的语音控制系统，其特征在于：指令更改模块将执行指令对应更改的语音指令根据声纹特征信息进行关联存储至数据库。

8.根据权利要求7所述的一种个性化的语音控制系统，其特征在于：指令更改模块可为一条执行指令设置多条语音指令，同一声纹特征信息关联的不同执行指令所对应的语音指令互不相同。