CN112634874B

CN112634874B - 一种基于人工智能的自动调音终端设备

Info

Publication number: CN112634874B
Application number: CN202011549578.4A
Authority: CN
Inventors: 李本江; 李本松
Original assignee: Jiangxi Taide Intelligence Technology Co Ltd
Current assignee: Jiangxi Taide Intelligence Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-09-23
Anticipated expiration: 2040-12-24
Also published as: CN112634874A

Abstract

本发明公开了一种基于人工智能的自动调音终端设备，本发明属于人工智能领域，涉及语音识别技术；用于解决但现有语音识别技术无法根据用户的个人语言习惯以及语速形成专属调节数据库，进而导致语音识别成功率降低，影响使用体验的问题；感知模块对使用场景中连入同一个无线网或/和局域网或/和专用网络内的物联网设备进行识别，可以针对性的对用户进行语音训练，同时，新特征采集识别模块内标准指令集可以进行一步缩小用户的语音训练难度，进而提高识别率；通过特征学习模块的设置，进而可以根据用户的语言特色建立对应的数据库，进而提高识别准确率；通过人工智能调节模块的设置进而提高提高识别准确度。

Description

一种基于人工智能的自动调音终端设备

技术领域

本发明属于人工智能领域，涉及语音识别技术，具体是一种基于人工智能的自动调音终端设备。

背景技术

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等；

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。

但现有语音识别技术无法根据用户的个人语言习惯以及语速形成专属调节数据库，进而导致语音识别成功率降低，影响使用体验。

发明内容

本发明的目的在于提供一种基于人工智能的自动调音终端设备，用于解决但现有语音识别技术无法根据用户的个人语言习惯以及语速形成专属调节数据库，进而导致语音识别成功率降低，影响使用体验的问题。

本发明的目的可以通过以下技术方案实现：

一种基于人工智能的自动调音终端设备，包括新特征采集识别模块、特征学习模块、特征生成模块、感知模块、采集模块以及人工智能调节模块；

所述，人工智能调节模块用于对识别失败的音频信息进行智能修复，具体步骤如下：

步骤一：获取无法识别的音频信息，进行MFCC转换，并与新特征数据库进行匹配，并将无法识别的音频信息对应的最终识别内容进行输出；

步骤二：将MFCC转换后的无法识别的音频信息的音素频率图代入坐标内，调取最终识别内容对应的学习音素频率图，并将学习音素频率图代入坐标内；

步骤三：比较两个音素频率图内的每个转折点，当出现转折点不同时，获取不同转折点对应的音素，此时将无法识别的音频信息的音素频率图中对应的音素标记为异常音素，将学习音素频率图中对应的音素标记为修正音素，并将其存储；

步骤四：将修正音素与异常音素发送至采集模块。

进一步地，采集模块用于采集用户的音频信息，并将音频信息进行储存；

其中，当采集模块接收到异常音素与对应的修正音素后，再次采集时，若出现异常音素时，采集模块将异常音素替换为修正音素，完成采集。

进一步地，所述特征学习模块用于实时收集用户的语音信息，并将收集到的音频代入声学模型进行建模，并获取声学模型中每一帧所对应的音素，并通过MFCC转换，得到学习音素频率图；

其中，当学习音素频率图出现某段频率曲线与标准音素频率图相同的频率曲线时，将学习音素频率图中相同的频率曲线标记为关键音素，并将带有关键音素的这段音素进行提取。

进一步地，所述特征学习模块内安装有若干语音识别软件，将提取后的这段音素发送至语音识别软件进行认证识别，并获取第一种语音识别软件的识别内容，并将识别内容标记为第一识别文本，获取第二种语音识别软件的识别内容，并将识别内容标记为第二识别文本；

对比第一识别文本与第二识别文本，如果相似度低于95％，则将提取后的这段音素发送至第三种语音识别软件进行识别，并获取第三种语音识别软件的识别内容，并将识别内容标记为第三识别文本；将第三识别文本分别与第一识别文本和第二识别文本进行对比，选取相似度高于95％的识别文本为最终识别内容，并将最终识别内容进行存储；其中若干最终识别内容共同组成新特征数据库。

进一步地，新特征采集识别模块用于对新用户进行语音判别，其中，新用户具体指第一次使用自动调音终端设备的用户。

进一步地，所述新特征采集识别模块内设置有存储单元，存储单元内存储有标准指令集，其中，新用户使用自动调音终端设备时，新特征采集识别模块与感知模块建立数据链接，获取感知模块内的感知数据，并根据感知数据代入标准指令集内让新用户进行反馈。

进一步地，所述标准指令集具体为，打开XXX指令，关闭XXX指令，调节XXX指令；具体的XXX为感知数据内所有项目；

同时新特征采集识别模块将标准指令集发送给新用户，并记录新用户朗读标准指令集的初始音频信息，并将初始音频信息代入声学模型进行建模，并获取声学模型中每一帧所对应的音素，并将音素发送至特征生成模块。

进一步地，所述特征生成模块用于存储声学模型中每一帧所对应的音素，并将音素进行MFCC转换，得到标准音素频率图。

进一步地，所述感知模块用于对使用场景内的智能物联网电器进行识别并标记，具体为：生成各设备类型对应的识别标签和特征参量信息，其中，所述特征参量信息是基于不同类型的设备间的差异生成的，每种设备类型对应一个特征参量信息；

将所述识别标签与特征参量信息进行关联配置；

在有未识别出设备类型的目标设备接入时，获取接入的目标设备的识别标签，根据所述获取的识别标签和所述关联配置，获取与所述目标设备适配的特征参量信息。

与现有技术相比，本发明的有益效果是：

(1)通过感知模块对使用场景中连入同一个无线网或/和局域网或/和专用网络内的物联网设备进行识别，可以可以针对性的对用户进行语音训练，同时，新特征采集识别模块内标准指令集可以进行一步缩小用户的语音训练难度，进而提高识别率；

(2)通过特征学习模块的设置，使得实时收集用户的语音信息可以将收集到的音频代入声学模型进行建模，并获取声学模型中每一帧所对应的音素，并通过MFCC转换，得到学习音素频率图当学习音素频率图出现某段频率曲线与标准音素频率图相同的频率曲线时，将学习音素频率图中相同的频率曲线标记为关键音素，并将带有关键音素的这段音素进行提取；此时特征学习模块与语音识别软件建立数据链接，并同时将提取后的这段音素发送至语音识别软件进行认证识别，具体的，获取第一种语音识别软件的识别内容，并将识别内容标记为第一识别文本，获取第二种语音识别软件的识别内容，并将识别内容标记为第二识别文本；

需要注意的是第一种语音识别软件与第二种语音识别软件为不同声学模型的软件，具体的语音识别软件可以为讯飞语音识别软件、百度语音识别软、搜狗语音识别软、阿里语音识别软以及腾讯语音识别软，本发明在此不做具体限定；

对比第一识别文本与第二识别文本，如果相似度低于95％，则将提取后的这段音素发送至第三种语音识别软件进行识别，并获取第三种语音识别软件的识别内容，并将识别内容标记为第三识别文本；将第三识别文本分别与第一识别文本和第二识别文本进行对比，选取相似度高于95％的识别文本为最终识别内容，并将最终识别内容进行存储；其中若干最终识别内容共同组成新特征数据库，若第三识别文本分别与第一识别文本和第二识别文本进行对比相似度均低于95％，则将对应的这段音素标记为陌生音素，此时将陌生音素以及第一识别文本、第二识别文本、第三识别文本进行存储，并发送至互联网平台，进行人工识别，得到识别结果，比较识别结果和第一识别文本、第二识别文本以及第三识别文本的相似度，选取相似度最高的语音识别软件为辅助识别软件；在具体实施中，优先选取辅助识别软件为第一种语音识别软件；进而可以根据用户的语言特色建立对应的数据库，进而提高识别准确率；

(3)通过人工智能调节模块的设置，可以对识别失败的音频信息进行智能修复，获取无法识别的音频信息，进行MFCC转换，并与新特征数据库进行匹配，并将无法识别的音频信息对应的最终识别内容进行输出；同时将MFCC转换后的无法识别的音频信息的音素频率图代入坐标内，调取最终识别内容对应的学习音素频率图，并将学习音素频率图代入坐标内，比较两个音素频率图内的每个转折点，当出现转折点不同时，获取不同转折点对应的音素，此时将无法识别的音频信息的音素频率图中对应的音素标记为异常音素，将学习音素频率图中对应的音素标记为修正音素，并将其存储，并发送至采集模块；当采集模块接收到异常音素与对应的修正音素后，再次采集时，若出现异常音素时，采集模块将异常音素替换为修正音素，完成采集，提高识别准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明原理框图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

因此，在下述附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

如图1所示，一种基于人工智能的自动调音终端设备，自动调音终端设备包括新特征采集识别模块、特征学习模块、特征生成模块、感知模块、采集模块以及人工智能调节模块；

其中，自动调音终端设备可以是一种安装有新特征采集识别模块、特征学习模块、特征生成模块、感知模块、采集模块以及人工智能调节模块的智能音箱也可以是安装有集识别模块、特征学习模块、特征生成模块、感知模块、采集模块以及人工智能调节模块的无线终端，本发明对此不作限制；

在本发明具体使用时，新特征采集识别模块用于对新用户进行语音判别，其中，新用户具体指第一次使用自动调音终端设备的用户；

具体的，新特征采集识别模块内设置有存储单元，存储单元内存储有标准指令集，其中，新用户使用自动调音终端设备时，新特征采集识别模块与感知模块建立数据链接，获取感知模块内的感知数据，并根据感知数据代入标准指令集内让新用户进行反馈；

具体的，其中存储单元可能包含高速随机存取存储器(RAM，Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。其中，总线可以是ISA总线、PCI总线或EISA总线等，总线可以分为地址总线、数据总线、控制总线等。

在本发明具体实施时，感知模块用于对使用场景内的智能物联网电器进行识别并标记，具体的，感知模块接入使用场景内的无线网或/和局域网或/和专用网络后，生成各设备类型对应的识别标签和特征参量信息；具体的，由于不同类型的设备间是具有明显的差异性的，针对不同类型的设备间的差异性，抽离出设备类型的变化点，基于变化点生成一个适配于各种设备类型的特征参量信息，具体可以是人工根据设备的类型特征进行归纳抽取或基于数据分析对设备的类型特征进行归纳抽取，将这些差异点作为特征参量信息，进行配置和存储；此外，还为每种不同类型的设备分配唯一的识别标签，示例性地，识别标签根据一份自定义的设备类型命名规则文件来确定，该命名规则文件配置为专门用来为各种设备类型编制设备接入识别码，为每种不同类型的设备分配识别标签，即是遵循该命名规则来一个用以标识设备类型的识别码，只要遵循该命名规则即可保证识别标签的唯一性和精确性。示例性地，根据定义的命名规则该识别标签可以配置为字符串形式，如DSDSTT035A。通过为每种设备类型分配一个识别标签，可以实现在设备端对设备自身的类型进行标记。在一些实施方式中，为了提高对设备类型的识别精准度，可以根据用户需求增加特征参量信息中的参量元素数目；

进一步地，，将识别标签与特征参量信息进行关联配置。

具体的，在为每种设备类型配置了特征参量信息和识别标签后，即可将两者进行关联，这样，就能根据设备端的识别标签和管理端的识别标签与特征参量信息的关联关系，将具体的设备对应到一个特征参量信息。

示例性地，可以通过将各特征参量信息存储为一张张特征参量信息表，即一个设备类型对应一张特征参量信息表，该特征参量信息表中存储有该设备类型的特征参量信息。之后，根据识别标签对应的设备类型，将识别标签与一张特征参量信息表关联起来，例如识别标签DSDSTT035A和特征信息参量表EquipParam_DSDSTT035A均对应一个设备类型A，识别标签GRSSAX004A和特征参量信息表EquipParam_GRSSAX004A均对应设备类型B，则将识别标签DSDSTT035A和特征参量信息表EquipParam_DSDSTT035A关联绑定(如以键值对的方式存储)，将识别标签GRSSAX004A和特征参量信息表EquipParam_GRSSAX004A关联绑定。

示例性地，将识别标签与特征信息参量表关联绑定可以是专门配置一个配置文件或建立一个数据表，以键值对的形式存储每一个识别标签和特征参量信息表的ID。可以理解的是，该识别标签与特征参量信息的关联配置不局限于表格的形式，只要是可以将该识别标签与对应的特征参量信息进行绑定即可。

由此，每一种设备类型就对应了一个识别标签和一个特征参量信息，通过识别标签即可将适配的特征参量信息用于特定的设备类型，例如类型A的特征参量信息用于匹配类型A的设备，类型B的特征参量信息用于匹配类型B的设备，类型C的特征参量信息用于匹配类型C的设备，以此类推。

进一步地，获取目标设备的识别标签，根据获取的识别标签和关联配置，获取与目标设备适配的特征参量信息。

当具体的目标设备首次接入时(此时还未识别设备类型，也可以非首次，只要是还未识别出设备类型时都需要进行设备类型的自动识别)，将会首先自动识别设备类型。识别当前接入的设备的类型需要首先获取其识别标签，示例性地，可以是主动下发查询请求以主动获取目标设备的识别标签，在获取到识别标签后，首先判断识别标签的合法性，即是否是当前支持的设备类型的识别标签，该识别标签在于特征参量信息进行关联绑定时，就进行了配置和存储，判断识别标签的合法性就是判断其是否已经与特征参量信息进行了关联绑定配置并已存储在了系统的配置文件或数据库中(根据系统具体的配置实现方式进行判断)。如果是合法的识别标签，则根据识别标签就可以查找到与之关联的特征参量信息，并调取对应的特征参量信息的内容，从中获取该设备类型对应的参量信息，由此就完成了对当前接入的目标设备的设备类型的自动识别；

基于上述方法，感知模块可以识别出使用场景中连入同一个无线网或/和局域网或/和专用网络内的物联网设备，以及物联网设备的类型，并根据物联网设备的类型生产感知数据，例如，当无线网或/和局域网或/和专用网络内接入有物联网冰箱、物联网空调以及物联网扫地机器人，感知模块通过上述方法获取到物联网冰箱、物联网空调以及物联网扫地机器人的接入信息，并将冰箱、空调以及扫地机器人作为感知数据；

其中，标准指令集具体为，打开XXX指令，关闭XXX指令，调节XXX指令；具体的XXX为感知数据内所有项目；例如，打开扫地机器人指令；调节冰箱指令；

同时新特征采集识别模块将标准指令集发送给新用户，并记录新用户朗读标准指令集的初始音频信息，并将初始音频信息代入声学模型进行建模，并获取声学模型中每一帧所对应的音素，并将音素发送至特征生成模块；

在本发明具体实施时，特征生成模块用于存储声学模型中每一帧所对应的音素，并将音素进行MFCC转换，得到标准音素频率图；

按照上述方法可以得到标准指令集内所有标准指令的标准音素频率图；

本发明在具体实施中，还设置有特征学习模块，特征学习模块用于实时收集用户的语音信息，例如，收集用户打电话时的对话音频；收集用户聊天是的对话音频；并将收集到的音频代入声学模型进行建模，并获取声学模型中每一帧所对应的音素，并通过MFCC转换，得到学习音素频率图；

当学习音素频率图出现某段频率曲线与标准音素频率图相同的频率曲线时，将学习音素频率图中相同的频率曲线标记为关键音素，并将带有关键音素的这段音素进行提取；此时特征学习模块与语音识别软件建立数据链接，并同时将提取后的这段音素发送至语音识别软件进行认证识别，具体的，获取第一种语音识别软件的识别内容，并将识别内容标记为第一识别文本，获取第二种语音识别软件的识别内容，并将识别内容标记为第二识别文本；

对比第一识别文本与第二识别文本，如果相似度低于95％，则将提取后的这段音素发送至第三种语音识别软件进行识别，并获取第三种语音识别软件的识别内容，并将识别内容标记为第三识别文本；将第三识别文本分别与第一识别文本和第二识别文本进行对比，选取相似度高于95％的识别文本为最终识别内容，并将最终识别内容进行存储；其中若干最终识别内容共同组成新特征数据库；

在本发明具体实施时，若第三识别文本分别与第一识别文本和第二识别文本进行对比相似度均低于95％，则将对应的这段音素标记为陌生音素，此时将陌生音素以及第一识别文本、第二识别文本、第三识别文本进行存储，并发送至互联网平台，进行人工识别，得到识别结果，比较识别结果和第一识别文本、第二识别文本以及第三识别文本的相似度，选取相似度最高的语音识别软件为辅助识别软件；在具体实施中，优先选取辅助识别软件为第一种语音识别软件；

在本发明具体实施时，采集模块用于采集用户的音频信息，并将音频信息进行储存；

在本发明具体实施时，还设置有人工智能调节模块，其中，人工智能调节模块用于对识别失败的音频信息进行智能修复，具体为:

获取无法识别的音频信息，进行MFCC转换，并与新特征数据库进行匹配，并将无法识别的音频信息对应的最终识别内容进行输出；

同时将MFCC转换后的无法识别的音频信息的音素频率图代入坐标内，调取最终识别内容对应的学习音素频率图，并将学习音素频率图代入坐标内，比较两个音素频率图内的每个转折点，当出现转折点不同时，获取不同转折点对应的音素，此时将无法识别的音频信息的音素频率图中对应的音素标记为异常音素，将学习音素频率图中对应的音素标记为修正音素，并将其存储，并发送至采集模块；

当采集模块接收到异常音素与对应的修正音素后，再次采集时，若出现异常音素时，采集模块将异常音素替换为修正音素，完成采集。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

在本发明所提供的实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种基于人工智能的自动调音终端设备，其特征在于，包括新特征采集识别模块、特征学习模块、特征生成模块、感知模块、采集模块以及人工智能调节模块；

所述人工智能调节模块用于对识别失败的音频信息进行智能修复，具体步骤如下：

步骤四：将修正音素与异常音素发送至采集模块；

采集模块用于采集用户的音频信息，并将音频信息进行储存；

其中，当采集模块接收到异常音素与对应的修正音素后，再次采集时，若出现异常音素时，采集模块将异常音素替换为修正音素，完成采集；

所述特征学习模块用于实时收集用户的语音信息，并将收集到的音频代入声学模型进行建模，并获取声学模型中每一帧所对应的音素，并通过MFCC转换，得到学习音素频率图；

其中，当学习音素频率图出现某段频率曲线与标准音素频率图相同的频率曲线时，将学习音素频率图中相同的频率曲线标记为关键音素，并将带有关键音素的这段音素进行提取；

所述特征学习模块内安装有语音识别软件，将提取后的这段音素发送至语音识别软件进行认证识别，并获取第一种语音识别软件的识别内容，并将识别内容标记为第一识别文本，获取第二种语音识别软件的识别内容，并将识别内容标记为第二识别文本；

2.根据权利要求1所述的一种基于人工智能的自动调音终端设备，其特征在于，新特征采集识别模块用于对新用户进行语音判别，其中，新用户具体指第一次使用自动调音终端设备的用户。

3.根据权利要求2所述的一种基于人工智能的自动调音终端设备，其特征在于，所述新特征采集识别模块内设置有存储单元，存储单元内存储有标准指令集，其中，新用户使用自动调音终端设备时，新特征采集识别模块与感知模块建立数据链接，获取感知模块内的感知数据，并根据感知数据代入标准指令集内让新用户进行反馈。

4.根据权利要求3所述的一种基于人工智能的自动调音终端设备，其特征在于，所述标准指令集具体为，打开XXX指令，关闭XXX指令，调节XXX指令；具体的XXX为感知数据内所有项目；

5.根据权利要求4所述的一种基于人工智能的自动调音终端设备，其特征在于，所述特征生成模块用于存储声学模型中每一帧所对应的音素，并将音素进行MFCC转换，得到标准音素频率图。

6.根据权利要求5所述的一种基于人工智能的自动调音终端设备，其特征在于，所述感知模块用于对使用场景内的智能物联网电器进行识别并标记，具体为：生成各设备类型对应的识别标签和特征参量信息，其中，所述特征参量信息是基于不同类型的设备间的差异生成的，每种设备类型对应一个特征参量信息；

将所述识别标签与特征参量信息进行关联配置；