CN116434733B

CN116434733B - 一种关于智能安全帽的ai语音交互处理方法

Info

Publication number: CN116434733B
Application number: CN202310452213.7A
Authority: CN
Inventors: 刘岗; 袁溪清; 洪健; 张正龙
Original assignee: Shenzhen Zhongnuo Zhilian Technology Co ltd
Current assignee: Shenzhen Zhongnuo Zhilian Technology Co ltd
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2024-06-07
Anticipated expiration: 2043-04-25
Also published as: CN116434733A

Abstract

本发明涉及安全帽语音交互技术领域，具体的说是一种关于智能安全帽的AI语音交互处理方法，包括综合数据录入，数据预处理，特征提取，语言种类识别，语音情绪分析，智能答复，用户反馈，通过在安全帽上安装语音采集端，用于采集用户发出的语音，同时将所处建筑工程的信息录入，用于用户在不同区域之间进行位置转换时发出提醒，将用户发出的语音数据进行预加重、分帧和加窗处理，再通过数据预处理步骤中的预加重、分帧和加窗处理步骤，将采集到的用户的整段语音切割成了语音片段，对语音的各项特征进行提取，本发明智能化程度高，安全性高，语音识别精准度高，系统能够自动升级，在智能安全帽上有着较大的市场前景。

Description

一种关于智能安全帽的AI语音交互处理方法

技术领域

本发明涉及一种关于智能安全帽的AI语音交互处理方法，属于安全帽语音交互技术领域。

背景技术

安全帽是对人体头部受坠落物及其他特定因素引起的伤害起防护作用的帽子，是工业企业安全生产必备的劳防用品，由于传统的安全帽面临功能单一、技术含量不高，现在也开发了一些智能安全帽，用于语音交互提醒，在智能安全帽的使用过程中，就需要对语音交互信息进行处理，在申请号为CN201911274649.1的中国发明专利中提出一种实时语音交互处理方法及装置、电子设备、存储介质，通过接收语音会话信息，确定所接收的语音会话信息中是否存在预设的敏感内容；在所述语音会话信息中未存在所述敏感内容时，返回与所述语音会话信息相匹配的语音回复数据；在所述语音会话信息存在所述敏感内容时，返回与所述敏感内容相匹配的语音提醒数据，所述语音提醒数据用于提醒所述语音会话信息中涉及敏感内容。这样，本实施例中可以在语音会话信息存在敏感内容时回复语音提醒数据，可以及时提醒用户，从而使用户及时中止该敏感话题，避免出现用户多次重复的问题，有利于提升用户使语音交互的体验。

然而，上述对比文件提出的语音交互处理方法在智能安全帽的使用过程中不具有针对性，无法适应安全帽的使用环境，在使用时无法针对建筑工程的环境进行提醒，无法进行智能化升级。

有鉴于此特提出本发明。

发明内容

本发明的目的就在于为了解决上述问题而提供一种关于智能安全帽的AI语音交互处理方法，通过在安全帽上安装语音采集端，用于采集用户发出的语音，同时对语音进行定位，保证只采集距离最近的语音，将远处语音信息定义为非用户自主语音，同时将所处建筑工程的信息录入，根据工程位置划分为危险区域、轻度危险区域和安全区域，用于用户在不同区域之间进行位置转换时发出提醒，保证了基本语音交互的功能同时，提高了对用户的警示提醒效果，进而提高了用户安全性，增加了对用户的语音情绪分析，综合特征提取步骤中的各项数据和语言种类识别步骤中输出的文字内容，分析用户语音内容的同时对其当前情绪进行确定，内容结合情绪确定用户当前语音的目的，获取的内容将会更加准确，在使用完成后，对本日产生的所有语音问答数据进行集合，将用户重复性的问句筛选出，将其定义为用户不满意的交互项，向用户移动端APP发送反馈问卷，将用户不满意的交互项置于反馈问卷内，并给出不满意的原因选项，分别是未听清和答非所问，如若用户选择答非所问的选项，则让用户填写用户当时语音的具体意思，针对反馈意见，对语音交互系统进行升级，有助于系统更完善。

本发明通过以下技术方案来实现上述目的，一种关于智能安全帽的AI语音交互处理方法，包括以下步骤：

S1，综合数据录入，在安全帽上安装语音采集端，用于采集用户发出的语音，同时将所处建筑工程的信息录入，用于用户在不同区域之间进行位置转换时发出提醒；

S2，数据预处理，将用户发出的语音数据进行预加重、分帧和加窗处理；

S3，特征提取，通过数据预处理步骤中的预加重、分帧和加窗处理步骤，将采集到的用户的整段语音切割成了语音片段，对语音的各项特征进行提取，通过解码器对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串；

S4，语言种类识别，对语音数据的语音种类进行识别，识别后将语音输出为相应文字；

S5，语音情绪分析，综合特征提取步骤中的各项数据和语言种类识别步骤中输出的文字内容，分析用户语音内容的同时对其当前情绪进行确定，内容结合情绪确定用户当前语音的目的；

S6，智能答复，根据语音情绪分析步骤中的分析结果，给出相关的智能答复；

S7，用户反馈，在使用完成后，对本日产生的所有语音问答数据进行集合，让客户对不满意的交互项进行反馈，针对反馈意见，对语音交互系统进行升级。

进一步的，在步骤综合数据录入中，具体的操作方法为：在安全帽上安装语音采集端，用于采集用户发出的语音，同时对语音进行定位，保证只采集距离最近的语音，将远处语音信息定义为非用户自主语音，同时将所处建筑工程的信息录入，根据工程位置划分为危险区域、轻度危险区域和安全区域，用于用户在不同区域之间进行位置转换时发出提醒。

进一步的，在步骤数据预处理中，预加重的方式为保持信号的低频部分不变，提升信号的高频部分，而去加重衰减信号的低频部分，保持高频部分，预加重/去加重的目的都是提升信号中高频部分的能量，以补偿信道对高频部分衰减过大，在对语音信号s(n)进行分析之前通过滤波器将无效部分滤除，对高频部分加以提升。

进一步的，在数据预处理步骤中，短时分析采用分帧方式，相邻两帧之间的基因可能发生变化，采用重叠取帧的方式，将语音信号进行切割，且保证一定的重复率，语音信号是一个非平稳信号，在发浊音时声带有规律地振动，即基音频率在短时间范围内是相对固定的，语音信号具有短时平稳特性。

进一步的，在步骤特征提取中，具体的方法为：通过数据预处理步骤中的预加重、分帧和加窗处理步骤，将采集到的用户的整段语音切割成了语音片段，对语音的声强、声强级、响度、音高、基音周期、基音频率、谐噪比、频率微扰、振幅微扰、规范化噪声能量数据进行剔除，计算每个片段的短时能量、短时平均幅度、共振峰、声门波、语速和停顿的发声特征，通过解码器对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。

进一步的，在步骤语言种类识别中，具体的方法为：对语音数据的语音种类进行识别，包括中文、英文、日文，在确定用户语音的语种后进行实际内容输出，将语音输出为相应文字。

进一步的，在用户反馈步骤中，具体的方法为：在使用完成后，对本日产生的所有语音问答数据进行集合，将用户重复性的问句筛选出，将其定义为用户不满意的交互项，向用户移动端APP发送反馈问卷，将用户不满意的交互项置于反馈问卷内，并给出不满意的原因选项，分别是未听清和答非所问，如若用户选择答非所问的选项，则让用户填写用户当时语音的具体意思，针对反馈意见，对语音交互系统进行升级。

本发明的技术效果和优点：本发明通过在安全帽上安装语音采集端，用于采集用户发出的语音，同时对语音进行定位，保证只采集距离最近的语音，将远处语音信息定义为非用户自主语音，同时将所处建筑工程的信息录入，根据工程位置划分为危险区域、轻度危险区域和安全区域，用于用户在不同区域之间进行位置转换时发出提醒，保证了基本语音交互的功能同时，提高了对用户的警示提醒效果，进而提高了用户安全性。

本发明相较于传统语音交互处理方法而言，增加了对用户的语音情绪分析，综合特征提取步骤中的各项数据和语言种类识别步骤中输出的文字内容，分析用户语音内容的同时对其当前情绪进行确定，内容结合情绪确定用户当前语音的目的，获取的内容将会更加准确。

本发明还设置了反馈功能，在使用完成后，对本日产生的所有语音问答数据进行集合，将用户重复性的问句筛选出，将其定义为用户不满意的交互项，向用户移动端APP发送反馈问卷，将用户不满意的交互项置于反馈问卷内，并给出不满意的原因选项，分别是未听清和答非所问，如若用户选择答非所问的选项，则让用户填写用户当时语音的具体意思，针对反馈意见，对语音交互系统进行升级，有助于系统更完善。

附图说明

图1为本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1所示，一种关于智能安全帽的AI语音交互处理方法。

综合数据录入，在安全帽上安装语音采集端，用于采集用户发出的语音，同时对语音进行定位，保证只采集距离最近的语音，将远处语音信息定义为非用户自主语音，同时将所处建筑工程的信息录入，根据工程位置划分为危险区域、轻度危险区域和安全区域，用于用户在不同区域之间进行位置转换时发出提醒，保证了基本语音交互的功能同时，提高了对用户的警示提醒效果，进而提高了用户安全性。

数据预处理，将用户发出的语音数据进行预加重、分帧和加窗处理，其中预加重的方式为保持信号的低频部分不变，提升信号的高频部分，而去加重衰减信号的低频部分，保持高频部分，预加重/去加重的目的都是提升信号中高频部分的能量，以补偿信道对高频部分衰减过大，在对语音信号s(n)进行分析之前通过滤波器将无效部分滤除，对高频部分加以提升，语音信号是一个非平稳信号，在发浊音时声带有规律地振动，即基音频率在短时间范围内是相对固定的，语音信号具有短时平稳特性，短时分析采用分帧方式，相邻两帧之间的基因可能发生变化，采用重叠取帧的方式，将语音信号进行切割，且保证一定的重复率。

特征提取，通过数据预处理步骤中的预加重、分帧和加窗处理步骤，将采集到的用户的整段语音切割成了语音片段，对语音的声强、声强级、响度、音高、基音周期、基音频率、谐噪比、频率微扰、振幅微扰、规范化噪声能量数据进行剔除，计算每个片段的短时能量、短时平均幅度、共振峰、声门波、语速和停顿的发声特征，通过解码器对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。

语言种类识别，对语音数据的语音种类进行识别，包括中文、英文、日文，在确定用户语音的语种后进行实际内容输出，将语音输出为相应文字。

语音情绪分析，综合特征提取步骤中的各项数据和语言种类识别步骤中输出的文字内容，分析用户语音内容的同时对其当前情绪进行确定，内容结合情绪确定用户当前语音的目的，相较于传统语音交互处理方法而言，增加了对用户的语音情绪分析，分析用户语音内容的同时对其当前情绪进行确定，内容结合情绪确定用户当前语音的目的，获取的内容将会更加准确。

智能答复，根据语音情绪分析步骤中的分析结果，给出相关的智能答复。

用户反馈，在使用完成后，对本日产生的所有语音问答数据进行集合，将用户重复性的问句筛选出，将其定义为用户不满意的交互项，向用户移动端APP发送反馈问卷，将用户不满意的交互项置于反馈问卷内，并给出不满意的原因选项，分别是未听清和答非所问，如若用户选择答非所问的选项，则让用户填写用户当时语音的具体意思，针对反馈意见，对语音交互系统进行升级。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种关于智能安全帽的AI语音交互处理方法，其特征在于，包括以下步骤：

S7，用户反馈，在使用完成后，对本日产生的所有语音问答数据进行集合，具体的方法为：将用户重复性的问句筛选出，将其定义为用户不满意的交互项，向用户移动端APP发送反馈问卷，将用户不满意的交互项置于反馈问卷内，并给出不满意的原因选项，分别是未听清和答非所问，如若用户选择答非所问的选项，则让用户填写用户当时语音的具体意思，针对反馈意见，对语音交互系统进行升级。

2.根据权利要求1所述的一种关于智能安全帽的AI语音交互处理方法，其特征在于，在步骤综合数据录入中，具体的操作方法为：在安全帽上安装语音采集端，用于采集用户发出的语音，同时对语音进行定位，保证只采集距离最近的语音，将远处语音信息定义为非用户自主语音，同时将所处建筑工程的信息录入，根据工程位置划分为危险区域、轻度危险区域和安全区域，用于用户在不同区域之间进行位置转换时发出提醒。

3.根据权利要求1所述的一种关于智能安全帽的AI语音交互处理方法，其特征在于，在步骤数据预处理中，预加重的方式为保持信号的低频部分不变，提升信号的高频部分，而去加重衰减信号的低频部分，保持高频部分，预加重/去加重的目的都是提升信号中高频部分的能量，以补偿信道对高频部分衰减过大，在对语音信号s(n)进行分析之前通过滤波器将无效部分滤除，对高频部分加以提升。

4.根据权利要求3所述的一种关于智能安全帽的AI语音交互处理方法，其特征在于，在数据预处理步骤中，短时分析采用分帧方式，相邻两帧之间的基因可能发生变化，采用重叠取帧的方式，将语音信号进行切割，且保证一定的重复率，语音信号是一个非平稳信号，在发浊音时声带有规律地振动，即基音频率在短时间范围内是相对固定的，语音信号具有短时平稳特性。

5.根据权利要求1所述的一种关于智能安全帽的AI语音交互处理方法，其特征在于，在步骤特征提取中，具体的方法为：通过数据预处理步骤中的预加重、分帧和加窗处理步骤，将采集到的用户的整段语音切割成了语音片段，对语音的声强、声强级、响度、音高、基音周期、基音频率、谐噪比、频率微扰、振幅微扰、规范化噪声能量数据进行剔除，计算每个片段的短时能量、短时平均幅度、共振峰、声门波、语速和停顿的发声特征，通过解码器对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。

6.根据权利要求1所述的一种关于智能安全帽的AI语音交互处理方法，其特征在于，在步骤语言种类识别中，具体的方法为：对语音数据的语音种类进行识别，包括中文、英文、日文，在确定用户语音的语种后进行实际内容输出，将语音输出为相应文字。