CN117198338A

CN117198338A - 一种基于人工智能的对讲机声纹识别方法及系统

Info

Publication number: CN117198338A
Application number: CN202311465929.7A
Authority: CN
Inventors: 张文美; 潘仁兴
Original assignee: Zhongruike Technology Co ltd
Current assignee: Zhongruike Technology Co ltd
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2023-12-08
Anticipated expiration: 2043-11-07
Also published as: CN117198338B

Abstract

本发明公开了一种基于人工智能的对讲机声纹识别方法及系统，涉及音频分析技术领域，方法包括以下步骤：收集各对讲机使用者的语音信息，预处理后生成第一声纹信息，汇总后建立声纹库；将使用者的第一声纹信息与其对讲机信息绑定；在使用对讲机进行通话时，获取语音信息进行所述预处理生成对应的第二声纹信息；该基于人工智能的对讲机声纹识别方法及系统，通过对对讲机使用者的语音信息进行情感分析，并对不同情感状态下的相同字词句分别进行特征分析，得到相同字、词在不同情感及不同字、词组合和语句下的声纹特征，使得声纹识别时能更贴合对讲机使用者的发言、发音习惯，提高识别的精确度。

Description

一种基于人工智能的对讲机声纹识别方法及系统

技术领域

本发明涉及音频分析技术领域，具体涉及一种基于人工智能的对讲机声纹识别方法及系统。

背景技术

语音是人类最自然的交互方式，不同说话者的发声器官具有差异性，比如,独特的发声结构、喉部大小、鼻口腔、发音习惯、语调、节奏等，所形成的声音信息可以代表个人特征，故通过分析讲话人语音特征可以有效识别讲话人身份，即声纹识别。在一些特殊场合需要使用无线电、对讲机等远程通话，尤其在某些场景下需要保证对讲机对面的人为对讲机持有者本人，用以保证安全等需要。

公开号为CN109920435A的中国专利，公开了一种声纹识别方法，包含：接收未知用户输入的待识别语音信号；提取所述待识别语音信号中每一帧所对应的帧声纹特征；计算各所述帧声纹特征的后验概率；基于所述后验概率对各所述帧声纹特征进行分类，并确定每种分类的类型标识；并基于相同分类中所包含的所述帧声纹特征，分别训练生成待识别模型，和声纹识别模型；基于所述待识别模型与所述声纹识别模型的相似度确定所述未知用户是否为所述已知用户，可提高文本无关语音信号识别的准确性，特别是短文本无关语音信号的识别效率，此外，还提供了一种声纹识别装置。

上述现有技术利用了短时间内可视语音信息为稳态信号，从而通过对语音信息进行分帧处理及分析，进行声纹识别，分析出语音信号对应的发出者，然而还需要考虑人在不同环境下，发出同样字、词或语句的声音时，可能存在一定的差别和不同的习惯的情况，以提高声纹识别准确性。

发明内容

本发明的目的是提供一种基于人工智能的对讲机声纹识别方法及系统，以解决现有技术中的上述不足之处。

为了实现上述目的，本发明提供如下技术方案：一种基于人工智能的对讲机声纹识别方法，包括以下步骤：

S1、收集各对讲机使用者的语音信息，预处理后生成第一声纹信息，汇总后建立声纹库；此处预处理采用声纹识别时通用的预处理方法包括端点检测、预加重等；

S2、将使用者的第一声纹信息与其对讲机信息绑定；

S3、在使用对讲机进行通话时，获取语音信息进行所述预处理生成对应的第二声纹信息，基于所述声纹库和声纹识别算法对通话时的第二声纹信息进行特征匹配；

S4、显示语音信息来源的对讲机及匹配结果，可通过显示对讲机的编号，在对讲机的编号后显示识别出的声纹匹配的人名，若没有匹配的声纹则进行标记提醒，如用红色显示无匹配结果；或使用声音进行报警提醒；

S5、对匹配成功的第二声纹信息进行收集，并对所述第二声纹信息进行情感分析；

S6、根据所述情感分析的结果和声纹匹配的结果对所述第二声纹信息进行分类，得到每个使用者第二声纹信息的多个语音情感组；

S7、对于每个使用者的每个语音情感组的第二声纹信息进行文字转换，并将第二声纹信息按照文字转换的字、词、句的不同进行分类，得到语音对比组；

S8、将所述语音情感组和所述语音对比组，更新到所述声纹库中。

进一步的，所述方法还包括基于声纹信息，对声纹识别算法进行训练，生成各使用者的声纹模型。

进一步的，所述方法还包括：

对每个使用者的每个语音情感组的每个语音对比组的第二声纹信息，进行特征匹配，即对每个使用者的每个语音情感组，相同字、词、句的第二声纹信息进行特征匹配；

基于每个所述语音对比组中特征匹配不同的第二声纹信息，分别对声纹识别算法进行训练生成对应的声纹子模型，每个使用者的声纹子模型共同组成该使用者的声纹模型。

进一步的，进行所述特征匹配时，首先对相同字的语音对比组对应的第二声纹信息进行特征匹配；

基于特征匹配的相似度将对应的第二声纹信息进行分类，并分别基于分类后的每一类第二声纹信息，对声纹识别算法进行训练，分别得到第一声纹子模型与该语音对比组对应；

记录各词对应的第二声纹信息出现的频率及次数，并设定词频率阈值和词次数阈值。

进一步的，若检测到一个词对应的第二声纹信息，满足出现的频率超过所述词频率阈值，或出现的次数超过词次数阈值中的至少一个，则新建语音对比组用于储存该词对应的第二声纹信息；

对词对应的语音对比组的第二声纹信息进行特征匹配；

基于特征匹配的相似度将对应的第二声纹信息进行分类，并分别基于分类后的每一类第二声纹信息，对声纹识别算法进行训练，分别得到第二声纹子模型与该语音对比组对应；

记录各句对应的第二声纹信息出现的频率及次数，并设定句频率阈值和局次数阈值。

进一步的，若检测到一个句对应的第二声纹信息，满足出现的频率超过所述句频率阈值，或出现的次数超过句次数阈值中的至少一个，则新建语音对比组用于储存该句对应的第二声纹信息；

对句词对应的语音对比组的第二声纹信息进行特征匹配；

基于特征匹配的相似度将对应的第二声纹信息进行分类，并分别基于分类后的每一类第二声纹信息，对声纹识别算法进行训练，分别得到第三声纹子模型与该语音对比组对应。

进一步的，S3步骤中基于所述声纹库和声纹识别算法对通话时的第二声纹信息进行特征匹配，具体为：

对所述第二声纹信息进行情感识别，并在声纹库中检索对应的语音情感组；

将所述第二声纹信息进行文字转换，并在声纹库中的对应的语音情感组中对转换成的文字进行逐句检索；

若检索到该语音情感组中存在语音对比组储存的第二声纹信息对应的句，与转换成的文字中的句相同，则将所述第二声纹信息与该语音对比组对应的多个第三声纹模型进行特征匹配；

否则，对所述第二声纹信息转换的文字进行分词，并在声纹库中的对应的语音情感组中对转换成的文字进行逐词检索；

若检索到该语音情感组中存在语音对比组储存的第二声纹信息对应的词，与转换成的文字中的词相同，则将所述第二声纹信息与该语音对比组对应的多个第二声纹模型进行特征匹配；

否则，逐字将所述第二声纹信息与声纹库中的对应的语音情感组中的第一声纹模型进行特征匹配。

一种基于人工智能的对讲机声纹识别系统，包括储存模块、信息获取模块、情感识别模块、文字转换模块、声纹匹配模块、模型更新模块、显示屏；

所述声纹库储存在所述储存模块中；

所述信息获取模块用于与对讲机连接，获取对讲机接收到的语音信息及对讲机信息的基本信息，并对语音信息进行预处理得到声纹信息，对讲机的基本信息包括对讲机名称，对讲机名称可使用出厂自带或自定义设置；

所述情感识别模块用于对声纹信息进行情感识别；

所述文字转换模块用于将声纹信息进行语音识别转换成文字信息；

所述声纹匹配模块用于基于声纹库，使用声纹识别算法对声纹信息进行识别匹配；

所述模型更新模块用于收集整理情感识别模块和文字转换模块的信息，生成语音情感组和语音对比组，对声纹库进行和声纹识别算法进行更新；

所述显示屏用于将数据信息可视化显示。

与现有技术相比，本发明提供的一种基于人工智能的对讲机声纹识别方法及系统，通过对对讲机使用者的语音信息进行情感分析，并对不同情感状态下的相同字词句分别进行特征分析，得到相同字、词在不同情感及不同字、词组合和语句下的声纹特征，使得声纹识别时能更贴合对讲机使用者的发言、发音习惯，提高识别的精确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的方法步骤图；

图2为本发明实施例提供的系统结构框图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

在本发明的描述中，术语"第一"、"第二"仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，"多个"的含义是两个或两个以上，除非另有明确具体的限定。此外，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

请参阅图1-图2，一种基于人工智能的对讲机声纹识别方法，包括以下步骤：

S2、将使用者的第一声纹信息与其对讲机信息绑定。

S3、在使用对讲机进行通话时，获取语音信息进行预处理生成对应的第二声纹信息，基于声纹库和声纹识别算法对通话时的第二声纹信息进行特征匹配；对于声纹识别算法，需要基于声纹信息，对声纹识别算法进行训练，生成各使用者的声纹模型，进行特征匹配时通过对比声纹信息与声纹模型的匹配度来确定是否匹配。

S5、对匹配成功的第二声纹信息进行收集，并对第二声纹信息进行情感分析；

S6、根据情感分析的结果和声纹匹配的结果对第二声纹信息进行分类，得到每个使用者第二声纹信息的多个语音情感组；

S8、将语音情感组和语音对比组，更新到声纹库中。

方法还包括：

基于每个语音对比组中特征匹配不同的第二声纹信息，分别对声纹识别算法进行训练生成对应的声纹子模型，每个使用者的声纹子模型共同组成该使用者的声纹模型。

进行特征匹配时，首先对相同字的语音对比组对应的第二声纹信息进行特征匹配；

若检测到一个词对应的第二声纹信息，满足出现的频率超过词频率阈值，或出现的次数超过词次数阈值中的至少一个，则新建语音对比组用于储存该词对应的第二声纹信息；

对词对应的语音对比组的第二声纹信息进行特征匹配；

若检测到一个句对应的第二声纹信息，满足出现的频率超过句频率阈值，或出现的次数超过句次数阈值中的至少一个，则新建语音对比组用于储存该句对应的第二声纹信息；

对句词对应的语音对比组的第二声纹信息进行特征匹配；

在上述基础上，S3步骤中基于声纹库和声纹识别算法对通话时的第二声纹信息进行特征匹配，具体可为：

对第二声纹信息进行情感识别，并在声纹库中检索对应的语音情感组；

将第二声纹信息进行文字转换，并在声纹库中的对应的语音情感组中对转换成的文字进行逐句检索；

若检索到该语音情感组中存在语音对比组储存的第二声纹信息对应的句，与转换成的文字中的句相同，则将第二声纹信息与该语音对比组对应的多个第三声纹模型进行特征匹配；

否则，对第二声纹信息转换的文字进行分词，并在声纹库中的对应的语音情感组中对转换成的文字进行逐词检索；

若检索到该语音情感组中存在语音对比组储存的第二声纹信息对应的词，与转换成的文字中的词相同，则将第二声纹信息与该语音对比组对应的多个第二声纹模型进行特征匹配；

否则，逐字将第二声纹信息与声纹库中的对应的语音情感组中的第一声纹模型进行特征匹配。

由此可收集对讲机使用者的个人语言、发音、用词等习惯，并先基于对讲机使用者的个人语言、发音、用词等习惯，进行声纹识别和分析，使得执行本发明方法的声纹识别系统更了解对讲机的使用者，提高各种情况下声纹识别的准确度。

声纹库储存在储存模块中；

信息获取模块用于与对讲机连接，获取对讲机接收到的语音信息及对讲机信息的基本信息，并对语音信息进行预处理得到声纹信息，对讲机的基本信息包括对讲机名称，对讲机名称可使用出厂自带或自定义设置；

情感识别模块用于对声纹信息进行情感识别；

文字转换模块用于将声纹信息进行语音识别转换成文字信息；

声纹匹配模块用于基于声纹库，使用声纹识别算法对声纹信息进行识别匹配；

模型更新模块用于收集整理情感识别模块和文字转换模块的信息，生成语音情感组和语音对比组，对声纹库进行和声纹识别算法进行更新；

显示屏用于将数据信息可视化显示。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.一种基于人工智能的对讲机声纹识别方法，其特征在于：包括以下步骤：

S1、收集各对讲机使用者的语音信息，预处理后生成第一声纹信息，汇总后建立声纹库；

S2、将使用者的第一声纹信息与其对讲机信息绑定；

S3、在使用对讲机进行通话时，获取语音信息进行预处理生成对应的第二声纹信息，基于所述声纹库和声纹识别算法对通话时的第二声纹信息进行特征匹配；

S4、显示语音信息来源的对讲机及匹配结果；

2.根据权利要求1所述的一种基于人工智能的对讲机声纹识别方法，其特征在于：所述方法还包括基于声纹信息，对声纹识别算法进行训练，生成各使用者的声纹模型。

3.根据权利要求1所述的一种基于人工智能的对讲机声纹识别方法，其特征在于：所述方法还包括：

对每个使用者的每个语音情感组的每个语音对比组的第二声纹信息，进行特征匹配；

4.根据权利要求3所述的一种基于人工智能的对讲机声纹识别方法，其特征在于：进行所述特征匹配时，首先对相同字的语音对比组对应的第二声纹信息进行特征匹配；

5.根据权利要求4所述的一种基于人工智能的对讲机声纹识别方法，其特征在于：若检测到一个词对应的第二声纹信息，满足出现的频率超过所述词频率阈值，或出现的次数超过词次数阈值中的至少一个，则新建语音对比组用于储存该词对应的第二声纹信息；

对词对应的语音对比组的第二声纹信息进行特征匹配；

6.根据权利要求5所述的一种基于人工智能的对讲机声纹识别方法，其特征在于：若检测到一个句对应的第二声纹信息，满足出现的频率超过所述句频率阈值，或出现的次数超过句次数阈值中的至少一个，则新建语音对比组用于储存该句对应的第二声纹信息；

对句词对应的语音对比组的第二声纹信息进行特征匹配；

7.根据权利要求6所述的一种基于人工智能的对讲机声纹识别方法，其特征在于：S3步骤中基于所述声纹库和声纹识别算法对通话时的第二声纹信息进行特征匹配，具体为：

8.一种基于人工智能的对讲机声纹识别系统，执行如权利要求1-7任一项所述一种基于人工智能的对讲机声纹识别方法，其特征在于：包括储存模块、信息获取模块、情感识别模块、文字转换模块、声纹匹配模块、模型更新模块、显示屏；

所述声纹库储存在所述储存模块中；

所述信息获取模块用于与对讲机连接，获取对讲机接收到的语音信息及对讲机信息的基本信息，并对语音信息进行预处理得到声纹信息；

所述情感识别模块用于对声纹信息进行情感识别；

所述显示屏用于将数据信息可视化显示。