CN117456984A

CN117456984A - 一种基于声纹识别的语音交互方法及系统

Info

Publication number: CN117456984A
Application number: CN202311400275.XA
Authority: CN
Inventors: 叶增荣; 陈文鹏; 岑小坤
Original assignee: Hangzhou Quick Way Huisheng Technology Co ltd
Current assignee: Hangzhou Quick Way Huisheng Technology Co ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-26
Anticipated expiration: 2043-10-26
Also published as: CN117456984B

Abstract

本发明公开了一种基于声纹识别的语音交互方法，涉及语音交互技术领域，包括如下步骤：S1、通过声音拾取设备采集音频，获得音频数据；S2、将音频数据通过语音识别装置将其转换成文字，并通过端点检测算法进行音频断点检测，获得断点特征点；S3、检测到断点特征点后，将该音频数据发送给声纹引擎进行声纹识别，从而更新角色信息；其中，所述音频数据在通过步骤S2之前还包括设置有音频分类处理，其处理内容如下：将S1获取的音频数据划分成环境音频、文字音频以及干扰音频，然后将文字音频发送至步骤S2；本发明还公开了一种语音交互系统，具体来说，本发明能够准确区分说话人的角色，同时将多个人讲话的内容准确的转成文字，提高笔录制作效率。

Description

一种基于声纹识别的语音交互方法及系统

技术领域

本发明涉及语音交互技术领域，特别地，涉及一种基于声纹识别的语音交互方法及系统。

背景技术

数码录音笔，简称录音笔，也被称为数码录音棒或数码录音机，是数字录音器的一种。为了便于操作和提升录音质量，录音笔可以设计为各种造型，并非以单纯的笔型为主。录音笔的主要优点在于其携带方便，适用性强，同时拥有多种功能，在会议记录、新闻采访、隐蔽录音、运动录音等各类场景下均可以发挥良好的作用。

而随着实际所需，通过录音设备进行语音采集以及文本直接输出，这一需求越来越需要，而目前主要采集三种方式对语音进行文本转化：

方式一：VQ聚类方法(如LBG，K-均值)：效果比较好，算法复杂度也不高，和HMM方法配合起来更可以收到更好的效果，但对于录音环境需要较高的要求，否则容易出现异常数据；

方式二：隐马尔可夫模型是一种基于转移概率和传输概率的随机模型，它把语音看成由可观察到的符号序列组成的随机过程，符号序列则是发声系统状态序列的输出。在使用HMM识别时，为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵，且HMM不需要时间规整，可节约判决时的计算时间和存储量，目前被广泛应用在工业领域；但需要通过大量时间进行训练，效率较低。

方式三：人工神经网络在某种程度上模拟生物的感知特性，它是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，但缺点是训练时间长，动态时间规整能力弱，网络规模随说话人数目增加时可能大到难以训练的程度。

基于此，有必要提出一种基于声纹识别的语音交互方法以解决或至少缓解上述缺陷。

发明内容

本发明的主要目的在于提供一种基于声纹识别的语音交互方法及系统，旨在解决上述背景技术中所提出的技术问题。

为实现上述目的，本发明采用的技术方案如下：

一种基于声纹识别的语音交互方法，包括如下步骤：

S1、通过声音拾取设备采集音频，获得音频数据；

S2、将音频数据通过语音识别装置将其转换成文字，并通过端点检测算法进行音频断点检测，获得断点特征点；

S3、检测到断点特征点后，将该音频数据发送给声纹引擎进行声纹识别，从而更新角色信息；

其中，所述音频数据在通过步骤S2之前还包括设置有音频分类处理，其处理内容如下：将S1获取的音频数据划分成环境音频、文字音频以及干扰音频，然后将文字音频发送至步骤S2。

作为优选，所述步骤S2中音频断点检测，获得断点特征点的具体步骤如下：

S200、音频数据输入值语音识别装置内，进行纠偏以及滤波操作，得到标准语音；

S201、将标准语音进行端点检测，得到端点数据组β；

S202、将标准语音进行语义识别，得到语义文本序列组α；

S203、结合端点数据组β以及语义文本序列组α，得到断点特征点的集合数据。

作为优选，所述步骤S201中端点数据段β的具体获取步骤如下：

S2020、配置时序指令，即语音段中字符之间的时间间隔t；

S2021、获取标准语音中字符之间的时间间隔T；

S2022、判断T≥1.5t，若是，则表明在此处的语音字符段为端点ε₁，若否，则继续进行排查，从而依次获得若干个端点ε_i，其中，i＝1,2,3…，根据若干个端点ε_i形成端点数据组β。

作为优选，所述步骤S203中断点特征点的集合数据的获取，其具体步骤如下：

S2030、对端点数据组β以及语义文本序列组α进行拟合，获得纠正语音段数组；

S2031、对纠正语音段数组的前后断点进行检测，从而获得断点特征点的集合数据。

作为优选，所述步骤S2030中拟合的具体步骤如下：

获取语义文本序列组α中，各个序列的前后端点，将其与端点数据组β进行比对，从而清洗出重合的数据组，获得纠正语音段数组。

作为优选，所述步骤S3中声纹识别的具体步骤如下：

S30、对所述当前音频数据进行音频识别，判定其是否存在同一时间帧出现多段语音段；若是，则进行分割处理，获得分割语音片段，并进行下一步骤，若否，则直接进行声纹识别；

S31、对所述分割语音片段进行数据增强处理，获得增强语音片段，再进行声纹识别，从而获得增强语音片段/音频数据对应的角色信息。

作为优选，所述数据增强处理包括噪点祛除以及声音增强。

本发明还公开了一种语音交互系统，用于上述任一项方案中的所述语音交互方法，包括语音采集模块、处理模块以及输出模块；

所述语音采集模块，用于获取语音数据；

所述处理模块，用于对语音数据进行处理获得文本数据；

所述输出模块，用于将所述处理模块处理获得的文本数据进行展示；且所述语音采集模块、所述处理模块以及所述输出模块三者依次电连接。

作为优选，还包括反馈模块以及数据库，所述反馈模块用于对处理模块所获得的文本数据进行校正，并将其反馈至处理模块，提升语音转文本的准确率，所述数据库用于存放系统所产生的各类数据。

作为优选，其集合内置于电子设备上。

本发明具有以下有益效果：

本发明对于录音环境的需求较低，以及无需进行复杂的时长训练，其次，能够准确区分说话人的角色，同时将多个人讲话的内容准确的转成文字，提高笔录制作效率。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明中语音交互系统的组织架构示意图；

图2是本发明中语音交互方法的流程示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图2所示一种基于声纹识别的语音交互方法，包括如下步骤：

S1、通过声音拾取设备采集音频，获得音频数据；在本实施例中，所述声音拾取设备主要为录音笔，其应用场景主要为采访环境，在该环境下，会存在较为嘈杂的语言环境，不仅有自然界的干扰，同时，会有多人同时说话的干扰，在此种环境下，对于传统的处理方式一而言，由于环境复杂且存在较多干扰项(噪点)，对于VQ聚类方法而言，导致转换过程中产生过多的异常数据，影响转换的准确率；

需要注意的是，所述音频数据在通过步骤S2之前还包括设置有音频分类处理，其处理内容如下：将S1获取的音频数据划分成环境音频、文字音频以及干扰音频，然后将文字音频发送至步骤S2。

更进一步来说，为了能够更好地实现文字转换的目的，通过对音频数据的成分划分以便以提升转换的准确性，如上所述，所述环境音频主要包括外界自然声音，例如：风声、人走动的摩擦声、键盘的敲打声等，所述干扰音频主要是在进行自然访问过程中，存在多组采访人员以及应答人员的声音，更具体来说，即在同一时间内，录音笔采集到邻近采访人员的问答，这在后续的文字转换过程中会容易造成转化出错的问题；

因此，在进行文字转换过程中会先进行音频类型的分离，即将同一帧内的内容进行分离，在此处主要讲述所述干扰音频的处理方式，其主要处理手段是通过分贝值以及语义进行分离，具体来说，第一步：先将音频按照分贝值进行划分，获得一类语音，一般来说，同一人的说话分贝基本上是保持相近的值域范围内，且录音笔与采集对象距离的远近也会导致采集数据的分贝值存在差异；第二步：根据一类语音所表达的意思，找到正确对应的回答，从而进行音频数据的集合。

基于S1中的问题，为了进一步提升语音转换文字的准确性以及转换的效率问题，在本申请中，采用S2、将音频数据通过语音识别装置将其转换成文字，并通过端点检测算法进行音频断点检测，获得断点特征点；

更具体来说，在所述步骤S2中音频断点检测，获得断点特征点的具体步骤如下：

S200、音频数据输入值语音识别装置内，进行纠偏以及滤波操作，得到标准语音，对于语音数据进行降噪处理，去除数据中存在比较显著的干扰项，避免影响后续转换过程中的准确性；

S201、将标准语音进行端点检测，得到端点数据组β；获取端点数据具备如下两点优势：

(1)、便于设备能够识别一段文本的首尾，以避免出现不同对象阐述的语句被归纳成同一人，同时，能够将文本内容所表达的含义进行准确的转述，避免出现歧义，导致表述不清楚的问题；

(2)、为后续进行断点特征点获取提供在先基础，以便于所提取的断点特征点相关数据更为精准；

S202、将标准语音进行语义识别，得到语义文本序列组α；

S203、结合端点数据组β以及语义文本序列组α，得到断点特征点的集合数据；

S3、检测到断点特征点后，将该音频数据发送给声纹引擎进行声纹识别，从而更新角色信息；该方法能够准确区分说话人的角色，同时将多个人讲话的内容准确的转成文字，提高笔录制作效率。

进一步来说，所述步骤S201中端点数据段β的具体获取步骤如下：

S2020、配置时序指令，即语音段中字符之间的时间间隔t；

S2021、获取标准语音中字符之间的时间间隔T；

需要注意的是，通过预设的时间间隔t以增强本方法在该领域内的通用性，具体来说，每一个个体在说话过程中，一段完整语句其每个字符之间的间隔频率(时间间隔)应当保持一致，除非是换了一个个体或者是进行下一句表述了，同时，将设的时间间隔t与后续检测所得的时间间隔T二者进行比对的目就是用于甄别出完整语句的前、后端点，以便于后续断点数据组拟合的准确性。

更进一步来说，所述步骤S203中断点特征点的集合数据的获取，其具体步骤如下：

需要注意的是，所述步骤S2030中拟合的具体步骤如下：

对于本领域技术人员而言，所述步骤S3中声纹识别的具体步骤如下：

进一步来说，所述数据增强处理包括噪点祛除以及声音增强。

如图1所示，本发明还公开了一种语音交互系统，用于上述任一项方案中的所述语音交互方法，包括语音采集模块1、处理模块2以及输出模块3；

所述语音采集模块1，用于获取语音数据；

所述处理模块2，用于对语音数据进行处理获得文本数据；

所述输出模块3，用于将所述处理模块2处理获得的文本数据进行展示；且所述语音采集模块1、所述处理模块2以及所述输出模块3三者依次电连接。

更进一步来说，为了提升系统的处理能力以及精准性，还包括反馈模块5以及数据库4，所述反馈模块5用于对处理模块2所获得的文本数据进行校正，并将其反馈至处理模块2，提升语音转文本的准确率，所述数据库4用于存放系统所产生的各类数据。

为了提升本系统的携带的便捷性，对于本领域人员来说，将其集合内置于电子设备上，这一设置在现有技术中存在较多的表达方式，因此，在此就不做过多的赘述。

以上所述的，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声纹识别的语音交互方法，其特征在于，包括如下步骤：

S1、通过声音拾取设备采集音频，获得音频数据；

2.根据权利要求1所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤S2中音频断点检测，获得断点特征点的具体步骤如下：

S201、将标准语音进行端点检测，得到端点数据组β；

S202、将标准语音进行语义识别，得到语义文本序列组α；

3.根据权利要求2所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤S201中端点数据段β的具体获取步骤如下：

S2020、配置时序指令，即语音段中字符之间的时间间隔t；

S2021、获取标准语音中字符之间的时间间隔T；

4.根据权利要求2或3所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤S203中断点特征点的集合数据的获取，其具体步骤如下：

5.根据权利要求4所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤S2030中拟合的具体步骤如下：

6.根据权利要求1所述的一种基于声纹识别的语音交互方法，其特征在于，所述步骤S3中声纹识别的具体步骤如下：

7.根据权利要求6所述的一种基于声纹识别的语音交互方法，其特征在于，所述数据增强处理包括噪点祛除以及声音增强。

8.一种语音交互系统，其特征在于，用于权利要求1-7中任一项所述的语音交互方法，包括语音采集模块、处理模块以及输出模块；所述语音采集模块，用于获取语音数据；

所述处理模块，用于对语音数据进行处理获得文本数据；

9.根据权利要求8所述的一种语音交互系统，其特征在于，还包括反馈模块以及数据库，所述反馈模块用于对处理模块所获得的文本数据进行校正，并将其反馈至处理模块，提升语音转文本的准确率，所述数据库用于存放系统所产生的各类数据。

10.根据权利要求8或9所述的一种语音交互系统，其特征在于，其集合内置于电子设备上。