CN112767941A

CN112767941A - 一种语音记录方法、装置、电子设备及存储介质

Info

Publication number: CN112767941A
Application number: CN202011576937.5A
Authority: CN
Inventors: 刘微微; 赵之砚
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-05-07
Also published as: WO2022142610A1

Abstract

本申请属于声纹识别领域，公开了一种语音记录方法、装置、电子设备及存储介质，将收录的第一段语音信息的第一声源位置和第一声纹特征进行转译记录至第一发言人的发言内容中，将收录的第二段语音信息与存储的第一声源位置和第一声纹特征进行比对确定对应的声源匹配因子和声纹匹配因子，并输入至预先训练好的联合模型中进行识别判断，确定两段语音是否属于同一个人，若是，记录至同一个人的发言内容中，否则，将第二段语音信息的转译内容记录至新的发言人的发言内容中，并不断重复收录和识别的过程，直至接收到停止语音收录指令。这样，在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中，无需人工进行文本划分，方便用户。

Description

一种语音记录方法、装置、电子设备及存储介质

技术领域

本申请涉及声纹识别技术领域，特别是涉及一种语音记录方法、装置、电子设备及存储介质。

背景技术

传统开会记录会议纪要时，有专人进行人工全程记录所有与会人的说话内容。十分耗费人力，且对记录人有较高的速度、准确率的要求。

但是，这种会议记录方式，需有专人对会议内容进行全程记录，耗费人力。记录员通常为了避免遗忘确保内容的准确性，先用录音笔记录全程会议内容。但需后续记录员从头到尾反复听取音频内容，较为耗时。记录员通常还要在听取内容的同时，区分不同说话人，靠人工较为不准确。

发明内容

有鉴于此，本申请提供了一种语音记录方法、装置、电子设备及存储介质。主要目的在于解决目前的语音记录方式只能将语音转译成文本无法区别不同说话人的技术问题。

依据本申请的第一方面，提供了一种语音记录方法，步骤包括：

获取第一段语音信息，并确定所述第一段语音信息的第一声源位置和第一声纹特征；

将所述第一段语音信息转译为文本内容，添加至第一发言人的发言记录中，将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中；

获取第二段语音信息，并确定所述第二段语音信息的第二声源位置和第二声纹特征；

将所述第二声源位置与数据库存储的第一声源位置进行比对确定声源匹配因子，以及，将所述第二声纹特征与数据库存储的第一声纹特征进行比对确定声纹匹配因子；

将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出所述第二段语音信息是否属于第一发言人；

如果属于第一发言人，则将所述第二段语音信息转译为文本内容，添加至所述第一发言人的发言记录中；

如果不属于第一发言人，则将所述第二段语音信息转译为文本内容，添加至新的发言人的发言记录中，并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中；

获取下一段语音信息，并得到对应的声源匹配因子和对应的声纹匹配因子，并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断，直至语音收录结束。

依据本申请的第二方面，提供了一种语音记录装置，所述装置包括：

语音获取模块，用于获取第一段语音信息，并确定所述第一段语音信息的第一声源位置和第一声纹特征；

转译存储模块，用于将所述第一段语音信息转译为文本内容，添加至第一发言人的发言记录中，将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中；

所述语音获取模块，还用于获取第二段语音信息，并确定所述第二段语音信息的第二声源位置和第二声纹特征；

比对模块，用于将所述第二声源位置与数据库存储的第一发言人的存储声源位置进行比对确定声源匹配因子，以及，将所述第二声纹特征分别与数据库存储的第一发言人的存储声纹特征进行比对确定声纹匹配因子；

模型识别模块，用于将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出所述第二段语音信息是否属于第一发言人；

所述转译存储模块，还用于如果属于第一发言人，则将所述第二段语音信息转译为文本内容，添加至所述第一发言人的发言记录中；如果不属于第一发言人，则将所述第二段语音信息转译为文本内容，添加至新的发言人的发言记录中，并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中；

重复模块，用于获取下一段语音信息，并得到对应的声源匹配因子和对应的声纹匹配因子，并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断，直至语音收录结束。

依据本申请的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述语音记录方法的步骤。

依据本申请的第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述语音记录的步骤。

借由上述技术方案，本申请提供的一种语音记录方法、装置、电子设备及存储介质，首先，将收录的第一段语音信息的第一声源位置和第一声纹特征进行转译记录至第一发言人的发言内容中，并对第一声源位置和第一声纹特征与第一发言人进行关联并存储，将收录的第二段语音信息与存储的第一声源位置和第一声纹特征进行比对确定对应的声源匹配因子和声纹匹配因子，然后将声源匹配因子和声纹匹配因子输入至预先训练好的联合模型中进行识别判断，确定两段语音是否属于同一个人，若是，将第二段语音信息的转译内容记录至第一发言人的发言内容中，否则，第二段语音信息属于新的发言人的发言内容，将第二段语音信息的转译内容记录至新的发言人的发言内容中，同时还要将第二声源位置和第二声纹特征与第二发言人进行关联并存储，并不断重复收录和识别的过程，直至接收到停止语音收录指令。这样，在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中，无需人工进行文本划分，节省了人力资源，得到的语音记录更加符合用户的需要。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请的语音记录方法的一个实施例的流程图；

图2为本申请的语音记录装置的一个实施例的结构框图；

图3为本申请的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种语音记录方法，能够在进行语音记录时将语音文本自动记录至对应的发言人的发言内容中，无需人工进行文本划分，节省了人力资源，得到的语音记录更加符合用户的需要。

如图1所示，本实施例的语音记录方法，包括如下步骤：

步骤101，获取第一段语音信息，并确定第一段语音信息的第一声源位置和第一声纹特征。

其中，用户预先在用户端上安装对应的APP或者在即时通讯中安装对应的小程序，这样收音设备就可以将收录的语音信息发送至用户端，用户端上的APP或者小程序会利用声源定位算法确定第一段语音信息的第一声源位置，以及利用声纹特征算法确定第一段语音信息的第一声纹特征。

步骤102，将第一段语音信息转译为文本内容，添加至第一发言人的发言记录中，将第一声源位置、第一声纹特征与第一发言人关联存储至数据库中。

其中，将第一段语音信息转译成文本内容后，添加至第一发言人的发言记录中，并通过APP或者小程序实时的将收录的内容进行展示。

将第一声源位置和第一声纹特征进行存储，以便后期进行声源和声纹比对，确定后期收录语音的发言人是否属于数据库中存储的发言人。

步骤103，获取第二段语音信息，并确定第二段语音信息的第二声源位置和第二声纹特征。

其中，第二段语音信息为除第一次收录的第一段语音信息以外的的语音信息，并同样利用声源定位算法和声纹特征算法获取对应的第二声源位置和第二声纹特征。

步骤104，将第二声源位置与数据库存储的第一声源位置进行比对确定声源匹配因子，以及，将第二声纹特征与数据库存储的第一声纹特征进行比对确定声纹匹配因子。

其中，计算第二声源位置与第一声源位置的距离差，距离差越小对应的声源匹配因子越大，其中，声源匹配因子与距离差呈线性关系。

每个声纹特征中包含有多组声纹信息，将第二声纹特征的各个声纹信息与第一声纹特征中的各个声纹信息进行比对，并确定相匹配的声纹信息的数量P，计算数量P占第一声纹特征中声纹信息的总数M的比例值，将比例值转换成百分数作为声纹匹配因子。

步骤105，将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出第二段语音信息是否属于第一发言人，是则进入步骤106，否则进入步骤107。

其中，联合模型是预先利用大量的样本数据经过反复训练得到的，能够综合声源匹配因子和声纹匹配因子判断两段语音是否属于同一个人。

步骤106，将第二段语音信息转译为文本内容，添加至第一发言人的发言记录中。

其中，如果联合模型的输出结果为属于第一发言人，则将第二段语音信息转译成文本内容后，添加至第一发言人的发言记录中，并通过APP或者小程序实时的将收录的内容进行展示。

步骤107，将第二段语音信息转译为文本内容，添加至新的发言人的发言记录中，并将第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中。

其中，如果联合模型的输出结果为空，则证明第二段语音信息的发言人不是第一发言人，需要将第二段语音信息转译成文本内容后，建立一个新的发言人，并将转译后的文本内容添加至新的发言人的发言记录中。

步骤108，获取下一段语音信息，并得到对应的声源匹配因子和对应的声纹匹配因子，并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断，直至语音收录结束。

其中，接收到停止语音收录指令后，语音收录结束。停止语音收录指令可以是用户触发收录设备上的对应停止按键，或者用户利用语音控制，向收录设备发出一个语音停止指令(例如，会议结束、关机、停止录音等)，接收到停止语音收录指令后关闭收录设备并向用户端发出关机指令。用户终端的APP或者即时通讯软件中的小程序在接收到关机指令后结束整个语音记录过程，并将记录的结果进行打包保存。

通过上述技术方案，在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中，无需人工进行文本划分，节省了人力资源，得到的语音记录更加符合用户的需要。

在具体实施例中，预先构建的联合模型包括输入层、声源判断层、声纹判断层和输出层，则步骤105具体包括：

步骤1051，将声源匹配因子和声纹匹配因子从输入层输入。

其中，输入层对输入的信息进行判断，如果输入的信息是声源匹配因子，则将声源匹配因子发送至声源判断层，如果是声纹匹配因子，则将声纹匹配因子发送至声纹判断层。

步骤1052，利用声源判断层对声源匹配因子进行判断，当声源匹配因子≥声源阈值时，确定结果为声源匹配成功并发送至输出层，否则确定结果为声源匹配失败并发送至输出层。

其中，声源判断层中预先存储有声源阈值，该声源阈值为利用大量样本数据训练后确定的分别两段声音是否相同的声源匹配因子的判断条件。进而可以根据接收到的声源匹配因子与声源阈值进行比较，进而根据比较结果判断声源是否匹配。并将结果输出至输出层。

步骤1053，利用声纹判断层对声纹匹配因子进行判断，当声纹匹配因子≥声纹阈值时，确定结果为声纹匹配成功并发送至输出层，否则确定结果为声纹匹配失败并发送至输出层。

其中，声纹判断层中预先存储有声纹阈值，该声纹阈值为利用大量样本数据训练后确定的分别两段声音是否相同的声纹匹配因子的判断条件。进而可以根据接收到的声纹匹配因子与声纹阈值进行比较，进而根据比较结果判断声纹是否匹配。并将结果输出至输出层。

步骤1054，当输出层接收到声源匹配成功和/或声纹匹配成功后，确定第二段语音信息属于第一发言人并输出，否则输出结果为空。

通过上述方案，能够更加智能的辨别对应语音信息的发音人，并将第二段语音信息的转译文本添加至对应发音人的发言内容中，无需人工分辨发言人，方便使用。

在具体实施例中，在步骤105之前，方法还包括：

步骤A1，预先获取多个样本组合，其中，每个样本组合中包含有样本声源匹配因子和样本声纹匹配因子。获取的样本组合的数量可以根据需要进行选择。

步骤A2，构建具有初始输入层、初始声源判断层、初始声纹判断层和初始输出层的初始联合模型。

其中，初始输入层与初始声源判断层和初始声纹判断层分别相连，初始声源判断层和初始声纹判断层与初始输出层相连。

步骤A3，为初始声源判断层设置声源初始阈值，为声纹判断层设置初始声纹阈值。

例如，对应的声源初始阈值和初始声纹阈值可以设置为100％。

步骤A4，将一个样本组合中的样本声源匹配因子和样本声纹匹配因子通过初始输入层进行输入，输入层将样本声源匹配因子发送至初始声源判断层，将样本声纹匹配因子发送至初始声纹判断层。

步骤A5，初始声源判断层判断是否样本声源匹配因子≥声源初始阈值是则输出样本声源匹配成功发送至初始输出层，否则输出样本声源匹配失败发送至初始输出层。

步骤A6，初始声纹判断层判断是否样本声纹匹配因子≥声纹初始阈值是则输出样本声纹匹配成功发送至初始输出层，否则输出样本声纹匹配失败发送至初始输出层。

步骤A7，初始输出层接收到样本声源匹配成功和/或样本声纹匹配成功时，输出结果为属于同一个人，并将下一个样本组合输入至初始联合模型进行处理，否则输出结果为空，利用对应处理的样本组合的样本声源匹配因子替换声源初始阈值，利用对应处理的样本组合的样本声纹匹配因子替换声纹初始阈值，再将下一个样本组合输入至初始联合模型进行训练处理。

步骤A8，当初始联合模型对所有的样本组合全部训练处理完成后，将初始联合模型作为联合模型。

通过上述方案，预先利用大量的样本组合对初始联合模型进行训练，这样能够使得声源判断层和声纹判断层中保存的声源阈值和声纹阈值更加符合实际的判断情况，使得得到的联合模型的判断准确率更高。

在具体实施例中，步骤A1具体包括：

步骤A11，预先获取多个人的样本语音，其中，每个人的样本语音中包含两个样本语音信息。

步骤A12，对每个样本语音信息进行声源定位对应得到样本声源位置，以及进行声纹特征处理对应得到样本声纹特征。

步骤A13，将同一个样本语音信息的语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本，将相同人的两个关联样本进行组合。

步骤A14，将组合后的两个关联样本中的两个样本声源位置进行比对确定样本声源匹配因子，以及将组合后的两个关联样本中的两个样本声纹特征进行比对确定样本声纹匹配因子。

步骤A15，将同一个人的样本声源匹配因子和样本声纹匹配因子进行关联形成样本组合。

通过上述方案，利用都属于同一个人的样本声源匹配因子和样本声纹匹配因子能够更加便于对初始联合模型进行训练，能够准确的获知训练结果是否正确，如果不正确，进而及时对初始联合模型进行修正。

在具体实施例中，在步骤A8之后，方法还包括：

步骤A81，获取预定数量的测试样本组合，其中，每个测试样本组合中包含测试声源匹配因子和测试声纹匹配因子。

该步骤中，测试样本组合可以是相同人的两段语音信息的比对结果，也可以是不同人的两段语音信息的比对结果。

具体获取过程为：

步骤A811，预先获取多组测试样本语音，其中，每组测试样本语音为相同人的两段测试样本语音信息或者不同人的两段测试样本语音信息。

步骤A812，对每个测试样本语音信息进行声源定位对应得到测试声源位置，以及进行声纹特征处理对应得到测试声纹特征。

步骤A813，将每组中的两个两个测试声源位置进行比对确定测试声源匹配因子，以及将两个测试声纹特征进行比对确定测试声纹匹配因子。

步骤A814，将每组的测试声源匹配因子和测试声纹匹配因子进行关联形成测试样本组合。

步骤A82，预先对测试样本组合是否属于同一个人进行标记。

步骤A83，将预定数量的测试样本组合依次输入至联合模型中进行处理。

步骤A84，统计输出结果与标记相同的测试概率，若测试概率≥概率阈值，将联合模型作为最终联合模型，若测试概率＜概率阈值，重新获取新的样本组合对联合模型进行训练处理，直至得到的联合模型的测试概率≥概率阈值，将联合模型作为最终联合模型。

通过上述技术方案，能够利用测试样本组合对训练得到的联合模型进行测试处理，判断联合模型的识别准确性，一旦准确性不符合要求则重新对联合模型进行训练，这样能够使得联合模型的识别准确性能够得到有效保证。

在具体实施例中，收音设备上设有至少两个收音器，则步骤101具体包括：

步骤1011，根据至少两个收音器采集的第一段语音信息之间的时间差，计算第一段语音信息到达至少两个收音器的距离差，利用几何算法呢确定第一声源位置。

步骤1012，根据第一段语音进行傅里叶分析，得到第一段语音的语音频谱随时间变化的语谱图形，将语谱图形作为第一声纹特征。

其中，针对收音设备收录的其他语音信息也要预先进行处理确定对应的声源位置和声纹特征。处理方案与上述第一段语音信息的处理方案相同。

通过上述方案，预先将第一段语音信息转换成方便识别判断的声源位置和声纹特征，这样可以根据声源位置和声纹特征进行比对识别，确定后期录入的语音信息是否属于历史记录中的发言人的语音。

在具体实施例中，步骤1012具体包括：

步骤10121，对第一段语音进行分帧得到x(m，n)，对x(m，n)进行傅里叶变换得到X(m，n)，其中，n为帧长，m为帧的个数；

步骤10122，计算第一段语音的周期图Y(m，n)，Y(m，n)＝X(m，n)*X(m，n)’，计算Z(m，n)＝10*log10(Y(m，n))，并根据Z(m，n)绘制语谱图形，将语谱图形作为第一声纹特征。

其中，针对收音设备收录的其他语音信息也要预先进行处理确定对应的声纹特征。处理方案与上述第一段语音信息的声纹特征获取方案相同。

通过上述方案，能够通过语谱图的方式展示和存储声纹特征，使得存储的声纹特征更加全面，方便根据语谱图进行声纹特征比对。

基于上述实施例描述的方案，首先，将收录的第一段语音信息的第一声源位置和第一声纹特征进行转译记录至第一发言人的发言内容中，并对第一声源位置和第一声纹特征与第一发言人进行关联并存储，将收录的第二段语音信息与存储的第一声源位置和第一声纹特征进行比对确定对应的声源匹配因子和声纹匹配因子，然后将声源匹配因子和声纹匹配因子输入至预先训练好的联合模型中进行识别判断，确定两段语音是否属于同一个人，若是，将第二段语音信息的转译内容记录至第一发言人的发言内容中，否则，第二段语音信息属于新的发言人的发言内容，将第二段语音信息的转译内容记录至新的发言人的发言内容中，同时还要将第二声源位置和第二声纹特征与第二发言人进行关联并存储，并不断重复收录和识别的过程，直至接收到停止语音收录指令。这样，在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中，无需人工进行文本划分，节省了人力资源，得到的语音记录更加符合用户的需要。

基于图1所示的上述实施的方案，本申请的另一个实施例提出了语音记录方法，包括如下步骤：

S1，利用收音设备收录第一个发言人的第一段语音信息，并确定第一段语音信息的第一声源位置和第一声纹特征。

其中，预先将设有至少2个麦克风的收音设备设置在会议室中与会人中间位置，并在用户终端(例如手机、平板等)安装对应收音设备的客户端(APP)，通过客户端将用户终端与收音设备建立连接，进而通过该客户端显示对应的会议内容。将采集到的第一段语音信息转化成语音数字信号。

具体为：

S11，根据收音设备上至少两个麦克风采集的第一段语音信息之间的时间差，计算第一段语音信息到达至少两个麦克风的距离差，并结合几何算法确定第一声源位置。

S12，提取所述第一段语音信息中的第一声纹特征。

其中，声纹特征包括：音调分贝值、声纹信息、语速等信息。

S13，为第一个发言人构建对应的第一存储单元，将第一个发言人的第一声源位置和第一声纹特征存储在第一存储单元中。

S14，将所述第一段语音信息转译为文本内容，添加至第一个发言人的发言记录中。

S2，利用收音设备获取第二段语音信息，对所述第二段语音信息进行声源定位得到对应的第二声源位置，以及对所述第二段语音信息进行声纹鉴定处理得到第二声纹特征。

其中，将采集到的第二段语音信息转化成语音数字信号。

S3，将第二声源位置与第一声源位置进行比对，确定所述第二声源位置符合所述第一声源位置的声源匹配因子。将第二声纹特征与第一声纹特征进行比对，确定所述第二声纹特征符合第一声纹特征的声纹匹配因子。

S4，将所述声源匹配因子和所述声纹匹配因子输入至联合模型中，进行判断处理，确定所述第二段语音信息是否属于第一个发言人。

具体为：

S41，预先构建联合模型。

具体为：

S411，预先获取多个人的语音样本信息，其中，每个人对应获取两个语音样本信息。

S412，对每个语音样本信息进行声源定位对应得到样本声源位置，以及进行声纹特征处理对应得到样本声纹特征。

S413，将每个语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本。

S414，将相同人的两个关联样本进行组合，构成样本组合。

S415，将所述样本组合中的两个样本声源位置进行比对，确定两个样本声源位置相符合的样本声源匹配因子，以及将所述样本组合中的两个样本声纹特征进行比对，确定两个样本声纹特征相符合的样本声纹匹配因子。

其中，预先将各个样本组合中的两个关联样本全部进行比对处理完成。

S416，构建初始声源判断层和初始声纹判断层，初始声源判断层和初始声纹判断层进行组合构成初始联合模型。

S417，为所述初始声源判断层设置声源初始阈值，为所述初始声纹判断层设置声纹初始阈值。为了便于后期的训练修改过程，对应的声源初始阈值和声纹初始阈值设置的数值相对较高。

S418，将样本组合中的样本声源匹配因子和样本声纹匹配因子输入至初始联合模型中，利用初始联合模型中的初始声源判断层进行判断，以及利用初始联合模型中的初始声纹判断层进行判断，当样本声源匹配因子≥声源初始阈值或者样本声纹匹配因子≥声纹初始阈值时，输出样本组合内的两个关联样本属于同一个人的结果，否则，输出不属于同一个人的结果。

S419，若输出结果为不属于同一个人，则利用该样本声源匹配因子替代对应的声源初始阈值，以及利用样本声纹匹配因子替代对应的声纹初始阈值，然后再利用初始联合模型对下一个样本组合样本声源匹配因子和样本声纹匹配因子进行处理，若输出结果为属于同一个人，则直接利用初始联合模型对下一个样本组合的样本声源匹配因子和样本声纹匹配因子进行处理。

S4110，不断重复S418和S419的过程，直至所有的样本组合全部处理完成，将得到的初始联合模型作为联合模型。

S42，将所述声源匹配因子和所述声纹匹配因子输入至联合模型中，利用联合模型中的声源判断层对所述声源匹配因子进行判断，以及利用联合模型中的声纹判断层进行判断，当所述声源匹配因子≥声源阈值或者所述声纹匹配因子≥声纹阈值时，确定所述第二段语音信息属于第一个发言人，否则，所述第二段语音信息不属于第一个发言人。

S5，若是，则将所述第二段语音信息转译文本内容，添加至第一个发言人的发言记录中，否则，将所述第二段语音信息的发言人确定为下一个发言人，将所述第二段语音信息转译文本内容，添加至下一个发言人的发言记录中，不断重复上述过程直至语音收录结束。

还包括：

S51，为第二个发言人构建对应的第二存储单元，将第二个发言人的第二声源位置和第二声纹特征存储在第二存储单元中。

例如：若第N句话和第N+1句话，声纹识别后得到的第N句话和第N+1句话相符合的声纹匹配数值为89分，接近同一人，但声源定位结果空间方向恰好相反，此时属于同一个人声纹匹配因子为60％，根据声源定位处理后确定的属于同一个人的声源匹配因子为40％，那么通过计算，声纹匹配因子为60％大于50％，声源匹配因子为40％小于50％，虽然声源定位不属于同一人，但是以声纹确定的结果为准，确定属于同一个人。这样能够避免单一因子的依赖。

最后输出时，手机APP显示内容样式如下：

会议开始时间：2020-10-20 15:35:20

与会人：说话人A、说话人B、说话人C(可自动根据上下文带入说话人称呼、也支持手动修改或编辑，例如说话人B自动根据上下文确认为“张经理”)

说话人A 2020-10-20 15:35:40

今天我们大家一起开会讨论一下明年的plan，下面有请张经理发表意见说话人B2020-10-20 15:35:59(张经理)

那我先说下，今天我们的KPI是1000万，已达成目标。明年…

说话人C 2020-10-20 15:36:35

张经理，不好意思打断一下，这个idea非常好，可否再细节说下供我们学习参考XXX。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种语音记录装置，如图2所示，装置包括：

语音获取模块21，用于获取第一段语音信息，并确定第一段语音信息的第一声源位置和第一声纹特征；

转译存储模块22，用于将第一段语音信息转译为文本内容，添加至第一发言人的发言记录中，将第一声源位置作为存储声源位置、第一声纹特征作为存储声纹特征与第一发言人关联存储至数据库中；

语音获取模块21，还用于获取第二段语音信息，并确定第二段语音信息的第二声源位置和第二声纹特征；

比对模块23，用于将第二声源位置与数据库存储的第一发言人的存储声源位置进行比对确定声源匹配因子，以及，将第二声纹特征分别与数据库存储的第一发言人的存储声纹特征进行比对确定声纹匹配因子；

模型识别模块24，用于将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出第二段语音信息是否属于第一发言人；

转译存储模块22，还用于如果属于第一发言人，则将第二段语音信息转译为文本内容，添加至第一发言人的发言记录中；如果不属于第一发言人，则将第二段语音信息转译为文本内容，添加至新的发言人的发言记录中，并将第二声源位置作为新的存储声源位置，将第二声纹特征作为新的存储声纹特征，与新的发言人进行关联后存储至数据库中；

重复模块25，用于获取下一段语音信息，并得到对应的声源匹配因子和对应的声纹匹配因子，并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断，直至语音收录结束。

在具体实施例中，联合模型包括输入层、声源判断层、声纹判断层和输出层，则模型识别模块24具体用于：

将声源匹配因子和声纹匹配因子从输入层输入；利用声源判断层对声源匹配因子进行判断，当声源匹配因子≥声源阈值时，确定结果为声源匹配成功并发送至输出层，否则确定结果为声源匹配失败并发送至输出层；利用声纹判断层对声纹匹配因子进行判断，当声纹匹配因子≥声纹阈值时，确定结果为声纹匹配成功并发送至输出层，否则确定结果为声纹匹配失败并发送至输出层；当输出层接收到声源匹配成功和/或声纹匹配成功后，确定第二段语音信息属于第一发言人并输出，否则输出结果为空。

在具体实施例中，装置还包括模型训练模块。

模型训练模块具体包括：

获取单元，用于预先获取多个样本组合，其中，每个样本组合中包含有样本声源匹配因子和样本声纹匹配因子。

初始构建单元，用于构建具有初始输入层、初始声源判断层、初始声纹判断层和初始输出层的初始联合模型；为初始声源判断层设置声源初始阈值，为声纹判断层设置初始声纹阈值。

输入单元，用于将一个样本组合中的样本声源匹配因子和样本声纹匹配因子通过初始输入层进行输入，输入层将样本声源匹配因子发送至初始声源判断层，将样本声纹匹配因子发送至初始声纹判断层。

声源判断单元，用于初始声源判断层判断是否样本声源匹配因子≥声源初始阈值是则输出样本声源匹配成功发送至初始输出层，否则输出样本声源匹配失败发送至初始输出层。

声纹判断单元，用于初始声纹判断层判断是否样本声纹匹配因子≥声纹初始阈值是则输出样本声纹匹配成功发送至初始输出层，否则输出样本声纹匹配失败发送至初始输出层。

输出单元，用于初始输出层接收到样本声源匹配成功和/或样本声纹匹配成功时，输出结果为属于同一个人，并将下一个样本组合输入至初始联合模型进行处理，否则输出结果为空，利用对应处理的样本组合的样本声源匹配因子替换声源初始阈值，利用对应处理的样本组合的样本声纹匹配因子替换声纹初始阈值，再将下一个样本组合输入至初始联合模型进行训练处理。

模型确定单元，用于当初始联合模型对所有的样本组合全部训练处理完成后，将初始联合模型作为联合模型。

在具体实施例中，获取单元具体包括：

语音获取单元，用于预先获取多个人的样本语音，其中，每个人的样本语音中包含两个样本语音信息；

声源声纹获取单元，用于对每个样本语音信息进行声源定位对应得到样本声源位置，以及进行声纹特征处理对应得到样本声纹特征；

组合单元，用于将同一个样本语音信息的语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本，将相同人的两个关联样本进行组合；

匹配单元，用于将组合后的两个关联样本中的两个样本声源位置进行比对确定样本声源匹配因子，以及将组合后的两个关联样本中的两个样本声纹特征进行比对确定样本声纹匹配因子；

关联单元，用于将同一个人的样本声源匹配因子和样本声纹匹配因子进行关联形成样本组合。

在具体实施例中，装置还包括模型测试模块，具体用于：

获取预定数量的测试样本组合，其中，每个测试样本组合中包含测试声源匹配因子和测试声纹匹配因子；预先对测试样本组合是否属于同一个人进行标记；将预定数量的测试样本组合依次输入至联合模型中进行处理；统计输出结果与标记相同的测试概率，若测试概率≥概率阈值，将联合模型作为最终联合模型，若测试概率＜概率阈值，重新获取新的样本组合对联合模型进行训练处理，直至得到的联合模型的测试概率≥概率阈值，将联合模型作为最终联合模型。

在具体实施例中，语音获取模块21具体包括：

声源位置确定单元，用于根据至少两个收音器采集的第一段语音信息之间的时间差，计算第一段语音信息到达至少两个收音器的距离差，利用几何算法呢确定第一声源位置；

声纹特征确定单元，用于根据第一段语音进行傅里叶分析，得到第一段语音的语音频谱随时间变化的语谱图形，将语谱图形作为第一声纹特征。

在具体实施例中，声纹特征确定单元，具体用于：

对第一段语音进行分帧得到x(m，n)，对x(m，n)进行傅里叶变换得到X(m，n)，其中，n为帧长，m为帧的个数；计算第一段语音的周期图Y(m，n)，Y(m，n)＝X(m，n)*X(m，n)’，计算Z(m，n)＝10*log10(Y(m，n))，并根据Z(m，n)绘制语谱图形，将语谱图形作为第一声纹特征。

基于上述图1所示方法和图2所示装置的实施例，为了实现上述目的，本申请实施例还提供了一种电子设备，如图3所示，包括存储器32和处理器31，其中存储器32和处理器31均设置在总线33上存储器32存储有计算机程序，处理器31执行计算机程序时实现图1所示的语音记录方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储器(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

可选地，该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种电子设备的结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述如图1所示方法和图2所示装置的实施例，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1所示的语音记录方法。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理电子设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与电子设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，首先，将收录的第一段语音信息的第一声源位置和第一声纹特征进行转译记录至第一发言人的发言内容中，并对第一声源位置和第一声纹特征与第一发言人进行关联并存储，将收录的第二段语音信息与存储的第一声源位置和第一声纹特征进行比对确定对应的声源匹配因子和声纹匹配因子，然后将声源匹配因子和声纹匹配因子输入至预先训练好的联合模型中进行识别判断，确定两段语音是否属于同一个人，若是，将第二段语音信息的转译内容记录至第一发言人的发言内容中，否则，第二段语音信息属于新的发言人的发言内容，将第二段语音信息的转译内容记录至新的发言人的发言内容中，同时还要将第二声源位置和第二声纹特征与第二发言人进行关联并存储，并不断重复收录和识别的过程，直至接收到停止语音收录指令。这样，在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中，无需人工进行文本划分，节省了人力资源，得到的语音记录更加符合用户的需要。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种语音记录方法，其特征在于，步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述联合模型包括输入层、声源判断层、声纹判断层和输出层，所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出所述第二段语音信息是否属于第一发言人，具体包括：

将所述声源匹配因子和所述声纹匹配因子从输入层输入；

利用所述声源判断层对所述声源匹配因子进行判断，当所述声源匹配因子≥声源阈值时，确定结果为声源匹配成功并发送至所述输出层，否则确定结果为声源匹配失败并发送至所述输出层；

利用所述声纹判断层对所述声纹匹配因子进行判断，当所述声纹匹配因子≥声纹阈值时，确定结果为声纹匹配成功并发送至所述输出层，否则确定结果为声纹匹配失败并发送至所述输出层；

当所述输出层接收到所述声源匹配成功和/或所述声纹匹配成功后，确定所述第二段语音信息属于第一发言人并输出，否则输出结果为空。

3.根据权利要求1或2所述的方法，其特征在于，在所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出所述第二段语音信息是否属于第一发言人之前，所述方法还包括：

预先获取多个样本组合，其中，每个样本组合中包含有样本声源匹配因子和样本声纹匹配因子；

构建具有初始输入层、初始声源判断层、初始声纹判断层和初始输出层的初始联合模型；

为所述初始声源判断层设置声源初始阈值，为所述声纹判断层设置初始声纹阈值；

将一个样本组合中的样本声源匹配因子和样本声纹匹配因子通过所述初始输入层进行输入，所述输入层将所述样本声源匹配因子发送至所述初始声源判断层，将所述样本声纹匹配因子发送至所述初始声纹判断层；

所述初始声源判断层判断是否所述样本声源匹配因子≥声源初始阈值是则输出样本声源匹配成功发送至所述初始输出层，否则输出样本声源匹配失败发送至所述初始输出层；

所述初始声纹判断层判断是否所述样本声纹匹配因子≥声纹初始阈值是则输出样本声纹匹配成功发送至所述初始输出层，否则输出样本声纹匹配失败发送至所述初始输出层；

所述初始输出层接收到所述样本声源匹配成功和/或所述样本声纹匹配成功时，输出结果为属于同一个人，并将下一个样本组合输入至初始联合模型进行处理，否则输出结果为空，利用对应处理的样本组合的样本声源匹配因子替换所述声源初始阈值，利用对应处理的样本组合的样本声纹匹配因子替换所述声纹初始阈值，再将下一个样本组合输入至初始联合模型进行训练处理；

当所述初始联合模型对所有的样本组合全部训练处理完成后，将所述初始联合模型作为联合模型。

4.根据权利要求3所述的方法，其特征在于，所述预先获取多个样本组合，具体包括：

预先获取多个人的样本语音，其中，每个人的样本语音中包含两个样本语音信息；

对每个样本语音信息进行声源定位对应得到样本声源位置，以及进行声纹特征处理对应得到样本声纹特征；

将同一个样本语音信息的语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本，将相同人的两个关联样本进行组合；

将组合后的两个关联样本中的两个样本声源位置进行比对确定样本声源匹配因子，以及将组合后的两个关联样本中的两个样本声纹特征进行比对确定样本声纹匹配因子；

将同一个人的所述样本声源匹配因子和所述样本声纹匹配因子进行关联形成样本组合。

5.根据权利要求3所述的方法，其特征在于，在所述当所述初始联合模型对所有的样本组合全部处理完成后，将所述初始联合模型作为联合模型之后，所述方法还包括：

获取预定数量的测试样本组合，其中，每个测试样本组合中包含测试声源匹配因子和测试声纹匹配因子；

预先对所述测试样本组合是否属于同一个人进行标记；

将预定数量的所述测试样本组合依次输入至联合模型中进行处理；

统计输出结果与所述标记相同的测试概率，若所述测试概率≥概率阈值，将所述联合模型作为最终联合模型，若所述测试概率＜概率阈值，重新获取新的样本组合对所述联合模型进行训练处理，直至得到的联合模型的测试概率≥概率阈值，将所述联合模型作为最终联合模型。

6.根据权利要求1所述的方法，其特征在于，所述获取第一段语音信息，并确定所述第一段语音信息的第一声源位置和第一声纹特征，具体包括：

根据至少两个收音器采集的第一段语音信息之间的时间差，计算所述第一段语音信息到达所述至少两个收音器的距离差，利用几何算法呢确定第一声源位置；

根据所述第一段语音进行傅里叶分析，得到所述第一段语音的语音频谱随时间变化的语谱图形，将所述语谱图形作为第一声纹特征。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一段语音进行傅里叶分析，得到所述第一段语音的语音频谱随时间变化的语谱图形，将所述语谱图形作为第一声纹特征，具体包括：

对所述第一段语音进行分帧得到x(m，n)，对x(m，n)进行傅里叶变换得到X(m，n)，其中，n为帧长，m为帧的个数；

计算所述第一段语音的周期图Y(m，n)，Y(m，n)＝X(m，n)*X(m，n)^’，计算Z(m，n)＝10*log10(Y(m，n))，并根据Z(m，n)绘制语谱图形，将所述语谱图形作为第一声纹特征。

8.一种语音记录装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的语音记录方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音记录方法的步骤。