CN116612766B

CN116612766B - 具备声纹注册功能的会议系统及声纹注册方法

Info

Publication number: CN116612766B
Application number: CN202310860964.2A
Authority: CN
Inventors: 杨静波; 汤跃忠; 陈龙; 刘丹
Original assignee: Third Research Institute Of China Electronics Technology Group Corp; Beijing Zhongdian Huisheng Technology Co ltd
Current assignee: Third Research Institute Of China Electronics Technology Group Corp; Beijing Zhongdian Huisheng Technology Co ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-11-17
Anticipated expiration: 2043-07-14
Also published as: CN116612766A

Abstract

本发明提出了一种具备声纹注册功能的会议系统及声纹注册方法，会议系统具有：文本框和语音评估注册弹框，文本框用于展示会议记录的语音对应的转写文字，对转写文字进行滑选操作，选中对应的转写文字，滑选操作后执行预设操作时，弹出语音评估注册弹窗，语音评估注册弹窗中包括音频评估和声纹注册选项，并设有多个声纹标签细化项，每个声纹标签细化项包括多个可选项；在进行声文注册时，选择音频评估选项对选中的转写文字对应的语音进行评估；评估合格后，从多个声纹标签细化项中选择对应的可选项形成用户画像，将对应的语音的用户画像和声纹识别特征存储至声纹库；通过选择声纹注册选项进行用户名录入，高效、准确实现用户声纹注册。

Description

具备声纹注册功能的会议系统及声纹注册方法

技术领域

本发明涉及声纹注册识别技术领域，尤其涉及一种具备声纹注册功能的会议系统及声纹注册方法。

背景技术

语音转写系统中，为了能够对用户进行自动角色区分，往往需要对使用者进行声纹注册，声纹注册过程即上传用户录音，通过技术手段对用户上传的音频数据进行声纹特征的提取并保存到声纹库。在会议转写使用中，采取实时用户的音频提取出的声纹特征与声纹库中的特征进行匹配，筛选出音频对应的用户注册信息进行角色区分。

目前市场上的产品在声纹注册过程均是上传一段用户的音频。需要对用户进行录音，并按照系统要求格式进行上传。需要用户通常步骤如下：拾音设备对用户进行录音-转化为系统要求的音频格式文件-试听录音效果-人工评估是否能够满足声纹注册要求-上传至系统进行注册。

该方式过程较为复杂，若用户较多，需要对需注册的用户逐个录音，并反复试听，人工评估确认后再上传，整个注册过程将更加耗费人力和时间成本。

针对上述问题，相关技术中，提出了改进方案，通过提前录入参会人员名单，会议记录根据麦克风阵列或声纹识别技术区分不同的发言人并进行标记，从参会人员名单中选择对应人员来替换发言人标记，实现声纹注册。由此，省去前期声纹录入步骤，提高工作效率。

但上述技术方案中，对不同发言人进行区分时，主要借助麦克风阵列或声纹识别技术自动进行，当多人共用一个麦克风，同一人员在不同场景和状态参会时，存在识别精度差的问题。

发明内容

本发明要解决的技术问题是如何提高声纹注册的效率和准确性，本发明提出一种具备声纹注册功能的会议系统及声纹注册方法。

根据本发明实施例的具备声纹注册功能的会议系统，所述会议系统具有：

文本框，用于展示会议记录的语音对应的转写文字；

语音评估注册弹窗，当对所述转写文字进行滑选操作时，对应的转写文字被选中，滑选操作后执行预设操作时，弹出所述语音评估注册弹窗，所述语音评估注册弹窗中包括音频评估和声纹注册选项，并设有多个声纹标签细化项，每个所述声纹标签细化项至少包括两个可选项；

在进行声文注册时，通过选择所述音频评估选项对选中的所述转写文字对应的语音进行评估；

评估合格后，从多个所述声纹标签细化项中选择对应的可选项形成用户画像，将对应的语音的所述用户画像和声纹识别特征存储至声纹库；

通过选择声纹注册选项进行用户名录入，完成用户声纹注册。

根据本发明实施例的具备声纹注册功能的会议系统，可以利用会议记录直接完成用户的声纹注册，无需提前进行用户录音，方便、高效。而且，在进行声文注册时，对语音进行了评估操作，并通过声纹标签细化项形成用户画像，可以大大提高声纹识别的准确性和可靠性。

根据本发明的一些实施例，所述声纹标签细化项包括：

性别，对应的可选项包括：男、女；

信道，对应的可选项包括：现场、远程、其他；

语种，对应的可选项包括：中文、英语、日语、其他；

方言：对应的可选项包括：西北、东北、华南、东南、其他；

状态：对应的可选项包括：正常、感冒。

在本发明的一些实施例中，所述评估注册弹窗还包括：导出音频选项，通过选择所述导出音频选项实现将滑选操作选中转写文字的对应的音频数据的导出。

根据本发明的一些实施例，所述会议系统具有会议记录展示页面，用于显示存储的会议记录，并具有相应的编辑选项，当选择所述编辑选项时，进入所述会议记录的编辑页面，所述文本框位于所述编辑页面。

在本发明的一些实施例中，所述会议系统还具有用于显示语音评估结果的评估结果显示弹窗，当完成语音评估后，弹出所述评估结果显示弹窗。

根据本发明实施例的声纹注册方法，所述声纹注册方法采用如上所述的具备声纹注册功能的会议系统进行声文注册，所述声纹注册方法包括：

对会议记录的转写文字进行滑选操作，选中对应的转写文字；

对选中的所述转写文字对应的语音进行评估；

进行用户名录入，完成用户声纹注册。

根据本发明实施例的声纹注册方法，利用会议记录直接完成用户的声纹注册，无需提前进行用户录音，方便、高效。而且，在进行声文注册时，对语音进行了评估操作，并通过声纹标签细化项形成用户画像，可以大大提高声纹识别的准确性和可靠性。

根据本发明的一些实施例，对语音进行评估包括检测评估所述语音的说话人数量、有效时长和噪音。

在本发明的一些实施例中，所述声纹注册方法还包括：

检测所述声纹库中是否存在相同用户、不同画像的注册信息；

对不同用户画像下的同一用户的注册信息进行合并。

根据本发明的一些实施例，所述声纹注册方法还包括：

在录入用户姓名时，检测所述声纹库中是否存在相同用户姓名；

当所述声纹库中存在相同用户姓名，给出提示信息。

在本发明的一些实施例中，所述声纹注册方法还包括：

导出完成声纹注册的语音数据。

附图说明

图1为根据本发明实施例的会议系统的转写记录页面示意图；

图2为根据本发明实施例的会议系统的转写记录编辑页面示意图；

图3为根据本发明实施例的会议系统的滑选文本右键单击页面示意图；

图4为根据本发明实施例的滑选文本对应音频数据的评估结果示意图；

图5为根据本发明实施例的声纹注册编辑注册用户名页面示意图；

图6为根据本发明实施例的滑选内容对应的音频数据导出页面示意图；

图7为根据本发明实施例的声纹注册方法流程图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行，方法步骤是可以改变执行顺序的。而且，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

传统系统的声纹注册方式，需要对用户进行重新录音，并按照系统要求格式进行上传。该方式过程较为复杂，若用户较多，需要对需注册的用户逐个录音并上传，整个注册过程将更加耗费人力和时间成本。并且影响发言人声纹识别结果的还会和信道、语种、方言、身体状态相关，不同的信道、语种、方言、身体状态声纹特征会有变化。

为进一步提高声纹注册效率和准确性，本发明提出一种具备声纹注册功能的会议系统及声纹注册方法。

根据本发明实施例的具备声纹注册功能的会议系统，会议系统具有：文本框和语音评估注册弹窗。

其中，如图2所示，文本框用于展示会议记录的语音对应的转写文字，结合图3所示，当对转写文字进行滑选操作时，对应的转写文字被选中，滑选操作后执行预设操作时，弹出语音评估注册弹窗。这里所述的“预设操作”可以是单击鼠标右键，当然也可以是单击鼠标左键或双击等其他操作，在此不做具体限定。

如图3所示，语音评估注册弹窗中包括音频评估和声纹注册选项，并设有多个声纹标签细化项，每个声纹标签细化项至少包括两个可选项。

在进行声文注册时，通过选择音频评估选项对选中的转写文字对应的语音进行评估；

评估合格后，从多个声纹标签细化项中选择对应的可选项形成用户画像，将对应的语音的用户画像和声纹识别特征存储至声纹库；

根据本发明的一些实施例，如图3所示，声纹标签细化项包括：

性别，对应的可选项包括：男、女；

信道，对应的可选项包括：现场、远程、其他；

语种，对应的可选项包括：中文、英语、日语、其他；

状态：对应的可选项包括：正常、感冒。

需要说明的是，用户在不同的场景和状态下，声纹识别特征可能不同。例如，用户在现场或远程情况下，以及用户在正常状态或感冒状态下，获取的声纹识别特征不同。因此，单靠声纹识别特征进行声纹识别注册，可能将同一用户在不同场景和状态下识别为不同的用户，存在识别精度差，声纹注册错误的问题。本发明通过上述声纹标签细化项，在进行声纹注册时，通过选择对应的可选项形成用户画像，结合用户画像和声纹识别特征进行声纹识别注册，提高了声纹注册的准确性和可靠性。

在本发明的一些实施例中，如图3所示，评估注册弹窗还包括：导出音频选项，通过选择导出音频选项实现将滑选操作选中转写文字的对应的音频数据的导出。由此，可以实现对所需的音频数据方便地选取导出，以便于进行后续处理操作。

根据本发明的一些实施例，会议系统具有会议记录展示页面，用于显示存储的会议记录，并具有相应的编辑选项，当选择编辑选项时，进入会议记录的编辑页面，文本框位于编辑页面。

在本发明的一些实施例中，如图4所示，会议系统还具有用于显示语音评估结果的评估结果显示弹窗，当完成语音评估后，弹出评估结果显示弹窗。由此，可以直观、清晰地展示语音评估结果。如图4所示，声纹识别结果为“评估结果：当前音频为单说话人音频，噪音为3分贝，建议进行声纹注册。”

根据本发明实施例的声纹注册方法，声纹注册方法采用如上所述的具备声纹注册功能的会议系统进行声文注册，结合图7所示，声纹注册方法包括：

S1，对会议记录的转写文字进行滑选操作，选中对应的转写文字；

S2，对选中的转写文字对应的语音进行评估；

S3，评估合格后，从多个声纹标签细化项中选择对应的可选项形成用户画像，将对应的语音的用户画像和声纹识别特征存储至声纹库；

S4，进行用户名录入，完成用户声纹注册。

根据本发明的一些实施例，对语音进行评估包括检测评估语音的说话人数量、有效时长和噪音。当完成语音评估后，可以弹出评估结果显示弹窗。如图4所示，声纹识别结果为“评估结果：当前音频为单说话人音频，噪音为3分贝，建议进行声纹注册。”

在本发明的一些实施例中，声纹注册方法还包括：

S41，检测声纹库中是否存在相同用户、不同画像的注册信息；

S42，对不同用户画像下的同一用户的注册信息进行合并。

如上述所述，同一用户在不同场景或状态下，可以生成不同的用户画像，通过对不同用户画像下的同一用户的注册信息进行合并，可以获得同一用户不同场景或不同状态下的用户画像，从而可以实现对同一用户在不同场景或状态下的声纹识别，提高声纹识别的准确性和可靠性。

根据本发明的一些实施例，声纹注册方法还包括：

S43，在录入用户姓名时，检测声纹库中是否存在相同用户姓名；

S44，当声纹库中存在相同用户姓名，给出提示信息。

需要说明的是，在进行声纹注册时，可能存在同名或上述所述的同一用户在不同画像下的情况。当检测当存在相同姓名的用户时，给出提示信息，可以由操作人员进行相应的判断设置。例如，是否选择进行声纹注册信息的合并，或是选择进行同名标注的操作。

在本发明的一些实施例中，声纹注册方法还包括：

S5，导出完成声纹注册的语音数据。

如图3所示，评估注册弹窗包括：导出音频选项，通过选择导出音频选项实现将滑选操作选中转写文字的对应的音频数据的导出。由此，可以实现对所需的音频数据方便地选取导出，以便于进行后续处理操作。

下面参照附图以一个具体的实施例详细描述根据本发明的具备声纹注册功能的会议系统及声纹注册方法。可以理解的是，下述描述仅是示例性描述，而不应理解为对本发明的具体限制。

本实施例利用会议转写系统的会议转写记录，找到需要进行声纹注册用户的讲话内容及对应音频数据，依靠会议转写系统，鼠标滑选文字内容，即选中将要进行声纹注册的音频数据，并且支持音频回放，系统可以分析其中的有效时长和噪音效果，给出声纹注册评估结果。

并且手动创建声纹标签的用户画像，如性别（男、女）、信道（远程会议、现场录音）、语种（中文、英文、日语、韩语等）、地理位置（西北、东北、华南、东南、其他）、状态（感冒、正常）标签。每个用户标签形成关联数据，进一步扩大声纹库种类，细化用户声纹标签，从而提升声纹识别准确率。用户根据评估结果进行声纹注册。

声纹标签的创建可以将声纹库细化，在声纹识别的过程中将需要识别的音频进行语种识别缩小声纹库范围。将音频送到对应声纹标签的声纹库进行识别。大大提升识别成功率。

具体流程图如图7所示，包括：

A1，登录系统成功后，点击“转写记录”功能菜单进入转写记录页面，如图1所示。

A2，选择相应的转写记录后，点击“编辑”按钮，进入到该转写记录的编辑页面，如图2所示。

A3，滑选文本内容，右键单击后，显示“音频评估”、“声纹注册”、“导出音频”功能及多个声纹标签细化项，如图3所示。通过滑选还可以试听该部分内容对应的音频数据。

A4，单击“音频评估”按钮，后台对滑选文本内容对应的音频进行评估，反馈评估结果，如图4所示。本发明在确定声纹注册音频后，系统可计算该音频的有效时长和噪音情况，并结合声纹识别判定音频是否包含多人音频，从而给出评估结果，建议或不建议将该音频进行声纹注册。

A5，点击“声纹注册”按钮，将该音频注册为某用户的声纹，如图5所示。

A6，点击“导出音频”按钮，可将该滑选部分内容对应的音频数据导出，如图6所示。

综上所述，本发明设计实现了一种基于会议转写系统的滑选记录数据进行声纹注册的功能，能够通过系统中以往的会议记录，滑选试听确认选中的音频作为声纹注册的音频上传，并且系统会自动对声纹注册音频进行评估，主要评估音频的噪音情况以及是否包含多人录音，直接给出可以注册或不建议使用该音频注册的结果。省去依靠用户自行判断的环节。进一步提高声纹识别准确率。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种具备声纹注册功能的会议系统，其特征在于，所述会议系统具有：

文本框，用于展示会议记录的语音对应的转写文字；

语音评估注册弹窗，当对所述转写文字进行滑选操作时，对应的转写文字被选中，滑选操作后执行预设操作时，弹出所述语音评估注册弹窗，所述语音评估注册弹窗中包括音频评估和声纹注册选项，并设有多个声纹标签细化项，每个所述声纹标签细化项包括多个可选项；

通过选择声纹注册选项进行用户名录入，完成用户声纹注册；

所述声纹标签细化项包括：

信道，对应的可选项包括：现场、远程；

状态：对应的可选项包括：正常、感冒；

所述评估注册弹窗还包括：导出音频选项，通过选择所述导出音频选项实现将滑选操作选中转写文字的对应的音频数据的导出；

所述会议系统具有会议记录展示页面，用于显示存储的会议记录，并具有相应的编辑选项，当选择所述编辑选项时，进入所述会议记录的编辑页面，所述文本框位于所述编辑页面。

2.根据权利要求1所述的具备声纹注册功能的会议系统，其特征在于，所述声纹标签细化项还包括：

性别，对应的可选项包括：男、女；

语种，对应的可选项包括：中文、英语、日语、其他；

方言：对应的可选项包括：西北、东北、华南、东南、其他。

3.根据权利要求1所述的具备声纹注册功能的会议系统，其特征在于，所述会议系统还具有用于显示语音评估结果的评估结果显示弹窗，当完成语音评估后，弹出所述评估结果显示弹窗。

4.一种声纹注册方法，其特征在于，所述声纹注册方法采用如权利要求1-3中任一项所述的具备声纹注册功能的会议系统进行声文注册，所述声纹注册方法包括：

对选中的所述转写文字对应的语音进行评估；

进行用户名录入，完成用户声纹注册。

5.根据权利要求4所述的声纹注册方法，其特征在于，对语音进行评估包括：检测评估所述语音的说话人数量、有效时长和噪音。

6.根据权利要求4所述的声纹注册方法，其特征在于，所述声纹注册方法还包括：

对不同用户画像下的同一用户的注册信息进行合并。

7.根据权利要求4所述的声纹注册方法，其特征在于，所述声纹注册方法还包括：

当所述声纹库中存在相同用户姓名，给出提示信息。

8.根据权利要求4-7中任一项所述的声纹注册方法，其特征在于，所述声纹注册方法还包括：

导出完成声纹注册的语音数据。