CN116383432A

CN116383432A - 一种音频数据筛选方法和系统

Info

Publication number: CN116383432A
Application number: CN202310425132.8A
Authority: CN
Inventors: 李浩浩; 王静宇; 马亚中; 李建华; 李蹊; 张聪聪; 王辉; 谢启繁
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-07-04

Abstract

本发明涉及音频处理技术领域，具体公开了一种音频数据筛选方法和系统。本发明通过获取多个音频特征数据，构建音频特征库；接收会议参与信息，标记指令音频特征和多个与会音频特征；实时接收会议音频数据，按照指令音频特征，识别指令信息；按照指令信息，标记目标音频特征，从会议音频数据中筛选识别目标信息；将多个指令信息和多个目标信息进行整理记录，得到与会记录信息。能够构建音频特征库，标记与会议相关的指令音频特征和多个与会音频特征，在会议过程中，识别指令信息，进而筛选识别目标信息，进行信息整理记录，得到与会记录信息，从而能够在嘈杂的会议音频环境中准确识别出会议内容，且能够筛选获取重要的会议音频进行识别与记录。

Description

一种音频数据筛选方法和系统

技术领域

本发明属于音频处理技术领域，尤其涉及一种音频数据筛选方法和系统。

背景技术

会议记录，是指在会议过程中，由记录人员把会议的组织情况和具体内容记录下来，就形成了会议记录。略记是记会议大要，会议上的重要或主要言论。详记则要求记录的项目必须完备，记录的言论必须详细完整。对会议记录而言，音录、像录通常只是手段，最终还要将录下的内容还原成文字。笔录也常常要借助音录、像录，以之作为记录内容最大限度地再现会议情境的保证。

文字内容的会议记录，是最常见也是最重要的会议记录方式，现有的技术中，可以通过进行会议音频内容的识别，快速记录会议的文字内容，但是在实际的会议场景中，通常会有多个与会人员同时进行会议发言与讨论，导致无法从嘈杂的会议音频环境中准确识别出会议内容，且无法筛选获取重要的会议音频进行识别与记录。

发明内容

本发明实施例的目的在于提供一种音频数据筛选方法和系统，旨在解决背景技术中提出的问题。

为实现上述目的，本发明实施例提供如下技术方案：

一种音频数据筛选方法，所述方法具体包括以下步骤：

获取多个音频特征数据，构建音频特征库；

接收会议参与信息，从所述音频特征库中标记指令音频特征和多个与会音频特征；

实时接收会议音频数据，按照所述指令音频特征，识别指令信息；

按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征，并从所述会议音频数据中筛选识别目标信息；

将多个所述指令信息和多个所述目标信息进行整理记录，得到与会记录信息。

作为本发明实施例技术方案进一步的限定，所述获取多个音频特征数据，构建音频特征库具体包括以下步骤：

获取多个音频特征数据；

提取多个所述音频特征数据中的身份信息；

按照多个所述身份信息，对多个所述音频特征数据进行整理，构建音频特征库。

作为本发明实施例技术方案进一步的限定，所述接收会议参与信息，从所述音频特征库中标记指令音频特征和多个与会音频特征具体包括以下步骤：

接收会议参与信息；

根据所述会议参与信息，确定记录人员和多个与会人员；

从所述音频特征库中标记与所述记录人员对应的指令音频特征；

从所述音频特征库中标记与多个所述与会人员分别对应的多个与会音频特征。

作为本发明实施例技术方案进一步的限定，所述实时接收会议音频数据，按照所述指令音频特征，识别指令信息具体包括以下步骤：

实时接收会议音频数据；

按照所述指令音频特征，从所述会议音频数据中筛选指令音频数据；

对所述指令音频数据进行内容识别，得到指令信息。

作为本发明实施例技术方案进一步的限定，所述按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征，并从所述会议音频数据中筛选识别目标信息具体包括以下步骤：

按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征；

根据所述目标音频特征，从所述会议音频数据中筛选目标音频数据；

对所述目标音频数据进行内容识别，得到目标信息。

作为本发明实施例技术方案进一步的限定，所述将多个所述指令信息和多个所述目标信息进行整理记录，得到与会记录信息具体包括以下步骤：

获取多个所述指令信息对应的指令时间；

获取多个所述目标信息对应的目标时间；

按照多个所述指令时间和多个所述目标时间，对多个所述指令信息和多个所述目标信息进行整理记录，得到与会记录信息。

一种音频数据筛选系统，所述系统包括特征库构建单元、音频特征标记单元、指令信息识别单元、目标信息识别单元和信息整理记录单元，其中：

特征库构建单元，用于获取多个音频特征数据，构建音频特征库；

音频特征标记单元，用于接收会议参与信息，从所述音频特征库中标记指令音频特征和多个与会音频特征；

指令信息识别单元，用于实时接收会议音频数据，按照所述指令音频特征，识别指令信息；

目标信息识别单元，用于按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征，并从所述会议音频数据中筛选识别目标信息；

信息整理记录单元，用于将多个所述指令信息和多个所述目标信息进行整理记录，得到与会记录信息。

作为本发明实施例技术方案进一步的限定，所述特征库构建单元具体包括：

数据获取模块，用于获取多个音频特征数据；

身份提取模块，用于提取多个所述音频特征数据中的身份信息；

特征库构建模块，用于按照多个所述身份信息，对多个所述音频特征数据进行整理，构建音频特征库。

作为本发明实施例技术方案进一步的限定，所述指令信息识别单元具体包括：

音频接收模块，用于实时接收会议音频数据；

指令音频筛选模块，用于按照所述指令音频特征，从所述会议音频数据中筛选指令音频数据；

指令识别模块，用于对所述指令音频数据进行内容识别，得到指令信息。

作为本发明实施例技术方案进一步的限定，所述目标信息识别单元具体包括：

特征匹配模块，用于按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征；

目标音频筛选模块，用于根据所述目标音频特征，从所述会议音频数据中筛选目标音频数据；

目标识别模块，用于对所述目标音频数据进行内容识别，得到目标信息。

与现有技术相比，本发明的有益效果是：

本发明实施例通过获取多个音频特征数据，构建音频特征库；接收会议参与信息，标记指令音频特征和多个与会音频特征；实时接收会议音频数据，按照指令音频特征，识别指令信息；按照指令信息，标记目标音频特征，从会议音频数据中筛选识别目标信息；将多个指令信息和多个目标信息进行整理记录，得到与会记录信息。能够构建音频特征库，标记与会议相关的指令音频特征和多个与会音频特征，在会议过程中，识别指令信息，进而筛选识别目标信息，进行信息整理记录，得到与会记录信息，从而能够在嘈杂的会议音频环境中准确识别出会议内容，且能够筛选获取重要的会议音频进行识别与记录。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1示出了本发明实施例提供的方法的流程图。

图2示出了本发明实施例提供的方法中构建音频特征库的流程图。

图3示出了本发明实施例提供的方法中音频特征标记的流程图。

图4示出了本发明实施例提供的方法中识别指令信息的流程图。

图5示出了本发明实施例提供的方法中筛选识别目标信息的流程图。

图6示出了本发明实施例提供的方法中信息整理记录的流程图。

图7示出了本发明实施例提供的系统的应用架构图。

图8示出了本发明实施例提供的系统中特征库构建单元的结构框图。

图9示出了本发明实施例提供的系统中指令信息识别单元的结构框图。

图10示出了本发明实施例提供的系统中目标信息识别单元的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解的是，文字内容的会议记录，是最常见也是最重要的会议记录方式，现有的技术中，可以通过进行会议音频内容的识别，快速记录会议的文字内容，但是在实际的会议场景中，通常会有多个与会人员同时进行会议发言与讨论，导致无法从嘈杂的会议音频环境中准确识别出会议内容，且无法筛选获取重要的会议音频进行识别与记录。

为解决上述问题，本发明实施例通过获取多个音频特征数据，构建音频特征库；接收会议参与信息，标记指令音频特征和多个与会音频特征；实时接收会议音频数据，按照指令音频特征，识别指令信息；按照指令信息，标记目标音频特征，从会议音频数据中筛选识别目标信息；将多个指令信息和多个目标信息进行整理记录，得到与会记录信息。能够构建音频特征库，标记与会议相关的指令音频特征和多个与会音频特征，在会议过程中，识别指令信息，进而筛选识别目标信息，进行信息整理记录，得到与会记录信息，从而能够在嘈杂的会议音频环境中准确识别出会议内容，且能够筛选获取重要的会议音频进行识别与记录。

图1示出了本发明实施例提供的方法的流程图。

具体的，在本发明提供的一个优选实施方式中，一种音频数据筛选方法，所述方法具体包括以下步骤：

步骤S101，获取多个音频特征数据，构建音频特征库。

在本发明实施例中，企业在进行人员信息采集时，需要采集获取员工的音频特征数据，音频特征数据中既包含有员工的音频特征，还包括有该员工的身份信息，通过获取多个音频特征数据，对音频特征数据中的信息进行识别，根据识别结果，从多个音频特征数据中分别提取对应的员工的身份信息，进而以多个身份信息作为框架，将多个音频特征数据进行整理，构建包含企业所有员工的音频特征库。

具体的，图2示出了本发明实施例提供的方法中构建音频特征库的流程图。

其中，在本发明提供的优选实施方式中，所述获取多个音频特征数据，构建音频特征库具体包括以下步骤：

步骤S1011，获取多个音频特征数据。

步骤S1012，提取多个所述音频特征数据中的身份信息。

步骤S1013，按照多个所述身份信息，对多个所述音频特征数据进行整理，构建音频特征库。

进一步的，所述音频数据筛选方法还包括以下步骤：

步骤S102，接收会议参与信息，从所述音频特征库中标记指令音频特征和多个与会音频特征。

在本发明实施例中，在企业中需要举行会议之前，需要提前按照参与会议的人员名单及安排，整理会议参与信息，通过在会议开始之前接收会议参与信息，识别会议参与信息中的名单及安排的内容，确定参加此次会议的记录人员和多个与会人员，进而从音频特征库中标记与记录人员对应的指令音频特征，从音频特征库中标记与多个与会人员分别对应的多个与会音频特征。

可以理解的是，记录人员，是在会议过程中，对会议内容进行整理与记录的人员，需要提取会议中的重要内容进行记录；与会人员，是参加会议，可能需要进行会议发言的人员。

具体的，图3示出了本发明实施例提供的方法中音频特征标记的流程图。

其中，在本发明提供的优选实施方式中，所述接收会议参与信息，从所述音频特征库中标记指令音频特征和多个与会音频特征具体包括以下步骤：

步骤S1021，接收会议参与信息。

步骤S1022，根据所述会议参与信息，确定记录人员和多个与会人员。

步骤S1023，从所述音频特征库中标记与所述记录人员对应的指令音频特征。

步骤S1024，从所述音频特征库中标记与多个所述与会人员分别对应的多个与会音频特征。

进一步的，所述音频数据筛选方法还包括以下步骤：

步骤S103，实时接收会议音频数据，按照所述指令音频特征，识别指令信息。

在本发明实施例中，在会议的过程中，实时接收会议室中的会议音频数据，并按照指令音频特征，在会议音频数据中出现记录人员的语音指令时，从会议音频数据中筛选与语音指令对应的指令音频数据，并通过对指令音频数据进行内容识别，获取语音指令对应的指令信息。

具体的，图4示出了本发明实施例提供的方法中识别指令信息的流程图。

其中，在本发明提供的优选实施方式中，所述实时接收会议音频数据，按照所述指令音频特征，识别指令信息具体包括以下步骤：

步骤S1031，实时接收会议音频数据。

步骤S1032，按照所述指令音频特征，从所述会议音频数据中筛选指令音频数据。

步骤S1033，对所述指令音频数据进行内容识别，得到指令信息。

进一步的，所述音频数据筛选方法还包括以下步骤：

步骤S104，按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征，并从所述会议音频数据中筛选识别目标信息。

在本发明实施例中，按照指令信息，确定记录人员需要记录的发言内容所对应的与会人员，将其暂时标记为目标人员，进而从与会音频特征中匹配标记目标人员的目标音频特征，按照目标音频特征，识别会议音频数据中目标人员发言所对应的目标音频数据（在嘈杂的发言与讨论的会议环境中，识别获取目标人员的目标音频数据，自动剔除其他与会人员的音频数据），通过对目标音频数据进行内容识别，获取目标人员发言对应的目标信息。

例如：若记录人员发出的语音指令为“开始记录李二的发言”，则指令信息为“开始记录李二的发言”，目标人员为“李二”，从会议音频数据中识别获取李二的音频数据，并在记录人员发出“结束记录李二的发言”的语音指令时，得到指令信息“结束记录李二的发言”，此时结束识别获取李二的音频数据，得到李二的目标音频数据，进而通过对目标音频数据进行内容识别，得到李二发言文字内容的目标信息。

具体的，图5示出了本发明实施例提供的方法中筛选识别目标信息的流程图。

其中，在本发明提供的优选实施方式中，所述按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征，并从所述会议音频数据中筛选识别目标信息具体包括以下步骤：

步骤S1041，按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征。

步骤S1042，根据所述目标音频特征，从所述会议音频数据中筛选目标音频数据。

步骤S1043，对所述目标音频数据进行内容识别，得到目标信息。

进一步的，所述音频数据筛选方法还包括以下步骤：

步骤S105，将多个所述指令信息和多个所述目标信息进行整理记录，得到与会记录信息。

在本发明实施例中，获取多个指令信息对应的指令时间，且获取多个目标信息对应的目标时间，对多个指令时间和多个目标时间进行排序，得到时间顺序信息，进而依照时间顺序信息，对多个指令信息和多个目标信息进行排序整理，记录生成与会记录信息。

具体的，图6示出了本发明实施例提供的方法中信息整理记录的流程图。

其中，在本发明提供的优选实施方式中，所述将多个所述指令信息和多个所述目标信息进行整理记录，得到与会记录信息具体包括以下步骤：

步骤S1051，获取多个所述指令信息对应的指令时间。

步骤S1052，获取多个所述目标信息对应的目标时间。

步骤S1053，按照多个所述指令时间和多个所述目标时间，对多个所述指令信息和多个所述目标信息进行整理记录，得到与会记录信息。

进一步的，图7示出了本发明实施例提供的系统的应用架构图。

其中，在本发明提供的又一个优选实施方式中，一种音频数据筛选系统，包括：

特征库构建单元101，用于获取多个音频特征数据，构建音频特征库。

在本发明实施例中，企业在进行人员信息采集时，需要采集获取员工的音频特征数据，音频特征数据中既包含有员工的音频特征，还包括有该员工的身份信息，特征库构建单元101通过获取多个音频特征数据，对音频特征数据中的信息进行识别，根据识别结果，从多个音频特征数据中分别提取对应的员工的身份信息，进而以多个身份信息作为框架，将多个音频特征数据进行整理，构建包含企业所有员工的音频特征库。

具体的，图8示出了本发明实施例提供的系统中特征库构建单元101的结构框图。

其中，在本发明提供的优选实施方式中，所述特征库构建单元101具体包括：

数据获取模块1011，用于获取多个音频特征数据。

身份提取模块1012，用于提取多个所述音频特征数据中的身份信息。

特征库构建模块1013，用于按照多个所述身份信息，对多个所述音频特征数据进行整理，构建音频特征库。

进一步的，所述音频数据筛选系统还包括：

音频特征标记单元102，用于接收会议参与信息，从所述音频特征库中标记指令音频特征和多个与会音频特征。

在本发明实施例中，在企业中需要举行会议之前，需要提前按照参与会议的人员名单及安排，整理会议参与信息，音频特征标记单元102通过在会议开始之前接收会议参与信息，识别会议参与信息中的名单及安排的内容，确定参加此次会议的记录人员和多个与会人员，进而从音频特征库中标记与记录人员对应的指令音频特征，从音频特征库中标记与多个与会人员分别对应的多个与会音频特征。

指令信息识别单元103，用于实时接收会议音频数据，按照所述指令音频特征，识别指令信息。

在本发明实施例中，在会议的过程中，指令信息识别单元103实时接收会议室中的会议音频数据，并按照指令音频特征，在会议音频数据中出现记录人员的语音指令时，从会议音频数据中筛选与语音指令对应的指令音频数据，并通过对指令音频数据进行内容识别，获取语音指令对应的指令信息。

具体的，图9示出了本发明实施例提供的系统中指令信息识别单元103的结构框图。

其中，在本发明提供的优选实施方式中，所述指令信息识别单元103具体包括：

音频接收模块1031，用于实时接收会议音频数据。

指令音频筛选模块1032，用于按照所述指令音频特征，从所述会议音频数据中筛选指令音频数据。

指令识别模块1033，用于对所述指令音频数据进行内容识别，得到指令信息。

进一步的，所述音频数据筛选系统还包括：

目标信息识别单元104，用于按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征，并从所述会议音频数据中筛选识别目标信息。

在本发明实施例中，目标信息识别单元104按照指令信息，确定记录人员需要记录的发言内容所对应的与会人员，将其暂时标记为目标人员，进而从与会音频特征中匹配标记目标人员的目标音频特征，按照目标音频特征，识别会议音频数据中目标人员发言所对应的目标音频数据（在嘈杂的发言与讨论的会议环境中，识别获取目标人员的目标音频数据，自动剔除其他与会人员的音频数据），通过对目标音频数据进行内容识别，获取目标人员发言对应的目标信息。

具体的，图10示出了本发明实施例提供的系统中目标信息识别单元104的结构框图。

其中，在本发明提供的优选实施方式中，所述目标信息识别单元104具体包括：

特征匹配模块1041，用于按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征。

目标音频筛选模块1042，用于根据所述目标音频特征，从所述会议音频数据中筛选目标音频数据。

目标识别模块1043，用于对所述目标音频数据进行内容识别，得到目标信息。

进一步的，所述音频数据筛选系统还包括：

信息整理记录单元105，用于将多个所述指令信息和多个所述目标信息进行整理记录，得到与会记录信息。

在本发明实施例中，信息整理记录单元105获取多个指令信息对应的指令时间，且获取多个目标信息对应的目标时间，对多个指令时间和多个目标时间进行排序，得到时间顺序信息，进而依照时间顺序信息，对多个指令信息和多个目标信息进行排序整理，记录生成与会记录信息。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据筛选方法，其特征在于，所述方法具体包括以下步骤：

获取多个音频特征数据，构建音频特征库；

具体的，在会议的过程中，实时接收会议室中的会议音频数据，并按照指令音频特征，在会议音频数据中出现记录人员的语音指令时，从会议音频数据中筛选与语音指令对应的指令音频数据，并通过对指令音频数据进行内容识别，获取语音指令对应的指令信息；

2.根据权利要求1所述的音频数据筛选方法，其特征在于，所述获取多个音频特征数据，构建音频特征库具体包括以下步骤：

获取多个音频特征数据；

提取多个所述音频特征数据中的身份信息；

3.根据权利要求1所述的音频数据筛选方法，其特征在于，所述接收会议参与信息，从所述音频特征库中标记指令音频特征和多个与会音频特征具体包括以下步骤：

接收会议参与信息；

根据所述会议参与信息，确定记录人员和多个与会人员；

4.根据权利要求1所述的音频数据筛选方法，其特征在于，所述实时接收会议音频数据，按照所述指令音频特征，识别指令信息具体包括以下步骤：

实时接收会议音频数据；

对所述指令音频数据进行内容识别，得到指令信息。

5.根据权利要求1所述的音频数据筛选方法，其特征在于，所述按照所述指令信息，从多个所述与会音频特征中匹配标记目标音频特征，并从所述会议音频数据中筛选识别目标信息具体包括以下步骤：

对所述目标音频数据进行内容识别，得到目标信息。

6.根据权利要求1所述的音频数据筛选方法，其特征在于，所述将多个所述指令信息和多个所述目标信息进行整理记录，得到与会记录信息具体包括以下步骤：

获取多个所述指令信息对应的指令时间；

获取多个所述目标信息对应的目标时间；

7.一种音频数据筛选系统，其特征在于，所述系统包括特征库构建单元、音频特征标记单元、指令信息识别单元、目标信息识别单元和信息整理记录单元，其中：

具体的，在会议的过程中，指令信息识别单元实时接收会议室中的会议音频数据，并按照指令音频特征，在会议音频数据中出现记录人员的语音指令时，从会议音频数据中筛选与语音指令对应的指令音频数据，并通过对指令音频数据进行内容识别，获取语音指令对应的指令信息；

8.根据权利要求7所述的音频数据筛选系统，其特征在于，所述特征库构建单元具体包括：

数据获取模块，用于获取多个音频特征数据；

9.根据权利要求7所述的音频数据筛选系统，其特征在于，所述指令信息识别单元具体包括：

音频接收模块，用于实时接收会议音频数据；

10.根据权利要求7所述的音频数据筛选系统，其特征在于，所述目标信息识别单元具体包括：