CN110189764B

CN110189764B - 展示分离角色的系统、方法和录音设备

Info

Publication number: CN110189764B
Application number: CN201910461199.0A
Authority: CN
Inventors: 朱浩华
Original assignee: Shenzhen Emeet Tech Co ltd
Current assignee: Shenzhen Emeet Tech Co ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2021-07-06
Anticipated expiration: 2039-05-29
Also published as: CN110189764A; WO2020237848A1

Abstract

本发明公开了一种展示分离角色的系统、方法和录音设备，所述展示分离角色的系统包括角色分离处理模块：角色分离处理模块，用于获取用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间；角色分离处理模块，还用于根据音频数据以及对应的方位信息在三维立体模型上显示用户角色，并使得用户角色随着录音时间的更新沿方位信息对应的角色路径移动。从而根据获取的音频数据以及方位信息在三维立体模型上形象的展示说话人与录音设备之间的相对位置，并使得用户角色随着录音时间的更新沿着角色路径移动，使得角色分离的呈现方式更为立体，更为直观。

Description

展示分离角色的系统、方法和录音设备

技术领域

本发明涉及音频处理技术领域，尤其涉及一种展示分离角色的系统、方法和录音设备。

背景技术

随着社会各行各业信息化以及自动化程度的不断提升，以举行会议为例，在会议举行过程中，往往需要录制下与会者的声音作为素材，再对录制完成的声音素材进行分析，从中提取出有效信息以对会议进行总结。

与此同时人们对于高精度信息化分析的需求也越来越高，在实际应用中，为了对音频数据进行更好的分析，不仅需要录制下音频数据，进行音频识别，还需要识别出每段音频的说话人，因此很自然的出现了对说话人进行角色分离的需求。然而，在现有的基于音频分离角色的产品中，局限于音色对说话人进行角色分离，呈现角色分离的方式过于平面化以及数据化。

发明内容

本发明的主要目的在于提供了一种展示分离角色的系统、方法和录音设备，旨在解决现有呈现角色分离的方式过于平面化以及数据化的技术问题。

为实现上述目的，本发明提供了一种展示分离角色的系统，所述展示分离角色的系统包括角色分离处理模块：

所述角色分离处理模块，用于获取用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间；

所述角色分离处理模块，还用于根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色，并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。

可选地，所述角色分离处理模块包括文件获取单元、角色分离单元以及角色展示单元；

所述文件获取单元，用于获取所述音频数据以及方位文件，并解析所述方位文件以得到所述音频数据对应的录音时间以及对应的方位信息；

所述角色分离单元，用于根据获取的音频数据进行角色分离，以在三维立体模型上绘制分离出的用户角色；

所述角色展示单元，用于根据解析得到的方位信息在三维立体模型上显示所述用户角色，并使得所述用户角色沿对应的角色路径移动。

可选地，所述方位信息包括水平角值以及仰角值；

所述角色展示单元，还用于根据录音时间的更新获取所述用户角色对应的水平角值以及仰角值，并根据所述水平角值以及所述仰角值得到对应的角色路径，以使得所述用户角色随着录音时间的更新沿对应的角色路径移动。

可选地，所述展示分离角色的系统还包括音频处理模块；

所述音频处理模块，用于录入音频数据，并记录对应的录音时间；

所述音频处理模块，还用于根据所述音频数据确定发出音频的当前声源对应的方位信息。

可选地，所述音频处理模块包括录音单元以及方位识别单元，所述录音单元包括麦克风阵列；

所述录音单元，用于通过麦克风阵列采集音频数据，并在采集音频数据的同时记录时间，以得到所述音频数据对应的录音时间；

所述方位识别单元，用于从所述音频数据中获取横向波程差和纵向波程差，并将横向波程差和纵向波程差输入至预设公式中，以根据输出结果确定当前声源对应的方位信息。

可选地，预设公式为:

其中，θ表示水平角值，所述水平角值大于或等于-90度且小于或等于90度，φ表示仰角值，所述仰角值大于或等于0度且小于360度，d表示麦克风阵列中各个麦克风之间的间距，u_i表示第i个声源的纵向波程差，v_i表示第i个声源的橫向波程差,λ表示声波波长。

可选地，所述麦克风阵列的型号为ES7210，所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种。

此外，为实现上述目的，本发明还提供一种展示分离角色的方法，所述方法包括以下步骤：

获取用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间；

根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色，并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。

可选地，所述获取用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间的步骤包括：

通过麦克风阵列采集音频数据，并在采集音频数据的同时记录时间，以得到所述音频数据对应的录音时间；

从所述音频数据中获取横向波程差和纵向波程差，并将横向波程差和纵向波程差输入至预设公式中，以根据输出结果确定当前声源对应的方位信息。

此外，为实现上述目的，本发明还提供一种录音设备，所述录音设备包括服务端以及展示分离角色的系统，所述展示分离角色的系统被配置为如上所述的展示分离角色的系统，或者所述展示分离角色的系统实现如上所述展示分离角色的方法的步骤。

本发明提供了一种展示分离角色的系统、方法和录音设备，展示分离角色的系统包括角色分离处理模块：角色分离处理模块，用于获取用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间；角色分离处理模块，还用于根据音频数据以及对应的方位信息在三维立体模型上显示用户角色，并使得用户角色随着录音时间的更新沿方位信息对应的角色路径移动。从而根据获取的音频数据确定对应的说话人，根据方位信息在三维立体模型上形象的展示说话人与录音设备之间的相对位置，并使得用户角色随着录音时间的更新沿着角色路径移动，进而解决现有呈现角色分离的方式过于平面化以及数据化的技术问题，使得角色分离的呈现方式更为立体，更为直观。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明展示分离角色的系统一实施例的模块示意图；

图2为本发明展示分离角色的系统的一角色展示效果图；

图3为本发明展示分离角色的系统的另一角色展示效果图；

图4为本发明展示分离角色的系统的麦克风阵列电路图；

图5为本发明展示分离角色的方法的一实施例的流程示意图；

图6为本发明展示分离角色的方法的又一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

附图标号说明：

标号	名称	标号	名称
				10	展示分离角色的系统	112	角色分离单元
11	角色分离处理模块	113	角色展示单元
				12	音频处理模块	121	录音单元
111	文件获取单元	122	方位识别单元

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提供了一种展示分离角色的系统10，请参阅图1，在一实施例中，展示分离角色的系统10包括角色分离处理模块11，所述角色分离处理模块11，用于获取用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间；还用于根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色，并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。

具体的，可一并参阅图2，图2为本发明展示分离角色的系统10的角色展示效果图，在所述角色分离处理模块11得到用户通过录音设备录音的音频信息、对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间后，根据音频信息和与音频信息对应的方位信息，在三维立体模型上显示用户角色，应当理解的是，上述音频信息用来区分用户角色，根据不同的音频信息定义不同的用户角色，上述方位信息用于定义对应的用户角色在三维立体模型上为具体位置，优选地，上述三维立体模型为球状三维立体模型，用户角色以一个圆点表示，参阅图2中的圆点，即代表与所述音频信息对应的用户角色。再根据录音时间实时更新方位信息，容易理解的是，在不同的时间段，用户角色对应的方位信息是不同的，那么用户角色在三维立体模型上的位置也同步变化，因此会呈现实时用户角色随着录音时间的更新沿方位信息对应的角色路径移动的效果。

本实施例通过上述方式，根据获取的音频数据以及方位信息在三维立体模型上形象的展示说话人与录音设备之间的相对位置，并使得用户角色随着录音时间的更新沿着角色路径移动，进而解决现有呈现角色分离的方式过于平面化以及数据化的技术问题，使得角色分离的呈现方式更为立体，更为直观。

进一步地，请继续参阅图1，所述角色分离处理模块11包括文件获取单元111、角色分离单元112以及角色展示单元113；文件获取单元111，用于获取所述音频数据以及方位文件，并解析所述方位文件以得到所述音频数据对应的录音时间，以及对应的方位信息；角色分离单元112，用于根据获取的音频数据进行角色分离，以在三维立体模型上绘制用户角色；角色展示单元113，用于根据解析得到的方位信息在三维立体模型上显示所述用户角色，并使得所述用户角色沿对应的角色路径移动。角色展示单元113，还用于根据录音时间的更新获取所述用户角色对应的水平角值以及仰角值，并根据所述水平角值以及所述仰角值得到对应的角色路径，以使得所述用户角色随着录音时间的更新沿对应的角色路径移动。

角色分离处理模块11包括文件获取单元111、角色分离单元112以及角色展示单元113。其中，文件获取单元111，使用HTTP传输协议，或者其它方式获取所述音频数据以及方位文件，容易理解的是，所述方位文件包括音频数据对应的录音时间以及对应的方位信息；所述文件获取单元111还对方位文件进行解析，以得到所述录音时间以及方位信息。在文件获取单元111接收到音频数据后，将所述音频数据传输给角色分离单元112。所述角色分离单元112根据音频数据在三维立体模型上显示与音频数据对应的用户角色，容易理解的是，当存在多个音频数据时，角色分离单元112也会在三维立体模型上显示对应的多个用户角色，具体的，请一并参阅图3，图3为本发明展示分离角色的系统的另一角色展示效果图，图3中的2个圆点，就表示基于音频信息推断出来的2个用户角色。优选地，角色分离单元112会在球状三维立体模型上显示不同颜色的圆点，来表示不同的用户角色。文件获取单元111还将录音时间以及方位信息发送至角色展示单元113，角色展示单元113在接收到所述录音时间以及方位信息之后，根据方位信息确定用户角色在三维立体模型上的位置，以使得在三维立体模型上显示用户角色。

此外，上述方位信息包括水平角值以及仰角值，请参阅图2，θ表示水平角值，φ表示仰角值；请一并参阅图3，当存在2个用户角色时，θ₂表示另一个用户角色的水平角值，φ₂表示另一个用户角色的仰角值，根据水平角值和仰角值确定用户角色在三维立体模型上的位置。容易理解的是，在整个录音过程中，由于声源的位置并非固定的，因此随着录音时间的变化，需要实时更新方位信息。也就是说，本实施例中实时获取当前声源的方位信息，并根据实时获取的方位信息确定用户角色在每一段录音时间中的位置，以得到用户角色应当移动的角色路径。在分离角色展示过程中，随着录音时间的更新，在三维立体模型上显示的分离角色沿着角色路径移动，通过这种方式，形象的展示声源与录音设备之间的相对位置，使得角色分离的呈现方式更加立体，更加直观。

进一步地，展示分离角色的系统10还包括音频处理模块12；所述音频处理模块12，用于录入音频数据，并记录对应的录音时间；所述音频处理模块12，还用于根据所述音频数据确定发出音频的当前声源对应的方位信息。所述音频处理模块12包括录音单元121以及方位识别单元122，所述录音单元121包括麦克风阵列；所述录音单元121，用于通过麦克风阵列采集音频数据，并在采集音频数据的同时记录时间，以得到所述音频数据对应的录音时间；所述方位识别单元122，用于从所述音频数据中获取横向波程差和纵向波程差，并将横向波程差和纵向波程差输入至预设公式中，以根据输出结果确定当前声源对应的方位信息。其中，预设公式为

请继续参阅图1，本实施例中的展示分离角色的系统10还包括音频处理模块12，上述音频处理模块12，包括录音单元121和方位识别单元122，容易理解的是，所述录音单元121包括麦克风阵列，所述麦克风阵列可以为二维等距麦克风阵列、平面圆形麦克风阵列、立体球形麦克风阵列以及立体方形麦克风阵列中的至少一种。通过麦克风阵列进行录音，采集音频数据。优选地，所述麦克风阵列的型号为ES7210，麦克风阵列的电路图如图4所示，应当理解的是，所述麦克风阵列的电路为现有技术，在此不再阐述；优选地，为了达到全方位的拾音效果，麦克风阵列中麦克风的组成形式为6+1模式，即6个麦克风围绕中间一个麦克风形成闭环；优选地，所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种，由于超级心形指向的麦克风阵列拾音范围更广，不会偏向于某个方向进行拾音，因此本实施例中优选麦克风阵列的指向性为超级心形指向，来达到全方位拾音的效果。

所述录音单元121，不仅用于录入音频数据，同时在采集音频数据的同时记录时间，以得到所述音频数据对应的录音时间。特别的，录音单元121将采集的音频数据传输至方位识别单元122，所述方位识别单元122在从音频数据中获取横向波程差和纵向波程差，并将所述横向波程差和纵向波程差输入至预设的公式中，以得到水平角值和仰角值，并以此确定用户角色在三维立体模上的具体位置。本实施例引入声源与录音设备之间的水平角值和仰角值，更为精准的定位声源与录音设备的相对位置，同时，根据录音时间实时更新方位信息，使用户角色随着录音时间沿着角色路径移动，使得呈现角色分离的方式更为形象。

进一步地，请参阅图5，图5为本发明展示分离角色的方法的一实施例的流程示意图，在所述展示分离角色的方法的一实施例中，包括如下步骤：

步骤S10，获取用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间；

步骤S20，根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色，并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。

本实施例中，先获取用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及与音频数据对应的录音时间，具体的，所述音频数据包括采集到的外部声源发出的声音信息。根据音频信息和与音频信息对应的方位信息，在三维立体模型上显示用户角色，应当理解的是，上述音频信息用来区分用户角色，根据不同的音频信息定义不同的用户角色，上述方位信息用于定义对应的用户角色在三维立体模型上为具体位置。再根据录音时间实时更新方位信息，容易理解的是，在不同的时间段，用户角色对应的方位信息是不同的，那么用户角色在三维立体模型上的位置也同步变化，因此会呈现实时用户角色随着录音时间的更新沿方位信息对应的角色路径移动的效果。

本实施例通过上述方式根据获取的音频数据以及方位信息在三维立体模型上形象的展示说话人与录音设备之间的相对位置，并使得用户角色随着录音时间的更新沿着角色路径移动，进而使得角色分离的呈现方式更为立体，更为直观。

进一步地，请参阅图6，图6为本发明展示分离角色的方法的又一实施例的流程示意图，所述步骤S10用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间的步骤包括：

步骤S11，通过麦克风阵列采集音频数据，并在采集音频数据的同时记录时间，以得到所述音频数据对应的录音时间；

步骤S12，从所述音频数据中获取横向波程差和纵向波程差，并将横向波程差和纵向波程差输入至预设公式中，以根据输出结果确定当前声源对应的方位信息。

本实施例中，通过麦克风阵列采集音频数据，在采集音频数据的同时记录时间，以得到所述音频数据对应的录音时间。应当理解的是，所述麦克风阵列可以为二维等距麦克风阵列、平面圆形麦克风阵列、立体球形麦克风阵列以及立体方形麦克风阵列中的至少一种。通过麦克风阵列进行录音，采集音频数据。优选地，所述麦克风阵列的型号为ES7210；优选地，为了达到全方位的拾音效果，麦克风阵列中麦克风的组成形式为6+1模式，即6个麦克风围绕中间一个麦克风形成闭环；优选地，所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种。

从音频数据中获取横向波程差和纵向波程差，并将所述横向波程差和纵向波程差输入至预设的公式中进行计算，具体的，预设公式如下所示：

通过将横向波程差和纵向波程差代入上述公式进行计算，得到水平角值和仰角值，并以此确定用户角色在三维立体模上的具体位置，更为精准的定位声源与录音设备的相对位置。

需要说明的是，上述展示分离角色的方法的其他实施例可以参照展示分离角色的系统的其他实施例执行，例如如何解析方位文件得到方位信息，如何录入音频数据并记录对应的录音时间，在此不作赘述。

此外，本发明实施例还提出一种录音设备，所述录音设备包括服务端以及展示分离角色的系统，所述展示分离角色的系统包括角色分离处理模块：

进一步地，所述角色分离处理模块包括文件获取单元、角色分离单元以及角色展示单元；

进一步地，所述方位信息包括水平角值以及仰角值；

进一步地，所述展示分离角色的系统还包括音频处理模块；

进一步地，所述音频处理模块包括录音单元以及方位识别单元，所述录音单元包括麦克风阵列；

进一步地，预设公式为:

进一步地，所述麦克风阵列的型号为ES7210，所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种。

所述录音设备中的展示分离角色的系统能执行以下步骤：

进一步地，所述录音设备中的展示分离角色的系统还能执行以下步骤：

本发明录音设备的具体实施例与上述展示分离角色的方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种展示分离角色的系统，其特征在于，所述展示分离角色的系统包括角色分离处理模块：

所述角色分离处理模块，还用于根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色，并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动；

所述展示分离角色的系统还包括音频处理模块；

所述音频处理模块，还用于根据所述音频数据确定发出音频的当前声源对应的方位信息；

所述音频处理模块包括录音单元以及方位识别单元，所述录音单元包括麦克风阵列；

2.如权利要求1所述的展示分离角色的系统，其特征在于，所述角色分离处理模块包括文件获取单元、角色分离单元以及角色展示单元；

3.如权利要求2所述的展示分离角色的系统，其特征在于，所述方位信息包括水平角值以及仰角值；

4.如权利要求1所述的展示分离角色的系统，其特征在于，预设公式为：

5.如权利要求1所述的展示分离角色的系统，其特征在于，所述麦克风阵列的型号为ES7210，所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种。

6.一种展示分离角色的方法，其特征在于，所述方法包括以下步骤：

根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色，并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动；

所述用户通过录音设备录音的音频数据，对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间的步骤包括：

7.一种录音设备，其特征在于，包括服务端以及展示分离角色的系统，所述展示分离角色的系统被配置为如权利要求1-5中任一项所述的展示分离角色的系统，或者所述展示分离角色的系统实现如权利要求6所述的展示分离角色的方法的步骤。