CN109903753B

CN109903753B - 基于声源角度的多人语句分类方法、设备、介质及系统

Info

Publication number: CN109903753B
Application number: CN201811624576.XA
Authority: CN
Inventors: 石忠民; 钟力; 邓庚; 张焙
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2022-07-15
Anticipated expiration: 2038-12-28
Also published as: CN109903753A

Abstract

本发明提供的基于声源角度的多人语句分类方法，包括：获取预设时间段内的音频字节流数据、声源角度数据以及声音能量数据，将音频字节流数据转写为若干个含有文字的句子，将句子开始的时间到句子结束的时间作为句子时间段，根据每个句子时间段、声源角度数据以及声音能量数据计算对应的每个句子的声源角度；根据声源角度在含有角度刻度的预设圆弧确定对应句子位置点，以预设角度步长将预设角度滑块在预设圆弧上移动，根据预设角度滑块与句子位置点的位置关系将句子分类。本发明提供的基于声源角度的多人语句分类方法，使在多人的情况下对于句子的按人分类的结果更加精准，降低分类的错误率。

Description

基于声源角度的多人语句分类方法、设备、介质及系统

技术领域

本发明涉及语句分类领域，尤其涉及基于声源角度的多人语句分类方法、设备、介质及系统。

背景技术

目前在含有多人参加的会议时，通常都需要进行会议记录，因此对应每个参会者的说出的语音形成的句子进行分类整理。目前都是基于声源角度来判断句子对应的角度，将相同角度的句子分类为同一个人发出，但是同一个人说话的角度可能会有细微的差别，因此现有的多人的语句分类方法的分类结果并不精准，有一定的错误率。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供基于声源角度的多人语句分类方法，其能解决现有的多人的语句分类方法的分类结果并不精准，有一定的错误率的问题。

本发明的目的之二在于提供一种电子设备，其能解决现有的多人的语句分类方法的分类结果并不精准，有一定的错误率的问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能解决现有的多人的语句分类方法的分类结果并不精准，有一定的错误率的问题。

本发明的目的之四在于提供基于声源角度的多人语句分类系统，其能解决现有的多人的语句分类方法的分类结果并不精准，有一定的错误率的问题。

本发明提供目的之一采用以下技术方案实现：

基于声源角度的多人语句分类方法，包括以下步骤：

数据获取，获取预设时间段内的音频字节流数据、声源角度数据以及声音能量数据，所述声源角度数据包括在预设时间段内的不同时间段内获取的声源角度序列，所述声音能量数据包括在预设时间段内的不同时间段内获取的能量序列；

语音转换，将所述音频字节流数据转写为若干个含有文字的句子，将所述句子开始的时间到所述句子结束的时间作为句子时间段，所有所述句子时间段均小于且属于所述预设时间段；

计算句子的声源角度，根据每个所述句子时间段、所述声源角度数据以及所述声音能量数据计算对应的每个所述句子的声源角度，从而得到若干声源角度，将每个所述声源角度与单个的所述句子相互关联；

句子位置确定，根据所述声源角度在含有角度刻度的预设圆弧确定对应句子位置点，其中，所述句子位置点为与所述声源角度对应的所述句子在所述预设圆弧上对应的位置；

语句分类，以预设角度步长将预设角度滑块在所述预设圆弧上移动，根据所述预设角度滑块与所述句子位置点的位置关系将所述句子分类。

进一步地，每个所述声源角度序列包括若干角度值，每个所述能量序列包括若干能量积，所述计算句子角度具体为：在所述声源角度数据中提取出在每个所述句子时间段内的所述声源角度序列，在所述声音能量数据中提取出在每个所述句子时间段内的所述能量序列，将所述声源角度序列中的角度值与所述能量序列中的能量积的乘积作为角度能量积，最终得到含有多个所述角度能量积的角度能量积序列，对所述角度能量积进行去重处理，得到已去重角度能量积，将所述角度能量积中的最大所述角度能量积对应的所述角度值作为每个所述句子的声源角度，从而得到若干声源角度。

进一步地，所述语句分类具体为：以预设角度步长将预设角度滑块在预设圆弧上移动，并将预设角度滑块按预设比例划分为第一区域、第二区域以及第三区域，当所述第二区域内包含若干所述句子位置点，所述第一区域和所述第三区域内均未包含所述句子位置点时，则将所述第二区域内中的所有所述句子位置点对应的所述句子归类为同一人发出。

进一步地，所述预设比例为1:2:1，所述第一区域与所述第三区域的面积相同，所述第二区域面积为所述第一区域的二倍。

进一步地，预设角度滑块在预设圆弧上对应的圆弧角度值的大小为所述预设角度误差阈值的4倍。

进一步地，所述预设角度步长的数值小于预设角度误差阈值。

本发明提供目的之二采用以下技术方案实现：

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行本申请的基于声源角度的多人语句分类方法。

本发明提供目的之三采用以下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行本申请的基于声源角度的多人语句分类方法。

本发明提供目的之四采用以下技术方案实现：

基于声源角度的多人语句分类系统，包括：

数据获取模块，所述数据获取模块用于获取预设时间段内的音频字节流数据、声源角度数据以及声音能量数据，所述声源角度数据包括在预设时间段内的不同时间段内获取的声源角度序列，所述声音能量数据包括在预设时间段内的不同时间段内获取的能量序列；

语音转换模块，所述语音转换模块用于将所述音频字节流数据转写为若干个含有文字的句子，将所述句子开始的时间到所述句子结束的时间作为句子时间段，所有所述句子时间段均小于且属于所述预设时间段；

计算模块，所述计算模块用于根据每个所述句子时间段、所述声源角度数据以及所述声音能量数据计算对应的每个所述句子的声源角度，从而得到若干声源角度，将每个所述声源角度与单个的所述句子相互关联；

句子位置确定模块，所述句子位置确定模块用于根据所述声源角度在含有角度刻度的预设圆弧确定对应句子位置点，其中，所述句子位置点为与所述声源角度对应的所述句子在所述预设圆弧上对应的位置；

语句分类模块，所述语句分类模块用于以预设角度步长将预设角度滑块在所述预设圆弧上移动，根据所述预设角度滑块与所述句子位置点的位置关系将所述句子分类。

进一步地，所述计算模块包括计算单元和关联单元，所述计算单元用于根据每个所述句子时间段、所述声源角度数据以及所述声音能量数据计算对应的每个所述句子的声源角度；所述关联单元用于将每个所述声源角度与单个的所述句子相互关联。

相比现有技术，本发明的有益效果在于：本发明的基于声源角度的多人语句分类方法，通过获取预设时间段内的音频字节流数据、声源角度数据以及声音能量数据，将音频字节流数据转写为若干个含有文字的句子，根据每个句子时间段、声源角度数据以及声音能量数据计算对应的每个句子的声源角度，从而得到若干声源角度，根据声源角度在含有角度刻度的预设圆弧确定对应句子位置点，以预设角度步长将预设角度滑块在预设圆弧上移动，根据预设角度滑块与句子位置点的位置关系将句子分类；从而在多人的情况下对于句子的按人分类的结果更加精准，降低分类的错误率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的基于声源角度的多人语句分类方法的流程示意图；

图2为本发明的基于声源角度的多人语句分类方法的语言转换过程的示意图；

图3为本发明的基于声源角度的多人语句分类方法中句子在预设圆弧上的位置的状态示意图；

图4为本发明的基于声源角度的多人语句分类系统的架构框图。

图中：1、句子位置点；2、预设角度滑块。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1所示，本发明的基于声源角度的多人语句分类方法，包括以下步骤：

数据获取，获取预设时间段内的音频字节流数据、声源角度数据以及声音能量数据，声源角度数据包括在预设时间段内的不同时间段内获取的声源角度序列，声音能量数据包括在预设时间段内的不同时间段内获取的能量序列。本实施例中的应用场景为获取多人会议时的会议发言，从会议硬件设备中获取预设时间段内的音频字节流数据、声源角度数据以及声音能量数据；在预设时间段内获取到的音频字节流数据是持续不断的，但是生源角度数据和声音能量数据时周期性。

语音转换，将音频字节流数据转写为若干个含有文字的句子，将句子开始的时间到句子结束的时间作为句子时间段，所有句子时间段均小于且属于预设时间段；如图2所示，对在预设时间段内获取到的音频字节流数据转换为文字(即句子)，音频字节流数据的持续的，但是转写出来的句子并不是连续的，句子与句子之间时有间断性的，如图2中所示，声源角度数据或声音能量数据之间的接收时连续的过程，图2中的声源角度数据或声音能量数据表示这两种数据的获取状态。

计算句子的声源角度，根据每个句子时间段、声源角度数据以及声音能量数据计算对应的每个句子的声源角度，从而得到若干声源角度，将每个声源角度与单个的句子相互关联；在本实施例中每个声源角度序列包括若干角度值，每个能量序列包括若干能量积，计算句子角度具体为：在声源角度数据中提取出在每个句子时间段内的声源角度序列，在声音能量数据中提取出在每个句子时间段内的能量序列，将声源角度序列中的角度值与能量序列中的能量积的乘积作为角度能量积，最终得到含有多个角度能量积的角度能量积序列，对角度能量积进行去重处理，得到已去重角度能量积，将角度能量积中的最大角度能量积对应的角度值作为每个句子的声源角度，从而得到若干声源角度。以单个句子对应的声源角度举例说明：假设将某个句子为s_x，句子开始的时间为t_x-1,句子结束的时间为t_x，则句子时间段即为t_x-1和t_x之间的时间段，此时间段小于且属于预设时间段，此时提取出声源角度数据中在此时间段的声源角度序列，将此声源角度序列令为：a_m-n…a_m，即为含有多个角度值的序列；提取出声音能量数据在此时间段的能量序列，令此能量序列为：E_m-n…E_m；则在t_x-1和t_x之间的角度能量积序列为：B＝a_m-nE_m-n…a_mE_m。此时对相同数值的角度值进行保留单个(即去重处理)，将去重后的声源角度序列为A_dist＝a_q-p…a_q；对角度能量积序列中相同角度值对应的能量积进行合并，即为对角度能量积序列进行重处理，使去重后的角度能量积序列中每个角度值均与单个的能量积对应，将去重后的角度能量积序列令为：B_dist＝b_q-p…b_q，序列中每一个值均与唯一的角度值和能量积对应，此时对B_dist进行排序，取序列中的最大值，将最大值令为b_x，则将b_x对应的角度值作为此时句子对应的生源角度，(其中：b_x∈B_dist，a_x∈A_dist)。

句子位置确定，根据声源角度在含有角度刻度的预设圆弧确定对应句子位置点1，其中，句子位置点1为与声源角度对应的句子在预设圆弧上对应的位置。具体为：如图3所示，预设圆弧上标记有角度刻度，整个圆弧对应的角度为360°，根据每个句子对应的声源角度值在圆弧上确定对应的句子位置点1。

语句分类，以预设角度步长将预设角度滑块2在预设圆弧上移动，根据预设角度滑块2与句子位置点1的位置关系将句子分类。如图3中所示，具体为：以预设角度步长将预设角度滑块2在预设圆弧上移动，并将预设角度滑块2按预设比例划分为第一区域、第二区域以及第三区域，当第二区域内包含若干句子位置点1，第一区域和第三区域内均未包含句子位置点1时，则将第二区域内中的所有句子位置点1对应的句子归类为同一人发出。在本实施例中在获取声源角度数据中的角度值时允许有一定的误差，但首先确定预设角度误差阈值，令预设角度误差阈值为r_e，以预设角度步长将预设角度滑块2在预设圆弧上移动，此时预设角度步长的数值大小小于上述的预设角度误差阈值。同时预设角度滑块2按比例1：2:1分为三个区域，即图中的θ₁、θ₂、θ₃，θ₁即为第一区域对应预设圆弧的角度值，θ₂即为第二区域对应预设圆弧的角度值，θ₃即为第三区域对应预设圆弧的角度值；θ₁的数值等于预设误差阈值，θ₃的数值等于预设误差阈值，θ₂数值等于二倍的预设误差阈值，预设角度滑块2在预设圆弧上对应的圆弧角度值的大小为预设角度误差阈值的四倍。如图3中所示的情况即当且仅当第二区域对应的圆弧上有句子位置点1时，则第二区域内对应的圆弧上的所有句子位置点1归类为声源为同一个人。根据上述方法将所有句子按照对应的不同的人进行分类。

本发明还提供了一种电子设备，包括：处理器；

存储器；以及程序，其中程序被存储在存储器中，并且被配置成由处理器执行，程序包括用于执行本申请的基于声源角度的多人语句分类方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行本申请的基于声源角度的多人语句分类方法。

如图4所示，本发明还提供了基于声源角度的多人语句分类系统，包括：数据获取模块，数据获取模块用于获取预设时间段内的音频字节流数据、声源角度数据以及声音能量数据，声源角度数据包括在预设时间段内的不同时间段内获取的声源角度序列，声音能量数据包括在预设时间段内的不同时间段内获取的能量序列；语音转换模块，语音转换模块用于将音频字节流数据转写为若干个含有文字的句子，将句子开始的时间到句子结束的时间作为句子时间段，所有句子时间段均小于且属于预设时间段；计算模块，计算模块用于根据每个句子时间段、声源角度数据以及声音能量数据计算对应的每个句子的声源角度，从而得到若干声源角度，将每个声源角度与单个的句子相互关联；句子位置确定模块，句子位置确定模块用于根据声源角度在含有角度刻度的预设圆弧确定对应句子位置点，其中，句子位置点为与声源角度对应的句子在预设圆弧上对应的位置；语句分类模块，语句分类模块用于以预设角度步长将预设角度滑块在预设圆弧上移动，根据预设角度滑块与句子位置点的位置关系将句子分类。计算模块包括计算单元和关联单元，计算单元用于根据每个句子时间段、声源角度数据以及声音能量数据计算对应的每个句子的声源角度；关联单元用于将每个声源角度与单个的句子相互关联。

本发明的基于声源角度的多人语句分类方法，通过获取预设时间段内的音频字节流数据、声源角度数据以及声音能量数据，将音频字节流数据转写为若干个含有文字的句子，根据每个句子时间段、声源角度数据以及声音能量数据计算对应的每个句子的声源角度，从而得到若干声源角度，根据声源角度在含有角度刻度的预设圆弧确定对应句子位置点，以预设角度步长将预设角度滑块在预设圆弧上移动，根据预设角度滑块与句子位置点的位置关系将句子分类；从而在多人的情况下对于句子的按人分类的结果更加精准，降低分类的错误率。

以上，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.基于声源角度的多人语句分类方法，其特征在于，包括以下步骤：

语句分类，以预设角度步长将预设角度滑块在所述预设圆弧上移动，根据所述预设角度滑块与所述句子位置点的位置关系将所述句子分类；

每个所述声源角度序列包括若干角度值，每个所述能量序列包括若干能量积；

所述计算句子的声源角度具体为：

在所述声源角度数据中提取出在每个所述句子时间段内的所述声源角度序列，在所述声音能量数据中提取出在每个所述句子时间段内的所述能量序列，将所述声源角度序列中的角度值与所述能量序列中的能量积的乘积作为角度能量积，最终得到含有多个所述角度能量积的角度能量积序列，对所述角度能量积进行去重处理，得到已去重角度能量积，将所述角度能量积中的最大所述角度能量积对应的所述角度值作为每个所述句子的声源角度，从而得到若干声源角度；

所述语句分类具体为：以预设角度步长将预设角度滑块在预设圆弧上移动，并将预设角度滑块按预设比例划分为第一区域、第二区域以及第三区域，当所述第二区域内包含若干所述句子位置点，所述第一区域和所述第三区域内均未包含所述句子位置点时，则将所述第二区域内中的所有所述句子位置点对应的所述句子归类为同一人发出。

2.如权利要求1所述的基于声源角度的多人语句分类方法，其特征在于：所述预设比例为1:2:1，所述第一区域与所述第三区域的面积相同，所述第二区域面积为所述第一区域的二倍。

3.如权利要求1所述的基于声源角度的多人语句分类方法，其特征在于：预设角度滑块在预设圆弧上对应的圆弧角度值的大小为预设角度误差阈值的4倍。

4.如权利要求1所述的基于声源角度的多人语句分类方法，其特征在于：所述预设角度步长的数值小于预设角度误差阈值。

5.一种电子设备，其特征在于包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-4任意一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-4任意一项所述的方法。

7.基于声源角度的多人语句分类系统，其特征在于，包括：

语句分类模块，所述语句分类模块用于以预设角度步长将预设角度滑块在所述预设圆弧上移动，根据所述预设角度滑块与所述句子位置点的位置关系将所述句子分类；

所述根据每个所述句子时间段、所述声源角度数据以及所述声音能量数据计算对应的每个所述句子的声源角度具体为：

以预设角度步长将预设角度滑块在所述预设圆弧上移动，根据所述预设角度滑块与所述句子位置点的位置关系将所述句子分类具体为：

以预设角度步长将预设角度滑块在预设圆弧上移动，并将预设角度滑块按预设比例划分为第一区域、第二区域以及第三区域，当所述第二区域内包含若干所述句子位置点，所述第一区域和所述第三区域内均未包含所述句子位置点时，则将所述第二区域内中的所有所述句子位置点对应的所述句子归类为同一人发出。

8.如权利要求7所述的基于声源角度的多人语句分类系统，其特征在于：所述计算模块包括计算单元和关联单元，所述计算单元用于根据每个所述句子时间段、所述声源角度数据以及所述声音能量数据计算对应的每个所述句子的声源角度；所述关联单元用于将每个所述声源角度与单个的所述句子相互关联。