CN113225441B - 一种会议电话系统 - Google Patents

一种会议电话系统 Download PDF

Info

Publication number
CN113225441B
CN113225441B CN202110774662.4A CN202110774662A CN113225441B CN 113225441 B CN113225441 B CN 113225441B CN 202110774662 A CN202110774662 A CN 202110774662A CN 113225441 B CN113225441 B CN 113225441B
Authority
CN
China
Prior art keywords
conference
sound source
speaker
signal
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110774662.4A
Other languages
English (en)
Other versions
CN113225441A (zh
Inventor
蒋灏
穆永鹏
林林
刘帅
井祥虎
窦硕鹏
徐明浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongdian Huisheng Technology Co ltd
Original Assignee
Beijing Zhongdian Huisheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongdian Huisheng Technology Co ltd filed Critical Beijing Zhongdian Huisheng Technology Co ltd
Priority to CN202110774662.4A priority Critical patent/CN113225441B/zh
Publication of CN113225441A publication Critical patent/CN113225441A/zh
Application granted granted Critical
Publication of CN113225441B publication Critical patent/CN113225441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

本发明公开了一种会议电话系统,包括:麦克风阵列,安装于会议桌,用于拾取会议桌周围若干个说话人发出的语音信号;一个或多个处理器,与所述麦克风阵列通信连接,用于根据所述声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息;以及对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。本发明实施例根据声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息,进而对处理后的语音信号进行转写,从而实现按照说话人的标识信息分类记录转写文本。

Description

一种会议电话系统
技术领域
本发明涉及通信技术领域,尤其涉及一种会议电话系统。
背景技术
现有的技术中,例如CN110767235A,该方法中的语音输入单元仅仅通过判断最大电平的话筒输入,作为混音后的输出,方法较为简单,误识率较高,席位相邻话筒有可能有串扰,智能化程度低,此外该发明每个席位需配置话筒,大量的有线话筒使会议桌显得非常凌乱,走线也比较繁琐。CN112040119A方法由于声纹识别需要一定时长的语音作为输入,所以对于有些短语音无法进行识别,此外声纹识别技术用于角色分离成熟度较低,误识的概率较高。
发明内容
本发明实施例提供一种会议电话系统,利用麦克风阵列实现声源定位,在会议语音转写中将发言人角色分离,实现在会议转写记录里自动添加说话人的标识信息。
本公开实施例提出一种会议电话系统,包括:
麦克风阵列,安装于会议桌,用于拾取会议桌周围若干个说话人发出的语音信号;
一个或多个处理器,与所述麦克风阵列通信连接,用于根据所述声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息;以及
对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。
在一实施例中,所述处理器,还用于根据所述麦克风阵列的安装位置以及所述会议桌的规格参数确定所述会议桌的桌面布局,并根据所述桌面布局确定各个说话人的方位角度。
在一实施例中,所述处理器确定各个说话人的方位角度的流程包括:
根据所述桌面布局中相邻席位的规格确定席位布局;
基于所述席位布局确定会议席位的角度范围;
基于会议席位的角度范围为与会人员配置相应的人员标识。
在一实施例中,根据所述声源信号对说话人进行识别的过程包括:
识别所述声源信号的声源方向,根据所述声源方向与所述会议席位的角度范围进行匹配,确定说话人。
在一实施例中,对于任一说话人发出的语音信号,所述处理器识别所述声源信号的声源方向的流程包括:
将所述语音信号分为若干子帧,其中相邻的子帧之间存在信号重叠,对各子帧进行如下处理:
对所述子帧加汉宁窗处理后进行离散傅里叶变换;
在离散傅里叶变换的结果中选取预设数量的感兴趣频点;
计算所述感兴趣频点对应通道的协方差矩阵;
基于阵元位置、信号频率及每个扫描的方向确定导向矢量;
对所述协方差矩阵进行奇异值分解,以求取噪声子空间;
基于所述导向矢量和所述噪声子空间利用预设算法确定谱估计函数;
基于所述谱估计函数识别所述声源信号的声源方向。
在一实施例中,所述处理器在任一所述感兴趣频点的能量低于预设阈值的情况下,不计算相应的协方差矩阵。
在一实施例中,基于阵元位置、信号频率及每个扫描的方向确定导向矢量包括:
在空间范围内以较大的第一角度间隔进行粗扫描,在粗扫描的每个方位角度以及各处理的频点上,计算导向矢量。
在一实施例中,基于所述谱估计函数识别所述声源信号的声源方向包括:
利用谱峰搜素算法,计算所述谱估计函数的最大值所对应的方向角;
在所述方向角所确定的角度范围内,以较小的第二角度间隔进行细扫描,实现识别所述声源信号的声源方向。
在一实施例中,基于所述席位布局确定会议席位的角度范围包括:
根据相邻会议席位的间距,通过多项式拟合确定各会议席位的角度偏差,以获得各会议席位的角度范围。
在一实施例中,在对所述语音信号进行处理后的语音信号中添加说话人的标识信息包括:在处理后的语音信号的帧头添加所述标识信息。
本发明实施例根据声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息,进而对处理后的语音信号进行转写,从而实现按照说话人的标识信息分类记录转写文本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本公开实施例基本流程图。
图2为本公开实施例基本框架示意图。
图3为本公开实施例语音转写软件框架示意图。
图4为本公开实施例子流程图。
图5为本公开实施例桌面布局配置子流程图。
图6为本公开实施例麦克风阵列话筒结构示意图。
图7为本公开实施例麦克风阵列话筒安装示意图。
图8为本公开实施例麦克风阵列角度示意图。
图9为本公开实施例的参会人员布局示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本公开实施例提出一种会议电话系统,如图1所示,麦克风阵列,安装于会议桌。麦克风阵列可以在步骤S101中拾取会议桌周围若干个说话人发出的语音信号。一个或多个处理器,与所述麦克风阵列通信连接,处理器可以在步骤S102中根据所述声源信号对说话人进行识别,然后在步骤S103中在处理后的语音信号中添加说话人的标识信息。最后处理器可以在步骤S104中对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。
本示例中处理器可以用于运行相应的语音转写软件,如图2所示基于声源定位的说话人角色分离的会议语音自动记录装置由会议人员配置软件模块1、麦克风阵列话筒1、会议语音转写引擎2、PoE交换机3和会议语音转写配置前端4组成,会议语音转写配置前端4组成可以是计算机设备,例如笔记本电脑、PC。麦克风阵列话筒1可以采用桌面安装方式,通过标配的安装底座部件,将麦克风阵列话筒1固定安装于会议桌中央,底部输出的网线连接PoE交换机3,由PoE交换机3对麦克风阵列话筒进行供电,并通过网络传输音频数据,麦克风阵列话筒1采集并对多路音频信号进行处理,处理后在每帧语音包上加上声源方向角度ID值传送给会议语音转写引擎2和会议语音转写配置前端4。如图3所示,会议配置还可以通过会议人员配置软件5完成。当然“对多路音频信号进行处理,处理后在每帧语音包上加上声源方向角度ID值”也可以在会议语音转写引擎2和会议语音转写配置前端4中完成,在此不做具体限定。PoE交换机3搭建局域网络,并为麦阵话筒直流供电。如图3所示,会议语音转写引擎2实现会议语音的转写,会议语音转写引擎2可以包括会议语音转写软件ASR引擎21和会议语音转写软件中间件22,会议语音转写配置前端4可以并按不同说话人存储文字记录。会议语音转写配置前端4可以在接入网络后进行语音转写配置。
会议语音转写引擎2中配置的语音转写软件可以采用B/S架构,PC的web前端软件实现交互和显示,物理上运行在接入局域网的PC的网络浏览器上,实现业务逻辑的中间件软件和语音识别引擎可以运行在服务器上。
会议人员配置软件5还可以利用与会人员相对于麦阵话筒的方位角度进行说话人身份的配置,并提供给会议语音转写引擎以区分说话人的角色。
本发明实施例根据声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息,进而对处理后的语音信号进行转写,从而实现按照说话人的标识信息分类记录转写文本。
在一实施例中,所述处理器,还用于根据所述麦克风阵列的安装位置以及所述会议桌的规格参数确定所述会议桌的桌面布局,并根据所述桌面布局确定各个说话人的方位角度。
如图4所示,本发明的方法还可以在步骤S401中安装并通过网络连接各个会议设备。然后在步骤S402中处理器通过会议人员配置软件5设置每位参会人员的角度ID。接着在步骤S403中通过麦克风阵列根据确定的说话人的声源方向进行波束增强之后向会议语音转写引擎2输出增强的语音信号以及声源方向的角度ID。具体可以利用自适应波束形成对说话人方向的语音信号进行增强,消除其他方向的干扰声音,同时采用降噪算法,抑制噪声,获取说话人清晰的语音。在步骤S404中会议语音转写引擎2的会议语音转写软件接收语音信号以及声源方向的角度ID实现带角色分离的会议语音转写,并按照说话人的标识信息分类记录转写文本。本实施例中的标识信息可以是声源方向角度ID值也可以采用相应的说话人的人员标识。
在一实施例中,所述处理器确定各个说话人的方位角度的流程包括:根据所述桌面布局中相邻席位的规格确定席位布局;基于所述席位布局确定会议席位的角度范围;基于会议席位的角度范围为与会人员配置相应的人员标识。在一实施例中,根据所述声源信号对说话人进行识别的过程包括:识别所述声源信号的声源方向,根据所述声源方向与所述会议席位的角度范围进行匹配,确定说话人。
如图5所示,以麦克风阵列话筒1可以完成配置和语音信号处理为例。本示例中麦克风阵列话筒1的处理器还可以在步骤S501中获取用户通过PC上的会议人员配置软件5输入的会议桌的形状和尺寸参数。然后在步骤S502中配置自动软件生成会议桌椅布局图。然后在步骤S503中用户可以选择一种会议桌椅布局图进行参会人员配置。最后在步骤S504中可以通过会议人员配置软件5将参会人员的姓名、所处位置的角度ID值等信息存储会议人员配置文件中。
作为一种具体的示例,如图6、图7所示,麦克风阵列话筒1包括结构外壳13,指示设备状态及声源方向角的led灯带14,静音按键15,该按键可以为触摸按键,开机后麦克风阵列话筒1处于静音状态,灯带14显示红色表示静音状态,设备停止采音。触摸静音按键后,设备开始正常录音,灯带14显示绿色,同时在声源对应方位的灯显示蓝色指示声源方位。网络接口16位于麦克风阵列话筒1的底部,通过网线连接带PoE功能的交换机3进行供电和数据传输,底部的线槽17可以走网线,并从安装配件18的管内从桌面下方穿出,图7为麦克风阵列话筒1的安装示意图,麦克风阵列话筒1可以通过安装配件18安装在会议桌7的几何中心位置,当然可以是其他指定的位置在此不做限定。麦克风阵列话筒1内部的麦克风阵列板19由均匀分布在圆周上的6颗硅麦克风和圆心处的1颗硅麦克风组成6+1环形麦克风阵列。
如图8所示,可以通过麦克风阵列话筒1采集7路的音频信号,并通过线缆将信号传输给音频信号处理板,音频信号处理板获取麦克风阵列板19采集的7路音频信号,并利用改进的基于ISM的MUSIC谱估计实时计算说话人的声源方向。
在一实施例中,基于所述席位布局确定会议席位的角度范围包括:根据相邻会议席位的间距,通过多项式拟合确定各会议席位的角度偏差,以获得各会议席位的角度范围。
作为一种具体的示例,以如图9所示的桌面布局进行进一步举例说明。可以通过界面提示用户输入会议桌的形状和尺寸参数,然后软件根据用户输入信息,自动生成匹配的多种桌椅布局图,生成桌椅布局图的方法是:根据相邻席位合适的间距一般为60cm-100cm,一定规格尺寸的会议桌会有多种椅子数量和布局,从而生成60,70,80,90,100的间隔数组,自动生成该会议桌下的多种桌椅布局图。图9展示了用户选定一种跟会议室实际情况一致的桌椅布局,在布局图上选定参会人员的席位,每个被占用的席位具有一个角度ID值9,角度ID值为椅子相对于会议桌中央麦克风阵列话筒2的方向角,参考方向如图9箭头指定,软件默认参会人员的标识为IDn(n为自然数,最大值为会议人数),图9中选定了5位参会人员,得到ID1~ID5,用户也能对每个席位的参会人员姓名进行输入,以代替IDn的输入形式。图9中的10为每个席位的拾音范围,只要是采集到的语音数据帧的帧头所带角度值在10所示范围内,则将说话人语音分离出来,实现带角色分离的语音转写。
在一实施方式中,图9中10所示范围,并非相对于角度ID值9加上或减去固定偏差,而是根据相邻席位的间距动态调整。如果相邻席位间距11大,则角度偏差12大,如果相邻席位间距11小,则角度偏差12小,角度偏差值12的计算可以采用多项式拟合的方法得到。例如事先建立席位间距和角度偏差的数据对,然后根据经验先设定8组数据拟合对,建立有未知系数
Figure 720547DEST_PATH_IMAGE001
的5次多项式,即如下公式(1)中,m的次数为5,然后将中8个已知的数据对带入如下公式(2),可以得到偏差的平方和
Figure 572441DEST_PATH_IMAGE002
Figure 821019DEST_PATH_IMAGE003
(1)
Figure 888333DEST_PATH_IMAGE004
(2)
为求出
Figure 171546DEST_PATH_IMAGE002
的最小值,利用最小二乘平方的最优化算法,求出使得目标函数
Figure 462850DEST_PATH_IMAGE002
为最小的系数值wm:[w0 w1 w2 w3 w4 w5],再根据公式(1)的多项式可以求出任意相邻席位间距11的角度偏差值。图9所示的会议桌面布局角度值及偏差范围计算结果如表1所示,逆时针的角度偏差为上偏差,顺时针为下偏差。
表1
Figure DEST_PATH_IMAGE005
在一实施例中,对于任一说话人发出的语音信号,所述处理器识别所述声源信号的声源方向的流程包括:
将所述语音信号分为若干子帧,其中相邻的子帧之间存在信号重叠,对各子帧进行如下处理:
对所述子帧加汉宁窗处理后进行离散傅里叶变换;
在离散傅里叶变换的结果中选取预设数量的感兴趣频点;
计算所述感兴趣频点对应通道的协方差矩阵;
基于阵元位置、信号频率及每个扫描的方向确定导向矢量;
对所述协方差矩阵进行奇异值分解,以求取噪声子空间;
基于所述导向矢量和所述噪声子空间利用预设算法确定谱估计函数;
基于所述谱估计函数识别所述声源信号的声源方向。
在一实施例中,所述处理器在任一所述感兴趣频点的能量低于预设阈值的情况下,不计算相应的协方差矩阵。在一实施例中,基于阵元位置、信号频率及每个扫描的方向确定导向矢量包括:不是在任意扫描角度上计算导向矢量,而是在空间范围内以较大的第一角度间隔进行粗扫描,在粗扫描的每个方位角度以及各处理的频点上,计算导向矢量。在一实施例中,基于所述谱估计函数识别所述声源信号的声源方向包括:利用谱峰搜素算法,计算所述谱估计函数的最大值所对应的方向角;在所述方向角所确定的角度范围内,以较小的第二角度间隔进行细扫描,实现识别所述声源信号的声源方向。
由于定位目标是宽带语音信号,传统的窄带空间谱估计不能用于语音信号的声源估计,对于宽带语音信号,需要在其每个子带上做常规窄带信号处理,再对各子带的空间谱估计结果取平均,得到最终的估计结果。
考虑7阵元的环形阵列(6+1),单个声源s(t)入射阵列的情况,则阵列的输出信号
Figure 933146DEST_PATH_IMAGE006
如下:
Figure 600888DEST_PATH_IMAGE007
(3)
由于信号s
Figure 738608DEST_PATH_IMAGE008
到达阵列各阵元会相对于坐标系原点产生延时,故不同阵元接收到的信号为
Figure 200813DEST_PATH_IMAGE009
, i=0,1,…6,
Figure 423984DEST_PATH_IMAGE010
为第i个阵元上的延时,
Figure 629838DEST_PATH_IMAGE011
为每个阵元上接收的与信源不相关的噪声,也可以看成是每个通道的电路噪声。
第i个阵元的延时
Figure 90906DEST_PATH_IMAGE012
矢量为:
Figure 989592DEST_PATH_IMAGE013
(4)
其中,a为入射声波的方向矢量,p为阵元的位置矢量,考虑平面阵情况:
Figure 431550DEST_PATH_IMAGE014
(5)
Figure 175515DEST_PATH_IMAGE015
为声源方向角。如果将观测时间分为K个间隔为td的快拍,最终在频域和空域上,宽带信号模型可表征如下:
Figure 287828DEST_PATH_IMAGE016
j=1,…,J; k=1, … , K (6)
也即式(6)是把信号划分为J个子带,对于不同频率点
Figure 91836DEST_PATH_IMAGE017
的阵列频域输出。
其中,
Figure 24020DEST_PATH_IMAGE018
Figure 243779DEST_PATH_IMAGE019
为7×1维矢量,其元素分别是第k个时间间隔,在第i个阵元上接收的声源信号
Figure 476178DEST_PATH_IMAGE020
和噪声
Figure 654349DEST_PATH_IMAGE021
在频率
Figure 277092DEST_PATH_IMAGE017
处的离散傅里叶系数,
Figure 359930DEST_PATH_IMAGE022
为阵列导向矢量,包含了阵列的所有频域、空域特征,其表征如下:
Figure 181255DEST_PATH_IMAGE023
(7)
传统的ISM算法将宽带信号在频域分解为J个窄带分量,对各子带的阵列输出的协方差矩阵进行特征分解,将与信号个数P相等的最大特征值对应的特征向量看作信号子空间,把剩下的M-P个特征值对应特征向量看作噪声子空间,得到正交的信号子空间和噪声子空间,然后利用MUSIC算法进行谱估计。然而传统的算法MUSIC谱估计函数除了要对每个子带进行窄带处理外,还需要在空间进行扫描,算法性能效率不高,如果在嵌入式硬件上实现占用资源较高。
作为一种具体的示例,为了提升DOA计算的效率,本公开方法提出了改进算法,一是对于探测频率范围内的子带,并不是在全频带进行窄带处理,只有当该子带的能量大于某一个预设阈值时,才对其进行窄带空间谱估计,反之则不处理。二是对于空间谱各个方向角的扫描,并不是传统的以均匀角度间隔进行扫描,而是分为粗扫和精扫两个步骤,先以较粗的角度分辨率进行扫描,完成谱峰搜索后,在空间谱谱峰的位置的局部角度范围再进行精细扫描,局部谱峰搜索后得到最终的DOA估计;三是在C/C++嵌入式硬件实现过程中,对每帧语音信号求协方差矩阵,然后将每帧的结果进行平均,当处理帧数达到快拍时间间隔时,开始进行空间相扫和子带处理,并可以另开一个线程单独进行并行处理,大大提计算效率。
具体的语音信号处理过程可以包括如下步骤:
步骤1:分帧处理
语音信号虽然是一种时变的非平稳信号,但是语音信号在很短的时间内又具有平稳性,所以在处理语音信号时,要将语音信号进行分帧处理,同时,为了保证帧与帧之间数据的平滑性,分帧时前一帧和后一帧之间需要有一定的重叠,偏移的部分称为帧移。这里,可以取帧长为32ms,帧移取16ms。由于语音信号数据的采样率为16kHz。因此,每帧的采样点数为512点,帧移为256点。
步骤2:傅里叶变换
对每帧语音信号数据的7通道数据先进行加汉宁窗处理,每帧512点时域语音数据记为
Figure 795907DEST_PATH_IMAGE024
,其中,n=0,1,…6,表示第n通道数据,k=0,1,…511, 表示第n通道数据的第k点,利用离散傅里叶变换,将数据变换至频域
Figure 702683DEST_PATH_IMAGE025
,q=0,1,…511,q表示频域的各个频率点,由于语音信号频率范围一般在50Hz~3400Hz,因此本实施例中感兴趣的频点范围为第2~109个点,其计算公式如下:
Figure 857721DEST_PATH_IMAGE026
(8)
Figure 2395DEST_PATH_IMAGE027
(9)
因此
Figure 381423DEST_PATH_IMAGE025
只需要取出第2-109个频点进行子带处理,极大降低了所需处理的数据量。此外,还可以对每个频点的能量进行计算,如果该频点能量小于预设的阈值,则不进行子带窄带处理,这样可以将传统方法需要进行全频带的256个子带处理减小到大约50个子带处理,大大提高了算法的效率。
步骤4:协方差矩阵计算
在每个感兴趣的频点q(看成窄带),计算7个通道的协方差矩阵,本实施例同时考虑0.5s进行一个DOA估计,这样只需要对32帧的数据进行平均,求取每个频点的32帧协方差矩阵
Figure 978758DEST_PATH_IMAGE028
平均:
Figure 671907DEST_PATH_IMAGE029
(10)
其中q为步骤3得出的需要进行子带窄带处理的频点,K为处理的帧数32。
步骤5:空间谱估计函数计算
对空间进行相扫得到空间谱估计函数,即得到空间每个方向角的谱估计函数值,实现如下:首先以10°角度间隔进行粗扫,在扫描的每个方位角度上,每个处理的频点上,求出导向矢量
Figure 202246DEST_PATH_IMAGE030
,基于式(7),对每个频点的协方差矩阵进行奇异值分解,并根据其特征值求取噪声子空间
Figure 221017DEST_PATH_IMAGE031
,最后根据MUSIC算法求出谱估计函数:
Figure 102386DEST_PATH_IMAGE032
](11)
Figure 599226DEST_PATH_IMAGE033
为扫描的每个角度的空间谱估计函数值。如果为全向计算,则
Figure 449983DEST_PATH_IMAGE034
=0,10,…,360。
步骤6:谱峰搜索
利用谱峰搜素算法,求出
Figure 374077DEST_PATH_IMAGE033
最大值所对应的方向角。
步骤7:精细扫描
通过步骤6求出的方向角
Figure 742741DEST_PATH_IMAGE035
,在
Figure 512114DEST_PATH_IMAGE036
的角度范围,再以1°的角度间隔按步骤5进行精细扫描,得到最终的声源方位。
会议语音转写引擎2可以获取麦克风阵列话筒1传输的语音数据和角度ID值,读取会议人员配置软件设置的参会人员配置文件,并调用语音转写软件ASR引擎21,实现语音识别,获取说话人的语音转文本的数据。最后将带说话人身份的文本记录数据传送给PC上的语音转写软件的WEB前端,在PC上的浏览器UI界面上显示出不同发言人的语音转写的文字信息。
在一实施例中,在对所述语音信号进行处理后的语音信号中添加说话人的标识信息包括:在处理后的语音信号的帧头添加所述标识信息。
具体的说处理完后的语音信号经过编码后,在每帧帧头加上计算后的声源方向角度ID值,音频传输协议格式是在PCM音频数据流的基础上加上帧头信息,帧头信息包括了声源方向角度的ID值,及音频通道数,协议格式如表2所示。
表2
麦克风阵列角度ID 声道数量 声道1 声道1数据 声道2 声道2数据
2字节 0×02 0×01 2.56k字节 0×02 2.56k字节
本实施例利用麦克风阵列技术,通过声源定位判断说话人相对于麦阵话筒的方向角度,根据用户设置的会议桌椅布局,自动生成每个席位的角度ID值和偏差范围,同时解决了中小型会议室远场拾音的问题,输出所有发言人的经过降噪增强的语音信号,并在输出语音帧上加上发言人的方位角度ID,从而在会议语音转写软件上实现了发言人自动角色分离的功能。本发明可以应用在无扩声系统的中小型会议室拾音,视频会议的远场拾音,自动分离说话人身份的会议转写。
本公开的实施例还一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的会议转写相关的方法步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.一种会议电话系统,其特征在于,包括:
麦克风阵列,安装于会议桌,用于拾取会议桌周围若干个说话人发出的语音信号;
一个或多个处理器,与所述麦克风阵列通信连接,用于根据声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息;以及对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本;
对于任一说话人发出的语音信号,所述处理器识别所述声源信号的声源方向的流程包括:
将所述语音信号分为若干子帧,其中相邻的子帧之间存在信号重叠,对各子帧进行如下处理:
对所述子帧加汉宁窗处理后进行离散傅里叶变换;
在离散傅里叶变换的结果中选取预设数量的感兴趣频点;
计算所述感兴趣频点对应通道的协方差矩阵;
基于阵元位置、信号频率及每个扫描的方向确定导向矢量;
对所述协方差矩阵进行奇异值分解,以求取噪声子空间;
基于所述导向矢量和所述噪声子空间利用预设算法确定谱估计函数;
基于所述谱估计函数识别所述声源信号的声源方向;
基于阵元位置、信号频率及每个扫描的方向确定导向矢量包括:
在空间范围内以第一角度间隔进行粗扫描,在粗扫描的每个方位角度以及各处理的频点上,计算导向矢量;
基于所述谱估计函数识别所述声源信号的声源方向包括:
利用谱峰搜素算法,计算所述谱估计函数的最大值所对应的方向角;
在所述方向角所确定的角度范围内,以第二角度间隔进行细扫描,实现识别所述声源信号的声源方向。
2.如权利要求1所述的会议电话系统,其特征在于,所述处理器,还用于根据所述麦克风阵列的安装位置以及所述会议桌的规格参数确定所述会议桌的桌面布局,并根据所述桌面布局确定各个说话人的方位角度。
3.如权利要求2所述的会议电话系统,其特征在于,所述处理器确定各个说话人的方位角度的流程包括:
根据所述桌面布局中相邻席位的规格确定席位布局;
基于所述席位布局确定会议席位的角度范围;
基于会议席位的角度范围为与会人员配置相应的人员标识。
4.如权利要求3所述的会议电话系统,其特征在于,所述处理器,根据所述声源信号对说话人进行识别的过程包括:
识别所述声源信号的声源方向,根据所述声源方向与所述会议席位的角度范围进行匹配,确定说话人。
5.如权利要求1所述的会议电话系统,其特征在于,所述处理器在任一所述感兴趣频点的能量低于预设阈值的情况下,不计算相应的协方差矩阵。
6.如权利要求3所述的会议电话系统,其特征在于,基于所述席位布局确定会议席位的角度范围包括:
根据相邻会议席位的间距,通过多项式拟合确定各会议席位的角度偏差,以获得各会议席位的角度范围。
7.如权利要求1所述的会议电话系统,其特征在于,在对所述语音信号进行处理后的语音信号中添加说话人的标识信息包括:
在处理后的语音信号的帧头添加所述标识信息。
CN202110774662.4A 2021-07-09 2021-07-09 一种会议电话系统 Active CN113225441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110774662.4A CN113225441B (zh) 2021-07-09 2021-07-09 一种会议电话系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110774662.4A CN113225441B (zh) 2021-07-09 2021-07-09 一种会议电话系统

Publications (2)

Publication Number Publication Date
CN113225441A CN113225441A (zh) 2021-08-06
CN113225441B true CN113225441B (zh) 2021-10-08

Family

ID=77081596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110774662.4A Active CN113225441B (zh) 2021-07-09 2021-07-09 一种会议电话系统

Country Status (1)

Country Link
CN (1) CN113225441B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782047B (zh) * 2021-09-06 2024-03-08 云知声智能科技股份有限公司 语音分离方法、装置、设备和存储介质
CN113936687B (zh) * 2021-12-17 2022-03-15 北京睿科伦智能科技有限公司 一种实时语音分离语音转写的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106772227A (zh) * 2017-01-12 2017-05-31 浙江大学 一种基于声纹多谐波识别的无人机方向估计方法
CN109817225A (zh) * 2019-01-25 2019-05-28 广州富港万嘉智能科技有限公司 一种基于位置的会议自动记录方法、电子设备及存储介质
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法
CN111739553A (zh) * 2020-06-02 2020-10-02 深圳市未艾智能有限公司 会议声音采集、会议记录以及会议记录呈现方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107211061B (zh) * 2015-02-03 2020-03-31 杜比实验室特许公司 用于空间会议回放的优化虚拟场景布局

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106772227A (zh) * 2017-01-12 2017-05-31 浙江大学 一种基于声纹多谐波识别的无人机方向估计方法
CN109817225A (zh) * 2019-01-25 2019-05-28 广州富港万嘉智能科技有限公司 一种基于位置的会议自动记录方法、电子设备及存储介质
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法
CN111739553A (zh) * 2020-06-02 2020-10-02 深圳市未艾智能有限公司 会议声音采集、会议记录以及会议记录呈现方法和装置

Also Published As

Publication number Publication date
CN113225441A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
US11694710B2 (en) Multi-stream target-speech detection and channel fusion
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
CN113225441B (zh) 一种会议电话系统
Zohourian et al. Binaural speaker localization integrated into an adaptive beamformer for hearing aids
US20110096915A1 (en) Audio spatialization for conference calls with multiple and moving talkers
JP4910568B2 (ja) 紙擦れ音除去装置
CN109599124A (zh) 一种音频数据处理方法、装置及存储介质
EP3513404A1 (en) Microphone selection and multi-talker segmentation with ambient automated speech recognition (asr)
CN102164328A (zh) 一种用于家庭环境的基于传声器阵列的音频输入系统
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
JP2020115206A (ja) システム及び方法
Yu et al. End-to-end multi-look keyword spotting
Fukui et al. Sound source separation for plural passenger speech recognition in smart mobility system
CN115482830A (zh) 语音增强方法及相关设备
Wang et al. Pseudo-determined blind source separation for ad-hoc microphone networks
Jin et al. Multi-channel noise reduction for hands-free voice communication on mobile phones
EP3847645B1 (en) Determining a room response of a desired source in a reverberant environment
Himawan et al. Clustering of ad-hoc microphone arrays for robust blind beamforming
Gergen et al. Source separation by fuzzy-membership value aware beamforming and masking in ad hoc arrays
Nakamura et al. Blind spatial sound source clustering and activity detection using uncalibrated microphone array
Kawase et al. Automatic parameter switching of noise reduction for speech recognition
Yang et al. A new class of differential beamformers
JP2016122111A (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
Nishiura et al. Talker localization based on the combination of DOA estimation and statistical sound source identification with microphone array

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant