CN107862060B

CN107862060B - 一种追踪目标人的语义识别装置及识别方法

Info

Publication number: CN107862060B
Application number: CN201711126940.5A
Authority: CN
Inventors: 王建华; 王新群; 赵洁; 陈宇彬; 何珺; 丁录国; 周乃鹏
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2021-03-23
Anticipated expiration: 2037-11-15
Also published as: CN107862060A

Abstract

本发明公开了一种追踪目标人的语义识别装置，包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块；麦克风阵列模块采集来自外界声场的多路音频信号并进行语音增强处理，处理后的音频信号只增强了外界声场中特定位置声源的音频信号；说话人辨识模块提取麦克风阵列模块采集的声纹特征，与目标人的声纹模型进行匹配，判断通过麦克风阵列模块增强处理后的特定声源信号是否来自于目标人；语义匹配模块识别音频中的语义信息并以一定形式输出。本发明配置了声纹提取模块和声源定位模块，可以在噪杂的外界声场中定位到目标人的声源位置，并通过音频数据缓存区和语义匹配模块将目标人的语音信号转换为目标人语义。

Description

一种追踪目标人的语义识别装置及识别方法

技术领域

本发明涉及语义识别领域，具体涉及一种追踪目标人的语义识别装置。

背景技术

目前通用的语义识别装置，往往受到干扰声源的影响，在嘈杂的场合下无法达到较高的识别成功率；识别的目标不具有可选性，不适用于需要识别特定人语义的场合；当目标声源移动时，不容易达到较高的识别成功率。

国内的申请公布号为CN105529026A，名称为“语音识别装置和语音识别方法”的专利。其包括收集器、第一存储器、学习器、第二存储器、特征向量提取器、语音识别器，致力于提供具有基于说话者的语音数据生成个人声学模型并且通过使用个人声学模型进行语音识别的优点的语音识别装置及语音识别算法。

国内的申请公布号为CN106503513A，名称为“声纹识别方法及装置”的专利。其揭示了一种声纹识别方法及装置，包括获取麦克风采集到的声音信号，获取声音信号的声纹特征；将声纹特征进行匹配等方法。

发明内容

为了适用于需要识别特定人语义的场合，本发明公开了一种追踪目标人的语义识别装置，其配置了声纹提取模块和声源定位模块，可以在噪杂的外界声场中定位到目标人的声源位置；还配置了音频数据缓存区和语义匹配模块，将目标人的语音信号转换为目标人语义。

本发明的目的是通过以下技术方案实现的：

一种追踪目标人的语义识别装置，包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块。

所述麦克风阵列模块包括语音增强模块以及麦克风矩阵；麦克风矩阵由多个麦克风音频接收端组成，多个麦克风音频接收端设置在外界声场中不同的特定空间位置，采集外界声场中的多路模拟音频信号；语音增强模块用于将麦克风矩阵采集的多路模拟音频信号按照语音增强权系数进行加权合成，加权合成后的音频信号增强了外界声场中特定位置声源的模拟音频信号；

所述说话人辨识模块包括声纹提取模块、声纹匹配模块以及声源定位模块：

声纹提取模块与所述语音增强模块通讯连接，其接收语音增强模块合成的音频信号，并根据声纹提取算法，获取音频信号中表征特定人语音特征的声纹特征；

声纹匹配模块分别与声纹提取模块以及存储模块的声纹存储库通讯连接，分别接收声纹存储库中的声纹模型以及声纹提取模块提取到的声纹特征信息，将声纹模型与声纹特征信息进行相似度匹配，并将相似度匹配结果反馈给声源定位模块；

声源定位模块分别与声纹匹配模块及麦克风阵列模块通讯连接，其接收来自麦克风阵列模块的多路模拟音频信号，以此为依据获知外界声场中不同声源的位置范围，对于每个位置范围生成一组语音增强权系数，使得语音增强模块按照语音增强权系数合成多路音频后，外界声场中特定位置范围的音频信号被增强；

所述音频数据缓存区分别与声纹匹配模块及语义匹配模块通讯连接，当声纹匹配模块匹配结果显示声纹匹配成功时，声纹匹配模块将当前经过语音增强后的音频数据暂存到音频数据缓存区暂存；

所述存储模块包括语义存储库与声纹存储库；

声纹存储库由一个或多个声纹模型组成，每一个声纹模型经过对目标语音训练获得；

语义存储库一方面存储最小语义单元的的音频特征模型，另一方面存储符合语义逻辑的语言模型，用于在语义匹配模块中对实时语音的音频进行识别与翻译；

所述语义匹配模块用于执行语义匹配过程，提取音频数据缓存区发来的语音信号中的语义段，与语义存储库中的现有语义进行匹配，最终输出目标人语义。

进一步地，所述的一种追踪目标人的语义识别装置，声源定位模块的工作过程可分为三个阶段：

探索阶段：所述麦克风阵列采集到的多路模拟音频信号首先被传输入声源定位模块，声源定位模块依据多声源定位算法求解出当前外界声场中各个主要声源的空间位置范围；声源定位模块依据音强大小对当前主要声源进行排序，生成一有序声源集；

标定阶段：在一定时间间隔内，以当前有序声源集中排序最靠前的声源作为标定声源，生成用于增强标定声源的语音增强权系数，并标定当前的语音增强权系数，将标定的语音增强权系数传送给语音增强模块进行音频信号合成；

校正阶段：语音增强模块合成后的音频信号依次传输入声纹提取模块及声纹匹配模块，执行声纹匹配流程；若匹配结果显示为匹配成功，将一定时间间隔内的音频信号传输到音频数据缓存区当中，若匹配结果显示为匹配失败，在当前声源集中删除匹配失败的声源，其他声源的次序不发生变动，更新声源集并覆盖旧声源集。

进一步地，所述的一种追踪目标人的语义识别装置，语义匹配模块包括音频剪切子模块、最小语义单元匹配子模块、语义缓存区以及语义拼接子模块；

音频剪切子模块分别音频数据缓存区及最小语义单元匹配子模块通讯连接，接收来自音频数据缓存区的音频数据，按照静音检测的方法，识别出音频中的静音阶段，并以静音阶段为端点，剪切音频，得到的每个音频段均为最小语义单元音频段；

最小语义单元匹配子模块分别接收来自音频剪切子模块的最小语义单元音频段及语义存储库中存储的最小语义单元模型，参照语义存储库，在最小语义单元音频段和最小语义单元模型之间进行相似度匹配，将最小语义单元音频段翻译为最小语义单元；

语义缓存区分别与置于最小语义匹配子模块及语义拼接子模块通讯连接，将匹配成功的最小语义单元暂存；

语义拼接子模块分别接收来自语义缓存区的最小语义单元以及存储于语义存储库中的语言模型，将匹配出的最小语义单元按照语言习惯组合为合理的目标人语义。

进一步地，所述的一种追踪目标人的语义识别装置还包括大数据云端，其分别与语义匹配模块及存储模块通讯连接，用于存储语义匹配模块匹配出的目标人语义，还可对存储模块进行数据更新。

本发明同时提供一种追踪目标人的语义识别方法，包括以下步骤：

步骤一、通过多个布置在不同位置的麦克风音频接收端采集外界声场中原始语音的音频信号；

步骤二、用声源定位模块获取外界声场中各个主要声源的位置范围，并按照各个主要声源的音强高低将声源排序，组成有序声源集；

步骤三、判断当前声源集是否为空集，当声源集非空时进入步骤四；

步骤四、在一定时间段内，选取当前声源集内排序最靠前的声源最为标定声源，生成用于增强标定声源的音频增强权系数并发送给语音增强模块；

步骤五、语音增强模块按照收到的音频增强权系数，合成来自多个麦克风音频接收端的语音信号；

步骤六、将步骤五合成的语音信号传输至声纹提取模块进行声纹特征提取，提取到的声纹特征被传输至声纹匹配模块，声纹匹配将声纹特征与声纹存储库中预存的声纹模型进行声纹匹配；

步骤七、若步骤六声纹匹配结果显示为匹配失败，在当前声源集中删除匹配失败的声源，其他声源的次序不发生变动，更新声源集并覆盖旧声源集，重复步骤三至步骤六；

步骤八、当步骤六声纹匹配结果显示为匹配成功，将该时间间隔内的音频信号传输到音频数据缓存区当中按照进入次序进行存储；

步骤九、当音频数据缓存区中的音频数据量大于预设阈值时，进行语义匹配流程，将音频数据与语义存储库中的语义模型进行匹配，输出匹配到的语义。

附图说明

为易于说明本公开的原理与流程，易于实现本公开的装置，附图详解本公开的必要流程附图说明如下：

图1是本语义识别装置的主要原理图，亦是本语义识别装置的一种示例性实例的模块配置方案图；

图2是一种追踪特目标人的语义识别装置的主要步骤流程图；

图3是根据一示例性实例示出的一种追踪目标人的语义识别装置的组件示意框图；

图4是声源定位模块的工作阶段示意图；

图5是语义匹配模块和语义存储库协同工作的响应关系示意图；

图6是根据一示例性实例示出的一种追踪目标人的语义识别装置的装置简图；

具体实施方式

以下结合附图详细介绍本发明的技术方案及其有益效果：

依据本公开前述的构思，下面提供示例性实施例，以下示例性实施例仅代表依据本公开构思实现的一种实施例，并不代表所有可能的示例性实施例。

以下结合附图，解释示例性实施例，实施例说明中的标号与附图一一对应，除非特殊声明，否则相同标号表示相同含义。

本装置的所有主要模块均按照工作逻辑排置如图1，参考图1，通常情境下，外界声场110并非仅包含单一声源，而包含多声源及背景噪声。本发明最关注的是产生目标语音112的声源，其他声源及背景噪声均划分为干扰语音111。即：干扰语音和目标语音共同组成了原始语音113。

本发明中一种追踪目标人的语义识别装置，包括麦克风阵列模块120、说话人辨识模块130、存储模块140、音频数据缓存区150以及语义匹配模块160；

麦克风阵列模块120充当语音信号的接收端，采集来自外界声场110的多路音频信号并进行语音增强处理，处理后的音频信号只增强了外界声场中特定位置声源的音频信号；

说话人辨识模块130提取麦克风阵列模块采集的声纹特征，与目标人的声纹模型进行匹配，判断通过麦克风阵列模块120增强处理后的特定声源信号是否来自于目标人；

语义匹配模块160，识别音频中的语义信息并以一定形式输出。

下面详尽地阐述装置特点及工作方式：

所述麦克风阵列模块120包括语音增强模块122以及由多个麦克风音频接收端组成的麦克风矩阵121。

麦克风矩阵121被布置于装置前端，即原始语音113最先被麦克风阵列121接收并采集；麦克风阵列121由多个麦克风音频接收端m₁～m_n组成，接收端m₁～m_n具有特定的空间布置，即多个麦克风音频接收端分别设置在外界声场110中不同的、特定的空间位置；

多个麦克风音频接收端m₁～m_n为麦克风阵列采集到多路模拟音频信号s(1)～s(n)，其中的每一束模拟音频信号s(i)均来自外界声场中不同的声源v(1)～v(m)，但由于每个麦克风音频接收端m₁～m_n的空间位置不同，其采集到的来自同一声源v(i)的多路模拟音频信号s(1)～s(n)也不同，基于这个特点，可进行声源定位。

本发明进行的上述步骤可在图2中表示为步骤201。

麦克风阵列121采集到的多路模拟音频信号首先被传输入声源定位模块132，依据多声源定位算法求解出当前外界声场110中各个主要声源的空间位置范围。

如图4，声源定位模块的工作过程可分为三个阶段：探索阶段405、标定阶段410和校正阶段415，求解外界声场110中各个主要声源的空间位置范围的过程系探索阶段405。

参考图2，声源定位模块132依据音强大小对当前主要声源进行排序，生成一有序声源集，此步骤即图2中的步骤202，在探索阶段405中，装置默认当前有序声源集中排序最靠前的声源为目标声源；

在步骤203中，核实声源集是否是空集，若如步骤204所述，声源集已空，说明原始语音113中不含目标人语音，结束流程，继续待机；

若如步骤205所述，声源集不为空集，在时间段Δt内，以当前声源集中排序最靠前的声源作为标定声源，生成用于增强标定声源的语音增强权系数，并标定当前的语音增强权系数，此过程亦即声源定位模块132的标定阶段410，将标定的语音增强权系数传送给语音增强模块。

语音增强模块122用于合成麦克风矩阵采集的多路模拟音频信号s(1)～s(n)，合成工作的依据是语音增强权系数；语音增强权系数w_i1～w_in，分别对应于麦克风音频接收端m₁～m_n，特定的一组权系数w_i1～w_in仅用于增强来自特定声源v_i的音频信号；多路模拟音频信号s(1)～s(n)经过语音增强模块，按照语音增强权系数进行加权合成，加权后的音频信号s增强了特定位置声源的模拟音频信号。

通过声源定位模块132的标定阶段410，当前生成的语音增强权系数将增强特定位置范围发出的语音信号。

见图1，所述说话人辨识模块130包括声纹提取模块131、声纹匹配模块133以及声源定位模块132。

声纹提取模块131被配置于语音增强模块122之后，合成的音频信号s传输给声纹提取模块，声纹提取模块根据声纹提取算法，获取音频信号中表征特定人语音特征的声纹特征。

上述声纹特征与文本无关，仅表征音频信号s的频率、音强、短时能量等重要参数的统计学规律，这些规律特征属于特定人，当特定人再次发出语音时，这些语音信号中也含有这种语音特征规律，而与特定人说话的文本内容无关。

在连通网络的情况下，声纹提取模块131采取的声纹提取算法可以更新。

本装置有初始化阶段，特定人的声纹特征要预先训练好，声纹存储库141中存储着预先训练好的特定人声纹模型。

见图1，声纹匹配模块133一方面与声纹存储库141通讯连接，接收声纹存储库141中的声纹模型，另一方面与声纹提取模块131通讯连接，接收声纹提取模块131提取到的声纹特征信息，声纹匹配模块将声纹模型与声纹特征信息进行相似度匹配，亦即步骤207。

在装置初始化过程中，已经预设好相似度阈值；当声纹匹配模块的相似度比对结果显示二者相似度大于预设阈值时，输出声纹匹配成功的信号；当声纹匹配模块的相似度比对结果显示二者相似度小于阈值时，输出声纹匹配失败的信号。

见图4，声纹匹配模块133的匹配结果将作为声源标定权系数的依据，反馈给声源定位模块132；当匹配结果显示，声纹匹配成功时，即语音信号来自目标语音112时，将当前经过语音增强后的音频数据暂存到音频数据缓存区150，音频数据缓存区150中的音频信号按照进入缓存区的先后次序储存，这一过程亦即图2步骤209；当匹配结果显示，声纹匹配结果失败，即语音信号不属于目标语音112时，删除当前声源，删除当前声源后，其他声源次序不变，更新当前声源集并覆盖旧声源集，此过程亦即图2中的步骤208，继续步骤203。

上述流程是声源定位模块132的校定阶段415。

匹配成功后，声源定位模块132将执行步骤210，即重新获取主要声源的位置范围，其增益之处在于，使本公开所述装置可以标定移动中的声源，并依据装置前述流程采集声源的语音信号。

声源定位模块，配置于麦克风阵列之后，其接收来自麦克风阵列的多路模拟音频信号s(1)～s(n)，以此为依据，获知外界声场中不同声源v(1)～v(m)的位置范围p(1)～p(m)；对于每个位置范围p(i)，其可生成一组语音增强权系数w_i1～w_in，使得按照语音增强权系数合成多路音频后，位置范围p(i)的音频信号被增强；

如图1，声纹提取模块131、声纹匹配模块133和声源定位模块132协同工作，并且有明确的协同原则，详述如下：

多路模拟音频信号s(1)～s(n)，将先后进入两个工作流程：

先进入的工作流程：多路音频信号传输进入声源定位模块，模块获取声源v(1)～v(m)的位置范围p(1)～p(m)，位置范围显示了声源在外界声场中的空间分布；按照声源音强从大到小的次序将声源排序，该过程生成了一有序声源集；在一时间间隔Δt内，取当前声源集中排序最靠前的声源，生成其对应的权系数，用语音增强模块进行音频信号的合成；优选的是，所述时间间隔Δt经过理论求解，适用于装置整体的宏观流程。

后进入的工作流程：按照当前生成的标定权系数，通过前述语音增强模块，合成多路音频信号；

合成后的音频信号传输入声纹提取模块，执行声纹匹配流程，匹配结果系“匹配成功”或“匹配失败”；若匹配结果显示为“匹配成功”，将时间间隔Δt内的音频信号传输到音频数据缓存区当中；若匹配结果显示为“匹配失败”，在当前声源集中删除匹配失败的声源，其他声源的次序不发生变动，更新声源集并覆盖旧声源集；新声源集仍为有序声源集，取排序最靠前的声源，生成语音增强权系数，如前所述，依次执行语音增强、声纹提取、声纹匹配过程。

为方便理解装置的上述工作流程，将目标声源的定位过程分为探索阶段、标定阶段和校定阶段，阐述如下：

探索阶段405：对于声场中的每个位置范围p(i)，声源定位模块可生成一组语音增强权系数w_i1～w_in，按照语音增强权系数合成多路音频后，位置范围p(i)的音频信号被放大；

标定阶段410：以音强最大的位置范围p(k)为先，位置范围p(k)对应的权系数为w_k1～w_kn，标定当前语音增强模块所需的权系数；

校正阶段415：根据声纹匹配结果，校正语音增强权系数。

音频数据缓存区150被配置于声纹匹配模块与语义匹配模块之间，其功用在于，暂存声纹匹配模块133匹配成功的音频数据，其增益之处在于，防止在声源标定的过程中出现音频数据的丢失。

在本公开装置初始化过程中，为音频数据缓存区150预设有阈值，设定阈值的增益之处在于，特定人音频的采集过程为一间断过程，无法实现有效的语义识别，设定阈值后，将离散的音频段转换为连续的音频段；所述阈值小于音频数据缓存区150的最大数据存储能力。

语义匹配模块160，可以执行语义匹配过程并输出匹配结果。当音频数据缓存区150的数据量大于预设阈值时，语义匹配模块160开始执行语义匹配流程，提取语音信号中的语义段，与语义存储库142中的现有语义进行匹配。

语义匹配模块中各个子模块均按照工作逻辑排置，见图5，语义匹配模块160具体包括音频剪切子模块505、最小语义单元匹配子模块510、语义缓存区515以及语义拼接子模块520。图5详细说明了语义匹配模块160如何与语义存储库142进行协同工作。

音频剪切子模块505，配置于音频数据缓存区150与最小语义单元匹配子模块510之间，接收来自音频数据缓存区150的音频数据，按照静音检测的方法，识别出音频中的静音阶段，并以静音阶段为端点，剪切音频，得到的每个音频段均为最小语义单元音频段。进一步说明：每个最小语义音频段的前后为静音过程，即说话人在最小语义单元之间的停顿过程；

最小语义单元匹配子模块510，一方面接收来自音频剪切子模块505的最小语义单元音频段，另一方面，接收语义存储库142中存储的最小语义单元模型，最小语义单元匹配子模块510的功用在于：参照语义存储库，在音频段和最小语义单元模型之间进行相似度匹配，将音频段翻译为最小语义单元。

语义缓存区515，见图5，其被配置于最小语义匹配子模块510与语义拼接子模块520之间，其功用在于，将匹配成功的语义暂存，特别地，若一段音频被匹配出多个最小语义单元，将按同一次序级别暂存。

语义拼接子模块520，被配置于语义缓存区515之后，一方面，接收来自语义缓存区515的最小语义单元，另一方面，接收存储于语义存储库142中的符合语义逻辑的语言模型，语义拼接子模块520的功用在于，将匹配出的最小语义单元按照语言习惯组合为合理的目标人语义170。优选的是，在获取目标人的许可的前提下，目标人语义170将扩充入大数据云端180，以丰富云端的语义库。

上述语义匹配流程亦即图2中表示的步骤211。

上述语义存储库142与声纹存储库141组成存储模块140。

声纹存储库141，由一个或多个声纹模型组成；每一个声纹模型经过对目标语音a(i)训练获得，在实现目标语音a(i)的语义识别前，要预先训练好声纹模型，并存储于声纹存储库；当声纹匹配错误率上升时，装置可以通过再训练过程，提高目标语音a(i)声纹模型的可信度；

语义存储库142，一方面，存储最小语义单元的的音频特征模型；另一方面，存储符合语义逻辑的语言模型，用于在语义匹配模块中对实时语音的音频进行识别与翻译。优选的是，语义存储库142支持云端更新的功能，即在连通网络的条件下，可以从大数据云端180获取更新数据，实现语义库的升级。

图4标明了本公开所述装置的一种示例性实施例的组件布置，前述麦克风阵列121表示为麦克风组件305，基于麦克风接收端的工作特性，将其布置于装置的前端，方便接收外界声场中的音频信号。

存储组件320，用于长期存储声纹模型与语义匹配模型。

输出组件315，以一定的形式展现匹配到的目标人语义170，这种形式不局限于以音频形式展现，亦可是通过显示屏展现。

其余具备处理、分析功能的模块与子模块，均为处理组件310。

图6所示是本示例性实施例展示的一种装置简图，手持设备终端630提供了用户交互的功能，用户可以通过触摸显示屏对设备进行操作。操作者可以通过用户选择栏610选定要追踪识别的目标人，在装置初始化过程中，目标人的声纹特征已经通过训练存储于存储组件320中。如图6所示，用户选择栏610中已经预存了几位用户，例如用户“王总”、用户“李老师”、用户“未命名07”等，当操作者通过触摸显示屏选择了其中一个用户之后，用户“XXX”成为目标人“XXX”。

当前选定用户为“李老师”，即追踪的目标人为“李老师”，装置此时的功能即为在外界声场中追踪识别目标人“李老师”的即时语义。目标人显示栏605中显示用户“李老师”，语义显示栏625显示的即为当前识别到的来自目标人“李老师”的即时语义。

连网状态图标620点亮，显示当前手持设备终端630处于连网状态下，可以进行语义库的升级。

麦克风阵列635位于总体装置的前端，朝向外界声场110，用于采集原始语音113。在本示例性实施例中，共有4个麦克风接收端640，以矩形形态进行空间布置，但并不代表本装置的所有实施例均以图6所示方式布置，图6仅提供了一种布置的可能。

如上所述，本示例性实施例实现了对目标人语义的追踪识别，其增益之处在于，改进了当前语义识别装置不识别特定人语义的弊端，亦改进了当前语义识别装置在嘈杂声场下无法识别目标人语义、或误识别非目标人人语义的弊端。

最后，声明的是，虽然上述示例性实施例实现了本公开所述“一种追踪目标人的语义识别装置”的主要功能，但本公开的内容并不局限于此实施例，其他依据本公开原理、本公开模块及子模块布置方案、本装置工作流程的实施例均在本公开的保护范围内。

Claims

1.一种追踪目标人的语义识别装置，其特征在于，包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块；

所述声源定位模块的工作过程分为三个阶段：

校正阶段：语音增强模块合成后的音频信号依次传输入声纹提取模块及声纹匹配模块，执行声纹匹配流程；若匹配结果显示为匹配成功，将一定时间间隔内的音频信号传输到音频数据缓存区当中，若匹配结果显示为匹配失败，在当前声源集中删除匹配失败的声源，其他声源的次序不发生变动，更新声源集并覆盖旧声源集；

所述存储模块包括语义存储库与声纹存储库；

2.如权利要求1所述的一种追踪目标人的语义识别装置，其特征在于，所述语义匹配模块包括音频剪切子模块、最小语义单元匹配子模块、语义缓存区以及语义拼接子模块；

3.如权利要求1所述的一种追踪目标人的语义识别装置，其特征在于，还包括大数据云端，其分别与语义匹配模块及存储模块通讯连接，用于存储语义匹配模块匹配出的目标人语义，对存储模块进行数据更新。

4.一种追踪目标人的语义识别方法，其特征在于，包括以下步骤：