CN110797034A

CN110797034A - 一种用于老人及病患照料的自动语音视频识别对讲系统

Info

Publication number: CN110797034A
Application number: CN201910901742.4A
Authority: CN
Inventors: 沈玺; 朱艳华; 寇京珅
Original assignee: Chongqing Terminus Technology Co Ltd
Current assignee: Chongqing Terminus Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-02-14

Abstract

本申请公开了一种用于老人及病患照料的自动语音视频识别对讲系统，其中，声音识别分类模块从采集的声音信息中识别并提取出用户的有声数据，用户动作提取模块从采集的视频信息中识别并提取出用户的动作图像特征，用户类型判断模块将有声数据和/或将动作图像特征与预先存有的样本数据进行比对，依据语音和/或图像的比对结果判断出用户是否为老人或病人，求助触发模块在用户类型判断模块判断出用户为老人或病人的情况下，触发对讲设备进行开启，以发出声音和/或图像信号。通过语音和视频对用户进行双重实时监控，一旦识别出用户发出求助声音或摆出求助姿势，则自动通过对讲设备进行求助信息的传达，无需操作语音通话设备表达求助需求。

Description

一种用于老人及病患照料的自动语音视频识别对讲系统

技术领域

本申请涉及语音及图像识别技术领域，特别涉及一种用于老人及病患照料的自动语音视频识别对讲系统。

背景技术

近年来，随着国家经济发展水平的提高以及文化教育的普及，每年新生儿的数量越来越少，人口出生率逐年下降，同时60岁以上老龄人口的数量也正在迅速增多，标志着社会正在快速向老龄化社会转变。

老龄人口的迅速增多相应带来了许多问题，其中最重要的问题之一就是医疗保障问题。由于老年人本身由于身体机能逐渐随年龄增长而退化，因此有可能会存在动作不便、语音障碍的情况，例如肢体动作不自主地颤抖、动作缓慢、发声含糊、发音时间长等，甚至存在智力和视听觉上的障碍。而对于患病的老年人，甚至是患病后需要卧床、住院的老年人来说，上述情况更为普遍，甚至可能会发生失禁、发病等急需立即照料、治疗的情况发生。但由于身体原因使得病人很难依靠自己正常使用电话、对讲机等通讯设备召唤相关人员前来，因此未能在病人身边的护士或照看人员无法立即得知病人需要救助，导致贻误病情，不利于病人的休养，甚至可能会导致病人病危而危及生命。

因此，在病人未能被24小时看护的情况下，如何有效地自动发起求助以通知相关人员前来进行看护和救助是目前亟需解决的问题。

发明内容

(一)申请目的

基于此，为了使老年用户和患病用户在行动不便、卧床休养时，能够无需下床或进行较大幅度的动作即可将求助意愿发送出去，使得所表达出的需求能够立即得到响应，提高了照看老人和病人的自动化程度和便捷程度，同时能够适用于失能老人及各种患有障碍性疾病的病人，避免由于老人或病人紧急发病而未能及时得到响应而造成生命危险等情况，本申请公开了以下技术方案。

(二)技术方案

本申请提供了一种用于老人及病患照料的自动语音视频识别对讲系统，包括：

声音识别分类模块，用于从采集的声音信息中识别并提取出用户的有声数据；

用户动作提取模块，用于从采集的视频信息中识别并提取出用户的动作图像特征；

用户类型判断模块，用于将所述有声数据与预先存有的语音样本数据进行比对，和/或将所述动作图像特征与预先存有的图像样本数据进行比对，依据语音和/或图像的比对结果判断出用户是否为老人或病人；

求助触发模块，用于在所述用户类型判断模块判断出用户为老人或病人的情况下，触发对讲设备进行开启，以发出声音和/或图像信号。

在一种可能的实施方式中，所述声音识别分类模块包括：

语音分割子模块，用于对所述声音信息进行分割得到多个有声段；

语音分类子模块，用于对所述有声段按照单元音进行分类。

在一种可能的实施方式中，所述语音分割子模块包括：

能量及过零计算单元，用于计算所述声音信息中每一帧的短时能量和短时过零率；

起始点判定单元，用于在判断出当前帧满足阈值起始条件的情况下，对该当前帧进行起始标记，并在该当前帧之后的一定数量的帧均满足阈值起始条件的情况下，判定该当前帧为有声段的起始点，在所述一定数量的帧中任一帧未能满足阈值起始条件的情况下，消除该当前帧的起始标记；

结束点判定单元，用于在判定出起始点之后，并在判断出当前帧满足阈值结束条件的情况下，对该当前帧进行结束标记，并在该当前帧之后的一定数量的帧均满足阈值结束条件的情况下，判定该当前帧为有声段的结束点，在所述一定数量的帧中任一帧未能满足阈值结束条件的情况下，消除该当前帧的结束标记；

语音分割单元，用于依据所述起始点和相应的所述结束点从所述声音信息中提取出有声段；其中，

所述阈值起始条件为：短时能量超过高能量阈值，或者短时能量超过低能量阈值且短时过零率超过过零阈值；

所述阈值结束条件为：短时能量低于高能量阈值，或者短时过零率低于过零阈值。

在一种可能的实施方式中，所述语音分类子模块包括：

梅尔特征提取单元，用于基于梅尔频率倒谱系数提取所述有声段中每帧的梅尔特征向量；

匹配距离计算单元，用于以待分类的有声段单元音语音的梅尔特征向量帧数I和单元音模板的梅尔特征向量帧数J为坐标轴，基于动态时间规整算法算出从(1，1)坐标到(I，J)坐标的累计匹配距离和平均匹配距离；

单元音分类单元，用于基于所述累计匹配距离和平均匹配距离，从所有单元音模板中确定出与待分类的单元音语音在最佳路径上的匹配距离最小的单元音模板作为待分类语音的单元音类别。

在一种可能的实施方式中，所述用户类型判断模块包括：

语音特征提取子模块，用于提取所述有声数据的语音特征量，所述语音特征量包括基频、周期、峰峰值和谐波信噪比特征量；

语音特征识别子模块，用于将所述语音特征量输入三支决策分类器进行分类，依据分类结果判断出用户的人员类别。

在一种可能的实施方式中，所述语音特征提取子模块包括：

基频特征计算单元，用于利用截断函数对有声数据进行三电平削波，得到只包含具有周期性峰值的主峰的语音信号，并利用自相关函数计算每一帧单元音语音的自相关函数值，进而算出基音频率特征量；

周期特征计算单元，用于通过以下公式计算有声数据的周期平均绝对差和平均周期的比值特征量：

其中，N为窗长，T_i为语音信号第i帧的基音周期；

峰峰值特征计算单元，用于通过以下公式计算有声数据的相邻周期幅度差的平均绝对差和平均幅度的比值特征量：

其中，A为一帧语音信号的峰峰值，A＝x(m)- x(n)，x(m)为该帧语音信号在m点处达到最大的值，x(n)为该帧语音信号在n点处达到最小的值；

谐波信噪比计算单元，用于通过以下公式计算有声数据的谐波信噪比：

并算出每一帧语音信号的谐波信噪比的算术平均值，得到谐波信噪比特征量，其中，R(0)为语音序列中初始点的自相关函数值，R(τ)为所述初始点之外的第一个最大自相关函数值。

在一种可能的实施方式中，所述语音特征识别子模块包括：

判断区间划分单元，用于以所述有声数据的语音特征量为中心，以设定数值为半径在论域内划分出判断区间；

数量占比计算单元，用于计算所述判断区间内分别属于各人员类别的相应样本特征量的数量，进而算出各人员类别的样本特征量数量所占比值；

三支决策分类单元，用于分别对各种类语音特征量的所述比值的大小进行判断，当存在使所述比值为1的人员类别时，判定所述有声数据在相应的语音特征量种类上属于使所述比值为1的相应人员类别，当存在使所述比值为0的人员类别时，判定所述有声数据在相应的语音特征量种类上不属于使所述比值为0的相应人员类别，当所述比值大于0且小于1时，在相应语音特征量种类上延迟对所述有声数据的人员类别的判断；

人员类别判断单元，用于对每种语音特征量在各人员类别上的比值进行求和，依据每种语音特征量在各人员类别上的比值之和最大值确定出每种语音特征量的人员类别判断结果，并对每种语音特征量的人员类别判断结果的类别数量进行统计，将类别数量最大值对应的类别作为所述有声数据的人员类别，进而得到用户的人员类别。

在一种可能的实施方式中，所述用户动作提取模块包括：

自相关性计算单元，用于算出图像区域的梯度大小和梯度方向角，进而得到像素点的梯度在图像区域内的自相关性；

运动速度计算单元，用于构建图像区域的图像矩，基于所述图像矩算出运动目标重心，进而算出人体运动速度特征向量；

图像特征提取单元，用于利用预先构造的完备字典中的单词表征图像特征向量并进行数据编码，利用时域金字塔匹配法对编码后的特征向量进行上肢动作运动图像特征参数的提取与识别。

在一种可能的实施方式中，所述图像特征提取单元通过聚类算法构造所述完备字典。

在一种可能的实施方式中，在所述用户类型判断模块同时比对语音和图像的情况下，在任一项比对结果表示用户为老人或病人时，所述用户类型判断模块判定用户为老人或病人。

(三)有益效果

本申请公开的一种用于老人及病患照料的自动语音视频识别对讲系统，通过语音和视频对用户进行双重实时监控，一旦识别出用户发出求助声音或摆出求助姿势，则自动通过对讲设备进行求助信息的传达，无需操作语音通话设备表达求助需求，提高了用户求助的便捷性和自动化程度，使得用户身边无需24小时设专人看守，便于行动不便的老人以及卧病在床的病人求助信号能够及时被捕获并发出，避免耽误病人发病时的治疗及老人需求的满足。

附图说明

以下参考附图描述的实施例是示例性的，旨在用于解释和说明本申请，而不能理解为对本申请的保护范围的限制。

图1是本申请公开的自动语音视频识别对讲系统实施例的结构框图。

图2是自动语音视频识别对讲系统中语音部分的结构框图。

图3是高维语音特征数据降维映射到二维平面后的特征-数值图。

图4是自动语音视频识别对讲系统中视频部分的结构框图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

下面参考图1-图4详细描述本申请公开的用于老人及病患照料的自动语音视频识别对讲系统实施例。如图1所示，本实施例公开的自动语音视频识别对讲系统主要包括有：声音识别分类模块、用户动作提取模块、用户类型判断模块和求助触发模块。

声音识别分类模块用于从采集的声音信息中识别并提取出用户的有声数据。声音信息由预先安装于用户所处场景的声音采集器进行采集，例如采用话筒等设备。由于本系统通常实施于卧病在床的病人或行动不便的老人，因此声音采集器通常安装于养老院房间内、医院病房内、家庭卧室内等场所，能够实时采集用户发出的语音并发送至声音识别分类模块。当有人发声时，声音采集器将采集到的声音信息发送至声音识别分类模块，由于声音信息中可能会存在一些空白、背景噪声等，因此声音识别分类模块从包含着空白、背景噪声的声音信息中分离出用户的有声数据。

用户动作提取模块用于从采集的视频信息中识别并提取出用户的动作图像特征。视频信息由预先安装于用户所处场景的视频采集器进行采集，例如摄像头等设备。视频采集器同样能够安装于养老院房间内、医院病房内、家庭卧室内等场所，通常安装于病床前上方等位置，能够实时采集用户图像并发送至用户动作提取模块。当视频中有人动作时，视频采集器将采集到的图像信息发送至用户动作提取模块，由于病人和老人在表达需求及进行求助时，通常会有一些特定的姿势，为了能够适用于卧病在床及行动不便的老人及病人，因此用户动作提取模块主要对图像中用户的上肢动作进行提取和识别。

用户类型判断模块用于将声音识别分类模块提取出的有声数据与预先存有的语音样本数据进行比对，依据比对结果判断出用户是否为老人或病人。系统预先采集并存储了老人、病人和健康人的语音作为比对样本，若有声数据与病人的样本最相似，则判断该有声数据的为病人用户；老人和健康人同理。

用户类型判断模块还用于将用户动作提取模块提取出的动作图像特征与预先存有的图像样本数据进行比对，依据比对结果判断出用户是否为老人或病人。系统同样预先采集并存储了老人、病人和健康人的上肢动作图像作为比对样本，若用户图像特征与病人的样本最相似，则判断该动作是由病人用户做出的；老人和健康人同理。

用户类型判断模块可以只依据语音和视频中的其中一项进行用户的人员类别判断，也可以同时依据两者进行人员类别的判断。

求助触发模块用于在用户类型判断模块判断出用户为老人或病人的情况下，说明场景中有老人或病人在发出语音求助或摆动姿势求助，此时为了及时通知未在该场景内的护工、护士等人员，避免耽误用户的照看和医疗，求助触发模块会触发对讲设备进行开启，以发出声音和/或图像信号。

对讲设备可以配备显示屏，因此对讲设备可以同时发出声音信号和图像信号。若是在医院，则对讲设备直接连接护士站的终端电脑，以在有情况时及时告知护士。发出的声音信号和图像信号可以直接采用声音采集器和视频采集器采集的数据，也就是实现用户所在场景与护士所在场景之间的实时距离通话，也可以采用预先存储于系统内的人工语音及预设的警告画面，以便于告知家内的照看人员，具体采用实时通话还是发出预设声音，可以依据具体使用场景而定。

本实施例通过语音和视频对用户进行双重实时监控，一旦识别出用户发出求助声音或摆出求助姿势，则自动通过对讲设备进行求助信息的传达，无需操作语音通话设备表达求助需求，提高了用户求助的便捷性和自动化程度，使得用户身边无需24小时设专人看守，便于行动不便的老人以及卧病在床的病人求助信号能够及时被捕获并发出，避免耽误病人发病时的治疗及老人需求的满足。

如图2所示，在一种实施方式中，声音识别分类模块包括：语音分割子模块和语音分类子模块。

语音分割子模块用于对声音信息进行分割得到多个有声段，也就是将有声音的片段从整段的声音信息中提取出来，作为单元音分类的输入。有声段是指连续的单元音发音，有声段的发音时长通常在一定时长以上，例如发音时长在1秒以上。

语音分类子模块用于对语音分割子模块分割得到的有声段按照单元音进行分类，也就是将有声段分为单元音a、o、e、i、u、ü中的其中一种。

在一种实施方式中，语音分割子模块包括：能量及过零计算单元、起始点判定单元、结束点判定单元和语音分割单元。

由于语音中的有声段和无声段的短时能量区别很大，短时过零率的差别也比较明显，因此可以通过短时能量和短时过零率的双门限法来进行语音分割。

在能量规律表现上，声音信息中的正常有声语音和噪声、无声之间存在较大区别，无声段和噪声段的短时能量较小，有声段的短时能量较大，因此起始点判定单元可以利用语音信号的短时能量大小来判断连续发声部分的起始点。

能量及过零计算单元用于计算声音信息中每一帧的短时能量和短时过零率，作为起始点判定单元和结束点判定单元判断起始点和结束点的依据。

具体的，能量及过零计算单元在计算声音信息中语音信号的短时能量时，需要对语音信号进行分帧处理，计算语音信号每一帧的能量，在短时能量中，“短时”指的就是一帧语音信号。对某一个语音信号，其在n时刻的短时能量为：

其中，h(n)＝ω²(n)，ω(n)为窗口函数，E_n是语音信号从n时刻开始加上窗口函数后的短时能量。h(n)的长度取值通常为基音周期的若干倍数，若h(n)较长，则E_n随时间的变化则会较小，此时窗函数h(n)对语音信号的平滑处理较强；若h(n)较短，则窗函数h(n)对语音信号的平滑处理较弱，振幅信息则会较多的保留。进一步的，窗函数可以选用汉明窗，上述分帧处理的帧长可以选用0.02秒。

在短时过零率中，“短时”同样指的是一帧语音信号，过零率指的是一段语音信号在时域波形表示中信号穿过零电平线的次数。本系统中，语音信号是离散的，而在离散的语音信号的时域表示中，信号相邻的两个电平取值点的符号若不同，则该处被视为语音信号的过零。语音信号的短时过零率计算公式为：

其中，sgn[·]为符号函数。

另外，语音分割子模块还为短时能量预先设置有两个大小不同的阈值，其中取值较高的阈值为高能量阈值，取值较低的阈值为低能量阈值。其中，短时能量的低能量阈值对语音信号的变化相对敏感，高能量阈值用于监测语音信号比较明显的变化。同时，语音分割子模块还为短时过零率预先设置有一个过零阈值。通过这三种阈值来辅助判断有声段的起始点和结束点，具体详见后续的阈值起始条件和阈值结束条件。

在计算出语音信号在当前帧f1的短时能量和短时过零率之后，起始点判定单元判断两者的数值大小与相应阈值之间的关系。

起始点判定单元用于在基于能量及过零计算单元算出的短时能量和短时过零率判断出当前帧f1满足阈值起始条件的情况下，也就是在当前帧f1的短时能量超过高能量阈值时，或者在当前帧f1的短时能量超过低能量阈值且短时过零率超过过零阈值时，对该当前帧f1进行起始标记，表示该当前帧f1为一个可能的进入有声段的起始端点。并在该当前帧f1之后的一定数量的帧(例如3帧)均满足阈值起始条件的情况下，判定该当前帧f1为有声段的起始点，即起始端点，在该3帧中的任一帧无法满足阈值起始条件的情况下，消除该当前帧f1的起始标记。其中，阈值起始条件为：短时能量超过高能量阈值，或者短时能量超过低能量阈值且短时过零率超过过零阈值。

结束点判定单元用于在起始点判定单元判定出起始点之后，并在基于能量及过零计算单元算出的短时能量和短时过零率判断出当前帧f1满足阈值结束条件的情况下，也就是在当前帧f1的短时能量低于低能量阈值，或者在当前帧f1的短时过零率低于过零阈值时，对该当前帧f1进行结束标记，表示该当前帧f1为一个可能的退出有声段的结束端点。并在该当前帧f1之后的一定数量的帧(例如3帧)均满足阈值结束条件的情况下，判定该当前帧f1为有声段的结束点，即结束端点，在该3帧中的任一帧无法满足阈值结束条件的情况下，消除该当前帧f1的结束标记。其中，阈值结束条件为：短时能量低于高能量阈值，或者短时过零率低于过零阈值。

语音分割单元用于依据起始点判定单元得到的起始点和结束点判定单元得到的与起始点相应的结束点从声音信息中提取出有声段数据。

在一种实施方式中，语音分类子模块包括：梅尔特征提取单元、匹配距离计算单元和单元音分类单元。

梅尔特征提取单元用于基于梅尔频率倒谱系数提取经过语音分割子模块分割得到的有声段语音中每帧的梅尔特征向量。

梅尔频率倒谱系数(Mel-scaleFrequencyCepstral Coefficients，MFCC)是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，其与频率的关系通过以下公式近似表示：

在MFCC特征向量提取中，先对语音信号进行预加重，突出语音信号的高频部分，消除声带和嘴唇效应；然后通过汉明窗进行分帧加窗，并进行快速傅里叶变换(Fast FourierTransform，FFT)将语音信号转换到频率域；之后实施三角带通滤波以进行平滑处理和消除谐波；最后利用动态差分提取的是一阶差分和二阶差分以描述语音的动态特性。每一帧语音的特征向量维度是13，由12个MFCC系数和帧能量参数组成。

相同单元音发音的MFCC特征具有一定的相似性，因此可以对采集的单元音的MFCC特征和单元音模板的MFCC特征进行分析和匹配来实现语音分类。

匹配距离计算单元用于以待分类的有声段单元音语音的梅尔特征向量帧数I和单元音模板的梅尔特征向量帧数J为坐标轴，基于动态时间规整算法(Dynamic TimeWarping，DTW)算出从(1，1)坐标到(I，J)坐标的累计匹配距离和平均匹配距离。

假设待分类的单元音语音一共有I帧的特征向量，单元音模板有J帧特征向量，在分割之后的单元音语音(语音分割子模块得到的有声段)的时间长度和单元音模板的时间长度不一致时，也就是在I≠J时，确定出能将待分类的单元音语音的时间轴动态规划到单元音模板的时间轴的动态规整关系函数，用j＝ω(i)来表示这个关系函数，函数满足：

其中，d[Q(i)，M(ω(i))]为待分类单元音语音的第i帧特征向量和单元音模板的第j帧特征向量之间的距离，D是动态规整关系函数最优表示时求得的两个矢量之间的距离。

以I为横轴，以J为纵轴，构建网格型坐标系，其中的一个节点可以表示待分类单元音语音的某一个帧和单元音模板的某一帧的交叉。动态规整关系函数从(1,1)坐标点出发，搜索一条以(I,J)坐标点为结束点的通过交叉点路径。在路径搜索过程中，会将路径约束在一个相邻边斜率为2和0.5的平行四边形中。路径上的交叉所在的帧点就是用于计算待分类的单元音语音和单元音模板距离的帧。

代价函数公式为：

D[c(k)]＝d[c(k)]+minD[c(k-1)]

其中，c(k)代表第k个匹配对，c(k)＝(i(k)，j(k))，d[c(k)]为第k处的代价函数。以此可以求得最小的代价函数。

对于C＝{c(1),c(2),…,c(K)}进行以下四项约束：

1、i(k)≥i(n-1)，j(k)≥j(n-1)，以进行单调性约束，使路径必然从(1,1)坐标起始，到(I,J)坐标结束；

2、i(1)＝i(1)＝1，i(k)＝I，j(k)＝J；

3、i(k)-i(k-1)≤1，j(k)-j(k-1)≤1，以保证连续性；

4、|i(k)-j(k)|≤M，其中M为分帧的时间窗函数宽度。

从(1,1)到(I,J)的最佳路径的匹配距离

h(i，j)＝min_{(i′，j′)→(i，j)}{h(i′，j′)+d(m_i，q_j)W_k}

其中，(i′，j′)→(i，j)标识路径，W_k为局部权值。

在基于动态时间规整算法的识别过程中，匹配距离计算单元令i(1)＝i(1)＝1，h(1，1)＝2d(m₁，q₁)，则：

然后匹配距离计算单元通过以下公式计算累计匹配距离：

W_k(1)＝W_k(3)＝1，W_k(2)＝2

h(i，j)＝min{h(i-1，j)+d(m_i-1，q_j)W_k(1)；h(i-1，j-1)

+d(m_i，q_j)W_k(2)；h(i，j-1)+d(m_i，q_j)W_k(3)；}

i＝2，3，…，I；j＝2，3，…，J；(i，j)∈Reg

然后匹配距离计算单元通过以下公式计算平均匹配距离：

D＝h(I，J)/(I，J)

单元音分类单元用于基于上述匹配距离计算单元算出的累计匹配距离和平均匹配距离选择最佳路径，即用待分类的单元音语音和所有单元音模板在最佳路径上的匹配距离的大小判断待分类语音所属的分类，匹配距离最小的单元音模板就是待分类语音所属的单元音类别，将单元音语音归入a、o、e、i、u、ü单元音中的其中一种。

利用DTW的匹配距离算法对待分类的单元音语音的时间进行动态调整，通过将其时间轴扭曲，进行不均匀的径计算，使得时间长度不相同的单元音模板和待分类语音的特征向量可以进行规整的累计匹配距离的比较和计算，并将累计距离最小的单元音模板作为待分类语音的匹配结果，解决了由于分割之后的单元音语音时间长度有一定的随机性，导致其和单元音模板的时间长度不统一，无法进行语音之间的匹配计算的问题，保证待分类的发音语音和单元音模板之间的匹配最佳，减小因为时差而产生的误差，提高分类的准确率。

在一种实施方式中，用户类型判断模块包括：语音特征提取子模块和语音特征识别子模块。

语音特征提取子模块用于提取有声数据的语音特征量，语音特征量包括基频、周期、峰峰值和谐波信噪比特征量。有声数据可以采用前述经过单元音分类的有声段。周期特征量可以是指周期平均绝对差和平均周期的比值，峰峰值特征量可以是相邻周期幅度差的平均绝对差和平均幅度的比值。

语音特征识别子模块用于将语音特征提取子模块提取的语音特征量输入三支决策分类器进行分类，依据分类结果判断出用户的人员类别。三支决策将传统的正域和负域二支决策语义拓展为正域、边界域、负域的三支决策语义。在实际决策问题中，可供决策的参考信息通常有限，因此在有限的信息资源的条件下，阈值决策成为折中选择。随着获取信息的不断增加和决策依据的完备化，决策结果渐趋明晰，决策实现了从粗粒度到细粒度的转变，延迟决策也将转化为正域或负域的确定决策，这种从粗粒度到细粒度的决策过程称为三支决策。

可以理解的是，特征识别也可以采用k-近邻算法进行分类识别。

在一种实施方式中，语音特征提取子模块包括：基频特征计算单元、周期特征计算单元、峰峰值特征计算单元和谐波信噪比计算单元。

基频特征计算单元用于利用截断函数对经过单元音分类后的有声段进行三电平削波，得到只包含具有周期性峰值的主峰的语音信号，并利用自相关函数计算每一帧单元音语音的自相关函数值，进而算出基音频率特征量。

首先，基频特征计算单元对语音信号进行三电平削波。三电平削波就是用截断函数将单元音语音信号的峰值规整为一个只有0电平，1电平和-1电平的语音信号。截断函数如下：

其中，M为阈值，其取值决定了削波结果。通常将M值设置为语音信号最大峰值的40％～70％，例如选取60％，x(n)为语音信号在n点的峰值。

由于较短时间内语音信号可以认为是周期的，三电平削波可以只保留语音信号具有周期性峰值的主峰，去除其他峰值也较大的非主峰，防止其干扰计算语音信号的周期值。通过对语音信号进行三电平削波可以减少后续自相关函数的计算量。

然后，基频特征计算单元对削波后的单元音语音信号进行自相关函数值的计算。自相关函数如下：

其中，N为窗长，R(k)为位移为k时的自相关函数，k＝0时的自相关函数R(0)最大。若语音信号满足T为周期的周期性，则R(k)＝R(k+T)。

算出自相关函数值后，基频特征计算单元用自相关函数第一次达到最大时的位移k值除以每帧的采样点数来表示该帧信号的周期M，再计算出M的倒数，最终得到单元音语音信号的基音频率。

可以理解的是，在上述规整处理之前，基频特征计算单元可以先对单元音语音进行分帧处理，对语音信号进行加时间窗处理，通过该时间窗在时间轴上的滑动，截取时间窗长度(例如0.02秒的矩形窗)内的语音进行分析，以将离散的语音信号分成由若干采样点组成的若干个语音子段，其中每一子段为该语音的一帧。然后，基频特征计算单元对每帧语音进行滤波，消除其中的噪声部分。在这之后进行语音信号峰值的规整处理。

周期特征计算单元用于通过以下公式计算经过单元音分类后的有声段的周期平均绝对差和平均周期的比值特征量：

其中，N为窗长，T_i为语音信号第i帧的基音周期。

在单元音语音中，和周期相关的特征包括Jitter(absolute)特征、Jitter(relative)特征、RAP特征和DDP特征等，能够反映出单元音语音在连续的几个周期上的相关程度。其中，Jitter(absolute)特征为相邻的周期的绝对差的平均值，Jitter(relative)特征为上述平均值除以平均周期的结果，RAP特征为连续的多个周期内的每一个周期取平均值，求出的平均值的相对变化，DDP特征为单元音语音的周期平均绝对差和平均周期的比值。通过对基音频率序列求倒数即可得到基音周期序列。

峰峰值特征计算单元用于通过以下公式计算经过单元音分类后的有声段的相邻周期幅度差的平均绝对差和平均幅度的比值特征量：

其中，A为一帧语音信号的峰峰值，A＝x(m)-x(n)，x(m)为该帧语音信号在m点处达到最大的值，x(n)为该帧语音信号在n点处达到最小的值。

在单元音语音中，和峰峰值相关的特征包括Shimmer(db)特征、Shimmer(relative)特征、APQ特征和DDA特征等，上述和峰峰值相关的特征能够反映出一段连续的单元音语音在连续的几个周期上的峰值相关程度。Shimmer(db)特征为相邻周期的峰峰值变化的平均值，Shimmer(relative)特征为相邻周期的峰峰值差值的绝对值除以平均振幅，APQ特征为连续的几个周期内的峰峰值变化的平均值除以这几个周期的平均幅度得到的值，DDA特征为相邻周期幅度差的平均绝对差和平均幅度的比值。

由于老人和病人的发声与常人存在一定不同，发出的声音中包含的噪声成分会较常人多一些，因此可以通过计算谐波信噪比来作为声音识别的参考依据，来判定用户声音是否为老年人或病人。谐波信噪比计算单元用于首先求出语音序列中第0点(位移为0)的自相关函数值R(0)，以及语音序列中第0点外第一个最大自相关函数值R(τ)，然后计算信号谐波

以及计算噪声γ_N＝1-γ_H，最后通过以下公式计算经过单元音分类的有声段的谐波信噪比：

并算出每一帧语音信号的谐波信噪比的算术平均值，得到谐波信噪比特征量。

在一种实施方式中，语音特征识别子模块包括：判断区间划分单元、数量占比计算单元、三支决策分类单元和人员类别判断单元。

假设采集到了用户User的一段声音信息，语音分割子模块对其进行分割得到N个有声段，设S＝{s₁，…，s_n}为有声段集合。然后语音分类子模块将这n个有声段分类归入a、o、e、i、u、ü这6种单元音类别中，该6种单元音类别包括的被分类的有声段数量依次为N₁，N₂，N₃，N₄，N₅，N₆，其数量之和等于n。语音特征提取子模块对这n段有声段进行特征提取，得到这n段有声段各自的基频特征F_f、周期特征F_DDP、峰峰值特征F_DDA和谐波信噪比特征F_HNR这4种特征。

判断区间划分单元用于以有声数据的语音特征量为中心，以设定数值为半径在论域内划分出判断区间。

以a发音为例，假设用户User的各有声段中被归入a单元音类别的包括s1，则a发音的特征数组为FA₁＝{F_1f，F_1DDP，F_1DDA，F_1HNR}。对于特征数组中的基频特征F_1f来说，以该数据为中心，并以设定数值r为判断半径，在论域U内划分判断区间R，R＝[F_1f-r，F_1f+r]。

如图3所示，先将高维数据降维映射到二维平面上，降维映射后，每一个数列就表示一个特征，判断区间R也变为一维，即图中的空心大圆。图中四个实心小圆分别代表上述特征数组中的四个特征，如第1列为基频特征F_1f，s1的基频特征F_1f的数值在图中表示为第1列数据中的实心小圆，而图中的实心矩形、空心三角和叉形符号分别代表相应特征下预先采集并作为语音样本数据的各人员类别数据，例如分别代表健康人、老人、病人的特征数据，也就是说，图中显示出以6组健康人数据、5组老人数据和5组病人数据作为语音样本数据，但可以选用更多的语音样本数据，以增加判断准确性。其中，人员类别集合X＝X₁，X₂，X₃，分别代表健康人、老人、病人。

可以理解的是，病人的语音样本数据能够反映通常情况下病人发出的求助声的特点，老人的语音样本数据能够反映通常情况下老人发出的求助声的特点。人员类别也可以多于三种，例如包括多种不同类型发音的病人的求助声和老人的求助声。

数量占比计算单元用于计算判断区间划分单元划分出的判断区间内，分别属于各人员类别的相应样本特征量的数量，进而算出各人员类别的样本特征量数量所占比值。

以图3为例，第1列的基频特征F_1f中，在判断区间内存在4个病人的样本特征数据，未存在健康人和老人的样本特征数据，因此属于X3类的样本数目c3＝4，属于X1类和X2类的样本数目c1＝c2＝0，因此在基频特征F_1f上，比值

ratio1＝ratio2＝0。需要说明的是，图3中未示出峰峰值特征F_DDA和谐波信噪比特征F_HNR的样本数列。

三支决策分类单元用于分别对各种类语音特征量的比值的大小进行判断。

当存在使比值为1的人员类别时，说明对于该人员类别，判断区间R为三支决策中的正域，并且判定有声数据(也就是经过单元音分类的有声段)在相应的语音特征量种类上属于使比值为1的相应人员类别。例如，可以判定在基频特征F_1f上，有声段s1属于病人。

当存在使比值为0的人员类别时，说明对于该人员类别，判断区间R为三支决策中的负域，并且判定有声段在相应的语音特征量种类上不属于使比值为0的相应人员类别。例如，可以判定在基频特征F_1f上，有声段s1不属于健康人和老人。

当比值大于0且小于1时，说明对于该人员类别，判断区间R为三支决策中的边界域，也就是无法立即判断出所属人员类别，因此在相应语音特征量种类上延迟对有声段的人员类别的判断，并延迟到由人员类别判断单元负责进行直接的汇总性类别判断。例如，图3中第2列中周期特征F_DDP的特征值对应的判断区间内，同时包含有2个健康人样本特征数据、5个老人样本特征数据和3个病人样本特征数据，因此ratio1＝0.2，ratio2＝0.5，ratio3＝0.3，此时无法立即判断出所属人员类别。

人员类别判断单元用于对每种语音特征量在各人员类别上的比值进行求和，依据每种语音特征量在各人员类别上的比值之和最大值确定出每种语音特征量的人员类别判断结果，并对每种语音特征量的人员类别判断结果的类别数量进行统计，将类别数量最大值对应的类别作为有声段的人员类别，进而得到用户的人员类别。

例如，有声段s1的六种发音在各自的四种语音特征中，基频特征F_1f在六种发音中属于病人的比值分别为：{1，0.2，1，1，0.5，1}，共计4.7；属于老人的比值分别为：{0，0.5，0，0，0.5，0}，共计1；属于健康人的比值分别为{0，0.3，0，0，0，0}，共计0.3。因此在基频特征F_1f上，判定有声段s1对应的用户属于病人。剩余的三种语音特征依此类推，均以各人员类别中比值之和最高的类别为用户的人员类别。最终四种语音特征分别判定的类别是：{病人，病人，老人，健康人}。被判定为病人的数量最多，为2个，因此最终判定用户User的有声段s1为病人的发声。一旦判断出病人的发声，或者老人的发声，则会触发求助触发模块开启对讲设备。

可以理解的是，病人的人员类别和老人的人员类别均属于需要对照看人员进行呼叫的类别，因此在判定结果为病人或老人的情况下，求助触发模块均会触发对讲设备开启。而在人员类别很多的情况下，最终四种语音特征分别判定的类别可能各不相同，例如{第一类病人，第四类老人，第三类老人，第六类健康人}，此时可以将判定的类别中同样是老人的第四类病人和第三类病人合并为老人类，病人和健康人同理，这样即可使得判定的类别存在相同，便于进行最终类别的判定。

如图4所示，在一种实施方式中，用户动作提取模块包括：自相关性计算单元、运动速度计算单元和图像特征提取单元。用户动作提取模块结合老年人及病人的上肢运动速度特征和三维运动形状的时空梯度自相关特征，计算出边缘梯度方向空间分布与梯度之间的自相关性，将时空自相关特征与视频运动特征相结合，使特征识别具备相应的数据条件。

自相关性计算单元用于算出图像区域的梯度大小和梯度方向角，进而得到像素点的梯度在图像区域内的自相关性。

通过梯度自相关法能够获取平移不变的图像特征。假定I表示一个图像区域，r＝(x,y)表示图像区域I中的一个位置向量，

表示像素点处的梯度，则梯度大小

梯度方向角度

其中，

为常数。

像素点r的梯度在局部领域内的自相关性函数R可通过该点梯度方向向量f以及梯度大小n计算得出，计算公式为：

其中，a_i＝a₁，…，a_N为其他像素点至参考点r的位移向量，

为梯度方向向量f的第d_i个元素，d_i为梯度方向向量元素个数，d_i＝d₀，…，d_N，

为像素点的梯度向量函数，N为参数，ω为权重系数。

上述自相关性函数R的计算公式表示两种梯度相关性：从位移向量a_i得到的空间相关性和从元素值

得到的方向相关性。

时空梯度的N阶自相关函数可利用二维的梯度自相关函数进行计算，具体计算公式为：

其中，w为时空区域内的权重系数值，m(r)为时域内的梯度向量，h(r)为梯度编码向量，为向量张量外积。

运动速度计算单元用于构建图像区域的图像矩，基于图像矩算出运动目标重心，进而算出人体运动速度特征向量。

老年人和病人的不同种类的下肢运动行为不仅在时空运动形状上的产生不同，也在运动速度特征上存在差异。当图像在各个方向发生转换时，图像的重心依然不发生改变。因此，能够求解出运动图像中的人体重心，依据重心点的移动位置计算垂直和水平方向的速度特征值，将该速度特征作为运动图像中的运动特征。具体的，定义图像矩为：

其中，x_order代表像素点x的矩，y_order代表像素点y的矩，I(x，y)为像素点(x,y)处的像素值。

通过以下计算公式算出运动目标中心

其中，M_1，0为x＝1阶次图像矩，M_0，1为y＝1阶次图像矩，A为人体所在图像域面积，A＝M_0，0＝∑_x，y[I(x，y)]，M_0，0为图像零阶次。第k帧图像中人体中心位置是

垂直方向的瞬时速度V_yk、水平方向的瞬时速度V_xk和总速度V_k计算公式如下：

其中，g为人体行为数据集的帧率，t为两帧图像的时间距离，t＝1/g，为第k+1帧图像的人体重心位置。

图像特征提取单元用于利用预先构造的完备字典中的单词表征图像特征向量并进行数据编码，利用时域金字塔匹配法对编码后的特征向量进行上肢动作运动图像特征参数的提取与识别。通过编码后的向量提取出视频动作的时域特征。其中，完备字典通过训练图像特征数据构造得到，训练图像包括人体上肢骨架特征等。

人体上肢动作的视频图像数据是典型的时间序列数据，基于人体上肢骨架局部特征，利用训练数据能够构造完备字典，完成数据编码。

构造字典可以通过聚类算法实现，例如采用k-means算法。完备字典构造完成后，获得能够表征训练数据的整个特征空间超完备的基，所有数据通过构造基向量来表征数据。利用构造字典中的单词表征处理特征向量xi，并选用局部约束线性编码模型，则特征向量编码集合C为：

其中，c为集合C中的特征向量，c_i为集合中第i个特征向量，D为构造的字典集合，λ为常量，l_i为局部性质变量，I^T为约束项参数。

时间域金字塔匹配法是将原始数据场景引入到空间域金字塔场景中，再将视频人体上肢动作识别应用到场景中与时间域金字塔进行匹配。

设定需进行对比的两个特征集合为X和Y,针对特征集合存在不同尺度的分割，0～R是分割尺度的层级数。假设

和分别是第R层两个特征向量X和Y的直方图特征，则分布于区域内的两个向量集合匹配数据交集点为：

其中，2^dl为分割区域的数据量，

和

分别为两个向量集合在区域i的分布数量。通过不同尺度对特征向量进行分割操作，获取不同时间维度上的特征向量，将其通过时间域金字塔匹配，得到人体上肢运动参数特征向量。

在一种实施方式中，在用户类型判断模块同时比对语音和图像的情况下，在任一项比对结果表示用户为老人或病人时，用户类型判断模块判定用户为老人或病人。假设人员类别只有老人、病人和健康人三种，则只有在用户类型判断模块依据语音方面和图像方面的比对结果均判定为用户为健康人时，求助触发模块不会开启对讲设备，若语音方面判定用户为老人或病人，或者图像方面判定用户为老人或病人，则求助触发模块会开启对讲设备。这样可以避免误判定为健康人的一方为误判，最大程度避免耽误到用户的求助响应。

在本文中，“第一”、“第二”等仅用于彼此的区分，而非表示它们的重要程度及顺序等。

本文中的模块、单元的划分仅仅是一种逻辑功能的划分，在实际实现时可以有其他的划分方式，例如多个模块和/或单元可以结合或集成于另一个系统中。作为分离部件说明的模块、单元在物理上可以是分开的，也可以是不分开的。作为单元显示的部件可以是物理单元，也可以不是物理单元，即可以位于一个具体地方，也可以分布到网格单元中。因此可以根据实际需要选择其中的部分或全部的单元来实现实施例的方案。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于老人及病患照料的自动语音视频识别对讲系统，其特征在于，包括：

2.如权利要求1所述的系统，其特征在于，所述声音识别分类模块包括：

语音分类子模块，用于对所述有声段按照单元音进行分类。

3.如权利要求2所述的系统，其特征在于，所述语音分割子模块包括：

4.如权利要求2或3所述的系统，其特征在于，所述语音分类子模块包括：

5.如权利要求1所述的系统，其特征在于，所述用户类型判断模块包括：

6.如权利要求5所述的系统，其特征在于，所述语音特征提取子模块包括：

其中，N为窗长，T_i为语音信号第i帧的基音周期；

其中，A为一帧语音信号的峰峰值，A＝x(m)-x(n)，x(m)为该帧语音信号在m点处达到最大的值，x(n)为该帧语音信号在n点处达到最小的值；

7.如权利要求5或6所述的系统，其特征在于，所述语音特征识别子模块包括：

8.如权利要求1所述的系统，其特征在于，所述用户动作提取模块包括：

9.如权利要求8所述的系统，其特征在于，所述图像特征提取单元通过聚类算法构造所述完备字典。

10.如权利要求1所述的系统，其特征在于，在所述用户类型判断模块同时比对语音和图像的情况下，在任一项比对结果表示用户为老人或病人时，所述用户类型判断模块判定用户为老人或病人。