CN110634485B

CN110634485B - 语音交互服务处理器及处理方法

Info

Publication number: CN110634485B
Application number: CN201910984416.4A
Authority: CN
Inventors: 黄海; 刘佳; 丁家旺; 李永成; 陈静
Original assignee: Shenggeng Intelligent Technology Xi'an Research Institute Co ltd
Current assignee: Shenggeng Intelligent Technology Xi'an Research Institute Co ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2023-06-13
Anticipated expiration: 2039-10-16
Also published as: CN110634485A

Abstract

本发明实施例提供一种语音交互服务处理器及处理方法，所述处理器包括主控模块、拾音模块和语音识别模块，主控模块，用于控制所述拾音模块和所述语音识别模块的处理动作；拾音模块，用于获取采集空间内服务人员和被服务人员之间的交互语音数据；语音识别模块，用于根据所述交互语音数据生成对应于所述服务人员的服务结果。本发明实施例提供的语音交互服务处理器及处理方法，通过采集服务人员与被服务人员之间的交互语音数据，并对交互语音数据进行分析处理得到对应于服务人员的服务结果，从而达到对服务人员的服务状态监控的目的，也为服务行业对服务人员的管理和规范提供重要参考及依据。

Description

语音交互服务处理器及处理方法

技术领域

本发明涉及信息处理技术领域，尤其涉及一种语音交互服务处理器及处理方法。

背景技术

在服务行业，目前主要以按键式或触屏式服务评价器来收集客户满意度，只需客户动动手指就能表达好恶，听起来很方便快捷，但实际中却存在很多问题。很多客户为了避免麻烦，往往都是结束服务后不会在评价器上做出评价，服务人员也不会提醒他们进行评价，即便是提醒客户，客户有时也不会去做评价。甚至一些客户根本就不知道有评价器，或者知道有评价器却没习惯去使用它。对于服务人员而言，客户的评价结果去向不得而知，而且相关部门也没有设置奖罚措施，以至于服务人员普遍对评价器不够重视。此外，管理部门仅通过客户在评价器上的选择，很难对服务人员做出明确的评价结果以及做出奖励或惩罚，因为无法确保满意率和不满意率的真实性。整个评价机制和监控系统的缺失，使得服务评价器形同虚设，根本没有发挥它应有的作用。

综上，目前的服务评价器从服务方到客户，再反馈给服务方的过程存在诸多问题，更多地只是流于形式。只是简单地收集客户满意度数据，无法协助管理部门对服务人员在服务过程中的行为进行实时管控。

发明内容

针对现有技术存在的问题，本发明实施例提供一种语音交互服务处理器及处理方法。

本发明实施例提供一种语音交互服务处理器，包括主控模块、拾音模块和语音识别模块，其中：

主控模块，用于控制所述拾音模块和所述语音识别模块的处理动作；

拾音模块，用于获取采集空间内服务人员和被服务人员之间的交互语音数据；

语音识别模块，用于根据所述交互语音数据生成对应于所述服务人员的服务结果。

可选地，所述语音交互服务处理器还包括语音处理模块，所述语音处理模块设置在所述拾音模块和所述语音识别模块之间，用于根据所述交互语音数据获得交互语音增强数据；

相应地，所述语音识别模块，用于根据所述交互语音增强数据生成对应于所述服务人员的服务结果。

可选地，所述拾音模块包括多路麦克风，分别设置在所述采集空间内的多个采集位置上，用于获取采集空间内服务人员和被服务人员之间的多路交互语音数据。

可选地，所述语音处理模块包括：

降噪单元，用于对多路交互语音数据进行降噪处理；

身份判别单元，用于根据降噪后的多路交互语音数据进行身份判别，获得所述交互语音数据中语音片段对应的身份信息；

混音单元，用于将降噪后的多路交互语音数据进行混音处理获得在单音音轨上的交互语音数据；

回声处理单元，用于对单音音轨上的交互语音数据进行回声对消及抑制处理；

输出单元，用于将回声对消及抑制处理后的单音音轨上的交互语音数据和所述身份信息输出。

可选地，所述身份判别单元具体用于：

根据降噪后的多路交互语音数据分帧进行语音活动检测，获得检测结果；

若所述检测结果为是，则根据多路交互语音数据计算得到能量差；

根据所述能量差与阈值进行比较，获得比较结果，并根据比较结果获得所述交互语音数据中语音片段对应的身份信息。

可选地，所述语音识别模块具体用于：

根据单音音轨上的交互语音数据进行特征提取获得交互语音特征；

根据所述交互语音特征进行关键字匹配获得对应于所述身份信息的交互语音关键字；

根据所述交互语音关键字与场景模型生成对应于所述服务人员的服务结果。

可选地，所述语音交互服务处理器还包括广播模块和存储模块；

广播模块，用于将所述服务结果进行广播；

存储模块，用于将所述服务结果进行存储。

可选地，所述语音交互服务处理器还包括传输模块，用于将所述服务结果发送给后台服务器、用于接收所述后台服务器发送的更新数据包，以及用于接收所述被服务人员的评价信息；

所述主控模块，还用于根据所述服务结果和所述评价信息生成服务分值。

本发明实施例提供一种基于上述语音交互服务处理器的语音交互服务处理方法，包括：

使主控模块控制所述拾音模块和所述语音识别模块的处理动作；

使拾音模块获取采集空间内服务人员和被服务人员之间的交互语音数据；

使语音识别模块根据所述交互语音数据生成对应于所述服务人员的服务结果。

可选地，还包括：

使语音处理模块根据所述交互语音数据获得交互语音增强数据；

使语音识别模块根据所述交互语音增强数据生成对应于所述服务人员的服务结果。

本发明实施例提供的语音交互服务处理器及处理方法，通过采集服务人员与被服务人员之间的交互语音数据，并对交互语音数据进行分析处理得到对应于服务人员的服务结果，从而达到对服务人员的服务状态监控的目的，也为服务行业对服务人员的管理和规范提供重要参考及依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明语音交互服务处理器实施例结构图；

图2为本发明拾音模块(双麦克风)应用于出租车运输中的设置示意图；

图3为本发明出租车内部双麦克风安装位置示意图；

图4为本发明双麦克风下的语音处理模块的处理流程框图；

图5为本发明拾音模块(多麦克风)应用于出租车运输中的设置示意图；

图6为本发明出租车内部多麦克风安装位置示意图；

图7为本发明语音交互服务处理方法实施例流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在社会生活中，需要根据双方交谈的内容对某一方进行各种评价。尤其是服务行业，如运输业、金融业、餐饮业、企事业等。无论是哪种服务行业，都会存在服务人员与被服务人员的对接，如出租车上的司机与乘客的对接、银行专员与储户的对接、企业员工与到访客户的对接。存在对接，便存在服务人员与被服务人员之间的对话。故为了更好对服务人员的服务状态进行监控，本发明实施例提供一种语音交互服务处理器，如图1所示，所述语音交互服务处理器包括主控模块11、拾音模块12和语音识别模块13，其中：

主控模块11，用于控制所述拾音模块12和所述语音识别模块13的处理动作；

拾音模块12，用于获取采集空间内服务人员和被服务人员之间的交互语音数据；

语音识别模块13，用于根据所述交互语音数据生成对应于所述服务人员的服务结果。

针对上述语音交互服务处理器，需要说明的是，在本发明实施例中，所述处理器用于根据服务人员和被服务人员之间的对话内容完成对所述服务人员的服务状态的评判。为此，拾音模块需采集服务人员和被服务人员之间的交互语音数据。在这里，交互语音数据为服务人员和被服务人员之间的对话。服务人员在服务被服务人员时，均会在某个空间内存在交谈。如出租车司机与乘客在车厢内及车厢附近存在交谈，银行人员与储户在柜台玻璃两侧存在交谈，企业员工与到访客户在接待室存在交谈。为此，拾音模块可获取预设的采集空间内服务人员和被服务人员之间的交互语音数据。一方面可限制采集空间的大小，另一方面可使得采集到的交互语音数据避免过大的环境干扰。

拾音模块将采集到的交互语音数据发送给语音识别模块。语音识别模块需要对交互语音数据进行分析处理，从而可生成对应于所述服务人员的服务结果。在这里，服务结果可以指对服务人员的综合评分(即分值)、也可以指服务人员在服务过程中的不合理场景，总之可算是对服务人员整个服务过程中的状态的判定。如对应于出租车司机的服务结果可以是“拒载乘客”，对应于银行专员的服务结果可以是“态度傲慢”，对应于企业员工的服务结果可以是“谈合作失败”等，在此不一一举出。

主控模块需控制所述拾音模块和所述语音识别模块的处理动作，该处理动作为拾音模块的采集动作和语言识别模块的分析动作。该主控模块可对存储相应的算法及规则，用于向所需算法及规则的模块下发，供这些模块完成对应的处理动作。该主控模块可对拾音模块和语音识别模块进行开启及关闭。

本发明实施例提供的一种语音交互服务处理器，通过采集服务人员与被服务人员之间的交互语音数据，并对交互语音数据进行分析处理得到对应于服务人员的服务结果，从而达到对服务人员的服务状态监控的目的，也为服务行业对服务人员的管理和规范提供重要参考及依据。

在上述实施例的基础上进一步的实施例中，继续参照图1所示结构图，所述语音交互服务处理器还包括语音处理模块14，所述语音处理模块14设置在所述拾音模块12和所述语音识别模块13之间，用于根据所述交互语音数据获得交互语音增强数据。

需要说明的是，由于环境中其他杂音的影响，因此，需要对获取到的交互语音数据进行信号增强处理，以得到交互语音增强数据。对此，语音识别模块在处理过程中，则需根据所述交互语音增强数据生成对应于所述服务人员的服务结果。

在上述实施例的基础上进一步的实施例中，所述拾音模块包括多路麦克风，分别设置在所述采集空间内的多个采集位置上，用于获取采集空间内服务人员和被服务人员之间的多路交互语音数据。

需要说明的是，为了更好在采集空间中采集服务人员和被服务人员之间的对话语音，可采用麦克风阵列采集方式，在采集空间内的多个采集位置上安装上麦克风，可采集多路交互语音数据。

以出租车运输为例，需要采集乘客和司机之间的对话。由于车厢空间较小，因此，可采用双麦克风对语音进行采集。如图2所示为拾音模块应用于出租车运输中的设置示意图和图3所示为出租车内部双麦克风安装位置示意图。从图2和图3中可以看出，麦克风1代表指向性麦克风，与司机较近，麦克风2代表全向性麦克风，与司机和乘客所坐位置均距离相当。图3中的麦克风位置便于采集司机和乘客之间的对话。

在上述实施例的基础上进一步的实施例中，所述语音处理模块包括：

降噪单元，用于对多路交互语音数据进行降噪处理；

需要说明的是，由于不同采集环境下的噪音影响，需要降噪单元分别对采集到进行降噪处理，能够有效抑制环境噪声，这样不仅能够保证后续处理运行的正确性，而且也可以保证语音识别的准确率。

语音降噪又称噪声抑制。现实生活中，实际采集到的音频通常会有一定强度背景噪音，当背景噪音强度较大时，会对语音应用的效果产生明显的影响，比如语音识别率降低，端点检测灵敏度下降等。因此，在语音的前端处理中，进行噪声抑制是很有必要的。实际系统中常用的降噪算法有：维纳滤波、谱减法、子空间方法等。

由于最终是要对服务人员的服务状态进行评定，因此，需要确定交互语音数据中各个语音片段到底是谁说的，即确定交互语音数据中语音片段对应的身份信息。故身份判别单元，用于根据降噪后的多路交互语音数据进行身份判别。

由于在整个环境中仅服务人员和被服务人员进行对话，因此无论音量是大还是小，每个麦克风均会采集到相同内容的交互语音数据。为了更加方便对交互语音数据进行处理，需要混音单元将各个交互语音数据进行混音，使所有交互语音数据合成到在单音音轨上的交互语音数据。

混音是将不同的音频流在某个节点处通过线性叠加的方法混合成一个音频流的方法，在音乐制作、多媒体会议系统等领域有广泛的应用。解决混音后采样值的溢出问题是混音算法的难点，基本解决思想是对音频信号的振幅做平滑处理。常用的混音溢出处理方法有：箝位法、平均权重法、自适应加权法等。自适应加权一般可分为强对齐权重法，弱对齐权重法和自对齐权重法。由于自对齐权重法可以动态调整衰减因子，与传统算法相比在效果上有了较大改进，且不会发生溢出现象，因而常使用在实际系统中。

由于在采集空间中可能会存在其他声音产生的回声效果，因此，需要回声处理单元用于对单音音轨上的交互语音数据进行回声对消及抑制处理，提高后续语音识别的准确率。

回声就是指说话者通过通信设备发送给其他人的语音又重新又回到自己的听筒里的现象。声学回声消除算法(Acoustic Echo Cancellation,AEC)是对扬声器信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。然后，将回声估计值从话筒的输入信号中减去，从而达到消除回声的目的。

处理后的交互语音数据需要进行后续的识别处理，因此，需要输出单元将回声对消及抑制处理后的单音音轨上的交互语音数据和所述身份信息输出。

继续以上述出租车运输为例，如图4所示为双麦克风下的语音处理模块的处理流程框图。

首先，分别对双麦克风拾取的司机、乘客说话的交互语音数据进行降噪处理，能够有效抑制车内环境噪声，如发动机噪声，胎噪，空调、车窗打开时风噪等，这样不仅能够保证后续处理的正确性，而且也可以保证语音识别的准确率。

其次，对交互语音数据进行身份判别，获取身份信息。

再次，利用自对齐权重法将来自两路麦克风降噪后的语音信号进行混音处理，整合到一个单音音轨中。自对齐权重法是现有技术，用于混音制作。

最后，对混音后的语音信号进行回声对消和回声抑制处理，以抑制车内的车载音乐，蓝牙通话，收音机等产生的回声对语音关键词识别的干扰，提高识别率。

在上述实施例的基础上进一步的实施例中，所述身份判别单元具体用于：

若检测结果为是，则根据多路交互语音数据计算得到能量差；

需要说明的是，进行身份判别之前先设置判别条件，例如能量差大于阈值则判别为服务人员，反之，则判别为被服务人员。

由于在整个交互语音数据中，会存在某些时间段服务人员和被服务人员都不说话。故需要对降噪后的多路交互语音数据分帧进行语音活动检测(即VAD检测)，语音活动检测是指在语音数据中检测语音的存在与否。若当前帧的语音活动为是，则根据多路交互语音数据计算得到能量差，即计算麦克风采集到的语音数据在相同帧下的语音能量之间的差值。

以双麦克风为例，则存在两路交互语音数据，计算两路语音数据在相同帧下的语音能量之间的差值，即能量差。然后根据能量差与阈值进行比较，获得比较结果，并根据比较结果获得交互语音数据中语音片段对应的身份信息。即确定当前帧对应的语音片段的身份信息。在双麦克风情景下，通常阈值为0。若靠近服务人员的麦克风采集的语音能量大于靠近被服务人员的麦克风采集的语音能量，此时能量差是正数，大于0，身份信息为服务人员(如司机)。若靠近服务人员的麦克风采集的语音能量小于靠近被服务人员的麦克风采集的语音能量，此时能量差是负值，小于0，身份信息为被服务人员(如乘客)。

以多麦克风为例，如图5所示为拾音模块(多麦克风)应用于出租车运输中的设置示意图和图6所示为出租车内部多麦克风安装位置示意图，出租车内设置多个麦克风(如图中为5个)，则存在多路交互语音数据，计算每个麦克风采集的语音数据在相同帧下的语音能量值，并进行排序，然后计算最大能量值和最小能量值之差，即能量差。然后根据能量差与阈值进行比较，获得比较结果，并根据比较结果获得交互语音数据中语音片段对应的身份信息。在多麦克风情景下，由于是基于最大能量值与最小能量值之间的差值，故要对阈值进行设定，此时，阈值可为某个预设值，也可为最小能量值的一定比例值或最大能量值的一定比例值，具体根据需求设定，以尽量有利于精准判定为准。若能量差大于阈值，则基于最大能量值对应的麦克风的安装位置判定身份。

对交互语音数据的身份判别，能够清楚的知晓交互语音数据中的语音片段(即说话内容)对应的身份信息。为后续识别处理，做出更精确的判断。

在上述实施例的基础上进一步的实施例中，所述语音识别模块具体用于：

需要说明的是，由于交互语音数据是音频信息，需要根据单音音轨上的交互语音数据进行特征提取获得交互语音特征，即从音频信息中筛选出清晰有用的文字信息。然后根据所述交互语音特征进行关键字匹配获得对应于所述身份信息的交互语音关键字，即从文字信息中提取中关键字，关键字可以是字、词和句。每段关键字对应相应的身份信息。最后根据所述交互语音关键字与场景模型生成对应于所述服务人员的服务结果。即将关键字从场景模型中进行匹配，匹配到具体的场景信息，作为服务结果。在这里，场景模型为预先设置的在服务过程中遇到的多种场景，每个场景对应可以作为判断依据的对话内容。交互语音关键字需与这些对话内容进行匹配。

继续以上述出租车运输为例，相关的场景定义及检测关键字如下：

不按标准收费关键词：乘客说：你打表XX钱，为啥多收钱，则司机未按标准收费。

故意绕路关键词：司机主动说：高速快城区堵，或者前面堵车建议走较远的路线；乘客说：怎么走的，路线不对，费用比以前高，你绕路了；检测到以上关键词，则判定为故意绕路。

对此，不一一举例说明。

在上述实施例的基础上进一步的实施例中，有时会存在仅仅靠语音识别输出服务结果的误判较高，此时，为了提高某些场景下服务结果的判断正确率，可以增加服务过程中的场景因素，如司机打卡、运营时间、车内有无乘客、计价器状态、车速等，进行综合逻辑判断后输出。

在上述实施例的基础上进一步的实施例中，继续参照图1所示结构图，所述语音交互服务处理器还包括广播模块15和存储模块16；

广播模块15，用于将所述服务结果进行广播；

存储模块16，用于将所述服务结果进行存储。

广播模块可为显示屏和/或播音器。

存储模块用于将服务人员的每一次服务结果进行记录，以便后续管理时做分析综合处理。

在上述实施例的基础上进一步的实施例中，继续参照图1所示结构图，所述语音交互服务处理器还包括传输模块17，用于将所述服务结果发送给后台服务器18、用于接收所述后台服务器发送的更新数据包，以及用于接收所述被服务人员的评价信息。

需要说明的是，所述语音交互服务处理器用于安置在采集空间内，因此为了便于后台人员对信息的分析，需要传输模块将所述服务结果发送给后台服务器。

为了使得语音交互服务处理器识别更加精确，需要定期对场景模型(如各麦克风通道的Codec参数配置等)、语音处理算法(如降噪、混音、身份判别、回声对消等)或语音识别算法(如关键词ASR(Automatic Speech Recognition)模型，DNN(Deep NeuralNetworks)模型等)进行升级更新，因此需要传输模块接收所述后台服务器发送的更新数据包，该更新数据包用于对应的模型及算法的升级。

被服务人员有时会对服务人员进行评价，可在评价器上点击相应的评价选项，向语音交互服务处理器发送评价信息。此时，语音交互服务处理器的主控模块还用于根据所述服务结果和所述评价信息生成服务分值，该服务分值可代表服务人员本次服务的评分。

在本发明实施例中，传输模块通过有线或无线(3G/4G技术、WIFI等)网络与后台服务器进行交互。

后台服务器对上传的服务结果进行预处理、存储，形成大数据，并对紧急状态进行响应处理。

图7示出了本发明一实施例提供的一种基于上述语音交互服务处理器的语音交互服务处理方法，包括：

S11、使主控模块控制所述拾音模块和所述语音识别模块的处理动作；

S12、使拾音模块获取采集空间内服务人员和被服务人员之间的交互语音数据；

S13、使语音识别模块根据所述交互语音数据生成对应于所述服务人员的服务结果。

还包括：

针对本发明实施例所述方法，具体实现原理在上述实施例所述系统中有所详细阐述，在此不再赘述。

本发明实施例提供的一种处理方法，通过采集服务人员与被服务人员之间的交互语音数据，并对交互语音数据进行分析处理得到对应于服务人员的服务结果，从而达到对服务人员的服务状态监控的目的，也为服务行业对服务人员的管理和规范提供重要参考及依据。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音交互服务处理器，其特征在于，包括主控模块、拾音模块和语音识别模块，其中：

语音识别模块，用于根据所述交互语音数据生成对应于所述服务人员的服务结果；

所述语音交互服务处理器还包括语音处理模块，所述语音处理模块设置在所述拾音模块和所述语音识别模块之间，用于根据所述交互语音数据获得交互语音增强数据；

相应地，所述语音识别模块，用于根据所述交互语音增强数据生成对应于所述服务人员的服务结果；

所述拾音模块包括多路麦克风，分别设置在所述采集空间内的多个采集位置上，用于获取采集空间内服务人员和被服务人员之间的多路交互语音数据；

所述语音处理模块包括：

降噪单元，用于对多路交互语音数据进行降噪处理；

输出单元，用于将回声对消及抑制处理后的单音音轨上的交互语音数据和所述身份信息输出；

所述身份判别单元具体用于：

2.根据权利要求1所述的语音交互服务处理器，其特征在于，所述语音识别模块具体用于：

3.根据权利要求1或2所述的语音交互服务处理器，其特征在于，所述语音交互服务处理器还包括广播模块和存储模块；

广播模块，用于将所述服务结果进行广播；

存储模块，用于将所述服务结果进行存储。

4.根据权利要求3所述的语音交互服务处理器，其特征在于，所述语音交互服务处理器还包括传输模块，用于将所述服务结果发送给后台服务器、用于接收所述后台服务器发送的更新数据包，以及用于接收所述被服务人员的评价信息；

5.一种基于上述权利要求1-4中任一权利要求所述的语音交互服务处理器的语音交互服务处理方法，其特征在于，包括：

6.根据权利要求5所述的语音交互服务处理方法，其特征在于，还包括：