CN112312540A

CN112312540A - 服务人员定位方法、装置、电子设备和存储介质

Info

Publication number: CN112312540A
Application number: CN202011064537.6A
Authority: CN
Inventors: 廖光朝
Original assignee: Audio Digital Huiyuan Shanghai Intelligent Technology Co ltd
Current assignee: Audio Digital Huiyuan Shanghai Intelligent Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-02-02

Abstract

本申请涉及一种服务人员定位方法、装置、电子设备和存储介质。所述方法包括：基于语音唤醒操作获取初级定位信息；基于所述初级定位信息确定服务人员处于室内的置信度；所述置信度大于或等于预设阈值后获取气压信息以及搜索网络数据；根据所述气压信息确定所述服务人员所在楼层，以及根据所述搜索网络数据确定服务人员所在楼层区域；综合所述初级定位信息、所述楼层以及所述楼层区域确定所述服务人员的当前定位。采用本方法能够提升判断服务人员是否到达被服务人员家中的准确性。

Description

服务人员定位方法、装置、电子设备和存储介质

技术领域

本申请涉及居家养老技术领域，特别是涉及一种服务人员定位方法、装置、电子设备和存储介质。

背景技术

随着老年人口的不断增多，居家养老服务应运而生。居家养老服务是指经过专业培训的服务人员上门为老年人提供具有一定服务时长养老服务。

当服务人员为居家老人提供居家养老服务时，首先需要确认服务人员是否已到达被服务人员家中。目前，主要是通过网络定位确定服务人员所在位置，根据服务人员所在位置预测服务人员是否已到达被服务人员家中。但是，网络定位的方式仅能确定服务人员所在大体位置，对于服务人员是否确到达被服务人员家中并没有一个准确的判断。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升判断服务人员是否到达被服务人员家中准确性的服务人员定位方法、装置、电子设备和存储介质。

一种服务人员定位方法，所述方法包括：

基于语音唤醒操作获取初级定位信息；

基于所述初级定位信息确定服务人员处于室内的置信度；

所述置信度大于或等于预设阈值后获取气压信息以及搜索网络数据；

根据所述气压信息确定所述服务人员所在楼层，以及根据所述搜索网络数据确定服务人员所在楼层区域；

综合所述初级定位信息、所述楼层以及所述楼层区域确定所述服务人员的当前定位。

在其中一个实施例中，所述基于语音唤醒操作获取初级定位信息包括：

接收到待识别语音后获取预存储的服务用语集；所述服务用语集包括多条开始用语；

基于已训练完成的语音识别模型对所述待识别语音进行识别，得到索引网络；

对所述服务用语集和所述索引网络进行字符匹配，得到匹配成功的结果或匹配失败的结果；

基于所述匹配成功的结果确定所述服务用语集中与所述待识别语音匹配的开始用语，基于所述开始用语获取初级定位信息。

在其中一个实施例中，所述基于语音唤醒操作获取初级定位信息之前还包括对语音识别模型的训练过程，所述语音识别模型的训练过程包括：

所述语音识别模型包括语音分离增强模型和目标识别模型，所述语音分离增强模型与所述目标识别模型之间桥接中间模型；

获取所述语音分离增强模型的第一损失函数；

获取所述目标识别模型的第二损失函数，基于所述第二损失函数进行反向传播，以对所述中间模型进行训练，得到鲁棒表征模型；

对所述第一损失函数和所述第二损失函数进行融合，得到目标损失函数；

基于所述目标损失函数对所述语音分离增强模型、所述目标识别模型以及所述鲁棒表征模型进行联合训练，满足预设收敛条件后结束所述联合训练。

在其中一个实施例中，所述基于所述初级定位信息确定服务人员处于室内的置信度包括：

测量与所述初级定位信息相对应的实测紫外线强度，以及获取当前时间信息和天气预报；

基于所述当前时间信息及天气预报，确定与所述初级定位信息相对应的天气状态；

通过所述天气状态获取与所述初级定位信息对应的估测紫外线强度；

基于初级定位信息的实测紫外线强度和所述估测紫外线强度，确定服务人员处于室内的置信度。

在其中一个实施例中，所述根据所述气压信息确定所述服务人员所在楼层包括：

所述气压信息包括平地气压值和高度气压值；

基于所述定位信息确定平地气压值；

基于安装于本机中的气压计确定高度气压值；

根据所述高度气压值和所述平地气压值，确定服务人员所在的高度信息；

根据所述高度信息确定服务人员所在楼层。

在其中一个实施例中，所述据所述搜索网络数据确定服务人员所在楼层区域包括：

获取与被服务人员相对应的标准网络数据；

所述标准网络数据与所述搜索网络数据匹配成功后，获取被服务人员网络所在楼层区域；

所述被服务人员网络所在楼层区域确定为服务人员所在楼层区域。

在其中一个实施例中，所述根据所述气压信息确定所述服务人员所在楼层，以及根据所述搜索网络数据确定服务人员所在楼层区域，还包括对服务人员所在楼层区域进行修正处理，所述修正处理包括：

获取现场音频数据和被服务人员的第一声纹特征；

根据预训练的声纹特征提取模型得到所述现场音频数据的第二声纹特征；

所述第一声纹特征与所述第二声纹特征的相似度匹配成功后，获取被服务人员音频所在楼层区域；

根据所述被服务人员音频所在楼层区域修正所述服务人员所在楼层区域。

一种服务人员定位装置，所述装置包括：

定位信息获取模块，用于基于语音唤醒操作获取初级定位信息；

楼层区域确定模块，用于基于所述初级定位信息确定服务人员处于室内的置信度，所述置信度大于或等于预设阈值后，获取气压信息以及搜索网络数据；根据所述气压信息确定所述服务人员所在楼层，以及根据所述搜索网络数据确定服务人员所在楼层区域；

当前位置确定模块，用于综合所述初级定位信息、所述服务人员所在楼层以及所述服务人员所在楼层区域，得到所述服务人员的当前定位。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

基于语音唤醒操作获取初级定位信息；

基于所述初级定位信息确定服务人员处于室内的置信度；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

基于语音唤醒操作获取初级定位信息；

基于所述初级定位信息确定服务人员处于室内的置信度；

上述服务人员定位方法、装置、计算机设备和存储介质，由于在发生语音唤醒操作时，再获取初级定位信息，可以节约持续获取初级定位信息时所耗费的如电量等资源；当获取得到初级定位信息时，可以根据初级定位信息判断服务人员处于室内的置信度；当确定服务人员处于室内的置信度大于或等于预设阈值后，再获取气压信息和搜索网络数据，可以节约因服务人员处于室外，而获取无用气压信息和搜索网络数据时所耗费的资源；通过获取气压信息和搜索网络数据，可以基于气压信息确定服务人员所在楼层，以及基于搜索网络数据进一步确定服务人员所在楼层区域，从而可以根据所在楼层和所在楼层区域，确定服务人员当前所在的具体位置。由于是综合考虑初级定位信息、楼层以及楼层区域进行定位处理，相比于传统的基于网络定位确定位置信息，本申请可以更细粒度的确定服务人员所在位置，从而对服务人员是否到达被服务人员家中进行更为准确的判断。

附图说明

图1为一个实施例中服务人员定位方法的应用环境图；

图2为一个实施例中服务人员定位方法的流程示意图；

图3为一个实施例中基于语音唤醒操作获取定位信息的步骤的流程示意图；

图4为一个实施例中索引网络示意图；

图5为一个实施例中服务人员定位装置的结构框图；

图6为另一个实施例中服务人员定位装置的结构框图；

图7为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的服务人员定位方法，可以应用于如图1所示的应用环境中。其中，麦克盒子102通过网络与主机盒子104进行通信。麦克盒子102上设置有麦克风阵列，用于捕捉服务人员的语音流，并将捕捉到的语音流发送至主机盒子104，由主机盒子104根据语音流获取初级定位信息、气压信息以及搜索网络数据，并结合初级定位信息、气压信息以及搜索网络数据确定服务人员的当前定位。

在一个实施例中，如图2所示，提供了一种服务人员定位方法，以该方法应用于图1中的主机盒子为例进行说明，包括以下步骤：

S202，基于语音唤醒操作获取初级定位信息。

其中，初级定位信息是指由GPS(Global Positioning System全球定位系统)定位系统确定的经纬度坐标。经纬度坐标是指由经度lon和纬度lat表示的当前定位点所在地面点位置的球面坐标(lon，lat)。地理坐标具体可以是天文经纬度、大地经纬度或地心经纬度。

具体地，在服务人员为被服务人员提供居家养老服务时，可以将麦克盒子佩戴于服务人员身上，将主机盒子置于服务人员身旁，通过麦克盒子捕捉服务人员的语音流，并将语音流发送至主机盒子。主机盒子对获取得到的语音流进行语音识别，并基于识别结果判断语音流中是否包含有预设的唤醒关键词，比如，是否包含有“服务开始”关键词，当包含有预设的唤醒关键词时，则表明服务人员已触发语音唤醒操作，此时主机盒子通过自身的GPS定位系统获取初级定位信息。

容易理解的，主机盒子中也可以设置麦克风阵列，基于麦克风阵列获取服务人员的语音流。

S204，基于初级定位信息确定服务人员处于室内的置信度。

具体地，主机盒子获取电子地图，并在电子地图中确定与初级定位信息相对应的目标坐标点，即目标坐标点的经纬度坐标与初级定位信息的经纬度坐标一致。其中，电子地图是指数字地图，是利用计算机技术，以数字方式存储和查询的地图，其上标注有各建筑所处的经纬度坐标。主机盒子在电子地图中确定距离目标坐标点最近的目标建筑，并基于电子地图获取目标建筑所在的经纬度坐标。主机盒子获取预设的标准差值，以及确定目标建筑所在的经纬度坐标与目标坐标点所对应的经纬度坐标之间的实际差值，基于标准差值和实际差值，确定服务人员处于室内的置信度，比如，当实际差值小于标准差时，认为服务人员处于室内，此时将服务人员处于室内的置信度设置为1。其中，标准差值可以根据需求自由设定，比如可以根据GPS定位系统的误差，将标准差值设定为5米。

在一个实施例中，当服务人员处于室内时，由于建筑物的遮挡，可见卫星数量会相应减少。因此，主机盒子获取自身的GPS定位系统的可见卫星数量，根据可见卫星数量确定服务人员处于室内的置信度。比如，当可见卫星数量小于预设数量阈值，则可以认为服务人员处于室内，此时判定服务人员处于室内的置信度为1。受室内房屋的遮挡的影响，GPS定位系统位于室内确定的可见卫星数量小于室外可见卫星数量，因此，结合可见卫星数量以及经纬度坐标，可以更为准确地判定服务人员是否位于室内。

在一个实施例中，主机盒子中预存储有时间点与室外光照强度的之间对应关系。主机盒子确定采集初级定位信息的采集时间点，以及确定采集初级定位信息时的实际光照强度，并根据时间点与室外光照强度的之间对应关系确定与采集时间点相对应的室外光照强度。其中，实际光照强度可以通过设置于主机盒子中的光照计采集而得。主机盒子判断实际光照强度与查询得到的室外光照强度之间的差值是否大于预设差值阈值，若大于差值阈值，则可以认为服务人员处于室内，此时，判定服务人员处于室内的置信度为1。

S206，置信度大于或等于预设阈值时，获取气压信息以及搜索网络数据。

其中，气压信息包括高度气压值和平地气压值；高度气压值是指通过安装于主机盒子中的气压计所确定的气压值；平地气压值是指地平面的气压值。网络数据是指无线热点所提供的数据，包括无线热点的名称、ID(Identity document标识账号)坐标、信号强度等。无线热点的名称是指无线热点广播出来的SSID(Service Set Identity,服务集标识),具体可以是提供无线热点的用户自定义的字符串，如“TP-LINK-XX”、“光明小区-13”等。无线热点的ID坐标是用经度lon和纬度lat表示无线热点所在地面点位置的球面坐标(lon，lat)。比如被服务人员家中的无线热点上报的一条网络数据可以是[(TP-LINK-YY)，(114.32,30.51)]。网络数据包括搜索网络数据和标准网络数据；标准网络数据是指被服务人员家中安装的无线热点广播出的网络数据；搜索网络数据是指主机盒子搜索得到的网络数据。

具体地，当被服务人员需要居家养老服务时，被服务人员可以在预设网页中输入家中具体地址以及家中所装无线的标准网络数据，以使计算机设备可以根据被服务人员输入的信息生成订单数据。主机盒子获取订单数据，并对订单数据进行解析，得到被服务人员的具体地址和标准网络数据。主机盒子根据具体地址从网络中拉取被服务人员所在地区的平地气压值，以及根据具体地址确定服务人员所楼层和楼层区域，将平地气压值、楼层、楼层区域和标准网络数据对应存储。比如，当被服务人员家中的具体地址为A小区A栋12层306号时，主机盒子可以根据A小区从网络中获取对应的平地气压值，根据12层确定被服务人员所在楼层，根据306号确定被服务人员所在楼层区域。

当服务人员处于室内的置信度大于预设阈值时，表明服务人员处于室内，比如，当预设阈值为1，服务人员处于室内的置信度大于或等于1时，判定服务人员处于室内，此时主机盒子获取气压信息和网络数据。更具体地，主机盒子安装有气压计和网络数据搜索模块。当判定服务人员处于室内时，主机盒子获取预存储的平地气压值和标准网络数据，以及通过气压计确定高度气压值、基于网络数据搜索模块对周围存在的无线热点进行搜索，根据搜索结果确定周围存在的无线热点所上报的搜索网络数据。

S208，根据气压信息确定服务人员所在楼层，以及根据搜索网络数据确定服务人员所在楼层区域。

S210，综合初级定位信息、楼层以及楼层区域确定服务人员的当前定位。

其中，楼层区域是指同层楼层中不同住户的家所在的位置区域，具体可以为门牌号。

具体地，主机盒子获取预存储的被服务人员所在楼栋的平地气压值，并计算基于气压计确定的高度气压值与平地气压值之间的气压差，根据气压差判断服务人员当前所在楼层。比如，每上升9米，大气压降低100帕，在预先存储的平地气压值为x，气压信息中的高度气压值为y时，服务人员所在高度即为h＝(y-x)/100*9；当被服务人员所在楼栋的层高为3米时，服务人员所在楼层为i＝(y-x)/100*9/3。

主机盒子判断基于气压信息确定的楼层与预存储的楼层是否一致，若一致，则可以认为服务人员已到达被服务人员所在楼层；若不一致时，则可以认为服务人员还未到达被服务人员所在楼层，此时，主机盒子可以获取预设的语音播报信息，用以提示服务人员尽快前往被服务人员家中。

与此同时，当主机盒子获取得到周围存在的无线热点广播的至少一条搜索网络数据时，主机盒子根据搜索网络数据中的信号强度从接收到的搜索网络数据中筛选出目标网络数据，比如，主机盒子将信号强度最强的搜索网络数据判定为目标网络数据。主机盒子从目标网络数据中提取出无线热点的ID坐标和名称，并判断目标网络数据中的ID坐标以及名称与预存储的标准网络数据中的ID坐标以及名称是否一致，若一致，则可以认为此时服务人员已到达被服务人员家中，此时，主机盒子将订单数据中的具体地址中的楼层区域作为为服务人员所在楼层区域，如将具体地址中的门牌号作为服务人员所在楼层区域；若不一致，主机盒子语音播报预设的提示语音，用以提示服务人员还未到达被服务人员家中。

在一个实施例中，当基于定位信息确定经纬度坐标时，主机盒子可以基于确定的经纬度坐标从网络中拉取经纬度坐标所在地球表面的平地气压值。

在一个实施例中，主机盒子可以与宽带安装供应商的安装信息平台进行对接，当从目标网络数据中提取出ID地址时，主机盒子根据ID地址在安装信息平台中查询对应的宽带安装地址，并将宽带安装地址中的门牌号作为为服务人员所在楼层区域。

在一个实施例中，当服务人员当前所在的当前定位与订单数据中的具体地址一致时，主机盒子获取当前时刻，并将当前时刻判定为养老服务开始时间，如此，便实现自动打卡功能，相比于传统的手动打卡，本申请可以大大提升用户体验。

上述服务人员定位方法中，由于在发生语音唤醒操作时，再获取初级定位信息，可以节约持续获取初级定位信息时所耗费的如电量等资源；当获取得到初级定位信息时，可以根据初级定位信息判断服务人员处于室内的置信度；当确定服务人员处于室内的置信度大于预设阈值后，再获取气压信息和搜索网络数据，可以节约因服务人员处于室外，而获取无用气压信息和搜索网络数据时所耗费的资源；通过获取气压信息和搜索网络数据，可以基于气压信息确定服务人员所在楼层，以及基于搜索网络数据进一步确定服务人员所在楼层区域，从而可以根据所在楼层和所在楼层区域，确定服务人员当前所在的具体位置。由于是综合考虑初级定位信息、楼层以及楼层区域进行定位处理，相比于传统的基于网络定位确定位置信息，本申请可以更细粒度的确定服务人员所在位置，从而对服务人员是否到达被服务人员家中进行更为准确的判断。

在一个实施例中，如图3所示，基于语音唤醒操作获取定位信息包括：

S302，接收到待识别语音后获取预存储的服务用语集；服务用语集包括多条开始用语。

S304，基于已训练完成的语音识别模型对待识别语音进行识别，得到索引网络。

S306，对服务用语集和索引网络进行字符匹配，得到匹配成功的结果或匹配失败的结果。

S308，基于匹配成功的结果确定服务用语集中与待识别语音匹配的开始用语，基于开始用语获取初级定位信息。

其中，服务用语集是指包含有至少一条开始用语的集合。开始用语是指在居家养老服务过程中，服务人员唤醒主机盒子所使用的规范用语，比如，开始用语可以为“开始居家养老服务”、“开始为居家老人提供居家养老服务”等。待识别语音是指麦克盒子实时采集得到的语音流。

语音识别是将输入的语音信号转换为与之对应的文本。语音识别模型是指具有语音特征提取能力的机器学习模型。语音特征是用于反映音频特征的数据。语音特征可以为音色、发音、频谱等其中一种或者多种特性信息。

具体地，当接收到麦克盒子发送的待识别语音时，主机盒子获取服务用语集。主机盒子中预设有语音识别模型。语音识别模型包括声学子模型以及语言子模型。声学子模型是用于描述语音特征与语音建模单元之间的联系的模型，是语音识别系统的重要部分。传统的语音识别模型普遍采用GMM-HMM(Gaussian Mixture Models-Hidden Markov Model)声学模型，其中GMM对语音声学特征的分布进行建模，HMM对语音信号的时序进行建模。但是，GMM本质上是一种浅层网络模型，其描述声学特征状态控件分布的能力较弱，当训练语音数据较为庞大时，语音识别准确性较低。本申请采用CNN-HMM(Convolutional NeuralNetworks-Hidden Markov Model)进行声学建模。CNN是一种深层模型，通过自身的参数调整可以自适应地拟合任意数据的分布，从而可以实现较高的识别准确率。

当获取得到待识别语音后，声学子模型对待识别语音进行特征提取，并基于提取出的特征信息对语音进行识别，得到待识别语音所对应的拼音序列。比如，当待识别语音为“洗个头好吗”时，经声学子模型得到的拼音序列即为“xi ge tou hao ma”。

语言子模型用于预测与拼音序列相对应候选文字序列的出现概率，并基于出现概率生成索引网络。由于同音字符的存在，当获取得到拼音序列时，语言子模型通过拼音序列确定N-1个字符，并基于N-1个字符来预测下一字符出现的概率，如此，得到一条或多条与拼音序列相对应候选文字序列，并基于得到的候选文字序列生成索引网络。比如，当拼音序列即为“xi ge tou hao ma”，与“xi”相对应的文字字符可以为“洗”与“西”，基于“洗”以及“getou”预测得到的文字字符可以为“个头”，基于“西”以及“ge tou”预测得到的文字字符可以为“跟头”，基于“洗”、“个头”、“hao ma”，以及“西”、“跟头”、“hao ma”预测得到的文字字符均为“好吗”时，所生成的索引网络即如图4所示。图4为一个实施例中，索引网络示意图。其中，候选文字序列即为一条以开始节点为起始点，以结束节点为终点，以节点和线段连接而成一条字符序列，比如，“洗个头好吗”即为一个候选文字序列。

主机盒子将索引网络中的每个候选文字序列与服务用语集进行匹配，将服务用语集中的与当前候选文字序列具有相同字数最多的开始用语，作为与当前候选文字序列相匹配的开始用语，如此，确定索引网络中每条候选文字序列各自匹配的开始用语。主机盒子计算每个候选文字序列相对于相匹配的开始用语的偏移距离。其中，偏移距离是指不存在于相匹配的开始用语中的字符数量与存在于相匹配的开始用语中的字符数量的比值，其中标签符号不计算在内。比如，当候选文字序列为“开始养老服务吧”，相匹配的开始用语为“开始居家养老服务”时，“开始养老服务吧”中不存在于“开始居家养老服务”中的字符数量为1，存在于“开始居家养老服务”中的字符数量为6，从而偏移距离即为1/6。主机盒子将具有偏移距离最小的候选文字序列作为目标候选文字序列，并在目标候选文字序列的偏移距离小于预设阈值时，认为目标候选文字序列与相匹配的开始用语基本一致，此时，主机盒子判定服务用语集和索引网络匹配成功，并将与目标文字序列相匹配的开始用语判定为与待识别语音相匹配的开始用语。

当主机盒子获取得到相匹配的开始用语时，可以认为服务人员已触发语音唤醒操作，此时主机盒子基于GPS定位系统获取当前位置的初级定位信息。

本实施例中，用户仅需要进行简单的语音唤醒操作即可获取当前初级定位信息，如此，可以大大提升用户体验。此外，受同音词的影响，语音识别模型对同一分词的识别结果可能不同，通过本实施例提供的方法能够得到多个候选识别结果，从而可以在多个候选识别结果中进行字符匹配，如此，便能有效克服同音词对识别结果的影响。

在一个实施例中，基于语音唤醒操作获取初级定位信息之前还包括对语音识别模型的训练过程，语音识别模型的训练过程包括：语音识别模型包括语音分离增强模型和目标识别模型，语音分离增强模型与目标识别模型之间桥接中间模型；获取语音分离增强模型的第一损失函数；获取目标识别模型的第二损失函数，基于第二损失函数进行反向传播，以对中间模型进行训练，得到鲁棒表征模型；对第一损失函数和第二损失函数进行融合，得到目标损失函数；基于目标损失函数对语音分离增强模型、目标识别模型以及鲁棒表征模型进行联合训练，满足预设收敛条件后结束所述联合训练。

其中，语音识别模型包括语音分离增强模型以及目标识别模型；目标识别模型包括声学子模型以及语言子模型。语音分离增强模型是指经过训练后具有语音分离和/或增强能力的模型，具体可以是以样本语音作为训练数据，进行学习训练得到的用于将目标语音从样本语音中的背景干扰中分离出来的模型。可以理解，语音分离增强模型还可以具有对语音信号进行语音活动检测(Voice Activity Detection，VAD)、回声消除、混响消除或声源定位等预处理的能力，对此不作限制。目标识别模型是经过训练后具有语音识别能力的声学模型，具体可以是以样本语音以及标签序列作为训练数据，进行学习训练得到的用于对样本语音进行音素识别的模型。语音分离增强模型与目标识别模型分别可以是预先训练好的。预训练的语音分离增强模型与语音识别模型各自具有固定的模型结构和模型参数。

具体地，当需要进行联合模型训练时，主机盒子获取预训练的语音分离增强模型和目标识别模型，以及预训练语音分离增强模型时所采用的第一损失函数、预训练目标识别模型时所采用的第二损失函数。损失函数(loss function)通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。预训练语音分离增强模型所采用的第一损失函数及预训练语音识别模型所采用的第二损失函数分别具体可以是均方误差、平均绝对值误差、Log-Cosh损失、分位数损失、理想分位数损失等。

传统方式主要是将语音处理任务拆分为完全独立的两个子任务：语音分离任务和目标识别任务。如此，在训练阶段，允许模块化对语音分离增强模型和目标识别模型分别训练，在生产测试阶段，将语音分离增强模型输出的增强后待识别输入到目标识别模型进行识别。容易发现，这种方式并没有很好的解决两种表征范畴之间的差异化问题。在居家养老服务等实际应用场景中，待识别语音受背景音乐或多说话人干扰影响的现象普遍存在。如此，语音分离增强模型在进行前端语音处理时会引入相对严重的失真，而这在目标识别模型训练阶段不曾考虑，从而直接将独立的前端语音分离增强模型和后端目标识别模型级联，会严重降低最终语音识别性能。

参考图5，图5示出了一个实施例中基于鲁棒表征模型对语音分离增强模型和目标识别模型进行桥接的模型架构示意图。如图5所示，为了克服两种表征范畴之间的差异，本申请的实施例在语音分离增强模型和目标识别模型之间桥接了待训练的中间模型。训练后的中间模型可以称作鲁棒表征模型。更具体地，主机盒子按照预设的深度学习优化算法确定第二损失函数在每次迭代过程产生的局部下降梯度。主机盒子将局部下降梯度反向传播至中间模型，以对中间模型对应的模型参数进行更新，直至符合预设的训练停止条件时结束训练。

主机盒子通过对第一损失函数与第二损失函数分进行预设逻辑运算，得到目标损失函数。以加权求和为例，假设加权因子为λ_SS，则目标损失函数L＝L₂+_SSL₁。加权因子可以是根据经验或实验设定的数值，如0.1。容易发现，通过调整加权因子可以调整在多模型联合训练时语音分离增强模型的重要性。主机盒子按照预设的深度学习优化算法确定目标损失函数产生的全局下降梯度。用于确定局部下降梯度的深度学习优化算法与用于确定全局下降梯度的深度学习优化算法可以相同，也可以不同。目标损失函数产生的全局下降梯度从目标识别模型依次反向传播至鲁棒表征模型和语音分离增强模型的网络各层，在此过程中对语音分离增强模型、鲁棒表征模型及目标识别模型对应的模型参数分别进行迭代更新，直至满足预设的训练停止条件时结束训练。

本实施例中，中间模型借助后端目标识别模型的第二损失函数反向传播完成训练，而语音分离增强模型和目标识别模型可以是预选训练好的，如此可以在较少的迭代训练次数后即可达到收敛。此外，基于前后端模型分别对应损失函数的组合对端到端的网络模型进行联合训练，使得网络架构中每个单独的模型均能够综合学习来自复杂声学环境语音信号中的干扰特征，从而可以保证全局的语音处理任务的性能，提高语音识别准确性。

在一个实施例中，基于初级定位信息确定服务人员处于室内的置信度包括：测量初级定位信息相对应的紫外线强度，以及获取当前时间信息和天气预报；基于当前时间信息及天气预报，确定初级定位信息相对应的天气状态；通过所述天气状态获取与所述初级定位信息对应的估测紫外线强度；基于初级定位信息的实测紫外线强度和估测紫外线强度，确定服务人员处于室内的置信度。

具体地，当获取得到初级定位信息时，主机盒子通过安装在自身中的紫外线测量仪测量初级定位信息相对应的紫外线强度，以及获取当前时间信息和天气预报，并根据当前时间信息以及天气预报，确定初级定位信息所对应的天气状态。其中，天气预报可以为每小时天气预报。主机盒子中预存储有天气状态与室外紫外线强度之间的对应关系，根据天气状态与室外紫外线强度之间的对应关系确定与初级定位信息所对应的天气状态相对应的估测紫外线强度。主机盒子判断实测紫外线强度和估测紫外线强度之间的强度差是否大于预设的强度差值阈值，若否，则可以认为服务人员此时位于室外，此时将服务人员处于室内的置信度置为0；若是，则可认为服务人员此时位于室内，此时将服务人员处于室内的置信度置为1。

本实施例中，通过综合考虑紫外线强度以及定位信息，可以提升置信度判断的准确性，从而提升服务人员定位的准确性。

在一个实施例中，根据气压信息确定服务人员所在楼层包括：气压信息包括平地气压值和高度气压值；基于定位信息确定平地气压值；基于安装于本机中的气压计确定高度气压值；根据高度气压值和平地气压值，确定服务人员所在的高度信息；根据高度信息确定服务人员所在楼层。

具体地，当确定服务人员处于室内时，主机盒子根据初级定位信息从网络中查询对应的平地气压值，以及基于安装于本机中的气压计确定高度气压值。主机盒子根据高度气压值与平地气压值之间的气压差，确定服务人员所在的高度信息，并根据高度信息和约定的层高确定服务人员所在楼层。

本实施例中，通过确定平地气压值以及高度气压值，可以基于平地气压值和高度气压值确定服务人员所在楼层，从而可以根据服务人员所在楼层对服务人员是否达到被服务人员家中进行精准判断。

在一个实施例中，根据搜索网络数据确定服务人员所在楼层区域包括：获取与被服务人员相对应的标准网络数据；标准网络数据与搜索网络数据匹配成功后，获取被服务人员网络所在楼层区域；被服务人员网络所在楼层区域确定为服务人员所在楼层区域。

其中，标准网络数据是指被服务人员的家中安装的无线热点所广播的网络数据。

具体地，主机盒子对订单数据进行解析，得到服务人员上报的标准网络数据。主机盒子从标准网络数据中提取出无线热点的名称和ID地址，以及从搜索网络数据中提取出无线热点的名称和ID地址。为了描述方便，下述将从标准网络数据中提取出无线热点的名称和ID地址称作第一名称和第一ID地址，将从搜索网络数据中提取出无线热点的名称和ID地址称作第二名称和第二ID地址。主机盒子判断第二名称和第二ID地址中是否包含有第一名称和第一ID地址，若包含，主机盒子从订单数据中读取被服务人员网络所在楼层区域所在的楼层区域，并将被服务人员所在的楼层区域作为为服务人员当前所在的楼层区域，即将标准网络数据所在楼层区域作为服务人员所在楼层区域。

本实施例中，通过确定标准网络数据以及搜索网络数据，可以基于标准网络数据和搜索网络数据预估服务人员所在楼层区域，从而可以根据服务人员所在楼层区域对服务人员是否达到被服务人员家中进行精准判断。

在一个实施例中，根据气压信息确定服务人员所在楼层，以及根据搜索网络数据确定服务人员所在楼层区域，还包括对服务人员所在楼层区域进行修正处理，修正处理包括：获取现场音频数据和被服务人员的第一声纹特征；根据预训练的声纹特征提取模型得到现场音频数据的第二声纹特征；对所述第一声纹特征与第二声纹特征的相似度匹配成功后，获取被服务人员音频所在楼层区域；根据被服务人员音频所在楼层区域修正服务人员所在楼层区域。

其中，声纹特征提取模型是指具有声纹特征提取能力的机器学习模型。声纹特征是用于反映声音音色特征的数据。声纹特征可以为音色、语速、音量等其中一种或者多种特性信息。

具体地，当服务人员位于被服务人员家中时，麦克盒子可以捕捉被服务人员与服务人员之间的对话内容，并将捕捉得到的对话内容作为现场音频数据发送至主机盒子。主机盒子将现场音频数据输入预训练的声纹特征提取模型，即输入已训练完成的声纹特征提取模型，由声纹特征提取模型提取出现场音频数据的第二声纹特征。主机盒子获取预存储的被服务人员的第一声纹特征，并将第一声纹特征与第二声纹特征进行相似度匹配。当相似度匹配结果满足预设条件时，可以认为现场音频数据为被服务人员的语音流，此时服务人员与被服务人员处于同一位置。主机盒子根据订单数据确定被服务人员音频所在楼层区域，即将订单数据中地楼层区域作为被服务人员音频所在楼层区域。主机盒子将被服务人员音频所在楼层区域与基于搜索网络数据确定的服务人员所在楼层区域进行对比，当楼层区域不一致时，主机盒子将被服务人员音频所在楼层区域作为服务人员所在楼层区域。

当相似度匹配结果不一致时，可以认为音频数据不为被服务人员的语音流，主机盒子将被服务人员所在楼层区域与服务人员所在楼层区域进行对比，并在被服务人员所在楼层区域与服务人员所在楼层区域一致时，判定服务人员所在楼层区域有误，此时主机盒子重新获取定位信息，并基于重新获取的定位信息判断服务人员当前所在楼层区域。

本实施例中，通过声纹特征对服务人员所在楼层区域进行验证，可以大大提升服务人员定位的准确性。

应该理解的是，虽然图2、3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种服务人员定位装置500，包括：定位信息获取模块502、楼层区域确定模块504和当前位置确定模块505，其中：

定位信息获取模块502，用于基于语音唤醒操作获取初级定位信息。

楼层区域确定模块504，用于基于初级定位信息确定服务人员处于室内的置信度，置信度大于或等于预设阈值后，获取气压信息以及搜索网络数据；根据气压信息确定服务人员所在楼层，以及根据搜索网络数据确定服务人员所在楼层区域。

当前位置确定模块505，用于综合初级定位信息、服务人员所在楼层以及服务人员所在楼层区域，得到服务人员的当前定位。

在一个实施例中，如图6所示，服务人员定位装置500还包括语音唤醒模块508，用于当接收到待识别语音时，获取预存储的服务用语集；服务用语集包括多条开始用语；基于已训练完成的语音识别模型对待识别语音进行识别，得到索引网络；对服务用语集和索引网络进行字符匹配，得到匹配成功的结果或匹配失败的结果；基于匹配成功的结果确定服务用语集中与待识别语音匹配的开始用语，基于开始用语获取定位信息。

在一个实施例中，语音唤醒模块508还用于获取语音分离增强模型的第一损失函数；获取目标识别模型的第二损失函数，基于第二损失函数进行反向传播，以对中间模型进行训练，得到鲁棒表征模型；对第一损失函数和第二损失函数进行融合，得到目标损失函数；基于目标损失函数对语音分离增强模型、目标识别模型以及鲁棒表征模型进行联合训练，满足预设收敛条件后结束联合训练。

在一个实施例中，楼层区域确定模块504还包括紫外线强度获取模块5041，用于测量与初级定位信息相对应的实测紫外线强度，以及获取当前时间信息和天气预报；基于当前时间信息及天气预报，确定与初级定位信息相对应的天气状态；通过天气状态获取与初级定位信息对应的估测紫外线强度；基于初级定位信息的实测紫外线强度和估测紫外线强度，确定服务人员处于室内的置信度。

在一个实施例中，楼层区域确定模块504还用于基于定位信息确定平地气压值；基于安装于本机中的气压计确定高度气压值；根据高度气压值和平地气压值，确定服务人员所在的高度信息；根据高度信息确定服务人员所在楼层。

在一个实施例中，楼层区域确定模块504还用于获取与被服务人员相对应的标准网络数据；标准网络数据与搜索网络数据匹配成功后，获取被服务人员网络所在楼层区域；被服务人员网络所在楼层区域确定为服务人员所在楼层区域。

在一个实施例中，楼层区域确定模块504还包括修正模块5042，用于获取现场音频数据和被服务人员的第一声纹特征；根据预训练的声纹特征提取模型得到现场音频数据的第二声纹特征；第一声纹特征与第二声纹特征的相似度匹配成功后，获取被服务人员音频所在楼层区域；根据被服务人员音频所在楼层区域修正服务人员所在楼层区域。

关于服务人员定位装置的具体限定可以参见上文中对于服务人员定位方法的限定，在此不再赘述。上述服务人员定位装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子，该电子可以是终端，其内部结构图可以如图7所示。该电子包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子的处理器用于提供计算和控制能力。该电子的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种服务人员定位方法。该电子的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子的输入装置可以是显示屏上覆盖的触摸层，也可以是电子外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子的限定，具体的电子可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

基于语音唤醒操作获取初级定位信息；

基于初级定位信息确定服务人员处于室内的置信度；

置信度大于或等于预设阈值后获取气压信息以及搜索网络数据；

根据气压信息确定服务人员所在楼层，以及根据搜索网络数据确定服务人员所在楼层区域；

综合初级定位信息、楼层以及楼层区域确定服务人员的当前定位。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

接收到待识别语音后获取预存储的服务用语集；服务用语集包括多条开始用语；

基于已训练完成的语音识别模型对待识别语音进行识别，得到索引网络；

对服务用语集和索引网络进行字符匹配，得到匹配成功的结果或匹配失败的结果；

基于匹配成功的结果确定服务用语集中与待识别语音匹配的开始用语，基于开始用语获取初级定位信息。

语音识别模型包括语音分离增强模型和目标识别模型，语音分离增强模型与目标识别模型之间桥接中间模型；

获取语音分离增强模型的第一损失函数；

获取目标识别模型的第二损失函数，基于第二损失函数进行反向传播，以对中间模型进行训练，得到鲁棒表征模型；

对第一损失函数和第二损失函数进行融合，得到目标损失函数；

基于目标损失函数对语音分离增强模型、目标识别模型以及鲁棒表征模型进行联合训练，满足预设收敛条件后结束联合训练。

测量与初级定位信息相对应的实测紫外线强度，以及获取当前时间信息和天气预报；

基于当前时间信息及天气预报，确定与初级定位信息相对应的天气状态；

通过天气状态获取与初级定位信息对应的估测紫外线强度；

基于初级定位信息的实测紫外线强度和估测紫外线强度，确定服务人员处于室内的置信度。

气压信息包括平地气压值和高度气压值；

基于定位信息确定平地气压值；

基于安装于本机中的气压计确定高度气压值；

根据高度气压值和平地气压值，确定服务人员所在的高度信息；

根据高度信息确定服务人员所在楼层。

获取与被服务人员相对应的标准网络数据；

标准网络数据与搜索网络数据匹配成功后，获取被服务人员网络所在楼层区域；

被服务人员网络所在楼层区域确定为服务人员所在楼层区域。

获取现场音频数据和被服务人员的第一声纹特征；

根据预训练的声纹特征提取模型得到现场音频数据的第二声纹特征；

第一声纹特征与第二声纹特征的相似度匹配成功后，获取被服务人员音频所在楼层区域；

根据被服务人员音频所在楼层区域修正服务人员所在楼层区域。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

基于语音唤醒操作获取初级定位信息；

基于初级定位信息确定服务人员处于室内的置信度；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取语音分离增强模型的第一损失函数；

通过天气状态获取与初级定位信息对应的估测紫外线强度；

气压信息包括平地气压值和高度气压值；

基于定位信息确定平地气压值；

基于安装于本机中的气压计确定高度气压值；

根据高度信息确定服务人员所在楼层。

获取与被服务人员相对应的标准网络数据；

获取现场音频数据和被服务人员的第一声纹特征；

根据被服务人员音频所在楼层区域修正服务人员所在楼层区域。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种服务人员定位方法，其特征在于，所述方法包括：

基于语音唤醒操作获取初级定位信息；

基于所述初级定位信息确定服务人员处于室内的置信度；

2.根据权利要求1所述的方法，其特征在于，所述基于语音唤醒操作获取初级定位信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于语音唤醒操作获取初级定位信息之前还包括对语音识别模型的训练过程，所述语音识别模型的训练过程，包括：

获取所述语音分离增强模型的第一损失函数；

4.根据权利要求1所述的方法，其特征在于，所述基于所述初级定位信息确定服务人员处于室内的置信度，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述气压信息确定所述服务人员所在楼层，包括：

所述气压信息包括平地气压值和高度气压值；

基于所述定位信息确定平地气压值；

基于安装于本机中的气压计确定高度气压值；

根据所述高度信息确定服务人员所在楼层。

6.根据权利要求1所述的方法，其特征在于，所述根据所述搜索网络数据确定服务人员所在楼层区域，包括：

获取与被服务人员相对应的标准网络数据；

7.根据权利要求1或6所述的方法，其特征在于，所述根据所述气压信息确定所述服务人员所在楼层，以及根据所述搜索网络数据确定服务人员所在楼层区域，还包括对服务人员所在楼层区域进行修正处理，所述修正处理包括：

获取现场音频数据和被服务人员的第一声纹特征；

8.一种服务人员定位装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述定位信息获取模块还用于当接收到待识别语音时，获取预存储的服务用语集；所述服务用语集包括多条开始用语；基于已训练完成的语音识别模型对所述待识别语音进行识别，得到索引网络；对所述服务用语集和所述索引网络进行字符匹配，得到匹配成功的结果或匹配失败的结果；基于所述匹配成功的结果确定所述服务用语集中与所述待识别语音匹配的开始用语，基于所述开始用语获取定位信息。

10.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。