CN112309398A

CN112309398A - 工作时长监控方法、装置、电子设备和存储介质

Info

Publication number: CN112309398A
Application number: CN202011064421.2A
Authority: CN
Inventors: 廖光朝
Original assignee: Audio Digital Huiyuan Shanghai Intelligent Technology Co ltd
Current assignee: Audio Digital Huiyuan Shanghai Intelligent Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-02-02

Abstract

本申请涉及一种工作时长监控方法、装置、电子设备和存储介质。所述方法包括：获取待识别语音；当待识别语音中包含服务开始关键词时，确定待识别语音的采样时间，以及获取与服务开始关键词相关联的语音片段和服务关键词集；基于预训练的语音识别模型对语音片段进行识别，得到关键词序列；通过对关键词序列以及服务关键词集进行关键词匹配，确定与语音片段相匹配的服务项目；服务项目包括标准服务总时长；根据待识别语音的采样时间和标准服务总时长，对工作时长进行监控。采用本方法能够准确计算剩余工作时长。

Description

工作时长监控方法、装置、电子设备和存储介质

技术领域

本申请涉及居家养老技术领域，特别是涉及一种工作时长监控方法、装置、电子设备和存储介质。

背景技术

随着老年人口的不断增多，居家养老服务应运而生。居家养老服务是由经过专业培训的服务人员上门为老年人提供具有一定服务时长养老服务。

当服务人员为居家老人提供养老服务时，首先需要对服务人员的工作时长进行监控。目前，主要是根据预先生成的服务订单中的服务项目的开始时间以及标准服务总时长确定服务人员的剩余工作时长。但是，服务订单中的服务项目可能与服务人员的实际服务项目并不相符，比如，当居家老人临时要求更换服务项目时，就会导致计算出来的剩余工作时长并不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升剩余工作时长计算准确性的工作时长监控方法、装置、电子设备和存储介质。

一种工作时长监控方法，所述方法包括：

获取待识别语音；

当所述待识别语音中包含服务开始关键词时，确定所述待识别语音的采样时间，以及获取与所述服务开始关键词相关联的语音片段和服务关键词集；

基于预训练的语音识别模型对所述语音片段进行识别，得到关键词序列；

通过对所述关键词序列以及所述服务关键词集进行关键词匹配，确定与所述语音片段相匹配的服务项目；所述服务项目包括标准服务总时长；

根据所述待识别语音的采样时间和标准服务总时长，对工作时长进行监控。

在其中一个实施例中，所述语音识别模型的训练步骤包括：

获取与样本语音对应的样本文本以及发音词典；所述样本文本包括至少一个待标注分词；

根据所述发音词典对所述待标注分词进行发音标注，得到标签序列；

基于所述样本语音以及对应的标签序列对语音识别模型进行训练。

在其中一个实施例中，所述语音识别模型包括语音分离增强模型以及目标识别模型；所述语音识别模型的训练步骤包括：

获取语音分离增强模型的第一损失函数及目标识别模型的第二损失函数；

基于所述第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型；

对所述第一损失函数和第二损失函数进行融合，得到目标损失函数；

基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

在其中一个实施例中，所述服务关键词集包括项目名称以及问答组合；所述通过对所述关键词序列以及所述服务关键词集进行关键词匹配，确定与所述语音片段相匹配的服务项目包括：

当关键词序列中存在项目名称时，根据所述问答组合，从所述关键词序列中提取出至少一个询问关键词以及至少一个应答关键词；

确定每个询问关键词和应答关键词各自对应的采样时间；

根据询问关键词的采样时间以及应答关键词的采样时间，对询问关键词以及应答关键词进行关键词匹配，得到匹配对；

当所述匹配对的数量大于预设数量阈值时，将所述关键词序列中存在的项目名称作为与所述语音片段相匹配的服务项目。

在其中一个实施例中，所述方法还包括：

获取房屋结构图以及当前定位信息；

在所述房屋结构图上，确定与所述当前定位信息相匹配的房间定位点，得到目标房间定位点；

基于所述目标房间定位点，对所述服务项目进行修正。

在其中一个实施例中，所述方法还包括：

获取加时关键词集以及被服务对象的音色特征；所述加时关键词集包括至少一个加时关键词；

基于所述音色特征从所述关键词序列中筛选出与被服务对象相对应的关键词，得到被服务对象关键词集；

当所述被服务对象关键词集包含有预设数量的加时关键词时，从所述被服务对象关键词集中提取数字字符；

基于所述数字字符延长所述服务项目的标准服务总时长。

在其中一个实施例中，所述根据所述待识别语音的采样时间和标准服务总时长，对工作时长进行监控包括：

基于所述待识别语音的采样时间和标准服务总时长确定服务结束时间；

获取当前时刻；

基于所述当前时刻以及所述服务结束时间，确定剩余服务时长；

展示所述剩余服务时长。

一种工作时长监控装置，所述装置包括：

采样模块，用于获取待识别语音；当所述待识别语音中包含服务开始关键词时，确定所述待识别语音的采样时间，以及获取与所述服务开始关键词相关联的语音片段和服务关键词集；

服务项目确定模块，用于基于预训练的语音识别模型对所述语音片段进行识别，得到关键词序列；通过对所述关键词序列以及所述服务关键词集进行关键词匹配，确定与所述语音片段相匹配的服务项目；所述服务项目包括标准服务总时长；

工作时长确定模块，用于根据所述待识别语音的采样时间和标准服务总时长，对工作时长进行监控。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别语音；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别语音；

上述工作时长监控方法、装置、电子设备和存储介质，通过获取待识别语音，可以确定待识别语音中是否包含有服务开始关键词，并在包含有服务开始关键词时，判定服务人员确实已开始工作，从而将待识别语音的采样时间判定为开始执行服务项目的真正开始时间，因此，相比于传统的直接将服务订单中服务项目的开始时间作为服务人员开始工作的时间，本方案可以提升开始工作时间判定的准确性；通过获取与服务开始关键词相关联的语音片段和服务关键词集，可以基于预训练的语音识别模型对语音片段中的目标关键词进行识别，得到关键词序列；通过将关键词序列与服务关键词集进行匹配，可以基于匹配结果确定与语音片段相匹配的服务项目，由于是根据语音流中的关键词序列确定服务人员真正在执行的服务项目，相比于传统的将服务订单中的服务项目判定为服务人员正在执行的服务项目，本方案可以综合实际情况，对实际执行的服务项目进行判定，从而提升了服务项目判定的准确性；此外，通过确定实际执行的服务项目，可以根据服务项目的标准服务总时长以及开始时间，对服务人员的实际工作时长进行有效监控。

附图说明

图1为一个实施例中工作时长监控方法的应用环境图；

图2为一个实施例中工作时长监控方法的流程示意图；

图3为一个实施例中索引网络示意图；

图4为一个实施例中语音识别模型的训练方法的流程示意图；

图5为一个实施例中监控时长装置的结构框图；

图6为另一个实施例中监控时长装置的结构框图；

图7为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的服务工作时长监控方法，可以应用于如图1所示的应用环境中。其中，麦克盒子102通过网络与主机盒子104进行通信。在服务人员为居家老人提供居家养老服务的过程中，麦克盒子102佩戴于服务人员身上，用于抓取服务人员的语音流，并抓取得到的语音流作为待识别语音发送至主机盒子104。当检测得到待识别语音中存在开始关键词时，主机盒子104控制麦克盒子102持续录制预设时长的语音片段。主机盒子104对语音片段进行语音识别，基于识别结果确定与语音片段相对应的服务项目，根据服务项目的服务总时长以及待识别语音的采样时间对服务工作时长进行监控。

在一个实施例中，如图2所示，提供了一种服务工作时长监控方法，以该方法应用于图1中的主机盒子为例进行说明，包括以下步骤：

S202，获取待识别语音。

S204，当待识别语音中包含服务开始关键词时，确定待识别语音的采样时间，以及获取与服务开始关键词相关联的语音片段和服务关键词集。

其中，服务开始关键词是指包含有服务开始语意的关键词，比如服务开始关键词可以为“开始服务”、“服务开始”等。

服务关键词集是指包含有至少一个服务关键词的集合。服务关键词是指在居家养老服务过程中，服务人员与被服务对象在语言交流中所使用的规范用语中的关键词。比如，当规范用语为“现在为您洗头”时，服务关键词即为“洗头”；当规范用语为“请问水温合适吗”时，服务关键词即为“水温”。

具体地，麦克盒子持续采集服务人员与被服务对象之间的语音流，并基于预设的采样频率对语音流进行分帧处理，得到多个语音帧，并将语音帧作为待识别语音发送至主机盒子，比如，将采样点设置为400，一帧时长为25ms。主机盒子接收语音帧，并确定接收语音帧的接收时间，将接收时间与语音帧对应存储。为了描述方便，下述将接收语音帧的接收时间称作采样时间。

主机盒子基于预训练的语音识别模型对待识别语音中的服务开始关键词进行检测。当检测到服务开始关键词时，主机盒子获取预设的服务关键词集以及控制麦克盒子持续录制预设时长的语音片段，比如持续录制10分钟的对话内容。其中，语音识别是指将输入的语音信号转换为与之对应的文本。语音识别模型是指具有语音特征提取能力的机器学习模型。语音特征是用于反映音频特征的数据。语音特征可以为音色、发音、频谱等其中一种或者多种特性信息。

在一个实施例中，在对语音流进行分帧处理时，为保证采样时间上的连续，相邻帧可以设置一定时间的重叠区域，比如，可以设置10ms的重叠区域。

在一个实施例中，主机盒子判断语音片段的语音格式，当语音片段不为WAV格式时，将语音片段转换为单通道的WAV文件，从而主机盒子能够对具有统一格式的语音片段进行后续处理。

在一个实施例中，由于长关键词与短关键词相比，识别准确率较低，为了提高关键词识别准确率，主机将长开始服务关键词拆分为短开始服务关键词，比如，将“服务开始”拆分为“服务/开始”，其中“/”为分词符，并基于短开始服务关键词对语音识别模型进行训练，从而，训练后的语音识别模型能够更准确地从待识别语音中提取出服务开始关键词。

容易理解的，也可以将主机盒子置于居家老人身旁，通过安装在主机盒子中的麦克风阵列采集服务人员与被服务对象之间的对话内容。

S206，基于预训练的语音识别模型对语音片段进行识别，得到关键词序列。

其中，关键词序列是指包含有多个目标关键词的序列。目标关键词是指在居家养老服务过程中，服务人员与被服务对象之间的语言交流中的关键词。

语音识别模型包括声学子模型以及语言子模型。声学子模型是用于描述语音特征与语音建模单元之间的联系的模型。语言子模型用于预测与拼音序列相对应候选文字序列的出现概率，基于出现概率生成索引网络，并在索引网络中提取出目标关键词。在对语言子模型进行训练时，可以将服务关键词集作为训练样本，从而训练后的语言子模型可以从索引网络中提取出与服务关键词具有相同字符特征的目标关键词。其中，字符特征是用于反映字符特点的数据。字符特征可以为笔画顺序、笔画数量、字符整体轮廓等其中一种或者多种特性信息。

具体地，声学子模型是语音识别系统的重要部分。传统的语音识别模型普遍采用GMM-HMM(Gaussian Mixture Models-Hidden Markov Model)声学模型，其中GMM对语音声学特征的分布进行建模，HMM对语音信号的时序进行建模。但是，GMM本质上是一种浅层网络模型，其描述声学特征状态控件分布的能力较弱，当训练语音数据较为庞大时，语音识别准确性较低。本申请采用CNN-HMM(Convolutional Neural Networks-Hidden Markov Model)进行声学建模。CNN是一种深层模型，通过自身的参数调整可以自适应地拟合任意数据的分布，从而可以实现较高的识别准确率。

当获取得到语音片段后，语音识别模型确定语音片段中各语句之间的静音间隔时长，并在静音间隔时长大于预设时长时，将此静音片段作为分割点，对语音片段进行分割，得到多个语音子片段。声学子模型对语音子片段进行特征提取，并基于提取出的特征信息对语音进行识别，得到待识别语音所对应的拼音序列。比如，在当前语音子片段为“洗个头好吗”时，经声学子模型得到的拼音序列即为“xi ge tou hao ma”。

由于同音字符的存在，当获取得到拼音序列时，语言子模型通过拼音序列确定N-1个字符，并基于N-1个字符来预测下一字符出现的概率，如此，得到一条或多条与拼音序列相对应候选文字序列，并基于得到的候选文字序列生成索引网络。比如，当拼音序列即为“xi ge tou hao ma”，与“xi”相对应的文字字符可以为“洗”与“西”，基于“洗”以及“getou”预测得到的文字字符可以为“个头”，基于“西”以及“ge tou”预测得到的文字字符可以为“跟头”，基于“洗”、“个头”、“hao ma”，以及“西”、“跟头”、“hao ma”预测得到的文字字符均为“好吗”时，所生成的索引网络即如图3所示。图3为一个实施例中，索引网络示意图。其中，候选文字序列即为一条以开始节点为起始点，以结束节点为终点，以节点和线段连接而成一条字符序列，比如，“洗个头好吗”即为一个候选文字序列。语言子模型提取索引网络中的各字符的字符特征，并基于字符特征从索引网络中提取出目标关键词。如此，语音识别模型遍历全部的语音子片段，直至从各语音子片段中均提取出对应的目标关键词，并将提取出的全部目标关键词组合成关键词序列。

S208，通过对所述关键词序列以及所述服务关键词集进行关键词匹配，确定与所述语音片段相匹配的服务项目。

其中，服务关键词集包括多个子集。可以根据服务关键词各自所属的服务项目划分为多个子集。服务项目包括项目名称以及对应的标准服务总时长。项目名称表征了在养老服务过程中服务人员应该执行的服务内容，比如，项目名称可以为“洗头”、“按摩”，当服务关键词为“洗头”、“水温”、“按摩”、“力度”时，与“洗头”服务项目相对应的子集即为{“洗头”、“水温”}，与“按摩”服务项目相对应的子集即为{“按摩”、“力度”}。标准服务总时长是指依照服务行业标准所确定执行服务项目的执行时长。

具体地，主机盒子将关键词序列与服务关键词集进行关键词匹配，根据匹配结果统计每个子集中包含关键词序列中的目标关键词的数量，并将包含目标关键词数量最多的子集判定为目标子集。主机盒子获取预设的子集与服务项目信息之间的对应关系，基于对应关系确定与目标子集相对应的服务项目，并将与目标子集相对应的服务项目判定为与语音片段相匹配的服务项目信息。比如，在上述举例中，当关键词序列为{“洗头”、“水温”、“头皮”}时，主机盒子统计与“洗头”服务项目相对应的子集中包含有两个目标关键词，与“按摩”服务项目相对应的子集中未包含有目标关键词，此时，主机将“洗头”服务项目判定为与语音片段相匹配的服务项目。

在一个实施例中，主机盒子判断目标子集中包含有目标关键词的数量是否大于预设的数量阈值，若大于，则可以认为服务人员此时确实正在执行相匹配的服务项目。若小于，主机盒子控制麦克盒子再持续录制一段预设时长的语音片段，并基于增加录制的语音片段判断服务人员此时是否确实正在为被服务对象提供相应服务项目。通过包含有目标关键词的数量对服务人员的工作情况进行验证，可以减少主机盒子基于服务开始关键词判定服务人员已经开始工作，而实际上服务人员确未真正执行服务项目的概率。

S210，根据待识别语音的采样时间和标准服务总时长，对工作时长进行监控。

具体地，当确定与相匹配的服务项目对应的标准服务总时长时，主机盒子获取包含有服务开始关键词的待识别语音的采样时间，并将包含有服务开始关键词的待识别语音的采样时间判定为服务项目的开始时间，主机根据服务项目的开始时间以及标准服务总时长确定服务项目的剩余服务时长。

在一个实施例中，麦克盒子持续采集服务人员与被服务对象之间的语音流，并将语音流作为待识别语音发送至主机盒子。当主机盒子检测出待识别语音中包含服务结束关键词时，比如包含“服务结束”时，主机盒子确定包含服务结束关键词的待识别语音的采样时间，并将包含服务结束关键词的待识别语音的采样时间判断为服务项目的结束时间。主机盒子根据开始时间、结束时间确定服务人员的实际工作时长，并根据实际工作时长以及标准服务总时长对服务人员的工作情况进行监控。

上述工作时长监控方法中，通过获取待识别语音，可以确定待识别语音中是否包含有服务开始关键词，并在包含有服务开始关键词时，判定服务人员确实已开始工作，从而将待识别语音的采样时间判定为开始执行服务项目的真正开始时间，因此，相比于传统的直接将服务订单中服务项目的开始时间作为服务人员开始工作的时间，本方案可以提升开始工作时间判定的准确性；通过获取与服务开始关键词相关联的语音片段和服务关键词集，可以基于预训练的语音识别模型对语音片段中的目标关键词进行识别，得到关键词序列；通过将关键词序列与服务关键词集进行匹配，可以基于匹配结果确定与语音片段相匹配的服务项目，由于是根据语音流中的关键词序列确定服务人员真正在执行的服务项目，相比于传统的将服务订单中的服务项目判定为服务人员正在执行的服务项目，本方案可以综合实际情况，对实际执行的服务项目进行判定，从而提升了服务项目判定的准确性；此外，通过确定实际执行的服务项目，可以根据服务项目的标准服务总时长以及开始时间，对服务人员的实际工作时长进行有效监控。

在一个实施例中，语音识别模型的训练步骤包括：获取与样本语音对应的样本文本以及发音词典；样本文本包括至少一个待标注分词；根据发音词典对待标注分词进行发音标注，得到标签序列；基于样本语音以及对应的标签序列对语音识别模型进行训练。

其中，样本语音是指用于训练语音识别模型的语音数据。样本文本是指对样本语音进行语音识别后，得到的文本数据。样本文本包括正样本以及负样本，正样本是指包含有目标关键词的文本数据，负样本是指未包含有目标关键词的文本数据。发音词典是指用于确定分词的声调音节和声韵母之间的映射关系的词典。发音词典包含了样本数据中所有字和分词的发音。

具体地，模型训练人员获取尽可能多的样本语音，并人工对样本语音进行语音识别，得到对应的样本文本，之后，将样本语音对应的样本文本以及发音词典输入语音识别模型中。语音识别模型对样本文本进行分词处理，得到多个待标注分词，并在发音词典中查询与待标注分词相对应的发音标签，基于发音标签对待标注分词进行发音标注。主机盒子组合各待标注分词所对应的发音标注，得到标签序列。比如，发音词典中各分词的标注格式为：声母+韵母+音调，1-4对应四种音调，5为轻声，从而待标注分词“阿九”所对应的发音标签可以为“aa a1 j iu3”。

进一步地，语音识别模型基于样本语音以及对应的标签序列对声学子模型以及语言子模型进行模型训练，直至训练后的模型参数满足预设要求。

在其中一个实施例中，根据发音词典对待标注分词进行发音标注包括：对待标注分词与发音词典进行分词匹配，并基于分词匹配结果判断发音词典中是否存在与待标注分词相匹配的发音分词；当发音词典中存在与待标注分词相匹配的发音分词时，根据相匹配的发音分词所对应的发音标签对待标注分词进行标注；当发音词典中不存在与待标注分词相匹配的发音分词时，基于预设规则对待标注分词进行分割，得到分词片段；将分词片段作为待标注分词，返回对待标注分词与所述发音词典进行分词匹配的步骤，直至发音词典中存在与待标注分词相匹配的发音分词。

其中，发音词典包括发音分词以及对应的发音标签。发音分词是指单个分词或者字符，发音标签是指以声母+韵母+音调的标注格式对发音分词进行标注后得到的标签信息。

具体地，主机盒子将待标注分词与发音词典中的各发音分词进行分词匹配，并根据匹配结果判断发音词典中是否存在与待标注分词相匹配的发音分词。当发音词典中存在与待标注分词相同的发音分词时，主机盒子将相同的发音分词所对应的发音标签作为待标注分词的标注结果。当发音词典中不存在与待标注分词相同的发音分词时，主机盒子基于预设规则对待标注分词进行分割，得到分词片段。比如，预设规则可以为以中间字符为分割点，对待标注分词进行分割，从而当待标注分词为“荔苑小区”时，可以基于预设规则将待标注分词分割为“荔苑”和“小区”。

进一步地，主机盒子将每个分词片段作为一个待标注分词，并返回对待标注分词与发音词典进行分词匹配的步骤，直至发音词典中存在与待标注分词相匹配的发音分词。比如，当发音词典中不存在与“荔苑”相匹配的发音分词时，麦克盒子对“荔苑”进行进一步划分，得到“荔”和“苑”，并基于发音词典分别对“荔”和“苑”进行标注。

本实施例中，通过发音词典自动对待标注分词进行发音标注处理，相比于传统的人工进行发音标注，本申请不仅可以提升标注效率，而且可以节约人工进行发音标注时所耗费的人力资源。

在一个实施例中，如图4所示，语音识别模型的训练步骤包括：

S402，获取语音分离增强模型的第一损失函数及目标识别模型的第二损失函数。

S404，基于第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型。

S406，对第一损失函数和第二损失函数进行融合，得到目标损失函数。

S408，基于目标损失函数对语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

其中，语音识别模型包括语音分离增强模型以及目标识别模型；目标识别模型包括声学子模型以及语言子模型。语音分离增强模型是指经过训练后具有语音分离和/或增强能力的模型，具体可以是以样本语音作为训练数据，进行学习训练得到的用于将目标语音从样本语音中的背景干扰中分离出来的模型。可以理解，语音分离增强模型还可以具有对语音信号进行语音活动检测(Voice Activity Detection，VAD)、回声消除、混响消除或声源定位等预处理的能力，对此不作限制。目标识别模型是经过训练后具有语音识别能力的声学模型，具体可以是以样本语音以及标签序列作为训练数据，进行学习训练得到的用于对样本语音进行音素识别的模型。语音分离增强模型与目标识别模型分别可以是预先训练好的。预训练的语音分离增强模型与语音识别模型各自具有固定的模型结构和模型参数。

具体地，为了进一步提升语音模型的识别准确性，可以在语音模型中增加语音分离增强模型，并基于语音分离增强模型对语音模型进行进一步训练。当需要进行联合模型训练时，主机盒子获取预训练的语音分离增强模型和目标识别模型，以及预训练语音分离增强模型时所采用的第一损失函数、预训练目标识别模型时所采用的第二损失函数。损失函数(loss function)通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。预训练语音分离增强模型所采用的第一损失函数及预训练语音识别模型所采用的第二损失函数分别具体可以是均方误差、平均绝对值误差、Log-Cosh损失、分位数损失、理想分位数损失等。

传统方式主要是将语音处理任务拆分为完全独立的两个子任务：语音分离任务和语音和识别任务。如此，在训练阶段，允许模块化对语音分离增强模型和目标识别模型分别训练，在生产测试阶段，将语音分离增强模型输出的增强后待识别输入到目标识别模型进行识别。容易发现，这种方式并没有很好的解决两种表征范畴之间的差异化问题。在居家养老服务等实际应用场景中，待识别语音受背景音乐或多说话人干扰影响的现象普遍存在。如此，语音分离增强模型在进行前端语音处理时会引入相对严重的失真，而这在目标识别模型训练阶段不曾考虑，从而直接将独立的前端语音分离增强模型和后端目标识别模型级联，会严重降低最终语音识别性能。

为了克服两种表征范畴之间的差异，本申请的实施例在语音分离增强模型和目标识别模型之间桥接了待训练的中间模型。训练后的中间模型可以称作鲁棒表征模型。更具体地，主机盒子按照预设的深度学习优化算法确定第二损失函数在每次迭代过程产生的局部下降梯度。主机盒子将局部下降梯度反向传播至中间模型，以对中间模型对应的模型参数进行更新，直至符合预设的训练停止条件时结束训练。

主机盒子通过对第一损失函数与第二损失函数分进行预设逻辑运算，得到目标损失函数。以加权求和为例，假设加权因子为λ_SS，则目标损失函数L＝L₂+λ_SSL₁。加权因子可以是根据经验或实验设定的数值，如0.1。容易发现，通过调整加权因子可以调整在多模型联合训练时语音分离增强模型的重要性。主机盒子按照预设的深度学习优化算法确定目标损失函数产生的全局下降梯度。用于确定局部下降梯度的深度学习优化算法与用于确定全局下降梯度的深度学习优化算法可以相同，也可以不同。目标损失函数产生的全局下降梯度从目标识别模型依次反向传播至鲁棒表征模型和语音分离增强模型的网络各层，在此过程中对语音分离增强模型、鲁棒表征模型及目标识别模型对应的模型参数分别进行迭代更新，直至满足预设的训练停止条件时结束训练。

本实施例中，中间模型借助后端目标识别模型的第二损失函数反向传播完成训练，而语音分离增强模型和目标识别模型可以是预选训练好的，如此可以在较少的迭代训练次数后即可达到收敛。此外，基于前后端模型分别对应损失函数的组合对端到端的网络模型进行联合训练，使得网络架构中每个单独的模型均能够综合学习来自复杂声学环境语音信号中的干扰特征，从而可以保证全局的语音处理任务的性能，提高语音识别准确性。

在一个实施例中，通过对关键词序列以及服务关键词集进行关键词匹配，确定与语音片段相匹配的服务项目包括：当关键词序列中存在项目名称时，根据问答组合，从关键词序列中提取出至少一个询问关键词以及至少一个应答关键词；确定每个询问关键词和应答关键词各自对应的采样时间；根据询问关键词的采样时间以及应答关键词的采样时间，对询问关键词以及应答关键词进行关键词匹配，得到匹配对；当匹配对的数量大于预设数量阈值时，将关键词序列中存在的项目名称作为与语音片段相匹配的服务项目。

具体地，服务关键词集包括多个与不同服务项目相对应的子集。每个子集中包括对应服务项目的项目名称以及问答组合。其中，问答组合包括询问关键词以及对应的应答关键词；询问关键词是指服务人员在执行服务项目过程中，按照服务要求与被服务对象在语言交流中所使用的规范询问用语中的关键词，比如，当服务项目为洗头时，规范询问用语可以为“请问水温合适吗”，从而询问关键词可以为“水温”；应答关键词是应答询问用语的应答话语中的关键词，比如，在上述举例中，当询问关键词为“水温”时，应答关键词即可为“合适”、“太高”、“刚刚好”等。容易理解地，问答组合中的一个询问关键词可以与多个应答关键词相对应。

主机盒子判断关键词序列中是否存在项目名称，若存在项目名称，主机盒子获取与此项目名称相对应的子集，并从相对应的子集中提取问答组合。主机盒子对问答组合与关键词序列进行关键词匹配，根据匹配结果，判断关键词序列中是否存在询问关键词以及应答关键词，若存在，主机盒子从关键词序列中提取出至少一个询问关键系以及应答关键词。为了描述方面，下述将从关键词序列中提取出的询问关键词称作目标询问关键词，将从关键词序列中提取出的应答关键词称作目标应答关键词。当语音识别模型提取目标关键词时，可以记录提取目标关键词的提取时间，并将提取时间作为对应目标询问关键词或目标应答关键词的采样时间。主机盒子将采样时间差小于预设时间差阈值的目标应答关键词和目标询问关键词作为一对匹配对，当关键词序列中的匹配对的数量大于预设数量阈值时，则可以认为此时服务人员确实正在执行服务项目，此时主机盒子将关键词序列中的项目名称作为与语音片段相匹配的服务项目。

在其中一个实施例中，主机根据待识别语音的采样时间确定语音片段的开始采样时间，根据语音片段的开始采样时间以及对语音片段进行分帧处理时所采用的采样频率，确定各语音子片段的采样时间，当语音子片段中存在目标询问关键词或者目标应答关键词时，将语音子片段的采样时间作为目标询问关键词或者目标应答关键词的采样时间。

本实施例中，通过匹配对的数量对服务人员的工作情况进行验证，可以减少主机盒子基于服务开始关键词判定服务人员已经开始工作，而实际上服务人员确未真正执行服务项目的概率。

在一个实施例中，上述工作时长监控方法还包括：获取房屋结构图以及当前定位信息；在房屋结构图上，确定与当前定位信息相匹配的房间定位点，得到目标房间定位点；基于目标房间定位点，对服务项目进行修正。

具体地，当被服务对象需要居家养老服务时，被服务对象可以在预设网页中上传房屋结构图，以使计算机设备根据房屋结构图生成服务订单。主机盒子获取服务订单，并对服务订单进行解析，得到被服务对象家中的房屋结构图。主机盒子上安装有GPS(GlobalPositioning System全球定位系统)定位系统，根据GPS定位系统可以确定当前自身所在的位置。主机盒子获取当前定位信息，并根据当前定位信息以及房屋结构图，确定与当前定位信息相匹配的目标房间定位个点。主机盒子判断目标房间定位点所属的房间类型，并根据房间类型对服务项目进行验证。比如，在目标房间定位点所属的房间类型为卧室，而服务项目为洗头时，可以判定此时的服务项目有误，从而主机盒子再次控制麦克盒子采集预设时长的语音片段，并基于语音片段重新确定服务项目。

本实施例中，通过定位信息对服务项目进行验证，可以增加确定服务项目的准确性。

在一个实施例中，上述工作时长监控方法还包括：获取加时关键词集以及被服务对象的音色特征；加时关键词集包括至少一个加时关键词；基于音色特征从关键词序列中筛选出与被服务对象相对应的关键词，得到被服务对象关键词集；当被服务对象关键词集包含有预设数量的加时关键词时，从被服务对象关键词集中提取数字字符；基于数字字符延长服务项目的标准服务总时长。

其中，加时关键词是指从加时语句中提取出的用以表征服务加时的关键词。比如，当加时语句为“延长十分钟”，对应的加时关键词即为“延长”、“十”、“分钟”。为了进一步提升语音识别模型，可以基于加时关键词集对语音识别模型进行训练，从而训练后的语音识别模型可以从语音流中提取出加时关键词。

具体地，在开始居家养老服务之前，麦克盒子可以预先采集被服务对象的语音流，并将被服务对象的语音流发送至主机盒子，由主机盒子中的语音识别模型提取出被服务对象的音色特征，并将提取出的音色特征对应存储。其中，音色特征可以包括音频特征、音调特征等。在居家养老服务过程中，主机盒子根据被服务对象的音色特征，从关键词序列中筛选出与被服务对象相对应的关键词，得到被服务对象关键词集，即从关键词序列中筛选出被服务对象所说的目标关键词。主机盒子判断目标关键词中是否包含有预设数量的加时关键词，比如是否包含有3个加时关键词，若包含，主机盒子从被服务对象关键词集中提取数字字符，并基于数字字符延长服务项目的标准服务总时长。

在其中一个实施例中，当从被服务对象关键词集提取出加时关键词时，主机盒子确定各加时关键词的采集时间，并计算各加时关键词的采集时间之间的时间差，在时间差均小于预设时间阈值时，从被服务对象关键词集中提取数字字符，并基于数字字符延长服务项目的标准服务总时长。

本实施例中，被服务对象仅仅需要述说加时语句，即可快速实现服务加功能，如此，大大提升了用户体验。

在一个实施例中，根据待识别语音的采样时间和标准服务总时长，对工作时长进行监控包括：基于待识别语音的采样时间和标准服务总时长确定服务结束时间；获取当前时刻；基于当前时刻以及服务结束时间，确定剩余服务时长；展示剩余服务时长。

具体地，主机盒子将包含有服务开始关键词的待识别语音的采集时间判定为服务项目开始执行时间，并基于服务项目开始执行时间以及标准服务总时长确定服务结束时间。主机盒子获取当前时间，根据当前时刻以及服务结束时间，确定剩余服务时长，与此同时，主机盒子在本机屏幕中展示剩余服务时长。

本实施例中，通过确定待识别语音的采样时间，可以准确定服务项目的真正开始执行时间，从而可以在本机屏幕中对应展示实际剩余服务时长。

应该理解的是，虽然图2、4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种工作时长监控装置500，包括：采样模块502、服务项目确定模块504和工作时长确定模块506，其中：

采样模块502，用于获取待识别语音；当所述待识别语音中包含服务开始关键词时，确定所述待识别语音的采样时间，以及获取与所述服务开始关键词相关联的语音片段和服务关键词集。

服务项目确定模块504，用于基于预训练的语音识别模型对所述语音片段进行识别，得到关键词序列；通过对所述关键词序列以及所述服务关键词集进行关键词匹配，确定与所述语音片段相匹配的服务项目；所述服务项目包括标准服务总时长。

工作时长确定模块506，用于根据所述待识别语音的采样时间和标准服务总时长，对工作时长进行监控。

在一个实施例中，如图6所示，服务项目确定模块504还包括训练模块5041，用于获取与样本语音对应的样本文本以及发音词典；所述样本文本包括至少一个待标注分词；根据所述发音词典对所述待标注分词进行发音标注，得到标签序列；基于所述样本语音以及对应的标签序列对语音识别模型进行训练。

在一个实施例中，训练模块5041还用于获取语音分离增强模型的第一损失函数及目标识别模型的第二损失函数；基于所述第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型；对所述第一损失函数和第二损失函数进行融合，得到目标损失函数；基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

在一个实施例中，服务项目确定模块504还包括应答模块5042，用于当关键词序列中存在项目名称时，根据所述问答组合，从所述关键词序列中提取出至少一个询问关键词以及至少一个应答关键词；确定每个询问关键词和应答关键词各自对应的采样时间；根据询问关键词的采样时间以及应答关键词的采样时间，对询问关键词以及应答关键词进行关键词匹配，得到匹配对；当所述匹配对的数量大于预设数量阈值时，将所述关键词序列中存在的项目名称作为与所述语音片段相匹配的服务项目。

在一个实施例中，工作时长监控装置500还用于获取加时关键词集以及被服务对象的音色特征；所述加时关键词集包括至少一个加时关键词；基于所述音色特征从所述关键词序列中筛选出与被服务对象相对应的关键词，得到被服务对象关键词集；当所述被服务对象关键词集包含有预设数量的加时关键词时，从所述被服务对象关键词集中提取数字字符；基于所述数字字符延长所述服务项目的标准服务总时长。

在一个实施例中，工作时长确定模块506还包括剩余时长确定模块5061，用于基于所述待识别语音的采样时间和标准服务总时长确定服务结束时间；获取当前时刻；基于所述当前时刻以及所述服务结束时间，确定剩余服务时长；展示所述剩余服务时长。

关于工作时长监控装置的具体限定可以参见上文中对于工作时长监控方法的限定，在此不再赘述。上述工作时长监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种工作时长监控方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别语音；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在一个实施例中，语音识别模型包括语音分离增强模型以及目标识别模型；处理器执行计算机程序时还实现以下步骤：

在一个实施例中，服务关键词集包括项目名称以及问答组合；处理器执行计算机程序时还实现以下步骤：

确定每个询问关键词和应答关键词各自对应的采样时间；

获取房屋结构图以及当前定位信息；

基于所述目标房间定位点，对所述服务项目进行修正。

基于所述数字字符延长所述服务项目的标准服务总时长。

获取当前时刻；

展示所述剩余服务时长。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别语音；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，语音识别模型包括语音分离增强模型以及目标识别模型；计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，服务关键词集包括项目名称以及问答组合；计算机程序被处理器执行时还实现以下步骤：

确定每个询问关键词和应答关键词各自对应的采样时间；

获取房屋结构图以及当前定位信息；

基于所述目标房间定位点，对所述服务项目进行修正。

基于所述数字字符延长所述服务项目的标准服务总时长。

获取当前时刻；

展示所述剩余服务时长。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种工作时长监控方法，其特征在于，所述方法包括：

获取待识别语音；

2.根据权利要求1所述的方法，其特征在于，所述语音识别模型的训练步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括语音分离增强模型以及目标识别模型；所述语音识别模型的训练步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述服务关键词集包括项目名称以及问答组合；所述通过对所述关键词序列以及所述服务关键词集进行关键词匹配，确定与所述语音片段相匹配的服务项目包括：

确定每个询问关键词和应答关键词各自对应的采样时间；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取房屋结构图以及当前定位信息；

基于所述目标房间定位点，对所述服务项目进行修正。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述数字字符延长所述服务项目的标准服务总时长。

7.根据权利要求1所述的方法，其特征在于，所述根据所述待识别语音的采样时间和标准服务总时长，对工作时长进行监控包括：

获取当前时刻；

展示所述剩余服务时长。

8.一种工作时长监控装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。