CN112309374A

CN112309374A - 服务报告生成方法、装置和计算机设备

Info

Publication number: CN112309374A
Application number: CN202011066147.2A
Authority: CN
Inventors: 廖光朝
Original assignee: Audio Digital Huiyuan Shanghai Intelligent Technology Co ltd
Current assignee: Audio Digital Huiyuan Shanghai Intelligent Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-02-02

Abstract

本申请涉及一种服务报告生成方法、装置和计算机设备。所述方法包括：获取在服务时段内采集的目标语音流；基于预训练的语音识别模型提取目标语音流中的语音关键词，得到语音关键词集；对语音关键词集进行声谱分析，得到各语音关键词各自对应的声谱特征；根据异常关键词库和声谱特征从语音关键词中筛选出异常关键词；确定与异常关键词相关联的语音片段；基于语音关键词集以及语音片段生成服务报告。采用本方法能够提升服务报告的生成效率。

Description

服务报告生成方法、装置和计算机设备

技术领域

本申请涉及居家养老技术领域，特别是涉及一种服务报告生成方法、装置和计算机设备。

背景技术

随着老年人口的不断增多，居家养老服务应运而生。居家养老服务是由经过专业培训的服务人员上门为老年人提供日常照料服务。

当居家养老服务的过程中，服务人员可以将异常情况记录在册，形成服务报告，并将服务报告发送至居家老人的监护人，从而监护人能够根据服务报告中的异常情况了解在执行居家养老服务的过程中，双方是否发生矛盾冲突。但是，手工记录异常情况过程的效率较低，从而导致服务报告的生成效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升服务报告生成效率的服务报告生成方法、装置、计算机设备和存储介质。

一种服务报告生成方法，所述方法包括：

获取在服务时段内采集的目标语音流；

基于预训练的语音识别模型提取所述目标语音流中的语音关键词，得到语音关键词集；

对语音关键词集进行声谱分析，得到各语音关键词各自对应的声谱特征；

根据异常关键词库和声谱特征从所述语音关键词中筛选出异常关键词；

确定与所述异常关键词相关联的语音片段；

基于所述语音关键词集以及语音片段生成服务报告。

在其中一个实施例中，所述语音识别模型包括语音分离增强模型、鲁棒表征模型及目标识别模型；所述基于预训练的语音识别模型提取所述目标语音流中的语音关键词包括：

基于语音分离增强模型提取所述目标语音流中每个音频帧的增强频谱；

基于鲁棒表征模型对所述增强频谱进行听觉匹配，得到鲁棒特征；

基于目标识别模型对所述鲁棒特征进行识别，得到每个音频帧对应的音素；

基于所述每个音频帧对应的音素从所述目标语音流中提取出语音关键词。

在其中一个实施例中，所述语音识别模型包括语音分离增强模型、鲁棒表征模型及目标识别模型；所述语音识别模型的训练步骤包括：

获取语音分离增强模型的第一损失函数及目标识别模型的第二损失函数；

基于所述第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型；

对所述第一损失函数和第二损失函数进行融合，得到目标损失函数；

基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

在其中一个实施例中，所述根据异常关键词库和声谱特征从所述语音关键词中的筛选出异常关键词包括：

对所述语音关键词集进行遍历；

在当前遍历顺序的语音关键词与预设的异常关键词库匹配成功时，获取标准声谱特征；

在当前遍历顺序的语音关键词的声谱特征与所述标准声谱不匹配时，判定所述当前遍历顺序的语音关键词为异常关键词。

在其中一个实施例中，所述基于所述语音关键词集以及语音片段生成服务报告包括：

对所述语音片段进行声谱分析，得到多个频谱点；所述频谱点包括采样时间以及声音幅值；

根据所述采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点；

通过预训练的异常噪音识别模型对所述第一目标频谱点进行识别，得到与所述第一目标频谱点相对应的噪音类型；

基于所述语音关键词集以及所述噪音类型生成服务报告。

在其中一个实施例中，所述根据所述采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点包括：

将采样时间连续且声音幅值均超出第一门限阈值的多个频谱点归为一个幅值聚类簇；

统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值；所述第二门限幅值大于第一门限幅值；

将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇；所述目标幅值聚类簇由第一目标频谱点组成。

在其中一个实施例中，所述方法还包括：

获取当前定位信息；

基于所述定位信息确定室内置信度；

当所述室内置信度大于预设阈值时，获取当前气压信息以及搜索网络数据；

根据所述气压信息确定楼层信息，及根据所述搜索网络数据确定楼层区域；

组合所述定位信息、楼层、楼层区域，得到住址信息；

根据所述住址信息、语音关键词集以及语音片段生成服务报告。

一种服务报告生成装置，所述装置包括：

语音关键词提取模块，用于获取在服务时段内采集的目标语音流；基于预训练的语音识别模型提取所述目标语音流中的语音关键词，得到语音关键词集；

异常关键词确定模块，用于对语音关键词集进行声谱分析，得到各语音关键词各自对应的声谱特征；根据异常关键词库和声谱特征从所述语音关键词中筛选出异常关键词；

报告生成模块，用于确定与所述异常关键词相关联的语音片段；基于所述语音关键词集以及语音片段生成服务报告。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取在服务时段内采集的目标语音流；

确定与所述异常关键词相关联的语音片段；

基于所述语音关键词集以及语音片段生成服务报告。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取在服务时段内采集的目标语音流；

确定与所述异常关键词相关联的语音片段；

基于所述语音关键词集以及语音片段生成服务报告。

上述服务报告生成方法、装置、计算机设备和存储介质，通过获取目标语音流，可以基于预训练的语音识别模型从目标语音流中准确、快速地提取出多个语音关键词，得到语音关键词集；通过提取出语音关键词，可以对语音关键词进行声谱分析，从而可以综合声谱分析结果以及异常关键词库，准确地从语音关键词集中筛选出异常关键词；通过获取异常关键词以及与异常关键词相关联的语音片段，可以基于语音关键词以及语音片段生成服务报告，以使服务报告阅读者可以将语音关键词以及语音片段作为现场证据，还原服务场景。由于本申请是根据目标语音流中的异常关键词以及语音片段自动生成服务报告，因此相比于传统的手工记录异常情况，本申请大大提升了服务报告生成效率。

附图说明

图1为一个实施例中服务报告生成方法的应用环境图；

图2为一个实施例中服务报告生成方法的流程示意图；

图3为一个实施例中索引网络示意图；

图4为一个实施例中服务报告示意图；

图5为一个实施例中语音识别模型训练方法的流程示意图；

图6为另一个实施例中服务报告示意图；

图7为一个实施例中服务报告生成装置的结构框图；

图8为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的服务报告生成方法，可以应用于如图1所示的应用环境中。其中，麦克盒子102通过网络与主机盒子104进行通信。麦克盒子102上设置有麦克风阵列，用于捕捉居家养老服务过程中服务人员与被服务对象之间的语音流，并将捕捉到的语音流发送至主机盒子104。主机盒子104用于提取出语音流中的语音关键词，并根据异常关键词库以及语音关键词的声谱特征判断提取出的语音关键词是否为异常关键词，当为异常关键词时，主机盒子104获取与异常关键词相关联的语音片段。当确认居家养老服务结束时，主机盒子104根据提取出的全部服务关键词以及对应的语音片段生成服务报告。其中，主机盒子104可以但不限于是计算机设备，该计算机设备具体可以为具有语音采集功能的终端，或相应电子设备。

在一个实施例中，如图2所示，提供了一种服务报告生成方法，以该方法应用于图1中的主机盒子为例进行说明，包括以下步骤：

S202，获取在服务时段内采集的目标语音流。

其中，服务时段是指服务人员为被服务对象提供居家养老服务的时间区间。目标语音流可以是在居家养老服务环境中采集到的音频数据流。目标语音流可以预先采集并存储在主机盒子中的，也可以是主机盒子动态获取得到的。

具体地，在居家养老服务过程中，麦克盒子识别目标语音流中的静音片段，根据静音片段对目标语音流进行分割，得到多个子语音流。主机盒子按照预设的采样频率在子语音流中采集音频帧。每个音频帧的帧长以及相邻音频帧之间的帧移均可以根据需求自由设定。在一个具体的实施例中，主机盒子基于16kHZ的采样频率，25ms的帧长、10ms的帧移进行音频帧采集。

容易理解地，也可以在主机盒子中设置麦克风阵列，用以采集目标语音流。

S204，基于预训练的语音识别模型提取目标语音流中的语音关键词。

其中，语音关键词包括服务关键词以及异常关键词。服务关键词是指在居家养老服务过程中，服务人员与被服务对象在语言交流中所使用的规范用语中的关键词。规范用语是指预先约定的服务人员在居家养老服务过程中应该使用的用以表示尊敬以及友好的服务用语。比如，当规范用语为“现在为您洗头”时，服务关键词即为“洗头”；当规范用语为“请问水温合适吗”时，服务关键词即为“水温”。异常关键词是指包含有求救语意的关键词，比如异常关键词可以为“救命”、“不好”、“快来人”等。

语音识别模型是指具有语音特征提取能力的机器学习模型。语音特征是用于反映音频特征的数据。语音特征可以为音色、发音、音调等其中一种或者多种特性信息。语音识别模型包括语音分离增强模型、鲁棒表征模型及目标识别模型。目标识别模型包括声学子模型以及语言子模型。

具体地，语音识别模型获取对目标语音流进行分割后得到的多个子语音流，并将子语音流输入语音分离增强模型中，由语音分离增强模型提取子语音流中每个音频帧的增强频谱。其中，语音分离增强模型是指经过训练后具有语音分离和/或增强能力的模型，具体可以是以样本语音作为训练数据，进行学习训练得到的用于将目标语音从样本语音中的背景干扰中分离出来的模型。当提取得到子语音流中每个音频帧的增强频谱时，语音识别模型将增强频谱输入鲁棒表征模型，由鲁棒表征模型对增强频谱进行听觉匹配，得到鲁棒特征。其中，鲁棒表征模型是桥接在前端语音分离增强模型和后端目标识别模型之间的一种神经网络模型。鲁棒特征是用于对前端的语音分离增强模型输出的增强频谱进行转换，得到的一种中间过渡特征，该中间过渡特征作为后端目标识别模型的输入。

进一步的，当获取得到鲁棒特征时，语音识别模型将鲁棒特征输入声学子模型，由声学子模型对鲁棒特征进行解码，得到目标语音流中每个音频帧各自对应的音素。声学子模型根据每个音频帧所对应的音素，确定各个音频帧各自对应的拼音，组合每个音频帧各自对应的拼音得到拼音序列，比如，当子语音流为“洗个头好吗”时，经声学子模型得到的拼音序列即为“xi ge tou hao ma”。

其中，音素是构成音节的最小单位或最小语音片段。声学子模型是用于描述语音特征与语音建模单元之间的联系的模型，是语音识别系统的重要部分。传统的语音识别模型普遍采用GMM-HMM(Gaussian Mixture Models-Hidden Markov Model)声学模型，其中GMM对语音声学特征的分布进行建模，HMM对语音信号的时序进行建模。但是，GMM本质上是一种浅层网络模型，其描述声学特征状态控件分布的能力较弱，当训练语音数据较为庞大时，语音识别准确性较低。本申请采用CNN-HMM(Convolutional Neural Networks-HiddenMarkov Model)进行声学建模。CNN是一种深层模型，通过自身的参数调整可以自适应地拟合任意数据的分布，从而可以实现较高的识别准确率。

进一步地，语言子模型用于预测与拼音序列相对应候选文字序列的出现概率，并基于出现概率生成索引网络。由于同音字符的存在，当获取得到拼音序列时，语言子模型通过拼音序列确定N-1个字符，并基于N-1个字符来预测下一字符出现的概率，如此，得到一条或多条与拼音序列相对应候选文字序列，并基于得到的候选文字序列生成索引网络，与此同时，语言子模型从索引网络中提取出语音关键词。比如，当拼音序列即为“xi ge tou haoma”，与“xi”相对应的文字字符可以为“洗”与“西”，基于“洗”以及“ge tou”预测得到的文字字符可以为“个头”，基于“西”以及“ge tou”预测得到的文字字符可以为“跟头”，基于“洗”、“个头”、“hao ma”，以及“西”、“跟头”、“hao ma”预测得到的文字字符均为“好吗”时，所生成的索引网络即如图3所示，从而语言子模型可以根据预设的关键词库从索引网络中提取出语音关键词。图3为一个实施例中，索引网络示意图。其中，候选文字序列即为一条以开始节点为起始点，以结束节点为终点，以节点和线段连接而成一条字符序列，比如，“洗个头好吗”即为一个候选文字序列。

如此，语音识别模型提取出全部子语音流中的全部语音关键词，得到语音关键词集。

S206，对语音关键词集进行声谱分析，得到各语音关键词各自对应的声谱特征。

其中，声谱特征包括音频帧的声音幅值以及声音频率。声音幅值是指声压值，为了加强声音信号的特征，主机盒子对每一音频帧采用声压值来表征。

主机盒子从目标语音流中提取出仅包含有语音关键词所对应的音素的音频帧，并分别对提取出的音频帧进行声谱分析，得到每个语音关键词各自对应的声谱特征。比如，当语音关键词为“洗头”时，主机盒子确定“洗头”所对应的音素，并根据“洗头”所对应的音素从目标语音流中提取出包含“洗头”的音频帧。

在一个实施例中，对音频数据进行声谱分析可以采用预设的频谱分析算法进行分析处理，具体可以为FFT(fastFouriertransform快速傅里叶变换)频谱分析算法。

S208，根据异常关键词库和声谱特征从语音关键词中筛选出异常关键词。

具体地，主机盒子中预存储有异常关键词库，当获取得到语音关键词集时，主机盒子遍历语音关键词集中的各语音关键词。主机盒子将当前遍历顺序的语音关键词与异常关键词库进行匹配，在当前遍历顺序的语音关键词与异常关键词库不相匹配时，主机盒子判定当前遍历顺序的语音关键词不为异常关键词。在当前遍历顺序的语音关键词与异常关键词库匹配成功时，主机盒子获取当前遍历顺序的语音关键词的声谱特征，并将获取得到的声谱特征与标准声谱特征进行匹配，在声谱特征与标准声谱特征不相匹配时，判定当前遍历顺序的语音关键词为异常关键词；在声谱特征与标准声谱特征匹配时，判定当前遍历顺序的语音关键词不为异常关键词。

其中，标准声谱特征是指对多段正常对话中的语音流进行声谱分析后，得到的平均声谱特征。由于声音频率决定了音调的高度，声音频率越高，音调越高；声音幅值决定了音量大小，声音幅值越大，音量越大；因此当语音关键词的声谱特征与标准声谱特征不相匹配时，可以认为服务人员或者被服务对象的音调或音量并非处于正常范围之内，此时，服务人员与被服务对象之间可能发生冲突。

在一个实施例中，主机盒子获取标准频谱特征，并从语音关键词库中筛选出与标准频谱特征不匹配的候选语音关键词。主机盒子判断候选语音关键词是否位于异常关键词库中，若位于，主机盒子将此候选语音关键词判定为异常关键词。

S210，确定与异常关键词相关联的语音片段。

S212，基于语音关键词集以及语音片段生成服务报告。

具体地，当获取的到异常关键词时，主机盒子以异常关键词为起始点，从目标语音流中截取一段预设时长的语音片段，并将截取的语音片段作为与异常关键词相关联的语音片段。与此同时，主机盒子根据语音关键词集以及语音片段生成服务报告，以使被服务对象的监护人可以根据服务报告了解整个服务过程。

由于当语音流包含有异常关键词时，可以认为在居家养老服务的过程中，服务人员与被服务对象之间发生了矛盾冲突，通过对应采集语音流中的异常关键词以及与异常关键词相关联的语音片段，可以将采集得到的异常关键词和语音片段内嵌于服务报告中，从而服务报告的阅读者可以基于异常关键词大致了解矛盾的严重程度，基于语音片段详细了解矛盾的具体过程。比如，可以基于异常关键词“救命”，确定在养老服务的过程中，发生过严重的人身安全威胁问题；基于语音片段还原发生人身安全威胁的具体过程。

在一个实施例中，当提取得到语音关键词时，主机盒子确定麦克盒子采集此词语音关键词的采集时间，并基于采集时段、语音关键词以及相关联的语音片段生成服务报告，从而被服务对象的监护人员可以根据采集时间、语音关键词以及语音片段了解居家养老服务过程。

在一个实施例中，当基于异常关键词库以及音频特征确定语音关键词集中的异常关键词以及服务关键词时，主机盒子获取预设的各服务项目各自对应的项目关键词集，并从多个项目关键词集中筛选出包含有服务关键词的目标项目关键词集。主机盒子根据项目关键词集与服务项目之间的对应关系，确定与目标关键词集相对应的目标服务项目，并根据目标服务项目生成如图4所示的服务报告。其中，服务项目是指服务人员在进行居家养老服务时应提供的服务内容，比如，服务项目可以为“洗头”、“按摩”等。容易理解地，不用的服务项目具有不同的项目关键词集，比如“洗头”服务项目所对应的项目关键词集可以为{“洗头”、“水温”、“洗发水”}；“按摩”服务项目所对应的项目关键词集可以为{“按摩”、“力度”、“部位”}。图4为一个实施例中，服务报告示意图。

在一个实施例中，主机盒子获取服务人员的人员信息以及被服务对象的对象信息，根据人员信息以及对象信息生成如图4所示的服务报告。

上述服务报告生成方法中，通过获取目标语音流，可以基于预训练的语音识别模型从目标语音流中准确、快速地提取出多个语音关键词，得到语音关键词集；通过提取出语音关键词，可以对语音关键词进行声谱分析，从而可以综合声谱分析结果以及异常关键词库，准确地从语音关键词集中筛选出异常关键词；通过获取异常关键词以及与异常关键词相关联的语音片段，可以基于语音关键词以及语音片段生成服务报告，以使服务报告阅读者可以将语音关键词以及语音片段作为现场证据，还原服务场景。由于本申请是根据目标语音流中的异常关键词以及语音片段自动生成服务报告，因此相比于传统的手工记录异常情况，本申请大大提升了服务报告生成效率。

在一个实施例中，基于预训练的语音识别模型提取目标语音流中的语音关键词包括：基于语音分离增强模型提取目标语音流中每个音频帧的增强频谱；基于鲁棒表征模型对所述增强频谱进行听觉匹配，得到鲁棒特征；基于目标识别模型对鲁棒特征进行识别，得到每个音频帧对应的音素；基于每个音频帧对应的音素从目标语音流中提取出语音关键词。

其中，语音识别模型包括语音分离增强模型、鲁棒表征模型及目标识别模型；目标识别模型包括声学子模型以及语言子模型。语音分离增强模型、鲁棒表征模型及目标识别模型可以是预先联合训练得到的。

具体地，语音分离增强模型可以批量对多个子语音流进行短时傅里叶变换，得到每个子语音流中的语音特征。语音分离增强模型将批量子语音流的语音特征映射至更高维的嵌入空间，在嵌入空间进行语音分离和增强，得到每个音频帧的增强频谱。其中，语音分离增强模型具体可以为基于DANet网络的机器学习模型。增强频谱是指减少背景噪音干扰的子语音流的频谱。鲁棒表征模型提取增强频谱的声学特征。为了贴合人耳听觉习惯，鲁棒表征模型对增强频谱的声学特征进行听觉匹配。鲁棒表征模型对声学特征行非负约束处理，对非负约束处理后的声学特征进行求对数和差分等微分运算，得到鲁棒特征。主机盒子将鲁棒特征输入目标识别模型，得到每个音频帧对应的音素，目标识别模型基于每个音频帧对应的音素从目标语音流中提取出语音关键词。

本实施例中，提出了一种新型的在前端语音分离增强模型和后端目标识别模型之间引入鲁棒表征模型的端到端网络架构，这种架构通过引入适当的中间过渡鲁棒表征模型，使得可以结合各模型的优势对语音关键词进行提取，从而提升了语音提取的准确性。此外，基于对数模型对声学特征的特征向量元素进行求对数运算，能够弱化赋值之间的差异，使其声学特征不同向量元素之间的差异更好的反应人耳实际所能感受出的信号差异。

在一个实施例中，如图5所示，语音识别模型的训练步骤包括：

S502，获取语音分离增强模型的第一损失函数及目标识别模型的第二损失函数。

S504，基于第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型。

S506，对第一损失函数和第二损失函数进行融合，得到目标损失函数。

S508，基于目标损失函数对语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

具体地，当需要进行联合模型训练时，主机盒子获取预训练的语音分离增强模型和目标识别模型，以及预训练语音分离增强模型时所采用的第一损失函数、预训练目标识别模型时所采用的第二损失函数。损失函数(loss function)通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。预训练语音分离增强模型所采用的第一损失函数及预训练语音识别模型所采用的第二损失函数分别具体可以是均方误差、平均绝对值误差、Log-Cosh损失、分位数损失、理想分位数损失等。

传统方式主要是将语音处理任务拆分为完全独立的两个子任务：语音分离任务和目标识别任务。如此，在训练阶段，允许模块化对语音分离增强模型和目标识别模型分别训练，在生产测试阶段，将语音分离增强模型输出的增强后待识别输入到目标识别模型进行识别。容易发现，这种方式并没有很好的解决两种表征范畴之间的差异化问题。在居家养老服务等实际应用场景中，待识别语音受背景音乐或多说话人干扰影响的现象普遍存在。如此，语音分离增强模型在进行前端语音处理时会引入相对严重的失真，而这在目标识别模型训练阶段不曾考虑，从而直接将独立的前端语音分离增强模型和后端目标识别模型级联，会严重降低最终语音识别性能。

为了克服两种表征范畴之间的差异，本申请的实施例在语音分离增强模型和目标识别模型之间桥接了待训练的中间模型。训练后的中间模型可以称作鲁棒表征模型。更具体地，主机盒子按照预设的深度学习优化算法确定第二损失函数在每次迭代过程产生的局部下降梯度。主机盒子将局部下降梯度反向传播至中间模型，以对中间模型对应的模型参数进行更新，直至符合预设的训练停止条件时结束训练。

主机盒子通过对第一损失函数与第二损失函数分进行预设逻辑运算，得到目标损失函数。以加权求和为例，假设加权因子为λ_SS，则目标损失函数L＝L₂+_SSL₁。加权因子可以是根据经验或实验设定的数值，如0.1。容易发现，通过调整加权因子可以调整在多模型联合训练时语音分离增强模型的重要性。主机盒子按照预设的深度学习优化算法确定目标损失函数产生的全局下降梯度。用于确定局部下降梯度的深度学习优化算法与用于确定全局下降梯度的深度学习优化算法可以相同，也可以不同。目标损失函数产生的全局下降梯度从目标识别模型依次反向传播至鲁棒表征模型和语音分离增强模型的网络各层，在此过程中对语音分离增强模型、鲁棒表征模型及目标识别模型对应的模型参数分别进行迭代更新，直至满足预设的训练停止条件时结束训练。

本实施例中，中间模型借助后端目标识别模型的第二损失函数反向传播完成训练，而语音分离增强模型和目标识别模型可以是预选训练好的，如此可以在较少的迭代训练次数后即可达到收敛。此外，基于前后端模型分别对应损失函数的组合对端到端的网络模型进行联合训练，使得网络架构中每个单独的模型均能够综合学习来自复杂声学环境语音信号中的干扰特征，从而可以保证全局的语音处理任务的性能，提高异常关键词识别准确性。

在一个实施例中，根据异常关键词库和声谱特征从语音关键词中的筛选出异常关键词包括：对语音关键词集进行遍历；在当前遍历顺序的语音关键词与预设的异常关键词库匹配成功时，获取标准声谱特征；在当前遍历顺序的语音关键词的声谱特征与标准声谱不匹配时，判定当前遍历顺序的语音关键词为异常关键词。

具体地，主机盒子对语音关键词集进行遍历，判断当前遍历顺序的语音关键词是否位于异常关键词库中，若位于，则可以认为当前遍历顺序的语音关键词与预设的异常关键词库匹配成功，此时，主机盒子获取标准声谱特征，并计算当前遍历顺序的语音关键词的声谱特征与标准声谱特征之间的特征差异，在特征差异值大于预设差值时，可以认为当前遍历顺序的语音关键词与标准声谱特征不相匹配，此时，主机盒子库判定当前遍历顺序的语音关键词为异常关键词。

本实施例中，由于异常关键词是综合考虑声谱特征以及异常关键词库得到的，因此，可以大大减少提取出正常对话中的异常关键词的概率。

在一个实施例中，基于语音关键词集以及语音片段生成服务报告包括：对语音片段进行声谱分析，得到多个频谱点；频谱点包括采样时间以及声音幅值；根据采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点；通过预训练的异常噪音识别模型对第一目标频谱点进行识别，得到与第一目标频谱点相对应的噪音类型；基于语音关键词集以及噪音类型生成服务报告。

其中，异常噪音识别模型是指具有噪音特征提取能力的机器学习模型。噪音特征是用于反映噪音类型的数据，噪音特征具备稳定性和特异性，具体表现在不同噪音类型的声谱图不同，即不同噪音类型的声谱图中的由时间-声音频率构成纹路结构不同。声谱图是描述声音信号的一种二维感知图，是由声音频率、采样时间两个维度信息构成的。声音频率是指声源在一秒之内振动的次数。

具体地，当得到语音片段时，主机盒子基于预设的采样频率对语音信号进行分帧处理，得到多个音频帧。主机盒子从音频帧中提取出声音信号，并对声音信号进行声谱分析，得到声音信号在对应采样时间下的声音幅值。主机盒子组合采样时间以及声音幅值，得到每个音频帧分别对应的频谱点。其中，音频帧的采样时间是指麦克盒子接收到该语音帧的时间点。主机盒子根据采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点。主机盒子确定各第一目标频谱点的采样时间，并将采样时间连续的多个第一目标频谱点归为一个目标聚类簇。

进一步地，异常噪音识别模型中存储有由多个噪音类型所对应的目标声谱图组合而成的目标声谱图集，比如，异常噪音模型中预存储有用于表征人身安全的尖叫声的目标声谱图以及玻璃碎的目标声谱图。当获取得到当前的目标聚类簇时，主机盒子将当前的目标聚类簇输入异常噪音识别模型中，由异常噪音识别模型基于输入的第一目标频谱点生成对应的声谱图。为了描述方便，下述将异常噪音识别模型基于第一目标频谱点生成的声谱图称作候选声谱图。异常噪音识别模型将候选声谱图与目标声谱图集进行匹配，确定候选声谱图与各目标声谱图之间的图像差异，并将图像差满足预设条件的一个目标声谱图作为与候选声谱图相匹配的声谱图，此时异常噪音识别模型将相匹配的目标声谱图的噪音类型判定为候选声谱图的噪音类型。若不存在相匹配的目标声谱图时，则可以认为候选声谱图所对应的音频帧不为目标噪音类型的异常噪音。

进一步地，主机盒子确定包含有目标噪音类型的音频帧的语音片段的采样时间，根据采样时间、噪音类型、语音片段以及语音关键词生成如图6所示的服务报告。图6为一个实施例中服务报告示意图。

本实施例中，通过噪音类型的确定，可以仅将包含有目标噪音类型的音频帧的语音片段记录于服务报告中，从而减小了服务报告的文件大小，进而节约了服务报告的存储空间。

在一个实施例中，根据所述采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点包括：将采样时间连续且声音幅值均超出第一门限阈值的多个频谱点归为一个幅值聚类簇；统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值；所述第二门限幅值大于第一门限幅值；将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇；所述目标幅值聚类簇由第一目标频谱点组成。

具体地，主机盒子按照采样时间的先后顺序对频谱点进行排序，得到频谱序列，并根据采样时间以及声音幅值对频谱序列中的频谱点进行聚类，得到幅值聚类簇。其中，幅值聚类簇中的频谱点的声音幅值均超出第一门限阈值，并且各频谱点之间的采样时间连续。主机盒子统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值，并将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇，将目标聚类簇中的频谱点判定为第一目标频谱点。

本实施例中，由于只需简单的设置一个低门限阈值，即可对语音片段中的异常噪音进行端点检测，如此大大提升了异常噪音的起始点以及终止点检测的效率。此外，通过高门限阈值的设置，可以减少噪声中瞬时尖峰脉冲的影响，从而使得异常噪音识别更为准确。

在一个实施例中，上述服务报告生成方法还包括：获取当前定位信息；基于当前定位信息确定室内置信度；当室内置信度大于预设阈值时，获取当前气压信息以及搜索网络数据；根据当前气压信息确定楼层信息，及根据搜索网络数据确定楼层区域；组合定位信息、楼层、楼层区域，得到住址信息；根据住址信息、语音关键词集以及语音片段生成服务报告。

其中，定位信息是指由GPS(Global Positioning System全球定位系统)定位系统确定的经纬度坐标。气压信息包括高度气压值以及平地低压值；高度气压值是指安装于主机盒子中的气压计所确定的气压值；平地低压值是指被服务对象所在城市的地表面的平均气压值。搜索网络数据是指通过安装于主机盒子中的网络搜索模块搜索到的无线热点上报的数据，具体包括无线热点的名称、ID(Identity document标识账号)坐标、信号强度等。室内置信度是指服务提供人员或者居家老人处于室内的置信度。

具体地，主机盒子获取电子地图以及通过自身的GPS定位系统获取当前的定位信息，并根据当前定位信息中的经纬度坐标，在电子地图中确定相对应的坐标点。主机盒子在电子地图中确定距离坐标点最近的目标建筑，并获取目标建筑所在的经纬度坐标，在目标建筑所在的经纬度坐标与坐标点所对应的经纬度坐标之间的差距小于预设距离阈值时，可以认为与当前定位信息相对应的室内置信度大于预设阈值，此时判定服务人员或者被服务对象处于室内，否则，认为与当前定位信息相对应的室内置信度小于预设阈值，此时判定服务人员或者被服务对象处于室外。其中，电子地图是指数字地图，是利用计算机技术，以数字方式存储和查询的地图，其上标注有各建筑所处的经纬度坐标。当确定服务人员或者被服务对象处于室内时，主机盒子获取气压计所确定的气压值，以及基于网络数据搜索模块确定的搜索网络数据。

当主机盒子基于气压计确定当前的高度气压值时，主机盒子获取预存储的被服务对象所在城市的平地低压值，并根据高度气压值与地平地气压值之间的气压差，确定服务人员或者被服务对象当前所在楼层。比如，每上升9米，大气压降低100帕，在平均平地低压值为x，高度气压值为y时，服务人员或者被服务对象所在高度即为h＝(y-x)/100*9；当层高为3米时，服务人员或者被服务对象所在楼层为i＝(y-x)/100*9/3。

与此同时，主机盒子通过网络搜索模块搜索得到周围存在的无线热点所上报的至少一条搜索网络数据，并根据搜索网络数据中的信号强度确定目标网络数据，比如，主机盒子将信号强度最强的搜索网络数据判定为目标网络数据。主机盒子从目标网络数据中提取出无线热点的ID坐标和名称，并根据ID坐标和名称从对接的宽带安装供应商的安装信息平台中查询对应的宽带安装地址，并将宽带安装地址中的门牌号判定为服务人员或者被服务对象所在楼层区域。主机盒子组合定位信息、楼层、楼层区域，得到住址信息，并根据地址信息、语音关键词集以及语音片段生服务报告。

在一个实施例中，当主机盒子从语音流中提取出异常关键词时，主机盒子可以基于上述方法确定服务人员或被服务对象所在的详细住址信息，从而执法人员可以基于详细住址信息快速前往救援。

本实施例中，由于可以综合定位信息、气压信息以及搜索网络数据确定服务人员或者被服务对象的所在楼层区域，相比于传统的通过网络定位的确定服务人员或者被服务对象大体所在位置，本实施例可以获取更为精准的位置信息。此外，通过在服务报告中注明详细的住址信息，使得服务报告的阅读者可以基于住址信息判断居家养老服务的服务场所是否符合预设要求，比如可以基于住址信息判断是否真正在被服务对象家中执行居家养老服务。

应该理解的是，虽然图2、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种服务报告生成装置700，包括：语音关键词提取模块702、异常关键词确定模块704和报告生成模块706，其中：

语音关键词提取模块702，用于获取在服务时段内采集的目标语音流；基于预训练的语音识别模型提取目标语音流中的语音关键词，得到语音关键词集。

异常关键词确定模块704，用于对语音关键词集进行声谱分析，得到各语音关键词各自对应的声谱特征；根据异常关键词库和声谱特征从语音关键词中筛选出异常关键词。

报告生成模块706，用于确定与异常关键词相关联的语音片段；基于语音关键词集以及语音片段生成服务报告。

在一个实施例中，语音关键词提取模块702还用于基于语音分离增强模型提取目标语音流中每个音频帧的增强频谱；基于鲁棒表征模型对增强频谱进行听觉匹配，得到鲁棒特征；基于目标识别模型对鲁棒特征进行识别，得到每个音频帧对应的音素；基于每个音频帧对应的音素从目标语音流中提取出语音关键词。

在一个实施例中，语音关键词提取模块702还包括模型训练模块7021，用于获取语音分离增强模型的第一损失函数及目标识别模型的第二损失函数；基于第二损失函数进行反向传播，以对桥接在语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型；对第一损失函数和第二损失函数进行融合，得到目标损失函数；基于目标损失函数对语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

在一个实施例中，异常关键词确定模块704还用于对语音关键词集进行遍历；在当前遍历顺序的语音关键词与预设的异常关键词库匹配成功时，获取标准声谱特征；在当前遍历顺序的语音关键词的声谱特征与标准声谱不匹配时，判定当前遍历顺序的语音关键词为异常关键词。

在一个实施例中，报告生成模块706还包括噪音类型确定模块7061，用于对语音片段进行声谱分析，得到多个频谱点；频谱点包括采样时间以及声音幅值；根据采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点；通过预训练的异常噪音识别模型对第一目标频谱点进行识别，得到与第一目标频谱点相对应的噪音类型；基于语音关键词集以及噪音类型生成服务报告。

在一个实施例中，噪音类型确定模块7061还用于将采样时间连续且声音幅值均超出第一门限阈值的多个频谱点归为一个幅值聚类簇；统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值；第二门限幅值大于第一门限幅值；将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇；目标幅值聚类簇由第一目标频谱点组成。

在一个实施例中，服务报告生成装置700还用于获取当前定位信息；基于当前定位信息确定室内置信度；当室内置信度大于预设阈值时，获取当前气压信息以及搜索网络数据；根据当前气压信息确定楼层信息，及根据搜索网络数据确定楼层区域；组合定位信息、楼层、楼层区域，得到住址信息；根据住址信息、语音关键词集以及语音片段生成服务报告。

关于服务报告生成装置的具体限定可以参见上文中对于服务报告生成方法的限定，在此不再赘述。上述服务报告生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种服务报告生成方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取在服务时段内采集的目标语音流；

基于预训练的语音识别模型提取目标语音流中的语音关键词，得到语音关键词集；

根据异常关键词库和声谱特征从语音关键词中筛选出异常关键词；

确定与异常关键词相关联的语音片段；

基于语音关键词集以及语音片段生成服务报告。

在一个实施例中，语音识别模型包括语音分离增强模型、鲁棒表征模型及目标识别模型；处理器执行计算机程序时还实现以下步骤：

基于语音分离增强模型提取目标语音流中每个音频帧的增强频谱；

基于鲁棒表征模型对增强频谱进行听觉匹配，得到鲁棒特征；

基于目标识别模型对鲁棒特征进行识别，得到每个音频帧对应的音素；

基于每个音频帧对应的音素从目标语音流中提取出语音关键词。

基于第二损失函数进行反向传播，以对桥接在语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型；

对第一损失函数和第二损失函数进行融合，得到目标损失函数；

基于目标损失函数对语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对语音关键词集进行遍历；

在当前遍历顺序的语音关键词的声谱特征与标准声谱不匹配时，判定当前遍历顺序的语音关键词为异常关键词。

对语音片段进行声谱分析，得到多个频谱点；频谱点包括采样时间以及声音幅值；

根据采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点；

通过预训练的异常噪音识别模型对第一目标频谱点进行识别，得到与第一目标频谱点相对应的噪音类型；

基于语音关键词集以及噪音类型生成服务报告。

统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值；第二门限幅值大于第一门限幅值；

将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇；目标幅值聚类簇由第一目标频谱点组成。

获取当前定位信息；

基于当前定位信息确定室内置信度；

当室内置信度大于预设阈值时，获取当前气压信息以及搜索网络数据；

根据当前气压信息确定楼层信息，及根据搜索网络数据确定楼层区域；

组合定位信息、楼层、楼层区域，得到住址信息；

根据住址信息、语音关键词集以及语音片段生成服务报告。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取在服务时段内采集的目标语音流；

确定与异常关键词相关联的语音片段；

基于语音关键词集以及语音片段生成服务报告。

在一个实施例中，语音识别模型包括语音分离增强模型、鲁棒表征模型及目标识别模型；计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对语音关键词集进行遍历；

基于语音关键词集以及噪音类型生成服务报告。

获取当前定位信息；

基于当前定位信息确定室内置信度；

组合定位信息、楼层、楼层区域，得到住址信息；

根据住址信息、语音关键词集以及语音片段生成服务报告。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种服务报告生成方法，其特征在于，所述方法包括：

获取在服务时段内采集的目标语音流；

确定与所述异常关键词相关联的语音片段；

基于所述语音关键词集以及语音片段生成服务报告。

2.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括语音分离增强模型、鲁棒表征模型及目标识别模型；所述基于预训练的语音识别模型提取所述目标语音流中的语音关键词包括：

3.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括语音分离增强模型、鲁棒表征模型及目标识别模型；所述语音识别模型的训练步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述根据异常关键词库和声谱特征从所述语音关键词中的筛选出异常关键词包括：

对所述语音关键词集进行遍历；

5.根据权利要求1所述的方法，其特征在于，所述基于所述语音关键词集以及语音片段生成服务报告包括：

基于所述语音关键词集以及所述噪音类型生成服务报告。

6.根据权利要求5所述的方法，其特征在于，所述根据所述采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取当前定位信息；

基于所述当前定位信息确定室内置信度；

根据所述当前气压信息确定楼层信息，及根据所述搜索网络数据确定楼层区域；

组合所述定位信息、楼层、楼层区域，得到住址信息；

8.一种服务报告生成装置，其特征在于，所述装置包括：

异常关键词确定模块，用于对语音关键词集进行声谱分析，得到各语音关键词各自对应的声谱特征；根据异常关键词库和声谱特征从所述语音关键词中的筛选出异常关键词；

9.一种计算机设备设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。