CN111276162A

CN111276162A - 基于助听器的语音输出优化方法、服务器及存储介质

Info

Publication number: CN111276162A
Application number: CN202010036913.4A
Authority: CN
Inventors: 不公告发明人
Original assignee: Lin Zeshan
Current assignee: Lin Zeshan
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-12

Abstract

本发明公开了一种基于助听器的语音输出优化方法，应用于服务器，该方法包括根据用户的属性信息，对用户执行聚类操作得到用户聚类簇，获取用户情绪数据及对应的语音输入数据，将用户情绪数据输入情绪识别模型得到情绪标签，当判断情绪标签为预设标签时，从与预设标签对应的语音输入数据中提取对应的关键词，根据用户聚类簇分别建立每类用户对应的预设词库，根据助听器发出的语音输出请求找到对应的预设词库，判断语音输入数据对应的关键词是否存在于预设词库，若是则对该语音输入数据进行数据优化处理得到优化数据反馈至助听器。本发明能够智能识别语音输入数据是否带有恶意意图，并对其进行优化使得对应的语音输出数据减少对用户的心理伤害。

Description

基于助听器的语音输出优化方法、服务器及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于助听器的语音输出优化方法、服务器及存储介质。

背景技术

助听器主要是为听力障碍者人群设计的，将外界的语音输入数据通过助听器处理后能够输出语音输出数据供听力障碍者收听，从而实现听力障碍者能够听到外界的声音。

但是听力障碍者由于需要经常佩戴助听器，显得与常人不同，容易受到外界的歧视和嘲讽，特别是青少年，在学校中佩戴助听器，容易受到周围人的语言攻击，长久以往听力障碍者容易养成负面的情绪心理性格习惯，因此，如何智能识别语音输入数据是否带有恶意意图，并对其进行优化使得对应的语音输出数据减少对听力障碍者的心理伤害已成为亟需解决的技术问题。

发明内容

本发明的主要目的在于提供一种基于助听器的语音输出优化方法、服务器及存储介质，旨在解决如何智能识别语音输入数据是否带有恶意意图，并对其进行优化使得对应的语音输出数据减少对听力障碍者的心理伤害的问题。

为实现上述目的，本发明提供的一种基于助听器的语音输出优化方法，应用于服务器，该方法包括：

分类步骤：根据用户的属性信息，利用预设的聚类算法对用户执行聚类操作得到预设数量的用户聚类簇；

获取步骤：获取预设数量的用户情绪数据及对应的语音输入数据，将每个所述用户情绪数据分别输入预先训练的情绪识别模型，得到对应的情绪标签；

建立步骤：判断所述情绪标签是否为预设标签，若是则利用预先确定的关键词提取算法从所述预设标签对应的语音输入数据中提取对应的预设关键词，根据所述用户聚类簇将所有预设关键词分成预设数量的关键词组，并分别建立与每类用户对应的预设词库存储至数据库；及

优化步骤：接收助听器发出的语音输出请求，解析所述语音输出请求得到待输出语音对应的语音输入数据及用户属性信息，根据所述用户属性信息从数据库中找到对应的预设词库，判断所述语音输入数据对应的关键词是否存在于预设词库，若是则对该语音输入数据进行数据优化处理得到优化数据，将所述优化数据反馈至所述助听器。

优选地，所述获取预设数量的用户情绪数据及对应的语音输入数据包括：

通过预设传感器获取用户在第一预设时间段内产生的用户情绪数据；及/或

通过预设传感器获取用户在第二预设时间段内产生的用户情绪数据；

其中，所述第一预设时间段的时长小于第二预设时间段的时长；

所述情绪语言包括音频数据、心率数据及行为数据。

优选地，该方法还包括监督步骤：

接收客户端发出的用户情绪数据调用请求，解析所述用户情绪数据调用请求得到待调用的用户情绪数据对应的语音输入数据，及所述用户情绪数据对应的存储时间；

将所述语音输入数据并输入预先训练的语境识别模型，输出语境识别结果；

若所述语境识别结果为第一语境，则将所述用户情绪数据发送至所述客户端；或

若所述语境识别结果为第二语境，则拒绝所述客户端发出的用户情绪数据调用请求。

优选地，所述情绪识别模型由支持向量机训练得到，所述情绪识别模型的训练过程包括：

获取预设数量的用户情绪数据样本，为每一个用户情绪数据样本分配唯一的情绪标签；

将所述用户情绪数据样本按照预设比例分成训练集和验证集，所述训练集中的用户情绪数据样本数量大于验证集中的用户情绪数据样本数量；

利用预先训练的特征向量提取模型分别从每个用户情绪数据样本中提取出情绪特征向量；

将所述训练集中的用户情绪数据样本输入所述支持向量机进行训练，每隔预设周期使用所述验证集对所述支持向量机进行验证，利用所述验证集中各张用户情绪数据样本的情绪特征向量和对应的情绪标签对该情绪识别模型的准确率进行验证；及

当验证的准确率大于预设阈值时，结束训练，得到所述情绪识别模型。

优选地，所述情绪特征向量提取模型由MobileNetV2网络模型训练得到，所述MobileNetV2网络模型的网络结构包括依次连接的53层卷积层、1层池化层以及1层全连接层。

为实现上述目的，本发明还进一步提供一种服务器，所述服务器包括存储器和处理器，所述存储器上存储有基于助听器的语音输出优化程序，所述基于助听器的语音输出优化程序被所述处理器执行时实现如下步骤：

所述情绪语言包括音频数据、心率数据及行为数据。

优选地，所述基于助听器的语音输出优化程序被所述处理器执行时还实现如下步骤：

为实现上述目的，本发明进一步提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于助听器的语音输出优化程序，所述基于助听器的语音输出优化程序可被一个或者多个处理器执行，以实现如上所述的基于助听器的语音输出优化方法的步骤。

本发明提出的基于助听器的语音输出优化方法、服务器及存储介质，通过根据用户的属性信息，对用户执行聚类操作得到用户聚类簇，获取用户情绪数据及对应的语音输入数据，将每个用户情绪数据分别输入情绪识别模型得到对应的情绪标签，当判断情绪标签为预设标签时，从预设标签对应的语音输入数据中提取对应的预设关键词，根据用户聚类簇将所有预设关键词分成预设数量的关键词组，并分别建立对应的预设词库，接收助听器发出的语音输出请求，根据用户属性信息从数据库中找到对应的预设词库，判断语音输入数据对应的关键词是否存在于预设词库，若是则对该语音输入数据进行数据优化处理得到优化数据，将优化数据反馈至助听器。本发明能够智能识别语音输入数据是否带有恶意意图，并对其进行优化使得对应的语音输出数据减少对用户的心理伤害。

附图说明

图1为本发明服务器较佳实施例的应用环境图；

图2为图1中基于助听器的语音输出优化程序较佳实施例的程序模块示意图；

图3为本发明基于助听器的语音输出优化方法较佳实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参附图做进一步说明。

具体实施方式

为了使本发明的目的、技术本实施例及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术本实施例可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术本实施例的结合出现相互矛盾或无法实现时应当认为这种技术本实施例的结合不存在，也不在本发明要求的保护范围之内。

本发明提供一种服务器1。

所述服务器1包括，但不仅限于，存储器11、处理器12及网络接口13。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是服务器1的内部存储单元，例如该服务器1的硬盘。存储器11在另一些实施例中也可以是服务器1的外部存储设备，例如该服务器1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)等。

进一步地，存储器11还可以既包括服务器1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于服务器1的应用软件及各类数据，例如基于助听器的语音输出优化程序10的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11 中存储的程序代码或处理数据，例如执行基于助听器的语音输出优化程序10等。

网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该服务器与其他电子设备之间建立通信连接。

客户端可以是桌上型计算机、笔记本、平板电脑、手机等。

网络可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网 (LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个：传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(BlueTooth)通信协议或其组合。

可选地，该服务器1还可以包括用户接口，用户接口可以包括显示器 (Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以称为显示屏或显示单元，用于显示在服务器1中处理的信息以及用于显示可视化的用户界面。

图1仅示出了具有组件11-13以及基于助听器的语音输出优化程序10的服务器1，本领域技术人员可以理解的是，图1示出的结构并不构成对服务器1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在本实施例中，图1的基于助听器的语音输出优化程序10被处理器12执行时，实现以下步骤：

在另一实施例中，该方法还包括监督步骤：

接收客户端发出的用户情绪数据调用请求，解析所述用户情绪数据调用请求得到待调用的用户情绪数据对应的语音输入数据；

关于上述步骤的详细介绍，请参照下述图2关于基于助听器的语音输出优化程序10实施例的程序模块示意图及图3关于基于助听器的语音输出优化方法实施例的方法流程示意图的说明。

参照图2所示，为图1中基于助听器的语音输出优化程序10实施例的程序模块示意图。基于助听器的语音输出优化程序10被分割为多个模块，该多个模块存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

在本实施例中，所述基于助听器的语音输出优化程序10包括分类模块110、获取模块120、建立模块130、及优化模块140。

分类模块110，用于根据用户的属性信息，利用预设的聚类算法对用户执行聚类操作得到预设数量的用户聚类簇。

由于不同属性信息(例如年级、年龄、性别、听力受损程度等)对应的用户(例如听力障碍者)对语音输入数据的敏感程度可能不同。因此，为了提高后续对语音输出数据进行优化的准确性，在本实施例中，根据用户的属性信息，利用预设的聚类算法对用户执行聚类操作得到预设数量的用户聚类簇。

其中，所述聚类算法采用k-means聚类算法，k-means聚类算法(k-meansclustering algorithm)是一种迭代求解的聚类分析算法，其步骤是随机选取k个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有 (或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

在本实施例中，用户对应的属性信息以年级为例，利用预设的聚类算法对用户执行聚类操作得到3类(即k值)的用户聚类簇，分别为“一年级”、“二年级”及“三年级”，每一类对应一个用户聚类簇。

获取模块120，用于获取预设数量的用户情绪数据及对应的语音输入数据，将每个所述用户情绪数据分别输入预先训练的情绪识别模型，得到对应的情绪标签。

在本实施例中，通过获取预设数量(为了提高模型输出数据的准确性，用户情绪数据应尽可能多)的用户情绪数据及对应的语音输入数据，将每个用户情绪数据分别输入预先训练的情绪识别模型，得到对应的情绪标签(例如“愤怒”、“喜悦”、“平静”等)。

其中，所述用户情绪数据可通过预设传感器，例如用于感应获取用户在第一预设时间段内产生的用户情绪数据；及/或

所述情绪语言包括音频数据、心率数据及行为数据。

所述情绪识别模型由支持向量机(Support Vector Machine，SVM，是常见的一种判别方法，在机器学习领域，是一种有监督的学习模型，通常用来进行模式识别、分类以及回归分析)训练得到，所述情绪识别模型的训练过程包括：

获取预设数量(例如10万)的用户情绪数据样本，为每一个用户情绪数据样本分配唯一的情绪标签；

将所述用户情绪数据样本按照预设比例(例如4:1)分成训练集和验证集，所述训练集中的用户情绪数据样本数量大于验证集中的用户情绪数据样本数量；

将所述训练集中的用户情绪数据样本输入所述支持向量机进行训练，每隔预设周期(例如每进行1000次迭代)使用所述验证集对所述支持向量机进行验证，利用所述验证集中各张用户情绪数据样本的情绪特征向量和对应的情绪标签对该情绪识别模型的准确率进行验证；及

当验证的准确率大于预设阈值(例如95％)时，结束训练，得到所述情绪识别模型。

所述情绪特征向量提取模型由MobileNetV2网络模型训练得到，所述MobileNetV2网络模型的网络结构包括依次连接的53层卷积层、1层池化层以及1层全连接层。MobileNetV2网络模型是一种轻量级的卷积神经网络结构模型，MobileNetV2网络模型可以高效的对分辨率不高的图像进行快速的识别，并且运算占用带宽较小，可以搭载于移动设备上使用。MobileNetV2网络模型包括依次连接的53层卷积层、1层池化层以及1层全连接层，其中，53层卷积层包括依次连接的1层输入层、17个瓶颈构建块、1层输出层，每个瓶颈构建块分别包括3层卷积层，53层卷积层的卷积核均为3×3。由于只需利用MobileNetV2网络模型提取情绪特征向量，因此在本实施中将MobileNetV2网络模型最后用于分类的卷积层移除后输出的特征向量作为训练样本集中各用户情绪数据对应的情绪特征向量。

进一步地，还可以在训练MobileNetV2网络模型时，预先为所述 MobileNetV2网络模型设定损失函数，将训练样本输入到MobileNetV2网络模型中，对输入的训练样本进行前向传播得到实际输出，将预设的目标输出和所述实际输出代入损失函数中，计算损失函数的损失值，进行反向传播并利用损失值对所述MobileNetV2网络模型的参数进行优化，得到优化后的MobileNetV2 网络模型。然后再选取一个训练样本输入到优化后的MobileNetV2网络模型中，参照前述操作，再次对优化后的MobileNetV2网络模型进行训练，直到达到停止训练的条件为止。

建立模块130，用于判断所述情绪标签是否为预设标签，若是则利用预先确定的关键词提取算法从所述预设标签对应的语音输入数据中提取对应的预设关键词，根据所述用户聚类簇将所有预设关键词分成预设数量的关键词组，并分别建立与每类用户对应的预设词库存储至数据库。

在本实施例中，所述预设标签设定为“愤怒”，当判断情绪标签为预设标签，即“愤怒”时，为了能够知道语音输入数据中哪些关键词是导致用户出现“愤怒”情绪的，因此，通过利用关键词提取算法从预设标签对应的语音输入数据中提取对应的预设关键词(例如“聋人”、“怪物”等)，根据用户聚类簇将所有预设关键词分成预设数量(具体数量与用户聚类簇数量对应)的关键词组，并分别建立与每类用户对应的预设词库存储至数据库。

其中，所述预设标签对应的情绪类型可以根据实际情况而定，在此不做限定。

所述关键词提取算法可采用Text Rank算法，Text Rank算法是一种用于文本的基于图的排序算法。其基本思想来源于Page Rank算法，通过把文本分割成若干组成单元(例如：单词、句子)并建立图模型，对文本中的重要的词语进行排序，利用文本本身的信息即可实现关键词提取。将Text Rank算法表示为一个有向有权图G＝(V，E)，由节点集合V和边集合E组成，E是V×V的子集，节点V_i的得分公式为：

其中，V_i、V_j和V_k表示从文本数据中提取的词语节点，S(V_i)表示词语节点V_i的得分，S(V_j)表示词语节点V_j的得分，W_ji表示V_i和V_j两个词语节点之间边的权重，W_jk表示V_j和V_k两个词语节点之间边的权重，In(V_i)表示指向词语节点V_i的节点集合，Out(V_j)表示词语节点V_j指向的节点集合，d表示阻尼系数。

所述关键词提取算法的具体提取步骤包括：

采用例如基于深度全序列卷积神经网络的第三方语音转换工具，将语音输入数据转换成文本数据；

具体地，将文本数据中的每个词语作为得分公式中的节点，对文本数据中的每个句子进行分词和词性标注处理，只保留指定词性的词语(例如：名词、动词、形容词)。构建候选关键词图G＝(V，E)，其中V由保留的指定词性的词语组成，然后采用共现关系(Co-Occurrence)构造任意两个词语之间的边，两个词语之间存在边，仅当这两个的词语在长度为K的窗口中共现，K表示窗口大小。根据上述公式，将节点之间边的权重的初值设为“1”，迭代传播权重计算各指定性词语的得分，将计算出的指定性词语的得分从大到小排序，可选取得分排前十的词语作为关键词。还可以利用投票的原理，将边作为词语之间的互相投票，经过不断迭代，每个词语的得票数会趋于稳定，然后对词语的得票数由大到小排序，可选取得票数排前六的词语作为关键词，将得到的关键词在原始文本中进行标记，若形成相邻词组则组合成多词关键词。

在另一实施例中，可以采用TF-IDF算法提取关键词。预先统计在文本数据中出现的所有词语的词频,计算出IDF值，然后再对要提取关键词的文章或句子的每个词计算出TF值。其中，TF＝(词语在文章中出现次数)/(文章总词数)，将IDF值与TF值相乘，得到TF-ID值，TF-ID值可以评估字词对于文本数据中的重要程度，TF-ID值越大表示作为关键词的优先级越高。在进行TF-IDF计算时，通过对词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值，若TF-IDF 值越大，该字词对文本数据的重要性越高。因此可以将TF-IDF值排在最前面的几个字词作为该文本数据的关键词。例如，将TF-IDF值排在前五的字词作为该文本数据的关键词。

优化模块140，用于接收助听器发出的语音输出请求，解析所述语音输出请求得到待输出语音对应的语音输入数据及用户属性信息，根据所述用户属性信息从数据库中找到对应的预设词库，判断所述语音输入数据对应的关键词是否存在于预设词库，若是则对该语音输入数据进行数据优化处理得到优化数据，将所述优化数据反馈至所述助听器。

在本实施例中，在完成对每类用户对应的预设词库构建后，当服务器1 接收助听器发出的语音输出请求时，首先解析语音输出请求得到待输出语音对应的语音输入数据及用户属性信息(例如“一年级”)，根据用户属性信息从数据库中找到对应的预设词库，判断语音输入数据对应的关键词(例如 “聋人”)是否存在于预设词库，若存在，则对该语音输入数据进行数据优化处理得到优化数据，将优化数据反馈至助听器。

其中，所述数据优化处理包括对语音输入数据进行降低语速、语调、声音大小等数据优化处理方式。通过对语音输入数据进行优化处理后转化成语音输出数据，即优化数据，供用户收听，从而降低语音输入数据对用户的心理造成伤害。

在另一实施例中，该程序还包括监督模块：

用于接收客户端发出的用户情绪数据调用请求，解析所述用户情绪数据调用请求得到待调用的用户情绪数据对应的语音输入数据，及所述用户情绪数据对应的存储时间；

为了方便用户的监护人，例如听力障碍者的家长，能够实时或定时查看听力障碍者的用户情绪数据，从而能够得知听力障碍者的心理情况。因此，在本实施例中，客户端(例如家长对应的客户端)能够向服务器1发出用户情绪数据调用请求，进而查看用户的用户情绪数据。但是由于用户情绪数据对应的语境可能会涉及用户的隐私问题，例如恋爱语境，用户可能不会同意该用户情绪数据被查看，因此，在服务器1接收客户端发出的用户情绪数据调用请求后，需要将用户情绪数据调用请求解析得到的语音输入数据输入预先训练的语境识别模型，根据数据语境识别结果判断是否涉及隐私问题，再决定是否同意向客户端发送用户情绪数据；若语境识别结果为第一语境，即非隐私问题，则同意客户端发出的用户情绪调用请求，并按照用户情绪数据对应的存储时间(例如某月某日)将对应的用户情绪数据发送至客户端进行查看。若语境识别结果为第二语境，即隐私问题，则拒绝客户端发出的用户情绪数据调用请求。

所述语境识别模型也可采用支持向量机，具体训练过程与情绪识别模型类似，在此不做赘述。

此外，本发明还提供一种基于助听器的语音输出优化方法。参照图3所示，为本发明基于助听器的语音输出优化方法的实施例的方法流程示意图。服务器1 的处理器12执行存储器11中存储的基于助听器的语音输出优化程序10时实现基于助听器的语音输出优化方法的如下步骤：

S110，根据用户的属性信息，利用预设的聚类算法对用户执行聚类操作得到预设数量的用户聚类簇。

S120，获取预设数量的用户情绪数据及对应的语音输入数据，将每个所述用户情绪数据分别输入预先训练的情绪识别模型，得到对应的情绪标签。

所述情绪语言包括音频数据、心率数据及行为数据。

所述情绪特征向量提取模型由MobileNetV2网络模型训练得到，所述MobileNetV2网络模型的网络结构包括依次连接的53层卷积层、1层池化层以及1层全连接层。MobileNetV2网络模型是一种轻量级的卷积神经网络结构模型，MobileNetV2网络模型可以高效的对分辨率不高的图像进行快速的识别，并且运算占用带宽较小，可以搭载于移动设备上使用。MobileNetV2网络模型包括依次连接的53层卷积层、1层池化层以及1层全连接层，其中，53层卷积层包括依次连接的1层输入层、17个瓶颈构建块、1层输出层，每个瓶颈构建块分别包括3层卷积层，53层卷积层的卷积核均为3×3。由于只需利用MobileNetV2 网络模型提取情绪特征向量，因此在本实施中将MobileNetV2网络模型最后用于分类的卷积层移除后输出的特征向量作为训练样本集中各用户情绪数据对应的情绪特征向量。

S130，判断所述情绪标签是否为预设标签，若是则利用预先确定的关键词提取算法从所述预设标签对应的语音输入数据中提取对应的预设关键词，根据所述用户聚类簇将所有预设关键词分成预设数量的关键词组，并分别建立与每类用户对应的预设词库存储至数据库。

所述关键词提取算法的具体提取步骤包括：

S140，接收助听器发出的语音输出请求，解析所述语音输出请求得到待输出语音对应的语音输入数据及用户属性信息，根据所述用户属性信息从数据库中找到对应的预设词库，判断所述语音输入数据对应的关键词是否存在于预设词库，若是则对该语音输入数据进行数据优化处理得到优化数据，将所述优化数据反馈至所述助听器。

在另一实施例中，该方法还包括以下步骤：

此外，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB 存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括基于助听器的语音输出优化程序10，本发明之计算机可读存储介质的具体实施方式与上述基于助听器的语音输出优化方法以及服务器1的具体实施方式大致相同，在此不再赘述。

需要说明的是，上述本发明实施例序日仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……” 限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序日仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术本实施例本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等) 执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于助听器的语音输出优化方法，应用于服务器，其特征在于，该方法包括：

2.如权利要求1所述的基于助听器的语音输出优化方法，其特征在于，所述获取预设数量的用户情绪数据及对应的语音输入数据包括：

所述情绪语言包括音频数据、心率数据及行为数据。

3.如权利要求1所述的基于助听器的语音输出优化方法，其特征在于，该方法还包括监督步骤：

4.如权利要求1所述的基于助听器的语音输出优化方法，其特征在于，所述情绪识别模型由支持向量机训练得到，所述情绪识别模型的训练过程包括：

5.如权利要求1-4任一项所述的基于助听器的语音输出优化方法，其特征在于，所述情绪特征向量提取模型由MobileNetV2网络模型训练得到，所述MobileNetV2网络模型的网络结构包括依次连接的53层卷积层、1层池化层以及1层全连接层。

6.一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器上存储有基于助听器的语音输出优化程序，所述基于助听器的语音输出优化程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的服务器，其特征在于，所述获取预设数量的用户情绪数据及对应的语音输入数据包括：

所述情绪语言包括音频数据、心率数据及行为数据。

8.如权利要求6所述的服务器，其特征在于，所述基于助听器的语音输出优化程序被所述处理器执行时还实现如下步骤：

9.如权利要求6-8任一项所述的服务器，其特征在于，所述情绪识别模型由支持向量机训练得到，所述情绪识别模型的训练过程包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于助听器的语音输出优化程序，所述基于助听器的语音输出优化程序可被一个或者多个处理器执行，以实现如权利要求1-5中任一项所述的基于助听器的语音输出优化方法的步骤。