CN111276162A - 基于助听器的语音输出优化方法、服务器及存储介质 - Google Patents

基于助听器的语音输出优化方法、服务器及存储介质 Download PDF

Info

Publication number
CN111276162A
CN111276162A CN202010036913.4A CN202010036913A CN111276162A CN 111276162 A CN111276162 A CN 111276162A CN 202010036913 A CN202010036913 A CN 202010036913A CN 111276162 A CN111276162 A CN 111276162A
Authority
CN
China
Prior art keywords
data
preset
user
emotion
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010036913.4A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lin Zeshan
Original Assignee
Lin Zeshan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lin Zeshan filed Critical Lin Zeshan
Priority to CN202010036913.4A priority Critical patent/CN111276162A/zh
Publication of CN111276162A publication Critical patent/CN111276162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于助听器的语音输出优化方法,应用于服务器,该方法包括根据用户的属性信息,对用户执行聚类操作得到用户聚类簇,获取用户情绪数据及对应的语音输入数据,将用户情绪数据输入情绪识别模型得到情绪标签,当判断情绪标签为预设标签时,从与预设标签对应的语音输入数据中提取对应的关键词,根据用户聚类簇分别建立每类用户对应的预设词库,根据助听器发出的语音输出请求找到对应的预设词库,判断语音输入数据对应的关键词是否存在于预设词库,若是则对该语音输入数据进行数据优化处理得到优化数据反馈至助听器。本发明能够智能识别语音输入数据是否带有恶意意图,并对其进行优化使得对应的语音输出数据减少对用户的心理伤害。

Description

基于助听器的语音输出优化方法、服务器及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于助听器的语音输出优化 方法、服务器及存储介质。
背景技术
助听器主要是为听力障碍者人群设计的,将外界的语音输入数据通过助听 器处理后能够输出语音输出数据供听力障碍者收听,从而实现听力障碍者能够 听到外界的声音。
但是听力障碍者由于需要经常佩戴助听器,显得与常人不同,容易受到外 界的歧视和嘲讽,特别是青少年,在学校中佩戴助听器,容易受到周围人的语 言攻击,长久以往听力障碍者容易养成负面的情绪心理性格习惯,因此,如何 智能识别语音输入数据是否带有恶意意图,并对其进行优化使得对应的语音输 出数据减少对听力障碍者的心理伤害已成为亟需解决的技术问题。
发明内容
本发明的主要目的在于提供一种基于助听器的语音输出优化方法、服务器 及存储介质,旨在解决如何智能识别语音输入数据是否带有恶意意图,并对其 进行优化使得对应的语音输出数据减少对听力障碍者的心理伤害的问题。
为实现上述目的,本发明提供的一种基于助听器的语音输出优化方法,应 用于服务器,该方法包括:
分类步骤:根据用户的属性信息,利用预设的聚类算法对用户执行聚类操 作得到预设数量的用户聚类簇;
获取步骤:获取预设数量的用户情绪数据及对应的语音输入数据,将每个 所述用户情绪数据分别输入预先训练的情绪识别模型,得到对应的情绪标签;
建立步骤:判断所述情绪标签是否为预设标签,若是则利用预先确定的关 键词提取算法从所述预设标签对应的语音输入数据中提取对应的预设关键词, 根据所述用户聚类簇将所有预设关键词分成预设数量的关键词组,并分别建立 与每类用户对应的预设词库存储至数据库;及
优化步骤:接收助听器发出的语音输出请求,解析所述语音输出请求得到 待输出语音对应的语音输入数据及用户属性信息,根据所述用户属性信息从数 据库中找到对应的预设词库,判断所述语音输入数据对应的关键词是否存在于 预设词库,若是则对该语音输入数据进行数据优化处理得到优化数据,将所述 优化数据反馈至所述助听器。
优选地,所述获取预设数量的用户情绪数据及对应的语音输入数据包括:
通过预设传感器获取用户在第一预设时间段内产生的用户情绪数据;及/或
通过预设传感器获取用户在第二预设时间段内产生的用户情绪数据;
其中,所述第一预设时间段的时长小于第二预设时间段的时长;
所述情绪语言包括音频数据、心率数据及行为数据。
优选地,该方法还包括监督步骤:
接收客户端发出的用户情绪数据调用请求,解析所述用户情绪数据调用请 求得到待调用的用户情绪数据对应的语音输入数据,及所述用户情绪数据对应 的存储时间;
将所述语音输入数据并输入预先训练的语境识别模型,输出语境识别结果;
若所述语境识别结果为第一语境,则将所述用户情绪数据发送至所述客户 端;或
若所述语境识别结果为第二语境,则拒绝所述客户端发出的用户情绪数据 调用请求。
优选地,所述情绪识别模型由支持向量机训练得到,所述情绪识别模型的 训练过程包括:
获取预设数量的用户情绪数据样本,为每一个用户情绪数据样本分配唯一 的情绪标签;
将所述用户情绪数据样本按照预设比例分成训练集和验证集,所述训练集 中的用户情绪数据样本数量大于验证集中的用户情绪数据样本数量;
利用预先训练的特征向量提取模型分别从每个用户情绪数据样本中提取出 情绪特征向量;
将所述训练集中的用户情绪数据样本输入所述支持向量机进行训练,每隔 预设周期使用所述验证集对所述支持向量机进行验证,利用所述验证集中各张 用户情绪数据样本的情绪特征向量和对应的情绪标签对该情绪识别模型的准确 率进行验证;及
当验证的准确率大于预设阈值时,结束训练,得到所述情绪识别模型。
优选地,所述情绪特征向量提取模型由MobileNetV2网络模型训练得到, 所述MobileNetV2网络模型的网络结构包括依次连接的53层卷积层、1层池化 层以及1层全连接层。
为实现上述目的,本发明还进一步提供一种服务器,所述服务器包括存储 器和处理器,所述存储器上存储有基于助听器的语音输出优化程序,所述基于 助听器的语音输出优化程序被所述处理器执行时实现如下步骤:
分类步骤:根据用户的属性信息,利用预设的聚类算法对用户执行聚类操 作得到预设数量的用户聚类簇;
获取步骤:获取预设数量的用户情绪数据及对应的语音输入数据,将每个 所述用户情绪数据分别输入预先训练的情绪识别模型,得到对应的情绪标签;
建立步骤:判断所述情绪标签是否为预设标签,若是则利用预先确定的关 键词提取算法从所述预设标签对应的语音输入数据中提取对应的预设关键词, 根据所述用户聚类簇将所有预设关键词分成预设数量的关键词组,并分别建立 与每类用户对应的预设词库存储至数据库;及
优化步骤:接收助听器发出的语音输出请求,解析所述语音输出请求得到 待输出语音对应的语音输入数据及用户属性信息,根据所述用户属性信息从数 据库中找到对应的预设词库,判断所述语音输入数据对应的关键词是否存在于 预设词库,若是则对该语音输入数据进行数据优化处理得到优化数据,将所述 优化数据反馈至所述助听器。
优选地,所述获取预设数量的用户情绪数据及对应的语音输入数据包括:
通过预设传感器获取用户在第一预设时间段内产生的用户情绪数据;及/或
通过预设传感器获取用户在第二预设时间段内产生的用户情绪数据;
其中,所述第一预设时间段的时长小于第二预设时间段的时长;
所述情绪语言包括音频数据、心率数据及行为数据。
优选地,所述基于助听器的语音输出优化程序被所述处理器执行时还实现 如下步骤:
接收客户端发出的用户情绪数据调用请求,解析所述用户情绪数据调用请 求得到待调用的用户情绪数据对应的语音输入数据,及所述用户情绪数据对应 的存储时间;
将所述语音输入数据并输入预先训练的语境识别模型,输出语境识别结果;
若所述语境识别结果为第一语境,则将所述用户情绪数据发送至所述客户 端;或
若所述语境识别结果为第二语境,则拒绝所述客户端发出的用户情绪数据 调用请求。
优选地,所述情绪识别模型由支持向量机训练得到,所述情绪识别模型的 训练过程包括:
获取预设数量的用户情绪数据样本,为每一个用户情绪数据样本分配唯一 的情绪标签;
将所述用户情绪数据样本按照预设比例分成训练集和验证集,所述训练集 中的用户情绪数据样本数量大于验证集中的用户情绪数据样本数量;
利用预先训练的特征向量提取模型分别从每个用户情绪数据样本中提取出 情绪特征向量;
将所述训练集中的用户情绪数据样本输入所述支持向量机进行训练,每隔 预设周期使用所述验证集对所述支持向量机进行验证,利用所述验证集中各张 用户情绪数据样本的情绪特征向量和对应的情绪标签对该情绪识别模型的准确 率进行验证;及
当验证的准确率大于预设阈值时,结束训练,得到所述情绪识别模型。
为实现上述目的,本发明进一步提供一种计算机可读存储介质,所述计算 机可读存储介质上存储有基于助听器的语音输出优化程序,所述基于助听器的 语音输出优化程序可被一个或者多个处理器执行,以实现如上所述的基于助听 器的语音输出优化方法的步骤。
本发明提出的基于助听器的语音输出优化方法、服务器及存储介质,通过 根据用户的属性信息,对用户执行聚类操作得到用户聚类簇,获取用户情绪数 据及对应的语音输入数据,将每个用户情绪数据分别输入情绪识别模型得到对 应的情绪标签,当判断情绪标签为预设标签时,从预设标签对应的语音输入数 据中提取对应的预设关键词,根据用户聚类簇将所有预设关键词分成预设数量 的关键词组,并分别建立对应的预设词库,接收助听器发出的语音输出请求, 根据用户属性信息从数据库中找到对应的预设词库,判断语音输入数据对应的 关键词是否存在于预设词库,若是则对该语音输入数据进行数据优化处理得到 优化数据,将优化数据反馈至助听器。本发明能够智能识别语音输入数据是否 带有恶意意图,并对其进行优化使得对应的语音输出数据减少对用户的心理伤 害。
附图说明
图1为本发明服务器较佳实施例的应用环境图;
图2为图1中基于助听器的语音输出优化程序较佳实施例的程序模块示意 图;
图3为本发明基于助听器的语音输出优化方法较佳实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参附图做进一步说明。
具体实施方式
为了使本发明的目的、技术本实施例及优点更加清楚明白,以下结合附图 及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施 例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域 普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于 本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的, 而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数 量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特 征。另外,各个实施例之间的技术本实施例可以相互结合,但是必须是以本领 域普通技术人员能够实现为基础,当技术本实施例的结合出现相互矛盾或无法 实现时应当认为这种技术本实施例的结合不存在,也不在本发明要求的保护范 围之内。
本发明提供一种服务器1。
所述服务器1包括,但不仅限于,存储器11、处理器12及网络接口13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包 括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存 储器、磁盘、光盘等。存储器11在一些实施例中可以是服务器1的内部存储单 元,例如该服务器1的硬盘。存储器11在另一些实施例中也可以是服务器1的 外部存储设备,例如该服务器1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。
进一步地,存储器11还可以既包括服务器1的内部存储单元也包括外部存 储设备。存储器11不仅可以用于存储安装于服务器1的应用软件及各类数据, 例如基于助听器的语音输出优化程序10的代码等,还可以用于暂时地存储已经 输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11 中存储的程序代码或处理数据,例如执行基于助听器的语音输出优化程序10等。
网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口), 通常用于在该服务器与其他电子设备之间建立通信连接。
客户端可以是桌上型计算机、笔记本、平板电脑、手机等。
网络可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网 (LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线 和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括 但不限于以下中的至少一个:传输控制协议和互联网协议(TCP/IP)、用户数据报 协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE802.11s、IEEE 802.11g、多跳通信、无线 接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(BlueTooth)通信协议或 其组合。
可选地,该服务器1还可以包括用户接口,用户接口可以包括显示器 (Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准 的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、 液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有 机发光二极管)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于 显示在服务器1中处理的信息以及用于显示可视化的用户界面。
图1仅示出了具有组件11-13以及基于助听器的语音输出优化程序10的服 务器1,本领域技术人员可以理解的是,图1示出的结构并不构成对服务器1的 限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的 部件布置。
在本实施例中,图1的基于助听器的语音输出优化程序10被处理器12执 行时,实现以下步骤:
分类步骤:根据用户的属性信息,利用预设的聚类算法对用户执行聚类操 作得到预设数量的用户聚类簇;
获取步骤:获取预设数量的用户情绪数据及对应的语音输入数据,将每个 所述用户情绪数据分别输入预先训练的情绪识别模型,得到对应的情绪标签;
建立步骤:判断所述情绪标签是否为预设标签,若是则利用预先确定的关 键词提取算法从所述预设标签对应的语音输入数据中提取对应的预设关键词, 根据所述用户聚类簇将所有预设关键词分成预设数量的关键词组,并分别建立 与每类用户对应的预设词库存储至数据库;及
优化步骤:接收助听器发出的语音输出请求,解析所述语音输出请求得到 待输出语音对应的语音输入数据及用户属性信息,根据所述用户属性信息从数 据库中找到对应的预设词库,判断所述语音输入数据对应的关键词是否存在于 预设词库,若是则对该语音输入数据进行数据优化处理得到优化数据,将所述 优化数据反馈至所述助听器。
在另一实施例中,该方法还包括监督步骤:
接收客户端发出的用户情绪数据调用请求,解析所述用户情绪数据调用请 求得到待调用的用户情绪数据对应的语音输入数据;
将所述语音输入数据并输入预先训练的语境识别模型,输出语境识别结果;
若所述语境识别结果为第一语境,则将所述用户情绪数据发送至所述客户 端;或
若所述语境识别结果为第二语境,则拒绝所述客户端发出的用户情绪数据 调用请求。
关于上述步骤的详细介绍,请参照下述图2关于基于助听器的语音输出优 化程序10实施例的程序模块示意图及图3关于基于助听器的语音输出优化方法 实施例的方法流程示意图的说明。
参照图2所示,为图1中基于助听器的语音输出优化程序10实施例的程序 模块示意图。基于助听器的语音输出优化程序10被分割为多个模块,该多个模 块存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模 块是指能够完成特定功能的一系列计算机程序指令段。
在本实施例中,所述基于助听器的语音输出优化程序10包括分类模块110、 获取模块120、建立模块130、及优化模块140。
分类模块110,用于根据用户的属性信息,利用预设的聚类算法对用户执行 聚类操作得到预设数量的用户聚类簇。
由于不同属性信息(例如年级、年龄、性别、听力受损程度等)对应的用 户(例如听力障碍者)对语音输入数据的敏感程度可能不同。因此,为了提高 后续对语音输出数据进行优化的准确性,在本实施例中,根据用户的属性信息, 利用预设的聚类算法对用户执行聚类操作得到预设数量的用户聚类簇。
其中,所述聚类算法采用k-means聚类算法,k-means聚类算法(k-meansclustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取k个 对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离, 把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就 代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被 重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有 (或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心 再发生变化,误差平方和局部最小。
在本实施例中,用户对应的属性信息以年级为例,利用预设的聚类算法对 用户执行聚类操作得到3类(即k值)的用户聚类簇,分别为“一年级”、“二 年级”及“三年级”,每一类对应一个用户聚类簇。
获取模块120,用于获取预设数量的用户情绪数据及对应的语音输入数据, 将每个所述用户情绪数据分别输入预先训练的情绪识别模型,得到对应的情绪 标签。
在本实施例中,通过获取预设数量(为了提高模型输出数据的准确性,用 户情绪数据应尽可能多)的用户情绪数据及对应的语音输入数据,将每个用户 情绪数据分别输入预先训练的情绪识别模型,得到对应的情绪标签(例如“愤 怒”、“喜悦”、“平静”等)。
其中,所述用户情绪数据可通过预设传感器,例如用于感应获取用户在第 一预设时间段内产生的用户情绪数据;及/或
通过预设传感器获取用户在第二预设时间段内产生的用户情绪数据;
其中,所述第一预设时间段的时长小于第二预设时间段的时长;
所述情绪语言包括音频数据、心率数据及行为数据。
所述情绪识别模型由支持向量机(Support Vector Machine,SVM,是常见 的一种判别方法,在机器学习领域,是一种有监督的学习模型,通常用来进行 模式识别、分类以及回归分析)训练得到,所述情绪识别模型的训练过程包括:
获取预设数量(例如10万)的用户情绪数据样本,为每一个用户情绪数据 样本分配唯一的情绪标签;
将所述用户情绪数据样本按照预设比例(例如4:1)分成训练集和验证集, 所述训练集中的用户情绪数据样本数量大于验证集中的用户情绪数据样本数 量;
利用预先训练的特征向量提取模型分别从每个用户情绪数据样本中提取出 情绪特征向量;
将所述训练集中的用户情绪数据样本输入所述支持向量机进行训练,每隔 预设周期(例如每进行1000次迭代)使用所述验证集对所述支持向量机进行验 证,利用所述验证集中各张用户情绪数据样本的情绪特征向量和对应的情绪标 签对该情绪识别模型的准确率进行验证;及
当验证的准确率大于预设阈值(例如95%)时,结束训练,得到所述情绪 识别模型。
所述情绪特征向量提取模型由MobileNetV2网络模型训练得到,所述MobileNetV2网络模型的网络结构包括依次连接的53层卷积层、1层池化层以 及1层全连接层。MobileNetV2网络模型是一种轻量级的卷积神经网络结构模 型,MobileNetV2网络模型可以高效的对分辨率不高的图像进行快速的识别,并 且运算占用带宽较小,可以搭载于移动设备上使用。MobileNetV2网络模型包括 依次连接的53层卷积层、1层池化层以及1层全连接层,其中,53层卷积层包 括依次连接的1层输入层、17个瓶颈构建块、1层输出层,每个瓶颈构建块分 别包括3层卷积层,53层卷积层的卷积核均为3×3。由于只需利用MobileNetV2网络模型提取情绪特征向量,因此在本实施中将MobileNetV2网络模型最后用 于分类的卷积层移除后输出的特征向量作为训练样本集中各用户情绪数据对应 的情绪特征向量。
进一步地,还可以在训练MobileNetV2网络模型时,预先为所述 MobileNetV2网络模型设定损失函数,将训练样本输入到MobileNetV2网络模型 中,对输入的训练样本进行前向传播得到实际输出,将预设的目标输出和所述 实际输出代入损失函数中,计算损失函数的损失值,进行反向传播并利用损失 值对所述MobileNetV2网络模型的参数进行优化,得到优化后的MobileNetV2 网络模型。然后再选取一个训练样本输入到优化后的MobileNetV2网络模型中, 参照前述操作,再次对优化后的MobileNetV2网络模型进行训练,直到达到停 止训练的条件为止。
建立模块130,用于判断所述情绪标签是否为预设标签,若是则利用预先确 定的关键词提取算法从所述预设标签对应的语音输入数据中提取对应的预设关 键词,根据所述用户聚类簇将所有预设关键词分成预设数量的关键词组,并分 别建立与每类用户对应的预设词库存储至数据库。
在本实施例中,所述预设标签设定为“愤怒”,当判断情绪标签为预设 标签,即“愤怒”时,为了能够知道语音输入数据中哪些关键词是导致用户 出现“愤怒”情绪的,因此,通过利用关键词提取算法从预设标签对应的语 音输入数据中提取对应的预设关键词(例如“聋人”、“怪物”等),根据 用户聚类簇将所有预设关键词分成预设数量(具体数量与用户聚类簇数量对 应)的关键词组,并分别建立与每类用户对应的预设词库存储至数据库。
其中,所述预设标签对应的情绪类型可以根据实际情况而定,在此不做限 定。
所述关键词提取算法可采用Text Rank算法,Text Rank算法是一种用于文本 的基于图的排序算法。其基本思想来源于Page Rank算法,通过把文本分割成若 干组成单元(例如:单词、句子)并建立图模型,对文本中的重要的词语进行排序, 利用文本本身的信息即可实现关键词提取。将Text Rank算法表示为一个有向有 权图G=(V,E),由节点集合V和边集合E组成,E是V×V的子集,节点Vi的得 分公式为:
Figure BDA0002366361070000121
其中,Vi、Vj和Vk表示从文本数据中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权 重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节 点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
所述关键词提取算法的具体提取步骤包括:
采用例如基于深度全序列卷积神经网络的第三方语音转换工具,将语音输 入数据转换成文本数据;
具体地,将文本数据中的每个词语作为得分公式中的节点,对文本数据中 的每个句子进行分词和词性标注处理,只保留指定词性的词语(例如:名词、 动词、形容词)。构建候选关键词图G=(V,E),其中V由保留的指定词性的词 语组成,然后采用共现关系(Co-Occurrence)构造任意两个词语之间的边,两 个词语之间存在边,仅当这两个的词语在长度为K的窗口中共现,K表示窗口 大小。根据上述公式,将节点之间边的权重的初值设为“1”,迭代传播权重计 算各指定性词语的得分,将计算出的指定性词语的得分从大到小排序,可选取 得分排前十的词语作为关键词。还可以利用投票的原理,将边作为词语之间的互相投票,经过不断迭代,每个词语的得票数会趋于稳定,然后对词语的得票 数由大到小排序,可选取得票数排前六的词语作为关键词,将得到的关键词在 原始文本中进行标记,若形成相邻词组则组合成多词关键词。
在另一实施例中,可以采用TF-IDF算法提取关键词。预先统计在文本数据 中出现的所有词语的词频,计算出IDF值,然后再对要提取关键词的文章或句子 的每个词计算出TF值。其中,TF=(词语在文章中出现次数)/(文章总词数), 将IDF值与TF值相乘,得到TF-ID值,TF-ID值可以评估字词对于文本数据中 的重要程度,TF-ID值越大表示作为关键词的优先级越高。在进行TF-IDF计算 时,通过对词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值,若TF-IDF 值越大,该字词对文本数据的重要性越高。因此可以将TF-IDF值排在最前面的 几个字词作为该文本数据的关键词。例如,将TF-IDF值排在前五的字词作为 该文本数据的关键词。
优化模块140,用于接收助听器发出的语音输出请求,解析所述语音输出请 求得到待输出语音对应的语音输入数据及用户属性信息,根据所述用户属性信 息从数据库中找到对应的预设词库,判断所述语音输入数据对应的关键词是否 存在于预设词库,若是则对该语音输入数据进行数据优化处理得到优化数据, 将所述优化数据反馈至所述助听器。
在本实施例中,在完成对每类用户对应的预设词库构建后,当服务器1 接收助听器发出的语音输出请求时,首先解析语音输出请求得到待输出语音 对应的语音输入数据及用户属性信息(例如“一年级”),根据用户属性信 息从数据库中找到对应的预设词库,判断语音输入数据对应的关键词(例如 “聋人”)是否存在于预设词库,若存在,则对该语音输入数据进行数据优 化处理得到优化数据,将优化数据反馈至助听器。
其中,所述数据优化处理包括对语音输入数据进行降低语速、语调、声音 大小等数据优化处理方式。通过对语音输入数据进行优化处理后转化成语音输 出数据,即优化数据,供用户收听,从而降低语音输入数据对用户的心理造成 伤害。
在另一实施例中,该程序还包括监督模块:
用于接收客户端发出的用户情绪数据调用请求,解析所述用户情绪数据调 用请求得到待调用的用户情绪数据对应的语音输入数据,及所述用户情绪数据 对应的存储时间;
将所述语音输入数据并输入预先训练的语境识别模型,输出语境识别结果;
若所述语境识别结果为第一语境,则将所述用户情绪数据发送至所述客户 端;或
若所述语境识别结果为第二语境,则拒绝所述客户端发出的用户情绪数据 调用请求。
为了方便用户的监护人,例如听力障碍者的家长,能够实时或定时查看听 力障碍者的用户情绪数据,从而能够得知听力障碍者的心理情况。因此,在本 实施例中,客户端(例如家长对应的客户端)能够向服务器1发出用户情绪数 据调用请求,进而查看用户的用户情绪数据。但是由于用户情绪数据对应的语 境可能会涉及用户的隐私问题,例如恋爱语境,用户可能不会同意该用户情绪 数据被查看,因此,在服务器1接收客户端发出的用户情绪数据调用请求后, 需要将用户情绪数据调用请求解析得到的语音输入数据输入预先训练的语境识 别模型,根据数据语境识别结果判断是否涉及隐私问题,再决定是否同意向客户端发送用户情绪数据;若语境识别结果为第一语境,即非隐私问题,则同意 客户端发出的用户情绪调用请求,并按照用户情绪数据对应的存储时间(例如 某月某日)将对应的用户情绪数据发送至客户端进行查看。若语境识别结果为 第二语境,即隐私问题,则拒绝客户端发出的用户情绪数据调用请求。
所述语境识别模型也可采用支持向量机,具体训练过程与情绪识别模型类 似,在此不做赘述。
此外,本发明还提供一种基于助听器的语音输出优化方法。参照图3所示, 为本发明基于助听器的语音输出优化方法的实施例的方法流程示意图。服务器1 的处理器12执行存储器11中存储的基于助听器的语音输出优化程序10时实现 基于助听器的语音输出优化方法的如下步骤:
S110,根据用户的属性信息,利用预设的聚类算法对用户执行聚类操作得 到预设数量的用户聚类簇。
由于不同属性信息(例如年级、年龄、性别、听力受损程度等)对应的用 户(例如听力障碍者)对语音输入数据的敏感程度可能不同。因此,为了提高 后续对语音输出数据进行优化的准确性,在本实施例中,根据用户的属性信息, 利用预设的聚类算法对用户执行聚类操作得到预设数量的用户聚类簇。
其中,所述聚类算法采用k-means聚类算法,k-means聚类算法(k-meansclustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取k个 对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离, 把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就 代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被 重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有 (或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心 再发生变化,误差平方和局部最小。
在本实施例中,用户对应的属性信息以年级为例,利用预设的聚类算法对 用户执行聚类操作得到3类(即k值)的用户聚类簇,分别为“一年级”、“二 年级”及“三年级”,每一类对应一个用户聚类簇。
S120,获取预设数量的用户情绪数据及对应的语音输入数据,将每个所述 用户情绪数据分别输入预先训练的情绪识别模型,得到对应的情绪标签。
在本实施例中,通过获取预设数量(为了提高模型输出数据的准确性,用 户情绪数据应尽可能多)的用户情绪数据及对应的语音输入数据,将每个用户 情绪数据分别输入预先训练的情绪识别模型,得到对应的情绪标签(例如“愤 怒”、“喜悦”、“平静”等)。
其中,所述用户情绪数据可通过预设传感器,例如用于感应获取用户在第 一预设时间段内产生的用户情绪数据;及/或
通过预设传感器获取用户在第二预设时间段内产生的用户情绪数据;
其中,所述第一预设时间段的时长小于第二预设时间段的时长;
所述情绪语言包括音频数据、心率数据及行为数据。
所述情绪识别模型由支持向量机(Support Vector Machine,SVM,是常见 的一种判别方法,在机器学习领域,是一种有监督的学习模型,通常用来进行 模式识别、分类以及回归分析)训练得到,所述情绪识别模型的训练过程包括:
获取预设数量(例如10万)的用户情绪数据样本,为每一个用户情绪数据 样本分配唯一的情绪标签;
将所述用户情绪数据样本按照预设比例(例如4:1)分成训练集和验证集, 所述训练集中的用户情绪数据样本数量大于验证集中的用户情绪数据样本数 量;
利用预先训练的特征向量提取模型分别从每个用户情绪数据样本中提取出 情绪特征向量;
将所述训练集中的用户情绪数据样本输入所述支持向量机进行训练,每隔 预设周期(例如每进行1000次迭代)使用所述验证集对所述支持向量机进行验 证,利用所述验证集中各张用户情绪数据样本的情绪特征向量和对应的情绪标 签对该情绪识别模型的准确率进行验证;及
当验证的准确率大于预设阈值(例如95%)时,结束训练,得到所述情绪 识别模型。
所述情绪特征向量提取模型由MobileNetV2网络模型训练得到,所述MobileNetV2网络模型的网络结构包括依次连接的53层卷积层、1层池化层以 及1层全连接层。MobileNetV2网络模型是一种轻量级的卷积神经网络结构模 型,MobileNetV2网络模型可以高效的对分辨率不高的图像进行快速的识别,并 且运算占用带宽较小,可以搭载于移动设备上使用。MobileNetV2网络模型包括 依次连接的53层卷积层、1层池化层以及1层全连接层,其中,53层卷积层包 括依次连接的1层输入层、17个瓶颈构建块、1层输出层,每个瓶颈构建块分 别包括3层卷积层,53层卷积层的卷积核均为3×3。由于只需利用MobileNetV2 网络模型提取情绪特征向量,因此在本实施中将MobileNetV2网络模型最后用 于分类的卷积层移除后输出的特征向量作为训练样本集中各用户情绪数据对应 的情绪特征向量。
进一步地,还可以在训练MobileNetV2网络模型时,预先为所述 MobileNetV2网络模型设定损失函数,将训练样本输入到MobileNetV2网络模型 中,对输入的训练样本进行前向传播得到实际输出,将预设的目标输出和所述 实际输出代入损失函数中,计算损失函数的损失值,进行反向传播并利用损失 值对所述MobileNetV2网络模型的参数进行优化,得到优化后的MobileNetV2 网络模型。然后再选取一个训练样本输入到优化后的MobileNetV2网络模型中, 参照前述操作,再次对优化后的MobileNetV2网络模型进行训练,直到达到停 止训练的条件为止。
S130,判断所述情绪标签是否为预设标签,若是则利用预先确定的关键词 提取算法从所述预设标签对应的语音输入数据中提取对应的预设关键词,根据 所述用户聚类簇将所有预设关键词分成预设数量的关键词组,并分别建立与每 类用户对应的预设词库存储至数据库。
在本实施例中,所述预设标签设定为“愤怒”,当判断情绪标签为预设 标签,即“愤怒”时,为了能够知道语音输入数据中哪些关键词是导致用户 出现“愤怒”情绪的,因此,通过利用关键词提取算法从预设标签对应的语 音输入数据中提取对应的预设关键词(例如“聋人”、“怪物”等),根据 用户聚类簇将所有预设关键词分成预设数量(具体数量与用户聚类簇数量对 应)的关键词组,并分别建立与每类用户对应的预设词库存储至数据库。
其中,所述预设标签对应的情绪类型可以根据实际情况而定,在此不做限 定。
所述关键词提取算法可采用Text Rank算法,Text Rank算法是一种用于文本 的基于图的排序算法。其基本思想来源于Page Rank算法,通过把文本分割成若 干组成单元(例如:单词、句子)并建立图模型,对文本中的重要的词语进行排序, 利用文本本身的信息即可实现关键词提取。将Text Rank算法表示为一个有向有 权图G=(V,E),由节点集合V和边集合E组成,E是V×V的子集,节点Vi的得 分公式为:
Figure BDA0002366361070000181
其中,Vi、Vj和Vk表示从文本数据中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权 重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节 点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
所述关键词提取算法的具体提取步骤包括:
采用例如基于深度全序列卷积神经网络的第三方语音转换工具,将语音输 入数据转换成文本数据;
具体地,将文本数据中的每个词语作为得分公式中的节点,对文本数据中 的每个句子进行分词和词性标注处理,只保留指定词性的词语(例如:名词、 动词、形容词)。构建候选关键词图G=(V,E),其中V由保留的指定词性的词 语组成,然后采用共现关系(Co-Occurrence)构造任意两个词语之间的边,两 个词语之间存在边,仅当这两个的词语在长度为K的窗口中共现,K表示窗口 大小。根据上述公式,将节点之间边的权重的初值设为“1”,迭代传播权重计 算各指定性词语的得分,将计算出的指定性词语的得分从大到小排序,可选取 得分排前十的词语作为关键词。还可以利用投票的原理,将边作为词语之间的互相投票,经过不断迭代,每个词语的得票数会趋于稳定,然后对词语的得票 数由大到小排序,可选取得票数排前六的词语作为关键词,将得到的关键词在 原始文本中进行标记,若形成相邻词组则组合成多词关键词。
在另一实施例中,可以采用TF-IDF算法提取关键词。预先统计在文本数据 中出现的所有词语的词频,计算出IDF值,然后再对要提取关键词的文章或句子 的每个词计算出TF值。其中,TF=(词语在文章中出现次数)/(文章总词数), 将IDF值与TF值相乘,得到TF-ID值,TF-ID值可以评估字词对于文本数据中 的重要程度,TF-ID值越大表示作为关键词的优先级越高。在进行TF-IDF计算 时,通过对词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值,若TF-IDF 值越大,该字词对文本数据的重要性越高。因此可以将TF-IDF值排在最前面的 几个字词作为该文本数据的关键词。例如,将TF-IDF值排在前五的字词作为 该文本数据的关键词。
S140,接收助听器发出的语音输出请求,解析所述语音输出请求得到待输 出语音对应的语音输入数据及用户属性信息,根据所述用户属性信息从数据库 中找到对应的预设词库,判断所述语音输入数据对应的关键词是否存在于预设 词库,若是则对该语音输入数据进行数据优化处理得到优化数据,将所述优化 数据反馈至所述助听器。
在本实施例中,在完成对每类用户对应的预设词库构建后,当服务器1 接收助听器发出的语音输出请求时,首先解析语音输出请求得到待输出语音 对应的语音输入数据及用户属性信息(例如“一年级”),根据用户属性信 息从数据库中找到对应的预设词库,判断语音输入数据对应的关键词(例如 “聋人”)是否存在于预设词库,若存在,则对该语音输入数据进行数据优 化处理得到优化数据,将优化数据反馈至助听器。
其中,所述数据优化处理包括对语音输入数据进行降低语速、语调、声音 大小等数据优化处理方式。通过对语音输入数据进行优化处理后转化成语音输 出数据,即优化数据,供用户收听,从而降低语音输入数据对用户的心理造成 伤害。
在另一实施例中,该方法还包括以下步骤:
接收客户端发出的用户情绪数据调用请求,解析所述用户情绪数据调用请 求得到待调用的用户情绪数据对应的语音输入数据,及所述用户情绪数据对应 的存储时间;
将所述语音输入数据并输入预先训练的语境识别模型,输出语境识别结果;
若所述语境识别结果为第一语境,则将所述用户情绪数据发送至所述客户 端;或
若所述语境识别结果为第二语境,则拒绝所述客户端发出的用户情绪数据 调用请求。
为了方便用户的监护人,例如听力障碍者的家长,能够实时或定时查看听 力障碍者的用户情绪数据,从而能够得知听力障碍者的心理情况。因此,在本 实施例中,客户端(例如家长对应的客户端)能够向服务器1发出用户情绪数 据调用请求,进而查看用户的用户情绪数据。但是由于用户情绪数据对应的语 境可能会涉及用户的隐私问题,例如恋爱语境,用户可能不会同意该用户情绪 数据被查看,因此,在服务器1接收客户端发出的用户情绪数据调用请求后, 需要将用户情绪数据调用请求解析得到的语音输入数据输入预先训练的语境识 别模型,根据数据语境识别结果判断是否涉及隐私问题,再决定是否同意向客户端发送用户情绪数据;若语境识别结果为第一语境,即非隐私问题,则同意 客户端发出的用户情绪调用请求,并按照用户情绪数据对应的存储时间(例如 某月某日)将对应的用户情绪数据发送至客户端进行查看。若语境识别结果为 第二语境,即隐私问题,则拒绝客户端发出的用户情绪数据调用请求。
所述语境识别模型也可采用支持向量机,具体训练过程与情绪识别模型类 似,在此不做赘述。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介 质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦 除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB 存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括基于 助听器的语音输出优化程序10,本发明之计算机可读存储介质的具体实施方式 与上述基于助听器的语音输出优化方法以及服务器1的具体实施方式大致相同, 在此不再赘述。
需要说明的是,上述本发明实施例序日仅仅为了描述,不代表实施例的优 劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的 包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、 物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……” 限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另 外的相同要素。
上述本发明实施例序日仅仅为了描述,不代表实施例的优劣。通过以上的 实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助 软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况 下前者是更佳的实施方式。基于这样的理解,本发明的技术本实施例本质上或 者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若 干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等) 执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利 用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运 用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于助听器的语音输出优化方法,应用于服务器,其特征在于,该方法包括:
分类步骤:根据用户的属性信息,利用预设的聚类算法对用户执行聚类操作得到预设数量的用户聚类簇;
获取步骤:获取预设数量的用户情绪数据及对应的语音输入数据,将每个所述用户情绪数据分别输入预先训练的情绪识别模型,得到对应的情绪标签;
建立步骤:判断所述情绪标签是否为预设标签,若是则利用预先确定的关键词提取算法从所述预设标签对应的语音输入数据中提取对应的预设关键词,根据所述用户聚类簇将所有预设关键词分成预设数量的关键词组,并分别建立与每类用户对应的预设词库存储至数据库;及
优化步骤:接收助听器发出的语音输出请求,解析所述语音输出请求得到待输出语音对应的语音输入数据及用户属性信息,根据所述用户属性信息从数据库中找到对应的预设词库,判断所述语音输入数据对应的关键词是否存在于预设词库,若是则对该语音输入数据进行数据优化处理得到优化数据,将所述优化数据反馈至所述助听器。
2.如权利要求1所述的基于助听器的语音输出优化方法,其特征在于,所述获取预设数量的用户情绪数据及对应的语音输入数据包括:
通过预设传感器获取用户在第一预设时间段内产生的用户情绪数据;及/或
通过预设传感器获取用户在第二预设时间段内产生的用户情绪数据;
其中,所述第一预设时间段的时长小于第二预设时间段的时长;
所述情绪语言包括音频数据、心率数据及行为数据。
3.如权利要求1所述的基于助听器的语音输出优化方法,其特征在于,该方法还包括监督步骤:
接收客户端发出的用户情绪数据调用请求,解析所述用户情绪数据调用请求得到待调用的用户情绪数据对应的语音输入数据,及所述用户情绪数据对应的存储时间;
将所述语音输入数据并输入预先训练的语境识别模型,输出语境识别结果;
若所述语境识别结果为第一语境,则将所述用户情绪数据发送至所述客户端;或
若所述语境识别结果为第二语境,则拒绝所述客户端发出的用户情绪数据调用请求。
4.如权利要求1所述的基于助听器的语音输出优化方法,其特征在于,所述情绪识别模型由支持向量机训练得到,所述情绪识别模型的训练过程包括:
获取预设数量的用户情绪数据样本,为每一个用户情绪数据样本分配唯一的情绪标签;
将所述用户情绪数据样本按照预设比例分成训练集和验证集,所述训练集中的用户情绪数据样本数量大于验证集中的用户情绪数据样本数量;
利用预先训练的特征向量提取模型分别从每个用户情绪数据样本中提取出情绪特征向量;
将所述训练集中的用户情绪数据样本输入所述支持向量机进行训练,每隔预设周期使用所述验证集对所述支持向量机进行验证,利用所述验证集中各张用户情绪数据样本的情绪特征向量和对应的情绪标签对该情绪识别模型的准确率进行验证;及
当验证的准确率大于预设阈值时,结束训练,得到所述情绪识别模型。
5.如权利要求1-4任一项所述的基于助听器的语音输出优化方法,其特征在于,所述情绪特征向量提取模型由MobileNetV2网络模型训练得到,所述MobileNetV2网络模型的网络结构包括依次连接的53层卷积层、1层池化层以及1层全连接层。
6.一种服务器,其特征在于,所述服务器包括存储器和处理器,所述存储器上存储有基于助听器的语音输出优化程序,所述基于助听器的语音输出优化程序被所述处理器执行时实现如下步骤:
分类步骤:根据用户的属性信息,利用预设的聚类算法对用户执行聚类操作得到预设数量的用户聚类簇;
获取步骤:获取预设数量的用户情绪数据及对应的语音输入数据,将每个所述用户情绪数据分别输入预先训练的情绪识别模型,得到对应的情绪标签;
建立步骤:判断所述情绪标签是否为预设标签,若是则利用预先确定的关键词提取算法从所述预设标签对应的语音输入数据中提取对应的预设关键词,根据所述用户聚类簇将所有预设关键词分成预设数量的关键词组,并分别建立与每类用户对应的预设词库存储至数据库;及
优化步骤:接收助听器发出的语音输出请求,解析所述语音输出请求得到待输出语音对应的语音输入数据及用户属性信息,根据所述用户属性信息从数据库中找到对应的预设词库,判断所述语音输入数据对应的关键词是否存在于预设词库,若是则对该语音输入数据进行数据优化处理得到优化数据,将所述优化数据反馈至所述助听器。
7.如权利要求6所述的服务器,其特征在于,所述获取预设数量的用户情绪数据及对应的语音输入数据包括:
通过预设传感器获取用户在第一预设时间段内产生的用户情绪数据;及/或
通过预设传感器获取用户在第二预设时间段内产生的用户情绪数据;
其中,所述第一预设时间段的时长小于第二预设时间段的时长;
所述情绪语言包括音频数据、心率数据及行为数据。
8.如权利要求6所述的服务器,其特征在于,所述基于助听器的语音输出优化程序被所述处理器执行时还实现如下步骤:
接收客户端发出的用户情绪数据调用请求,解析所述用户情绪数据调用请求得到待调用的用户情绪数据对应的语音输入数据,及所述用户情绪数据对应的存储时间;
将所述语音输入数据并输入预先训练的语境识别模型,输出语境识别结果;
若所述语境识别结果为第一语境,则将所述用户情绪数据发送至所述客户端;或
若所述语境识别结果为第二语境,则拒绝所述客户端发出的用户情绪数据调用请求。
9.如权利要求6-8任一项所述的服务器,其特征在于,所述情绪识别模型由支持向量机训练得到,所述情绪识别模型的训练过程包括:
获取预设数量的用户情绪数据样本,为每一个用户情绪数据样本分配唯一的情绪标签;
将所述用户情绪数据样本按照预设比例分成训练集和验证集,所述训练集中的用户情绪数据样本数量大于验证集中的用户情绪数据样本数量;
利用预先训练的特征向量提取模型分别从每个用户情绪数据样本中提取出情绪特征向量;
将所述训练集中的用户情绪数据样本输入所述支持向量机进行训练,每隔预设周期使用所述验证集对所述支持向量机进行验证,利用所述验证集中各张用户情绪数据样本的情绪特征向量和对应的情绪标签对该情绪识别模型的准确率进行验证;及
当验证的准确率大于预设阈值时,结束训练,得到所述情绪识别模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于助听器的语音输出优化程序,所述基于助听器的语音输出优化程序可被一个或者多个处理器执行,以实现如权利要求1-5中任一项所述的基于助听器的语音输出优化方法的步骤。
CN202010036913.4A 2020-01-14 2020-01-14 基于助听器的语音输出优化方法、服务器及存储介质 Pending CN111276162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010036913.4A CN111276162A (zh) 2020-01-14 2020-01-14 基于助听器的语音输出优化方法、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010036913.4A CN111276162A (zh) 2020-01-14 2020-01-14 基于助听器的语音输出优化方法、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN111276162A true CN111276162A (zh) 2020-06-12

Family

ID=71001810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010036913.4A Pending CN111276162A (zh) 2020-01-14 2020-01-14 基于助听器的语音输出优化方法、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111276162A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633172A (zh) * 2020-12-23 2021-04-09 平安银行股份有限公司 通讯优化方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633172A (zh) * 2020-12-23 2021-04-09 平安银行股份有限公司 通讯优化方法、装置、设备及介质
CN112633172B (zh) * 2020-12-23 2023-11-14 平安银行股份有限公司 通讯优化方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US20220188521A1 (en) Artificial intelligence-based named entity recognition method and apparatus, and electronic device
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN111159346A (zh) 基于意图识别的智能答疑方法、服务器及存储介质
JP4550882B2 (ja) 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
WO2019153612A1 (zh) 问答数据处理方法、电子装置及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
US9183285B1 (en) Data clustering system and methods
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN108038208B (zh) 上下文信息识别模型的训练方法、装置和存储介质
KR102368188B1 (ko) 인공지능 기반 직업 매칭 시스템
JP6719399B2 (ja) 解析装置、解析方法、およびプログラム
US20220319493A1 (en) Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN111159409A (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN112418059A (zh) 一种情绪识别的方法、装置、计算机设备及存储介质
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN110309355B (zh) 内容标签的生成方法、装置、设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN111276162A (zh) 基于助听器的语音输出优化方法、服务器及存储介质
CN110442674B (zh) 标签传播的聚类方法、终端设备、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200612