CN109920450B - 信息处理装置及信息处理方法 - Google Patents
信息处理装置及信息处理方法 Download PDFInfo
- Publication number
- CN109920450B CN109920450B CN201711323435.XA CN201711323435A CN109920450B CN 109920450 B CN109920450 B CN 109920450B CN 201711323435 A CN201711323435 A CN 201711323435A CN 109920450 B CN109920450 B CN 109920450B
- Authority
- CN
- China
- Prior art keywords
- information
- speaker
- evaluation result
- data
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 50
- 238000003672 processing method Methods 0.000 title claims description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 90
- 238000012549 training Methods 0.000 claims description 13
- 230000008909 emotion recognition Effects 0.000 claims description 6
- 230000002996 emotional effect Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 16
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 17
- 206010010144 Completed suicide Diseases 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000008451 emotion Effects 0.000 description 5
- 238000013210 evaluation model Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000001154 acute effect Effects 0.000 description 3
- 230000001684 chronic effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 206010022998 Irritability Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003370 grooming effect Effects 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开实施例提供了一种信息处理装置及方法。信息处理装置包括:数据采集器,被配置为接收输入的语音信息,并将所述语音信息转化为语音数据;存储器,被配置为存储所述语音数据;处理器,被配置为从所述语音数据获取多个特征信息,并基于所述多个特征信息来生成评估结果;以及显示器,被配置为显示所述评估结果。
Description
技术领域
本发明涉及语音处理领域,具体涉及一种信息处理装置及信息处理方法。
背景技术
随着目前国内电话通信业务的普及,越来越多的人选择采用电话进行相 关专业咨询。北京市心理援助热线自开通以来,至今已接听来电近30万个。 在所接听的来电中,存在高危来电,例如,来电者可能具有心里疾病,或者 有伤害自己或他人的倾向。自2015年以来,高危来电比例不断上升,由之前 每年接听总量的5%上升到11%。如何在有限的通话时间内,尽快识别来电者 的危险程度、或预测危险行为,并且为有自我伤害倾向或有心理问题的人提 供咨询和帮助,是电话干预的重点。因此,在接电过程中,如何基于来电者 的信息快速处理以进行评估尤为重要。
发明内容
本申请的实施例提供了一种信息处理装置。信息处理装置可以包括:数 据采集器,被配置为接收输入的语音信息,并将所述语音信息转化为语音数 据;存储器,被配置为存储所述语音数据;处理器,被配置为从所述语音数 据获取多个特征信息,并基于所述多个特征信息来生成评估结果;以及显示 器,被配置为显示所述评估结果。
可选地,在一个实施例中,信息处理装置还可以包括身份鉴别器,被配 置为获取发音者的声音特征数据,且基于所述声音特征数据判断所述发音者 是否与之前存储的多个发音者属于同一身份,其中,所述声音特征数据从所 述语音数据获取;所述处理器,还被配置为:根据与所述同一身份相应的多 次语音数据来获取本次评估结果;基于所述多次评估结果和所述本次评估结果生成所述评估结果;以及所述显示器,被配置为显示所述评估结果。
可选地,在一个实施例中,所述声音特征数据至少包括声音的音色、音 调以及音质中的至少一个。
可选地,在一个实施例中,信息处理装置还可以包括,来电信息识别器, 被配置为:识别来电信息;以及当所述来电信息满足第一条件时,则驱动所 述身份鉴别器来进行同一身份鉴别。
可选地,在一个实施例中,所述当所述来电信息与存储的历史来电信息 之一相同时,所述显示器还被配置为显示所述历史来电信息。
可选地,在一个实施例中,所述多个特征信息包括如下信息中的至少一 个:程度特征信息,用于表征一种或多种情绪程度的信息;事件特征信息, 用于表征与来电者相关联的事件的统计信息;肢体特征信息,用于表征与所 述来电者相关联的肢体特征信息;或者关联特征信息,用于表征与所述来电 者关联人的事件信息。
可选地,在一个实施中,当所述身份鉴别器基于所述声音特征数据判断 所述发音者是之前存储有历史语音数据的历史发音者时,还包括:采用半监 督特征选择的语音情感识别算法来提取所述程度特征信息。
可选地,在一个实施例中,所述半监督特征选择的语音情感识别算法, 包括:训练阶段和识别阶段;在训练阶段中,基于有标签的训练数据以及所 述同一身份的发音者的以往所存储的语音数据生成分类器;在识别阶段中, 基于所述同一身份发音者的本次语音数据采用所述分类器,进行本次程序特 征信息的识别。
可选地,在一个实施例中,信息处理装置还可以包括,语音单元,被配 置为通过交互方式获取所述语音数据。
可选地,在一个实施例中,还包括报警器,其中,所述处理器还被配置 为:基于所述评估结果,获得警示性评估结果;以及当所述警示性评估结果 满足预定条件时,控制所述报警器输出报警信息。
可选地,在一个实施例中,所述多次评估结果中的各次评估结果为量化 结果;所述评估结果为基于所述多次评估结果得到的预测结果;以及所述条 件为所述平均值大于设定阈值。
本公开实施例还提供一种信息处理方法,可包括:记录并存储语音数据; 从所述语音数据获取多个特征信息,并基于所述多个特征信息来生成评估结 果;以及显示所述评估结果或所述预测结果。
可选地,在一个实施例中,信息处理方法还可以包括:获取发音者的声 音特征数据,且基于所述声音特征数据判断所述发音者是否与之前存储的多 个发音者属于同一身份,其中,所述声音特征数据从所述语音数据获取;根 据与所述同一身份相应的多次语音数据来获取本次评估结果;基于所述多次评估结果和所述本次评估结果生成所述评估结果;显示所述评估结果。
本发明通过信息处理装置可以实现对语音数据内容的评估以及显示。另 外,本发明提供的身份鉴别器能够有效的利用发音者的历史数据来进行结果 评估,并通过显示历史数据来生成更加合理的预警信息。此外,为了提高数 据处理的速度,在进行发音者的身份识别时,也可以结合来电信息识别器进 行初步的信息筛选,当满足初步筛选条件后再由身份鉴别器进一步鉴别来电者身份,明显的提升了数据处理的速度和效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图 仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造 性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示意性图示了本申请实施例的技术方案的应用场景;
图2示意性图示了本申请实施例的信息处理装置的组成框图之一;
图3A示意性图示了本申请实施例的显示器的输出结果一;
图3B示意性图示了本申请示例的显示器的输出结果二;
图4示意性图示了本申请实施例的信息处理装置的组成框图之二;
图5示意性图示了本申请实施例的信息处理装置的组成框图之三;
图6示意性图示了本申请实施例的信息处理方法的流程图之一;
图7示意性图示了本申请实施例的信息处理方法的流程图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是 全部的实施例。
本申请实施例中的语音处理装置可以包括各种类型的智能处理设备或者 计算机,例如移动电话机、平板计算机和笔记本计算机等,还可以是便携式、 袖珍式、手持式、计算机内置的或者车载的装置。智能处理设备执行语音识 别及处理。典型地,该语音处理装置可以具备语音识别及处理的服务器,并 例如是下面图1中的信息处理装置100。
图1示意性图示了本申请实施例的技术方案的应用场景。在图1中,图 示了发言者1和发言者2、以及信息处理装置100。信息处理装置100用于对 发言者1和发言者2的语音进行处理。典型地,信息处理装置100可以通过 网络(例如,电话网络)与发言者1或者发言者2相互通信。本发明实施例 并不对发言者1或者发言者2所采用的通话终端的类型进行限制。例如,发 言者1可以通过固定电话和发言者2可以通过移动电话来分别与信息处理装 置100进行通话。
在一些实施例中信息处理装置100可以包括,处理器102、存储器103、 浏览器(图中未示出)以及输入设备(例如,鼠标、键盘、麦克风)和其他 输出设备(例如,扬声器、警示灯)等其他部件。
处理器102可以处理数据信号,可以包括各种计算结构,例如复杂指令 集计算机(CISC)结构、结构精简指令集计算机(RISC)结构或者一种实行多种指令集组合的结构。在一些实施例中,处理器102也可以是微处理器。
存储器103可以保存处理器102执行的指令和/或数据,例如可以存储用 于实现本实施例的信息处理方法的指令。这些指令和/或数据可以包括代码, 用于实现本公开实施例描述的一个或多个模块的一些功能或全部功能。例如, 存储器103包括动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、 闪存(flash memory)、光存储器(opticalmemory),或其他的本领域技术人 员熟知的存储器。采用本申请提供的基于语音识别技术的评估方法及设备可 以得到对发言者的相关参量或者特征进行实时评估,从而可以为电话咨询行 业的质量评估提供更加自动化和客观化的评估结果。
下面结合图2描述本公开实施例的信息处理装置100的结构。
图2的信息处理装置100可以包括数据采集器110、处理器102、存储器 103以及显示器140。数据采集器110被配置为接收输入的语音信息,并将所 述语音信息转化为语音数据。存储器103被配置为存储所述语音数据(例如,记录发音者1和发音者2的语音数据)。处理器102可以被配置为从所述语音 数据获取多个特征信息,并基于所述多个特征信息来生成评估结果。显示器 140可以被配置为显示评估结果。
处理器102所获取的多个特征信息可以包括程度特征信息、事件特征信 息、肢体特征信息或者关联特征信息中的至少一个。
程度特征信息,用于表征一种或多种情绪程度的信息。例如,程度特征 信息可以包括发音者1或发音者2的痛苦程度或者希望程度等。
事件特征信息,用于表征与发音者相关联的事件的统计信息。例如,事 件特征信息包括慢性事件或者急性事件等。
肢体特征信息,用于表征与发音者相关联的肢体特征信息。例如,肢体 特征信息可以包括自杀史、被虐史或者被攻击史等。
关联特征信息,用于表征与所述来电者关联人的事件信息。例如,关联 特征信息可以包括亲友的咨询信息和心里健康信息等。
下面结合一个实施例详细说明信息处理装置100。
发音者1通过移动电话进行通话,数据采集器110被配置为接收发音者 1通过电话终端输入的语音信息,并将所述语音信息转化为语音数据。
处理器102基于所述语音数据获取程度特征信息,然后依据设定的评估 模型获得程度特征信息的评估结果。当程度特征信息包括痛苦程度或者希望 程度时,所述评估模型还包括痛苦或者希望程度各自所持续的时间长度,如 果痛苦程度持续的时间长度更长,则相应得到第一类评估结果,而如果希望程度持续了更长的时间得到第二类评估结果。之后,在一些实施例中,还可 以结合第一类评估结果和的第二类评估结果来生成警示性评估结果。
处理器102基于所述语音数据获取事件特征信息、肢体特征信息或者关 联特征信息,然后依据设定的评估模型获得这些特征信息的评估结果。以肢 体特征信息为例来说明评估模型以及评估结果。例如,当肢体特征信息包括 自杀史、被虐史以及被攻击史时,所述评估模型还包括自杀、被虐以及被攻击的次数或者持续的时间长度,如果次数大于某个阈值且持续的时间长度大 于设定值,则相应得到第三类评估结果,而如果次数少于所述某个阈值或者 持续时长少于所述设定值,则得到第四类评估结果。之后,在一些实施例中, 还可以结合第四类评估结果和的第三类评估结果来生成警示性评估结果。
在一些实施例中,可以综合上述各类评估结果来综合判断是否生成所述 警示性评估结果。
参考图3A和图3B,在一些实施例中,还可以显示各类评估结果。
如图3A,图3A的纵坐标为相应维度得分。0分提示该维度阴性结果,≥1 分提示该维度为阳性,分数越高表示该维度危险程度越高(但希望维度为反 向计分)。横坐标为各个条目(也就是程度特征信息、事件特征信息、肢体特 征信息或者关联特征信息),该实例中,发音者在痛苦、希望、自杀计划、自 杀史、抑郁、慢性事件、急性事件、被虐待、亲友自杀史九个方面均表现出阳性结果,并且在自杀具体计划一项为最高得分,因此可以认为得到的预测 评估结果为该发音者有高自杀危险程度,需要即刻进行专业干预。
图3B所示,该图中的数字表示得分,各点所在位置表示相应维度得分。 0分提示该维度阴性结果,≥1分提示该维度为阳性,分数越高表示该维度危 险程度越高(但希望维度为反向计分)。该实例中,来电者在痛苦、希望、自 杀计划、自杀史、抑郁、慢性事件、急性事件、被虐待、亲友自杀史九个方 面均表现出阳性结果,并且在自杀具体计划一项为最高得分,因此可以认为 得到的预测评估结果提示该来电者有高自杀危险程度,需要即刻进行专业干 预。
参考图4,信息处理装置100还可以包括身份鉴别器130。
身份鉴别器130可以被配置为获取发音者的声音特征数据,且基于所述 声音特征数据判断所述发音者是否与之前存储的多个发音者属于同一身份, 其中,所述声音特征数据从所述语音数据获取。相应的处理器102,还被配置为根据与所述同一身份相应的多次语音数据来获取本次评估结果;以及基 于所述多次评估结果和所述本次评估结果生成所述评估结果;显示器140被 配置为显示所述评估结果。
身份鉴别器130可以利用存储器103所存储的语音数据来获得声音特征 数据,这些声音特征数据至少包括声音的音色、音调以及音质中的至少一个。 之后,身份鉴别器130会根据声音特征数据来获取与发音者身份相关的声音 特征数据信息(例如,音色信息、音质信息或者音频信息等),最后基于声音 特征数据信息来判断发音者的身份。例如,通过分析语音数据的声音特征来 获得最新发音者的音调所在的频率范围,或同时确定其音色或者音质之一等,然后基于这些声音特征信息与已经存储的其他发音者的声音特征信息来进行 匹配,进而识别该发音者是否与之前的发音者具有相同的身份。例如,音色 可以表征声音的明亮或沙哑,音频的范围大小以及音响的响度大小;音调就 是频率音波的振动幅度;音质:饱和度等音准。例如,如果最新的语音数据 表征的音色信息以及音质信息与已经存储的第一历史发音者的音色信息以及 音质信息的差异在设定的阈值范围内时,则判定最新的发音者与第一历史发音者属于同一人。
需要说明的是,为了能够鉴别发音者的身份对身份鉴别器的灵敏度要求 比较高,必须能够有效的区分相似声音之间的细微差别。
参考图4,信息处理装置100还可以包括来电信息识别器150。来电信息 识别器150被配置为识别来电信息;以及当所述来电信息与存储的历史来电 信息之一相同时,则驱动所述身份鉴别器130来进行同一身份鉴别。例如, 存储器103还可以用来存储每次来电的来电信息,例如存储电话号码信息, 并存储与该电话号码对应的身份属性信息。例如,来电信息可以包括电话号 码信息等,所述第一条件可以是与已经存储的来电的电话号码相同。
通过图4的示例,可以首先通过来电信息来识别最新来电是否和以往来 电信息相同(例如,当存储器103已经存储以往的来电信息),再启动身份鉴 别器130来进行身份鉴别,这样可以有效提升同一用户身份鉴别的命中率,对于涉及大量发音者时采用这种首先通过电话信息筛查再进行同一身份鉴别 的处理策略可以有效提升针对同一个发音者的查找效率,明显提升处理速度。
在一些实施例中,当所述来电信息满足第一条件时,所述显示器还被配 置为显示历史信息。例如,当存储器103已经存储了最新来电的来电信息以 及来电内容时,可以同时在显示器140上展示以往的来电信息内容。这样可 以更加方便和快捷的获得发音者以往状态信息。
在一些示例中,当所述身份鉴别器130鉴别出所述发音者与所述多个发 音者中的一个属于同一身份时,还包括:采用半监督特征选择的语音情感识 别算法来提取所述程度特征信息。
半监督特征选择的语音情感识别算法,包括:训练阶段和识别阶段;所 述训练阶段被配置为基于有标签的训练数据以及所述同一身份的发音者的以 往所存储的语音数据生成分类器;所述识别阶段被配置为基于所述同一身份 发音者的本次语音数据采用所述分类器,进行本次程序特征信息的识别。
可以采用如下方法获得以下三类特征:将语音数据分帧;对每一帧进行 傅立叶变换;使用Mel滤波器对傅立叶变换结果滤波,并对滤波结果取对数; 对取得的对数结果使用局部Hu运算,获得第1类特征特征HuMFCC;对局 部Hu运算后的每一帧进行离散余弦变换,获得第2类特征HuLFPC;计算的 对数结果进行差分运算,然后对差分运算结果的每一帧进行离散余弦变换, 获得第3类特征DMFCC。
训练过程可以包括以下步骤:准备训练的情感语音样本数据库,包括语音 的音频文件和对应的情感类别。标签可以包括愤怒、恐惧、烦躁、厌恶、开 心、中性、悲伤。获得上述三类特征(即,第一类特征、第二类特征以及第 三类特征),并且计算传统特征梅尔频率倒谱系数MFCC(Mel-Frequency Cepstral Coefficients,其中MFCC特征提取包含两个关键步骤:转化到梅尔 频率,然后进行倒谱分析),MLFPC(Mel-log-frequency powercoefficient),线 性预测倒谱系数LPCC,将所有的训练语音样本全部转化为二维特征矩阵, 其中一维为训练语音样本的帧。使用均值、方差,以及各特征在帧维上一阶差分的均值、方差统计方法将二维特征矩阵转化成特征向量。对特征向量使 用SFS特征选择方法,获得对情感分类有效的子集,并获得经过特征选择后 的特征向量V。对特征向量V采用SVM做情感分类器,以5倍交叉方式选 择SVM的最佳参数,并获得对应的分类模型。
识别过程可以包括:获得上述第一类特征、第二类特征以及第三类特征 三类特征,并且计算传统特征MFCC、MLFPC,LPCC,将所有的识别语音样 本全部转化为二维特征矩阵,其中一维为识别语音样本的帧。使用均值、方 差,以及各特征在帧维上一阶差分的均值、方差统计方法将二维特征矩阵转 化成特征向量。根据训练过程获得的有效特征子集的参数,获得经过特征选择后的识别样本的特征向量V。采用SVM的分类模型将V分类为情感中的 一个类别,也就是得到了程度特征信息。
例如,信息处理装置100还可以包括语音单元,被配置为通过交互方式 获取所述语音数据。具体地,发音者通过语音单元提供的问题来对应的输入 相应的答案,继而来有针对性的来采集各种特征信息。例如,语音单元可以 提出多个问题来引导发音者进行针对性答复,并将这些答复内容作为数据采集器110所接收输入的语音信息。
例如,可以基于所述语音数据的内容来获取事件特征信息、肢体特征信 息或者关联特征信息中的至少一个。例如,通过提取语音数据的关键字以及 匹配相关关键字来获得这些事件特征信息、肢体特征信息或者关联特征信息。
处理器102可以基于设定的多个阈值来获得基于所述多个特征信息的所 述评估结果。例如,对于肢体特征信息设定一个阈值,如果统计的最新发音 者的肢体特征信息高于这个设定阈值,则将其定义为状态一,否则属于状态 二。之后再由显示器140来展示针对程度特征信息、事件特征信息、肢体特 征信息或者关联特征信息进行评估后的多个评估结果。例如,可以利用条形图来展示这些评估结果。
本发明提供的身份鉴别器能够有效的利用发音者的历史数据来进行结果 评估,并通过显示历史数据来生成更加合理的预警信息。此外,为了提高数 据处理的速度,在进行发音者的身份识别时,也可以结合来电信息识别器进 行初步的信息筛选,当满足初步筛选条件后再由身份鉴别器进一步鉴别来电 者身份,明显的提升了数据处理的速度和效率。
参考图5,信息处理装置100还包括报警器142,其中,所述处理器102 还被配置为:基于所述评估结果,获得警示性评估结果;以及当所述警示性 评估结果满足预定条件时,控制报警器142输出报警信息。评估结果可以为 量化结果。例如,所述预测评估结果也以为采用人工神经网络获得的预测结 果。
报警器142与处理器102相连,以接收处理器102生成的警示性评估结 果。当报警器142接收警示性评估结果后生成相应的警示信号,例如警示信 号包含但不限于语音或灯光等,之后输出相应的警示信号。可选的,在一些实施例中,报警器142采用语音报警,同时显示器140会同时显示评估结果。 例如,在一些示例中,显示器140可以通过雷达图来显示同一身份的发音者 的多次评估结果。
本发明通过显示器140和报警器142可以即时输出警示性评估结果并以 图形化显示评估结果,给予评估人更加直观和及时的提醒,从而在评估发音 者有抑郁症、心里疾病时执行相应的处理操作。例如,处理操作可以包括尽 快进行心理疏导尽快安排面谈等。
下面结合图6和图7说明本公开的信息处理方法。
图6提供的信息处理方法可以包括:S310,记录并存储语音数据;S320, 从所述语音数据获取多个特征信息,并基于所述多个特征信息来生成评估结 果;以及S330,显示所述评估结果或所述预测结果。
例如,S310中的记录并存储语音数据,具体可以是记录每次发音者的语 音信息,并通过语音信息来获取语音数据,同时还可以记录与发音者身份相 关联的声音特征信息。优先的,可以将一个发音者的语音数据和身份声音特 征信息进行关联存储,并为不同发音者分配唯一的ID号,以方便查找各个发 音者。
例如,S320中可以从语音数据来获得多个特征信息,可以基于语音数据 内同以及关键字提取获得这些特征信息,也可以通过分类器来对语音数据进 行分类识别,以识别结果作为特征信息。步骤S320还可以通过相应的函数来获取针对多个特征信息的多个评估结果。
例如,S330可以采用条形图来同时展示多个评估结果(如图3A),也可 以通过雷达图来展示针对一个发音者的多次评估结果(如图3B)。此外,本 公开实施例还可以基于多次评估结果来生成预测评估结果,并在预测评估结 果满足条件时触发预警信息。例如,可以通过人工神经网络来生成预测评估 结果。例如,人工神经网络的类型可以包括循环神经网络或者卷积神经网络 等。
图7的信息处理方法还可以包括S410,获取发音者的声音特征数据,且 基于所述声音特征数据判断所述发音者是否是之前存储有历史语音数据的历 史发音者,其中,所述声音特征数据从所述语音数据获取;S420,根据与所 述同一身份相应的多次语音数据来获取本次评估结果;基于所述多次评估结 果和所述本次评估结果生成所述评估结果;S430,显示所述评估结果。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组 合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过 使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置 (DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控 制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的 至少一种来实施,在一些情况下,这样的实施方式可以在处理器单元102中 实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种 功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器103中并 且由处理器单元102执行。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各 示例的器件及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结 合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特 定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方 法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描 述的设备和器件的具体工作过程,可以参考前述方法实施例中的对应过程, 在此不再赘述。
在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法, 可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的, 例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外 的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或 一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作 为单元显示的部件可以是或者也可以不是物理单元。可以根据实际的需要选 择其中的部分或者全部单元来实现本实施例方案的目的。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的 技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可 以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中, 包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者 网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者 光盘等各种可以存储程序代码的介质。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限 于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易 想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护 范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种信息处理装置,包括:
数据采集器,被配置为接收输入的语音信息,并将所述语音信息转化为语音数据;
存储器,被配置为存储所述语音数据;
处理器,被配置为从所述语音数据获取多个特征信息,并基于所述多个特征信息来生成评估结果;以及
显示器,被配置为显示所述评估结果;
其中,所述信息处理装置还包括:
来电信息识别器,被配置为:
识别来电信息;以及
当所述来电信息满足第一条件时,则驱动身份鉴别器来进行同一身份鉴别,所述第一条件为所述来电信息与存储的历史来电信息之一相同;
身份鉴别器,被配置为获取发音者的声音特征数据,且基于所述声音特征数据判断所述发音者是否是之前存储有历史语音数据的历史发音者,其中,所述声音特征数据从所述语音数据获取;
所述处理器,还被配置为:
在判断发音者是历史发音者的情况下,根据历史语音数据来获取本次评估结果;以及
基于历史评估结果和所述本次评估结果生成所述评估结果;
其中,所述多个特征信息包括程度特征信息,用于表征一种或多种情绪程度的信息;以及
肢体特征信息,用于表征与来电者相关联的肢体特征信息。
2.如权利要求1所述的信息处理装置,其中,所述声音特征数据至少包括声音的音色、音调以及音质中的至少一个。
3.如权利要求1所述的信息处理装置,其中,当所述来电信息与存储的历史来电信息之一相同时,所述显示器还被配置为显示所述历史来电信息。
4.如权利要求1所述的信息处理装置,其中,所述多个特征信息还包括如下信息中的至少一个:
事件特征信息,用于表征与来电者相关联的事件的统计信息;
关联特征信息,用于表征与所述来电者关联人的事件信息。
5.如权利要求4所述的信息处理装置,其中,当所述身份鉴别器基于所述声音特征数据判断所述发音者是之前存储有历史语音数据的历史发音者时,所述信息处理装置还包括:
采用半监督特征选择的语音情感识别算法来提取所述程度特征信息。
6.如权利要求5所述的信息处理装置,其中,所述半监督特征选择的语音情感识别算法包括:训练阶段和识别阶段;
在所述训练阶段中,基于有标签的训练数据以及所述同一身份的发音者的以往所存储的语音数据生成分类器;
在所述识别阶段中,基于所述同一身份发音者的本次语音数据采用所述分类器,进行本次程序特征信息的识别。
7.如权利要求4所述的信息处理装置,还包括,语音单元,被配置为通过交互方式获取所述语音数据。
8.如权利要求1所述的信息处理装置,还包括报警器,其中,
所述处理器还被配置为:
基于所述评估结果,获得警示性评估结果;以及
当所述警示性评估结果满足预定条件时,控制所述报警器输出报警信息。
9.一种信息处理方法,包括:
记录并存储语音数据;
从所述语音数据获取多个特征信息,并基于所述多个特征信息来生成评估结果;以及
显示所述评估结果或预测结果;
其中,所述信息处理方法还包括,
识别来电信息,当所述来电信息满足第一条件时,则启动同一身份鉴别,所述同一身份鉴别包括获取发音者的声音特征数据,且基于所述声音特征数据判断所述发音者是否是之前存储有历史语音数据的历史发音者,其中,所述声音特征数据从所述语音数据获取,所述第一条件为所述来电信息与存储的历史来电信息之一相同;
根据与同一身份相应的多次语音数据来获取本次评估结果;基于多次评估结果和所述本次评估结果生成所述评估结果;
显示所述评估结果;
其中,所述多个特征信息包括程度特征信息,用于表征一种或多种情绪程度的信息;以及
肢体特征信息,用于表征与来电者相关联的肢体特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711323435.XA CN109920450B (zh) | 2017-12-13 | 2017-12-13 | 信息处理装置及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711323435.XA CN109920450B (zh) | 2017-12-13 | 2017-12-13 | 信息处理装置及信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109920450A CN109920450A (zh) | 2019-06-21 |
CN109920450B true CN109920450B (zh) | 2024-08-06 |
Family
ID=66958257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711323435.XA Active CN109920450B (zh) | 2017-12-13 | 2017-12-13 | 信息处理装置及信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109920450B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339606A (zh) * | 2011-05-17 | 2012-02-01 | 首都医科大学宣武医院 | 一种抑郁情绪电话自动语音识别筛查系统 |
CN104008754A (zh) * | 2014-05-21 | 2014-08-27 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
CN108010513A (zh) * | 2016-10-28 | 2018-05-08 | 北京回龙观医院 | 语音处理方法及设备 |
CN207867897U (zh) * | 2017-12-13 | 2018-09-14 | 北京回龙观医院 | 信息处理装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060057378A (ko) * | 2004-11-23 | 2006-05-26 | 엘지전자 주식회사 | 음성인식 발신자표시기능이 구비된 이동통신 단말기 및그 동작방법. |
CN201355554Y (zh) * | 2008-12-22 | 2009-12-02 | 康佳集团股份有限公司 | 一种语音识别单元和移动通信终端 |
JP4884496B2 (ja) * | 2009-04-02 | 2012-02-29 | 株式会社エヌ・ティ・ティ・ドコモ | 通信端末及び情報表示方法 |
CN103179245B (zh) * | 2011-12-23 | 2016-08-10 | 走著瞧股份有限公司 | 来电电话号码辨识系统和方法 |
CN103531206B (zh) * | 2013-09-30 | 2017-09-29 | 华南理工大学 | 一种结合局部与全局信息的语音情感特征提取方法 |
CN104954532B (zh) * | 2015-06-19 | 2018-08-31 | 深圳天珑无线科技有限公司 | 语音识别的方法及装置与移动终端 |
WO2017149542A1 (en) * | 2016-03-01 | 2017-09-08 | Sentimetrix, Inc | Neuropsychological evaluation screening system |
-
2017
- 2017-12-13 CN CN201711323435.XA patent/CN109920450B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339606A (zh) * | 2011-05-17 | 2012-02-01 | 首都医科大学宣武医院 | 一种抑郁情绪电话自动语音识别筛查系统 |
CN104008754A (zh) * | 2014-05-21 | 2014-08-27 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
CN108010513A (zh) * | 2016-10-28 | 2018-05-08 | 北京回龙观医院 | 语音处理方法及设备 |
CN207867897U (zh) * | 2017-12-13 | 2018-09-14 | 北京回龙观医院 | 信息处理装置 |
Non-Patent Citations (2)
Title |
---|
北京市心理援助热线自杀高危来电的特征及干预效果;王翠玲;中国心理卫生杂志;20111031;第25卷(第10期);741-745,第1节 * |
心理援助热线标准化管理流程建设初探-北京市心理援助热线电脑操作系统介绍;王翠玲;中国心理卫生杂志;20120531;第26卷(第5期);337-339,第1-4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN109920450A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10069966B2 (en) | Multi-party conversation analyzer and logger | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
US8219404B2 (en) | Method and apparatus for recognizing a speaker in lawful interception systems | |
US8595005B2 (en) | System and method for recognizing emotional state from a speech signal | |
CN109767765A (zh) | 话术匹配方法及装置、存储介质、计算机设备 | |
US9711167B2 (en) | System and method for real-time speaker segmentation of audio interactions | |
CN107274888B (zh) | 一种基于倍频程信号强度和差异化特征子集的情感语音识别方法 | |
CN110047510A (zh) | 音频识别方法、装置、计算机设备及存储介质 | |
CN107507626B (zh) | 一种基于语音频谱融合特征的手机来源识别方法 | |
CN109036382A (zh) | 一种基于kl散度的音频特征提取方法 | |
CN108010513B (zh) | 语音处理方法及设备 | |
CN108877823A (zh) | 语音增强方法和装置 | |
WO2019119279A1 (en) | Method and apparatus for emotion recognition from speech | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN108831456A (zh) | 一种通过语音识别对视频标记的方法、装置及系统 | |
Murugaiya et al. | Probability enhanced entropy (PEE) novel feature for improved bird sound classification | |
CN207867897U (zh) | 信息处理装置 | |
Chakroun et al. | Efficient text-independent speaker recognition with short utterances in both clean and uncontrolled environments | |
CN117672517A (zh) | 一种用于老人日常记录与智能监护的方法及装置 | |
CN109920450B (zh) | 信息处理装置及信息处理方法 | |
EP4093005A1 (en) | System method and apparatus for combining words and behaviors | |
KR20180005876A (ko) | 음성데이터 기반 인성평가를 통한 인공지능형 개인신용평가 및 분석 시스템 및 방법 | |
CN110556114A (zh) | 基于注意力机制的通话人识别方法及装置 | |
JPWO2013008956A1 (ja) | 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム | |
CN113380244A (zh) | 一种设备播放音量的智能调节方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |