CN108010513A

CN108010513A - 语音处理方法及设备

Info

Publication number: CN108010513A
Application number: CN201610922878.XA
Authority: CN
Inventors: 童永胜; 杨甫德; 王翠玲; 庞宇; 梁红; 谭云龙; 李献云; 刘涛
Original assignee: Beijing Huilongguan Hospital
Current assignee: Beijing Huilongguan Hospital
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2018-05-08
Anticipated expiration: 2036-10-28
Also published as: CN108010513B

Abstract

本公开实施例提供了一种语音处理设备及方法。所述语音处理设备包括：语音采集器，被配置为实时采集语音信息；识别和分析部件，被配置为对所采集的语音信息进行识别和分析从而获得识别结果，该识别结果包括与语音信息对应的文字内容、以及语音信息中的发言人的状态信息；评估生成部件，被配置为基于所述识别结果来生成评估信息，所述评价信息是用于表征所述语音信息中的发言人的状态；以及输出部件，被配置为输出与所述评估信息相关的反馈信息。

Description

语音处理方法及设备

技术领域

本公开涉及语音处理领域，具体涉及一种语音处理方法及设备。

背景技术

目前根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别(isolated word recognition)，关键词识别(或称关键词检出，keyword spotting)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。此外，根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要。

此外，随着目前国内电话通信业务的普及，语音识别技术在较多的领域得到应用。在采用电话进行相关专业咨询的应用中，可以利用语音识别技术来改进指导接线人员的工作。当前的语音识别技术难以满足这种需求。因此，需要提供一种语音识别技术来满足应用发展的多样化需求。

发明内容

本申请的实施例提供了一种语音处理方法及设备、能够方便地完成对于电话语音内容及语气的分析，而有效的改善了现有的电话语音评估方法及设备。

第一方面，提供了一种语音处理设备。该语音处理设备可以包括：语音采集器，被配置为实时采集语音信息；识别和分析部件，被配置为对所采集的语音信息进行识别和分析从而获得识别结果，该识别结果包括与语音信息对应的文字内容、以及语音信息中的发言人的状态信息；评估生成部件，被配置为基于所述识别结果来生成评估信息，所述评价信息是用于表征所述语音信息中的发言人的状态；以及输出部件，被配置为输出与所述评估信息相关的反馈信息。

结合第一方面，在第一方面的一种实现方式中，所述识别和分析部件可以被配置为计算所述语音信息中的发言人的发言时间、声音频率和沉默时间，以获得所述语音信息中的发言人的状态信息。

结合第一方面，在第一方面的一种实现方式中，所述识别与分析部件可以包括：语音识别单元、计算处理单元以及状态识别单元；所述语音识别单元，被配置为基于所述语音信息进行关键字识别，并进行语气识别；所述计算处理单元，被配置为计算发言人的发言时间和沉默时间；所述情感状态识别单元，被配置为依据所述语音信息的内容和声音频率识别发言者的情感状态变化。

结合第一方面及其上述实现方式，所述语音识别单元可以包括：第一语音识别模块，被配置为识别与共情相关的关键字，并计算所述关键字出现的次数；第二语音识别模块，被配置为识别与确认和反馈相关的关键字，并计算所述关键字出现的次数；语气判断模块，被配置为识别所输入的语音信息中的疑问表达，并计算所述疑问表达出现的次数；以及第一处理模块，被配置为基于所述第一语音识别模块的计算结果、所述第二语音识别模块的计算结果以及语气识别模块的计算结果，获得语音识别评估结果。

结合第一方面及其上述实现方式，所述计算处理单元可以包括：第一计算处理模块，被配置为计算被评估对象的发言次数以及每次发言的总时长；第二计算处理模块，被配置为计算被评估对象的沉默次数以及每次沉默的总时长；以及第二处理模块，被配置为基于所述第一计算处理模块以及第二计算处理模块的计算结果得到被评估对象的总发言时长以及总沉默时长，并基于所述总发言时长、所述总沉默时间以及预先设定阈值获得发言时间评估结果。

结合第一方面，在第一方面的另一种实现方式中，所述输出部件可以包括第一提示单元以及第二提示单元；所述第一提示单元，被配置为依据所述评估生成模块的评估信息生成第一提示信息；所述第二提示单元，被配置为依据所述识别与分析模块得到的发言人的状态信息生成第二提示信息。

结合第一方面及其上述实现方式，所述评估生成部件，被配置为依据所述语音识别评估结果以及所述发言时间评估结果得到最终评估结果，并通过如下操作获得最终评估结果：将所述语音评估结果划分为若干个等级，并将所述发言时间评估结果划分为若干个等级；为所述语音识别评估结果设定第一权重值，为所述发言时间评估结果设定第二权重值；依据第一权重值以及针对本次语音评估结果的具体等级，以及第二权重值以及针对本次发言评估结果的等级得到最终评估结果。

结合第一方面及其上述实现方式，所述状态识别单元可以包括：识别模块，被配置为依据所述语音信息的内容和语调实时判断发言者的情绪变化，并得到一段时间的状态变化曲线；处理模块，将所述状态变化曲线与预定的状态变化曲线对比，得到状态变化评估结果；报警触发模块，被配置为当所述状态变化评估结果满足预定条件时，向所述第二报提示模块发送提示信号。

结合第一方面，在第一方面的又一种实现方式中，所述评估生成部件，还被配置为基于针对一个发言者的多次评估结果生成评估图；所述输出部件，被配置为输出所述评估图。

结合第一方面及其上述实现方式，所述评估图的种类包括：剖面图、曲线图和雷达图。

第二方面，提供了一种语音处理方法可以包括：实时采集发言者的语音信息；对所采集的语音信息进行识别和分析从而获得识别结果，该识别结果包括与语音信息对应的文字内容、以及语音信息中的发言人的状态信息；基于所述识别结果来生成评估信息，所述评估信息是用于表征与所述发言人的状态相关的信息；以及输出与所述评估信息相关的反馈信息。

结合第二方面，在第二方面的一种实现方式中，所述对所采集的语音信息进行识别和分析从而获得识别结果过程可以包括通过计算语音信息中的发言人的发言时间、声音频率和沉默时间，以获得语音信息中的发言人的状态信息。

结合第二方面，在第二方面的一种实现方式中，所述对所采集的语音信息进行识别和分析从而获得识别结果的过程可以包括：基于所述语音信息进行关键字识别，并进行语气识别；计算发言人的发言时间和沉默的时间；依据所述语音信息的内容和声音频率识别发言者的情感状态变化。

结合第二方面及其上述实现方式，其中，所述基于所述语音信息进行关键字识别，并进行语气识别的过程可以包括：识别与共情相关的第一类关键字，并计算所述第一类关键字出现的次数；识别与确认和反馈相关的第二类关键字，并计算所述第二类关键字出现的次数；识别所输入的语音信息中的疑问表达，并计算所述疑问表达出现的次数；以及基于所述第一类关键字出现的次数、所述第二类关键字出现的次数以及所述疑问表达出现的次数，获得语音识别评估结果。

结合第二方面及其上述实现方式，所述计算发言人的发言时间和沉默的时间可以包括：计算发言次数以及每次发言的总时长；计算沉默次数以及每次沉默的总时长；以及基于所述发言次数以及每次发言时长计算总发言时长、基于所述沉默次数以及每次沉默时长计算总沉默时长，并基于所述总发言时长、所述总沉默时间以及预先设定阈值获得发言时间评估结果。

结合第二方面及其上述实现方式，所述输出与所述评估信息相关的反馈信息可以包括：依据所述评估信息生成第一提示信息；依据所述识别结果生成第二提示信息。

结合第二方面及其上述实现方式，所述基于所述识别结果来生成评估信息，所述评估信息是用于表征与所述发言人的状态相关的信息可以包括：将所述语音评估结果划分为若干个等级，并将所述发言时间评估结果划分为若干个等级；为所述语音识别评估结果设定第一权重值，为所述发言时间评估结果设定第二权重值；依据第一权重值以及本次语音评估结果的具体等级，以及第二权重值以及本次发言评估结果的等级得到最终评估结果。

结合上述第二方面及其上述实现方式，所述依据所述语音信息的内容和声音频率识别发言者的情感状态变化可以包括：依据所述语音信息的内容和语调实时判断发言者的情感变化，并得到一段统计时间的状态变化曲线；将所述状态变化曲线与预定的状态变化曲线对比，得到状态变化评估结果；当所述状态变化评估满足预定条件时，向生成提示信息。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示意性图示了本申请实施例的技术方案的应用场景；

图2示意性图示了本申请实施例的语音处理设备的组成框图；

图3示意性图示了本申请实施例的识别与分析部件以及语音识别单元的组成框图；

图4示意性图示了本申请实施例提供的计算处理单元的组成框图；

图5示意性图示了本申请实施例的输出部件的组成框图；

图6示意性图示了本申请实施例的状态识别单元的组成框图；

图7示意性图示了本申请实施例的语音处理方法的流程图；

图8示意性图示了本申请实施例的获取识别结果的流程图；

图9示意性图示了本申请实施例的进行语气识别的流程图；

图10示意性图示了本申请实施例的计算评估结果的流程图；

图11示意性图示了本申请实施例的电子设备的硬件组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

本申请实施例中的语音处理设备可以包括各种类型的智能处理设备、服务器或者计算机，例如便携式、袖珍式、手持式、计算机、移动电话机、平板计算机和笔记本计算机等，还可以是内置于智能处理设备或者计算机中。智能处理设备执行语音识别及处理。典型地，该语音处理设备可以是具备语音识别及处理的服务器。

图1示意性图示了本申请实施例的技术方案的应用场景。在图1中，语音处理设备以服务器101为例。典型地，服务器可以设置于发言者1附近(此时服务器101也可以接受到发言者2的语音数据)或者也可以是通过网络与发言者1或者发言者2相互通信。此外，发言者1和发言者2可以通过电话网络160进行语音通信。例如，发言者1通过移动电话以及移动接入网络与发言者2通信，发言者1通过固定电话以及固定电话网络与发言者2进行语音沟通。本发明实施例并不对发言者1或者发言者2所采用的通话终端的类型进行限制。例如，发言者1和发言者2也可以同时通过固定电话进行通话。

在一些实施例中服务器101可以包括，处理器102、存储器103、浏览器(图中未示出)，具体可参考图11。此外，发言者1或者发言者2的电话机中可以包括输入设备(例如，麦克风)和其他输出设备(例如，扬声器)等其他部件。

处理器102可以处理数据信号，可以包括各种计算结构，例如复杂指令集计算机(CISC)结构、结构精简指令集计算机(RISC)结构或者一种实行多种指令集组合的结构。在一些实施例中，处理器102也可以是通用处理器、专用处理器、微处理器。可以采用现有的或将来出现的各种处理器件作为处理器102。处理器102的具体实现形式不构成对本公开的具体限制。

存储器103可以保存处理器102执行的指令和/或数据，例如可以存储用于实现本实施例的语音处理方法的指令。这些指令和/或数据可以包括代码，用于实现本公开实施例描述的一个或多个模块的一些功能或全部功能。例如，存储器103包括动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存(flash memory)、光存储器(optical memory)，或其他的本领域技术人员熟知的存储器。采用本申请提供的基于语音识别技术的评估方法及设备可以得到对发言者的相关参量或者特征进行实时评估，从而可以为电话咨询行业的质量评估提供更加自动化和客观化的评估结果。

图1中的服务器101可以作为语音处理设备，该语音处理设备可以用于实现如下功能：识别来自于发言者的通话内容，并基于识别的通话内容得到评估结果或者生成相关的提示信息。针对语音处理设备的具体实现可以参考图2以及对图2的相关描述。

语音处理设备可以采用物理分布式实现方式、也可以采用集中实现方式。具体地，针对第一种场景，语音处理设备的全部功能可以全部集成在电话机中(例如集中于图1中的移动固定电话或者移动电话机中)。此时每个使用者所使用的电话机同时包含有语音处理设备的功能，因此电话机既可以用作通话设备也可以用作语音处理设备。采用这种集中实现方式的优点在于可以实时对通话者的语音数据进行处理识别，并可以实时的向通话者反馈基于识别结果的信息。针对第二种场景，可以将语音处理设备的一部分功能集成在电话机中，而将语音处理设备的另一部分功能设置于服务器中，例如，可以将语音采集的功能集成在电话机中同时将识别语音数据，得到识别结果以及通过反馈信息的功能设置于服务器端。采用这种方案可以将基于评估结果的提示信息每隔一定时间提供给使用者，进而实现提示信息的半实时反馈。针对第三种场景，可以将语音处理设备所具有的全部功能均设置于服务器中。此时由服务器采集语音数据，识别语音数据并得到基于识别结果的提示信息。由于此时语音处理设备的相关功能均位于与电话机独立的服务器中，所以可以为多部电话机设置一个服务器，该服务器可以并行或者串行处理来自于不同电话机的语音数据。

下面结合图2-图6描述根据本申请实施例的语音处理设备、结合图7-图10描述根据本申请实施例的语音处理方法，结合图11描述根据本申请实施例的电子设备终端的硬件组成结构。

图2示意性图示了本申请实施例的一种语音处理设备200。该语音处理设备200可位于图1的服务器101，也可以位于电话机中。

如图2所示，语音处理设备200包括：语音采集器210、识别与分析部件220、评估生成部件230以及输出部件240。

语音采集器210，被配置为实时采集语音信息。识别和分析部件220，被配置为对所采集的语音信息进行识别和分析从而获得识别结果，该识别结果包括与语音信息对应的文字内容、以及语音信息中的发言人的状态信息。评估生成部件230，被配置为基于所述识别结果来生成评估信息，所述评价信息是用于表征所述语音信息中的发言人的状态；以及输出部件240，被配置为输出与所述评估信息相关的反馈信息。

语音采集器210可以用于采集和保存持有该语音采集器210的用户在接听有关来电并进行交流时的声音文件，也可以用于采集与用户进行通话的通话对方的人的声音文件。具体地，对于识别和分析部件220中涉及的发言人的状态信息可以为采集的通话对方的状态信息(例如，可以为能够反应通话对方的情绪的状态信息)。对于识别和分析部件220中涉及的语音信息对应的文字内容可以为接线员的发言内容。此外，对于评估生成部件230可用于生成对接线员的工作质量的评估结果，也可以用于生成对进行咨询的人的状态评估结果。

例如，语音采集设备可以为麦克风设备、还可以是手机、计算机中的麦克风和录音模块。另外，语音处理设备200还可以包含存储模块，用于存储采集的语音数据。例如，所存储的语音数据可以为接线员的语音数据，也可以是咨询人的语音数据。语音采集设备所采集到的数据可以是原始的音频数据，还可以是对音频数据进行解码操作和/或转换操作之后的其它数据，只要识别和分析部件220能够基于其对通话者的语音中的特征进行识别即可。

识别和分析部件220通常还被配置为计算所述语音信息中的发言人的发言时间、声音频率和沉默时间，以获得所述语音信息中的发言人的状态信息。

在一些实施例中，通过统计发言人的发言时间(例如，对于专业咨询服务中该处的发言人指代接线员)可以初步估计接线员的服务质量。具体可以为，针对心理咨询的接线员，如果接线员沉默的时间非常长，几乎没有互动环节，则可以初步判断该接线员服务质量较差。对应的，也可以通过获取接线员的沉默时间初步评估其服务质量。

在一些实施例中，可以通过计算声音频率(例如，对于进行心理咨询的情况，该处可以为统计进行心理咨询的人的声音频率)得到发言人的情绪状态信息，进而依据得到的情绪状态信息可以实时触发相关的安全机制。

评估生成部件230可以被配置来基于所述识别结果来生成评估信息，所述评价信息是用于表征所述语音信息中的发言人的状态。此外，评估生成部件230还被配置为记录针对某一通话者的第一次评估结果，之后再分别记录针对该通话者的第二次，第三次甚至第四次评估结果，依据得到的四次评估结果。最终得到每次评估结果在历次评估中的变化趋势图。

在本发明的一个实施例中，评估生成部件230被配置为依据所述语音识别评估结果以及所述发言时间评估结果得到最终评估结果，并通过如下操作获得最终评估结果：将所述语音评估结果划分为若干个等级，并将所述发言时间评估结果划分为若干个等级；为所述语音识别评估结果设定第一权重值，为所述发言时间评估结果设定第二权重值；依据第一权重值以及针对本次语音评估结果的具体等级，以及第二权重值以及针对本次发言评估结果的等级得到最终评估结果。例如，对于互动要求不高的电话咨询，可以将第一权重值设置的相对较高；而对于互动要求较高的电话咨询，可以将第二权重值设置的相对较高。此外，最终评估结果也可以是针对同一个接线员的数次评估结果。

输出部件240可以被配置为输出与所述评估信息相关的反馈信息。例如，输出部件240可以输出针对某一个通话者的咨询技能的水平剖面图，该水平剖面图纵坐标可以表征评估结果(例如，采用分数表征评估结果)，横坐标可以为通话者的语音识别评估结果(该处语音识别评估结果与通话者使用的关键字或词的数量相关，具体可以参考图3示出的针对语音识别单元的相关描述)。又例如，输出部件240还可以输出针对同一接线员对咨询流程、交流技巧以及咨询态度等方面所呈现的水平雷达图。其中接线员的交流技巧可以包括使用的关键词及次数，采用的疑问表达方式的次数，互动的情况等，而接线员咨询态度可以通过识别的通话状态进行反应。

在本发明的一个实施例中，评估生成部件230，还被配置为基于针对一个发言者的多次评估结果生成评估图。此时输出部件240，被配置为输出所述评估图。例如，评估图的种类可以包括：剖面图、曲线图和雷达图等。通过设置展示多次评估结果的图像可以直观的获得同意发言人的工作质量是否有改观。

下面结合图3-图5分别介绍上述识别与分析部件220、输出部件240，以及识别与分析部件中包含的各单元或者模块的相关特征。

如图3所示，在本发明的一个实施例中，上述识别与分析部件220还可以包括语音识别单元310、计算处理单元320以及状态识别单元330。

语音识别单元310，被配置为基于所述语音信息进行关键字识别，并进行语气识别。计算处理单元320，被配置为计算发言人的发言时间和沉默时间。状态识别单元330，被配置为依据所述语音信息的内容和声音频率识别发言者的情感状态变化。

在一些实施例中，语音识别单元310可以进行某几类关键字或关键词识别。例如，针对专业咨询可以将专业词汇作为识别的关键词，针对进行心理咨询的具体情况可以为采集接线员是否使用了共情类的关键字，或者使用了确认或者反馈类的关键字。此外，对于进行心理咨询的人也可以为识别与严重后果相关的关键字或者词。基于采集的关键字既可以得到接线员的服务质量评估，也可以得到咨询人的状态变化。基于采集的关键字还可以判断接线员是否使用了避免使用的词汇，如果使用了避免使用的词汇将导致接线员服务质量评估的结果较差。

在一些实施例中，语音识别单元310需要执行如下三个步骤：(1)语音信号预处理与特征提取；(2)声学模型与模式匹配；以及(3)语言模型与语言处理。其中，特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100之间。由于语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本，性能，响应时间，计算量等。由于本实施例是针对非特定人语音识别系统，所以特征提取即为提取反映语义的特征参数，尽量去除说话人的个人信息。

例如，语音识别单元310可以逐一执行如下操作，进而得到关键字识别结果：首先，切除语音中包含的静音并提取反应语义的特征参数；其次，建立声学模型，采用建立的声学模型完成对提取的特征参数的匹配操作，即完成对采集的语音数据的搜索解码过程。最后，根据搜索解码的结果判断输入的语音数据中是否包含相应的关键字。

在一些实施例中，计算处理单元320可以用于统计接线员的发言时间以及沉默时间，进而可以得到对互动要求较高的场合的接线员的服务质量进行评估的依据。

在一些实施例中，状态识别单元330，可以被配置为采集进行心理咨询的人的声音频率，也可以为采集接线员的声音频率。其中，采集的进行心理咨询的人的声音频率可以用于判断相关人员的情绪状态变化，而采集的接线员的声音频率可以用于反应接线员的通话状态。例如，情绪状态变化可以包括情绪急剧恶化等情况，服务态度可以包括语气平静而缓和的情况等。

如图3所示，在本发明的一个实例中，上述语音识别单元310还可以包括：第一语音识别模块311、第二语音识别模块312、语气判断模块313以及第一处理模块314。

第一语音识别模块311，被配置为识别与共情相关的关键字，并计算所述关键字出现的次数。第二语音识别模块312，被配置为识别与确认和反馈相关的关键字，并计算所述关键字出现的次数。语气判断模块313，被配置为识别所输入的语音信息中的疑问表达，并计算所述疑问表达出现的次数。以及第一处理模块314，被配置为基于所述第一语音识别模块的计算结果、所述第二语音识别模块的计算结果以及语气识别模块的计算结果，获得语音识别评估结果。例如，共情类的关键字可以包括：认可，尊重，接收等。例如，确认和反馈类的关键字可以包括：建议，可以等。以下提供一个具体示例。例如，第一语音识别模块311以及第二语音识别模块312基于语音采集器所采集的连续语音进行关键字识别。

语音识别单元310包含的第一语音识别模块311识别到接线员采用的共情类的关键字或词共10个，第二语音识别模块312识别到的接线员采用的情感确认和反馈类的关键字共20个，语气判断模块313经过识别得到接线员共采用了六次疑问表达。如果系统需要接线员至少使用共情类关键词20个，需要使用情感确认和反馈的关键字或词共30个，需要使用疑问表达至少五次，则将这些数据定义为系统标准。此时，第一处理模块会根据系统预定的标准判断接线员的实际达到标准的情况，进而得到一个语音评估结果。例如，判断第一语音识别模块的识别结果不达标，判断第二语音识别模块的识别结果不达标，判断疑问表达的次数达标，进而依据得到接线员不达标的结果(此时可以根据，至少要两项达标才认定为达标)。

如图4所示，在本发明的一个实例中，计算处理单元400(对应于图3的计算处理单元320)又可以包括：第一计算处理模块410、第二计算处理模块420以及第二处理模块430。

第一计算处理模块410，被配置为计算被评估对象的发言次数以及每次发言的总时长。第二计算处理模块420，被配置为计算被评估对象的沉默次数以及每次沉默的总时长。以及第二处理模块430，被配置为基于所述第一计算处理模块以及第二计算处理模块的计算结果得到被评估对象的总发言时长以及总沉默时长，并基于所述总发言时长、所述总沉默时间以及预先设定阈值获得发言时间评估结果。

例如，接线员发言总时间与沉默总时间的比例关系为1∶4，而设定的阈值为发言总时间与沉默总时长比值最小为百分之三十最大为之八十，则可以初步判断接线员的沉默时间较长，属于与咨询人互动不太理想的情况，进一步可以根据此结果评估接线员的工作质量。

如图5所示，在本发明的一个实施例中，状态识别单元500包括：识别模块510、处理模块520以及报警触发模块530。

识别模块510，被配置为依据所述语音信息的内容和语调实时判断发言者的情绪变化，并得到一段时间的状态变化曲线。处理模块520，将所述状态变化曲线与预定的状态变化曲线对比，得到状态变化评估结果。报警触发模块530，被配置为当所述状态变化评估结果满足预定条件时，向所述第二报提示模块发送提示信号。

如图6所示，在本发明的一个实施例中，输出部件600(对应于图2的输出部件240)可以包括第一提示单元610以及第二提示单元650。

第一提示单元610，被配置为依据所述评估生成部件250的评估信息生成第一提示信息。第二提示单元650，被配置为依据所述识别与分析部件220得到的发言人的状态信息生成第二提示信息。例如，第一提示信息为用于引导接线员的工作状态的提示信息，第二提示信息可以为接线员的通话对方的提示信息。第一提示信息例如为“放缓语速”、“降低音量”、“请适当沉默”等信息。此处非常差的第一提示信息会被及时保存，继而可以作为评价针对同一个接线员的服务质量评价的参数。第二提示信息例如为“通话对方心情低落”、“通话对方有危险”。在获得了通话对方的事先许可的情况下，可以见该第二提示信息传送到通话对方的家人，甚至可以传送到指定的医院、公安系统等，从而能够注意到通话对方的状态，以及时关注到通话对方的异常情况。

所述第一提示单元610例如为显示器、语音提示器、振动器等。此外，采用语音提示器时该提示器的音量不能设置的太大，或者太尖等。对于振动器，例如可以预先确定振动频率和对应的提示信息，给出高、中、低频率所对应的提示信息示例。

所述第二提示单元650例如为信号收发器。该信号收发器可以发送文本信息、语音提示信息。例如，在生成要输出的第二提示信息之后，从存储器中调取预先存储的相关人员或者相关机构的相关的联系方式，然后向相关人员或者相关机构发送第二提示信息。

图7示意性图示了根据本公开实施例的一种语音处理方法700。该语音处理方法700可以应用于图1的服务器。

如图7所示，语音处理方法700包括：步骤S710，实时采集发言者的语音信息。步骤S720，对所采集的语音信息进行识别和分析从而获得识别结果，该识别结果包括与语音信息对应的文字内容、以及语音信息中的发言人的状态信息。步骤S730，基于所述识别结果来生成评估信息，所述评估信息是用于表征与所述发言人的状态相关的信息。以及步骤S740，输出与所述评估信息相关的反馈信息。

在本发明的一个实施例中，步骤S720中的对所采集的语音信息进行识别和分析从而获得识别结果的过程，具体可以包括通过计算语音信息中的发言人的发言时间、声音频率和沉默时间，以获得语音信息中的发言人的状态信息。

在本发明第一个实施例中，步骤S730还可以包括记录针对某一通话者的第一次评估结果，之后再分别记录针对该通话者的第二次，第三次甚至第四次评估结果，依据得到的四次评估结果。最终得到每次评估结果在历次评估中的变化趋势图。

如图8所示，在本发明的一个实施例中，步骤S720中对所采集的语音信息进行识别和分析从而获得识别结果具体包括：步骤S810，基于所述语音信息进行关键字识别，并进行语气识别。步骤S820，计算发言人的发言时间和沉默的时间。步骤S830，依据所述语音信息的内容和声音频率识别发言者的情感状态变化。

如图9所示，在本发明的一个实施例中，步骤S810中的基于所述语音信息进行关键字识别并进行语气识别的过程可以包括：步骤S910，识别与共情相关的第一类关键字，并计算所述第一类关键字出现的次数。步骤S920，识别与确认和反馈相关的第二类关键字，并计算所述第二类关键字出现的次数。步骤S930，识别所输入的语音信息中的疑问表达，并计算所述疑问表达出现的次数。以及步骤S940，基于所述第一类关键字出现的次数、所述所述第二类关键字出现的次数以及所述疑问表达出现的次数，获得语音识别评估结果。

在本发明的一个实施例中，步骤S820中计算发言人的发言时间和沉默的时间的过程可以包括：步骤S1010，计算发言次数以及每次发言的总时长。步骤S1020，计算沉默次数以及每次沉默的总时长。以及步骤S1030，基于所述发言次数以及每次发言时长计算总发言时长、基于所述沉默次数以及每次沉默时长计算总沉默时长，并基于所述总发言时长、所述总沉默时间以及预先设定阈值获得发言时间评估结果。

在本发明的一个实施例中，步骤S740中输出与所述评估信息相关的反馈信息的过程可以包括：依据所述评估信息生成第一提示信息；依据所述识别结果生成第二提示信息。例如，第一提示信息为用于引导接线员的工作状态的提示信息，第二提示信息可以为接线员的通话对方的提示信息。第一提示信息例如为“放缓语速”、“降低音量”、“请适当沉默”等信息。此处非常差的第一提示信息会被及时保存，继而可以作为评价针对同一个接线员的服务质量评价的参数。第二提示信息例如为“通话对方心情低落”、“通话对方有危险”。在获得了通话对方的事先许可的情况下，可以见该第二提示信息传送到通话对方的家人，甚至可以传送到指定的医院、公安系统等，从而能够注意到通话对方的状态，以及时关注到通话对方的异常情况。

此外，步骤S740中输出与所述评估信息相关的反馈信息的过程可以包括输出与所述评估信息相关的反馈信息。例如，可以输出针对某一个通话者的咨询技能的水平剖面图，该水平剖面图纵坐标可以表征评估结果(例如，采用分数表征评估结果)，横坐标可以为通话者的语音识别评估结果(该处语音识别评估结果与通话者使用的关键字或词的数量相关，具体可以参考图3示出的针对语音识别单元的相关描述)。又例如，还可以输出针对同一接线员对咨询流程、交流技巧以及咨询态度等方面所呈现的水平雷达图。其中接线员的交流技巧可以包括使用的关键词及次数，采用的疑问表达方式的次数，互动的情况等，而接线员咨询态度可以通过识别的通话状态进行反应。

在本发明的一个实施例中，步骤S730中的基于所述识别结果来生成评估信息的过程可以包括：将所述语音评估结果划分为若干个等级，并将所述发言时间评估结果划分为若干个等级；为所述语音识别评估结果设定第一权重值，为所述发言时间评估结果设定第二权重值；依据第一权重值以及本次语音评估结果的具体等级，以及第二权重值以及本次发言评估结果的等级得到最终评估结果。

在本发明的一个实施例中，步骤S830中的依据所述语音信息的内容和声音频率识别发言者的情感状态变化的过程可以包括：依据所述语音信息的内容和语调实时判断发言者的情感变化，并得到一段统计时间的状态变化曲线；将所述状态变化曲线与预定的状态变化曲线对比，得到状态变化评估结果；当所述状态变化评估满足预定条件时，向生成提示信息。

图11为实现本发明各个实施例一个可选的终端设备的硬件结构示意图。

终端设备1100可以包括麦克风110、通信单元120、处理器单元130、存储器140、接口单元150等等。图11示出了具有各种组件的电子设备，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。

麦克风110可以用于采集发言者的语音数据，得到进行电话通信的双方的语音数据。

通信单元120通常包括一个或多个组件，其允许终端与无线通信系统或网络之间的无线或者有线通信。例如，通信单元可以包括广播接收模块或移动通信模块中的至少一个。

处理器单元130可以用于从存储器140中读取其存储的可执行代码，并执行代码对应的操作，进而控制电子设备与外界的通信和交互。例如，处理器单元130可以用于执行图2中示出的识别与分析部件220以及评估生成部件230的功能。也可以用于执行图2输出部件240的相关功能。处理器140还可以用于执行图3示出的语音识别单元310、计算处理单元320以及状态识别单元353的功能，并执行图4-图6示出的相关功能模块的功能。例如，处理器可以用于执行图4示出的计算处理模块410、第二计算处理模块420以及第一处理模块430的功能。

存储器140可以存储由处理器单元130执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，采集的语音数据等)。例如，存储器也可以存储针对同一个接线员的多次评估结果。

存储器140可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。

接口单元150用作至少一个外部装置与终端连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在处理器单元130中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器140中并且由处理器单元130执行。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的器件及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和器件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音处理设备，包括：

语音采集器，被配置为实时采集语音信息；

识别和分析部件，被配置为对所采集的语音信息进行识别和分析从而获得识别结果，该识别结果包括与语音信息对应的文字内容、以及语音信息中的发言人的状态信息；

评估生成部件，被配置为基于所述识别结果来生成评估信息，所述评价信息是用于表征所述语音信息中的发言人的状态；以及

输出部件，被配置为输出与所述评估信息相关的反馈信息。

2.如权利要求1所述的语音处理设备，其中，

所述识别和分析部件被配置为计算所述语音信息中的发言人的发言时间、声音频率和沉默时间，以获得所述语音信息中的发言人的状态信息。

3.如权利要求1所述的语音处理设备，其中，所述识别与分析部件包括：语音识别单元、计算处理单元以及状态识别单元；

所述语音识别单元，被配置为基于所述语音信息进行关键字识别，并进行语气识别；

所述计算处理单元，被配置为计算发言人的发言时间和沉默时间；

所述情感状态识别单元，被配置为依据所述语音信息的内容和声音频率识别发言者的情感状态变化。

4.如权利要2所述的语音处理设备，其中，所述语音识别单元包括：

第一语音识别模块，被配置为识别与共情相关的关键字，并计算所述关键字出现的次数；

第二语音识别模块，被配置为识别与确认和反馈相关的关键字，并计算所述关键字出现的次数；

语气判断模块，被配置为识别所输入的语音信息中的疑问表达，并计算所述疑问表达出现的次数；以及

第一处理模块，被配置为基于所述第一语音识别模块的计算结果、所述第二语音识别模块的计算结果以及语气识别模块的计算结果，获得语音识别评估结果。

5.如权利要求1或3所述的语音处理设备，其中，所述计算处理单元包括：

第一计算处理模块，被配置为计算被评估对象的发言次数以及每次发言的总时长；

第二计算处理模块，被配置为计算被评估对象的沉默次数以及每次沉默的总时长；以及

第二处理模块，被配置为基于所述第一计算处理模块以及第二计算处理模块的计算结果得到被评估对象的总发言时长以及总沉默时长，并基于所述总发言时长、所述总沉默时间以及预先设定阈值获得发言时间评估结果。

6.如权利要求1或3所述的语音处理设备，其中，所述输出部件包括第一提示单元以及第二提示单元；

所述第一提示单元，被配置为依据所述评估生成模块的评估信息生成第一提示信息；

所述第二提示单元，被配置为依据所述识别与分析模块得到的发言人的状态信息生成第二提示信息。

7.如权利要求5所述的语音处理设备，其中，

所述评估生成部件，被配置为依据所述语音识别评估结果以及所述发言时间评估结果得到最终评估结果，并通过如下操作获得最终评估结果：

将所述语音评估结果划分为若干个等级，并将所述发言时间评估结果划分为若干个等级；

为所述语音识别评估结果设定第一权重值，为所述发言时间评估结果设定第二权重值；

依据第一权重值以及针对本次语音评估结果的具体等级，以及第二权重值以及针对本次发言评估结果的等级得到最终评估结果。

8.如权利要求6所述的语音处理设备，其中，所述情感状态识别单元包括：

识别模块，被配置为依据所述语音信息的内容和语调实时判断发言者的情绪变化，并得到一段时间的状态变化曲线；

处理模块，将所述状态变化曲线与预定的状态变化曲线对比，得到状态变化评估结果；

报警触发模块，被配置为当所述状态变化评估结果满足预定条件时，向所述第二报提示模块发送提示信号。

9.如权利要求1所述的语音处理设备，其中，

所述评估生成部件，还被配置为基于针对一个发言者的多次评估结果生成评估图；

所述输出部件，被配置为输出所述评估图。

10.如权利要求9所述的语音处理设备，其中，所述评估图的种类包括：剖面图、曲线图和雷达图。

11.一种语音处理方法，包括：

实时采集发言者的语音信息；

对所采集的语音信息进行识别和分析从而获得识别结果，该识别结果包括与语音信息对应的文字内容、以及语音信息中的发言人的状态信息；

基于所述识别结果来生成评估信息，所述评估信息是用于表征与所述发言人的状态相关的信息；以及

输出与所述评估信息相关的反馈信息。

12.如权利要求11所述的语音处理方法，其中，

所述对所采集的语音信息进行识别和分析从而获得识别结果包括通过计算语音信息中的发言人的发言时间、声音频率和沉默时间，以获得语音信息中的发言人的状态信息。

13.如权利要求11所述的语音处理方法，其中，所述对所采集的语音信息进行识别和分析从而获得识别结果包括：

基于所述语音信息进行关键字识别，并进行语气识别；

计算发言人的发言时间和沉默的时间；

依据所述语音信息的内容和声音频率识别发言者的情感状态变化。

14.如权利要13所述的语音处理方法，其中，

所述基于所述语音信息进行关键字识别，并进行语气识别，包括：

识别与共情相关的第一类关键字，并计算所述第一类关键字出现的次数；

识别与确认和反馈相关的第二类关键字，并计算所述第二类关键字出现的次数；

识别所输入的语音信息中的疑问表达，并计算所述疑问表达出现的次数；以及

基于所述第一类关键字出现的次数、所述第二类关键字出现的次数以及所述疑问表达出现的次数，获得语音识别评估结果。

15.如权利要求14所述的语音处理方法，其中，所述计算发言人的发言时间和沉默的时间包括：

计算发言次数以及每次发言的总时长；

计算沉默次数以及每次沉默的总时长；以及

基于所述发言次数以及每次发言时长计算总发言时长、基于所述沉默次数以及每次沉默时长计算总沉默时长，并基于所述总发言时长、所述总沉默时间以及预先设定阈值获得发言时间评估结果。

16.如权利要求11所述的语音处理方法，其中，所述输出与所述评估信息相关的反馈信息包括：

依据所述评估信息生成第一提示信息；

依据所述识别结果生成第二提示信息。

17.如权利要求15所述的语音处理方法，其中，

所述基于所述识别结果来生成评估信息，所述评估信息是用于表征与所述发言人的状态相关的信息，包括：

依据第一权重值以及本次语音评估结果的具体等级，以及第二权重值以及本次发言评估结果的等级得到最终评估结果。

18.如权利要求13所述的语音处理方法，其中，所述依据所述语音信息的内容和声音频率识别发言者的情感状态变化包括：

依据所述语音信息的内容和语调实时判断发言者的情感变化，并得到一段统计时间的状态变化曲线；

将所述状态变化曲线与预定的状态变化曲线对比，得到状态变化评估结果；

当所述状态变化评估满足预定条件时，向生成提示信息。