CN109326286A

CN109326286A - 语音信息处理方法、装置及电子设备

Info

Publication number: CN109326286A
Application number: CN201811238996.4A
Authority: CN
Inventors: 孙理; 李倩
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-02-12

Abstract

本发明实施例涉及语音识别技术领域，特别是涉及一种语音信息处理方法、装置及电子设备。该语音信息处理方法，包括：接收待评定的语音信息；对所述语音信息进行语义识别，得到对应的语义特征信息；基于预设的分析评定模型对所述语义特征信息进行分析评定处理，得到针对所述语音信息的评定结果。本发明实施例中，通过引入分析评定模型，实现了对待评定的语音信息的评定处理，相较于现有中依靠人力进行语音信息的评定处理方式，提高了对语音信息的处理效率，降低了人力成本。

Description

语音信息处理方法、装置及电子设备

技术领域

本发明实施例涉及语音识别技术领域，特别是涉及一种语音信息处理方法、装置及电子设备。

背景技术

随着社会的迅猛发展，对于商品的买卖交易，销售人员从中起到了不可或缺的作用。而在销售人员进行商品销售过程中，往往是基于自身丰富的销售经验来判断用户的购买意图，但是，对于新入行的销售人员来说，并不能很好的判断用户的购买意图，而且对于每一个用户均需要销售人员来进行购买意图的判断，增加了人力成本，效率低下。

随着信息技术的迅速发展，智能的电子产品也在越来越广泛地影响着我们的生活，以其便捷、高效的特质，提升了我们的生活品质。基于此，如何通过智能的电子产品来实现对用户的购买意图的判定成为了当下亟待解决的技术问题。

发明内容

有鉴于此，本发明实施例提供了一种语音信息处理方法、装置及电子设备，能够实现基于智能的电子设备的语音信息识别处理过程，提高了处理效率，降低了人力成本，提升了用户的使用体验。

为了解决上述问题，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种语音信息处理方法，包括：

接收待评定的语音信息；

对所述语音信息进行语义识别，得到对应的语义特征信息；

基于预设的分析评定模型对所述语义特征信息进行分析评定处理，得到针对所述语音信息的评定结果。

第二方面，本发明实施例提供了一种语音信息处理装置，包括：

接收单元，用于接收待评定的语音信息；

识别单元，用于对所述语音信息进行语义识别，得到对应的语义特征信息；

处理单元，用于基于预设的分析评定模型对所述语义特征信息进行分析评定处理，得到针对所述语音信息的评定结果。

第三方面，本发明实施例提供了一种电子设备，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行上述的语音信息处理方法。

第四方面，本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的语音信息处理方法。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例中，接收待评定的语音信息，对接收到的语音信息进行语义识别，得到对应的语义特征信息，并基于预设的分析评定模型对语义识别得到的语义特征信息进行分析评定处理，得到针对该语音信息的评定结果。本发明实施例提供的上述处理，通过引入分析评定模型，实现了对待评定的语音信息的评定处理，相较于现有中依靠人力进行语音信息的评定处理方式，提高了对语音信息的处理效率，降低了人力成本。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的语音信息处理方法的流程示意图；

图2为本发明实施例提供的语音信息处理方法的一种可能实现方式的具体处理流程示意图；

图3为本发明实施例提供的语音信息处理装置的结构示意图；

图4为本发明实施例提供的语音信息处理方法的电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

为使发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在现有技术中，随着信息技术的迅速发展，语音识别技术也随之迅速地发展，而利用语音识别的产品越来越多，例如，会话助理、智能机器人、智能手表等。这些产品都是通过语音识别来增强用户体验和提高自然人机交互的水平。

基于此，本发明实施例基于语音识别技术提供了一种语音信息处理方法、装置及电子设备，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

如图1所示，为本发明实施例提供的语音信息处理方法的流程示意图，该方法应用于具有麦克风的电子设备中，该方法包括如下步骤：

步骤S101，接收待评定的语音信息；

步骤S102，对语音信息进行语义识别，得到对应的语义特征信息；

步骤S103，基于预设的分析评定模型对语义特征信息进行分析评定处理，得到针对语音信息的评定结果。

基于上述本发明实施例所提供的技术方案，下面对该技术方案进行详尽阐释，如图2所示，为本发明实施例提供的语音信息处理方法的一个可能地实现方式的具体处理流程图。

在一个可能地实现方式中，前述步骤S101的处理具体包括下述步骤S201的处理。

步骤S201，接收待评定的语音信息。

对于本发明实施例，电子设备通过其上的麦克风实时获取环境中的声音信号，并将获取到的声音信号进行数模转换以及降噪等处理后，再按照特定格式进行编码，并将编码后的音频数据输入到语音识别的软件模块。

对于本发明实施例，语音识别的软件模块对于实时输入的流式音频数据，按照一定的时间间隔划分为一帧，并提取相应的音频特征。

上述接收待评定的语音信息的处理可以是直接接收用户输入的语音信息，还可以是通过接收终端的上传请求中携带的用户输入的语音信息。

在一个可能地实现方式中，前述步骤S102的处理具体包括下述步骤S202～步骤S203的处理。

步骤S202，对语音信息进行特征提取，得到语音信息对应的声学特征信息。

在一个可能地实现方式中，在对接收的语音信息进行声学特征提取之前，还可以包括：

对接收的语音信息进行预处理。

为了提高系统的鲁棒性，可以对采集到的原始语音信号做前端降噪预处理。例如，首先通过对语音信号执行短时能量和短时过零率分析，将连续的语音信号分割成独立的语音片断和非语音片断。随后通过维纳滤波等技术对语音片断进行语音增强，进一步消除语音信号中的噪音，提高后续系统对该信号的处理能力。

对于本发明实施例，考虑到降噪处理后的语音信号中依然存在大量语音识别无关的冗余信息，直接对其识别将导致运算量增加和识别准确率的下降，为此可以从语音能量信号中提取识别有效的语音特征信息，并存入特征缓存区内，以表征用户的语音信息输入。在一个可能地实现方式中，提取语音信息的声学特征信息可以包括：提取MFCC(MelFrequency Cepstrum Coefficient，梅尔频率倒谱系数)特征信息。在一个可能地实现方式中，还可以采用PLP(Perceptual Linear Predictive，感知线性预测系数)特征信息、F-bank(Mel-scale Filter Bank，梅尔标度滤波器组)特征信息、CQCC(Constant Q CepstrumCoefficient，常数Q值倒谱系数)特征信息和LPCC(Linear Prediction CepstrumCoefficient，线性预测倒谱系数)特征信息等，来提取输入的语音信息的特征以表征语音输入。为了避免模糊本发明的要点，在此对已知的语音信号跟踪技术、预处理技术和特征提取技术不再详述。

此外，应该理解，本发明实施例的原始的或经预处理的用户输入的语音信息或其特征的标注信息可以存储在存储器中，并且不限于任何特定的存储格式。

步骤S203，对声学特征信息进行语义识别，得到对应的语义特征信息。

对于本发明实施例，在进行语义识别时，可以通过预先对语义特征进行神经网络训练深度学习过程处理，从而构建出相应的语义识别模块，其中，该神经网络可以为CNN(Convolutional Neural Network，卷积神经网络)、DNN(Deep Neural Network，深层神经网络)或RNN(Recurrent neural Network、循环神经网络)。

在一个可能地实现方式中，前述步骤S103的处理具体包括下述步骤S204～步骤S205的处理。

步骤S204，基于预设的分析评定模型对得到的语义特征信息进行分析评定处理。

本步骤中，电子设备通过对得到的语义特征信息的分析评定，得到对应的评定结果。该评定结果用于表征用户的购买意图，即有购买意向、无购买意向以及购买意向不明确三种。

在该电子设备进行分析评定处理之前，需要先进行用于分析评定的分析评定模型的训练，其训练过程可以是在电子设备中进行，通过利用大量的样本数据不断地训练，能够使得在利用分析评定模型进行分析评定时所得到的评定结果更加趋向于准确，提升了评定准确度。

该分析评定模型的训练，可以包括如下过程：

A、获取样本数据

该样本数据可以包括待训练的语音信息及其对应的标注信息；其中，该标注信息用于表征待训练的语音信息对应的购买意图。每一条标注信息均是针对其对应的每一条语音信息通过人为分析标注而出的。如用户说出的语音信息是“我对这件商品很感兴趣”，在人为分析标注时，会认为该用户对这件商品有购买意向，其标注信息为“有购买意向”。

对于本发明实施例，在进行分析评定模型训练之前，会先获取大量的样本数据，该样本数据可以是人为输入的，也可以是从本地存储中提取得到的，还可以通过向服务器发送样本数据的获取请求来得到的，当然，该样本数据的获取途径并不仅限于此。

B、分析评定模型的训练过程

对于本发明实施例，将获取到的大量样本数据依次输入到待训练的模型中，通过大量地训练，不断完善该模型，从而得到该分析评定模型，通过大量训练也使得该模型在对类似语音信息的分析判定时能够愈发精确、准确。

对于本发明实施例，对于得到的评定结果，无法做到每一次评定都是准确的，可能会出现评定结果与实际结果不同的情形发生，如评定结果是“用户有购买意向”，但实际结果是“用户并未购买商品”，所以为了避免该种类似情况的发生，需要对该分析评定模型不断的训练、以完善优化，基于此，需要在满足预设条件时对该分析评定模型的样本数据进行更新。

其中，该预设条件可以包括：

P1、实时进行该分析评定模型的样本数据更新。

一旦确定评定结果与实际结果为不同的结果时，说明该评定结果对应的语音信息有可能未存储于该分析评定模型的样本数据中，则直接利用该评定结果对应的语音信息进行该分析评定模型的样本数据更新。

P2、每隔一段时间进行该分析评定模型的样本数据更新。

此时并不关心评定结果与实际结果是否相同，只要达到了预设时间段就利用这段时间中获取到的语音信息进行该分析评定模型的样本数据更新，从而丰富扩大该分析评定模型的样本数据库。

其中，该预设时间段可以是提前预先配置好的。

P3、在评定结果与实际结果为不同结果的次数达到一定阈值时进行该分析评定模型的样本数据更新，从而丰富扩大该分析评定模型的样本数据库。

对于每一次评定结果与实际结果为不同结果的情况均进行记录，当出现该情况的次数达到预设阈值时，利用出现这种情况的每一个评定结果所对应的语音信息进行该分析评定模型的样本数据更新，从而丰富扩大该分析评定模型的样本数据库。

对于本发明实施例，通过获取用于更新的语音信息，并基于该获取的语音信息来对分析评定模型中的样本数据进行在线更新。其中，该用于更新的语音信息可以是上述提及的与实际结果为不同的结果的评定结果对应的语音信息，还可以是一段时间内的接收到的所有语音信息。

对于本发明实施例，在基于该获取的语音信息来对分析评定模型中的样本数据进行在线更新时，可以分成两种情形：

情形一、若电子设备为终端设备时，上述在线更新的过程包括：

a、基于本地存储的语音信息来对该分析评定模型中的样本数据进行在线更新。

在该处理过程中，该用于更新的语音信息可以是存储在本地存储中的，当需要更新时，直接在本地存储提取相应的数据进行更新处理。

b、基于服务器发送的用于更新的样本数据来对该分析评定模型中的样本数据进行在线更新。

在该处理过程中，通过接收服务器发送的针对该分析评定模型的用于更新的样本数据来对该分析评定模型进行更新。

情形二、若电子设备为服务器时，上述在线更新的过程包括：

b、基于终端发送的用于更新的语音信息来对该分析评定模型中的样本数据进行在线更新。

在该处理过程中，通过接收终端发送的针对该分析评定模型的用于更新的语音信息来对该分析评定模型进行更新。

对于本发明实施例，无论是基于本地存储的语音信息，或是基于服务器发送的样本数据，或是基于终端上传的语音信息来对分析评定模型中的样本数据进行的更新过程，可以是由该终端设备或服务器主动发起的更新过程。

步骤S205，基于评定结果推送通知消息。

对于本发明实施例，在得到该待评定的语音信息的评定结果后，会将该评定结果以通知消息的形式进行推送，从而使得用户可以知道该待评定的语音信息所属用户的购买意图，以便根据购买意图做相应的处理。

本发明实施例中，接收待评定的语音信息，对接收到的语音信息进行语义识别，得到对应的语义特征信息，并基于预设的分析评定模型对语义识别得到的语义特征信息进行分析评定处理，得到针对该语音信息的评定结果。本发明实施例提供的上述处理，通过引入分析评定模型，实现了对待评定的语音信息的评定处理，相较于现有中依靠人力进行语音信息的评定处理方式，提高了对语音信息的处理效率，降低了人力成本，并且通过对分析评定模型中样本数据的更新，提升了该分析评定模型评定的准确度与精度。

本发明实施例提供一种语音信息处理装置的结构示意图，如图3所示，本发明实施例的语音信息处理装置30可以包括：接收单元31、识别单元32、第一处理单元33、第二处理单元34以及更新单元35，其中，

接收单元31，用于接收待评定的语音信息；

识别单元32，用于对语音信息进行语义识别，得到对应的语义特征信息；

第一处理单元33，用于基于预设的分析评定模型对语义特征信息进行分析评定处理，得到针对语音信息的评定结果。

其中，评定结果用于表征用户的购买意图。

在一个可能地实现方式中，识别单元32，用于对语音信息进行特征提取，得到语音信息对应的声学特征信息；对声学特征信息进行语义识别，得到对应的语义特征信息。

在一个可能地实现方式中，第二处理单元34，用于获取样本数据；样本数据包括待训练的语音信息及其对应的标注信息，标注信息用于表征待训练的语音信息对应的购买意图；基于样本数据进行模型训练，得到分析评定模型。

在一个可能地实现方式中，更新单元35，用于当满足预设条件时，对分析评定模型的样本数据进行更新。

其中，预设条件包括如下任一项：

评定结果与实际结果为不同的结果；

评定结果与实际结果为不同结果的次数满足预设阈值；

预设时间段。

在一个可能地实现方式中，更新单元35，具体用于获取用于更新的语音信息；基于用于更新的语音信息对分析评定模型中的样本数据进行在线更新。

本发明实施例的语音信息处理装置可执行上述本发明实施例所示的语音信息处理方法，其实现原理相类似，此处不再赘述。

本发明实施例提供了一种电子设备，如图4所示，图4所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括通信接口4004。需要说明的是，实际应用中通信接口4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。

其中，处理器4001应用于本发明实施例中，用于实现图3所示的接收单元31、识别单元32、第一处理单元33、第二处理单元34以及更新单元35的功能。

处理器4001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本发明实施例方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现图3所示实施例提供的语音信息处理装置的动作。

本发明实施例提供的电子设备，适用于上述方法的任一实施例，在此不再赘述。

本发明实施例提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述实施例所示的语音信息处理方法。

本发明实施例提供的非暂态计算机可读存储介质，适用于上述方法任一实施例，在此不再赘述。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

其中，本发明装置的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施例的优劣。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种语音信息处理方法，其特征在于，包括：

接收待评定的语音信息；

对所述语音信息进行语义识别，得到对应的语义特征信息；

2.如权利要求1所述方法，其特征在于，所述评定结果用于表征用户的购买意图。

3.如权利要求1或2所述方法，其特征在于，所述对所述语音信息进行语义识别，得到对应的语义特征信息，包括：

对所述语音信息进行特征提取，得到所述语音信息对应的声学特征信息；

对所述声学特征信息进行语义识别，得到对应的语义特征信息。

4.如权利要求1-3中任一项所述方法，其特征在于，基于预设的分析评定模型对所述语义特征信息进行分析评定处理之前，还包括：

获取样本数据；所述样本数据包括待训练的语音信息及其对应的标注信息，所述标注信息用于表征待训练的语音信息对应的购买意图；

基于所述样本数据进行模型训练，得到所述分析评定模型。

5.如权利要求4所述方法，其特征在于，还包括：

当满足预设条件时，对所述分析评定模型的样本数据进行更新。

6.如权利要求5所述方法，其特征在于，所述预设条件包括如下任一项：

所述评定结果与实际结果为不同的结果；

所述评定结果与实际结果为不同结果的次数满足预设阈值；

预设时间段。

7.如权利要求5或6所述方法，其特征在于，所述对所述分析评定模型的样本数据进行更新，包括：

获取用于更新的语音信息；

基于所述用于更新的语音信息对所述分析评定模型中的样本数据进行在线更新。

8.一种语音信息处理装置，其特征在于，包括：

接收单元，用于接收待评定的语音信息；

9.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至权利要求7中任一项所述的语音信息处理方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至权利要求7中任一项所述的语音信息处理方法。