CN109754816B

CN109754816B - 一种语音数据处理的方法及装置

Info

Publication number: CN109754816B
Application number: CN201711058101.4A
Authority: CN
Inventors: 陈小帅; 张扬
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2021-04-16
Anticipated expiration: 2037-11-01
Also published as: CN109754816A

Abstract

本发明实施例提供了一种语音数据处理的方法及装置，其中所述方法包括：在语音通信过程中，获取实时的环境信息，并判断所述环境信息是否符合预设规则；若所述环境信息符合预设规则，则根据接收的对端的语音数据生成对应的应答内容；将所述应答内容发送至所述对端。本发明实施例可以避免用户在嘈杂的环境下录入包含噪声的语音数据，导致对端用户听不清的情况发生，方便用户在嘈杂环境下进行通话，提高通话质量以及通话效率。

Description

一种语音数据处理的方法及装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音数据处理的方法和一种语音数据处理的装置。

背景技术

在噪音环境下接听电话时，难以听清楚对方的内容且用户自己回复的内容同样不容易被对方听清楚，比如在地铁上接到电话，由于环境嘈杂需要对方或用户重复多次双方才能听清楚，或者是需要用户到安静的环境再进行通话，导致不方便在噪音环境中使用通话功能。

发明内容

鉴于上述问题，为了解决上述不方便在杂乱环境中使用通话功能等问题，本发明实施例提出了一种语音数据处理的方法和相应的一种语音数据处理的装置。

为了解决上述问题，本发明实施例公开了一种语音数据处理的方法，所述方法包括：

在语音通信过程中，获取实时的环境信息，并判断所述环境信息是否符合预设规则；

若所述环境信息符合预设规则，则根据接收的对端的语音数据生成对应的应答内容；

将所述应答内容发送至所述对端。

可选地，所述根据接收的对端的语音数据生成对应的应答内容的步骤包括：

将接收的对端的语音数据转化成可视化形式的数据，展示所述可视化形式的数据；

根据所述可视化形式的数据生成对应的应答内容。

可选地，所述判断所述环境信息是否符合预设规则的步骤包括：

确定当前用户的第一声纹特征，并计算所述第一声纹特征的第一声音强度；

确定所述环境信息中除所述第一声纹特征以外的第二声纹特征，并确定所述第二声纹特征对应的第二声音强度；

若所述第二声音强度与所述第一声音强度的比值大于或等于预设强度阈值，则判定所述环境信息符合预设规则。

可选地，所述根据所述可视化形式的数据生成对应的应答内容的步骤包括：

从所述可视化形式的数据中识别出关键信息；

获取所述关键信息对应的应答内容。

可选地，所述从所述可视化形式的数据中识别出关键信息的步骤包括：

在预设的多个信息模板中获取与所述可视化形式的数据匹配的信息模板，提取所述匹配的信息模板中的关键信息；

或者，

将所述可视化形式的数据输入预先生成的第一神经网络模型中，输出所述可视化形式的数据对应的关键信息。

可选地，所述获取所述关键信息对应的应答内容的步骤包括：

在预设的应答内容数据库中获取与所述关键信息匹配的应答内容，其中，所述应答内容数据库根据用户的历史语音内容生成和/或根据预先采集的数据生成；

或者，

将所述关键信息输入预先生成的第二神经网络模型中，输出所述关键信息对应的应答内容。

可选地，所述将所述应答内容发送至所述对端包括：

展示所述应答内容；

将用户选定的应答内容作为目标应答内容；

将所述目标应答内容发送至所述对端。

可选地，所述将所述应答内容发送至所述对端的步骤包括：

将所述应答内容以指令的形式和/或语音的形式发送至所述对端。

可选地，所述指令的形式和/或所述语音的形式的确定方式，包括以下的一种或结合：

根据用户的选择或在先设置确定；

和/或，

根据所述对端的环境监测结果确定。

本发明实施例还公开了一种语音数据处理的装置，所述装置包括：

噪声判断模块，用于在语音通信过程中，获取实时的环境信息，并判断所述环境信息是否符合预设规则；

应答内容生成模块，用于若所述环境信息符合预设规则，则根据接收的对端的语音数据生成对应的应答内容；

应答内容发送模块，用于将所述应答内容发送至所述对端。

可选地，所述应答内容生成模块包括：

数据转换子模块，用于将接收的对端的语音数据转化成可视化形式的数据；

数据展示子模块，用于展示所述可视化形式的数据；

内容生成子模块，用于根据所述可视化形式的数据生成对应的应答内容。

可选地，所述噪声判断模块包括：

第一声音强度确定子模块，用于确定当前用户的第一声纹特征，并计算所述第一声纹特征的第一声音强度；

第二声音强度确定子模块，用于确定所述环境消息中除所述第一声纹特征以外的第二声纹特征，并确定所述第二声纹特征对应的第二声音强度；

判断子模块，用于若所述第二声音强度与所述第一声音强度的比值大于或等于预设强度阈值，则判定所述环境信息符合预设规则。

可选地，所述内容生成子模块包括：

关键信息识别单元，用于从所述可视化形式的数据中识别出关键信息；

应答内容获取单元，用于获取所述关键信息对应的应答内容。

可选地，所述关键信息识别单元还用于：

或者，

可选地，所述应答内容获取单元还用于：

或者，

可选地，所述应答内容发送模块包括：

应答内容展示子模块，用于展示所述应答内容；

目标应答内容确定子模块，用于将用户选定的应答内容作为目标应答内容；

发送子模块，用于将所述目标应答内容发送至所述对端。

可选地，所述发送子模块还用于：

根据用户的选择或在先设置确定；

和/或，

根据所述对端的环境监测结果确定。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的方法。

本发明实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行上述的方法。

本发明实施例包括以下优点：

在本发明实施例中，在语音通信过程中，可以实时判断当前的环境声音是否符合预设规则，若符合预设规则，则可以针对接收的对端的语音数据，确定对应的应答内容，并将该应答内容发送至对端。从而避免用户在嘈杂的环境下录入包含噪声的语音数据，导致对端用户听不清的情况发生，方便用户在嘈杂环境下进行通话，提高通话质量以及通话效率。

附图说明

图1是本发明一个实施例的一种语音数据处理的方法的步骤流程图；

图2是本发明另一个实施例的一种语音数据处理的方法的步骤流程图；

图3是本发明一个实施例的一种语音数据处理的装置的结构框图；

图4是本发明一个实施例的一种用于语音数据处理的电子设备的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明一个实施例的一种语音数据处理的方法的步骤流程图，本发明实施例可以应用于具有支持语音功能的终端设备中，该终端设备可以包括手机、PDA(Personal Digital Assistant，个人数字助理)、膝上型计算机、掌上电脑、台式电脑等等，本发明实施例对此不加以限制。

该终端可以支持Windows、Android(安卓)、IOS、WindowsPhone等操作系统，本发明实施例对此不作限制。

本发明实施例具体可以包括如下步骤：

步骤101，在语音通信过程中，获取实时的环境信息，并判断所述环境信息是否符合预设规则；

本发明实施例可以应用于语音通信的场景中，例如，可以包括但不限于电话通话场景、语音通话场景等，而语音通话场景又可以包括但不限于通过即时通信应用程序进行语音通话的场景、智能语音通话的场景等。

作为本发明实施例的一种可选示例，该环境信息可以包括但不限于如下信息的一种或结合：环境声音、环境位置信息、环境场景等信息。

在具体实现中，可以通过终端设备的麦克风来采集环境声音，通过终端设备的定位装置来确定环境位置信息，并通过该环境位置信息在地图中查找该位置信息对应的环境场景，其中，该环境场景可以包括市场、商场、地铁等POI(Point of Interest，兴趣点)场景。

获取环境信息以后，可以判断该环境信息是否符合预设规则。在具体实现时，针对环境声音，如果该环境声音的声音强度高于设定强度阈值，则可以判定该环境声音符合预设规则。针对环境场景，如果该环境场景是地铁、火车站、市场等嘈杂环境，则可以判定该环境场景符合预设规则。针对环境位置信息，如果根据该位置信息判定该位置信息附近有噪声源，则可以判定该环境位置信息符合预设规则。

需要说明的是，上述几种环境信息除了能够单独判断以外，还可以融合两种或以上的环境信息进行判断，例如，如果当前环境场景为地铁站的场景，且环境声音的声音强度高于设定强度阈值，则可以判定当前环境信息符合预设规则。

步骤102，若所述环境信息符合预设规则，则根据接收的对端的语音数据生成对应的应答内容；

在具体实现中，若环境信息符合预设规则，则可以首先识别该语音数据的通话内容，并根据该通话内容确定对应的应答内容。

在一种实施方式中，可以直接对该语音数据进行识别，确定该语音数据的通话内容。

在另一种实施方式中，可以将该语音数据转换成可视化形式，并对该可视化形式的数据进行识别，确定对应的通话内容。

在具体实现时，可以基于机器学习的方法，采用卷积神经网络识别语音数据或该可视化形式的通话内容。

确定通话内容以后，也可以基于机器学习方法，采用卷积神经网络识别该通话内容对应的应答内容。

当然，本发明实施例并不限于上述机器学习的方式识别通话内容以及生成对应的应答内容，本领域技术人员采用其他方式以达到相同的目的均是可以的。

步骤103，将所述应答内容发送至所述对端。

在本发明实施例中，当确定对端的语音数据对应的应答内容以后，自动将该应答内容回复至对端，提高对端用户的通话体验。

在本发明实施例中，在语音通信过程中，可以实时判断当前的环境信息是否符合预设规则，若符合预设规则，则可以针对接收的对端的语音数据，生成对应的应答内容，并将该应答内容发送至对端。从而避免用户在嘈杂的环境下录入包含噪声的语音数据，导致对端用户听不清的情况发生，方便用户在嘈杂环境下进行通话，提高通话质量以及通话效率。

参照图2，示出了本发明另一个实施例的一种语音数据处理的方法的步骤流程图，具体可以包括如下步骤：

步骤201，在语音通信过程中，获取实时的环境信息，并判断所述环境信息是否符合预设规则；

在具体实现中，在语音通话过程中，至少可以包括PCM(Pulse Code Modulation，即脉码编码调制)语音采集、编解码、网络传输以及语音播放等流程，例如，A打电话给B，A的语音数据可以通过MIC(麦克风)被采集成PCM原始数据，然后经过编码压缩，再通过网络(如建立P2P连接)将编码后的数据传输出去；B端通过网络收到数据后进行解码处理，然后调用播放模块，进行播放数据。

在本发明实施例中，可以通过调用操作系统中的AudioRecorder函数，来获取接收到的对端设备发送的语音数据。

在播放该语音数据前，本发明实施例可以首先获取当前环境的环境信息。

在一种实施方式中，针对环境声音，可以通过终端设备的麦克风来采集环境声音。在实现中，例如针对安卓操作系统，若要使用麦克风需要在AndroidManifest.xml里申请相应权限，其中，能够获得环境声音等音源数据的类有两个，分别是android.media.MediaRecorder和android.media.AudioRecord。

获得环境声音以后，本发明实施例可以进一步判断该环境声音是否为预设规则的噪声。

在本发明实施例的一种可选实施例中，若环境信息为环境声音，步骤201可以包括如下子步骤：

子步骤S11，确定当前用户的第一声纹特征，并计算所述第一声纹特征的第一声音强度；

在具体实现中，可以通过声纹识别技术确定当前用户的第一声纹特征，所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官——舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果，但系统需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容，模型建立相对困难，但用户使用方便，可应用范围较宽。

基于文本相关的(Text-Dependent)技术，在一种实施方式中，用户可以主动在移动设备中录入用户声音，当移动设备接收到用户声音后，根据预设的特征提取算法识别出用户的第一声纹特征。

在另一种实施方式中，基于文本无关技术，移动设备可以在用户使用终端设备的过程中捕获用户声音，对用户声音进行学习，得到第一声纹特征。

具体的，特征提取算法的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的声纹特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。

在实际中，表征一个人特点的声纹特征可以是多层面的，例如可以包括但不限于：(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等；(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发，声纹识别模型可以使用的声纹特征可以包括但不限于：(1)声学特征(倒频谱)；(2)词法特征(说话人相关的词n-gram，音素n-gram)；(3)韵律特征(利用n-gram描述的基音和能量"姿势")；(4)语种、方言和口音信息；(5)通道信息(使用何种通道)；等等。

在实现中，用户的第一声纹特征的提取过程可以包括如下步骤：

1、对输入的语音数据序列(PCM码流)进行预处理。

目的：a)去除非语音信号和静默语音信号；b)对语音信号分帧，以供后续处理。

2、提取每一帧语音信号的MFCC(语音特征参数)并保存。

3、用第2步提取的MFCC参数训练用户的GMM(高斯混合模型)，得到专属该用户的GMM声纹模型。

4、声纹识别。提供用户声音与GMM声纹模型的匹配运算函数，以判断用户声音是否与某一声纹特征匹配，从而得到匹配的声纹特征。

需要说明的是，本发明实施例并不限于上述确定声纹特征的方式，本领域技术人员采用其他方式均是可以的。

在本发明实施例中，识别出第一声纹特征以后，还可以获取该第一声纹特征对应的第一声音强度。

在具体实现中，可以通过MediaRecorder或者AudioRecord这两个类来获得第一声纹特征的第一声音强度。其中，声音强度的单位是分贝(decibel，缩写为dB)，是一个无纲量的相对单位。

在一种实施方式中，上述两个类确定声音强度的原理，可以表示为下述公式：

其中，A0为参考值的振幅；A1为从SDK中读取该用户声音的振幅后，确定的最大振幅或平均振幅(可以用平方和平均，或绝对值的和平均)。

需要说明的是，本发明实施例并不限于上述确定声音强度的方式，本领域技术人员采用其他方式均是可以的。

子步骤S12，确定所述环境声音中除所述第一声纹特征以外的第二声纹特征，并确定所述第二声纹特征对应的第二声音强度；

在具体实现中，通过声纹识别模型对环境声音进行识别后，可以得到一种或多种声纹特征，从该一种或多种声纹特征中排除用户的第一声纹特征以后，得到的其他声纹特征，可以作为第二声纹特征。其中，第二声纹特征可以有一种或多种。

获得第二声纹特征以后，可以采用上述的声音强度的获取方式获取第二声纹特征对应的第二声音强度。

子步骤S13，若所述第二声音强度与所述第一声音强度的比值大于或等于预设强度阈值，则判定所述环境声音符合预设规则。

在具体实现中，可以分别计算每个第二声音强度与第一声音强度的比值，如果存在某一个或多个比值大于预设强度阈值，则表示当前环境中存在大于用户声音的声音，这种声音的存在会使得用户听不清对端的声音或者对端听不清用户的声音，进而可以判定该环境声音存在噪声，符合预设规则，如果该一个或多个比值均小于预设强度阈值，则表示当前环境中不存在大于用户声音的声音，进而可以判定该环境声音不符合预设规则。

在另一种实施方式中，还可以根据在先的与对端用户的语音记录，识别对端用户的声纹特征以及该声纹特征对应的声音强度，当环境声音中的某一种或多种声纹特征的声音强度高于对端用户的声音强度时，则判定为该环境声音符合预设规则。

若环境信息为环境位置信息，则可以通过终端设备的定位装置来确定环境位置信息。

若环境信息为环境场景，则在得到环境位置信息以后，可以通过该环境位置信息在地图中查找该位置信息对应的环境场景，其中，该环境场景可以包括市场、商场、地铁等POI(Point of Interest，兴趣点)场景。

在具体实现中，针对环境场景，如果该环境场景是地铁、火车站、市场等嘈杂环境，则可以判定该环境场景符合预设规则。针对环境位置信息，如果根据该位置信息判定该位置信息附近有噪声源，则可以判定该环境位置信息符合预设规则。

当然，本发明实施例并不限于上述的确定当前的环境信息是否存在噪声的方式，本领域技术人员采用其他方式确定环境中是否存在噪声均是可以的。

步骤202，若所述环境信息符合预设规则，则将接收的对端的语音数据转化成可视化形式的数据，展示所述可视化形式的数据；

根据步骤201如果判定当前环境信息符合预设规则，则可以开启终端设备中的语音辅助功能。

通过该语音辅助功能，可以将接收的对端的语音数据转化成可视化形式的数据。

作为本发明实施例的一种可选示例，该可视化形式可以包括但不限于文本形式、图像形式等。

在具体实现中，可以调用Speech to Text(语音转换文本)API(应用程序接口)来将语音数据转换成文本数据。

或者，可以基于机器学习的方法对语音数据进行转换，例如，首先训练深度神经网络等模型，将语音数据输入该模型中，可以输出对应的文本数据或图像数据。

需要说明的是，本发明实施例并不限于上述语音数据转换成可视化形式的数据的方式，本领域技术人员采用其他方式达到相同的目的均是可以的。

获取语音数据对应的可视化形式的数据以后，可以在当前的通信窗口中显示该可视化形式的数据，或者，新创建一个窗口来展示该可视化形式的数据。

在本发明实施例中，可以将接收到的语音数据转换成可视化形式的数据进行展示，避免在嘈杂的环境下用户听不清楚对方说话的声音的情况，方便用户在噪声环境下查看对方的通话内容，提高了通信的质量以及通信效率。

步骤203，根据所述可视化形式的数据生成对应的应答内容；

在本发明实施例中，除了可以将接收到的语音数据转换成可视化形式的数据进行展示以外，还可以确定该可视化形式的数据对应的应答内容，从而避免了用户在嘈杂环境下录入的声音导致对端听不清楚的情况，方便用户在嘈杂环境下使用通话功能。

在本发明实施例的一种可选实施例中，步骤203可以包括如下子步骤：

子步骤S21，从所述可视化形式的数据中识别出关键信息；

作为一种示例，该关键信息可以是可视化形式的数据中，去除语气词或辅助词后剩下的信息。根据该关键信息可以确定对端用户表达的中心思想或重点信息。

在本发明实施例的一种可选实施例中，子步骤S21进一步可以包括如下子步骤：

在预设的多个信息模板中获取与所述可视化形式的数据匹配的信息模板，提取所述匹配的信息模板中的关键信息。

具体的，在本发明实施例中，可以采用模式匹配的方式确定可视化形式的数据中的关键信息。

在实现时，可以预先统计并设定多个信息模板，其中，该信息模板可以以正则表达式的形式表示，该正则表达式中包含的特定字符可以用来表示关键信息。

得到可视化形式的数据以后，可以将该可视化形式的数据与该多个信息模板进行模式匹配，得到的匹配结果中抽取对应的特定字符，作为该可视化形式的数据的关键信息。

在本发明实施例的另一种可选实施例中，子步骤S21进一步可以包括如下子步骤：

在本实施例中，可以基于机器学习的方法识别出可视化形式的数据对应的关键信息。在实现中，可以预先整理一批标注好关键信息(例如标注好的问题、标注好的主要通话信息等)的训练数据，作为一种示例，该标注好的关键信息的训练数据的格式可以包括：文本->问题；文本->主要通话信息等。

随后，可以通过深度神经网络等方法在训练数据上进行学习，并在相应的测试集上测试评估，待训练好第一神经网络模型后，该第一神经网络模型具备如下功能：给定一定的文本输入，返回文本内的关键信息。

第一神经网络模型训练好以后，可以将可视化形式的数据输入该第一神经网络模型中，该第一神经网络模型对可视化形式的数据进行关键信息抽取，从而输出该可视化形式的数据对应的关键信息。

需要说明的是，除了上述的从可视化形式的数据中识别出关键信息的方式以外，本领域技术人员采用其他方式达到相同的目的均是可以的，本发明实施例对此不作限定。

子步骤S22，获取所述关键信息对应的应答内容。

在本发明实施例中，确定可视化形式的数据对应的关键信息以后，例如，确定文本中的问题或文本中的主要通话信息以后，可以进一步获取该关键信息对应的应答内容。

在本发明实施例的一种可选实施例中，子步骤S22进一步可以包括如下子步骤：

在预设的应答内容数据库中获取与所述关键信息匹配的应答内容，其中，所述应答内容数据库根据用户的历史语音内容生成和/或根据预先采集的数据生成。

在一种实施方式中，可以预先采集一些常用的通话场景中的通话内容，根据该通话内容统计对应的关键信息与应答内容，生成应答内容数据库。该应答内容数据库中可以包括多个关键信息与对应的应答内容的关联关系。

根据上述子步骤S21识别出可视化形式的数据对应的关键信息以后，可以在应答内容数据库中匹配该关键信息，在实现中，可以在应答内容数据库中查找该关键信息，获得与该关键信息相同的关键信息对应的应答内容，作为该关键信息对应的应答内容。

在实际中，每个关键信息对应的应答内容可以有一个或多个。

在另一种实施方式中，可以根据用户的历史语音内容，生成应答内容数据库。在实现中，可以记录用户平时的语音通话过程中对关键信息的应答内容，生成关键信息与应答内容的绑定关系，将该绑定关系记入用户的个性化的应答内容数据库中，这样能更好地适应不同用户的个性化回复需求。

在本发明实施例的另一种可选实施例中，子步骤S22进一步可以包括如下子步骤：

在本实施例中，可以基于机器学习的方法识别出关键信息对应的应答内容。在实现中，可以预先收集并标注一批“关键信息-应答内容”的训练集，并在其上通过机器训练方法训练如深度神经网络等第二神经网络模型，使此第二神经网络模型具备输入关键信息后能产出应答内容的能力。

在子步骤S21中识别出可视化形式的数据对应的关键信息后，将关键信息作为第二神经网络模型的输入，然后第二神经网络模型输出该关键信息对应的应答内容。

需要说明的是，本发明实施例并不限于上述确定关键信息对应的应答内容的方式，本领域技术人员采用其他方式达到同样的目标均是可以的。

另外，本发明实施例中对所有的神经网络模型的训练方式并不限定，本领域技术人员根据需要采用合适的方式进行模型训练即可。

另外，上述的子步骤S21-S22中的所有计算过程，可以在终端设备本地执行，也可以通过将相关内容发送到云端进行相应的计算，本发明实施例对此不作限定。

步骤204，将所述应答内容发送至所述对端。

在本发明实施例的一种可选实施例中，步骤204可以包括如下子步骤：

子步骤S31，展示所述应答内容；

得到应答内容以后，可以在当前的通信窗口中显示该应答内容，或者，新创建一个窗口来展示该应答内容。

子步骤S32，将用户选定的应答内容作为目标应答内容。

该展示的应答内容可以具有选项的功能，当检测到用户选定某一个或多个应答内容时，可以将该选定的应答内容作为该语音数据对应的目标应答内容。

子步骤S33，将所述目标应答内容发送至所述对端。

在本发明实施例的一种优选实施例中，子步骤S33可以包括如下子步骤：

在一种实施方式中，该指令的形式和/或所述语音的形式的确定方式，可以包括：根据用户的选择或在先设置确定。

在具体实现中，用户可以预先在设置页面中设定回复至对端的方式，例如，可以设置采用指令的形式回复，也可以设置采用语音的形式回复，或者设置将指令的形式以及语音的形式这两种方式均回复给对端。

或者，在确定应答内容以后，也可以将指令的形式以及语音的形式这两个选项展示给用户，用户可以选择其中的一个选项或者两个都选择。

在另一种实施方式中，该指令的形式和/或所述语音的形式的确定方式，可以包括：根据所述对端的环境监测结果确定。

在具体实现中，可以根据对端发送的语音数据，检测对端所处的环境状态，如果该语音数据中，对端用户的声纹特征的声音强度低于其他声纹特征的声音强度，则可以判定对端的环境处于噪声环境，此时可以将回复形式确定为指令回复形式；如果判定对端的环境处于比较安静的环境，此时可以将回复形式确定为语音回复形式。

或者，获取对端的地理位置信息，根据该地理位置信息确定对端的环境状态，如果对端所处的环境附近有噪声源，则可以将回复形式确定为指令回复形式；否则，可以将回复形式确定为语音回复形式。

在本发明实施例的另一种实施方式中，可以确定对端需要的回复方式，并将目标应答内容以该方式发送至对端。

在本发明实施例的一种可选实施例中，子步骤S33可以包括如下子步骤：

确定所述对端需要的回复形式，所述回复形式包括语音回复形式以及指令回复形式；若所述对端需要的回复形式为语音回复形式，则将所述应答内容转化成语音数据，发送至所述对端；若所述对端需要的回复形式为指令回复形式，则将所述应答内容以可视化形式发送至所述对端。

具体的，可以根据可视化形式的数据或接收的语音数据以及步骤203中确定的关键信息，识别该对端用户的回复形式。

如果对端用户希望当前用户以指令的形式回复(如对方为虚拟客服系统需要回复指令时)，则可以确定对端需要的回复形式为指令回复形式，如果对端用户希望当前用户以语音的形式回复(如对方为人工客服等真实人用户)，则可以确定对端需要的回复形式为语音回复形式。

如果判断对端需要的回复形式为语音回复形式，则可以将应答内容转化成语音数据发送至对端，此时，不再将当前设备接收到的语音(包括周围的环境噪声)等回发对端，这样对端接收到的是清楚的语音数据。

如果判断对端需要的回复形式为指令回复形式，则可以将应答内容转化成文本等指令形式发送至对端。

在具体实现中，可以采用如下方式确定用户需要的回复形式：

预先采集一些智能语音的通话内容，组成智能语音内容数据库，将上述得到的关键信息在智能语音内容数据库中进行匹配，如果匹配成功，则可以判定对端用户为虚拟客服，并进一步判定用户需要的回复形式为指令回复形式。如果匹配不成功，则可以判定对端用户为人工语音，并进一步判定用户需要的回复形式为语音回复形式。

需要说明的是，本发明实施例并不限于上述根据语音内容数据库确定回复形式的方式，本领域技术人员采用其他方式确定回复方式均是可以的，例如，采用机器学习的方法，根据采集并标注的智能语音数据，生成训练模型，并将得到的关键信息输入该训练模型，输出对应的回复形式。

为了使本领域技术人员更好地理解本发明实施例，以下以一个具体实例对本发明实施例进行示例性说明，但应当理解的是，本发明实施例并不限于此。

以用户在嘈杂环境中拨打10086人工客服，使用本发明实施例的语音辅助功能进行通话为例：

(1)用户拨打10086，识别用户有语音等通话需求，获取实时的环境信息，并判断该环境信息是否符合预设规则，如果识别到周围有噪声干扰，例如，当前的环境是在嘈杂的地铁站中，则判定该环境信息符合预设规则，并开启语音-可视化转换输出；

(2)接收到10086客服的语音数据为“是否需要续订流量包”，将该语音数据转换成可视化形式的数据“是否需要续订流量包”，并展示该可视化形式的数据“是否需要续订流量包”；

(3)对该可视化形式的数据“是否需要续订流量包”进行识别，识别出其中的关键信息，如下“是否续订流量包”；

(4)根据机器学习或数据库匹配等方式，确定该关键信息“是否续订流量包”对应的应答内容为“是”以及“否”；

(5)将该应答内容“是”以及“否”展示给客户，若用户选定“是”，则将应答内容“是”作为目标应答内容；

(6)判断对方为人工客服，需要语音回复形式，此时可以将用户目标应答内容“是”转换为语音形式回发10086人工客服，完成本轮对话。

在本发明实施例中，在语音通信过程中，检测周围的噪音等干扰信号，当发现噪声较大时，可将对端的语音数据转换成文本等可视化形式进行展示，方便用户在噪声环境下查看对端用户的通话内容。另外，还可以分析对方的通话内容，并生成应答内容的选项，当用户选择了应答内容后，根据对方的需求格式，将用户选择的应答内容转换为文本或者是语音等对端用户需要的格式回发给对方。通过这样实现方便用户在嘈杂环境下进行通话，提高通话质量以及通话效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种语音数据处理的装置实施例的结构框图，具体可以包括如下模块：

噪声判断模块301，用于在语音通信过程中，获取实时的环境信息，并判断所述环境信息是否符合预设规则；

应答内容生成模块302，用于若所述环境信息符合预设规则，则根据接收的对端的语音数据生成对应的应答内容；

应答内容发送模块303，用于将所述应答内容发送至所述对端。

在本发明实施例的一种可选实施例中，所述应答内容生成模块302包括：

数据展示子模块，用于展示所述可视化形式的数据；

在本发明实施例的一种可选实施例中，所述噪声判断模块301包括：

在本发明实施例的一种可选实施例中，所述内容生成子模块包括：

在本发明实施例的一种可选实施例中，所述关键信息识别单元还用于：

或者，

在本发明实施例的一种可选实施例中，所述应答内容获取单元还用于：

或者，

在本发明实施例的一种可选实施例中，所述应答内容发送模块303包括：

应答内容展示子模块，用于展示所述应答内容；

发送子模块，用于将所述目标应答内容以所述对端需要的方式发送至所述对端。

在本发明实施例的一种可选实施例中，所述发送子模块还用于：

在本发明实施例的一种可选实施例中，所述指令的形式和/或所述语音的形式的确定方式，包括以下的一种或结合：

根据用户的选择或在先设置确定；

和/或，

根据所述对端的环境监测结果确定。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种电子设备400的框图。例如，电子设备400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，电子设备400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制电子设备400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理部件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在电子设备400的操作。这些数据的示例包括用于在电子设备400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为电子设备400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为电子设备400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述电子设备400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当电子设备400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为电子设备400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如所述组件为电子设备400的显示器和小键盘，传感器组件414还可以检测电子设备400或电子设备400一个组件的位置改变，用户与电子设备400接触的存在或不存在，电子设备400方位或加速/减速和电子设备400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件414被配置为便于电子设备400和其他设备之间有线或无线方式的通信。电子设备400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件414经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件414还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由电子设备400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种语音数据处理的方法，所述方法包括：

将所述应答内容发送至所述对端。

根据所述可视化形式的数据生成对应的应答内容。

从所述可视化形式的数据中识别出关键信息；

获取所述关键信息对应的应答内容。

或者，

可选地，所述将所述应答内容以所述对端需要的方式发送至所述对端包括：

展示所述应答内容；

将用户选定的应答内容作为目标应答内容；

将所述目标应答内容以所述对端需要的方式发送至所述对端。

可选地，所述将所述应答内容以对端需要的方式发送至所述对端的步骤包括：

根据用户的选择或在先设置确定；

和/或，

根据所述对端的环境监测结果确定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明实施例公开了A1、一种语音数据处理的方法，所述方法包括：

将所述应答内容发送至所述对端。

A2、根据A1所述的方法，所述根据接收的对端的语音数据生成对应的应答内容的步骤包括：

根据所述可视化形式的数据生成对应的应答内容。

A3、根据A1或A2所述的方法，所述判断所述环境信息是否符合预设规则的步骤包括：

A4、根据A2所述的方法，所述根据所述可视化形式的数据生成对应的应答内容的步骤包括：

从所述可视化形式的数据中识别出关键信息；

获取所述关键信息对应的应答内容。

A5、根据A4所述的方法，所述从所述可视化形式的数据中识别出关键信息的步骤包括：

或者，

A6、根据A5所述的方法，所述获取所述关键信息对应的应答内容的步骤包括：

或者，

A7、根据A1或A2或A4或A5所述的方法，所述将所述应答内容发送至所述对端包括：

展示所述应答内容；

将用户选定的应答内容作为目标应答内容；

将所述目标应答内容发送至所述对端。

A8、根据A1或A2或A4或A5所述的方法，所述将所述应答内容发送至所述对端的步骤包括：

A9、根据A8所述的方法，所述指令的形式和/或所述语音的形式的确定方式，包括以下的一种或结合：

根据用户的选择或在先设置确定；

和/或，

根据所述对端的环境监测结果确定。

本发明实施例还公开了B10、一种语音数据处理的装置，所述装置包括：

应答内容发送模块，用于将所述应答内容发送至所述对端。

B11、根据B10所述的装置，所述应答内容生成模块包括：

数据展示子模块，用于展示所述可视化形式的数据；

B12、根据B10或B11所述的装置，所述噪声判断模块包括：

B13、根据B11所述的装置，所述内容生成子模块包括：

B14、根据B13所述的装置，所述关键信息识别单元还用于：

或者，

B15、根据B14所述的装置，所述应答内容获取单元还用于：

或者，

B16、根据B10或B11或B13或B14所述的装置，所述应答内容发送模块包括：

应答内容展示子模块，用于展示所述应答内容；

发送子模块，用于将所述目标应答内容发送至所述对端。

B17、根据B9或B10或B12或B13所述的装置，所述发送子模块还用于：

B18、根据B17所述的装置，所述指令的形式和/或所述语音的形式的确定方式，包括以下的一种或结合：

根据用户的选择或在先设置确定；

和/或，

根据所述对端的环境监测结果确定。

本发明实施例还公开了C19、一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述A1-A9一个或多个的方法。

本发明实施例还公开了D20、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1-A9一个或多个的方法。

Claims

1.一种语音数据处理的方法，其特征在于，所述方法包括：

将所述应答内容发送至所述对端；

其中，所述将所述应答内容发送至所述对端的步骤包括：

将所述应答内容以指令的形式和/或语音的形式发送至所述对端，所述指令的形式和/或所述语音的形式的确定方式包括：根据所述对端的环境监测结果确定。

2.根据权利要求1所述的方法，其特征在于，所述根据接收的对端的语音数据生成对应的应答内容的步骤包括：

根据所述可视化形式的数据生成对应的应答内容。

3.根据权利要求1或2所述的方法，其特征在于，所述判断所述环境信息是否符合预设规则的步骤包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述可视化形式的数据生成对应的应答内容的步骤包括：

从所述可视化形式的数据中识别出关键信息；

获取所述关键信息对应的应答内容。

5.根据权利要求4所述的方法，其特征在于，所述从所述可视化形式的数据中识别出关键信息的步骤包括：

或者，

6.根据权利要求5所述的方法，其特征在于，所述获取所述关键信息对应的应答内容的步骤包括：

或者，

7.根据权利要求1或2或4或5所述的方法，其特征在于，所述将所述应答内容发送至所述对端包括：

展示所述应答内容；

将用户选定的应答内容作为目标应答内容；

将所述目标应答内容发送至所述对端。

8.根据权利要求1所述的方法，其特征在于，所述指令的形式和/或所述语音的形式的确定方式，包括：

根据用户的选择或在先设置确定。

9.一种语音数据处理的装置，其特征在于，所述装置包括：

应答内容发送模块，用于将所述应答内容以指令的形式和/或语音的形式发送至所述对端，其中，所述指令的形式和/或所述语音的形式的确定方式，包括：根据所述对端的环境监测结果确定。

10.根据权利要求9所述的装置，其特征在于，所述应答内容生成模块包括：

数据展示子模块，用于展示所述可视化形式的数据；

11.根据权利要求9或10所述的装置，其特征在于，所述噪声判断模块包括：

12.根据权利要求10所述的装置，其特征在于，所述内容生成子模块包括：

13.根据权利要求12所述的装置，其特征在于，所述关键信息识别单元还用于：

或者，

14.根据权利要求13所述的装置，其特征在于，所述应答内容获取单元还用于：

或者，

15.根据权利要求9或10或12或13所述的装置，其特征在于，所述应答内容发送模块包括：

应答内容展示子模块，用于展示所述应答内容；

发送子模块，用于将所述目标应答内容发送至所述对端。

16.根据权利要求9所述的装置，其特征在于，所述指令的形式和/或所述语音的形式的确定方式，包括以下的一种：

根据用户的选择或在先设置确定。

17.一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1-8中一个或多个所述的语音数据处理的方法。

18.一种可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1-8中一个或多个所述的语音数据处理的方法。