CN103903627A

CN103903627A - 一种语音数据的传输方法及装置

Info

Publication number: CN103903627A
Application number: CN201210578430.2A
Authority: CN
Inventors: 余立艳
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2014-07-02
Anticipated expiration: 2032-12-27
Also published as: EP2928164A1; CN103903627B; EP2928164A4; JP6113302B2; WO2013182118A1; JP2016507772A; US20160196836A1

Abstract

本发明公开了一种语音数据的传输方法及装置。其中，该方法包括：基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；将调整后的语音数据传输至接收端。通过本发明，基于预设的待调整语句数据库对发送端发送的语音数据进行监测，在监测到所述语音数据需要调整时，按照设定的标准语音格式对上述语音数据进行调整，然后将调整后的语音数据传输至接收端，解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，有利于维护个人形象，改善工作效果，提高人际交往的能力。

Description

一种语音数据的传输方法及装置

技术领域

本发明涉及移动通讯领域，特别是涉及一种语音数据的传输方法及装置。

背景技术

现代通信技术的快速发展，极大的扩展了人们的工作范围，手机等移动终端逐渐成为“地球村”中人与人之间沟通和交流的最重要手段之一。当用户使用手机等移动终端与他人进行语音通话，解决工作和生活中大量繁杂事务时，难免会出现情绪激动或失控的情形，从而影响沟通效果，甚至可能会造成不可挽回的后果。

如果在通话过程中用户处于非正常情绪状态，例如愤怒。生气等，很容易影响到用户之间的沟通。尤其是对于从事市场销售和公关等工作的用户，在通话过程中由于暂时情绪失控而造成言语失当，从而被对方误会，将直接影响个人形象和工作效果。

针对相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，目前无法提供有效的解决方案。

发明内容

针对相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，本发明提出了一种语音数据的传输方法及装置，用以上述技术问题。

根据本发明实施例的一方面，本发明提供一种语音数据的传输方法，该方法包括：基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；将调整后的语音数据传输至接收端。

进一步地，基于预设的待调整语句数据库，对发送端发送的语音数据进行监测可以包括：提取上述语音数据中的特征参数；基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配，对上述语音数据进行监测；和/或，提取上述语音数据中的词汇；基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配，对上述语音数据进行监测。

进一步地，在监测到上述语音数据需要调整之后，上述方法还可以包括：向上述发送端发送提示信号。

进一步地，按照设定的标准语音格式对上述语音数据进行调整可以包括：获取上述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整；和/或，获取上述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对上述语音能量进行调整；和/或，按照设定的标准语音格式延长上述语音数据的语句时长。

进一步地，按照设定的标准语音格式对上述语音数据进行调整可以包括：在上述语句调整数据库中搜索，是否存在与上述预设词汇相对应的礼貌词汇；如果存在，则根据上述礼貌词汇替换上述预设词汇。

根据本发明实施例的另一方面，本发明还提供一种语音数据的传输装置，该装置包括：监测模块，用于基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；调整模块，用于在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；传输模块，用于将调整后的语音数据传输至接收端。

进一步地，上述监测模块可以包括：第一监测单元，用于提取上述语音数据中的特征参数；基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配，对上述语音数据进行监测；和/或，第二监测单元，用于提取上述语音数据中的词汇；基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配，对上述语音数据进行监测。

进一步地，上述装置还可以包括：提示模块，用于向上述发送端发送提示信号。

进一步地，上述调整模块可以包括：第一调整单元，用于获取上述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整；和/或，第二调整单元，用于获取上述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对上述语音能量进行调整；和/或，第三调整单元，用于按照设定的标准语音格式延长上述语音数据的语句时长。

进一步地，上述调整模块可以包括：搜索单元，用于在上述语句调整数据库中搜索，是否存在与上述预设词汇相对应的礼貌词汇；替换单元，用于在上述搜索单元的搜索结果为是的情况下，根据上述礼貌词汇替换上述预设词汇。

通过本发明，基于预设的待调整语句数据库对发送端发送的语音数据进行监测，在监测到所述语音数据需要调整时，按照设定的标准语音格式对上述语音数据进行调整，然后将调整后的语音数据传输至接收端，解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，有利于维护个人形象，改善工作效果，提高人际交往的能力。

附图说明

图1是根据本发明实施例的语音数据的传输方法的流程图；

图2是根据本发明实施例的语音数据的传输装置的结构框图；

图3是根据本发明实施例的语音数据的传输装置的第一种具体结构框图；

图4是根据本发明实施例的语音数据的传输装置的第二种具体结构框图；

图5是根据本发明实施例的移动终端框架的结构框图；

图6是根据本发明实施例的情感语音数据库的自学习过程示意图；

图7是根据本发明实施例的过激语句修正模块进行语音数据调整流程的示意图；

图8是根据本发明实施例的语句基音频率调整效果示意图；

图9是根据本发明实施例的语句时长调整效果示意图；

图10是根据本发明实施例的语音通话时情绪控制和调整过程的流程图。

具体实施方式

为了解决现有技术中由于移动终端用户处于不良情绪，从而影响沟通效果的问题，本发明提供了一种语音数据的传输方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本实施提供了一种语音数据的传输方法，该方法可以在移动终端侧实现。图1是根据本发明实施例的语音数据的传输方法的流程图，如图1所示，该方法包括以下步骤（步骤S102-步骤S106）：

步骤S102，基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；

步骤S104，在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；

步骤S106，将调整后的语音数据传输至接收端。

通过上述方法，基于预设的待调整语句数据库对发送端发送的语音数据进行监测，在监测到所述语音数据需要调整时，按照设定的标准语音格式对上述语音数据进行调整，然后将调整后的语音数据传输至接收端，解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，有利于维护个人形象，改善工作效果，提高人际交往的能力。

在本实施例中，监测语音数据是否需要调整，对于语音数据是否需要调整的监测可以通过多种方式实现，无论采用何种方式，只要能够监测到语音数据是否需要调整，即监测到语音数据的发送端是否处于非正常情绪状态即可。基于此，本实施例提供了一种优选实施方式，即基于预设的待调整语句数据库，对发送端发送的语音数据进行监测包括：提取上述语音数据中的特征参数；基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配，对上述语音数据进行监测；和/或，提取上述语音数据中的词汇；基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配，对上述语音数据进行监测。通过上述优选实施方式，实现了对发送端是否处于非正常情绪状态的监测，为后续对上述情况下的发送端发送的语音数据进行调整提供了基础。

用户在非正常情绪状态（例如愤怒、生气等）下，其语音与正常状态下的语音会有区别，因此，上述优选实施例根据语音数据中提取的特征参数，判断用户是否处于非正常情绪状态下，从而提高非正常情绪状态监测的效率和准确度。该特征参数可以是语速、平均基音、基音范围、强度、基音变化等。另外，

上述第一特征参数可以是用户在处于非正常情绪状态下的特征参数，上述预设词汇可以是用户在处于非正常情绪状态下的不雅词汇。当然，上述特征参数也可以与正常情绪状态下的用户所具备的特征参数进行对比，在二者不匹配时，对语音数据进行调整。对于正常情绪状态下的特征参数，以及非正常状态下的特征参数，可以存储在预设的待调整语句数据库中，从而提高上述对比操作的执行效率和执行准确度。

对于监测语音数据中是否包括预设词汇，可以通过以下优选实施方式实现：提取语音数据中的词汇；将提出的词汇与预设词汇进行对比；根据对比结果确定语音数据中是否包括预设词汇。优选地，上述预设词汇可以存储在预设的待调整语句数据库中，并且可以自动设定预设的待调整语句数据库中的预设词汇，也可以根据发送端的实际情况活着用户的需求进行预设词汇的实时更新。

在监测到发送端发送的语音数据需要调整，即发送端处于非正常情绪状态之后，本实施例提供了一种优选实施方式，即向发送端发送提示信号。该提示信号可以是提示音或者振动，用于提醒用户在与其他用户进行沟通交流时控制情绪以及控制语气措辞等。

另外，向发送端发送提示信号，以及对语音数据进行监测，这两个动作的执行时机并无限定。例如，可以先向发送端发送提示信号，在得到发送端的用户允许的情况下，对语音数据进行调整；或者，向发送端发送提示信号和对语音数据进行监测同时执行。即，发送端的用户可以设置为自动执行语音数据的调整操作，也可以设置一个确认步骤，在接收到提示信号后，确认是否执行语音数据的调整操作。具体如何设置可以根据实际情况确定。

在监测到发送端发送的语音数据需要调整，即发送端处于非正常情绪状态之后，需要对该语音数据进行调整，对于具体的调整策略，可以通过多种方式实现，只要能够将处于非正常情绪状态的发送端发送的语音数据调整为正常状态下的语音数据即可。基于此，本实施例提供了一种优选实施方式，即获取上述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整；和/或，获取上述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对上述语音能量进行调整；和/或，按照设定的标准语音格式延长上述语音数据的语句时长。

另外一种调整方式，还可以在语句调整数据库中搜索，是否存在与预设词汇相对应的礼貌词汇；如果存在，则根据礼貌词汇替换预设词汇。

对于上述两种调整方式，可以根据上述语音数据中是否包括预设词汇的两种监测方式选择性执行，或者，根据实际情况具体确定。通过上述优选实施方式，实现了对不良情绪状态下的语音数据的调整，从而避免了不良情绪对沟通交流的不利影响，有利于维护个人形象，改善工作效果，提高人际交往的能力。

对应于上述实施例介绍的语音数据的传输方法，本发明实施例提供了一种语音数据的传输装置，该装置可以设置在移动终端侧，用于实现上述实施例。图2是根据本发明实施例的语音数据的传输装置的结构框图，如图2所示，该装置包括：监测模块10、调整模块20和传输模块30。下面对该结构进行详细介绍。

监测模块10，用于基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；

调整模块20，连接至监测模块10，用于在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；

传输模块30，连接至调整模块20，用于将调整后的语音数据传输至接收端。

通过上述装置，基于预设的待调整语句数据库对发送端发送的语音数据进行监测，在监测到所述语音数据需要调整时，按照设定的标准语音格式对上述语音数据进行调整，然后将调整后的语音数据传输至接收端，解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，有利于维护个人形象，改善工作效果，提高人际交往的能力。

在本实施例中，对于语音数据是否需要调整的监测可以通过多种方式实现，对此本实施例提供了一种优选实施方式，如图3所示的语音数据的传输装置的第一种具体结构框图，该装置除了包括上述图2所示的各个模块之外，上述监测模块10还包括：第一监测单元12，和/或，第二监测单元14。下面对该结构进行详细介绍。

第一监测单元12，用于提取上述语音数据中的特征参数；基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配，对上述语音数据进行监测；和/或，

第二监测单元14，用于提取上述语音数据中的词汇；基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配，对上述语音数据进行监测。

在本优选实施方式中，监测模块10可以采用第一监测单元12的结构对语音数据是否需要调整进行监测，或者可以采用第二监测单元14的结构对语音数据是否需要调整进行监测，或者，也可以一起采用上述第一监测单元12以及上述第二监测单元14的结构，从而提高监测准确度。图3仅以监测模块10包括第一监测单元12和第二监测单元14的优选结构为例进行介绍。

对于语音数据是否需要调整，即发送端是否处于非正常情绪状态的监测，第一监测单元12可以通过多种优选结构实现，优选地，第一监测单元12可以根据语音数据中的特征参数进行语音数据是否满足预设条件的判断，下面对第一监测单元12的一种优选结构进行介绍。

上述第一监测单元12包括：对比子单元，用于将特征参数与第一特征参数进行对比；其中，该第一特征参数是发送端处于非正常情绪状态时，发送的语音数据的特征参数；确定子单元，用于根据对比结果确定语音数据是否需要调整。

通过上述优选结构，提高了发送端（即用户）处于非正常情绪状态监测的效率和准确度。上述特征参数可以是语速、平均基音、基音范围、强度、基音变化等。当然，上述特征参数也可以与正常情绪状态下的用户所具备的特征参数进行对比，在二者不匹配时，对语音数据进行调整。对于正常情绪状态下的特征参数，以及非正常状态下的特征参数，可以存储在预设的待调整语句数据库中，从而提高上述对比操作的执行效率和执行准确度。

对于预设词汇的监测，第二监测单元14可以通过多种优选结构实现，优选地，第二监测单元14可以根据语音数据中是否包括预设词汇进行语音数据是否满足预设条件的监测，下面对第二监测单元14的一种优选结构进行介绍。

上述第二监测单元14包括：词汇提取子单元，用于提取语音数据中的词汇；词汇对比子单元，用于将上述词汇提取子单元提取的上述词汇，与预设词汇进行匹配；词汇确定子单元，用于根据对比结果确定语音数据中是否包括预设词汇。优选地，上述预设词汇可以存储在预设的待调整语句数据库中，并且可以自动设定预设的待调整语句数据库中的预设词汇，也可以根据发送端的实际情况活着用户的需求进行预设词汇的实时更新。通过上述优选结构，提高了不良情绪状态监测的效率和准确度。

在监测模块10监测到语音数据需要调整，即发送端处于非正常情绪状态之后，本实施例提供了一种优选实施方式，即上述装置除了包括上述图3所示的各个模块之外，还包括：提示模块，用于在上述监测模块10的监测结果为语音数据需要调整的情况下，向上述发送端发送提示信号。该提示信号可以是提示音或者振动，用于提醒用户在与其他用户进行沟通交流时控制情绪以及控制语气措辞等。另外，向发送端发送提示信号，以及对语音数据进行监测，这两个动作的执行时机并无限定。前面已经进行了具体介绍，在此不再赘述。

在监测模块10监测到语音数据需要调整，即发送端处于非正常情绪状态之后，调整模块20需要对该语音数据进行调整，对于调整模块20的具体调整策略，可以通过多种方式实现，只要能够将非正常情绪状态下发送端发送的语音数据调整为正常状态下的语音数据即可。基于此，本实施例提供了一种优选结构，如图4所示的语音数据的传输装置的第二种具体结构框图，该装置除了包括上述图3所示的各个模块之外，上述调整模块20还包括：第一调整单元22、第二调整单元24和第三调整单元26。下面对该结构进行具体介绍。

第一调整单元22，用于获取上述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整；和/或，

第二调整单元24，连接至第一调整单元22，用于获取上述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对上述语音能量进行调整；和/或，

第三调整单元26，连接至第二调整单元24，用于按照设定的标准语音格式延长上述语音数据的语句时长。

图4以上述调整模块20包括上述三个调整单元为例进行介绍。

另外，本实施例还提供了一种优选结构，即上述调整模块20还包括：搜索单元，用于在上述语句调整数据库中搜索，是否存在与上述预设词汇相对应的礼貌词汇；替换单元，用于在上述搜索单元的搜索结果为是的情况下，根据上述礼貌词汇替换上述预设词汇。

通过上述优选结构，实现了对非正常情绪状态下的语音数据的调整，从而避免了非正常情绪对沟通交流的不利影响，有利于维护个人形象，改善工作效果，提高人际交往的能力。

基于上述实施例介绍的语音数据的传输装置，下面通过优选实施例对语音数据的传输方法进行介绍。图5是根据本发明实施例的移动终端框架的结构框图，该移动终端框架包括：语音输入器（图5中未示出）、语音缓冲区、语音情感识别模块、情感语音数据库、提醒模块、过激语句修正模块、不雅词汇数据库、以及语音编码模块。对于各个模块的基本功能和特点，下面分别进行介绍。

语音输入器，用于根据一定的采样频率、通道、bit位，从发送端接收语音信息。因为电话的语音频率范围大约是60~3400HZ左右，因而采样率一般取8KHZ。声音从手机麦克输入，通过8KHZ的采样率，16bit的单声道音频格式，录制成标准的脉冲编码调制（Pulse-code modulation，简称为PCM）编码格式的WAV文件，存放在语音缓冲区。

语音缓冲区，用于接收并存放输入器输入的无压缩语音文件，待后续模块进行分析和处理。

语音情感识别模块，其主要功能与上述实施例中的监测模块的功能相当，用于实时提取语音缓冲区内语音数据的情感特征参数，然后，根据特征参数判断和识别发送端（即用户）通话时情绪是否失控（即处于非正常情绪状态），同时判断此时通话中是否存在不雅词汇。

人在愤怒或生气等非正常情绪状态时，情绪一般会失控。根据声学专家研究，人在愤怒、恐惧、高兴的情感状态下，交感神经占有主导作用，主要表现为语音洪亮，语速较快，发音能量大。但愤怒时，具有音调高，且变化较大，一般句首基频低，句尾基频高。另外，语音中包含很多重度音节，但最后一个词不重读。表1介绍的是常用的情感特征参数。其中，声带每开启和闭合一次的时间即振动周期称为音调周期或基音周期（pitchperiod），其倒数称为基音频率，也可简称为基频。

表1

情感特征参数	参数定义
		语速	单位时间内的音节数即语速
平均基音	基音频率的均值
		基音范围	基音频率的变化范围

强度	语音信号的强度，振幅均值
		基音变化	基频的平均变化率

表2是用户处于愤怒状态时情感特征参数的特点，可通过这些情感特征参数来识别用户的情绪是否为愤怒。

表2

情感特征参数	愤怒
		语速	略快
平均基音	非常高
		基音范围	很宽
强度	高
		基音变化	重音处突变
清晰度	含糊

另外，有些人在跟人交谈的时候，不自觉的喜欢说些不雅词汇，虽然说者无意，但听者有心，这样就会在不自觉中产生矛盾、误会，不但影响个人形象，还会影响人际关系，所以该语音情感识别模块除了判断情绪外，还会和不雅词汇库做比对，判断此时语句中是否包含不雅词汇，如果有不雅词汇，标记不雅词汇的位置。当该模块监测到用户通话过程中愤怒和包含不雅用词，都会触发手机提醒模块，提醒用户调整情绪和注意用词，避免情绪失控造成言语伤害他人。

提醒模块，其主要功能与上述实施例中的提示模块的功能相当，用于通过振动或提示音的方式，提醒用户通话过程中情绪是否激动或者是否包含不雅词汇。通过该模块，方便用户及时控制自身情绪。

情感语音数据库，其主要功能是存储上述实施例中对比子单元需要的正常情绪的特征参数，以及上述实施例中搜索单元需要的礼貌词汇。图6是根据本发明实施例的情感语音数据库的自学习过程示意图，如图6所示，情感语音数据库可以设置自学习能力。手机刚出厂时，手机存储的情感语音数据库是根据年龄、性别等因素建立符合不同人群的情感语音数据库，它包括正常通话时的情感特征参数，愤怒通话时的情感特征参数，以及礼貌用语词汇库。在此把存放正常通话时的情感特征参数的数据库，定义为正常语音数据库。把存放愤怒时的情感特征参数的数据库，定义为愤怒语音数据库。当手机出厂后，被用户开始使用后，刚开始会根据情感语音数据库的最初始设置来判断用户的情绪，但同时情感语音数据库通过自学习对用户正常通话和愤怒时通话时的情感特征参数进行修正和调整，最后对两组参数做比较，得出调整参数，用于后续模块调整所使用。另外，愤怒语音数据库还会统计用于处于愤怒状态时语句和语句之间的最小间隔时间T，为后续调整愤怒语句做准备。

不雅词汇数据库，其主要功能与上述实施例中的不雅词汇库的功能相当，用于存放大众公认的不雅词汇；同时，该数据库的主要功能与上述实施例中的第二监测单元的功能相当，用于判断用户通话过程中，是否存在不雅词汇。该数据库在手机出厂时已设置好大众公认的不雅词汇，用户在日常使用过程中，可以手动输入或者通过网络对此数据库中的不雅词汇执行添加删除等更新操作。

过激语句修正模块，其主要功能与上述实施例中的调整模块的功能相当，用于对用户处于愤怒等非正常情绪状态时的语句进行调整。图7是根据本发明实施例的过激语句修正模块进行语音数据调整流程的示意图，如图7所示，该流程包括以下步骤：

步骤一，根据情感识别模块标记的用户输入语句中不雅词汇的位置，对不雅词汇做替换，首先在礼貌用语词汇库中搜索是否有合适的替换词，如果有，则替换，如果没有，则保留标记，

步骤二，对语句的基频参数进行调整。因为正常通话时语句的基频是比较均匀的，愤怒时通话的基频相较正常时基频值要高，且有突变，可以通过时域同步叠加（TD-PSOLA）算法，参考情感语音数据库统计出的基频调整参数，把愤怒时整句的基频调整为正常语音时的基频。图8是根据本发明实施例的语句基音频率调整效果示意图，如图8所示，经过基频调整后，基音频率变小，将愤怒时通话的基频调整为正常通话的基频。

上述TD-PSOLA算法可以分为三步完成基音频率的调整：

第一步，提取愤怒时的语音的基音周期，进行基音标记。

第二步，根据情感语音数据库中的基频调整因子，调整整句的基频把愤怒时整句的基频调整为正常语音时的基频。

第三步，把修改过的语音基元通过一定的平滑算法拼接。

步骤三，对语句的能量进行调整。具体地，可以通过对某一时刻的能量乘以一个系数来扩大或缩小能量，此时的系数可以是在情感语音数据库中已经统计好的，把步骤二中输出的语音流乘以这个系数，如果步骤一中不雅词汇没有被替换，则在此处把不雅词汇语音能量乘一个很小的系数，使得被叫方不易听到不雅词汇。

步骤四，通过调整语句的时长来调整语句。用户处于愤怒等非正常情绪状态时的字节发音时长，比正常时的要短。另外为了避免丢包现象，可以适当拉长愤怒时的语句来减缓愤怒的效果，时长的调整也可采用TD-PSOLA算法。

图9是根据本发明实施例的语句时长调整效果示意图，如图9所示，经过语句时长调整后，时长增加为原语音时长的1.5倍。需要注意的是，时长的变换要小于情感数据库中统计出的愤怒语句间最小间隔T值。

经过上述四步的处理完成了过激语句的修正，通过过激语句修正模块处理过的语音数据就不会包含愤怒情绪的因素和不雅词汇。

语音编码模块，其主要功能是把没有压缩的语音数据压缩成适合网络传输的amr语音格式。

基于上述实施例介绍的移动终端框架的结构，下面通过优选实施例对移动终端框架进行语音数据的传输方法进行介绍。用户在通话的过程中，声音从手机麦克输入，通过一定的采样率、bit位、声道、录制成无压缩的语音文件，存放在语音缓冲区，待语音情感识别模块处理，语音情感识别模块提取缓冲区语音数据的特征参数，和情感语音数据库中的特征参数对比，判断出此时用户情绪，如果此时用户情绪激动，且处于愤怒等非正常情绪状态，此模块会触发手机振动，提醒用户及时调整情绪，避免情绪失控。在判断用户情绪的同时，情感语音数据库也会统计用户此时的语音特征参数和愤怒时语句间的最小间隔时间T值，后对基本数据库的数据进行修正和调整，使得此模块更易更准确的识别用户的情绪，并可以作为后续调整愤怒语句时的调整参数。另外，此模块还会和不雅词汇据库中的不雅词汇对比，看通话是否有不雅用词，若有不雅用词，也会触发手机振动，提醒用户注意言辞。若语音情感识别模块判断出此时用户愤怒或者有不雅用词，都需要过激语句修正模块对语句修正处理，通过对此时愤怒语句的基频、能量、时长做调整，使得把愤怒语句转换为正常情绪时的语句。如果包含不雅用词，则降低不雅用词的音量，弱化不雅用词。修正结束后，把修正好的语音数据传输到语音编码模块，把语音数据编成适合网络传输的amr格式，再由手机天线发射到网络端。若语音情感识别模块判断出用户非愤怒且不包含不雅词汇，则语音数据会直接传输到语音编码模块，编码成amr格式，由手机天线发射到网络端。

下面通过附图和优选实施例对本发明进行详细介绍。

本实施例以“今天的工作一定要完成”一句为例描述语音通话时情绪控制和调整的过程，图10是根据本发明实施例的语音通话时情绪控制和调整过程的流程图，如图10所示，该过程包括以下步骤（步骤S1002-步骤S1010）：

步骤S1002，当用户通话时，通话的语句内容为“今天的工作一定要完成”，语音输入器通过麦克风把用户的语音录制成标准的无压缩语音数据，并将该语音数据存放在语音缓冲区待后续模块处理。

步骤S1004，语音情感识别模块就会对该语句进行识别和判断，确定用户是否处于非正常情绪状态，且语句中携带不雅词汇。如果是，则执行步骤S1006，否则，执行步骤S1010。

首先提取该语句的情感特征参数，并和情感语音数据库存放的情感特征参数做对比，如果此时用户情绪过激，此模块就会判断出该语句的整体基频比正常语音数据库中的基频要快，尤其是“一定”两个音节。另外，整个语句的能量比正常语音数据库中的能量高，尤其是“一定”两个音节。另外，该语句每个音节的持续时长比正常语音数据库中的时长要短，尤其是“一定”两个音节。根据这些特征判断出此时用户情绪过激，并触发手机振动或发出提示音，提醒用户此时情绪过激。

如果此时用户情绪正常，则语音情感识别模块会判断出此句的整体基频、能量、时长跟正常语音数据库中的值相差不大，另外每个音节特征参数值之间差不多，没有突变。根据这些特点则可以判断出此时用户情绪正常，可以直接跳到步骤4中做处理。另外再判断此时用户通话过程中是否带有不雅词汇，明显此时没有包含不雅词汇。

步骤S1006，提醒模块触发手机振动或发出提示音，提醒用户此时情绪过激。

步骤S1008，如果上述步骤S1004中判断出此时用户情绪愤怒，则需要通过过激语句修正模块对语句做调整。

首先把此句的基频整体下调，尤其是“一定”两个音节调整成正常语音时的基频，把此句的每个音节乘一个系数，把此句的能量调整为正常语音的能量值，把此句中的每个音节通过TD-PSOLA算法把每个音节拉长至正常语音时的时长，通过调整后，再把此句传到下个模块做处理。

步骤S1010，步骤S1004中判断此时用户情绪正常，则可直接把此语句传到此模块，通过此模块编码成amr格式发送到网络端。

最终，被叫方接收到“今天的工作一定要完成”的语音数据跟正常情绪时表达出的效果基本一致，同时也不会出现信息缺失的情况，有利于维护用户的形象，以及用户人际交往。

从以上的描述可以看出，本发明实施例实时对语音通话过程中的情绪和言辞进行监控，并根据需求对语音情绪进行控制和调整的方法，最终在移动终端上实现语音通话过程中情绪控制和调整，从而起到维护个人形象，改善工作效果，提高人际交往能力的目的。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种语音数据的传输方法，其特征在于，所述方法包括以下步骤：

基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；

在监测到所述语音数据需要调整时，按照设定的标准语音格式，对所述语音数据进行调整；

将调整后的语音数据传输至接收端。

2.如权利要求1所述的方法，其特征在于，基于预设的待调整语句数据库，对发送端发送的语音数据进行监测包括：

提取所述语音数据中的特征参数；基于所述特征参数与所述待调整语句数据库中存储的第一特征参数是否匹配，对所述语音数据进行监测；和/或，

提取所述语音数据中的词汇；基于所述词汇与所述待调整语句数据库中存储的预设词汇是否匹配，对所述语音数据进行监测。

3.如权利要求1所述的方法，其特征在于，在监测到所述语音数据需要调整之后，所述方法还包括：向所述发送端发送提示信号。

4.如权利要求1所述的方法，其特征在于，按照设定的标准语音格式对所述语音数据进行调整包括：

获取所述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对所述语音数据的基频参数进行调整；和/或，

获取所述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对所述语音能量进行调整；和/或，

按照设定的标准语音格式延长所述语音数据的语句时长。

5.如权利要求2所述的方法，其特征在于，按照设定的标准语音格式对所述语音数据进行调整包括：

在所述语句调整数据库中搜索，是否存在与所述预设词汇相对应的礼貌词汇；

如果存在，则根据所述礼貌词汇替换所述预设词汇。

6.一种语音数据的传输装置，其特征在于，包括：

监测模块，用于基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；

调整模块，用于在监测到所述语音数据需要调整时，按照设定的标准语音格式，对所述语音数据进行调整；

传输模块，用于将调整后的语音数据传输至接收端。

7.如权利要求6所述的装置，其特征在于，所述监测模块包括：

第一监测单元，用于提取所述语音数据中的特征参数；基于所述特征参数与所述待调整语句数据库中存储的第一特征参数是否匹配，对所述语音数据进行监测；和/或，

第二监测单元，用于提取所述语音数据中的词汇；基于所述词汇与所述待调整语句数据库中存储的预设词汇是否匹配，对所述语音数据进行监测。

8.如权利要求6所述的装置，其特征在于，所述装置还包括：

提示模块，用于向所述发送端发送提示信号。

9.如权利要求6所述的装置，其特征在于，所述调整模块包括：

第一调整单元，用于获取所述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对所述语音数据的基频参数进行调整；和/或，

第二调整单元，用于获取所述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对所述语音能量进行调整；和/或，

第三调整单元，用于按照设定的标准语音格式延长所述语音数据的语句时长。

10.如权利要求7所述的装置，其特征在于，所述调整模块包括：

搜索单元，用于在所述语句调整数据库中搜索，是否存在与所述预设词汇相对应的礼貌词汇；

替换单元，用于在所述搜索单元的搜索结果为是的情况下，根据所述礼貌词汇替换所述预设词汇。