CN103903627A - 一种语音数据的传输方法及装置 - Google Patents

一种语音数据的传输方法及装置 Download PDF

Info

Publication number
CN103903627A
CN103903627A CN201210578430.2A CN201210578430A CN103903627A CN 103903627 A CN103903627 A CN 103903627A CN 201210578430 A CN201210578430 A CN 201210578430A CN 103903627 A CN103903627 A CN 103903627A
Authority
CN
China
Prior art keywords
speech data
vocabulary
adjusted
mentioned
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210578430.2A
Other languages
English (en)
Other versions
CN103903627B (zh
Inventor
余立艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201210578430.2A priority Critical patent/CN103903627B/zh
Priority to JP2015549951A priority patent/JP6113302B2/ja
Priority to EP13800387.6A priority patent/EP2928164A4/en
Priority to PCT/CN2013/079201 priority patent/WO2013182118A1/zh
Priority to US14/655,442 priority patent/US20160196836A1/en
Publication of CN103903627A publication Critical patent/CN103903627A/zh
Application granted granted Critical
Publication of CN103903627B publication Critical patent/CN103903627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6025Substation equipment, e.g. for use by subscribers including speech amplifiers implemented as integrated speech networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/18Comparators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2055Line restrictions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/357Autocues for dialog assistance

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种语音数据的传输方法及装置。其中,该方法包括:基于预设的待调整语句数据库,对发送端发送的语音数据进行监测;在监测到上述语音数据需要调整时,按照设定的标准语音格式,对上述语音数据进行调整;将调整后的语音数据传输至接收端。通过本发明,基于预设的待调整语句数据库对发送端发送的语音数据进行监测,在监测到所述语音数据需要调整时,按照设定的标准语音格式对上述语音数据进行调整,然后将调整后的语音数据传输至接收端,解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题,有利于维护个人形象,改善工作效果,提高人际交往的能力。

Description

一种语音数据的传输方法及装置
技术领域
本发明涉及移动通讯领域,特别是涉及一种语音数据的传输方法及装置。
背景技术
现代通信技术的快速发展,极大的扩展了人们的工作范围,手机等移动终端逐渐成为“地球村”中人与人之间沟通和交流的最重要手段之一。当用户使用手机等移动终端与他人进行语音通话,解决工作和生活中大量繁杂事务时,难免会出现情绪激动或失控的情形,从而影响沟通效果,甚至可能会造成不可挽回的后果。
如果在通话过程中用户处于非正常情绪状态,例如愤怒。生气等,很容易影响到用户之间的沟通。尤其是对于从事市场销售和公关等工作的用户,在通话过程中由于暂时情绪失控而造成言语失当,从而被对方误会,将直接影响个人形象和工作效果。
针对相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题,目前无法提供有效的解决方案。
发明内容
针对相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题,本发明提出了一种语音数据的传输方法及装置,用以上述技术问题。
根据本发明实施例的一方面,本发明提供一种语音数据的传输方法,该方法包括:基于预设的待调整语句数据库,对发送端发送的语音数据进行监测;在监测到上述语音数据需要调整时,按照设定的标准语音格式,对上述语音数据进行调整;将调整后的语音数据传输至接收端。
进一步地,基于预设的待调整语句数据库,对发送端发送的语音数据进行监测可以包括:提取上述语音数据中的特征参数;基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配,对上述语音数据进行监测;和/或,提取上述语音数据中的词汇;基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配,对上述语音数据进行监测。
进一步地,在监测到上述语音数据需要调整之后,上述方法还可以包括:向上述发送端发送提示信号。
进一步地,按照设定的标准语音格式对上述语音数据进行调整可以包括:获取上述语音数据的基频参数,按照设定的标准语音格式,根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整;和/或,获取上述语音数据的语音能量,按照设定的标准语音格式,根据能量调整参数对上述语音能量进行调整;和/或,按照设定的标准语音格式延长上述语音数据的语句时长。
进一步地,按照设定的标准语音格式对上述语音数据进行调整可以包括:在上述语句调整数据库中搜索,是否存在与上述预设词汇相对应的礼貌词汇;如果存在,则根据上述礼貌词汇替换上述预设词汇。
根据本发明实施例的另一方面,本发明还提供一种语音数据的传输装置,该装置包括:监测模块,用于基于预设的待调整语句数据库,对发送端发送的语音数据进行监测;调整模块,用于在监测到上述语音数据需要调整时,按照设定的标准语音格式,对上述语音数据进行调整;传输模块,用于将调整后的语音数据传输至接收端。
进一步地,上述监测模块可以包括:第一监测单元,用于提取上述语音数据中的特征参数;基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配,对上述语音数据进行监测;和/或,第二监测单元,用于提取上述语音数据中的词汇;基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配,对上述语音数据进行监测。
进一步地,上述装置还可以包括:提示模块,用于向上述发送端发送提示信号。
进一步地,上述调整模块可以包括:第一调整单元,用于获取上述语音数据的基频参数,按照设定的标准语音格式,根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整;和/或,第二调整单元,用于获取上述语音数据的语音能量,按照设定的标准语音格式,根据能量调整参数对上述语音能量进行调整;和/或,第三调整单元,用于按照设定的标准语音格式延长上述语音数据的语句时长。
进一步地,上述调整模块可以包括:搜索单元,用于在上述语句调整数据库中搜索,是否存在与上述预设词汇相对应的礼貌词汇;替换单元,用于在上述搜索单元的搜索结果为是的情况下,根据上述礼貌词汇替换上述预设词汇。
通过本发明,基于预设的待调整语句数据库对发送端发送的语音数据进行监测,在监测到所述语音数据需要调整时,按照设定的标准语音格式对上述语音数据进行调整,然后将调整后的语音数据传输至接收端,解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题,有利于维护个人形象,改善工作效果,提高人际交往的能力。
附图说明
图1是根据本发明实施例的语音数据的传输方法的流程图;
图2是根据本发明实施例的语音数据的传输装置的结构框图;
图3是根据本发明实施例的语音数据的传输装置的第一种具体结构框图;
图4是根据本发明实施例的语音数据的传输装置的第二种具体结构框图;
图5是根据本发明实施例的移动终端框架的结构框图;
图6是根据本发明实施例的情感语音数据库的自学习过程示意图;
图7是根据本发明实施例的过激语句修正模块进行语音数据调整流程的示意图;
图8是根据本发明实施例的语句基音频率调整效果示意图;
图9是根据本发明实施例的语句时长调整效果示意图;
图10是根据本发明实施例的语音通话时情绪控制和调整过程的流程图。
具体实施方式
为了解决现有技术中由于移动终端用户处于不良情绪,从而影响沟通效果的问题,本发明提供了一种语音数据的传输方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本实施提供了一种语音数据的传输方法,该方法可以在移动终端侧实现。图1是根据本发明实施例的语音数据的传输方法的流程图,如图1所示,该方法包括以下步骤(步骤S102-步骤S106):
步骤S102,基于预设的待调整语句数据库,对发送端发送的语音数据进行监测;
步骤S104,在监测到上述语音数据需要调整时,按照设定的标准语音格式,对上述语音数据进行调整;
步骤S106,将调整后的语音数据传输至接收端。
通过上述方法,基于预设的待调整语句数据库对发送端发送的语音数据进行监测,在监测到所述语音数据需要调整时,按照设定的标准语音格式对上述语音数据进行调整,然后将调整后的语音数据传输至接收端,解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题,有利于维护个人形象,改善工作效果,提高人际交往的能力。
在本实施例中,监测语音数据是否需要调整,对于语音数据是否需要调整的监测可以通过多种方式实现,无论采用何种方式,只要能够监测到语音数据是否需要调整,即监测到语音数据的发送端是否处于非正常情绪状态即可。基于此,本实施例提供了一种优选实施方式,即基于预设的待调整语句数据库,对发送端发送的语音数据进行监测包括:提取上述语音数据中的特征参数;基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配,对上述语音数据进行监测;和/或,提取上述语音数据中的词汇;基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配,对上述语音数据进行监测。通过上述优选实施方式,实现了对发送端是否处于非正常情绪状态的监测,为后续对上述情况下的发送端发送的语音数据进行调整提供了基础。
用户在非正常情绪状态(例如愤怒、生气等)下,其语音与正常状态下的语音会有区别,因此,上述优选实施例根据语音数据中提取的特征参数,判断用户是否处于非正常情绪状态下,从而提高非正常情绪状态监测的效率和准确度。该特征参数可以是语速、平均基音、基音范围、强度、基音变化等。另外,
上述第一特征参数可以是用户在处于非正常情绪状态下的特征参数,上述预设词汇可以是用户在处于非正常情绪状态下的不雅词汇。当然,上述特征参数也可以与正常情绪状态下的用户所具备的特征参数进行对比,在二者不匹配时,对语音数据进行调整。对于正常情绪状态下的特征参数,以及非正常状态下的特征参数,可以存储在预设的待调整语句数据库中,从而提高上述对比操作的执行效率和执行准确度。
对于监测语音数据中是否包括预设词汇,可以通过以下优选实施方式实现:提取语音数据中的词汇;将提出的词汇与预设词汇进行对比;根据对比结果确定语音数据中是否包括预设词汇。优选地,上述预设词汇可以存储在预设的待调整语句数据库中,并且可以自动设定预设的待调整语句数据库中的预设词汇,也可以根据发送端的实际情况活着用户的需求进行预设词汇的实时更新。
在监测到发送端发送的语音数据需要调整,即发送端处于非正常情绪状态之后,本实施例提供了一种优选实施方式,即向发送端发送提示信号。该提示信号可以是提示音或者振动,用于提醒用户在与其他用户进行沟通交流时控制情绪以及控制语气措辞等。
另外,向发送端发送提示信号,以及对语音数据进行监测,这两个动作的执行时机并无限定。例如,可以先向发送端发送提示信号,在得到发送端的用户允许的情况下,对语音数据进行调整;或者,向发送端发送提示信号和对语音数据进行监测同时执行。即,发送端的用户可以设置为自动执行语音数据的调整操作,也可以设置一个确认步骤,在接收到提示信号后,确认是否执行语音数据的调整操作。具体如何设置可以根据实际情况确定。
在监测到发送端发送的语音数据需要调整,即发送端处于非正常情绪状态之后,需要对该语音数据进行调整,对于具体的调整策略,可以通过多种方式实现,只要能够将处于非正常情绪状态的发送端发送的语音数据调整为正常状态下的语音数据即可。基于此,本实施例提供了一种优选实施方式,即获取上述语音数据的基频参数,按照设定的标准语音格式,根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整;和/或,获取上述语音数据的语音能量,按照设定的标准语音格式,根据能量调整参数对上述语音能量进行调整;和/或,按照设定的标准语音格式延长上述语音数据的语句时长。
另外一种调整方式,还可以在语句调整数据库中搜索,是否存在与预设词汇相对应的礼貌词汇;如果存在,则根据礼貌词汇替换预设词汇。
对于上述两种调整方式,可以根据上述语音数据中是否包括预设词汇的两种监测方式选择性执行,或者,根据实际情况具体确定。通过上述优选实施方式,实现了对不良情绪状态下的语音数据的调整,从而避免了不良情绪对沟通交流的不利影响,有利于维护个人形象,改善工作效果,提高人际交往的能力。
对应于上述实施例介绍的语音数据的传输方法,本发明实施例提供了一种语音数据的传输装置,该装置可以设置在移动终端侧,用于实现上述实施例。图2是根据本发明实施例的语音数据的传输装置的结构框图,如图2所示,该装置包括:监测模块10、调整模块20和传输模块30。下面对该结构进行详细介绍。
监测模块10,用于基于预设的待调整语句数据库,对发送端发送的语音数据进行监测;
调整模块20,连接至监测模块10,用于在监测到上述语音数据需要调整时,按照设定的标准语音格式,对上述语音数据进行调整;
传输模块30,连接至调整模块20,用于将调整后的语音数据传输至接收端。
通过上述装置,基于预设的待调整语句数据库对发送端发送的语音数据进行监测,在监测到所述语音数据需要调整时,按照设定的标准语音格式对上述语音数据进行调整,然后将调整后的语音数据传输至接收端,解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题,有利于维护个人形象,改善工作效果,提高人际交往的能力。
在本实施例中,对于语音数据是否需要调整的监测可以通过多种方式实现,对此本实施例提供了一种优选实施方式,如图3所示的语音数据的传输装置的第一种具体结构框图,该装置除了包括上述图2所示的各个模块之外,上述监测模块10还包括:第一监测单元12,和/或,第二监测单元14。下面对该结构进行详细介绍。
第一监测单元12,用于提取上述语音数据中的特征参数;基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配,对上述语音数据进行监测;和/或,
第二监测单元14,用于提取上述语音数据中的词汇;基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配,对上述语音数据进行监测。
在本优选实施方式中,监测模块10可以采用第一监测单元12的结构对语音数据是否需要调整进行监测,或者可以采用第二监测单元14的结构对语音数据是否需要调整进行监测,或者,也可以一起采用上述第一监测单元12以及上述第二监测单元14的结构,从而提高监测准确度。图3仅以监测模块10包括第一监测单元12和第二监测单元14的优选结构为例进行介绍。
对于语音数据是否需要调整,即发送端是否处于非正常情绪状态的监测,第一监测单元12可以通过多种优选结构实现,优选地,第一监测单元12可以根据语音数据中的特征参数进行语音数据是否满足预设条件的判断,下面对第一监测单元12的一种优选结构进行介绍。
上述第一监测单元12包括:对比子单元,用于将特征参数与第一特征参数进行对比;其中,该第一特征参数是发送端处于非正常情绪状态时,发送的语音数据的特征参数;确定子单元,用于根据对比结果确定语音数据是否需要调整。
通过上述优选结构,提高了发送端(即用户)处于非正常情绪状态监测的效率和准确度。上述特征参数可以是语速、平均基音、基音范围、强度、基音变化等。当然,上述特征参数也可以与正常情绪状态下的用户所具备的特征参数进行对比,在二者不匹配时,对语音数据进行调整。对于正常情绪状态下的特征参数,以及非正常状态下的特征参数,可以存储在预设的待调整语句数据库中,从而提高上述对比操作的执行效率和执行准确度。
对于预设词汇的监测,第二监测单元14可以通过多种优选结构实现,优选地,第二监测单元14可以根据语音数据中是否包括预设词汇进行语音数据是否满足预设条件的监测,下面对第二监测单元14的一种优选结构进行介绍。
上述第二监测单元14包括:词汇提取子单元,用于提取语音数据中的词汇;词汇对比子单元,用于将上述词汇提取子单元提取的上述词汇,与预设词汇进行匹配;词汇确定子单元,用于根据对比结果确定语音数据中是否包括预设词汇。优选地,上述预设词汇可以存储在预设的待调整语句数据库中,并且可以自动设定预设的待调整语句数据库中的预设词汇,也可以根据发送端的实际情况活着用户的需求进行预设词汇的实时更新。通过上述优选结构,提高了不良情绪状态监测的效率和准确度。
在监测模块10监测到语音数据需要调整,即发送端处于非正常情绪状态之后,本实施例提供了一种优选实施方式,即上述装置除了包括上述图3所示的各个模块之外,还包括:提示模块,用于在上述监测模块10的监测结果为语音数据需要调整的情况下,向上述发送端发送提示信号。该提示信号可以是提示音或者振动,用于提醒用户在与其他用户进行沟通交流时控制情绪以及控制语气措辞等。另外,向发送端发送提示信号,以及对语音数据进行监测,这两个动作的执行时机并无限定。前面已经进行了具体介绍,在此不再赘述。
在监测模块10监测到语音数据需要调整,即发送端处于非正常情绪状态之后,调整模块20需要对该语音数据进行调整,对于调整模块20的具体调整策略,可以通过多种方式实现,只要能够将非正常情绪状态下发送端发送的语音数据调整为正常状态下的语音数据即可。基于此,本实施例提供了一种优选结构,如图4所示的语音数据的传输装置的第二种具体结构框图,该装置除了包括上述图3所示的各个模块之外,上述调整模块20还包括:第一调整单元22、第二调整单元24和第三调整单元26。下面对该结构进行具体介绍。
第一调整单元22,用于获取上述语音数据的基频参数,按照设定的标准语音格式,根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整;和/或,
第二调整单元24,连接至第一调整单元22,用于获取上述语音数据的语音能量,按照设定的标准语音格式,根据能量调整参数对上述语音能量进行调整;和/或,
第三调整单元26,连接至第二调整单元24,用于按照设定的标准语音格式延长上述语音数据的语句时长。
图4以上述调整模块20包括上述三个调整单元为例进行介绍。
另外,本实施例还提供了一种优选结构,即上述调整模块20还包括:搜索单元,用于在上述语句调整数据库中搜索,是否存在与上述预设词汇相对应的礼貌词汇;替换单元,用于在上述搜索单元的搜索结果为是的情况下,根据上述礼貌词汇替换上述预设词汇。
通过上述优选结构,实现了对非正常情绪状态下的语音数据的调整,从而避免了非正常情绪对沟通交流的不利影响,有利于维护个人形象,改善工作效果,提高人际交往的能力。
基于上述实施例介绍的语音数据的传输装置,下面通过优选实施例对语音数据的传输方法进行介绍。图5是根据本发明实施例的移动终端框架的结构框图,该移动终端框架包括:语音输入器(图5中未示出)、语音缓冲区、语音情感识别模块、情感语音数据库、提醒模块、过激语句修正模块、不雅词汇数据库、以及语音编码模块。对于各个模块的基本功能和特点,下面分别进行介绍。
语音输入器,用于根据一定的采样频率、通道、bit位,从发送端接收语音信息。因为电话的语音频率范围大约是60~3400HZ左右,因而采样率一般取8KHZ。声音从手机麦克输入,通过8KHZ的采样率,16bit的单声道音频格式,录制成标准的脉冲编码调制(Pulse-code modulation,简称为PCM)编码格式的WAV文件,存放在语音缓冲区。
语音缓冲区,用于接收并存放输入器输入的无压缩语音文件,待后续模块进行分析和处理。
语音情感识别模块,其主要功能与上述实施例中的监测模块的功能相当,用于实时提取语音缓冲区内语音数据的情感特征参数,然后,根据特征参数判断和识别发送端(即用户)通话时情绪是否失控(即处于非正常情绪状态),同时判断此时通话中是否存在不雅词汇。
人在愤怒或生气等非正常情绪状态时,情绪一般会失控。根据声学专家研究,人在愤怒、恐惧、高兴的情感状态下,交感神经占有主导作用,主要表现为语音洪亮,语速较快,发音能量大。但愤怒时,具有音调高,且变化较大,一般句首基频低,句尾基频高。另外,语音中包含很多重度音节,但最后一个词不重读。表1介绍的是常用的情感特征参数。其中,声带每开启和闭合一次的时间即振动周期称为音调周期或基音周期(pitchperiod),其倒数称为基音频率,也可简称为基频。
表1
情感特征参数 参数定义
语速 单位时间内的音节数即语速
平均基音 基音频率的均值
基音范围 基音频率的变化范围
强度 语音信号的强度,振幅均值
基音变化 基频的平均变化率
表2是用户处于愤怒状态时情感特征参数的特点,可通过这些情感特征参数来识别用户的情绪是否为愤怒。
表2
情感特征参数 愤怒
语速 略快
平均基音 非常高
基音范围 很宽
强度
基音变化 重音处突变
清晰度 含糊
另外,有些人在跟人交谈的时候,不自觉的喜欢说些不雅词汇,虽然说者无意,但听者有心,这样就会在不自觉中产生矛盾、误会,不但影响个人形象,还会影响人际关系,所以该语音情感识别模块除了判断情绪外,还会和不雅词汇库做比对,判断此时语句中是否包含不雅词汇,如果有不雅词汇,标记不雅词汇的位置。当该模块监测到用户通话过程中愤怒和包含不雅用词,都会触发手机提醒模块,提醒用户调整情绪和注意用词,避免情绪失控造成言语伤害他人。
提醒模块,其主要功能与上述实施例中的提示模块的功能相当,用于通过振动或提示音的方式,提醒用户通话过程中情绪是否激动或者是否包含不雅词汇。通过该模块,方便用户及时控制自身情绪。
情感语音数据库,其主要功能是存储上述实施例中对比子单元需要的正常情绪的特征参数,以及上述实施例中搜索单元需要的礼貌词汇。图6是根据本发明实施例的情感语音数据库的自学习过程示意图,如图6所示,情感语音数据库可以设置自学习能力。手机刚出厂时,手机存储的情感语音数据库是根据年龄、性别等因素建立符合不同人群的情感语音数据库,它包括正常通话时的情感特征参数,愤怒通话时的情感特征参数,以及礼貌用语词汇库。在此把存放正常通话时的情感特征参数的数据库,定义为正常语音数据库。把存放愤怒时的情感特征参数的数据库,定义为愤怒语音数据库。当手机出厂后,被用户开始使用后,刚开始会根据情感语音数据库的最初始设置来判断用户的情绪,但同时情感语音数据库通过自学习对用户正常通话和愤怒时通话时的情感特征参数进行修正和调整,最后对两组参数做比较,得出调整参数,用于后续模块调整所使用。另外,愤怒语音数据库还会统计用于处于愤怒状态时语句和语句之间的最小间隔时间T,为后续调整愤怒语句做准备。
不雅词汇数据库,其主要功能与上述实施例中的不雅词汇库的功能相当,用于存放大众公认的不雅词汇;同时,该数据库的主要功能与上述实施例中的第二监测单元的功能相当,用于判断用户通话过程中,是否存在不雅词汇。该数据库在手机出厂时已设置好大众公认的不雅词汇,用户在日常使用过程中,可以手动输入或者通过网络对此数据库中的不雅词汇执行添加删除等更新操作。
过激语句修正模块,其主要功能与上述实施例中的调整模块的功能相当,用于对用户处于愤怒等非正常情绪状态时的语句进行调整。图7是根据本发明实施例的过激语句修正模块进行语音数据调整流程的示意图,如图7所示,该流程包括以下步骤:
步骤一,根据情感识别模块标记的用户输入语句中不雅词汇的位置,对不雅词汇做替换,首先在礼貌用语词汇库中搜索是否有合适的替换词,如果有,则替换,如果没有,则保留标记,
步骤二,对语句的基频参数进行调整。因为正常通话时语句的基频是比较均匀的,愤怒时通话的基频相较正常时基频值要高,且有突变,可以通过时域同步叠加(TD-PSOLA)算法,参考情感语音数据库统计出的基频调整参数,把愤怒时整句的基频调整为正常语音时的基频。图8是根据本发明实施例的语句基音频率调整效果示意图,如图8所示,经过基频调整后,基音频率变小,将愤怒时通话的基频调整为正常通话的基频。
上述TD-PSOLA算法可以分为三步完成基音频率的调整:
第一步,提取愤怒时的语音的基音周期,进行基音标记。
第二步,根据情感语音数据库中的基频调整因子,调整整句的基频把愤怒时整句的基频调整为正常语音时的基频。
第三步,把修改过的语音基元通过一定的平滑算法拼接。
步骤三,对语句的能量进行调整。具体地,可以通过对某一时刻的能量乘以一个系数来扩大或缩小能量,此时的系数可以是在情感语音数据库中已经统计好的,把步骤二中输出的语音流乘以这个系数,如果步骤一中不雅词汇没有被替换,则在此处把不雅词汇语音能量乘一个很小的系数,使得被叫方不易听到不雅词汇。
步骤四,通过调整语句的时长来调整语句。用户处于愤怒等非正常情绪状态时的字节发音时长,比正常时的要短。另外为了避免丢包现象,可以适当拉长愤怒时的语句来减缓愤怒的效果,时长的调整也可采用TD-PSOLA算法。
图9是根据本发明实施例的语句时长调整效果示意图,如图9所示,经过语句时长调整后,时长增加为原语音时长的1.5倍。需要注意的是,时长的变换要小于情感数据库中统计出的愤怒语句间最小间隔T值。
经过上述四步的处理完成了过激语句的修正,通过过激语句修正模块处理过的语音数据就不会包含愤怒情绪的因素和不雅词汇。
语音编码模块,其主要功能是把没有压缩的语音数据压缩成适合网络传输的amr语音格式。
基于上述实施例介绍的移动终端框架的结构,下面通过优选实施例对移动终端框架进行语音数据的传输方法进行介绍。用户在通话的过程中,声音从手机麦克输入,通过一定的采样率、bit位、声道、录制成无压缩的语音文件,存放在语音缓冲区,待语音情感识别模块处理,语音情感识别模块提取缓冲区语音数据的特征参数,和情感语音数据库中的特征参数对比,判断出此时用户情绪,如果此时用户情绪激动,且处于愤怒等非正常情绪状态,此模块会触发手机振动,提醒用户及时调整情绪,避免情绪失控。在判断用户情绪的同时,情感语音数据库也会统计用户此时的语音特征参数和愤怒时语句间的最小间隔时间T值,后对基本数据库的数据进行修正和调整,使得此模块更易更准确的识别用户的情绪,并可以作为后续调整愤怒语句时的调整参数。另外,此模块还会和不雅词汇据库中的不雅词汇对比,看通话是否有不雅用词,若有不雅用词,也会触发手机振动,提醒用户注意言辞。若语音情感识别模块判断出此时用户愤怒或者有不雅用词,都需要过激语句修正模块对语句修正处理,通过对此时愤怒语句的基频、能量、时长做调整,使得把愤怒语句转换为正常情绪时的语句。如果包含不雅用词,则降低不雅用词的音量,弱化不雅用词。修正结束后,把修正好的语音数据传输到语音编码模块,把语音数据编成适合网络传输的amr格式,再由手机天线发射到网络端。若语音情感识别模块判断出用户非愤怒且不包含不雅词汇,则语音数据会直接传输到语音编码模块,编码成amr格式,由手机天线发射到网络端。
下面通过附图和优选实施例对本发明进行详细介绍。
本实施例以“今天的工作一定要完成”一句为例描述语音通话时情绪控制和调整的过程,图10是根据本发明实施例的语音通话时情绪控制和调整过程的流程图,如图10所示,该过程包括以下步骤(步骤S1002-步骤S1010):
步骤S1002,当用户通话时,通话的语句内容为“今天的工作一定要完成”,语音输入器通过麦克风把用户的语音录制成标准的无压缩语音数据,并将该语音数据存放在语音缓冲区待后续模块处理。
步骤S1004,语音情感识别模块就会对该语句进行识别和判断,确定用户是否处于非正常情绪状态,且语句中携带不雅词汇。如果是,则执行步骤S1006,否则,执行步骤S1010。
首先提取该语句的情感特征参数,并和情感语音数据库存放的情感特征参数做对比,如果此时用户情绪过激,此模块就会判断出该语句的整体基频比正常语音数据库中的基频要快,尤其是“一定”两个音节。另外,整个语句的能量比正常语音数据库中的能量高,尤其是“一定”两个音节。另外,该语句每个音节的持续时长比正常语音数据库中的时长要短,尤其是“一定”两个音节。根据这些特征判断出此时用户情绪过激,并触发手机振动或发出提示音,提醒用户此时情绪过激。
如果此时用户情绪正常,则语音情感识别模块会判断出此句的整体基频、能量、时长跟正常语音数据库中的值相差不大,另外每个音节特征参数值之间差不多,没有突变。根据这些特点则可以判断出此时用户情绪正常,可以直接跳到步骤4中做处理。另外再判断此时用户通话过程中是否带有不雅词汇,明显此时没有包含不雅词汇。
步骤S1006,提醒模块触发手机振动或发出提示音,提醒用户此时情绪过激。
步骤S1008,如果上述步骤S1004中判断出此时用户情绪愤怒,则需要通过过激语句修正模块对语句做调整。
首先把此句的基频整体下调,尤其是“一定”两个音节调整成正常语音时的基频,把此句的每个音节乘一个系数,把此句的能量调整为正常语音的能量值,把此句中的每个音节通过TD-PSOLA算法把每个音节拉长至正常语音时的时长,通过调整后,再把此句传到下个模块做处理。
步骤S1010,步骤S1004中判断此时用户情绪正常,则可直接把此语句传到此模块,通过此模块编码成amr格式发送到网络端。
最终,被叫方接收到“今天的工作一定要完成”的语音数据跟正常情绪时表达出的效果基本一致,同时也不会出现信息缺失的情况,有利于维护用户的形象,以及用户人际交往。
从以上的描述可以看出,本发明实施例实时对语音通话过程中的情绪和言辞进行监控,并根据需求对语音情绪进行控制和调整的方法,最终在移动终端上实现语音通话过程中情绪控制和调整,从而起到维护个人形象,改善工作效果,提高人际交往能力的目的。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (10)

1.一种语音数据的传输方法,其特征在于,所述方法包括以下步骤:
基于预设的待调整语句数据库,对发送端发送的语音数据进行监测;
在监测到所述语音数据需要调整时,按照设定的标准语音格式,对所述语音数据进行调整;
将调整后的语音数据传输至接收端。
2.如权利要求1所述的方法,其特征在于,基于预设的待调整语句数据库,对发送端发送的语音数据进行监测包括:
提取所述语音数据中的特征参数;基于所述特征参数与所述待调整语句数据库中存储的第一特征参数是否匹配,对所述语音数据进行监测;和/或,
提取所述语音数据中的词汇;基于所述词汇与所述待调整语句数据库中存储的预设词汇是否匹配,对所述语音数据进行监测。
3.如权利要求1所述的方法,其特征在于,在监测到所述语音数据需要调整之后,所述方法还包括:向所述发送端发送提示信号。
4.如权利要求1所述的方法,其特征在于,按照设定的标准语音格式对所述语音数据进行调整包括:
获取所述语音数据的基频参数,按照设定的标准语音格式,根据时域同步算法和基频调整参数对所述语音数据的基频参数进行调整;和/或,
获取所述语音数据的语音能量,按照设定的标准语音格式,根据能量调整参数对所述语音能量进行调整;和/或,
按照设定的标准语音格式延长所述语音数据的语句时长。
5.如权利要求2所述的方法,其特征在于,按照设定的标准语音格式对所述语音数据进行调整包括:
在所述语句调整数据库中搜索,是否存在与所述预设词汇相对应的礼貌词汇;
如果存在,则根据所述礼貌词汇替换所述预设词汇。
6.一种语音数据的传输装置,其特征在于,包括:
监测模块,用于基于预设的待调整语句数据库,对发送端发送的语音数据进行监测;
调整模块,用于在监测到所述语音数据需要调整时,按照设定的标准语音格式,对所述语音数据进行调整;
传输模块,用于将调整后的语音数据传输至接收端。
7.如权利要求6所述的装置,其特征在于,所述监测模块包括:
第一监测单元,用于提取所述语音数据中的特征参数;基于所述特征参数与所述待调整语句数据库中存储的第一特征参数是否匹配,对所述语音数据进行监测;和/或,
第二监测单元,用于提取所述语音数据中的词汇;基于所述词汇与所述待调整语句数据库中存储的预设词汇是否匹配,对所述语音数据进行监测。
8.如权利要求6所述的装置,其特征在于,所述装置还包括:
提示模块,用于向所述发送端发送提示信号。
9.如权利要求6所述的装置,其特征在于,所述调整模块包括:
第一调整单元,用于获取所述语音数据的基频参数,按照设定的标准语音格式,根据时域同步算法和基频调整参数对所述语音数据的基频参数进行调整;和/或,
第二调整单元,用于获取所述语音数据的语音能量,按照设定的标准语音格式,根据能量调整参数对所述语音能量进行调整;和/或,
第三调整单元,用于按照设定的标准语音格式延长所述语音数据的语句时长。
10.如权利要求7所述的装置,其特征在于,所述调整模块包括:
搜索单元,用于在所述语句调整数据库中搜索,是否存在与所述预设词汇相对应的礼貌词汇;
替换单元,用于在所述搜索单元的搜索结果为是的情况下,根据所述礼貌词汇替换所述预设词汇。
CN201210578430.2A 2012-12-27 2012-12-27 一种语音数据的传输方法及装置 Active CN103903627B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201210578430.2A CN103903627B (zh) 2012-12-27 2012-12-27 一种语音数据的传输方法及装置
JP2015549951A JP6113302B2 (ja) 2012-12-27 2013-07-11 音声データの伝送方法及び装置
EP13800387.6A EP2928164A4 (en) 2012-12-27 2013-07-11 TRANSMITTING METHOD AND DEVICE FOR VOICE DATA
PCT/CN2013/079201 WO2013182118A1 (zh) 2012-12-27 2013-07-11 一种语音数据的传输方法及装置
US14/655,442 US20160196836A1 (en) 2012-12-27 2013-07-11 Transmission Method And Device For Voice Data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210578430.2A CN103903627B (zh) 2012-12-27 2012-12-27 一种语音数据的传输方法及装置

Publications (2)

Publication Number Publication Date
CN103903627A true CN103903627A (zh) 2014-07-02
CN103903627B CN103903627B (zh) 2018-06-19

Family

ID=49711406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210578430.2A Active CN103903627B (zh) 2012-12-27 2012-12-27 一种语音数据的传输方法及装置

Country Status (5)

Country Link
US (1) US20160196836A1 (zh)
EP (1) EP2928164A4 (zh)
JP (1) JP6113302B2 (zh)
CN (1) CN103903627B (zh)
WO (1) WO2013182118A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113634A (zh) * 2013-04-22 2014-10-22 三星电子(中国)研发中心 一种对语音进行处理的方法
CN104284018A (zh) * 2014-09-23 2015-01-14 深圳市金立通信设备有限公司 一种终端
CN104299622A (zh) * 2014-09-23 2015-01-21 深圳市金立通信设备有限公司 一种音频处理方法
CN104538043A (zh) * 2015-01-16 2015-04-22 北京邮电大学 一种通话中实时情感提示装置
CN104616666A (zh) * 2015-03-03 2015-05-13 广东小天才科技有限公司 一种基于语音分析改善对话沟通效果的方法及装置
CN105244026A (zh) * 2015-08-24 2016-01-13 陈娟 一种语音处理方法及装置
CN105261362A (zh) * 2015-09-07 2016-01-20 科大讯飞股份有限公司 一种通话语音监测方法及系统
CN105448300A (zh) * 2015-11-12 2016-03-30 小米科技有限责任公司 用于通话的方法及装置
CN105681546A (zh) * 2015-12-30 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种语音处理的方法、装置以及终端
WO2016090762A1 (zh) * 2014-12-12 2016-06-16 中兴通讯股份有限公司 一种语音信号的处理方法、终端及计算机存储介质
CN106572067A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 语音流传送的方法及系统
CN106992013A (zh) * 2016-01-20 2017-07-28 哈曼国际工业有限公司 语音情感修改
CN106992005A (zh) * 2017-03-16 2017-07-28 维沃移动通信有限公司 一种语音输入方法及移动终端
CN107886963A (zh) * 2017-11-03 2018-04-06 珠海格力电器股份有限公司 一种语音处理的方法、装置及电子设备
CN108494952A (zh) * 2018-03-05 2018-09-04 广东欧珀移动通信有限公司 语音通话处理方法及相关设备
CN109274819A (zh) * 2018-09-13 2019-01-25 广东小天才科技有限公司 通话时用户情绪调整方法、装置、移动终端及存储介质
CN109426411A (zh) * 2017-08-21 2019-03-05 松下知识产权经营株式会社 信息处理方法、信息处理装置以及信息处理程序
CN109951607A (zh) * 2019-03-29 2019-06-28 努比亚技术有限公司 一种内容处理方法、终端及计算机可读存储介质
CN109977411A (zh) * 2019-03-28 2019-07-05 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110138654A (zh) * 2019-06-06 2019-08-16 北京百度网讯科技有限公司 用于处理语音的方法和装置
CN110782888A (zh) * 2018-07-27 2020-02-11 国际商业机器公司 用于改变感知认知状态的语音语气控制系统
CN112860213A (zh) * 2021-03-09 2021-05-28 腾讯科技(深圳)有限公司 音频的处理方法、存储介质及电子设备
CN113646838A (zh) * 2019-04-05 2021-11-12 华为技术有限公司 在视频聊天过程中提供情绪修改的方法和系统

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3259754B1 (en) * 2015-02-16 2022-06-15 Samsung Electronics Co., Ltd. Method and device for providing information
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
CN106502938B (zh) * 2015-09-08 2020-03-10 北京百度网讯科技有限公司 用于实现图像和语音交互的方法和装置
CN105611026B (zh) * 2016-01-22 2019-07-09 胡月鹏 一种调节通话音量的方法、装置及电子设备
US11455985B2 (en) * 2016-04-26 2022-09-27 Sony Interactive Entertainment Inc. Information processing apparatus
JP6986680B2 (ja) * 2016-08-29 2021-12-22 パナソニックIpマネジメント株式会社 ストレスマネジメントシステム及びストレスマネジメント方法
WO2018050212A1 (en) * 2016-09-13 2018-03-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Telecommunication terminal with voice conversion
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
JP6866715B2 (ja) * 2017-03-22 2021-04-28 カシオ計算機株式会社 情報処理装置、感情認識方法、及び、プログラム
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
CN108630224B (zh) * 2018-03-22 2020-06-09 云知声智能科技股份有限公司 控制语速的方法及装置
WO2019232235A1 (en) 2018-05-31 2019-12-05 Shure Acquisition Holdings, Inc. Systems and methods for intelligent voice activation for auto-mixing
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN109005272B (zh) * 2018-07-24 2021-01-29 Oppo(重庆)智能科技有限公司 语音拾取方法及相关产品
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
CN109545200A (zh) * 2018-10-31 2019-03-29 深圳大普微电子科技有限公司 编辑语音内容的方法及存储装置
JP7230545B2 (ja) * 2019-02-04 2023-03-01 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
WO2020191380A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings,Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
CN114051738B (zh) 2019-05-23 2024-10-01 舒尔获得控股公司 可操纵扬声器阵列、系统及其方法
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
WO2021041275A1 (en) 2019-08-23 2021-03-04 Shore Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
JP7248615B2 (ja) * 2020-03-19 2023-03-29 ヤフー株式会社 出力装置、出力方法及び出力プログラム
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
EP4285605A1 (en) 2021-01-28 2023-12-06 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system
CN113113047A (zh) * 2021-03-17 2021-07-13 北京大米科技有限公司 一种音频处理的方法、装置、可读存储介质和电子设备
CN113254250B (zh) * 2021-06-16 2022-01-04 阿里云计算有限公司 数据库服务器异常成因检测方法、装置、设备和存储介质
CN117316191A (zh) * 2023-11-30 2023-12-29 天津科立尔科技有限公司 一种情绪监测分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645363A (zh) * 2005-01-04 2005-07-27 华南理工大学 便携式即时方言互译装置及其方法
WO2007120734A2 (en) * 2006-04-11 2007-10-25 Noise Free Wireless, Inc. Environmental noise reduction and cancellation for cellular telephone and voice over internet packets (voip) communication devices
WO2008057185A1 (en) * 2006-10-26 2008-05-15 Anand Katragadda Courteous phone usage system
CN101662546A (zh) * 2009-09-16 2010-03-03 中兴通讯股份有限公司 情绪监控的方法及装置
CN102184731A (zh) * 2011-05-12 2011-09-14 北京航空航天大学 一种韵律类和音质类参数相结合的情感语音转换方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9623717D0 (en) * 1996-11-14 1997-01-08 Philips Electronics Nv Television
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
US7085719B1 (en) * 2000-07-13 2006-08-01 Rockwell Electronics Commerce Technologies Llc Voice filter for normalizing an agents response by altering emotional and word content
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
EP1282113B1 (en) * 2001-08-02 2005-01-12 Sony International (Europe) GmbH Method for detecting emotions from speech using speaker identification
US6996526B2 (en) * 2002-01-02 2006-02-07 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating
FR2839836B1 (fr) * 2002-05-16 2004-09-10 Cit Alcatel Terminal de telecommunication permettant de modifier la voix transmise lors d'une communication telephonique
US7706510B2 (en) * 2005-03-16 2010-04-27 Research In Motion System and method for personalized text-to-voice synthesis
JP4687269B2 (ja) * 2005-06-22 2011-05-25 沖電気工業株式会社 商品販売支援装置
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
WO2009011021A1 (ja) * 2007-07-13 2009-01-22 Panasonic Corporation 話速変換装置及び話速変換方法
WO2010041507A1 (ja) * 2008-10-10 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 会話における特定状況を抽出するシステムおよび方法
JP4852584B2 (ja) * 2008-10-23 2012-01-11 ヤフー株式会社 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
CN101420665A (zh) * 2008-12-11 2009-04-29 北京邮电大学 基于情绪检测技术实现情绪检测与指导业务的系统和方法
CN101789990A (zh) * 2009-12-23 2010-07-28 宇龙计算机通信科技(深圳)有限公司 一种在通话过程中判断对方情绪的方法及移动终端
US20120189129A1 (en) * 2011-01-26 2012-07-26 TrackThings LLC Apparatus for Aiding and Informing a User
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
JP2012181469A (ja) * 2011-03-03 2012-09-20 Sony Corp 送信装置、受信装置、送信方法、受信方法、通信システム
US20170006161A9 (en) * 2013-03-15 2017-01-05 Genesys Telecommunications Laboratories, Inc. Intelligent automated agent for a contact center
US10405786B2 (en) * 2013-10-09 2019-09-10 Nedim T. SAHIN Systems, environment and methods for evaluation and management of autism spectrum disorder using a wearable data collection device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645363A (zh) * 2005-01-04 2005-07-27 华南理工大学 便携式即时方言互译装置及其方法
WO2007120734A2 (en) * 2006-04-11 2007-10-25 Noise Free Wireless, Inc. Environmental noise reduction and cancellation for cellular telephone and voice over internet packets (voip) communication devices
WO2008057185A1 (en) * 2006-10-26 2008-05-15 Anand Katragadda Courteous phone usage system
CN101662546A (zh) * 2009-09-16 2010-03-03 中兴通讯股份有限公司 情绪监控的方法及装置
CN102184731A (zh) * 2011-05-12 2011-09-14 北京航空航天大学 一种韵律类和音质类参数相结合的情感语音转换方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113634A (zh) * 2013-04-22 2014-10-22 三星电子(中国)研发中心 一种对语音进行处理的方法
CN104284018A (zh) * 2014-09-23 2015-01-14 深圳市金立通信设备有限公司 一种终端
CN104299622A (zh) * 2014-09-23 2015-01-21 深圳市金立通信设备有限公司 一种音频处理方法
CN105741854A (zh) * 2014-12-12 2016-07-06 中兴通讯股份有限公司 一种语音信号的处理方法及终端
WO2016090762A1 (zh) * 2014-12-12 2016-06-16 中兴通讯股份有限公司 一种语音信号的处理方法、终端及计算机存储介质
CN104538043A (zh) * 2015-01-16 2015-04-22 北京邮电大学 一种通话中实时情感提示装置
CN104616666A (zh) * 2015-03-03 2015-05-13 广东小天才科技有限公司 一种基于语音分析改善对话沟通效果的方法及装置
CN104616666B (zh) * 2015-03-03 2018-05-25 广东小天才科技有限公司 一种基于语音分析改善对话沟通效果的方法及装置
CN105244026A (zh) * 2015-08-24 2016-01-13 陈娟 一种语音处理方法及装置
CN105244026B (zh) * 2015-08-24 2019-09-20 北京意匠文枢科技有限公司 一种语音处理方法及装置
CN105261362A (zh) * 2015-09-07 2016-01-20 科大讯飞股份有限公司 一种通话语音监测方法及系统
CN106572067A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 语音流传送的方法及系统
CN106572067B (zh) * 2015-10-12 2020-05-12 阿里巴巴集团控股有限公司 语音流传送的方法及系统
CN105448300A (zh) * 2015-11-12 2016-03-30 小米科技有限责任公司 用于通话的方法及装置
CN105681546A (zh) * 2015-12-30 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种语音处理的方法、装置以及终端
WO2017113974A1 (zh) * 2015-12-30 2017-07-06 宇龙计算机通信科技(深圳)有限公司 一种语音处理的方法、装置以及终端
CN106992013A (zh) * 2016-01-20 2017-07-28 哈曼国际工业有限公司 语音情感修改
CN106992013B (zh) * 2016-01-20 2023-09-19 哈曼国际工业有限公司 语音情感修改
CN106992005A (zh) * 2017-03-16 2017-07-28 维沃移动通信有限公司 一种语音输入方法及移动终端
CN109426411A (zh) * 2017-08-21 2019-03-05 松下知识产权经营株式会社 信息处理方法、信息处理装置以及信息处理程序
CN107886963A (zh) * 2017-11-03 2018-04-06 珠海格力电器股份有限公司 一种语音处理的方法、装置及电子设备
CN107886963B (zh) * 2017-11-03 2019-10-11 珠海格力电器股份有限公司 一种语音处理的方法、装置及电子设备
CN108494952A (zh) * 2018-03-05 2018-09-04 广东欧珀移动通信有限公司 语音通话处理方法及相关设备
CN108494952B (zh) * 2018-03-05 2021-07-09 Oppo广东移动通信有限公司 语音通话处理方法及相关设备
CN110782888A (zh) * 2018-07-27 2020-02-11 国际商业机器公司 用于改变感知认知状态的语音语气控制系统
CN109274819A (zh) * 2018-09-13 2019-01-25 广东小天才科技有限公司 通话时用户情绪调整方法、装置、移动终端及存储介质
CN109977411B (zh) * 2019-03-28 2022-03-25 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN109977411A (zh) * 2019-03-28 2019-07-05 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN109951607A (zh) * 2019-03-29 2019-06-28 努比亚技术有限公司 一种内容处理方法、终端及计算机可读存储介质
CN113646838A (zh) * 2019-04-05 2021-11-12 华为技术有限公司 在视频聊天过程中提供情绪修改的方法和系统
CN113646838B (zh) * 2019-04-05 2022-10-11 华为技术有限公司 在视频聊天过程中提供情绪修改的方法和系统
CN110138654A (zh) * 2019-06-06 2019-08-16 北京百度网讯科技有限公司 用于处理语音的方法和装置
CN112860213A (zh) * 2021-03-09 2021-05-28 腾讯科技(深圳)有限公司 音频的处理方法、存储介质及电子设备
CN112860213B (zh) * 2021-03-09 2023-08-25 腾讯科技(深圳)有限公司 音频的处理方法和装置、存储介质及电子设备

Also Published As

Publication number Publication date
EP2928164A1 (en) 2015-10-07
CN103903627B (zh) 2018-06-19
EP2928164A4 (en) 2015-12-30
JP6113302B2 (ja) 2017-04-12
WO2013182118A1 (zh) 2013-12-12
JP2016507772A (ja) 2016-03-10
US20160196836A1 (en) 2016-07-07

Similar Documents

Publication Publication Date Title
CN103903627A (zh) 一种语音数据的传输方法及装置
CN105869626B (zh) 一种语速自动调节的方法及终端
CN108922538B (zh) 会议信息记录方法、装置、计算机设备及存储介质
US8914294B2 (en) System and method of providing an automated data-collection in spoken dialog systems
CN102254553B (zh) 语音音节时长的自动归一化
WO2021051506A1 (zh) 语音交互方法、装置、计算机设备及存储介质
JP3173001B2 (ja) データ整理ワード・テンプレートを使用する音声認識システムにおけるワード認識
CN102903361A (zh) 一种通话即时翻译系统和方法
CN108833722A (zh) 语音识别方法、装置、计算机设备及存储介质
JPH10507536A (ja) 言語認識
CN104766608A (zh) 一种语音控制方法及装置
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
EP1280137B1 (en) Method for speaker identification
CN107910004A (zh) 语音翻译处理方法及装置
CN106981289A (zh) 一种识别模型训练方法及系统以及智能终端
JP2020071676A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
CN103716467B (zh) 一种手机系统参数的调整方法及系统
CN113488026A (zh) 基于语用信息的语音理解模型生成方法和智能语音交互方法
CN112349266B (zh) 一种语音编辑方法及相关设备
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
Mandel et al. Audio super-resolution using concatenative resynthesis
CN109616116B (zh) 通话系统及其通话方法
CN107886940A (zh) 语音翻译处理方法及装置
JP2004252085A (ja) 音声変換システム及び音声変換プログラム
CN113936660B (zh) 具有多个语音理解引擎的智能语音理解系统和交互方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant