CN107277207B

CN107277207B - 自适应通话方法、装置、移动终端及存储介质

Info

Publication number: CN107277207B
Application number: CN201710576451.3A
Authority: CN
Inventors: 杨宗业
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2019-08-16
Anticipated expiration: 2037-07-14
Also published as: CN107277207A

Abstract

本发明实施例公开了一种自适应通话方法，应用于移动终端技术领域，该方法包括：获取通话对方的声音数据，并识别声音数据中的通话语境参数和环境声音参数，根据通话语境参数，确认通话对方的通话语境，以及，根据环境声音参数，确认通话对方的声音环境，根据通话语境和声音环境，选取语音适配参数调节通话本方的语音信号并发送调节后的语音信号。本发明实施例还公开了一种自适应通话装置、移动终端和计算机可读存储介质，可提高通话质量。

Description

自适应通话方法、装置、移动终端及存储介质

技术领域

本发明属于移动终端技术领域，尤其涉及一种自适应通话方法、装置、移动终端及存储介质。

背景技术

日常生活中，人们经常使用移动终端进行通话。通话场景在户外时，通话质量显得尤为重要。现有技术中，在通话过程中，移动终端检测是否接收通话对端移动终端发送的语音帧的编码数据。若未接收到，则通过舒适噪声生成算法(CNG，comfort noise generator)根据预设噪声生成背景噪声，以此来调整输出的语音信号，提高通话清晰度，但是该技术仅消除稳态的环境噪声，而对于复杂环境下的语音清晰度无效。

发明内容

本发明提供一种自适应通话方法、装置、移动终端及存储介质，用以通过综合通话对方语境和环境的因素，提高通话语音质量。

本发明实施例第一方面提供了一种自适应通话方法，包括：

获取通话对方的声音数据，并识别所述声音数据中的通话语境参数和环境声音参数；

根据所述通话语境参数，确认通话对方的通话语境，以及，根据所述环境声音参数，确认通话对方的声音环境；

根据所述通话语境和所述声音环境，选取语音适配参数调节通话本方的语音信号并发送调节后的语音信号。

本发明实施例第二方面提供了一种自适应通话装置，包括：

获取模块，用于获取通话对方的声音数据；

参数识别模块，用于识别所述声音数据中的通话语境参数和环境声音参数；

第一确认模块，用于根据所述通话语境参数，确认通话对方的通话语境；

第二确认模块，用于根据所述环境声音参数，确认通话对方的声音环境；

调节模块，用于根据所述通话语境和所述声音环境，选取语音适配参数调节通话本方的语音信号；

发送模块，用于发送调节后的语音信号。

本发明实施例第三方面提供了一种移动终端，包括：

存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本发明实施例第一方面提供的自适应通话方法。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例第一方面提供的自适应通话方法。

从上述本发明实施例可知，本发明提供的自适应通话方法、装置、移动终端及存储介质，识别通话对方的声音数据中的通话语境参数和环境声音参数，并根据通话语境参数确认通话对方的通话语境，根据环境声音参数确认通话对方的声音环境，选取与通话语境和声音环境相适应的语音适配参数，来调节通话本方的语音信号，综合考虑了通话语境和声音环境，结合通话对方的通话体验和环境声音，自动选取对应的语音适配参数调节通话本方的语音，提高通话质量，使得通话对方能够获得其当前环境下最佳可懂度的语音信号。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1是本发明第一实施例提供的自适应通话方法的流程示意图；

图2是本发明第二实施例提供的自适应通话方法的流程示意图；

图3是本发明第五实施例提供的自适应通话装置的结构示意图；

图4是本发明第六实施例提供的自适应通话装置的结构示意图；

图5示出了一种移动终端的硬件结构图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的自适应通话方法，适用于双方通话场景中，根据通话对方的声音数据，分析对方的语境和环境，选取语音适配参数调节通话本方的语音信号并将调节后的语音信号发送给对方。

移动终端是指具备通话功能的手持可移动电子设备，包括手机、电话机、对讲机等。

请参阅图1，图1为本发明第一实施例提供的自适应通话方法的实现流程示意图，该方法包括以下步骤：

S101、获取通话对方的声音数据，并识别该声音数据中的通话语境参数和环境声音参数；

当通话双方通过移动终端通话时，本端的移动终端将通话的声音数据发给服务器，由服务器转发给对端的移动终端。移动终端获取到通话对方的声音数据时，识别该声音数据中的通话语境参数，以及，识别该声音数据中的环境声音参数。

其中，通话语境是指通话对方的通话体验和通话场景。

通话语境参数是指通话内容中与通话对方的通话语境相关的词语。

环境是指通话对方所处的周围环境。

环境声音参数是指通话对方所处的周围环境中声音的强度，即能够影响到通话对方收听通话声音的参数。当声音强度过大时，成为噪音，对用户收听通话声音影响较大。

S102、根据该通话语境参数，确认通话对方的通话语境，以及，根据该环境声音参数，确认通话对方的声音环境；

根据通话内容中与通话对方的通话语境相关的词语，确认通话对方的通话语境，即确认通话对方的通话体验的优劣。

根据通话对方所处的周围环境中声音的强度，确认通话对方的声音环境。

S103、根据该通话语境和该声音环境，选取语音适配参数调节通话本方的语音信号并发送调节后的语音信号。

确认了通话对方的通话体验的优劣以及声音环境，可以根据该通话语境和该声音环境，选取语音适配参数对本端的移动终端获取的通话本方的语音信号进行调节。

具体地，语音适配参数可包括：频响和/或音量。

调节本端的移动终端获取的通话本方的语音信号，改变该语音信号的频响(Frequency Response)和音量，或者，只改变频响或音量，以使得通话对方获取到适应该通话语境和该声音环境的语音信号，通话本方的讲话内容更清晰的被通话对方获取，在双方之间达到最佳的通话质量。

通话本方是指与通话对方相对的一方，是使用本端的移动终端的一方。

本发明实施例中，识别通话对方的声音数据中的通话语境参数和环境声音参数，并根据通话语境参数确认通话对方的通话语境，根据环境声音参数确认通话对方的声音环境，选取与通话语境和声音环境相适应的语音适配参数，来调节通话本方的语音信号，综合考虑了通话语境和声音环境，结合通话对方的通话体验和环境声音，自动选取对应的语音适配参数调节通话本方的语音，提高通话质量，使得通话对方能够获得其当前环境下最佳可懂度的语音信号。

请参阅图2，图2为本发明第二实施例中的自适应通话方法的流程示意图，该方法包括以下步骤：

S201、获取通话对方的声音数据，解析该声音数据得到语音帧并识别该声音数据中的关键词，以及，解析该声音数据得到非语音帧并获得该声音数据中环境的声响值；

移动终端获取到通话对方的声音数据时，解析该声音数据，若该声音数据为语音帧，则识别该声音数据中的主关键词和辅关键词。该主关键词表示通话对方的通话体验，也即对通话质量的反馈，通常为负面体验或负面反馈，例如“听不清”、“声音小”、“吵”等。该辅关键词表示通话对方的通话场景，例如“在开会”，“在超市”，“在游乐场”等。

解析该声音数据，得到该声音数据中的非语音帧，并根据非语音帧，获得给声音数据中环境的声响值。

S202、确认通话对方的通话语境，以及，确认通话对方的声音环境；

一方面，根据一个主关键词或一个辅关键词，或多个主关键词的组合，或多个辅关键词的组合，或一个或多个主关键词，与，一个或多个辅关键词的组合，判断通话对方的的通话语境。

具体地，将识别出的主关键词和/或辅关键词与预先建立的数据库中的主关键词和/或辅关键词分别对应地进行匹配，按照预置的匹配规则确认匹配到的目标关键词。将该目标关键词在该数据库中对应的通话语境，作为通话对方的通话语境。在该数据库中，保存有多条关键词与通话语境的对应关系的记录，其中的关键词包含主关键词和辅关键词。

进一步地，该预置的匹配规则可以是以识别出的主关键词的匹配度为主，当分别存在与识别出的主关键词和辅关键词都匹配的数据库记录时，将与识别出的主关键词相匹配的主关键词对应的记录作为匹配结果。例如，识别出的主关键词为3个，辅关键词有1个时，在数据库中，有1条记录中的主关键词与识别出的3个主关键词相匹配，另1条记录中的辅关键词与识别出的1个辅关键词相匹配，则将与识别出的主关键词相匹配的主关键词对应的记录作为匹配结果，将该条记录的主关键词确认为与识别出的3个主关键词相匹配的目标关键词。

该预置的匹配规则也可以是以当主关键词的匹配度相同时，将与识别出的辅关键词相匹配的辅关键词对应的记录作为匹配结果，例如，主关键词为2个，辅关键词有1个时，在数据库中，有3条记录中的主关键词与识别出的2个主关键词相匹配，其中1条记录中的辅关键词与识别出的1个辅关键词相匹配，则将与识别出的辅关键词相匹配的辅关键词对应的记录作为匹配结果，将该条记录的主关键词和辅关键词确认为与识别出的2个主关键词和1个辅关键词相匹配的目标关键词。

另一方面，根据通话对方的环境的声响值，确认通话对方的声音环境，声响值越大，说明通话对方的声音环境越嘈杂，需要提高通话的音量，通话对方才有可能听清楚通话内容。在系统中预设声响值与声音环境的对应关系，声响值用分贝表示。例如，20～40分贝对应优质的声音环境；40～60分贝对应普通的声音环境；60分贝以上对应劣质的声音环境。

S203、根据该通话语境和该声音环境，选取语音适配参数调节通话本方的语音信号并发送调节后的语音信号。

具体地，语音适配参数可包括：频响和/或音量。

调节本端的移动终端获取的通话本方的语音信号，改变该语音信号的频响和音量，或者，只改变频响或音量。具体地，当通话语境为预设的通话语境，和/或，声音环境为预设的声音环境时，按照预设规则衰减频响中的低频信号，或者，按照预设数值调高音量。该预设的通话语境是指通话体验差的语境，该预设的声音环境是指环境噪音大的环境，均为对通话质量产生负面影响的境况，改变该语音信号的频响以过滤掉该预设规则规定的低频信号，使高频信号通过，提高通话的清晰度，同时提高该语音信号的音量，或者二者择其一，即，只改变该语音信号的频响，或者只提高该语音信号的音量，以使得通话对方获取到适应该通话语境和该声音环境的语音信号，通话本方的讲话内容更清晰的被通话对方获取，在双方之间达到最佳的通话质量。

需要说明的是，为了简化选取恰当的语音适配参数调节语音信号，可以将通话对方的常用通话信息保存在语音记忆数据库中，常用通话信息中包括通话对方的常见的通话语境和通话环境，每次发生通话时都优先匹配该语音记忆数据库中的数据记录，若发现已记录过的通话对方，则直接获取对应的语音适配参数，对通话本方语音信号进行调节。

具体地，识别通话对方的声纹信息，将该通话对方的声纹信息、声音数据中的关键词和语音适配参数之间的对应关系保存到语音记忆数据库，当获取到新的通话对方的声音数据时，识别新的通话对方的声纹信息、声音数据中的关键词，并在该语音记忆数据库中查询与新的通话对方的声纹信息、声音数据中的关键词对应的语音适配参数，选取查询到的对应的语音适配参数调节通话本方的语音信号，并发送调节后的语音信号。

在该语音记忆数据库中可能会存在多条同一个用户(即通话对方)的数据记录，不同的关键词对应不同的语音适配参数。声纹信息是可唯一标识用户身份的生物特征信息。

请参见图3，图3为本发明第三实施例中自适应通话装置的结构示意图，该自适应通话装置可内置于移动终端中，用于执行上述图1所示实施例中的自适应通话方法，该自适应通话装置包括：获取模块301、参数识别模块302、第一确认模块303、第二确认模块304、调节模块305和发送模块306。

获取模块301，用于获取通话对方的声音数据；

当通话双方通过移动终端通话时，获取模块301获取通话对方的声音数据。

参数识别模块302，用于识别声音数据中的通话语境参数和环境声音参数；

通话语境是指通话对方的通话体验和通话场景。

环境是指通话对方所处的周围环境。

第一确认模块303，用于根据通话语境参数，确认通话对方的通话语境；

第二确认模块304，用于根据环境声音参数，确认通话对方的声音环境；

调节模块305，用于根据通话语境和声音环境，选取语音适配参数调节通话本方的语音信号；

具体地，语音适配参数可包括：频响和/或音量。

调节本端的移动终端获取的通话本方的语音信号，改变该语音信号的频响和音量，或者，只改变频响或音量，以使得通话对方获取到适应该通话语境和该声音环境的语音信号，通话本方的讲话内容更清晰的被通话对方获取，在双方之间达到最佳的通话质量。

发送模块306，用于发送调节后的语音信号。

本实施例未尽之细节，请参阅前述图1、图2所示实施例的描述，此处不再赘述。

请参见图4，图4为本发明第四实施例中自适应通话装置的结构示意图，该自适应通话装置可内置于移动终端，用于执行上述图1～图3所示实施例中的自适应通话方法，该自适应通话装置与图3所示装置的不同之处在于：

进一步地，参数识别模块302包括：

解析子模块3021，用于解析声音数据，得到声音数据中的语音帧；

识别子模块3022，用于根据语音帧识别声音数据中的主关键词和辅关键词，主关键词表示通话对方的通话体验，辅关键词表示通话对方的通话场景。

获取到通话对方的声音数据时，解析该声音数据，若该声音数据为语音帧，则识别该声音数据中的主关键词和辅关键词。该主关键词表示通话对方的通话体验，也即对通话质量的反馈，通常为负面体验或负面反馈，例如“听不清”、“声音小”、“吵”等。该辅关键词表示通话对方的通话场景，例如“在开会”，“在超市”，“在游乐场”等

进一步地，第一确认模块303包括：

匹配子模块3031，用于将识别的主关键词和/或辅关键词，分别与数据库中预设的主关键词和/或辅关键词进行匹配；

确认子模块3032，用于按照预置的匹配规则确认匹配到的目标关键词，并将目标关键词在数据库中对应的通话语境，作为通话对方的通话语境。

根据一个主关键词或一个辅关键词，或多个主关键词的组合，或多个辅关键词的组合，或一个或多个主关键词，与，一个或多个辅关键词的组合，判断通话对方的的通话语境。

进一步地，该预置的匹配规则可以是以识别出的主关键词的匹配度为主，当分别存在与识别出的主关键词和辅关键词都匹配的数据库记录时，将与识别出的主关键词相匹配的主关键词对应的记录作为匹配结果。

该预置的匹配规则也可以是以当主关键词的匹配度相同时，将与识别出的辅关键词相匹配的辅关键词对应的记录作为匹配结果。

进一步地，解析子模块3021，还用于解析声音数据，得到声音数据中的非语音帧。

参数识别模块302还包括：

获得子模块3023，用于根据非语音帧，获得声音数据中环境的声响值。

进一步地，调节模块305，具体用于当通话语境为预设的通话语境，和/或，声音环境为预设的声音环境时，按照预设规则衰减频响中的低频信号，或者，按照预设数值调高音量。

该装置还进一步包括：

声纹识别模块401，用于识别通话对方的声纹信息；

保存模块402，用于将通话对方的声纹信息、声音数据中的关键词和语音适配参数之间的对应关系保存到语音记忆数据库；

声纹识别模块401，还用于当获取到新的通话对方的声音数据时，识别新的通话对方的声纹信息；

识别子模块3022，还用于识别新的通话对方的声音数据中的关键词；

该装置还进一步包括：

查询模块402，用于在语音记忆数据库中查询与新的通话对方的声纹信息、声音数据中的关键词对应的语音适配参数；

调节模块305，还用于选取对应的语音适配参数调节通话本方的语音信号；

发送模块306，还用于发送调节后的语音信号。

本实施例未尽之细节，请参阅前述图1至图3所示实施例的描述，此处不再赘述。

请参阅图5，图5为本发明实施例提供的移动终端硬件结构示意图。

本实施例中所描述的移动终端，包括：

存储器51、处理器52及存储在存储器51上并可在处理器上运行的计算机程序，处理器执行所述程序时实现前述图1～图4所示实施例中描述的自适应通话方法。

进一步地，该移动终端还包括：

至少一个输入设备53；至少一个输出设备54。

上述存储器51、处理器52输入设备53和输出设备54通过总线55连接。

其中，输入设备53具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备54具体可为显示屏。

存储器51可以是高速随机存取记忆体(RAM，Random Access Memory) 存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器51用于存储一组可执行程序代码，处理器52与存储器51耦合。

进一步地，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的移动终端中，该计算机可读存储介质可以是前述图5所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现前述图1～图4所示实施例中描述的自适应通话方法。进一步地，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的自适应通话方法、装置、移动终端和计算机可读存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自适应通话方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述识别所述声音数据中的通话语境参数包括：

解析所述声音数据，得到所述声音数据中的语音帧；

根据所述语音帧识别所述声音数据中的主关键词和辅关键词，所述主关键词表示所述通话对方的通话体验，所述辅关键词表示所述通话对方的通话场景。

3.根据权利要求2所述的方法，其特征在于，所述根据所述通话语境参数，确认通话对方的通话语境，包括：

将识别的主关键词和/或辅关键词，分别与数据库中预设的主关键词和/或辅关键词进行匹配；

按照预置的匹配规则确认匹配到的目标关键词，并将所述目标关键词在所述数据库中对应的通话语境，作为通话对方的通话语境。

4.根据权利要求3所述的方法，其特征在于，所述识别所述声音数据中的环境声音参数包括：

解析所述声音数据，得到所述声音数据中的非语音帧；

根据所述非语音帧，获得所述声音数据中环境的声响值。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述通话语境和所述声音环境，选取语音适配参数调节通话本方的语音信号，包括：

当所述通话语境为预设的通话语境，和/或，所述声音环境为预设的声音环境时，按照预设规则衰减频响中的低频信号，或者，按照预设数值调高音量。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

识别通话对方的声纹信息；

将所述通话对方的声纹信息、声音数据中的关键词和语音适配参数之间的对应关系保存到语音记忆数据库；

当获取到新的通话对方的声音数据时，识别所述新的通话对方的声纹信息、声音数据中的关键词，并在所述语音记忆数据库中查询与所述新的通话对方的声纹信息、声音数据中的关键词对应的语音适配参数；

选取所述对应的语音适配参数调节通话本方的语音信号并发送调节后的语音信号。

7.一种自适应通话装置，其特征在于，所述装置包括：

获取模块，用于获取通话对方的声音数据；

发送模块，用于发送调节后的语音信号。

8.根据权利要求7所述的装置，其特征在于，所述参数识别模块包括：

解析子模块，用于解析所述声音数据，得到所述声音数据中的语音帧；

识别子模块，用于根据所述语音帧识别所述声音数据中的主关键词和辅关键词，所述主关键词表示所述通话对方的通话体验，所述辅关键词表示所述通话对方的通话场景。

9.根据权利要求8所述的装置，其特征在于，所述第一确认模块包括：

匹配子模块，用于将识别的主关键词和/或辅关键词，分别与数据库中预设的主关键词和/或辅关键词进行匹配；

确认子模块，用于按照预置的匹配规则确认匹配到的目标关键词，并将所述目标关键词在所述数据库中对应的通话语境，作为通话对方的通话语境。

10.根据权利要求8或9所述的装置，其特征在于，

所述解析子模块，还用于解析所述声音数据，得到所述声音数据中的非语音帧；

所述参数识别模块还包括：

获得子模块，用于根据所述非语音帧，获得所述声音数据中环境的声响值。

11.根据权利要求10所述的装置，其特征在于，所述调节模块，具体用于当所述通话语境为预设的通话语境，和/或，所述声音环境为预设的声音环境时，按照预设规则衰减频响中的低频信号，或者，按照预设数值调高音量。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

声纹识别模块，用于识别通话对方的声纹信息；

保存模块，用于将所述通话对方的声纹信息、声音数据中的关键词和语音适配参数之间的对应关系保存到语音记忆数据库；

所述声纹识别模块，还用于当获取到新的通话对方的声音数据时，识别所述新的通话对方的声纹信息；

所述识别子模块，还用于识别所述新的通话对方的声音数据中的关键词；

所述装置还包括：

查询模块，用于在所述语音记忆数据库中查询与所述新的通话对方的声纹信息、声音数据中的关键词对应的语音适配参数；

所述调节模块，还用于选取所述对应的语音适配参数调节通话本方的语音信号。

13.一种移动终端，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述的自适应通话方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的自适应通话方法。