CN110880330A

CN110880330A - 音频转换方法及终端设备

Info

Publication number: CN110880330A
Application number: CN201911033600.7A
Authority: CN
Inventors: 刘秋菊
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-03-13

Abstract

本发明实施例提供一种音频转换方法及终端设备，应用于通信技术领域，以解决相关技术中由于用户操作不及时而导致遗漏重要通话内容的问题。该方法包括：获取通话过程中第一通话语音的目标语音情感特征；在目标语音情感特征与预定语音情感特征匹配的情况下，保存通话过程中的第二通话语音，并对第二通话语音进行语义分析，得到第二通话语音的音频文本；其中，第二通话语音为：目标通话时间之后的通话音频，目标通话时间为第一通话语音之前的预定时间。

Description

音频转换方法及终端设备

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种音频转换方法及终端设备。

背景技术

随着终端设备技术的发展，用户使用终端设备的频率越来越高，当用户使用终端设备进行通话时，需要对重要信息进行实时记录。

在相关技术中，当用户在通话过程中想要记录通话过程中的重要信息，则需要用户在通话过程中手动开启录音功能，从而通过保存通话录音，使得用户可以在通话结束后，通过反复播放通话录音的录音内容，来获取通话录音中的重要信息。

然而，当用户在通话过程中手动开启录音功能时，很可能由于用户操作不及时，而导致未能及时对重要通话内容进行录音，从而遗漏重要通话内容。

发明内容

本发明实施例提供一种音频转换方法及终端设备，以解决相关技术中由于用户操作不及时而导致遗漏重要通话内容的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本发明实施例提供一种音频转换方法，该方法包括：获取通话过程中第一通话语音的目标语音情感特征；在目标语音情感特征与预定语音情感特征匹配的情况下，保存该通话过程中的第二通话语音，并对第二通话语音进行语义分析，得到第二通话语音的音频文本；其中，上述第二通话语音为：目标通话时间之后的通话音频，该目标通话时间为第一通话语音之前的预定时间。

第二方面，本发明实施例还提供了一种终端设备，该终端设备包括：获取模块，用于获取通话过程中第一通话语音的目标语音情感特征；存储模块，用于在上述获取模块获取的上述目标语音情感特征与预定语音情感特征匹配的情况下，保存通话过程中的第二通话语音；分析模块，用于对上述存储模块存储的上述第二通话语音进行语义分析，得到上述第二通话语音的音频文本；其中，上述第二通话语音为：目标通话时间之后的通话音频，目标通话时间为上述第一通话语音之前的预定时间。

第三方面，本发明实施例提供了一种终端设备，包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序，该计算机程序被该处理器执行时实现如第一方面的音频转换方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如第一方面的音频转换的方法的步骤。

在本发明实施例中，由于语音的语音情感特征能够表征发出该语音的用户的情感变化，且用户情感发生变化的时刻之前的一定时间内通常会表述重要事件，因此，本发明实施例中终端设备通过检测用户通话过程中第一通话语音的目标语音情感特征是否与预定语音情感特征匹配，来确定第二通话语音是否为该通话过程中的重要通话语音，上述第二通话语音为在第一通话语音之前的预定时间之后的通话音频。因此，当终端设备检测到用户情感发生变化时，无需人工手动操作，便可自动保存第二通话语音，同时对第二通话语音进行语义分析，最终得到第二通话语音的音频文本，使得用户可以通过该音频文本或该第二通话语音直接了解该第二通话语音中陈述的重要通话内容，从而避免用户遗漏重要通话内容。

附图说明

图1为本发明实施例提供的一种可能的安卓操作系统的架构示意图；

图2为本发明实施例提供的一种音频转换的方法流程示意图之一；

图3为本发明实施例提供的一种音频转换的方法流程示意图之二；

图4为本发明实施例提供的一种终端设备的结构示意图；

图5为本发明实施例提供的终端的硬件示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本文中的“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

需要说明的是，本文中的“多个”是指两个或多于两个。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

需要说明的是，为了便于清楚描述本发明实施例的技术方案，在本发明实施例中，采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。例如，第一通话语音和第二通话语音是用于区别不同的通话语音，而不是用于描述通话语音的特定顺序。

本发明实施例提供的音频转换方法的执行主体可以为上述的终端设备(包括移动终端设备和非移动终端设备)，也可以为该终端设备中能够实现该音频转换方法的功能模块和/或功能实体，具体的可以根据实际使用需求确定，本发明实施例不作限定。下面以终端设备为例，对本发明实施例提供的音频转换方法进行示例性的说明。

本发明实施例中的终端设备可以为移动终端设备，也可以为非移动终端设备。移动终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等；非移动终端设备可以为个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等；本发明实施例不作具体限定。

本发明实施例中的终端设备可以为具有操作系统的终端设备。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本发明实施例不作具体限定。

下面以安卓操作系统为例，介绍一下本发明实施例提供的音频转换方法所应用的软件环境。

如图1所示，为本发明实施例提供的一种可能的安卓操作系统的架构示意图。在图1中，安卓操作系统的架构包括4层，分别为：应用程序层、应用程序框架层、系统运行库层和内核层(具体可以为Linux内核层)。

其中，应用程序层包括安卓操作系统中的各个应用程序(包括系统应用程序和第三方应用程序)。

应用程序框架层是应用程序的框架，开发人员可以在遵守应用程序的框架的开发原则的情况下，基于应用程序框架层开发一些应用程序。

系统运行库层包括库(也称为系统库)和安卓操作系统运行环境。库主要为安卓操作系统提供其所需的各类资源。安卓操作系统运行环境用于为安卓操作系统提供软件环境。

内核层是安卓操作系统的操作系统层，属于安卓操作系统软件层次的最底层。内核层基于Linux内核为安卓操作系统提供核心系统服务和与硬件相关的驱动程序。

以安卓操作系统为例，本发明实施例中，开发人员可以基于上述如图1所示的安卓操作系统的系统架构，开发实现本发明实施例提供的音频转换方法的软件程序，从而使得该音频转换方法可以基于如图1所示的安卓操作系统运行。即处理器或者终端设备可以通过在安卓操作系统中运行该软件程序实现本发明实施例提供的音频转换方法。

下面结合图2所示的音频转换方法流程图对本发明实施例的音频转换方法进行说明，图2为本发明实施例提供的一种音频转换方法流程示意图，包括步骤201和步骤202：

步骤201：终端设备获取通话过程中第一通话语音的目标语音情感特征。

在本发明实施例中，上述的第一通话语音可以为该通话过程中的全部通话语音，也可以为该通话过程中的某个时段的通话语音，本发明实施例对此不作限定。

在本发明实施例中，在语音通话过程中，终端设备可以实时监听用户的通话语音，也可以按照第一预定时间间隔监听用户的通话语音，本发明实施例对此不作限定。在终端设备监听用户的通话语音时，该终端设备可以实时检测当前通话语音的语音情感特征，也可以按照第二预定时间间隔检测当前通话语音的语音情感特征，本发明实施例对此不作限定。

步骤202：在目标语音情感特征与预定语音情感特征匹配的情况下，终端设备保存通话过程中的第二通话语音，并对第二通话语音进行语义分析，得到第二通话语音的音频文本。

在本发明实施例中，上述的第二通话语音为：目标通话时间之后的通话音频，上述目标通话时间为第一通话语音之前的预定时间。

可选的，在本发明实施例中，上述目标语音情感特征用于表征发出上述第一通话语音的通话用户的用户情绪。

示例性的，上述的目标语音情感特征包括以下至少一项：第一通话语音中用于表征语音音调的音频特征，用于表征语音语速的音频特征，用于表征语音节奏的音频特征，用于表征语音音量的音频特征。一般的，语音的音调、音量、节奏、语速等语音特征能够反映出发出该语音的用户的个人情感/情绪。

示例性的，用户在生气愤怒时说话声音变大，音调变高，语速不变或偏快；用户在担忧时说话语速变慢，音调降低，声音会变小；用户在高兴时说话声音会抑扬顿挫，语速轻快，声音大小保持平稳；用户在情感/情绪偏中性时，说话声音平稳，语速不变；音调保持不变；用户在紧张激动时，语速会较快，声音较小，节奏混乱。因此，通常情况下，当用户以中性情感/情绪或高兴的情感/情绪开始对话时，终端设备可以通过对该用户的语音语调进行检测，来判断该用户情感变化走向，进而使得该终端设备可以以检测到的用户情绪变化的时刻为依据记录语音中关键事件。

可选的，在本发明实施例中，上述预定语音情感特征用于表征用户特定情绪的语音情感特征。示例性的，上述的预定语音情感特征可以为终端设备或预定数据库中预置的至少一个语音情感特征，一个预定语音情感特征对应一种用户情感。

可选的，在本发明实施例中，上述目标语音情感特征与预定语音情感特征匹配是指：该目标语音情感特征与预定语音情感特征之间的相似度大于或等于预定阈值(例如80％)。

示例性的，终端设备在获取到第一通话语音的目标语音情感特征后，可以以该目标语音情感特征为索引，在语音情感特征库(例如，FAU AIBO儿童情感数据库)中，查找是否存在与该目标语音情感特征相匹配的预定语音情感特征。其中，上述的语音情感特征库中包括至少一个预定语音情感特征。

可选的，在本发明实施例中，上述第一通话语音包括至少一个第一语音情感特征，上述第一通话语音包括至少一个通话时刻，上述至少一个第一语音情感特征中的每个第一语音情感特征对应一个通话时刻，上述至少一个第一语音情感特征包括上述目标语音情感特征；上述目标通话时间为上述目标语音情感特征对应目标通话时刻之前的预定时间。

举例说明，假设第一通话语音包括3个通话时刻(如，T1、T2、T3)，分别提取每个通话时刻对应的语音情感特征，如，T1时刻对应的语音情感特征为特征1，T2时刻对应的语音情感特征为特征2，T3时刻对应的语音情感特征为特征3。终端设备在获取到特征1、特征2、特征3后，将该特征1、特征2、特征3与预定语音情感特征进行匹配，若特征2与该预定语音情感特征匹配，则将特征2对应的时刻T2作为上述目标通话时刻。即终端设备采集时刻T2之前的预定时间之后的通话语音。

可选的，在本发明实施例中，上述的第二通话语音的音频文本包括以下至少一项：目标事件的事件信息，对端通话用户的身份信息。

进一步可选的，在本发明实施例中，上述的目标事件的事件信息包括以下至少一项：目标事件的关键字，目标事件的事件发生时间，目标事件中对端通话用户的陈述内容(例如，对端通话用户对目标事件的意见、想法、建议、答复)。

可选的，在本发明实施例中，当终端设备获取到第二通话语音的音频文本后，终端设备以该音频文本中的关键字为索引进行相关搜索，并在第一界面中展示搜索结果。例如，假设某一通话语音的音频文本中记录对端通话用户家中停电，由于需要快速恢复家中供电，终端设备可以将通讯录中存储的包括“电工”的联系人信息显示在第一界面中，供用户参考。

本发明实施例提供的音频转换方法，由于语音的语音情感特征能够表征发出该语音的用户的情感变化，且用户情感发生变化的时刻之前的一定时间内通常会表述重要事件，因此，本发明实施例中终端设备通过检测用户通话过程中第一通话语音的目标语音情感特征是否与预定语音情感特征匹配，来确定第二通话语音是否为该通话过程中的重要通话语音，上述第二通话语音为在第一通话语音之前的预定时间之后的通话音频。因此，当终端设备检测到用户情感发生变化时，无需人工手动操作，便可自动保存第二通话语音，同时对第二通话语音进行语义分析，最终得到第二通话语音的音频文本，使得用户可以通过该音频文本或该第二通话语音直接了解该第二通话语音中陈述的重要通话内容，从而避免用户遗漏重要通话内容。

可选的，在本发明实施例中，在上述的第二通话语音的音频文本包括目标事件的事件信息的情况下，如图3所示，在上述步骤202之后，该音频转换方法还包括如下步骤：

步骤A1：终端设备根据上述事件信息，生成上述目标事件的事件描述文本。

步骤A2：终端设备在第一界面上显示目标事件的事件描述文本。

示例性的，终端设备可以在得到第二通话语音的音频文本之后，直接基于该第二通话语音的音频文本为该目标事件生成相应的事件描述文本，并显示在第一界面上。

示例性的，终端设备在得到第二通话语音的音频文本后，当终端设备接收到用户的第一输入，则响应于该第一输入，基于该第二通话语音的音频文本为该目标事件生成相应的事件描述文本，并在第一界面上显示该目标事件的事件描述文本。

在一种示例中，上述的第一输入可以包括：用户对特定界面的输入，具体可以按照实际需求设定，本发明实施例对此不作限制。例如，上述特定界面为该音频文本的文本界面，上述用户对特定界面的输入可以包括：用户对该音频文本的文本界面中第一控件的输入。其中，上述的第一控件用于触发终端设备在第一界面上显示目标事件的事件描述文本。

进一步可选的，在本发明实施例中，在上述的第二通话语音的音频文本包括目标事件的事件信息的情况下，如图3所示，在上述步骤A1可以包括如下步骤：

步骤B1：终端设备获取上述第二通话语音中与所述终端设备用户进行通话的对端通话用户的身份信息。

步骤B2：终端设备根据上述目标事件的事件信息和上述对端通话用户的身份信息，生成上述目标事件的事件描述文本。

示例性的，终端设备可以以对端通话用户的联系人电话和/或联系人姓名为索引，通过终端设备保存的通讯录或者通讯软件中所保存的联系人信息，自动获取上述对端通话用户的身份信息。其中，联系人信息至少包括如下一项：联系人姓名，联系人备注、联系人职位，联系人职称，联系人与用户的关系等。

示例性的，当终端设备无法通过终端设备保存的通讯录或者通讯软件中所保存的联系人信息中获取上述对端通话用户的身份信息时，则终端设备从该第二通话语音的音频文本中获取对端通话用户的身份信息。

示例性的，上述目标事件的事件描述文本包括以下至少一项：目标事件的关键字，目标事件的事件发生时间，目标事件中对端通话用户的陈述内容(例如，对端通话用户对目标事件的意见、想法、建议、答复)。

这样，终端设备可以基于获取到的对端通话用户的身份信息以及事件信息形成目标事件的事件描述文本，使得用户可以直接得到第二通话语音中所陈述内容的缩略版本，便于用户快速了解第二通话语音中的关键信息，大大节约用户的时间，提高用户的工作和生活效率。

可选的，在本发明实施例中，当终端设备获取到M(M为大于1的正整数)个不同对端通话用户的通话语音的音频文本后，终端设备可以为上述M个对端通话用户进行身份紧急重要度排序，也可以确定M个对端通话用户对应的X个事件描述文本中每个事件的重要程度。

示例性的，终端设备可以按照M个对端通话用户的身份紧急重要度排序，确定该M个对端通话用户对应的X个事件描述文本中每个事件描述文本的优先级。

示例性的，终端设备在为上述M个对端通话用户进行身份紧急重要度排序时，可以按照对端通话用户的身份信息对上述M个对端通话用户进行身份紧急重要度排序。其中，上述的对端通话用户的身份信息包括但不限于：姓名、备注、职位、职称、与用户的关系等。

例1：终端设备可以按照与对端通话用户的职位对M个对端通话用户进行排序。如，职位优先级高低可以为：上级领导＞直接领导＞业务相关人。

例2：终端设备可以按照对端通话用户与用户的关系对M个对端通话用户进行排序。如，对端通话用户与终端设备用户的关系优先级的高低可以为：亲属＞朋友＞同事。

示例性的，终端设备可以按照上述X个事件描述文本中每个事件描述文本的文本优先级，为对应的事件设置相应的提醒策略，来向用户提醒相应事件。

这样，终端设备可以通过对对端通话用户的身份紧急重要度进行排序，来为相应的事件设置提醒策略，从而提醒用户及时处理重要事件，避免用户遗漏处理重要事件。

图4为本发明实施例提供的一种音频转换的终端设备的结构示意图，如图4所示，该终端设备600包括：获取模块601、存储模块602和分析模块603，其中：

获取模块601，用于获取通话过程中第一通话语音的目标语音情感特征。

存储模块602，用于在上述获取模块601获取的上述目标语音情感特征与预定语音情感特征匹配的情况下，保存上述通话过程中的第二通话语音。

分析模块603，用于对上述存储模块602存储的上述第二通话语音进行语义分析，得到上述第二通话语音的音频文本。

其中，上述第二通话语音为：目标通话时间之后的通话音频，上述目标通话时间为上述第一通话语音之前的预定时间。

可选的，在本发明实施例中，上述目标语音情感特征用于表征发出该第一通话语音的通话用户的用户情绪。

可选的，在本发明实施例中，上述第一通话语音包括至少一个第一语音情感特征，所述至少一个第一语音情感特征中的每个第一语音情感特征对应一个通话时刻，上述至少一个第一语音情感特征包括上述目标语音情感特征；上述目标通话时间为上述目标语音情感特征对应目标通话时刻之前的预定时间。

可选的，在本发明实施例中，如图4所示，上述终端设备600还包括显示模块604和生成模块605，其中：生成模块605，用于根据事件信息，生成上述目标事件的事件描述文本；显示模块604，用于在第一界面上显示上述目标事件的事件描述文本；其中，上述音频文本包括目标事件的事件信息。

可选的，在本发明实施例中，如图4所示，上述生成模块605，具体用于：终端设备获取上述第二通话语音中与所述终端设备用户进行通话的对端通话用户的身份信息；终端设备根据上述目标事件的事件信息上述对端通话用户的身份信息，生成上述目标事件的事件描述文本。

本发明实施例提供的终端设备，能够实现上述方法实施例中终端设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例提供的终端设备，由于语音的语音情感特征能够表征发出该语音的用户的情感变化，且用户情感发生变化的时刻之前的一定时间内通常会表述重要事件，因此，本发明实施例中终端设备通过检测用户通话过程中第一通话语音的目标语音情感特征是否与预定语音情感特征匹配，来确定第二通话语音是否为该通话过程中的重要通话语音，上述第二通话语音为在第一通话语音之前的预定时间之后的通话音频通常为重要通话语音。因此，当终端设备检测到用户情感发生变化时，无需人工手动操作，便可自动保存第二通话语音，同时对第二通话语音进行语义分析，最终得到第二通话语音的音频文本，使得用户可以通过该音频文本或该第二通话语音直接了解该第二通话语音中陈述的重要通话内容，从而避免用户遗漏重要通话内容。

图5为实现本发明各个实施例的一种终端设备的硬件结构示意图，该终端设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图5中示出的终端设备100的结构并不构成对终端设备的限定，终端设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备100包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、以及计步器等。

其中，处理器110，用于获取通话过程中第一通话语音的目标语音情感特征；存储器109，用于在上述处理器110获取的上述目标语音情感特征与预定语音情感特征匹配的情况下，保存上述通话过程中的第二通话语音；处理器110，用于对上述存储器109存储的上述第二通话语音进行语义分析，得到上述第二通话语音的音频文本；其中，上述第二通话语音为：目标通话时间之后的通话音频，上述目标通话时间为上述第一通话语音之前的预定时间。

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信系统与网络和其他设备通信。

终端设备100通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与终端设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

终端设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在终端设备100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与终端设备100的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1061上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图5中，触控面板1071与显示面板1061是作为两个独立的部件来实现终端设备100的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现终端设备100的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与终端设备100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备100内的一个或多个元件或者可以用于在终端设备100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是终端设备100的控制中心，利用各种接口和线路连接整个终端设备100的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行终端设备100的各种功能和处理数据，从而对终端设备100进行整体监控。处理器110可包括一个或多个处理单元；可选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

终端设备100还可以包括给各个部件供电的电源111(比如电池)，可选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备100包括一些未示出的功能模块，在此不再赘述。

可选的，本发明实施例还提供一种终端设备，包括处理器，存储器，存储在存储器上并可在上述处理器110上运行的计算机程序，该计算机程序被处理器执行时实现上述音频转换方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频转换方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，上述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例上述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频转换方法，应用于终端设备，其特征在于，所述方法包括：

获取通话过程中第一通话语音的目标语音情感特征；

在所述目标语音情感特征与预定语音情感特征匹配的情况下，保存所述通话过程中的第二通话语音，并对所述第二通话语音进行语义分析，得到所述第二通话语音的音频文本；

其中，所述第二通话语音为：目标通话时间之后的通话音频，所述目标通话时间为所述第一通话语音之前的预定时间。

2.根据权利要求1所述的方法，其特征在于，所述目标语音情感特征用于表征发出所述第一通话语音的通话用户的用户情绪。

3.根据权利要求1所述的方法，其特征在于，所述音频文本包括目标事件的事件信息；

所述对所述第二通话语音进行语义分析，得到所述第二通话语音的音频文本之后，所述方法还包括：

根据所述事件信息，生成所述目标事件的事件描述文本；

在第一界面上显示所述目标事件的事件描述文本。

4.根据权利要求3所述的方法，其特征在于，所述根据所述事件信息，生成所述目标事件的事件描述文本，包括：

获取所述第二通话语音中与终端设备用户进行通话的对端通话用户的身份信息；

根据所述事件信息和所述对端通话用户的身份信息，生成所述目标事件的事件描述文本。

5.根据权利要求1所述的方法，其特征在于，所述第一通话语音包括至少一个第一语音情感特征，所述至少一个第一语音情感特征中的每个第一语音情感特征对应一个通话时刻，所述至少一个第一语音情感特征包括所述目标语音情感特征；

所述目标通话时间为所述目标语音情感特征对应目标通话时刻之前的预定时间。

6.一种终端设备，其特征在于，所述终端设备包括：

获取模块，用于获取通话过程中第一通话语音的目标语音情感特征；

存储模块，用于在所述获取模块获取的所述目标语音情感特征与预定语音情感特征匹配的情况下，保存所述通话过程中的第二通话语音；

分析模块，用于对所述存储模块存储的所述第二通话语音进行语义分析，得到所述第二通话语音的音频文本；

7.根据权利要求6所述的终端设备，其特征在于，所述目标语音情感特征用于表征发出所述第一通话语音的通话用户的用户情绪。

8.根据权利要求6所述的终端设备，其特征在于，所述音频文本包括目标事件的事件信息；

所述终端设备还包括：

生成模块，用于根据所述事件信息，生成所述目标事件的事件描述文本；

显示模块，用于在第一界面上显示所述目标事件的事件描述文本。

9.根据权利要求8所述的终端设备，其特征在于，所述生成模块，具体用于：

10.根据权利要求6所述的终端设备，其特征在于，所述第一通话语音包括至少一个第一语音情感特征，所述至少一个第一语音情感特征中的每个第一语音情感特征对应一个通话时刻，所述至少一个第一语音情感特征包括所述目标语音情感特征；

11.一种终端设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的音频转换方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的音频转换方法的步骤。