CN113066513B

CN113066513B - 语音数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN113066513B
Application number: CN202110315602.6A
Authority: CN
Inventors: 李金旭
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2024-03-19
Anticipated expiration: 2041-03-24
Also published as: CN113066513A

Abstract

本申请实施例提供了一种语音数据处理方法、装置、电子设备及存储介质，涉及电子设备技术领域。该方法包括：获取电子设备的显示内容；若所述显示内容满足监听条件，控制所述电子设备启动监听模式；采集所述电子设备所处环境的语音数据；提取所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。在电子设备的显示内容满足条件时，启动监听模式，通过采集环境语音数据并提取语音数据中满足条件的目标数据并保存，能够使用户更专注于设备当前显示的内容，使用户可以随时回顾设备采集并保存的与用户相关的对话内容，提高沟通效率。

Description

语音数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及电子设备技术领域，更具体地，涉及一种语音数据处理方法、装置、电子设备及存储介质。

背景技术

目前，用户在利用电子设备专注获取信息的场景时，周围的人与用户交谈，经常会出现一心难以二用的现象，要么无法专注于设备内容，需要分心去听周围声音；要么会忽略周围人说话，影响交流体验。

发明内容

本申请提出了一种语音数据处理方法、装置、电子设备及存储介质，以改善上述缺陷。

第一方面，本申请实施例提供了一种语音数据处理方法，应用于电子设备，所述方法包括：获取所述电子设备的显示内容；若所述显示内容满足监听条件，控制所述电子设备启动监听模式；采集所述电子设备所处环境的语音数据；提取所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

第二方面，本申请实施例还提供了一种语音数据处理装置。所述装置包括：获取模块、模式启动模块、语音采集模块和语音处理模块。获取模块，用于获取电子设备的显示内容。模式启动模块，用于若所述显示内容满足监听条件，控制所述电子设备启动监听模式。语音采集模块，用于采集所述电子设备所处环境的语音数据。语音处理模块，用于提取所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

第三方面，本申请实施例还提供了一种电子设备，包括处理器、存储器，所述存储器存储有计算机程序，所述处理器通过调用所述计算机程序执行以下操作：获取所述电子设备的显示内容；若所述显示内容满足监听条件，控制所述电子设备启动监听模式；采集所述电子设备所处环境的语音数据；提取所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法。

本申请实施例提供的语音数据处理方法、装置、电子设备及存储介质，在获取到的电子设备显示内容满足监听条件时，控制电子设备启动监听模式。然后，采集电子设备所处环境的语音数据，并且提取语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。通过上述方法，本申请实施例能够在用户专注于设备当前显示内容的同时，采集并保存与用户相关的周围的对话内容，使用户可以随时回顾对话，提高沟通效率。

本申请实施例的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的应用场景示意图；

图2示出了本申请另一实施例提供的语音数据处理方法的方法流程图；

图3示出了本申请另一实施例提供的应用场景示意图；

图4示出了本申请又一实施例提供的语音数据处理方法的方法流程图；

图5示出了本申请再一实施例提供的语音数据处理方法的方法流程图；

图6示出了本申请再一实施例提供的电子设备的显示界面示意图；

图7示出了本申请一实施例提供的语音数据处理方法的方法流程图；

图8示出了本申请一实施例提供的处理按钮示意图；

图9示出了本申请一实施例提供的电子设备的显示界面示意图；

图10示出了本申请又一实施例提供的语音数据处理方法的方法流程图；

图11示出了本申请又一实施例提供的电子设备的显示界面示意图；

图12示出了本申请一实施例提供的电子设备的交互装置的模块框图；

图13示出了本申请实施例提供的电子设备的结构框图；

图14示出了本申请实施例的用于保存或者携带实现根据本申请实施例的语音数据处理方法的程序代码的计算机可读介质。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，由于手机、智能穿戴设备等电子设备的普及，越来越多用户在生活、娱乐、工作中都离不开电子设备。由此导致用户在使用电子设备观看视频、玩电子游戏时，过于专注当前屏幕展示的内容，而忽略周围人谈话的内容；又或者工作时，用户使用开会软件开会时，恰逢讲到重要内容，周围同事有突发消息要处理与用户对话时，不容易一心二用，通常需要重复确认一遍对话内容。用户利用电子设备专注获取信息的场景下，周围的人与用户交谈，用户要么无法专注于设备内容，分心去听周围声音；要么先暂停当前设备内容，如暂停游戏、暂停视频等，再向周围人询问一遍对话内容；要么忽略掉周围人说话。上述场景时有发生，影响交流体验，严重时可能影响用户与周围人的关系，或减缓工作进度等。

发明人在研究中发现，可以利用电子设备的麦克风等录音设备，将周围人的对话记录下来，待完成当前事项后可直接在设备上回顾对话，而无需分心听周围声音，也无需暂停当前设备内容或者再次询问周围的人。

因此，为了改善上述缺陷，申请实施例提供一种语音数据处理方法、装置、电子设备及存储介质，该方法的执行主体可以是本申请实施例提供的语音数据处理装置，或者集成了该语音数据处理装置的电子设备，其中该语音数据处理装置可以采用硬件或者软件的方式实现。其中，电子设备可以是如平板电脑、游戏主机、电子书阅读器、多媒体播放设备、智能穿戴设备、手机、智能眼镜、智能戒指、PC(Personal Computer，个人计算机)等设备。电子设备内安装有多个应用程序，用户可以使用多个应用程序实现不同的功能、用途。例如，利用视频播放软件观看视频，利用电子游戏软件玩游戏，利用会议软件开线上会议等。

在介绍本申请实施例之前，先介绍下本申请的应用场景，请参考图1，其示出了本申请一实施例提供的应用场景示意图。

本实施例中，用户110正在使用电子设备140，同时对象120与对象130分别与用户110交谈。由于用户110正专注于使用电子设备140，极有可能忽略对象120与对象130的交谈内容。此时，通过获取电子设备140的显示内容，确认所述显示内容满足监听条件，启动监听模式，在监听模式下采集、记录包含对象120及对象130交谈内容的语音数据，并从中提取用户110可能感兴趣的内容或直接对用户110说的话，然后将其存储在电子设备140中或存储在云端设备。其中，所述监听条件可以为电子设备140默认的监听条件，用户110预先设置的条件，或者根据用户数据或用户偏好自动设置的条件，本申请实施例对此不作限制。例如，检测到电子设备140正在运行某款视频播放软件、电子游戏软件或会议软件等，则自动启动监听模式或引导用户110手动启动监听模式，电子设备140开始采集并处理、存储周围的语音数据。

在一些实施例中，电子设备140可以通过声纹识别对象的身份，并分别存储不同对象的交谈内容。例如，可以将对象120的对话内容150存储起来，识别并标识该对话内容150的来源为对象120，将对象130的对话内容160存储起来，识别并标识该对话内容160的来源为对象130，方便用户110后续查看。其中，声纹识别也称为说话人识别，是指通过每个声音具有的独特特征将不同人的声音有效地区分开。在另一些实施例中，采集到对话内容的同时，在电子设备140的屏幕上以文字的形式显示对话内容，例如显示“对象120：今天中午吃什么呀”，表示对象120对用户110的对话内容为“今天中午吃什么呀”。实际应用场景中，与用户110交谈的对象可能仅有一个人，也可能是两个人，或三个人及以上，本实施例对交谈的对象的数量不作限制。

下面结合图1所示的应用场景，对本申请实施例提供的技术方案进行说明。

请参考图2，其示出了本申请另一实施例提供的语音数据处理方法的方法流程图，应用于图1所示的电子设备。该方法包括：S210至S240。

S210：获取电子设备的显示内容。

所述电子设备的显示内容是指电子设备将数据传输至屏幕，由屏幕实时展示的内容，在使用电子设备时，用户通过实时展示的内容获取有效的信息。所述实时展示的内容可以通过电子设备的显示屏显示，也可以通过电子设备外接的显示屏显示，外接显示屏显示的方式包括通过有线连接、无线连接的显示屏，投影或全息投影等展示相应的画面。根据展示内容的不同，电子设备的显示内容可以是视频画面、游戏画面、会议画面，软件启动画面，用户与设备的交互画面等。

获取显示内容的方式，可以与第三方应用程序合作，获取第三方应用程序的运行数据，通过运行数据识别当前显示内容；也可以嵌入应用程序，利用内部接口进行模块间的数据传输，通过模块间传输的数据识别当前显示内容；还可以通过屏幕识别电子设备使用时屏幕显示的内容，直接获取显示内容。除了通过上述方式获取显示内容，还可以通过电子设备操作系统内部状态信息，获取程序运行状态，当检测到程序正在启动，则可以确认当前显示内容为软件启动画面。此外，还可以通过检测用户操作获取电子设备的显示内容，例如检测软件启动操作、视频播放操作、游戏操作、会议开启操作等，确认当前设备的显示内容分别对应为软件启动画面、视频画面、游戏画面、会议画面等，由此获取显示内容。

通过获取电子设备的显示内容，可以实时监测用户当前活动，识别用户的专注程度，根据专注程度确认是否需要启动监听模式，采集周围的环境语音，协助用户将环境语音采集、记录下来，方便用户查看。

S220：若所述显示内容满足监听条件，控制所述电子设备启动监听模式。

当用户专注于电子设备的显示内容时，启动监听模式，电子设备自动采集周围的环境声音。对应地，设置一个监听条件，若用户使用电子设备时显示内容为监听条件指示的内容，则启动监听模式，由此识别得出用户的专注程度高，用户无暇分神关注周围的声音，需要电子设备将环境语音采集、记录下来，方便用户查看。监听条件指示的内容包括需要用户投入集中的注意力或用户经常忘我地专心于此的内容，例如，需要长时间专注观看的视频，需要全神贯注操作的电子游戏，需要全身心投入的在线会议等。用户可以在本实施例提供的条件设置界面根据自己的使用习惯设置监听条件，其中，用户设置的监听条件可以包含一项或多项条件，对应地，所述显示内容只要满足其中一项条件或同时满足其中多项条件，均可确认所述显示内容满足监听条件。

更进一步地，所述电子设备可以记录、保存用户历史数据、用户偏好，在条件设置界面根据用户历史数据、用户偏好，默认勾选对应的选项并等待用户确认或提供可能的选项供用户选择。作为一种实施方式，电子设备记录条件设置界面中每个选项选中的频次，当选中频次高于预设值时，此选项为高频选项，则条件设置界面默认选中此选项。

请参考图3，其示出了本申请另一实施例提供的应用场景示意图，电子设备在条件设置界面300提供了三个选项如“视频画面”，“游戏画面”，“视频会议”，根据记录，用户每次设置监听条件时都会选择“视频画面”选项，且此选项被选中的频次累计已经超过10次，则用户再次设置监听条件时，默认勾选“视频画面”选项，用户确认保存后，当用户使用电子设备视频播放软件看电影时，获取得到此时电子设备的显示内容为“电影”，满足监听条件“视频画面”选项，则控制所述电子设备启动监听模式。

当检测到电子设备的显示内容满足监听条件时，控制电子设备启动监听模式，开始采集语音。具体地，启动监听模式的方式可以是电子设备自动启动，也可以引导用户手动启动监听模式，本申请实施例对此不作限制。

S230：采集所述电子设备所处环境的语音数据。

启动监听模式后，电子设备开始采集所处环境的语音数据。在一些实施例中，可以通过嵌入到电子设备中的麦克风采集环境语音。在另一些实施例中，也可以通过电子设备外接的麦克风采集环境语音，例如电子设备外接耳机，包括有线耳机、蓝牙耳机等，通过嵌入到耳机中的麦克风采集环境语音。还可以通过其他音频采集设备如话筒、拾音器等采集环境语音。本实施例中的电子设备可以包含一个或多个麦克风，或者麦克风阵列，也可以外接一个或多个音频采集设备，可以仅通过麦克风采集语音，也可以仅使用外接的音频采集设备采集语音，还可以对麦克风及外接的音频采集设备同时采集到多通道语音进行处理后得到所处环境的语音数据。

当用户处于专注状态时，启动监听模式，可以持续监听所处环境的语音数据。但是，在监听模式下，并非每时每刻都有人与用户交谈，并且在交谈过程中还可能的出现长时间停顿的情况。因此，可选地，可以设置一个语音激活阈值，例如首先检测所处环境的声音强度，当声音强度高于语音激活阈值时，才开始采集电子设备所处环境的语音数据。其中，语音激活阈值可以有一个系统默认值，例如5db，也可以由用户设置。

在一些实施例中，由于环境或音频采集设备自身的局限性，可能导致语音失真或导致采集到的语音数据中包含噪声，因此，需要首先对语音数据进行语音增强等预处理，从噪声中提取有用的语音数据。其中，语音增强主要包括语音降噪、语音分离和语音解混响三个方面。可选地，通过最小均方(Least Mean Square，LMS)算法进行滤波处理，降低噪声对语音的干扰。此外，采集语音数据的同时也可能采集到电子设备自身播放的语音，因此需要将周围人的对话语音与播放的语音区分开。为解决此问题，在另一些实施例中，可以对电子设备播放的语音进行采样得到电子设备独有的音色对应特定音频参数，根据此音频参数过滤掉电子设备播放的语音，而得到需要采集的所处环境的语音数据。

S240：提取所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

除了上述环境噪音及电子设备自身播放的语音造成的干扰外，采集到的语音数据中还可能包含一些无实际意义的内容，如包含与用户毫无关系，不需要用户关注或后续处理的对话内容。针对这些无实际意义的内容，本实施例还将进行进一步处理。

在本实施例中，通过计算采集到的语音数据与电子设备使用者的相关度，从所述的语音数据中提取出需要用户关注或后续处理的数据，此部分数据与用户的相关度即符合预设条件，可以作为目标数据存储下来。为了方便说明，在本实施例中电子设备的使用者即用户本身。由于在一些场景中采集到的语音数据包含的对话内容复杂，且有多个对话人，则在一些典型的实施例中，可以首先将采集到长语音经过语音端点检测(Voice ActivityDetection,VAD)按正常语句的拆分后，得到语句连续的单句或单段语音，再进一步处理单句或单段语音，从中提取出在表达意义上与用户的相关度符合预设条件的数据。

下面对几种可能的确认采集到的语音数据与电子设备使用者的相关度是否符合预设条件的方式进行示例性说明，可预见地，确认采集到的语音数据与电子设备使用者的相关度是否符合预设条件的方式不仅限于本实施例中的方式。

在本实施例中，可以通过关键词筛选用户感兴趣的内容，也可以通过分析语音数据发出人的身份信息，或者对语音数据进行语义分析筛选出可能需要用户关注的内容。

通过关键词筛选用户感兴趣的内容的实施方式，通过识别语句拆分后得到的单句或单段语音中是否包含预设的关键词，若识别到包含预设的关键词，则表示这个单句语音或单段语音与用户的相关度符合预设条件，将这个单句语音或单段语音作为目标数据保存下来。其中，预设的关键词可以由用户设置，也可以由电子设备根据记录、保存的用户历史数据或用户偏好进行设置。示例性地，预设的关键字中可以包括“项目”、“领导”等工作相关的词语，还可以包括用户的名称或昵称。比如，采集到的语音包括“老板叫你交项目报告”和“李某某，今天中午吃什么呀”两个语句连续的单句语音，根据关键词识别的方式，筛选出“老板叫你交项目报告”这个单句语音中包括了预设的“项目”这一关键词，“李某某，今天中午吃什么呀”这个单句语音中包括了预设的用户名称“李某某”这一关键词，则表示“老板叫你交项目报告”和“李某某，今天中午吃什么呀”这两个单句语音与用户的相关度都符合预设条件，属于用户感兴趣的内容，可以作为目标数据保存。

通过分析语音数据发出人的身份信息的实施方式，在一些典型的实施例中，可以通过声纹识别对象的身份并确定对象的身份类型。例如，由用户标记对象的身份类型，然后分别存储不同对象的交谈内容，还可以将某种或几种身份类型的对象标记为特殊身份类型，表示用户关注这些特殊身份的对象的谈话，当获取到标记为特殊身份类型的对象的语音时，该语音与所述电子设备的使用者的相关度符合预设条件。示例性地，特殊身份类型可以包括同事、领导、客户等工作相关的类型。例如识别到“老板叫你交项目报告”这句语音是由标记为同事的某一对象说出的，则表示“老板叫你交项目报告”这句语音与用户的相关度符合预设条件，属于用户特别关注的内容，可以作为目标数据保存。

在一些实施例中，采用语义分析筛选用户感兴趣的内容。本实施例中，通过自然语言处理(Natural Language Processing，NLP)对语音数据进行意图分析，包括通过词表直接匹配历史语音数据或用户偏好，得到出现频次较高的词汇，例如“拿快递”“快递”等；还包括通过机器学习训练模型进行意图识别，识别出交互意图或语境信息。示例性地，交互意图可以包括向用户提出疑问及要求用户做某事等期望得到用户回应的意图，例如“你看我今天穿的衣服好看吗”等疑问语句和“下周一之前完成这个PPT”等祈使语句。如识别采集到的语音数据包括高频词汇或交互意图等，则表示语音数据与用户的相关度符合预设条件，属于用户特别关注的内容，可以作为目标数据保存。

可以理解的是，在另一些实施例中，可以采用上述任一种或多种方式确认采集到的语音数据与电子设备使用者的相关度是否符合预设条件，得到需要用户关注的目标数据，方便用户查看或处理。

综上所述，本申请实施例提供的技术方案，通过获取电子设备的显示内容，当所述显示内容满足监听条件时，控制所述电子设备启动监听模式，再采集所述电子设备所处环境的语音数据，提取出所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据，并将目标数据记录保存下来，方便用户查看或处理。在电子设备的显示内容满足条件时，启动监听模式，通过采集环境语音数据并提取语音数据中满足条件的目标数据并保存，能够使用户更专注于设备当前显示的内容，并且用户可以随时回顾设备采集并保存的与用户相关的对话内容，过滤掉用户不感兴趣的语音，提高沟通效率。

请参考图4，其示出了本申请又一实施例提供的语音数据处理方法的方法流程图。该方法包括：S410至S460。

S410：获取所述电子设备的显示内容。

S420：若所述显示内容满足监听条件，控制所述电子设备启动监听模式。

S430：采集所述电子设备所处环境的语音数据。

通过获取电子设备的显示内容，当所述显示内容满足监听条件时，控制所述电子设备启动监听模式，再采集所述电子设备所处环境的语音数据。从而实现在用户专注于电子设备的当前显示内容时，启动监听模式，采集周围的环境的声音。

S440：提取所述语音数据的声纹信息。

在本实施例中，电子设备所处环境下可能有多个人同时对用户说话，因此采集到的语音数据也可能包含多个对象的语音。由于多个对象说话的顺序可能互相交叉的，为了使用户在查看语音数据时能更清晰地辨认出各个语句对应的说话对象，方便与说话对象进一步沟通或根据说对象的不同身份采用不同处理方式，可以对采集到的电子设备所处环境下的语音数据进行声纹识别，以区分出不同说话对象的语音数据，提高交流体验，。

由于每个人发声器官形态、构造上的区别，每个人声音包含的声纹信息都各不相同。声纹信息可以由声纹特征来描述，声纹特征可以分为听觉特征和声学特征。其中，听觉特征是指人耳可以鉴别和描述的声音特征,比如说话气声多或中气十足的描述；声学特征是指从语音数据提取出来的一组声学描述参数。通过提取采集到的语音数据的声纹特征参数，建立说话人的声纹模型，不同的声纹模型则可以区分出说话者的身份。

S450：当所述声纹信息包含多个对象的声纹特征时，提取语音数据中每种特定声纹特征对应的特定语音数据，其中，每个对象对应一种特定声纹特征。

通过声纹识别提取出所述声纹信息中包含声纹特征参数，建立声纹模型。若提取出的声纹特征参数可以建立两组及以上的声纹模型，则说明所述声纹信息中包含多个对象的声纹特征。由于每个人声音包含的声纹信息各不相同，而声纹信息由声纹特征来描述，则可以将每个对象对应的独特的声纹特征称为一种特定声纹特征。

为区分出说话者的身份，在本实施例中，需要根据每种特定声纹特征将采集的语音数据归类以作区分，得到不同对象对应说出的语音数据。例如，在用户专注于使用电子设备时开启了监听模式，并且采集到一段语音，通过声纹识别出这段语音具有两种不同的声纹特征，而根据这两种声纹特征，从这段语音中分别提取出每种声纹特征对应的语音数据，最终得到两个对象分别说出的两段语音数据。

S460：提取每个所述特定语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

提取出不同对象说出的语音数据后，再分别这些语音数据进行处理，筛选出需要用户关注或后续处理的目标数据。在本实施例中，可以通过关键字、身份分析、语音分析中任一种或多种方式筛选每个对象对应的每个所述特定语音数据，确认特定语音数据与电子设备使用者的相关度是否符合预设条件，得到需要用户关注的目标数据。特别地，在本实施例中已经根据声纹识别区分出不同的对象，那么在利用身份分析提取目标数据的处理方式中，用户可以直接标记每种特定语音数据对应的对象的身份类型，而无需再次进行声纹识别，提高语音处理效率。

作为一种实施方式，从所述采集到的语音数据中提取到每种特定声纹特征对应的特定语音数据之后，用户可以对特定的声纹特征设置对象标签信息，标记已经识别到的特定声纹特征对应的对象。所述对象标签信息可以包括对象的名称、昵称，或者对象的身份信息等，本申请实施例对此不作限制。可选地，用户可以对每种特定声纹特征对应的对象设置一个或多个标签信息。

经过声纹识别后再进行相关度确认得到目标数据的数量，应当少于或等于实际说话对象的数量。例如，用户在利用电子设备开线上会议时，周围有3个人在说话，开启监听模式后电子设备采集到这3个人说话的语音数据，然后经过声纹识别提取得到3段语音数据分别对应3个说话对象。3个说话对象中王某一直在打电话，所说的内容为个人私事，与工作无关，而其余2人讨论的是用户同时在参与的一个工作项目，

若用户预设的关键字为“报告”“项目”等工作相关的词，未标记特殊身份类型，则通过对3段语音数据分别进行关键字、身份分析、语音分析中任一种或多种方式筛选，得出王某对应的语音数据既不匹配预设的关键字，也不匹配特殊身份类型，且语音分析得出王某对应的语音数据既不包含向用户提出疑问，也不要求用户做某事，则确认王某对应的语音数据不满足相关度的预设条件，将过滤掉王某的语音数据，得到其余2人关于工作项目的2段语音数据并存储。当用户结束线上会议后，可以看到除王某外另外2人讨论的工作项目相关的内容，用户可以跟据对话内容作出进一步行动，避免了因专注开会而错过周围人讨论的内容。

综上所述，本申请实施例提供的技术方案，通过获取电子设备的显示内容，当所述显示内容满足监听条件时，控制所述电子设备启动监听模式，再采集所述电子设备所处环境的语音数据，提取语音数据的声纹信息并根据声纹特征将语音数据区分开，再进一步确认与所述电子设备的使用者的相关度符合预设条件的目标数据，并将目标数据记录保存下来，方便用户查看或处理。在电子设备采集到的语音数据包含多个对象的语音时，通过识别处理后，可以区分不同人说话的内容，并且过滤掉用户不感兴趣的语音，使用户可以更加专注于设备当前显示的内容，并且用户可以随时按对象分别回顾设备采集并保存的与用户相关的对话内容，提高沟通效率。

请参考图5，其示出了本申请再一实施例提供的语音数据处理方法的方法流程图。该方法包括：S510至S550。

S510：获取电子设备的显示内容。

S520：若所述显示内容满足监听条件，控制所述电子设备启动监听模式。

S530：采集所述电子设备所处环境的语音数据。

S540：提取所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

通过获取电子设备的显示内容，当所述显示内容满足预设的监听条件时，控制所述电子设备启动监听模式，再采集所述电子设备所处环境的语音数据，提取出所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据。从而实现当用户专注于电子设备的当前显示内容时，启动监听模式，采集周围的环境的声音，并从采集到的环境语音数据中，提取用户可能感兴趣或需要进一步处理的内容。

S550：显示所述目标数据对应的文本数据。

在本实施例中，从采集到的环境语音数据中提取用户可能感兴趣或需要进一步处理的内容后，还可以将处理后得到的目标语音数据识别为文本数据，然后在电子设备的显示界面上显示所述文本数据，使用户同步看到周围人说话的内容，方便用户及时处理或作出相应回应。可选地，通过自动语音识别(Automatic Speech Recognition，ASR)对目标语音数据进行语音识别处理得到对应的文本内容。由于用户正在专注于电子设备的当前显示内容，因此，在一些典型的实施例中，通过在电子设备的显示界面弹出一个悬浮窗，再在悬浮窗中显示目标语音数据对应的文本数据，防止对电子设备的当前显示内容造成遮挡。更进一步地，用户可以对悬浮框的透明度进行设置，使悬浮窗下方的显示内容透过所述悬浮窗可见。在另一些实施例中，可以在电子设备的下拉通知栏或侧边任务栏显示目标语音数据对应的文本数据，使用户经过简单操作即可查看语音数据对应文字内容，而不影响当前观看体验。

在一些实施例中，经过声纹识别处理后，可以区分不同人说话的内容，并且用户可以对不同的声纹特征设置对象标签信息。请参考图6，其示出了本申请再一实施例提供的电子设备的显示界面示意图。在此实施例中，电子设备的显示界面600除了显示有当前显示内容610外，还在悬浮窗620内显示有目标语音数据对应的文本数据，同时还可以显示目标语音数据对应的对象标签信息。如图6所示，悬浮窗620内的文字内容“李某：老板叫你交项目报告”，表示经过处理后的目标语音数据对应的文本数据为“老板叫你交项目报告”，对应的对象标签信息是“李某”，表示这句话是由用户周围的李某所说；文字内容“王某：今天中午吃什么”表示经过处理后的目标语音数据对应的文本数据为“今天中午吃什么”，对应的对象标签信息是“王某”，表示这句话是由用户周围的王某所说。图中只标出了以悬浮窗的形式显示文本数据的情况，可以理解的是，以其他方式显示文本数据时，仍然可以同时显示目标语音数据对应的对象标签信息。

除此之外，还可以一定的顺序排列显示文本数据，包括按照文本数据对应的语音数据采集时间的升序或降序排列，按照对象标签信息的升序或降序排列，用户可以根据需要选择合适的排列方式。

综上所述，本申请实施例提供的技术方案，通过获取电子设备的显示内容，当所述显示内容满足监听条件时，控制所述电子设备启动监听模式，再采集所述电子设备所处环境的语音数据，提取语音数据的声纹信息并根据声纹特征将语音数据区分开，再进一步确认与所述电子设备的使用者的相关度符合预设条件的目标数据，然后将处理后得到的目标语音数据识别为文本数据，并且在电子设备的显示界面上显示所述文本数据，使用户可以同步看到周围人说话的内容，方便用户及时处理或作出相应回应，提高沟通效率，提高用户体验。

请参考图7，其示出了本申请一实施例提供的语音数据处理方法的方法流程图。该方法在电子设备的屏幕上同步显示目标语音数据对应的文本数据时，还可以为用户提供处理按钮，使用户可以标记所述数据的处理状态。该方法包括：S551至S554。

S551：获取作用于所述文本数据的处理操作，其中，所述处理操作包括用于表征所述文本数据处理完毕的第一处理操作以及用于表征延时处理所述文本数据的第二处理操作。

请参考图8，其示出了本申请一实施例提供的处理按钮示意图，电子设备的显示界面800除了显示有当前显示内容810外，还显示有对目标语音数据识别得到的对应的文本数据820，为方便用户标识文本内容的处理状态，在本实施例中用户提供了处理按钮。所述处理按钮可以包括用于表征用户已将所述文本数据表示的内容处理完毕的已处理按钮830，以及用于表征延时处理所述文本数据的稍后处理按钮840。用户可以选择对应的处理按钮，通过检测用户作用于任一处理按钮的触控选择操作，获取作用于所述文本数据的处理操作。

S552：确认处理操作为第一处理操作还是第二处理操作。

在本实施例中，用户同时只能对同一条文本数据选择一个处理按钮，表示一条文本数据表示的内容在某一时刻的处理状态是唯一的，即不能同时处于处理完毕的状态和延时处理的状态。并且，可以理解的是，当文本内容已经被标记为处理完毕时，将不能再对同样的文本内容进行延时处理。若检测到已处理按钮被选中，则说明处理操作为用于表征所述文本数据处理完毕的第一处理操作；若检测到稍后处理按钮被选中，则说明处理操作为用于表征延时处理所述文本数据的第二处理操作。

在另一些实施例中，可以获取用户输入的语音数据，提取用户语音数据中作用于所述文本数据的处理操作。通过对文本数据和用户语音数据进行语义判断，若从用户语音数据中提取出语义为已经处理所述文本数据，则确认处理操作为第一处理操作；若从用户语音数据中提取出语义为稍后处理所述文本数据，则确认处理操作为第二处理操作。

S553：若所述处理操作为第一处理操作，取消显示所述文本数据。

若所述处理操作为第一处理操作，表示用户已将所述文本数据处理完毕，无需再提示用户处理，则不再显示所述文本数据，或隐藏所述文本数据对应的悬浮窗。

S554：若所述处理操作为第二处理操作，提取所述文本数据对应的预览信息，取消显示所述文本数据，显示所述文本数据的预览信息。

若所述处理操作为第一处理操作，表示用户将间隔一段时间后再处理所述文本数据，仍然需要再提示用户处理，但无需显示完整的文本内容，可以提取文本内容中的关键信息作为预览信息显示在电子设备的显示界面。参考图9，其示出了本申请一实施例提供的电子设备的显示界面示意图。在此实施例中，电子设备的显示界面900除了显示有当前显示内容910外，还在悬浮窗920内显示从目标语音数据对应的文本数据中提取的预览信息，此实施例中的预览信息提取了文本数据的对象标签，并添加了一些提示信息，用于提醒用户及时回复或处理监听到的对话内容。图中只标出了以悬浮窗的形式显示文本数据的情况，可以理解的是，以其他方式显示文本数据时，仍然可以显示从目标语音数据对应的文本数据中提取的预览信息。

综上所述，本申请实施例提供的技术方案，通过获取作用于所述文本数据的处理操作，使用户可以标记所述数据的处理状态，对于已经处理完毕的文本数据则不再显示，避免干扰用户，对于需要稍后处理的文本数据，则通过显示预览信息提示及时处理，提高用户体验度。

请参考图10，其示出了本申请又一实施例提供的语音数据处理方法的方法流程图。该方法包括：S1010至S1050。

S1010：获取所述电子设备的显示内容。

S1020：若所述显示内容满足监听条件，显示监听模式操作界面。

在本申请实施例中，检测电子设备的显示内容，当所述显示内容满足预设的监听条件时，显示监听模式操作界面，用于提示用户若需要专注于当前显示内容，可以启动监听模式，监听模式协助用户将环境语音采集、记录下来，方便用户查看，并提供监听模式启动入口。

S1030：若检测到用户基于监听模式操作界面输入的监听指令，控制所述电子设备启动监听模式。

在本实施例中，检测用户是否在监听模式操作界面输入指示电子设备启动监听的指令，若检测到监听指令，则控制所述电子设备启动监听模式。在另一些实施例中，可以获取用户输入的语音数据，若识别出用户语音数据中包含启动监听模式的监听指令，则控制所述电子设备启动监听模式。

S1040：采集所述电子设备所处环境的语音数据。

S1050：提取所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

请参考图11，其示出了本申请又一实施例提供的电子设备的显示界面示意图。电子设备的显示界面1100除了显示有当前显示内容1110外，还有显示了一个监听模式操作界面1120。监听模式操作界面1120，通过提示并引导用户启动监听模式，可以使用户根据实际情况确认当前是否正专注于显示内容，并且提供监听模式启动入口，可以随时根据用户需求采集所述电子设备所处环境的语音数据，并通过关键词、身份识别、语义识别等方式从采集到的语音数据中提取出与用户相关度符合预设条件的目标数据。进一步地，还可以先电子设备的显示界面显示所述目标语音数据对应的文本数据，并提供处理按钮。

综上所述，本申请实施例提供的技术方案，检测电子设备的显示内容，当所述显示内容满足预设的监听条件时，显示监听模式操作界面，提供监听模式启动入口，用于满足用户的个性化需求，可以随时根据用户要求采集所述电子设备所处环境的语音数据，提高用户体验度。

请参阅图12，示出了本申请一实施例提供的电子设备的交互装置的模块框图，在用户专注于设备显示内容的情况下，该装置可以启动监听模式，采集周围环境的语音，并从中提取与用户相关的数据并保存，方便用户查看或处理。具体地，该装置包括：获取模块1210、模式启动模块1220、语音采集模块1230及语音处理模块1240。

获取模块1210，用于获取电子设备的显示内容。模式启动模块1220，用于若所述显示内容满足监听条件，控制所述电子设备启动监听模式。语音采集模块1230，用于采集所述电子设备所处环境的语音数据。语音处理模块1240，用于提取所述语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参阅图13，其示出了本申请实施例提供的电子设备的结构框图，具体地，所述电子设备1300一个或多个如下部件：存储器1310、处理器1320以及一个或多个应用程序。其中一个或多个应用程序可以被存储在存储器1310中并被配置为由一个或多个处理器1320执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

电子设备1300可以为移动、便携式并执行无线通信的各种类型的计算机系统设备中的任何一种。具体的，电子设备1300可以为移动电话或智能电话(例如，基于iPhone TM，基于Android TM的电话)、便携式游戏设备(例如Nintendo DS TM，PlayStation PortableTM，Gameboy Advance TM，iPhone TM)、膝上型电脑、PDA、便携式互联网设备、音乐播放器以及数据存储设备，其他手持设备以及诸如智能手表、智能手环、耳机、吊坠等，电子设备1300还可以为其他的可穿戴设备(例如，诸如电子眼镜、电子衣服、电子手镯、电子项链、电子纹身、电子设备或头戴式设备(HMD))。

电子设备1300还可以是多个电子设备中的任何一个，多个电子设备包括但不限于蜂窝电话、智能电话、智能手表、智能手环、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐记录器、录像机、照相机、其他媒体记录器、收音机、医疗设备、车辆运输仪器、计算器、可编程遥控器、寻呼机、膝上型计算机、台式计算机、打印机、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器，便携式医疗设备以及数码相机及其组合。

在一些情况下，电子设备1300可以执行多种功能(例如，播放音乐，显示视频，存储图片以及接收和发送电话呼叫)。如果需要，电子设备1300可以是诸如蜂窝电话、媒体播放器、其他手持设备、腕表设备、吊坠设备、听筒设备或其他紧凑型便携式设备。

处理器1310可以包括一个或者多个处理核。处理器1310利用各种接口和线路连接整个电子设备1300内的各个部分，通过运行或执行存储在存储器1320内的指令、程序、代码集或指令集，以及调用存储在存储器1320内的数据，执行电子设备1300的各种功能和处理数据。可选地，处理器1310可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1310可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1310中，单独通过一块通信芯片进行实现。

存储器1320可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1320可用于存储指令、程序、代码、代码集或指令集。存储器1320可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于获取所述电子设备的显示内容，若所述显示内容满足监听条件，控制所述电子设备启动监听模式，然后采集所述电子设备所处环境的语音数据，提取所述语音数据中与所述电子设备的使用者的相关度高于预设阈值符合预设条件的目标数据并保存等。存储数据区还可以存储电子设备1300在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的处理1310、存储器1120的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，所述计算机执行上述任一实施例所述的语音数据的处理方法。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，Read OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

请参考图14，其示出了本申请实施例的用于保存或者携带实现根据本申请实施例的语音数据处理方法的程序代码的计算机可读介质。该计算机可读介质1400中存储有程序代码1410，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1400具有执行上述方法中的任何方法步骤的程序代码1410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1410可以例如以适当形式进行压缩。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音数据处理方法，其特征在于，应用于电子设备，所述方法包括：

获取所述电子设备的显示内容；

若所述显示内容满足监听条件，控制所述电子设备启动监听模式；

采集所述电子设备所处环境的语音数据；

提取所述语音数据的声纹信息；

当所述声纹信息包含多个对象的声纹特征时，提取所述语音数据中每种特定声纹特征对应的特定语音数据，其中，每个对象对应一种特定声纹特征；

提取每个所述特定语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

2.根据权利要求1所述的方法，其特征在于，所述提取所述语音数据中每种特定声纹特征对应的特定语音数据之后，还包括：

获取对所述特定声纹特征设置的对象标签信息，所述对象标签信息用于标识所述特定声纹特征对应的对象。

3.根据权利要求1或2所述的方法，其特征在于，所述提取每个所述特定语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存之后，还包括：

显示所述目标数据对应的文本数据。

4.根据权利要求3所述的方法，其特征在于，所述显示所述目标数据对应的文本数据，包括：

显示所述文本数据以及所述目标数据对应的对象标签信息。

5.根据权利要求3所述的方法，其特征在于，所述显示所述目标数据对应的文本数据，还包括:

以预设顺序按对象标识排列显示所述文本数据，所述预设顺序包括所述文本数据对应的语音数据采集时间顺序。

6.根据权利要求3所述的方法，其特征在于，所述显示所述目标数据对应的文本数据之后，还包括:

获取作用于所述文本数据的处理操作，其中，所述处理操作包括用于表征所述文本数据处理完毕的第一处理操作以及用于表征延时处理所述文本数据的第二处理操作；

若所述处理操作为第一处理操作，取消显示所述文本数据；

若所述处理操作为第二处理操作，提取所述文本数据对应的预览信息，取消显示所述文本数据，显示所述文本数据的预览信息。

7.根据权利要求6所述的方法，其特征在于，所述获取作用于所述文本数据的处理操作包括：

获取所述电子设备的使用者输入的语音数据，提取所述语音数据中作用于所述文本数据的处理操作。

8.根据权利要求3所述的方法，其特征在于，所述显示所述目标数据对应的文本数据，包括:

在所述电子设备的显示界面弹出悬浮窗，其中，所述悬浮窗用于显示所述目标数据对应的文本数据。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括:

当检测到透明度调整请求时，调整所述悬浮窗的透明度。

10.根据权利要求1所述的方法，其特征在于，所述若所述显示内容满足监听条件，控制所述电子设备启动监听模式，包括:

若所述显示内容满足监听条件，显示监听模式操作界面；

若检测到电子设备的使用者基于监听模式操作界面输入的监听指令，控制所述电子设备启动监听模式。

11.一种电子设备的语音数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取电子设备的显示内容；

模式启动模块，用于若所述显示内容满足监听条件，控制所述电子设备启动监听模式；

语音采集模块，用于采集所述电子设备所处环境的语音数据；

语音处理模块，用于提取所述语音数据的声纹信息；当所述声纹信息包含多个对象的声纹特征时，提取所述语音数据中每种特定声纹特征对应的特定语音数据，其中，每个对象对应一种特定声纹特征；提取每个所述特定语音数据中与所述电子设备的使用者的相关度符合预设条件的目标数据并保存。

12.一种电子设备，其特征在于，包括处理器、存储器，所述存储器存储有计算机程序，所述处理器通过调用所述计算机程序，用于执行如权利要求1至10任一项所述的语音数据处理方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一项所述的方法。