CN112329431A

CN112329431A - 音视频数据处理方法、设备及存储介质

Info

Publication number: CN112329431A
Application number: CN201910707584.9A
Authority: CN
Inventors: 杨一帆; 王涛; 沈浩; 钱雯珺
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanghai Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanghai Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2021-02-05
Anticipated expiration: 2039-08-01
Also published as: CN112329431B

Abstract

本发明公开了一种音视频数据处理方法、设备及存储介质，该音视频数据处理方法包括：获取音视频数据中的第一用户的面部图像和第一用户的语音数据，以及获取语音数据对应的文本数据；基于文本数据对第一用户的情绪进行打分，得到第一情绪分数；基于面部图像对第一用户的情绪进行打分，得到第二情绪分数；基于语音数据对第一用户的情绪进行打分，得到第三情绪分数；对第一情绪分数、第二情绪分数以及第三情绪分数进行加权求和，得到总情绪分数；根据总情绪分数确定智能设备的目标使用场景，以使智能设备向第一用户推送情绪引导信息。根据本发明实施例，分析用户的情绪，使得智能音箱可以向用户推送情绪引导信息，丰富了智能音箱的功能。

Description

音视频数据处理方法、设备及存储介质

技术领域

本发明属于互联网领域，尤其涉及一种音视频数据处理方法、设备及存储介质。

背景技术

目前，在用户唤醒智能音箱后，用户向智能音箱提出问题，智能音箱采集包括该问题的语音，并将语音发送给云端。由云端分析语音中用户提出的问题，生成该问题的答案，使得智能音箱回答用户提出的问题。

但是，目前的智能音箱仅能针对用户提出的问题进行回答，功能较为单一。

发明内容

本发明实施例提供一种音视频数据处理方法、设备及存储介质，能够实现智能音箱主动地向用户推送情绪引导信息，丰富了智能音箱的功能。

一方面，本发明实施例提供一种音视频数据处理方法，包括：

接收来自智能设备的第一用户的音视频数据；

获取所述音视频数据中的所述第一用户的面部图像和所述第一用户的语音数据，以及获取所述语音数据对应的文本数据；

基于所述文本数据对所述第一用户的情绪进行打分，得到第一情绪分数；

基于所述面部图像对所述第一用户的情绪进行打分，得到第二情绪分数；

基于所述语音数据对所述第一用户的情绪进行打分，得到第三情绪分数；

基于所述第一情绪分数的权重、所述第二情绪分数的权重以及所述第三情绪分数的权重，对所述第一情绪分数、所述第二情绪分数以及所述第三情绪分数进行加权求和，得到所述第一用户的总情绪分数，其中，所述第一情绪分数的权重和所述第三情绪分数的权重均大于所述第二情绪分数的权重；

根据所述总情绪分数确定所述智能设备的目标使用场景，以使所述智能设备进入所述目标使用场景用以向所述第一用户推送情绪引导信息。

另一方面，本发明实施例提供了一种计算机设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现所述的音视频数据处理方法。

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现所述的音视频数据处理方法。

本发明实施例的音视频数据处理方法、设备及存储介质，能够从用户的面部图像、语音数据以及该语音数据对应的文本数据这三个方面综合分析用户情绪，根据用户情绪确定智能设备的场景，从而使得智能设备进入该场景以向用户推送用于引导用户情绪的信息。此处的引导是主动性的，使得智能设备更加智能化，丰富了智能设备的功能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供的音视频数据处理方法的流程示意图；

图2示出了本发明另一个实施例提供的音视频数据处理方法的流程示意图；

图3示出了本发明实施例提供的计算机设备的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本发明实施例提供了一种音视频数据处理方法、设备及计算机存储介质。下面首先对本发明实施例所提供的音视频数据处理方法进行介绍。

图1示出了本发明一个实施例提供的音视频数据处理方法的流程示意图。如图1所示，该音视频数据处理方法包括：

S102，接收来自智能设备的第一用户的音视频数据。

其中，智能设备可以包括：智能音箱、智能家居设备、智能穿戴设备、智能手机、平板电脑、笔记本电脑。音视频数据为包括视频和语音的数据。

第一用户的音视频数据可以包括：第一用户与智能设备进行人机交互的过程中采集的第一用户的音视频数据或者第一用户未与智能设备进行人机交互时采集的第一用户的音视频数据，比如，在第一用户与其他用户闲聊时采集的数据。

S104，获取音视频数据中的第一用户的面部图像和第一用户的语音数据，以及获取语音数据对应的文本数据。

S106，基于文本数据对第一用户的情绪进行打分，得到第一情绪分数。

S108，基于面部图像对第一用户的情绪进行打分，得到第二情绪分数。

S110，基于语音数据对第一用户的情绪进行打分，得到第三情绪分数。

S112，对第一情绪分数、第二情绪分数以及第三情绪分数进行加权求和，得到第一用户的总情绪分数。

其中，基于第一情绪分数的权重、第二情绪分数的权重以及第三情绪分数的权重，对第一情绪分数、第二情绪分数以及第三情绪分数进行加权求和，得到所述第一用户的总情绪分数；第一情绪分数的权重和第三情绪分数的权重均大于第二情绪分数的权重。

S114，根据总情绪分数确定智能设备的目标使用场景，以使智能设备进入目标使用场景用以向第一用户推送情绪引导信息。

通过本发明实施例，分析用户的情绪，以向用户推送情绪引导信息，比如，情绪引导信息可以包括用户感兴趣的内容或者用户在积极情绪时谈论的内容，从而实现智能设备与用户之间的主动交互。

比如，分析出用户的总情绪分数在忧郁情绪的范围内，则向用户推送欢快的音乐或者笑话，从而将用户的情绪向积极的方向与引导。对于自闭症或抑郁症患者，会经常推送积极的信息。再比如，如果用户对于积极的信息反映出的情绪低于正常采样率，可以分析用户病情所处阶段。再比如，进行电话营销时，会从用户在积极情绪下涉及的内容入手，进行产品介绍，这样用户会更加容易接受，取得更好的效果。

在本发明的一个实施例中，由智能设备采集第一用户的音视频数据，智能设备通过互联网将该音视频数据发送给服务器，由服务器执行S102-S114。其中，智能设备可以实时进行视频和音频的同步采集，得到音视频数据。

智能设备可以免唤醒进行人机交互，比如智能设备采集第一用户在闲聊时的音视频数据，基于该音视频数据优先进行情绪分析。根据用户的语气和所说的文本，判断用户所说话的褒贬性。云端根据褒贬性进行相应语音交互。

在本发明的一个实施例中，音视频数据处理方法还包括：

若总情绪分数在危险情绪分数范围内，则控制智能设备发出危险情绪的告警提示信息和/或向与第一用户关联的第二用户发送用于表示第一用户在预定情绪下的告警提示信息。

比如，第一用户是位抑郁症患者，如果第一用户的总情绪分数在危险情绪分数范围内，则控制智能设备发出危险情绪的告警提示信息，并且向第一用户的监护人(即第二用户)的应用程序(Application，APP)发送用于表示第一用户在危险情绪下的告警提示信息，该告警提示信息可以包括第一用户的音视频数据。当智能设备采集到的图像中用户危险动作消失后，或者第一用户的监护人在APP上取消告警后，智能设备停止发出告警提示信息，智能设备解除告警，切换到告警之前的状态。

在本发明的一个实施例中，音视频数据包括第一用户向智能设备提出的问题；音视频数据处理方法还包括：

根据问题生成问题对应的答案；将问题对应的答案返回给智能设备。

通过本发明实施例，智能设备除了回答用户提出的问题，还会基于用户提问题的音视频数据推送引导用户情绪的信息。比如，第一用户向智能设备问了一个问题“今天天气怎么样”，智能设备不仅回答了这个问题，还基于用户情绪低落，智能设备向第一用户推送了一首欢快的歌曲。

在本发明的一个实施例中，S106包括：

根据文本数据的内容所属的领域确定文本数据的内容主题；在文本数据中获取与内容主题相关的至少一个形容词；在文本数据的内容所属的领域对应的形容词语料数据中，查询至少一个形容词中的每个形容词的情绪分数；对述至少一个形容词的情绪分数进行求和，将至少一个形容词的情绪分数的求和结果作为第一情绪分数。

另外，音视频数据处理方法还包括：确定文本数据的内容所属的领域。其中，确定文本数据的内容所属的领域具体包括：

对文本数据进行分词，并对分词得到的词进行词性标注，比如词的词性包括动词、名词、形容词等；根据文本数据中的动词识别出至少一个领域；根据文本数据中的名词在该至少一个领域中定位到文本数据的内容所属的领域。由于动词数目少，所以先根据动词进行领域的粗略识别有利于提升效率，然后再通过名词聚类能够得到文本数据在具体的哪个领域。

在确定领域之后，可以将该领域对应的主题作为文本数据的内容主题；对文本数据进行词法分析，得到第一用户对内容主题描述的形容词集合，即形容词集合中包括与内容主题相关的至少一个形容词；将形容词与所属领域对应的形容词语料进行比对，其中，形容词语料中的每个形容词对应情绪分数；根据比对结果查询到形容词集合中的每个形容词的情绪分数。比如，对于食品质量的主题，“高”、“短期”等形容词就是正向打分。但是对于健身主题，“低脂肪”、“长期”是正向打分。

在本发明的一个实施例中，S106包括：

S1062，根据文本数据中的每个句子的内容，确定每个句子的情感值。

S1064，根据每个句子在文本数据中的位置，确定每个句子的权重。

比如，对于在文本数据中的开头位置、中间位置和末尾位置的三个句子，每个句子的权重是三个不同的值。

S1066，基于每个句子的权重，对文本数据的所有句子的情感值进行加权求和，将加权求和的结果作为第一情绪分数。

在本发明的一个实施例中，S1062包括：对于文本数据中的每个句子执行如下的步骤：

S10622，获取句子中的多个形容词。

S10624，根据该多个形容词中的每个形容词的褒贬性，确定每个形容词的情感值。比如，若形容词是褒义词，则该形容词的情感值是5，若形容词是中性词，则该形容词的情感值是3，若形容词是贬义词，则该形容词的情感值是1。

S10626，根据句子中每个形容词在该句子中的位置，确定每个形容词的权重。比如，由于形容词距离句子中的主语越近，说明该形容词对句子的情感值影响越大，因此，对于在句子中的距离主语越近的形容词，该形容词的权重越大。

S10628，基于句子中的每个形容词的权重，对句子中的多个形容词的情感值进行加权求和，得到句子的情感值。

在本发明的一个实施例中，S108包括：

将第一用户的面部图像分别与多个预存面部图像进行比对，确定第一用户的面部图像与每个预存面部图像之间的相似度；确定相似度大于预定阈值的预存面部图像；将该预存面部图像对应的分数作为第二情绪分数。

在本发明的一个实施例中，S108包括：

利用面部图像样本对卷积神经网络模型进行训练，调整卷积神经网络模型的参数，直到训练好卷积神经网络模型。将第一用户的面部图像输入到训练好的卷积神经网络模型，该卷积神经网络模型基于第一用户的面部图像计算对应的情感支持向量(SupportVector，SV)，该情感支持向量作为第一用户的面部图像的特征表达；计算该情感支持向量与已知样本情感向量的欧式距离，选择距离最近的样本情感向量对应的情绪分数作为第二情绪分数。

在本发明的一个实施例中，有两种方式实现S110。

第一种方式，S110包括：

从第一用户的语音数据中提取第一用户的声音特征，其中，声音特征包括以下的一项或多项：响度、音调、音色；对声音特征进行分析，得到用户情绪标签；将与用户情绪标签对应的分数作为第三情绪分数。比如，利用声音情感分析模型对声音特征进行分析，得到用户情绪标签。用户情绪标签包括但不限于：高兴、激动、兴奋、平和、生气、愤怒、焦虑。

第二种方式，S110包括：

根据第一用户的语音数据，确定对应的文本数据中的每个句子末尾的标点符号；若文本数据中存在末尾是预定标点符号的句子，则根据与预定标点符号对应的用户情绪标签，确定第三情绪分数。

比如，预定标点符号是感叹号。由于文本数据中包括末尾是句号的句子、末尾是问号的句子、末尾是感叹号的句子，可见，文本数据中包括预定标点符号(即感叹号)，而感叹号对应的用户情绪标签是激动，因此，将激动对应的分数作为第三情绪分数。如果文本数据中包括多个预定标点符号，可以将多个预定标点符号对应的用户情绪标签所对应的分数进行加权求和，得到第三情绪分数。

其中，若第一用户的语音数据对应的文本数据长度小于或等于预定阈值，说明第一用户讲话的内容比较少，则采用第一种方式实现S110。若第一用户的语音数据对应的文本数据长度大于预定阈值，说明第一用户讲话的内容比较多，则采用第二种方式实现S110。

在本发明的一个实施例中，根据语音数据，确定文本数据中的每个句子末尾的标点符号，包括：

将每个句子作为待处理句子，并执行如下的步骤：在文本数据中获取待处理句子的下一个句子；基于待处理句子在语音数据中的开始时刻以及下一个句子在语音数据中的结束时刻，确定开始时刻与结束时刻之间的时间间隔，即该时间间隔是用户说完一句话后并且在讲下一句话之前停顿的时长；在语音数据中获取与待处理句子对应的语音片段；提取语音片段的声音特征；根据时间间隔和声音特征，确定待处理句子末尾的标点符号。比如，将句子对应的时间间隔和句子的声音特征输入到语音标点学习模型中，得到该句子末尾的标点符号。

在本发明的一个实施例中，S112包括：

基于第一情绪分数的权重、第二情绪分数的权重以及第三情绪分数的权重，对第一情绪分数、第二情绪分数以及第三情绪分数进行加权求和，得到所述第一用户的总情绪分数；其中，第一情绪分数的权重和第三情绪分数的权重均大于第二情绪分数的权重。

其中，采用如下的情绪打分函数计算第一用户的总情绪分数：

emotion＝text_weight×text_value+pic_weight×pic_value+tone_weight×tone_value+lossFun (1)

其中，text_value是第一情绪分数，pic_value是第二情绪分数，tone_value是第三情绪分数，text_weight是第一情绪分数的权重，pic_weight是第二情绪分数的权重，tone_weight是第三情绪分数的权重，lossFun是损失函数。通过支持向量机算法拟合上述情绪打分函数。根据大数据量分析，用户在无意识中更容易反馈出真实的情绪，所以基于文本数据得到的第一情绪分数的权重以及基于语音数据得到的第三情绪分数的权重更高些。通过训练集和测试集，拟合出参数。

针对每一个人，第一情绪分数至第三情绪分数的权重变化不大，每个人的情绪波动情况不同。每个人的情绪波动情况，跟个人年龄等信息相关。这里使用年龄、性别、地域标识中的至少一项来模拟损失函数，比如，利用下面的公式模拟损失函数：

lossFun＝a/age+b×sex+ln(location) (2)

age表示年龄，sex表示性别，location表示地域，a、b为系数。损失函数的目的是降低情绪影响的干扰项。比如不同地域间有语气差异，这些差异会对情绪识别有影响的话，需要降低这类影响。针对大数据分析经验，内陆地区语气比较重，加权小；沿海地区语气轻，加权大。

在本发明的一个实施例中，S114包括：

在文本数据的内容所属的领域对应的多个情绪分数范围中，确定总情绪分数所在的范围；将总情绪分数所在的范围对应的场景作为目标使用场景。

其中，多个情绪分数范围中的每个情绪范围对应一个场景，每个情绪范围对应的场景可以是第一用户关联的第二用户(比如，第二用户是第一用户的监护人)设置的场景。

在本发明的一个实施例中，服务器向APP端发送场景设置指令，以使APP端设置智能设备进入目标使用场景。

APP设置的目标使用场景有识别场景和转化场景之分。若目标使用场景是识别场景(比如忧郁场景)，则智能设备会推荐转化场景的内容，比如推送欢快的音乐，引导用户转变情绪。

由于每个话题之间都是有关联的，只是通过多少链接能够关联到。所以，可以通过知识图谱，得到不同话题之间的最短路径，可以沿最短路径引导用户到积极场景中去。

智能设备向第一用户推送情绪引导信息，以根据使用场景进行引导。此处的引导是主动性的，不需要用户进行人机交互，积极场景下会主动推送积极内容，推送完成后会切换到推送之前的状态。

例如，主动推送情绪引导信息和进行场景设置。当用户需要进行情绪引导时，智能设备会主动推送相关内容，并能够实时监测用户的情绪，从而进行通知或告警。在场景引导方式上，可以读取用户历史记录中的使用场景，按照用户的历史使用场景推送情绪引导信息，也可以使用系统默认设置的场景推送情绪引导信息。

图2示出了本发明另一个实施例提供的音视频数据处理方法的流程示意图。该方法至少由智能设备、APP端和云端服务器实现。智能音箱和APP端分别通过互联网与云端连接，智能音箱通过无线与APP端网络连接。

智能设备可以免唤醒进行人机交互。比如智能设备采集用户在闲聊时的音视频数据，云端会优先进行情绪分析。

云端服务器中的语料库配置了有情绪标签的大量语料，每条语料都具有积极、中立或消极的情绪标签，每条语料有一个相关的主题。

如图2所示，该音视频数据处理方法包括：

S202，智能设备实时进行视频和音频的同步采集，采集的信息即为音视频数据，上传云端服务器。

S204，云端服务器实时对音视频数据进行主题分析。

其中，获取音视频数据中的语音数据，将语音数据转换成对应的文本数据，根据该文本数据确定音视频数据的主题。

S206，云端服务器根据用户谈论的主题和用户的语音文本进行情绪分析。

其中，在音视频数据为用户在与智能设备进行人机对话的过程中采集的用户的音视频数据的情况下，由于用户在与智能设备进行人机对话的过程会带有语气反馈，这些反馈会作为部分加权影响用户情绪打分结果。因此，本步骤中的用户情绪分析可以是通过一系列打分确定的，分别是基于文本数据进行打分、基于面部图像进行打分以及基于语音数据进行打分，打分为相对值，是用户的情绪分数与标准得分的矩阵向量的乘积，标准得分是在爬取网络数据后，将名词和形容词使用计算词向量(Word2Vec)的模型进行向量化得到的。

由于上述已经说明了具体是通过情绪打分的方式得到用户的总情绪分数，以进行情绪分析，在此不再重复赘述。

S208，云端服务器确定引导用户的情绪进行转化。

其中，在得到用户的总情绪分数之后，如果该总情绪分数落入到危险情绪分数范围内，确定引导用户的情绪进行转化。

S210，智能设备使用用户已设置的正向情绪内容或者设定的使用场景进行情绪引导。

其中，用户预先设置正向情绪的引导内容，智能设备基于该正向情绪的引导内容，引导用户情绪。或者，用户的监护人预先设定情绪引导场景，根据该情绪引导场景引导用户情绪。

S212，智能设备判断用户的情绪是否转化成功，在判断结果为是时，进入S218，在判断结果为否时，进入S214。

S214，智能设备进行语音提示，并将采集的用户的音视频数据推送到用户的监护人的APP端。

S216，如果智能设备确定用户危险动作消失或监护人在APP端上解除警报，则切换到告警前的状态。

S218，忽略当前信息。

计算机设备可以包括处理器401以及存储有计算机程序指令的存储器402。

具体地，上述处理器401可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在综合网关容灾设备的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。在特定实施例中，存储器402包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种音视频数据处理方法。

在一个示例中，计算机设备还可包括通信接口403和总线410。其中，如图3所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。

通信接口403，主要用于实现本发明实施例中各模块、单元和/或设备之间的通信。

总线410包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该计算机设备可以执行本发明实施例中的音视频数据处理方法，从而实现结合图1和图2描述的音视频数据处理方法。

另外，结合上述实施例中的音视频数据处理方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种音视频数据处理方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤描述一些方法。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种音视频数据处理方法，其特征在于，包括：

接收来自智能设备的第一用户的音视频数据；

2.根据权利要求1所述的方法，其特征在于，还包括：

若所述总情绪分数在危险情绪分数范围内，则控制所述智能设备发出危险情绪的告警提示信息和/或向与所述第一用户关联的第二用户发送用于表示所述第一用户在危险情绪下的告警提示信息。

3.根据权利要求1所述的方法，其特征在于，基于所述文本数据对所述第一用户的情绪进行打分，得到第一情绪分数，包括：

根据所述文本数据的内容所属的领域，确定所述文本数据的内容主题；

在所述文本数据中获取与所述内容主题相关的至少一个形容词；

在所述文本数据的内容所属的领域对应的形容词语料数据中，查询所述至少一个形容词中的每个形容词的情绪分数；

对所述至少一个形容词的情绪分数进行求和，将所述述至少一个形容词的情绪分数的求和结果作为所述第一情绪分数。

4.根据权利要求1所述的方法，其特征在于，基于所述文本数据对所述第一用户的情绪进行打分，得到第一情绪分数，包括：

根据所述文本数据中的每个句子的内容，确定所述每个句子的情感值；

根据所述每个句子在所述文本数据中的位置，确定所述每个句子的权重；

基于所述每个句子的权重，对所述文本数据的所有句子的情感值进行加权求和，将加权求和的结果作为所述第一情绪分数；

其中，根据所述文本数据中的每个句子的内容，确定所述每个句子的情感值，包括：对于所述每个句子执行如下的步骤：

获取所述句子中的多个形容词；

根据所述多个形容词中的每个形容词的褒贬性，确定所述每个形容词的情感值；

根据所述每个形容词在所述句子中的位置，确定所述每个形容词的权重；

基于所述每个形容词的权重，对所述多个形容词的情感值进行加权求和，得到所述句子的情感值。

5.根据权利要求1所述的方法，其特征在于，基于所述语音数据对所述第一用户的情绪进行打分，得到第三情绪分数，包括：

从所述语音数据中提取所述第一用户的声音特征，其中，所述声音特征包括以下的一项或多项：响度、音调、音色；

对所述声音特征进行分析，得到用户情绪标签；

将与所述用户情绪标签对应的分数作为所述第三情绪分数。

6.根据权利要求1所述的方法，其特征在于，基于所述语音数据对所述第一用户的情绪进行打分，得到第三情绪分数，包括：

根据所述语音数据，确定所述文本数据中的每个句子末尾的标点符号；

若所述文本数据中存在末尾是预定标点符号的句子，则根据与所述预定标点符号对应的用户情绪标签，确定所述第三情绪分数。

7.根据权利要求6所述的方法，其特征在于，根据所述语音数据，确定所述文本数据中的每个句子末尾的标点符号，包括：

将所述每个句子作为待处理句子，并执行如下的步骤：

在所述文本数据中获取所述待处理句子的下一个句子；

对于所述待处理句子在所述语音数据中的开始时刻以及所述下一个句子在所述语音数据中的结束时刻，确定所述开始时刻与所述结束时刻之间的时间间隔；

在所述语音数据中获取与所述待处理句子对应的语音片段；

提取所述语音片段的声音特征；

根据所述时间间隔和所述声音特征，确定所述待处理句子末尾的标点符号。

8.根据权利要求1所述的方法，其特征在于，根据所述总情绪分数确定所述智能设备的目标使用场景，包括：

在所述文本数据的内容所属的领域对应的多个情绪分数范围中，确定所述总情绪分数所在的范围；

将所述总情绪分数所在的范围对应的场景作为所述目标使用场景；

所述总情绪分数所在的范围对应的场景是与所述第一用户关联的第二用户设置的场景。

9.一种计算机设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-8任意一项所述的音视频数据处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的音视频数据处理方法。