CN107507627A

CN107507627A - 语音数据热度分析方法及系统

Info

Publication number: CN107507627A
Application number: CN201610425701.9A
Authority: CN
Inventors: 胡尹; 潘青华; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2017-12-22
Anticipated expiration: 2036-06-14
Also published as: CN107507627B

Abstract

本发明公开了一种语音数据热度分析方法及系统，该方法包括：接收语音数据；对所述语音数据进行端点检测，得到所述语音数据中的各有效语音段和非有效语音段；对所述有效语音段进行语音识别，得到对应所述有效语音段的识别文本；对各有效语音段提取基于声学上的热度特征；根据各有效语音段及其对应的识别文本提取各有效语音段基于内容上的热度特征；利用所述基于声学上的热度特征和基于内容上的热度特征、以及预先构建的热度预测模型，计算各有效语音段的第一热度值。利用本发明，可以提高语音数据热度分析的准确性。

Description

语音数据热度分析方法及系统

技术领域

本发明涉及语音信号处理领域，具体涉及一种语音数据热度分析方法及系统。

背景技术

热度，顾名思义，指的是热的程度。在信息检索领域，通常用热度来表征人们对检索对象感兴趣的程度，热度分析可以帮助用户快速查找到感兴趣的内容。对于文本数据，一般可以利用其包含的关键词来确定其热度；而对于语音数据，如果将其通过语音识别转换成文本，再根据该文本中的关键词来确定对应语音数据的热度，由于增加了语音识别的过程，语音识别不仅会产生识别错误，而且识别文本丢失了语音数据中的音频信息，这都会导致热度分析准确度降低的问题。因此，在现有技术中，如果用户需要了解语音数据内容相关情况，通常采用回放相应语音数据的方式。如对于会议录音数据，如果用户想知道哪段语音数据是会议讨论较激烈的地方，哪段语音数据几乎无人发言，则需要回放所有语音数据来确定，当语音数据较长时，显然会给用户带来较大困扰，无法快速找到需要的语音数据片段，效率较低。

发明内容

本发明提供一种语音数据热度分析方法及系统，以提高语音数据热度分析的准确性。

为此，本发明提供如下技术方案：

一种语音数据热度分析方法，包括：

接收语音数据；

对所述语音数据进行端点检测，得到所述语音数据中的各有效语音段和非有效语音段；

对所述有效语音段进行语音识别，得到对应所述有效语音段的识别文本；

对各有效语音段提取基于声学上的热度特征；

根据各有效语音段及其对应的识别文本提取各有效语音段基于内容上的热度特征；

利用所述基于声学上的热度特征和基于内容上的热度特征、以及预先构建的热度预测模型，计算各有效语音段的第一热度值。

优选地，所述基于声学上的热度特征包括：说话人个数占比、和/或能量均值占比；

所述说话人个数占比为当前有效语音段中包含的说话人个数与所述语音数据中包含的说话人个数的比值；

所述能量均值占比为当前有效语音段的能量均值与所述语音数据对应的音频的能量均值的比值。

优选地，所述基于内容上的热度特征包括以下任意一种或多种：

平均字数占比，指当前有效语音段平均每秒的字数与所述语音数据平均每秒的字数的比值；

主题词词数占比，指当前有效语音段中包含的主题词词数与所述语音数据中包含的主题词词数的比值；

情感极性特征，指当前有效语音段所表达的情感信息。

优选地，所述主题词由用户指定或者利用文档主题生成模型确定。

优选地，所述方法还包括：预先构建情感极性分类模型；

按以下方式确定当前有效语音段的情感极性特征：

对当前有效语音段对应的识别文本添加标点，得到各句识别文本；

根据语音识别时解码得到的词后验概率计算各句识别文本的置信度；

获取置信度大于设定阈值的各语句；

提取各语句中的情感词特征，所述情感词特征包括：情感词、情感词词性、程度副词、否定副词；

利用所述情感极性分类模型及所述情感词特征，依次对各语句进行情感极性预测，得到各语句的情感极性；

利用各语句的情感极性和置信度，确定所述当前有效语音段的情感极性特征。

优选地，所述方法还包括：按以下方式构建热度预测模型：

收集语音数据作为训练数据；

对所述训练数据进行端点检测，得到所述训练数据中的各有效语音段；

对各有效语音段进行热度标注；

对各有效语音段提取基于声学上的热度特征；

根据各有效语音段的标注信息及热度特征，训练热度预测模型。

优选地，所述方法还包括：

检测各非有效语音段中是否包含设定类型的音频片段、并计算所述设定类型的音频片段在所述非有效语音段中出现的次数；

计算所述设定类型的音频片段在所述语音数据中出现的总次数；

计算各有效语音段的第一修正系数；

根据各有效语音段的识别文本的置信度计算所述有效语音段的第二修正系数；

根据各有效语音段的第一修正系数和/或第二修正系数对所述有效语音段的第一热度值进行修正，得到修正后的热度值。

优选地，所述方法还包括：

在根据各有效语音段的识别文本的置信度计算所述有效语音段的第二修正系数时，如果所述置信度大于等于设定的置信度阈值，则所述置信度对应的有效语音段的第二修正系数为0。

优选地，所述方法还包括：

设定各有效语音段的热度初始值；

根据所述设定类型的音频片段在所述非有效语音段中出现的次数及所述设定类型的音频片段在所述语音数据中出现的总次数计算各有效语音段的第一修正系数；

根据各有效语音段的热度初始值、以及第一修正系数和/或第二修正系数，计算所述有效语音段的第二热度值；

根据各有效语音段的第一热度值和第二热度值计算所述有效语音段的热度值。

优选地，所述方法还包括：

根据所述语音数据中各有效语音段的热度值，对所述语音数据进行结构化处理。

一种语音数据热度分析系统，包括：

接收模块，用于接收语音数据；

端点检测模块，用于对所述语音数据进行端点检测，得到所述语音数据中的各有效语音段和非有效语音段；

语音识别模块，用于对所述有效语音段进行语音识别，得到对应所述有效语音段的识别文本；

第一热度特征提取模块，用于对各有效语音段提取基于声学上的热度特征；

第二热度特征提取模块，用于根据各有效语音段及其对应的识别文本提取各有效语音段基于内容上的热度特征；

第一热度值计算模块，用于利用所述基于声学上的热度特征和基于内容上的热度特征、以及预先构建的热度预测模型，计算各有效语音段的第一热度值。

所述第一热度特征提取模块包括：

说话人个数占比确定单元，用于确定各有效语音段的说话人个数占比，所述说话人个数占比为当前有效语音段中包含的说话人个数与所述语音数据中包含的说话人个数的比值；和/或

能量均值占比确定单元，用于确定各有效语音段的能量均值占比，所述能量均值占比为当前有效语音段的能量均值与所述语音数据对应的音频的能量均值的比值。

优选地，所述基于内容上的热度特征包括以下任意一种或多种：平均字数占比、主题词词数占比、情感极性特征；

所述第二热度特征提取模块包括以下任意一个或多个单元：

平均字数占比确定单元，用于确定各有效语音段的平均字数占比，所述平均字数占比指当前有效语音段平均每秒的字数与所述语音数据平均每秒的字数的比值；

主题词词数占比确定单元，用于确定各有效语音段的主题词词数占比，所述主题词词数占比指当前有效语音段中包含的主题词词数与所述语音数据中包含的主题词词数的比值；

情感极性特征确定单元，用于确定各有效语音段的情感极性特征，所述情感极性特征指当前有效语音段所表达的情感信息。

优选地，所述第二热度特征提取模块还包括：

主题词生成单元，用于由用户指定或者利用文档主题生成模型确定所述主题词。

优选地，所述第二热度特征提取模块还包括：情感极性分类模型构建单元，用于预先构建情感极性分类模型；

所述情感极性特征确定单元包括：

标点添加子单元，用于对当前有效语音段对应的识别文本添加标点，得到各句识别文本；

置信度计算子单元，用于根据语音识别时解码得到的词后验概率计算各句识别文本的置信度；

语句获取子单元，用于获取置信度大于设定阈值的各语句；

情感词特征提取子单元，用于提取各语句中的情感词特征，所述情感词特征包括：情感词、情感词词性、程度副词、否定副词；

情感极性预测子单元，用于利用所述情感极性分类模型及所述情感词特征，依次对各语句进行情感极性预测，得到各语句的情感极性；

特征计算子单元，用于利用各语句的情感极性和置信度，确定所述当前有效语音段的情感极性特征。

优选地，所述系统还包括：

热度预测模型构建模块，用于构建热度预测模型；所述热度预测模型构建模块具体包括：

数据收集单元，用于收集语音数据作为训练数据；

端点检测单元，用于对所述训练数据进行端点检测，得到所述训练数据中的各有效语音段；

热度标注单元，用于对各有效语音段进行热度标注；

语音识别单元，用于对所述有效语音段进行语音识别，得到对应所述有效语音段的识别文本；

第一热度特征提取单元，用于对各有效语音段提取基于声学上的热度特征；

第二热度特征提取单元，用于根据各有效语音段及其对应的识别文本提取各有效语音段基于内容上的热度特征；

模型训练单元，用于根据各有效语音段的标注信息及热度特征，训练热度预测模型。

优选地，所述系统还包括：

第一检测模块，用于检测各非有效语音段中是否包含设定类型的音频片段、并计算所述设定类型的音频片段在所述非有效语音段中出现的次数；

第二检测模块，用于计算所述设定类型的音频片段在所述语音数据中出现的总次数；

第一修正系数计算模块，用于根据所述设定类型的音频片段在所述非有效语音段中出现的次数及所述设定类型的音频片段在所述语音数据中出现的总次数计算各有效语音段的第一修正系数；

第二修正系数计算模块，用于根据各有效语音段的识别文本的置信度计算所述有效语音段的第二修正系数；

修正模块，用于根据各有效语音段的第一修正系数和/或第二修正系数对所述有效语音段的第一热度值进行修正，得到修正后的热度值。

优选地，所述第二修正系数计算模块，还用于在所述有效语音段的识别文本的置信度大于等于设定的置信度阈值时，设置所述有效语音段的第二修正系数为0。

优选地，所述系统还包括：

初始化模块，用于设定各有效语音段的热度初始值；

第二热度值计算模块，用于根据各有效语音段的热度初始值、以及第一修正系数和/或第二修正系数，计算所述有效语音段的第二热度值；

融合模块，用于根据各有效语音段的第一热度值和第二热度值计算所述有效语音段的热度值。

优选地，所述系统还包括：

结构化处理模块，用于根据所述语音数据中各有效语音段的热度值，对所述语音数据进行结构化处理。

本发明提供的语音数据热度分析方法及系统，通过对语音数据进行端点检测得到各有效语音段，对各有效语音段进行语音识别得到各有效语音段对应的识别文本，然后，分别提取各有效语音段基于声学上的热度特征及基于内容上的热度特征，利用提取的热度特征以及预先构建的热度预测模型，得到各有效语音段基于模型的热度值，即第一热度值。由于提取的热度特征不仅考虑了文本内容上的热度信息，而且考虑了声学上的热度信息，因此，利用本发明得到的热度值具有较高的准确性。

进一步地，本发明方案还可综合考虑有效语音段后面的非有效语音段中是否包含设定类型的音频片段，并根据所述设定类型的音频片段在所述非有效语音段中出现的次数、和/或有效语音段对应的识别文本的置信度，对有效语音段基于模型的热度值进行修正，使修正后的热度值更准确。

进一步地，本发明方案还可基于统计方式对语音数据进行分析，得到各有效语音段基于统计的热度值，即第二热度值，将基于统计的热度值和基于模型的热度值进行融合，使融合后的热度值更准确。

进一步地，本发明方案还可根据语音数据中各有效语音段的热度值对语音数据进行结构化处理，从而大大提高了用户查找感兴趣的音频片段的效率，提高了用户的体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例语音数据热度分析方法的一种流程图；

图2是本发明实施例中确定有效语音段的情感极性特征的流程图；

图3是本发明实施例中构建热度预测模型的流程图；

图4是本发明实施例中基于统计方法计算第二热度值的流程图；

图5是本发明实施例语音数据热度分析系统的一种结构示意图；

图6是本发明实施例中情感极性特征确定单元的一种具体结构示意图；

图7是本发明实施例中热度预测模型构建模块的一种结构示意图；

图8是本发明实施例语音数据热度分析系统的另一种结构示意图；

图9是本发明实施例语音数据热度分析系统的另一种结构示意图；

图10是本发明实施例语音数据热度分析系统的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例语音数据热度分析方法的一种流程图，包括以下步骤：

步骤101，接收语音数据。

所述语音数据可以是录音得到的各种语音数据，如会议录音、采访录音等。

步骤102，对所述语音数据进行端点检测，得到所述语音数据中的各有效语音段和非有效语音段。

步骤103，对所述有效语音段进行语音识别，得到对应所述有效语音段的识别文本。

具体地，对有效语音段进行特征提取，利用提取的特征数据及预先训练的声学模型和语言模型进行解码操作，得到语音数据的词后验概率，作为解码结果；最后根据所述解码结果得到当前有效语音段对应的识别文本，具体过程与现有技术相同，在此不再赘述。

步骤104，对各有效语音段提取基于声学上的热度特征。

所述基于声学上的热度特征包括：说话人个数占比、和/或能量均值占比。下面分别对这两个特征进行详细说明。

1)说话人个数占比

所述说话人个数占比是指当前有效语音段中包含的说话人个数与所述语音数据中包含的说话人个数的比值。

所述说话人个数可以通过对语音数据进行说话人分离后得到。所述说话人分离技术可以采用现有技术，如首先对语音数据进行说话人变化点检测，所述说话人变化点即同一个说话人说话结束，另一个说话人开始的地方，具体检测方法与现有技术相同；然后根据所述说话人变化点将语音数据分成多个语音段；最后对所述语音段进行聚类，具体聚类算法如K-means算法，将同一个说话人的语音数据聚到一类中，最终聚类数即为语音数据中的说话人总数。

2)能量均值占比

所述能量均值占比是指当前有效语音段的能量均值与所述语音数据对应的音频的能量均值的比值。

所述能量为时域能量，以帧为单位，计算每一帧的时域能量如式(1)所示：

其中，E_i表示第i帧语音数据的能量，m为每帧语音数据的采样点数，x_ij为第i帧语音数据第j个采样点的取值，表示第i帧语音数据采样点取值的均值。

根据上述公式(1)得到每帧语音数据的能量值后，计算当前有效语音段能量均值与整个音频能量均值的比值，作为当前有效语音段的能量均值占比，如式(2)所示：

其中，p为当前有效语音段的能量均值占比，l为当前有效语音段的帧数，n为整个语音数据的帧数。

步骤105，根据各有效语音段及其对应的识别文本提取各有效语音段基于内容上的热度特征。

所述基于内容上的热度特征包括以下任意一种或多种：

1)平均字数占比，指当前有效语音段平均每秒的字数与所述语音数据平均每秒的字数的比值。

所述有效语音段平均字数可以通过统计有效语音段对应识别文本包含的字数与有效语音段时长的比值得到，所述语音数据的平均字数可以通过统计语音数据对应识别文本中包含的字数与音频时长的比值得到。

2)主题词词数占比，指当前有效语音段中包含的主题词词数与所述语音数据中包含的主题词词数的比值。

具体地，可以通过查找主题词词表中的词语分别在当前有效语音段及整个语音数据对应的识别文本中出现的次数来统计主题词出现的次数。主题词词表可以是用户预先构建的，比如，用户选择自己感兴趣内容的相关词语作为主题词。主题词词表还可以通过主题提取模型如文档主题生成模型(LDA，Latent Dirichlet Allocation)来自动构建，具体构建方法与现有技术相同，在此不再赘述。

3)情感极性特征，指当前有效语音段所表达的情感信息。

比如，可以将情感极性分为三种，即正向、中性、负向，分别使用不同的表示方式，如使用1、0、-1表示。所述情感极性特征具体可以根据情感极性分类模型计算得到。

如图2所示，是本发明实施例中确定有效语音段的情感极性特征的流程图，包括以下步骤：

步骤201，对当前有效语音段对应的识别文本添加标点，得到各句识别文本。

所述添加标点即对识别文本添加相应的标点符号，如基于条件随机场模型对识别文本添加标点。为了使添加的标点更准确，可以设置语音段间与段中添加标点的阈值，如语音段间添加标点的阈值设置小一些，语音段中添加标点的阈值设置大一些，从而增加语音段间添加标点的可能性，减少语音段中添加标点的可能性。添加标点后的文本，将以标点符号(包括逗号“,”、问号“？”、感叹号“！”及句号“。”)分隔的文本，作为一句。

步骤202，根据语音识别时解码得到的词后验概率计算各句识别文本的置信度。

步骤203，获取置信度大于设定阈值的各语句。

步骤204，提取各语句中的情感词特征，所述情感词特征包括：情感词、情感词词性、程度副词、否定副词。

具体地，可以根据预先确定的情感词词典、程度副词词典、否定副词词典提取识别文本中的情感词特征，主要提取情感词、情感词词性、程度副词、否定副词四种特征。例如：当前句识别文本为“今天天气非常好”，提取的情感词特征如“好，形容词，非常，null”，其中“null”表示无。

步骤205，利用预先构建的情感极性分类模型及所述情感词特征，依次对各语句进行情感极性预测，得到各语句的情感极性。

对每句识别文本进行情感极性的预测，得到每句识别文本的情感极性，如正向、中性、负向，分别使用不同的数值表示。

所述情感极性分类模型可以预先离线构建，具体地，通过预先收集大量文本数据，提取每句文本数据中的情感词特征及每句文本数据的情感极性标注特征作为训练数据，训练得到情感极性分类模型，所述每句文本数据的情感极性标注特征可以通过人工标注得到。

步骤206，利用各语句的情感极性和置信度，确定当前有效语音段的情感极性特征。

比如，可以针对有效语音段中置信度大于设定阈值的各语句，计算其情感极性与其置信度乘积，然后将这些乘积取平均值，将该平均值作为所述有效语音段的情感极性特征，具体公式如式(3)所示：

其中，L为当前有效语音段的情感极性，SC_k为当前有效语音段中第k个句子的置信度，SS_k为当前有效语音段中第k个句子的情感极性，N为当前有效语音段中置信度大于阈值的句子总数，具体可以使用不同的数值表示每句话的情感极性，如使用1、0、-1表示。

步骤106，利用所述基于声学上的热度特征和基于内容上的热度特征、以及预先构建的热度预测模型，计算各有效语音段的第一热度值。

利用构建的热度预测模型，计算语音数据中每个有效语音段的第一热度值时，将每个有效语音段的热度特征作为热度预测模型的输入，利用热度预测模型依次对每个有效语音段的热度进行预测，得到语音数据中所有有效语音段的第一热度值。

所述热度预测模型可以预先离线训练，如图3所示，是本发明实施例中构建热度预测模型的流程图，包括以下步骤：

步骤301，收集语音数据作为训练数据。

步骤302，对所述训练数据进行端点检测，得到所述训练数据中的各有效语音段。

步骤303，对各有效语音段进行热度标注。

如标注特征可以为高(0.8)、中(0.5)、低(0.2)等，当然也可以进行更细的划分，本发明实施例不作限定。括号中的数值为有效语音段的热度值，当然也可以使用其它数值表示，具体根据标注特征划分的粒度确定，取值为0到1之间。

步骤304，对所述有效语音段进行语音识别，得到对应所述有效语音段的识别文本。

步骤305，对各有效语音段提取基于声学上的热度特征。

步骤306，根据各有效语音段及其对应的识别文本提取各有效语音段基于内容上的热度特征。

需要说明的是，所述热度特征同样包括基于声学上的热度特征和基于内容上的热度特征，其中，基于声学上的热度特征包括：说话人个数占比、和/或能量均值占比；基于内容上的热度特征包括以下任意一种或多种：平均字数占比、主题词词数占比、情感极性特征。各特征的含义及具体提取方式在前面已有详细介绍，在此不再赘述。

另外，需要说明的是，在训练热度预测模型时，使用的热度特征可以包括上面提到的一种或多种特征，因此，在前面步骤104和步骤105中，提取的热度特征应与训练热度预测模型时提取的热度特征相对应，比如，训练热度预测模型时用到的热度特征有：能量均值占比和情感极性特征，则在步骤104中提取的热度特征只有能量均值占比，在步骤105中提取的热度特征只有情感极性特征。

步骤307，根据各有效语音段的标注信息及热度特征，训练热度预测模型。

具体地，将大量有效语音段的热度特征作为热度预测模型的输入，相应的标注信息作为模型的输出，训练热度预测模型。所述热度预测模型可以采用模式识别中常用的分类模型，如支持向量机模型、深度神经网络模型等。

本发明提供的语音数据热度分析方法，通过对语音数据进行端点检测得到各有效语音段，对各有效语音段进行语音识别得到各有效语音段对应的识别文本，然后，分别提取各有效语音段基于声学上的热度特征及基于内容上的热度特征，利用提取的热度特征以及预先构建的热度预测模型，得到各有效语音段基于模型的热度值，即第一热度值。由于提取的热度特征不仅考虑了文本内容上的热度信息，而且考虑了声学上的热度信息，因此，利用本发明实施例得到的热度值具有较高的准确性。

进一步地，本发明方法另一实施例中，还可以基于对语音数据中非有效语音段进行分析，然后结合分析结果和/或各有效语音段的置信度对上述计算得到的第一热度值进行修正，将修正后的热度值作为相应有效语音段的热度值。下面分别详细说明根据对非有效语音段的分析结果及有效语音段的置信度对所述第一热度值进行修正的过程。

1.根据对非有效语音段的分析结果对第一热度值进行修正

对非有效语音段进行分析，主要为了检测非有效语音段包含的设定类型的声音，如笑声、掌声、尖叫声等，通常这些设定类型的声音出现之前的有效语音段往往是语音数据的高潮部分或重要部分，热度往往较高。因此，利用这些设定类型声音出现的次数，来修正非有效语音段之前的有效语音段的热度值，可以进一步提高热度分析的准确性。具体修正过程如下：

首先，检测各非有效语音段中是否包含设定类型的音频片段、并计算所述设定类型的音频片段在所述非有效语音段中出现的次数S_i+1；计算所述设定类型的音频片段在所述语音数据中出现的总次数S；将S_i+1与总次数S的比值作为修正系数，即计算各有效语音段的第一修正系数α1_i＝S_i+1/S，利用该修正系数对前面得到的第一热度值进行修正，比如，可以采用以下公式(4)：

其中，D_model(i)为语音数据中第i个有效语音段的第一热度值，S_i+1为设定类型的音频片段在第i+1个非有效语音段中出现的次数，S为设定类型的音频片段在整个语音数据中出现的总次数。

在检测各非有效语音段中是否包含设定类型的音频片段时，可以首先收集大量包含多种设定类型声音的音频片段，如包含笑声的音频片段、包含掌声的音频片段等；然后提取所述音频片段的短时能量、过零率、梅尔频率倒谱系数等作为音频片段的特征向量，具体提取方法与现有技术相同，在此不再详述。然后再对包含每种设定类型的音频片段的特征向量取平均，分别得到包含每种设定类型音频片段的中心特征向量，如计算所有包含笑声音频片段特征向量的平均值，得到包含笑声的音频片段的中心特征向量。最后分别计算各非有效语音段的特征向量与包含每种设定类型音频片段的中心特征向量之间的距离，如欧式距离。如果所述距离小于预先设定的阈值，则认为当前非有效语音段包含相应设定类型的音频片段；如果有多个距离小于阈值，则认为当前非有效语音段包含多个设定类型音频片段，从而可以确定接收的语音数据中所有非有效语音段是否包含设定类型的音频片段及设定类型的音频片段在当前非有效语音段中出现的次数。设定类型的音频片段在接收的语音数据中出现的总次数S即为设定类型的音频片段在所述语音数据中所有非有效语音段中出现的次数的总和。

2.根据各有效语音段的置信度对第一热度值进行修正

所述有效语音段的置信度可以根据语音识别时解码结果得到的词后验概率计算得到，具体计算方法与现有技术相同，在此不再详述。

根据各有效语音段的置信度及预先设置的置信度阈值，对所述第一热度值进行更新，比如，可以采用以下公式(5)：

D_model(i)＝D_model(i)-(β-CM_vad(i)) (5)

其中，D_model(i)为语音数据中第i个有效语音段的第一热度值，CM_vad(i)为第i个有效语音段的置信度，β为预先设置的置信度阈值，具体取值可以根据实际应用或实验结果取值，如0.5。

为了进一步减少计算量，还可以只针对置信度小于所述置信度阈值的有效语音段的第一热度值进行修正，对置信度大于等于置信度阈值的有效语音段的第一热度值不进行修正，也可以理解为：如果置信度大于等于设定的置信度阈值时，将该置信度对应的有效语音段的第二修正系数设置为0。

3.根据对非有效语音段的分析结果及各有效语音段的置信度对第一热度值进行修正

比如，可以采用以下公式(6)：

式(6)中各参数与前面相同，在此不再赘述。

通过上述各种不同方式对有效语音段基于模型的热度值的修正，可以使修正后的热度值更准确。

进一步地，本发明方法另一实施例中，还可以基于统计方式对语音数据进行分析，得到各有效语音段基于统计的热度值(即第二热度值)，将基于统计的热度值和基于模型的热度值(即第一热度值)进行融合，使融合后的热度值更准确。

如图4所示，是本发明实施例中基于统计方法计算第二热度值的流程图，包括以下步骤：

步骤401，设定各有效语音段的热度初始值D_org。

也就是说，对第二热度值初始化，如设定各有效语音段的热度初始值为0.5，非有效语音段的热度初始值为0。

步骤402，检测各非有效语音段中是否包含设定类型的音频片段、并计算所述设定类型的音频片段在所述非有效语音段中出现的次数S_i+1。

步骤403，计算所述设定类型的音频片段在所述语音数据中出现的总次数S。

步骤404，根据所述设定类型的音频片段在所述非有效语音段中出现的次数及在所述语音数据中出现的总次数计算各有效语音段的第一修正系数α1_i＝S_i+1/S。

步骤405，根据各有效语音段的识别文本的置信度计算所述有效语音段的第二修正系数α2_i＝β-CM_i，其中，CM_i为第i个有效语音段的置信度，β为置信度阈值。

步骤406，根据各有效语音段的热度初始值、以及第一修正系数和/或第二修正系数，计算所述有效语音段的第二热度值。

比如，语音数据中第i个有效语音段的第二热度值D_rule(i)可以采用以下公式(7)计算：

当然，在实际应用中，也可以单独基于各有效语音段的热度初始值和第一修正系数来计算第二热度值，或者单独基于各有效语音段的热度初始值和第二修正系数来计算第二热度值，对此本发明实施例不做限定。

在得到上述第二热度值后，可以将所述语音数据中每个有效语音段的第一热度值和第二热度值进行融合，得到每个有效语音段最终的热度值，所述融合方法如加权组合，具体如式(8)所示：

D(i)＝λ*D_rule(i)+(1-λ)D_model(i) (8)

其中，D(i)表示第i个有效语音段最终的热度值，D_rule(i)表示第i个有效语音段的第二热度值，D_model(i)表示第i个有效语音段的第一热度值，λ为热度值融合的权重，具体可以根据实验结果或实际应用取值，具体取值范围为0到1之间。

需要说明的是，在实际应用中，可以根据需要，将上述第一热度值、修正后的第一热度值、第一热度值和第二热度值融合后的热度值中任一热度值作为相应有效语音段的热度值，对此本发明实施例不做限定。

相应地，本发明实施例还可进一步根据语音数据中各有效语音段的热度值对语音数据进行结构化处理，结构化处理即将语音数据使用不同的标记划分为不同的语音片段，每个语音片段的主题尽可能相同，从而方便用户查找需要的语音片段，如会议录音得到的语音数据，可以根据开会时参会人员的发言情况，对语音片段进行划分，也可以根据掌声、笑声等特殊类型的音频片段，判断当前会议的气氛对语音片段进行划分，方便用户查找需要的语音片段，提高查找效率。结构化处理不仅有利于语音数据的深入分析和处理，而且对基于内容的语音分析与检索也可起到重要的辅助作用，从而大大提高用户查找感兴趣的音频片段的效率，提升用户体验。

具体结构化时，可以根据每段语音数据的热度分布情况，对语音数据进行相应标记，如使用不同颜色表示语音数据段的热度，标出每个有效语音段的颜色，颜色越亮表示热度越高，当然，也可以针对热度较高的有效语音段，将相应识别文本展示出来或对相应识别文本提取关键信息后，再显示出来，具体显示时，文本与语音数据可以同步显示，点击相应语音数据可以显示文本，或点击相应文本可定位到相应语音数据；如果热度较高的有效语音段存在多人的说话声，也可以根据每个说话人的说话内容，分别显示相应识别文本，如语音片段存在两个说话人时，当点击相应语音片段时，可以弹出相应说话人说话的内容：

说话人1：xxxxx

说话人2：xxxxx

当然也可有其它标记或显示方法，本发明实施例不做限定。

相应地，本发明实施例还提供一种语音数据热度分析系统，如图5所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

接收模块501，用于接收语音数据；

端点检测模块502，用于对所述语音数据进行端点检测，得到所述语音数据中的各有效语音段和非有效语音段；

语音识别模块503，用于对所述有效语音段进行语音识别，得到对应所述有效语音段的识别文本；

第一热度特征提取模块504，用于对各有效语音段提取基于声学上的热度特征；

第二热度特征提取模块505，用于根据各有效语音段及其对应的识别文本提取各有效语音段基于内容上的热度特征；

第一热度值计算模块506，用于利用所述基于声学上的热度特征和基于内容上的热度特征、以及预先构建的热度预测模型500，计算各有效语音段的第一热度值。具体地，第一热度值计算模块506将每个有效语音段的热度特征作为热度预测模型500的输入，利用热度预测模型500依次对每个有效语音段的热度进行预测，得到语音数据中所有有效语音段的第一热度值。

在本发明实施例中，所述基于声学上的热度特征包括：说话人个数占比、和/或能量均值占比。相应地，所述第一热度特征提取模块可以包括：说话人个数占比确定单元、和/或能量均值占比确定单元。其中：

说话人个数占比确定单元用于确定各有效语音段的说话人个数占比，所述说话人个数占比为当前有效语音段中包含的说话人个数与所述语音数据中包含的说话人个数的比值；其中，所述说话人个数可以采用现有技术通过对语音数据进行说话人分离后得到。

能量均值占比确定单元用于确定各有效语音段的能量均值占比，所述能量均值占比为当前有效语音段的能量均值与所述语音数据对应的音频的能量均值的比值。

在本发明实施例中，所述基于内容上的热度特征包括以下任意一种或多种：平均字数占比、主题词词数占比、情感极性特征。相应地，所述第二热度特征提取模块包括以下任意一个或多个单元：

平均字数占比确定单元，用于确定各有效语音段的平均字数占比，所述平均字数占比指当前有效语音段平均每秒的字数与所述语音数据平均每秒的字数的比值。

主题词词数占比确定单元，用于确定各有效语音段的主题词词数占比，所述主题词词数占比指当前有效语音段中包含的主题词词数与所述语音数据中包含的主题词词数的比值。具体地，可以通过查找主题词词表中的词语分别在当前有效语音段及整个语音数据对应的识别文本中出现的次数来统计主题词出现的次数，从而确定当前有效语音段中包含的主题词词数和所述语音数据中包含的主题词词数。主题词词表可以由用户预先构建，也可以自动生成，比如在所述第二热度特征提取模块中设置主题词生成单元，以便由用户指定或者利用文档主题生成模型确定所述主题词。

情感极性特征确定单元，用于确定各有效语音段的情感极性特征，所述情感极性特征描述了当前有效语音段所表达的情感信息，具体可以根据情感极性分类模型计算得到，

相应地，在第二热度特征提取模块还设置有情感极性分类模型构建单元，用于预先构建情感极性分类模型。

所述情感极性特征确定单元的一种具体结构如图6所示，包括以下各单元：

标点添加子单元61，用于对当前有效语音段对应的识别文本添加标点，得到各句识别文本，标点的具体添加方式可参照前面本发明文法实施例中的描述；

置信度计算子单元62，用于根据语音识别时解码得到的词后验概率计算各句识别文本的置信度；

语句获取子单元63，用于获取置信度大于设定阈值的各语句；

情感词特征提取子单元64，用于提取各语句中的情感词特征，所述情感词特征包括：情感词、情感词词性、程度副词、否定副词；

情感极性预测子单元65，用于利用所述情感极性分类模型及所述情感词特征，依次对各语句进行情感极性预测，得到各语句的情感极性，如正向、中性、负向，分别使用不同的数值表示；

特征计算子单元66，用于利用各语句的情感极性和置信度，确定所述当前有效语音段的情感极性特征，情感极性特征的计算可参照前面的介绍，在此不再赘述。

在实际应用中，所述热度预测模型可以由相应的热度预测模型构建模块离线构建，所述热度预测模型可以是本发明语音数据热度分析系统的一部分，也可以是独立于本发明系统的。

如图7所示，是本发明实施例中热度预测模型构建模块的一种结构示意图。

在该实施例中，所述热度预测模型构建模块包括：

数据收集单元71，用于收集语音数据作为训练数据；

端点检测单元72，用于对所述训练数据进行端点检测，得到所述训练数据中的各有效语音段；

热度标注单元73，用于对各有效语音段进行热度标注；

语音识别单元74，用于对所述有效语音段进行语音识别，得到对应所述有效语音段的识别文本；

第一热度特征提取单元75，用于对各有效语音段提取基于声学上的热度特征；

第二热度特征提取单元76，用于根据各有效语音段及其对应的识别文本提取各有效语音段基于内容上的热度特征；

模型训练单元77，用于根据各有效语音段的标注信息及热度特征，训练热度预测模型。所述热度预测模型可以采用模式识别中常用的分类模型，如支持向量机模型、深度神经网络模型等。

需要说明的是，在构建热度预测模型时，提取的热度特征同样包括基于声学上的热度特征和基于内容上的热度特征，其中，基于声学上的热度特征包括：说话人个数占比、和/或能量均值占比；基于内容上的热度特征包括以下任意一种或多种：平均字数占比、主题词词数占比、情感极性特征。各特征的含义及具体提取方式在前面已有详细介绍，在此不再赘述。

本发明提供的语音数据热度分析系统，通过对语音数据进行端点检测得到各有效语音段，对各有效语音段进行语音识别得到各有效语音段对应的识别文本，然后，分别提取各有效语音段基于声学上的热度特征及基于内容上的热度特征，利用提取的热度特征以及预先构建的热度预测模型，得到各有效语音段基于模型的热度值，即第一热度值。由于提取的热度特征不仅考虑了文本内容上的热度信息，而且考虑了声学上的热度信息，因此，利用本发明实施例得到的热度值具有较高的准确性。

如图8所示，是本发明实施例语音数据热度分析系统的另一种结构示意图。

与图5所示实施例不同的是，在该实施例中，所述系统还包括：

第一检测模块801，用于检测各非有效语音段中是否包含设定类型的音频片段、并计算所述设定类型的音频片段在所述非有效语音段中出现的次数S_i+1；

第二检测模块802，用于计算所述设定类型的音频片段在所述语音数据中出现的总次数S；

第一修正系数计算模块803，用于根据所述设定类型的音频片段在所述非有效语音段中出现的次数及所述设定类型的音频片段在所述语音数据中出现的总次数计算各有效语音段的第一修正系数α1_i＝S_i+1/S；

第二修正系数计算模块804，用于根据各有效语音段的识别文本的置信度计算所述有效语音段的第二修正系数α2_i＝β-CM_i，其中，CM_i为第i个有效语音段的置信度，β为置信度阈值；

修正模块805，用于根据各有效语音段的第一修正系数和/或第二修正系数对所述有效语音段的第一热度值进行修正，得到修正后的热度值。

需要说明的是，在实际应用中，上述修正模块805可以单独根据第一修正系数或第二修正系数对所述第一热度值进行修正，相应地，上述第一修正系数计算模块803和第二修正系数计算模块804可以根据需要选用，也就是说，所述系统中可以不包含第一检测模块801、第二检测模块802和第一修正系数计算模块803，或者不包含第二修正系数计算模块804。利用不同的修正系数为第一热度值进行修正的具体计算方式可参照前面的描述，在此不再赘述。

另外，为了进一步减少计算量，还可以只针对置信度小于所述置信度阈值的有效语音段的第一热度值进行修正，对置信度大于等于置信度阈值的有效语音段的第一热度值不进行修正，具体实现时，可以由第二修正系数计算模块804在所述有效语音段的识别文本的置信度大于等于设定的置信度阈值时，设置所述有效语音段的第二修正系数为0。

本发明实施例的语音数据热度分析系统，进一步基于对语音数据中非有效语音段进行分析，并结合分析结果和/或各有效语音段的置信度对上述计算得到的第一热度值进行修正，将修正后的热度值作为相应有效语音段的热度值，从而可以使修正后的热度值更准确。

如图9所示，是本发明实施例语音数据热度分析系统的另一种结构示意图。

初始化模块901，用于设定各有效语音段的热度初始值；

第二热度值计算模块902，用于根据各有效语音段的热度初始值、以及第一修正系数和/或第二修正系数，计算所述有效语音段的第二热度值；

融合模块903，用于根据各有效语音段的第一热度值和第二热度值计算所述有效语音段的热度值。

本发明实施例的语音数据热度分析系统，不仅基于模型的方式计算语音数据中各有效语音段基于模型的热度值，即第一热度值，而且基于统计方式对语音数据进行分析，得到各有效语音段基于统计的热度值，即第二热度值，然后将基于模型的热度值和基于统计的热度值进行融合，使融合后的热度值更准确。

如图10所示，是本发明实施例语音数据热度分析系统的另一种结构示意图。

结构化处理模块100，用于根据所述语音数据中各有效语音段的热度值，对所述语音数据进行结构化处理。

具体结构化时，可以根据有效语音段的热度分布情况，对语音数据进行相应标记，如使用不同颜色表示有效语音段的热度，标出每个有效语音段的颜色，颜色越亮表示热度越高，当然，也可以针对热度较高的有效语音段，将相应识别文本展示出来或对相应识别文本提取关键信息后，再显示出来，当然也可有其它标记或显示方法，本发明实施例不做限定。

需要说明的是，在实际应用中，可以根据需要，选用上述第一热度值计算模块506计算得到的第一热度值、修正模块805修正后的第一热度值、融合模块903对第一热度值和第二热度值融合后的热度值中的任一热度值作为相应有效语音段的最终热度值。相应地，在不同的应用中，系统中各模块可以做适应性的调整，对此本发明实施例不做限定。另外，上述结构化处理模块100可以根据相应的最终热度值对所述语音数据进行结构化处理。

本发明实施例的语音数据热度分析系统，可以准确地确定语音数据中各有效语音段的热度值，并利用热度值对语音数据进行结构化处理，不仅有利于音频的深入分析和处理，而且对基于内容的语音分析与检索也可起到重要的辅助作用，从而大大提高了用户查找感兴趣的音频片段的效率，提升了用户体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音数据热度分析方法，其特征在于，包括：

接收语音数据；

对各有效语音段提取基于声学上的热度特征；

2.根据权利要求1所述的方法，其特征在于，所述基于声学上的热度特征包括：说话人个数占比、和/或能量均值占比；

3.根据权利要求1所述的方法，其特征在于，所述基于内容上的热度特征包括以下任意一种或多种：

情感极性特征，指当前有效语音段所表达的情感信息。

4.根据权利要求3所述的方法，其特征在于，所述主题词由用户指定或者利用文档主题生成模型确定。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：预先构建情感极性分类模型；

按以下方式确定当前有效语音段的情感极性特征：

获取置信度大于设定阈值的各语句；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：按以下方式构建热度预测模型：

收集语音数据作为训练数据；

对各有效语音段进行热度标注；

对各有效语音段提取基于声学上的热度特征；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

计算各有效语音段的第一修正系数；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

设定各有效语音段的热度初始值；

10.根据权利要求1至9任一项所述的方法，其特征在于，所述方法还包括：

11.一种语音数据热度分析系统，其特征在于，包括：

接收模块，用于接收语音数据；

12.根据权利要求11所述的系统，其特征在于，所述基于声学上的热度特征包括：说话人个数占比、和/或能量均值占比；

所述第一热度特征提取模块包括：

13.根据权利要求11所述的系统，其特征在于，所述基于内容上的热度特征包括以下任意一种或多种：平均字数占比、主题词词数占比、情感极性特征；

所述第二热度特征提取模块包括以下任意一个或多个单元：

14.根据权利要求13所述的系统，其特征在于，所述第二热度特征提取模块还包括：

15.根据权利要求13所述的系统，其特征在于，所述第二热度特征提取模块还包括：情感极性分类模型构建单元，用于预先构建情感极性分类模型；

所述情感极性特征确定单元包括：

语句获取子单元，用于获取置信度大于设定阈值的各语句；

16.根据权利要求11所述的系统，其特征在于，所述系统还包括：

数据收集单元，用于收集语音数据作为训练数据；

热度标注单元，用于对各有效语音段进行热度标注；

17.根据权利要求11所述的系统，其特征在于，所述系统还包括：

18.根据权利要求17所述的系统，其特征在于，

所述第二修正系数计算模块，还用于在所述有效语音段的识别文本的置信度大于等于设定的置信度阈值时，设置所述有效语音段的第二修正系数为0。

19.根据权利要求11所述的系统，其特征在于，所述系统还包括：

初始化模块，用于设定各有效语音段的热度初始值；

20.根据权利要求11至19任一项所述的系统，其特征在于，所述系统还包括：