CN108520740B

CN108520740B - 基于多种特征的音频内容一致性分析方法和分析系统

Info

Publication number: CN108520740B
Application number: CN201810332970.XA
Authority: CN
Inventors: 计哲; 高圣翔; 黄远; 孙晓晨; 宁珊; 刘志会; 韩小青
Original assignee: Tianjin Guorui Digital Safety System Co ltd; National Computer Network and Information Security Management Center
Current assignee: Tianjin Guorui Digital Safety System Co ltd; National Computer Network and Information Security Management Center
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2022-04-19
Anticipated expiration: 2038-04-13
Also published as: CN108520740A

Abstract

本发明属于音频分析技术领域，具体而言，涉及一种基于多种特征的音频内容一致性分析方法和分析系统，分析方法包括获取语音样本；对所述语音样本的音频模型进行基于多种特征的分析；对所述音频模型的分析结果进行评分设定；对评分设定后的所述音频模型的一致性进行综合特征模型分析；根据所述综合特征模型分析得出所述语音样本的分析结果。分析系统包括数据查询管理系统、数据存储系统、实时分析系统、实时评分系统和模型自学习系统。本发明提供的基于多种特征的音频内容一致性分析方法和分析系统能够根据多个特征对音频内容进行归类，具有分析识别准确度高的特点。

Description

基于多种特征的音频内容一致性分析方法和分析系统

技术领域

本发明属于音频分析技术领域，具体而言，涉及一种基于多种特征的音频内容一致性分析方法和分析系统。

背景技术

音频是多媒体中的一种重要媒体，声音经过模拟设备记录或再生，成为模拟音频，模拟音频经过数字化成为数字音频。随着计算机技术的飞速发展，大量的数字音频存储在计算机中，为了便于人们对数字音频的有效利用，针对音频内容的分析应运而起。

现有的音频内容分析方法有很多，例如申请号为200610140831.4，申请日为2006年10月11日，发明名称为基于内容的音频分析系统的专利申请文件，该申请文件提供了一种基于内容的自动音频分析系统及其方法，音频分析系统包括：音频流获取模块、音频流分段模块、音频流类型判别模块、语音流分析模块和基于拼音序列的关键词检索模块。音频流获取模块从外界获取音频流；获取的音频流送入音频流分段模块，对音频流进行分割，使得分割后的每个分段都具有单一的声学特征；单一特征的音频流送入音频流类型判别模块进行分析，得到其特征类型；被确定为非语音的音频片段被抛弃，被确定为语音的音频片段送入语音流分析模块进行分析，得到拼音图；基于拼音序列的关键词检索模块，实现对关键词的检索，得到该关键字在音频流中的位置。该申请文件与现有技术的音频分析方法相同，分析方法均是单纯的基于音频样本的内容进行聚类。而随着音频内容的不断更新，方式的不断升级，单纯的样本内容聚类已经不能满足当前音频分析的需求。现有的音频分析方法无法对新出现的话题分类、宣传面向地、事件发生地等新的特征很好的形成聚类，分析识别准确率低。

由以上分析可知，现有技术的音频分析方法存在以下不足：

现有的音频分析方法仅通过单纯的样本内容聚类进行音频分析，无法对新出现的话题分类、宣传面向地、事件发生地等新的特征很好的形成聚类，分析识别准确率低。

发明内容

本发明提供了一种基于多种特征的音频内容一致性分析方法和分析系统，能够有效解决现有的音频分析方法分析识别准确度低的技术问题。

为了解决以上问题，本发明提供了一种基于多种特征的音频内容一致性分析方法和分析系统，技术方案如下：

一种基于多种特征的音频内容一致性分析方法，包括如下步骤：

步骤一：获取语音样本；

步骤二：对所述语音样本的音频模型进行基于多种特征的分析；

步骤三：对所述音频模型的分析结果进行评分设定；

步骤四：对评分设定后的所述音频模型的一致性进行综合特征模型分析；

步骤五：根据所述综合特征模型分析得出所述语音样本的分析结果。

如上述的基于多种特征的音频内容一致性分析方法，进一步优选为：在步骤二中，所述音频模型的分析包括对所述语音样本设定多种特征，并对多种特征赋予权重。

如上述的基于多种特征的音频内容一致性分析方法，进一步优选为：所述音频模型分析的特征包括内容聚类特征、文字语义理解特征、话题分类特征、宣传面向地特征、话题发生地特征、关键词特征和性别特征。

如上述的基于多种特征的音频内容一致性分析方法，进一步优选为：所述内容聚类特征的权重为内容聚类权重；所述文字语义理解特征的权重为文字语义理解权重；所述话题分类特征的权重为话题分类权重；所述宣传面向地特征的权重为宣传面向地权重；所述话题发生地特征的权重为话题发生地权重；所述关键词特征的权重为关键词权重；所述性别特征的权重为性别特征权重。

如上述的基于多种特征的音频内容一致性分析方法，进一步优选为：在步骤三中，进行所述评分设定时，分别从偏内容聚类特征和偏文字语义理解特征两方面设定多个特征的评分配置值。

如上述的基于多种特征的音频内容一致性分析方法，进一步优选为：在步骤三中，进行所述评分设定时，单个特征的分值为评分配置值乘以单个特征的权重。

如上述的基于多种特征的音频内容一致性分析方法，进一步优选为：所述偏内容聚类特征的总分值和所述偏文字语义理解特征的总分值均为各单个特征的分值总和。

如上述的基于多种特征的音频内容一致性分析方法，进一步优选为：所述综合特征模型分析的总分值为所述偏内容聚类特征加权后的总分值和所述偏文字语义理解特征加权后的总分值之和。

如上述的基于多种特征的音频内容一致性分析方法，进一步优选为：在步骤五中，进行所述综合特征模型分析时设有阈值，在所有所述语音样本中，若所述语音样本的所述综合特征模型的分值大于阈值，则判定所述语音样本为同一类。

如上述的基于多种特征的音频内容一致性分析系统，包括数据查询管理系统，所述数据查询管理系统用于提供所述语音样本；数据存储系统，所述数据存储系统与所述数据查询管理系统相连；实时分析系统，所述实时分析系统与所述数据存储系统相连，用于对所述语音样本的音频模型进行基于多种特征的分析；实时评分系统，所述实时评分系统与所述数据存储系统相连，用于对所述音频模型的分析结果进行评分设定；模型自学习系统，所述模型自学习系统与所述数据存储系统相连，用于对所述阈值和所述音频模型进行优化。

分析可知，与现有技术相比，本发明的优点和有益效果在于：

1、本发明提供的基于多种特征的音频内容一致性分析方法采用多个特征相结合的方式对语音样本进行分析，多个特征分别为内容聚类特征、文字语义理解特征、话题分类特征、宣传面向地特征、话题发生地特征、关键词特征和性别特征，采用内容聚类特征、文字语义理解特征、话题分类特征、宣传面向地特征、话题发生地特征、关键词特征和性别特征相结合的方法对语音样本进行分析，具有分析识别准确率高的特点。

2、本发明提供的基于多种特征的音频内容一致性分析系统包括数据查询管理系统、数据存储系统、实时分析系统、实时评分系统和模型自学习系统，能够通过系统模型权重自学习，有效发现调整各模型特征权重，通过实时分析不断完善系统各参数值，实现系统自动化。采用大数据分析、系统自学习、实时分析等技术，能够实现语音样本的准确聚类，使得本发明具有结果准确的特点。

附图说明

图1为本发明提供的基于多种特征的音频内容一致性分析系统的连接示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于多种特征的音频内容一致性分析方法，包括如下步骤：

步骤一：获取语音样本。

从数据查询管理系统内获取全量的语音样本，语音样本为数字音频，语音样本作为分析的客体。

步骤二：对语音样本的音频模型进行基于多种特征的分析。

2.1对语言样本设定多个特征

在对语音样本的音频模型进行分析时，需要对语音样本设定多个用于分析的特征，多个特征包括内容聚类特征M1、文字语义理解特征M2、话题分类特征M3、宣传面向地特征M4、话题发生地特征M5、关键词特征M6和性别特征M7。

2.2对多个特征赋予权重

在多个特征设定完成后，分别对各个特征赋予权重，内容聚类特征M1的权重为内容聚类权重Q1；文字语义理解特征M2的权重为文字语义理解权重Q2；话题分类特征M3的权重为话题分类权重Q3；宣传面向地特征M4的权重为宣传面向地权重Q4；话题发生地特征M5的权重为话题发生地权重Q5；关键词特征M6的权重为关键词权重Q6；性别特征M7的权重为性别特征权重Q7。

2.3对多个特征进行分析

本发明采用多个特征相结合的方式对语音样本进行分析，多个特征分别为内容聚类特征、文字语义理解特征、话题分类特征、宣传面向地特征、话题发生地特征、关键词特征和性别特征。针对内容聚类特征的分析是根据每个音频特有的波形进行对比，波形越相似则音频内容的一致性可能性越大；针对文字语义理解特征的分析是利用现有的语音抄听技术，对语音样本进行文字抄听，对抄听所得内容的文字进行语义理解和相似度匹配。语义理解主要对文字进行词语级语义分析，包括词语的表示、学习。词语表示采用现有技术的词语表示方法“词嵌入”，将词语转换成向量放在一起形成向量空间，每个向量为空间中的一个点，依据点与点之间的距离来判断相似性。相似度匹配采用余弦相似度算法进行文字的匹配；针对话题分类特征的分析是依据语音样本的话题分类进行分析，按照预先划分好的话题进行话题类别的文字精确匹配，话题分类相同的相应的分值较高。针对宣传面向地特征的分析是基于省、市、区(县)维度下分析语音样本中出现的宣传面向地，即对抄听语音样本的文字，利用现有技术中字符串比较的方式逐字对比，对比文字中出现的省、市、区(县)，出现相同地域的名称越多则相似度越高；针对话题发生地特征的分析是基于省、市、区(县)维度下分析语音样本中出现的话题发生地，即对抄听语音样本的文字，利用现有技术中字符串比较的方式逐字对比，对比文字中出现的省、市、区(县)，出现相同地域的名称越多则相似度越高；针对关键词特征的分析是针对语音样本中出现的关键词进行分析即对抄听语音样本的文字采用现有技术中字符串比较的方式，匹配预先设定的关键词；针对性别特征的分析是基于语音样本中出现的男、女声进行分析，依据声音的基音频率进行男女声的区分，区分标准按照常规标准进行区分，即男声的基音频率在100-200Hz之间，女声的基音频率大都在200-350Hz之间。本发明采用内容聚类特征、文字语义理解特征、话题分类特征、宣传面向地特征、话题发生地特征、关键词特征和性别特征相结合的方法对语音样本进行分析，具有分析识别准确率高的特点。

步骤三：对音频模型的分析结果进行评分设定。

3.1设定多个特征的评分配置值

从偏内容聚类特征和偏文字语义理解特征两方面分别对内容聚类特征M1、文字语义理解特征M2、话题分类特征M3、宣传面向地特征M4、话题发生地特征M5、关键词特征M6和性别特征M7进行评分配置值设定。评分配置值的评分参考值如下：

内容聚类特征M1的评分参考值为0～1；文字语义理解特征M2的评分参考值为0～1；话题分类特征M3的评分参考值为1或0；宣传面向地特征M4的评分参考值为0～1；话题发生地特征M5的评分参考值为0～1；关键词特征M6的评分参考值为0～1；性别特征M7的评分参考值为1或0。

在进行偏内容聚类特征方面的评分配置值设定时，评分配置值如下：

内容聚类特征M1的评分配置值为0.3；文字语义理解特征M2的评分配置值为0.2；话题分类特征M3的评分配置值为0.1；宣传面向地特征M4的评分配置值为0.15；话题发生地特征M5的评分配置值为0.15；关键词特征M6的评分配置值为0.05；性别特征M7的评分配置值为0.05。

在进行偏文字语义理解特征方面的评分配置值设定时，评分配置值如下：

内容聚类特征M1的评分配置值为0.2；文字语义理解特征M2的评分配置值为0.3；话题分类特征M3的评分配置值为0.1；宣传面向地特征M4的评分配置值为0.15；话题发生地特征M5的评分配置值为0.15；关键词特征M6的评分配置值为0.05；性别特征M7的评分配置值为0.05。

3.2设定多个特征的分值

在设定评分时，每个特征的分值均为该特征的评分配置值与该特征的权重之积。偏内容聚类特征的总分值和偏文字语义理解特征的总分值均为各单个特征的分值总和。综合特征模型分析的总分值为偏内容聚类特征的总分值和偏文字语义理解特征的总分值的总和的二分之一。

其中，在对综合特征模型分析的总分值进行计算时：总分值＝[M1*(0.3+0.2)+M2*(0.2+0.3)+M3*(0.1+0.1)+M4*(0.15+0.15)+M5*(0.15+0.15)+M6*(0.05+0.05)+M7*(0.05+0.05)]*0.5。

步骤四：对评分设定后的音频模型的一致性进行综合特征模型分析。

4.1对音频模型分析结果的偏内容聚类特征进行评分：

偏内容聚类特征的各单项特征的评分计算方式如下：

以内容聚类特征M1的分析结果为主，分别对文字语义理解特征M2、话题分类特征M3、宣传面向地特征M4、话题发生地特征M5、关键词特征M6、性别特征M7的分析结果进行评分。以内容聚类特征M1的分析结果为基础，按照各单项特征中形成同一类的数量进行排名，依据排名对偏内容聚类特征的分析结果中的每一个单项特征值进行评分。其中，完成各个单项特征值的评分后，在对偏内容聚类特征的总分值进行计算时：偏内容聚类特征总分值＝M1*0.3+M2*0.2+M3*0.1+M4*0.15+M5*0.15+M6*0.05+M7*0.05。

4.2对音频模型分析结果的偏文字语义理解特征进行评分：

偏文字语义理解特征的各单项特征的评分计算方式如下：

以文字语义理解特征M2的分析结果为主，分别对内容聚类特征M1、话题分类特征M3、宣传面向地特征M4、话题发生地特征M5、关键词特征M6、性别特征M7的分析结果进行评分。以文字语义理解特征M2的分析结果为基础，按照各单项特征中形成同一类的数量进行排名。依据排名对偏文字语义理解特征的分析结果中的每一个单项特征值进行评分。其中，在对偏文字语义理解特征的总分值进行计算时：偏文字语义理解特征总分值＝M1*0.2+M2*0.3+M3*0.1+M4*0.15+M5*0.15+M6*0.05+M7*0.05。

步骤五：根据综合特征模型分析得出语音样本的分析结果。

5.1设定调整阈值和每个特征的权重

参考历史分析结果数据，单独分析每个特征分数占总分值的比例，提取出占比最高的特征以及最低的特征，进行特征权重的调整，同时对阈值Y1进行调整。

在进行阈值和特征的权重的调整时主要依靠模型自学习系统实现，模型自学习系统依据历史结果数据并结合原有的评分配置值，计算出各特征的分值在总的分值中的比例，当发现聚成一类的语音样本中总是因为某单项特征值的评分值占该项特征值最高值的98％以上而形成一类时，则将该项特征的评分配置值增加0.05，进而增大该特征的权重。同时聚成一类的语音样本中总是因为某单项特征值的评分值占该项特征值最高值的45％以下而形成一类时，则将该项特征的评分配置值减少0.05，进而降低该特征的权重。对综合特征模型的阈值Y1进行调整时，模型自学习系统对一段时间内的结果数据进行正确性的校验，当发现Z1大于阈值Y1的时候，分析结果都是正确时，进而可以适当的降低Y1值进行后续的分析校验。当校验不正确时，则适当的提高阈值Y1的值，阈值Y1的值依据综合特征模型Z1的值的计算公式进行调整。

5.2得出归类结果

在进行语音样本的综合特征模型Z1的分析时设有阈值Y1，在所有语音样本中，若语音样本的综合特征模型分值Z1大于阈值Y1，则判定语音样本为同一类。

如图1所示，本发明同时提供了一种基于多种特征的音频内容一致性分析系统，包括数据查询管理系统，数据查询管理系统能够提供全量的语音样本、分析结果查询、权重参数管理、自学习管理功能；数据存储系统，数据存储系统与数据查询管理系统相连，数据存储系统采用分布式存储系统，大数据分析处理引擎能够为整个系统提供快速数据抓取、数据查询功能；实时分析系统，实时分析系统与数据存储系统相连，用于对语音样本进行基于多种特征的音频模型的实时分析；实时评分系统，实时评分系统与数据存储系统相连，用于对音频模型分析的结果进行评分设定，并得出评分结果；模型自学习系统，模型自学习系统与所述数据存储系统相连，模型自学习系统能够对历史的评分结果进行分析，通过自学习算法不断优化各模型特征权重和综合阈值。

本发明的数据查询管理系统、数据存储系统、实时分析系统、实时评分系统和模型自学习系统，能够通过系统模型权重自学习，有效发现调整各模型特征权重，通过实时分析不断完善系统各参数值，实现系统自动化。整个系统采用大数据分析、系统自学习、实时分析等技术，能够实现语音样本的准确聚类，使得本发明具有结果准确的特点。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明所包含。

Claims

1.一种基于多种特征的音频内容一致性分析方法，其特征在于，包括如下步骤：

步骤一：获取语音样本；

步骤三：对所述音频模型的分析结果进行评分设定；

步骤五：根据所述综合特征模型分析得出所述语音样本的分析结果；

在步骤二中，所述音频模型的分析包括对所述语音样本设定多种特征，并对多种特征赋予权重；

所述音频模型分析的特征包括内容聚类特征、文字语义理解特征、话题分类特征、宣传面向地特征、话题发生地特征、关键词特征和性别特征；

在步骤三中，进行所述评分设定时，分别从偏内容聚类特征和偏文字语义理解特征两方面设定多个特征的评分配置值。

2.根据权利要求1所述的基于多种特征的音频内容一致性分析方法，其特征在于：

所述内容聚类特征的权重为内容聚类权重；所述文字语义理解特征的权重为文字语义理解权重；所述话题分类特征的权重为话题分类权重；所述宣传面向地特征的权重为宣传面向地权重；所述话题发生地特征的权重为话题发生地权重；所述关键词特征的权重为关键词权重；所述性别特征的权重为性别特征权重。

3.根据权利要求1所述的基于多种特征的音频内容一致性分析方法，其特征在于：

在步骤三中，进行所述评分设定时，单个特征的分值为评分配置值乘以单个特征的权重。

4.根据权利要求3所述的基于多种特征的音频内容一致性分析方法，其特征在于：

所述偏内容聚类特征的总分值和所述偏文字语义理解特征的总分值均为各单个特征的分值总和。

5.根据权利要求4所述的基于多种特征的音频内容一致性分析方法，其特征在于：

所述综合特征模型分析的总分值为所述偏内容聚类特征加权后的总分值和所述偏文字语义理解特征加权后的总分值之和的二分之一。

6.根据权利要求5所述的基于多种特征的音频内容一致性分析方法，其特征在于：

在步骤五中，进行所述综合特征模型分析时设有阈值，在所有所述语音样本中，若所述语音样本的所述综合特征模型的分值大于阈值，则判定所述语音样本为同一类。

7.一种基于多种特征的音频内容一致性分析系统，其特征在于，包括：

数据查询管理系统，所述数据查询管理系统用于提供语音样本；

数据存储系统，所述数据存储系统与所述数据查询管理系统相连；

实时分析系统，所述实时分析系统与所述数据存储系统相连，用于对所述语音样本的音频模型进行基于多种特征的分析，所述音频模型的分析包括对所述语音样本设定多种特征，并对多种特征赋予权重；所述音频模型分析的特征包括内容聚类特征、文字语义理解特征、话题分类特征、宣传面向地特征、话题发生地特征、关键词特征和性别特征；

实时评分系统，所述实时评分系统与所述数据存储系统相连，用于对所述音频模型的分析结果进行评分设定；进行所述评分设定时，分别从偏内容聚类特征和偏文字语义理解特征两方面设定多个特征的评分配置值；

模型自学习系统，所述模型自学习系统与所述数据存储系统相连，用于对阈值和所述音频模型进行优化。