CN116312542A - 音频数据中的敏感信息识别方法和装置 - Google Patents
音频数据中的敏感信息识别方法和装置 Download PDFInfo
- Publication number
- CN116312542A CN116312542A CN202310302415.3A CN202310302415A CN116312542A CN 116312542 A CN116312542 A CN 116312542A CN 202310302415 A CN202310302415 A CN 202310302415A CN 116312542 A CN116312542 A CN 116312542A
- Authority
- CN
- China
- Prior art keywords
- data
- data points
- identification
- audio
- data point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000000528 statistical test Methods 0.000 claims abstract description 29
- 238000001617 sequential probability ratio test Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 10
- 238000009825 accumulation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012882 sequential analysis Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本说明书实施例提供一种音频数据中的敏感信息识别方法和装置,方法包括:获取待识别的第一音频数据;其包括按照时序排列的多个数据点,数据点具有对应的数值;将多个数据点按照时序顺序输入预先训练的识别模型,由识别模型基于预设时间窗口内的数据点对应的数值,输出预设时间窗口之后的下一个数据点的预测值;确定多个数据点中任一数据点的预测值与该数据点的数值的差值;将差值小于第一阈值的数据点划分为敏感信息,将差值大于或等于第一阈值的数据点划分为非敏感信息,得到多个数据点分别对应的初始识别类别;利用统计检验方式对初始识别类别进行优化,得到多个数据点分别对应的优化识别类别。能够以较低的算力消耗实现较高的识别准确率。
Description
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及音频数据中的敏感信息识别方法和装置。
背景技术
企业、组织或机构数字化转型过程中会产生大量的数据,其中有些数据属于敏感信息。敏感信息也称为敏感数据(sensitive data)或隐私数据(private data):指泄漏后可能会给社会或个人带来严重危害的数据。如果出现敏感信息的泄露,那么可能会对企业、组织或机构造成机密信息的泄露或财产的损失,形成一些违法违规的行为。因此企业、组织、或机构希望能够发现其数据资产中,哪些属于敏感数据,进而对敏感数据进行保护和溯源。
数据资产包括音频数据,音频数据通常为非结构化数据。现有技术中,针对音频数据的敏感信息识别,常常识别准确率不高,或者算力消耗过大。
发明内容
本说明书一个或多个实施例描述了一种音频数据中的敏感信息识别方法和装置,能够以较低的算力消耗实现较高的识别准确率。
第一方面,提供了一种音频数据中的敏感信息识别方法,方法包括:
获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值;
将所述多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型;
确定所述多个数据点中任一数据点的预测值与该数据点的数值的差值;
将差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息;
利用统计检验方式对所述初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。
在一种可能的实施方式中,所述识别模型采用如下方式进行训练:
获取第二音频数据;所述第二音频数据包括按照时序排列的属于敏感信息的多个敏感数据点,任一敏感数据点具有其对应的数值;
将多个敏感数据点按照所述时序顺序输入待训练的识别模型,由所述识别模型基于预设时间窗口内的敏感数据点对应的数值,输出所述预设时间窗口之后的下一个敏感数据点的预测值;
确定所述多个敏感数据点中任一敏感数据点的预测值与该敏感数据点的数值的差值,并基于各个敏感数据点分别对应的差值,确定总预测损失;
以最小化总预测损失为训练目标,调整所述识别模型的模型参数以得到训练后的识别模型。
进一步地,所述第二音频数据通过若干个音频片段拼接而成,所述音频片段中的各个数据点均属于敏感信息。
在一种可能的实施方式中,所述统计检验方式包括顺序概率比测试方式;所述利用统计检验方式对所述初始识别类别进行优化,包括:
获取所述多个数据点的前预设数目个数据点;
利用顺序概率比测试方式,确定所述前预设数目个数据点的优化识别类别;
将所述前预设数目个数据点的初始识别类别更新为对应的优化识别类别。
进一步地,所述顺序概率比测试方式包括:
基于噪声符合高斯分布的假定,确定所述前预设数目个数据点为噪声的第一概率;
利用所述识别模型输出的预测值,确定所述前预设数目个数据点为噪声的第二概率;
对第一概率和第二概率的比值取对数,得到对数结果;
根据所述对数结果与第二阈值进行比较,确定所述前预设数目个数据点对应的优化识别类别。
进一步地,所述第二阈值是预先从0和大于0的若干数据中择优选取的。
在一种可能的实施方式中,所述统计检验方式包括累积和方式;所述利用统计检验方式对所述初始识别类别进行优化,包括:
利用累积和方式,对所述多个数据点针对统计量进行累加计算,确定所述统计量突变的时间点;
根据所述时间点之前的第一数据点的初始识别类别,确定所述时间点之后的第二数据点的优化识别类别;所述第二数据点的优化识别类别与第一数据点的初始识别类别不同。
在一种可能的实施方式中,所述获取待识别的第一音频数据,包括:
将原始音频按照所述时序顺序输入维纳滤波器,通过所述维纳滤波器输出所述第一音频数据。
在一种可能的实施方式中,所述方法还包括:
根据所述多个数据点分别对应的优化识别类别,从所述第一音频数据中提取敏感信息音频片段。
第二方面,提供了一种音频数据中的敏感信息识别装置,装置包括:
获取单元,用于获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值;
预测单元,用于将所述获取单元获取的多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型;
确定单元,用于确定所述预测单元得到的所述多个数据点中任一数据点的预测值与该数据点的数值的差值;
识别单元,用于将所述确定单元得到的差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息;
优化单元,用于利用统计检验方式对所述识别单元得到的初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值;然后将所述多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型;接着确定所述多个数据点中任一数据点的预测值与该数据点的数值的差值;再将差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息;最后利用统计检验方式对所述初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。由上可见,本说明书实施例,不需要将音频转换为文本后进行敏感信息的识别,而是直接对音频进行时间序列的计算,通过统计学习模型和统计检验方式共同实现对音频中敏感信息的识别,从而能够以较低的算力消耗实现较高的识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的音频数据中的敏感信息识别方法流程图;
图3示出根据一个实施例的音频数据中的敏感信息识别装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及音频数据中的敏感信息识别,敏感信息也称为敏感数据(sensitive data)或隐私数据(privatedata):指泄漏后可能会给社会或个人带来严重危害的数据。可以理解的是,音频数据可以对应于一个音频文件,例如,后缀为.mp3结尾的文件就属于音频文件,一个音频文件中可能包含敏感信息,也可能不包含敏感信息。一个音频数据包括按照时序排列的多个数据点,本说明书实施例,需要识别出各个数据点各自是否属于敏感信息。参照图1,示出一个音频数据的时序图,其包括按照时序排列的多个数据点,每个数据点对应横轴上的一个具体时刻以及纵轴上的一个数值,各个数据点分别对应的数值可以构成一个时间序列。时间序列(time series):是指将同一统计指标的数值,按其发生的时间先后顺序排列而成的数列。
本说明书实施例,通过对音频数据进行时间序列的计算,可以得到各个数据点分别对应的识别类别,该识别类别用于指示对应的数据点是否属于敏感信息。例如,识别出t1和t2之间的数据点不属于敏感信息,t3和t4之间的数据点属于敏感信息,t5和t6之间的数据点不属于敏感信息,将不属于敏感信息的数据点标记其识别类别为0,将属于敏感信息的数据点标记其识别类别为1。
图2示出根据一个实施例的音频数据中的敏感信息识别方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中音频数据中的敏感信息识别方法包括以下步骤:步骤21,获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值;步骤22,将所述多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型;步骤23,确定所述多个数据点中任一数据点的预测值与该数据点的数值的差值;步骤24,将差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息;步骤25,利用统计检验方式对所述初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值。可以理解的是,各个数据点分别对应的数值可以构成一个时间序列。
在一个示例中,所述获取待识别的第一音频数据,包括:
将原始音频按照所述时序顺序输入维纳滤波器,通过所述维纳滤波器输出所述第一音频数据。
该示例中,维纳滤波器(wiener filter)用于对原始音频中的环境音量进行降噪处理。利用维纳滤波器尽可能从原始音频中分离出环境噪音与麦克风矩阵信号,第一音频数据作为预处理的时间序列数据用于识别模型的预测,有利于保证后续识别模型的预测准确性。
然后在步骤22,将所述多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型。可以理解的是,识别模型的预测与各个数据点的时序有关,该预测属于基于时间序列的预测。
本说明书实施例,识别模型是一种统计学习模型。统计学习模型(statisticalmodel):对一组数据点进行统计学和数学上的特征提取,实现回归、预测等仅通过硬编码规则无法实现的功能。
举例来说,上述预设时间窗口的长度为100,所述识别模型可以基于时间0到100的数据点得到时间101的数据点的预测值。
在一个示例中,所述识别模型采用如下方式进行训练:
获取第二音频数据;所述第二音频数据包括按照时序排列的属于敏感信息的多个敏感数据点,任一敏感数据点具有其对应的数值;
将多个敏感数据点按照所述时序顺序输入待训练的识别模型,由所述识别模型基于预设时间窗口内的敏感数据点对应的数值,输出所述预设时间窗口之后的下一个敏感数据点的预测值;
确定所述多个敏感数据点中任一敏感数据点的预测值与该敏感数据点的数值的差值,并基于各个敏感数据点分别对应的差值,确定总预测损失;
以最小化总预测损失为训练目标,调整所述识别模型的模型参数以得到训练后的识别模型。
进一步地,所述第二音频数据通过若干个音频片段拼接而成,所述音频片段中的各个数据点均属于敏感信息。
本说明书实施例,上述若干个音频片段可以来自于相同或不同的音频文件,例如,音频片段1和音频片段2来自于音频文件1,音频片段3来自于音频文件2,音频片段4和音频片段5来自于音频文件3,可以将音频片段1、音频片段2、音频片段3、音频片段4和音频片段5拼接为第二音频数据。
此外,在对识别模型进行训练的过程中可以涉及如下的处理过程。
首先,准备多个原始音频构成的数据集,上述原始音频中包含敏感数据。其来源包括如下至少一种:通过开源渠道获取的原始音频;人工产出一些原始音频;自动生产的原始音频,如使用软件对一个敏感文本内容发出读音产出的原始音频;部分经过授权的原始音频。本说明书实施例,对于敏感数据的具体内容不做限定,如音频中出现的合同被分类分级规则认为是敏感数据。
然后,将上述数据集按比例区分为训练集、验证集和测试集。
接着,利用维纳滤波器对原始音频中的环境音量进行降噪处理,尽可能从原始音频中分离出环境噪音与麦克风矩阵信号,将滤波后的音频数据作为预处理的时间序列数据用于后续识别模型的训练,有利于提高模型训练效果,保证训练后的识别模型的识别准确性。
再利用滤波后的训练集、验证集和测试集训练识别模型:应用在一组时间序列的音频数据中,得到能够命中敏感信息的识别模型。使用基于机器学习的回归算法,应用均方误差(mean spared error)损失函数,为了轻量和高效,直接实现底层数学公式。
其中,k为预设时间窗口内的数据点的时间索引,K为预设时间窗口的长度,n为待预测的数据点的时间索引,wk为识别模型的模型参数,xk(n)为预设时间窗口内的数据点或者该数据点的数值,y(n)为待预测的数据点或该数据点的预测值。
w(i+1)=w(i)+2×μ×e(i)×x(i);
其中,w(i)代表向量,wi代表向量中的一个元素,L与K的含义相同,μ为超参数。
e(i)=d(i)-y(i);
其中,d(i)为数据点i的数值,y(i)为数据点i的预测值,e(i)为二者的差值。
本说明书实施例,可以通过最小均方误差(least mean square error,LMS)优化准则对时间序列进行迭代,以调整识别模型的模型参数。调参方式可以包括:根据音频大小,调整迭代次数epoch。越小的音频epoch越大。例如,百万数据点的音频大约在20-30epoch。得到一组K阶的优化参数W[k],应用最后一个参数w将得到较优的效果。
在对识别模型训练结束后,应用参数W[k]对测试数据点进行预测,由于非敏感数据缺少训练过程,在应用过程中产生的误差将较大。通过对误差e与预设阈值的对比,可以选取到部分符合阈值误差的数据点,判断出这一部分数据点为敏感数据,将敏感数据标记为1,其他数据为非敏感数据,将非敏感数据标记为0。
接着在步骤23,确定所述多个数据点中任一数据点的预测值与该数据点的数值的差值。可以理解的是,不同数据点的数值通常不同。
本说明书实施例,利用了识别模型对敏感信息和非敏感信息预测准确性的不同,对敏感信息进行识别,对于敏感信息预测准确性高,上述差值会较小,对于非敏感信息预测准确性低,上述差值会较大。接着在步骤24,将差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息。可以理解的是,上述初始识别类别可能存在类别划分不够准确的情况,后续可以针对初始识别类别做进一步的优化处理。
最后在步骤25,利用统计检验方式对所述初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。可以理解的是,上述统计检验方式具体可以包括一种或多种方式,有些数据点的初始识别类别与其优化识别类别相同,有些数据点的初始识别类别与其优化识别类别不同。
统计检验(statistical test):基于统计的假设性检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
在一个示例中,所述统计检验方式包括顺序概率比测试方式;所述利用统计检验方式对所述初始识别类别进行优化,包括:
获取所述多个数据点的前预设数目个数据点;
利用顺序概率比测试方式,确定所述前预设数目个数据点的优化识别类别;
将所述前预设数目个数据点的初始识别类别更新为对应的优化识别类别。
该示例中,针对模型慢启动给识别准确率带来的影响,选择在音频开始时的初次识别的结果为0或1的初始化工作。例如,选择初始数据点为整个音频的千分之一,假定整个音频包括1,000,000个数据点,则选取前1000个数据点进行优化,能够提升音频初始部分的敏感数据的识别准确率。
进一步地,所述顺序概率比测试方式包括:
基于噪声符合高斯分布的假定,确定所述前预设数目个数据点为噪声的第一概率;
利用所述识别模型输出的预测值,确定所述前预设数目个数据点为噪声的第二概率;
对第一概率和第二概率的比值取对数,得到对数结果;
根据所述对数结果与第二阈值进行比较,确定所述前预设数目个数据点对应的优化识别类别。
进一步地,所述第二阈值是预先从0和大于0的若干数据中择优选取的。
当第二阈值选择为0时,根据J(n)结果正负判断选择初始化值:Pi为前述第一概率,Pj为前述第二概率。如果J(n)结果为负则初始数据点标记为1,也就是说,音频开始即为敏感数据,否则初始数据点标记为0,这属于大多数情况,也就是说,音频开始为噪音、无声,或者其他谈话、声音。
本说明书实施例,可以对第二阈值从0开始调优,第二阈值可以择优选取。例如第二阈值可以为0.1,此时可以根据J(n)结果大于或小于0.1来区分音频初始部分是否为敏感数据。
在一个示例中,所述统计检验方式包括累积和方式;所述利用统计检验方式对所述初始识别类别进行优化,包括:
利用累积和方式,对所述多个数据点针对统计量进行累加计算,确定所述统计量突变的时间点;
根据所述时间点之前的第一数据点的初始识别类别,确定所述时间点之后的第二数据点的优化识别类别;所述第二数据点的优化识别类别与第一数据点的初始识别类别不同。
该示例中,采用了序贯分析的统计检验方式。序贯分析(sequential analysis):不确定样本数量,先抽样少量样本,对现有结果进行分析决定是否继续进行。
举例来说,累积和(cumulative sum,CUSUM)方式用于进行敏感数据点处识别的平滑处理和异常检测。信号序列在未发生突变之前,CUSUM统计量g(k)是一个在0附近随机波动的变量。信号发生突变,当发生正向偏移时g(k+)就会不断增大,也就是一个累计的过程。当发生反向偏移时g(k-)不断累计。当累积达到一定的程度(例如,超过设定的阈值)时就可以认为已经发生了信号突变,这样暂态信号就监测出来了。根据延迟时间d还可以推算出发生信号突变的时间。基于滑动窗的CUSUM变点检测试验过程,通过计算数据量间的差值,获取到数据变化行为,从而对相关点进行识别修改。例如,在识别到敏感数据前的一段数据点,已经可以归类为敏感数据,但是识别模型的误差e可能会有下降的趋势,但没有下降到阈值以内。通过此CUSUM方式可以实现将识别模型识别出的敏感数据前后的点值进行加工变更,从而进一步精确命中的范围。
本说明书实施例,使用时间序列的机器学习原理结合统计假设性检验以及序贯分析的方法,使用轻量模型达到较好的敏感信息预测效果。
在一个示例中,所述方法还包括:
根据所述多个数据点分别对应的优化识别类别,从所述第一音频数据中提取敏感信息音频片段。
举例来说,对音频进行0、1打标后,可以确认其中是否包含敏感信息以及敏感信息的位置,其位置指的是时间位置,可以达到秒级。根据敏感数据的识别结果,可以从经过维纳滤波器过滤的音频直接提取到敏感音频内容,用于后续的分析,保护等数据安全相关的操作。
通过本说明书实施例提供的方法,首先获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值;然后将所述多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型;接着确定所述多个数据点中任一数据点的预测值与该数据点的数值的差值;再将差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息;最后利用统计检验方式对所述初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。由上可见,本说明书实施例,不需要将音频转换为文本后进行敏感信息的识别,而是直接对音频进行时间序列的计算,通过统计学习模型和统计检验方式共同实现对音频中敏感信息的识别,从而能够以较低的算力消耗实现较高的识别准确率。
根据另一方面的实施例,还提供一种音频数据中的敏感信息识别装置,该装置用于执行本说明书实施例提供的方法。图3示出根据一个实施例的音频数据中的敏感信息识别装置的示意性框图。如图3所示,该装置300包括:
获取单元31,用于获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值;
预测单元32,用于将所述获取单元31获取的多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型;
确定单元33,用于确定所述预测单元32得到的所述多个数据点中任一数据点的预测值与该数据点的数值的差值;
识别单元34,用于将所述确定单元33得到的差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息;
优化单元35,用于利用统计检验方式对所述识别单元34得到的初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。
可选地,作为一个实施例,所述识别模型采用如下方式进行训练:
获取第二音频数据;所述第二音频数据包括按照时序排列的属于敏感信息的多个敏感数据点,任一敏感数据点具有其对应的数值;
将多个敏感数据点按照所述时序顺序输入待训练的识别模型,由所述识别模型基于预设时间窗口内的敏感数据点对应的数值,输出所述预设时间窗口之后的下一个敏感数据点的预测值;
确定所述多个敏感数据点中任一敏感数据点的预测值与该敏感数据点的数值的差值,并基于各个敏感数据点分别对应的差值,确定总预测损失;
以最小化总预测损失为训练目标,调整所述识别模型的模型参数以得到训练后的识别模型。
进一步地,所述第二音频数据通过若干个音频片段拼接而成,所述音频片段中的各个数据点均属于敏感信息。
可选地,作为一个实施例,所述统计检验方式包括顺序概率比测试方式;所述优化单元35包括:
获取字单元,用于获取所述多个数据点的前预设数目个数据点;
第一确定子单元,用于利用顺序概率比测试方式,确定所述获取字单元获取的前预设数目个数据点的优化识别类别;
更新子单元,用于将所述前预设数目个数据点的初始识别类别更新为所述第一确定子单元确定的对应的优化识别类别。
进一步地,所述顺序概率比测试方式包括:
基于噪声符合高斯分布的假定,确定所述前预设数目个数据点为噪声的第一概率;
利用所述识别模型输出的预测值,确定所述前预设数目个数据点为噪声的第二概率;
对第一概率和第二概率的比值取对数,得到对数结果;
根据所述对数结果与第二阈值进行比较,确定所述前预设数目个数据点对应的优化识别类别。
进一步地,所述第二阈值是预先从0和大于0的若干数据中择优选取的。
可选地,作为一个实施例,所述统计检验方式包括累积和方式;所述优化单元35包括:
第二确定子单元,用于利用累积和方式,对所述多个数据点针对统计量进行累加计算,确定所述统计量突变的时间点;
第三确定子单元,用于根据所述第二确定子单元确定的时间点之前的第一数据点的初始识别类别,确定所述时间点之后的第二数据点的优化识别类别;所述第二数据点的优化识别类别与第一数据点的初始识别类别不同。
可选地,作为一个实施例,所述获取单元31,具体用于将原始音频按照所述时序顺序输入维纳滤波器,通过所述维纳滤波器输出所述第一音频数据。
可选地,作为一个实施例,所述装置还包括:
提取单元,用于根据所述多个数据点分别对应的优化识别类别,从所述第一音频数据中提取敏感信息音频片段。
通过本说明书实施例提供的装置,首先由获取单元31获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值;然后利用预测单元32将所述多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型;接着由确定单元33确定所述多个数据点中任一数据点的预测值与该数据点的数值的差值;再由识别单元34将差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息;最后由优化单元35利用统计检验方式对所述初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。由上可见,本说明书实施例,不需要将音频转换为文本后进行敏感信息的识别,而是直接对音频进行时间序列的计算,通过统计学习模型和统计检验方式共同实现对音频中敏感信息的识别,从而能够以较低的算力消耗实现较高的识别准确率。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (12)
1.一种音频数据中的敏感信息识别方法,所述方法包括:
获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值;
将所述多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型;
确定所述多个数据点中任一数据点的预测值与该数据点的数值的差值;
将差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息;
利用统计检验方式对所述初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。
2.如权利要求1所述的方法,其中,所述识别模型采用如下方式进行训练:
获取第二音频数据;所述第二音频数据包括按照时序排列的属于敏感信息的多个敏感数据点,任一敏感数据点具有其对应的数值;
将多个敏感数据点按照所述时序顺序输入待训练的识别模型,由所述识别模型基于预设时间窗口内的敏感数据点对应的数值,输出所述预设时间窗口之后的下一个敏感数据点的预测值;
确定所述多个敏感数据点中任一敏感数据点的预测值与该敏感数据点的数值的差值,并基于各个敏感数据点分别对应的差值,确定总预测损失;
以最小化总预测损失为训练目标,调整所述识别模型的模型参数以得到训练后的识别模型。
3.如权利要求2所述的方法,其中,所述第二音频数据通过若干个音频片段拼接而成,所述音频片段中的各个数据点均属于敏感信息。
4.如权利要求1所述的方法,其中,所述统计检验方式包括顺序概率比测试方式;所述利用统计检验方式对所述初始识别类别进行优化,包括:
获取所述多个数据点的前预设数目个数据点;
利用顺序概率比测试方式,确定所述前预设数目个数据点的优化识别类别;
将所述前预设数目个数据点的初始识别类别更新为对应的优化识别类别。
5.如权利要求4所述的方法,其中,所述顺序概率比测试方式包括:
基于噪声符合高斯分布的假定,确定所述前预设数目个数据点为噪声的第一概率;
利用所述识别模型输出的预测值,确定所述前预设数目个数据点为噪声的第二概率;
对第一概率和第二概率的比值取对数,得到对数结果;
根据所述对数结果与第二阈值进行比较,确定所述前预设数目个数据点对应的优化识别类别。
6.如权利要求5所述的方法,其中,所述第二阈值是预先从0和大于0的若干数据中择优选取的。
7.如权利要求1所述的方法,其中,所述统计检验方式包括累积和方式;所述利用统计检验方式对所述初始识别类别进行优化,包括:
利用累积和方式,对所述多个数据点针对统计量进行累加计算,确定所述统计量突变的时间点;
根据所述时间点之前的第一数据点的初始识别类别,确定所述时间点之后的第二数据点的优化识别类别;所述第二数据点的优化识别类别与第一数据点的初始识别类别不同。
8.如权利要求1所述的方法,其中,所述获取待识别的第一音频数据,包括:
将原始音频按照所述时序顺序输入维纳滤波器,通过所述维纳滤波器输出所述第一音频数据。
9.如权利要求1所述的方法,其中,所述方法还包括:
根据所述多个数据点分别对应的优化识别类别,从所述第一音频数据中提取敏感信息音频片段。
10.一种音频数据中的敏感信息识别装置,所述装置包括:
获取单元,用于获取待识别的第一音频数据;所述第一音频数据包括按照时序排列的多个数据点,任一数据点具有其对应的数值;
预测单元,用于将所述获取单元获取的多个数据点按照所述时序顺序输入预先训练的识别模型,由所述识别模型基于预设时间窗口内的数据点对应的数值,输出所述预设时间窗口之后的下一个数据点的预测值;所述识别模型为统计学习模型;
确定单元,用于确定所述预测单元得到的所述多个数据点中任一数据点的预测值与该数据点的数值的差值;
识别单元,用于将所述确定单元得到的差值小于第一阈值的数据点初步划分为敏感信息,将差值大于或等于所述第一阈值的数据点初步划分为非敏感信息,从而得到所述多个数据点分别对应的初始识别类别;所述识别类别用于指示对应的数据点是否属于敏感信息;
优化单元,用于利用统计检验方式对所述识别单元得到的初始识别类别进行优化,得到所述多个数据点分别对应的优化识别类别。
11.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。
12.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项的所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310302415.3A CN116312542A (zh) | 2023-03-24 | 2023-03-24 | 音频数据中的敏感信息识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310302415.3A CN116312542A (zh) | 2023-03-24 | 2023-03-24 | 音频数据中的敏感信息识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116312542A true CN116312542A (zh) | 2023-06-23 |
Family
ID=86835871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310302415.3A Pending CN116312542A (zh) | 2023-03-24 | 2023-03-24 | 音频数据中的敏感信息识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312542A (zh) |
-
2023
- 2023-03-24 CN CN202310302415.3A patent/CN116312542A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
CN109308912B (zh) | 音乐风格识别方法、装置、计算机设备及存储介质 | |
US11527259B2 (en) | Learning device, voice activity detector, and method for detecting voice activity | |
CN111338692B (zh) | 基于漏洞代码的漏洞分类方法、装置及电子设备 | |
CN109584881B (zh) | 基于语音处理的号码识别方法、装置及终端设备 | |
CN111081223A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
Avila et al. | Bayesian restoration of audio signals degraded by impulsive noise modeled as individual pulses | |
CN110009012B (zh) | 一种风险样本识别方法、装置及电子设备 | |
CN113782036A (zh) | 音频质量评估方法、装置、电子设备和存储介质 | |
US20240086707A1 (en) | Device, method, program, and system for detecting unidentified water | |
Mirbeygi et al. | RPCA-based real-time speech and music separation method | |
CN116166967B (zh) | 基于元学习与残差网络的数据处理方法、设备和存储介质 | |
CN114168788A (zh) | 音频审核的处理方法、装置、设备及存储介质 | |
CN115083422B (zh) | 语音溯源取证方法及装置、设备及存储介质 | |
CN116312542A (zh) | 音频数据中的敏感信息识别方法和装置 | |
CN113921030B (zh) | 一种基于加权语音损失的语音增强神经网络训练方法及装置 | |
CN113327617B (zh) | 声纹判别方法、装置、计算机设备和存储介质 | |
CN113421590B (zh) | 异常行为检测方法、装置、设备及存储介质 | |
CN115472179A (zh) | 面向数字音频删除和插入篡改操作自动检测方法及系统 | |
CN111354352B (zh) | 一种用于音频检索的模板自动清洗方法及系统 | |
Ghezaiel et al. | Nonlinear multi-scale decomposition by EMD for Co-Channel speaker identification | |
CN112131541A (zh) | 一种基于振动信号的身份验证方法和系统 | |
JP5438703B2 (ja) | 特徴量強調装置、特徴量強調方法、及びそのプログラム | |
CN113239075A (zh) | 一种施工数据自检方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |