CN113205801B - 恶意语音样本的确定方法、装置、计算机设备和存储介质 - Google Patents
恶意语音样本的确定方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113205801B CN113205801B CN202110498059.8A CN202110498059A CN113205801B CN 113205801 B CN113205801 B CN 113205801B CN 202110498059 A CN202110498059 A CN 202110498059A CN 113205801 B CN113205801 B CN 113205801B
- Authority
- CN
- China
- Prior art keywords
- malicious
- voice sample
- voice
- category
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000013145 classification model Methods 0.000 claims description 93
- 238000001514 detection method Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 description 14
- 238000004220 aggregation Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005054 agglomeration Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000005494 condensation Effects 0.000 description 3
- 238000009833 condensation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000005354 coacervation Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及一种恶意语音样本的确定方法、装置、计算机设备和存储介质。该方法包括:获取初始语音样本集;根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集;根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度;将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。本方法基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
Description
技术领域
本申请涉及语音处理技术领域,特别是涉及一种恶意语音样本的确定方法、装置、计算机设备和存储介质。
背景技术
随着语音传输技术的快速发展,出现了恶意语音检测技术。恶意语音检测技术是通过恶意语音检测模型来检测出恶意语音,例如诈骗语音,恐吓语音等等。通常,为保证恶意语音检测模型拥有较高的检测性能,需要采用不断更新的恶意语音样本对恶意语音检测模型进行训练并修正。
传统技术中,通常采用人工筛选方式确定恶意语音并进行标注,得到恶意语音样本。
然而,采用传统技术,恶意语音样本的确定效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高恶意语音样本确定效率的恶意语音样本的确定方法、装置、计算机设备和存储介质。
一种恶意语音样本的确定方法,所述方法包括:
获取初始语音样本集;
根据预设的多种恶意类别对所述初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集;
根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度;
将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。
在其中一个实施例中,所述将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本,包括:
获取所述每种恶意类别对应的语音样本子集中的语音样本的第一数量;
获取所述每种恶意类别对应的语音样本子集中添加有负向标记的语音样本的第二数量,其中,所述负向标记用于指示所述语音样本中包含负面语音内容;
根据所述第二数量与所述第一数量的比值,确定所述每种恶意类别对应的语音样本子集的恶意度。
在其中一个实施例中,所述根据所述第二数量与所述第一数量的比值,确定所述每种恶意类别对应的语音样本子集的恶意度,包括:
计算所述第二数量与所述第一数量的比值,得到所述每种恶意类别对应的语音样本子集的负面反馈因子;
获取所述初始语音样本集中的语音样本的第三数量;
计算所述第一数量与所述第三数量的比值,得到所述每种恶意类别对应的语音样本子集的传播影响因子;
根据所述负面反馈因子和所述传播影响因子,计算所述每种恶意类别对应的语音样本子集的恶意度。
在其中一个实施例中,所述方法还包括:
获取多个候选分类数量以及每个候选分类数量对应的语音分类模型,其中,所述每个候选分类数量对应的语音分类模型中的每个语音分类模型用于处理一种候选恶意类别的分类任务;
针对所述每个候选分类数量,将所述初始语音样本集中的每个语音样本分别输入至所述候选分类数量对应的语音分类模型进行多种候选恶意类别的分类,得到所述每个语音样本所属多种候选恶意类别对应的多个置信度;
针对所述每个候选分类数量,从所述每个语音样本所属的多种候选恶意类别中选取所述置信度满足预设的第一置信度条件的候选恶意类别,确定为所述每个语音样本所属的第一恶意类别;
针对所述每个候选分类数量,根据所述每个语音样本所属第一恶意类别对应的第一置信度和所述每个语音样本所属第二恶意类别对应的第二置信度,确定所述每个候选分类数量对应的分类契合度总和,其中,所述第二恶意类别为所述多种候选恶意类别中除所述第一恶意类别之外的候选恶意类别;
将所述多个候选分类数量中所述分类契合度总和满足预设契合度总和条件的候选分类数量对应的多种候选恶意类别,确定为所述预设的多种恶意类别。
在其中一个实施例中,所述方法还包括:
获取每个候选分类数量对应的初始语音分类模型;
针对所述每个候选分类数量,将所述初始语音样本集中的每个语音样本分别输入至所述候选分类数量的初始语音分类模型进行多种恶意类别的分类,得到所述每个语音样本所属多种恶意类别对应的多个置信度,从所述每个语音样本所属的多种恶意类别中选取所述置信度满足预设的第二置信度条件的恶意类别,确定为所述每个语音样本所属的第三恶意类别;
针对所述每个候选分类数量,将所述第三恶意类别对应的语音样本输入至所述候选分类数量对应的初始语音分类模型进行训练,得到所述候选分类数量对应的训练好的语音分类模型;
针对所述每个候选分类数量,将所述初始语音样本集中的每个语音样本分别输入至所述候选分类数量对应的训练好的语音分类模型进行多种恶意类别的分类,得到所述每个语音样本所属多种恶意类别对应的多个置信度,从所述每个语音样本所属的多种恶意类别中选取所述置信度满足所述预设的第二置信度条件的恶意类别,确定为所述每个语音样本所属的第四恶意类别;
若所述第四恶意类别与所述第三恶意类别相同,则将候选分类数量对应的训练好的语音分类模型确定为所述候选分类数量对应的语音分类模型;
若所述第四恶意类别与所述第三恶意类别不同,则将所述第四恶意类别对应的语音样本作为所述第三恶意类别对应的语音样本,并返回执行针对所述每个候选分类数量,将所述第三恶意类别对应的语音样本输入至所述候选分类数量对应的初始语音分类模型进行训练的步骤,直到所述第四恶意类别与所述第三恶意类别相同。
在其中一个实施例中,所述针对所述每个候选分类数量,根据所述每个语音样本所属第一恶意类别对应的第一置信度和所述每个语音样本所属第二恶意类别对应的第二置信度,确定所述每个候选分类数量对应的分类契合度总和,包括:
根据所述每个候选分类数量对应的每个语音样本所属第二恶意类别对应的第二置信度,计算所述每个候选分类数量对应的每个语音样本的类间区分度;
将所述每个候选分类数量对应的每个语音样本所属第一恶意类别对应的第一置信度,确定为所述每个候选分类数量对应的每个语言样本的类内相似度;
计算所述类内相似度与所述类间区分度之间的乘积结果与所述类内相似度与所述类间区分度之间的相加结果的比值,得到所述每个候选分类数量对应的每个语音样本的分类契合度;
将所述每个候选分类数量对应的每个语音样本的分类契合度进行累加,得到所述每个候选分类数量对应的分类契合度总和。
一种恶意语音检测方法,所述方法包括:
获取待检测的语音;
将所述待检测的语音输入至恶意语音检测模型,确定恶意语音;
其中,所述恶意语音检测模型是根据恶意语音样本训练得到的;所述恶意语音样本是通过根据预设的多种恶意类别对初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集,并根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度,以及选取所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本得到的。
一种恶意语音样本的确定装置,所述装置包括:
语音样本获取模块,用于获取初始语音样本集;
语音样本分类模块,用于根据预设的多种恶意类别对所述初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集;
恶意度计算模块,用于根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度;
语音样本确定模块,用于将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取初始语音样本集;
根据预设的多种恶意类别对所述初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集;
根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度;
将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取初始语音样本集;
根据预设的多种恶意类别对所述初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集;
根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度;
将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。
上述恶意语音样本的确定方法、装置、计算机设备和存储介质,先将初始语音样本集划分为多种恶意类别对应的语音样本子集,并基于语音样本信息分别计算每种恶意类别对应的语音样本子集的恶意度,从而将恶意度较高的恶意类别对应的语音样本子集中的语音样本确定为恶意语音样本。本申请基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
附图说明
图1为一个实施例中恶意语音样本的确定方法的流程示意图;
图2为一个实施例中确定语音样本对应的多种恶意类别的流程示意图;
图3为另一个实施例中恶意语音样本的确定方法的流程示意图;
图4为一个实施例中恶意语音样本的确定装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种恶意语音样本的确定方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S102,获取初始语音样本集。
其中,初始语音样本集是由多个语音样本构成的集合。
具体地,服务器获取初始语音样本集。可选地,服务器以预设间隔(例如5小时、8小时等)收集一次新的语音数据集,并对该新的语音数据集进行清洗、重复信息删除、错误纠正以及数据格式统一等预处理,得到初始语音样本集。可选地,服务器也可以直接将以预设间隔收集的语音数据集作为初始语音样本集。
步骤S104,根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集。
其中,恶意类别用于区分不同恶意性质的语音样本。可选地,恶意类别包括诈骗类别、恐吓类别、推销类别等等。
具体地,服务器根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集。可选地,服务器将初始语音样本集中的每个语音样本分别输入至多个语音分类模型,其中每个语音分类模型输出每个语音样本所属一种恶意类别对应的置信度,因此该多个语音分类模型可对每个语音样本进行多种恶意类别的分类,并输出每个语音样本所属多种恶意类别对应的多个置信度。然后,服务器从每个语音样本所属的多种恶意类别中选取置信度满足预设的置信度条件的恶意类别,确定为每个语音样本所属的恶意类别。在初始语音样本集中的所有语音样本都分类完成后,将所属同一恶意类别的语音样本进行汇集,得到多种恶意类别中每种恶意类别对应的语音样本子集。
步骤S106,根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度。
其中,语音样本信息是指表征语言样本属性的信息。可选地,语音样本信息包括语音样本的数量、语言样本添加的标记信息等等。
具体地,服务器根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度。可选地,服务器根据每种恶意类别对应的语音样本子集中的语音样本的第一数量、每种恶意类别对应的语音样本子集中添加有负向标记的语音样本的第二数量,计算每种恶意类别对应的语音样本子集的恶意度。其中,负向标记用于指示语音样本中包含负面语音内容。例如,负面语音内容包括推销内容、诈骗内容等等。可选地,服务器根据每种恶意类别对应的语音样本子集中的语音样本的第一数量、每种恶意类别对应的语音样本子集中添加有正向标记的语音样本的第二数量,计算每种恶意类别对应的语音样本子集的恶意度。其中,正向标记用于指示语音样本中包含非负面语音内容。
步骤S108,将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。
具体地,服务器将多种恶意类别对应的语音样本子集中恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。可选地,预设恶意度条件可以是恶意度最高、恶意度次高或者恶意度满足恶意度阈值ε等等。
上述恶意语音样本的确定方法中,先将初始语音样本集划分为多种恶意类别对应的语音样本子集,并基于语音样本信息分别计算每种恶意类别对应的语音样本子集的恶意度,从而将恶意度较高的恶意类别对应的语音样本子集中的语音样本确定为恶意语音样本。本方法基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
在一个实施例中,涉及上述步骤S108“将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本”的一种可能的实现方式。在上述实施例的基础上,步骤S108具体可以通过以下步骤实现:
步骤S1082,获取每种恶意类别对应的语音样本子集中的语音样本的第一数量;
步骤S1084,获取每种恶意类别对应的语音样本子集中添加有负向标记的语音样本的第二数量;
步骤S1086,根据第二数量与第一数量的比值,确定每种恶意类别对应的语音样本子集的恶意度。
其中,添加有负向标记的语音样本可以是用户手动添加负向标记的语音样本。例如,用户针对某一段语音数据进行了举报,则该语音数据会被添加负向标记;或者,用户在短时间内删除了某段语音,则该语音数据也会被添加负向标记。添加有负向标记的语音样本也可以是服务器自动添加负向标记的语音样本。例如,服务器获取语音数据并将其转化为文本数据,通过对该文本数据进行内容分析来确定是否对其添加负向标记。
具体地,服务器一方面统计每种恶意类别对应的语音样本子集中的语音样本的第一数量,另一方面获取每种恶意类别对应的语音样本子集中添加有负向标记的语音样本,并统计添加有负向标记的语音样本的第二数量。然后,服务器根据第二数量与第一数量的比值,确定每种恶意类别对应的语音样本子集的恶意度。
可选地,在一个实施例中,步骤S1086的实现方式为:
步骤S108’,将第二数量与第一数量的比值,确定每种恶意类别对应的语音样本子集的恶意度。
具体地,假设第j种恶意类别样本中对应的语音样本子集中的语音样本的第一数量表示为Nj,第j种恶意类别样本中对应的语音样本子集中添加有负向标记的语音样本的第二数量表示为Nj harm,则第j种恶意类别样本中对应的语音样本子集的恶意度表示为:其中,pj越高,表明该类语音样本子集中的语音样本更可能是一种恶意语音样本。
本实施例中,将第二数量与第一数量的比值作为每种恶意类别对应的语音样本子集的恶意度,简单高效,有利于提高恶意语音样本确定的准确性。
可选地,在另一个实施例中,步骤S1086的实现方式为:
步骤S108a,计算第二数量与第一数量的比值,得到每种恶意类别对应的语音样本子集的负面反馈因子;
步骤S108b,获取初始语音样本集中的语音样本的第三数量;
步骤S108c,计算第一数量与第三数量的比值,得到每种恶意类别对应的语音样本子集的传播影响因子;
步骤S108d,根据负面反馈因子和传播影响因子,计算每种恶意类别对应的语音样本子集的恶意度。
其中,负面反馈因子用于表征每种恶意类别对应的语音样本子集中包含的负面语音内容的恶意程度。传播影响因子用于表征每种恶意类别对应的语音样本子集的传播影响力。
具体地,服务器计算第二数量Nj harm与第一数量Nj的比值,得到第j种恶意类别对应的语音样本子集的负面反馈因子:另一方面,服务器获取初始语音样本集中的语音样本的第三数量N,并计算第一数量Nj与第三数量N的比值,得到第j种恶意类别对应的语音样本子集的传播影响因子:/>然后,服务器根据负面反馈因子和传播影响因子,计算第j种恶意类别对应的语音样本子集的恶意度。可选地,服务器计算负面反馈因子和传播影响因子的乘积,得到第j种恶意类别对应的语音样本子集的恶意度:hj=fj×pj。可选地,服务器将负面反馈因子和传播影响因子相加,得到第j种恶意类别对应的语音样本子集的恶意度:hj=fj+pj。
可选地,在添加有负向标记的语音样本为用户手动添加负向标记的语音样本时,负面反馈因子也可以称之为用户行为反馈因子。
本实施例中,采用每种恶意类别对应的语音样本子集的负面反馈因子和传播影响因子来计算每种恶意类别对应的语音样本子集的恶意度,考虑因素多样,有利于提高恶意语音样本确定的准确性。
在一个实施例中,如图2所示,该方法还包括以下步骤:
步骤S111,获取多个候选分类数量以及每个候选分类数量对应的语音分类模型;
步骤S112,针对每个候选分类数量,将初始语音样本集中的每个语音样本分别输入至候选分类数量对应的语音分类模型进行多种候选恶意类别的分类,得到每个语音样本所属多种候选恶意类别对应的多个置信度;
步骤S113,针对每个候选分类数量,从每个语音样本所属的多种候选恶意类别中选取置信度满足预设的第一置信度条件的候选恶意类别,确定为每个语音样本所属的第一恶意类别;
步骤S114,针对每个候选分类数量,根据每个语音样本所属第一恶意类别对应的第一置信度和每个语音样本所属第二恶意类别对应的第二置信度,确定每个候选分类数量对应的分类契合度总和;
步骤S115,将多个候选分类数量中分类契合度总和满足预设契合度总和条件的候选分类数量对应的多种候选恶意类别,确定为预设的多种恶意类别。
其中,每个候选分类数量对应的语音分类模型中的每个语音分类模型用于处理一种候选恶意类别的分类任务。该语音分类模型为训练好的语音分类模型。可选地,语音分类模型可以是二分类模型,例如逻辑回归模型、支持向量机等等。
其中,第二恶意类别为多种候选恶意类别中除第一恶意类别之外的候选恶意类别。
具体地,服务器根据问题场景(例如诈骗语音场景、推销语音场景、恐吓语音场景等)确定候选分类数量为1~M,通常M为经验值,M可取100。假设M为80,那么,多个候选分类数量为1、2、3…k…80。候选分类数量对应的语音分类模型的数量也为1、2、3…k…80。针对候选分类数量k,服务器将初始语音样本集中的语音样本分别输入至候选分类数量对应的语音分类模型进行多种候选恶意类别的分类,得到每个语音样本所属多种候选恶意类别对应的多个置信度,例如针对第i个语音样本,分别用第j个语音分类模型进行分类判别,得到第i个语音样本所属第j个语音分类模型对应的候选恶意类别的置信度μj(i),其中,i=1,2,...,N;j=1,2,...,k。然后,针对每个候选分类数量,服务器从每个语音样本所属的多种候选恶意类别中选取置信度满足预设的第一置信度条件的候选恶意类别,确定为每个语音样本所属的第一恶意类别。可选地,第一置信度条件可以是置信度最高或者置信度次高等等。例如,服务器根据公式 确定为第i个语音样本所属的第一恶意类别。之后,针对每个候选分类数量,服务器根据每个语音样本所属第一恶意类别对应的第一置信度/>和每个语音样本所属第二恶意类别对应的第二置信度μj(i),j≠ci,确定每个候选分类数量对应的分类契合度总和。其中,/>表示第i个语音样本最终所属的语音分类模型,即第i个语音样本最终所属的第一恶意类别。最后,服务器将多个候选分类数量中分类契合度总和满足预设契合度总和条件的候选分类数量对应的多种候选恶意类别,确定为预设的多种恶意类别。可选地,预设契合度总和条件可以是契合度总和最高或者契合度总和次高等等。
本实施例中,从多个候选分类数量中选取满足预设契合度总和条件的候选分类数量对应的多种候选恶意类别,作为预设的多种恶意类别,如此使得多种恶意类别更接近于实际情况,有利于提高恶意语音样本确定的准确性。
在一个实施例中,该方法还包括以下步骤:
步骤S121,获取每个候选分类数量对应的初始语音分类模型;
步骤S122,针对每个候选分类数量,将初始语音样本集中的每个语音样本分别输入至候选分类数量的初始语音分类模型进行多种恶意类别的分类,得到每个语音样本所属多种恶意类别对应的多个置信度,从每个语音样本所属的多种恶意类别中选取置信度满足预设的第二置信度条件的恶意类别,确定为每个语音样本所属的第三恶意类别;
步骤S123,针对每个候选分类数量,将第三恶意类别对应的语音样本输入至候选分类数量对应的初始语音分类模型进行训练,得到候选分类数量对应的训练好的语音分类模型;
步骤S124,针对每个候选分类数量,将初始语音样本集中的每个语音样本分别输入至候选分类数量对应的训练好的语音分类模型进行多种恶意类别的分类,得到每个语音样本所属多种恶意类别对应的多个置信度,从每个语音样本所属的多种恶意类别中选取置信度满足预设的第二置信度条件的恶意类别,确定为每个语音样本所属的第四恶意类别;
步骤S125,若第四恶意类别与第三恶意类别相同,则将候选分类数量对应的训练好的语音分类模型确定为候选分类数量对应的语音分类模型;
步骤S126,若第四恶意类别与第三恶意类别不同,则将第四恶意类别对应的语音样本作为第三恶意类别对应的语音样本,并返回执行针对每个候选分类数量,将第三恶意类别对应的语音样本输入至候选分类数量对应的初始语音分类模型进行训练的步骤,直到第四恶意类别与第三恶意类别相同。
具体地,以候选分类数量k为例,首先,服务器初始化候选分类数量k对应的语音分类模型的参数,得到k个初始语音分类模型。这里的语音分类模型也可以称之为分类器,每个分类器即为一个分类凝聚核,代表一种恶意类别,记为μ1,μ2,...,μk。针对候选分类数量k,将初始语音样本集中的第i个语音样本分别输入至候选分类数量的初始语音分类模型进行多种恶意类别的分类,得到第i个语音样本所属多种恶意类别对应的多个置信度,从第i个语音样本所属的多种恶意类别中选取置信度满足预设的第二置信度条件的恶意类别,确定为第i个语音样本所属的第三恶意类别,同理,其他的语音样本确定第三恶意类别的方式相同。可选地,第二置信度条件可以是置信度最高或者置信度次高等等。例如,服务器根据公式确定为第i个语音样本所属的第三恶意类别。
然后,服务器选出ci=j的所有语音样本,即凝聚到第j个语音分类模型的所有语音样本,得到第j类语音样本。该第j类语音样本即为训练第j个语音分类模型的训练数据集。重新随机初始化第j个语音分类模型的分类参数,用第j类语音样本训练第j个语音分类模型,得到候选分类数量k对应的训练好的语音分类模型。
之后,服务器将初始语音样本集中的每个语音样本分别输入至候选分类数量对应的训练好的语音分类模型进行多种恶意类别的分类,得到每个语音样本所属多种恶意类别对应的多个置信度,从每个语音样本所属的多种恶意类别中选取置信度满足预设的第二置信度条件的恶意类别,确定为每个语音样本所属的第四恶意类别。若第四恶意类别与第三恶意类别相同,即每一个语音样本所属的语音分类模型不再改变,即ci不再改变,则将候选分类数量对应的训练好的语音分类模型确定为候选分类数量对应的语音分类模型。若第四恶意类别与第三恶意类别不同,则将第四恶意类别对应的语音样本作为第三恶意类别对应的语音样本,并返回执行针对每个候选分类数量,将第三恶意类别对应的语音样本输入至候选分类数量对应的初始语音分类模型进行训练的步骤,即重复步骤S123-步骤S124,直到第四恶意类别与第三恶意类别相同。
本实施例中,通过不断迭代语音分类模型,可保证语音分类模型的分类性能,进而有利于提高恶意语音样本确定的准确性。
在一个实施例中,涉及上述步骤S114“针对每个候选分类数量,根据每个语音样本所属第一恶意类别对应的第一置信度和每个语音样本所属第二恶意类别对应的第二置信度,确定每个候选分类数量对应的分类契合度总和”的一种可能的实现方式。在上述实施例的基础上,步骤S114具体可以通过以下步骤实现:
步骤S1142,根据每个候选分类数量对应的每个语音样本所属第二恶意类别对应的第二置信度,计算每个候选分类数量对应的每个语音样本的类间区分度;
步骤S1144,将每个候选分类数量对应的每个语音样本所属第一恶意类别对应的第一置信度,确定为每个候选分类数量对应的每个语言样本的类内相似度;
步骤S1146,计算类内相似度与类间区分度之间的乘积结果与类内相似度与类间区分度之间的相加结果的比值,得到每个候选分类数量对应的每个语音样本的分类契合度;
步骤S1148,将每个候选分类数量对应的每个语音样本的分类契合度进行累加,得到每个候选分类数量对应的分类契合度总和。
具体地,对于候选分类数量k,服务器根据候选分类数量k对应的第i个语音样本所属第二恶意类别j对应的第二置信度:μj(i),计算候选分类数量k对应的第i个语音样本的类间区分度:记为b。另一方面,服务器将候选分类数量k对应的第i个语音样本所属第一恶意类别ci对应的第一置信度/>确定为候选分类数量k对应的第i个语言样本的类内相似度,记为a。然后,服务器根据公式:/>计算候选分类数量k对应的第i个语音样本的分类契合度。其中,系数2是为了归一化。可见,当第i个语音样本的分类契合度最高,即/> 时,计算可得到ti=1。最后,服务器将每个候选分类数量对应的每个语音样本的分类契合度进行累加,得到每个候选分类数量对应的分类契合度总和。
进一步地,服务器根据每个候选分类数量对应的分类契合度总和以及初始语音样本集中的语音样本的第三数量,计算每个候选分类数量对应的分类契合度的平均值,例如以候选分类数量k为例,候选分类数量k下对应的分类契合度的平均值为:然后,服务器将多个候选分类数量中分类契合度的平均值最高的候选分类数量对应的多种候选恶意类别,确定为预设的多种恶意类别。
本实施例中,通过每个语音样本的类间区分度和类内相似度计算每个候选分类数量对应的分类契合度总和,有利于提高恶意语音样本确定的准确性。
下面结合图3以及一个具体的应用场景来介绍本公开的一个实施例,该方法包括如下步骤:
步骤S302,语音样本积累和清洗。
具体地,当恶意语音样本的确定装置投入实际使用中后,通过服务器每隔8小时收集一次新的语音数据集,并对新的语音数据集进行清洗,删除重复信息,纠正存在的错误,保证数据的格式基本一致。假设某一次得到的实时的初始语音样本集为X={x1,x2,...,x103560},共包含语音样本数N=103560条,第i个语音样本为xi。
步骤S304,从初始语音样本集中选取恶意语音样本。
具体地,步骤S304包括:
步骤S304’,运用核凝聚分类算法对初始语音样本集进行分类。
更具体地,步骤S304’包括:
步骤S304a,在该恶意语音样本的确定装置投入使用的问题场景下,信息分类的可能数量为1~110。
步骤S304b,对于1~110的任一候选分类数量k,将初始语音样本集中的语音样本分为k种恶意类别对应的语音样本子集,其中k=1,...,110,这里以k=80为例。
更具体地,步骤S304b包括:
步骤S3042,随机初始化80个语音分类模型(例如逻辑回归分类模型)的参数,得到80个分类凝聚核,记为μ1,μ2,...,μ80。
步骤S3044,将每一个语音样本划归到某一分类凝聚核下。例如,对于第i个语音样本,分别用第j个分类凝聚核进行判别,可以得到第i个语音样本属于第j个分类凝聚核的核置信度μj(i),其中i=1,2,...,103560;j=1,2,...,80。例如第2个语音样本经过分类之后,μ1(2)=0.01,μ2(2)=0.04,...,μ16(2)=0.86,μ17(2)=0.23,...,μ80(2)=0.20,则从第1个到第80个分类凝聚核对第2个语音样本给出的置信度分别为{0.01,0.04,...,0.86,0.23,...,0.20}。
然后,根据公式得到第2个语音样本所属的分类凝聚核c2=16。经过计算得到,第1个语音样本属于第5个分类凝聚核,第2个语音样本属于第16个分类凝聚核,第3个语音样本属于第23个分类凝聚核…第103560个语音样本属于第69个分类凝聚核。
步骤S3046,根据每个分类凝聚核下凝聚的语音样本划分初始语音样本集,并重新训练分类凝聚核的分类参数。例如,挑选出ci=j的所有语音样本,随机初始化第j个分类凝聚核的分类参数,用凝聚到第j个分类凝聚核下的语音样本子集训练该分类凝聚核,得到更新后的分类凝聚核。
步骤S3048,重复步骤S3044到步骤S3046,直到每一个语音样本所属的分类凝聚核不再改变,即ci不再改变,其中i=1,2,...,103560。当迭代结束后,第1种恶意类别的语音样本子集,即第一个分类凝聚核下凝聚的语音样本子集为{x20,x68,...,x8532},第2种恶意类别的语音样本子集为{x3,x26,...,x3567}…第80种恶意类别的语音样本子集为{x100,x135,...,x101110}。
步骤S304c,对候选分类数量k,计算初始语音样本集分为k种恶意类别后总数据集的分类契合度Sk。这里同样以候选分类数量(聚类数量)k=80为例:
对于第1个语音样本,则第1个语音样本的分类契合度/>对于第2个语音样本,则第2个语音样本的分类契合度对于第103560个语音样本,/> 则第103560个语音样本的分类契合度/>基于此,划分为80类后总数据集的分类契合度为:
步骤S304d,选出使得Sk最大的聚类数量K,即为样本与实际情况最相符的分类类别数。同时由之前的步骤S3044将初始语音样本集划分为K种恶意类别对应的语音样本子集。具体地,经过计算S1=0.599,S2=0.684,…,S65=0.809,…,S110=0.634。使得Sk最大的候选分类数量K=65。其对应的划分后的K类数据集:第1种恶意类别对应的语音样本子集为{x32,x58,...,x38623},第2种恶意类别对应的语音样本子集为{x9,x21,...,x69568},…,第65种恶意类别对应的语音样本子集为{x102,x265,...,x101000}。
步骤S304”,对由步骤S304’分类得到的65类语音样本子集,计算每一类语音样本子集的传播影响因子fj。
…
对由步骤S304’分类得到的65类样本,计算每一类语音样本子集的用户行为反馈因子pj。
…
其中,pj越高,说明该类信息更可能是一种恶意语音。
对由步骤S304’分类得到的65类样本,计算每一类语音样本子集的恶意度hj。
h1=f1×p1=0.0194×0.465=0.00902
h2=f2×p2=0.0099×0.127=0.00126
…
h65=f65×p65=0.0290×0.645=0.01871
此处取恶意度阈值ε=0.01,选出所有语音样本子集的恶意度高于恶意度阈值的语音样本子集对应的恶意类别为第6类,第13类,第19类,第24类,第30类,第39类,第44类和第65类,总共50326条语音样本数据,即为从初始语音样本集中选出的恶意语音样本。
步骤S306,将新获得的恶意语音样本合并入恶意语音检测模型的训练数据集合,对恶意语音检测模型进行训练,从而使得恶意语音检测模型得到纠正,与实际情况更加相符。
步骤S308,分发训练好的恶意语音检测模型到实际应用中,返回步骤S302。
基于同一发明构思,在一个实施例中,提供了一种恶意语音检测方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S202,获取待检测的语音。
具体地,服务器获取待检测的语音。
步骤S204,将待检测的语音输入至恶意语音检测模型,确定恶意语音。
其中,恶意语音检测模型是根据恶意语音样本训练得到的;恶意语音样本是通过根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集,并根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度,以及选取恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本得到的。
具体地,服务器将待检测的语音输入至恶意语音检测模型,确定恶意语音。
上述恶意语音检测方法中,采用基于语音样本子集的恶意类别以及恶意度自动确定的恶意语音样本,可提高恶意语音检测模型的训练效率,从而提高恶意语音的检测效率。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种恶意语音样本的确定装置,包括:语音样本获取模块、语音样本分类模块、恶意度计算模块和语音样本确定模块,其中:
语音样本获取模块402,用于获取初始语音样本集;
语音样本分类模块404,用于根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集;
恶意度计算模块406,用于根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度;
语音样本确定模块408,用于将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。
上述恶意语音样本的确定装置中,先将初始语音样本集划分为多种恶意类别对应的语音样本子集,并基于语音样本信息分别计算每种恶意类别对应的语音样本子集的恶意度,从而将恶意度较高的恶意类别对应的语音样本子集中的语音样本确定为恶意语音样本。本装置基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
在一个实施例中,语音样本确定模块408具体用于获取每种恶意类别对应的语音样本子集中的语音样本的第一数量;获取每种恶意类别对应的语音样本子集中添加有负向标记的语音样本的第二数量,其中,负向标记用于指示语音样本中包含负面语音内容;根据第二数量与第一数量的比值,确定每种恶意类别对应的语音样本子集的恶意度。
在一个实施例中,语音样本确定模块408具体用于计算第二数量与第一数量的比值,得到每种恶意类别对应的语音样本子集的负面反馈因子;获取初始语音样本集中的语音样本的第三数量;计算第一数量与第三数量的比值,得到每种恶意类别对应的语音样本子集的传播影响因子;根据负面反馈因子和传播影响因子,计算每种恶意类别对应的语音样本子集的恶意度。
在一个实施例中,该装置还包括:
分类信息获取模块,用于获取多个候选分类数量以及每个候选分类数量对应的语音分类模型,其中,每个候选分类数量对应的语音分类模型中的每个语音分类模型用于处理一种候选恶意类别的分类任务;
语音样本分类模块,用于针对每个候选分类数量,将初始语音样本集中的每个语音样本分别输入至候选分类数量对应的语音分类模型进行多种候选恶意类别的分类,得到每个语音样本所属多种候选恶意类别对应的多个置信度;
恶意类别选取模块,用于针对每个候选分类数量,从每个语音样本所属的多种候选恶意类别中选取置信度满足预设的第一置信度条件的候选恶意类别,确定为每个语音样本所属的第一恶意类别;
契合度总和计算模块,用于针对每个候选分类数量,根据每个语音样本所属第一恶意类别对应的第一置信度和每个语音样本所属第二恶意类别对应的第二置信度,确定每个候选分类数量对应的分类契合度总和,其中,第二恶意类别为多种候选恶意类别中除第一恶意类别之外的候选恶意类别;
恶意类别确定模块,用于将多个候选分类数量中分类契合度总和满足预设契合度总和条件的候选分类数量对应的多种候选恶意类别,确定为预设的多种恶意类别。
在一个实施例中,该装置还包括:
分类模型获取模块,用于获取每个候选分类数量对应的初始语音分类模型;
恶意类别选取模块,用于针对每个候选分类数量,将初始语音样本集中的每个语音样本分别输入至候选分类数量的初始语音分类模型进行多种恶意类别的分类,得到每个语音样本所属多种恶意类别对应的多个置信度,从每个语音样本所属的多种恶意类别中选取置信度满足预设的第二置信度条件的恶意类别,确定为每个语音样本所属的第三恶意类别;
分类模型训练模块,用于针对每个候选分类数量,将第三恶意类别对应的语音样本输入至候选分类数量对应的初始语音分类模型进行训练,得到候选分类数量对应的训练好的语音分类模型;
恶意类别确定模块,用于针对每个候选分类数量,将初始语音样本集中的每个语音样本分别输入至候选分类数量对应的训练好的语音分类模型进行多种恶意类别的分类,得到每个语音样本所属多种恶意类别对应的多个置信度,从每个语音样本所属的多种恶意类别中选取置信度满足预设的第二置信度条件的恶意类别,确定为每个语音样本所属的第四恶意类别;
分类模型确定模块,用于若第四恶意类别与第三恶意类别相同,则将候选分类数量对应的训练好的语音分类模型确定为候选分类数量对应的语音分类模型;
语音样本确定模块,用于若第四恶意类别与第三恶意类别不同,则将第四恶意类别对应的语音样本作为第三恶意类别对应的语音样本,并返回执行针对每个候选分类数量,将第三恶意类别对应的语音样本输入至候选分类数量对应的初始语音分类模型进行训练的步骤,直到第四恶意类别与第三恶意类别相同。
在一个实施例中,契合度总和计算模块具体用于根据每个候选分类数量对应的每个语音样本所属第二恶意类别对应的第二置信度,计算每个候选分类数量对应的每个语音样本的类间区分度;将每个候选分类数量对应的每个语音样本所属第一恶意类别对应的第一置信度,确定为每个候选分类数量对应的每个语言样本的类内相似度;计算类内相似度与类间区分度之间的乘积结果与类内相似度与类间区分度之间的相加结果的比值,得到每个候选分类数量对应的每个语音样本的分类契合度;将每个候选分类数量对应的每个语音样本的分类契合度进行累加,得到每个候选分类数量对应的分类契合度总和。
关于恶意语音样本的确定装置的具体限定可以参见上文中对于恶意语音样本的确定方法的限定,在此不再赘述。上述恶意语音样本的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种恶意语音样本的确定方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取初始语音样本集;
根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集;
根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度;
将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。
上述计算机设备中,先将初始语音样本集划分为多种恶意类别对应的语音样本子集,并基于语音样本信息分别计算每种恶意类别对应的语音样本子集的恶意度,从而将恶意度较高的恶意类别对应的语音样本子集中的语音样本确定为恶意语音样本。本计算机设备基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取每种恶意类别对应的语音样本子集中的语音样本的第一数量;获取每种恶意类别对应的语音样本子集中添加有负向标记的语音样本的第二数量,其中,负向标记用于指示语音样本中包含负面语音内容;根据第二数量与第一数量的比值,确定每种恶意类别对应的语音样本子集的恶意度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算第二数量与第一数量的比值,得到每种恶意类别对应的语音样本子集的负面反馈因子;获取初始语音样本集中的语音样本的第三数量;计算第一数量与第三数量的比值,得到每种恶意类别对应的语音样本子集的传播影响因子;根据负面反馈因子和传播影响因子,计算每种恶意类别对应的语音样本子集的恶意度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取多个候选分类数量以及每个候选分类数量对应的语音分类模型,其中,每个候选分类数量对应的语音分类模型中的每个语音分类模型用于处理一种候选恶意类别的分类任务;针对每个候选分类数量,将初始语音样本集中的每个语音样本分别输入至候选分类数量对应的语音分类模型进行多种候选恶意类别的分类,得到每个语音样本所属多种候选恶意类别对应的多个置信度;针对每个候选分类数量,从每个语音样本所属的多种候选恶意类别中选取置信度满足预设的第一置信度条件的候选恶意类别,确定为每个语音样本所属的第一恶意类别;针对每个候选分类数量,根据每个语音样本所属第一恶意类别对应的第一置信度和每个语音样本所属第二恶意类别对应的第二置信度,确定每个候选分类数量对应的分类契合度总和,其中,第二恶意类别为多种候选恶意类别中除第一恶意类别之外的候选恶意类别;将多个候选分类数量中分类契合度总和满足预设契合度总和条件的候选分类数量对应的多种候选恶意类别,确定为预设的多种恶意类别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取每个候选分类数量对应的初始语音分类模型;针对每个候选分类数量,将初始语音样本集中的每个语音样本分别输入至候选分类数量的初始语音分类模型进行多种恶意类别的分类,得到每个语音样本所属多种恶意类别对应的多个置信度,从每个语音样本所属的多种恶意类别中选取置信度满足预设的第二置信度条件的恶意类别,确定为每个语音样本所属的第三恶意类别;针对每个候选分类数量,将第三恶意类别对应的语音样本输入至候选分类数量对应的初始语音分类模型进行训练,得到候选分类数量对应的训练好的语音分类模型;针对每个候选分类数量,将初始语音样本集中的每个语音样本分别输入至候选分类数量对应的训练好的语音分类模型进行多种恶意类别的分类,得到每个语音样本所属多种恶意类别对应的多个置信度,从每个语音样本所属的多种恶意类别中选取置信度满足预设的第二置信度条件的恶意类别,确定为每个语音样本所属的第四恶意类别;若第四恶意类别与第三恶意类别相同,则将候选分类数量对应的训练好的语音分类模型确定为候选分类数量对应的语音分类模型;若第四恶意类别与第三恶意类别不同,则将第四恶意类别对应的语音样本作为第三恶意类别对应的语音样本,并返回执行针对每个候选分类数量,将第三恶意类别对应的语音样本输入至候选分类数量对应的初始语音分类模型进行训练的步骤,直到第四恶意类别与第三恶意类别相同。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据每个候选分类数量对应的每个语音样本所属第二恶意类别对应的第二置信度,计算每个候选分类数量对应的每个语音样本的类间区分度;将每个候选分类数量对应的每个语音样本所属第一恶意类别对应的第一置信度,确定为每个候选分类数量对应的每个语言样本的类内相似度;计算类内相似度与类间区分度之间的乘积结果与类内相似度与类间区分度之间的相加结果的比值,得到每个候选分类数量对应的每个语音样本的分类契合度;将每个候选分类数量对应的每个语音样本的分类契合度进行累加,得到每个候选分类数量对应的分类契合度总和。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种恶意语音样本的确定方法,其特征在于,所述方法包括:
获取初始语音样本集;
根据预设的多种恶意类别对所述初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集;
根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度;
将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本;
其中,所述根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度,包括:
获取所述每种恶意类别对应的语音样本子集中的语音样本的第一数量;
获取所述每种恶意类别对应的语音样本子集中添加有负向标记的语音样本的第二数量,其中,所述负向标记用于指示所述语音样本中包含负面语音内容;
计算所述第二数量与所述第一数量的比值,得到所述每种恶意类别对应的语音样本子集的负面反馈因子;
获取所述初始语音样本集中的语音样本的第三数量;
计算所述第一数量与所述第三数量的比值,得到所述每种恶意类别对应的语音样本子集的传播影响因子;
根据所述负面反馈因子和所述传播影响因子,计算所述每种恶意类别对应的语音样本子集的恶意度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个候选分类数量以及每个候选分类数量对应的语音分类模型,其中,所述每个候选分类数量对应的语音分类模型中的每个语音分类模型用于处理一种候选恶意类别的分类任务;
针对所述每个候选分类数量,将所述初始语音样本集中的每个语音样本分别输入至所述候选分类数量对应的语音分类模型进行多种候选恶意类别的分类,得到所述每个语音样本所属多种候选恶意类别对应的多个置信度;
针对所述每个候选分类数量,从所述每个语音样本所属的多种候选恶意类别中选取所述置信度满足预设的第一置信度条件的候选恶意类别,确定为所述每个语音样本所属的第一恶意类别;
针对所述每个候选分类数量,根据所述每个语音样本所属第一恶意类别对应的第一置信度和所述每个语音样本所属第二恶意类别对应的第二置信度,确定所述每个候选分类数量对应的分类契合度总和,其中,所述第二恶意类别为所述多种候选恶意类别中除所述第一恶意类别之外的候选恶意类别;
将所述多个候选分类数量中所述分类契合度总和满足预设契合度总和条件的候选分类数量对应的多种候选恶意类别,确定为所述预设的多种恶意类别。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取每个候选分类数量对应的初始语音分类模型;
针对所述每个候选分类数量,将所述初始语音样本集中的每个语音样本分别输入至所述候选分类数量的初始语音分类模型进行多种恶意类别的分类,得到所述每个语音样本所属多种恶意类别对应的多个置信度,从所述每个语音样本所属的多种恶意类别中选取所述置信度满足预设的第二置信度条件的恶意类别,确定为所述每个语音样本所属的第三恶意类别;
针对所述每个候选分类数量,将所述第三恶意类别对应的语音样本输入至所述候选分类数量对应的初始语音分类模型进行训练,得到所述候选分类数量对应的训练好的语音分类模型;
针对所述每个候选分类数量,将所述初始语音样本集中的每个语音样本分别输入至所述候选分类数量对应的训练好的语音分类模型进行多种恶意类别的分类,得到所述每个语音样本所属多种恶意类别对应的多个置信度,从所述每个语音样本所属的多种恶意类别中选取所述置信度满足所述预设的第二置信度条件的恶意类别,确定为所述每个语音样本所属的第四恶意类别;
若所述第四恶意类别与所述第三恶意类别相同,则将候选分类数量对应的训练好的语音分类模型确定为所述候选分类数量对应的语音分类模型;
若所述第四恶意类别与所述第三恶意类别不同,则将所述第四恶意类别对应的语音样本作为所述第三恶意类别对应的语音样本,并返回执行针对所述每个候选分类数量,将所述第三恶意类别对应的语音样本输入至所述候选分类数量对应的初始语音分类模型进行训练的步骤,直到所述第四恶意类别与所述第三恶意类别相同。
4.根据权利要求2所述的方法,其特征在于,所述针对所述每个候选分类数量,根据所述每个语音样本所属第一恶意类别对应的第一置信度和所述每个语音样本所属第二恶意类别对应的第二置信度,确定所述每个候选分类数量对应的分类契合度总和,包括:
根据所述每个候选分类数量对应的每个语音样本所属第二恶意类别对应的第二置信度,计算所述每个候选分类数量对应的每个语音样本的类间区分度;
将所述每个候选分类数量对应的每个语音样本所属第一恶意类别对应的第一置信度,确定为所述每个候选分类数量对应的每个语言样本的类内相似度;
计算所述类内相似度与所述类间区分度之间的乘积结果与所述类内相似度与所述类间区分度之间的相加结果的比值,得到所述每个候选分类数量对应的每个语音样本的分类契合度;
将所述每个候选分类数量对应的每个语音样本的分类契合度进行累加,得到所述每个候选分类数量对应的分类契合度总和。
5.一种恶意语音检测方法,其特征在于,所述方法包括:
获取待检测的语音;
将所述待检测的语音输入至恶意语音检测模型,确定恶意语音;
其中,所述恶意语音检测模型是根据恶意语音样本训练得到的;所述恶意语音样本是通过根据预设的多种恶意类别对初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集,并根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度,以及选取所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本得到的;
其中,所述根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度,包括:
获取所述每种恶意类别对应的语音样本子集中的语音样本的第一数量;
获取所述每种恶意类别对应的语音样本子集中添加有负向标记的语音样本的第二数量,其中,所述负向标记用于指示所述语音样本中包含负面语音内容;
计算所述第二数量与所述第一数量的比值,得到所述每种恶意类别对应的语音样本子集的负面反馈因子;
获取所述初始语音样本集中的语音样本的第三数量;
计算所述第一数量与所述第三数量的比值,得到所述每种恶意类别对应的语音样本子集的传播影响因子;
根据所述负面反馈因子和所述传播影响因子,计算所述每种恶意类别对应的语音样本子集的恶意度。
6.一种恶意语音样本的确定装置,其特征在于,所述装置包括:
语音样本获取模块,用于获取初始语音样本集;
语音样本分类模块,用于根据预设的多种恶意类别对所述初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集;
恶意度计算模块,用于根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度;
语音样本确定模块,用于将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本;
其中,所述恶意度计算模块还用于:
获取所述每种恶意类别对应的语音样本子集中的语音样本的第一数量;
获取所述每种恶意类别对应的语音样本子集中添加有负向标记的语音样本的第二数量,其中,所述负向标记用于指示所述语音样本中包含负面语音内容;
计算所述第二数量与所述第一数量的比值,得到所述每种恶意类别对应的语音样本子集的负面反馈因子;
获取所述初始语音样本集中的语音样本的第三数量;
计算所述第一数量与所述第三数量的比值,得到所述每种恶意类别对应的语音样本子集的传播影响因子;
根据所述负面反馈因子和所述传播影响因子,计算所述每种恶意类别对应的语音样本子集的恶意度。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498059.8A CN113205801B (zh) | 2021-05-08 | 2021-05-08 | 恶意语音样本的确定方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498059.8A CN113205801B (zh) | 2021-05-08 | 2021-05-08 | 恶意语音样本的确定方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113205801A CN113205801A (zh) | 2021-08-03 |
CN113205801B true CN113205801B (zh) | 2024-03-19 |
Family
ID=77030460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110498059.8A Active CN113205801B (zh) | 2021-05-08 | 2021-05-08 | 恶意语音样本的确定方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113205801B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172224A (zh) * | 2017-12-19 | 2018-06-15 | 浙江大学 | 基于机器学习的防御无声指令控制语音助手的方法 |
CN109065024A (zh) * | 2018-11-02 | 2018-12-21 | 科大讯飞股份有限公司 | 异常语音数据检测方法及装置 |
CN111259985A (zh) * | 2020-02-19 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 基于业务安全的分类模型训练方法、装置和存储介质 |
CN111488574A (zh) * | 2020-04-08 | 2020-08-04 | 湖南大学 | 恶意软件分类方法、系统、计算机设备和存储介质 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及系统 |
CN112214770A (zh) * | 2020-10-30 | 2021-01-12 | 奇安信科技集团股份有限公司 | 恶意样本的识别方法、装置、计算设备以及介质 |
CN112231696A (zh) * | 2020-10-30 | 2021-01-15 | 奇安信科技集团股份有限公司 | 恶意样本的识别方法、装置、计算设备以及介质 |
-
2021
- 2021-05-08 CN CN202110498059.8A patent/CN113205801B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172224A (zh) * | 2017-12-19 | 2018-06-15 | 浙江大学 | 基于机器学习的防御无声指令控制语音助手的方法 |
CN109065024A (zh) * | 2018-11-02 | 2018-12-21 | 科大讯飞股份有限公司 | 异常语音数据检测方法及装置 |
CN111259985A (zh) * | 2020-02-19 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 基于业务安全的分类模型训练方法、装置和存储介质 |
CN111488574A (zh) * | 2020-04-08 | 2020-08-04 | 湖南大学 | 恶意软件分类方法、系统、计算机设备和存储介质 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及系统 |
CN112214770A (zh) * | 2020-10-30 | 2021-01-12 | 奇安信科技集团股份有限公司 | 恶意样本的识别方法、装置、计算设备以及介质 |
CN112231696A (zh) * | 2020-10-30 | 2021-01-15 | 奇安信科技集团股份有限公司 | 恶意样本的识别方法、装置、计算设备以及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113205801A (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189934A (zh) | 舆情推荐方法、装置、计算机设备及存储介质 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN110347701B (zh) | 一种面向实体检索查询的目标类型标识方法 | |
US11971892B2 (en) | Methods for stratified sampling-based query execution | |
US8832015B2 (en) | Fast binary rule extraction for large scale text data | |
CN109388634B (zh) | 地址信息的处理方法、终端设备及计算机可读存储介质 | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
CN108550065A (zh) | 评论数据处理方法、装置及设备 | |
KR20190128246A (ko) | 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체 | |
CN112487199A (zh) | 一种基于用户购买行为的用户特征预测方法 | |
CN110135681A (zh) | 风险用户识别方法、装置、可读存储介质及终端设备 | |
WO2019223104A1 (zh) | 确定事件影响因素的方法、装置、终端设备及可读存储介质 | |
CN112765003B (zh) | 一种基于app行为日志的风险预测方法 | |
WO2020024444A1 (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN114048318A (zh) | 基于密度半径的聚类方法、系统、设备及存储介质 | |
Lee et al. | Identifying fashion accounts in social networks | |
CN112598405B (zh) | 一种基于大数据的商业项目数据管理方法及系统 | |
CN113205801B (zh) | 恶意语音样本的确定方法、装置、计算机设备和存储介质 | |
CN112632000A (zh) | 日志文件聚类方法、装置、电子设备和可读存储介质 | |
CN110717787A (zh) | 一种用户的分类方法及装置 | |
CN113408412A (zh) | 网络直播主播的行为识别方法、系统、设备及存储介质 | |
CN113221966A (zh) | 基于F_Max属性度量的差分隐私决策树构建方法 | |
CN111353553A (zh) | 清洗错误标注数据的方法、装置、计算机设备及存储介质 | |
CN112395261A (zh) | 业务推荐方法、装置、计算设备及计算机存储介质 | |
CN116823069B (zh) | 基于文本分析的智能客服服务质检方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |