CN113327601A - 有害语音的识别方法、装置、计算机设备和存储介质 - Google Patents

有害语音的识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113327601A
CN113327601A CN202110579536.3A CN202110579536A CN113327601A CN 113327601 A CN113327601 A CN 113327601A CN 202110579536 A CN202110579536 A CN 202110579536A CN 113327601 A CN113327601 A CN 113327601A
Authority
CN
China
Prior art keywords
preset threshold
preset
voice
threshold value
cost function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110579536.3A
Other languages
English (en)
Other versions
CN113327601B (zh
Inventor
谭泽龙
郭敏
张卫强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110579536.3A priority Critical patent/CN113327601B/zh
Publication of CN113327601A publication Critical patent/CN113327601A/zh
Application granted granted Critical
Publication of CN113327601B publication Critical patent/CN113327601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及一种有害语音的识别方法、装置、计算机设备和存储介质。方法包括:将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断。相较于使用单阈值方式对有害语音进行识别,采用双阈值方式更便于对置信度阈值进行调整,进而提高有害语音识别的分类效果。

Description

有害语音的识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及语音识别的技术领域,特别是涉及一种有害语音的识别方法、装置、计算机设备和存储介质。
背景技术
随着智能化的发展,语音识别功能在智能化设备中发挥着越来越重要的作用。在语音识别功能使用过程中,若一个语音被判定为有害语音,可以对其进行拦截;若判定为正常语音,则让用户正常接收。这意味着如果将有害语音判定为正常语音,可能会给用户带来骚扰;如果将正常语音判定为有害语音,进而被过滤掉,就会造成很大的损失和不便。在对语音鉴别时,有害语音分类的分类结果常常有着重要的意义,目前主要是通过分类模型来进行识别。传统的分类模型是将语音分为正常和有害两种,采用分类模型对语音样本进行预测,计算出语音为有害语音的置信程度,即置信度,置信度通常是在0~1范围内的一个值。然后,再将该置信度与预设阈值进行比较,从而根据比较结果,判断该待识别的语音是否为有害语音。
在相关技术中,上述预设阈值通常是根据经验选择的,且预设阈值是单一的判别门限。实际实施过程中,分类模型输出的置信度可能很接近预设阈值,也可能离预设阈值很远。但无论是接近还是远离,其实识别结果都是一致的。例如,以预设阈值为0.5,置信度小于该预设阈值时被判断为正常语音,置信度不小于该预设阈值时被判断为有害语音为例。其中,置信度为0.49及0.1时都会被判断为正常。由于置信度为0.49时就比较接近预设阈值,其存在明明是有害语音却被判断未正常的可能,从而导致判断结果不够准确。即使对作为单一判别门限的预设阈值进行了调整,如提高置信度阈值,则会使得部分有害语音无法被有效识别。而降低阈值,会使得许多正常语音被鉴别为有害语音,使得分类的结果不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够灵活有效地识别有害语音的方法、装置、计算机设备和存储介质。
一种有害语音的识别方法,该方法包括:
将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值,标注结果为有害语音或正常语音;
对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值,该预设条件的设定依据为识别样本语音时能够达到预设的准确率;
根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断;
其中,预设阈值组包括第一预设阈值与第二预设阈值,第一预设阈值用于判断正常语音,第二预设阈值用于判断有害语音。
在其中一个实施例中,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值,包括:
对于第一预设等级集合中的每一第一预设等级及第二预设集合中的每一第二预设等级,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第一预设等级的正常语音被识别为有害语音的第一数量,以构成第一数量集合,并根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第二预设等级的有害语音被识别为正常语音的第二数量,以构成第二数量集合;
根据第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值;
其中,第一预设等级集合及第二预设等级集合中均至少包括一种预设等级,第一预设等级集合中的预设等级是按照正常语音的重要程度所划分的,第二预设等级集合中的预设等级是按照有害语音的有害程度所划分的,第一代价系数集合中每一第一代价系数是与每一第一预设等级相对应的,第二代价系数集合中每一第二代价系数是与每一第二预设等级相对应的。
在其中一个实施例中,第一预设等级集合中包括以下两个第一预设子等级中的至少一项,该以下两个第一预设子等级分别为普通等级及重要等级。
在其中一个实施例中,置信度不大于第一预设阈值时语音被判断为正常语音,置信度大于第二预设阈值时语音被判断为有害语音,置信度不大于第一预设阈值且不小于第二预设阈值时语音被判断为不确定语音;相应地,根据第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值,包括:
获取所有语音样本中识别为不确定语音的第三数量及不确定语音对应的第三代价系数;
根据第三数量、第三代价系数、第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值。
在其中一个实施例中,根据第三数量、第三代价系数、第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值,包括:
将第一数量集合中每一第一数量与对应在第一代价系数集合中的第一代价系数相乘,得到每一第一数量对应的每一第一乘积;
将第二数量集合中每一第二数量与对应在第二代价系数集合中的第二代价系数相乘,得到每一第二数量对应的每一第二乘积;
将第三代价系数与第三数量相乘,得到第三乘积;
将该第三乘积、每一第一乘积及每一第二乘积进行相加,将相加结果作为所述预设阈值组对应的代价函数值。
在其中一个实施例中,预设条件包括计算得到的代价函数值收敛或者代价函数值为所有计算得到的代价函数值中的最小值。
在其中一个实施例中,重复上述调整预设阈值及计算代价函数值的过程,包括:
基于第一预设间隔,对预设阈值组中的第一预设阈值进行调整,并同时基于第二预设间隔,对预设阈值组中的第二预设阈值进行调整,每次同时对第一预设阈值及第二预设阈值进行调整,均计算对应的代价函数值;或者,
基于第三预设间隔,对预设阈值组中的第一预设阈值进行调整,在对第一预设阈值调整结束后,基于第四预设间隔对预设阈值组中的第二预设阈值进行调整,每次对第一预设阈值进行调整以及对第二预设阈值进行调整均计算对应的代价函数值。
一种有害语音的识别装置,该装置包括:
第一确定模块,用于将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,并根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算所述预设阈值组对应的代价函数值;
第二确定模块,用于对所述预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;
第三确定模块,用于根据满足所述预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
其中,标注结果为有害语音或正常语音;预设条件的设定依据为识别样本语音时能够达到预设的准确率。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值,标注结果为有害语音或正常语音;
对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值,该预设条件的设定依据为识别样本语音时能够达到预设的准确率;
根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断;
其中,预设阈值组包括第一预设阈值与第二预设阈值,第一预设阈值用于判断正常语音,第二预设阈值用于判断有害语音。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值,标注结果为有害语音或正常语音;
对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值,该预设条件的设定依据为识别样本语音时能够达到预设的准确率;
根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断;
其中,预设阈值组包括第一预设阈值与第二预设阈值,第一预设阈值用于判断正常语音,第二预设阈值用于判断有害语音。
上述有害语音的识别方法、装置、计算机设备和存储介质,将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断。相较于使用单阈值方式对有害语音进行识别,采用双阈值方式更便于对置信度阈值进行调整,进而提高有害语音识别的分类效果。
附图说明
图1为一个实施例中有害语音的识别方法的流程示意图;
图2为另一个实施例中有害语音的识别方法的流程示意图;
图3为一个实施例中模型对3个样本语音的识别效果图;
图4为一个实施例中有害语音的识别装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词,但除非特别说明,这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说,在不脱离本申请的范围的情况下,第三预设阈值与第四预设阈值可以相同可以不同。
随着智能化的发展,语音识别功能在智能化设备中发挥着越来越重要的作用。在语音识别功能使用过程中,若一个语音被判定为有害语音,可以对其进行拦截;若判定为正常语音,则让用户正常接收。这意味着如果将有害语音判定为正常语音,可能会给用户带来骚扰;如果将正常语音判定为有害语音,进而被过滤掉,就会造成很大的损失和不便。在对语音鉴别时,有害语音分类的分类结果常常有着重要的意义,目前主要是通过分类模型来进行识别。传统的分类模型是将语音分为正常和有害两种,采用分类模型对语音样本进行预测,计算出语音为有害语音的置信程度,即置信度,置信度通常是在0~1范围内的一个值。然后,再将该置信度与预设阈值进行比较,从而根据比较结果,判断该待识别的语音是否为有害语音。
在相关技术中,上述预设阈值通常是根据经验选择的,且预设阈值是单一的判别门限。实际实施过程中,分类模型输出的置信度可能很接近预设阈值,也可能离预设阈值很远。但无论是接近还是远离,其实识别结果都是一致的。例如,以预设阈值为0.5,置信度小于该预设阈值时被判断为正常语音,置信度不小于该预设阈值时被判断为有害语音为例。其中,置信度为0.49及0.1时都会被判断为正常。由于置信度为0.49时就比较接近预设阈值,其存在明明是有害语音却被判断未正常的可能,从而导致判断结果不够准确。即使对作为单一判别门限的预设阈值进行了调整,如提高置信度阈值,则会使得部分有害语音无法被有效识别。而降低阈值,会使得许多正常语音被鉴别为有害语音,使得分类的结果不够准确。
针对上述相关技术中存在的问题,本发明实施例提供了一种有害语音的识别方法,参见图1,以该方法应用于服务器,且执行主体为服务器为例进行说明,该方法包括如下步骤:
步骤101、将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;
步骤102、对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;
步骤103、根据满足预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
步骤104、根据待判别的语音及所述最终的预设阈值组,对待判别的语音进行判断;
需要说明的是,在步骤101之前,可以对数据集中的样本语音进行人工标注,将样本语音分为正常信息和有害信息两种类型,确定每一样本语音对应的标注结果。利用常见的机器设计一种二分类模型,这里的二分类模型是多样的,常见的如:逻辑回归、SVM等。将每一样本语音输入二分类模型,输出得到每一样本语音的置信度,置信度即分类模型对样本语音预测时得到样本语音为有害语音的置信程度,通常是0~1的一个值。在获取每一样本语音的置信度后,可将其与预设阈值组进行比较,以确定每一样本语音对应的判断结果。预设阈值组的初始值可以随机设定,也可以根据经验值设定,本发明实施例不对预设阈值组的初始值的获取方式做具体的限定。
代价函数是一种度量,用于表示在当前参数下的模型与理想的模型之间的差距,以便对模型参数进行核实的调整。步骤101中,模型参数即为预设阈值组,计算的预设阈值组对应的代价函数值,以代表模型对数据集中每一样本语音的判断结果与人工标注结果之间的误差,代价函数值的数值越大说明误差越大,进而体现出模型对有害语音的识别效果越差,代价函数值的数值越小说明误差越小,进而体现出模型对有害语音的识别效果越好。例如,代价函数值为所有样本语音中被错误判断的个数,错误判断包括正常语音被判断为有害语音和有害语音被判断为正常语音。
在本发明实施例中,对所述预设阈值组中的预设阈值进行调整的方式,可以是:先对第二预设阈值进行调整,并保持第一预设阈值不变,计算每一次调整后的代价函数值;确定符合预设条件的代价函数值所对应的第二预设阈值,并作为最优第二预设阈值;再对预设阈值组中的第一预设阈值进行调整,并保持最优第二预设阈值不变,计算每一次调整后的代价函数值,确定符合预设条件的代价函数值所对应的第一预设阈值,并作为最优第一预设阈值;最后根据最优第一预设阈值与第二预设阈值确定预设阈值组。
步骤102中提到的预设条件是在整个方案开始之前设置的,用于筛选代价函数值,以保证筛选出的预设阈值组在用于判断有害语音时有较高准确率。预设条件的内容一般由经验确定或由所需模型的精确度确定。以预设条件是“调整次数不超过200次”为例,即设定调整预设阈值组的次数为不超过200次,当调整次数达到预设条件中规定的最大值200次时,则可以停止调整及计算过程,然后再在所计算得出的所有代价函数值里面选择最小的。可以理解地是,该预设条件中限制了重复调整预设阈值组的次数,能够防止重复调整过程无限循环下去,除此之外,该预设条件中调整预设阈值组的次数只要足够大,那么可以认为经过足够多的次数调整后,是能够使得基于足够多的次数调整后的预设阈值组,能够保证筛选出的预设阈值组在用于判断有害语音时有较高准确率。
需要说明的是,基于预设条件的不同,步骤102中所确定的满足预设条件的代价函数值可以是一个,也可以是多个。例如,若预设条件为计算得到的代价函数值在第一预设范围内,则很有可能会有多个预设阈值组能够使得计算得到的代价函数值在第一预设范围内。或者,对于连续n次对预设阈值进行调整的过程,若预设条件为该n次中每相邻两次对预设阈值进行调整所获得的两个代价函数值,其差值均在第二预设范围内(也即代价函数值在某一范围内逐渐收敛),则此时很显然地,满足预设条件的代价函数值至少会有两个,甚至可以更多。因此,在满足预设条件的代价函数值可以是一个,也可以是多个的前提下,“满足预设条件的代价函数值所对应的预设阈值组”可能是一组,也可能是多组。当“满足预设条件的代价函数值所对应的预设阈值组”为多组时,则可以根据经验,从满足预设条件的代价函数值所对应的预设阈值组中,确定一组合适的预设阈值组,对待判别的语音进行判断。
本发明实施例中提供的方法,通过将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算所述预设阈值组对应的代价函数值。对所述预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值。根据满足所述预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组。根据待判别的语音及所述最终的预设阈值组,对所述待判别的语音进行判断。
由于预设阈值组中包括第一预设阈值与第二预设阈值,而第一预设阈值用于判断正常语音,第二预设阈值用于判断有害语音,且第一预设阈值与第二预设阈值不会很接近,从而相对于相关技术中单一判别门限来左右区分有害及正常语音,可以有效避免置信度在接近单一判别门限时被误判的可能,以提高语音识别时的准确率。
另外,由于可以重复对预设阈值组中的预设阈值进行调整,直到确定满足预设条件的代价函数值,而预设条件的设定依据为识别样本语音时能够达到预设的准确率,从而能够确保实际实施过程中在使用所获得的预设阈值组进行语音识别时,能够保证比较高的准确率。
结合上述实施例的内容,在一个实施例中,参见图2,本发明实施例不对根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算所述预设阈值组对应的代价函数值的方式作具体限定,包括但不限于:
步骤201、对于第一预设等级集合中的每一第一预设等级及第二预设集合中的每一第二预设等级,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第一预设等级的正常语音被识别为有害语音的第一数量,以构成第一数量集合;
步骤202、根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第二预设等级的有害语音被识别为正常语音的第二数量,以构成第二数量集合;
步骤203、获取每一第一预设等级相对应的第一代价系数集合中每一第一代价系数,获取每一第二预设等级相对应的第二代价系数集合中每一第二代价系数;
步骤204、根据第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值;
其中,第一预设等级集合及第二预设等级集合中均至少包括一种预设等级,第一预设等级集合中的预设等级是按照正常语音的重要程度所划分的,第二预设等级集合中的预设等级是按照有害语音的有害程度所划分的,第一代价系数集合中每一第一代价系数是与每一第一预设等级相对应的,第二代价系数集合中每一第二代价系数是与每一第二预设等级相对应的。正常语音的重要程度可以指的是正常语音被判断为有害语音之后带来的经济损失或者带来的危害程度;有害语音的有害程度可以指的是有害由于被判断为正常语音之后带来的经济损失或者带来的危害程度。
代价系数是相对应的预设等级在代价函数值中所起的重要性的体现。为了更好地理解代价系数,现以以下例子加以说明。当涉及到与经济相关的语音时,如一条“提醒下周一银行还贷”如果被判别为有害语音而被系统自动过滤掉,就会造成很大的损失和不便;而有害语音被判别为正常语音最多只是造成一些麻烦,则可以不用自动被过滤掉,而可以由用户手动去删除该语音。因此,在本例中将正常语音判断为有害语音比将有害语音判断为正常语音更为重要,相应的代价系数也更大。结合上述示例,具体到不同的应用场景中,代价系数的大小根据需求设定。在对一个数据集进行有害语音识别的过程中,代价系数的大小应该保持相同,直到完成后续步骤,得到符合预设条件的预设阈值组。
在步骤204中,根据第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值时,可以使用以下方式:
将所述第一数量集合中每一第一数量与对应在所述第一代价系数集合中的第一代价系数相乘,得到每一第一数量对应的每一第一乘积;将所述第二数量集合中每一第二数量与对应在所述第二代价系数集合中的第二代价系数相乘,得到每一第二数量对应的每一第二乘积;将每一第一乘积及每一第二乘积进行相加,将相加结果作为所述预设阈值组对应的代价函数值。
当然,上述过程只是确定代价函数值中的一种方式。实际实施过程中,还可以根据第一代价系数集合中的每一第一代价系数,计算每一第一代价系数的权重,并根据每一第一代价系数的权重,计算对应的第一平均权重;根据第二代价系数集合中的每一第二代价系数,计算每一第二代价系数的权重,并根据每一第二代价系数的权重,计算对应的第二平均权重;根据第一数量集合中的每一第一数量,计算对应的第一平均数量;根据第二数量集合中的每一第二数量,计算对应的第二平均数量;计算第一平均权重与第一平均数量之间的乘积,计算第二平均权重与第二平均数量之间的乘积,将两个乘积相加以得到代价函数值。
需要注意的是,在对一个数据集进行有害语音识别的过程中,代价函数值的计算方式应该保持相同,直到完成后续步骤,得到符合预设条件的预设阈值组。
本发明实施例中提供的方法,是先将每一样本语音的判断结果与每一样本语音的标注结果进行匹配,得到所有样本语音中每一第一预设等级的正常语音被识别为有害语音的第一数量和所有样本语音中每一第二预设等级的有害语音被识别为正常语音的第二数量,以构成第一数量集合和第二数量集合,然后根据第一数量集合及对应的第一代价系数集合、第二数量集合及对应的第二代价系数集合,计算出预设阈值组所对应的代价函数值。由于将数据集中的每一样本语音,按照其重要程度或有害程度进行了更进一步的等级划分,且将这种等级划分体现在了代价函数值的计算中,而预设阈值组是基于满足预设条件的代价函数值所确定的,从而这种等级划分也能体现在预设阈值组中,进而后续依据可以体现等级划分的预设阈值组,来判断语音是有害还是正常。因此,可以提高后续判断结果的精准性。
结合上述实施例的内容,在一个实施例中,第一预设等级集合中包括以下两个第一预设子等级中的至少一项,所述以下两个第一预设子等级分别为普通等级及重要等级。
其中,若第一预设等级集合中只包含一个第一预设子等级,则说明数据集中只有一种重要程度的正常语音,如都是普通等级或者重要等级。若第一预设等级集合中只包含两个及两个以上的第一预设子等级,则说明数据集中存在两种及两种以上重要程度的正常语音。以正常语音的重要程度指的是正常语音被判断为有害语音之后带来的经济损失为例,重要等级的正常语音被识别为有害语音之后所带来的经济损失,要比普通等级的正常语音被识别为有害语音之后所带来的经济损失更大。因此,才有上述两个等级的划分。
另外,上述对第一预设等级的划分过程,可以在确定第一数量及第二数量之前执行,而具体是在确定第一数量及第二数量这个特征之前的哪一个特征前执行,本发明实施例对此不作具体限定。
需要说明的是,第二预设等级集合中包括以下两个第二预设子等级中的至少一项,该以下两个第二预设子等级分别为轻微有害等级及严重有害等级。
若第二预设等级集合中只包含一个第二预设子等级,则说明数据集中只有一种有害程度的有害语音,如都是轻微有害等级或者严重有害等级。若第二预设等级集合中只包含两个及两个以上的第二预设子等级,则说明数据集中存在两种及两种以上有害程度的有害语音。以有害语音的有害程度指的是有害语音被判断为正常语音之后带来的经济损失为例,严重有害等级的有害语音被识别为正常语音之后所带来的经济损失,要比轻微有害等级的有害语音被识别为正常语音之后所带来的经济损失更大。因此,才有上述两个等级的划分。
本发明实施例中提供的方法,由于将数据集中的每一正常语音,按照其重要程度进行了更进一步的等级划分,且将这种等级划分体现在了代价函数值的计算中,而预设阈值组是基于满足预设条件的代价函数值所确定的,从而这种等级划分也能体现在预设阈值组中,进而后续依据可以体现等级划分的预设阈值组,来判断正常语音是有害还是正常,可以尽可能地降低重要程度较高的正常语音被判断为有害语音的可能性。因此,可以提高后续判断结果的精准性。
结合上述实施例的内容,在一个实施例中,置信度不大于第一预设阈值时语音被判断为正常语音,置信度大于第二预设阈值时语音被判断为有害语音,置信度不大于第一预设阈值且不小于第二预设阈值时语音被判断为不确定语音;相应地,根据第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值,包括但不限于:
获取所有语音样本中识别为不确定语音的第三数量及不确定语音对应的第三代价系数;根据第三数量、第三代价系数、第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值。
其中,不确定语音的定义,从样本语音置信度的角度,指的是置信度不大于第一预设阈值且不小于第二预设阈值的样本语音。如图3所示,在一个实施例中,第一预设阈值divnorm取值为0.310,第二预设阈值divharm取值为0.755,此时利用预设阈值组对3组样本语音进行识别,其中,样本语音1(下周一考试)的置信度为0.100,小于第一预设阈值divnorm,则被判断为正常语音norm,样本语音2(祝您阖家欢乐)的置信度为0.396,大于第一预设阈值divnorm且小于第二预设阈值divharm,则被判断为不确定语音unsure,样本语音3(澳门赌场)的置信度为0.995,大于第二预设阈值divharm,则被判断为有害语音harm。通俗地讲,不确定语音是那些不能够准确地被判断为正常语音还是有害语音,也即与正常语音或有害语音的相似度较高的语音。之所以增加不确定语音,是因为在现有单阈值模型中,存在样本语音的置信度接近预设阈值的时候,模型对样本语音的判断结果的准确性较低的问题,即单纯地依靠大于预设阈值即为有害语音,小于预设阈值即为正常语音来判断,可能会出现实际为正常语音,但由于置信度比预设阈值稍大一点,而被判断为有害语音。而采用预设阈值组中的第一预设阈值和第二预设阈值,并基于第一预设阈值与第二预设阈值确定一个预留区间,以将处于该预留区间内的语音判断为不确定语音。此时,对样本语音的判断结果可增加为三种(正常语音、不确定语音和有害语音)。在后续处理过程中,若出现不确定语音,可以根据实际应用场景选择对不确定语音接收还是拦截。
根据第三数量、第三代价系数、第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值时,可以使用以下方式:根据第一代价系数集合中的每一第一代价系数,计算每一第一代价系数的权重,并根据每一第一代价系数的权重,计算对应的第一平均权重;根据第二代价系数集合中的每一第二代价系数,计算每一第二代价系数的权重,并根据每一第二代价系数的权重,计算对应的第二平均权重;根据第三代价系数、第一代价系数集合中的每一第一代价系数及第二代价系数集合中的每一第二代价系数,计算第三代价系数的权重;根据第一数量集合中的每一第一数量,计算对应的第一平均数量;根据第二数量集合中的每一第二数量,计算对应的第二平均数量;计算第一平均权重与第一平均数量之间的乘积,计算第二平均权重与第二平均数量之间的乘积,计算第三代价系数的权重与第三数量的乘积,将三个乘积相加以得到代价函数值。
本发明实施例中提供的方法,通过获取所有语音样本中识别为不确定语音的第三数量及不确定语音对应的第三代价系数。根据所述第三数量、所述第三代价系数、所述第一数量集合、所述第一代价系数集合、所述第二数量集合及所述第二代价系数集合,确定所述预设阈值组对应的代价函数值。由于基于第一预设阈值与第二预设阈值确定了一个预留区间,并将置信度处于该预留区间的样本语音判断为不确定语音,从而对样本语音的分类结果增加多种可能,提高了分类模型的分类效果。
结合上述实施例的内容,在一个实施例中,根据第三数量、第三代价系数、第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定所述预设阈值组对应的代价函数值,包括但不限于:
将第一数量集合中每一第一数量与对应在所述第一代价系数集合中的第一代价系数相乘,得到每一第一数量对应的每一第一乘积;
将第二数量集合中每一第二数量与对应在所述第二代价系数集合中的第二代价系数相乘,得到每一第二数量对应的每一第二乘积;
将第三代价系数与所述第三数量相乘,得到第三乘积;
将第三乘积、每一第一乘积及每一第二乘积进行相加,将相加结果作为预设阈值组对应的代价函数值。
具体地,以第一预设等级集合中包含一个第一预设等级,第二预设等级集合中包含一个第二预设等级为例。相应地,第一数量集合中包含一个第一数量,第一代价系数集合中包含一个第一代价系数,第二数量集合中包含一个第二数量,第二代价系数集合中包含一个第二代价系数。基于上述说明,上述计算代价函数值的过程可以参考如下公式:
f(divnorm,divharm)=costFP×numFP+costFN×numFN+costunsure×numunsure;(1)
在上述公式(1)中,divnorm表示第一预设阈值,divharm表示第二预设阈值,f(divnorm,divharm)表示预设阈值组(divnorm,divharm)对应的代价函数值。
numFP为样本中正常语音被识别为有害语音的个数,为第一数量,costFP代表将正常语音预测为有害语音的代价系数,是第一数量对应的第一代价系数;
numFN为样本中有害语音被识别为正常语音的个数,为第二数量,costFN代表将有害语音预测为正常语音的代价系数,是第二数量对应的第二代价系数;
numunsure为不确定的样本个数,为第三数量,costunsure代表将任意样本预测为不确定语音的代价系数,是第三数量对应的第三代价系数。
上述过程中,主要是计算代价函数值的过程。而在上述实施例中,存在如下过程,即对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,以确定满足预设条件的代价函数值。实际实施过程中,上述实施例中的该过程,每次调整预设阈值组中的预设阈值后,计算代价函数值时,均可以采用本发明实施例提供的公式(1)进行计算。
本发明实施例中提供的方法,通过根据所述第三数量、所述第三代价系数、所述第一数量集合、所述第一代价系数集合、所述第二数量集合及所述第二代价系数集合,确定所述预设阈值组对应的代价函数值。由于代价系数可以用于反映其对应的数量在代价函数值计算中所占的比重,从而使得实际实施过程中可以根据实际应用场景灵活地调整代价函数值的计算公式,进而使得整体判断过程能够适应多种实际应用场景。
结合上述实施例的内容,在一个实施例中,本发明实施例不对预设条件所包含的内容作具体限定,包括但不限于:计算得到的代价函数值收敛或者代价函数值为所有计算得到的代价函数值中的最小值。
其中,“代价函数值为所有计算得到的代价函数值中的最小值”具体可以指的是在按照某种预设方式重复调整预设阈值组,且该预设方式调整完毕后,可以得到有限组预设阈值组。相应地,在每次按照该预设方式调整预设阈值组时,均可以得到一个代价函数值,也即若按照预设方式一共调整了有限次,可以得到有限个代价函数值。若预设条件为代价函数值为所有计算得到的代价函数值中的最小值,则可以将该有限个代价函数值中的最小值作为满足预设条件的代价函数值。
“计算得到的代价函数值收敛”具体可以指的是在按照某种预设方式重复调整预设阈值组,调整至某一进度时,根据调整得到的预设阈值组所计算得到的代价函数值落入到第三预设范围内,则可以确定落入到第三预设范围内的代价函数值为满足预设条件的代价函数值。其中,第三预设范围指的是给出一个代价函数值的范围,使得在此范围内的代价函数值所对应的预设阈值组,在用于判断有害语音时有较高准确率,第三预设范围的设定在“重复上述调整预设阈值及计算代价函数值的过程”这个特征之前即可,第三预设范围的设定范围可以依据经验确定。
本发明实施例提供的方法,由于可以重复对预设阈值组中的预设阈值进行调整,直到确定满足预设条件的代价函数值,而预设条件的设定依据为识别样本语音时能够达到预设的准确率,从而能够确保实际实施过程中在使用所获得的预设阈值组进行语音识别时,能够保证比较高的准确率。
在一个实施例中,本发明实施例不对重复上述调整预设阈值及计算代价函数值的过程作具体限定,包括但不限于:
基于第一预设间隔,对所述预设阈值组中的第一预设阈值进行调整,并同时基于第二预设间隔,对所述预设阈值组中的第二预设阈值进行调整,每次同时对第一预设阈值及第二预设阈值进行调整,均计算对应的代价函数值;或者,
基于第三预设间隔,对所述预设阈值组中的第一预设阈值进行调整,在对所述第一预设阈值调整结束后,基于第四预设间隔,对所述预设阈值组中的第二预设阈值进行调整,每次对所述第一预设阈值进行调整以及对第二预设阈值进行调整均计算对应的代价函数值。
其中,无论是第一预设间隔、第二预设间隔、第三预设间隔还是第四预设间隔,其作为预设间隔,预设间隔的取值可以是固定的,如预设间隔取值为0.002,并在整个调整过程保持不变,也可以是变化的,如预设间隔按数列{0.002,0.001,0.002,0.001,……}取值,或者按数列{0.001,0.002,0.003,……}取值,本发明实施例中不对预设间隔其取值的变化方式作具体限定。另外,第一预设间隔、第二预设间隔、第三预设间隔与第四预设间隔的取值,可以全部相同,也可以全部不同,还可以局部相同,本发明实施例对此不作具体限定。
本发明实施例提供的方法,由于可以重复对预设阈值组中的预设阈值进行调整,直到确定满足预设条件的代价函数值,而预设条件的设定依据为识别样本语音时能够达到预设的准确率,从而能够确保实际实施过程中在使用所获得的预设阈值组进行语音识别时,能够保证比较高的准确率。
为了便于理解本发明提供的有害语音的识别方法,特给出下例以便理解。
在真实的场景中,正常语音被判别为有害语音往往是难以接受的,当涉及到与经济相关的更是如此,如一条“提醒下周一银行还贷”如果被判别为有害语音而被系统自动过滤掉,就会造成很大的损失和不便;而有害语音被判别为正常语音最多只是造成一些麻烦,比如需要用户手动去删除该语音。故而这里用代价函数
Figure BDA0003085532640000171
来体现真实情况中对用户造成的损失,并以此作为哪种模型更好的度量。其中
Figure BDA0003085532640000172
代表将普通的正常语音判断为有害语音的代价系数,
Figure BDA0003085532640000173
代表将特别重要的正常语音判断为有害语音的代价系数,FN代表将有害语音判断为正常语音的代价系数;
Figure BDA0003085532640000174
为样本中普通正常语音被判断为有害语音的个数,
Figure BDA0003085532640000175
为样本中特别重要语音被判断为有害语音的个数,numFN为样本中有害语音被判断为正常语音的个数。根据统计,这里
Figure BDA0003085532640000176
取30,
Figure BDA0003085532640000177
取10,costFN取6。同时准备数据集,该数据集中总共有100份语音,其中正常语音60份,且其中包含15份非常重要的语音,有害语音有40份。
分别用普通的阈值选择方式和双阈值选择方式进行对损失进行评估,两种模型都采用逻辑回归的二分类模型。
普通的单阈值选择方式:
首先用数据集(即上文提到的数据集)对模型进行训练,训练完成后,选择合适的单阈值。进行阈值选择时的代价函数为
f1=costFP×numFP+costFN×numFN
这里costFP=12,costFN=6。阈值div以0.005的间隔在0~1之间取值,算出相应的损失函数,最终当损失函数最小时,阈值div取值为0.685
此时,利用反应真实情况的代价函数f0来计算单阈值模型的损失:
Figure BDA0003085532640000181
双阈值选择方式:
步骤(1)数据准备
这里的数据即为与普通的阈值选择方式相同的数据集。
步骤(2)训练分类模型
用该数据集对与普通阈值选择方式相同的逻辑回归模型进行训练,二者训练完成后的模型是相同的,即对于同一个样本,二者的模型给出的置信度相等。
步骤(3)重新确定阈值。
这里的代价函数为:
f2=costFP×numFP+costFN×numFN+costunsure×numunsure
这里,costFP=18,costFN=8,costunsure=4。令divnorm在(0,1)选择,间隔为0.005;divharm在(0,1)选择,间隔为0.005;并始终保持divnorm≤divharm。最终选择出代价最小(divnorm,divharm)对,为(0.325,0.785)。
此时,利用反应真实情况的代价函数f0来计算单阈值模型的损失:
Figure BDA0003085532640000191
可以发现,双阈值的选择方式使得模型效果有了显著提高。
应该理解的是,虽然图1、图2及图3的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图2及图3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,上述阐述的技术方案在实际实施过程中可以作为独立实施例来实施,也可以彼此之间进行组合并作为组合实施例实施。另外,在对上述本发明实施例内容进行阐述时,仅基于方便阐述的思路,按照相应顺序对不同实施例进行阐述,如按照数据流流向的顺序,而并非是对不同实施例之间的执行顺序进行限定,也不是对实施例内部步骤的执行顺序进行限定。相应地,在实际实施过程中,若需要实施本发明提供的多个实施例,则不一定需要按照本发明阐述实施例时所提供的执行顺序,而是可以根据需求安排不同实施例之间的执行顺序。
结合上述实施例的内容,在一个实施例中,参见图4,提供了一种有害语音的识别装置,包括:第一确定模块401、第二确定模块402及第三确定模块403,其中:
第一确定模块401,用于将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,并根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;
第二确定模块402,用于对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;
第三确定模块403,用于根据满足预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
其中,标注结果为有害语音或正常语音;预设条件的设定依据为识别样本语音时能够达到预设的准确率。
在一个实施例中,第一确定模块401,包括:
获取单元,用于对于第一预设等级集合中的每一第一预设等级及第二预设集合中的每一第二预设等级,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第一预设等级的正常语音被识别为有害语音的第一数量,以构成第一数量集合,并根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第二预设等级的有害语音被识别为正常语音的第二数量,以构成第二数量集合;
确定单元,用于根据所述第一数量集合、第一代价系数集合、所述第二数量集合及第二代价系数集合,确定所述预设阈值组对应的代价函数值;
其中,第一预设等级集合及所述第二预设等级集合中均至少包括一种预设等级,第一预设等级集合中的预设等级是按照正常语音的重要程度所划分的,第二预设等级集合中的预设等级是按照正常语音的有害程度所划分的,第一代价系数集合中每一第一代价系数是与每一第一预设等级相对应的,第二代价系数集合中每一第二代价系数是与每一第二预设等级相对应的。
在一个实施例中,获取单元,包括:第一预设等级集合中包括以下两个第一预设子等级中的至少一项,所述以下两个第一预设子等级分别为普通等级及重要等级。
在一个实施例中,置信度不大于第一预设阈值时语音被判断为正常语音,置信度大于第二预设阈值时语音被判断为有害语音,置信度不大于第一预设阈值且不小于第二预设阈值时语音被判断为不确定语音;相应地,确定单元,包括:
第一确定子单元,用于获取所有语音样本中识别为不确定语音的第三数量及不确定语音对应的第三代价系数;
第二确定子单元,用于根据第三数量、第三代价系数、第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值。
在一个实施例中,第二确定子单元,用于将第一数量集合中每一第一数量与对应在第一代价系数集合中的第一代价系数相乘,得到每一第一数量对应的每一第一乘积;将第二数量集合中每一第二数量与对应在第二代价系数集合中的第二代价系数相乘,得到每一第二数量对应的每一第二乘积;将第三代价系数与第三数量相乘,得到第三乘积;将第三乘积、每一第一乘积及每一第二乘积进行相加,将相加结果作为预设阈值组对应的代价函数值。
在一个实施例中,第二确定模块402,包括:预设条件包括计算得到的代价函数值收敛或者代价函数值为所有计算得到的代价函数值中的最小值。
在一个实施例中,第二确定模块402,包括:基于第一预设间隔,对所述预设阈值组中的第一预设阈值进行调整,并同时基于第二预设间隔,对所述预设阈值组中的第二预设阈值进行调整,每次同时对第一预设阈值及第二预设阈值进行调整,均计算对应的代价函数值;或者,
基于第三预设间隔,对所述预设阈值组中的第一预设阈值进行调整,在对所述第一预设阈值调整结束后,基于第四预设间隔,对所述预设阈值组中的第二预设阈值进行调整,每次对所述第一预设阈值进行调整以及对第二预设阈值进行调整均计算对应的代价函数值。
本发明实施例提供的装置,将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;根据满足预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;根据待判别的语音及所述最终的预设阈值组,对待判别的语音进行判断。相较于使用单阈值方式对有害语音进行识别,采用双阈值方式更便于对置信度阈值进行调整,进而提高有害语音识别的分类效果。
关于有害语音的识别装置的具体限定可以参见上文中于有害语音的识别方法的限定,在此不再赘述。上述有害语音的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种有害语音的识别方法。
本领域技术人员可以理解,图5示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值,标注结果为有害语音或正常语音;
对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值,预设条件的设定依据为识别样本语音时能够达到预设的准确率;
根据满足预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
根据待判别的语音及所述最终的预设阈值组,对待判别的语音进行判断;
其中,预设阈值组包括第一预设阈值与第二预设阈值,第一预设阈值用于判断正常语音,第二预设阈值用于判断有害语音。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对于第一预设等级集合中的每一第一预设等级及第二预设集合中的每一第二预设等级,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第一预设等级的正常语音被识别为有害语音的第一数量,以构成第一数量集合,并根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第二预设等级的有害语音被识别为正常语音的第二数量,以构成第二数量集合;
根据第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值;
其中,第一预设等级集合及第二预设等级集合中均至少包括一种预设等级,第一预设等级集合中的预设等级是按照正常语音的重要程度所划分的,第二预设等级集合中的预设等级是按照正常语音的有害程度所划分的,第一代价系数集合中每一第一代价系数是与每一第一预设等级相对应的,第二代价系数集合中每一第二代价系数是与每一第二预设等级相对应的。
在一个实施例中,处理器执行计算机程序时,第一预设等级集合中包括以下两个第一预设子等级中的至少一项,所述以下两个第一预设子等级分别为普通等级及重要等级。
在一个实施例中,置信度不大于第一预设阈值时语音被判断为正常语音,置信度大于第二预设阈值时语音被判断为有害语音,置信度不大于第一预设阈值且不小于第二预设阈值时语音被判断为不确定语音;相应的,处理器执行计算机程序时还实现以下步骤:
获取所有语音样本中识别为不确定语音的第三数量及不确定语音对应的第三代价系数;
根据所述第三数量、所述第三代价系数、所述第一数量集合、所述第一代价系数集合、所述第二数量集合及所述第二代价系数集合,确定所述预设阈值组对应的代价函数值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将第一数量集合中每一第一数量与对应在第一代价系数集合中的第一代价系数相乘,得到每一第一数量对应的每一第一乘积;
将第二数量集合中每一第二数量与对应在第二代价系数集合中的第二代价系数相乘,得到每一第二数量对应的每一第二乘积;
将第三代价系数与第三数量相乘,得到第三乘积;
将第三乘积、每一第一乘积及每一第二乘积进行相加,将相加结果作为预设阈值组对应的代价函数值。
在一个实施例中,处理器执行计算机程序时,预设条件包括计算得到的代价函数值收敛或者代价函数值为所有计算得到的代价函数值中的最小值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于第一预设间隔,对预设阈值组中的第一预设阈值进行调整,并同时基于第二预设间隔,对预设阈值组中的第二预设阈值进行调整,每次同时对第一预设阈值及第二预设阈值进行调整,均计算对应的代价函数值;或者,
基于第三预设间隔,对所述预设阈值组中的第一预设阈值进行调整,在对所述第一预设阈值调整结束后,基于第四预设间隔,对所述预设阈值组中的第二预设阈值进行调整,每次对所述第一预设阈值进行调整以及对第二预设阈值进行调整均计算对应的代价函数值。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值,标注结果为有害语音或正常语音;
对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值,预设条件的设定依据为识别样本语音时能够达到预设的准确率;
根据满足预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
根据待判别的语音及所述最终的预设阈值组,对待判别的语音进行判断;
其中,预设阈值组包括第一预设阈值与第二预设阈值,第一预设阈值用于判断正常语音,第二预设阈值用于判断有害语音。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对于第一预设等级集合中的每一第一预设等级及第二预设集合中的每一第二预设等级,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第一预设等级的正常语音被识别为有害语音的第一数量,以构成第一数量集合,并根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第二预设等级的有害语音被识别为正常语音的第二数量,以构成第二数量集合;
根据第一数量集合、第一代价系数集合、第二数量集合及第二代价系数集合,确定预设阈值组对应的代价函数值;
其中,第一预设等级集合及第二预设等级集合中均至少包括一种预设等级,第一预设等级集合中的预设等级是按照正常语音的重要程度所划分的,第二预设等级集合中的预设等级是按照正常语音的有害程度所划分的,第一代价系数集合中每一第一代价系数是与每一第一预设等级相对应的,第二代价系数集合中每一第二代价系数是与每一第二预设等级相对应的。
在一个实施例中,计算机程序被处理器执行时,第一预设等级集合中包括以下两个第一预设子等级中的至少一项,所述以下两个第一预设子等级分别为普通等级及重要等级。
在一个实施例中,置信度不大于第一预设阈值时语音被判断为正常语音,置信度大于第二预设阈值时语音被判断为有害语音,置信度不大于第一预设阈值且不小于第二预设阈值时语音被判断为不确定语音;相应的,计算机程序被处理器执行时还实现以下步骤:
获取所有语音样本中识别为不确定语音的第三数量及不确定语音对应的第三代价系数;
根据所述第三数量、所述第三代价系数、所述第一数量集合、所述第一代价系数集合、所述第二数量集合及所述第二代价系数集合,确定所述预设阈值组对应的代价函数值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将第一数量集合中每一第一数量与对应在第一代价系数集合中的第一代价系数相乘,得到每一第一数量对应的每一第一乘积;
将第二数量集合中每一第二数量与对应在第二代价系数集合中的第二代价系数相乘,得到每一第二数量对应的每一第二乘积;
将第三代价系数与第三数量相乘,得到第三乘积;
将第三乘积、每一第一乘积及每一第二乘积进行相加,将相加结果作为预设阈值组对应的代价函数值。
在一个实施例中,计算机程序被处理器执行时,预设条件包括计算得到的代价函数值收敛或者代价函数值为所有计算得到的代价函数值中的最小值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于第一预设间隔,对预设阈值组中的第一预设阈值进行调整,并同时基于第二预设间隔,对预设阈值组中的第二预设阈值进行调整,每次同时对第一预设阈值及第二预设阈值进行调整,均计算对应的代价函数值;或者,
基于第三预设间隔,对所述预设阈值组中的第一预设阈值进行调整,在对所述第一预设阈值调整结束后,基于第四预设间隔,对所述预设阈值组中的第二预设阈值进行调整,每次对所述第一预设阈值进行调整以及对第二预设阈值进行调整均计算对应的代价函数值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种有害语音的识别方法,其特征在于,所述方法包括:
将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算所述预设阈值组对应的代价函数值,标注结果为有害语音或正常语音;
对所述预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值,所述预设条件的设定依据为识别样本语音时能够达到预设的准确率;
根据满足所述预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
根据待判别的语音及所述最终的预设阈值组,对所述待判别的语音进行判断;
其中,所述预设阈值组包括第一预设阈值与第二预设阈值,所述第一预设阈值用于判断正常语音,所述第二预设阈值用于判断有害语音。
2.根据权利要求1所述的方法,其特征在于,所述根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算所述预设阈值组对应的代价函数值,包括:
对于第一预设等级集合中的每一第一预设等级及第二预设集合中的每一第二预设等级,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第一预设等级的正常语音被识别为有害语音的第一数量,以构成第一数量集合,并根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第二预设等级的有害语音被识别为正常语音的第二数量,以构成第二数量集合;
根据所述第一数量集合、第一代价系数集合、所述第二数量集合及第二代价系数集合,确定所述预设阈值组对应的代价函数值;
其中,所述第一预设等级集合及所述第二预设等级集合中均至少包括一种预设等级,所述第一预设等级集合中的预设等级是按照正常语音的重要程度所划分的,所述第二预设等级集合中的预设等级是按照有害语音的有害程度所划分的,所述第一代价系数集合中每一第一代价系数是与每一第一预设等级相对应的,所述第二代价系数集合中每一第二代价系数是与每一第二预设等级相对应的。
3.根据权利要求2所述的方法,其特征在于,所述第一预设等级集合中包括以下两个第一预设子等级中的至少一项,所述以下两个第一预设子等级分别为普通等级及重要等级。
4.根据权利要求2所述的方法,其特征在于,置信度不大于第一预设阈值时语音被判断为正常语音,置信度大于第二预设阈值时语音被判断为有害语音,置信度不大于第一预设阈值且不小于第二预设阈值时语音被判断为不确定语音;相应地,所述根据所述第一数量集合、第一代价系数集合、所述第二数量集合及第二代价系数集合,确定所述预设阈值组对应的代价函数值,包括:
获取所有语音样本中识别为不确定语音的第三数量及不确定语音对应的第三代价系数;
根据所述第三数量、所述第三代价系数、所述第一数量集合、所述第一代价系数集合、所述第二数量集合及所述第二代价系数集合,确定所述预设阈值组对应的代价函数值。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第三数量、所述第三代价系数、所述第一数量集合、所述第一代价系数集合、所述第二数量集合及所述第二代价系数集合,确定所述预设阈值组对应的代价函数值,包括:
将所述第一数量集合中每一第一数量与对应在所述第一代价系数集合中的第一代价系数相乘,得到每一第一数量对应的每一第一乘积;
将所述第二数量集合中每一第二数量与对应在所述第二代价系数集合中的第二代价系数相乘,得到每一第二数量对应的每一第二乘积;
将所述第三代价系数与所述第三数量相乘,得到第三乘积;
将所述第三乘积、每一第一乘积及每一第二乘积进行相加,将相加结果作为所述预设阈值组对应的代价函数值。
6.根据权利要求1所述的方法,其特征在于,所述预设条件包括计算得到的代价函数值收敛或者代价函数值为所有计算得到的代价函数值中的最小值。
7.根据权利要求1所述的方法,其特征在于,所述重复上述调整预设阈值及计算代价函数值的过程,包括:
基于第一预设间隔,对所述预设阈值组中的第一预设阈值进行调整,并同时基于第二预设间隔,对所述预设阈值组中的第二预设阈值进行调整,每次同时对第一预设阈值及第二预设阈值进行调整,均计算对应的代价函数值;或者,
基于第三预设间隔,对所述预设阈值组中的第一预设阈值进行调整,在对所述第一预设阈值调整结束后,基于第四预设间隔,对所述预设阈值组中的第二预设阈值进行调整,每次对所述第一预设阈值进行调整以及对第二预设阈值进行调整均计算对应的代价函数值。
8.一种有害语音的识别装置,其特征在于,所述装置包括:
第一确定模块,用于将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,并根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算所述预设阈值组对应的代价函数值;
第二确定模块,用于对所述预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;
第三确定模块,用于根据满足所述预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
其中,标注结果为有害语音或正常语音;预设条件的设定依据为识别样本语音时能够达到预设的准确率。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110579536.3A 2021-05-26 2021-05-26 有害语音的识别方法、装置、计算机设备和存储介质 Active CN113327601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110579536.3A CN113327601B (zh) 2021-05-26 2021-05-26 有害语音的识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110579536.3A CN113327601B (zh) 2021-05-26 2021-05-26 有害语音的识别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113327601A true CN113327601A (zh) 2021-08-31
CN113327601B CN113327601B (zh) 2024-02-13

Family

ID=77416843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110579536.3A Active CN113327601B (zh) 2021-05-26 2021-05-26 有害语音的识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113327601B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2057139A1 (en) * 1990-12-11 1992-06-12 Pierre-Andre Laurent Method to evaluate the pitch and voicing of the speech signal in vocoders with very slow bit rates
CN108520220A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 模型生成方法和装置
JP6539829B1 (ja) * 2018-05-15 2019-07-10 角元 純一 音声と非音声の度合いの検出方法
WO2020062731A1 (zh) * 2018-09-25 2020-04-02 平安科技(深圳)有限公司 一种基于代价函数的白名单更新方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2057139A1 (en) * 1990-12-11 1992-06-12 Pierre-Andre Laurent Method to evaluate the pitch and voicing of the speech signal in vocoders with very slow bit rates
FR2670313A1 (fr) * 1990-12-11 1992-06-12 Thomson Csf Procede et dispositif pour l'evaluation de la periodicite et du voisement du signal de parole dans les vocodeurs a tres bas debit.
CN108520220A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 模型生成方法和装置
JP6539829B1 (ja) * 2018-05-15 2019-07-10 角元 純一 音声と非音声の度合いの検出方法
WO2020062731A1 (zh) * 2018-09-25 2020-04-02 平安科技(深圳)有限公司 一种基于代价函数的白名单更新方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
严斌峰;朱小燕;张智江;张范;: "语音识别确认中的置信特征和判定算法", 软件学报, no. 12, 23 December 2006 (2006-12-23) *

Also Published As

Publication number Publication date
CN113327601B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
US10943186B2 (en) Machine learning model training method and device, and electronic device
CN109815991B (zh) 机器学习模型的训练方法、装置、电子设备及存储介质
CN105574538B (zh) 分类模型训练方法及装置
CN111950656B (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
CN109271958B (zh) 人脸年龄识别方法及装置
JP2015087903A (ja) 情報処理装置及び情報処理方法
CN112329843A (zh) 基于决策树的呼叫数据处理方法、装置、设备及存储介质
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
CN110717509A (zh) 基于树分裂算法的数据样本分析方法及装置
CN114662602A (zh) 一种离群点检测方法、装置、电子设备及存储介质
CN112446441A (zh) 模型训练数据筛选方法、装置、设备及存储介质
CN113642652A (zh) 生成融合模型的方法、装置和设备
CN114782123A (zh) 一种信用评估方法及系统
CN108628873B (zh) 一种文本分类方法、装置和设备
US6789070B1 (en) Automatic feature selection system for data containing missing values
CN113762401A (zh) 自适应分类任务阈值调整方法、装置、设备及存储介质
CN113327601A (zh) 有害语音的识别方法、装置、计算机设备和存储介质
CN116468102A (zh) 刀具图像分类模型剪枝方法、装置、计算机设备
CN112446428B (zh) 一种图像数据处理方法及装置
CN114154548A (zh) 销量数据序列分类方法、装置、计算机设备和存储介质
CN112906805A (zh) 图像训练样本筛选和任务模型训练方法、装置及电子设备
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备
CN111681116A (zh) 理赔资料核实方法、装置、设备及存储介质
CN111914820A (zh) 资质审核方法及装置
CN109446325A (zh) 一种高正确率的自然语言分类器系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant