CN112837677A - 一种有害音频检测方法及装置 - Google Patents

一种有害音频检测方法及装置 Download PDF

Info

Publication number
CN112837677A
CN112837677A CN202011092241.5A CN202011092241A CN112837677A CN 112837677 A CN112837677 A CN 112837677A CN 202011092241 A CN202011092241 A CN 202011092241A CN 112837677 A CN112837677 A CN 112837677A
Authority
CN
China
Prior art keywords
audio
harmful
score
meta
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011092241.5A
Other languages
English (en)
Inventor
张震
石瑾
李鹏
夏静雯
方磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Iflytek Information Technology Co Ltd
Original Assignee
National Computer Network and Information Security Management Center
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Iflytek Information Technology Co Ltd filed Critical National Computer Network and Information Security Management Center
Priority to CN202011092241.5A priority Critical patent/CN112837677A/zh
Publication of CN112837677A publication Critical patent/CN112837677A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种有害音频检测方法及装置,该包括如下步骤:步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类;步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。本发明通过解决正、反例样本数量失衡条件下的小样本训练的问题,最终提高有害音频检测的准确率。

Description

一种有害音频检测方法及装置
技术领域
本发明涉及一种有害音频检测方法及装置,属于人工智能技术领域,具体涉及音频数据的意图识别。
背景技术
有害音频主要为涉毒类的音频文件,涉毒类音频样本具有重要的情报价值,但样本十分稀疏,正例样本属于一类小样本条件下的语音分类任务。
有害音频发现是音频文件意图识别应用的一个子方向,其目的是要从固定电话、移动互联网所产生的数以万计的音频文件中,自动的识别出涉毒、涉暴、涉黄等包括有害信息的音频文件,本案主要讨论涉毒有害音频的自动发现问题。涉毒类音频文件意图会被刻意的伪装,与毒品有关的名词及采取的各类活动会借用其它词来替代,仅从字面上理解是很难与涉毒活动关联起来的。客观上造成了,这类正例样本不仅少而且难以收集。相对海量的音频文件,从统计意义上涉毒音频几乎可忽略不计,但从实际的情报价值来看,对于反毒破案其意义不言而喻。因此,这是一类正例样本极度稀缺、负例样本占主导的二分类问题。那么基于意图识别的涉毒音频发现技术包含两个关键技术难点:1)正例样本获取。如何从海量音频文件中获取正例样本是构建基于有监督学习的自动分类系统的关键。2)基于小样本智能学习的识别技术。如何构建适用于小样本的分类学习算法,同样是问题的关键。
目前主流的意图识别技术可以按技术路线分为两类:基于关键词匹配和规则文法的要素抽取技术方案和基于机器学习、深度学习的意图识别方案。
基于关键词匹配的意图识别技术,是通过精确关键词匹配来达到分类的目的的,但是对精确关键词匹配技术做了扩充,不仅仅通过单个关键词进行匹配,而且通过定义组合关键词,以及在组合关键词上进行多种模式的匹配来达到的。关键词策略对文本进行关键词匹配,首先对输入的文本句子进行分词,通过正向单关键词、正向组合关键词和负向组合关键词进行意图识别,然后将分类得分归一化,大致技术原理如图1所示。
基于规则文法的要素抽取技术基于设定的文法规则,通过将定义的分类目标进行分解,分解为多个小的目标点,分别针对每个目标任务定义多个文法,用来匹配输入,最后通过统计匹配上的不同类别下的目标点的情况来决策是否属于某个定义的意图分类类别,比如,一个输入文档,同时匹配上了“办卡、存取钱业务”中的多个文法,则很大程度是该输入文档中内容是涉及到银行业务相关内容,可以认为是属于银行客服这个类别,通过文法进行意图分类的整体过程如图2所示。
基于机器学习的意图识别算法有LDA-SVM分类算法。LDA(Latent DirichletAllocation)认为一篇文档(Document)可以由多个主题(Topic)混合组成,每个主题都是词汇上的概率分布,文章中的每个词都是由一个固定的主题生成的。支持向量机(SupportVector Machine,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机,SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题,SVM的学习算法就是求解凸二次规划的最优化算法。LDA-SVM模型首先使用LDA对整个语料库进行建模,划分K个主题,提取每个主题的特征,得到每个文档的主题分布,即每个文档包含的每个主题的权重,此权重即可作为特征,然后使用SVM对LDA提取的特征进行建模,预测意图类别,最后将分类得分归一化。
深度学习的CNN网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性,最早用于图像,目前也被应用到NLP任务中,典型的CNN文本分类模型一共包括4层,结构如下:
a)输入层:如图所示,输入层是句子中的词语对应的词向量(word vector)依次(从上到下)排列的矩阵,假设句子有n个词,vector的维数为k,那么这个矩阵就是n×k的(在CNN中可以看作一副高度为n、宽度为k的图像)。这个矩阵的类型可以是静态的(static),也可以是动态的(non static)。静态就是word vector是固定不变的,而动态则是在模型训练过程中,word vector也当作是可优化的参数。
b)卷积层:输入层通过卷积操作得到若干个Feature Map,卷积窗口的大小为h×k,其中h表示纵向词语的个数,而k表示word vector的维数。通过这样一个大型的卷积窗口,将得到若干个列数为1的Feature Map。
c)池化层:采用Max-Over-TimePooling的方法,这种方法从之前一维的FeatureMap中提取最大的值,因为最大值代表着最重要的信号。这种Pooling方式可以解决可变长度的句子输入问题,无论Feature Map中有多少个值,只需要提取其中的最大值,最终池化层的输出为各个Feature Map的最大值,即一个一维的向量。
d)全连接+Softmax:池化层的一维向量通过全连接的方式,连接一个Softmax层,Softmax层可根据任务的需要设置(通常反映着最终类别上的概率分布)。
LSTM网络可以很好地利用文本中的词序信息,文本中的n+1个词依次通过LSTM后,得到相应的n+1个隐层神经元向量,将这些隐层向量求mean pooling(平均池化),即得到整个文本的分布式特征表示,然后紧接着是一个简单的逻辑回归层,得到一个类别分布概率。除了mean pooling,也可以使用max pooling(最大池化),或者两者同时使用,并将两者得到的结果相拼接。
发明内容
本发明提出的意图分类系统构建过程由简单的关键词语匹配、传统的分类算法到基于深度学习的分类算法,层层递进,从零开始快速实现分类系统的构建。关键词匹配,根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。然后基于收集到的正例、反例样本训练意图分类系统。本发明的要解决的技术难点有以下两个。
(1)涉毒类音频文件意图会被刻意的伪装,与毒品有关的名词及采取的各类活动会借用其它词来替代,仅从字面上理解是很难与涉毒活动关联起来的,导致涉毒音频这类正例样本难以收集。相对海量的音频文件,涉毒音频的数量几乎可以忽略不计,而且需要大量有专业经验的Z察人员从海量音频数据中人工进行甄别、筛选,耗时长且工作量大,样本获取难度大。
(2)现有的技术方案是基于大批量的样本数据去训练分类系统,需要人工收集有害音频并对涉毒类的正例样本进行标注。基于第(1)个难点,涉毒类正例样本数量少且收集困难,无法满足当前技术方案下意图识别分类系统的训练条件。且有害音频识别属于以负例样本为主的二分类问题,正、反例样本数量不均衡,会进一步影响到模型的训练,导致模型训偏,有害音频会被错误地识别成无害音频。因为有害音频存在的数量少,即使被识别成无害音频对系统整体的错误率也不会有太大影响,但作为重点关注的有害音频存在着巨大的Z察价值,其识别错误的代价远高于无害音频,出现大量漏警时会严重降低系统的使用效果。
现有的基于关键词匹配的技术方案仅能对特定的关键词进行强制匹配,本案的应用场景为涉毒类有害音频的检测,这类音频文件意图会被刻意的伪装,与毒品有关的名词及采取的各类活动会借用其它词来替代,仅从字面上理解是很难与涉毒活动关联起来,因而关键词匹配技术不适用于这类应用场景。此外,基于SVM分类器或基于深度学习分类网络的训练,都离不开大量标注数据的支撑。且本案的应用场景为正、负样本比例失衡,且以负样本为主的二分类场景,现有的SVM分类器或是基于深度学习的分类网络会将大量的有害音频识别成无害音频,这就造成本就数量很少的有害音频更加难以被检测出来,分类系统的使用效果差。
本发明针对上述两个难点,提出一种从零开始快速搭建分类方法,提高有害音频识别准确率的解决方法。通过关键词匹配和SVM意图识别这两步达到收集正例样本的目的,然后基于元学习思路解决正、反例样本数量失衡条件下分类模型训练的问题,最终提高小样本条件下有害音频检测的准确率。
但由于有害音频出现次数很少,即使通过上述两步也无法收集到足够多的有害音频样本来使得分类模型更加鲁棒。因此,在上述两步收集到的有害音频正例样本的基础上,基于元学习算法理论,使用大数据量的意图分类网络参数更新过程,来指导小样本条件下的有害音频分类网络的学习,从而实现基于小样本有害音频分类网络的有监督学习,最终提升有害音频分类模型的准确率和鲁棒性。
此外,由于关键词匹配、SVM分类器、元学习分类网络分别从关键词和文本意图两个层面来判别当前音频是否属于有害音频,待测音频在不同模型上得分的高低,表征了待测音频在各个判别维度上属于有害音频的可能性的大小。在关键词匹配算法中得分越高,说明当前音频含有有害关键词概率越大;在SVM分类器和元学习分类网络模型上得分越高,说明当前音频在意图层面含有有害信息的概率越大。因此,最终采用这三个分类模型的融合得分作为待测音频是否为有害音频的判别依据。
本发明具体采用如下技术方案:一种有害音频检测方法,包括如下步骤:
步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;
步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类,;
步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;
步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。
作为一种较佳的实施例,所述步骤SS1具体包括:输入一段语音数据,分别经声学模型识别和语言模型解码后,得到所有可能解码路径的词混淆网络,所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小;然后输出概率最大的解码路径,也即识别的文本内容;根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。
作为一种较佳的实施例,所述步骤SS2具体包括:对步骤SS1中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V={V1,V1,…,Vn},然后基于支持向量机算法SVM训练一个二分类器,基于文本意图对有害与无害的文本内容进行分类,有害的文本集合记为VT,无害的文本集合记为VF
作为一种较佳的实施例,所述步骤SS3具体包括:设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θk,其中k=1,2,…,2n;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θk)=θk+1,训练的目标函数为:
Figure BDA0002722502840000081
通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(VT,VF)条件下有害音频的分类网络的学习。
作为一种较佳的实施例,所述步骤SS4具体包括:设连续语音关键词匹配的关键词得分为SASR,SVM分类器得分为SSVM,元学习分类网络的得分为Smeta,则待测音频最终被检测为有害音频的得分为:
S=W1SASR+W2SSVM+W3Smeta
通过设定一个阈值范围,得分超过该范围的音频定性为有害音频,不超过该设定阈值的音频定性为无害音频,最终完成有害音频的检测。
本发明提出一种有害音频检测装置,包括:
关键词匹配模块,用于执行:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;
SVM分类器,用于执行:基于关键词匹配模块获得的识别的文本内容,采用SVM分类器进行分类,;
元学习有害音频分类模块,用于执行:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;
得分融合模块,用于执行:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。
作为一种较佳的实施例,所述关键词匹配模块具体包括:输入一段语音数据,分别经声学模型识别和语言模型解码后,得到所有可能解码路径的词混淆网络,所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小;然后输出概率最大的解码路径,也即识别的文本内容;根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。
作为一种较佳的实施例,所述SVM分类器包括:对关键词匹配模块中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V={V1,V1,…,Vn},然后基于支持向量机算法SVM训练一个二分类器,基于文本意图对有害与无害的文本内容进行分类,有害的文本集合记为VT,无害的文本集合记为VF
作为一种较佳的实施例,所述元学习有害音频分类模块包括:设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θk,其中k=1,2,…,2n;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θk)=θk+1,训练的目标函数为:
Figure BDA0002722502840000101
通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(VT,VF)条件下有害音频的分类网络的学习。
作为一种较佳的实施例,所述得分融合模块包括:设连续语音关键词匹配的关键词得分为SASR,SVM分类器得分为SSVM,元学习分类网络的得分为Smeta,则待测音频最终被检测为有害音频的得分为:
S=W1SASR+W2SSVM+W3Smeta
通过设定一个阈值范围,得分超过该范围的音频定性为有害音频,不超过该设定阈值的音频定性为无害音频,最终完成有害音频的检测。
本发明所达到的有益效果:本发明针对缺少有害音频正例样本的问题,首先使用连续语音关键词识别技术对海量音频内容进行转写识别,然后使用关键词匹配技术,从识别文本中检索出含有专家设定的目标关键词的音频内容交由专业人士确认,对检测到含有目标关键词且确认结果为有害音频的识别文本抽取Bert向量,用于训练有害音频的SVM分类器,从意图层面进一步区分有害音频与无害音频。关键词匹配技术和有害音频SVM分类器分别从关键词匹配和意图识别两个维度来识别有害音频,从而达到收集有害音频正例样本的目的。本发明的意图分类方法构建过程由简单的关键词语匹配、传统的分类算法到基于深度学习的分类算法,层层递进,从零开始快速实现分类系统的构建。关键词匹配,根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。然后基于Bert模型抽取正例的文本向量,用于搭建SVM分类器,从意图识别的角度进一步收集有害音频的正例样本。利用这两步收集的正例样本,利用元学习理论指导不平衡数据集下分类网络的训练,用于解决正、反例样本数量失衡条件下的小样本训练的问题,最终提高有害音频检测的准确率。
附图说明
图1是现有技术中的意图识别的示意图;
图2是现有技术通过文法进行意图分类的示意图;
图3是本发明的一种有害音频检测方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:如图3所示,本发明提出一种有害音频检测方法,包括如下步骤:
步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;
步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类,;
步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;
步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。
可选的,所述步骤SS1具体包括:输入一段语音数据,分别经声学模型识别和语言模型解码后,得到所有可能解码路径的词混淆网络,所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小;然后输出概率最大的解码路径,也即识别的文本内容;根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。
可选的,所述步骤SS2具体包括:对步骤SS1中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V={V1,V1,…,Vn},然后基于支持向量机算法SVM训练一个二分类器,基于文本意图对有害与无害的文本内容进行分类,有害的文本集合记为VT,无害的文本集合记为VF
可选的,所述步骤SS3具体包括:设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θk,其中k=1,2,…,2n;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θk)=θk+1,训练的目标函数为:
Figure BDA0002722502840000121
通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(VT,VF)条件下有害音频的分类网络的学习。
可选的,所述步骤SS4具体包括:设连续语音关键词匹配的关键词得分为SASR,SVM分类器得分为SSVM,元学习分类网络的得分为Smeta,则待测音频最终被检测为有害音频的得分为:
S=W1SASR+W2SSVM+W3Smeta
通过设定一个阈值范围,得分超过该范围的音频定性为有害音频,不超过该设定阈值的音频定性为无害音频,最终完成有害音频的检测。
实施例2:本发明还提出一种有害音频检测装置,包括:
关键词匹配模块,用于执行:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;
SVM分类器,用于执行:基于关键词匹配模块获得的识别的文本内容,采用SVM分类器进行分类,;
元学习有害音频分类模块,用于执行:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;
得分融合模块,用于执行:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。
可选的,所述关键词匹配模块具体包括:输入一段语音数据,分别经声学模型识别和语言模型解码后,得到所有可能解码路径的词混淆网络,所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小;然后输出概率最大的解码路径,也即识别的文本内容;根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。
可选的,所述SVM分类器包括:对关键词匹配模块中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V={V1,V1,…,Vn},然后基于支持向量机算法SVM训练一个二分类器,基于文本意图对有害与无害的文本内容进行分类,有害的文本集合记为VT,无害的文本集合记为VF
可选的,所述元学习有害音频分类模块包括:设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θk,其中k=1,2,…,2n;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θk)=θk+1,训练的目标函数为:
Figure BDA0002722502840000141
通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(VT,VF)条件下有害音频的分类网络的学习。
可选的,所述得分融合模块包括:设连续语音关键词匹配的关键词得分为SASR,SVM分类器得分为SSVM,元学习分类网络的得分为Smeta,则待测音频最终被检测为有害音频的得分为:
S=W1SASR+W2SSVM+W3Smeta
通过设定一个阈值范围,得分超过该范围的音频定性为有害音频,不超过该设定阈值的音频定性为无害音频,最终完成有害音频的检测。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种有害音频检测方法,其特征在于,包括如下步骤:
步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;
步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类,;
步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;
步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。
2.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS1具体包括:输入一段语音数据,分别经声学模型识别和语言模型解码后,得到所有可能解码路径的词混淆网络,所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小;然后输出概率最大的解码路径,也即识别的文本内容;根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。
3.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS2具体包括:对步骤SS1中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V={V1,V1,...,Vn},然后基于支持向量机算法SVM训练一个二分类器,基于文本意图对有害与无害的文本内容进行分类,有害的文本集合记为VT,无害的文本集合记为VF
4.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS3具体包括:设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θk,其中k=1,2,...,2n;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θk)=θk+1,训练的目标函数为:
Figure FDA0002722502830000021
通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(VT,VF)条件下有害音频的分类网络的学习。
5.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS4具体包括:设连续语音关键词匹配的关键词得分为SASR,SVM分类器得分为SSVM,元学习分类网络的得分为Smeta,则待测音频最终被检测为有害音频的得分为:
S=W1SASR+W2SSVM+W3Smeta
通过设定一个阈值范围,得分超过该范围的音频定性为有害音频,不超过该设定阈值的音频定性为无害音频,最终完成有害音频的检测。
6.一种有害音频检测装置,其特征在于,包括:
关键词匹配模块,用于执行:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;
SVM分类器,用于执行:基于关键词匹配模块获得的识别的文本内容,采用SVM分类器进行分类,;
元学习有害音频分类模块,用于执行:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;
得分融合模块,用于执行:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。
7.根据权利要求6所述的一种有害音频检测装置,其特征在于,所述关键词匹配模块具体包括:输入一段语音数据,分别经声学模型识别和语言模型解码后,得到所有可能解码路径的词混淆网络,所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小;然后输出概率最大的解码路径,也即识别的文本内容;根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。
8.根据权利要求6所述的一种有害音频检测装置,其特征在于,所述SVM分类器包括:对关键词匹配模块中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V={V1,V1,...,Vn},然后基于支持向量机算法SVM训练一个二分类器,基于文本意图对有害与无害的文本内容进行分类,有害的文本集合记为VT,无害的文本集合记为VF
9.根据权利要求6所述的一种有害音频检测装置,其特征在于,所述元学习有害音频分类模块包括:设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θk,其中k=1,2,...,2n;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θk)=θk+1,训练的目标函数为:
Figure FDA0002722502830000041
通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(VT,VF)条件下有害音频的分类网络的学习。
10.根据权利要求6所述的一种有害音频检测装置,其特征在于,所述得分融合模块包括:设连续语音关键词匹配的关键词得分为SASR,SVM分类器得分为SSVM,元学习分类网络的得分为Smeta,则待测音频最终被检测为有害音频的得分为:
S=W1SASR+W2SSVM+W3Smeta
通过设定一个阈值范围,得分超过该范围的音频定性为有害音频,不超过该设定阈值的音频定性为无害音频,最终完成有害音频的检测。
CN202011092241.5A 2020-10-13 2020-10-13 一种有害音频检测方法及装置 Pending CN112837677A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011092241.5A CN112837677A (zh) 2020-10-13 2020-10-13 一种有害音频检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011092241.5A CN112837677A (zh) 2020-10-13 2020-10-13 一种有害音频检测方法及装置

Publications (1)

Publication Number Publication Date
CN112837677A true CN112837677A (zh) 2021-05-25

Family

ID=75923826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011092241.5A Pending CN112837677A (zh) 2020-10-13 2020-10-13 一种有害音频检测方法及装置

Country Status (1)

Country Link
CN (1) CN112837677A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514170A (zh) * 2012-06-20 2014-01-15 中国移动通信集团安徽有限公司 一种语音识别的文本分类方法和装置
CN109034175A (zh) * 2017-06-12 2018-12-18 华为技术有限公司 数据处理方法、装置及设备
CN109710825A (zh) * 2018-11-02 2019-05-03 成都三零凯天通信实业有限公司 一种基于机器学习的网页有害信息识别方法
US20190251952A1 (en) * 2018-02-09 2019-08-15 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
US20200020319A1 (en) * 2018-07-16 2020-01-16 Microsoft Technology Licensing, Llc Eyes-off training for automatic speech recognition
CN110826611A (zh) * 2019-10-30 2020-02-21 华南理工大学 基于多个元分类器加权集成的stacking污水处理故障诊断方法
CN110991500A (zh) * 2019-11-19 2020-04-10 天津师范大学 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN111626318A (zh) * 2019-11-04 2020-09-04 中科软科技股份有限公司 一种基于深度学习的多语言有害信息特征智能挖掘方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514170A (zh) * 2012-06-20 2014-01-15 中国移动通信集团安徽有限公司 一种语音识别的文本分类方法和装置
CN109034175A (zh) * 2017-06-12 2018-12-18 华为技术有限公司 数据处理方法、装置及设备
US20190251952A1 (en) * 2018-02-09 2019-08-15 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
US20200020319A1 (en) * 2018-07-16 2020-01-16 Microsoft Technology Licensing, Llc Eyes-off training for automatic speech recognition
CN109710825A (zh) * 2018-11-02 2019-05-03 成都三零凯天通信实业有限公司 一种基于机器学习的网页有害信息识别方法
CN110826611A (zh) * 2019-10-30 2020-02-21 华南理工大学 基于多个元分类器加权集成的stacking污水处理故障诊断方法
CN111626318A (zh) * 2019-11-04 2020-09-04 中科软科技股份有限公司 一种基于深度学习的多语言有害信息特征智能挖掘方法
CN110991500A (zh) * 2019-11-19 2020-04-10 天津师范大学 一种基于嵌套式集成深度支持向量机的小样本多分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
B. SHI: "Few-Shot Acoustic Event Detection Via Meta Learning", 《ICASSP 2020》 *
HEMANTHAGE S: "Meta Learning for Few-Shot Joint Intent Detection and Slot-Filling", 《PROCEEDINGS OF THE 2020 5TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING TECHNOLOGIES》 *
朱怀涛: "面向小样本的多标签分类方法与应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王莉莉;杨鸿武;宋志蒙;: "基于多分类器的藏文文本分类方法", 南京邮电大学学报(自然科学版), no. 01 *

Similar Documents

Publication Publication Date Title
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
US20230342610A1 (en) Deep-learning-based system and process for image recognition
CN110134952A (zh) 一种错误文本拒识方法、装置及存储介质
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
US11755668B1 (en) Apparatus and method of performance matching
CN110956044A (zh) 一种基于注意力机制的司法场景用文案输入识别分类方法
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
Toledo et al. Handwritten word image categorization with convolutional neural networks and spatial pyramid pooling
CN112561530A (zh) 一种基于多模型融合的交易流水处理方法及系统
US11854537B2 (en) Systems and methods for parsing and correlating solicitation video content
US11699044B1 (en) Apparatus and methods for generating and transmitting simulated communication
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
WO2023177723A1 (en) Apparatuses and methods for querying and transcribing video resumes
CN112837677A (zh) 一种有害音频检测方法及装置
CN111159360B (zh) 获得讯询问话题分类模型、讯询问话题分类的方法和装置
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN113537802A (zh) 一种基于开源情报的地缘政治风险推演方法
CN112463965A (zh) 一种对文本的语义理解的方法及系统
Hou et al. Attention Based Joint Model with Negative Sampling for New Slot Values Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210525