CN109599093B - 智能质检的关键词检测方法、装置、设备及可读存储介质 - Google Patents

智能质检的关键词检测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN109599093B
CN109599093B CN201811261083.4A CN201811261083A CN109599093B CN 109599093 B CN109599093 B CN 109599093B CN 201811261083 A CN201811261083 A CN 201811261083A CN 109599093 B CN109599093 B CN 109599093B
Authority
CN
China
Prior art keywords
data
keyword
model
voice data
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811261083.4A
Other languages
English (en)
Other versions
CN109599093A (zh
Inventor
魏昆仑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN201811261083.4A priority Critical patent/CN109599093B/zh
Publication of CN109599093A publication Critical patent/CN109599093A/zh
Application granted granted Critical
Publication of CN109599093B publication Critical patent/CN109599093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用数据检测技术领域,提供了一种智能质检的关键词检测方法、装置、设备及可读存储介质,所述方法包括:获取训练样本数据以及预标注的关键词数据,并对训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取;根据所述预标注的关键词数据,构建语言模型及字典;对滤波器组特征、感知线性预测系数特征以及声音频度特征进行模型训练,构建声学模型;基于所述语言模型以及测试处理后的声学模型,对待测试语音数据的关键词进行识别,对坐席的业务行为规范进行评分并输出结果。该方法针对性关键词识别精确,每一个目标关键词都有大量数据集进行支撑,同时,模型标注成本小;识别速度快,相比人工质检,效率大大提高。

Description

智能质检的关键词检测方法、装置、设备及可读存储介质
技术领域
本发明属于数据检测技术领域,尤其涉及一种智能质检的关键词检测方法、装置、设备及可读存储介质。
背景技术
随着消费金融的不断发展,销售、小额放贷等业务不断扩张。以电话作为一种与客户的主要交互手段,消费金融各种业务的电话录音数量也在迅速增长。面对这种情况,我们引入了人工电话质检人员对所有录音进行质量检测,即监测坐席在打电话时,是否遵循了正确的业务流程。质检员每天抽取一部分的语音,对该语音的流程规范,业务逻辑进行逐条审核,最终将针对各项业务指标对坐席进行一定的奖励或惩罚。然而面对电话录音数随着公司发展成倍增长的情况,人工所能质检的比例越来越小。为了对大批量的电话录音进行质检,现引入了关键字识别,通过人工智能在学习关键词的特征来大量解放人力,并提高质检效率。
关键词质检指通过神经网络训练一些主要业务流程中的关键词或常见脏词,并以识别语音中是否出现相对应的关键词作为评分标准,审核坐席的行为是否符合业务流程规范。
现有针对关键词质检方法,主要通过提取大量针对性关键词数据的语音特征,进行归一化后放入神经网络中进行机器学习模型训练,其所得模型鲁棒性较差,在场景不一致的情况下对识别率影响较大;其次,识别词单一,只能识别训练数据中出现过的关键词,未在词库中出现的单词无法识别;并且,当单条语音中存在多个关键词时,迭代周期缓慢。
发明内容
本发明实施例提供一种智能质检的关键词检测方法,旨在解决上述技术问题。
本发明实施例是这样实现的,一种智能质检的关键词检测方法,所述方法包括:
获取训练样本数据以及预标注的关键词数据,所述训练样本数据为包括多个关键词的不同文本以及不同特征的语音数据;
对所述训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取;
根据所述预标注的关键词数据,构建语言模型及字典;
对所述滤波器组特征、感知线性预测系数特征以及声音频度特征进行归一化处理;
根据归一化处理后的感知线性预测系数特征以及声音频度特征,对所述训练样本数据进行强制对齐处理;
根据所述强制对齐处理后的训练样本数据以及对应的滤波器组特征、感知线性预测系数特征以及声音频度特征,构建声学模型;
对所述声学模型进行评估及测试处理;
基于所述语言模型以及测试处理后的声学模型,对待测试语音数据的关键词进行识别,并根据所述字典合成文本输出;
根据所述输出的关键词文本以及预设的业务流程规定,对坐席的业务行为规范进行评分并输出结果。
本发明实施例中,通过获取训练样本数据以及预标注的关键词数据,并对所述训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取;根据所述预标注的关键词数据,构建语言模型及字典;对滤波器组特征、感知线性预测系数特征以及声音频度特征进行模型训练,构建声学模型;基于所述语言模型以及测试处理后的声学模型,对待测试语音数据的关键词进行识别,并根据所述字典合成文本输出;根据所述输出的关键词文本以及预设的业务流程规定,对坐席的业务行为规范进行评分并输出结果。一方面,针对性关键词识别较为精确,每一个目标关键词都有大量数据集进行支撑,同时,模型标注成本小,每一条语音中只需要标注出关键词;另一方面,识别速度快,相比人工质检,效率大大提高,且模型易于部署,减少人力成本。
附图说明
图1是本发明实施例提供的一种智能质检的关键词检测方法的流程示意图;
图2是本发明实施例提供的一种滤波器组特征的提取方法的流程示意图;
图3是本发明实施例提供的一种感知线性预测系数特征的提取方法的流程示意图;
图4是本发明实施例提供的另一种智能质检的关键词检测方法的流程示意图;
图5是本发明实施例提供的再一种智能质检的关键词检测方法的流程示意图;
图6是本发明实施例提供的又一种智能质检的关键词检测方法的流程示意图;
图7是本发明实施例提供的一种智能质检的关键词检测装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和 / 或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
为了进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,根据如下实施例,对本发明实施例提供的智能质检的关键词检测方法进行详细说明。
本发明实施例提供的智能质检的关键词检测方法,通过获取训练样本数据以及预标注的关键词数据,并对所述训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取;根据所述预标注的关键词数据,构建语言模型及字典;对滤波器组特征、感知线性预测系数特征以及声音频度特征进行模型训练,构建声学模型;基于所述语言模型以及测试处理后的声学模型,对待测试语音数据的关键词进行识别,以对坐席的业务行为规范进行评分并输出结果。一方面,针对性关键词识别较为精确,每一个目标关键词都有大量数据集进行支撑,同时,模型标注成本小,每一条语音中只需要标注出关键词;另一方面,识别速度快,相比人工质检,效率大大提高,且模型易于部署,减少人力成本。
图1示出了本发明实施例提供的一种智能质检的关键词检测方法的实现流程,为了便于说明,仅示出与本发明实施例相关的部分,详述如下:
在步骤S101中,获取训练样本数据以及预标注的关键词数据,所述训练样本数据为包括多个关键词的不同文本以及不同特征的语音数据。
在本发明实施例中,训练样本数据是来自坐席录制的真实数据,预标注的关键词数据则是来源于标注文件,即通过人工手段预先标注出录音中真实出现过的关键词信息。关键词表来自业务方梳理的业务关键流程句或流程词,也包括一些可以直接判断坐席违规的脏词脏句。
在本发明实施例中,训练样本数据包括多个关键词的不同文本、不同特征。
在步骤S102中,对所述训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取。
在本发明实施例中,滤波器组特征即FBank特征,特征提取是一个将语音从语音信号转变为可处理的频域信号的过程,其中包括将语音信号放入高通滤波器进行预加重,目的使其频谱信号变的更为光滑,保证它能被同一个信噪比求频谱。进行分帧,将n个采样点的集合视为一帧,本发明采用的是10ms的语音数据视为一帧;为了保证帧的左右端点处的连续性,对每一帧乘一个汉明窗;此后为将语音信号转变为频域信号,需要进行傅里叶变换,进行能量谱计算并通过三角Mel滤波器进行滤波。
在本发明实施例中,感知线性预测系数特征(PLP, Perceptual LinearPredictive) 是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。
在本发明实施例中,声音频度特征即Pitch特征,其与声音的基频fundamentalfrequency(F0)有关,反应的是音高的信息,即声调。声音频度特征的求法为对声音的平均频率求倒数,即在其使用过程中,根据说话人声音频率不同其取值差距很大。声音频度特征的提取可以通过sphinx使用的YIN算法提取,相对简单而且进行了定点化,具体可参见现有技术。
在本发明实施例中,如图2所示,所述滤波器组特征的提取过程,具体包括:
在步骤S201中,对语音数据进行分帧处理。
在实际应用中,FBank特征提取要在预处理之后进行,这时语音数据已经分帧,进一步逐帧提取FBank特征即可。
在步骤S202中,对所述分帧处理后的语音数据的时域信号进行傅里叶变换处理,转换为频域信号。
在实际应用中,上述语音数据分帧之后得到的仍然是时域信号,为了提取FBank特征,首先需要将时域信号转换为频域信号;而傅里叶变换可以将信号从时域转到频域;傅里叶变换可以分为连续傅里叶变换和离散傅里叶变换,基于数字音频(而非模拟音频),应采用离散傅里叶变换。
在步骤S203中,对所述频域信号进行能量谱计算,并通过三角Mel滤波进行滤波处理,获取滤波器组特征。
在实际应用中,傅里叶变换完成后,时域信号转换为频域信号,但每个频带范围的能量大小不一,不同音素的能量谱不一样,关于能量谱的计算方式可参见现有技术,在此不再一一赘述。
在本发明实施例中,如图3所示,所述感知线性预测系数特征的提取过程,具体包括:
在步骤S301中,对语音数据进行采样、加窗、离散傅里叶变换处理,转换为频域信号。
在步骤S302中,对所述处理后的频域信号进行频谱计算以及临界带分析处理。
在实际应用中,频谱计算具体是指将语音信号经过采样、加窗、离散傅立叶变换后,取短时语音频谱的实部和虚部的平方和,得到短时功率谱;而临界频带的划分反映了人耳听觉的掩蔽效应,是人耳听觉模型的体现。
在步骤S303中,对所述处理后的频域信号进行等响度预加重及强度响度变化处理。
在实际应用中,为了近似模拟声音的强度与人耳感受的响度间的非线性关系,进行强度-响度转换。
在步骤S304中,对所述处理后的频域信号经过离散傅里叶反变换后,对全极点模型进行计算,并求出倒谱系数,获得感知线性预测系数特征。
在实际应用中,经过离散傅里叶反变换后,用德宾算法计算12阶全极点模型, 并求出16 阶倒谱系数, 最后的结果即为PLP 特征参数。
在步骤S103中,根据所述预标注的关键词数据,构建语言模型及字典。
在本发明实施例中,字典即发音字典,包含了从单词到音素之间的映射,作用是用来连接声学模型和语言模型的。发音字典包含系统所能处理的单词的集合,并标明了其发音。通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作。
在本发明实施例中,如图4所示,所述步骤S103,具体包括:
在步骤S401中,获取预标注的关键词数据的对应音素信息。
在步骤S402中,建立预标注的关键词数据的拼与对应音素的映射,并存储于字典中。
在步骤S403中,通过调用SRILM和openSLR,构建3-gram的语言模型,并记录词表中的前向后向概率。
在本发明实施例中,由于关键词基本为业务专有流程词,因此对应的音素需要通过人工标注后将拼音和音素的映射放入字典,如马上消费 ma3 sh ang4 xi ao1 fei4。对于多音词,需要建立了多个不同的拼音映射,并通过调用SRILM和openSLR构建3-gram的语言模型记录词表中的前向后向概率,即某一个词或字出现后,它的前面或者后面最容易出现的一个词或字。
在步骤S104中,对所述滤波器组特征、感知线性预测系数特征以及声音频度特征进行归一化处理。
在实际应用中,对于上述得到的所有特征都需要进行一个CMVN归一化,其目的是为这批特征赋予一个初始的均值和方差,以提升模型的收敛速度。
在步骤S105中,根据归一化处理后的感知线性预测系数特征以及声音频度特征,对所述训练样本数据进行强制对齐处理。
在实际应用中,归一化处理之后需要使用PLP+Pitch特征训练一个简单的GMM-HMM模型,而该模型将被用来对语音数据进行强制对齐操作。强制对齐顾名思义是在训练前,将每一帧与一个音素强制性的对应起来,其目的是在训练的时候能够正确定位某种发音具体代表了何种含义;进行强制对齐后将会根据音素分为utt_id,channel_num,start_time,end_time,phone_id几列。
在实际应用中,训练DNN的时候,需要知道每一帧对应的是什么音素(甚至HMM状态)。而一般语音数据的标注,只有音素串,并不知道每个音素(或HMM状态)的起止时间。“强制对齐”就是利用一个GMM-HMM模型,求出每个音素(或HMM状态)的起止时间。
在步骤S106中,根据所述强制对齐处理后的训练样本数据以及对应的滤波器组特征、感知线性预测系数特征以及声音频度特征,构建声学模型。
在本发明实施例,如图5所示,所述步骤S106,具体包括:
在步骤S501中,根据所述滤波器组特征、感知线性预测系数特征以及声音频度特征,通过神经网络进行模型训练。
在实际应用中,模型训练时输入为强制对齐文件和对应的特征文件,输出为一个4层的DNN神经网络的声学模型,其中包含了一个输入层,两个隐含层和一个输出层。神经网络节点数选用256:1024:1024:2048。
在步骤S502中,通过调用后验算法对每一帧语音数据进行微调处理。
在步骤S503中,基于强制对齐处理后的训练样本数据,对模型的转移概率、神经网络参数进行调整处理,获得声学模型。
在实际应用中,训练时通过调用后验算法对每一帧进行fine-tuning(微调),其中初始模型是上述在进行强制对齐时所使用的,之后根据反向传播重新对转移概率进行估算,并以强制对齐后的文本作为参照,不断对转移概率、神经网络参数进行调整,最终在两者基本稳定后,即模型达到收敛后训练结束,得到所需的声学模型。
在步骤S107中,对所述声学模型进行评估及测试处理。
在本发明实施例中,如图6所示,所述步骤S107,具体包括:
在步骤S601中,接收待测试语音数据,所述待测试语音数据为真实并带有关键词标注、且不出现在所述训练样本数据的语音数据。
在步骤S602中,对所述待测试语音数据进行滤波器组特征的提取,并进行解码输入声学模型。
在步骤S603中,基于声学模型以及语言模型,获取匹配度最高的识别结果。
在步骤S604中,根据所述识别结果以及字典,合成相应的关键词文本信息。
在步骤S605中,根据所述关键词文本信息以及待测试语音数据的关键词标注的对照,确定模型的召回率与准确率。
在实际应用中,完成模型训练后,通过将一批真实并带有标注,且不出现在训练集中的语音数据进行特征提取,并作为解码的输入。解码时通过维特比算法调用声学模型和语言模型进行WFST解码,即把声学模型打分和语言模型打分最高的一个音素视为最可信的识别结果,并根据字典中的音素合成相应的关键词或字。对于最高分的音素无法合成关键字的情况,算法将选择打分稍低但可以被合成的关键词作为结果输出。之后根据输出的关键词与标注中的关键词对照,判断模型的召回率与准确率。即标注中出现的关键词被识别出的数量与总关键词数量之比,和关键词识别准确无误的数量与所有被识别出来关键词的数量之比。
在步骤S108中,基于所述语言模型以及测试处理后的声学模型,对待测试语音数据的关键词进行识别,并根据所述字典合成文本输出。
在步骤S109中,根据所述输出的关键词文本以及预设的业务流程规定,对坐席的业务行为规范进行评分并输出结果。
在实际应用中,输入一条或一批语音数据,进行特征提取后解码,根据识别结果进行后续的文本处理,如较长的关键词允许1-2个字的误差。打分时按照给定的业务流程,根据关键词文本和场景判断坐席的行为是否符合业务规范。
值得注意的是,关键词识别从语音方面还可以直接通过特征进行模板匹配,即通过端点检测算法对每一个关键词进行分别建模,这种方法在数据量较小但场景单一时也能取得一定效果,缺点是由于它是对每一个关键词进行建模,使用时需要通过循环进行多次判断,因此识别速度会较为缓慢。另一种方式则是在进行语音识别之后,将声音转换为文本,直接通过文本进行关键词识别。但这种方法十分依赖于语音识别结果的正确率,在语音识别的正确率较为可信的情况下,从文本方面可以很快速的得到比较准确的结果。
本发明实施例提供的智能质检的关键词检测方法,通过获取训练样本数据以及预标注的关键词数据,并对所述训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取;根据所述预标注的关键词数据,构建语言模型及字典;对滤波器组特征、感知线性预测系数特征以及声音频度特征进行模型训练,构建声学模型;基于所述语言模型以及测试处理后的声学模型,对待测试语音数据的关键词进行识别,以对坐席的业务行为规范进行评分并输出结果。一方面,针对性关键词识别较为精确,每一个目标关键词都有大量数据集进行支撑,同时,模型标注成本小,每一条语音中只需要标注出关键词;另一方面,识别速度快,相比人工质检,效率大大提高,且模型易于部署,减少人力成本。
图7示出了本发明实施例的一种智能质检的关键词检测装置的结构,为了便于说明,仅示出与本发明实施例相关的部分,详述如下:
一种智能质检的关键词检测装置700,包括获取单元701、特征提取单元702、第一构建单元703、归一化处理单元704、强制对齐单元705、第二构建单元706、评估及测试单元707、第一输出单元708以及第二输出单元709。
获取单元701,用于获取训练样本数据以及预标注的关键词数据,所述训练样本数据为包括多个关键词的不同文本以及不同特征的语音数据。
在本发明实施例中,获取单元701用于获取训练样本数据以及预标注的关键词数据,所述训练样本数据为包括多个关键词的不同文本以及不同特征的语音数据;其中,训练样本数据是来自坐席录制的真实数据,预标注的关键词数据则是来源于标注文件,即通过人工手段预先标注出录音中真实出现过的关键词信息。关键词表来自业务方梳理的业务关键流程句或流程词,也包括一些可以直接判断坐席违规的脏词脏句。
特征提取单元702,用于对所述训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取。
在本发明实施例中,特征提取单元702用于对所述训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取;其中,滤波器组特征即FBank特征,特征提取是一个将语音从语音信号转变为可处理的频域信号的过程,其中包括将语音信号放入高通滤波器进行预加重,目的使其频谱信号变的更为光滑,保证它能被同一个信噪比求频谱。进行分帧,将n个采样点的集合视为一帧,本发明采用的是10ms的语音数据视为一帧;为了保证帧的左右端点处的连续性,对每一帧乘一个汉明窗;此后为将语音信号转变为频域信号,需要进行傅里叶变换,进行能量谱计算并通过三角Mel滤波器进行滤波。
第一构建单元703,用于根据所述预标注的关键词数据,构建语言模型及字典。
在本发明实施例中,第一构建单元703用于根据所述预标注的关键词数据,构建语言模型及字典;其中,字典即发音字典,包含了从单词到音素之间的映射,作用是用来连接声学模型和语言模型的。发音字典包含系统所能处理的单词的集合,并标明了其发音。通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作。
归一化处理单元704,用于对所述滤波器组特征、感知线性预测系数特征以及声音频度特征进行归一化处理。
在本发明实施例中,归一化处理单元704用于对所述滤波器组特征、感知线性预测系数特征以及声音频度特征进行归一化处理;在实际应用中,对于上述得到的所有特征都需要进行一个CMVN归一化,其目的是为这批特征赋予一个初始的均值和方差,以提升模型的收敛速度。
强制对齐单元705,用于根据归一化处理后的感知线性预测系数特征以及声音频度特征,对所述训练样本数据进行强制对齐处理。
在本发明实施例中,强制对齐单元705用于根据归一化处理后的感知线性预测系数特征以及声音频度特征,对所述训练样本数据进行强制对齐处理;在实际应用中,归一化处理之后需要使用PLP+Pitch特征训练一个简单的GMM-HMM模型,而该模型将被用来对语音数据进行强制对齐操作。强制对齐顾名思义是在训练前,将每一帧与一个音素强制性的对应起来,其目的是在训练的时候能够正确定位某种发音具体代表了何种含义;进行强制对齐后将会根据音素分为utt_id,channel_num,start_time,end_time,phone_id几列。
第二构建单元706,用于根据所述强制对齐处理后的训练样本数据以及对应的滤波器组特征、感知线性预测系数特征以及声音频度特征,构建声学模型。
在本发明实施例中,第二构建单元706用于根据所述强制对齐处理后的训练样本数据以及对应的滤波器组特征、感知线性预测系数特征以及声音频度特征,构建声学模型。其中,根据所述强制对齐处理后的训练样本数据以及对应的滤波器组特征、感知线性预测系数特征以及声音频度特征,构建声学模型,具体包括:根据所述滤波器组特征、感知线性预测系数特征以及声音频度特征,通过神经网络进行模型训练;通过调用后验算法对每一帧语音数据进行微调处理;基于强制对齐处理后的训练样本数据,对模型的转移概率、神经网络参数进行调整处理,获得声学模型。
评估及测试单元707,用于对所述声学模型进行评估及测试处理。
在本发明实施例中,评估及测试单元707用于对所述声学模型进行评估及测试处理。其中,对所述声学模型进行评估及测试处理,具体包括:接收待测试语音数据,所述待测试语音数据为真实并带有关键词标注、且不出现在所述训练样本数据的语音数据;对所述待测试语音数据进行滤波器组特征的提取,并进行解码输入声学模型;基于声学模型以及语言模型,获取匹配度最高的识别结果;根据所述识别结果以及字典,合成相应的关键词文本信息;根据所述关键词文本信息以及待测试语音数据的关键词标注的对照,确定模型的召回率与准确率。
第一输出单元708,用于基于所述语言模型以及测试处理后的声学模型,对待测试语音数据的关键词进行识别,并根据所述字典合成文本输出;
第二输出单元709,根据所述输出的关键词文本以及预设的业务流程规定,对坐席的业务行为规范进行评分并输出结果。
本发明实施例提供的智能质检的关键词检测装置,通过获取训练样本数据以及预标注的关键词数据,并对所述训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取;根据所述预标注的关键词数据,构建语言模型及字典;对滤波器组特征、感知线性预测系数特征以及声音频度特征进行模型训练,构建声学模型;基于所述语言模型以及测试处理后的声学模型,对待测试语音数据的关键词进行识别,以对坐席的业务行为规范进行评分并输出结果。一方面,针对性关键词识别较为精确,每一个目标关键词都有大量数据集进行支撑,同时,模型标注成本小,每一条语音中只需要标注出关键词;另一方面,识别速度快,相比人工质检,效率大大提高,且模型易于部署,减少人力成本。
本发明实施例还提供了一种计算机设备,该计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现上述各个方法实施例提供的智能质检的关键词检测方法的步骤。
本发明的实施例还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被上述处理器执行时实现上述各个方法实施例提供的智能质检的关键词检测方法的步骤。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。例如,所述计算机程序可以被分割成上述各个方法实施例提供的智能质检的关键词检测方法的步骤。
本领域技术人员可以理解,上述计算机设备的描述仅仅是示例,并不构成对计算机设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种智能质检的关键词检测方法,其特征在于,所述方法包括:
获取训练样本数据以及预标注的关键词数据,所述训练样本数据为包括多个关键词的不同文本以及不同特征的语音数据;
对所述训练样本数据进行滤波器组特征、感知线性预测系数特征以及声音频度特征的提取;
根据所述预标注的关键词数据,构建语言模型及字典;
对所述滤波器组特征、感知线性预测系数特征以及声音频度特征进行归一化处理;
根据归一化处理后的感知线性预测系数特征以及声音频度特征,对所述训练样本数据进行强制对齐处理;
根据所述强制对齐处理后的训练样本数据以及对应的滤波器组特征、感知线性预测系数特征以及声音频度特征,构建声学模型;
对所述声学模型进行评估及测试处理;
基于所述语言模型以及测试处理后的声学模型,对待测试语音数据的关键词进行识别,并根据所述字典合成文本输出;
根据所述输出的关键词文本以及预设的业务流程规定,对坐席的业务行为规范进行评分并输出结果。
2.如权利要求1所述的智能质检的关键词检测方法,其特征在于,所述滤波器组特征的提取过程,具体包括:
对语音数据进行分帧处理;
对所述分帧处理后的语音数据的时域信号进行傅里叶变换处理,转换为频域信号;
对所述频域信号进行能量谱计算,并通过三角Mel滤波进行滤波处理,获取滤波器组特征。
3.如权利要求1所述的智能质检的关键词检测方法,其特征在于,所述感知线性预测系数特征的提取过程,具体包括:
对语音数据进行采样、加窗、离散傅里叶变换处理,转换为频域信号;
对所述处理后的频域信号进行频谱计算以及临界带分析处理;
对所述处理后的频域信号进行等响度预加重及强度响度变化处理;
对所述处理后的频域信号经过离散傅里叶反变换后,对全极点模型进行计算,并求出倒谱系数,获得感知线性预测系数特征。
4.如权利要求1所述的智能质检的关键词检测方法,其特征在于,所述根据所述预标注的关键词数据,构建语言模型及字典,具体包括:
获取预标注的关键词数据的对应音素信息;
建立预标注的关键词数据的拼与对应音素的映射,并存储于字典中;
通过调用SRILM和openSLR,构建3-gram的语言模型,并记录词表中的前向后向概率。
5.如权利要求1所述的智能质检的关键词检测方法,其特征在于,所述根据所述强制对齐处理后的训练样本数据以及对应的滤波器组特征、感知线性预测系数特征以及声音频度特征,构建声学模型,具体包括:
根据所述滤波器组特征、感知线性预测系数特征以及声音频度特征,通过神经网络进行模型训练;
通过调用后验算法对每一帧语音数据进行微调处理;
基于强制对齐处理后的训练样本数据,对模型的转移概率、神经网络参数进行调整处理,获得声学模型。
6.如权利要求1所述的智能质检的关键词检测方法,其特征在于,所述对所述声学模型进行评估及测试处理,具体包括:
接收待测试语音数据,所述待测试语音数据为真实并带有关键词标注、且不出现在所述训练样本数据的语音数据;
对所述待测试语音数据进行滤波器组特征的提取,并进行解码输入声学模型;
基于声学模型以及语言模型,获取匹配度最高的识别结果;
根据所述识别结果以及字典,合成相应的关键词文本信息;
根据所述关键词文本信息以及待测试语音数据的关键词标注的对照,确定模型的召回率与准确率。
7.如权利要求6所述的智能质检的关键词检测方法,其特征在于,所述解码过程,具体包括:
通过维特比算法调用声学模型和语言模型进行WFST解码。
8.如权利要求2所述的智能质检的关键词检测方法,其特征在于,所述对语音数据进行分帧处理,具体包括:
将每10ms的语音数据分为一帧。
9.如权利要求5所述的智能质检的关键词检测方法,其特征在于,所述神经网络为DNN-HMM神经网络,包含一个输入层、两个隐含层以及一个输出层。
10.如权利要求5所述的智能质检的关键词检测方法,其特征在于,所述神经网络的节点数为256:1024:1024:2048。
CN201811261083.4A 2018-10-26 2018-10-26 智能质检的关键词检测方法、装置、设备及可读存储介质 Active CN109599093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811261083.4A CN109599093B (zh) 2018-10-26 2018-10-26 智能质检的关键词检测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811261083.4A CN109599093B (zh) 2018-10-26 2018-10-26 智能质检的关键词检测方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN109599093A CN109599093A (zh) 2019-04-09
CN109599093B true CN109599093B (zh) 2021-11-26

Family

ID=65958345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811261083.4A Active CN109599093B (zh) 2018-10-26 2018-10-26 智能质检的关键词检测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN109599093B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111862944B (zh) * 2019-04-30 2024-04-02 北京嘀嘀无限科技发展有限公司 语音识别装置、方法、电子设备和计算机可读存储介质
CN111953854B (zh) * 2019-05-14 2021-08-06 新联协同通信技术(北京)有限公司 一种基于场景模型的智能客服辅助方法
CN110277088B (zh) * 2019-05-29 2024-04-09 平安科技(深圳)有限公司 智能语音识别方法、装置及计算机可读存储介质
CN110364183A (zh) * 2019-07-09 2019-10-22 深圳壹账通智能科技有限公司 语音质检的方法、装置、计算机设备和存储介质
CN110648659B (zh) * 2019-09-24 2022-07-01 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
CN110933239A (zh) * 2019-12-30 2020-03-27 秒针信息技术有限公司 话术检测方法和装置
CN111523317B (zh) * 2020-03-09 2023-04-07 平安科技(深圳)有限公司 语音质检方法、装置、电子设备及介质
CN111429912B (zh) * 2020-03-17 2023-02-10 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN111444166A (zh) * 2020-03-19 2020-07-24 厦门快商通科技股份有限公司 一种标注数据自动质检方法
CN111462735B (zh) * 2020-04-10 2023-11-28 杭州网易智企科技有限公司 语音检测方法、装置、电子设备及存储介质
CN112669814B (zh) * 2020-12-17 2024-06-14 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN113096648A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 用于语音识别的实时解码方法和装置
CN113035236B (zh) * 2021-05-24 2021-08-27 北京爱数智慧科技有限公司 语音合成数据的质检方法以及装置
CN117178320A (zh) * 2021-07-16 2023-12-05 华为技术有限公司 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质
CN113571143A (zh) * 2021-07-26 2021-10-29 首都医科大学附属北京天坛医院 一种音频信息处理方法及装置
CN113724696A (zh) * 2021-08-09 2021-11-30 广州佰锐网络科技有限公司 一种语音关键词的识别方法及系统
CN113744756B (zh) * 2021-08-11 2024-08-16 浙江讯飞智能科技有限公司 设备质检及音频数据扩充方法和相关装置、设备、介质
CN113823277A (zh) * 2021-11-23 2021-12-21 北京百瑞互联技术有限公司 基于深度学习的关键词识别方法、系统、介质及设备
CN115687334B (zh) * 2023-01-05 2023-05-16 粤港澳大湾区数字经济研究院(福田) 数据质检方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0030970D0 (en) * 2000-12-19 2001-01-31 Nokia Mobile Phones Ltd Speech recognition method and system
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN104361894A (zh) * 2014-11-27 2015-02-18 湖南省计量检测研究院 一种基于输出的客观语音质量评估的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665823B2 (en) * 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0030970D0 (en) * 2000-12-19 2001-01-31 Nokia Mobile Phones Ltd Speech recognition method and system
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN104361894A (zh) * 2014-11-27 2015-02-18 湖南省计量检测研究院 一种基于输出的客观语音质量评估的方法

Also Published As

Publication number Publication date
CN109599093A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN108737667B (zh) 语音质检方法、装置、计算机设备及存储介质
Triantafyllopoulos et al. Towards robust speech emotion recognition using deep residual networks for speech enhancement
CN110223673B (zh) 语音的处理方法及装置、存储介质、电子设备
Hu et al. Pitch‐based gender identification with two‐stage classification
CN106935239A (zh) 一种发音词典的构建方法及装置
US11810546B2 (en) Sample generation method and apparatus
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
Shah et al. Effectiveness of PLP-based phonetic segmentation for speech synthesis
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
CN114927122A (zh) 一种情感语音的合成方法及合成装置
CN117935789A (zh) 语音识别方法及系统、设备、存储介质
Mandel et al. Audio super-resolution using concatenative resynthesis
CN112686041B (zh) 一种拼音标注方法及装置
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
EP4024395A1 (en) Speech analyser and related method
Yarra et al. Automatic intonation classification using temporal patterns in utterance-level pitch contour and perceptually motivated pitch transformation
Sailor et al. Fusion of magnitude and phase-based features for objective evaluation of TTS voice
CN111341298A (zh) 一种语音识别算法评分方法
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
Dutta et al. Robust language identification using power normalized cepstral coefficients
Gump Unsupervised methods for evaluating speech representations
CN117935865B (zh) 一种用于个性化营销的用户情感分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant