CN108737667B

CN108737667B - 语音质检方法、装置、计算机设备及存储介质

Info

Publication number: CN108737667B
Application number: CN201810412704.8A
Authority: CN
Inventors: 张政
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2021-09-10
Anticipated expiration: 2038-05-03
Also published as: WO2019210557A1; CN108737667A

Abstract

本发明公开了语音质检方法、装置、计算机设备及存储介质,该语音质检方法包括：获取通话录音文件，所述通话录音文件包括文件标识；基于所述文件标识获取对应的质检词语数据；基于所述质检词语数据，采用语音识别算法将所述通话录音文件转换为通话文本；基于预设的质检模板，获取所述通话文本的匹配度；若所述通话文本的匹配度未超过预设阈值，则输出质检不合格的质检报告。本发明提供的技术方案通过质检词语数据将通话录音文件转换为通话文本，提高了转换的准确率，再根据预设的质检模板进行检验，从而查找出有问题的通话录音文件，节约了语音质检的时间，提高语音质检的效率。

Description

语音质检方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种语音质检方法、装置、计算机设备及存储介质。

背景技术

目前，呼叫中心(Call Center)是一种基于CTI(Computer TelephonyIntegration，计算机电话集成)技术，并充分利用通信网和计算机网络的多项功能集成与企业连为一体的完整的综合信息服务系统。呼叫中心能够有效、高速地为用户提供多种服务。其中，企业可以通过呼叫中心呼入模式获取客户的业务咨询、问题反馈、产品安装或维修受理、投诉受理、受理客户提出意见和建议等，也可以通过呼出模式主动进行市场调查、电话购物、会员回馈、电话营销、老客户回访、关怀、销售及售后跟踪服务等。

为了提高呼叫中心的服务质量，目前企业需要对坐席的通话录音文件进行质检。目前传统的做法是通过投入大量人力来对通话录音文件进行抽检。然而，由于通话录音文件的数量非常庞大，因此很多企业只能通过抽查的方式来对坐席的服务质量进行评价，无法反映所有坐席的服务质量。并且由于抽查的基数太大，样本数量也就很大，抽查人员的质检质量也无法得到保证。

发明内容

有鉴于此，本发明实施例提供一种语音质检方法、装置、计算机设备及存储介质，以解决语音质检的效率和准确性不高的问题。

一种语音质检方法，包括以下步骤：

获取通话录音文件，所述通话录音文件包括文件标识；

基于所述文件标识获取对应的质检词语数据；

基于所述质检词语数据，采用语音识别算法将所述通话录音文件转换为通话文本；

基于预设的质检模板，获取所述通话文本的匹配度；所述质检模板包括至少一项条款模板；其中，所述条款模板是指针对不同业务设置的与客户沟通时的标准词语或句子，所述条款模板包括必要条款模板、选择条款模板或前后条款模板；所述必要条款模板是指在业务沟通过程中必须要出现的词语或句子；所述选择条款模板是指在业务沟通过程中至少有一项条款模板是必须要出现的词语或句子；所述前后条款模板是指在业务沟通过程中必须按照一定的先后顺序出现的词语或句子；在进行必要条款模板的质检时，将通话文本中的词语与必要条款模板中的词语进行匹配，获取匹配词语的个数占必要条款模板中词语总数的比例，作为通话文本和必要条款模板的匹配比例；在进行选择条款模板的质检时，将通话文本中的词语分别与选择条款模板中的每个条款的词语进行匹配，分别获取匹配词语的个数占每个条款词语总数的比例，将其中最高的比例作为通话文本与选择条款的匹配比例；在进行前后条款模板的质检时，将通话文本中的词语按照先后顺序与前后条款模板中的前后条款的词语进行匹配，获取匹配词语占前后条款模板中的词语总数的比例，作为通话文本和前后条款模板的匹配比例；

若所述通话文本的匹配度未超过预设阈值，则输出质检不合格的质检报告；

所述基于所述质检词语数据，采用语音识别算法将所述通话录音文件转换为通话文本，包括：

采用语音识别算法将所述通话录音文件转化为目标拼音元素；所述采用语音识别算法将所述通话录音文件转化为目标拼音元素包括将通话录音文件进行VAD操作，从通话录音文件的声音流中识别出静音期并进行分帧，分帧后划分成多个小段，并对其进行MFCC声学特征提取，对提取的声学特征进行拼音元素的匹配，得到目标拼音元素；其中，所述目标拼音元素是指将通话录音文件转化成由拼音组成的元素，包括音节和声调；所述MFCC声学特征提取是在梅尔刻度频率域提取出来的倒谱参数；

根据中文分词算法规则，基于所述质检词语数据对所述目标拼音元素进行匹配，将对应的目标拼音元素转化为目标文本数据；

将所述目标文本数据输出为通话文本；所述将所述目标文本数据输出为通话文本包括将所述目标文本数据通过加入标点符号，组合形成所述通话文本；

所述基于所述质检词语数据，采用语音识别算法将所述通话录音文件转换为通话文本，包括：在将通话录音文件转换为通话文本的过程中，将通话录音文件进行噪音过滤/降噪、语句分段和语句转换处理，对语句分段后的每个句子采用数字、字母或汉字方式进行相应的标识，以根据该句子的标识获取对应的通话录音片段。

一种语音质检装置，包括：

通话录音文件获取模块，用于获取通话录音文件，所述通话录音文件包括文件标识；

质检词语数据获取模块，用于基于所述文件标识获取对应的质检词语数据；

通话文本转换模块，用于基于所述质检词语数据，采用语音识别算法将所述通话录音文件转换为通话文本；所述基于所述质检词语数据，采用语音识别算法将所述通话录音文件转换为通话文本，包括：在将通话录音文件转换为通话文本的过程中，将通话录音文件进行噪音过滤/降噪、语句分段和语句转换处理，对语句分段后的每个句子采用数字、字母或汉字方式进行相应的标识，以根据该句子的标识获取对应的通话录音片段；

匹配度获取模块，用于基于预设的质检模板，获取所述通话文本的匹配度；所述质检模板包括至少一项条款模板；其中，所述条款模板是指针对不同业务设置的与客户沟通时的标准词语或句子，所述条款模板包括必要条款模板、选择条款模板或前后条款模板；所述必要条款模板是指在业务沟通过程中必须要出现的词语或句子；所述选择条款模板是指在业务沟通过程中至少有一项条款模板是必须要出现的词语或句子；所述前后条款模板是指在业务沟通过程中必须按照一定的先后顺序出现的词语或句子；在进行必要条款模板的质检时，将通话文本中的词语与必要条款模板中的词语进行匹配，获取匹配词语的个数占必要条款模板中词语总数的比例，作为通话文本和必要条款模板的匹配比例；在进行选择条款模板的质检时，将通话文本中的词语分别与选择条款模板中的每个条款的词语进行匹配，分别获取匹配词语的个数占每个条款词语总数的比例，将其中最高的比例作为通话文本与选择条款的匹配比例；在进行前后条款模板的质检时，将通话文本中的词语按照先后顺序与前后条款模板中的前后条款的词语进行匹配，获取匹配词语占前后条款模板中的词语总数的比例，作为通话文本和前后条款模板的匹配比例；

质检报告输出模块，用于若所述通话文本的匹配度未超过预设阈值，则输出质检不合格的质检报告；

所述通话文本转换模块还包括目标拼音元素转化单元、目标文本数据转化单元和通话文本输出单元；

目标拼音元素转化单元，用于采用语音识别算法将所述通话录音文件转化为目标拼音元素；所述采用语音识别算法将所述通话录音文件转化为目标拼音元素包括将通话录音文件进行VAD操作，从通话录音文件的声音流中识别出静音期并进行分帧，分帧后划分成多个小段，并对其进行MFCC声学特征提取，对提取的声学特征进行拼音元素的匹配，得到目标拼音元素；其中，所述目标拼音元素是指将通话录音文件转化成由拼音组成的元素，包括音节和声调；所述MFCC声学特征提取是在梅尔刻度频率域提取出来的倒谱参数；

目标文本数据转化单元，用于根据中文分词算法规则，基于所述质检词语数据对所述目标拼音元素进行匹配，将对应的目标拼音元素转化为目标文本数据；

通话文本输出单元，用于将所述目标文本数据输出为通话文本；所述将所述目标文本数据输出为通话文本包括将所述目标文本数据通过加入标点符号，组合形成所述通话文本。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述语音质检方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述语音质检方法的步骤。

本发明实施例提供的语音质检方法、装置、计算机设备及存储介质中，获取通话录音文件，通话录音文件包括文件标识，基于文件标识获取对应的质检词语数据，基于质检词语数据采用语音识别算法将通话录音文件转换为通话文本，基于预设的质检模板获取通话文本的匹配度，若通话文本的匹配度未超过预设阈值，则输出质检不合格的质检报告。通过质检词语数据将通话录音文件转换为通话文本，提高了转换的准确率，再根据预设的质检模板进行检验，从而查找出有问题的通话录音文件，节约了语音质检时间，提高语音质检的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中的语音质检方法的一实现流程图；

图2为本发明实施例1中语音质检方法的另一实现流程图；

图3为本发明实施例1中步骤S30的一实现流程图；

图4为本发明实施例1中步骤S32的一实现流程图；

图5为本发明实施例1中语音质检方法的另一实现流程图；

图6为本发明实施例1中步骤S72的一实现流程图；

图7为本发明实施例2中提供的语音质检装置的一示意图；

图8为本发明实施例4中提供的计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1示出本实施例中语音质检方法的流程图。该语音质检方法应用在一个终端或系统中，以解决语音质检的效率和准确性不高的问题。特别地，可以应用在包括客服中心、呼叫中心等的通信终端或者系统中。如图1所示，该语音质检方法包括如下步骤：

S10：获取通话录音文件，通话录音文件包括文件标识。

其中，通话录音文件是指坐席与客户进行业务沟通时的录音文件。可选地，通话录音文件都保存在一个通话录音数据库中，再通过通话录音数据库来获取对应的通话录音文件。文件标识是指根据通话录音文件类型的不同而设置的标识，可以根据业务类型或者通话类型来为通话录音文件设置不同的标识。例如，根据业务类型来设置文件标识的话可以根据“理财”、“保险”或“储蓄”等不同的业务设定不同的文件标识。

可选地，从通话录音数据库中获取通话录音文件，可以根据坐席ID、时间区间或文件标识中的至少一项来获取对应的通话录音文件。其中，坐席ID是指坐席在系统或者终端中的账号，用于标识不同的坐席。

例如，当需要对X月X日坐席张三的通话录音文件进行质检时，根据时间区间(X月X日)和坐席ID(张三)从通话录音数据库中获取对应的通话录音文件。若坐席张三处理的业务是理财业务，则相应的通话录音文件的文件标识为“理财”。

通过获取通话录音文件的文件标识，可以为后续获取相应的词语数据进行语音识别作准备。

S20：基于文件标识获取对应的质检词语数据。

其中，质检词语数据是指用于对通话录音文件进行质检时用到的汉字词语数据，可以通过内部自主建立，也可以通过连接大数据平台获取。质检词语数据包括不同类型的数据，可选地，可以根据业务类型或者通话类型设置不同的质检词语数据。例如，根据“理财”、“保险”或“储蓄”这些不同的业务设置不同的质检词语数据。其中，质检词语数据类型的设置和文件标识的设置相对应。例如，若文件标识是根据业务类型来设置，则质检词语数据也是根据对应的业务类型来设置。

具体地，根据通话录音文件的具体的文件标识获取对应的质检词语数据。

例如，若通话录音的文件标识为“理财”时，则获取“理财”对应的质检词语数据。

通过获取文件标识相应的质检词语数据，可以使获取的数据更加准确，提高后续通话录音文件转换的准确率。

S30：基于质检词语数据，采用语音识别算法将通话录音文件转换为通话文本。

其中，语音识别算法是指将语音识别成文字的算法。而通话文本是指以文字形式体现的通话内容记录文本。具体地，可以采用隐马尔可夫模型(Hidden Markov Model，简称HMM)算法、动态时间归整(Dynamic Time Warping，简称DTW)算法或者基于深层神经网络(Deep Neural Network，简称DNN)算法来实现对通话录音文件的语音识别。

具体地，将通话录音文件进行噪音过滤/降噪、语句分段和语句转换处理，从而将通话录音文件转化为对应的词语元素，例如拼音。将转换后的词语元素与对应的质检词语数据中的基准词语进行匹配，将匹配后的词语组合起来得到通话文本。

例如，将通话录音文件中的“你好，我是张三”通过语句分段分为两个语句，即“你好”和“我是张三”两个句子。可选地，可以通过语音边界检测(Voice Activity Detection,简称VAD)进行语句分段，将两个句子转换为“nǐhǎo”和“wǒshìzhāng sān”；再与质检词语数据进行匹配，根据中文分词算法规则，例如正向最大匹配法、逆向最大匹配法、最小匹配法或者最大匹配法等等，匹配出“你好”和“我是张三”两个句子，再将两个句子进行合并组合成通话文本。

通过将通话录音文件转换为通话文本，直接对通话文本进行质检，可以节约语音质检时间，提高语音质检的效率。

S40：基于预设的质检模板，获取通话文本的匹配度。

其中，质检模板为针对具体的业务设定的用于检验坐席服务质量的文字模板。匹配度是指通话文本与质检模板中词语的匹配程度。

具体地，将通话文本中的词语与预设的质检模板中的词语进行匹配，计算匹配词语占预设的质检模板中的词语总数的比例，作为通话文本的匹配度。

例如，预设的质检模板为“您好，很高兴为您服务”，通话文本中与质检模板匹配的词语为“您好”，而质检模板中的词语总数9，通话文本中与质检模板相匹配的词语总数为2，则匹配度＝2/9＝22％。

可选地，当计算通话文本的匹配度时，是以单个字为最小单位来计算比例的。

通过计算通话文本与预设质检模板的匹配度，可以检验坐席在业务中的规范程度，有助于更直观地呈现语音质检结果，也提高了语音质检的效率。

S50：若通话文本的匹配度未超过预设阈值，则输出质检不合格的质检报告。

其中，预设阈值是对匹配度进行设定的一个下限值，可以根据实际需要进行设定。质检报告是对语音质检结果的一种具体体现，具体地，质检报告可以包括质检结果、通话文本的匹配度和匹配的具体词语等内容，其中，质检结果包括质检合格和质检不合格。

具体地，将通话文本的匹配度与预设阈值进行比较，若匹配度小于或等于预设阈值时，则输出质检不合格的质检报告。

例如，预设阈值为80％，若通话文本的匹配度只有70％，则输出质检不合格的质检报告。

通过匹配度与预设阈值的比较，可以快速判断出质检不合格的通话录音文件。

在图1对应的实施例中，获取通话录音文件，通话录音文件包括文件标识，基于文件标识获取对应的质检词语数据，基于质检词语数据采用语音识别算法将通话录音文件转换为通话文本，基于预设的质检模板获取通话文本的匹配度，若通话文本的匹配度未超过预设阈值，则输出质检不合格的质检报告。通过质检词语数据将通话录音文件转换为通话文本，提高了转换的精度，再根据预设的质检模板进行检验，从而查找出有问题的通话录音文件，节约了语音质检时间，提高语音质检的效率。

在一个具体实施方式中，该语音质检方法在步骤S20之前，还包括了对质检词语数据更新的过程，如图2所示，具体包括以下步骤：

S61：获取质检词语更新数据，质检词语更新数据包括质检词语数据标识。

其中，质检词语更新数据是指对相应的质检词语数据的数据变动的体现。例如，对质检词语数据中词语的增加、删除或修改的更新，或者对质检词语数据中部分词语的使用频次的更新等。可选地，可以连接内部数据库进行更新，也可以连接大数据平台进行更新。优选地，本实施例采用连接大数据平台的方式进行更新。质检词语数据标识是用于标识该质检词语更新数据对应的是何种类型的质检词语数据。

S62：基于质检词语数据标识更新对应的质检词语数据。

在获取质检词语更新数据之后，根据质检词语数据标识更新对应的质检词语数据。可以理解的是，不同类型的质检词语数据中的词语均是会产生变动的，相对应的词语的使用频次也是会不断更新。在这个实施方式中，在步骤S20之前对质检词语数据进行更新可以保证质检词语数据的实时性和有效性，也提高了后续通话录音文件转换为通话文本的准确率。

在一个具体实施方式中，可以连接大数据平台，当相应的大数据平台有数据更新时，就可以实时将对应的更新数据同步到对应的质检词语数据中，可以对质检词语数据实现实时更新，进一步保证了质检词语数据的准确性，提高了后续通话录音文件转换为通话文本的转换准确率。

例如，某个质检词语数据的类型为“保险”时，将该质检词语数据连接与保险相关的大数据平台。当相关的大数据平台有数据更新时，例如增加一个词语“安心保”，或者“提存”这个词语的使用频次增加了10次。在获取到该对应的质检词语更新数据之后，根据对应的质检词语数据标识“保险”对相应的质检词语数据进行更新。

可选地，也可以设定每隔一段时间对质检词语数据进行更新，例如每10分钟更新一次，可以根据实际需要进行设定，本发明实施例不做限制。

在图2对应的实施例中，通过获取质检词语更新数据，可以使质检词语数据的词语及时地进行更新，丰富词语数据，可以有效地提高将通话录音转换为通话文本时的转换准确率。

在一个具体的实施方式中，基于质检词语数据，采用语音识别算法将通话录音文件转换为通话文本，如图3所示，具体包括以下步骤：

S31：采用语音识别算法将通话录音文件转化为目标拼音元素。

其中，目标拼音元素是指将通话录音文件转化成由拼音组成的元素，包括音节和声调。音节是音位组合构成的最小的语音结构单位，是听觉可以区分清楚的语音的基本单位，每个音节由声母、韵母两个部分组成。例如，“张”的音节为“zhang”，“张三”的音节为“zhangsan”包含了两个音节。声调是汉语拼音中用于区分声音的高低和升降的属性，通常包括四声。

具体地，首先将通话录音文件进行VAD(语音边界检测)操作，从通话录音文件的声音流中识别出静音期并据此进行分帧。分帧后，声音流被分成多个小段。然后进行MFCC(Mel-Frequency Cepstral Coefficients)声学特征提取，其中，MFCC是在梅尔刻度频率域提取出来的倒谱参数，可以包括梅尔频率转化和倒谱分析两部分。梅尔刻度是一种基于人耳对等距的音高变化的感官判断而定的非线性频率刻度，与声音频率的关系如下：

其中，m为梅尔刻度，f为声音频率，单位为Hz。

倒谱分析是指对时域信号做傅里叶变换，然后取对数，然后再进行反傅里叶变换的过程。在完成声学特征提取的步骤之后，对提取的声学特征通过HMM算法、DTW算法或者基于DNN算法进行拼音元素的匹配，得到目标拼音元素。

S32：基于质检词语数据对目标拼音元素进行匹配，将对应的目标拼音元素转化为目标文本数据。

具体地，将目标拼音元素与对应的质检词语数据中词语的拼音进行匹配，将匹配后的词语组合在一起形成目标文本数据。

例如，文件标识为保险的通话录音文件为“您好，很高兴为您服务”，将其转化为“nín hǎo”和“hěn gāo xìng wèi nín fú wù”的目标拼音元素，将这些目标拼音元素与保险相对应的质检词语数据中的词语的拼音进行匹配，根据中文分词算法规则，例如正向最大匹配法、逆向最大匹配法、最小匹配法或者最大匹配法等等，匹配出“您好”和“很高兴为您服务”的目标文本数据。

S33：将目标文本数据输出为通话文本。

具体地，将得到的目标文本数据通过加入适当的标点符号组合在一起，形成通话文本输出。

可选地，标点符号的输入可以根据大数据平台对一个句子中最后一个词语后面的标点符号使用频率的统计，输入使用频率最高的标点符号。例如，“您好，很高兴为您服务”最后一个词语为“服务”，若根据大数据平台的统计使用频率最高的标点符号为句号，则与“服务”通过句号与下一个句子相连。

在图3对应的实施例中，通过将通话录音文件转化为包括音节和声调的目标拼音元素，再与对应的质检词语数据中词语的拼音进行匹配，可以有效地将通话录音文件转换为通话文本，提高了转换的准确率。

在一个具体实施方式中，质检词语数据包括普通词语数据和业务词语数据。

其中，普通词语数据是指普通场景下使用到的词语，业务词语数据是指对应于具体的业务而使用到的词语。可以理解的是，业务词语数据包括的词语比普通词语数据少。

在这个实施方式中，基于质检词语数据对目标拼音元素进行匹配，将对应的目标拼音元素转化为目标文本数据，如图4所示，具体包括以下步骤：

S321：基于业务词语数据对目标拼音元素进行匹配，将子拼音元素根据业务词语数据中对应的基准拼音元素转化为业务文本数据。

S322：基于普通词语数据对目标拼音元素中剩余的子拼音元素进行匹配，将剩余的子拼音元素根据普通词语数据中对应的基准拼音元素转化为普通文本数据。

S323：合并业务文本数据和普通文本数据，得到目标文本数据。

其中，基准拼音元素是指质检词语数据中的词语相对应的拼音元素。例如，质检词语数据中词语“保险”相对应的基准拼音元素为“bǎo xiǎn”。子拼音元素是指通话录音文件经过语句分段之后每一个句子经过转化后对应的拼音元素。

具体地，将目标拼音元素首先与通话录音文件的文件标识相对应的业务词语数据进行匹配，将能够匹配上的子拼音元素转化为对应的词语，得到业务文本数据；然后，将剩余未匹配的子拼音元素与普通词语数据进行匹配，将剩余的子拼音元素转换为对应的词语，得到普通文本数据。最后将两部分的文本数据(业务文本数据和普通文本数据)合并，得到目标文本数据。

例如，文件标识为“保险”的通话录音文件为“我们公司有一个产品安心保”，转化的目标拼音元素为“wǒ men gōng sī yǒu yī gèchǎn pǐn ān xīn bǎo”。首先将其与“保险”相对应的业务词语数据进行匹配，子拼音元素“ān xīn bǎo”匹配出“安心保”，随即将子拼音元素“ān xīn bǎo”转换为“安心保”，得到业务文本数据；然后将剩余的子拼音元素“wǒmen gōng sī yǒu yī gèchǎ n pǐn”与普通词语数据进行匹配，匹配出“我们公司有一个产品”，随即将该子拼音元素“wǒ men gōng sī yǒu yī gèchǎn pǐn”转换为“我们公司有一个产品”，得到普通文本数据；最后将两部分文本数据进行合并，得到“我们公司有一个产品安心保”的目标文本数据。

可选地，当进行词语匹配时，若与业务词语数据或者普通词语数据匹配的基准拼音元素对应的词语为多个时，则输出使用频次最高的词语。例如“gōngsī”可以与“公私”和“公司”进行匹配，若“公司”比“公私”的使用频次高，则输出匹配的词语为“公司”。

在图4对应的实施例中，通过首先与业务词语数据进行匹配，再与普通词语数据进行匹配，最后合并成目标文本数据。通过设置业务词语数据并进行优先匹配可以有效提高通话录音文件转换为通话文本时的准确率。

在一具体实施方式中，在步骤S40之前，该语音质检方法还包括对敏感词语的质检，如图5所示，具体包括以下步骤：

S71：将通话文本与敏感词语数据进行匹配。

S72：若通话文本中的词语与敏感词语数据中的任一词语匹配，则输出质检不合格的质检报告。

其中，敏感词语数据是指坐席在与客户进行业务沟通过程中禁止出现的词语，例如一些不礼貌的词语。可选地，敏感词语数据可以通过对应的敏感词语数据库来进行数据的获取和更新。

具体地，将通话文本中的词语与敏感词语数据进行匹配，如果通话文本中的词语与敏感词语数据中的任一词语匹配时，则输出质检不合格的质检报告。

在图5对应的实施例中，在基于预设的质检模板获取通话文本匹配度之前优先进行敏感词语数据的匹配，进行敏感词语的质检，通过分层次的质检方式的设置，保证了语音质检的合理性，并且在敏感词语质检输出不合格的质检报告之后对应的通话文本就不需要再进行通话文本的匹配度的获取，也提高了该语音质检方法的数据处理效率。

在一具体实施方式中，若通话文本中的词语与敏感词语数据的任一词语匹配时，则输出质检不合格的质检报告，如图6所示，具体还包括以下步骤：

S721：获取通话文本中与敏感词语数据的词语匹配的词语对应的句子。

S722：根据句子获取通话录音文件中对应的通话录音片段。

S723：输出通话录音片段和质检不合格的质检报告。

其中，通话录音片段是指对通话录音文件进行语句分段后得到的多个录音片段。具体地，获取通话文本中和敏感词语匹配的词语对应的句子，然后根据该句子确定通话录音文件中对应的通话录音片段。可选地，在将通话录音文件转换为通话文本的过程中，对语句分段后的每个句子进行相应的标识，例如，若“很高兴为您服务”为第二句，则进行相应的标识，可选地，可以采用数字、字母或汉字等方式进行标识。这样在确定含有敏感词语的句子后，就可以根据该句子的标识来获取对应的通话录音片段。最后，输出有敏感词语的句子相对应的通话录音片段和质检不合格的质检报告。

在图6对应的实施例中，通过敏感词语数据确定可能含有敏感词语的句子，并获取相应的通话录音片段，最后与质检不合格的质检报告一起输出，可以方便后续对相应的通话录音片段直接进行二次审核，保证语音质检的准确率并进一步提高语音质检的效率。

在一个具体的实施方式中，质检模板包括至少一项条款模板。

其中，条款模板是指针对不同业务设置的与客户沟通时的标准词语或句子，具体地，条款模板可以包括：必要条款模板、选择条款模板或前后条款模板。其中，必要条款模板是指在业务沟通过程中必须要出现的词语或句子；选择条款模板是指在业务沟通过程中至少有一项条款模板是必须要出现的词语或句子；前后条款模板是指在业务沟通过程中必须按照一定的先后顺序出现的词语或句子。可选地，在语音质检过程中，可以根据实际质检需要只采用一项条款模板进行语音质检，也可以采用多项条款模板共同进行语音质检。

在这个实施方式中，基于预设的质检模板，获取通话文本的匹配度，具体包括：采用以下公式计算通话文本的匹配度P：

其中，质检模板包括至少一项条款模板，n为质检模板中条款模板的数量，i为相应的条款模板(i＝1,2,3，...,n)，C_i为通话文本中和对应的条款模板i的匹配比例，ω_i为条款模板i对应的权重。

可选地，质检模板中权重ω_i可以根据实际情况进行预设，例如某次语音质检中对前后条款模板没有要求，则前后条款模板对应的权重ω_i可以设为0。或者在当次语音质检中对某个条款模板的要求比较高，则可以相应地提高该条款模板的权重。即在不同的语音质检过程中，可以通过对每一条款模板的权重进行调整来灵活进行设置。

具体地，在进行必要条款模板的质检时，将通话文本中的词语与必要条款模板中的词语进行匹配，获取匹配词语的个数占必要条款模板中词语总数的比例，作为通话文本和必要条款模板的匹配比例；在进行选择条款模板的质检时，将通话文本中的词语分别与选择条款模板中的每个条款的词语进行匹配，分别获取匹配词语的个数占每个条款词语总数的比例，将其中最高的比例作为通话文本与选择条款的匹配比例；在进行前后条款模板的质检时，将通话文本中的词语按照先后顺序与前后条款模板中的前后条款的词语进行匹配，获取匹配词语占前后条款模板中的词语总数的比例，作为通话文本和前后条款模板的匹配比例。可选地，进行匹配比例计算时，以单字作为最小单位进行计算。

例如，若对应的匹配比例C_i为：必要条款模板80％，选择条款模板90％，前后条款模板70％；权重ω_i为：必要条款模板60％，选择条款模板20％，前后条款模板20％，则匹配度P＝80％*60％+90％*20％+70*20％＝80％。

需要说明的是，可以根据不同业务来设定不同的质检模板和对应的权重，本发明实施例不做具体的限定。

在本发明实施例中，通过设置不同的质检模板，再通过公式计算匹配度，可以通过对每一条款模板的权重进行调整来灵活进行设置。可以为后续匹配度的判断提供数据支持，提高语音质检的效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

图7示出与实施例1中语音质检方法一一对应的语音质检装置的示意图。如图7所示，该语音质检装置包括通话录音文件获取模块10、质检词语数据获取模块20、通话文本转换模块30、匹配度获取模块40和质检报告输出模块50。其中，通话录音文件获取模块10、质检词语数据获取模块20、通话文本转换模块30、匹配度获取模块40和质检报告输出模块50的实现功能与实施例1中语音质检方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

通话录音文件获取模块10，用于获取通话录音文件，通话录音文件包括文件标识。

质检词语数据获取模块20，用于基于文件标识获取对应的质检词语数据。

通话文本转换模块30，用于基于质检词语数据，采用语音识别算法将通话录音文件转换为通话文本。

匹配度获取模块40，用于基于预设的质检模板，获取通话文本的匹配度。

质检报告输出模块50，用于若通话文本的匹配度未超过预设阈值，则输出质检不合格的质检报告。

进一步地，该语音质检装置还包括质检词语更新模块60。可选地，质检词语更新模块60还包括质检词语更新数据获取单元61和质检词语数据更新单元62。

质检词语更新数据获取单元61，用于获取质检词语更新数据，质检词语更新数据包括质检词语数据标识。

质检词语数据更新单元62，用于基于质检词语数据标识更新对应的质检词语数据。

优选地，通话文本转换模块30还包括目标拼音元素转化单元31、目标文本数据转化单元32和通话文本输出单元33。

目标拼音元素转化单元31，用于采用语音识别算法将通话录音文件转化为目标拼音元素

目标文本数据转化单元32，用于基于质检词语数据对目标拼音元素进行匹配，将对应的目标拼音元素转化为目标文本数据。

通话文本输出单元33，用于将目标文本数据输出为通话文本。

优选地，目标文本数据转化单元32还包括业务文本数据转化子单元321、普通文本转化子单元322和目标文本数据合并子单元323。

业务文本数据转化子单元321，用于基于业务词语数据对目标拼音元素进行匹配，将子拼音元素根据业务词语数据中对应的基准拼音元素转化为业务文本数据。

普通文本数据转化子单元322，用于基于普通词语数据对目标拼音元素中剩余的子拼音元素进行匹配，将剩余的子拼音元素根据普通词语数据中对应的基准拼音元素转化为普通文本数据。

目标文本数据合并子单元323，用于合并业务文本数据和普通文本数据，得到目标文本数据。

进一步地，该语音质检装置还包括敏感词语质检模块70。优选地，敏感词语质检模块70还包括敏感词语匹配单元71和质检报告输出单元72。

敏感词语匹配单元71，用于将通话文本与敏感词语数据进行匹配。

质检报告输出单元72，用于若通话文本中的词语与敏感词语数据中的任一词语匹配，则输出质检不合格的质检报告。

可选地，质检报告输出单元72还包括：敏感句子获取子单元721、通话片段获取子单元722和通话片段输出子单元723。

敏感句子获取子单元721，用于获取通话文本中与敏感词语数据的词语匹配的词语对应的句子。

通话片段获取子单元722，用于根据句子获取通话录音文件中对应的通话录音片段。

通话片段输出子单元723，用于输出通话录音片段和质检不合格的质检报告。

优选地，匹配度获取模块40还用于采用以下公式计算通话文本的匹配度P：

其中，n为质检模板中条款模板的数量，i为相应的条款模板，i＝1,2,3，...,n，C_i为通话文本和对应的条款模板i的匹配比例，ω_i为条款模板i对应的权重。

实施例3

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中语音质检方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例2中语音质检装置中各模块/单元的功能，为避免重复，这里不再赘述。

可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号和电信信号等。

实施例4

图8是本发明一实施例提供的计算机设备的示意图。如图8所示，该实施例的计算机设备80包括：处理器81、存储器82以及存储在存储器82中并可在处理器81上运行的计算机程序83。处理器81执行计算机程序83时实现上述实施例1中语音质检方法的步骤，例如图1所示的步骤S10至S50。或者，处理器81执行计算机程序83时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块10至70的功能。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音质检方法，其特征在于，包括以下步骤：

获取通话录音文件，所述通话录音文件包括文件标识；

基于所述文件标识获取对应的质检词语数据；

2.如权利要求1所述的语音质检方法，其特征在于，在所述基于所述文件标识获取对应的质检词语数据的步骤之前，所述语音质检方法还包括：

获取质检词语更新数据，所述质检词语更新数据包括质检词语数据标识；

基于所述质检词语数据标识更新对应的质检词语数据。

3.如权利要求1所述的语音质检方法，其特征在于，所述质检词语数据包括普通词语数据和业务词语数据；

所述基于所述质检词语数据对所述目标拼音元素进行匹配，将对应的目标拼音元素转化为目标文本数据，包括：

基于所述业务词语数据对所述目标拼音元素进行匹配，将子拼音元素根据业务词语数据中对应的基准拼音元素转化为业务文本数据；

基于所述普通词语数据对目标拼音元素中剩余的子拼音元素进行匹配，将剩余的子拼音元素根据普通词语数据中对应的基准拼音元素转化为普通文本数据；

合并所述业务文本数据和所述普通文本数据，得到目标文本数据。

4.如权利要求1所述的语音质检方法，其特征在于，在所述基于预设的质检模板，获取所述通话文本的匹配度的步骤之前，所述语音质检方法还包括：

将所述通话文本与敏感词语数据进行匹配；

若所述通话文本中的词语与所述敏感词语数据中的任一词语匹配，则输出质检不合格的质检报告。

5.如权利要求4所述的语音质检方法，其特征在于，所述若所述通话文本中的词语与所述敏感词语数据的任一词语匹配时，则输出质检不合格的质检报告，还包括：

获取所述通话文本中与所述敏感词语数据的词语匹配的词语对应的句子；

根据所述句子获取通话录音文件中对应的通话录音片段；

输出所述通话录音片段和质检不合格的质检报告。

6.如权利要求1所述的语音质检方法，其特征在于，所述质检模板包括至少一项条款模板；

所述基于预设的质检模板，获取所述通话文本的匹配度,包括：

采用以下公式计算所述通话文本的匹配度P：

其中，n为质检模板中条款模板的数量，i为相应的条款模板，i＝1,2,3，...,n，C_i为所述通话文本和对应的条款模板i的匹配比例，ω_i为条款模板i对应的权重。

7.一种语音质检装置，其特征在于，包括：

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音质检方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音质检方法的步骤。