CN108833722A

CN108833722A - 语音识别方法、装置、计算机设备及存储介质

Info

Publication number: CN108833722A
Application number: CN201810529536.0A
Authority: CN
Inventors: 黄锦伦
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-16
Anticipated expiration: 2038-05-29
Also published as: CN108833722B; WO2019227580A1

Abstract

本发明公开了一种语音识别方法、装置、计算机设备及存储介质，所述方法包括：若监测到有坐席员的外呼操作，则获取该坐席员的设备标识和语音数据，并确定坐席员所属的业务部门，进而获取该业务部门对应的业务文本模板，并对语音数据进行语音识别，得到实时语音文本，通过实时对业务文本模板和实时语音文本进行文本匹配，得到匹配结果，并根据匹配结果来执行相应的预警措施，实现了对坐席员外呼过程中的语音进行实时监控，能够及时发现不规范用语并预警，从而确保了监控的及时性，并且，由于无需通过人工听取并分析录音来对外呼进行监控，从而节约了时间，提高了监控效率。

Description

语音识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术

呼叫中心由交互式语音应答系统和人工话务系统构成。人工话务系统由签入系统，话务平台，接口机组成，客户代表也就是坐席员为了进行客户服务，需在签入系统进行签入操作，成功签入话务平台后，根据话务平台分配的人工服务请求和客户建立通话，也就是坐席员外呼，来进行客户服务，通常会根据业务需求，针对不同业务设置不同的业务用语，来对客户进行更优质的服务。

虽然每个坐席员在外呼前已被告知相应的业务术语，但现实生活中，由于业务的调动或者对业务的不熟悉，经常会出现坐席员外呼用语不恰当的现象。

针对坐席员外呼用语不恰当的情况，目前的做法是通过事后听取录音并对录音进行分析，进而获取不符合规范的外呼信息并进行相应处理，这种作法一方面，只能在事后去听取录音，做不到及时的预警，导致坐席员语音外呼的监控不及时，另一方面，由于需要人工去听取所有录音并进行分析，需要花费大量时间，导致监控效率低。

发明内容

本发明实施例提供一种语音识别方法、装置、计算机设备及存储介质，以解决当前对坐席员语音外呼的监控不及时和监控效率低的问题。

本发明实施例提供一种语音识别方法，包括：

若监测到坐席员的外呼操作，则获取所述坐席员外呼过程中的语音数据和使用的外呼设备的设备标识；

基于所述设备标识，确定所述坐席员所属的业务部门；

获取所述业务部门对应的业务文本模板，其中，所述业务文本模板包括外呼必需用语和外呼禁止用语；

对所述语音数据进行语音识别，得到实时语音文本，并将所述实时语音文本添加到当前外呼文本；

将所述实时语音文本与所述外呼禁止用语进行文本匹配，得到第一匹配结果；

若所述第一匹配结果为所述实时语音文本包含所述外呼禁止用语，则执行第一预警措施。

本发明实施例提供一种语音识别装置，包括：

数据获取模块，用于若监测到坐席员的外呼操作，则获取所述坐席员外呼过程中的语音数据和使用的外呼设备的设备标识；

部门确定模块，用于基于所述设备标识，确定所述坐席员所属的业务部门；

模板选取模块，用于获取所述业务部门对应的业务文本模板，其中，所述业务文本模板包括外呼必需用语和外呼禁止用语；

语音识别模块，用于对所述语音数据进行语音识别，得到实时语音文本，并将所述实时语音文本添加到当前外呼文本；

第一匹配模块，用于将所述实时语音文本与所述外呼禁止用语进行文本匹配，得到第一匹配结果；

第一预警模块，用于若所述第一匹配结果为所述实时语音文本包含所述外呼禁止用语，则执行第一预警措施。

本发明实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音识别方法的步骤。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音识别方法的步骤。

本发明实施例提供的一种语音识别方法、装置、计算机设备及存储介质中，若监测到有坐席员的外呼操作，则获取该坐席员的设备标识和语音数据，通过该设备标识，确定坐席员所属的业务部门，进而获取该业务部门对应的业务文本模板，并对语音数据进行语音识别，得到实时语音文本，将实时语音文本存入当前外呼文本，通过实时对外呼禁止用语和实时语音文本进行文本匹配，得到第一匹配结果，若第一匹配结果为实时语音文本包含外呼禁止用语，则执行第一预警措施，实现了对坐席员外呼过程中的语音进行实时监控，当坐席员在外呼过程中使用了外呼禁止用语时，能够及时发现并预警，从而确保了监控的及时性，并且，由于无需通过人工听取并分析录音来对外呼进行监控，从而节约了时间，提高了监控效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音识别方法的应用环境示意图；

图2是本发明实施例提供的语音识别方法的实现流程图；

图3是本发明实施例提供的语音识别方法中步骤S4的实现流程图；

图4是本发明实施例提供的语音识别方法中步骤S41的实现流程图；

图5是本发明实施例提供的语音识别方法中语音信号交叠分帧的示例图；

图6是本发明实施例提供的语音识别方法中对外呼必需用语进行监控预警的实现流程图；

图7是本发明实施例提供的语音识别装置的示意图；

图8是本发明实施例提供的计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1示出了本发明实施例提供的语音识别方法的应用环境。该语音识别方法应用在呼叫中心的坐席员外呼场景中，该呼叫中心包括服务端、客户端和监控端，其中，服务端和客户端之间、服务端和监控端之间通过网络进行连接，坐席员通过客户端进行外呼呼叫，客户端具体可以但不限于是各种直线电话、程控交换机联系的电话网电话、手机、步话机或其他用于通讯的智能设备，服务端和监控端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的语音识别方法应用于服务端。

请参阅图2，图2示出本发明实施例提供的语音识别方法的实现流程。以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S1：若监测到坐席员的外呼操作，则获取该坐席员外呼过程中的语音数据和该坐席员使用的外呼设备的设备标识。

具体地，服务端与客户端通过网络连接，服务端可以实时对客户端进行监测，当监测到在客户端有坐席员的外呼操作时，获取坐席员所使用的外呼设备的设备标识与外呼过程中产生的语音数据。

其中，客户端包含至少两个以上的外呼设备，每个外呼设备用于一个坐席员进行外呼。

需要说明的是，服务端对客户端的监控，可以是使用套接字(Socket)进程通信的监听模式来实现，也可以通过传输控制协议(Transmission Control Protocol，TCP)对数据传输进行控制来实现，还可以是通过具有监控功能的第三方工具来实现，本发明实施例采用的优选方式为通过套接字(Socket)进程通信的监听模式来实现，实际可以根据具体情况来选取合适的监控方式，此处不作限制。

S2：基于设备标识，确定坐席员所属的业务部门。

具体地，设备标识记录该设备的主要信息，包括但不限于：坐席员工号、坐席员所属部门、设备类型或设备编号等，在获取到设备标识后，可以根据设备标识确定坐席员所属的业务部门。

例如，在一具体实施方式中，获取到的设备标识为：89757-KD-EN170-962346，该设备标识包含的信息为：坐席员工号为89757，坐席员所属部门为KD，设备类型为EN170，设备编号为962346。

值得说明的是，坐席员在使用外呼设备之前，需要验证身份，验证方式包括但不限于：帐号验证、声纹识别或指纹识别等，在通过验证后，外呼设备获取相应信息记入设备标识。

S3：获取业务部门对应的业务文本模板，其中，业务文本模板包括外呼必需用语和外呼禁止用语。

具体地，每个业务部门均预设有各自的业务文本模板，根据步骤S2中确定的业务部门，获取该业务部门对应的业务文本模板，每个业务文本模板中包含外呼的必需用语和外呼禁止用语。

以步骤S2中获取到的业务部门为例，该业务部门编号为KD，在数据库中找到编号为KD的业务部门对应的业务文本模板KDYY，将业务文本模板KDYY作为当前外呼的坐席员本次外呼的规范性业务模板，即将当前坐席员外呼的语音数据转化为文本后，使用业务文本模板KDYY对该文本进行检验，从而监控该坐席员外呼用语是否规范。

S4：对语音数据进行语音识别，得到实时语音文本，并将该实时语音文本添加到当前外呼文本。

具体地，对步骤S1中获取到的坐席员进行外呼的语音数据进行语音识别，得到外呼过程中的实时语音文本，以便通过对实时语音文本的检验，监控该坐席员的外呼用语是否规范，同时，将该实时语音文本添加到当前外呼文本之中。

其中，实时语音文本是指根据每次外呼过程中的停顿静音，对外呼的语音数据进行切分，得到的一段段切分语音数据，对每段切分语音数据经过语音识别，从而得到对应的识别文本，即为语音识别文本。

例如，在一具体实施方式中，第0秒至第1.8秒获取到一段语音数据，记为语音数据E，第1.8秒到第3秒获取到的语音数据为空，第3秒至第8秒获取到另一端语音数据，记为语音数据F，对语音数据E进行语音识别，得到一个实时语音文本为：“您好”，对语音数据F进行语音识别，得到一个实时语音文本为：“这里是中国XX，请问有什么可以帮助您的吗”。

其中，对语音数据进行语音识别，可采用语音识别算法，也可以使用具有语音识别功能的第三方工具，具体不作限制。语音识别算法包括但不限于：基于声道模型的语音识别算法、语音模板匹配识别算法和或人工神经网络的语音识别算法等。

优选地，本发明实施例采用的语音识别算法为基于声道模型的语音识别算法。

S5：将实时语音文本与外呼禁止用语进行文本匹配，得到第一匹配结果。

具体地，将步骤S4得到的实时语音文本与步骤S3得到的业务文本模板中的外呼禁止用语进行文本匹配，检验实时语音文本中是否包含外呼禁止用语，通过这种实时监控方式，有效确保了监控的及时性。

其中，第一匹配结果包括：实时语音文本包含外呼禁止用语和实时语音文本不包含外呼禁止用语。

容易理解地，外呼禁止用语可根据业务需求进行设置，外呼禁止用语可以是一个，也可以是两个或两个以上。

值得说明的是，实时语音文本为一个或一个以上，若存在至少一个实时语音文本中包含了外呼禁止用语，则确定第一匹配结果为实时语音文本包含外呼禁止用语。

S6：若第一匹配结果为实时语音文本包含外呼禁止用语，则执行第一预警措施。

具体地，若步骤S6得到的第一匹配结果为实时语音文本包含外呼禁止用语，则说明坐席员在本次外呼中使用了至少一个外呼禁止用语，此时，将执行第一预警措施。

其中，第一预警措施包括但不限于：向监控端发送本次外呼不规范的预警提示、提醒本次外呼的坐席员本次外呼中出现的不规范事项和/或断开当前外呼设备的网络连接等，其具体可根据实际情况设定，此处不作具体限制。

进一步地，可以根据外呼禁止用语的严重程度，设置不同的第一预警措施。例如，若外呼禁止用于包括词语A、词语B和词语C，其中，词语A和词语B的严重程度为一级，词语C的严重程度为二级，并且一级低于二级，则可以设置一级对应的第一预警措施为“向监控端发送本次外呼不规范的预警提示”，同时设置二级对应的第一预警措施为“断开当前外呼设备的网络连接”。当实时语音文本包含词语C时，执行第一预警措施，直接断开当前外呼设备的网络连接，终止坐席员的外呼过程。

在图2对应的实施例中，若监测到有坐席员的外呼操作，则获取该坐席员的设备标识和语音数据，通过该设备标识，确定坐席员所属的业务部门，进而获取该业务部门对应的业务文本模板，并对语音数据进行语音识别，得到实时语音文本，将实时语音文本存入当前外呼文本，通过实时对外呼禁止用语和实时语音文本进行文本匹配，得到第一匹配结果，若第一匹配结果为实时语音文本包含外呼禁止用语，则执行第一预警措施，实现了对坐席员外呼过程中的语音进行实时监控，当坐席员在外呼过程中使用了外呼禁止用语时，能够及时发现并预警，从而确保了监控的及时性，并且，由于无需通过人工听取并分析录音来对外呼进行监控，从而节约了时间，提高了监控效率。

接下来，在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S4中所提及的对语音数据进行语音识别，得到实时语音文本的具体实现方法进行详细说明。

请参阅图3，图3示出了本发明实施例提供的步骤S4的具体实现流程，详述如下：

S41：对语音数据进行语音解析，得到包含基础语音帧的帧集合。

具体地，对获取到的语音数据进行语音解析，得到包含基础语音帧的帧集合，语音解析包括但不限于：语音编码和语音信号的预处理等。

其中，语音编码就是对模拟的语音信号进行编码，将模拟信号转化成数字信号，从而降低传输码率并进行数字传输，语音编码的基本方法可分为波形编码、参量编码(音源编码)和混合编码。

优选地，本提案使用的语音编码方式为波形编码，波形编码是将时域的模拟话音的波形信号经过取样、量化、编码而形成的数字话音信号，波形编码可提供高话音的质量。

其中，语音信号的预处理是指在对语音信号进行分析和处理之前，对其进行预加重、分帧、加窗等预处理操作。语音信号的预处理的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

S42：对基础语音帧进行静音检测，得到基础语音帧中的K个连续静音帧，其中，K为自然数。

具体地，在外呼通话持续期间，语音数据中的语音信号可分为激活期和静默期两个状态，静默期不传送任何语音信号，上、下行链路的激活期和静默期相互独立。坐席员在外呼过程中，在每次发音前后，均会有停顿的状态，这个状态会带来语音信号的停顿，即静默期，在进行语音识别并转换文本的时候，需要检测出静默期状态，进而将静默期与激活期进行分离，以得到持续的激活期，将保留下来的持续的激活期的语音信号作为目标语音帧。

其中，检测静默音状态的方式包括但不限于：语音端点检测、探测音频静音算法和语音活动检测(Voice Activity Detection，VAD)算法等。

优选地，本发明实施例使用的对基础语音帧进行静音检测，得到基础语音帧中的K个连续静音帧的具体实现流程包括步骤A至步骤E，详述如下：

步骤A：计算每帧基础语音帧的帧能量。

具体地，帧能量是语音信号的短时能量，反映了语音帧的语音信息的数据量，通过帧能量能够进行判断该语音帧是否为语句帧还是静音帧。

步骤B：针对每帧基础语音帧，若该基础语音帧的帧能量小于预设的帧能量阈值，则标记该基础语音帧为静音帧。

具体地，帧能量阈值为预先设定的参数，若计算得到的基础语音帧的帧能量小于预设的帧能量阈值，则将对应的基础语音帧标记为静音帧，该帧能量阈值具体可以根据实际需求进行设置，如帧能量阈值设置为0.5，也可以根据计算得到各个基础语音帧的帧能量进行具体分析设置，此处不做限制。

例如，在一具体实施方式中，帧能量阈值设置为0.5，对6个基础语音帧：J₁、J₂、J₃、J₄、J₅和J₆计算帧能量计算，得到结果分别为：1.6、0.2、0.4、1.7、1.1和0.8，由此结果容易理解，基础语音帧J₂和基础语音帧J₃为静音帧。

步骤C：若检测到H个连续的静音帧，切H大于预设的连续阈值I，则将该H个连续的静音帧组成的帧集合作为为连续静音帧。

具体地，连续阈值I可以根据实际需要进行预先设置，若存在连续的静音帧的数量为H，切H大于预设的连续阈值I，则将该H个连续的静音帧组成的区间中的所有静音帧进行合并，得到一个连续静音帧。

例如，在一具体实施方式中，预设的连续阈值I为5，在某一时刻，获取到的静音帧状态如表一所示，表一示出了50个基础语音帧组成的帧集合，由表一可知，包含连续5个或5个以上的连续的静音帧区间为：帧序号7至帧序号13对应的基础语音帧组成的区间P，以及帧序号21至帧序号29对应的基础语音帧组成的区间Q，因而，将区间P中包含的帧序号7至帧序号13对应的7个基础语音帧进行组合，得到一个连续静音帧P，该连续静音帧P的时长为帧序号7至帧序号13对应的7个基础语音帧的时长之和，按此方法，将区间Q中包含的帧序号21至帧序号29对应的基础语音帧进行组合，作为另一个连续静音帧Q，连续静音帧Q的时长为帧序号21至帧序号29对应的9个基础语音帧的时长之和。

表一

帧序号	1	2	3	4	5	6	7	8	9	10
											是否静音帧	否	否	是	否	否	否	是	是	是	是
帧序号	11	12	13	14	15	16	17	18	19	20
											是否静音帧	是	是	是	否	否	否	否	否	否	否
帧序号	21	22	23	24	25	26	27	28	29	30
											是否静音帧	是	是	是	是	是	是	是	是	是	否
帧序号	31	32	33	34	35	36	37	38	39	40
											是否静音帧	是	是	否	否	否	否	否	否	是	是
帧序号	31	32	33	34	35	36	37	38	39	40
											是否静音帧	否	是	是	否	否	是	否	否	否	否

步骤D：按照步骤A至步骤C的方法，获取连续静音帧的总数K个。

以步骤C中列举的表一为例，获取的连续静音帧为连续静音帧P和连续静音帧Q，因为在步骤C对应的举例中，K的值为2。

S43：根据K个连续静音帧，将帧集合中包含的基础语音帧划分成K+1个目标语音帧。

具体地，将步骤S42中得到的K个连续静音帧作为分界点，将帧集合中包含的基础语音帧划分开来，得到K+1个基础语音帧的集合区间，将每个集合区间中包含的所有基础语音帧，作为一个目标语音帧。

例如，在一具体实施方式中，获取到的静音帧的状态如S42中步骤C的表一所示，该表示出了两个连续静音帧，分别为帧序号7至帧序号13对应的7个基础语音帧进行组合得到一个连续静音帧P，以及帧序号21至帧序号29对应的9个基础语音帧进行组合得到一个连续静音帧Q，将这两个连续静音帧作为分界点，将这个包含50个基础语音帧的帧集合划分成了三个区间，分别为：帧序号1至帧序号6对应的基础语音帧组成的区间M₁，帧序号14至帧序号20对应的基础语音帧组成的区间M₂，以及帧序号30至帧序号50对应的基础语音帧组成的区间M₃，将区间M₁中所有的基础语音帧进行组合，得到一个组合后的语音帧，作为目标语音帧M₁。

S44：将每个目标语音帧转换为实时语音文本。

具体地，对每个目标语音帧进行文本转换，得到该目标语音帧对应的实时语音文本。

其中，文本转换可使用支持语音转换文本的工具，也可以使用用于文本转换算法，此处不作具体限制。

在图3对应的实施例中，对语音数据进行语音解析，得到包含基础语音帧的帧集合，进而对基础语音帧进行静音检测，得到基础语音帧中的K个连续静音帧，根据这K个连续静音帧，将帧集合中包含的基础语音帧划分成K+1个目标语音帧，将每个目标语音帧均转换为一个实时语音文本，使得将接收到的语音信号实时转换成一个个独立的实时语音文本，以便于使用该实时语音文本来对外呼禁止用户进行匹配，保证了外呼过程中监控的的及时性。

接下来，在图3对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S41中所提及的对语音数据进行语音解析，得到包含基础语音帧的帧集合的具体实现方法进行详细说明。

请参阅图4，图4示出了本发明实施例提供的步骤S41的具体实现流程，详述如下：

S411：对语音数据进行幅值归一化处理，得到基础语音信号。

具体地，利用设备获取的语音数据都是模拟信号，在获取到语音数据后，要对语音数据采用脉冲编码调制技术(Pulse Code Modulation，PCM)进行编码，使这些模拟信号转化为数字信号，并将语音数据中的模拟信号每隔预设的时间对一个采样点进行采样，使其离散化，进而对采样信号量化，以二进制码组的方式输出量化后的数字信号，根据语音的频谱范围200-3400Hz，采样率可设置为8KHz，量化精度为16bit。

应理解，此处采样率和量化精度的数值范围，为本发明优选范围，但可以根据实际应用的需要进行设置，此处不做限制。

进一步地，对经过离散化和量化的语音数据进行幅值归一化处理，具体幅值归一化处理方式可以是将每个采样点的采样值除以语音数据的采样值中的最大值，也可以将每个采样点的采样值除以对应语音数据的采样值的均值，将数据收敛到特定区间，方便进行数据处理。

值得说明的是，在幅值归一化处理之后，将音频数据中每个采样点的采样值转换为对应的标准值，从而得到与语音数据对应的基础语音信号。

S412：对基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号。

具体地，由于声门激励和口鼻辐射会对基础语音信号的平均功率谱产生影响，导致高频在超过800Hz时会按6dB/倍频跌落，所以在计算基础语音信号频谱时，频率越高相应的成分越小，为此要在预处理中进行预加重(Pre-emphasis)处理，预加重的目的是提高高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，这样不仅可以进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。预加重可使用一阶的数字滤波器来实现，例如：有限脉冲响应(Finite Impulse Response，FIR)滤波器。

S413：按照预设的帧长和预设的帧移，对目标语音信号进行分帧处理，得到包含基础语音帧的帧集合。

具体地，语音信号具有短时平稳的性质，语音信号在经过预加重处理后，需要对其进行分帧和加窗处理，来保持信号的短时平稳性，通常情况下，每秒钟包含的帧数在33～100帧之间。为了保持帧与帧之间的连续性，使得相邻两帧都能平滑过渡，采用交叠分帧的方式，如图5所示，图5示出了交叠分帧的样例，图5中第k帧和第k+1帧之间的交叠部分即为帧移。

优选地，帧移与帧长的比值的取值范围为(0，0.5)。

例如，在一具体实施方式中，预加重后的语音信号为s'(n)，帧长为N个采样点，帧移为M个采样点。当第l帧对应的采样点为第n个时，原始语音信号x_l(n)与各参数之间的对应关系为：

x_l(n)＝x[(l-1)M+n]

其中，n＝0,1,...,N-1,N＝256。

进一步地，目标语音信号经过分帧之后，使用相应的窗函数w(n)与分帧后的语音信号s'(n)相乘，即得到加窗后的语音信号S_w，将该语音信号作为基础语音帧的帧集合。

其中，窗函数包括但不限于：矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。

矩形窗表达式为：

其中，w(n)为窗函数，N为采样点的个数，n为第n个采样点。

汉明窗表达式为：

其中，pi为圆周率，优选地，本发明实施例中pi的取值为3.1416。

汉宁窗表达式为：

对经过预加重处理的语音信号进行分帧和加窗处理，使得语音信号保持帧与帧之间的连续性，并剔除掉一些异常的信号点，得到基础语音帧的帧集合，提高了语音信号的鲁棒性。

在图4对应的实施例中，通过对语音数据进行幅值归一化处理，得到基础语音信号，进而对基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号，按照预设的帧长和预设的帧移，对目标语音信号进行分帧处理，得到基础语音帧的帧集合，提升了帧集合中每个基础语音帧的鲁棒性，有利于在后续利用基础语音帧的帧集合来进行语音转化文本时，提升了转换的准确性，从而有利于提高语音识别的准确率。

在图2至图4对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S5中所提及的将实时语音文本与外呼禁止用语进行文本匹配，得到第一匹配结果的具体实现方法进行详细说明。

本发明实施例提供的步骤S5的具体实现流程，详述如下：

针对每个外呼禁止用语，采用文本相似度算法，计算该外呼禁止用语与实时语音文本之间的相似度，若相似度大于或等于预设的相似度阈值，则将实时语音文本包含该外呼禁止用语作为第一匹配结果。

具体地，经过步骤S4进行语音识别，得到实时语音文本之后，计算该实时语音文本与每个外呼禁止用语之间的相似度，并将该相似度与预设的相似度阈值进行比较，若该相似度大于或等于预设的相似度阈值，则确定实时语音文本包含该外呼禁止用语，预设的相似度阈值可以设置为0.8，也可以根据实际需要进行设置，此处不作具体限制。

其中，文本相似度算法是通过计算两个文本之间的交集和并集大小的比例来判断这两个文本的相似度的算法，计算出的比例越大，表示两个文本越相似。

文本相似度算法包括但不限于：余弦相似性、最近邻(k-NearestNeighbor，kNN)分类算法、曼哈顿距离(Manhattan Distance)、基于SimHash算法的汉明距离等。

值得说明的是，在匹配过程中，若一外呼禁止用语与实时语音文本的相似度大于或等于预设的相似度阈值，则可确定匹配结果为实时语音文本包含该外呼禁止用语，并结束本次匹配，而无需继续与剩余的外呼禁止用语进行匹配。

例如，在一具体实施方式中，在步骤S3中获取到的外呼禁止用语包括15个短语，分别为V₁，V₂，V₃，...，V₁₄，V₁₅，在获取到实时语音文本G后，将实时语音文本G与V₁进行匹配，其匹配过程为：实时语音文本G与V₁计算相似度，若相似度大于或等于预设的相似度阈值，则确定实时语音文本包含禁用词汇，结束本次匹配，若相似度小于预设的相似度阈值，则继续将语音文本G与V₁后面一个外呼禁止用语V₂进行匹配，按照上述实时语音文本G与V₁进行匹配的的方法，来对实时语音文本G与剩余外呼禁止用语进行匹配，若匹配过程中出现相似度大于或者等于预设的阈值的时，则确定该实时语音文本包含外呼禁止用语，并结束本次匹配。

在本实施例中，通过将实时语音文本与每个外呼禁止用语计算相似度，并通过比较相似度与预设的相似度阈值的大小来判断该实时语音文本是否包含外呼禁止用语，从而提高了匹配的准确度，确保第一匹配结果的正确率。

在图2至图4对应的实施例的基础之上，在步骤S5提及的将实时语音文本与外呼禁止用语进行文本匹配，得到第一匹配结果的步骤之后且在执行第一预警措施的步骤之前，还可以在该坐席员外呼结束后，对外呼过程中是否使用了所有外呼必需用语进行监控预警，如图6所示，该语音识别方法还包括：

S7：在检测到坐席员的外呼操作终止时，将当前外呼文本与外呼必需用语进行文本匹配，得到第二匹配结果。

具体地，若监测到在预设的时间阈值范围内未产生语音数据，则确定该本次外呼操作终止，进而将得到的当前外呼文本与外呼必需用语进行匹配，并得到第二匹配结果，在被发明实施例中，预设的的时间阈值范围为10秒钟，具体可以根据实际需求进行设置，此处不作限制。

其中，将得到的当前外呼文本与外呼必需用语进行匹配的具体过程如下：

通过获取当前外呼文本中存储的Y个实时语音文本，进而针对每个外呼必需用语，将该外呼必需用语与Y个实时语音文本进行相似度匹配，得到Y个相似度，若Y个相似度均小于预设的相似度阈值，则确认当前外呼文本中不包含该外呼必需用语。

值得说明的是，若存在至少一个外呼必需用语不被当前外呼文本所包含，则确认第二匹配结果为当前外呼文本不包含外呼必需用语。

例如，在一具体实施方式中，外呼必需用语包括：“您好”、“请问有什么可以帮助的吗”、“请稍等”、“感谢您的支持”和“再见”，经过对当前外呼文本与外呼必需用语进行匹配，发现当前外呼用语中包含：“请问有什么可以帮助的吗”、“请稍等”、“感谢您的支持”和“再见”，但不包含“您好”，则确认第二匹配结果为当前外呼文本不包含外呼必需用语。

可选地，将得到的当前外呼文本与外呼必需用语进行匹配时，还可以通过在当前外呼文本中对每个外呼必需用语进行查询，若每个外呼必需用语均能查询到，则确认第二匹配结果为当前外呼文本包含该外呼必需用语，反之，则确认第二匹配结果为当前外呼文本不包含外呼必需用语。

S8：若第二匹配结果为当前外呼文本不包含外呼必需用语，则执行第二预警措施。

具体地，若第二匹配结果为当前外呼文本中不包含外呼必需用语，则说明本次外呼中存在至少一个外呼必需用语没有被使用，此时，将执行第二预警措施。

其中，第二预警措施包括但不限于：向监控端发送本次外呼不规范的预警提示、提醒本次外呼的坐席员本次外呼中出现的不规范事项和生成本次外呼记录等。

进一步地，可以根据外呼必需用语的重要程度，设置不同的第二预警措施。例如，若外呼必需用于包括词语G、词语H和词语I，其中，词语G和词语H的重程度为一级，词语I的重要程度为二级，并且一级低于二级，则可以设置一级对应的第二预警措施为“提醒本次外呼的坐席员本次外呼中出现的不规范事项和生成本次外呼记录”，同时设置二级对应的第二预警措施为“向监控端发送本次外呼不规范的预警提示和生成本次外呼记录”。当实时语音文本包含词语I时，执行第二预警措施，向监控端发送本次外呼不规范的预警提示和生成本次外呼记录。

在图6对应的实施例中，在检测到坐席员的外呼操作终止时，将当前外呼文本与外呼必需用语进行文本匹配，得到第二匹配结果，若第二匹配结果为当前外呼文本不包含外呼必需用语，执行第二预警措施，实现对外呼必需用语未被使用的情况进行自动预警，避免通过人工去听取录音并分析来进行监控，从而提升了监控的效率。应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上述方法实施例中的语音识别方法，图7示出了与上述方法实施例提供的语音识别方法一一对应的语音识别装置，为了便于说明，仅示出了与本发明实施例相关的部分。

如图7所示，该语音识别装置包括：数据获取模块10、部门确定模块20、模板选取模块30、语音识别模块40、第一匹配模块50和第一预警模块60。各功能模块详细说明如下：

数据获取模块10，用于若监测到坐席员的外呼操作，则获取该坐席员外呼过程中的语音数据和使用的外呼设备的设备标识；

部门确定模块20，用于基于设备标识，确定坐席员所属的业务部门；

模板选取模块30，用于获取业务部门对应的业务文本模板，其中，业务文本模板包括外呼必需用语和外呼禁止用语；

语音识别模块40，用于对语音数据进行语音识别，得到实时语音文本，并将该实时语音文本添加到当前外呼文本；

第一匹配模块50，用于将实时语音文本与外呼禁止用语进行文本匹配，得到第一匹配结果；

第一预警模块60，用于若第一匹配结果为实时语音文本包含外呼禁止用语，则执行第一预警措施。

进一步地，实时语音识别模块40包括：

语音解析单元41，用于对语音数据进行语音解析，得到包含基础语音帧的帧集合；

静音检测单元42，用于对基础语音帧进行静音检测，得到基础语音帧中的K个连续静音帧，其中，K为自然数；

帧集划分单元43，用于根据K个连续静音帧，将帧集合中包含的基础语音帧划分成K+1个目标语音帧；

文本转换单元44，用于将每个目标语音帧转换为实时语音文本。

进一步地，语音解析单元41包括：

归一化子单元411，用于对语音数据进行幅值归一化处理，得到基础语音信号；

预加重子单元412，用于对基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号；

分帧子单元413，用于按照预设的帧长和预设的帧移，对目标语音信号进行分帧处理，得到基础语音帧的帧集合。

进一步地，第一匹配模块50包括：

第一匹配单元51，用于针对每个外呼禁止用语，采用文本相似度算法，计算该外呼禁止用语与实时语音文本之间的相似度，若相似度大于或等于预设的相似度阈值，则将实时语音文本包含该外呼禁止用语作为第一匹配结果。

进一步地，该语音识别装置还包括：

第二匹配模块70，用于在检测到坐席员的外呼操作终止时，将当前外呼文本与外呼必需用语进行文本匹配，得到第二匹配结果；

第二预警模块80，用于若第二匹配结果为当前外呼文本不包含外呼必需用语，执行第二预警措施。

本实施例提供的一种语音识别装置中各模块实现各自功能的过程，具体可参考前述方法实施例的描述，此处不再赘述。

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中语音识别方法，或者，该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能。为避免重复，这里不再赘述。

可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号和电信信号等。

图8是本发明一实施例提供的计算机设备的示意图。如图8所示，该实施例的计算机设备90包括：处理器91、存储器92以及存储在存储器92中并可在处理器91上运行的计算机程序93，例如语音识别程序。处理器91执行计算机程序93时实现上述语音识别方法实施例中的步骤，例如图2所示的步骤S1至步骤S6。或者，处理器91执行计算机程序93时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块10至模块60的功能。

其中，计算机设备90可以是桌上型计算机、笔记本、掌上电脑及云端服务器等设备，图8仅为本实施例中计算机设备的示例，可以包括如图8所示更多或更少的部件，或者组合某些部件或者不同的部件。存储器92可以是计算机设备的内部存储单元，如硬盘或内存，也可以是计算机设备的外部存储单元，如插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。计算机程序93包括程序代码，该程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括：

若监测到坐席员的外呼操作，则获取所述坐席员外呼过程中的语音数据和所述坐席员使用的外呼设备的设备标识；

基于所述设备标识，确定所述坐席员所属的业务部门；

2.如权利要求1所述的语音识别方法，其特征在于，所述对所述语音数据进行语音识别，得到实时语音文本包括：

对所述语音数据进行语音解析，得到包含基础语音帧的帧集合；

对所述基础语音帧进行静音检测，得到所述基础语音帧中的K个连续静音帧，其中，K为自然数；

根据K个所述静音帧，将所述帧集合中包含的所述基础语音帧划分成K+1个目标语音帧；

将每个所述目标语音帧转换为所述实时语音文本。

3.如权利要求2所述的语音识别方法，其特征在于，所述对所述语音数据进行语音解析，得到包含基础语音帧的帧集合包括：

对所述语音数据进行幅值归一化处理，得到基础语音信号；

对所述基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号；

按照预设的帧长和预设的帧移，对所述目标语音信号进行分帧处理，得到包含基础语音帧的帧集合。

4.如权利要求1至3的任一项所述的语音识别方法，其特征在于，所述将所述实时语音文本与所述外呼禁止用语进行文本匹配，得到第一匹配结果包括：

针对每个所述外呼禁止用语，采用文本相似度算法，计算该外呼禁止用语与所述实时语音文本之间的相似度，若所述相似度大于或等于预设的相似度阈值，则将所述实时语音文本包含该外呼禁止用语作为第一匹配结果。

5.如权利要求1至3任一项所述的语音识别方法，其特征在于，在所述将所述实时语音文本与所述外呼禁止用语进行文本匹配，得到第一匹配结果的步骤之后且在执行第一预警措施的步骤之前，所述语音识别方法还包括：

在检测到所述坐席员的外呼操作终止时，将所述当前外呼文本与所述外呼必需用语进行文本匹配，得到第二匹配结果；

若所述第二匹配结果为所述当前外呼文本不包含所述外呼必需用语，则执行第二预警措施。

6.一种语音识别装置，其特征在于，所述语音识别装置包括：

7.如权利要求6所述的语音识别装置，其特征在于，所述语音识别模块包括：

语音解析单元，用于对所述语音数据进行语音解析，得到包含基础语音帧的帧集合；

静音检测单元，用于对所述基础语音帧进行静音检测，得到所述基础语音帧中的K个连续静音帧，其中，K为自然数；

帧集划分单元，用于根据K个所述静音帧，将所述帧集合中包含的所述基础语音帧划分成K+1个目标语音帧；

文本转换单元，用于将每个所述目标语音帧转换为所述实时语音文本。

8.如权利要求7所述的语音识别装置，其特征在于，所述语音解析单元包括：

归一化子单元，用于对所述语音数据进行幅值归一化处理，得到基础语音信号；

预加重子单元，用于对所述基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号；

分帧子单元，用于按照预设的帧长和预设的帧移，对所述目标语音信号进行分帧处理，得到基础语音帧的帧集合。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音识别方法的步骤。