CN109509474A

CN109509474A - 通过语音识别选择电话客服中服务项的方法及其设备

Info

Publication number: CN109509474A
Application number: CN201710835327.4A
Authority: CN
Inventors: 武晨
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2019-03-22

Abstract

本发明公开了通过语音识别选择电话客服中服务项的方法及其设备，属于语音识别领域，所述方法包括步骤：S1，创建语言模型、声学模型；S2，获取语音信息；S3，将步骤S2获取的语音信息输入步骤S1中的语言模型与声学模型进行识别。所述设备用于执行所述方法。本发明技术方案能可以代替用户通过按键的方式在使用电话客服服务时，选择所需要的服务，避免了客户因为电话客服服务选项过多而忘记之前的选项，或者选择前面的选项而无法听到后面的选项，不确认这是否是最准确的选项，而且能够为不方面在手机上按键的用户，提供更好的电话客服服务。

Description

通过语音识别选择电话客服中服务项的方法及其设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种通过语音识别选择电话客服中服务项的方法。

背景技术

在拨打客服热线时，我们总需要通过按键“1”“2”等来选择所需要的服务：“下单寄件”、“查询订单”等。然而很多时候很多场景使得人们不方便，比如有时候客户听完所有的选项“下单寄件请按1，查询订单请按2，客户投诉请按3……”共九种之后，会忘记之前的一些选项，还需要在听一遍，如果听完中间的一个选项将手机拿到面前选择的时候，就无法听到后面的选项，不能确定这是否是最准确地选项。或者，有很多场景，比如对于身体有残疾的用户、手里提着大量物品时等等，使得他们并不方便再拨打客服电话的时候，通过按键的形式选择所需要的服务。再者，有时候触屏手机的触屏功能故障导致按键无法及时准确地获得用户所按的键值。

虽然现在语音识别功能在我们日常生活中已经十分普及，但是目前还没有使用语音识别功能来选择客服中某项服务的。

发明内容

为了解决上述现有技术中的不足，本发明的目的在于提供一种通过语音识别选择电话客服中服务项的方法。

本发明解决其技术问题所采用的技术方案为：

通过语音识别选择电话客服中服务项的方法，包括以下步骤：

S1，创建语言模型、声学模型；

S2，获取语音信息；

S3，将步骤S2获取的语音信息输入步骤S1中的语言模型与声学模型进行识别。

所述步骤S1包括步骤：

S11，对待识别的语音内容进行录音，编写语音内容对应的文本文件，将所述文本文件拆分成音素序列；

S12，依据所述音素序列，利用语音识别工具平台获取识别语音的语言模型和声学模型。

S13，储存步骤S12获得的语音模型和声学模型。

所述步骤S2包括步骤：

S21，获取一个数据块录音，计算录音的能量；

S22，将S21获得的能量与设定的门限进行对比，小于所述门限，则重复步骤S21；

S23，重复步骤S22直至所述能量超过所述门限；

S24，判断用户是否开始说话，并对后续的语音进行连续的预设时常的录音，获得用户完整的音频。

所述门限的数值根据获得的音频的噪音程度确定。

所述门限为900-1100。

所述对待识别的语音内容进行录音包括：

对要提供的服务分别进行录音；

编写语音脚本；

将每一条语音脚本拆分成音素序列再生成一个一对一的文本。

所述录音，在执行过程中需要的参数包括：

音频格式，一个数据块帧数，一个采样点数值，一帧含有的数值，采样频率以及一次录音时长。

所述的语音脚本对应的音素序列为各项服务的全拼。

所述步骤S3包括步骤：

S31，利用步骤S1中的语言模型与声学模型，将S2中获取的语音作为输入，使用解码器对语音进行解码，识别出语音中的文字。

通过语音识别选择电话客服中服务项的设备，包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行：

S1，创建语言模型、声学模型；

S2，获取语音信息；

与现有技术相比，本发明具有以下有益效果：

1、本技术方案能可以代替用户通过按键的方式在使用电话客服服务时，选择所需要的服务，避免了客户因为电话客服服务选项过多而忘记之前的选项，或者选择前面的选项而无法听到后面的选项，不确认这是否是最准确的选项。

2、本技术方案能够为不方面在手机上按键的用户，提供更好的电话客服服务。

附图说明

图1为通过语音识别选择电话客服服务中某项服务的方法的流程图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例一：

如图1所示，一种通过语音识别选择电话客服中服务项的方法，包括以下步骤：

S1，创建语言模型、声学模型；

进一步的，所述建立语言模型、声学模型的具体过程包括：

S11，对待识别的语音内容进行录音；

所述对待识别的语音内容进行录音的具体过程包括：

对所需服务分别进行录音；

编写语音脚本；

具体来说就是对“查询订单”、“下单寄件”等等口令分别录一段语音；编写语音脚本，即包含上述语音内容的文本文件，一段语音对应一行文本；将每一条语音脚本拆分成音素序列再生成一个一对一的文本，例如“开心”，对应的音素序列为“k_ai_x_in”，下划线表示空格。

所述录音过程的主要参数是：

a.音频格式：wav格式；

b.CHUNK＝1024(一个数据块包含的帧数)；

c.FORMAT＝pyaudio.paInt16(一个采样点是16bit表示的数值)；

d.CHANNELS＝1(一帧含有一个数值)；

e.RATE＝16000(采样频率16kHz)；

f.RECORD_SECONDS＝5(一次录音时长5秒)；

所述的语音脚本对应的音素序列列表为：

下单寄件x ia d an j i j ian；

查询订单ch a x uxn d ing d an；

业务咨询y ie w u z i x uxn；

投诉建议t ou s u j ian y i；

手机维修sh ou j i w ei x iu；

英文服务y ing w en f u w u；

国际件g uo j i j ian；

冷运l eng uxs en；

分仓备货f en c ang b ei h uo；

人工客服r en g ong k e f u。

S12，在语音识别平台上，调用相关指令获得对应的语音模型和声学模型；

具体的说就是依据上述获得的材料，在CMUSphinx语音识别工具平台，调用相关指令获得上述语音及脚本对应的语言模型和声学模型；声学模型和语言模型是分别用于描述音素序列的前后转化规律和汉字和该音素转化的规律。

S13，储存S12获得的语音模型和声学模型，作为后续识别过程调用的模型。

S2，获取语音信息：检测音频端点，进行录音。

进一步的，所述检测音频端点，进行录音的具体过程包括：

S21，检测程序开始运行时，录音程序处在等待状态，获取一数据块录音，计算录音的能量；

具体来说，程序开始运行时，录音程序处在等待状态，即一个数据块一个数据块的处理录音，具体来说获取一数据块(包含多帧)录音，然后计算这段录音的能量，能量的计算方法是将连续的音频采样转化为数组格式，然后对数组的每一个元素求平方和。

S22，设定一门限，将S21获得的能量与门限进行对比，小于门限，直接重新获取下一个数据块进行判断，重复这一过程直到某一数据块的能量超过该门限值，用户开始说话，并对后续的语音进行连续的一定时常的录音，获得用户完整的音频。

所述门限都是多次尝试得出的经验值，而且这个经验和尝试因尝试的环境不同而不同。

具体来说，如果这一数据块能量小于一定门限，直接重新获取下一数据块进行判断，重复这个过程直到某一数据块的能量超过该门限值判断用户开始说话，并对后续的语音进行连续的一定时常的录音，获得用户完整的音频。所述门限的数值根据获得的音频的噪音程度确定。所述门限数值为900-1100。

S3，调用模型，识别语音。

所述调用模型识别语音的过程包括：

调用S1生成的模型，将S2中获取的语音作为输入，使用PocketSphinx的解码器对语音进行解码，识别出语音中的文字。

一种通过语音识别选择电话服务中心某项服务的设备，包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行：

S1，创建语言模型、声学模型；

S2，获取语音信息；

实施例二：

本实施例与实施例一相同的特征不再赘述，本实施例与实施例一不同的特征在于：S22，设定一门限，将S21获得的能量与门限进行对比，小于门限，直接重新获取下一个数据块进行判断，重复这一过程直到某一数据块的能量超过该门限值，用户开始说话，并对后续的语音进行连续的一定时常的录音，获得用户完整的音频。

具体来说，如果这一数据块能量小于一定门限，直接重新获取下一数据块进行判断，重复这个过程直到某一数据块的能量超过该门限值判断用户开始说话，并对后续的语音进行连续的一定时常的录音，获得用户完整的音频。所述门限的数值根据获得的音频的噪音程度确定。所述门限数值为1000。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

除说明书所述的技术特征外，其余技术特征为本领域技术人员的已知技术，为突出本发明的创新特点，其余技术特征在此不再赘述。

Claims

1.通过语音识别选择电话客服中服务项的方法，其特征在于，包括以下步骤：

S1，创建语言模型、声学模型；

S2，获取语音信息；

2.根据权利要求1所述的通过语音识别选择电话客服中服务项的方法，其特征在于，所述步骤S1包括步骤：

S13，储存步骤S12获得的语音模型和声学模型。

3.根据权利要求1所述的通过语音识别选择电话客服中服务项的方法，其特征在于，所述步骤S2包括步骤：

S21，获取一个数据块录音，计算录音的能量；

S23，重复步骤S22直至所述能量超过所述门限；

4.根据权利要求3所述的通过语音识别选择电话客服中服务项的方法，其特征在于，所述门限的数值根据获得的音频的噪音程度确定。

5.根据权利要求4所述的通过语音识别选择电话客服中服务项的方法，其特征在于，所述门限为900-1100。

6.根据权利要求2所述的通过语音识别选择电话客服中服务项的方法，其特征在于，所述对待识别的语音内容进行录音包括：

对要提供的服务分别进行录音；

编写语音脚本；

7.根据权利要求6所述的通过语音识别选择电话客服中服务项的方法，其特征在于，所述录音，在执行过程中需要的参数包括：

8.根据权利要求6所述的通过语音识别选择电话客服中服务项的方法，其特征在于，所述的语音脚本对应的音素序列为各项服务的全拼。

9.根据权利要求1所述的通过语音识别选择电话客服中服务项的方法，其特征在于，所述步骤S3包括步骤：

10.通过语音识别选择电话客服中服务项的设备，其特征在于，包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行：

S1，创建语言模型、声学模型；

S2，获取语音信息；