CN112767940B

CN112767940B - 一种语音培训识别方法、系统、设备及存储介质

Info

Publication number: CN112767940B
Application number: CN202011526376.8A
Authority: CN
Inventors: 白利波; 周勇; 倪旻; 付刚
Original assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Current assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-05-16
Anticipated expiration: 2040-12-22
Also published as: CN112767940A

Abstract

本文提供了一种语音培训识别方法、系统、设备及存储介质，其中，方法包括：对培训人员参加培训任务时采集的语音文件进行预处理及时间线打标处理，得到预处理后语音文件、文本内容信息及时间线打标信息；根据时间线打标信息，对预处理后语音文件进行语调识别，得到分句语调信息；根据时间线打标信息及正负向词知识库，对文本内容信息进行文本内容处理，得到分句正向词信息、分句负向词信息、分句字数及分句语速；对分句语调信息、分句正向词信息、分句负向词信息、分句字数及分句语速进行评分，并根据各分项评分计算综合得分。本实施例能够科学地、全面地、精确地实现语音培训识别，使得培训培训识别结果具有较高的参考价值。

Description

一种语音培训识别方法、系统、设备及存储介质

技术领域

本文涉及语音培训领域，尤其涉及一种语音培训识别方法、系统、设备及存储介质。

背景技术

现有技术中，对于各行业业务人员都需要进行上岗培训，形式主要以课堂讲授和在线远程直播点播学习、学员自主复习为主。

对于一些行业来说，例如保险行业，每天以培训为主题的会议会达到数千场次，由于人工通关考试耗时长、培训老师人力不足等原因，实际培训中，只有1％左右的培训活动可以有效执行学员对话口头练习与通关考试。不组织适配的对话通关考试，会出现“听讲为主、训练不足”、“听懂了但讲不好”、“听多遍但记不住”、“说出来但不专业”，进而达不到客户满意度等问题。

现有的语音培训系统，主要是由人工在系统中预先设置培训内容的关键字及标准语速数值，系统通过确定语音文件识别结果中预设打分关键词出现的数量、比对每分钟发言字数与标准语速，计算整体训练评分＝(关键词匹配数量得分×权重A+语速得分平均值×权重B)，其中语速得分＝全部训练语音识别文字数量/语音训练总时长。现有的语音培训系统存在如下缺陷：

1)语速打分不科学：语速评分标准是根据经验值预设的，只是整段话的平均值，未切分为单句话，根据单句训练内容不同，而科学适配调整语速打分标准，带来评分标准不科学的问题；

2)内容匹配打分不完善：关键词只看命中数量，没有引入负向扣分词因素；

3)未考虑语调评价因素：人与人之间有效对话沟通最重要的因素是语调，即“声音是否好听？不同的说话内容应该具有不同的语调”，最低要求是避免长时间尖锐刺耳或低沉的声音与客户沟通交流，而现有技术方案对于重要的语调因素未做考虑。

发明内容

本文用于解决现有技术中以人工识别培训的方式存在浪费人力、培训效果差、业务人员专业度和业绩提升慢的缺陷，以及现有语音培训识别的方式存在评价不科学、不完善、精确性及参考价值低的缺陷。

为了解决上述技术问题，本文的第一方面提供语音培训识别系统，包括：

采集与预处理模块，用于对培训人员参加培训任务时采集的语音文件进行预处理及时间线打标处理，得到预处理后语音文件、文本内容信息及时间线打标信息；

语调处理模块，用于根据所述时间线打标信息，对预处理后语音文件进行语调识别，得到分句语调信息；

文本内容处理模块，用于根据所述时间线打标信息及正负向词知识库，对文本内容信息进行文本内容处理，得到分句正向词信息、分句负向词信息、分句字数及分句语速；

评分模块，用于对所述分句语调信息、分句正向词信息、分句负向词信息、分句字数及分句语速进行评分，并根据各分项评分结果计算综合得分；

指导模块，用于根据所述各分项评分及综合得分，确定并发送指导建议至培训人员终端。

本文进一步实施例中，语调处理模块，包括：

分句单元，用于基于所述时间线打标信息从预处理后语音文件中调取分句音频；

声学韵律特征值提取单元，用于利用语音处理引擎，从所述分句音频中提取声学韵律特征值；

语调特征因子计算单元，用于根据声学韵律特征值，利用语调网络模型，计算语音文件中每分句的语调特征因子信息，其中，所述语调网络模型根据历史采集的语音文件预先训练得到；

语调信息确定单元，用于将所述语音文件中每分句的语调特征因子信息构成各分句语调信息。

本文进一步实施例中，评分模块，包括：

分句语调评分单元，用于根据分句语调信息与语调内容关联知识库中该分句的基准语调信息的比较差值，计算分句语调评分；

分句语速评分单元，用于根据分句语速分别与语速内容关联知识库中该分句的基准语速信息的比较差值，计算分句语速评分；

分句字数评分单元，用于根据分句字数与该分句标准答案字数的比较差值，计算分句字数评分；

分句正向词评分单元，用于根据分句正向词信息，计算分句正向词评分；

分句负向词评分单元，用于根据分句负向词信息，计算分句负向词评分；

综合评分计算单元，用于对分句语调评分、分句正向词评分、分句负向词评分、分句字数评分及分句语速评分进行加权处理，得到综合得分。

本文进一步实施例中，所述分句语速评分单元及所述分句字数评分单元利用如下公式计算分句语调评分及分句语速评分：

VALUE_i＝1-NORMA(VAR(i，PIP_i))；

其中，i表示分句语调信息或分句语速信息，VALUE_i表示i的评分，NORMA表示归一化计算，VAR表示标准差计算，PIP_i表示i的基准语调信息或基准语速信息。

本文进一步实施例中，分句正向词评分单元利用如下公式计算分句正向词评分：

其中，FOR表示分句正向词评分，NORMA表示归一化计算，n1表示分句匹配出的正向词量，VF_i表示第i个匹配出的正向词的权重；

分句负向词评分单元利用如下公式计算分句负向词评分：

其中，NEG表示负向词评分，NORMA表示归一化计算，n2表示匹配出的负向词量，VF_i表示第i个匹配出的负向词的权重。

本文进一步实施例中，语音培训识别方法还包括：

知识库更新模块，用于根据预设计划，对语调内容关联知识库、语速内容关联知识库、正负向词知识库进行更新。

本文的第二方面还提供一种语音培训识别方法，包括：

对培训人员参加培训任务时采集的语音文件进行预处理及时间线打标处理，得到预处理后语音文件、文本内容信息及时间线打标信息；

根据所述时间线打标信息，对预处理后语音文件进行语调识别，得到分句语调信息；

根据所述时间线打标信息及正负向词知识库，对文本内容信息进行文本内容处理，得到分句正向词信息、分句负向词信息、分句字数及分句语速；

对所述分句语调信息、分句正向词信息、分句负向词信息、分句字数及分句语速进行评分，并根据各分项评分计算综合得分；

根据所述各分项评分及综合得分，确定并发送指导建议至培训人员终端。

本文的第三方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述实施例所述的语音培训识别方法。

本文的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现前述实施例所述的语音培训识别方法。

本文通过集成语调及文本内容处理，并通过对处理结果进行评分，并根据评分结果得到综合得分，能够科学地、全面地、精确地实现语音培训识别，使得培训培训识别结果具有较高的参考价值。同时，根据综合得分，反馈指导建议至培训人员终端，还能够帮助培训人员了解个人薄弱知识点、熟练掌握培训内容、提升专业性和口头表达沟通能力，进而提升业务质量和服务满意度。同时，本文还可以提高培训人员培训和通过考试体验、节约培训师资人力。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例语音培训识别方法的第一流程图；

图2示出了本文实施例分句语调分析过程的流程图；

图3示出了本文实施例文本内容分析过程的流程图；

图4示出了本文实施例分句评分过程的流程图；

图5示出了本文实施例语音培训识别方法的第二流程图；

图6示出了本文实施例语音培训识别方法的第三流程图；

图7示出了本文实施例语音培训识别系统的第一结构图；

图8示出了本文实施例语音培训识别系统的第二结构图；

图9示出了本文具体是实施例的语音识别系统的结构图；

图10示出了本文实施例指导建议界面示意图；

图11示出了本文实施例计算机设备的结构图。

附图符号说明：

710、采集与预处理模块；

720、语调处理模块；

721、分句单元；

722、声学韵律特征值提取单元；

723、语调特征因子计算单元；

724、语调信息确定单元；

730、文本内容处理模块；

731、分句切割处理单元；

732、分词处理单元；

733、正向词识别单元；

734、负向词识别单元；

735、字数统计单元；

736、语速统计单元；

740、评分模块；

741、分句语调评分单元；

742、分句语速评分单元；

743、分句字数评分单元；

744、分句正向词评分单元；

745、分句负向词评分单元；

746、综合评分计算单元；

750、指导模块；

1102、计算机设备；

1104、处理器；

1106、存储器；

1108、驱动机构；

1110、输入/输出模块；

1112、输入设备；

1114、输出设备；

1116、呈现设备；

1118、图形用户接口；

1120、网络接口；

1122、通信链路；

1124、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

本文适用于各行业业务人员语音培训系统，涉及到的场景包括但不限于业务员早会训练、新兵营结训、业务员晋升通关、绩优业务员培训、主管轮训等，用于业务人员语音培训及通关考试。本文提供的语音培训识别方法可以运行于服务器或智能终端，包括智能手机、平板电脑、台式计算机等，可以为单独的应用程序、内嵌于其他程序中的小程序等，或者也可以为网页形式等。

本文一实施例中，如图1所示，图1示出了本文实施例语音培训识别方法的第一流程图，本实施例能够解决现有技术中以人工识别培训的方式存在浪费人力、培训效果差、业务人员专业度和业绩提升慢的缺陷，以及现有语音培训识别的方式存在评价不科学、不完善、精确性及参考价值低的缺陷。具体的，语音培训识别方法包括：

步骤110，对培训人员参加培训任务时采集的语音文件进行预处理及时间线打标处理，得到预处理后语音文件、文本内容信息及时间线打标信息；

步骤120，根据时间线打标信息，对预处理后语音文件进行语调识别，得到分句语调信息；

步骤130，根据时间线打标信息及正负向词知识库，对文本内容信息进行文本内容处理，得到分句正向词信息、分句负向词信息、分句字数及分句语速；

步骤140，对分句语调信息、分句正向词信息、分句负向词信息、分句字数及分句语速进行评分，并根据各分项评分计算综合得分。

本实施例实施之前，需要培训老师将培训内容上传至语音培训系统中，包括机器人语音合成播报的问题文字内容、学员需要训练的标准答案内容、打分点权重设置等信息，创建训练任务，培训学员根据训练任务进行训练，于训练过程中产生语音文件。

本实施例通过步骤120进行语调识别及步骤130进行文本内容识别，步骤140对处理结果进行评分，并根据评分结果得到综合得分，能够科学地、全面地、精确地实现语音培训识别，使得培训培训识别结果具有较高的参考价值。同时，根据综合得分指导培训，从而帮助培训人员了解个人薄弱知识点、熟练掌握培训内容、提升专业性和口头表达沟通能力，进而提升业务质量和服务满意度。梁歪，本文还可以提高培训人员培训和通过考试体验、节约培训师资人力。

本文一实施例中，为了保证培训安全性，上述步骤110中采集到语音文件之后，先对采集到的语音文件、上传者认证信息进行验证鉴权，验证通过后，对语音文件进行预处理，具体的，预处理的过程包括：对语音文件依次进行解码、静默音处理、背景噪音过滤、提取人声信号的语音数据、人声语音识别等标准化处理得到预处理后的语音文件、文本内容信息。预处理后对识别出的文字信息进行时间线打标处理，对于语音文件中出现的停顿音、静默音等特殊内容进行断句标识和时间点标记。被断句标识和时间点标记后的信息格式参考如下：

分句时间标识信息SS＝[语音文件标识S_id，分句标识D_id，分句起始时间T1，(分句起始时间T2-分句结束时间T1)]。

上述计算公式中的语音文件标识S_id，分句标识D_id，分句起始时间T1，分句结束时间T2四个数值，为预处理过程中产生的基础自然数值。所有分句的分句时间标识信息SS构成时间线打标信息。

步骤110预处理后的文件包括：预处理后的语音文件、文本内容信息及时间线打标信息。

本文一实施例中，上述步骤120根据时间线打标信息，对预处理后语音文件进行语调识别即按照分句分别进行语调识别。语调识别用于提取声学韵律特征值，包括但不限于：音高、强度、音质、声谱、倒谱以及上述特征值的延伸值，其中，延伸值例如包括音高和强度的中位值和标准差值等。

一些具体实施方式中，如图2所示，上述步骤120根据时间线打标信息，对预处理后语音文件进行语调识别，得到分句语调信息，包括：

步骤210，根据时间线打标信息从预处理后语音文件中调取分句音频；

步骤220，利用语音处理引擎，从分句音频中提取声学韵律特征值；

步骤230，根据声学韵律特征值，利用语调网络模型，计算语音文件中每分句的语调特征因子信息，其中，语调网络模型根据历史采集的语音文件预先训练得到；

步骤240，语音文件中每分句的语调特征因子信息构成各分句语调信息。

上述步骤210中，可根据时间线打标信息的分句时间标识信息中的分句起始时间及分句结束时间，从语音文件中调取分句音频。

上述步骤220中，语音处理引擎可根据声学韵律特征值具体取值进行设计，本文对其具体算法不是做限定。具体实施时，可根据各分句提取出的声学韵律特征值对分句做进一步时间标识处理，以完善上述时间线打标信息。

上述步骤230中，语调网络模型输出即为语调特征因子信息，例如包括欢快度H，平静度P，低沉度L。根据声学韵律特征值，利用语调网络模型，计算语音文件中每分句的语调特征因子信息，即将各分句的声学韵律特征值输入至语调网络模型中进行加工处理，语调网络模型输出各分句的语调特征因子信息。

实施时，语调网络模型可利用卷积神经网络模型训练得到，具体训练过程可参考现有卷积神经网络模型的训练过程，本文对此不再详述。

上述步骤240实施时，可根据时间线打标信息中的分句时间标识信息，将各分句的语调特征因子以数组形式进行保存，保存格式参考如下：

语调特征因子E＝【语音文件标识S_id，分句标识D_id，语调标识X，MAX(欢快度H，平静度P，低沉度L)】。

上述计算公式中的语音文件标识S_id、分句标识D_id信息，为与分句时间标识信息中相同的基础自然数值。欢快度H，平静度P，低沉度L三个特征值由语调网络模型处理声学韵律特征值得出，语调标识X由欢快度H，平静度P，低沉度L三个特征值的最大值定性确定。具体实施时，还可设置欢快度H，平静度P，低沉度L共同表示语调表示X。

本文一实施例中，如图3所示，上述步骤130用于实现半结构化信息到结构化信息文本分析，具体实施时，除了识别得到正向词、负向词、分句字数及分句语速外，还识别得到关键字匹配度。下面详细叙述步骤130的实施过程。

步骤310，分句切割处理：基于时间线打标信息对文本内容信息进行分割处理，分割后的分句文本信息格式参考如下：

ST＝【语音文件标识S_id，分句标识D_id，分句文字内容TXT】。

步骤320，分词处理：基于依存文法分析和分词算法对分句文本信息进行分词处理，例如将标识为TXT_id的分句文本内容【TXT_id，“分句文字内容TXT”】，处理为词语词组【TXT_id，‘词语1’，‘词语2’……‘词语n’】。

分词处理所依据的依存文法分析和分词算法可参考现有技术，本文对此不作限定。

步骤330，正向词识别：基于正向词知识库进行正向词识别，将各分句分词处理得到的词语与正向词语知识库进行比对，确定匹配出的正向词及其对应的权重，匹配出的正向词及其权重构成正向词信息。其中，正向词语知识库包含正向词及其对应的权重，正向词数据库中的正向词包含行业常用词语、公司专用词语及人工标注的重点词语等，可由人工预先设定，本文对此不作限定。

步骤340，负向词识别：基于负向词知识库进行正向词识别，将各分句分词处理得到的词语与负向词语知识库进行比对，确定匹配出的负向词及其对应的权重，匹配出的负向词及其权重构成负向词信息。其中，负向词语知识库包含负向词及其对应的权重，负向词语知识库中的负向词包含监管机构下发的不合规词语、敏感词语、文本分析负向情绪词语、人工标注负面词语等，可由人工预先设定，本文对此不作限定。

步骤350，字数统计：通过各分句内容的字数T_COUNT。

步骤360，语速统计：利用公式T_SP＝【文本字数COUNT/时长TIME】计算分句内容语速，分句语速信息用SPEED标识记录，格式参考如下：

SPEED＝【语音文件标识S_id，分句标识D_id，分句语速数值T_SP】。

步骤370，关键词匹配度：对培训老师设定和系统自动生成的考核点关键词，在分段文本内容中进行搜索匹配，计算关键词匹配度KEY＝命中关键词数量/关键词总数量。

本文一实施例中，如图4所示，上述步骤140中，对步骤120得到的分句语调信息及步骤130得到的分句正向词信息、分句负向词信息、分句字数及分句语速进行评分，包括：

步骤410，根据分句语调信息与分句语速信息分别与各自关联知识库中该分句的基准信息的比较差值，分别计算分句语调评分及分句语速评分；

步骤420，根据分句字数与该分句标准答案字数的比较差值，计算分句字数评分；

步骤430，根据分句正向词信息，计算分句正向词评分；

步骤440，根据分句负向词信息，计算分句负向词评分。

一具体实施方式中，上述步骤410利用如下公式计算评分：

VALUE_i＝1-NORMA(VAR(i，PIP_i))；

具体实施时，上述步骤410可拆分如下。

1)根据分句语调信息与语调内容关联知识库中该分句的基准语调信息的比较差值，利用如下公式计算分句语调评分：

E_VALUE＝1-NORMA(VAR(E，E_PIP))。

其中，E_VALUE表示分句语调评分，E表示分句语调信息，E_PIP表示分句基准语调信息。

2)根据分句语速信息与语速内容关联知识库中该分句的基准语速信息的比较差值，利用如下公式计算分句语速评分：

SPEED_VALUE＝1-NORMA(VAR(SPEED，SPEED_PIP))。

其中，SPEED_VALUE表示分句语速评分，SPEED表示分句语速，SPEED_PIP表示分句基准语速信息。

上述步骤420中标准答案由培训人员预设设定，可利用如下公式计算分句字数评分：

COUNT_VALUE＝1-NORMA(VAR(T_COUNT，COUNT_PIP))。

其中，COUNT_VALUE表示分句字数评分，T_COUNT表示识别出的分句字数，COUNT_PIP表示分句标准答案字数。

上述步骤430利用如下公式计算分句正向词评分：

上述步骤440利用如下公式计算分句负向词评分：

本文一实施例中，上述步骤140利用如下公式对分句语调评分、分句正向词评分、分句负向词评分、分句字数评分及分句语速评分进行加权处理，得到综合得分。

其中，n为分句个数，E_VALUE为分句语音语调评分，SPEED_VALUE为分句语速评分，FOR分句正向词评分，NEG为分句负向词评分，COUNT_VALUE为分句字数评分，V1为分句语音语调评分权重，V2为分句语速评分权重，V3为分句正向词评分权重，V4为分句负向词评分权重，V5为分句字数评分权重。

因为负向词是不希望出现的培训人员说出的词语，因此，在进行综合评分时，需要对负向词进行扣分。

具体实施时，为了提高计算效率，在得到各分句的语音语调评分、语速评分、正向词评分、负向词评分及字数评分之后，先计算分句评分。最后，对分句评分进行求和得到综合评分。

若文本内容处理过程或评分过程统计了关键词匹配度，则利用如下公式计算综合得分：

其中，KEY为关键词匹配度，V6为关键词匹配度的权重。

为了提高培训人员的培训效率，本文一实施例中，如图5所示，语音培训识别方法除了包括上述步骤110至步骤140外，还包括：

步骤150，根据各分项评分及综合得分，从预先配置的指导文件中查询指导建议；

步骤160，将查询出的指导建议发送至培训人员终端。

详细的说，上述步骤150中的预先配置的指导文件由培训老师进行设定，本文其具体内容不做限定。

具体实施时，还可分析多个培训人员的得分点及失分点进行分析，以便更精确地指导学员培训。

本实施例能够给出培训人员明确指导，以便提升培训人员的成长效率。

本文一实施例中，如图6所述，为了保证正负向词、语速、语调分析的精确性，语音培训识别方法除了包括上述步骤110至步骤160外，还包括：

步骤170，根据预设计划，对语调内容关联知识库、语速内容关联知识库、正负向词知识库进行更新。

详细的说，预设计划可由培训老师或系统维护人员根据数据积累量，行业发展动态进行设定，更新的时间可以为固定时间间隔，还可以为非固定时间间隔，本文对此不作限定。

实施时，可根据培训老师录入的典范录音、标准文本答案以及分句各项评分预定排名(例如评分前20％)的培训人员语音文件中，更新正负向词知识库【W_id，词语内容:word，词语权重W_V】、语调内容关联知识库【S_id，D_id，语调类型X，语调因子数值E_V】、语速内容关联知识库【S_id，D_id，语速基准值S_V】中的实体内容和权重值。

基于同一发明构思，本文还提供一种语音培训识别系统，如下面的实施例所述。由于语音培训识别系统解决问题的原理与语音培训识别方法相似，因此语音培训识别系统的实施可以参见语音培训识别方法，重复之处不再赘述。本实施例提供的语音培训识别系统其中包括多个功能模块，均可以由专用或者通用芯片实现，还可以通过软件程序实现，语音培训系统用软件实现时，可运行于用户终端、服务器等。

具体的，如图7所示，语音培训识别系统包括：

采集与预处理模块710，用于对培训人员参加培训任务时采集的语音文件进行预处理及时间线打标处理，得到预处理后语音文件、文本内容信息及时间线打标信息；

语调处理模块720，用于根据所述时间线打标信息，对预处理后语音文件进行语调识别，得到分句语调信息；

文本内容处理模块730，用于根据所述时间线打标信息及正负向词知识库，对文本内容信息进行文本内容处理，得到分句正向词信息、分句负向词信息、分句字数及分句语速；

评分模块740，用于对所述分句语调信息、分句正向词信息、分句负向词信息、分句字数及分句语速进行评分，得到各分项评分，并根据各分项评分计算综合得分；

指导模块750，用于根据各分项评分及综合得分，确定并发送指导建议至培训人员终端。

具体实施时，为了便于计算，文本内容处理模块730确定正向词信息及负向词信息后，可根据正向词信息及负向词信息直接计算分词正向词评分及分词负向词评分。

本实施例通过集成语调及文本内容处理，并通过对处理结果进行评分，并根据评分结果得到综合得分，能够科学地、全面地、精确地实现语音培训识别，使得培训培训识别结果具有较高的参考价值。同时，根据综合得分，确定并发送指导建议至培训人员终端，还能够帮助培训人员了解个人薄弱知识点、熟练掌握培训内容、提升专业性和口头表达沟通能力，进而提升业务质量和服务满意度。同时，本文还可以提高培训人员培训和通过考试体验、节约培训师资人力。

本文一实施例中，如图9所示，采集与预处理模块710预处理的过程包括：对语音文件依次进行解码、静默音处理、背景噪音过滤、提取人声信号的语音数据、人声语音识别等标准化处理得到预处理后的语音文件、文本内容信息。预处理后对识别出的文字信息进行时间线打标处理，对于语音文件中出现的停顿音、静默音等特殊内容进行断句标识和时间点标记。

本文一实施例中，如图8所示，语调处理模块720包括：

(1)分句单元721，用于基于时间线打标信息从预处理后语音文件中调取分句音频。

(2)声学韵律特征值提取单元722，用于利用语音处理引擎，从分句音频中提取声学韵律特征值。

(3)语调特征因子计算单元723，用于根据声学韵律特征值，利用语调网络模型，计算语音文件中每分句的语调特征因子信息，其中，语调网络模型根据历史采集的语音文件预先训练得到。

(4)语调信息确定单元724，用于将语音文件中每分句的语调特征因子信息构成各分句语调信息。

本文一实施例中，文本内容处理模块730包括：

(1)分句切割处理单元731：基于时间线打标信息对文本内容信息进行分割处理，分割后的分句文本信息格式参考如下：

ST＝【语音文件标识S_id，分句标识D_id，分句文字内容TXT】。

(2)分词处理单元732：基于依存文法分析和分词算法对分句文本信息进行分词处理，例如将标识为TXT_id的分句文本内容【TXT_id，“分句文字内容TXT”】，处理为词语词组【TXT_id，‘词语1’，‘词语2’……‘词语n’】。

(3)正向词识别单元733：基于正向词知识库进行正向词识别，将各分句分词处理得到的词语与正向词语知识库进行比对，确定匹配出的正向词及其对应的权重，匹配出的正向词及其权重构成正向词信息。其中，正向词语知识库包含正向词及其对应的权重，正向词数据库中的正向词包含行业常用词语、公司专用词语及人工标注的重点词语等，可由人工预先设定，本文对此不作限定。

(4)负向词识别单元734：基于负向词知识库进行正向词识别，将各分句分词处理得到的词语与负向词语知识库进行比对，确定匹配出的负向词及其对应的权重，匹配出的负向词及其权重构成负向词信息。其中，负向词语知识库包含负向词及其对应的权重，负向词语知识库中的负向词包含监管机构下发的不合规词语、敏感词语、文本分析负向情绪词语、人工标注负面词语等，可由人工预先设定，本文对此不作限定。

(5)字数统计单元735：通过各分句内容的字数T_COUNT。

(6)语速统计单元736：利用公式T_SP＝【文本字数COUNT/时长TIME】计算分句内容语速，分句语速信息用SPEED标识记录，格式参考如下：

本文一实施例中，评分模块740包括：

(1)分句语调评分单元741，用于根据分句语调信息与语调内容关联知识库中该分句的基准语调信息的比较差值，计算分句语调评分。

(2)分句语速评分单元742，用于根据分句语速分别与语速内容关联知识库中该分句的基准语速信息的比较差值，计算分句语速评分。

(3)分句字数评分单元743，用于根据分句字数与该句标准答案字数的比较差值，计算分句字数评分。

(4)分句正向词评分单元744，用于根据分句正向词信息，计算分句正向词评分。

(5)分句负向词评分单元745，用于根据分句负向词信息，计算分句负向词评分。

(6)综合评分计算单元746，用于利用如下公式对分句语调评分、分句正向词评分、分句负向词评分、分句字数评分及分句语速评分进行加权处理，得到综合得分。

其中，n表示分句个数，E_VALUE为分句语音语调评分，SPEED_VALUE为分句语速评分，FOR分句正向词评分，NEG为分句负向词评分，COUNT_VALUE为分句字数评分。

本文一实施例中，指导模块750根据各分项评分及综合得分，确定并发送指导建议至培训人员终端的过程包括：

(1)根据各分项评分，从预先建立的各分项评价规则中查找对应的等级，将查找出的等级对应的评价作为相应分项的评价。详细的说，各分项评价规则中包括得分范围与评价的对应关系，得分越高得到的评价结果越好，以分句语调评分为例，如表一所示，其余分项评分可参考分句语调评分，此处不再详述。

表一

分句语调评分等级	分句语调评价
		0～5	语言不流畅
5～10	语言流畅欠佳
		10～15	语言流畅合格
……	……

(2)根据综合得分，确定在历史培训中或同期培训中的排名结果。

(3)根据各分项的评价及排名结果，给出指导建议。具体的，根据各分项的评价，确定有待改进的分项提升建议，例如对于分句语调评价结果为语言流畅欠佳，则给出的提升建议可以为注意语言流畅度，在哪些地方可以采用声调，哪些地方可以采用降调等。根据排名结果，给出该排名下应该达到的水准建议。

具体实施时，各分项的评价及排名结果的显示界面如图10所示，其中，语言流畅对应分句语调信息评分，语速连贯对应分句语速评分，礼貌用语对应正负向词评分，表达准确对应关键词评分。显示界面中设置有查看指导建议的按钮，或在显示界面中直接给出分析建议。

该显示界面仅为举例说明，具体实施时，可根据实际需求进行调整，例如各分项评价以表格的形式展示。当然，具体实施时，还可加入其它现有评分项，本文对此不作具体限定。

为了更清楚说明本文技术方案，下面以一具体实施例进行详细说明。本实施例实施之前，由培训老师将培训内容上传至语音培训识别系统中，包括机器人语音合成播报的问题文字内容、学员需要训练的标准答案内容、打分点权重设置等信息，创建训练任务。具体的，语音培训识别过程包括：

1)培训人员在学员端参加训练任务，人机对练过程中产生的语音文件通过互联网络传输到采集与预处理模块710中，处理得出预处理后语音文件、文本内容信息及时间线打标信息。其中，时间线打标信息例如表示为：SS＝【语音文件标识S_id，分句标识D_id，分句起始时间16:31:12，时间间隔18秒】。

2)语音预处理结果数据在语调处理模块720中进行分句语调信息的计算，分句语调信息由分句语调特征因子E体现，例如：语调特征因子E＝【语音文件标识S_id，分句标识D_id，欢快语调标识H，欢快度0.92】。

3)文本内容处理模块730中，对文本内容信息进行分句及分词的分割，并且计算如下一系列评分结果或中间结果信息。

(1)文本内容分句信息：根据时间线打标信息SS，将文本内容信息做分割处理，分割后的分句文本信息格式示例：ST＝【语音文件标识S_id，分句标识D_id，“XX产品是在疫情期间推出的一款意外险产品”】。

(2)分词处理：将语音识别后的文字内容拆分为词语，例如：【TXT_id，“XX产品是在疫情期间推出的一款意外险产品”】，处理为词语词组【TXT_id，‘XX’，‘产品’，‘是在’，‘疫情“，”期间’，‘推出“，”的’，‘一款’，‘意外险’，‘产品’】。

(3)正向词识别及评分：基于正向词知识库进行正向词识别，将各分句分词处理得到的词语与正向词语知识库进行比对，确定匹配出的正向词及其对应的权重，根据分句正向词权重计算正向词评分：

其中，FOR表示分句正向词评分，NORMA表示归一化计算，n1表示分句匹配出的正向词量，VF_i表示第i个匹配出的正向词的权重。

(4)负向词识别及评分：基于负向词知识库进行正向词识别，将各分句分词处理得到的词语与负向词语知识库进行比对，确定匹配出的负向词及其对应的权重，根据负向词权重计算负向词评分：

(5)字数统计：统计文本内容的字数和分句内容的字数T_COUNT，并关联记录。

(6)语速统计：计算分句内容语速，例如T_SP＝【180字/60秒】＝3字/秒，并记录。

(7)考核点关键词命中统计：例如KEY＝命中关键词数量5个/考核点关键词总数量10个＝0.5。

4)关联评分处理

上述语调处理模块720和文本内容处理模块730的处理结果进行评分。

(1)分句语调评分：将语音语调因子E与语调内容关联知识库中该分句基准语调因子E_PIP进行比对计算标准差值，根据计算出的标准差计算分句语调评分：

E_VALUE＝1-VAR(E:【S_id，D_id，H，0.92】，E_PIP:【S_id，D_id，H，0.93】)＝【S_id，D_id，0，0.01】。

(2)分句语速评分：将分句内容语速SPEED与语速内容关联知识库中该分句基准语速因子SPEED_PIP进行比对计算标准差值，根据计算出的标准差值计算分句语速评分：

SPEED_VALUE＝1-VAR(SPEED:【S_id，D_id，2.1】，SPEED_PIP【S_id，D_id，2.01】)＝【S_id，D_id，0.09】。

(3)分句字数评分：将分句内容字数T_COUNT与标准答案字数COUNT_PIP进行比对计算标准差值，根据标准差值计算分句字数评分：

COUNT_VALUE＝1-VAR(T_COUNT:【S_id，D_id，316】，COUNT_PIP:【S_id，D_id，300】)＝【S_id，D_id，16】。

(4)知识库更新：从培训老师录入的典范录音和标准文本答案，以及分句各项评分前20％训练数据中，提取并更新正负向词语知识库信息【W_id，词语内容:word，词语权重:0.6】、语调内容关联知识库信息【S_id，D_id，语调类型X，语调因子数值：0.91】、语速内容关联知识库数据信息【S_id，D_id，语速基准值:3.26】。

(5)计算对各分句中各项评分进行加权计算，得到各分句的评分，例如：分句语调评分E_VALUE×权重35+分句语速评分SPEED_VALUE×权重10+考核点关键词命中评分KEY×权重35+分句正向词评分FOR×权重20–分句负向词评分NEG×权重10+分句字数评分COUNT_VALUE×权重10。

5)综合评价

对各句评分进行加权求和，得到语音文件的评分。

6)根据语音文件的评分，确定并发送指导建议至培训人员终端。

本文提供的语音培训识别方法及系统，从技术层面的直接技术效果为语音训练平评价标准更精准，包括：增加分句语调评分、分句语速评分、分句字数匹配度评分、正向词命中评分、负向词命中评分，以及综合评分规则的设定，提升语音训练评价精确度、完善度、科学性和可参考价值。从业务层面的有益效果：提高业务员使用系统的积极性，提升培训效率和效果，进而促进业绩和留存率的提升。

本文一实施例中，还提供一种计算机设备，如图11所示，计算机设备1102可以包括一个或多个处理器1104，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备1102还可以包括任何存储器1106，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器1106可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备1102的固定或可移除部件。在一种情况下，当处理器1104执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备1102可以执行相关联指令的任一操作。计算机设备1102还包括用于与任何存储器交互的一个或多个驱动机构1108，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1102还可以包括输入/输出模块1110(I/O)，其用于接收各种输入(经由输入设备1112)和用于提供各种输出(经由输出设备1114))。一个具体输出机构可以包括呈现设备1116和相关联的图形用户接口1118(GUI)。在其他实施例中，还可以不包括输入/输出模块1110(I/O)、输入设备1112以及输出设备1114，仅作为网络中的一台计算机设备。计算机设备1102还可以包括一个或多个网络接口1120，其用于经由一个或多个通信链路1122与其他设备交换数据。一个或多个通信总线1124将上文所描述的部件耦合在一起。

通信链路1122可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1122可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

本文一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例所述的语音培训识别方法。

本文一实施例中，还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行上述任一实施例所述的语音培训识别方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种语音培训识别系统，其特征在于，包括：

评分模块，用于对所述分句语调信息、分句正向词信息、分句负向词信息、分句字数及分句语速进行评分，并根据各分项评分计算综合得分；

2.如权利要求1所述的系统，其特征在于，所述语调处理模块，包括：

分句单元，用于根据所述时间线打标信息从预处理后语音文件中调取分句音频；

3.如权利要求1所述的系统，其特征在于，所述评分模块，包括：

4.如权利要求3所述的系统，其特征在于，所述分句语速评分单元及所述分句字数评分单元利用如下公式计算分句语调评分及分句语速评分：

VALUE_i＝1-NORMA(VAR(i，PIP_i))；

5.如权利要求3所述的系统，其特征在于，所述分句正向词评分单元利用如下公式计算分句正向词评分：

所述分句负向词评分单元利用如下公式计算分句负向词评分：

其中，NEG表示负向词评分，NORMA表示归一化计算，n2表示匹配出的负向词量，VN_i表示第i个匹配出的负向词的权重。

6.如权利要求3所述的系统，其特征在于，还包括：

7.如权利要求1所述的系统，其特征在于，所述指导模块根据所述综合得分，确定并发送指导建议至培训人员终端，包括：

根据所述综合得分，从预先配置的指导文件中查询指导建议；

将查询出的指导建议发送至培训人员终端。

8.一种语音培训识别方法，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求8所述的语音培训识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现权利要求8所述的语音培训识别方法。