CN106847263A

CN106847263A - 演讲水平评价方法和装置及系统

Info

Publication number: CN106847263A
Application number: CN201710024211.2A
Authority: CN
Inventors: 胡尹; 潘青华; 杨光
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-06-13
Anticipated expiration: 2037-01-13
Also published as: CN106847263B

Abstract

本申请提出一种演讲水平评价方法和装置及系统，该方法包括：接收待评价的演讲语音数据；对所述演讲语音数据进行语音识别，得到识别文本数据；分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。该方法能够在评价演讲水平时，无需人工参与，从而提高实用性、客观性和准确性，以及降低成本。

Description

演讲水平评价方法和装置及系统

技术领域

本申请涉及自然语言理解及语音信号处理技术领域，尤其涉及一种演讲水平评价方法和装置及系统。

背景技术

演讲作为一种传播信息的方式，广泛存在于各行各业中，如教育领域中，教育专家的演讲，以帮助学生提升自己的学习水平和知识面，研究领域中，领域专家的演讲可以帮助研究者开阔思路、扩展知识面，演讲所传播的内容对于听众来说受益非浅；然而，有些演讲人由于准备的不充分或者自身专业知识的缺乏在演讲过程中表现不佳，导致演讲内容不能很好的传播给听众；而有些演讲人具备较高的专业知识，可以很好的将演讲内容传播给听众，并让听众记忆深刻；由此可见演讲人演讲水平的高低直接关系到演讲内容的传播效果，如何对演讲人的演讲水平进行客观的评价具有重要意义。

相关技术中，演讲水平评价方法一般需要人工听演讲语音数据或观看演讲视频给出演讲人演讲水平的评价结果，所述人工一般为专家或专业人士，当演讲人演讲时间过长时，人工评价方法的工作量较大，成本也较高，不具有实用性，此外，人工评价演讲人的演讲水平带有一定的主观性，对被评价人不公平。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种演讲水平评价方法，该方法可以在评价演讲水平时，无需人工参与，从而提高实用性、客观性和准确性，以及降低成本。

本申请的另一个目的在于提出一种演讲水平评价装置。

本申请的另一个目的在于提出一种演讲水平评价系统。

为达到上述目的，本申请第一方面实施例提出的演讲水平评价方法，包括：接收待评价的演讲语音数据；对所述演讲语音数据进行语音识别，得到识别文本数据；分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

为达到上述目的，本申请第二方面实施例提出的演讲水平评价装置，包括：接收模块，用于接收待评价的演讲语音数据；语音识别模块，用于对所述演讲语音数据进行语音识别，得到识别文本数据；特征提取模块，用于分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；评价模块，用于根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

为达到上述目的，本申请第三方面实施例提出的演讲水平评价系统，包括：客户端，用于获取待评价的演讲语音数据；服务端，用于接收客户端发送的所述演讲语音数据；对所述演讲语音数据进行语音识别，得到识别文本数据；分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；以及，根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

本申请实施例，通过分析演讲人演讲语音数据的声学信息及语义信息，并基于声学信息和语义信息对演讲人演讲水平进行自动评价，评价准确度较高，无需人工参与，大大节省人工工作量，具有较高的实用性，由于评价准则统一，评价结果较客观，从而提高实用性、客观性和准确性，以及降低成本。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的演讲水平评价方法的流程示意图；

图2是本申请另一个实施例提出的演讲水平评价方法的流程示意图；

图3是本申请另一个实施例提出的演讲水平评价方法的流程示意图；

图4是本申请实施例中提取演讲评价特征的方法的流程示意图；

图5是本申请一个实施例提出的演讲水平评价装置的结构示意图；

图6是本申请另一个实施例提出的演讲水平评价装置的结构示意图；

图7是本申请一个实施例提出的演讲水平评价系统的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一个实施例提出的演讲水平评价方法的流程示意图。

如图1所示，本实施例的方法包括：

S11：接收待评价的演讲语音数据。

所述演讲语音数据为演讲人演讲的语音数据，根据所述语音数据对演讲人的演讲水平进行评价；所述演讲语音数据可以在演讲人演讲时，通过麦克风实时录音得到，具体录音时，可以只录演讲人的语音数据，也可以录制演讲视频，具体本案不作限定。

S12：对所述演讲语音数据进行语音识别，得到识别文本数据。

具体地，首先对演讲语音数据进行端点检测，得到有效语音段的起始点和结束点，所述有效语音段可以通过相关方法检测得到，如使用语音活动检测(Voice ActivityDetection，VAD)方法检测得到；然后对所述有效语音段进行语音识别，得到相应的识别文本数据；所述语音识别方法为现有技术，直接通过语音识别技术可以将演讲人的演讲语音数据转换为文本数据，即演讲语音数据对应的识别文本数据，具体识别过程不再详述。

S13：分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征。

其中，声学演讲评价特征是从所述演讲语音数据中提取出的声学信息，语义演讲评价特征是从所述识别文本数据中提取出的语义信息。具体提取方法如下所述。

S14：根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

具体构建演讲水平评价模型的方法可以如下所述。

具体评价时，直接将提取出的演讲评价特征作为演讲评价模型的输入，输出为演讲水平的评价结果，所述评价结果可以为评价得分，也可以为评价等级，具体评价结果本案不作限定。

进一步地，本案还可以在演讲人进行演讲时，录制演讲人的演讲视频，分别从音频和视频上对演讲人的演讲水平进行评价，从视频上分析主要通过分析演讲人演讲时的表情、动作、及与听众的互动等，对演讲人进行更全面的评价；针对评价结果给出详细的演讲水平评价报告，所述评价报告可以给出演讲语音数据每个演讲评价特征的取值，从而帮助演讲人提升自己的演讲水平。

具体实施时，结合客户端与服务端，给出如图2所示的流程：

S21：客户端获取待评价的演讲语音数据。

客户端可以获取预先录制的所述演讲语音数据，比如，在录制演讲语音数据后，将演讲语音数据存储到数据库中，当需要进行演讲水平的评价时，从数据库中获取所述演讲语音数据。或者，客户端也可以实时录制所述演讲语音数据，从而进行实时评价。

S22：客户端将待评价的演讲语音数据发送给服务端。

客户端可以通过与服务端之间的网络连接将演讲语音数据发送给服务端。

S23：服务端接收客户端发送的待评价的演讲语音数据。

S24：服务端对所述演讲语音数据进行语音识别，得到识别文本数据。

S25：服务端分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征。

S26：服务端根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

S27：服务端将评价结果发送给客户端。

S28：客户端将所述评价结果展现给评价人员。

上述各步骤的具体内容可以参见相关实施例中的相关描述，在此不再详述。

可以理解的是，上述的客户端和服务端可以分别位于不同的物理设备中，如客户端位于用户侧的终端设备中，服务端位于服务器中，终端设备与服务器通过网络连接；或者，客户端和服务端可以位于相同的物理设备中，例如，在终端设备中集成客户端和服务端的功能，从而可以在终端设备本地完成演讲水平的评价。

本实施例中，通过分析演讲人演讲语音数据的声学信息及语义信息，并基于声学信息和语义信息对演讲人演讲水平进行自动评价，评价准确度较高，无需人工参与，大大节省人工工作量，具有较高的实用性，由于评价准则统一，评价结果较客观，从而提高实用性、客观性和准确性，以及降低成本。

图3是本申请另一个实施例提出的演讲水平评价方法的流程示意图。

如图3所示，本实施例的方法包括：

S31：服务端构建演讲水平评价模型。

所述演讲水平评价模型可以通过离线方式预先收集大量演讲语音数据构建得到，具体构建方法如下所述：

首先收集大量演讲语音数据，可以根据演讲人的不同，将演讲语音数据划分为不同大段的演讲语音数据，如将同一个演讲人的同一次演讲语音数据作为一段，并给出每段演讲语音数据的标注信息，该标注信息具体包括相应演讲语音数据的演讲水平的评价结果，所述演讲水平的评价结果可以为演讲水平得分，如演讲水平得分满分为100分，依次对每段演讲语音数据进行打分，当然也可为演讲水平的等级，所述等级如高水平演讲、中水平演讲、低水平演讲，所述演讲等级可以使用数字表示，如使用1表示高水平演讲，2表示中水平演讲，3表示低水平演讲；具体评价可以由每段演讲语音数据的听众在听完演讲时给出，也可以由专业人士进行专业评价；

然后对每段演讲语音数据进行语音识别，得到对应识别文本；

再分别从演讲语音数据的声学上及演讲语音数据对应识别文本的语义上提取演讲评价特征，具体提取方法与上述待评价演讲语音数据提取方法相同，具体可以参见对待评价演讲语音数据的提取过程；

最后根据每段演讲语音数据的演讲评价特征及其评价结果对演讲评价模型进行训练，所述演讲评价模型可以为模式识别中常用回归模型或分类模型；如果演讲语音数据的评价结果为评价得分时，则演讲评价模型使用回归模型描述，如果演讲语音数据的评价结果为评价等级时，则演讲评价模型使用分类模型描述，具体训练方法与现有技术相同，在此不再详述。

S32：客户端获取待评价演讲人的演讲语音数据。

S33：客户端将所述演讲语音数据发送给服务端。

S34：服务端接收客户端发送的所述演讲语音数据。

S35：服务端对所述演讲语音数据进行语音识别，得到识别文本数据。

S36：服务端分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征。

演讲评价特征的提取方法可以如下所述。

S37：服务端根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

S38：服务端将评价结果发送给客户端。

S39：客户端将所述评价结果展现给评价人员。

可以理解的是，本实施例未做详细说明的部分，可以参见其他实施例中的相关部分。

如上所述，涉及了演讲评价特征的提取，下面对演讲评价特征的提取过程进行说明。

如图4所示，提取演讲语音数据的演讲评价特征的方法包括：

S41：对演讲语音数据进行声学特征提取，得到声学演讲评价特征。

所述声学演讲评价特征主要通过分析演讲人的演讲语音数据声学信息提取得到，具体包括语调特征、流畅度特征、观众反馈度特征中的一种或多种组合，具体提取方法如下所述：

(1)语调特征

所述语调特征主要指演讲人演讲时的声音的抑扬顿挫程度，演讲时声音的抑扬顿挫在很大程度上为演讲增色，使听众听起来感觉较生动，有利于演讲内容的传递，具体提取时，先分别计算演讲语音数据中的有效语音段基频的方差值；然后将所有有效语音段基频的方差值的均值作为演讲语音数据的语调特征；

(2)流畅度特征

所述流畅度特征主要用于描述演讲人演讲时演讲语音数据的流畅程度，具体可以通过分析演讲语音数据中出现的停顿、重复、口头禅、语气词的频率来提取，当所述频率越大时，流畅度越低，演讲人演讲时越不流畅，所述流畅度的具体提取方法如下所述：

首先计算演讲语音数据中停顿出现的频率，具体计算时，根据语音数据中的有效语音段，可以得到语音数据中的无声段，所述无声段即演讲人演讲时的停顿，将所有停顿时长与演讲语音数据总时长的比值作为停顿出现的频率，记为S；

然后再计算演讲人演讲时重复、口头禅、语气词出现的总频率，所述重复指演讲人演讲时重复说的词数，口头禅及语气词可以根据不同演讲人，预先设定得到；具体计算时，先分别统计演讲语音数据中重复、口头禅、及语气词出现的次数，可以根据演讲语音数据识别文本中词进行统计，所述统计方法与现有技术相同，如使用文本顺滑技术进行统计；然后再将重复、口头禅及语气词出现的次数累加后，得到出现总次数；最后将所述出现总次数与识别文本中总词数的比值作为演讲人演讲时重复、口头禅、语气词出现的总频率，记为T；

最后计算演讲人演讲的流畅度，具体计算时，直接根据演讲人演讲时的停顿出现的频率、及重复、口头禅、语气词出现的总频率计算得到，具体计算方法如式(1)所示：

F＝1-α·(S+T) (1)

其中，F表示演讲人演讲的流畅度，α为流畅度调节系数，其取值范围为0<α≤0.5，一般取值为0.5；

(3)观众反馈度特征

所述观众反馈度指演讲人演讲时，听众对演讲内容的反馈，所述反馈度特征使用听众的鼓掌次数、鼓掌时长、欢呼次数、及欢呼时长表示，具体将鼓掌次数、鼓掌时长、欢呼次数、欢呼时长组合成观众反馈度向量，所述鼓掌次数、鼓掌时长、欢呼次数、欢呼时长具体提取方法如下所述：

首先收集大量鼓掌和欢呼的音频片段；然后将收集的音频片段切分成固定长度的小音频片段，如每个音频片段的长度为2s；再提取切分后每个小音频片段的声学特征，所述声学特征如短时能量、过零率、梅尔频率倒谱系数等，具体提取方法与现有技术相同，在此不再详述，将提取的声学特征组合后，得到每个小音频片段的声学特征向量；然后再分别计算鼓掌小音频片段和欢呼小音频片段声学特征向量的平均值，分别得到鼓掌和欢呼小音频片段的声学中心特征向量；最后计算演讲语音数据分别与鼓掌和欢呼音频片段声学中心特征向量的距离，具体计算时，先将演讲语音数据切分成小片段，提取演讲语音数据小片段的声学特征并计算每个小片段的声学特征向量，再依次计算每个小片段分别与鼓掌和欢呼音频片段的声学中心特征向量的距离，如果所述距离小于预先设定的阈值，则认为当前小片段包含鼓掌或欢呼类型的音频片段，从而可以确定整个演讲语音数据分别包含鼓掌或欢呼类型音频片段的总数，即演讲语音数据中鼓掌和欢呼出现的次数，再使用相应次数乘以切分后的演讲语音数据小片段的时长，得到相应鼓掌时长和欢呼时长，依次将所述演讲语音数据中的鼓掌次数、鼓掌时长、欢呼次数及欢呼时长组合成观众反馈度特征向量；

如演讲语音数据中鼓掌次数为20次，鼓掌时长为40s，欢呼次数为30次，欢呼时长为60s，则观众反馈度特征向量为(20，40，30，60)。

S42：对演讲语音数据进行语音识别，得到识别文本数据。

S43：对识别文本数据进行语义特征提取，得到语义演讲评价特征。

所述语义演讲评价特征主要通过分析演讲语音数据的识别文本的语义信息提取得到，所述语义演讲评价特征主要包括语速特征、吐字清晰度特征、主题相关度特征中的一种或多种组合，具体提取方法如下所述：

(1)语速特征

所述语速特征指演讲人演讲过程中每秒说的字数；具体可以通过统计演讲语音数据对应识别文本中包含的字数，使用所述字数与演讲语音数据的总时长的比值作为演讲人的语速特征。

(2)吐字清晰度特征

所述吐字清晰度特征指演讲人演讲过程中发音的准确度，具体计算时，首先将语音识别过程中计算得到的演讲语音数据每个状态的声学后验得分作为演讲语音数据状态序列中每个状态的状态得分，所述演讲语音数据的状态序列为语音识别时进行状态级切分得到的；然后计算演讲语音数据所有状态的平均状态得分；最后将所述平均状态得分作为演讲人演讲过程中发音的准确度，即吐字清晰度特征。

(3)主题相关度特征

所述主题相关度特征指演讲人演讲时的主题与演讲主题的相关度，所述演讲主题一般由演讲人或应用需求预先确定，具体可以为演讲的主题词，如演讲主题词为“人工智能、深度学习、神经网络”等，具体提取特征时，直接根据演讲语音数据的识别文本，提取识别文本主题词，计算所述主题词与预先设定的演讲主题词的相似度即可；识别文本主题词的提取方法为现有技术，如使用LDA(Latent Dirichlet Allocation)的方法提取识别文本主题词，具体过程不再详述；

需要说明的是，如果预先设定的演讲主题词较少时，可以根据已有主题词在网上查找相应主题的文档资料，提取文档资料中的主题词，以增加预先设定的演讲主题词。

可以理解的是，如果演讲主题词为多个，则可以分别计算识别文本数据的主题词与每个演讲主题词之间的相似度，得到多个相似度数值，之后可以将所述多个相似度数值的均值或者多个相似度数值中的最大值作为最终要得到的所述主题词与预先设定的演讲主题词的相似度，即主题相关度特征可以为上述多个相似度数值的均值或其中的最大值。

可以理解的是，S41与S42-S43无时序限制关系，即可以先提取声学演讲评价特征，或者先提取语义演讲评价特征，或者，并行提取声学演讲评价特征和语义演讲评价特征。

图5是本申请一个实施例提出的演讲水平评价装置的结构示意图。

如图5所示，本实施例的装置50包括：接收模块51、语音识别模块52、特征提取模块53和评价模块54。

接收模块51，用于接收待评价的演讲语音数据；

语音识别模块52，用于对所述演讲语音数据进行语音识别，得到识别文本数据；

特征提取模块53，用于分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；

评价模块54，用于根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

一些实施例中，参见图6，该装置50还包括：用于构建演讲水平评价模型的构建模块55，所述构建模块55具体用于：

获取用于训练的演讲语音数据及其标注信息，所述标注信息包括：对所述用于训练的演讲语音数据的演讲水平的评价结果

对所述用于训练的演讲语音数据进行语音识别，得到所述用于训练的演讲语音数据对应的识别文本数据；

分别对所述用于训练的演讲语音数据和所述用于训练的演讲语音数据对应的识别文本数据进行特征提取，得到所述用于训练的演讲语音数据对应的演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；

根据所述用于训练的演讲语音数据对应的演讲评价特征和所述标注信息进行模型训练，得到演讲水平评价模型。

一些实施例中，所述特征提取模块53具体用于：

从演讲语音数据的声学上，提取声学演讲评价特征；以及

从识别文本数据的语义上，提取语义演讲评价特征。

一些实施例中，所述声学演讲评价特征包括如下项中的至少一项：

语调特征、流畅度特征、观众反馈度特征。

一些实施例中，所述特征提取模块53用于提取语调特征包括：

分别计算演讲语音数据中的有效语音段基频的方差值；

计算演讲语音数据中所有有效语音段基频的方差值的均值，将所述均值作为相应演讲语音数据的语调特征。

一些实施例中，所述特征提取模块53用于提取流畅度特征包括：

计算演讲语音数据中停顿出现的频率；

计算演讲语音数据中重复、口头禅、语气词出现的总频率；

根据所述频率和所述总频率，计算流畅度特征，其中，所述流畅度特征与所述频率和所述总频率之和成线性关系，且线性系数为负值。

一些实施例中，所述特征提取模块53用于提取观众反馈度特征包括：

计算演讲语音数据中的鼓掌次数、鼓掌时长、欢呼次数和欢呼时长；

将所述鼓掌次数、鼓掌时长、欢呼次数和欢呼时长分别作为一个向量元素，将组成的向量作为观众反馈度特征。

一些实施例中，所述语义演讲评价特征包括如下项中的至少一项：

语速特征、吐字清晰度特征、主题相关度特征。

一些实施例中，所述特征提取模块53用于提取语速特征包括：

计算所述识别文本数据中包含的字数与所述演讲语音数据的总时长的比值，将所述比值作为语速特征。

一些实施例中，所述特征提取模块53用于提取吐字清晰度特征包括：

将语音识别过程中计算得到的演讲语音数据每个状态的声学后验得分作为演讲语音数据状态序列中每个状态的状态得分；

根据每个状态的状态得分，计算演讲语音数据状态序列中所有状态的平均状态得分，将所述平均状态得分作为吐字清晰度特征。

一些实施例中，所述特征提取模块53用于提取主题相关度特征包括：

提取所述识别文本数据的主题词；

计算所述主题词与预先设定的演讲主题词的相似度，将所述相似度作为主题相关度特征。

一些实施例中，参见图6，该装置50还可以包括：

发送模块56，用于将所述评价结果发送给客户端，以使所述客户端将所述评价结果反馈给评价人员。

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

如图7所示，本实施例的系统包括：客户端71和服务端72。

客户端71，用于获取待评价的演讲语音数据；

服务端72，用于接收客户端发送的所述演讲语音数据；对所述演讲语音数据进行语音识别，得到识别文本数据；分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；以及，根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

一些实施例中，所述服务端72还用于：将所述评价结果发送给客户端；

所述客户端71还用于：接收所述服务端发送的评价结果，并将所述评价结果反馈给评价人员。

图7中以客户端与服务端通过无线网络连接为例，可以理解的是，客户端与服务端也可以通过有线网络连接，或者，如果客户端与服务端集成在同一设备中，客户端与服务端可以通过设备内部的总线连接。

可以理解的是，服务端的功能与上述的装置一致，因此，服务端的具体组成可以参见图5或图6所示的装置，在此不再详述。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种演讲水平评价方法，其特征在于，包括：

接收待评价的演讲语音数据；

对所述演讲语音数据进行语音识别，得到识别文本数据；

分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；

根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

2.根据权利要求1所述的方法，其特征在于，还包括：构建演讲水平评价模型，所述构建演讲水平评价模型包括：

3.根据权利要求1或2所述的方法，其特征在于，所述提取演讲评价特征，包括：

从演讲语音数据的声学上，提取声学演讲评价特征；以及

从识别文本数据的语义上，提取语义演讲评价特征。

4.根据权利要求3所述的方法，其特征在于，所述声学演讲评价特征包括如下项中的至少一项：

语调特征、流畅度特征、观众反馈度特征。

5.根据权利要求4所述的方法，其特征在于，提取语调特征包括：

分别计算演讲语音数据中的有效语音段基频的方差值；

6.根据权利要求4所述的方法，其特征在于，提取流畅度特征包括：

计算演讲语音数据中停顿出现的频率；

计算演讲语音数据中重复、口头禅、语气词出现的总频率；

7.根据权利要求4所述的方法，其特征在于，提取观众反馈度特征包括：

8.根据权利要求3所述的方法，其特征在于，所述语义演讲评价特征包括如下项中的至少一项：

语速特征、吐字清晰度特征、主题相关度特征。

9.根据权利要求8所述的方法，其特征在于，提取语速特征包括：

10.根据权利要求8所述的方法，其特征在于，提取吐字清晰度特征包括：

11.根据权利要求8所述的方法，其特征在于，提取主题相关度特征包括：

提取所述识别文本数据的主题词；

12.根据权利要求1所述的方法，其特征在于，还包括：

将所述评价结果发送给客户端，以使所述客户端将所述评价结果反馈给评价人员。

13.一种演讲水平评价装置，其特征在于，包括：

接收模块，用于接收待评价的演讲语音数据；

语音识别模块，用于对所述演讲语音数据进行语音识别，得到识别文本数据；

特征提取模块，用于分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；

评价模块，用于根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

14.根据权利要求13所述的装置，其特征在于，还包括：用于构建演讲水平评价模型的构建模块，所述构建模块具体用于：

15.根据权利要求13或14所述的装置，其特征在于，所述特征提取模块具体用于：

从演讲语音数据的声学上，提取声学演讲评价特征；以及

从识别文本数据的语义上，提取语义演讲评价特征。

16.根据权利要求15所述的装置，其特征在于，所述声学演讲评价特征包括如下项中的至少一项：

语调特征、流畅度特征、观众反馈度特征。

17.根据权利要求16所述的装置，其特征在于，所述特征提取模块用于提取语调特征包括：

分别计算演讲语音数据中的有效语音段基频的方差值；

18.根据权利要求16所述的装置，其特征在于，所述特征提取模块用于提取流畅度特征包括：

计算演讲语音数据中停顿出现的频率；

计算演讲语音数据中重复、口头禅、语气词出现的总频率；

19.根据权利要求16所述的装置，其特征在于，所述特征提取模块用于提取观众反馈度特征包括：

20.根据权利要求15所述的装置，其特征在于，所述语义演讲评价特征包括如下项中的至少一项：

语速特征、吐字清晰度特征、主题相关度特征。

21.根据权利要求20所述的装置，其特征在于，所述特征提取模块用于提取语速特征包括：

22.根据权利要求20所述的装置，其特征在于，所述特征提取模块用于提取吐字清晰度特征包括：

23.根据权利要求20所述的装置，其特征在于，所述特征提取模块用于提取主题相关度特征包括：

提取所述识别文本数据的主题词；

24.根据权利要求13所述的装置，其特征在于，还包括：

发送模块，用于将所述评价结果发送给客户端，以使所述客户端将所述评价结果反馈给评价人员。

25.一种演讲水平评价系统，其特征在于，包括：

客户端，用于获取待评价的演讲语音数据；

服务端，用于接收客户端发送的所述演讲语音数据；对所述演讲语音数据进行语音识别，得到识别文本数据；分别对所述演讲语音数据和所述识别文本数据进行特征提取，得到演讲评价特征，所述演讲评价特征包括：声学演讲评价特征和语义演讲评价特征；以及，根据所述演讲评价特征和预先构建的演讲水平评价模型，对所述演讲语音数据的演讲水平进行评价，得到演讲水平的评价结果。

26.根据权利要求25所述的系统，其特征在于，

所述服务端还用于：将所述评价结果发送给客户端；

所述客户端还用于：接收所述服务端发送的评价结果，并将所述评价结果反馈给评价人员。