CN111554324A

CN111554324A - 智能化语言流利度识别方法、装置、电子设备及存储介质

Info

Publication number: CN111554324A
Application number: CN202010248310.0A
Authority: CN
Inventors: 王德勋; 徐国强
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-08-18
Also published as: WO2021196475A1

Abstract

本发明涉及人工智能技术，揭露一种智能化语言流利度识别方法，包括：对原始语音进行去噪处理得到纯语音数据；将所述纯语音进行端点检测和人声提取得到语音片段；将所述语音片段转换为语音波形图，对所述语音波形图进行波形特征分析，得到语音声波特征图，计算峰值的数量，计算得到所述语音片段的语速；从所述语音声波特征图中提取拖音长度和音节长度，计算得到所述语音片段的拖音；将所述语速和所述拖音分别与预设语速阈值以及预设拖音阈值进行比较，得出语言流利度判断结果。本发明还提出一种智能化语言流利度识别装置、电子设备以及一种计算机可读存储介质，可以实现语音的流利度判断功能。

Description

智能化语言流利度识别方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能化语言流利度识别方法、装置、电子设备及存储介质。

背景技术

在目前的研究和应用中，判断一个人说话是否流利，主要还是以人工进行听取判别为多。然而以人工进行判别时有很多缺点：速度慢、耗时耗力，全面性差，且主观性很强。评判一个人的语言流利度，例如测评幼儿普通话水平，或者针对客服系统，无法准确的测评出语言的流利度。

发明内容

鉴于以上内容，有必要提供一种智能化语言流利度识别方法、装置、电子设备及存储介质，其主要目的在于提供一种根据用户的语音数据自动判断语音流利度的方案。

一种智能化语言流利度识别方法，其特征在于，所述方法包括：

接收原始语音数据，对所述原始语音数据进行去噪处理得到纯语音数据；

对所述纯语音数据进行端点检测和人声提取得到语音片段；

将所述语音片段转换为语音波形图，对所述语音波形图进行波形特征分析，得到语音声波特征图，计算所述语音声波特征图中峰值的数量，并根据所述峰值的数量，计算得到所述语音片段的语速；

从所述语音声波特征图中提取拖音长度和音节长度，根据所述拖音长度和音节长度计算得到所述语音片段的拖音；

将所述语速和所述拖音分别与预设语速阈值以及预设拖音阈值进行比较，得出语言流利度判断结果。

可选地，所述对所述原始语音数据进行去噪处理得到纯语音数据，包括：

计算所述原始语音数据的语音频率；

提取所述语音频率的噪声相位和噪声幅值，根据所述噪声相位和所述噪声幅值，得到噪声成分；

从所述原始语音数据中过滤掉所述噪声成分，得到所述纯语音数据。

可选地，所述将所述纯语音数据进行端点检测和人声提取，得到语音片段，包括：

将所述纯语音数据利用人声信号短时特性与非人声信号短时特性的差异进行端点检测，得出人声开始和结束的端点；

在所述人声开始和结束的端点基础上，利用语音帧信号中的短时能量进行人声提取，得到所述语音片段。

可选地，所述计算所述语音声波特征图中峰值的数量，包括：

在所述语音波形图中，提取出所有的峰值，得到语音波形图的峰值；

对所述语音波形图的峰值进行剔除极大值以外的最大值处理，得到真峰值数量。

可选地，所述根据所述峰值的数量，计算得到所述语音片段的语速，包括：

利用下述的语速计算公式，计算得到所述语音片段的语速：

其中，S表示所述语音片段的语速，C_peak表示所述真峰值的数量，t表示所述纯语音数据的时长。

可选地，所述根据所述拖音长度和音节长度计算得到所述语音片段的拖音，包括：

利用下述的拖音计算公式，计算得到所述语音片段的拖音：

其中，M表示所述语音片段的拖音，C表示语音声波特征图的拖音长度，J所述语音声波特征图的音节长度。

可选地，所述将所述语速和所述拖音分别与预设语速阈值以及预设拖音阈值进行比较，得出流利度判断结果，包括：

若所述语速大于或等于所述预设语速阈值，且所述拖音小于或等于所述预设拖音阈值，则流利度判定为第一等级；

若所述语速小于所述语速阈值，且所述拖音小于或等于所述拖音阈值，则流利度判定为第二等级；

若所述语速大于或等于所述语速阈值，且所述拖音大于所述拖音阈值，则流利度判定为第三等级；

若所述语速小于所述语速阈值，且所述拖音大于所述拖音阈值，则流利度判定为第四等级。

此外，为实现上述目的，本发明还一种智能化语言流利度识别装置，所述装置包括：

数据接收单元，用于接收原始语音数据，对所述原始语音数据进行去噪处理得到纯语音数据；

语音提取单元，用于对所述纯语音数据进行端点检测和人声提取得到语音片段；

语速计算单元，用于将所述语音片段转换为语音波形图，对所述语音波形图进行波形特征分析，得到语音声波特征图，计算所述语音声波特征图中峰值的数量，并根据所述峰值的数量，计算得到所述语音片段的语速；

拖音计算单元，用于从所述语音声波特征图中提取拖音长度和音节长度，根据所述拖音长度和音节长度计算得到所述语音片段的拖音；

流利度判断单元，用于将所述语速和所述拖音分别与预设语速阈值以及预设拖音阈值进行比较，得出语言流利度判断结果。

此外，为实现上述目的，本发明还提供一种电子设备，所述电子设备包括：存储器，存储至少一个指令；及处理器，执行所述存储器中存储的指令，以实现如上所述的智能化语言流利度识别方法的步骤。此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能化语言流利度识别程序，所述智能化语言流利度识别程序可被一个或者多个处理器执行，以实现如上所述的智能化语言流利度识别方法的步骤。

本发明实施方式对原始语音数据进行去噪处理得到纯语音数据，能够提高语言流利度识别的准确性，进一步对所述纯语音数据进行语速和拖音的计算，并将所述语速和所述拖音作为判断语言流利度的一个指标，简单高效，使得方法更切实可操作，进一步，通过所述语速和所述拖音与语速阈值及拖音阈值的不同关系，得到语音流利度的不同的分析结果，使得语言流利度的识别更加准确，实现智能化语言流利度识别。

附图说明

图1为本发明智能化语言流利度识别方法的较佳实施例的流程示意图；

图2为本发明实现所述智能化语言流利度识别方法的电子设备的较佳实施例的内部结构示意图；

图3为本发明较佳实施例提供的智能化语言流利度识别装置的功能模块示意图。

图4是本发明智能化语言流利度识别方法的较佳实施例中语音声波特征图的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，是本发明智能化语言流利度识别方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

所述智能化语言流利度识别方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(DigitalSignal Processor，DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

所述电子设备还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

S1、接收原始语音数据，对所述原始语音数据进行去噪处理得到纯语音数据。

较佳地，所述原始语音数据语音可以是指预先接收的不同背景下的人物说话声音。如接收小明背诵《悯农》这首诗的语音。

可选地，所述去噪处理，包括：

计算所述原始语音数据的语音频率；

进一步地，本发明较佳实施例采用如下公式计算所述原始语音数据的语音频率x_k：

其中，x_k表示所述原始语音数据的语音频率，t表示语音发生的时间，x(t)为所述语音数据中的第t个时间，N为所述原始语音数据的总长度，k为所述原始语音数据的语音帧数。

进一步地，本发明实施例所述提取所述语音频率的噪声相位和噪声幅值是利用目前已公开的技术和电子设备，如多功能声级计，来提取所述语音频率的噪声相位和噪声幅值。

更进一步地，本发明较佳实施例利用下述公式对所述噪声相位和所述噪声幅值进行计算，得到噪声成分：

其中，NIS表示所述噪声相位和所述噪声幅值的综合能量，D(k)表示噪声平均能量，本发明中用所述噪声平均能量代替所述噪声成分，x_k表示所述原始语音数据的语音频率，a(s)表示所述噪声幅值，a(t)表示所述噪声相位。

进一步地，本发明较佳实施例通过下述方法从所述原始语音数据中过滤掉所述噪声成分，得到所述纯语音。其计算过程如下：

其中，a为过减因子，b为增益补偿因子，|x_k|²表示上述所述原始语音数据的语音频率的平方，

表示所述纯语音的数据平方，开根号即可得到所述纯语音。

S2、将所述纯语音数据进行端点检测和人声提取得到语音片段。

优选地，所述端点检测是指找出人声开始和结束的端点，利用人声信号短时特性与非人声信号短时特性的差异可以有效地找出人声开始和结束的端点。

较佳地，本发明实施例中，所述人声提取是指根据端点检测后的结果，利用语音帧信号中的短时能量得到所述语音片段集。

所述人声提取计算方法如下：

其中，E_n表示第n帧信号的短时平均能量，包含人声信号的帧的短时平均能量大于非人声信号的帧；

表示所述纯语音数据，n表示帧信号，ω表示语音振幅，T表示信号周期；

其中，

其中，Z_n表示第n帧信号的平均短时过零数，表示语音片段，K表示所述纯语音数据的语音帧数，

表示所述语音频率，ω(n)表示所述语音振幅的关系式，M表示总的帧信号数。

S3，将所述语音片段转换为语音波形图，对所述语音波形图进行波形特征分析，得到语音声波特征图，计算所述语音声波特征图中峰值的数量，并根据所述峰值的数量，计算得到所述语音片段的语速。

所述波形特征分析是指在所述语音波形图上对所述语音片段进行分析，例如：声音发抖有颤音：信号波形的相位偏移或幅度变化，没有固定规律；语音结巴：停顿、重复或拉长某些音节；声音沙哑，变调或突然拔高：声音频率增高或突变；声音嗫嚅，语音偏低：声强，响度低；语速过快：单位时间内单词数变多，能量会变大。

进一步地，所述对所述语音波形图进行波形特征分析，得到语音声波特征图，如图4所示，例如，图4中第二张图片，40000～50000中峰值最大值有0.6和1.0，此时的0.6就是假峰值。1.0为峰值。

所述计算所述语音声波特征图中峰值的数量包括：

通过以上真峰值数量，本发明实施例可以计算语音片段的语速。

所述语速是指一种语音速度，是判断语音流利度的一个指标。

优选地，本发明实施例采用下述计算公式计算所述语音片段的语速：

其中，S表示所述语音片段的语速语速，C_peak表示所述真峰值的数量，t表示所述纯语音的时长。

S4，从所述语音声波特征图中提取拖音长度和音节长度，根据所述拖音长度和音节长度计算得到所述语音片段的拖音。

所述拖音是指语音声波特征图中的拖音长度和音节长度的比例，所述比例越高，说明说话者的语言的犹豫吞吐的可能性越高，所述比例越低，说明说话者语言的犹豫吞吐的可能性越低，即语言的流畅性越好。

所述语音片段的拖音计算公式如下：

S5、将所述语速和所述拖音分别与预设语速阈值以及预设拖音阈值进行比较，得出语言流利度判断结果。

本发明较佳实施例中，若所述语速大于或等于所述预设语速阈值，且所述拖音小于或等于所述预设拖音阈值，则流利度判定为第一等级；

例如，假设所述拖音阈值设置为1，所述语速阈值设置为0.8，此时拖音为0.8，语速为1，所述拖音0.8，小于拖音阈值1，所述语速1大于所述语速阈值0.8，说明此时语音流利度中的语速较快，拖音较少，则语音流利度判定为第一等级。

本发明还提供一种电子设备。参照图2所示，为本发明实现所述智能化语言流利度识别方法的电子设备的较佳实施例的内部结构示意图。

在本实施例中，所述电子设备1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该电子设备1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的硬盘。存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如智能化语言流利度识别程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行智能化语言流利度识别程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及智能化语言流利度识别程序01的电子设备1，本领域技术人员可以理解的是，图1示出的结构并不构成对电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的电子设备1的实施例中，存储器11中存储有智能化语言流利度识别程序01；处理器12执行存储器11中存储的智能化语言流利度识别程序01时实现如下步骤：

步骤一、接收原始语音数据，对所述原始语音数据进行去噪处理得到纯语音数据。

可选地，所述去噪处理，包括：

计算所述原始语音数据的语音频率；

进一步地，所述提取所述语音频率的噪声相位和噪声幅值，根据目前已公开的技术和电子设备，如多功能声级计，来提取所述语音频率的噪声相位和噪声幅值。

其中，NIS表示所述噪声相位和所述噪声幅值的综合能量，D(k)表示所述噪声平均能量，本发明中用所述噪声平均能量代替所述噪声成分，x_k表示所述原始语音数据的语音频率，a(s)表示所述噪声幅值，a(t)表示所述噪声相位。

表示所述纯语音的数据平方，开根号即可得到所述纯语音。

步骤二、将所述纯语音数据进行端点检测和人声提取得到语音片段。

所述人声提取计算方法如下：

其中，

步骤三，将所述语音片段转换为语音波形图，对所述语音波形图进行波形特征分析，得到语音声波特征图，计算所述语音声波特征图中峰值的数量，并根据所述峰值的数量，计算得到所述语音片段的语速。

所述计算所述语音声波特征图中峰值的数量包括：

通过以上真峰值数量，可以计算如下语速。

步骤四，从所述语音声波特征图中提取拖音长度和音节长度，根据所述拖音长度和音节长度计算得到所述语音片段的拖音。

所述语音片段的拖音计算公式如下：

步骤五、将所述语速和所述拖音分别与预设语速阈值以及预设拖音阈值进行比较，得出语言流利度判断结果。

进一步地，本发明还提供一种智能化语言流利度识别装置，例如，参照图3所示，为本发明智能化语言流利度识别装置实施例中的功能模块示意图，该实施例中，所述智能化语言流利度识别程序100可以被分割为数据接收及预处理模块10、语速提取模块20、拖音计算模块30以及结果判断模块40。示例性地：

所述数据接收及预处理模块10用于：用于接收原始语音数据，对所述原始语音数据进行去噪处理得到纯语音数据。

所述语速提取模块20用于：对所述纯语音数据进行端点检测和人声提取，得到语音片段；将所述语音片段转换为语音波形图，对所述语音波形图进行波形特征分析，得到语音声波特征图，计算所述语音声波特征图中峰值的数量，并根据所述峰值的数量，计算得到所述语音片段的语速。

所述拖音计算模块30用于：从所述语音声波特征图中提取拖音长度和音节长度，根据所述拖音长度和音节长度计算得到所述语音片段的拖音。

所述结果判断模块40用于：将所述语速和所述拖音分别与预设语速阈值以及预设拖音阈值进行比较，得出语言流利度判断结果。

所述接收及预处理模块10、语速提取模块20、拖音计算模块30以及结果判断模块40等功能模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有智能化语言流利度识别程序，所述智能化语言流利度识别程序可被一个或多个处理器执行，以实现如下操作：

对所述纯语音数据进行端点检测和人声提取，得到语音片段；

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能化语言流利度识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的智能化语言流利度识别方法，其特征在于，所述对所述原始语音数据进行去噪处理得到纯语音数据，包括：

计算所述原始语音数据的语音频率；

3.如权利要求1所述的智能化语言流利度识别方法，其特征在于，所述将所述纯语音数据进行端点检测和人声提取，得到语音片段，包括：

4.如权利要求1所述的智能化语言流利度识别方法，其特征在于，所述计算所述语音声波特征图中峰值的数量，包括：

5.如权利要求4所述的智能化语言流利度识别方法，其特征在于，所述根据所述峰值的数量，计算得到所述语音片段的语速，包括：

利用下述的语速计算公式，计算得到所述语音片段的语速：

6.如权利要求1至5中任意一项所述的智能化语言流利度识别方法，其特征在于，所述根据所述拖音长度和音节长度计算得到所述语音片段的拖音，包括：

利用下述的拖音计算公式，计算得到所述语音片段的拖音：

7.如权利要求1至5中任意一项所述的智能化语言流利度识别方法，其特征在于，所述将所述语速和所述拖音分别与预设语速阈值以及预设拖音阈值进行比较，得出流利度判断结果，包括：

8.一种智能化语言流利度识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及处理器，执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的智能化语言流利度识别方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的智能化语言流利度识别方法。