CN107785020B

CN107785020B - 语音识别处理方法及装置

Info

Publication number: CN107785020B
Application number: CN201610715090.1A
Authority: CN
Inventors: 闫晓梅
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-08-24
Filing date: 2016-08-24
Publication date: 2022-01-25
Anticipated expiration: 2036-08-24
Also published as: CN107785020A; WO2018036466A1

Abstract

本发明公开了一种语音识别处理方法，包括以下步骤：获取投影仪的语音识别模块检测到的语音信息，所述语音信息包括语音内容和声音特征；将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理；将标记处理后的所述文本进行投影显示。本发明还公开了一种语音识别处理装置。本发明实现了多种显示形式，提高了显示效果。

Description

语音识别处理方法及装置

技术领域

本发明涉及办公设备领域，尤其涉及语音识别处理方法及装置。

背景技术

在会议中，宣讲者通常会通过投影仪投影PPT进行宣讲，但是很多时候，宣讲者所宣讲的内容并没有全部写入PPT中，给听众尤其是听力有障碍者带来了很大不便。为了达到声文并茂的效果，目前已有智能投影仪加入了语音识别功能，能将宣讲者临时发挥的内容以文字形式投影出来，但是投影的文字形式单一，效果较差。

发明内容

本发明的主要目的在于提供一种语音识别处理方法及装置，旨在实现多种显示形式，提高显示效果。

为实现上述目的，本发明提供的一种语音识别处理方法包括以下步骤：

获取投影仪的语音识别模块检测到的语音信息，所述语音信息包括语音内容和声音特征；

将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理；

将标记处理后的所述文本进行投影显示。

优选地，所述将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理包括：

以所述语音信息转换为文本的开始时间为起始时间，计算第一设定时间t1内声波的振幅平均值，并将其设定为第一基准值X₀；

计算第n+1个t1内声波的振幅平均值X_n，其中n为任意正整数；

当(X_n-X₀)/X₀大于预设值时，对第n+1个t1内语音信息对应的字符进行标记处理。

优选地，所述将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理还包括：

以所述语音信息转换为文本的开始时间为起始时间，计算第一设定时间t1内声波的频率平均值，并将其设定为第二基准值Y₀；

计算第n+1个t1内声波的频率平均值Y_n，其中n为任意正整数；

当(Y_n-Y₀)/Y₀大于预设值时，对第n+1个t1内语音信息对应的字符进行标记处理。

优选地，所述将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理之后还包括：

以第二设定时间t2为时间周期，当(n+1)×t1＝t2时，以第n+1个t1的结束时间为起始时间，重新计算第一设定时间t1内声波的振幅平均值，并将其设定为第一基准值X₀，以及重新计算第一设定时间t1内声波的频率平均值，并将其设定为第二基准值Y₀。

优选地，所述标记处理包括加粗、加色或加亮。

此外，为实现上述目的，本发明还提供一种语音识别处理装置，所述语音识别处理装置包括：

语音获取模块，用于获取投影仪的语音识别模块检测到的语音信息，所述语音信息包括语音内容和声音特征；

语音处理模块，用于将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理；

投影模块，用于将标记处理后的所述文本进行投影显示。

优选地，所述语音处理模块包括：

振幅基准单元，用于以所述语音信息转换为文本的开始时间为起始时间，计算第一设定时间t1内声波的振幅平均值，并将其设定为第一基准值X₀；

振幅获取单元，用于计算第n+1个t1内声波的振幅平均值X_n，其中n为任意正整数；

第一标记处理单元，用于当(X_n-X₀)/X₀大于预设值时，对第n+1个t1内语音信息对应的字符进行标记处理。

优选地，所述语音处理模块还包括：

频率基准单元，用于以所述语音信息转换为文本的开始时间为起始时间，计算第一设定时间t1内声波的频率平均值，并将其设定为第二基准值Y₀；

频率获取单元，用于计算第n+1个t1内声波的频率平均值Y_n，其中n为任意正整数；

第二标记处理单元，用于当(Y_n-Y₀)/Y₀大于预设值时，对第n+1个t1内语音信息对应的字符进行标记处理。

优选地，所述语音识别处理装置还包括：

基准值获取模块，用于以第二设定时间t2为时间周期，当(n+1)×t1＝t2时，以第n+1个t1的结束时间为起始时间，重新计算第一设定时间t1内声波的振幅平均值，并将其设定为第一基准值X₀，以及重新计算第一设定时间t1内声波的频率平均值，并将其设定为第二基准值Y₀。

优选地，所述标记处理包括加粗、加色或加亮。

本发明提出的语音识别处理方法及装置，首先获取投影仪的语音识别模块检测到的语音信息，该语音信息来自宣讲者实时宣讲的语音，或者投影仪中保存的语音文件，接着将所述语音信息转换为文本，并根据声音的音量或高低等声音特性对重要内容语音对应的字符进行加色、加亮或加粗等标记处理，最后将标记处理后的所述文本进行投影显示。

附图说明

图1为本发明语音识别处理方法第一实施例的流程示意图；

图2为本发明语音识别处理方法第二实施例中将语音信息转换为文本的细化流程示意图；

图3为本发明语音识别处理方法第三实施例中将语音信息转换为文本的细化流程示意图；

图4为本发明语音识别处理装置第一实施例的功能模块示意图；

图5为本发明语音识别处理装置第二实施例中语音处理模块的细化功能模块示意图；

图6为本发明语音识别处理装置第三实施例中语音处理模块的细化功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音识别处理方法及装置。

参照图1，为本发明语音识别处理方法的第一实施例，所述语音识别处理方法包括以下步骤：

步骤S100，获取投影仪的语音识别模块检测到的语音信息，所述语音信息包括语音内容和声音特征。

具体地，投影仪的语音识别模块检测到的语音信息来源一般有两种，一种是投影仪从麦克风中获取的实时语音信息，可以使用两个麦克风来采集语音，目标是为了通过语音降噪技术降低语音噪音；另一种是通过投影仪本身保存的语音文件获取语音信息。

步骤S200，将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理。

具体地，关于语音信息转换为文本，目前已经有比较成熟的技术原理，为了便于理解本发明，如下介绍语音转换为文本的原理。

在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。要对声音进行分析，需要对声音分帧，也就是把声音切开成许多小段，每小段称为一帧。分帧操作一般不是简单的切开，而是使用移动窗函数来实现。帧与帧之间一般是有交叠的，每帧的长度为25毫秒，每两帧之间有25-10＝15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。至此，声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵，称之为观察序列，这里N为总帧数。每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。接下来介绍怎样把这个矩阵变成文本。首先要介绍两个概念:

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调。

状态：比音素更细致的语音单位。通常把一个音素划分成3个状态。

通过如下步骤进行语音识别：

第一步，把帧识别成状态；

第二步，把状态组合成音素；

第三步，把音素组合成单词。

每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。

声音是由物体振动产生的声波，是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。最初发出振动(震动)的物体叫声源。

声音作为波的一种，频率和振幅就成了描述波的重要属性，频率的大小与我们通常所说的音高对应，频率在20Hz～20kHz之间的声音是可以被人耳识别的，而振幅影响声音的大小。声音可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程，称为傅立叶变换。声音具备许多特性，比如响度、音调、音色，我们正是根据声音的这些特性来区分声音。响度表示人主观上感觉声音的大小(俗称音量)，单位是分贝dB。响度由振幅和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。音调表示声音的高低(高音、低音)，单位是赫兹Hz。音调由频率决定，频率越高音调越高。

通过声音的特性可以识别宣讲者或者语音文件中需要强调的语音内容，将这些语音内容对应的字符进行标记处理，比如加粗、加色、加亮、下划线等强调标记，听众能够快速地获取最重要的内容，提高宣讲效果，同时也能提高投影仪的使用趣味性。

步骤S300，将标记处理后的所述文本进行投影显示。

该技术不仅限于使用在投影仪，其他使用语音转换为文本的技术均可以加入根据声音特性对文本进行标记处理这一技术。

本发明提出的语音识别处理方法，首先获取投影仪的语音识别模块检测到的语音信息，该语音信息来自宣讲者实时宣讲的语音，或者投影仪中保存的语音文件，接着将所述语音信息转换为文本，并根据声音的音量或高低等声音特性对重要内容语音对应的字符进行加色、加亮或加粗等标记处理，最后将标记处理后的所述文本进行投影显示。

进一步地，参照图2，为本发明语音识别处理方法的第二实施例，基于本发明语音识别处理方法的第一实施例，上述将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理的步骤包括：

步骤S210，以所述语音信息转换为文本的开始时间为起始时间，计算第一设定时间t1内声波的振幅平均值，并将其设定为第一基准值X₀。

具体地，在该实施例中第一设定时间t1为1s，以语音信息转换为文本的开始时间为起始时间，计算起始时间后一秒内，即第1s声波的振幅平均值，设定该振幅平均值为第一基准值X₀。

步骤S220，计算第n+1个t1内声波的振幅平均值X_n，其中n为任意正整数。

具体地，设定第一基准值X₀后，获取以后每秒声波的振幅平均值，即第2s、第3s、第4s……第n+1s的声波的振幅平均值X_n。

步骤S230，当(X_n-X₀)/X₀大于预设值时，对第n+1个t1内语音信息对应的字符进行标记处理。

具体地，定义对字符进行标记处理用flag标记。获取X_n后，计算(X_n-X₀)/X₀。若(X_n-X₀)/X₀大于预设值，比如预设值为10％，则说明宣讲者提高了音量，该语音为宣讲者想重点强调的内容，赋值flag＝1；若(X_n-X₀)/X₀小于或等于10％，则说明宣讲者宣讲的这部分内容不是重点，赋值flag＝0。在语音转换为文本时，如果flag＝1，则对字符进行加粗、加色或加亮等标记处理，如果flag＝0，则停止对字符进行标记处理。

本实施例通过定义第一基准值X₀，并将后续获得的振幅平均值与第一基准值X₀对比，判断语音是否是需要强调的内容，从而对字符进行标记，使得听众能直观获取重点内容，提高宣讲效果。

进一步地，参照图3，为本发明语音识别处理方法的第三实施例，在上述第一实施例或第二实施例的基础上，上述将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理的步骤还包括：

步骤S211，以所述语音信息转换为文本的开始时间为起始时间，计算第一设定时间t1内声波的频率平均值，并将其设定为第二基准值Y₀。

具体地，本实施例以声波的频率为基准来判断语音是否是需要重点强调的部分。在该实施例中第一设定时间t1同样为1s，以语音信息转换为文本的开始时间为起始时间，计算起始时间后一秒内，即第1s声波的频率平均值，设定该频率平均值为第一基准值Y₀。

步骤S221，计算第n+1个t1内声波的频率平均值Y_n，其中n为任意正整数。

具体地，设定第一基准值Y₀后，获取以后每秒声波的频率平均值，即第2s、第3s、第4s……第n+1s的声波的频率平均值Y_n。

步骤S231，当(Y_n-Y₀)/Y₀大于预设值时，对第n+1个t1内语音信息对应的字符进行标记处理。

具体地，仍然定义对字符进行标记处理用flag标记。获取Y_n后，计算(Y_n-Y₀)/Y₀。若(Y_n-Y₀)/Y₀大于预设值，比如预设值为10％，则说明宣讲者此时使用了高音，该语音为宣讲者想重点强调的内容，赋值flag＝1；若(Y_n-Y₀)/Y₀小于或等于10％，则说明宣讲者宣讲的这部分内容不是重点，赋值flag＝0。在语音转换为文本时，如果flag＝1，则对字符进行加粗、加色或加亮等标记处理，如果flag＝0，则停止对字符进行标记处理。

可以与第二实施例中声波的振幅共同来判断语音是否为重点内容，也可以单独利用声波的振幅或者频率来判断语音是否为重点内容。

具体地，假如第二设定时间t2为10min，第一设定时间t1为1s，那么到达第600s时说明一个时间周期结束，以第601s开始下一个时间周期，此时重新确定第601s声波的振幅平均值，并设定为新的第一基准值X₀，接着继续步骤S220、步骤S230，以及重新确定第601s声波的频率平均值，并设定为新的第二基准值Y₀，接着继续步骤S221、步骤S231。

通过间隔一段时间重新确定第一基准值X₀和第二基准值Y₀的方式可以更加准确地判断宣讲者或者语音文件中的语音是否发生变化，若音量提高和/或使用了高音，则说明该语音为需要强调的部分，对该语音对应的字符进行标记处理。

进一步地，所述语音识别处理方法还包括：将所述标记处理后的所述文本保存至与投影仪连接的移动设备。

参照图4，本发明第一实施例提出的语音识别处理装置包括：

语音获取模块100，用于获取投影仪的语音识别模块检测到的语音信息，所述语音信息包括语音内容和声音特征。

语音处理模块200，用于将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理。

通过如下步骤进行语音识别：

第一步，把帧识别成状态；

第二步，把状态组合成音素；

第三步，把音素组合成单词。

投影模块300，用于将标记处理后的所述文本进行投影显示。

本发明提出的语音识别处理装置，首先语音获取模块100获取投影仪的语音识别模块检测到的语音信息，该语音信息来自宣讲者实时宣讲的语音，或者投影仪中保存的语音文件，接着语音处理模块200将所述语音信息转换为文本，并根据声音的音量或高低等声音特性对重要内容语音对应的字符进行加色、加亮或加粗等标记处理，最后投影模块300将标记处理后的所述文本进行投影显示。

进一步地，参照图5，为本发明语音识别处理装置的第二实施例，在上述第一实施例的基础上，所述语音处理模块200包括：

振幅基准单元210，用于以所述语音信息转换为文本的开始时间为起始时间，计算第一设定时间t1内声波的振幅平均值，并将其设定为第一基准值X₀。

振幅获取单元220，用于计算第n+1个t1内声波的振幅平均值X_n，其中n为任意正整数。

第一标记处理单元230，用于当(X_n-X₀)/X₀大于预设值时，对第n+1个t1内语音信息对应的字符进行标记处理。

进一步地，参照图6，为本发明语音识别处理装置的第三实施例，在上述第一实施例或第二实施例的基础上，所述语音处理模块200还包括：

频率基准单元211，用于以所述语音信息转换为文本的开始时间为起始时间，计算第一设定时间t1内声波的频率平均值，并将其设定为第二基准值Y₀。

频率获取单元221，用于计算第n+1个t1内声波的频率平均值Y_n，其中n为任意正整数。

第二标记处理单元231，用于当(Y_n-Y₀)/Y₀大于预设值时，对第n+1个t1内语音信息对应的文本进行标记处理。

具体地，仍然定义对文本进行标记处理用flag标记。获取Y_n后，计算(Y_n-Y₀)/Y₀。若(Y_n-Y₀)/Y₀大于预设值，比如预设值为10％，则说明宣讲者此时使用了高音，该语音为宣讲者想重点强调的内容，赋值flag＝1；若(Y_n-Y₀)/Y₀小于或等于10％，则说明宣讲者宣讲的这部分内容不是重点，赋值flag＝0。在语音转换为文本时，如果flag＝1，则对字符进行加粗、加色或加亮等标记处理，如果flag＝0，则停止对字符进行标记处理。

优选地，所述语音识别处理装置还包括：

具体地，假如第二设定时间t2为10min，第一设定时间t1为1s，那么到达第600s时说明一个时间周期结束，以第601s开始下一个时间周期，此时重新确定第601s声波的振幅平均值或者频率平均值，并分别设定这两个值为新的第一基准值X₀和第二基准值Y₀。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别处理方法，其特征在于，所述语音识别处理方法包括以下步骤：

将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理,包括：

计算第n+1个t1内声波的振幅平均值X_n，其中n为任意正整数；

当(X_n-X₀)/X₀大于预设值时，对第n+1个t1内语音信息对应的字符进行标记处理；

将标记处理后的所述文本进行投影显示。

2.如权利要求1所述的语音识别处理方法，其特征在于，所述将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理还包括：

计算第n+1个t1内声波的频率平均值Y_n，其中n为任意正整数；

3.如权利要求2所述的语音识别处理方法，其特征在于，所述将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理之后还包括：

4.如权利要求1所述的语音识别处理方法，其特征在于，所述标记处理包括加粗、加色或加亮。

5.一种语音识别处理装置，其特征在于，所述语音识别处理装置包括：

语音处理模块，用于将所述语音信息转换为文本，并根据所述声音特征对所述文本中的字符进行标记处理；所述语音处理模块包括：

第一标记处理单元，用于当(X_n-X₀)/X₀大于预设值时，对第n+1个t1内语音信息对应的字符进行标记处理；

投影模块，用于将标记处理后的所述文本进行投影显示。

6.如权利要求5所述的语音识别处理装置，其特征在于，所述语音处理模块还包括：

7.如权利要求6所述的语音识别处理装置，其特征在于，所述语音识别处理装置还包括：

8.如权利要求5所述的语音识别处理装置，其特征在于，所述标记处理包括加粗、加色或加亮。