CN107785020B - 语音识别处理方法及装置 - Google Patents
语音识别处理方法及装置 Download PDFInfo
- Publication number
- CN107785020B CN107785020B CN201610715090.1A CN201610715090A CN107785020B CN 107785020 B CN107785020 B CN 107785020B CN 201610715090 A CN201610715090 A CN 201610715090A CN 107785020 B CN107785020 B CN 107785020B
- Authority
- CN
- China
- Prior art keywords
- voice
- value
- text
- voice information
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000004040 coloring Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 10
- 230000008719 thickening Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000009432 framing Methods 0.000 description 6
- 210000005069 ears Anatomy 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 235000008597 Diospyros kaki Nutrition 0.000 description 2
- 244000236655 Diospyros kaki Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 239000003570 air Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000035939 shock Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明公开了一种语音识别处理方法,包括以下步骤:获取投影仪的语音识别模块检测到的语音信息,所述语音信息包括语音内容和声音特征;将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理;将标记处理后的所述文本进行投影显示。本发明还公开了一种语音识别处理装置。本发明实现了多种显示形式,提高了显示效果。
Description
技术领域
本发明涉及办公设备领域,尤其涉及语音识别处理方法及装置。
背景技术
在会议中,宣讲者通常会通过投影仪投影PPT进行宣讲,但是很多时候,宣讲者所宣讲的内容并没有全部写入PPT中,给听众尤其是听力有障碍者带来了很大不便。为了达到声文并茂的效果,目前已有智能投影仪加入了语音识别功能,能将宣讲者临时发挥的内容以文字形式投影出来,但是投影的文字形式单一,效果较差。
发明内容
本发明的主要目的在于提供一种语音识别处理方法及装置,旨在实现多种显示形式,提高显示效果。
为实现上述目的,本发明提供的一种语音识别处理方法包括以下步骤:
获取投影仪的语音识别模块检测到的语音信息,所述语音信息包括语音内容和声音特征;
将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理;
将标记处理后的所述文本进行投影显示。
优选地,所述将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理包括:
以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0;
计算第n+1个t1内声波的振幅平均值Xn,其中n为任意正整数;
当(Xn-X0)/X0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理。
优选地,所述将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理还包括:
以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0;
计算第n+1个t1内声波的频率平均值Yn,其中n为任意正整数;
当(Yn-Y0)/Y0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理。
优选地,所述将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理之后还包括:
以第二设定时间t2为时间周期,当(n+1)×t1=t2时,以第n+1个t1的结束时间为起始时间,重新计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0,以及重新计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0。
优选地,所述标记处理包括加粗、加色或加亮。
此外,为实现上述目的,本发明还提供一种语音识别处理装置,所述语音识别处理装置包括:
语音获取模块,用于获取投影仪的语音识别模块检测到的语音信息,所述语音信息包括语音内容和声音特征;
语音处理模块,用于将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理;
投影模块,用于将标记处理后的所述文本进行投影显示。
优选地,所述语音处理模块包括:
振幅基准单元,用于以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0;
振幅获取单元,用于计算第n+1个t1内声波的振幅平均值Xn,其中n为任意正整数;
第一标记处理单元,用于当(Xn-X0)/X0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理。
优选地,所述语音处理模块还包括:
频率基准单元,用于以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0;
频率获取单元,用于计算第n+1个t1内声波的频率平均值Yn,其中n为任意正整数;
第二标记处理单元,用于当(Yn-Y0)/Y0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理。
优选地,所述语音识别处理装置还包括:
基准值获取模块,用于以第二设定时间t2为时间周期,当(n+1)×t1=t2时,以第n+1个t1的结束时间为起始时间,重新计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0,以及重新计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0。
优选地,所述标记处理包括加粗、加色或加亮。
本发明提出的语音识别处理方法及装置,首先获取投影仪的语音识别模块检测到的语音信息,该语音信息来自宣讲者实时宣讲的语音,或者投影仪中保存的语音文件,接着将所述语音信息转换为文本,并根据声音的音量或高低等声音特性对重要内容语音对应的字符进行加色、加亮或加粗等标记处理,最后将标记处理后的所述文本进行投影显示。
附图说明
图1为本发明语音识别处理方法第一实施例的流程示意图;
图2为本发明语音识别处理方法第二实施例中将语音信息转换为文本的细化流程示意图;
图3为本发明语音识别处理方法第三实施例中将语音信息转换为文本的细化流程示意图;
图4为本发明语音识别处理装置第一实施例的功能模块示意图;
图5为本发明语音识别处理装置第二实施例中语音处理模块的细化功能模块示意图;
图6为本发明语音识别处理装置第三实施例中语音处理模块的细化功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种语音识别处理方法及装置。
参照图1,为本发明语音识别处理方法的第一实施例,所述语音识别处理方法包括以下步骤:
步骤S100,获取投影仪的语音识别模块检测到的语音信息,所述语音信息包括语音内容和声音特征。
具体地,投影仪的语音识别模块检测到的语音信息来源一般有两种,一种是投影仪从麦克风中获取的实时语音信息,可以使用两个麦克风来采集语音,目标是为了通过语音降噪技术降低语音噪音;另一种是通过投影仪本身保存的语音文件获取语音信息。
步骤S200,将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理。
具体地,关于语音信息转换为文本,目前已经有比较成熟的技术原理,为了便于理解本发明,如下介绍语音转换为文本的原理。
在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。要对声音进行分析,需要对声音分帧,也就是把声音切开成许多小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现。帧与帧之间一般是有交叠的,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。接下来介绍怎样把这个矩阵变成文本。首先要介绍两个概念:
音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。
状态:比音素更细致的语音单位。通常把一个音素划分成3个状态。
通过如下步骤进行语音识别:
第一步,把帧识别成状态;
第二步,把状态组合成音素;
第三步,把音素组合成单词。
每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。
声音是由物体振动产生的声波,是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。最初发出振动(震动)的物体叫声源。
声音作为波的一种,频率和振幅就成了描述波的重要属性,频率的大小与我们通常所说的音高对应,频率在20Hz~20kHz之间的声音是可以被人耳识别的,而振幅影响声音的大小。声音可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅立叶变换。声音具备许多特性,比如响度、音调、音色,我们正是根据声音的这些特性来区分声音。响度表示人主观上感觉声音的大小(俗称音量),单位是分贝dB。响度由振幅和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。音调表示声音的高低(高音、低音),单位是赫兹Hz。音调由频率决定,频率越高音调越高。
通过声音的特性可以识别宣讲者或者语音文件中需要强调的语音内容,将这些语音内容对应的字符进行标记处理,比如加粗、加色、加亮、下划线等强调标记,听众能够快速地获取最重要的内容,提高宣讲效果,同时也能提高投影仪的使用趣味性。
步骤S300,将标记处理后的所述文本进行投影显示。
该技术不仅限于使用在投影仪,其他使用语音转换为文本的技术均可以加入根据声音特性对文本进行标记处理这一技术。
本发明提出的语音识别处理方法,首先获取投影仪的语音识别模块检测到的语音信息,该语音信息来自宣讲者实时宣讲的语音,或者投影仪中保存的语音文件,接着将所述语音信息转换为文本,并根据声音的音量或高低等声音特性对重要内容语音对应的字符进行加色、加亮或加粗等标记处理,最后将标记处理后的所述文本进行投影显示。
进一步地,参照图2,为本发明语音识别处理方法的第二实施例,基于本发明语音识别处理方法的第一实施例,上述将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理的步骤包括:
步骤S210,以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0。
具体地,在该实施例中第一设定时间t1为1s,以语音信息转换为文本的开始时间为起始时间,计算起始时间后一秒内,即第1s声波的振幅平均值,设定该振幅平均值为第一基准值X0。
步骤S220,计算第n+1个t1内声波的振幅平均值Xn,其中n为任意正整数。
具体地,设定第一基准值X0后,获取以后每秒声波的振幅平均值,即第2s、第3s、第4s……第n+1s的声波的振幅平均值Xn。
步骤S230,当(Xn-X0)/X0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理。
具体地,定义对字符进行标记处理用flag标记。获取Xn后,计算(Xn-X0)/X0。若(Xn-X0)/X0大于预设值,比如预设值为10%,则说明宣讲者提高了音量,该语音为宣讲者想重点强调的内容,赋值flag=1;若(Xn-X0)/X0小于或等于10%,则说明宣讲者宣讲的这部分内容不是重点,赋值flag=0。在语音转换为文本时,如果flag=1,则对字符进行加粗、加色或加亮等标记处理,如果flag=0,则停止对字符进行标记处理。
本实施例通过定义第一基准值X0,并将后续获得的振幅平均值与第一基准值X0对比,判断语音是否是需要强调的内容,从而对字符进行标记,使得听众能直观获取重点内容,提高宣讲效果。
进一步地,参照图3,为本发明语音识别处理方法的第三实施例,在上述第一实施例或第二实施例的基础上,上述将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理的步骤还包括:
步骤S211,以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0。
具体地,本实施例以声波的频率为基准来判断语音是否是需要重点强调的部分。在该实施例中第一设定时间t1同样为1s,以语音信息转换为文本的开始时间为起始时间,计算起始时间后一秒内,即第1s声波的频率平均值,设定该频率平均值为第一基准值Y0。
步骤S221,计算第n+1个t1内声波的频率平均值Yn,其中n为任意正整数。
具体地,设定第一基准值Y0后,获取以后每秒声波的频率平均值,即第2s、第3s、第4s……第n+1s的声波的频率平均值Yn。
步骤S231,当(Yn-Y0)/Y0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理。
具体地,仍然定义对字符进行标记处理用flag标记。获取Yn后,计算(Yn-Y0)/Y0。若(Yn-Y0)/Y0大于预设值,比如预设值为10%,则说明宣讲者此时使用了高音,该语音为宣讲者想重点强调的内容,赋值flag=1;若(Yn-Y0)/Y0小于或等于10%,则说明宣讲者宣讲的这部分内容不是重点,赋值flag=0。在语音转换为文本时,如果flag=1,则对字符进行加粗、加色或加亮等标记处理,如果flag=0,则停止对字符进行标记处理。
可以与第二实施例中声波的振幅共同来判断语音是否为重点内容,也可以单独利用声波的振幅或者频率来判断语音是否为重点内容。
优选地,所述将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理之后还包括:
以第二设定时间t2为时间周期,当(n+1)×t1=t2时,以第n+1个t1的结束时间为起始时间,重新计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0,以及重新计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0。
具体地,假如第二设定时间t2为10min,第一设定时间t1为1s,那么到达第600s时说明一个时间周期结束,以第601s开始下一个时间周期,此时重新确定第601s声波的振幅平均值,并设定为新的第一基准值X0,接着继续步骤S220、步骤S230,以及重新确定第601s声波的频率平均值,并设定为新的第二基准值Y0,接着继续步骤S221、步骤S231。
通过间隔一段时间重新确定第一基准值X0和第二基准值Y0的方式可以更加准确地判断宣讲者或者语音文件中的语音是否发生变化,若音量提高和/或使用了高音,则说明该语音为需要强调的部分,对该语音对应的字符进行标记处理。
进一步地,所述语音识别处理方法还包括:将所述标记处理后的所述文本保存至与投影仪连接的移动设备。
参照图4,本发明第一实施例提出的语音识别处理装置包括:
语音获取模块100,用于获取投影仪的语音识别模块检测到的语音信息,所述语音信息包括语音内容和声音特征。
具体地,投影仪的语音识别模块检测到的语音信息来源一般有两种,一种是投影仪从麦克风中获取的实时语音信息,可以使用两个麦克风来采集语音,目标是为了通过语音降噪技术降低语音噪音;另一种是通过投影仪本身保存的语音文件获取语音信息。
语音处理模块200,用于将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理。
具体地,关于语音信息转换为文本,目前已经有比较成熟的技术原理,为了便于理解本发明,如下介绍语音转换为文本的原理。
在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。要对声音进行分析,需要对声音分帧,也就是把声音切开成许多小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现。帧与帧之间一般是有交叠的,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。接下来介绍怎样把这个矩阵变成文本。首先要介绍两个概念:
音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。
状态:比音素更细致的语音单位。通常把一个音素划分成3个状态。
通过如下步骤进行语音识别:
第一步,把帧识别成状态;
第二步,把状态组合成音素;
第三步,把音素组合成单词。
每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。
声音是由物体振动产生的声波,是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。最初发出振动(震动)的物体叫声源。
声音作为波的一种,频率和振幅就成了描述波的重要属性,频率的大小与我们通常所说的音高对应,频率在20Hz~20kHz之间的声音是可以被人耳识别的,而振幅影响声音的大小。声音可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅立叶变换。声音具备许多特性,比如响度、音调、音色,我们正是根据声音的这些特性来区分声音。响度表示人主观上感觉声音的大小(俗称音量),单位是分贝dB。响度由振幅和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。音调表示声音的高低(高音、低音),单位是赫兹Hz。音调由频率决定,频率越高音调越高。
通过声音的特性可以识别宣讲者或者语音文件中需要强调的语音内容,将这些语音内容对应的字符进行标记处理,比如加粗、加色、加亮、下划线等强调标记,听众能够快速地获取最重要的内容,提高宣讲效果,同时也能提高投影仪的使用趣味性。
投影模块300,用于将标记处理后的所述文本进行投影显示。
该技术不仅限于使用在投影仪,其他使用语音转换为文本的技术均可以加入根据声音特性对文本进行标记处理这一技术。
本发明提出的语音识别处理装置,首先语音获取模块100获取投影仪的语音识别模块检测到的语音信息,该语音信息来自宣讲者实时宣讲的语音,或者投影仪中保存的语音文件,接着语音处理模块200将所述语音信息转换为文本,并根据声音的音量或高低等声音特性对重要内容语音对应的字符进行加色、加亮或加粗等标记处理,最后投影模块300将标记处理后的所述文本进行投影显示。
进一步地,参照图5,为本发明语音识别处理装置的第二实施例,在上述第一实施例的基础上,所述语音处理模块200包括:
振幅基准单元210,用于以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0。
具体地,在该实施例中第一设定时间t1为1s,以语音信息转换为文本的开始时间为起始时间,计算起始时间后一秒内,即第1s声波的振幅平均值,设定该振幅平均值为第一基准值X0。
振幅获取单元220,用于计算第n+1个t1内声波的振幅平均值Xn,其中n为任意正整数。
具体地,设定第一基准值X0后,获取以后每秒声波的振幅平均值,即第2s、第3s、第4s……第n+1s的声波的振幅平均值Xn。
第一标记处理单元230,用于当(Xn-X0)/X0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理。
具体地,定义对字符进行标记处理用flag标记。获取Xn后,计算(Xn-X0)/X0。若(Xn-X0)/X0大于预设值,比如预设值为10%,则说明宣讲者提高了音量,该语音为宣讲者想重点强调的内容,赋值flag=1;若(Xn-X0)/X0小于或等于10%,则说明宣讲者宣讲的这部分内容不是重点,赋值flag=0。在语音转换为文本时,如果flag=1,则对字符进行加粗、加色或加亮等标记处理,如果flag=0,则停止对字符进行标记处理。
本实施例通过定义第一基准值X0,并将后续获得的振幅平均值与第一基准值X0对比,判断语音是否是需要强调的内容,从而对字符进行标记,使得听众能直观获取重点内容,提高宣讲效果。
进一步地,参照图6,为本发明语音识别处理装置的第三实施例,在上述第一实施例或第二实施例的基础上,所述语音处理模块200还包括:
频率基准单元211,用于以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0。
具体地,本实施例以声波的频率为基准来判断语音是否是需要重点强调的部分。在该实施例中第一设定时间t1同样为1s,以语音信息转换为文本的开始时间为起始时间,计算起始时间后一秒内,即第1s声波的频率平均值,设定该频率平均值为第一基准值Y0。
频率获取单元221,用于计算第n+1个t1内声波的频率平均值Yn,其中n为任意正整数。
具体地,设定第一基准值Y0后,获取以后每秒声波的频率平均值,即第2s、第3s、第4s……第n+1s的声波的频率平均值Yn。
第二标记处理单元231,用于当(Yn-Y0)/Y0大于预设值时,对第n+1个t1内语音信息对应的文本进行标记处理。
具体地,仍然定义对文本进行标记处理用flag标记。获取Yn后,计算(Yn-Y0)/Y0。若(Yn-Y0)/Y0大于预设值,比如预设值为10%,则说明宣讲者此时使用了高音,该语音为宣讲者想重点强调的内容,赋值flag=1;若(Yn-Y0)/Y0小于或等于10%,则说明宣讲者宣讲的这部分内容不是重点,赋值flag=0。在语音转换为文本时,如果flag=1,则对字符进行加粗、加色或加亮等标记处理,如果flag=0,则停止对字符进行标记处理。
可以与第二实施例中声波的振幅共同来判断语音是否为重点内容,也可以单独利用声波的振幅或者频率来判断语音是否为重点内容。
优选地,所述语音识别处理装置还包括:
基准值获取模块,用于以第二设定时间t2为时间周期,当(n+1)×t1=t2时,以第n+1个t1的结束时间为起始时间,重新计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0,以及重新计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0。
具体地,假如第二设定时间t2为10min,第一设定时间t1为1s,那么到达第600s时说明一个时间周期结束,以第601s开始下一个时间周期,此时重新确定第601s声波的振幅平均值或者频率平均值,并分别设定这两个值为新的第一基准值X0和第二基准值Y0。
通过间隔一段时间重新确定第一基准值X0和第二基准值Y0的方式可以更加准确地判断宣讲者或者语音文件中的语音是否发生变化,若音量提高和/或使用了高音,则说明该语音为需要强调的部分,对该语音对应的字符进行标记处理。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种语音识别处理方法,其特征在于,所述语音识别处理方法包括以下步骤:
获取投影仪的语音识别模块检测到的语音信息,所述语音信息包括语音内容和声音特征;
将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理,包括:
以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0;
计算第n+1个t1内声波的振幅平均值Xn,其中n为任意正整数;
当(Xn-X0)/X0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理;
将标记处理后的所述文本进行投影显示。
2.如权利要求1所述的语音识别处理方法,其特征在于,所述将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理还包括:
以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0;
计算第n+1个t1内声波的频率平均值Yn,其中n为任意正整数;
当(Yn-Y0)/Y0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理。
3.如权利要求2所述的语音识别处理方法,其特征在于,所述将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理之后还包括:
以第二设定时间t2为时间周期,当(n+1)×t1=t2时,以第n+1个t1的结束时间为起始时间,重新计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0,以及重新计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0。
4.如权利要求1所述的语音识别处理方法,其特征在于,所述标记处理包括加粗、加色或加亮。
5.一种语音识别处理装置,其特征在于,所述语音识别处理装置包括:
语音获取模块,用于获取投影仪的语音识别模块检测到的语音信息,所述语音信息包括语音内容和声音特征;
语音处理模块,用于将所述语音信息转换为文本,并根据所述声音特征对所述文本中的字符进行标记处理;所述语音处理模块包括:
振幅基准单元,用于以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0;
振幅获取单元,用于计算第n+1个t1内声波的振幅平均值Xn,其中n为任意正整数;
第一标记处理单元,用于当(Xn-X0)/X0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理;
投影模块,用于将标记处理后的所述文本进行投影显示。
6.如权利要求5所述的语音识别处理装置,其特征在于,所述语音处理模块还包括:
频率基准单元,用于以所述语音信息转换为文本的开始时间为起始时间,计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0;
频率获取单元,用于计算第n+1个t1内声波的频率平均值Yn,其中n为任意正整数;
第二标记处理单元,用于当(Yn-Y0)/Y0大于预设值时,对第n+1个t1内语音信息对应的字符进行标记处理。
7.如权利要求6所述的语音识别处理装置,其特征在于,所述语音识别处理装置还包括:
基准值获取模块,用于以第二设定时间t2为时间周期,当(n+1)×t1=t2时,以第n+1个t1的结束时间为起始时间,重新计算第一设定时间t1内声波的振幅平均值,并将其设定为第一基准值X0,以及重新计算第一设定时间t1内声波的频率平均值,并将其设定为第二基准值Y0。
8.如权利要求5所述的语音识别处理装置,其特征在于,所述标记处理包括加粗、加色或加亮。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610715090.1A CN107785020B (zh) | 2016-08-24 | 2016-08-24 | 语音识别处理方法及装置 |
PCT/CN2017/098437 WO2018036466A1 (zh) | 2016-08-24 | 2017-08-22 | 语音识别处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610715090.1A CN107785020B (zh) | 2016-08-24 | 2016-08-24 | 语音识别处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107785020A CN107785020A (zh) | 2018-03-09 |
CN107785020B true CN107785020B (zh) | 2022-01-25 |
Family
ID=61245498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610715090.1A Active CN107785020B (zh) | 2016-08-24 | 2016-08-24 | 语音识别处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107785020B (zh) |
WO (1) | WO2018036466A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108769638B (zh) * | 2018-07-25 | 2020-07-21 | 京东方科技集团股份有限公司 | 一种投影的控制方法、装置、投影设备及存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050087312A (ko) * | 2004-02-26 | 2005-08-31 | 한국흑판교재주식회사 | 강의내용의 음성인식 방법과 이를 이용한 강의자료 편집시스템 |
JP2006245876A (ja) * | 2005-03-02 | 2006-09-14 | Matsushita Electric Ind Co Ltd | ネットワーク機能を有するプロジェクタを使用した会議システム |
WO2006123539A1 (ja) * | 2005-05-18 | 2006-11-23 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
DE102007007830A1 (de) * | 2007-02-16 | 2008-08-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und Vorrichtung und Verfahren zum Lesen eines Datenstroms |
JP5433696B2 (ja) * | 2009-07-31 | 2014-03-05 | 株式会社東芝 | 音声処理装置 |
US8447610B2 (en) * | 2010-02-12 | 2013-05-21 | Nuance Communications, Inc. | Method and apparatus for generating synthetic speech with contrastive stress |
CN102290049A (zh) * | 2010-06-18 | 2011-12-21 | 上海市静安区教育学院附属学校 | 一种语音文字转换装置 |
CN102339193A (zh) * | 2010-07-21 | 2012-02-01 | Tcl集团股份有限公司 | 一种声控会议演讲的方法及系统 |
EP2763136B1 (en) * | 2013-02-04 | 2016-04-06 | Telefónica, S.A. | Method and system for obtaining relevant information from a voice communication |
US10629188B2 (en) * | 2013-03-15 | 2020-04-21 | International Business Machines Corporation | Automatic note taking within a virtual meeting |
EP2860706A3 (en) * | 2013-09-24 | 2015-08-12 | Agnitio S.L. | Anti-spoofing |
CN103869471A (zh) * | 2014-01-09 | 2014-06-18 | 盈诺飞微电子(上海)有限公司 | 头戴式语音识别投影装置及系统 |
CN104184870A (zh) * | 2014-07-29 | 2014-12-03 | 小米科技有限责任公司 | 通话记录标记方法、装置及电子设备 |
CN104796584A (zh) * | 2015-04-23 | 2015-07-22 | 南京信息工程大学 | 具有语音识别功能的提词装置 |
CN105810211B (zh) * | 2015-07-13 | 2019-11-29 | 维沃移动通信有限公司 | 一种音频数据的处理方法及终端 |
CN105206271A (zh) * | 2015-08-25 | 2015-12-30 | 北京宇音天下科技有限公司 | 智能设备的语音唤醒方法及实现所述方法的系统 |
CN105679312B (zh) * | 2016-03-04 | 2019-09-10 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
-
2016
- 2016-08-24 CN CN201610715090.1A patent/CN107785020B/zh active Active
-
2017
- 2017-08-22 WO PCT/CN2017/098437 patent/WO2018036466A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN107785020A (zh) | 2018-03-09 |
WO2018036466A1 (zh) | 2018-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111048064B (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
JP2023065681A (ja) | エンドツーエンドの音声変換 | |
US20090197224A1 (en) | Language Learning Apparatus, Language Learning Aiding Method, Program, and Recording Medium | |
US8768701B2 (en) | Prosodic mimic method and apparatus | |
TW201503107A (zh) | 語音控制系統、電子裝置及語音控制方法 | |
US10216732B2 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
CN110349565B (zh) | 一种面向听障人士的辅助发音学习方法及其系统 | |
CN107785020B (zh) | 语音识别处理方法及装置 | |
US9058820B1 (en) | Identifying speech portions of a sound model using various statistics thereof | |
JP2006178334A (ja) | 語学学習システム | |
US20210082456A1 (en) | Speech processing apparatus and translation apparatus | |
CN113421571A (zh) | 一种语音转换方法、装置、电子设备和存储介质 | |
JP2006139162A (ja) | 語学学習装置 | |
CN113112988A (zh) | 一种基于ai处理的语音合成处理系统及方法 | |
JP2004252085A (ja) | 音声変換システム及び音声変換プログラム | |
JPS63149699A (ja) | 音声入出力装置 | |
JP6918471B2 (ja) | 対話補助システムの制御方法、対話補助システム、及び、プログラム | |
CN111276118A (zh) | 一种实现音频电子书的方法及系统 | |
JP4543919B2 (ja) | 語学学習装置 | |
Liu | An acoustic study of Mandarin rhotic suffix | |
US20230038118A1 (en) | Correction method of synthesized speech set for hearing aid | |
CN113870829A (zh) | 基于家庭角色的声学模型播报的方法、系统、设备及存储介质 | |
JP2008286921A (ja) | キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体 | |
JP2024107476A (ja) | 音声伝達補償装置、音声伝達補償方法、及びプログラム | |
JP2014202777A (ja) | マスカー音信号の生成装置、生成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |