CN108419096A - 语音智能播放方法及系统 - Google Patents
语音智能播放方法及系统 Download PDFInfo
- Publication number
- CN108419096A CN108419096A CN201810160106.6A CN201810160106A CN108419096A CN 108419096 A CN108419096 A CN 108419096A CN 201810160106 A CN201810160106 A CN 201810160106A CN 108419096 A CN108419096 A CN 108419096A
- Authority
- CN
- China
- Prior art keywords
- signal
- rate
- user
- speech
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 239000000284 extract Substances 0.000 claims abstract description 9
- 230000009467 reduction Effects 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 14
- 230000001960 triggered effect Effects 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000011946 reduction process Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 2
- 238000001514 detection method Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 10
- 238000006073 displacement reaction Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 230000002463 transducing effect Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000035939 shock Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 206010041235 Snoring Diseases 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/238—Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
- H04N21/2387—Stream processing in response to a playback request from an end-user, e.g. for trick-play
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72442—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音智能播放方法及系统,通过服务器接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;若存在,则根据历史学习数据确定个人账号信息对应的播放速率;若不存在,则默认分配基础速率;具有根据用户的实际水平,智能设定适用于该用户的听力音频播放速率的有益效果,达到了根据不同的用户情况,来确定适用于该用户个人实际情况的播放速率的目的,提高了语音播放的智能性,使得语音播放更具个性化;对用户侧来讲,提高了用户侧的用户体验。
Description
技术领域
本发明涉及语音播放技术领域,特别涉及一种语音智能播放方法及系统。
背景技术
传统的听力训练音频播放方式,大部分都是单纯的按照固定的标准来设定播放语速;比如:75词/分钟、100词/分钟、120词/分钟以及180词/分钟等。这样的缺点是,用户在听对应的听力材料时,不是太快就是太慢,无法满足自己能力逐渐提升的过程。
针对传统的听力训练音频播放的不足,目前大多数的语言学习类播放软件,采用用户手动设定播放速度的方式来播放对应的语音内容;比如,某语言类学习APP将播放语速分成了四个档位,在使用的过程中,需要用户自己手动设定播放的速度。但采用这样的语音播放方式,在训练过程中,用户通常会挑选自己最容易听懂的播放语速档位。这样的方式会导致听力播放速度不是过度大于用户的能力上限,就是过度低于用户能力水平,不能满足用户的实际需求。
发明内容
本发明提供一种语音智能播放方法及系统,用以:根据用户的实际水平,智能设定适用于该用户的听力音频播放速率。
本发明提供了一种语音智能播放方法,所述语音智能播放方法包括:
服务器接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;其中,移动终端的操作请求中携带了用户登录的个人账号信息;
服务器获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;
若所述个人账号信息对应的历史学习数据不存在,则服务器获取所述操作请求对应的基础速率,并将所述基础速率和对应的音频内容发送至移动终端,供移动终端按照所述基础速率播放所述音频内容;
若所述个人账号信息对应的历史学习数据存在,则服务器获取所述个人账号信息对应的历史学习数据;根据所述历史学习数据,计算所述个人账号信息对应的个人播放速率;并将计算得到的个人播放速率和对应的音频内容发送至移动终端,供移动终端按照所述个人播放速率播放所述音频内容。
优选地,所述语音智能播放方法还包括:
移动终端接收用户基于个人账号信息触发的获取音频内容的操作请求,识别并获取所述操作请求对应的二维码信息;
将包含所述二维码信息和用户对应的个人账号信息的操作请求发送至服务器,以通过服务器获取语音播放对应的播放速率和音频内容。
优选地,所述个人账号信息对应的历史学习数据包括:
用户针对每条音频内容所包含的练习题进行练习时:每一道题目的题目内容、播放次数、播放速率以及答题对错信息。
优选地,所述语音智能播放方法包括:
服务器接收用户在学习过程中针对同一道题目所触发的重复播放指令;
识别用户触发所述重复播放指令的这一操作发生在用户本次学习过程中的哪一学习环节;
根据触发所述重复播放指令所发生的学习环节,服务器调整对应的语音播放速率。
优选地,所述根据触发所述重复播放指令所发生的学习环节,服务器调整对应的语音播放速率,包括:
若触发所述重复播放指令所发生的学习环节为:答题环节,则服务器自动降低对应的语音播放速率;
若触发所述重复播放指令所发生的学习环节为:精听训练环节,则服务器自动提升对应的语音播放速率;
所述降低对应的语音播放速率,
实施为:
根据预设的规则确定语音播放速率的变化量;
将原始语音分为发音时段和不发音时段;
检测不发音时段的声音信号,作为噪声信号;
假定噪声为稳态噪声,对原始声音信号进行降噪处理,得到降噪后的声音信号;
根据所述噪声信号和所述降噪后的声音信号得到语音的信噪比;
当所述信噪比大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对原始语音信号进行处理,得到降低了语音播放速率的语音信号,所述语音时长规整技术为波形相似叠加法;
当所述信噪比不大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对降噪后的声音信号进行处理,得到处理后的声音信号,对于噪声信号,根据所述语音播放速率的变化量将噪声信号在时域上进行拉伸,根据所述处理后的声音信号和所述信噪比调整噪声信号的幅值,得到处理后的噪声信号,将所述噪声信号与所述处理后的声音信号叠加,得到降低了语音播放速率的语音信号;
或实施为:
根据数据库语音数据统计不同语音播放速率下的发音时间和不发音时间在整个声音文件中的时间占比;
对比正常语音播放速率和目标语音播放速率的发音时间和不发音时间在整个声音文件中的时间占比的差异,并根据所述差异确定发音时间所需调整的目标时长和不发音时间所需调整的目标时长;
根据所述发音时间所需调整的目标时长,通过语音时长规整方法对原始语音信号进行处理,得到第一次处理后的语音信号;
根据所述不发音时间所需调整的目标时长,通过时域压扩运算对第一次处理后的语音信号中的不发音部分进行处理,得到降低了语音播放速率的语音信号。
优选地,所述语音智能播放方法还包括:
当语音播放为通过扬声器实现时,检测用户附近的环境噪声;
对用户附近的环境噪声进行频谱分析;
当用户附近的环境噪声中高于预设频率的部分的强度不低于第二阈值时,进行如下处理:
当用户附近的环境噪声的强度不大于第三阈值时,保持语音播放信号的强度不变;
当用户附近的环境噪声的强度大于第三阈值且小于第四阈值时,按预设的比例提高语音播放信号的强度;
当用户附近的环境噪声的强度大于第四阈值时,提醒用户环境噪声影响听力练习;
当用户附近的环境噪声中高于预设频率的部分的强度低于第二阈值时,进行如下处理:
当用户附近的环境噪声的强度不大于第三阈值时,保持语音播放信号的强度不变;
当用户附近的环境噪声的强度大于第三阈值且小于第四阈值时,按预设的比例提高语音播放信号的强度;
当用户附近的环境噪声的强度不小于第四阈值时,通过主动降噪技术降低用户附近的环境噪声强度,所述主动降噪技术为通过处理器以及设置在用户周围的麦克风和扬声器实现;
检测进行主动降噪后用户附近的环境噪声,当主动降噪后用户附近的环境噪声的强度比主动降噪前用户附近的环境噪声的强度提高时,停止进行主动降噪处理,提醒用户环境噪声影响听力练习;
当主动降噪后用户附近的环境噪声的强度仍不小于第四阈值时,提醒用户环境噪声影响听力练习;
当主动降噪后用户附近的环境噪声的强度大于第三阈值且小于第四阈值时,按预设的比例提高语音播放信号的强度;
当主动降噪后用户附近的环境噪声的强度不大于第三阈值时,保持语音播放信号的强度不变。
对应于以上实施例所提供的一种语音智能播放方法,本发明还提供了一种语音智能播放系统,所述语音智能播放系统包括:服务器;
其中,所述服务器包括:
内容提取模块,用于接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;其中,移动终端的操作请求中携带了用户登录的个人账号信息;
信息查找模块,用于获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;
速率确定模块,用于:
若所述个人账号信息对应的历史学习数据不存在,则获取所述操作请求对应的基础速率,并将所述基础速率和对应的音频内容发送至移动终端,供移动终端按照所述基础速率播放所述音频内容;
若所述个人账号信息对应的历史学习数据存在,则获取所述个人账号信息对应的历史学习数据;根据所述历史学习数据,计算所述个人账号信息对应的个人播放速率;并将计算得到的个人播放速率和对应的音频内容发送至移动终端,供移动终端按照所述个人播放速率播放所述音频内容。
优选地,所述语音智能播放系统还包括:移动终端;所述移动终端用于:
收用户基于个人账号信息触发的获取音频内容的操作请求,识别并获取所述操作请求对应的二维码信息;
将包含所述二维码信息和用户对应的个人账号信息的操作请求发送至服务器,以通过服务器获取语音播放对应的播放速率和音频内容。
优选地,所述个人账号信息对应的历史学习数据包括:
用户针对每条音频内容所包含的练习题进行练习时对应的:每一道题目的题目内容、播放次数、播放速率以及答题对错信息。
优选地,所述服务器还包括速率调整模块;所述速率调整模块用于:
接收用户在学习过程中针对同一道题目所触发的重复播放指令;
识别用户触发所述重复播放指令的这一操作发生在用户本次学习过程中的哪一学习环节;
根据触发所述重复播放指令所发生的学习环节,服务器调整对应的语音播放速率。
优选地,所述速率调整模块用于:
若触发所述重复播放指令所发生的学习环节为:答题环节,则降低对应的语音播放速率;
若触发所述重复播放指令所发生的学习环节为:精听训练环节,则提升对应的语音播放速率;
所述降低对应的语音播放速率,
实施为:
根据预设的规则确定语音播放速率的变化量;
将原始语音分为发音时段和不发音时段;
检测不发音时段的声音信号,作为噪声信号;
假定噪声为稳态噪声,对原始声音信号进行降噪处理,得到降噪后的声音信号;
根据所述噪声信号和所述降噪后的声音信号得到语音的信噪比;
当所述信噪比大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对原始语音信号进行处理,得到降低了语音播放速率的语音信号,所述语音时长规整技术为波形相似叠加法;
当所述信噪比不大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对降噪后的声音信号进行处理,得到处理后的声音信号,对于噪声信号,根据所述语音播放速率的变化量将噪声信号在时域上进行拉伸,根据所述处理后的声音信号和所述信噪比调整噪声信号的幅值,得到处理后的噪声信号,将所述噪声信号与所述处理后的声音信号叠加,得到降低了语音播放速率的语音信号;
或实施为:
根据数据库语音数据统计不同语音播放速率下的发音时间和不发音时间在整个声音文件中的时间占比;
对比正常语音播放速率和目标语音播放速率的发音时间和不发音时间在整个声音文件中的时间占比的差异,并根据所述差异确定发音时间所需调整的目标时长和不发音时间所需调整的目标时长;
根据所述发音时间所需调整的目标时长,通过语音时长规整方法对原始语音信号进行处理,得到第一次处理后的语音信号;
根据所述不发音时间所需调整的目标时长,通过时域压扩运算对第一次处理后的语音信号中的不发音部分进行处理,得到降低了语音播放速率的语音信号。
本发明一种语音智能播放方法及系统可以达到如下有益效果:
通过服务器接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;若存在,则根据历史学习数据确定个人账号信息对应的播放速率;若不存在,则默认分配基础速率;具有根据用户的实际水平,智能设定适用于该用户的听力音频播放速率的有益效果,达到了根据不同的用户情况,来确定适用于该用户个人实际情况的播放速率的目的,提高了语音播放的智能性,使得语音播放更具个性化;对用户侧来讲,提高了用户侧的用户体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明语音智能播放方法的一种实施方式的流程示意图;
图2是本发明语音智能播放方法的另一种实施方式的流程示意图;
图3是本发明语音智能播放方法的又一种实施方式的流程示意图;
图4是本发明语音智能播放系统的一种实施方式的功能模块示意图;
图5是本发明语音智能播放系统的另一种实施方式的功能模块示意图;
图6是本发明语音智能播放系统的又一种实施方式的功能模块示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种语音智能播放方法及系统,用以:根据用户的实际水平,智能设定适用于该用户的听力音频播放速率。
如图1所示,图1是本发明一种语音智能播放方法的一种实施方式的流程示意图;本发明一种语音智能播放方法可以实施为如下描述的步骤S10-S40:
步骤S10、服务器接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;
本发明实施例中,移动终端向服务器发送获取音频内容的操作请求,移动终端的操作请求中携带了用户登录的个人账号信息;该操作请求是用户利用个人账号信息登录语音智能播放系统(以下简称“播放系统”)所触发的,因此,移动终端发送的上述操作请求中,携带了用户登录的个人账号信息;携带的上述个人账号信息,也便于服务器根据该个人账号信息对应的播放历史情况,确定待播放内容所需的播放速度。服务器接收到移动终端发送的获取对应音频内容的操作请求时,提取该操作请求对应的待播放的音频内容。
步骤S20、服务器获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;
若所述个人账号信息对应的历史学习数据不存在,则执行步骤S30;
若所述个人账号信息对应的历史学习数据存在,则执行步骤S40;
步骤S30、服务器获取所述操作请求对应的基础速率,并将所述基础速率和对应的音频内容发送至移动终端,供移动终端按照所述基础速率播放所述音频内容;
步骤S40、服务器获取所述个人账号信息对应的历史学习数据;根据所述历史学习数据,计算所述个人账号信息对应的个人播放速率;并将计算得到的个人播放速率和对应的音频内容发送至移动终端,供移动终端按照所述个人播放速率播放所述音频内容。
本发明实施例中,服务器确定待播放的音频内容和该音频内容所使用的播放速率是根据移动终端的操作请求中所携带的、用户的个人账号信息来确定的;也就是说,服务器根据不同的用户情况,来确定适用于该用户个人实际情况的播放速率。
服务器从接收到的操作请求中获取出用户对应的个人账号信息,根据获取的上述个人账号信息,服务器查找所有播放记录对应的数据库,判断是否能够查找到该用户的个人账号信息所对应的播放记录,即判断该个人账号信息对应的历史学习数据是否存在。若服务器能够找到该用户的个人账号信息所对应的历史学习数据,则服务器提取该历史学习数据,根据该历史学习数据,确定针对上述个人账号的用户所对应的个人播放速率。若服务器不能在上述数据库中找到该用户的个人账号信息所对应的历史学习数据,则服务器默认确定基础速率为上述个人账号的用户所对应的个人播放速率。其中,用户的个人账号信息所对应的历史学习数据包括但不限于:用户针对每条音频内容所包含的练习题进行练习时:每一道题目的播放内容、播放次数、播放频率、播放速率以及答题对错信息。而服务器对应的后台数据库则记录了海量用户的个人账号信息所对应的历史学习数据;在本发明一优选的实施例中,数据库记录所有使用该播放系统的所有已注册用户的个人账号信息所对应的所有语音播放记录,即个人账号信息所对应的所有历史学习数据。
在本发明实施例中,针对移动终端用户的每一次语音播放记录,均将上述语音播放记录与用户对应的个人账号信息绑定后上传至数据库保存,作为该个人账号信息对应的历史学习数据。
在本发明一优选的实施例中,服务器根据用户的个人账号信息对应的历史学习数据,计算对应的个人播放速率时,将上述历史学习数据中的播放内容进行难度等级的确定,获取对应的难度系数;将上述历史学习数据中的答题对错信息进行量化处理,获取对应的答题正确率或者答题错误率。在计算该用户的个人账号信息对应的个人播放速率时,服务器可以根据播放内容对应的难度系数、播放次数、播放速率、答题正确率(或者答题错误率),以及上述各参数分别对应的权重值进行具体计算;或者,服务器直接将上述参数代入预先设定的计算模型中,计算得出对应的个人播放速率。本发明实施例对服务器采用何种具体的计算方法计算得出对应的个人播放速率,不进行具体的限定。
在本发明一优选的实施例中,服务器根据所述历史学习数据,计算所述个人账号信息对应的个人播放速率,可以按照如下方式实施:
服务器根据获取的所述历史学习数据,获取即将播放内容与当前用户对应的所述历史播放内容的相似度Si;其中,i为当前用户在历史时长内播放的所述历史播放内容对应的播放场次编号,i=1,2……,n;
根据获取的所述答题正确率Ri和相似度Si,计算得到当前用户对所述即将播放内容的熟悉系数Xf:
根据所述即将播放内容的熟悉系数Xf,得到当前用户在历史时长内针对任意播放场次i的熟悉系数Xi:
根据计算得到的所述熟悉系数Xi、第i场的答题正确率Ri以及第i场的历史播放速度Vi,进行二元线性回归分析,得到Vi的计算公式如下:
Ri=β0+β1*Vi+β2*Xi;其中,β0、β1和β2为计算系数;
根据得到的历史播放速度Vi,确定所述个人账号信息对应的即将播放内容的个人播放速率Vf为:
进一步地,服务器针对所述计算系数β0、β1和β2的计算方式如下:
其中,所述以及分别表示前(i-1)播放场次的正确率、播放速度和熟悉系数的均值。
本发明语音智能播放方法通过服务器接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;若存在,则根据历史学习数据确定个人账号信息对应的播放速率;若不存在,则默认分配基础速率;具有根据用户的实际水平,智能设定适用于该用户的听力音频播放速率的有益效果,达到了根据不同的用户情况,来确定适用于该用户个人实际情况的播放速率的目的,提高了语音播放的智能性,使得语音播放更具个性化;对用户侧来讲,提高了用户侧的用户体验。
基于图1所述实施例的描述,如图2所示,本发明语音智能播放方法在图1所述实施例的步骤S10之前,还可以实施图2所示的步骤S01-S02:
步骤S01、移动终端接收用户基于个人账号信息触发的获取音频内容的操作请求,识别并获取所述操作请求对应的二维码信息;
本发明实施例中,用户可以利用在移动终端上运行的对应的语音智能播放应用程序(APP,APPlication),来实现操作请求的触发。例如,用户利用个人账号登录播放APP,通过利用移动终端中的“扫一扫功能”触发对应的操作请求,移动终端接收到用户触发的上述操作请求时,识别并获取对应的二维码信息。
步骤S02、将包含所述二维码信息和用户对应的个人账号信息的操作请求发送至服务器,以通过服务器获取语音播放对应的播放速率和音频内容。
移动终端将识别出的上述二维码信息和用户对应的个人账号信息的操作请求发送至服务器,供服务器基于上述二维码信息和个人账号信息提取语音播放对应的音频内容,并确定上述音频内容对应的播放速率。
例如,在一具体的应用场景中,针对学生的听力训练,配置带有二维码的练习册,比如每一课的练习题上都会附上一个二维码,学生在利用自己的个人账号登录了移动终端运行的播放APP后,即可在移动终端上呈现当前训练的听力音频材料,且移动终端通过与服务器的数据交互,能够根据学生的实际请情况,智能地设定适用于该个人账号的学生所对应的听力音频播放速度。
本发明语音智能播放方法通过利用移动终端扫描二维码的方式触发对应的操作请求至服务器,提高了操作效率。
进一步地,基于图1和图2所述实施例的描述,请参照图3,本发明语音智能播放方法中,服务器在用户的学习过程中接收到用户基于移动终端触发的重复播放指令时,可以根据用户所处的具体学习环节,来选择所采取的具体操作。
如图3所示,本发明语音智能播放方法可以实施为如下描述的步骤S11-S13:
步骤S11、服务器接收用户在学习过程中针对同一道题目所触发的重复播放指令;
步骤S12、识别用户触发所述重复播放指令的这一操作发生在用户本次学习过程中的哪一学习环节;
步骤S13、根据触发所述重复播放指令所发生的学习环节,服务器调整对应的语音播放速率。
本发明实施例中,当服务器接收到用户在学习过程中基于移动终端、针对同一道题目所触发的重复播放指令时,识别该重复播放指令发生的时刻、位于学生本次学习的学习过程中的哪一个学习环节。根据具体的学习环节,服务器执行调整语音播放速率的操作。
比如,若触发所述重复播放指令所发生的学习环节为:答题环节,则服务器自动降低对应的语音播放速率;例如,在一具体的应用场景中,在答题环节,学生反复播放同一道题目,则播放系统会自动降低播放速度,以便学生最终能够真正听得懂这道题目,而不仅仅需要通过查看答案或者查看具体的播放内容来知道这道题目对应的听力语句。
若触发所述重复播放指令所发生的学习环节为:精听训练环节,则服务器自动提升对应的语音播放速率;
所述降低对应的语音播放速率,
实施为:
根据预设的规则确定语音播放速率的变化量;
将原始语音分为发音时段和不发音时段;
检测不发音时段的声音信号,作为噪声信号;
假定噪声为稳态噪声,对原始声音信号进行降噪处理,得到降噪后的声音信号;
根据所述噪声信号和所述降噪后的声音信号得到语音的信噪比;
当所述信噪比大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对原始语音信号进行处理,得到降低了语音播放速率的语音信号,所述语音时长规整技术为波形相似叠加法;
当所述信噪比不大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对降噪后的声音信号进行处理,得到处理后的声音信号,对于噪声信号,根据所述语音播放速率的变化量将噪声信号在时域上进行拉伸,根据所述处理后的声音信号和所述信噪比调整噪声信号的幅值,得到处理后的噪声信号,将所述噪声信号与所述处理后的声音信号叠加,得到降低了语音播放速率的语音信号;
或实施为:
根据数据库语音数据统计不同语音播放速率下的发音时间和不发音时间在整个声音文件中的时间占比;
对比正常语音播放速率和目标语音播放速率的发音时间和不发音时间在整个声音文件中的时间占比的差异,并根据所述差异确定发音时间所需调整的目标时长和不发音时间所需调整的目标时长;
根据所述发音时间所需调整的目标时长,通过语音时长规整方法对原始语音信号进行处理,得到第一次处理后的语音信号;
根据所述不发音时间所需调整的目标时长,通过时域压扩运算对第一次处理后的语音信号中的不发音部分进行处理,得到降低了语音播放速率的语音信号。
例如,在一具体的应用场景中,在精听训练环节,学生反复播放同一道题目,则播放系统会自动提升这个题目的播放速度,以便学生能够逐渐适应更高的播放速度,提升学生的听力能力。
在另一具体的应用场景中,降低改变语音播放速率时,会导致音调的改变,从而影响声音的识别,反而提高了听力练习的难度,因此,为了在降低改变语音播放速率时不变相提高听力练习的难度,需要保证音调的不变,而用现有的语音时长规整方法时,往往会降低信噪比,为了弥补这一问题,还需要对语音中的噪声信号(无噪声干扰的听力练习则不需要考虑这一问题)进行处理,从而保证信噪比不会有明显改变,另外,不同的语速下往往发音持续时间和发音间隔时间之比可能不同,为了尽量保证语速改变下的语音更加接近真实情况,利用统计的方法来调整发音持续时间和发音间隔时间之比,从而达到更好的听力练习效果。
本发明语音智能播放方法通过服务器接收用户在学习过程中针对同一道题目所触发的重复播放指令;识别用户触发所述重复播放指令的这一操作发生在用户本次学习过程中的哪一学习环节;根据触发所述重复播放指令所发生的学习环节,服务器调整对应的语音播放速率;具有根据不同的学习环节智能调整播放速度的有益效果,提高了语音播放的智能性和便捷性。
在本发明一优选的实施例中,所述语音智能播放方法还包括:
当语音播放为通过扬声器实现时,检测用户附近的环境噪声,一般通过设置在人耳部附近的麦克风来进行检测,用来对环境噪声进行检测,并方便进行进一步的控制;
对用户附近的环境噪声进行频谱分析,通过分析环境噪声的频率来判断环境噪声是否适合用主动降噪技术进行处理,当有高频噪声时,主动降噪技术的稳定性不好,有可能会起到反作用,因此需要对此进行检测。
当用户附近的环境噪声中高于预设频率的部分的强度不低于第二阈值时,进行如下处理:
当用户附近的环境噪声的强度不大于第三阈值时,保持语音播放信号的强度不变;
当用户附近的环境噪声的强度大于第三阈值且小于第四阈值时,按预设的比例提高语音播放信号的强度;
当用户附近的环境噪声的强度大于第四阈值时,提醒用户环境噪声影响听力练习;
当有高频噪音时,通过提高语音播放的声音的强度来提高信噪比,但会造成总的声音强度的增加,为了避免这种情况的出现,还需要检测噪音的强度,防止声音强度过大而对用户造成不适。
当用户附近的环境噪声中高于预设频率的部分的强度低于第二阈值时,进行如下处理:
当用户附近的环境噪声的强度不大于第三阈值时,保持语音播放信号的强度不变;
当用户附近的环境噪声的强度大于第三阈值且小于第四阈值时,按预设的比例提高语音播放信号的强度;
当用户附近的环境噪声的强度不小于第四阈值时,通过主动降噪技术降低用户附近的环境噪声强度,所述主动降噪技术为通过处理器以及设置在用户周围的麦克风和扬声器实现;
检测进行主动降噪后用户附近的环境噪声,当主动降噪后用户附近的环境噪声的强度比主动降噪前用户附近的环境噪声的强度提高时,停止进行主动降噪处理,提醒用户环境噪声影响听力练习;
当主动降噪后用户附近的环境噪声的强度仍不小于第四阈值时,提醒用户环境噪声影响听力练习;
当主动降噪后用户附近的环境噪声的强度大于第三阈值且小于第四阈值时,按预设的比例提高语音播放信号的强度;
当主动降噪后用户附近的环境噪声的强度不大于第三阈值时,保持语音播放信号的强度不变。其中,第二阈值小于第三阈值,第三阈值小于第四阈值。
当低频噪音为主要噪音时,通过主动降噪、或与提高语音播放的声音的强度相结合的方法来提高信噪比,从而能够更有效的调整听力练习对用户的作用效果。
基于图1、图2和图3所述实施例所描述的一种语音智能播放方法,本发明还提供了一种语音智能播放系统,该语音智能播放系统能够实施图1、图2和图3所述实施例所描述的一种语音智能播放方法。如图4所示,本发明一种语音智能播放系统包括服务器100;所述服务器100包括:
内容提取模块101,用于接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;其中,移动终端的操作请求中携带了用户登录的个人账号信息;
信息查找模块102,用于获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;
速率确定模块103,用于:
若所述个人账号信息对应的历史学习数据不存在,则获取所述操作请求对应的基础速率,并将所述基础速率和对应的音频内容发送至移动终端,供移动终端按照所述基础速率播放所述音频内容;
若所述个人账号信息对应的历史学习数据存在,则获取所述个人账号信息对应的历史学习数据;根据所述历史学习数据,计算所述个人账号信息对应的个人播放速率;并将计算得到的个人播放速率和对应的音频内容发送至移动终端,供移动终端按照所述个人播放速率播放所述音频内容。
在本发明一优选的实施例中,如图5所示,本发明语音智能播放系统还包括:移动终端200;所述移动终端200用于:
收用户基于个人账号信息触发的获取音频内容的操作请求,识别并获取所述操作请求对应的二维码信息;
将包含所述二维码信息和用户对应的个人账号信息的操作请求发送至服务器,以通过服务器获取语音播放对应的播放速率和音频内容。
在本发明一优选的实施例中所述个人账号信息对应的历史学习数据包括:
用户针对每条音频内容所包含的练习题进行练习时对应的:每一道题目的题目内容、播放次数、播放速率以及答题对错信息。
在本发明一优选的实施例中,如图6所示,本发明语音智能播放系统中,所述服务器100还包括速率调整模块104;所述速率调整模块104用于:
接收用户在学习过程中针对同一道题目所触发的重复播放指令;
识别用户触发所述重复播放指令的这一操作发生在用户本次学习过程中的哪一学习环节;
根据触发所述重复播放指令所发生的学习环节,服务器调整对应的语音播放速率。
在本发明一优选的实施例中,所述服务器100的速率调整模块104用于:
若触发所述重复播放指令所发生的学习环节为:答题环节,则降低对应的语音播放速率;
若触发所述重复播放指令所发生的学习环节为:精听训练环节,则提升对应的语音播放速率;
所述降低对应的语音播放速率,
实施为:
根据预设的规则确定语音播放速率的变化量;
将原始语音分为发音时段和不发音时段;
检测不发音时段的声音信号,作为噪声信号;
假定噪声为稳态噪声,对原始声音信号进行降噪处理,得到降噪后的声音信号;
根据所述噪声信号和所述降噪后的声音信号得到语音的信噪比;
当所述信噪比大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对原始语音信号进行处理,得到降低了语音播放速率的语音信号,所述语音时长规整技术为波形相似叠加法;
当所述信噪比不大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对降噪后的声音信号进行处理,得到处理后的声音信号,对于噪声信号,根据所述语音播放速率的变化量将噪声信号在时域上进行拉伸,根据所述处理后的声音信号和所述信噪比调整噪声信号的幅值,得到处理后的噪声信号,将所述噪声信号与所述处理后的声音信号叠加,得到降低了语音播放速率的语音信号;
或实施为:
根据数据库语音数据统计不同语音播放速率下的发音时间和不发音时间在整个声音文件中的时间占比;
对比正常语音播放速率和目标语音播放速率的发音时间和不发音时间在整个声音文件中的时间占比的差异,并根据所述差异确定发音时间所需调整的目标时长和不发音时间所需调整的目标时长;
根据所述发音时间所需调整的目标时长,通过语音时长规整方法对原始语音信号进行处理,得到第一次处理后的语音信号;
根据所述不发音时间所需调整的目标时长,通过时域压扩运算对第一次处理后的语音信号中的不发音部分进行处理,得到降低了语音播放速率的语音信号。
在本发明一优选的实施例中,所述服务器100的速率确定模块103用于:
根据所述历史学习数据,获取即将播放内容与当前用户对应的所述历史播放内容的相似度Si;其中,i为当前用户在历史时长内播放的所述历史播放内容对应的播放场次编号,i=1,2……,n;
根据获取的所述答题正确率Ri和相似度Si,计算得到当前用户对所述即将播放内容的熟悉系数Xf:
根据所述即将播放内容的熟悉系数Xf,得到当前用户在历史时长内针对任意播放场次i的熟悉系数Xi:
根据计算得到的所述熟悉系数Xi、第i场的答题正确率Ri以及第i场的历史播放速度Vi,进行二元线性回归分析,得到Vi的计算公式如下:
Ri=β0+β1*Vi+β2*Xi;其中,β0、β1和β2为计算系数;
根据得到的历史播放速度Vi,确定所述个人账号信息对应的即将播放内容的个人播放速率Vf为:
在本发明一优选的实施例中,所述服务器100的速率确定模块103用于:
按照如下计算公式计算得到所述计算系数β0、β1和β2:
其中,所述以及分别表示前(i-1)播放场次的正确率、播放速度和熟悉系数的均值。
本发明语音智能播放系统通过服务器接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;若存在,则根据历史学习数据确定个人账号信息对应的播放速率;若不存在,则默认分配基础速率;具有根据用户的实际水平,智能设定适用于该用户的听力音频播放速率的有益效果,达到了根据不同的用户情况,来确定适用于该用户个人实际情况的播放速率的目的,提高了语音播放的智能性,使得语音播放更具个性化;对用户侧来讲,提高了用户侧的用户体验。
在一个实施例中,移动终端可以是具有语音播放功能的电子产品例如电脑、手机、MP3、MP5等;
所述语音智能播放系统还可包括:
佩戴设备,用于佩戴于所述移动终端的当前用户身体上,所述佩戴设备上与身体接触的内壁上设置有震动器;所述佩戴设备上还设置有第一控制器和传感器,所述传感器包括位移传感器或者震动传感器;
用户状态识别设备,用于在所述移动终端执行播放操作的过程中,采集所述当前用户的生理参数,并根据生理参数判断所述当前用户所处状态,并在所述当前用户所处状态为睡眠状态时,向第一控制器发送第一通知,所述第一通知用于表明所述当前用户所处状态为睡眠状态;用户状态识别设备可以是现有的、可以识别出用户是否处于睡眠状态的设备,例如利用脑电芯片、心电芯片、血氧饱和度芯片、肌电芯片、眼动芯片、体温芯片、口鼻气流芯片、脉率芯片、脉搏波芯片、呼吸状态芯片、鼾声芯片中任一种或多种芯片来采集用户的生理参数,并利用采集的生理参数识别用户是否处于睡眠状态的设备,可参考现有技术,这里不再详述;
第一控制器,用于在接收到所述第一通知时,控制所述传感器开始工作,并按第二预设周期控制所述震动器执行震动操作;当判断出当前用户处于睡眠状态时,佩戴设备上的传感器开始采集传感信号,佩戴设备上的震动器开始发起震动以试图来通过震动使得佩戴上述佩戴设备的当前用户能够从睡眠状态中被震醒;被震醒的当前用户需要对佩戴设备进行敲击、或者摇晃佩戴设备,这样,传感器便可以监测到佩戴设备的震动信号(由震动传感器实现)或者可以监测到佩戴设备的位移信号(由位移传感器实现);
第一控制器,还用于在所述震动器执行完第N次震动操作、开始第N+1次震动操作之前的时间段内,获取所述传感器在该时间段内监测到的传感信号,获得该时间段对应的传感信号;判断该时间段对应的传感信号是否满足该时间段对应的预设条件;
其中,所述N为等于或大于1的任意整数;其中,所述震动器执行完第N次震动操作、开始第N+1次震动操作之前的时间段对应的预设条件与所述震动器执行完第N+1次震动操作、开始第N+2次震动操作之前的时间段对应的预设条件不相同。
当传感器为震动传感器时,一个时间段对应的预设条件可以是震动类预设条件,该震动类预设条件可以是这个时间段内震动传感器采集到的震动强度等于或大于预设强度;此时,第N次震动操作、开始第N+1次震动操作之前的时间段对应的震动类预设条件中的预设强度要小于第N+1次震动操作、开始第N+2次震动操作之前的时间段对应的震动类预设条件中的预设强度;也就是说,如果当前用户被震醒后,可以敲击佩戴设备,并且必须是在震动器停止震动后敲击(这样,震动传感器采集到的震动信号便是当前用户敲击佩戴设备而产生的震动信号,不会与震动器自身产生的震动信号相混淆,使得处理结果更加准确),震动传感器采集到佩戴设备被敲击后产生的震动信号时,第一控制器判断该震动信号是否满足相应时间段对应的震动类预设条件,如果满足,说明当前用户敲击力度合适,当前用户是醒了;如果不满足,说明当前用户敲击力度不够,当前用户可能还没有醒,继续控制震动器震动,而且下一个时间段对应的震动类预设条件中的预设强度有所提高,这样可以使得当前用户必须更大力地敲击佩戴设备才可以使得震动器停止震动,如此也可帮助当前用户更加清醒;
当传感器为位移传感器时,一个时间段对应的预设条件可以是位移类预设条件,该位移类预设条件可以是这个时间段内位移传感器采集到的位移大小等于或大于预设位移大小;此时,第N次震动操作、开始第N+1次震动操作之前的时间段对应的位移类预设条件中的预设位移大小要小于第N+1次震动操作、开始第N+2次震动操作之前的时间段对应的位移类预设条件中的预设位移大小;也就是说,如果当前用户被震醒后,可以晃动佩戴设备,并且必须是在震动器停止震动后晃动(这样,位移传感器采集到的位移信号便是当前用户晃动佩戴设备而产生的位移信号,不会与震动器在自身震动时产生的位移信号混淆进去,使得处理结果更加准确),位移传感器采集到佩戴设备被晃动后产生的位移信号时,第一控制器判断该位移信号是否满足相应时间段对应的位移类预设条件,如果满足,说明当前用户晃动强度合适,当前用户是醒了;如果不满足,说明当前用户晃动强度不够,当前用户可能还没有醒,继续控制震动器震动,而且下一个时间段对应的位移类预设条件中的预设位移大小有所提高,这样可以使得当前用户必须幅度更大地晃动佩戴设备才可以使得震动器停止震动,如此也可帮助当前用户更加清醒;
所述第一控制器,还用于当该时间段对应的传感信号满足该时间段对应的预设条件时(说明当前用户醒了),控制所述震动器停止震动操作;并控制所述传感器停止工作;因为当前用户醒了,所以不需要震动器再通过震动来震醒当前用户,也不需要传感器来采集传感信号,因此,控制震动器和传感器停止工作;
所述总控制器,还用于在所述第一控制器控制所述震动器停止震动操作的同时,控制移动终端从播放内容的预设节点处开始播放;所述预设节点在播放内容中的时间刻度为T,所述第一控制器控制所述震动器停止震动操作时所述移动终端播放至播放内容的时间刻度T1处,第二预设周期时长为T2,预设增补时长为ΔT,ΔT大于或等于0且小于或等于1分钟;T=T1-(N×T2+ΔT);由于当前用户在本次被震醒之前的一段时间是处于睡眠状态的,在睡眠状态时,当前用户并未听到移动终端所播放的内容,因此,当震动器停止震动操作时(此时也可以认为当前用户重新处于醒着的状态了),总控制器控制移动终端倒退一段开始播放,以弥补当前用户处于睡眠状态时未被当前用户听到的内容,保证当前用户收听语音播放的效果。
所述第一控制器,还用于当该时间段对应的传感信号不满足该时间段对应的预设条件时,继续按第二预设周期控制所述震动器执行震动操作,并向所述总控制器发送第二通知,所述第二通知用于表明所述该时间段对应的传感信号不满足该时间段对应的预设条件;
所述总控制器,还用于在接收到所述第二通知时,控制移动终端将当前播放音量提高预设音量以及将当前播放速度降低预设速度;其中,如果当前播放音量与所述预设音量之和大于预设最大音量时,将当前播放音量提高至所述预设最大音量;如果当前播放速度与预设速度之差小于预设最低速度时,将当前播放速度减低至预设最低速度。
也就是说,当震动器震动后,当前用户对佩戴设备的晃动或者敲击强度不够大时,依然会继续控制震动器震动以确保当前用户被震醒;同时,还可以控制移动终端按照较大的音量来播放,也可以起到将当前用户唤醒、提高清醒程度的效果;以及控制播放速度降低,以避免在当前用户处于睡眠状态时移动终端播放太多的、没有被当前用户接收到的内容,保证收听效果。
上述语音智能播放系统,实现了实时监控当前用户是否处于睡眠状态,并当处于睡眠状态时,通过震动操作、提高播放音量等操作来唤醒当前用户,并且可以在当前用户被唤醒后智能控制移动终端倒退一段继续播放,确保了语音播放效果。
在一个实施例中,所述佩戴设备包括:
用于套于所述当前用户的手指上的指套,在所述指套的、与指腹接触的内壁上设置有震动器;指腹是人体身上较为敏感的部位,将震动器与指腹接触,可提高震动唤醒当前用户的效果。
或者,耳机,在所述耳机的、与耳朵接触的内壁上设置有震动器。耳机与移动终端连接,用于作为移动终端的声音输出设备来用。如此,耳机不仅具有作为耳机本身的功能,同时还具备震动唤醒当前用户的功能,使得整个语音智能播放系统的结构更简洁。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种语音智能播放方法,其特征在于,所述语音智能播放方法包括:
服务器接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;其中,移动终端的操作请求中携带了用户登录的个人账号信息;
服务器获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;
若所述个人账号信息对应的历史学习数据不存在,则服务器获取所述操作请求对应的基础速率,并将所述基础速率和对应的音频内容发送至移动终端,供移动终端按照所述基础速率播放所述音频内容;
若所述个人账号信息对应的历史学习数据存在,则服务器获取所述个人账号信息对应的历史学习数据;根据所述历史学习数据,计算所述个人账号信息对应的个人播放速率;并将计算得到的个人播放速率和对应的音频内容发送至移动终端,供移动终端按照所述个人播放速率播放所述音频内容。
2.如权利要求1所述的语音智能播放方法,其特征在于,所述语音智能播放方法还包括:
移动终端接收用户基于个人账号信息触发的获取音频内容的操作请求,识别并获取所述操作请求对应的二维码信息;
将包含所述二维码信息和用户对应的个人账号信息的操作请求发送至服务器,以通过服务器获取语音播放对应的播放速率和音频内容。
3.如权利要求1或2所述的语音智能播放方法,其特征在于,
所述个人账号信息对应的历史学习数据包括:用户针对每条音频内容所包含的练习题进行练习时:每一道题目的题目内容、播放次数、播放速率以及答题对错信息;
和/或
所述语音智能播放方法包括:
服务器接收用户在学习过程中针对同一道题目所触发的重复播放指令;
识别用户触发所述重复播放指令的这一操作发生在用户本次学习过程中的哪一学习环节;
根据触发所述重复播放指令所发生的学习环节,服务器调整对应的语音播放速率。
4.如权利要求3所述的语音智能播放方法,其特征在于,所述根据触发所述重复播放指令所发生的学习环节,服务器调整对应的语音播放速率,包括:
若触发所述重复播放指令所发生的学习环节为:答题环节,则服务器自动降低对应的语音播放速率;
若触发所述重复播放指令所发生的学习环节为:精听训练环节,则服务器自动提升对应的语音播放速率;
所述降低对应的语音播放速率,
实施为:
根据预设的规则确定语音播放速率的变化量;
将原始语音分为发音时段和不发音时段;
检测不发音时段的声音信号,作为噪声信号;
假定噪声为稳态噪声,对原始声音信号进行降噪处理,得到降噪后的声音信号;
根据所述噪声信号和所述降噪后的声音信号得到语音的信噪比;
当所述信噪比大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对原始语音信号进行处理,得到降低了语音播放速率的语音信号,所述语音时长规整技术为波形相似叠加法;
当所述信噪比不大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对降噪后的声音信号进行处理,得到处理后的声音信号,对于噪声信号,根据所述语音播放速率的变化量将噪声信号在时域上进行拉伸,根据所述处理后的声音信号和所述信噪比调整噪声信号的幅值,得到处理后的噪声信号,将所述噪声信号与所述处理后的声音信号叠加,得到降低了语音播放速率的语音信号;
或实施为:
根据数据库语音数据统计不同语音播放速率下的发音时间和不发音时间在整个声音文件中的时间占比;
对比正常语音播放速率和目标语音播放速率的发音时间和不发音时间在整个声音文件中的时间占比的差异,并根据所述差异确定发音时间所需调整的目标时长和不发音时间所需调整的目标时长;
根据所述发音时间所需调整的目标时长,通过语音时长规整方法对原始语音信号进行处理,得到第一次处理后的语音信号;
根据所述不发音时间所需调整的目标时长,通过时域压扩运算对第一次处理后的语音信号中的不发音部分进行处理,得到降低了语音播放速率的语音信号。
5.如权利要求4所述的语音智能播放方法,其特征在于,还包括:
当语音播放为通过扬声器实现时,检测用户附近的环境噪声;
对用户附近的环境噪声进行频谱分析;
当用户附近的环境噪声中高于预设频率的部分的强度不低于第二阈值时,进行如下处理:
当用户附近的环境噪声的强度不大于第三阈值时,保持语音播放信号的强度不变;
当用户附近的环境噪声的强度大于第三阈值且小于第四阈值时,按预设的比例提高语音播放信号的强度;
当用户附近的环境噪声的强度大于第四阈值时,提醒用户环境噪声影响听力练习;
当用户附近的环境噪声中高于预设频率的部分的强度低于第二阈值时,进行如下处理:
当用户附近的环境噪声的强度不大于第三阈值时,保持语音播放信号的强度不变;
当用户附近的环境噪声的强度大于第三阈值且小于第四阈值时,按预设的比例提高语音播放信号的强度;
当用户附近的环境噪声的强度不小于第四阈值时,通过主动降噪技术降低用户附近的环境噪声强度,所述主动降噪技术为通过处理器以及设置在用户周围的麦克风和扬声器实现;
检测进行主动降噪后用户附近的环境噪声,当主动降噪后用户附近的环境噪声的强度比主动降噪前用户附近的环境噪声的强度提高时,停止进行主动降噪处理,提醒用户环境噪声影响听力练习;
当主动降噪后用户附近的环境噪声的强度仍不小于第四阈值时,提醒用户环境噪声影响听力练习;
当主动降噪后用户附近的环境噪声的强度大于第三阈值且小于第四阈值时,按预设的比例提高语音播放信号的强度;
当主动降噪后用户附近的环境噪声的强度不大于第三阈值时,保持语音播放信号的强度不变。
6.一种语音智能播放系统,其特征在于,所述语音智能播放系统包括:服务器;
其中,所述服务器包括:
内容提取模块,用于接收移动终端获取对应音频内容的操作请求,提取所述操作请求对应的待播放的音频内容;其中,移动终端的操作请求中携带了用户登录的个人账号信息;
信息查找模块,用于获取所述操作请求中的个人账号信息,根据所述个人账号信息查找数据库,判断所述个人账号信息对应的历史学习数据是否存在;
速率确定模块,用于:
若所述个人账号信息对应的历史学习数据不存在,则获取所述操作请求对应的基础速率,并将所述基础速率和对应的音频内容发送至移动终端,供移动终端按照所述基础速率播放所述音频内容;
若所述个人账号信息对应的历史学习数据存在,则获取所述个人账号信息对应的历史学习数据;根据所述历史学习数据,计算所述个人账号信息对应的个人播放速率;并将计算得到的个人播放速率和对应的音频内容发送至移动终端,供移动终端按照所述个人播放速率播放所述音频内容。
7.如权利要求6所述的语音智能播放系统,其特征在于,所述语音智能播放系统还包括:移动终端;所述移动终端用于:
收用户基于个人账号信息触发的获取音频内容的操作请求,识别并获取所述操作请求对应的二维码信息;
将包含所述二维码信息和用户对应的个人账号信息的操作请求发送至服务器,以通过服务器获取语音播放对应的播放速率和音频内容。
8.如权利要求6或7所述的语音智能播放系统,其特征在于,
所述个人账号信息对应的历史学习数据包括:用户针对每条音频内容所包含的练习题进行练习时对应的:每一道题目的题目内容、播放次数、播放速率以及答题对错信息;
和/或
所述服务器还包括速率调整模块;所述速率调整模块用于:
接收用户在学习过程中针对同一道题目所触发的重复播放指令;
识别用户触发所述重复播放指令的这一操作发生在用户本次学习过程中的哪一学习环节;
根据触发所述重复播放指令所发生的学习环节,服务器调整对应的语音播放速率。
9.如权利要求8所述的语音智能播放系统,其特征在于,所述速率调整模块用于:
若触发所述重复播放指令所发生的学习环节为:答题环节,则降低对应的语音播放速率;
若触发所述重复播放指令所发生的学习环节为:精听训练环节,则提升对应的语音播放速率;
所述降低对应的语音播放速率,
实施为:
根据预设的规则确定语音播放速率的变化量;
将原始语音分为发音时段和不发音时段;
检测不发音时段的声音信号,作为噪声信号;
假定噪声为稳态噪声,对原始声音信号进行降噪处理,得到降噪后的声音信号;
根据所述噪声信号和所述降噪后的声音信号得到语音的信噪比;
当所述信噪比大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对原始语音信号进行处理,得到降低了语音播放速率的语音信号,所述语音时长规整技术为波形相似叠加法;
当所述信噪比不大于第一阈值时,根据所述语音播放速率的变化量,通过语音时长规整方法对降噪后的声音信号进行处理,得到处理后的声音信号,对于噪声信号,根据所述语音播放速率的变化量将噪声信号在时域上进行拉伸,根据所述处理后的声音信号和所述信噪比调整噪声信号的幅值,得到处理后的噪声信号,将所述噪声信号与所述处理后的声音信号叠加,得到降低了语音播放速率的语音信号;
或实施为:
根据数据库语音数据统计不同语音播放速率下的发音时间和不发音时间在整个声音文件中的时间占比;
对比正常语音播放速率和目标语音播放速率的发音时间和不发音时间在整个声音文件中的时间占比的差异,并根据所述差异确定发音时间所需调整的目标时长和不发音时间所需调整的目标时长;
根据所述发音时间所需调整的目标时长,通过语音时长规整方法对原始语音信号进行处理,得到第一次处理后的语音信号;
根据所述不发音时间所需调整的目标时长,通过时域压扩运算对第一次处理后的语音信号中的不发音部分进行处理,得到降低了语音播放速率的语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810160106.6A CN108419096B (zh) | 2018-02-26 | 2018-02-26 | 语音智能播放方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810160106.6A CN108419096B (zh) | 2018-02-26 | 2018-02-26 | 语音智能播放方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108419096A true CN108419096A (zh) | 2018-08-17 |
CN108419096B CN108419096B (zh) | 2020-07-03 |
Family
ID=63129141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810160106.6A Expired - Fee Related CN108419096B (zh) | 2018-02-26 | 2018-02-26 | 语音智能播放方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108419096B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109672910A (zh) * | 2018-12-25 | 2019-04-23 | 北京微播视界科技有限公司 | 视频播放方法、装置、电子设备及计算机可读存储介质 |
CN110460874A (zh) * | 2019-08-09 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 视频播放参数生成方法、装置、存储介质及电子设备 |
CN110930999A (zh) * | 2018-09-19 | 2020-03-27 | 上海博泰悦臻电子设备制造有限公司 | 语音互动方法、装置及车辆 |
CN110956870A (zh) * | 2019-11-25 | 2020-04-03 | 中北大学 | 一种视唱练耳教学方法及装置 |
CN110974639A (zh) * | 2019-12-02 | 2020-04-10 | 姜国宁 | 一种基于导盲耳机的信息确定方法和装置 |
CN111081085A (zh) * | 2019-07-17 | 2020-04-28 | 广东小天才科技有限公司 | 一种听写的控制方法及终端设备 |
CN112637208A (zh) * | 2020-12-23 | 2021-04-09 | 美的集团股份有限公司 | 目标设备的确权方法、电子设备、计算机可读存储介质 |
CN112750436A (zh) * | 2020-12-29 | 2021-05-04 | 上海掌门科技有限公司 | 一种用于确定语音消息的目标播放速度的方法与设备 |
CN113242468A (zh) * | 2021-05-11 | 2021-08-10 | 深圳市逸马科技有限公司 | 一种基于大数据云平台教育数据流的控制方法及系统 |
CN113496709A (zh) * | 2020-04-07 | 2021-10-12 | 上海擎感智能科技有限公司 | 车内音效远程在线评测方法及系统、存储介质及服务器 |
CN113822665A (zh) * | 2021-08-25 | 2021-12-21 | 武汉理工数字传播工程有限公司 | 一种听力学习的方法、电子设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1452109A (zh) * | 2002-04-19 | 2003-10-29 | 英业达股份有限公司 | 可动态调整播速的听讲训练系统及其方法 |
CN1474306A (zh) * | 2002-08-09 | 2004-02-11 | 无敌科技股份有限公司 | 具有渐进调整功能的听力学习系统及其方法 |
CN1510596A (zh) * | 2002-12-24 | 2004-07-07 | 英业达股份有限公司 | 线性听讲跟读语言学习的系统及方法 |
EP2388780A1 (en) * | 2010-05-19 | 2011-11-23 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for extending or compressing time sections of an audio signal |
CN102522019A (zh) * | 2011-12-17 | 2012-06-27 | 无敌科技(西安)有限公司 | 一种通过评测结果设定功能的学习系统及方法 |
CN103942990A (zh) * | 2013-01-23 | 2014-07-23 | 郭毓斌 | 一种语言学习装置 |
CN104967951A (zh) * | 2015-06-30 | 2015-10-07 | 上海卓易科技股份有限公司 | 一种降低噪声的方法和装置 |
US20170092151A1 (en) * | 2015-09-24 | 2017-03-30 | Wei Xi | Second language instruction system and methods |
CN105205763A (zh) * | 2015-11-06 | 2015-12-30 | 陈国庆 | 一种基于新媒体方式的教学方法及装置 |
-
2018
- 2018-02-26 CN CN201810160106.6A patent/CN108419096B/zh not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930999A (zh) * | 2018-09-19 | 2020-03-27 | 上海博泰悦臻电子设备制造有限公司 | 语音互动方法、装置及车辆 |
CN109672910A (zh) * | 2018-12-25 | 2019-04-23 | 北京微播视界科技有限公司 | 视频播放方法、装置、电子设备及计算机可读存储介质 |
CN111081085A (zh) * | 2019-07-17 | 2020-04-28 | 广东小天才科技有限公司 | 一种听写的控制方法及终端设备 |
CN110460874A (zh) * | 2019-08-09 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 视频播放参数生成方法、装置、存储介质及电子设备 |
CN110956870A (zh) * | 2019-11-25 | 2020-04-03 | 中北大学 | 一种视唱练耳教学方法及装置 |
CN110974639A (zh) * | 2019-12-02 | 2020-04-10 | 姜国宁 | 一种基于导盲耳机的信息确定方法和装置 |
CN113496709A (zh) * | 2020-04-07 | 2021-10-12 | 上海擎感智能科技有限公司 | 车内音效远程在线评测方法及系统、存储介质及服务器 |
CN112637208A (zh) * | 2020-12-23 | 2021-04-09 | 美的集团股份有限公司 | 目标设备的确权方法、电子设备、计算机可读存储介质 |
CN112750436A (zh) * | 2020-12-29 | 2021-05-04 | 上海掌门科技有限公司 | 一种用于确定语音消息的目标播放速度的方法与设备 |
CN113242468A (zh) * | 2021-05-11 | 2021-08-10 | 深圳市逸马科技有限公司 | 一种基于大数据云平台教育数据流的控制方法及系统 |
CN113822665A (zh) * | 2021-08-25 | 2021-12-21 | 武汉理工数字传播工程有限公司 | 一种听力学习的方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108419096B (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108419096A (zh) | 语音智能播放方法及系统 | |
US20060093997A1 (en) | Aural rehabilitation system and a method of using the same | |
US11676461B2 (en) | Information processing device, information processing method, and program for controlling haptics based on context information | |
CN107247572A (zh) | 音频播放方法、终端及计算机可读存储介质 | |
CN110732118A (zh) | 一种健身设备的调阻方法、装置、电子设备及存储介质 | |
CN113949956B (zh) | 降噪处理方法、装置、电子设备、耳机及存储介质 | |
CN108404275A (zh) | 睡眠训练方法及相关设备 | |
JP2017524149A (ja) | 身体的な活動中に適応性のある音響再生のためのオーディオ・システムおよび方法 | |
KR20150137453A (ko) | 뇌파를 이용한 제어 방법 및 휴대 장치 | |
CN117045253A (zh) | 一种ai心理咨询方法和系统 | |
CN113448438B (zh) | 一种基于睡眠感知的控制系统及方法 | |
CN108399061B (zh) | 语音播放速度的控制方法及系统 | |
CN113302681B (zh) | 噪声掩蔽设备以及用于掩蔽噪声的方法 | |
CN107613420A (zh) | 耳机音量自动控制系统 | |
CN105852810A (zh) | 一种睡眠控制方法 | |
CN108769799A (zh) | 一种信息处理方法及电子设备 | |
JP2021114004A (ja) | 情報処理装置及び情報処理方法 | |
KR20220110974A (ko) | 숨소리 모니터링을 기반으로 하는 저주파 알림 시스템 | |
EP4328928A1 (en) | Method and device for controlling improved cognitive function training app | |
WO2024080009A1 (ja) | 音響装置、音響制御方法及び音響制御プログラム | |
KR102429108B1 (ko) | 노래 부르기를 기반으로 청능 훈련을 수행하는 전자 장치, 방법, 및 컴퓨터 프로그램 | |
CN208444594U (zh) | 一种针对睡眠障碍人群的闹钟智能控制装置 | |
US20230256192A1 (en) | Systems and methods for inducing sleep of a subject | |
CN212782717U (zh) | 一种智能穿戴音乐设备 | |
US20240064487A1 (en) | Customized selective attenuation of game audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200703 |
|
CF01 | Termination of patent right due to non-payment of annual fee |