CN104505089A - 口语纠错方法及设备 - Google Patents
口语纠错方法及设备 Download PDFInfo
- Publication number
- CN104505089A CN104505089A CN201410790090.9A CN201410790090A CN104505089A CN 104505089 A CN104505089 A CN 104505089A CN 201410790090 A CN201410790090 A CN 201410790090A CN 104505089 A CN104505089 A CN 104505089A
- Authority
- CN
- China
- Prior art keywords
- data
- video data
- lip
- client
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种口语纠错方法,包括客户端流程和服务端流程;所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。本发明的计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
Description
技术领域
本发明涉及口语评测技术领域,特别涉及一种口语纠错方法及设备。
背景技术
口语评测技术是结合语音识别相关技术,对口语学习者根据给定文本或自由朗读进行评测,给出其口语水平的自动评分,并提示发音有误的单词,短语或句子。
传统的口语评测技术,通常针对口语学习者的朗读语音进行分析评测,例如中国发明第200710135346.2,201310034371.7,以及201010266766.6号等,均属于这种情况。中国发明专利第201110085339.2号则公开了一种融合口型图像识别与说话人情绪检测等多维度特征的评测方法,提出了有别于与传统口语评测技术的优化方案,达到较好的技术效果。
众所周知,平板设备越来越成为我们生活中不可缺少的部分,而且在加速向低年龄的儿童渗透。触屏界面使得计算机更加易用,成为了儿童可以很快上手的上网、娱乐和学习终端。虽然平板的娱乐性会让人担忧,但是只要家长善于引导,它也可以帮助儿童学习知识、提高智力,成为一个出色的教育工具。引入融合多维度特征的口语评测方法可以很好地增强教育平板的语言教学应用效果。但是,上述发明口型图像识别处理过程计算量大,对于CPU和电池受限的平板设备而言,需要进一步优化才可有效使用。
发明内容
本发明要解决的技术问题之一,在于提供一种口语纠错方法,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
本发明要解决的技术问题之一是这样实现的:一种口语纠错方法,包括客户端流程和服务端流程;所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。
进一步的,所述客户端流程包括:
所述客户端流程具体包括:
步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
步骤12、对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
所述服务端流程具体包括:
步骤21、获取客户端发送语音及图像数据,获取参考文本数据;
步骤22、采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
步骤23、从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;
步骤24、根据A和B计算每个词元的综合得分。
进一步的,所述步骤12中对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。
进一步的,所述步骤12中对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。且所述步骤24中所述图像特征是通过对唇部图像进行SVD分解得到。
本发明要解决的技术问题之二,在于提供一种口语纠错设备,其口型图像识别处理过程计算量小,可减少传输量,且效率高,便于在平板设备中推广。
本发明要解决的技术问题之二是这样实现的:一种口语纠错设备,其特征在于:包括客户端,采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;服务端,获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。
进一步的,所述客户端具体包括:采集模块,每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;检测模块,对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
所述服务端具体包括:获取文本及语音数据模块,获取客户端发送语音及图像数据,获取参考文本数据;词元分析模块,采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;检测分析模块,从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;综合得分计算模块,用于根据A和B计算每个词元的综合得分。
进一步的,所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。
进一步的,所述检测分析模块对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。
进一步的,所述参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;所述图像特征是通过对唇部图像进行SVD分解得到的。
本发明具有如下优点:本发明采用客户端和服务端的模式,使计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法客户端的执行流程图。
图2为本发明方法服务端的执行流程图。
具体实施方式
本发明的口语纠错方法,包括客户端流程和服务端流程。所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。这种采用客户端和服务端的模式,使计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
如图1所示,所述客户端流程具体包括:
步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
步骤12、对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
其中,对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。更具体的,首先对图像进行等宽高比例压缩,使其最长边为256px,再对此压缩图像进行人脸检测,获取局部区域后,再将该局部区域坐标映射到原图像,并从原图像上截取局部图像,并将该局部图像等宽高比例压缩,使其最长边为256px。
对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。更具体的,对E,EM进行归一化处理,使EM为1.0,E为一取值0~1.0的实数,取b为1.0,a为1.0。
如图2所示,所述服务端流程具体包括:
步骤21、获取客户端发送语音及图像数据,获取参考文本数据;
步骤22、采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
步骤23、从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;所述图像特征是通过对唇部图像进行SVD分解得到的。
步骤24、根据A和B计算每个词元的综合得分。
本发明的口语纠错设备,包括客户端和服务端,所述客户端,采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端,获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。这种采用客户端和服务端的模式,使计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
所述客户端具体包括:
采集模块,每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
检测模块,对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
其中,所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。更具体的,首先对图像进行等宽高比例压缩,使其最长边为256px,再对此压缩图像进行人脸检测,获取局部区域后,再将该局部区域坐标映射到原图像,并从原图像上截取局部图像,并将该局部图像等宽高比例压缩,使其最长边为256px。
所述检测分析模块对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。更具体的,对E,EM进行归一化处理,使EM为1.0,E为一取值0~1.0的实数,取b为1.0,a为1.0。
所述服务端具体包括:
获取文本及语音数据模块,获取客户端发送语音及图像数据,获取参考文本数据;所述参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;
词元分析模块,采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
检测分析模块,从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;所述图像特征是通过对唇部图像进行SVD分解得到的。
综合得分计算模块,用于根据A和B计算每个词元的综合得分。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种口语纠错方法,其特征在于:包括客户端流程和服务端流程;
所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;
所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。
2.根据权利要求1所述的口语纠错方法,其特征在于:
所述客户端流程具体包括:
步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
步骤12、对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
所述服务端流程具体包括:
步骤21、获取客户端发送语音及图像数据,获取参考文本数据;
步骤22、采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
步骤23、从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;
步骤24、根据A和B计算每个词元的综合得分。
3.根据权利要求1或2所述的口语纠错方法,其特征在于:所述步骤12中对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。
4.根据权利要求2或3所述的口语纠错方法,其特征在于:所述骤12中对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。
5.根据权利要求1所述的口语纠错方法,其特征在于:所述步骤21中的参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;
所述步骤24中所述图像特征是通过对唇部图像进行SVD分解得到。
6.一种口语纠错设备,其特征在于:包括:
客户端,采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;
服务端,获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。
7.根据权利要求6所述的口语纠错设备,其特征在于:
所述客户端具体包括:
采集模块,每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
检测模块,对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
所述服务端具体包括:
获取文本及语音数据模块,获取客户端发送语音及图像数据,获取参考文本数据;
词元分析模块,采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
检测分析模块,从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;
综合得分计算模块,用于根据A和B计算每个词元的综合得分。
8.根据权利要求7所述的口语纠错设备,其特征在于:所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。
9.根据权利要求7所述的口语纠错设备,其特征在于:所述检测模块对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。
10.根据权利要求7所述的口语纠错设备,其特征在于:
所述参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;
所述图像特征是通过对唇部图像进行SVD分解得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410790090.9A CN104505089B (zh) | 2014-12-17 | 2014-12-17 | 口语纠错方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410790090.9A CN104505089B (zh) | 2014-12-17 | 2014-12-17 | 口语纠错方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104505089A true CN104505089A (zh) | 2015-04-08 |
CN104505089B CN104505089B (zh) | 2018-05-18 |
Family
ID=52946831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410790090.9A Active CN104505089B (zh) | 2014-12-17 | 2014-12-17 | 口语纠错方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104505089B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106356066A (zh) * | 2016-08-30 | 2017-01-25 | 孟玲 | 一种基于云计算的语音识别系统 |
CN111833859A (zh) * | 2020-07-22 | 2020-10-27 | 科大讯飞股份有限公司 | 发音检错方法、装置、电子设备及存储介质 |
CN111951828A (zh) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | 发音测评方法、装置、系统、介质和计算设备 |
CN113077819A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 发音评价方法和装置、存储介质和电子设备 |
CN113257231A (zh) * | 2021-07-07 | 2021-08-13 | 广州思正电子股份有限公司 | 一种语言正音系统方法及设备 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998045834A1 (en) * | 1997-04-10 | 1998-10-15 | Microsoft Corporation | Extensible speech recognition system that provides a user with audio feedback |
CN1578972A (zh) * | 2002-09-25 | 2005-02-09 | 日本贝乐思公司 | 测试系统及其控制方法 |
CN101197084A (zh) * | 2007-11-06 | 2008-06-11 | 安徽科大讯飞信息科技股份有限公司 | 自动化英语口语评测学习系统 |
US20080280269A1 (en) * | 2005-05-27 | 2008-11-13 | Minerva Yeung | A Homework Assignment and Assessment System for Spoken Language Education and Testing |
CN101383103A (zh) * | 2006-02-28 | 2009-03-11 | 安徽中科大讯飞信息科技有限公司 | 口语发音水平自动测试方法 |
CN102063903A (zh) * | 2010-09-25 | 2011-05-18 | 中国科学院深圳先进技术研究院 | 言语交互训练系统及方法 |
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师系统 |
CN102319155A (zh) * | 2011-05-30 | 2012-01-18 | 重庆邮电大学 | 基于唇部检测与跟踪的智能轮椅控制方法 |
CN102436815A (zh) * | 2011-09-13 | 2012-05-02 | 东南大学 | 一种应用于英语口语网络机考系统的语音识别装置 |
CN103065626A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院声学研究所 | 英语口语考试系统中的朗读题自动评分方法和设备 |
CN103151042A (zh) * | 2013-01-23 | 2013-06-12 | 中国科学院深圳先进技术研究院 | 全自动口语评测管理与评分系统及其评分方法 |
CN103218924A (zh) * | 2013-03-29 | 2013-07-24 | 上海众实科技发展有限公司 | 一种基于音视频双模态的口语学习监测方法 |
CN103366618A (zh) * | 2013-07-18 | 2013-10-23 | 梁亚楠 | 基于人工智能与虚拟现实用于汉语学习培训的场景设备 |
CN103366506A (zh) * | 2013-06-27 | 2013-10-23 | 北京理工大学 | 一种驾驶员行车途中接打手机行为的自动监控装置及方法 |
CN103401763A (zh) * | 2013-07-30 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 接收群消息的方法、处理群消息的方法及其装置 |
CN103716685A (zh) * | 2014-01-09 | 2014-04-09 | 福建网龙计算机网络信息技术有限公司 | 图标识别系统、服务器和方法 |
CN103747071A (zh) * | 2013-12-31 | 2014-04-23 | 合肥有线电视宽带网络有限公司 | 一种广电网络私有云端语音数据处理均衡系统及方法 |
CN103761975A (zh) * | 2014-01-07 | 2014-04-30 | 苏州思必驰信息科技有限公司 | 一种口语评测方法及装置 |
CN103810996A (zh) * | 2014-02-21 | 2014-05-21 | 北京凌声芯语音科技有限公司 | 待测试语音的处理方法、装置及系统 |
CN103985392A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 音素级的低功耗的口语评价与缺陷诊断方法 |
-
2014
- 2014-12-17 CN CN201410790090.9A patent/CN104505089B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998045834A1 (en) * | 1997-04-10 | 1998-10-15 | Microsoft Corporation | Extensible speech recognition system that provides a user with audio feedback |
CN1578972A (zh) * | 2002-09-25 | 2005-02-09 | 日本贝乐思公司 | 测试系统及其控制方法 |
US20080280269A1 (en) * | 2005-05-27 | 2008-11-13 | Minerva Yeung | A Homework Assignment and Assessment System for Spoken Language Education and Testing |
CN101383103A (zh) * | 2006-02-28 | 2009-03-11 | 安徽中科大讯飞信息科技有限公司 | 口语发音水平自动测试方法 |
CN101197084A (zh) * | 2007-11-06 | 2008-06-11 | 安徽科大讯飞信息科技股份有限公司 | 自动化英语口语评测学习系统 |
CN102063903A (zh) * | 2010-09-25 | 2011-05-18 | 中国科学院深圳先进技术研究院 | 言语交互训练系统及方法 |
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师系统 |
CN102319155A (zh) * | 2011-05-30 | 2012-01-18 | 重庆邮电大学 | 基于唇部检测与跟踪的智能轮椅控制方法 |
CN102436815A (zh) * | 2011-09-13 | 2012-05-02 | 东南大学 | 一种应用于英语口语网络机考系统的语音识别装置 |
CN103065626A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院声学研究所 | 英语口语考试系统中的朗读题自动评分方法和设备 |
CN103151042A (zh) * | 2013-01-23 | 2013-06-12 | 中国科学院深圳先进技术研究院 | 全自动口语评测管理与评分系统及其评分方法 |
CN103218924A (zh) * | 2013-03-29 | 2013-07-24 | 上海众实科技发展有限公司 | 一种基于音视频双模态的口语学习监测方法 |
CN103366506A (zh) * | 2013-06-27 | 2013-10-23 | 北京理工大学 | 一种驾驶员行车途中接打手机行为的自动监控装置及方法 |
CN103366618A (zh) * | 2013-07-18 | 2013-10-23 | 梁亚楠 | 基于人工智能与虚拟现实用于汉语学习培训的场景设备 |
CN103401763A (zh) * | 2013-07-30 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 接收群消息的方法、处理群消息的方法及其装置 |
CN103747071A (zh) * | 2013-12-31 | 2014-04-23 | 合肥有线电视宽带网络有限公司 | 一种广电网络私有云端语音数据处理均衡系统及方法 |
CN103761975A (zh) * | 2014-01-07 | 2014-04-30 | 苏州思必驰信息科技有限公司 | 一种口语评测方法及装置 |
CN103716685A (zh) * | 2014-01-09 | 2014-04-09 | 福建网龙计算机网络信息技术有限公司 | 图标识别系统、服务器和方法 |
CN103810996A (zh) * | 2014-02-21 | 2014-05-21 | 北京凌声芯语音科技有限公司 | 待测试语音的处理方法、装置及系统 |
CN103985392A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 音素级的低功耗的口语评价与缺陷诊断方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106356066A (zh) * | 2016-08-30 | 2017-01-25 | 孟玲 | 一种基于云计算的语音识别系统 |
CN111951828A (zh) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | 发音测评方法、装置、系统、介质和计算设备 |
CN111833859A (zh) * | 2020-07-22 | 2020-10-27 | 科大讯飞股份有限公司 | 发音检错方法、装置、电子设备及存储介质 |
CN111833859B (zh) * | 2020-07-22 | 2024-02-13 | 科大讯飞股份有限公司 | 发音检错方法、装置、电子设备及存储介质 |
CN113077819A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 发音评价方法和装置、存储介质和电子设备 |
WO2022194044A1 (zh) * | 2021-03-19 | 2022-09-22 | 北京有竹居网络技术有限公司 | 发音评价方法和装置、存储介质和电子设备 |
CN113257231A (zh) * | 2021-07-07 | 2021-08-13 | 广州思正电子股份有限公司 | 一种语言正音系统方法及设备 |
CN113257231B (zh) * | 2021-07-07 | 2021-11-26 | 广州思正电子股份有限公司 | 一种语言正音系统方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104505089B (zh) | 2018-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107203953B (zh) | 一种基于互联网、表情识别和语音识别的教学系统及其实现方法 | |
CN110531860B (zh) | 一种基于人工智能的动画形象驱动方法和装置 | |
Ahmed et al. | Deaf talk using 3D animated sign language: A sign language interpreter using Microsoft's kinect v2 | |
CN104505089A (zh) | 口语纠错方法及设备 | |
WO2019237708A1 (zh) | 基于深度学习的人际交互肢体语言自动生成方法及系统 | |
CN107945625A (zh) | 一种英语发音测试与评价系统 | |
Madhuri et al. | Vision-based sign language translation device | |
Yargıç et al. | A lip reading application on MS Kinect camera | |
CN103218924A (zh) | 一种基于音视频双模态的口语学习监测方法 | |
CN107911643B (zh) | 一种视频通信中展现场景特效的方法和装置 | |
CN110175534A (zh) | 基于多任务级联卷积神经网络的授课辅助系统 | |
CN108491808B (zh) | 用于获取信息的方法及装置 | |
CN109064389A (zh) | 一种手绘线条画生成现实感图像的深度学习方法 | |
CN111539245B (zh) | 一种基于虚拟环境的cpr技术训练评价方法 | |
CN108550173A (zh) | 基于语音生成口型视频的方法 | |
US20230110002A1 (en) | Video highlight extraction method and system, and storage medium | |
CN108510988A (zh) | 一种用于聋哑人的语言识别系统及方法 | |
CN108038461B (zh) | 交互式外语口型和舌型同时矫正的系统和方法 | |
CN104347071A (zh) | 生成口语考试参考答案的方法及系统 | |
Guy et al. | Learning visual voice activity detection with an automatically annotated dataset | |
CN113076885B (zh) | 一种基于人眼动作特征的专注度分级方法及系统 | |
CN109961789A (zh) | 一种基于视频及语音交互服务设备 | |
CN104506852B (zh) | 一种面向视频会议编码的客观质量评估方法 | |
Sandjaja et al. | Sign language number recognition | |
CN113837907A (zh) | 一种英语教学人机互动系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |