CN107195316A - 用于远场语音识别的训练数据准备系统及方法 - Google Patents

用于远场语音识别的训练数据准备系统及方法 Download PDF

Info

Publication number
CN107195316A
CN107195316A CN201710292166.9A CN201710292166A CN107195316A CN 107195316 A CN107195316 A CN 107195316A CN 201710292166 A CN201710292166 A CN 201710292166A CN 107195316 A CN107195316 A CN 107195316A
Authority
CN
China
Prior art keywords
sound pick
outfit
audio signal
mrow
msubsup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710292166.9A
Other languages
English (en)
Other versions
CN107195316B (zh
Inventor
冯大航
陈孝良
陈日林
朱振岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING WISDOM TECHNOLOGY Co Ltd
Beijing SoundAI Technology Co Ltd
Original Assignee
BEIJING WISDOM TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING WISDOM TECHNOLOGY Co Ltd filed Critical BEIJING WISDOM TECHNOLOGY Co Ltd
Priority to CN201710292166.9A priority Critical patent/CN107195316B/zh
Publication of CN107195316A publication Critical patent/CN107195316A/zh
Application granted granted Critical
Publication of CN107195316B publication Critical patent/CN107195316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种用于远场语音识别的训练数据准备系统,包括:多个录音设备,分别用于录取音频信号;检测设备,用于检测第一音频信号和第二音频信号并确定各录音设备的录音开始时刻和结束时刻;以及,处理设备,用于处理所述开始时刻、结束时刻关系,确定各录音设备的采样率比值,进而根据一台录音设备的标注内容,生成其他录音设备的标注内容;其中,所述第一、二音频信号分别为在录音开始时、录音结束时录音设备录取的音频信号。本发明还提供了一种用于远场语音识别的训练数据准备方法。本发明实现了多台录音设备数据自动对齐,提高了远场录音设备标注精度,避免了重复标注,减少了人力成本,极大的提高了效率。

Description

用于远场语音识别的训练数据准备系统及方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种用于远场语音识别的训练数据准备系统及方法。
背景技术
近年来,基于深度神经元网络的语音识别技术已经越来越成熟,该技术需要利用大量的语音数据训练深度神经元网络从而获取声学模型。因此训练数据的好坏直接影响语音识别的准确率。伴随着各种智能设备的兴起,远场语音识别的需求也越来越强烈,为了提高远场语音识别准确率,需要利用远场语音来训练声学模型,因此远场语音识别数据的准备就变的非常重要。
在录取远场语音数据时,为了减少录制人工成本并且同时获得更多有效数据,一般在录取语音时,在说话人的周围不同距离处,放上多台录音设备,这样说话人只需要说一次,就可以获得各个距离处的多份数据。但在房间中,由于混响以及干扰噪声的存在,麦克风距离说话人越远,采集到语音数据的信噪比越低;并且多台设备的采样率会有微小差异,当录取时间较长时,各台录音设备收集到的数据是没办法对齐的,这就给后期的语音标注增加了很大的工作量及难度。
发明内容
(一)要解决的技术问题
鉴于上述技术问题,本发明提供了一种用于远场语音识别的训练数据准备系统及方法,实现了多台录音设备的数据自动对齐,只需对其中一台设备进行标注,其他设备就可以使用该标注文本,这样既可以提高远场录音设备标注的精度,同时也可以避免对多台设备的录音数据进行重复标注,减少了人力成本,极大的提高了效率。
(二)技术方案
根据本发明的一个方面,提供了一种用于远场语音识别的训练数据准备方法,包括:
多个录音设备,分别用于录取音频信号;
检测设备,用于检测各录音设备所录取的音频信号中的所述第一音频信号和第二音频信号并确定各录音设备的录音开始时刻和结束时刻;以及,
处理设备,用于处理所述开始时刻、结束时刻关系,确定各录音设备的采样率比值,进而根据一台录音设备的标注内容,生成其他录音设备的标注内容;其中,
所述第一音频信号为在录音开始时,录音设备接收并录取到的一音频信号,所述第二音频信号为在录音结束时,录音设备接收并录取到的一音频信号。
优选地,所述第一音频信号和第二音频信号为自相关性chirp信号、谐频信号或三角波信号。
根据本发明的一个方面,提供了一种用于远场语音识别的训练数据准备方法,包括:
步骤A、录音结束后,分别检测各录音设备所录的音频文件中的第一音频信号和第二音频信号来确定各录音设备的录音开始时刻和结束时刻;
步骤B、根据各录音设备所录的音频文件的开始时刻、结束时刻关系,确定各录音设备的采样率比值,进而根据其中一台录音设备的标注内容,生成所有录音设备的标注内容;其中,
所述第一音频信号为在录音开始时,录音设备接收并录取到的一音频信号,所述第二音频信号为在录音结束时,录音设备接收并录取到的一音频信号。
优选地,所述第一音频信号和第二音频信号为具有自相关性的chirp信号、谐频信号或三角波信号。
优选地,所述第一音频信号和第二音频信号均为chirp信号,其满足以下表达式:
x(t)=Acos(2π(f0+kt)+φ0)
式中,A表示chirp信号的幅度,f0表示chirp信号的起始频率,k表示chirp信号的频率变化率,φ0表示chirp信号的相位。
优选地,所述第一音频信号的参数满足:f0为2000Hz,k为0.75;所述第二音频信号的参数满足:f0为8000Hz,k为-0.75,以与所述第一音频信号进行区分。
优选地,通过匹配滤器方法分别检测各录音设备所录的音频文件中的第一音频信号和第二音频信号来确定各录音设备的录音开始时刻和结束时刻。
优选地,所述步骤A包括:
子步骤A1、对多个录音设备中的第1录音设备所录的音频文件,根据录音开始时的chirp信号构建匹配滤波器hbeg(t)=x(T-t),其中x(t)=Acos(2π(f0+kt)+φ0)为chirp信号,T为chirp信号的时间长度;
子步骤A2、将所述第1录音设备所录的整个音频文件的音频信号y(t)和匹配滤波器hbeg(t)做卷积运算得到r(t)=y(t)*hbeg(t),其中*为卷积运算;
子步骤A3、卷积运算得到的r(t)信号的最大值对应该第1录音设备录音开始时chirp信号的位置,即录音的开始时刻,记为
子步骤A4、对所述第1录音设备所录的音频文件,根据录音结束时的chirp信号,重复上述步骤A1至A3,检测到第1录音设备录音结束时的chirp信号的位置,即录音的结束时刻,标记为
优选地,所述步骤A还包括:
子步骤A5、对K个录音设备中第2至第k录音设备所录的音频文件分别重复所述子步骤A1至A4,得到各第2至第k录音设备的音频文件的录音开始时刻和录音结束时刻其中k=2,3,...,K,K为录音设备的总个数。
优选地,若所述多个录音设备中的第1录音设备在时刻T1 1到时刻的录音内容已知,则在所述多个录音设备中的第k录音设备中,该已知录录音内容所对应的时刻为T1 k满足以下关系式:
(三)有益效果
从上述技术方案可以看出,本发明用于远场语音识别的训练数据准备系统及方法至少具有以下有益效果其中之一:
(1)用于远场语音识别的训练数据准备系统及方法,实现了将多台录音设备的自动数据对齐,只需对其中一台设备进行标注,其他设备就可以使用该标注文本,提高了远场录音设备标注的精度,同时也避免了对多台设备的录音数据进行重复标注,减少了人力成本,极大的提高了效率。
(2)用于远场语音识别的训练数据准备系统,利用检测设备确定录音开始时刻和结束时刻,利用处理设备处理时刻关系确定各录音设备的采样率比值,进而根据一台录音设备的标注内容,生成所有录音设备的标注内容,系统结构简单,实现方便。
附图说明
通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的装置。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
图1为依据本发明实施例用于远场语音识别的训练数据准备方法流程图。
图2为依据本发明实施例录音设备录取的音频信号图。
图3为依据本发明实施例匹配滤波器信号图。
图4为依据本发明实施例滤波后的音频信号图。
图5为依据本发明实施例用于远场语音识别的训练数据准备系统录音场景示意图。
图6为依据本发明实施例录音设备1和录音设备2录取的音频信号图。
图7为依据本发明实施例录音设备1和录音设备2录取的信号语谱图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本发明的保护范围。
本发明实施例提供了一种用于远场语音识别的训练数据准备方法,能够实现多台录音设备自动数据对齐,图1为依据本发明实施例用于远场语音识别的训练数据准备方法流程图。请参照图1,本发明实施例用于远场语音识别的训练数据准备方法,只需要对所述多台录音设备的其中一台设备进行标注,其他设备就可以使用该标注文本,这样既可以提高远场录音设备标注的精度,同时也可以避免对多台设备的录音数据进行重复标注。
本实施例用于远场语音识别的训练数据准备方法,包括:
步骤A、录音结束后,分别检测各录音设备所录的音频文件中的第一音频信号和第二音频信号来确定各录音设备的录音开始时刻和结束时刻;
步骤B、根据各录音设备所录的音频文件的开始时刻、结束时刻关系,确定各录音设备的采样率比值,进而根据其中一台录音设备的标注内容,生成所有录音设备的标注内容;其中,
所述第一音频信号为在录音开始时,录音设备接收并录取到的一音频信号,所述第二音频信号为在录音结束时,录音设备接收并录取到的一音频信号。
具体的,在录音开始时,可通过发音设备发出第一音频信号;优选的,该第一音频信号具有较强的自相关性。
所述第一音频信号可为chirp信号、谐频信号及三角波信号,优选为chirp信号,其数学表达式为:
x(t)=Acos(2π(f0+kt)+φ0)
其中,A表示chirp信号的幅度,f0表示chirp信号的起始频率,k表示chirp信号的频率变化率,φ0表示chirp信号的相位。
进一步的,针对语音识别应用的情况,一般信号的采样频率为16kHz,因此可以选取f0为2000Hz,k为0.75,时间长度为500ms。
在录音结束时,可通过发音设备发出第二音频信号,该第二音频信号可为chirp信号、谐频信号及三角波信号,优选为chirp信号;
为了将该第二音频信号与录音开始时的chirp信号进行区分,可以将该第二音频信号的参数选为f0为8000Hz,k为-0.75,时间长度为500ms,请参照图2所示。
录音结束后,通过匹配滤波器方法检测录音中的第一音频信号和第二音频信号来确定录音的开始时刻和结束时刻,请参照图3-4所示。
其中,具体检测方法如下:
A1、对多个录音设备中的第1录音设备所录的音频文件,根据录音开始时的chirp信号构建匹配滤波器hbeg(t)=x(T-t),其中x(t)=Acos(2π(f0+kt)+φ0)为chirp信号,参数选取方法和录音开始时第一音频信号一样,T为chirp信号的时间长度,此处为500ms。
A2、将所述第1录音设备录取的整个音频文件的音频信号y(t)和匹配滤波器hbeg(t)做卷积运算得到r(t)=y(t)*hbeg(t),其中*为卷积运算。其中,所述整个音频文件的音频信号为录音开始时至录音结束时这段时间内的所有音频信号,包括录音开始时的第一音频信号、录音结束时的第二音频信号、及中间音频信号,该中间音频信号为所述第一音频信号和第二音频信号之间的音频信号。
A3、所述卷积运算得到的r(t)信号的最大值所对应该第1录音设备录音开始时chirp信号的位置,即录音的开始时刻,标记为具体结果如下图4所示,从图中可以看出卷积后的信号有一个明显的峰值,对应的时刻即为录音开始时chirp信号的位置
A4、对所述第1录音设备所录的音频文件,根据录音结束时的chirp信号,重复上述步骤A1至A3,检测到第1录音设备录音结束时的chirp信号的位置,即录音的结束时刻,标记为
A5、对K个录音设备中第2至第k录音设备所录的音频文件分别重复所述步骤A1至A4,得到各第2至第k录音设备的音频文件的录音开始时刻和录音结束时刻其中k=2,3,...,K,K为录音设备的总个数。
上述训练数据准备方法及检测方法是以第一音频信号、第二音频信号均为chirp信号进行示例说明,但本领域技术人员应当可以理解的是,第一音频信号、第二音频信号并不限于chirp信号,还可以替换为谐频信号、三角波信号等其他自相关性较强的信号。
根据各录音设备所录取的音频文件的开始时刻、结束时刻关系,得到各录音设备的采样率比值,进而根据一台录音设备的标注内容,生成所有录音设备的标注内容。
具体的,若所述K个录音设备中的第1录音设备在时刻T1 1到时刻的录音内容已知,则在所述K个录音设备中的第k录音设备中,该已知录录音内容所对应的时刻为T1 k满足以下关系式:
例如第1录音设备的标注内容已知,在时刻T1 1到时刻说话内容为“我要听刘德华的歌”,则在第2录音设备中,该内容所对应的时刻为T1 2计算如下
另外,本发明实施例还提供了一种用于远场语音识别的训练数据准备系统。本实施例用于远场语音识别的训练数据准备系统,包括:
多个录音设备,分别用于录取音频信号;
检测设备,用于检测各录音设备所录取的音频信号中的所述第一音频信号和第二音频信号并确定各录音设备的录音开始时刻和结束时刻;以及,
处理设备,用于处理所述开始时刻、结束时刻关系,确定各录音设备的采样率比值,进而根据一台录音设备的标注内容,生成其他录音设备的标注内容;其中,
所述第一音频信号为在录音开始时,录音设备接收并录取到的一音频信号,所述第二音频信号为在录音结束时,录音设备接收并录取到的一音频信号。
进一步的,该第一音频信号可由发音设备在录音开始时发出,该第二音频信号可由发音设备在录音结束时发出;更具体而言,所述第一音频信号和第二音频信号为具有自相关性的chirp信号、谐频信号或三角波信号。所述发音设备包括手机、音响等。
下面结合实例介绍采用本发明实施例提供的用于远场语音识别的训练数据准备系统及方法进行数据对齐的效果。
如图5所示,在一个录音房间中说话人在房间中心,录音设备1位于说话人0.1m处,录音设备2位于说话人2米处,通过上述方法对两端音频进行对齐,得到两台录音设备中的一段内容如图6-7所示,从图中可以看出,两段音频是完全对齐的。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于远场语音识别的训练数据准备系统,包括:
多个录音设备,分别用于录取音频信号;
检测设备,用于检测各录音设备所录取的音频信号中的所述第一音频信号和第二音频信号并确定各录音设备的录音开始时刻和结束时刻;以及,
处理设备,用于处理所述开始时刻、结束时刻关系,确定各录音设备的采样率比值,进而根据一台录音设备的标注内容,生成其他录音设备的标注内容;其中,
所述第一音频信号为在录音开始时,录音设备接收并录取到的一音频信号,所述第二音频信号为在录音结束时,录音设备接收并录取到的一音频信号。
2.根据权利要求1所述的用于远场语音识别的训练数据准备系统,其中,所述第一音频信号和第二音频信号为自相关性chirp信号、谐频信号或三角波信号。
3.一种用于远场语音识别的训练数据准备方法,包括:
步骤A、录音结束后,分别检测各录音设备所录的音频文件中的第一音频信号和第二音频信号来确定各录音设备的录音开始时刻和结束时刻;
步骤B、根据各录音设备所录的音频文件的开始时刻、结束时刻关系,确定各录音设备的采样率比值,进而根据其中一台录音设备的标注内容,生成所有录音设备的标注内容;其中,
所述第一音频信号为在录音开始时,录音设备接收并录取到的一音频信号,所述第二音频信号为在录音结束时,录音设备接收并录取到的一音频信号。
4.根据权利要求3所述的用于远场语音识别的训练数据准备方法,其中,所述第一音频信号和第二音频信号为具有自相关性的chirp信号、谐频信号或三角波信号。
5.根据权利要求4所述的用于远场语音识别的训练数据准备方法,其中,所述第一音频信号和第二音频信号均为chirp信号,其满足以下表达式:
x(t)=Acos(2π(f0+kt)+φ0)
式中,A表示chirp信号的幅度,f0表示chirp信号的起始频率,k表示chirp信号的频率变化率,φ0表示chirp信号的相位。
6.根据权利要求5所述的用于远场语音识别的训练数据准备方法,其中,所述第一音频信号的参数满足:f0为2000Hz,k为0.75;所述第二音频信号的参数满足:f0为8000Hz,k为-0.75,以与所述第一音频信号进行区分。
7.根据权利要求3所述的用于远场语音识别的训练数据准备方法,其中,通过匹配滤器方法分别检测各录音设备所录的音频文件中的第一音频信号和第二音频信号来确定各录音设备的录音开始时刻和结束时刻。
8.根据权利要求7所述的用于远场语音识别的训练数据准备方法,其中,所述步骤A包括:
子步骤A1、对多个录音设备中的第1录音设备所录的音频文件,根据录音开始时的chirp信号构建匹配滤波器hbeg(t)=x(T-t),其中x(t)=Acos(2π(f0+kt)+φ0)为chirp信号,T为chirp信号的时间长度;
子步骤A2、将所述第1录音设备所录的整个音频文件的音频信号y(t)和匹配滤波器hbeg(t)做卷积运算得到r(t)=y(t)*hbeg(t),其中*为卷积运算;
子步骤A3、卷积运算得到的r(t)信号的最大值对应该第1录音设备录音开始时chirp信号的位置,即录音的开始时刻,记为
子步骤A4、对所述第1录音设备所录的音频文件,根据录音结束时的chirp信号,重复上述步骤A1至A3,检测到第1录音设备录音结束时的chirp信号的位置,即录音的结束时刻,标记为
9.根据权利要求8所述的用于远场语音识别的训练数据准备方法,其中,所述步骤A还包括:
子步骤A5、对K个录音设备中第2至第k录音设备所录的音频文件分别重复所述子步骤A1至A4,得到各第2至第k录音设备的音频文件的录音开始时刻和录音结束时刻其中k=2,3,...,K,K为录音设备的总个数。
10.根据权利要求9所述的用于远场语音识别的训练数据准备方法,其中,若所述多个录音设备中的第1录音设备在时刻T1 1到时刻的录音内容已知,则在所述多个录音设备中的第k录音设备中,该已知录录音内容所对应的时刻为T1 k满足以下关系式:
<mrow> <msubsup> <mi>T</mi> <mn>1</mn> <mi>k</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>T</mi> <mrow> <mi>e</mi> <mi>n</mi> <mi>d</mi> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <msubsup> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>g</mi> </mrow> <mn>2</mn> </msubsup> </mrow> <mrow> <msubsup> <mi>T</mi> <mrow> <mi>e</mi> <mi>n</mi> <mi>d</mi> </mrow> <mn>1</mn> </msubsup> <mo>-</mo> <msubsup> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>g</mi> </mrow> <mn>1</mn> </msubsup> </mrow> </mfrac> <mo>*</mo> <msubsup> <mi>T</mi> <mn>1</mn> <mn>1</mn> </msubsup> <mo>,</mo> <msubsup> <mi>T</mi> <mn>2</mn> <mi>k</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>T</mi> <mrow> <mi>e</mi> <mi>n</mi> <mi>d</mi> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <msubsup> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>g</mi> </mrow> <mn>2</mn> </msubsup> </mrow> <mrow> <msubsup> <mi>T</mi> <mrow> <mi>e</mi> <mi>n</mi> <mi>d</mi> </mrow> <mn>1</mn> </msubsup> <mo>-</mo> <msubsup> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>g</mi> </mrow> <mn>1</mn> </msubsup> </mrow> </mfrac> <mo>*</mo> <msubsup> <mi>T</mi> <mn>2</mn> <mn>1</mn> </msubsup> <mo>.</mo> </mrow> 2
CN201710292166.9A 2017-04-28 2017-04-28 用于远场语音识别的训练数据准备系统及方法 Active CN107195316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710292166.9A CN107195316B (zh) 2017-04-28 2017-04-28 用于远场语音识别的训练数据准备系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710292166.9A CN107195316B (zh) 2017-04-28 2017-04-28 用于远场语音识别的训练数据准备系统及方法

Publications (2)

Publication Number Publication Date
CN107195316A true CN107195316A (zh) 2017-09-22
CN107195316B CN107195316B (zh) 2019-11-08

Family

ID=59873402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710292166.9A Active CN107195316B (zh) 2017-04-28 2017-04-28 用于远场语音识别的训练数据准备系统及方法

Country Status (1)

Country Link
CN (1) CN107195316B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021675A (zh) * 2017-12-07 2018-05-11 北京慧听科技有限公司 一种多设备录音的自动切分对齐方法
CN108109633A (zh) * 2017-12-20 2018-06-01 北京声智科技有限公司 无人值守的云端语音库采集与智能产品测试的系统与方法
CN108364664A (zh) * 2018-02-01 2018-08-03 北京云知声信息技术有限公司 自动数据采集及标注的方法
CN109151705A (zh) * 2018-08-27 2019-01-04 北京爱数智慧科技有限公司 一种会议数据的对齐方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100561225B1 (ko) * 2003-12-17 2006-03-15 한국전자통신연구원 지유아이 환경을 기반으로 하는 실시간 기사 수집 시스템및 온라인 언어 모델 구축 서비스 방법
CN103220425A (zh) * 2013-04-10 2013-07-24 广东欧珀移动通信有限公司 一种基于多个移动终端的录音方法及系统
CN105242556A (zh) * 2015-10-28 2016-01-13 小米科技有限责任公司 智能设备的语音控制方法、装置、控制设备及智能设备
CN105897998A (zh) * 2015-12-30 2016-08-24 乐视致新电子科技(天津)有限公司 智能手机录音方法及系统
CN106409316A (zh) * 2015-07-31 2017-02-15 蒂雅克股份有限公司 录音装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100561225B1 (ko) * 2003-12-17 2006-03-15 한국전자통신연구원 지유아이 환경을 기반으로 하는 실시간 기사 수집 시스템및 온라인 언어 모델 구축 서비스 방법
CN103220425A (zh) * 2013-04-10 2013-07-24 广东欧珀移动通信有限公司 一种基于多个移动终端的录音方法及系统
CN106409316A (zh) * 2015-07-31 2017-02-15 蒂雅克股份有限公司 录音装置
CN105242556A (zh) * 2015-10-28 2016-01-13 小米科技有限责任公司 智能设备的语音控制方法、装置、控制设备及智能设备
CN105897998A (zh) * 2015-12-30 2016-08-24 乐视致新电子科技(天津)有限公司 智能手机录音方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯国屏: "《LabVIEW7.1编程与虚拟仪器设计》", 1 December 2015 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021675A (zh) * 2017-12-07 2018-05-11 北京慧听科技有限公司 一种多设备录音的自动切分对齐方法
CN108109633A (zh) * 2017-12-20 2018-06-01 北京声智科技有限公司 无人值守的云端语音库采集与智能产品测试的系统与方法
CN108364664A (zh) * 2018-02-01 2018-08-03 北京云知声信息技术有限公司 自动数据采集及标注的方法
CN108364664B (zh) * 2018-02-01 2020-04-24 云知声智能科技股份有限公司 自动数据采集及标注的方法
CN109151705A (zh) * 2018-08-27 2019-01-04 北京爱数智慧科技有限公司 一种会议数据的对齐方法及相关设备

Also Published As

Publication number Publication date
CN107195316B (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN107195316A (zh) 用于远场语音识别的训练数据准备系统及方法
CN102664017B (zh) 一种3d音频质量客观评价方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN101833951B (zh) 用于说话人识别的多背景模型建立方法
CN100514446C (zh) 一种基于语音识别及语音分析的发音评估方法
CN107369359B (zh) 一种声乐发音训练系统
CN101281744B (zh) 语音分析方法和装置以及语音合成方法和装置
CN104272382A (zh) 基于模板的个性化歌唱合成的方法和系统
Moritz et al. An auditory inspired amplitude modulation filter bank for robust feature extraction in automatic speech recognition
CN107851444A (zh) 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用
CN102438189A (zh) 基于双通路声信号的声源定位方法
CN107507625B (zh) 声源距离确定方法及装置
CN107767859A (zh) 噪声环境下人工耳蜗信号的说话人可懂性检测方法
Alku et al. Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering
CN102592589B (zh) 一种动态归一化数字特征的语音评分方法与装置
CN106997765B (zh) 人声音色的定量表征方法
CN111128211B (zh) 一种语音分离方法及装置
CN109791616A (zh) 自动语音识别
CN109767760A (zh) 基于振幅和相位信息的多目标学习的远场语音识别方法
CN104221079A (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
CN107239897A (zh) 一种人格职业类型测试方法及系统
CN108429998A (zh) 音源定位方法和系统、音箱系统定位方法和音箱系统
CN103258537A (zh) 利用特征结合对语音情感进行识别的方法及其装置
CN105609114B (zh) 一种发音检测方法及装置
CN110503941A (zh) 语言能力评测方法、装置、系统、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant