CN107945791B - 一种基于深度学习目标检测的语音识别方法 - Google Patents
一种基于深度学习目标检测的语音识别方法 Download PDFInfo
- Publication number
- CN107945791B CN107945791B CN201711268206.2A CN201711268206A CN107945791B CN 107945791 B CN107945791 B CN 107945791B CN 201711268206 A CN201711268206 A CN 201711268206A CN 107945791 B CN107945791 B CN 107945791B
- Authority
- CN
- China
- Prior art keywords
- training
- spectrogram
- voice
- box
- iou
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 2
- 241000282414 Homo sapiens Species 0.000 description 9
- 238000011161 development Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习目标检测的语音识别方法,包括步骤:1)对输入语音进行录制存储;2)将语音转化为语谱图,通过短时傅里叶变换将原始语音转化为时频分析图;3)对语谱图的局部有效区域进行标注;4)将有标注的语谱图作为输入,使用目标检测网络对其进行有监督的训练;5)将检测网络的输出结果对应到相应的文字,作为最终的输出。本发明将语音识别技术与目标检测技术相结合,针对有效的时频交叉区域进行识别,克服了嘈杂环境中高频噪音的影响,改善了现有语音识别技术在噪音环境下的不足。
Description
技术领域
本发明涉及深度学习语音识别的技术领域,尤其是指一种基于深度学习目标检测的语音识别方法。
技术背景
长久以来,语音作为人类特有的能力备受关注,它是人类之间交流以及人类获取外界信息资源的最重要的工具和渠道。随着移动互联网的不断发展,人与计算机以及人与移动设备的自由交互越来越被重视。语音作为人类重要的交流工具被首要考虑融入移动互联网领域,它主要包括三项技术:语音识别、语音编码和语音合成。其中,语音识别指的是将语音翻译成文字,它是人机交互分支中的一个重要组成,是实现人类与智能设备交互的关键方法与技术,使得机器能够听懂人类的语言,近一步推动了人工智能的发展。语音识别从发展到现在,已经融入了人类生活的方方面面,例如语音搜索、语音打字、语音控制机器人等,给人类的生活带来了极大的便利。
自20世纪70年代发展以来,语音识别一直以隐马尔科夫模型(HMM)为基础,但识别效果并不理想。直到21世纪初期,高斯混合隐马尔科夫模型(GMM-HMM)的出现极大地降低了语音识别的错误率,但仍然离商业化标准较远。近年来,随着深度学习的热潮再次涌起,基于深度神经网络的语音识别系统也随之火热,不仅在已有的最好系统基础上将错误率再次减低30%甚至更多,而且由于计算机基础设备的发展和大数据的产生,语音识别已经成为了具有商业标准的前沿技术。
虽然语音识别技术目前已经相当成熟,但是在噪音环境下的语音识别效果仍然不理想。大多数语音识别系统只考虑语音的时域信息,对频域部分不予考虑,这使得语音识别在噪音环境中难以应用,例如在工厂车间环境下,语音识别仍然很困难,在工业的实时系统中难以应用,这极大的阻碍了工业生产的智能化发展。
因此需要一种基于深度学习目标检测的语音识别方法来降低噪音对识别效果的影响,该方法使用深度学习对语谱图进行检测,而基于语谱图的语音识别不仅可以考虑语音的时域信号,还能兼顾频域信号,对时域与频域的有效交叉区域进行检测识别,可以避免高频噪音的影响,提高识别准确率,促使语音识别的应用范围更广。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于深度学习目标检测的语音识别方法,该方法考虑了噪音环境下语音识别困难的问题,提高了复杂环境中语音识别的准确率,实现了更好的语音识别效果。
为实现上述目的,本发明所提供的技术方案为:一种基于深度目标检测的语音识别方法,包括以下步骤:
1)对输入语音进行录制存储,利用声卡采集声音数据并保存;
2)将语音转化为语谱图,具体是:利用短时傅里叶变换对步骤1)采集的声音数据进行处理,将原始语音信号用三维图谱的方式显示,其中,横轴表示时间,纵轴表示频率,颜色深浅表示局部时频交叉域能量的大小;
3)制作语谱图数据集,对语谱图的局部有效区域进行标注,具体是:利用标注工具对步骤2)变换的语谱图中的有效交叉区域进行标注,得到每个有效区域的边界框(bounding box)信息并保存,制作成为数据集,再将数据集分为训练集和验证集;
4)将有标注的语谱图训练集作为输入,对检测模型进行有监督的训练,这里的检测模型使用YOLOv2目标检测模型,该检测模型是一个端到端的网络结构,具有实时性,具体如下:
4.1)维度聚类:在训练开始之前选择出更合适的先验框(box)的维度,能够提高预测的准确率;具体做法是采用k-means聚类方法训练bounding box,自动找到与所有bounding box宽高纬度最接近的box维度;k-means聚类算法是采用距离作为相似性评价指标,即被聚类的两个对象距离越近,两者的相似度越高,距离同一个聚类中心(centroid)比其他聚类中心更近的几个对象被认为是统一类别的对象,最终得到的结果是k个聚类中心点;改进的评价指标采用IOU得分制,其中IOU指的是两个边框的交集与并集之比,例如有框A与框B,用S(A∩B)表示A与B相交的面积,S(A∪B)表示A与B相并的面积,则A与B的IOU计算公式如下:
每个box到聚类中心点的IOU即该box属于这个中心点所指类别的概率,IOU越大,相反的计算距离越小,该box属于该类的可能性越大,最终得到的距离公式如下:
d(box,centroid)=1-IOU(box,centroid)
其中,box为先验框,centroid为距离中心;
4.2)参数调整:针对不同的数据集训练网络需要使用不同的参数。例如根据训练集中的类别修改配置文件中classes选项的数值和names文件中类别的名称,根据训练集和验证集的所在文件路径修改data文件中train和validate的参数值;最终配置文件中输出层的参数个数为K*(4+1+C),其中,K为步骤4.1)中通过k-means算法得到最合适的先验框的个数,而步骤4.1)中YOLOv2的每个先验框包含(4+1+C)个参数,其中数字4为每个先验框的坐标参数个数,数字1为Confidence,是每个先验框的置信度,C指的是训练集样本类别的个数;
4.3)训练网络:在终端命令行中输入训练命令,调用步骤4.2)修改过参数的配置文件,开始对网络进行有监督的训练;
5)测试训练结果,具体是:将步骤4.3)训练得到的最终权重作为测试使用的权重,对需要测试语谱图数据进行测试,将得到的预测结果转换成对应的文字并输出。
本发明与现有技术相比,具有以下优点与有益效果:
1、本发明使用语谱图来进行语音识别,相比传统的语音识别方法,语谱图能够同时展现时域与频域的信息,能够更好的表达语音信息。
2、使用深度学习目标检测方法对语谱图的局部有效区域进行检测,能够避免高频噪音的影响,提高噪音环境下语音识别的准确率。
3、本发明是基于端到端的语音识别系统,不仅具有实时性,而且应用场景更为广泛,推动了人工智能的发展。
附图说明
图1为本发明方法的逻辑流程示意图。
图2为检测框与边界框的IOU示例图。
图3为检测框示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于深度学习目标检测的语音识别方法,包括以下步骤:
1)对输入语音进行录制存储,利用声卡采集声音数据并保存,数据保存格式为wav格式。声音数据内容是中文1-10,分别由5个不同的人进行录制,每个人重复朗读10个数字重复100遍,录音环境为无声环境,得到干净声音数据。为对比噪音环境下的识别效果,将干净声音数据中加入工厂噪音,得到带有噪音的500条声音数据。
2)将语音转化为语谱图,具体是:利用短时傅里叶变换对步骤1)采集到的500条干净声音数据和500条含噪声音数据进行处理,分别变换成500张纯净语谱图和500张含噪语谱图,每张语谱图包含10条语音信息。
3)制作语谱图数据集,对语谱图的局部有效区域进行标注,具体是:利用标注工具LableImage对步骤2)变换的500张干净语谱图和500张含噪语谱图的有效交叉区域进行标注,将能表示语音信号的区域标注为对应语音的标签,最终两种数据集分别生成含有标签和标注边界参数(bounding box)的500个xml文件,其中每种数据集中的400个xml文件作为训练集来训练网络,剩余100个xml文件作为验证集来验证网络效果。由于人的发声频率最多不差过8000Hz,正常的发声频率在5000Hz以下,而工厂的噪音频率一般在8000Hz以上,因此标注区域是在语谱图的0-5000Hz频域区间。
4)将有标注的语谱图训练集作为输入,对检测模型进行有监督的训练,这里的检测模型使用YOLOv2目标检测模型,该检测模型是一个端到端的网络结构,具有实时性,具体如下:
4.1)维度聚类:在训练开始之前选择出更合适的先验框(box)的维度,能够提高预测的准确率。因为语谱图中信号的边界框宽高比与常见图像的宽高比相差较大,因此需要重新聚类。具体做法是采用k-means聚类方法训练步骤3)中标注的bounding box,自动找到与所有bounding box宽高纬度最接近的box维度。根据步骤3)制作的语谱图数据集,k-means最终选出4个尺度的box最为合适。每个尺度的box被称作detection box(DB),实际标注的bounding box被称作ground truth(GT),如图2所示,两个的IOU计算公式如下:
每个detection box与相近ground truth的IOU即为该检测框内的目标为groundtruth对应标签类别的概率,IOU越大,检测目标为该标签的概率越大,最终定义的公式如下:
d(box,centroid)=1-IOU(box,centroid)
4.2)参数调整:针对不同的数据集训练网络需要使用不同的参数。例如根据训练集中的类别修改配置文件中classes选项的数值为10,names文件中类别的名称为数字1-10,根据训练集和验证集的所在文件路径修改data文件中train和validate为实际路径。步骤4.1)通过k-means算法得到了4个尺度最合适检测框,并且YOLOv2的每个box包含15个参数,如图3所示,其中4个参数为每个检测框的左上角坐标(x,y)和检测框的宽高(w,h),1个参数是confidence,是每个检测框的置信度,10个参数是训练集样中10个数字的类别数(Classes),因此最终配置文件中输出层的参数将应该修改为60。为了使网络训练结果更好,且不发生过拟合现象,训练的迭代次数置为60000次。由于设备条件的限制,无法一次性训练全部数据,需要使用mini-batch方法,将训练集分成8个子集,每次训练使用一个子集,投入网络50张图片。
4.3)训练网络:在终端命令行中输入训练命令,调用步骤4.2)修改过参数的配置文件,将两种不同的数据集分别输入网络中进行有监督的训练,每种数据集重复训练四次,最终得到的训练结果如下表1所示(WRE表示错词率)。
表1训练结果
数据集 | 干净语音 | 含噪语音 |
WRE1 | 4.53% | 6.38% |
WRE2 | 4.45% | 6.75% |
WRE3 | 4.76% | 6.42% |
WRE4 | 4.32% | 6.56% |
5)测试训练结果,具体是:将步骤4.3)训练得到的两种权重作为测试使用的权重,在静音环境中和嘈杂环境中分别录制新的语音数据1-10,纯净语音数据集训练得到的权重对新录制的语音识别效果更好,输出结果与新数据完全相符,含噪语音数据集训练得到的权重对新录制的语音识别效果相对较差,输出结果中有2个数字识别错误。
综上所述,在采用以上方案后,本发明为语音识别提供了新的方法,避免了高频噪音的影响,提高了识别准确率,有效扩大语音识别的应用范围,具有实际推广价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (1)
1.一种基于深度学习目标检测的语音识别方法,其特征在于,包括以下步骤:
1)对输入语音进行录制存储,利用声卡采集声音数据并保存;
2)将语音转化为语谱图,具体过程是:利用短时傅里叶变换对步骤1)采集的声音数据进行处理,将原始语音信号用三维图谱的方式显示,其中,横轴表示时间,纵轴表示频率,颜色深浅表示局部时频交叉域能量的大小;
3)制作语谱图数据集,对语谱图的局部有效区域进行标注,具体过程是:利用标注工具对步骤2)变换的语谱图中的有效交叉区域进行标注,得到每个有效区域的边界框信息并保存,制作成为数据集,再将数据集分为训练集和验证集;
4)将有标注的语谱图训练集作为输入,对检测模型进行有监督的训练,这里的检测模型使用YOLOv2目标检测模型,该检测模型是一个端到端的网络结构,具有实时性,具体如下:
4.1)维度聚类:在训练开始之前选择出所需的先验框的维度,能够提高预测的准确率;具体做法是采用k-means聚类方法训练边界框,自动找到与所有边界框宽高纬度最接近的先验框维度;k-means聚类算法是采用距离作为相似性评价指标,即被聚类的两个对象距离越近,两者的相似度越高,距离同一个聚类中心比其它聚类中心更近的几个对象被认为是统一类别的对象,最终得到的结果是k个聚类中心点;改进的评价指标采用IOU得分制,其中IOU指的是两个边框的交集与并集之比,设有框A与框B,用S(A∩B)表示A与B相交的面积,S(A∪B)表示A与B相并的面积,则A与B的IOU计算公式如下:
每个先验框到聚类中心点的IOU即该先验框属于这个中心点所指类别的概率,IOU越大,相反的计算距离越小,该先验框属于该类的可能性越大,最终得到的距离公式如下:
d(box,centroid)=1-IOU(box,centroid)
其中,box为先验框,centroid为距离中心;
4.2)参数调整:针对不同的数据集训练网络需要使用不同的参数,根据训练集中的类别修改配置文件中classes选项的数值和names文件中类别的名称,根据训练集和验证集的所在文件路径修改data文件中train和validate的参数值;最终配置文件中输出层的参数个数为K*(4+1+C),其中,K为步骤4.1)中通过k-means算法得到最合适的先验框的个数,而步骤4.1)中YOLOv2的每个先验框包含(4+1+C)个参数,其中数字4为每个先验框的坐标参数个数,数字1为Confidence,是每个先验框的置信度,C指的是训练集样本类别的个数;
4.3)训练网络:在终端命令行中输入训练命令,调用步骤4.2)修改过参数的配置文件,开始对网络进行有监督的训练;
5)测试训练结果,具体过程是:将步骤4.3)训练得到的最终权重作为测试使用的权重,对需要测试语谱图数据进行测试,将得到的预测结果转换成对应的文字并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711268206.2A CN107945791B (zh) | 2017-12-05 | 2017-12-05 | 一种基于深度学习目标检测的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711268206.2A CN107945791B (zh) | 2017-12-05 | 2017-12-05 | 一种基于深度学习目标检测的语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107945791A CN107945791A (zh) | 2018-04-20 |
CN107945791B true CN107945791B (zh) | 2021-07-20 |
Family
ID=61945844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711268206.2A Active CN107945791B (zh) | 2017-12-05 | 2017-12-05 | 一种基于深度学习目标检测的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107945791B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985222B (zh) * | 2018-07-12 | 2024-02-20 | 天津艾思科尔科技有限公司 | 一种用于接打电话识别的深度学习网络模型及系统 |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
CN109448733A (zh) * | 2019-01-07 | 2019-03-08 | 广州势必可赢网络科技有限公司 | 一种语谱图生成方法、系统及相关装置 |
CN109817192A (zh) * | 2019-01-21 | 2019-05-28 | 深圳蜜蜂云科技有限公司 | 一种智能陪练方法 |
CN110135408B (zh) * | 2019-03-26 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 文本图像检测方法、网络以及设备 |
CN110299132B (zh) * | 2019-06-26 | 2021-11-02 | 京东数字科技控股有限公司 | 一种语音数字识别方法和装置 |
CN111128131B (zh) * | 2019-12-17 | 2022-07-01 | 北京声智科技有限公司 | 语音识别方法、装置、电子设备及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9418663B2 (en) * | 2014-07-31 | 2016-08-16 | Google Inc. | Conversational agent with a particular spoken style of speech |
US9548048B1 (en) * | 2015-06-19 | 2017-01-17 | Amazon Technologies, Inc. | On-the-fly speech learning and computer model generation using audio-visual synchronization |
CN106652999A (zh) * | 2015-10-29 | 2017-05-10 | 三星Sds株式会社 | 语音识别系统以及方法 |
US20170148433A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | Deployed end-to-end speech recognition |
CN106898350A (zh) * | 2017-01-16 | 2017-06-27 | 华南理工大学 | 一种基于深度学习的智能工业机器人语音交互与控制方法 |
CN107077842A (zh) * | 2014-12-15 | 2017-08-18 | 百度(美国)有限责任公司 | 用于语音转录的系统和方法 |
CN107301859A (zh) * | 2017-06-21 | 2017-10-27 | 南京邮电大学 | 基于自适应高斯聚类的非平行文本条件下的语音转换方法 |
-
2017
- 2017-12-05 CN CN201711268206.2A patent/CN107945791B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9418663B2 (en) * | 2014-07-31 | 2016-08-16 | Google Inc. | Conversational agent with a particular spoken style of speech |
CN107077842A (zh) * | 2014-12-15 | 2017-08-18 | 百度(美国)有限责任公司 | 用于语音转录的系统和方法 |
US9548048B1 (en) * | 2015-06-19 | 2017-01-17 | Amazon Technologies, Inc. | On-the-fly speech learning and computer model generation using audio-visual synchronization |
CN106652999A (zh) * | 2015-10-29 | 2017-05-10 | 三星Sds株式会社 | 语音识别系统以及方法 |
US20170148433A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | Deployed end-to-end speech recognition |
CN106898350A (zh) * | 2017-01-16 | 2017-06-27 | 华南理工大学 | 一种基于深度学习的智能工业机器人语音交互与控制方法 |
CN107301859A (zh) * | 2017-06-21 | 2017-10-27 | 南京邮电大学 | 基于自适应高斯聚类的非平行文本条件下的语音转换方法 |
Non-Patent Citations (6)
Title |
---|
Deep networks tag the location of bird vocalisations on audio spectrograms;Fanioudakis L等;《https://arxiv.org/abs/1711.04347》;20171112;全文 * |
Fast r-cnn;Girshick R;《Proceedings of the IEEE international conference on computer vision》;20160216;全文 * |
Faster R-CNN: towards real-time object detection with region proposal networks;Girshick R等;《IEEE transactions on pattern analysis and machine intelligence》;20160606;全文 * |
Houdini: Fooling deep structured prediction models;Cisse M等;《https://arxiv.org/abs/1707.05373》;20170717;全文 * |
Speech Recognition Method Based on Spectrogram;Li Y等;《International Conference on Mechatronics and Intelligent Robotics》;20181005;全文 * |
基于深度学习的工业机械手语音控制方法研究;李莹莹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107945791A (zh) | 2018-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945791B (zh) | 一种基于深度学习目标检测的语音识别方法 | |
WO2021232725A1 (zh) | 基于语音交互的信息核实方法、装置、设备和计算机存储介质 | |
CN109523993B (zh) | 一种基于cnn与gru融合深度神经网络的语音语种分类方法 | |
CN109065031B (zh) | 语音标注方法、装置及设备 | |
CN109192213B (zh) | 庭审语音实时转写方法、装置、计算机设备及存储介质 | |
CN106980624B (zh) | 一种文本数据的处理方法和装置 | |
US9299347B1 (en) | Speech recognition using associative mapping | |
CN103065620B (zh) | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 | |
CN109036467B (zh) | 基于tf-lstm的cffd提取方法、语音情感识别方法及系统 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN105810212B (zh) | 一种复杂噪声环境下的列车鸣笛识别方法 | |
CN105869624A (zh) | 数字语音识别中语音解码网络的构建方法及装置 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN106340297A (zh) | 一种基于云计算与置信度计算的语音识别方法与系统 | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
CN109377981B (zh) | 音素对齐的方法及装置 | |
CN112397054B (zh) | 一种电力调度语音识别方法 | |
CN109243460A (zh) | 一种自动生成基于地方方言的讯或询问笔录的方法 | |
CN101515456A (zh) | 语音识别接口装置及其语音识别方法 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
US20240177697A1 (en) | Audio data processing method and apparatus, computer device, and storage medium | |
Nwe et al. | Speaker clustering and cluster purification methods for RT07 and RT09 evaluation meeting data | |
CN109461447B (zh) | 一种基于深度学习的端到端说话人分割方法及系统 | |
CN105632485A (zh) | 一种基于语种识别系统的语言距离关系的获取方法 | |
Zheng et al. | Speech Emotion Recognition based on Multi-Level Residual Convolutional Neural Networks. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |