CN113190678B - 基于参数稀疏共享的中国方言语种分类系统 - Google Patents
基于参数稀疏共享的中国方言语种分类系统 Download PDFInfo
- Publication number
- CN113190678B CN113190678B CN202110497757.6A CN202110497757A CN113190678B CN 113190678 B CN113190678 B CN 113190678B CN 202110497757 A CN202110497757 A CN 202110497757A CN 113190678 B CN113190678 B CN 113190678B
- Authority
- CN
- China
- Prior art keywords
- network
- parameter
- dialect
- sparse
- sharing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 230000014759 maintenance of location Effects 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
基于参数稀疏共享的中国方言语种分类系统,包括特征提取模块、基础网络训练模块、子任务网络训练模块、联合训练模块、输出模块;提取语音特征梅尔频率倒谱系数,基于不同的语音特征构建基础网络,定义子任务并基于基础网络为子任务选取测试集准确率表现最优的网络参数;将各个子任务网络集成基于参数稀疏共享机制的模型,并用各个子任务数据集对更新基本网络中对应的子任务网络参数;基于参数稀疏共享机制的模型具有分类准确率高,网络参数精简的优点。将语音特征输入到已训练的基于参数共享机制的模型中,可获取方言语种的预测结果。
Description
技术领域
本发明属于学习语音分类技术领域,特别涉及基于参数稀疏共享的中国方言语种分类系统。
背景技术
语音识别是人机交互的重要组成部分,现如今,基于深度神经学习的语音识别系统日趋成熟,并在导航、沟通、智能家居、车载系统、教学等诸多领域都得到广泛应用。由于用户输入语音存在口音、方言等特征,导致智能语音系统常常出现无法准确识别的问题,进而需要用户矫正口音、重复输入语音指令,严重影响用户使用体验。由此,预先自动判定输入音频语种是提升语音识别系统后端效能的关键步骤。
当前,城市化进程加快,现代教育普及,承载地域文化的方言日渐式微."已成为服务文化建设、中华优秀传统文化传承中国语言资源保护工程”的实施,为记录、保存语言和方言文化提供了绝佳的契机。团队的首要任务,是将方言记录与文化保存结合起来,抢救性地开展工作。方言的保护和研究已成为服务文化建设、中华优秀传统文化传承的名片。当下理应努力挖掘和传承、弘扬方言所承载的地域文化。2020年发布的《中国语言政策研究报告(2020)》(蓝皮书)分析阐述了语言服务,语言研究的重要性和必要性。方言语种识别对中国语言资源保护、语言服务规划的推进有重要意义,对智能应用程序发展提供发展方向。
目前的语音识别系统对于方言识别准确率支持较少,应用范围较小。由于我国民族众多,语言文化差异大,方言多样复杂的特点,方言语种分类不可避免且成为语种识别研究的难点。
发明内容
为克服上述现有技术的不足,本发明的目的是提供基于参数稀疏共享的中国方言语种分类系统,解决现有技术的智能移动设备在预先自动判定输入音频语种的问题;采用参数稀疏共享机制,提供了有较高分类准确率的方言语音参数稀疏共享的中国方言语种分类系统。
为了实现上述目的,本发明采用的技术方案是:基于参数稀疏共享的中国方言语种分类系统,构建基于参数稀疏共享的多任务模型,输入中国方言语音特征,输出对应方言语种,包括有特征提取模块、基础网络训练模块、子任务网络训练模块、联合训练模块、输出模块;所述特征提取模块用于原始音频预处理及MFCC,特征提取;所述基础网络训练模块,针对MFCC特征建立基于CNN_LSTM的神经网络模型,并以此作为基础网络,并优化至表现最优的网络结构;所述子任务网络训练模块选择子任务,使用迭代裁剪方法依次为所述子任务选择最优网络;所述联合训练模块用于将子任务网络及基础网络集成形成基于稀疏共享机制的网络模型,输入各个任务数据更新基于稀疏共享机制的网络模型对应的网络参数并保存模型;所述输出模块用于将语音特征输入至基于稀疏共享机制的网络模型并输出语种预测结果。
所述特征提取模块包括:
1)原始语音缩短或扩充至统一时长2秒;
2)对统一时长的语音预加重、加窗、分帧、傅里叶变换处理;
3)Mel滤波器组处理、取对数、DCT离弦变换获取MFCC特征。
所述基础网络训练模块,该模块建立基于MFCC特征搭建CNN_LSTM网络。所述网络最后一层为所述子任务各自的输出层。
所述子任务各自的输出层均为全连接层,输出大小为子任务分类类别。
所述子任务网络训练模块,该模块子任务为方言语种分类任务(共含10种方言语种)及方言区域分类任务(共含6种方言区域)所述迭代裁剪方法,设定最低参数保留率thred(α)或迭代的最大轮数作为迭代终止的界限,当保留率α小于最低保留率thred(α)或迭代轮数大于迭代的最大轮数则完成迭代,每轮计算裁剪率pruning_rate,pruning_rate指每轮将被裁剪的参数与当前网络保留参数总数的比值,其计算公式为按裁剪率对网络进行裁剪,至此,网络被裁剪的参数总数total_m发生变化,统计参数状态并更新裁剪参数总数total_m,进一步更新参数保留率α,更新公式为α=1-round(100.0*total_m/total_params,2),total_params为参数总数,round()函数对结果进行四舍五入操作,2为结果保留的小数点后的位数;对裁剪后的网络进行训练并保存其准确率、参数及其留存状态,选取准确率最高的网络作为所述子任务网络。所述参数保留率α指保留参数与参数总数的比值,thred(α)为最低参数保留率,其值为10%,所述迭代轮数为裁剪次数,最大迭代轮数为10;所述参数状态使用二进制掩码矩阵M∈{0,1}存储,二进制掩码矩阵M对应值表示参数是否保存。其中对应M值为1表示参数保留,对应M值为0表示参数被裁剪。
所述联合训练模块包括:
1)加载所述子任务对应的M矩阵及子任务各自数据集;
2)加载所述基础网络,交叉输入子任务数据集,输入前加载步骤所述子任务M矩阵进行参数更新;
3)保存模型。
所述子任务数据集分别由方言语种分类数据集和方言区域分类数据集构成,其中方言语种分类数据集由特征及方言语种标签构成,方言区域分类数据集由特征及方言区域标签构成。
所述输出模块,该模块将测试集语音特征输入至联合训练模块所述的网络模型中,输出对应的方言语种。
本发明的有益效果是:
本发明提供的基于多任务学习的参数稀疏共享的中国方言语种分类方法及其系统,针对由于中国方言复杂性多样性造成的方言识别准确率低,识别系统有待提高的状况,提出了基于多任务学习的参数稀疏共享的中国方言语种分类系统。
本发明由于构建了多任务学习模型,并在此基础上采用参数稀疏共享机制;所以具有参数共享灵活,自主确定不同子任务的相关性以及网络模型精简的特点,由此提高了方言语种分类系统的准确率。
附图说明
图1为本发明实现的基于参数稀疏共享的中国方言语种分类系统的流程示意图。
图2为本发明的基于稀疏共享机制模型训练流程图。
具体实施方式
下面通过具体实施例结合附图对本发明的作进一步的详细说明。
参见图1,图1为基于参数稀疏共享的中国方言语种分类系统的流程示意图,包括特征提取模块、基础网络训练模块、子任务网络训练模块、联合训练模块、输出模块;所述特征提取模块用于原始音频预处理及MFCC特征提取;所述基础网络训练模块针对三种特征建立相应的基于LSTM的神经网络模型作为基础网络,并优化至表现最优的网络结构;所述子任务网络训练模块选择子任务,使用迭代裁剪方法依次为所述子任务选择最优网络;所述联合训练模块用于将子任务网络及基础网络集成形成基于稀疏共享机制的网络模型,输入各个任务数据更新基于稀疏共享机制的网络模型对应的网络参数并保存模型。所述输出模块用于将语音特征输入至基于稀疏共享机制的网络模型并输出语种预测结果。
所述特征提取模块包括:
1)原始语音缩短或扩充至统一时长2秒;
2)对所述统一时长的语音预加重、加窗、分帧、傅里叶变换处理;
3)Mel滤波器组处理、取对数、DCT离弦变换获取MFCC特征;
所述基础网络训练模块,基于MFCC特征搭建CNN_LSTM网络,网络模型最后一层为子任务各自的输出层,所述子任务各自的输出层均为全连接层,输出大小为子任务分类类别。
所述子任务网络训练模块,该模块子任务为方言语种分类任务(共含10种方言语种)及方言区域分类任务(共含6种方言区域)所述迭代裁剪方法,设定最低参数保留率thred(α)或迭代的最大轮数作为迭代终止的界限,当保留率α小于最低保留率thred(α)或迭代轮数大于迭代的最大轮数则完成迭代,每轮计算裁剪率pruning_rate,pruning_rate指每轮将被裁剪的参数与当前网络保留参数总数的比值,其计算公式为按裁剪率对网络进行裁剪,至此,网络被裁剪的参数总数total_m发生变化,统计参数状态并更新裁剪参数总数total_m,进一步更新参数保留率α,更新公式为α=1-round(100.0*total_m/total_params,2),total_params为参数总数,round()函数对结果进行四舍五入操作,2为结果保留的小数点后的位数;对裁剪后的网络进行训练并保存其准确率、参数及其留存状态,选取准确率最高的网络作为所述子任务网络。所述参数保留率α指保留参数与参数总数的比值,thred(α)为最低参数保留率,其值为10%,所述迭代轮数为裁剪次数,最大迭代轮数为10;所述参数状态使用二进制掩码矩阵M∈{0,1}存储,二进制掩码矩阵M对应值表示参数是否保存。其中对应M值为1表示参数保留,对应M值为0表示参数被裁剪。
如图2所示不同任务基于基础网络进行裁剪,灰色方格为保留的参数。
所述联合训练模块包括:
1)加载所述子任务对应的M矩阵及子任务各自数据集;
2)加载所述基础网络,如图2所示交叉输入子任务数据集,任务的数据集分别由方言语种分类数据集和方言区域分类数据集构成,其中方言语种分类数据集由特征及方言语种标签构成,方言区域分类数据集由特征及方言区域标签构成。输入前加载步骤所述子任务M矩阵,仅对M矩阵对应值为1的参数进行更新;在交叉训练过程中,部分参数被反复训练,此为子任务共享参数,图中颜色最深的方格表示子任务之间的共享参数;
3)保存模型。
所述输出模块,该模块将测试集语音特征输入至联合训练模块所述的模型中,输出对应的方言语种。
所述子任务数据集分别由方言语种分类数据集和方言区域分类数据集构成,其中方言语种分类数据集由特征及方言语种标签构成,方言区域分类数据集由特征及方言区域标签构成。
所述输出模块,该模块将测试集语音特征输入至联合训练模块所述的网络模型中,输出对应的方言语种。
本方法可以对自然方言语音进行高准确概率分类处理。对模型参数进行裁剪使得模型精简。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.基于参数稀疏共享的中国方言语种分类系统,其特征在于,包括有特征提取模块、基础网络训练模块、子任务网络训练模块、联合训练模块、标签输出模块;所述特征提取模块用于原始音频预处理及音频的MFCC特征提取;所述基础网络训练模块,是针对MFCC特征建立相应的基于长短期记忆网络,并以此作为基础网络,通过不同方言数据训练集,训练基础网络结构;所述子任务网络训练模块,选择子任务,使用迭代裁剪方法依次对所述子任务进行裁剪并保留最优网络结构;所述联合训练模块用于将子任务网络及基础网络集成形成基于稀疏共享机制的网络模型,输入各个任务数据更新基于稀疏共享机制的网络模型对应的网络参数并保存模型;所述输出模块用于将语音特征输入至基于稀疏共享机制的网络模型并输出语种预测结果。
2.根据权利要求1所述的基于参数稀疏共享的中国方言语种分类系统,其特征在于,所述特征提取模块包括:
1)预处理原始音频数据,将原始语音裁剪缩短或通过复制扩充至统一时长2秒;
2)对统一时长的语音预加重、加窗、分帧、傅里叶变换、Mel滤波器组处理、取对数、DCT离弦变换后,最终获取原始音频的MFCC特征。
3.根据权利要求1所述的基于参数稀疏共享的中国方言语种分类系统,其特征在于,所述基础网络训练模块,该模块建立基于MFCC特征搭建CNN_LSTM网络;所述网络最后一层为所述子任务各自的输出层。
4.根据权利要求3所述的基于参数稀疏共享的中国方言语种分类系统,其特征在于,所述基础网络训练模块所述子任务各自的输出层均为全连接层,输出大小为子任务分类类别。
5.根据权利要求1所述的基于参数稀疏共享的中国方言语种分类系统,其特征在于,所述子任务网络训练模块,该模块子任务为方言语种分类任务及方言区域分类任务所述迭代裁剪方法,设定最低参数保留率thred(α)或迭代的最大轮数作为迭代终止的界限,当保留率α小于最低保留率thred(α)或迭代轮数大于迭代的最大轮数则完成迭代,每轮计算裁剪率pruning_rate,pruning_rate指每轮将被裁剪的参数与当前网络保留参数总数的比值,其计算公式为 按裁剪率对网络进行裁剪,至此,网络被裁剪的参数总数total_m发生变化,统计参数状态并更新裁剪参数总数total_m,进一步更新参数保留率α,更新公式为α=1-round(100.0*total_m/total_params,2),total_params为参数总数,round()函数对结果进行四舍五入操作,2为结果保留的小数点后的位数;对裁剪后的网络进行训练并保存其准确率、参数及其留存状态,选取准确率最高的网络作为所述子任务网络。
6.根据权利要求5所述的基于参数稀疏共享的中国方言语种分类系统,其特征在于,所述参数保留率α指保留参数与参数总数的比值,thred(α)为最低参数保留率,其值为10%,所述迭代轮数为裁剪次数,最大迭代轮数为10;所述参数状态使用二进制掩码矩阵M∈{0,1}存储,二进制掩码矩阵M对应值表示参数是否保存;其中对应M值为1表示参数保留,对应M值为0表示参数被裁剪。
7.根据权利要求1所述的基于参数稀疏共享的中国方言语种分类系统,其特征在于,所述联合训练模块包括:
1)加载子任务对应的M矩阵及子任务各自数据集;
2)加载所述基础网络,交叉输入子任务数据集,输入前加载步骤所述子任务M矩阵进行参数更新;
3)保存模型。
8.根据权利要求7所述的基于参数稀疏共享的中国方言语种分类系统,其特征在于,所述联合训练模块,所述子任务数据集分别由方言语种分类数据集和方言区域分类数据集构成,其中方言语种分类数据集由特征及方言语种标签构成,方言区域分类数据集由特征及方言区域标签构成;所述输出模块,该模块将测试集语音特征输入至联合训练模块所述的网络模型中,输出对应的方言语种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497757.6A CN113190678B (zh) | 2021-05-08 | 2021-05-08 | 基于参数稀疏共享的中国方言语种分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497757.6A CN113190678B (zh) | 2021-05-08 | 2021-05-08 | 基于参数稀疏共享的中国方言语种分类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113190678A CN113190678A (zh) | 2021-07-30 |
CN113190678B true CN113190678B (zh) | 2023-10-31 |
Family
ID=76984428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110497757.6A Active CN113190678B (zh) | 2021-05-08 | 2021-05-08 | 基于参数稀疏共享的中国方言语种分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190678B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808573B (zh) * | 2021-08-06 | 2023-11-07 | 华南理工大学 | 基于混合域注意力与时序自注意力的方言分类方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN110491416A (zh) * | 2019-07-26 | 2019-11-22 | 广东工业大学 | 一种基于lstm和sae的电话语音情感分析与识别方法 |
CN111243575A (zh) * | 2020-01-15 | 2020-06-05 | 北京工业大学 | 基于扩张卷积神经网络的方言种属识别方法 |
WO2021082366A1 (zh) * | 2019-10-28 | 2021-05-06 | 南京师范大学 | 基于交互式与迭代式学习的地名标注语料库智能构建方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238845B2 (en) * | 2018-11-21 | 2022-02-01 | Google Llc | Multi-dialect and multilingual speech recognition |
CN110598731B (zh) * | 2019-07-31 | 2021-08-20 | 浙江大学 | 一种基于结构化剪枝的高效图像分类方法 |
-
2021
- 2021-05-08 CN CN202110497757.6A patent/CN113190678B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN110491416A (zh) * | 2019-07-26 | 2019-11-22 | 广东工业大学 | 一种基于lstm和sae的电话语音情感分析与识别方法 |
WO2021082366A1 (zh) * | 2019-10-28 | 2021-05-06 | 南京师范大学 | 基于交互式与迭代式学习的地名标注语料库智能构建方法 |
CN111243575A (zh) * | 2020-01-15 | 2020-06-05 | 北京工业大学 | 基于扩张卷积神经网络的方言种属识别方法 |
Non-Patent Citations (2)
Title |
---|
基于参数迁移和卷积循环神经网络的语音情感识别;缪裕青;邹巍;刘同来;周明;蔡国永;;计算机工程与应用(10);全文 * |
基于多任务学习的方言语种识别;秦晨光;王海;任杰;郑杰;袁璐;赵子鑫;;计算机研究与发展(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113190678A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104143327B (zh) | 一种声学模型训练方法和装置 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN107221320A (zh) | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 | |
CN110164452A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN111522839B (zh) | 一种基于深度学习的自然语言查询方法 | |
CN110782335B (zh) | 基于人工智能处理信贷数据的方法、装置及存储介质 | |
CN111276131A (zh) | 一种基于深度神经网络的多类声学特征整合方法和系统 | |
CN107180628A (zh) | 建立声学特征提取模型的方法、提取声学特征的方法、装置 | |
CN109918663A (zh) | 一种语义匹配方法、装置及存储介质 | |
GB2424502A (en) | Apparatus and method for model adaptation for spoken language understanding | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN110910891B (zh) | 基于长短时记忆深度神经网络的说话人分段标注方法 | |
CN110415701A (zh) | 唇语的识别方法及其装置 | |
CN112735482B (zh) | 基于联合深度神经网络的端点检测方法及系统 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
CN113241064B (zh) | 语音识别、模型训练方法、装置、电子设备和存储介质 | |
CN111651572A (zh) | 一种多领域任务型对话系统、方法和终端 | |
CN109344242A (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN113190678B (zh) | 基于参数稀疏共享的中国方言语种分类系统 | |
CN112559797A (zh) | 一种基于深度学习的音频多标签分类方法 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN111179944B (zh) | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 | |
CN112509560A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |