CN112420028B - 一种用于对语音信号进行语义识别的系统及方法 - Google Patents
一种用于对语音信号进行语义识别的系统及方法 Download PDFInfo
- Publication number
- CN112420028B CN112420028B CN202011412947.5A CN202011412947A CN112420028B CN 112420028 B CN112420028 B CN 112420028B CN 202011412947 A CN202011412947 A CN 202011412947A CN 112420028 B CN112420028 B CN 112420028B
- Authority
- CN
- China
- Prior art keywords
- text
- dimensional
- voice
- input
- characteristic representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 18
- 230000001537 neural effect Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种用于对语音信号进行语义识别的系统及方法,本发明实施例在电信通讯网络中设置基于注意力机制(Attention)的端到端系统(LAS,Listen,Attention,Spell)、BERT模型及基于神经网络构建的语音文本混合子系统,其中,电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将对应的文本信息输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;BERT模型对输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。本发明通过语音和语义两个模态的信息融合,显著提升对语音信号进行语义识别的准确率。
Description
技术领域
本发明涉及计算机人工智能技术领域,特别涉及一种用于对语音信号进行语义识别的系统及方法。
背景技术
在过去30年间,电信通讯技术得到非常好的普及,基于电信通信技术设置的电信通讯网络给人们生活带来便利的同时,也有不法分子使用电信通讯网络进行诈骗活动,给人们生活带来非常大的潜在风险。随着计算机人工智能技术的飞速发展和普及,会尝试将人工智能技术应用到电信通讯网络中,对电信通讯网络中的语音进行语音识别,以确认是否是电信诈骗。图1为现有技术提供的电信通讯网络中基于语音识别技术进行的电信反诈骗应用的方法流程图,通常,在电信通讯网络中增加由供应商提供的语音识别系统,对电信通讯网络的电信通话中的语音进行识别后,得到对应的文本信息,基于预先设置的诈骗关键词列表对对应的文本信息进行检索,根据检索结果确认是否为诈骗电信通话。在这里,关键词检索仅仅是一个正则匹配过程或模糊匹配过程。
采用图1所述的方式进行电信反诈骗应用,存在以下缺陷:供应商提供的语音识别系统有很大可能与当前的应用场景不匹配,导致语音识别的效果,特别是对一些专有名词识别准确率不高,直接导致后续的诈骗关键词列表无法检索到,导致识别失败。其中对对应的文本信息进行检索采用的是正则匹配过程或模糊匹配过程,并没有对对应的文本信息进行上下文理解,导致匹配的结果可用性不高,检索结果的准确率低。
综上,目前在电信通讯网络中所应用的语音识别技术缺乏对语音信息的理解,导致语音识别得到的语义准确率低,泛化能力差,推广性不强及时效性能弱等问题。
发明内容
有鉴于此,本发明实施例提供了一种用于对语音信号进行语义识别的系统,该系统在电信通讯网络对语音信号进行语义识别时,提高语义识别的准确率。
本发明实施例还提供一种语义识别的方法,该方法在电信通讯网络对语音信号进行语义识别时,提高语义识别的准确率。
本发明实施例是这样实现的:
一种用于对语音信号进行语义识别的系统,所述系统设置在电信通信网络中,包括:基于注意力机制的端到端系统LAS、BERT模型及语音文本混合子系统,其中,
LAS,用于获取电信通讯网络中的语音信号,进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型,用于对LAS输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统,用于对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行分类处理,得到语义识别结果。
较佳地,所述LAS是采用基于注意力机制的神经网络训练得到的,由编码模块、注意力机制模块及解码模块组成,其中,
编码模块,用于对电信通讯网络中的语音信号进行编码,形成高维特征表示;
注意力机制模块,用于对所形成的高维特征表示进行语义预测相关部分的提取后,将提取后的高维特征表示发送给解码模块;
解码模块,用于接收注意力机制模块发送的提取后的高维特征表示,进行语义预测,得到高维声学特征表示及对应的文本信息。
较佳地,所述LAS在训练时采用
进行训练,
其中,θ表示LAS采用的神经网络参数,x表示语音信号,y表示语音信号对应的文本信息。
较佳地,所述BERT模型采用无监督文本预料进行预训练后得到。
较佳地,所述语音文本混合子系统采用神经网络训练得到,包括:池化层模块及多层感知MLP自然语言神经子网络,其中,
池化层模块,用于分别对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行池化后,输入到MLP自然语言神经子网络中;
MLP自然语言神经子网络,用于对经过池化的高维声学特征表示及高维文本特征表示进行处理,得到语义识别结果。
较佳地,所述系统应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统,还用户进行分类处理,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
一种用于对语音信号进行语义识别的方法,该方法包括:
在电信通讯网络中设置基于LAS、BERT模型及语音文本混合子系统;
电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型对输入的对应的文本信息果进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。
较佳地,所述LAS是采用基于注意力机制的神经网络训练得到的;
所述BERT模型是采用无监督文本预料经过预训练后得到的;
所述语音文本混合子系统采用神经网络训练得到的。
较佳地,所述方法应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统进行分类处理时,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
如上所见,本发明实施例在电信通讯网络中设置基于注意力机制(Attention)的端到端系统(LAS,Listen,Attention,Spell)、BERT模型及基于神经网络构建的语音文本混合子系统,其中,电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将对应的文本信息输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;BERT模型对输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。由于本发明实施例在用于对语音信号进行语义识别时,不仅仅可以获取到语音识别的文本特征,而且还可以得到语音的声学特征,在最终由语音文本混合子系统识别时给语音的语义理解提供能够更加丰富的信息,从而显著地提升用于对语音信号进行语义识别的准确率。
附图说明
图1为本发明实施例提供的一种用于对语音信号进行语义识别的系统结构示意图;
图2为本发明实施例提供的LAS的机构示意图;
图3为本发明实施例提供的语音文本混合子系统结构示意图;
图4为本发明实施例提供的一种用于对语音信号进行语义识别的方法流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
从背景技术可以看出,造成电信通讯网络中语音信号的语义识别的准确率不高的原因主要是因为供应商提供的语音识别系统在识别语音时由于语音信号差而不准确,导致的对应文本不准确,而基于正则匹配方式或模糊匹配方式进一步对对应文本进行欺诈关键词的检索时,检索能力不够,无法理解结合对应文本的上下文理解对应文本的语义,导致了得到检索结果的准确率低。
为了解决这个问题,本发明实施例在电信通讯网络中设置基于LAS、BERT模型及基于神经网络构建的语音文本混合子系统,其中,电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将对应的文本信息输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;BERT模型对输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到用于对语音信号进行语义识别的语义识别结果。
由于本发明实施例在用于对语音信号进行语义识别时,不仅仅可以获取到语音识别的文本特征,而且还可以得到语音的声学特征,在最终由语音文本混合子系统识别时给语音的语义理解提供能够更加丰富的信息,从而显著地提升用于对语音信号进行语义识别的准确率。
具体地说,本发明实施例在电信通讯网络中实现用于对语音信号进行语义识别时采用了LAS技术作为语义识别的基础框架,并结合了BERT模型对对应的文本信息进行准确地语义理解后,最终使用采用音+语音多模态技术构建基于神经网络的语音文本混合子系统进行分类处理,得到最终的语义识别结果。
图1为本发明实施例提供的一种用于对语音信号进行语义识别的系统结构示意图,所述系统设置在电信通信网络中,包括:LAS、BERT模型及基于神经网络构建的语音文本混合子系统,其中,
LAS,用于获取电信通讯网络中的语音信号,进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型,用于对LAS输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统,用于对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行分类处理,得到语义识别结果。
从该系统可以看出,LAS主要用于将语音信号转换为文本且从中提取出高维声表示,而BERT模型主要对文本信息进行准确语义的理解,得出高维文本特征表示,而语音文本混合子系统在进行分类处理时,则基于高维声学特征表示和高维文本特征表示得出用于对语音信号进行语义识别的语义识别结果,使得得到的识别结果更加准确。
所述系统应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统,还用户进行分类处理,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
在这里,高维声学特征表示及高维文本特征表示分别是采用向量表示的,高维的含义是向量的纬度设定的比较高,比如设定为至少大于三维的设定纬度,其向量中的信息表示含量比较多。具体高维声学特征表示及高维文本特征表示的纬度,分别是由LAS和BERT模型确定的。
以下对该系统的每个模块进行详细说明。
图2为本发明实施例提供的LAS的机构示意图,该LDS由编码(encoder)模块、注意力机制(Attention)模块及解码(decoder)模块组成,其中,
编码模块,用于对电信通讯网络中的语音信号进行编码,形成高维特征表示;
注意力机制模块,用于对所形成的高维特征表示进行语义预测相关部分的提取后,将提取后的高维特征表示发送给解码模块;
解码模块,用于接收注意力机制模块发送的提取后的高维特征表示,进行语义预测,得到高维声学特征表示及对应的文本信息。
实际上,LAS也是神经网络的一种,其是经过训练构建得到的。在训练时,采用了公式(1)表示的神经网络进行训练,
其中,θ表示LAS采用的神经网络参数,x表示语音信号,y表示语音信号对应的预测语义,通过优化语音信号对应语义的最大似然函数,来不断更新迭代模型参数θ,从而完成LAS的训练,训练结束后。在训练结束后,得到训练好的LAS,通过训练好的LAS就可以对语音信号进行处理,得到高维声学特征表示及对应的文本信息。
BERT模型是当前自然语音理解(NLU)网络最流行且效果最优的语义预训练模型,其通过定于掩码语言模型(Mask Language Model)这个任务,通过海量的无监督文本预料,就可以学习到文本特征表示,供下游的NLU网络使用。本发明实施例通过互联网抓取海量的无监督文本预料,使得BERT模型进行预训练。在使用经过了预训练的BERT模型时,则将LAS输出的对应的文本信息输入到该BERT模型中,获得高维文本特征表示,得到的高维文本特征有很强的语义信息。
图3为本发明实施例提供的语音文本混合子系统结构示意图,包括:池化层模块及多层感知(MLP)自然语言神经子网络,其中,
池化层模块,用于分别对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行池化后,输入到MLP自然语言神经子网络中;
MLP自然语言神经子网络,用于对经过池化的高维声学特征表示及高维文本特征表示进行处理,得到语义识别结果。
本发明实施例的语音文本混合子系统是经过训练得到的,其在进行分类处理时,不仅仅依据了BERT模型处理后的语义特征,而且还依据了LAS识别得到的高纬度声学特征,所以在进行分类时更加准确。
图4为本发明实施例提供的一种用于对语音信号进行语义识别方法流程图,其具体步骤包括:
步骤401、在电信通讯网络中设置基于LAS、BERT模型及基于神经网络构建的语音文本混合子系统;
步骤402、电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
步骤403、BERT模型对输入的对应的文本信息果进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
步骤404、语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。
所述方法应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统进行分类处理时,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。在该方法中,LAS是经过训练得到的,LAS是基于注意力机制的神经网络;BERT模型是采用了海量的无监督文本预料经过了预训练后得到的,其可以准确对对应的文本信息进行准确的语义理解;语音文本混合子系统是经过训练得到的,其根据LAS得到的高维声学特征表示及BERT模型得到的高纬文本特征表示,进行分类处理,得到了最终的语义识别结果。
可以看出,本发明实施例针对电信通讯网络中的电信反诈骗应用,可以将语音信号转换为诈骗类型的分类结果,整个任务核心技术形成闭环,可以有效地针对电信业务的痛点进行有效地解决,并且将语音识别和语义理解解耦成功能模块,可以单独使用,于此同时还在其中设置了语音文本混合子系统来综合处理声学特征和文本特征,有效提升业务场景的性能。
本发明实施例通过使用海量的无监督文本预料对BERT模型进行预训练,将语音识别结果进行高维度的语义特征表示出,有效地降低了文本的标注数量,并且可以非常高准确度地进行诈骗类型分类。本发明实施例在使用BERT模型编码得到高维度语义特征表示的同时,还综合使用语音信号的高维度声学特征表示,缓解由于语音识别准确的不够导致诈骗分类不准确的问题;结合语音和文本,使得电信通讯网络在进行诈骗语义识别时的性能和准确率大幅提升。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (6)
1.一种用于对语音信号进行语义识别的系统,其特征在于,所述系统设置在电信通信网络中,包括:基于注意力机制的端到端系统LAS、BERT模型及语音文本混合子系统,其中,
LAS,用于获取电信通讯网络中的语音信号,进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型,用于对LAS输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统,用于对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行分类处理,得到语义识别结果;
所述LAS是采用基于注意力机制的神经网络训练得到的,由编码模块、注意力机制模块及解码模块组成,其中,
编码模块,用于对电信通讯网络中的语音信号进行编码,形成高维特征表示;
注意力机制模块,用于对所形成的高维特征表示进行语义预测相关部分的提取后,将提取后的高维特征表示发送给解码模块;
解码模块,用于接收注意力机制模块发送的提取后的高维特征表示,进行语义预测,得到高维声学特征表示及对应的文本信息;
所述语音文本混合子系统采用神经网络训练得到,包括:池化层模块及多层感知MLP自然语言神经子网络,其中,
池化层模块,用于分别对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行池化后,输入到MLP自然语言神经子网络中;
MLP自然语言神经子网络,用于对经过池化的高维声学特征表示及高维文本特征表示进行处理,得到语义识别结果。
2.如权利要求1所述的系统,其特征在于,所述LAS在训练时采用
进行训练,
其中,θ表示LAS采用的神经网络参数,x表示语音信号,y表示语音信号对应的文本信息。
3.如权利要求1所述的系统,其特征在于,所述BERT模型采用无监督文本预料进行预训练后得到。
4.如权利要求1所述的系统,其特征在于,所述系统应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统,还用户进行分类处理,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
5.一种采用任一权利要求1~4所述的系统的用于对语音信号进行语义识别的方法,其特征在于,该方法包括:
在电信通讯网络中设置基于LAS、BERT模型及语音文本混合子系统;
电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型对输入的对应的文本信息果进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果;
所述LAS是采用基于注意力机制的神经网络训练得到的;
所述BERT模型是采用无监督文本预料经过预训练后得到的;
所述语音文本混合子系统采用神经网络训练得到的;
所述语音文本混合子系统采用神经网络训练得到,包括:池化层模块及多层感知MLP自然语言神经子网络,其中,
池化层模块,用于分别对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行池化后,输入到MLP自然语言神经子网络中;
MLP自然语言神经子网络,用于对经过池化的高维声学特征表示及高维文本特征表示进行处理,得到语义识别结果。
6.如权利要求5所述的方法,其特征在于,所述方法应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统进行分类处理时,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412947.5A CN112420028B (zh) | 2020-12-03 | 2020-12-03 | 一种用于对语音信号进行语义识别的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412947.5A CN112420028B (zh) | 2020-12-03 | 2020-12-03 | 一种用于对语音信号进行语义识别的系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112420028A CN112420028A (zh) | 2021-02-26 |
CN112420028B true CN112420028B (zh) | 2024-03-19 |
Family
ID=74774906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011412947.5A Active CN112420028B (zh) | 2020-12-03 | 2020-12-03 | 一种用于对语音信号进行语义识别的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420028B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767926B (zh) * | 2021-04-09 | 2021-06-25 | 北京世纪好未来教育科技有限公司 | 一种端到端语音识别二遍解码方法及装置 |
CN113257238B (zh) * | 2021-07-13 | 2021-10-01 | 北京世纪好未来教育科技有限公司 | 预训练模型的训练方法、编码特征获取方法及相关装置 |
CN113270086B (zh) | 2021-07-19 | 2021-10-15 | 中国科学院自动化研究所 | 一种融合多模态语义不变性的语音识别文本增强系统 |
CN115831089B (zh) * | 2021-12-27 | 2023-12-01 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN115206305B (zh) * | 2022-09-16 | 2023-01-20 | 北京达佳互联信息技术有限公司 | 语义文本的生成方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108320734A (zh) * | 2017-12-29 | 2018-07-24 | 安徽科大讯飞医疗信息技术有限公司 | 语音信号处理方法及装置、存储介质、电子设备 |
CN109902175A (zh) * | 2019-02-20 | 2019-06-18 | 上海方立数码科技有限公司 | 一种基于神经网络结构模型的文本分类方法及分类系统 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN111899727A (zh) * | 2020-07-15 | 2020-11-06 | 苏州思必驰信息科技有限公司 | 用于多说话人的语音识别模型的训练方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6585022B2 (ja) * | 2016-11-11 | 2019-10-02 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
-
2020
- 2020-12-03 CN CN202011412947.5A patent/CN112420028B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108320734A (zh) * | 2017-12-29 | 2018-07-24 | 安徽科大讯飞医疗信息技术有限公司 | 语音信号处理方法及装置、存储介质、电子设备 |
CN109902175A (zh) * | 2019-02-20 | 2019-06-18 | 上海方立数码科技有限公司 | 一种基于神经网络结构模型的文本分类方法及分类系统 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN111899727A (zh) * | 2020-07-15 | 2020-11-06 | 苏州思必驰信息科技有限公司 | 用于多说话人的语音识别模型的训练方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于混合注意力机制的中文文本蕴含识别方法;黄生斌;肖诗斌;都云程;施水才;;北京信息科技大学学报(自然科学版)(第03期);第92-96、101页 * |
基于自注意力机制的口语文本顺滑算法;吴双志;张冬冬;周明;;智能计算机与应用(第06期);第195-199页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112420028A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112420028B (zh) | 一种用于对语音信号进行语义识别的系统及方法 | |
Tong et al. | Federated learning for audio semantic communication | |
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN114186563A (zh) | 电子设备及其语义解析方法、介质和人机对话系统 | |
CN112735373A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN105139864B (zh) | 语音识别方法和装置 | |
CN110853649A (zh) | 基于智能语音技术的标签提取方法、系统、设备及介质 | |
CN110634469B (zh) | 基于人工智能的语音信号处理方法、装置及存储介质 | |
CN112052333B (zh) | 文本分类方法及装置、存储介质和电子设备 | |
CN113327595B (zh) | 发音偏误检测方法、装置及存储介质 | |
CN111489754A (zh) | 一种基于智能语音技术的话务数据分析方法 | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
CN116226338A (zh) | 基于检索和生成融合的多轮对话系统及方法 | |
CN115762489A (zh) | 语音识别模型的数据处理系统及方法、语音识别方法 | |
CN117668195A (zh) | 基于大语言模型的数字人系统 | |
CN117271745A (zh) | 一种信息处理方法、装置及计算设备、存储介质 | |
CN115269836A (zh) | 意图识别方法及装置 | |
CN117150338A (zh) | 任务处理、自动问答以及多媒体数据识别模型训练方法 | |
CN115470799A (zh) | 一种用于网络边缘设备的文本传输和语义理解一体化方法 | |
CN111414748A (zh) | 话务数据处理方法及装置 | |
CN115273828A (zh) | 语音意图识别模型的训练方法、装置及电子设备 | |
Tanaka et al. | End-to-end rich transcription-style automatic speech recognition with semi-supervised learning | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN112380836A (zh) | 一种智能侨情问句生成方法 | |
KR200498447Y1 (ko) | 인공지능 대화 제공을 위한 전자 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |