CN112420028A - 一种用于对语音信号进行语义识别的系统及方法 - Google Patents

一种用于对语音信号进行语义识别的系统及方法 Download PDF

Info

Publication number
CN112420028A
CN112420028A CN202011412947.5A CN202011412947A CN112420028A CN 112420028 A CN112420028 A CN 112420028A CN 202011412947 A CN202011412947 A CN 202011412947A CN 112420028 A CN112420028 A CN 112420028A
Authority
CN
China
Prior art keywords
voice
text
dimensional
feature representation
las
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011412947.5A
Other languages
English (en)
Other versions
CN112420028B (zh
Inventor
程钢
张飞
贾岩峰
韩慎勇
丁正
顾晓东
祝敬安
韦红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinfang Software Co ltd
Shanghai Cintel Intelligent System Co ltd
Original Assignee
Shanghai Xinfang Software Co ltd
Shanghai Cintel Intelligent System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinfang Software Co ltd, Shanghai Cintel Intelligent System Co ltd filed Critical Shanghai Xinfang Software Co ltd
Priority to CN202011412947.5A priority Critical patent/CN112420028B/zh
Publication of CN112420028A publication Critical patent/CN112420028A/zh
Application granted granted Critical
Publication of CN112420028B publication Critical patent/CN112420028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种用于对语音信号进行语义识别的系统及方法,本发明实施例在电信通讯网络中设置基于注意力机制(Attention)的端到端系统(LAS,Listen,Attention,Spell)、BERT模型及基于神经网络构建的语音文本混合子系统,其中,电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将对应的文本信息输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;BERT模型对输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。本发明通过语音和语义两个模态的信息融合,显著提升对语音信号进行语义识别的准确率。

Description

一种用于对语音信号进行语义识别的系统及方法
技术领域
本发明涉及计算机人工智能技术领域,特别涉及一种用于对语音信号进行语义识别的系统及方法。
背景技术
在过去30年间,电信通讯技术得到非常好的普及,基于电信通信技术设置的电信通讯网络给人们生活带来便利的同时,也有不法分子使用电信通讯网络进行诈骗活动,给人们生活带来非常大的潜在风险。随着计算机人工智能技术的飞速发展和普及,会尝试将人工智能技术应用到电信通讯网络中,对电信通讯网络中的语音进行语音识别,以确认是否是电信诈骗。图1为现有技术提供的电信通讯网络中基于语音识别技术进行的电信反诈骗应用的方法流程图,通常,在电信通讯网络中增加由供应商提供的语音识别系统,对电信通讯网络的电信通话中的语音进行识别后,得到对应的文本信息,基于预先设置的诈骗关键词列表对对应的文本信息进行检索,根据检索结果确认是否为诈骗电信通话。在这里,关键词检索仅仅是一个正则匹配过程或模糊匹配过程。
采用图1所述的方式进行电信反诈骗应用,存在以下缺陷:供应商提供的语音识别系统有很大可能与当前的应用场景不匹配,导致语音识别的效果,特别是对一些专有名词识别准确率不高,直接导致后续的诈骗关键词列表无法检索到,导致识别失败。其中对对应的文本信息进行检索采用的是正则匹配过程或模糊匹配过程,并没有对对应的文本信息进行上下文理解,导致匹配的结果可用性不高,检索结果的准确率低。
综上,目前在电信通讯网络中所应用的语音识别技术缺乏对语音信息的理解,导致语音识别得到的语义准确率低,泛化能力差,推广性不强及时效性能弱等问题。
发明内容
有鉴于此,本发明实施例提供了一种用于对语音信号进行语义识别的系统,该系统在电信通讯网络对语音信号进行语义识别时,提高语义识别的准确率。
本发明实施例还提供一种语义识别的方法,该方法在电信通讯网络对语音信号进行语义识别时,提高语义识别的准确率。
本发明实施例是这样实现的:
一种用于对语音信号进行语义识别的系统,所述系统设置在电信通信网络中,包括:基于注意力机制的端到端系统LAS、BERT模型及语音文本混合子系统,其中,
LAS,用于获取电信通讯网络中的语音信号,进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型,用于对LAS输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统,用于对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行分类处理,得到语义识别结果。
较佳地,所述LAS是采用基于注意力机制的神经网络训练得到的,由编码模块、注意力机制模块及解码模块组成,其中,
编码模块,用于对电信通讯网络中的语音信号进行编码,形成高维特征表示;
注意力机制模块,用于对所形成的高维特征表示进行语义预测相关部分的提取后,将提取后的高维特征表示发送给解码模块;
解码模块,用于接收注意力机制模块发送的提取后的高维特征表示,进行语义预测,得到高维声学特征表示及对应的文本信息。
较佳地,所述LAS在训练时采用
Figure BDA0002815756770000021
进行训练,
其中,θ表示LAS采用的神经网络参数,x表示语音信号,y表示语音信号对应的文本信息。
较佳地,所述BERT模型采用无监督文本预料进行预训练后得到。
较佳地,所述语音文本混合子系统采用神经网络训练得到,包括:池化层模块及多层感知MLP自然语言神经子网络,其中,
池化层模块,用于分别对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行池化后,输入到MLP自然语言神经子网络中;
MLP自然语言神经子网络,用于对经过池化的高维声学特征表示及高维文本特征表示进行处理,得到语义识别结果。
较佳地,所述系统应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统,还用户进行分类处理,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
一种用于对语音信号进行语义识别的方法,该方法包括:
在电信通讯网络中设置基于LAS、BERT模型及语音文本混合子系统;
电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型对输入的对应的文本信息果进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。
较佳地,所述LAS是采用基于注意力机制的神经网络训练得到的;
所述BERT模型是采用无监督文本预料经过预训练后得到的;
所述语音文本混合子系统采用神经网络训练得到的。
较佳地,所述方法应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统进行分类处理时,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
如上所见,本发明实施例在电信通讯网络中设置基于注意力机制(Attention)的端到端系统(LAS,Listen,Attention,Spell)、BERT模型及基于神经网络构建的语音文本混合子系统,其中,电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将对应的文本信息输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;BERT模型对输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。由于本发明实施例在用于对语音信号进行语义识别时,不仅仅可以获取到语音识别的文本特征,而且还可以得到语音的声学特征,在最终由语音文本混合子系统识别时给语音的语义理解提供能够更加丰富的信息,从而显著地提升用于对语音信号进行语义识别的准确率。
附图说明
图1为本发明实施例提供的一种用于对语音信号进行语义识别的系统结构示意图;
图2为本发明实施例提供的LAS的机构示意图;
图3为本发明实施例提供的语音文本混合子系统结构示意图;
图4为本发明实施例提供的一种用于对语音信号进行语义识别的方法流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
从背景技术可以看出,造成电信通讯网络中语音信号的语义识别的准确率不高的原因主要是因为供应商提供的语音识别系统在识别语音时由于语音信号差而不准确,导致的对应文本不准确,而基于正则匹配方式或模糊匹配方式进一步对对应文本进行欺诈关键词的检索时,检索能力不够,无法理解结合对应文本的上下文理解对应文本的语义,导致了得到检索结果的准确率低。
为了解决这个问题,本发明实施例在电信通讯网络中设置基于LAS、BERT模型及基于神经网络构建的语音文本混合子系统,其中,电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将对应的文本信息输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;BERT模型对输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到用于对语音信号进行语义识别的语义识别结果。
由于本发明实施例在用于对语音信号进行语义识别时,不仅仅可以获取到语音识别的文本特征,而且还可以得到语音的声学特征,在最终由语音文本混合子系统识别时给语音的语义理解提供能够更加丰富的信息,从而显著地提升用于对语音信号进行语义识别的准确率。
具体地说,本发明实施例在电信通讯网络中实现用于对语音信号进行语义识别时采用了LAS技术作为语义识别的基础框架,并结合了BERT模型对对应的文本信息进行准确地语义理解后,最终使用采用音+语音多模态技术构建基于神经网络的语音文本混合子系统进行分类处理,得到最终的语义识别结果。
图1为本发明实施例提供的一种用于对语音信号进行语义识别的系统结构示意图,所述系统设置在电信通信网络中,包括:LAS、BERT模型及基于神经网络构建的语音文本混合子系统,其中,
LAS,用于获取电信通讯网络中的语音信号,进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型,用于对LAS输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统,用于对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行分类处理,得到语义识别结果。
从该系统可以看出,LAS主要用于将语音信号转换为文本且从中提取出高维声表示,而BERT模型主要对文本信息进行准确语义的理解,得出高维文本特征表示,而语音文本混合子系统在进行分类处理时,则基于高维声学特征表示和高维文本特征表示得出用于对语音信号进行语义识别的语义识别结果,使得得到的识别结果更加准确。
所述系统应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统,还用户进行分类处理,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
在这里,高维声学特征表示及高维文本特征表示分别是采用向量表示的,高维的含义是向量的纬度设定的比较高,比如设定为至少大于三维的设定纬度,其向量中的信息表示含量比较多。具体高维声学特征表示及高维文本特征表示的纬度,分别是由LAS和BERT模型确定的。
以下对该系统的每个模块进行详细说明。
图2为本发明实施例提供的LAS的机构示意图,该LDS由编码(encoder)模块、注意力机制(Attention)模块及解码(decoder)模块组成,其中,
编码模块,用于对电信通讯网络中的语音信号进行编码,形成高维特征表示;
注意力机制模块,用于对所形成的高维特征表示进行语义预测相关部分的提取后,将提取后的高维特征表示发送给解码模块;
解码模块,用于接收注意力机制模块发送的提取后的高维特征表示,进行语义预测,得到高维声学特征表示及对应的文本信息。
实际上,LAS也是神经网络的一种,其是经过训练构建得到的。在训练时,采用了公式(1)表示的神经网络进行训练,
Figure BDA0002815756770000051
其中,θ表示LAS采用的神经网络参数,x表示语音信号,y表示语音信号对应的预测语义,通过优化语音信号对应语义的最大似然函数,来不断更新迭代模型参数θ,从而完成LAS的训练,训练结束后。在训练结束后,得到训练好的LAS,通过训练好的LAS就可以对语音信号进行处理,得到高维声学特征表示及对应的文本信息。
BERT模型是当前自然语音理解(NLU)网络最流行且效果最优的语义预训练模型,其通过定于掩码语言模型(Mask Language Model)这个任务,通过海量的无监督文本预料,就可以学习到文本特征表示,供下游的NLU网络使用。本发明实施例通过互联网抓取海量的无监督文本预料,使得BERT模型进行预训练。在使用经过了预训练的BERT模型时,则将LAS输出的对应的文本信息输入到该BERT模型中,获得高维文本特征表示,得到的高维文本特征有很强的语义信息。
图3为本发明实施例提供的语音文本混合子系统结构示意图,包括:池化层模块及多层感知(MLP)自然语言神经子网络,其中,
池化层模块,用于分别对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行池化后,输入到MLP自然语言神经子网络中;
MLP自然语言神经子网络,用于对经过池化的高维声学特征表示及高维文本特征表示进行处理,得到语义识别结果。
本发明实施例的语音文本混合子系统是经过训练得到的,其在进行分类处理时,不仅仅依据了BERT模型处理后的语义特征,而且还依据了LAS识别得到的高纬度声学特征,所以在进行分类时更加准确。
图4为本发明实施例提供的一种用于对语音信号进行语义识别方法流程图,其具体步骤包括:
步骤401、在电信通讯网络中设置基于LAS、BERT模型及基于神经网络构建的语音文本混合子系统;
步骤402、电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
步骤403、BERT模型对输入的对应的文本信息果进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
步骤404、语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。
所述方法应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统进行分类处理时,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。在该方法中,LAS是经过训练得到的,LAS是基于注意力机制的神经网络;BERT模型是采用了海量的无监督文本预料经过了预训练后得到的,其可以准确对对应的文本信息进行准确的语义理解;语音文本混合子系统是经过训练得到的,其根据LAS得到的高维声学特征表示及BERT模型得到的高纬文本特征表示,进行分类处理,得到了最终的语义识别结果。
可以看出,本发明实施例针对电信通讯网络中的电信反诈骗应用,可以将语音信号转换为诈骗类型的分类结果,整个任务核心技术形成闭环,可以有效地针对电信业务的痛点进行有效地解决,并且将语音识别和语义理解解耦成功能模块,可以单独使用,于此同时还在其中设置了语音文本混合子系统来综合处理声学特征和文本特征,有效提升业务场景的性能。
本发明实施例通过使用海量的无监督文本预料对BERT模型进行预训练,将语音识别结果进行高维度的语义特征表示出,有效地降低了文本的标注数量,并且可以非常高准确度地进行诈骗类型分类。本发明实施例在使用BERT模型编码得到高维度语义特征表示的同时,还综合使用语音信号的高维度声学特征表示,缓解由于语音识别准确的不够导致诈骗分类不准确的问题;结合语音和文本,使得电信通讯网络在进行诈骗语义识别时的性能和准确率大幅提升。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种用于对语音信号进行语义识别的系统,其特征在于,所述系统设置在电信通信网络中,包括:基于注意力机制的端到端系统LAS、BERT模型及语音文本混合子系统,其中,
LAS,用于获取电信通讯网络中的语音信号,进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型,用于对LAS输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统,用于对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行分类处理,得到语义识别结果。
2.如权利要求1所述的系统,其特征在于,所述LAS是采用基于注意力机制的神经网络训练得到的,由编码模块、注意力机制模块及解码模块组成,其中,
编码模块,用于对电信通讯网络中的语音信号进行编码,形成高维特征表示;
注意力机制模块,用于对所形成的高维特征表示进行语义预测相关部分的提取后,将提取后的高维特征表示发送给解码模块;
解码模块,用于接收注意力机制模块发送的提取后的高维特征表示,进行语义预测,得到高维声学特征表示及对应的文本信息。
3.如权利要求1或2所述的系统,其特征在于,所述LAS在训练时采用
Figure FDA0002815756760000011
进行训练,
其中,θ表示LAS采用的神经网络参数,x表示语音信号,y表示语音信号对应的文本信息。
4.如权利要求1所述的系统,其特征在于,所述BERT模型采用无监督文本预料进行预训练后得到。
5.如权利要求1所述的系统,其特征在于,所述语音文本混合子系统采用神经网络训练得到,包括:池化层模块及多层感知MLP自然语言神经子网络,其中,
池化层模块,用于分别对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行池化后,输入到MLP自然语言神经子网络中;
MLP自然语言神经子网络,用于对经过池化的高维声学特征表示及高维文本特征表示进行处理,得到语义识别结果。
6.如权利要求1所述的系统,其特征在于,所述系统应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统,还用户进行分类处理,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
7.一种用于对语音信号进行语义识别的方法,其特征在于,该方法包括:
在电信通讯网络中设置基于LAS、BERT模型及语音文本混合子系统;
电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型对输入的对应的文本信息果进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。
8.如权利要求7所述的方法,其特征在于,所述LAS是采用基于注意力机制的神经网络训练得到的;
所述BERT模型是采用无监督文本预料经过预训练后得到的;
所述语音文本混合子系统采用神经网络训练得到的。
9.如权利要求7所述的方法,其特征在于,所述方法应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统进行分类处理时,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
CN202011412947.5A 2020-12-03 2020-12-03 一种用于对语音信号进行语义识别的系统及方法 Active CN112420028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011412947.5A CN112420028B (zh) 2020-12-03 2020-12-03 一种用于对语音信号进行语义识别的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011412947.5A CN112420028B (zh) 2020-12-03 2020-12-03 一种用于对语音信号进行语义识别的系统及方法

Publications (2)

Publication Number Publication Date
CN112420028A true CN112420028A (zh) 2021-02-26
CN112420028B CN112420028B (zh) 2024-03-19

Family

ID=74774906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011412947.5A Active CN112420028B (zh) 2020-12-03 2020-12-03 一种用于对语音信号进行语义识别的系统及方法

Country Status (1)

Country Link
CN (1) CN112420028B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767926A (zh) * 2021-04-09 2021-05-07 北京世纪好未来教育科技有限公司 一种端到端语音识别二遍解码方法及装置
CN113257238A (zh) * 2021-07-13 2021-08-13 北京世纪好未来教育科技有限公司 预训练模型的训练方法、编码特征获取方法及相关装置
CN113270086A (zh) * 2021-07-19 2021-08-17 中国科学院自动化研究所 一种融合多模态语义不变性的语音识别文本增强系统
CN115206305A (zh) * 2022-09-16 2022-10-18 北京达佳互联信息技术有限公司 语义文本的生成方法、装置、电子设备及存储介质
CN115831089A (zh) * 2021-12-27 2023-03-21 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137863A1 (en) * 2016-11-11 2018-05-17 Kabushiki Kaisha Toshiba Speech recognition apparatus, speech recognition method, and computer program product
CN108320734A (zh) * 2017-12-29 2018-07-24 安徽科大讯飞医疗信息技术有限公司 语音信号处理方法及装置、存储介质、电子设备
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类系统
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN111899727A (zh) * 2020-07-15 2020-11-06 苏州思必驰信息科技有限公司 用于多说话人的语音识别模型的训练方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137863A1 (en) * 2016-11-11 2018-05-17 Kabushiki Kaisha Toshiba Speech recognition apparatus, speech recognition method, and computer program product
CN108320734A (zh) * 2017-12-29 2018-07-24 安徽科大讯飞医疗信息技术有限公司 语音信号处理方法及装置、存储介质、电子设备
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类系统
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN111899727A (zh) * 2020-07-15 2020-11-06 苏州思必驰信息科技有限公司 用于多说话人的语音识别模型的训练方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴双志;张冬冬;周明;: "基于自注意力机制的口语文本顺滑算法", 智能计算机与应用, no. 06, pages 195 - 199 *
黄生斌;肖诗斌;都云程;施水才;: "基于混合注意力机制的中文文本蕴含识别方法", 北京信息科技大学学报(自然科学版), no. 03, pages 92 - 96 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767926A (zh) * 2021-04-09 2021-05-07 北京世纪好未来教育科技有限公司 一种端到端语音识别二遍解码方法及装置
CN112767926B (zh) * 2021-04-09 2021-06-25 北京世纪好未来教育科技有限公司 一种端到端语音识别二遍解码方法及装置
CN113257238A (zh) * 2021-07-13 2021-08-13 北京世纪好未来教育科技有限公司 预训练模型的训练方法、编码特征获取方法及相关装置
CN113270086A (zh) * 2021-07-19 2021-08-17 中国科学院自动化研究所 一种融合多模态语义不变性的语音识别文本增强系统
CN113270086B (zh) * 2021-07-19 2021-10-15 中国科学院自动化研究所 一种融合多模态语义不变性的语音识别文本增强系统
US11488586B1 (en) 2021-07-19 2022-11-01 Institute Of Automation, Chinese Academy Of Sciences System for speech recognition text enhancement fusing multi-modal semantic invariance
CN115831089A (zh) * 2021-12-27 2023-03-21 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品
CN115831089B (zh) * 2021-12-27 2023-12-01 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品
CN115206305A (zh) * 2022-09-16 2022-10-18 北京达佳互联信息技术有限公司 语义文本的生成方法、装置、电子设备及存储介质
CN115206305B (zh) * 2022-09-16 2023-01-20 北京达佳互联信息技术有限公司 语义文本的生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112420028B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN112420028A (zh) 一种用于对语音信号进行语义识别的系统及方法
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN111312245B (zh) 一种语音应答方法、装置和存储介质
WO2022057712A1 (zh) 电子设备及其语义解析方法、介质和人机对话系统
WO2020155619A1 (zh) 带情感的机器聊天方法、装置、计算机设备及存储介质
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN111583909A (zh) 一种语音识别方法、装置、设备及存储介质
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
CN113327595B (zh) 发音偏误检测方法、装置及存储介质
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
US11532310B2 (en) System and method for recognizing user's speech
CN112489651B (zh) 语音识别方法和电子设备、存储装置
CN117150338A (zh) 任务处理、自动问答以及多媒体数据识别模型训练方法
CN115470799B (zh) 一种用于网络边缘设备的文本传输和语义理解一体化方法
CN116450799A (zh) 一种应用于交通管理服务的智能对话方法及设备
CN116303930A (zh) 一种基于语义匹配与生成模型的会话智能生成方法
CN115376547A (zh) 发音评测方法、装置、计算机设备和存储介质
CN112150103B (zh) 一种日程设置方法、装置和存储介质
CN115273828A (zh) 语音意图识别模型的训练方法、装置及电子设备
CN111985934B (zh) 智能客服对话模型构建方法及应用
CN112463965A (zh) 一种对文本的语义理解的方法及系统
CN117041430B (zh) 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置
CN114822510B (zh) 一种基于二值卷积神经网络的语音唤醒方法及系统
Li et al. End-to-End Speech Hash Retrieval Algorithm based on Speech Content and Pre-training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant