CN111429913B - 一种数字串语音识别方法、身份验证装置及计算机可读存储介质 - Google Patents
一种数字串语音识别方法、身份验证装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111429913B CN111429913B CN202010224785.6A CN202010224785A CN111429913B CN 111429913 B CN111429913 B CN 111429913B CN 202010224785 A CN202010224785 A CN 202010224785A CN 111429913 B CN111429913 B CN 111429913B
- Authority
- CN
- China
- Prior art keywords
- voice
- network
- digital string
- string
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012795 verification Methods 0.000 title claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 28
- 230000015654 memory Effects 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及人计算机技术领域,提供了一种数字串语音识别方法,包含步骤:获取待识别语音;将所述语音输入至数字串语音识别模型进行识别,以得到所述待识别语音对应的数字串文本,其中,构建所述数字串语音识别模型的算法包含卷积神经网络、长短期记忆网络及全连接网络,所述待识别语音进入所述数字串语音识别模型后,先后经由卷积神经网络、长短期记忆网络及全连接网络的计算,得到所述数字串文本。基于本发明实施例所提供的数字串语音识别方法通过对数字串语音识别模型的算法构建进行设计,在识别过程中结合了音频数据的局部特征及时间维度特征,可提升识别准确率。
Description
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种数字串语音识别方法、身份验证装置及计算机可读存储介质。
背景技术
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
数字串的语音识别的应用也越来越广泛,尤其是在身份验证中,传统的数字串识别技术是直接通过语音识别在大范围语料的学习基础上,进行数字的识别,该方法虽然能够识别出数字的内容,但是识别准确率低,误识别率高,有可能将数字识别成其他的字符,在稳定性上无法进行保证。
发明内容
针对上述问题,本发明的实施例提供了一种数字串语音识别方法,所述方法包含步骤:获取待识别语音;将所述语音输入至数字串语音识别模型进行识别,以得到所述待识别语音对应的数字串文本,其中,构建所述数字串语音识别模型的算法包含卷积神经网络、长短期记忆网络及全连接网络,所述待识别语音进入所述数字串语音识别模型后,先后经由卷积神经网络、长短期记忆网络及全连接网络的计算,得到所述数字串文本。基于本发明实施例所提供的数字串语音识别方法,可基于预先构建并训练完成的数字串语音识别模型对待识别语音进行识别,从而得到对应的数字文本内容,同时通过对数字串语音识别模型的算法构建进行设计,在识别过程中结合了音频数据的局部特征及时间维度特征,可提升识别准确率。
一种身份验证装置,包含输入单元、验证单元和输出单元,其中,所述输出单元向用户展示语音输入要求,所述语音输入要求中包含预设数字串或提示信息;所述输入单元用于接收用户输入的语音信号,并传输至验证单元;所述验证单元对接收到的语音信号进行验证,包含基于上述的数字串语音识别方法,对所述语音信号进行识别,并基于识别出的数字串文本对所述用户身份进行验证,并发送验证结果至所述输出单元;所述输出单元接收所述验证结果,并对其进行显示。
以及,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的数字串语音识别方法。
在一实施中,构建所述数字串语音识别模型中的所述卷积神经网络结构包含一层卷积网络和一层maxpooling,其中,卷积网络采用5×5的卷积核,maxpooling层采用5×5的Filter结构。
在一实施中,所述卷积神经网络的输入层为所述待识别语音的频谱图特征数据,输出层的数据结构为帧数乘以1024维的矩阵。
在一实施中,所述长短期记忆网络的结构为3层,每层网络包含300个神经元。
在一实施中,所述长短期记忆网络的输入层为所述卷积神经网络的输出结果,输出层为帧数乘以300维的矩阵。
在一实施中,所述长短期记忆网络的上层封装神经网络注意机制,以对所述长短期记忆网络的输出结果进行过滤。
在一实施中,所述全连接网络对所述长短期记忆网络的每帧300维的输出结果转换为10个分类,10个分类分别对应数字0到9。
在一实施中,所述数字串语音识别模型的训练方法包含:收集内容为数字串的音频数据,并对所述音频数据进行标注;对所述标注后的音频数据进行频谱转换,得到对应的频谱特征数据;基于所述音频数据的频谱特征数据及标注对所述数字串语音识别模型的损失值进行计算;并在得到损失值后,对所述数字串语音识别模型进行迭代训练,从而实现模型优化。
附图说明
一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1绘示本发明实施例所提供的数字串语音识别方法流程图;
图2绘示本实施例中数字串语音识别模型的训练方法流程图;
图3绘示本发明实施例所提供的身份验证装置结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
在本发明的第一实施例中,提出了一种数字串语音识别方法,所述方法基于数字串语音识别模型对待识别语音进行识别,相应的公开了一种同时基于卷积神经网络、长短期记忆网络及全连接网络而构建的数字串语音识别模型,可提升数字串语音识别准确度,所述方法可应用于需要将数字串语音识别成对应文本的场景中。
请参考图1,图1绘示本发明实施例所提供的数字串语音识别方法流程图。如图1所示,所述方法包含步骤:
S101,获取待识别语音。
具体而言,根据实际的应用场景,待识别语音的获取方法可包含多种,包含但不限于实时的采集,例如,待识别语音可通过音频采集设备采集得到,可包含用户基于提示信息中的数字而输入的语音信号,也可以包含用户随机读出的语音信号。
S102,将所述语音输入至数字串语音识别模型进行识别,以得到所述待识别语音对应的数字串文本。
在实施中,构建所述数字串语音识别模型的算法可包含卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)及全连接网络,以下将先对数字串语音识别模型的构建过程进行详细说明。
首先,卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。在本发明的实施例中,考虑到CNN卷积网络的作用可以是提取频谱图的局部特征,能够综合考虑样本的区域性特征,故构建数字串语音识别模型中的卷积神经网络结构可包含一层卷积网络和一层maxpooling,其中,卷积网络采用5×5的卷积核,maxpooling层采用5×5的Filter结构,其中卷积神经网络的输入层为语音样本的频谱图特征数据,输出层的数据结构为帧数乘以1024维的矩阵。在完成CNN卷积网络的计算之后,可将输出的结果作为长短期记忆网络LSTM的输出,以进一步对数据进行处理。
LSTM网络的作用是综合考虑特征数据在时间维度上的关系,在本发明的实施例中,LSTM网络的输入是上层CNN网络的输出结果,同时,长短期记忆网络的结构可设计为3层,每层网络可包含300个神经元,其输入层为卷积神经网络的输出结果,输出层可为帧数乘以300维的矩阵。
更进一步的,本发明的实施例中,可在长短期记忆网络的上层封装神经网络注意机制,以对长短期记忆网络的输出结果进行过滤。具体而言,可在LSTM网络的结构上再封装一层Attention网络结构,该网络接口可以通过概率矩阵的方式来过滤LSTM输出结果中的无效信息。例如,Attention网络可生成一个与LSTM输出结果结构一致的矩阵,并且该矩阵中的值都为0-1之间的概率值,然后将该概率矩阵与LSTM网络的输出结构进行点乘处理,从而对LSTM网络输出结果进行过滤。
当获得LSTM网络的输出结果后,可基于全连接网络对LSTM网络的每帧300维的输出结果转换为10个分类,10个分类分别对应数字0到9。本发明实施例所提供的方法是对数字串的识别,因为总共有10个数字,所以需要将每帧的音频数据分为10个数字中的对应数字类别,因此通过创建的结构为300×10的全连接网络,可以将输入的数据转为当前音频帧数×10的矩阵,从而对应于各个数字。
基于以上方法可完成数字串语音识别模型中的算法的构建,然后,需要计算损失值,并进一步进行优化训练。请参照图2,图2绘示本实施例中数字串语音识别模型的训练方法流程图。
如图2所述,上述计算损失值及优化训练的方法具体步骤:
S201,收集内容为数字串的音频数据,并对所述音频数据进行标注。
在实施中,可通过录音设备,收集不同人读取对应数字串的音频,收集数量在3000条左右,每条数字串内容包含8位数字,同时,可以收集网络中关于数字串的音频数据,比如在DataOcean的公司的官网中都能够收集到现成的内容为数字串的音频数据。
当收集完足够数量的数字串音频数据之后,可对音频数据进行标注,将每个音频标注出对应的数字串文本内容,并进行所有文本内容统一的保存,并且将文本和音频内容的对应关系给处理好,比如第一个音频对应第一条文本,较佳的,可以将该音频的文件名命名为对应的数字串内容文本,比如12345678.wav即为一条内容为数字串”12345678”的音频文件,从而便于对应关系的管理。
值得注意的是,本发明的实施例中通过收集单纯的数字串音频作为训练样本,可通过样本的纯净度来强化识别模型的准确性。
S202,对所述标注后的音频数据进行频谱转换,得到对应的频谱特征数据。
在实施中,可通过Python的Matplotlib工具将数值形式的所有数字串内容的音频文件转为Spectrogram频谱图,频谱图的特征维度为1024,时间单位为帧,提取频谱图的窗口大小为25ms,位置大小为10ms。
S203,基于所述音频数据的频谱特征数据及标注对所述数字串语音识别模型的损失值进行计算。
具体而言,可通过预先收集并构造样本数据,包含数字串音频及对应的标注标签,以作为训练的标签,将上述全连接网络输出的帧数×10的矩阵,作为Loss层计算的输入,通过CTC算法来计算loss损失值,在实施中,可直接使用tensorflow的ctc_loss函数来进行计算,输入的是样本音频对应的全连接网络计算结果,标签为预先标注的数字串内容文本,从而得到损失值。
S204,在得到损失值后,对所述数字串语音识别模型进行迭代训练,从而实现模型优化。
在实施中,可以通过Adam算法来对数字串语音识别模型进行迭代训练优化,从而保证识别模型的准确率。
基于上述方法完成对数字串语音识别模型的训练后,可训练后的模型取出来即可实现对语音的识别,同时,还需进一步对模型的输出结果进行解码,从而得到待识别语音对应的数字串文本。具体而言,数字串语音识别模型的初步输出结果的结构为1×帧数×10,通过ctc_beam_search_decoder函数进行解码,将10维输出结果解码为数字串文本形式,并将数字串文本作为最终的识别结果进行输出。
综上所述,基于本发明实施例所提供的数字串语音识别方法,可基于预先构建并训练完成的数字串语音识别模型对待识别语音进行识别,从而得到对应的数字文本内容,同时通过对数字串语音识别模型的算法构建进行设计,在识别过程中结合了音频数据的局部特征及时间维度特征,可提升识别准确率。更进一步的,在计算损失值和优化训练中,使用的样本为数字串对应的语音样本,保证了样本的有效性及纯净度,提高训练质量。
基于同样的发明构思,本发明的实施例还提供了一种身份验证装置,请参照图3,图3绘示本发明实施例所提供的身份验证装置结构示意图。如图3所示,身份验证装置300包含输入单元310、验证单元320和输出单元330。
输出单元330可向用户展示语音输入要求,语音输入要求中可包含预设数字串或提示信息,其中提示信息可包含提醒用户输入仅与数字相关的语音信号,可以是用户自主创建的,也可以是基于提示信息可联想得到的。在实施中,输出单元330可包含显示屏、扬声器等可向用户输出信息的装置。
输入单元310可用于接收用户输入的语音信号,并传输至验证单元320,输入单元310可对应为语音采集设备,例如麦克风。
验证单元320对接收到的语音信号进行验证,包含基于上述实施例中的数字串语音识别方法,对所述语音信号进行识别,基于识别出的数字串文本对用户身份进行验证,并发送验证结果至输出单元330。
输出单元330接收验证结果,并对其进行显示。
值得注意的是,本实施例所提供的身份验证装置可基于实际的应用场景进行相应的调整,而各组件之间的逻辑关联则可参照图示。
本实施例所提供的身份验证装置,可基于用户输入的数字串语音对用户身份进行验证,不仅可用于保证当前用户为真实用户,防止黑客入侵,还可用于实现与用户的简单互动。同时,通过基于上述数字串语音识别方法对用户输入的语音进行识别,保证了识别的准确性,减少误操作,从而提升用户体验。
此外,本发明另一实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时,实现上述方法实施例。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种数字串语音识别方法,其特征在于,所述方法包含步骤:
获取待识别语音;
将所述语音输入至数字串语音识别模型进行识别,以得到所述待识别语音对应的数字串文本,其中,构建所述数字串语音识别模型的算法包含卷积神经网络、长短期记忆网络及全连接网络,所述待识别语音进入所述数字串语音识别模型后,先后经由卷积神经网络、长短期记忆网络及全连接网络的计算,得到所述数字串文本;
所述长短期记忆网络的上层封装神经网络注意机制,以对所述长短期记忆网络的输出结果进行过滤;
所述数字串语音识别模型的训练方法包含:
收集内容为数字串的音频数据,并对所述音频数据进行标注;
对所述标注后的音频数据进行频谱转换,得到对应的频谱特征数据;
基于所述音频数据的频谱特征数据及标注对所述数字串语音识别模型的损失值进行计算;
并在得到损失值后,对所述数字串语音识别模型进行迭代训练,从而实现模型优化;
构建所述数字串语音识别模型中的所述卷积神经网络结构包含一层卷积网络和一层maxpooling,其中,卷积网络采用5×5的卷积核,maxpooling层采用5×5的Filter结构;
所述卷积神经网络的输入层为所述待识别语音的频谱图特征数据,输出层的数据结构为帧数乘以1024维的矩阵。
2.如权利要求1所述的方法,其特征在于,所述长短期记忆网络的结构为3层,每层网络包含300个神经元。
3.如权利要求2所述的方法,其特征在于,所述长短期记忆网络的输入层为所述卷积神经网络的输出结果,输出层为帧数乘以300维的矩阵。
4.如权利要求1所述的方法,其特征在于,所述全连接网络对所述长短期记忆网络的每帧300维的输出结果转换为10个分类,10个分类分别对应数字0到9。
5.一种身份验证装置,其特征在于,所述装置包含输入单元、验证单元和输出单元,其中,
所述输出单元向用户展示语音输入要求,所述语音输入要求中包含预设数字串或提示信息;
所述输入单元用于接收用户输入的语音信号,并传输至验证单元;
所述验证单元对接收到的语音信号进行验证,包含基于权利要求1至4中任一所述的数字串语音识别方法,对所述语音信号进行识别,并基于识别出的数字串文本对所述用户身份进行验证,并发送验证结果至所述输出单元;
所述输出单元接收所述验证结果,并对其进行显示。
6.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010224785.6A CN111429913B (zh) | 2020-03-26 | 2020-03-26 | 一种数字串语音识别方法、身份验证装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010224785.6A CN111429913B (zh) | 2020-03-26 | 2020-03-26 | 一种数字串语音识别方法、身份验证装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429913A CN111429913A (zh) | 2020-07-17 |
CN111429913B true CN111429913B (zh) | 2023-03-31 |
Family
ID=71548909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010224785.6A Active CN111429913B (zh) | 2020-03-26 | 2020-03-26 | 一种数字串语音识别方法、身份验证装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429913B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883134B (zh) * | 2020-07-24 | 2024-06-04 | 北京贝塔科技有限公司 | 一种语音输入方法、装置、电子设备及存储介质 |
CN113539294A (zh) * | 2021-05-31 | 2021-10-22 | 河北工业大学 | 一种生猪异常状态声音采集及识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107104803B (zh) * | 2017-03-31 | 2020-01-07 | 北京华控智加科技有限公司 | 一种基于数字口令与声纹联合确认的用户身份验证方法 |
CN107122416B (zh) * | 2017-03-31 | 2021-07-06 | 北京大学 | 一种中文事件抽取方法 |
CN107562812B (zh) * | 2017-08-11 | 2021-01-15 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN108550364B (zh) * | 2018-04-20 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN110223675B (zh) * | 2019-06-13 | 2022-04-19 | 思必驰科技股份有限公司 | 用于语音识别的训练文本数据的筛选方法及系统 |
-
2020
- 2020-03-26 CN CN202010224785.6A patent/CN111429913B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111429913A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520741B (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
US10515627B2 (en) | Method and apparatus of building acoustic feature extracting model, and acoustic feature extracting method and apparatus | |
US10614803B2 (en) | Wake-on-voice method, terminal and storage medium | |
CN111402891B (zh) | 语音识别方法、装置、设备和存储介质 | |
WO2022078146A1 (zh) | 语音识别方法、装置、设备以及存储介质 | |
WO2018058994A1 (zh) | 基于深度学习的对话方法、装置及设备 | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
CN111429913B (zh) | 一种数字串语音识别方法、身份验证装置及计算机可读存储介质 | |
TW201503105A (zh) | 語音辨識系統以及方法 | |
WO2020238045A1 (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN113724718B (zh) | 目标音频的输出方法及装置、系统 | |
CN110704618B (zh) | 确定对话数据对应的标准问题的方法及装置 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN111370030A (zh) | 语音情感检测方法与装置、存储介质、电子设备 | |
CN111683317A (zh) | 一种应用于耳机的提示方法、装置、终端及存储介质 | |
CN111368551A (zh) | 一种确定事件主体的方法和装置 | |
CN108322770A (zh) | 视频节目识别方法、相关装置、设备和系统 | |
CN113178200B (zh) | 语音转换方法、装置、服务器及存储介质 | |
CN117238321A (zh) | 语音综合评估方法、装置、设备及存储介质 | |
CN116775873A (zh) | 一种多模态对话情感识别方法 | |
CN113724690B (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN113111855A (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN111883133A (zh) | 客服语音识别方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |