CN111223489A - 一种基于Attention注意力机制的特定关键词识别方法及系统 - Google Patents
一种基于Attention注意力机制的特定关键词识别方法及系统 Download PDFInfo
- Publication number
- CN111223489A CN111223489A CN201911328803.9A CN201911328803A CN111223489A CN 111223489 A CN111223489 A CN 111223489A CN 201911328803 A CN201911328803 A CN 201911328803A CN 111223489 A CN111223489 A CN 111223489A
- Authority
- CN
- China
- Prior art keywords
- attention
- data
- lstm network
- training set
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims description 31
- 238000002372 labelling Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于Attention注意力机制的特定关键词识别方法及系统,包括以下步骤:S11.采集用户语音,每隔A秒保存时长为B秒的音频数据为1个数组;S12.将数组转为声纹特征数据;S13.将声纹特征数据输入已经训练好的Attention+LSTM网络模型中,Attention+LSTM网络模型输出预测结果,当预测结果大于0.5,则判定声纹特征数据对应的音频当中出现了关键词。本发明可以检测出语音流中出现的关键词,省去语音唤醒系统的解码过程,而且系统的网络结构简洁,能够实现低运算量,高准确率。
Description
技术领域
本发明涉及音频识别技术领域,特别是一种基于Attention注意力机制的特定关键词识别方法及系统。
背景技术
随着语音识别技术的不断发展,越来越多的智能设备实现通过语音来与用户进行交互。例如在家庭的使用场景下,智能音箱充当了智能助手的角色,用户通过向音箱发出语音指令来实现智能设备的控制,或者通过智能设备获取需要的信息。
当前主流的智能音箱需要用户先通过语音唤醒来唤醒音箱,才能接受用户发出的语音指令,并做出相应的反应。但是,当用户的指令很简短的时候,唤醒过程极大地影响了用户的使用效率,让用户感觉麻烦多余。
发明内容
本发明为解决上述问题,提供了一种基于Attention注意力机制的特定关键词识别方法及系统,可以检测出语音流中出现的关键词,省去语音唤醒系统的解码过程,而且系统的网络结构简洁,能够实现低运算量,高准确率。
为实现上述目的,本发明采用的技术方案为:
一种基于Attention注意力机制的特定关键词识别方法,包括以下步骤:
S11.采集用户语音,每隔A秒保存时长为B秒的音频数据保存为1个数组(时长不足B秒则以实际时长),其中,0<A≤B;
S12.将所述数组转为声纹特征数据;
S13.将所述声纹特征数据输入已经训练好的Attention+LSTM网络模型中,所述Attention+LSTM网络模型输出预测结果,所述预测结果为输入所述Attention+LSTM网络模型中的声纹特征数据对应的音频中出现了关键词的概率值,在0~1之间,当所述预测结果大于0.5,则判定所述声纹特征数据对应的音频当中出现了关键词;
其中,所述Attention+LSTM网络模型的构建方法,包括以下步骤:
S21.确定关键词,所述关键词为至少一个;
S22.采集训练集,所述训练集包括正样本和负样本,所述正样本为包含任意一个所述关键词的音频数据,所述负样本为不包含所述关键词的音频数据;
S23.标注标签,将所述正样本标注标签为1,所述负样本标注标签为0;
S24.将所述训练集的音频数据转为训练集声纹特征数据;
S25.将所述训练集声纹特征数据输入到所述Attention+LSTM网络模型中,所述Attention+LSTM网络模型输出所述预测结果;
S26.所述预测结果和所述训练集声纹特征数据对应音频的标签之间的差值为损失值,多次迭代训练,使用交叉熵损失来作为损失函数,通过Adam算法来优化损失值至趋于稳定后完成训练。
优选的,所述Attention+LSTM网络模型的网络结构包括3层LSTM网络结构,每层所述LSTM网络中的神经元为300个,每层所述LSTM网络上封装一层Attention网络。
进一步优选的,所述Attention+LSTM网络模型的网络结构还包括全连接层,所述全连接层的网络结构为300×2。
更优选的,所述全连接层输出1×2的矩阵结果,所述预测结果通过SoftMax算法将所述矩阵结果进行转化而得。
优选的,使用PyAudio工具采集所述用户语音或所述训练集的音频数据,其中,采集到的数据为字符串数据,使用numpy工具将所述字符串数据转为数值数据。
优选的,使用python_speech_features工具将所述数组或所述训练集的音频数据转为40维的MFCC特征数据。
进一步优选的,对所述MFCC特征数据进行数值标准化处理,标准化的计算方式为(原数值﹣平均值)÷标准差。
基于同样的发明构思,本发明还提供了一种基于Attention注意力机制的特定关键词识别系统,包括:
音频采集终端,用于采集所述用户语音的音频数据;
识别模块,基于权利要求1至7中任一项所述的方法对所述用户语音的音频数据进行识别,并输出识别结果。
本发明的有益效果是:
(1)使用端到端的网络结构实时监听语音流,识别其中出现的预设定的关键词,并直接输出判断,识别速度快;
(2)网络结构简洁,运算量低;
(3)输入的音频数据经过预处理,网络结构优化完善,识别准确率高。
附图说明
图1为本发明一实施例所提供的特定关键词识别方法的流程图;
图2为本发明一实施例所提供的特定关键词识别系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合具体实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本实施例提供一种应用于智能音箱上的基于Attention注意力机制的特定关键词识别方法。
本发明采用Attention注意力机制+LSTM网络的结构。首先使用Tensorflow框架创建出LSTM网络,结构为3层,每层300个神经元。接下来使用Attention_Wrap函数,在每层LSTM网络结构上封装一层Attention网络,Attention网络在识别过程中动态更新各个LSTM神经元上的注意力概率,概率值在0~1之间。当概率为0时,该神经元的结果将不参与计算。
首先,需要构建一个Attention+LSTM网络模型,包括以下步骤:
S11.确定关键词,如“开灯”、“放音乐”、“打开电视”等。
S12.采集训练集,录制包含关键词的音频,每个关键词对应录制1000~2000个,也可以从网络中收集现成的关键词音频数据集,例如DataOcean等平台中均有公开的特定关键词音频数据集,将这些音频数据作为正样本。
同样通过在网络中收集现成的不包含所述关键词的音频数据集,数据集的内容可以为人的日常沟通对话音频,也可以为日常环境中的噪声,也可以为其他的声音音频,负样本的音频准备20000个。
S13.标注标签,将正样本标注标签为1,负样本标注标签为0,可以直接在音频的文件名上进行标注,方便后续的损失值计算。
S14.将训练集的音频数据转为训练集声纹特征数据。MFCC特征能够更好的体现人耳听取到人声的特征,通过python_speech_features工具将训练集的音频数据转为40维的MFCC特征,来进行模型的训练。
S15.将训练集声纹特征数据作为输入层对Attention+LSTM网络模型进行训练,上述Attention+LSTM网络输出的结果为1×300的矩阵结果,通过创建一个全连接层,全连接层的网络结构为300×2,使模型的输出层输出两个数值,分别为训练集声纹特征数据为关键词声纹特征数据的分数和为非关键词声纹特征数据的分数。
S16.通过SoftMax算法将上述两个分数归一化,转为训练集声纹特征数据为关键词声纹特征数据的概率值,在0~1之间,以此作为预测结果。
S17.通过cross entropy交叉熵的方式来计算训练集声纹特征数据的预测结果和标签之间的损失值,接着通过Adam算法来进行模型参数的训练迭代,实现通过迭代参数来优化损失值。模型进行了2000个批次的迭代训练,每个批次传入64个音频文件,损失值趋于稳定,模型的构建完成。
使用训练好的模型通过实时监听环境语音的方式,来判断当前语音流当中是否出现了关键词,如图1所示,包括以下步骤:
S21.智能音箱的麦克风实时采集用户的语音流,本发明的系统使用PyAudio工具通过循环的方式来监听麦克风的音频数据,每隔0.1秒保存1个时长为1秒的音频数据,该音频数据为1个数组。通过numpy工具的frombuffer将字符串数据转为数值格式。
S22.通过python_speech_features工具将数值格式的音频数据数组转为40维的MFCC特征,并进行数值标准化处理,首先通过numpy的mean方法来计算平均值,接下来通过numpy的std方法计算标准差,标准化的计算方式为(原数值-平均值)÷标准差。通过标准化处理,可以减少偏差数据,如突然出现的噪声,对整个音频的影响。
S23.将声纹特征数据输入已经训练好的Attention+LSTM网络模型中,模型输出该声纹特征数据对应的音频中出现了关键词的概率值,在0~1之间,作为预测结果。当该预测结果大于0.5,则判定当前语音流当中出现了关键词。此时智能音箱跳过语音唤醒步骤,直接激活并根据该关键词做出响应。
本发明的方法可以实现更加简洁的设备控制流程,能够提高用户操作智能语音设备的效率,减少操作设备的时间。
本实施例还提供一种应用于智能音箱上的基于Attention注意力机制的特定关键词识别系统,如图2所示,包括设置于智能音箱上的音频采集终端1和识别模块2。
音频采集终端1,用于实时采集用户的语音流,并将音频数据发送至识别模块2。识别模块2接收后,基于上述方法,对音频数据进行识别。如果当前语音流当中出现了关键词,则激活智能音箱,并根据该关键词做出响应,进行下一步的操作。
由于本发明的系统的实现网络结构简洁,运算量低,准确率高,适用于低功耗的智能设备。
本领域技术人员可以理解,实现上述音频数据识别方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (8)
1.一种基于Attention注意力机制的特定关键词识别方法,其特征在于,包括以下步骤:
S11.采集用户语音,每隔A秒保存时长为B秒的音频数据为1个数组(时长不足B秒则以实际时长),其中,0<A≤B;
S12.将所述数组转为声纹特征数据;
S13.将所述声纹特征数据输入已经训练好的Attention+LSTM网络模型中,所述Attention+LSTM网络模型输出预测结果,所述预测结果为输入所述Attention+LSTM网络模型中的声纹特征数据对应的音频中出现了关键词的概率值,在0~1之间,当所述预测结果大于0.5,则判定所述声纹特征数据对应的音频当中出现了关键词;
其中,所述Attention+LSTM网络模型的构建方法,包括以下步骤:
S21.确定关键词,所述关键词为至少一个;
S22.采集训练集,所述训练集包括正样本和负样本,所述正样本为包含任意一个所述关键词的音频数据,所述负样本为不包含所述关键词的音频数据;
S23.标注标签,将所述正样本标注标签为1,所述负样本标注标签为0;
S24.将所述训练集的音频数据转为训练集声纹特征数据;
S25.将所述训练集声纹特征数据输入到所述Attention+LSTM网络模型中,所述Attention+LSTM网络模型输出所述预测结果;
S26.所述预测结果和所述训练集声纹特征数据对应音频的标签之间的差值为损失值,多次迭代训练,使用交叉熵损失来作为损失函数,通过Adam算法来优化损失值至趋于稳定后完成训练。
2.根据权利要求1所述的一种基于Attention注意力机制的特定关键词识别方法,其特征在于,所述Attention+LSTM网络模型的网络结构包括3层LSTM网络结构,每层所述LSTM网络中的神经元为300个,每层所述LSTM网络上封装一层Attention网络。
3.根据权利要求2所述的一种基于Attention注意力机制的特定关键词识别方法,其特征在于,所述Attention+LSTM网络模型的网络结构还包括全连接层,所述全连接层的网络结构为300×2。
4.根据权利要求3所述的一种基于Attention注意力机制的特定关键词识别方法,其特征在于,所述全连接层输出1×2的矩阵结果,所述预测结果通过SoftMax算法将所述矩阵结果进行转化而得。
5.根据权利要求1所述的一种基于Attention注意力机制的特定关键词识别方法,其特征在于,使用PyAudio工具采集所述用户语音或所述训练集的音频数据,其中,采集到的数据为字符串数据,使用numpy工具将所述字符串数据转为数值数据。
6.根据权利要求1所述的一种基于Attention注意力机制的特定关键词识别方法,其特征在于,使用python_speech_features工具将所述数组或所述训练集的音频数据转为40维的MFCC特征数据。
7.根据权利要求6所述的一种基于Attention注意力机制的特定关键词识别方法,其特征在于,对所述MFCC特征数据进行数值标准化处理,标准化的计算方式为(原数值﹣平均值)÷标准差。
8.一种基于Attention注意力机制的特定关键词识别系统,其特征在于,包括:
音频采集终端,用于采集所述用户语音的音频数据;
识别模块,基于权利要求1至7中任一项所述的方法对所述用户语音的音频数据进行识别,并输出识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328803.9A CN111223489B (zh) | 2019-12-20 | 2019-12-20 | 一种基于Attention注意力机制的特定关键词识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328803.9A CN111223489B (zh) | 2019-12-20 | 2019-12-20 | 一种基于Attention注意力机制的特定关键词识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111223489A true CN111223489A (zh) | 2020-06-02 |
CN111223489B CN111223489B (zh) | 2022-12-06 |
Family
ID=70832194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911328803.9A Active CN111223489B (zh) | 2019-12-20 | 2019-12-20 | 一种基于Attention注意力机制的特定关键词识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111223489B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347778A (zh) * | 2020-11-06 | 2021-02-09 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
CN112511706A (zh) * | 2020-11-27 | 2021-03-16 | 贵州电网有限责任公司 | 一种适用于无侵入式旁路电话语音流获取方法及系统 |
CN112634870A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972339B1 (en) * | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
CN109524011A (zh) * | 2018-10-22 | 2019-03-26 | 四川虹美智能科技有限公司 | 一种基于声纹识别的冰箱唤醒方法及装置 |
CN109657239A (zh) * | 2018-12-12 | 2019-04-19 | 电子科技大学 | 基于注意力机制和语言模型学习的中文命名实体识别方法 |
US20190189115A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Open-Vocabulary End-to-End Speech Recognition |
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
CN110502610A (zh) * | 2019-07-24 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 基于文本语义相似度的智能语音签名方法、装置及介质 |
-
2019
- 2019-12-20 CN CN201911328803.9A patent/CN111223489B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972339B1 (en) * | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
US20190189115A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Open-Vocabulary End-to-End Speech Recognition |
CN109524011A (zh) * | 2018-10-22 | 2019-03-26 | 四川虹美智能科技有限公司 | 一种基于声纹识别的冰箱唤醒方法及装置 |
CN109657239A (zh) * | 2018-12-12 | 2019-04-19 | 电子科技大学 | 基于注意力机制和语言模型学习的中文命名实体识别方法 |
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
CN110502610A (zh) * | 2019-07-24 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 基于文本语义相似度的智能语音签名方法、装置及介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347778A (zh) * | 2020-11-06 | 2021-02-09 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
CN112347778B (zh) * | 2020-11-06 | 2023-06-20 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
CN112511706A (zh) * | 2020-11-27 | 2021-03-16 | 贵州电网有限责任公司 | 一种适用于无侵入式旁路电话语音流获取方法及系统 |
CN112634870A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
WO2022121188A1 (zh) * | 2020-12-11 | 2022-06-16 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
CN112634870B (zh) * | 2020-12-11 | 2023-05-30 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111223489B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111223489B (zh) | 一种基于Attention注意力机制的特定关键词识别方法及系统 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN111312245A (zh) | 一种语音应答方法、装置和存储介质 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN105632486A (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN115062143A (zh) | 语音识别与分类方法、装置、设备、冰箱及存储介质 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
CN111667818A (zh) | 一种训练唤醒模型的方法及装置 | |
CN111276133B (zh) | 音频识别方法、系统、移动终端及存储介质 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN111508493B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN110808050B (zh) | 语音识别方法及智能设备 | |
CN111933149A (zh) | 语音交互方法、穿戴式设备、终端及语音交互系统 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN117713377A (zh) | 调度自动化主站智能语音联调系统 | |
CN116645960A (zh) | 模型训练方法、语音唤醒方法、装置、设备及介质 | |
CN116825105A (zh) | 一种基于人工智能的语音识别方法 | |
CN115064160B (zh) | 语音唤醒方法以及装置 | |
CN116746887A (zh) | 一种基于音频的睡眠分期的方法、系统、终端及存储介质 | |
CN115132195A (zh) | 语音唤醒方法、装置、设备、存储介质及程序产品 | |
CN114792518A (zh) | 一种基于调度域技术的语音识别系统及其方法、存储介质 | |
CN112150103A (zh) | 一种日程设置方法、装置和存储介质 | |
CN110125946A (zh) | 自动通话方法、装置、电子设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |