CN113470652A - 一种基于工业互联网的语音识别及处理方法 - Google Patents

一种基于工业互联网的语音识别及处理方法 Download PDF

Info

Publication number
CN113470652A
CN113470652A CN202110733947.3A CN202110733947A CN113470652A CN 113470652 A CN113470652 A CN 113470652A CN 202110733947 A CN202110733947 A CN 202110733947A CN 113470652 A CN113470652 A CN 113470652A
Authority
CN
China
Prior art keywords
voice
text
recognized
industrial internet
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110733947.3A
Other languages
English (en)
Inventor
张永文
杨磊
季东滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Ever Grand Intelligent Technology Co ltd
Original Assignee
Shandong Ever Grand Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Ever Grand Intelligent Technology Co ltd filed Critical Shandong Ever Grand Intelligent Technology Co ltd
Priority to CN202110733947.3A priority Critical patent/CN113470652A/zh
Publication of CN113470652A publication Critical patent/CN113470652A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

本发明公开了一种基于工业互联网的语音识别及处理方法,涉及语音识别技术领域。本发明包括如下步骤:构建工业互联网相应的文本数据库;获取待识别语音数据;对待识别语音数据进行预处理;对处理后的语音数据进行特征提取;将待识别的语音特征同声学模型进行匹配比较得到识别结果;将识别结果输入语言模型进行语言处理,获取语法和语义分析结果。本发明通过构建工业互联网文本数据库,将待识别的语音数据进行预处理和特征提取,将提取的特征与声学模型进行匹配,获取识别结果并输入语音模型分析得到语法和语义分析结,能够提高语音识别的精准度,并排除杂音造成的干扰。

Description

一种基于工业互联网的语音识别及处理方法
技术领域
本发明属于语音识别技术领域,特别是涉及一种基于工业互联网的语音识别及处理方法。
背景技术
工业互联网是全球工业系统与高级计算、分析、感应技术以及互联网连接融合的一种结果。工业互联网的本质是通过开放的、全球化的工业级网络平台把设备、生产线、工厂、供应商、产品和客户紧密地连接和融合起来,高效共享工业经济中的各种要素资源,从而通过自动化、智能化的生产方式降低成本、增加效率,帮助制造业延长产业链,推动制造业转型发展。
随着当今人工智能的迅速发展,语音识别技术取得了较大的突破,在商业、军事、民用等方面语音识别都得到了广泛的运用。目前国内外已有许多对语音识别领域的研究和产品,如苹果手机的Siri,微软的Cortana,百度的智能音箱,科大讯飞的讯飞语音输入等产品。语音识别之所以得到空前重视,从根本上说,也就是源于语音识别所带来的简便性。在人工智能中,尤其重要的一点就是要让机器人知道人类要做什么,所以务必要将人的指令转化为计算机可以识别的代码数字,常见的方式有图像、动作、语音转换等。而语言就是最直接最简单的转换方式,但在工业互联网系统中,一般要将其在理想环境下训练成运用于复杂含噪环境中的语音识别系统,如何减轻异常语音识别文本对用户的干扰,成为业界需要解决的一个问题。
发明内容
本发明的目的在于提供一种基于工业互联网的语音识别及处理方法,通过构建工业互联网文本数据库,将待识别的语音数据进行预处理和特征提取,将提取的特征与声学模型进行匹配,获取识别结果并输入语音模型分析得到语法和语义分析结果,解决了现有的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于工业互联网的语音识别及处理方法,包括如下步骤:
步骤S1:构建工业互联网相应的文本数据库;
步骤S2:获取待识别语音数据;
步骤S3:对待识别语音数据进行预处理;
步骤S4:对处理后的语音数据进行特征提取;
步骤S5:将待识别的语音特征同声学模型进行匹配比较得到识别结果;
步骤S6:将识别结果输入语言模型进行语言处理,获取语法和语义分析结果。
优选地,所述步骤S1中,文本数据库在数据上来源主要包括网络信息、平台信息和安全信息;所述文本数据库在数据上来源按照类型将器分别存储到磁盘的不同目录中,对相关信息进行提取,并将其存储到相应的关系数据表中;所述关系数据表对原始文件中的文本进行提取,并进行句子切分、符号转换、错误修正后,处理成纯文本,并存储到特定的文件中。
优选地,所述步骤S2中,对待识别语音数据进行语音识别,得到语音数据对应的语音识别结果,并将语音识别结果转换成对应的识别文本。
优选地,所述待识别语音数据还需要进行异常语音检测;所述异常语音检测包括依次获取语音数据中的待检测语音片段;根据语音识别结果计算待检测语音片段的后验概率和/或置信度;并基于验概率和/或置信度来确定待检测语音频段是否为异常语音。
优选地,所述步骤S3中,对待识别语音数据进行预处理的步骤如下:
步骤S31、时域分析:对原始语音信息报进行时域分析,获取原始语音信息中的有声段、无声端和浊音端;
步骤S32、端点检测:区分有声段、无声端和浊音端的信号来划分语音的开头和结尾;
步骤S33、预加重:预先添加与原始语音高频信号,通过叠加之后,原始语音信息在高频和低频端的能量相当;
步骤S34、去加重:在输出端,则做反向处理去加重;
步骤S35、分帧处理:对整段语音通过带通滤波器进行分帧处理切成多段;
步骤S36、加窗处理:对每段语音使用带通滤波器进行窗函数过滤处理;
步骤S37:重采样:限定采样器的采样频率为最高频率的5-8倍进行采样。
优选地,所述步骤S32中,采用双门眼检测法来计算门限能量的方式来判断语音端点,分别计算每个时刻的语音能量;所述语音能量的计算公式为:
Figure 977078DEST_PATH_IMAGE001
式中,
Figure 35164DEST_PATH_IMAGE002
为双门的门限,
Figure 346059DEST_PATH_IMAGE003
为第i点的语音广义分贝值;
当能量大于门限阈值,则新生产的门限序列为1,反之则为0;获得门限序列后,将其点乘原始语音序列,得到有效语音序列。
优选地,所述步骤S36中,窗函数包括矩形窗、汉明窗和汉宁窗;
其中,矩形窗的计算公式如下:
Figure 695263DEST_PATH_IMAGE004
汉明窗的计算公式如下:
Figure 916160DEST_PATH_IMAGE005
汉宁窗的计算公式如下:
Figure 269781DEST_PATH_IMAGE006
优选地,所述步骤S5中,声学模型内预先制定好分类判决规则,在根据判别规则完成模糊文本分类,并将分类结果迭加入知识库。
优选地,所述模糊文本分类的步骤如下:
步骤S51:对文本进行人工分类标注;
步骤S52:计算文本与训练文本的模糊集关联度;
步骤S53:根据步骤S51和步骤S52确定分类阈值,实现模糊分类;
步骤S54:计算分类的准确率和召回率。
本发明具有以下有益效果:
本发明通过构建工业互联网文本数据库,将待识别的语音数据进行预处理和特征提取,将提取的特征与声学模型进行匹配,获取识别结果并输入语音模型分析得到语法和语义分析结,能够提高语音识别的精准度,并排除杂音造成的干扰。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于工业互联网的语音识别及处理方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于工业互联网的语音识别及处理方法,包括如下步骤:
步骤S1:构建工业互联网相应的文本数据库;
步骤S2:获取待识别语音数据;
步骤S3:对待识别语音数据进行预处理;
步骤S4:对处理后的语音数据进行特征提取;
步骤S5:将待识别的语音特征同声学模型进行匹配比较得到识别结果;
步骤S6:将识别结果输入语言模型进行语言处理,获取语法和语义分析结果。
其中,步骤S1中,文本数据库在数据上来源主要包括网络信息、平台信息和安全信息;文本数据库在数据上来源按照类型将器分别存储到磁盘的不同目录中,对相关信息进行提取,并将其存储到相应的关系数据表中;关系数据表对原始文件中的文本进行提取,并进行句子切分、符号转换、错误修正后,处理成纯文本,并存储到特定的文件中。在在构建文件数据库时,需要控制其数据冗余,也就是在数据库中进行文本添加时预防不同文件URI中出现相同的文档内容;对数据冗余的控制主要有两种方法,分别是基于URI的冗余控制与基于文件内容的。
其中,步骤S2中,对待识别语音数据进行语音识别,得到语音数据对应的语音识别结果,并将语音识别结果转换成对应的识别文本。
其中,待识别语音数据还需要进行异常语音检测;异常语音检测包括依次获取语音数据中的待检测语音片段;根据语音识别结果计算待检测语音片段的后验概率和/或置信度;并基于验概率和/或置信度来确定待检测语音频段是否为异常语音。
其中,步骤S3中,对待识别语音数据进行预处理的步骤如下:
步骤S31、时域分析:对原始语音信息报进行时域分析,获取原始语音信息中的有声段、无声端和浊音端;
步骤S32、端点检测:区分有声段、无声端和浊音端的信号来划分语音的开头和结尾;检测则是通过区分以上不同段的信号来达到区划语音的开头与结尾,端点检测的唯一目的就是找到语音信号的起始点与结束点。
步骤S33、预加重:预先添加与原始语音高频信号,通过叠加之后,原始语音信息在高频和低频端的能量相当;在实际应用过程中,语音信息往往夹杂着环境中的各种其他声音信息,由于人类发音的特性,语音信息经过频率转换后往往大部分集中于低频带,从而使得低频能量过大,高频能量过低,计算机难以有效提取高频语音信息;为了抵消掉这种情况,预处理阶段使用预加重技术。
步骤S34、去加重:在输出端,则做反向处理去加重;而在语音识别系统的输出端,则需要做相反的处理,也就是去加重,采用相反的负能量信号将添加的高频成分去掉,从而还原原来的信号分布,有效提高声音信号的信噪比。
步骤S35、分帧处理:对整段语音通过带通滤波器进行分帧处理切成多段;分帧从简单来说,一段信号整体是不稳定的,但从局部来看,信号是稳定的,所以要想接收端接收平稳的信号,就需对整段语音进行分帧,也就是切成几段。但是需要注意的是,根据香农定理,分帧越多地声音片段,其开始段和结束段会存在声音不连续的现象,导致了分帧的帧长越短,信号的误差就越大,因此就需要再进行下述的加窗处理方法来解决。
步骤S36、加窗处理:对每段语音使用带通滤波器进行窗函数过滤处理;实际系统中,语音信号处理一般加汉明窗,就可以满足绝大多数种语音情况。语音识别的加窗类型受到许多因素的影响,包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等,实际应用时需要根据不同的情况选择窗。
步骤S37:重采样:限定采样器的采样频率为最高频率的5-8倍进行采样。
根据信号学中的奈奎斯特采样定理,再信号采集时,如果采样频率满足采样频率大于2倍最高频率时,经过采样后的信息可以原本保持的所有特征信息。根据这一定理,语音识别系统中通常采用重采样技术,也就是限定采样器的采样频率为最高频率的5~ 8倍。根据人类语音信号50Hz ~ 6kHz的频率范围,可以得出重采样器的采样频率为约16kHz 左右,重采样可以保证语音中的所有信息均被送至特征识别环节中;不同的语音识别在预处理顺序上有一定差别。
其中,步骤S32中,采用双门眼检测法来计算门限能量的方式来判断语音端点,分别计算每个时刻的语音能量;语音能量的计算公式为:
Figure 271235DEST_PATH_IMAGE007
式中,
Figure 125927DEST_PATH_IMAGE002
为双门的门限,
Figure 998069DEST_PATH_IMAGE003
为第i点的语音广义分贝值;
当能量大于门限阈值,则新生产的门限序列为1,反之则为0;获得门限序列后,将其点乘原始语音序列,得到有效语音序列。
其中,步骤S36中,窗函数包括矩形窗、汉明窗和汉宁窗;
其中,矩形窗的计算公式如下:
Figure 522591DEST_PATH_IMAGE004
汉明窗的计算公式如下:
Figure 437107DEST_PATH_IMAGE005
汉宁窗的计算公式如下:
Figure 705277DEST_PATH_IMAGE006
其中,步骤S5中,声学模型内预先制定好分类判决规则,在根据判别规则完成模糊文本分类,并将分类结果迭加入知识库。
其中,模糊文本分类的步骤如下:
步骤S51:对文本进行人工分类标注;
步骤S52:计算文本与训练文本的模糊集关联度;
步骤S53:根据步骤S51和步骤S52确定分类阈值,实现模糊分类;
步骤S54:计算分类的准确率和召回率。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (9)

1.一种基于工业互联网的语音识别及处理方法,其特征在于,包括如下步骤:
步骤S1:构建工业互联网相应的文本数据库;
步骤S2:获取待识别语音数据;
步骤S3:对待识别语音数据进行预处理;
步骤S4:对处理后的语音数据进行特征提取;
步骤S5:将待识别的语音特征同声学模型进行匹配比较得到识别结果;
步骤S6:将识别结果输入语言模型进行语言处理,获取语法和语义分析结果。
2.根据权利要求1所述的一种基于工业互联网的语音识别及处理方法,其特征在于,所述步骤S1中,文本数据库在数据上来源主要包括网络信息、平台信息和安全信息;所述文本数据库在数据上来源按照类型将器分别存储到磁盘的不同目录中,对相关信息进行提取,并将其存储到相应的关系数据表中;所述关系数据表对原始文件中的文本进行提取,并进行句子切分、符号转换、错误修正后,处理成纯文本,并存储到特定的文件中。
3.根据权利要求1所述的一种基于工业互联网的语音识别及处理方法,其特征在于,所述步骤S2中,对待识别语音数据进行语音识别,得到语音数据对应的语音识别结果,并将语音识别结果转换成对应的识别文本。
4.根据权利要求3所述的一种基于工业互联网的语音识别及处理方法,其特征在于,所述待识别语音数据还需要进行异常语音检测;所述异常语音检测包括依次获取语音数据中的待检测语音片段;根据语音识别结果计算待检测语音片段的后验概率和/或置信度;并基于验概率和/或置信度来确定待检测语音频段是否为异常语音。
5.根据权利要求1所述的一种基于工业互联网的语音识别及处理方法,其特征在于,所述步骤S3中,对待识别语音数据进行预处理的步骤如下:
步骤S31、时域分析:对原始语音信息报进行时域分析,获取原始语音信息中的有声段、无声端和浊音端;
步骤S32、端点检测:区分有声段、无声端和浊音端的信号来划分语音的开头和结尾;
步骤S33、预加重:预先添加与原始语音高频信号,通过叠加之后,原始语音信息在高频和低频端的能量相当;
步骤S34、去加重:在输出端,则做反向处理去加重;
步骤S35、分帧处理:对整段语音通过带通滤波器进行分帧处理切成多段;
步骤S36、加窗处理:对每段语音使用带通滤波器进行窗函数过滤处理;
步骤S37:重采样:限定采样器的采样频率为最高频率的5-8倍进行采样。
6.根据权利要求5所述的一种基于工业互联网的语音识别及处理方法,其特征在于,所述步骤S32中,采用双门眼检测法来计算门限能量的方式来判断语音端点,分别计算每个时刻的语音能量;所述语音能量的计算公式为:
Figure 354166DEST_PATH_IMAGE001
式中,
Figure 721693DEST_PATH_IMAGE002
为双门的门限,
Figure 494477DEST_PATH_IMAGE003
为第i点的语音广义分贝值;
当能量大于门限阈值,则新生产的门限序列为1,反之则为0;获得门限序列后,将其点乘原始语音序列,得到有效语音序列。
7.根据权利要求1所述的一种基于工业互联网的语音识别及处理方法,其特征在于,所述步骤S36中,窗函数包括矩形窗、汉明窗和汉宁窗;
其中,矩形窗的计算公式如下:
Figure 923928DEST_PATH_IMAGE004
汉明窗的计算公式如下:
Figure 98558DEST_PATH_IMAGE005
汉宁窗的计算公式如下:
Figure 840249DEST_PATH_IMAGE006
8.根据权利要求1所述的一种基于工业互联网的语音识别及处理方法,其特征在于,所述步骤S5中,声学模型内预先制定好分类判决规则,在根据判别规则完成模糊文本分类,并将分类结果迭加入知识库。
9.根据权利要求8所述的一种基于工业互联网的语音识别及处理方法,其特征在于,所述模糊文本分类的步骤如下:
步骤S51:对文本进行人工分类标注;
步骤S52:计算文本与训练文本的模糊集关联度;
步骤S53:根据步骤S51和步骤S52确定分类阈值,实现模糊分类;
步骤S54:计算分类的准确率和召回率。
CN202110733947.3A 2021-06-30 2021-06-30 一种基于工业互联网的语音识别及处理方法 Pending CN113470652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110733947.3A CN113470652A (zh) 2021-06-30 2021-06-30 一种基于工业互联网的语音识别及处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110733947.3A CN113470652A (zh) 2021-06-30 2021-06-30 一种基于工业互联网的语音识别及处理方法

Publications (1)

Publication Number Publication Date
CN113470652A true CN113470652A (zh) 2021-10-01

Family

ID=77874359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110733947.3A Pending CN113470652A (zh) 2021-06-30 2021-06-30 一种基于工业互联网的语音识别及处理方法

Country Status (1)

Country Link
CN (1) CN113470652A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132231A (zh) * 2022-08-31 2022-09-30 安徽讯飞寰语科技有限公司 语音活性检测方法、装置、设备及可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
CN103700370A (zh) * 2013-12-04 2014-04-02 北京中科模识科技有限公司 一种广播电视语音识别系统方法及系统
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN106373558A (zh) * 2015-07-24 2017-02-01 科大讯飞股份有限公司 语音识别文本处理方法及系统
CN109800296A (zh) * 2019-01-21 2019-05-24 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN110111780A (zh) * 2018-01-31 2019-08-09 阿里巴巴集团控股有限公司 数据处理方法和服务器
KR20200007983A (ko) * 2020-01-03 2020-01-22 엘지전자 주식회사 지역적 특징 기반의 음성인식 방법 및 시스템
CN110782896A (zh) * 2019-11-08 2020-02-11 中国电子科技集团公司第四十一研究所 一种基于语音控制的测量仪器测试系统及方法
CN112185392A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于供电智能客户的语音识别处理系统
CN112599124A (zh) * 2020-11-20 2021-04-02 内蒙古电力(集团)有限责任公司电力调度控制分公司 一种面向电网调度的语音调度方法及系统
CN112669851A (zh) * 2021-03-17 2021-04-16 北京远鉴信息技术有限公司 一种语音识别方法、装置、电子设备及可读存储介质
CN113012685A (zh) * 2019-12-20 2021-06-22 北京世纪好未来教育科技有限公司 音频识别方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
CN103700370A (zh) * 2013-12-04 2014-04-02 北京中科模识科技有限公司 一种广播电视语音识别系统方法及系统
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN106373558A (zh) * 2015-07-24 2017-02-01 科大讯飞股份有限公司 语音识别文本处理方法及系统
CN110111780A (zh) * 2018-01-31 2019-08-09 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN109800296A (zh) * 2019-01-21 2019-05-24 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN110782896A (zh) * 2019-11-08 2020-02-11 中国电子科技集团公司第四十一研究所 一种基于语音控制的测量仪器测试系统及方法
CN113012685A (zh) * 2019-12-20 2021-06-22 北京世纪好未来教育科技有限公司 音频识别方法、装置、电子设备及存储介质
KR20200007983A (ko) * 2020-01-03 2020-01-22 엘지전자 주식회사 지역적 특징 기반의 음성인식 방법 및 시스템
CN112185392A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于供电智能客户的语音识别处理系统
CN112599124A (zh) * 2020-11-20 2021-04-02 内蒙古电力(集团)有限责任公司电力调度控制分公司 一种面向电网调度的语音调度方法及系统
CN112669851A (zh) * 2021-03-17 2021-04-16 北京远鉴信息技术有限公司 一种语音识别方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨永锋等: "《经验模态分解在振动分析中的应用》", 北京:国防工业出版社, pages: 106 - 108 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132231A (zh) * 2022-08-31 2022-09-30 安徽讯飞寰语科技有限公司 语音活性检测方法、装置、设备及可读存储介质
CN115132231B (zh) * 2022-08-31 2022-12-13 安徽讯飞寰语科技有限公司 语音活性检测方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
WO2018145584A1 (zh) 一种语音端点检测方法及语音识别方法
CN103700370B (zh) 一种广播电视语音识别系统方法及系统
WO2022134833A1 (zh) 语音信号的处理方法、装置、设备及存储介质
CN105679310A (zh) 一种用于语音识别方法及系统
JP2006079079A (ja) 分散音声認識システム及びその方法
CN113488063B (zh) 一种基于混合特征及编码解码的音频分离方法
CN111667818A (zh) 一种训练唤醒模型的方法及装置
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN111429943B (zh) 音频中音乐及音乐相对响度的联合检测方法
CN113470652A (zh) 一种基于工业互联网的语音识别及处理方法
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
WO2022068233A1 (zh) 一种语音识别的方法、装置及计算机可读存储介质
WO2023222090A1 (zh) 基于深度学习的信息推送方法和装置
CN110930997B (zh) 一种利用深度学习模型对音频进行标注的方法
CN112927723A (zh) 基于深度神经网络的高性能抗噪语音情感识别方法
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
CN112233655A (zh) 一种提高语音命令词识别性能的神经网络训练方法
CN106887226A (zh) 一种基于人工智能识别的语音识别算法
CN113658596A (zh) 语意辨识方法与语意辨识装置
CN111833869B (zh) 一种应用于城市大脑的语音交互方法及系统
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
CN117174102A (zh) 音频信号噪声抑制的系统和方法
CN114550741A (zh) 一种语义识别的方法和系统
CN111833897B (zh) 一种用于交互式教育的语音增强方法
CN113345428B (zh) 语音识别模型的匹配方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination