CN112908333A - 语音识别方法、装置、设备及计算机可读存储介质 - Google Patents
语音识别方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112908333A CN112908333A CN202110501209.6A CN202110501209A CN112908333A CN 112908333 A CN112908333 A CN 112908333A CN 202110501209 A CN202110501209 A CN 202110501209A CN 112908333 A CN112908333 A CN 112908333A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- recognized
- sampling
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000012634 fragment Substances 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims description 153
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000001514 detection method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音识别技术领域,公开了一种语音识别方法、装置、设备及计算机可读存储介质。该语音识别方法包括:获取待识别语音数据;对所述待识别语音数据进行分割,得到待识别语音片段;将所述待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;根据所述分类结果确定各待识别语音片段对应的关键词识别模型,并将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。本发明能够实现增加基于MCU进行语音识别的可识别关键词数量。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。
背景技术
现有基于MCU(Micro Controller Unit,微控制单元,又称单片微型计算机或者单片机)的语音识别,受限于MCU本身的运算速度以及有限的内存容量,通常只能采用及其简单的语音识别模型,如模式匹配。当采用模式匹配时,需通过人工分析各个字的特征,进而基于分析得到的特征编写对应的匹配代码,在语音识别过程中,其运算量较大,导致在语音识别过程中,仅仅只能识别出几个关键词,而这种仅能识别几个关键词的语音识别技术在现实使用场景中是难以使用的。因此,如何克服由于MCU本身运算能力不足、有限的内存容量以及语音识别模型本身的缺陷导致的可识别关键词少的问题,增加基于MCU进行语音识别的可识别关键词数量,是目前亟需解决的技术问题。
发明内容
本发明的主要目的在于提供一种语音识别方法、装置、设备及计算机可读存储介质,旨在实现增加基于MCU进行语音识别的可识别关键词数量。
为实现上述目的,本发明提供一种语音识别方法,所述语音识别方法包括:
获取待识别语音数据;
对所述待识别语音数据进行分割,得到待识别语音片段;
将所述待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;
根据所述分类结果确定各待识别语音片段对应的关键词识别模型,并将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。
可选地,所述对所述待识别语音数据进行分割,得到待识别语音片段的步骤包括:
识别所述待识别语音数据的音素,得到音素序列及其每个音素对应的时间分割点;
根据所述音素序列及其每个音素对应的时间分割点,得到所述待识别语音数据对应的字序列及其每个字对应的时间分割点;
根据所述字序列及其每个字对应的时间分割点对所述待识别语音数据进行分割,得到待识别语音片段。
可选地,所述分类结果包括分类标签及其概率,所述根据所述分类结果确定各待识别语音片段对应的关键词识别模型的步骤包括:
根据所述概率和预设规则确定各待识别语音片段的关键词识别模型数量;
根据所述各待识别语音片段的关键词识别模型数量及分类标签确定各待识别语音片段对应的关键词识别模型。
可选地,所述将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果的步骤包括:
将所述待识别语音片段输入至对应的关键词识别模型,得到各待识别语音片段对应的关键词识别结果;
根据所述待识别语音片段的先后顺序对所述关键词识别结果进行组合,得到组合结果;
当所述组合结果包括多个时,对多个组合结果分别进行语义分析,得到各组合结果对应的语义评分;
将所述语义评分中的最大值所对应的组合结果确定为语音识别结果。
可选地,所述获取待识别语音数据的步骤包括:
获取当前语音采样数据,并获取上一语音采样数据的数据状态;
检测所述当前语音采样数据是否为语音数据,并根据所述数据状态检测所述上一语音采样数据是否为语音数据;
若所述当前语音采样数据为语音数据,且所述上一语音采样数据不为语音数据,则将所述当前语音采样数据的采样时间标记为语音起始时间;
若所述当前语音采样数据不为语音数据,且所述上一语音采样数据为语音数据,则将所述当前语音采样数据的采样时间标记为语音结束时间;
根据标记的语音结束时间和语音起始时间确定已采样语音数据的数据长度,并判断所述数据长度是否符合预设长度;
若符合,则从所述已采样语音数据中获取待识别语音数据。
可选地,所述根据标记的语音结束时间和语音起始时间确定已采样语音数据的数据长度,并判断所述数据长度是否符合预设长度的步骤之后,还包括:
若不符合,则按预设采样频率继续进行语音采样,直至已采样语音数据的数据长度符合预设长度。
可选地,所述检测所述当前语音采样数据是否为语音数据,并根据所述数据状态检测所述上一语音采样数据是否为语音数据的步骤之后,还包括:
若所述当前语音采样数据为语音数据,且所述上一语音采样数据为语音数据,则按预设采样频率继续进行语音采样;
若所述当前语音采样数据不为语音数据,且所述上一语音采样数据不为语音数据,则按预设采样频率继续进行语音采样。
此外,为实现上述目的,本发明还提供一种语音识别装置,所述语音识别装置包括:
获取模块,用于获取待识别语音数据;
语音分割模块,用于对所述待识别语音数据进行分割,得到待识别语音片段;
语音聚类模块,用于将所述待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;
语音识别模块,用于根据所述分类结果确定各待识别语音片段对应的关键词识别模型,并将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。
此外,为实现上述目的,本发明还提供一种语音识别设备,所述语音识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序,所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。
本发明提供一种语音识别方法、装置、设备及计算机可读存储介质,先获取待识别语音数据;然后,对待识别语音数据进行分割,得到待识别语音片段;将待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;进而根据分类结果确定各待识别语音片段对应的关键词识别模型,并将待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。本发明中的语音聚类模型和关键词识别模型均是基于神经网络训练得到的,无需针对各个字编写对应的匹配代码,可节省存储空间,同时,无需人工进行特征提取,还可以节省人力成本,相比于现有技术中采用模式匹配等模型时,由于受限于MCU本身的运算速度以及有限的内存容量而仅仅只能识别出几个关键词,本发明通过采用两层网络结构,可充分利用MCU有限的存储资源和计算资源,从而可大大提高可识别关键词的数量。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明语音识别方法第一实施例的流程示意图;
图3为本发明语音识别装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例语音识别设备可以是智能手机,也可以是PC(Personal Computer,个人计算机)、平板电脑、便携计算机等终端设备,该语音识别设备是基于使用Riscv32架构的MCU进行语音识别的。
如图1所示,该语音识别设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的语音识别设备结构并不构成对语音识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及语音识别程序。
在图1所示的终端中,网络接口1004主要用于连接外接麦克风,与外接麦克风进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音识别程序,并执行以下操作:
获取待识别语音数据;
对所述待识别语音数据进行分割,得到待识别语音片段;
将所述待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;
根据所述分类结果确定各待识别语音片段对应的关键词识别模型,并将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
识别所述待识别语音数据的音素,得到音素序列及其每个音素对应的时间分割点;
根据所述音素序列及其每个音素对应的时间分割点,得到所述待识别语音数据对应的字序列及其每个字对应的时间分割点;
根据所述字序列及其每个字对应的时间分割点对所述待识别语音数据进行分割,得到待识别语音片段。
进一步地,所述分类结果包括分类标签及其概率,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
根据所述概率和预设规则确定各待识别语音片段的关键词识别模型数量;
根据所述各待识别语音片段的关键词识别模型数量及分类标签确定各待识别语音片段对应的关键词识别模型。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
将所述待识别语音片段输入至对应的关键词识别模型,得到各待识别语音片段对应的关键词识别结果;
根据所述待识别语音片段的先后顺序对所述关键词识别结果进行组合,得到组合结果;
当所述组合结果包括多个时,对多个组合结果分别进行语义分析,得到各组合结果对应的语义评分;
将所述语义评分中的最大值所对应的组合结果确定为语音识别结果。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
获取当前语音采样数据,并获取上一语音采样数据的数据状态;
检测所述当前语音采样数据是否为语音数据,并根据所述数据状态检测所述上一语音采样数据是否为语音数据;
若所述当前语音采样数据为语音数据,且所述上一语音采样数据不为语音数据,则将所述当前语音采样数据的采样时间标记为语音起始时间;
若所述当前语音采样数据不为语音数据,且所述上一语音采样数据为语音数据,则将所述当前语音采样数据的采样时间标记为语音结束时间;
根据标记的语音结束时间和语音起始时间确定已采样语音数据的数据长度,并判断所述数据长度是否符合预设长度;
若符合,则从所述已采样语音数据中获取待识别语音数据。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
若不符合,则按预设采样频率继续进行语音采样,直至已采样语音数据的数据长度符合预设长度。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
若所述当前语音采样数据为语音数据,且所述上一语音采样数据为语音数据,则按预设采样频率继续进行语音采样;
若所述当前语音采样数据不为语音数据,且所述上一语音采样数据不为语音数据,则按预设采样频率继续进行语音采样。
基于上述硬件结构,提出本发明语音识别方法的各实施例。
本发明提供一种语音识别方法。
参照图2,图2为本发明语音识别方法第一实施例的流程示意图。
在本实施例中,该语音识别方法包括:
步骤S10,获取待识别语音数据;
本实施例的语音识别方法是由语音识别设备实现的,该语音识别设备是基于使用Riscv32架构的MCU进行语音识别的。
在本实施例中,Riscv32 MCU先通过外接麦克风获取待识别语音数据。
作为一种实施方式,Riscv32 MCU通过外接麦克风直接获取其采集到的待识别语音数据;作为另一种实施方式,Riscv32 MCU先获取外接麦克风采集到的当前语音采样数据,并获取上一语音采样数据的数据状态;然后,检测当前语音采样数据是否为语音数据,并根据数据状态检测上一语音采样数据是否为语音数据;若当前语音采样数据为语音数据,且上一语音采样数据不为语音数据,则将当前语音采样数据的采样时间标记为语音起始时间;若当前语音采样数据不为语音数据,且上一语音采样数据为语音数据,则将当前语音采样数据的采样时间标记为语音结束时间;最后,根据标记的语音结束时间和语音起始时间确定已采样语音数据的数据长度,并判断数据长度是否符合预设长度;若符合,则从已采样语音数据中获取待识别语音数据。
步骤S20,对所述待识别语音数据进行分割,得到待识别语音片段;
然后,对待识别语音数据进行分割,得到待识别语音片段。
具体的,步骤S20包括:
步骤a21,识别所述待识别语音数据的音素,得到音素序列及其每个音素对应的时间分割点;
步骤a22,根据所述音素序列及其每个音素对应的时间分割点,得到所述待识别语音数据对应的字序列及其每个字对应的时间分割点;
步骤a23,根据所述字序列及其每个字对应的时间分割点对所述待识别语音数据进行分割,得到待识别语音片段。
本实施例中,待识别语音数据的分割过程具体如下:
先识别待识别语音数据的音素,得到音素序列及其每个音素对应的时间分割点。其中,音素是自然语言语音的基本单位,一段语音实际上是由多个音素构成的音素序列。对于语音音素的识别,可通过维特比(Baum-Welch)算法等,具体的识别过程可参照现有技术,进而,在识别出音素序列的同时,确定每个音素在该待识别语音数据中的时间分割点,该时间分割点即为每个音素的开始时间和结束时间。
然后,根据音素序列及其每个音素对应的时间分割点,得到待识别语音数据对应的字序列及其每个字对应的时间分割点。其中,字是指自然语言的基本单位,对于汉语来说就是一个汉字或数字,而对于英语来说就是一个单词。在语音中,一个字通常是由一个或多个辅音音素和一个或多个元音音素组成,因而可对音素序列中的各个音素进行组合拼接,得到对应的字,进而组成字序列,同时,根据各个音素的时间分割点确定出字序列中每个字对应的时间分割点,该时间分割点即为每个字的开始时间和结束时间。
进而根据字序列及其每个字对应的时间分割点对待识别语音数据进行分割,得到待识别语音片段。在分割过程中,即根据每个字对应的时间分割点(包括每个字的开始时间和结束时间)对该待识别语音数据进行分割,所得到的待识别语音片段即为各个字对应的语音片段。
步骤S30,将所述待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;
在分割得到待识别语音片段之后,将待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果。其中,语音聚类模型是基于现有的神经网络训练得到的;分类结果包括分类标签及其概率,其中,分类标签可以包括但不限于数字标签、中文标签、英文标签等,当然也可以根据实际需要具体设定;概率即为待识别语音片段属于各类分类标签的可能性。
步骤S40,根据所述分类结果确定各待识别语音片段对应的关键词识别模型,并将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。
最后,根据分类结果确定各待识别语音片段对应的关键词识别模型,并将待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。关键词识别模型也是基于现有的神经网络训练得到的。
其中,所述分类结果包括分类标签及其概率,步骤“根据分类结果确定各待识别语音片段对应的关键词识别模型”包括:
步骤a41,根据所述概率和预设规则确定各待识别语音片段的关键词识别模型数量;
步骤a42,根据所述各待识别语音片段的关键词识别模型数量及分类标签确定各待识别语音片段对应的关键词识别模型。
本实施例中,各待识别语音片段对应的关键词识别模型的确定过程具体如下:
先根据概率和预设规则确定各待识别语音片段的关键词识别模型数量,其中,预设规则可以包括但不限于:1)检测概率中的最大值是否大于预设阈值(如60%-90%),若大于,则确定关键词识别模型数量为1个,若小于或等于,则确定关键词识别模型数量为预设数量(大于1,可选地为2-4);2)对各概率按从大到小的顺序进行排序,依次计算相邻概率之间的差值或差值比,根据该差值或差值比与预设值的大小关系来确定关键词识别模型数量。例如,各分类标签对应的比例分别为50%、40%、10%,预设值为0.5,计算差值比为(50%-40%)/40%=0.25、(40%-10%)/10%=3,则确定关键词识别模型数量为2;再例如,各分类标签对应的比例分别为30%、30%、25%、15%,预设值为0.5,计算差值比为(30%-30%)/30%=0、(30%-25%)/25%=0.2、(25%-15%)/15%=0.67,则确定关键词识别模型数量为3。需要说明的是,预设规则的设定依据为各分类标签对应的概率差别不显著时,则通过多个关键词识别模型进行识别,以提高最终语音识别结果的准确性。
在确定得到各待识别语音片段的关键词识别模型数量之后,根据各待识别语音片段的关键词识别模型数量及分类标签确定各待识别语音片段对应的关键词识别模型。例如,若关键词识别模型的数量为1个,则根据概率中的最大值对应的分类标签来确定对应的关键词识别模型;若关键词识别模型的数量为n个(n≥2),则对概率按从大到小的顺序进行排序,根据排序结果选取前m(m≤n)个概率对应的分类标签来确定对应的关键词识别模型。
进一步地,步骤“将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果”包括:
步骤a43,将所述待识别语音片段输入至对应的关键词识别模型,得到各待识别语音片段对应的关键词识别结果;
步骤a44,根据所述待识别语音片段的先后顺序对所述关键词识别结果进行组合,得到组合结果;
步骤a45,当所述组合结果包括多个时,对多个组合结果分别进行语义分析,得到各组合结果对应的语义评分;
步骤a46,将所述语义评分中的最大值所对应的组合结果确定为语音识别结果。
本实施例中,将待各识别语音片段分别输入至对应的关键词识别模型,得到各待识别语音片段对应的关键词识别结果;然后,根据待识别语音片段的先后顺序对关键词识别结果进行组合,得到组合结果。由于有些待识别语音片段所对应的关键词识别模型包括多个,对应的,组合结果也包括多个。当组合结果包括多个时,对多个组合结果分别进行语义分析,得到各组合结果对应的语义评分,进而将语义评分中的最大值所对应的组合结果确定为语音识别结果。当组合结果包括一个时,则直接将该组合结果确定为语音识别结果。
本发明实施例提供一种语音识别方法,先获取待识别语音数据;然后,对待识别语音数据进行分割,得到待识别语音片段;将待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;进而根据分类结果确定各待识别语音片段对应的关键词识别模型,并将待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。本发明实施例中的语音聚类模型和关键词识别模型均是基于神经网络训练得到的,无需针对各个字编写对应的匹配代码,可节省存储空间,同时,无需人工进行特征提取,还可以节省人力成本,相比于现有技术中采用模式匹配等模型时,由于受限于MCU本身的运算速度以及有限的内存容量而仅仅只能识别出几个关键词,本发明实施例通过采用两层网络结构,可充分利用MCU有限的存储资源和计算资源,从而可大大提高可识别关键词的数量。
进一步地,现有技术中,语音识别过程中所用到的语音识别模型,其训练通常是采用固定时长的完整语音作为输入,而MCU无法确定待识别语音的起始位置,而是持续将麦克风采集到的数据输入至模型中,以进行识别,从而导致语音识别模型的识别正确率严重下降。
对此,基于上述第一实施例,提出本发明语音识别方法的第二实施例。
在本实施例中,步骤S10包括:
步骤a11,获取当前语音采样数据,并获取上一语音采样数据的数据状态;
在本实施例中,Riscv32 MCU通过外接麦克风获取当前语音采样数据,并获取上一语音采样数据的数据状态。其中,当前语音采样数据和上一语音采样数据可以为外接麦克风按预设采样频率采样得到的一固定长度的语音数据;数据状态包括语音数据和非语音数据,是通过对采样得到的语音数据进行检测后标记得到的。
步骤a12,检测所述当前语音采样数据是否为语音数据,并根据所述数据状态检测所述上一语音采样数据是否为语音数据;
然后,检测当前语音采样数据是否为语音数据,并根据数据状态检测上一语音采样数据是否为语音数据。在检测当前语音采样数据是否为语音数据时,可采样VAD(VoiceActivity Detection,语音活动检测,又称语音端点检测、语音边界检测)方法,具体的检测过程可参照现有技术。
步骤a131,若所述当前语音采样数据为语音数据,且所述上一语音采样数据不为语音数据,则将所述当前语音采样数据的采样时间标记为语音起始时间;
若当前语音采样数据为语音数据,且上一语音采样数据不为语音数据,则将当前语音采样数据的采样时间标记为语音起始时间。此外,可更新当前语音采样数据的数据状态为语音数据。
步骤a132,若所述当前语音采样数据不为语音数据,且所述上一语音采样数据为语音数据,则将所述当前语音采样数据的采样时间标记为语音结束时间;
若当前语音采样数据不为语音数据,且上一语音采样数据为语音数据,则将当前语音采样数据的采样时间标记为语音结束时间。
步骤a14,根据标记的语音结束时间和语音起始时间确定已采样语音数据的数据长度,并判断所述数据长度是否符合预设长度;
步骤a151,若符合,则从所述已采样语音数据中获取待识别语音数据。
最后,根据标记的语音结束时间和语音起始时间确定已采样语音数据的数据长度,并判断数据长度是否符合预设长度,即判断数据长度是否超过预设长度;若数据长度符合预设长度,则从已采样语音数据中获取待识别语音数据。作为一种实施方式,可直接将符合预设长度的已采样语音数据作为待识别语音数据;作为另一种实施方式,可从符合预设长度的已采样语音数据中截取一预设固定长度的语音数据作为待识别语音数据。
进一步地,在上述步骤a14之后,还包括:
步骤a152,若不符合,则按预设采样频率继续进行语音采样,直至已采样语音数据的数据长度符合预设长度。
进一步地,在判断已采样语音数据的数据长度是否符合预设长度之后,若判定已采样语音数据的数据长度不符合预设长度,则按预设采样频率继续进行语音采样,直至已采样语音数据的数据长度符合预设长度。
进一步地,在上述步骤a12之后,还包括:
步骤a133,若所述当前语音采样数据为语音数据,且所述上一语音采样数据为语音数据,则按预设采样频率继续进行语音采样;
步骤a134,若所述当前语音采样数据不为语音数据,且所述上一语音采样数据不为语音数据,则按预设采样频率继续进行语音采样。
进一步地,在检测当前语音采样数据是否为语音数据,并根据数据状态检测上一语音采样数据是否为语音数据之后,若当前语音采样数据为语音数据,且上一语音采样数据为语音数据,则按预设采样频率继续进行语音采样;若当前语音采样数据不为语音数据,且上一语音采样数据不为语音数据,则按预设采样频率继续进行语音采样。
此外,进一步地,在上述步骤“获取当前语音采样数据”之后,该语音识别方法还包括:
预先设定一预设检测阈值,在获取到当前语音采样数据之后,可获取当前语音采样数据的语音强度,检测所述语音强度是否大于所述预设检测阈值,若大于,则执行后续步骤:获取上一语音采样数据的数据状态。通过上述方式,可在检测到当前语音采样数据的语音强度大于预设检测阈值时,方进行后续的语音检测步骤,以防止系统误触发。
本实施例中,通过上述方式,可准确确定待识别语音的起始位置和结束位置,从而便于获取一固定时长的语音采样数据作为模型的输入,可提高关键词识别的正确率,从而提高语音识别结果的准确性。
本发明还提供一种语音识别装置。
参照图3,图3为本发明语音识别装置第一实施例的功能模块示意图。
如图3所示,所述语音识别装置包括:
获取模块10,用于获取待识别语音数据;
语音分割模块20,用于对所述待识别语音数据进行分割,得到待识别语音片段;
语音聚类模块30,用于将所述待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;
语音识别模块40,用于根据所述分类结果确定各待识别语音片段对应的关键词识别模型,并将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。
进一步地,所述语音分割模块包括:
音素识别单元,用于识别所述待识别语音数据的音素,得到音素序列及其每个音素对应的时间分割点;
第一获取单元,用于根据所述音素序列及其每个音素对应的时间分割点,得到所述待识别语音数据对应的字序列及其每个字对应的时间分割点;
语音分割单元,用于根据所述字序列及其每个字对应的时间分割点对所述待识别语音数据进行分割,得到待识别语音片段。
进一步地,所述分类结果包括分类标签及其概率,所述语音聚类模块包括:
第一确定单元,用于根据所述概率和预设规则确定各待识别语音片段的关键词识别模型数量;
第二确定单元,用于根据所述各待识别语音片段的关键词识别模型数量及分类标签确定各待识别语音片段对应的关键词识别模型。
进一步地,所述语音识别模块包括:
第一输入单元,用于将所述待识别语音片段输入至对应的关键词识别模型,得到各待识别语音片段对应的关键词识别结果;
结果组合单元,用于根据所述待识别语音片段的先后顺序对所述关键词识别结果进行组合,得到组合结果;
语义分析单元,用于当所述组合结果包括多个时,对多个组合结果分别进行语义分析,得到各组合结果对应的语义评分;
第三确定单元,用于将所述语义评分中的最大值所对应的组合结果确定为语音识别结果。
进一步地,所述获取模块包括:
第二获取单元,用于获取当前语音采样数据,并获取上一语音采样数据的数据状态;
检测单元,用于检测所述当前语音采样数据是否为语音数据,并根据所述数据状态检测所述上一语音采样数据是否为语音数据;
第一标记单元,用于若所述当前语音采样数据为语音数据,且所述上一语音采样数据不为语音数据,则将所述当前语音采样数据的采样时间标记为语音起始时间;
第二标记单元,用于若所述当前语音采样数据不为语音数据,且所述上一语音采样数据为语音数据,则将所述当前语音采样数据的采样时间标记为语音结束时间;
判断单元,用于根据标记的语音结束时间和语音起始时间确定已采样语音数据的数据长度,并判断所述数据长度是否符合预设长度;
第三获取单元,用于若符合,则从所述已采样语音数据中获取待识别语音数据。
进一步地,所述获取模块还包括:
第一采样单元,用于若不符合,则按预设采样频率继续进行语音采样,直至已采样语音数据的数据长度符合预设长度。
进一步地,所述获取模块还包括:
第二采样单元,用于若所述当前语音采样数据为语音数据,且所述上一语音采样数据为语音数据,则按预设采样频率继续进行语音采样;
第三采样单元,用于若所述当前语音采样数据不为语音数据,且所述上一语音采样数据不为语音数据,则按预设采样频率继续进行语音采样。
其中,上述语音识别装置中各个模块的功能实现与上述语音识别方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现如以上任一项实施例所述的语音识别方法的步骤。
本发明计算机可读存储介质的具体实施例与上述语音识别方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音识别方法,其特征在于,所述语音识别方法包括:
获取待识别语音数据;
对所述待识别语音数据进行分割,得到待识别语音片段;
将所述待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;
根据所述分类结果确定各待识别语音片段对应的关键词识别模型,并将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。
2.如权利要求1所述的语音识别方法,其特征在于,所述对所述待识别语音数据进行分割,得到待识别语音片段的步骤包括:
识别所述待识别语音数据的音素,得到音素序列及其每个音素对应的时间分割点;
根据所述音素序列及其每个音素对应的时间分割点,得到所述待识别语音数据对应的字序列及其每个字对应的时间分割点;
根据所述字序列及其每个字对应的时间分割点对所述待识别语音数据进行分割,得到待识别语音片段。
3.如权利要求1所述的语音识别方法,其特征在于,所述分类结果包括分类标签及其概率,所述根据所述分类结果确定各待识别语音片段对应的关键词识别模型的步骤包括:
根据所述概率和预设规则确定各待识别语音片段的关键词识别模型数量;
根据所述各待识别语音片段的关键词识别模型数量及分类标签确定各待识别语音片段对应的关键词识别模型。
4.如权利要求1所述的语音识别方法,其特征在于,所述将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果的步骤包括:
将所述待识别语音片段输入至对应的关键词识别模型,得到各待识别语音片段对应的关键词识别结果;
根据所述待识别语音片段的先后顺序对所述关键词识别结果进行组合,得到组合结果;
当所述组合结果包括多个时,对多个组合结果分别进行语义分析,得到各组合结果对应的语义评分;
将所述语义评分中的最大值所对应的组合结果确定为语音识别结果。
5.如权利要求1至4中任一项所述的语音识别方法,其特征在于,所述获取待识别语音数据的步骤包括:
获取当前语音采样数据,并获取上一语音采样数据的数据状态;
检测所述当前语音采样数据是否为语音数据,并根据所述数据状态检测所述上一语音采样数据是否为语音数据;
若所述当前语音采样数据为语音数据,且所述上一语音采样数据不为语音数据,则将所述当前语音采样数据的采样时间标记为语音起始时间;
若所述当前语音采样数据不为语音数据,且所述上一语音采样数据为语音数据,则将所述当前语音采样数据的采样时间标记为语音结束时间;
根据标记的语音结束时间和语音起始时间确定已采样语音数据的数据长度,并判断所述数据长度是否符合预设长度;
若符合,则从所述已采样语音数据中获取待识别语音数据。
6.如权利要求5所述的语音识别方法,其特征在于,所述根据标记的语音结束时间和语音起始时间确定已采样语音数据的数据长度,并判断所述数据长度是否符合预设长度的步骤之后,还包括:
若不符合,则按预设采样频率继续进行语音采样,直至已采样语音数据的数据长度符合预设长度。
7.如权利要求5所述的语音识别方法,其特征在于,所述检测所述当前语音采样数据是否为语音数据,并根据所述数据状态检测所述上一语音采样数据是否为语音数据的步骤之后,还包括:
若所述当前语音采样数据为语音数据,且所述上一语音采样数据为语音数据,则按预设采样频率继续进行语音采样;
若所述当前语音采样数据不为语音数据,且所述上一语音采样数据不为语音数据,则按预设采样频率继续进行语音采样。
8.一种语音识别装置,其特征在于,所述语音识别装置包括:
获取模块,用于获取待识别语音数据;
语音分割模块,用于对所述待识别语音数据进行分割,得到待识别语音片段;
语音聚类模块,用于将所述待识别语音片段输入至语音聚类模型,得到各待识别语音片段对应的分类结果;
语音识别模块,用于根据所述分类结果确定各待识别语音片段对应的关键词识别模型,并将所述待识别语音片段输入至对应的关键词识别模型,以得到语音识别结果。
9.一种语音识别设备,其特征在于,所述语音识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序,所述语音识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现如权利要求1至7中任一项所述的语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501209.6A CN112908333B (zh) | 2021-05-08 | 2021-05-08 | 语音识别方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501209.6A CN112908333B (zh) | 2021-05-08 | 2021-05-08 | 语音识别方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908333A true CN112908333A (zh) | 2021-06-04 |
CN112908333B CN112908333B (zh) | 2021-07-16 |
Family
ID=76109073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110501209.6A Active CN112908333B (zh) | 2021-05-08 | 2021-05-08 | 语音识别方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908333B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114255786A (zh) * | 2021-12-27 | 2022-03-29 | 中国电信股份有限公司 | 语音播报的打断检测方法、装置、存储介质及电子设备 |
CN114267337A (zh) * | 2022-03-02 | 2022-04-01 | 合肥讯飞数码科技有限公司 | 一种语音识别系统及实现前向运算的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239685A (zh) * | 2017-06-02 | 2017-10-10 | 深圳市冠旭电子股份有限公司 | 控制蓝牙设备的方法、蓝牙设备及计算机可读存储介质 |
US10032454B2 (en) * | 2011-03-03 | 2018-07-24 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
US20200074990A1 (en) * | 2018-09-03 | 2020-03-05 | Lg Electronics Inc. | Server for providing voice recognition service |
CN110970018A (zh) * | 2018-09-28 | 2020-04-07 | 珠海格力电器股份有限公司 | 语音识别方法和装置 |
CN111402861A (zh) * | 2020-03-25 | 2020-07-10 | 苏州思必驰信息科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN112068793A (zh) * | 2019-06-11 | 2020-12-11 | 北京搜狗科技发展有限公司 | 一种语音输入方法及装置 |
-
2021
- 2021-05-08 CN CN202110501209.6A patent/CN112908333B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10032454B2 (en) * | 2011-03-03 | 2018-07-24 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
CN107239685A (zh) * | 2017-06-02 | 2017-10-10 | 深圳市冠旭电子股份有限公司 | 控制蓝牙设备的方法、蓝牙设备及计算机可读存储介质 |
US20200074990A1 (en) * | 2018-09-03 | 2020-03-05 | Lg Electronics Inc. | Server for providing voice recognition service |
CN110970018A (zh) * | 2018-09-28 | 2020-04-07 | 珠海格力电器股份有限公司 | 语音识别方法和装置 |
CN112068793A (zh) * | 2019-06-11 | 2020-12-11 | 北京搜狗科技发展有限公司 | 一种语音输入方法及装置 |
CN111402861A (zh) * | 2020-03-25 | 2020-07-10 | 苏州思必驰信息科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114255786A (zh) * | 2021-12-27 | 2022-03-29 | 中国电信股份有限公司 | 语音播报的打断检测方法、装置、存储介质及电子设备 |
CN114267337A (zh) * | 2022-03-02 | 2022-04-01 | 合肥讯飞数码科技有限公司 | 一种语音识别系统及实现前向运算的方法 |
CN114267337B (zh) * | 2022-03-02 | 2022-07-19 | 合肥讯飞数码科技有限公司 | 一种语音识别系统及实现前向运算的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112908333B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN105931644B (zh) | 一种语音识别方法及移动终端 | |
CN111198948B (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN112908333B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN111444349A (zh) | 信息抽取方法、装置、计算机设备和存储介质 | |
CN110750984B (zh) | 命令行字符串处理方法、终端、装置及可读存储介质 | |
CN112101003B (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN110245606B (zh) | 一种文本识别方法、装置、设备及存储介质 | |
CN113192516A (zh) | 语音角色分割方法、装置、计算机设备及存储介质 | |
CN111354340B (zh) | 数据标注准确度验证方法、装置、电子设备及存储介质 | |
CN112036168A (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
CN111554276A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN112818680A (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN111554275A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN112397052A (zh) | Vad断句测试方法、装置、计算机设备及存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN112201275A (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
CN112036169A (zh) | 事件识别模型优化方法、装置、设备及可读存储介质 | |
CN113268588A (zh) | 文本摘要提取方法、装置、设备、存储介质及程序产品 | |
CN109144284B (zh) | 信息显示方法和装置 | |
CN115881108A (zh) | 语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |