CN112820281B

CN112820281B - 一种语音识别方法、装置及设备

Info

Publication number: CN112820281B
Application number: CN202011623207.6A
Authority: CN
Inventors: 陈孝良; 冯大航; 焦伟; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-09-23
Anticipated expiration: 2040-12-31
Also published as: CN112820281A

Abstract

本发明提供一种语音识别方法、装置及设备，该方法包括：获取待识别语音；利用声学模型和预先构建的目标解码模型，对待识别语音进行识别，得到识别结果，其中，识别结果包括音素序列、文本和音素时间点信息，目标解码模型为隐马尔可夫模型HMM与CLG结合的解码模型，CLG为音素模型、发音词典和语言模型组合形成的模型，CLG的每条输出实边对应一个音素，HMM中建立有HMM状态与音素的对应关系；依据识别结果，确定文本中每个词的时间点信息；输出文本和时间点信息。这样，通过预先构建的HMM与CLG结合的解码模型，可识别得到待识别语音中每个发音音素的时间点信息，进而可基于已识别文本中每个词对应的音素的时间点信息，准确地确定每个词的时间点信息。

Description

一种语音识别方法、装置及设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音识别方法、装置及设备。

背景技术

随着语音识别技术的不断普及，语音识别技术的应用场景也越来越多。在一些场景下，语音识别系统不仅需要提供识别结果，还需要提供每个词的时间点，比如多少毫秒到多少毫秒之间，对应的是某个词。

相关技术中，通常是将解码过程中出词的时间点作为这个词的结束时间点，该词的开始时间点则为上一个词的结束时间点。然而，由于解码模型(解码图构)建过程中会对解码模型做很多优化处理，导致在解码模型中出词的时间点，很大概率并不是这个词真正结束的时间点。因此，相关语音识别技术中识别的词的时间点会存在一定误差，准确度不高。

发明内容

本发明实施例提供一种语音识别方法、装置及设备，以解决相关语音识别技术中识别的词的时间点会存在一定误差，准确度不高的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音识别方法，包括：

获取待识别语音；

利用声学模型和预先构建的目标解码模型，对所述待识别语音进行识别，得到识别结果，其中，所述识别结果包括音素序列、文本和音素时间点信息，所述目标解码模型为隐马尔可夫模型(Hidden Markov Model，HMM)与CLG结合的解码模型，所述CLG为音素模型、发音词典和语言模型组合形成的模型，所述CLG的每条输出实边对应一个音素，所述HMM中建立有HMM状态与音素的对应关系；

依据所述识别结果，确定所述文本中每个词的时间点信息；

输出所述文本和所述时间点信息。

可选的，所述利用声学模型和预先构建的目标解码模型，对所述待识别语音进行识别，得到识别结果，包括：

对所述待识别语音进行音频特征提取，并将提取的音频特征输入声学模型，得到所述声学模型输出的HMM状态信息；

利用预先构建的目标解码模型，对所述HMM状态信息进行解码处理，得到所述CLG输出的音素序列和文本，以及得到令牌中记录的所述音素序列中每个音素的时间点信息，其中，所述令牌为所述解码处理中使用的用于记录每个音素对应的节点起止时间的数据结构。

可选的，所述利用预先构建的目标解码模型，对所述HMM状态信息进行解码处理，包括：

基于所述目标解码模型和所述HMM状态信息，从所述CLG的开始节点开始扩展CLG输出边，并在每次扩展CLG输出实边的过程中，跳转至所述HMM中以获取当前节点的HMM状态信息对应的目标音素，并在获取所述目标音素后跳回所述CLG中；

使用当前节点对应的令牌记录跳转至所述HMM和跳回所述CLG的时间点信息，其中，所述跳转至所述HMM和跳回所述CLG的时间点信息分别对应所述目标音素的起始时间和结束时间；

基于所扩展的CLG输出实边，确定所述CLG输出的音素序列和文本。

可选的，所述基于所扩展的CLG输出实边，确定所述CLG输出的音素序列和文本，包括：

在所述CLG的输出为空的情况下，将所述CLG输出实边对应的音素进行输出；

在所述CLG的输出不为空的情况下，将所述CLG输出实边对应的音素和所述CLG的输出词进行输出；

确定所述CLG输出的音素序列和文本。

可选的，所述依据所述识别结果，确定所述文本中每个词的时间点信息，包括：

依据所述识别结果，确定所述文本中每个词对应的起始音素和结束音素；

确定所述每个词对应的起始音素的起始时间点，以及确定所述每个词对应的结束音素的结束时间点。

可选的，在所述待识别语音中存在静音音频的情况下，所述音素序列中包括所述静音音频对应的静音音素。

第二方面，本发明实施例提供一种语音识别装置，包括：

获取模块，用于获取待识别语音；

识别模块，用于利用声学模型和预先构建的目标解码模型，对所述待识别语音进行识别，得到识别结果，其中，所述识别结果包括音素序列、文本和音素时间点信息，所述目标解码模型为隐马尔可夫模型HMM与CLG结合的解码模型，所述CLG为音素模型、发音词典和语言模型组合形成的模型，所述CLG的每条输出实边对应一个音素，所述HMM中建立有HMM状态与音素的对应关系；

确定模块，用于依据所述识别结果，确定所述文本中每个词的时间点信息；

输出模块，用于输出所述文本和所述时间点信息。

可选的，所述识别模块包括：

处理子模块，对所述待识别语音进行音频特征提取，并将提取的音频特征输入声学模型，得到所述声学模型输出的HMM状态信息；

解码子模块，用于利用预先构建的目标解码模型，对所述HMM状态信息进行解码处理，得到所述CLG输出的音素序列和文本，以及得到令牌中记录的所述音素序列中每个音素的时间点信息，其中，所述令牌为所述解码处理中使用的用于记录每个音素对应的节点起止时间的数据结构。

可选的，所述解码子模块包括：

解码单元，用于基于所述目标解码模型和所述HMM状态信息，从所述CLG的开始节点开始扩展CLG输出边，并在每次扩展CLG输出实边的过程中，跳转至所述HMM中以获取当前节点的HMM状态信息对应的目标音素，并在获取所述目标音素后跳回所述CLG中；

记录单元，用于使用当前节点对应的令牌记录跳转至所述HMM和跳回所述CLG的时间点信息，其中，所述跳转至所述HMM和跳回所述CLG的时间点信息分别对应所述目标音素的起始时间和结束时间；

确定单元，用于基于所扩展的CLG输出实边，确定所述CLG输出的音素序列和文本。

可选的，所述确定单元包括：

第一处理子单元，用于在所述CLG的输出为空的情况下，将所述CLG输出实边对应的音素进行输出；

第二处理子单元，用于在所述CLG的输出不为空的情况下，将所述CLG输出实边对应的音素和所述CLG的输出词进行输出；

确定子单元，用于确定所述CLG输出的音素序列和文本。

可选的，所述确定模块包括：

第一确定子模块，用于依据所述识别结果，确定所述文本中每个词对应的起始音素和结束音素；

第二确定子模块，用于确定所述每个词对应的起始音素的起始时间点，以及确定所述每个词对应的结束音素的结束时间点。

第三方面，本发明实施例提供一种语音识别设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音识别方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音识别方法中的步骤。

本发明实施例中，获取待识别语音；利用声学模型和预先构建的目标解码模型，对所述待识别语音进行识别，得到识别结果，其中，所述识别结果包括音素序列、文本和音素时间点信息，所述目标解码模型为隐马尔可夫模型HMM与CLG结合的解码模型，所述CLG为音素模型、发音词典和语言模型组合形成的模型，所述CLG的每条输出实边对应一个音素，所述HMM中建立有HMM状态与音素的对应关系；依据所述识别结果，确定所述文本中每个词的时间点信息；输出所述文本和所述时间点信息。这样，通过预先构建的HMM与CLG结合的解码模型，可识别得到待识别语音中每个发音音素的时间点信息，进而可基于已识别文本中每个词对应的音素的时间点信息，准确地确定每个词的时间点信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音识别方法的流程图；

图2是本发明实施例提供的一种语音识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种语音识别方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101、获取待识别语音。

上述待识别语音可以是任意需要进行语音识别以确定各词发音时间点的语音，例如，对于同步翻译字幕的应用场景，所述待识别语音可以是多媒体资源如视频中的台词语音，对于语音交互场景，所述待识别语音可以是采集的用户输入语音，等等。

步骤102、利用声学模型和预先构建的目标解码模型，对所述待识别语音进行识别，得到识别结果，其中，所述识别结果包括音素序列、文本和音素时间点信息，所述目标解码模型为隐马尔可夫模型HMM(Hidden Markov Model，HMM)与CLG(Context,Lexicon andGrammer)结合的解码模型，所述CLG为音素模型、发音词典和语言模型组合形成的模型，所述CLG的每条输出实边对应一个音素，所述HMM中建立有HMM状态与音素的对应关系。

本发明实施例中，为了得到较为精准的出词时间，也即准确确定所述待识别语音中哪段音频对应表达的是哪个词，可以预先构建HMM与CLG结合的解码模型，也即H+CLG形式的解码图，其中，所述HMM中可以建立有HMM状态与音素的对应关系，例如，对于每一个不同的音素，可以分别使用一个HMM单元表示，使得在对所述待识别语音通过声学模型识别得到各音频帧的HMM状态后，可以再通过所述HMM中的建立的HMM状态与音素的对应关系，确定该音频帧对应的音素；所述CLG为音素模型C、发音词典L和语言模型G组合形成的模型，例如，可以是采用组合算法，如组合Composition算法，将音素模型C、发音词典L和语言模型G组合形成所述CLG，所述CLG的每条输出实边对应一个音素，从而在所述CLG上每经过一条实边，就表示一个音素发音完毕，在构建好所述CLG后，可以将所述CLG的输出边对应的音素作为该输出边的输出，其中，输出边包括空边和实边，空边不对应有音素。例如，CLG的某条输出实边上的音素为“j”，则音素“j”即为该输出实边的输出。

其中，需说明的是，HMM、音素模型C、发音词典L和语言模型G均可以表示成加权有限状态转换机(Weighted Finite-State Transducer，WFST)形式的解码图，然后将音素模型C对应的WFST、发音词典L对应的WFST和语言模型G对应的WFST进行组合得到CLG解码图，并结合HMM对应的WFST，可构建得到H+CLG形式的解码图。

该步骤中，可以先利用声学模型对所述待识别语音进行识别处理，通过所述声学模型建立声学信号与建模单元如HMM状态之间的映射关系，从而得到所述待识别语音对应的HMM状态信息，如所述待识别语音中各音频帧映射到各HMM状态的概率分布或得分情况；再基于预先构建好的所述HMM与CLG结合的解码模型，也即所述H+CLG形式的解码图，确定所述HMM状态信息对应的音素、上下文音素和词，进而得到所述待识别语音对应的完整音素序列和文本，并且可基于可在解码过程中基于每个音素的发音起止时间，记录音素时间点信息，如记录每个音素的发音起始时间和发音结束时间，或记录起始音素和结束音素的发音起始时间及发音结束时间，还或者记录起始音素的发音起始时间，以及结束音素的发音结束时间，其中，起始音素可以是某个字或词的起始音素，结束音素可以是某个字或词的结束音素，例如，“今天”一词对应的发音音素为“j in1 t ian1”，则“j”为其起始音素，ian1为结束音素。

可选的，所述步骤102包括：

一种实施方式中，可以先对所述待识别语音进行音频特征提取，例如，可以对所述待识别语音对应的音频信号进行分帧，然后提取每帧的音频特征，具体地，可以利用Fbank、梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)等算法提取音频特征。

然后，可将提取的音频特征输入声学模型，由所述声学模型对所输入的音频特征进行处理，并输出所述音频特征对应的HMM状态信息，也即确定所述音频特征映射到各HMM状态的概率分布或得分情况，从而可基于该概率分布或得分情况，确定概率最大或得分最高的HMM状态为所述音频特征对应的HMM状态。

接着，可以利用预先构建好的所述HMM与CLG结合的解码模型，对所述HMM状态信息进行解码处理，具体地，可以以所述CLG为基础解码，并结合从所述HMM中获取的所述HMM状态信息对应的音素(作为相应节点之间的实边的输出)，确定解码路径，并可在确定解码路径的过程中依次创建各节点对应的令牌(token)，将各节点对应的边的输出、得分、音素时间点等信息记录在所述令牌中，具体地，可以使用各节点对应的令牌记录在扩展当前节点对应的输出边也即进入所述HMM中获取对应音素时的时间点信息，以及记录获取到的音素和概率信息。

最终可通过所述CLG输出相应的音素序列和文本，并且可从各节点对应的令牌中读取已记录的所述音素序列中每个音素的时间点信息，其中，所述文本可以是通过所述CLG中的发音词典和语言模型确定所述音素序列对应的词得到的。

这样，通过该实施方式，可较为准确快速地确定所述待识别语音对应的音素序列和文本，以及得到所述音素序列中每个音素的时间点信息，进而可便于确定所述文本中各词的时间点信息。

即更具体地解码过程可以是，基于所述HMM与CLG结合的解码模型，也即所述H+CLG形式的解码图，找到所述CLG的开始节点，创建该开始节点对应的令牌，并从所述开始节点处开始扩展CLG输出边，使用该节点对应的令牌记录其扩展的输出边的相关信息，如边输出、得分、音素时间点等信息；其中，每扩展完一条输出边，便进入下一节点，并且在每次扩展输出实边时，需要跳转进入所述HMM中，在所述HMM中继续进行解码操作，具体为从所述HMM中获取当前节点对应的HMM状态信息对应的目标音素，也即使用当前节点对应的HMM状态信息，遍历与所述HMM状态信息对应的目标音素，在获取到所述目标音素后再跳回所述CLG中，将获得的所述目标音素作为该次扩展的实边的输出，并继续进行下一节点的实边扩展，当前节点对应的令牌则会记录本次跳入所述HMM和跳回所述CLG中的两个时刻，分别对应所述目标音素的起始时间和结束时间。

最后，可基于所扩展的CLG输出实边，确定所述CLG输出的音素序列和文本，例如，可将各节点之间的输出实边上的音素按序组合输出，并且可将各音素对应的词组合输出，也即输出所述待识别语音对应的音素序列和文本。

这样，通过该实施方式，可在解码过程中通过各节点对应的令牌准确地记录每个发音音素的起止时间，进而保证最终输出的每个词的时间点信息较为准确可靠。

确定所述CLG输出的音素序列和文本。

上述CLG的输出为空可以理解为所述待识别语音中某音频帧经所述CLG未输出有词，上述CLG的输出不为空可以理解为所述待识别语音中某音频帧经所述CLG输出有词，其中，所述CLG的输出是否为空，与所述CLG的解码图构建方式存在关联，所述待识别语音对应的文本中的某个词可能随其任一发音音素一同输出。

一种实施方式中，在任一时刻所述CLG的输出为空的情况下，可以将所述CLG的输出改为音素，也即可以将当前CLG输出实边上的音素进行输出；在任一时刻所述CLG的输出不为空也即输出有词的情况下，可以将所述CLG的输出改为音素+词，也即可以将当前CLG输出实边上的音素和所述CLG的输出词一起输出。

例如，当前所述CLG的输出为空，且当前CLG输出实边为音素“j”时，可以输出音素“j”，当前所述CLG的输出不为空，如输出词“今天”，且当前CLG输出实边为音素“in1”时，可以输出音素和词“in1+今天”。

这样，可以基于修改后的CLG输出，确定所述CLG输出的音素序列和文本，其中，所述音素序列即为所述CLG输出的所有音素的按序组合，所述文本即为所述CLG输出的所有词的按序组合，当然，也可以直接将所述CLG的所有输出的按序组合，作为所述CLG输出的音素序列和文本。

通过该实施方式，能够更直观快速地确定所述文本中每个词对应的起止音素，进而通过获取所述起止音素的时间点信息，快速准确地输出所述每个词的时间点信息。

步骤103、依据所述识别结果，确定所述文本中每个词的时间点信息。

该步骤中，可以依据所述识别结果中的音素序列、文本和音素时间点信息，确定所述文本中每个词对应的音素，然后获取所述音素序列中对应该音素的时间点信息，如起始时间点和结束时间点，便可确定所述每个词的时间点信息。

可选的，所述步骤103包括：

该实施方式中，可以基于所述识别结果，即所述音素序列、文本和音素时间点信息，确定所述文本中每个词对应的起始音素和结束音素，具体可以从所述音素序列中确定对应每个词的音素，或者基于发音词典中存储的每个词的发音音素，确定所述每个词的音素，进而确定所述每个词的音素中的起始音素和结束音素，然后从所述音素时间点信息中查找出所述每个词的起始音素和结束音素的时间点信息。具体地，可以是获取所述每个词的起始音素的起始时间点和结束音素的结束时间点即可，该起始时间点即为该词的起始时间，该结束时间点即为该词的结束时间。

这样，可通过该实施方式准确地得到所述待识别语音对应的文本中每个词的起始时间和结束时间，也即确定每个词在所述待识别语音中的出词位置信息。

步骤104、输出所述文本和所述时间点信息。

最后，可以将所识别得到的文本和所确定的时间点信息输出即可，以展示所述待识别语音对应的具体文本内容，并提示其中每个词的出词时间信息，例如，提示所述待识别语音中的哪段音频对应表达的是哪个词。

即该实施方式中，可以对于所述待识别语音中的静音音频，也即所述待识别语音中存在停顿的音频或拖尾词对应的音频，可以在解码后输出所述静音音频对应的静音音素，这样，由于是基于每个词对应的音素的时间点信息，来确定各词的时间点信息，使得每个词之前或之后的静音音素的持续时间可以被忽略，而不会被算作在某个词的时间段内。

这样，还可以解决所述待识别语音中可能存在的静音问题，保证识别的各词的时间点信息更为精准。

下面结合一个识别实例，对本发明实施例中的具体实施方式进行举例说明：

例如，待识别语音为“今天天气怎么样”，相应识别的文本是：今天天气怎么样，其中一个字对应两个音素，那么在最终的识别结果中会有28个时间点，最终识别结果的形式可能是：j in1+今天t ian1 t ian1 q+天气i4 z en3 m e1y ang4+怎么样，这28个时间点对应这14个输出的开始时间点和结束时间点，这样，可以计算出“今天”这个词的开始时间就是音素“j”的开始时间，结束时间就是音素“ian1”的结束时间。

如果所述待识别语音中有静音，则识别结果的形式可能是：j in1+今天t ian1sil t ian1 q+天气i4 z en3 m e1 y ang4+怎么样，一共30个时间点，其中sil表示的就是静音，在计算词的开始时间和结束时间时，可以忽略掉静音的持续时间。

本实施例中的语音识别方法，获取待识别语音；利用声学模型和预先构建的目标解码模型，对所述待识别语音进行识别，得到识别结果，其中，所述识别结果包括音素序列、文本和音素时间点信息，所述目标解码模型为隐马尔可夫模型HMM与CLG结合的解码模型，所述CLG为音素模型、发音词典和语言模型组合形成的模型，所述CLG的每条输出实边对应一个音素，所述HMM中建立有HMM状态与音素的对应关系；依据所述识别结果，确定所述文本中每个词的时间点信息；输出所述文本和所述时间点信息。这样，通过预先构建的HMM与CLG结合的解码模型，可识别得到待识别语音中每个发音音素的时间点信息，进而可基于已识别文本中每个词对应的音素的时间点信息，准确地确定每个词的时间点信息。

参见图2，图2是本发明实施例提供的一种语音识别装置的结构示意图，如图2所示，语音识别装置200包括：

获取模块201，用于获取待识别语音；

识别模块202，用于利用声学模型和预先构建的目标解码模型，对所述待识别语音进行识别，得到识别结果，其中，所述识别结果包括音素序列、文本和音素时间点信息，所述目标解码模型为隐马尔可夫模型HMM与CLG结合的解码模型，所述CLG为音素模型、发音词典和语言模型组合形成的模型，所述CLG的每条输出实边对应一个音素，所述HMM中建立有HMM状态与音素的对应关系；

确定模块203，用于依据所述识别结果，确定所述文本中每个词的时间点信息；

输出模块204，用于输出所述文本和所述时间点信息。

可选的，识别模块202包括：

可选的，所述解码子模块包括：

可选的，所述确定单元包括：

确定子单元，用于确定所述CLG输出的音素序列和文本。

可选的，确定模块203包括：

语音识别装置200能够实现图1的方法实施例中的各个过程，为避免重复，这里不再赘述。本发明实施例的语音识别装置200可通过预先构建的HMM与CLG结合的解码模型，识别得到待识别语音中每个发音音素的时间点信息，进而可基于已识别文本中每个词对应的音素的时间点信息，准确地确定每个词的时间点信息。

本发明实施例还提供一种语音识别设备，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别语音；

利用声学模型和预先构建的目标解码模型，对所述待识别语音进行识别，得到识别结果，其中，所述识别结果包括音素序列、文本和音素时间点信息，所述目标解码模型为隐马尔可夫模型HMM与CLG结合的解码模型，所述CLG为音素模型、发音词典和语言模型组合形成的模型，所述CLG的每条输出实边对应一个音素，所述HMM中建立有HMM状态与音素的对应关系；

依据所述识别结果，确定所述文本中每个词的时间点信息；

输出所述文本和所述时间点信息。

2.根据权利要求1所述的方法，其特征在于，所述利用声学模型和预先构建的目标解码模型，对所述待识别语音进行识别，得到识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用预先构建的目标解码模型，对所述HMM状态信息进行解码处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所扩展的CLG输出实边，确定所述CLG输出的音素序列和文本，包括：

确定所述CLG输出的音素序列和文本。

5.根据权利要求1所述的方法，其特征在于，所述依据所述识别结果，确定所述文本中每个词的时间点信息，包括：

6.根据权利要求1所述的方法，其特征在于，在所述待识别语音中存在静音音频的情况下，所述音素序列中包括所述静音音频对应的静音音素。

7.一种语音识别装置，其特征在于，包括：

获取模块，用于获取待识别语音；

输出模块，用于输出所述文本和所述时间点信息。

8.根据权利要求7所述的语音识别装置，其特征在于，所述识别模块包括：

9.根据权利要求8所述的语音识别装置，其特征在于，所述解码子模块包括：

10.根据权利要求9所述的语音识别装置，其特征在于，所述确定单元包括：

确定子单元，用于确定所述CLG输出的音素序列和文本。

11.根据权利要求7所述的语音识别装置，其特征在于，所述确定模块包括：

12.根据权利要求7所述的语音识别装置，其特征在于，在所述待识别语音中存在静音音频的情况下，所述音素序列中包括所述静音音频对应的静音音素。

13.一种语音识别设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音识别方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音识别方法中的步骤。