CN111145733A

CN111145733A - 语音识别方法、装置、计算机设备和计算机可读存储介质

Info

Publication number: CN111145733A
Application number: CN202010004424.0A
Authority: CN
Inventors: 茹旷; 魏坤
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-05-12
Anticipated expiration: 2040-01-03
Also published as: CN111145733B

Abstract

本申请涉及一种语音识别方法、装置、计算机设备和计算机可读存储介质。上述方法包括：获取对音频语句进行语音识别得到的第一词图，及音频语句的上一个语句对应的第二词图；将第一词图和第二词图进行拼接处理，得到目标词图；获取目标语言模型，目标语言模型是基于连续的对话文本训练得到的；基于目标语言模型和目标词图确定音频语句的目标文本表达。采用本方法能够提高语音识别的准确性。

Description

语音识别方法、装置、计算机设备和计算机可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音识别方法、装置、计算机设备和计算机可读存储介质。

背景技术

随着计算机技术的快速发展，语音识别技术的应用越来越广泛。语音识别技术主要应用于语音搜索、语音输入、语音交互、聊天机器人、设备控制等场景。语音识别技术主要依赖于声学模型和语言模型，通过声学模型将根据语音的音频特征映射到对应的字词，语言模型可以根据识别的字词确定符合语言结构的句子表达。然而，传统的语音识别技术通常是基于获取的语音进行识别，在上下文存在关联时，存在识别准确性低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够识别准确性的语音识别方法、装置、计算机设备和计算机可读存储介质。

一种语音识别方法，所述方法包括：

获取对音频语句进行语音识别得到的第一词图，及所述音频语句的上一个语句对应的第二词图；

将所述第一词图和第二词图进行拼接处理，得到目标词图；

获取目标语言模型，所述目标语言模型是基于连续的对话文本训练得到的；

基于所述目标语言模型和所述目标词图确定所述音频语句的目标文本表达。

在其中一个实施例中，所述基于所述目标语言模型和所述目标词图确定所述音频语句的目标文本表达，包括：

基于所述目标语言模型，对所述目标词图进行重打分，得到所述目标词图包含的各个路径的分数值；

根据分数值最高的路径确定所述目标文本表达。

在其中一个实施例中，所述基于所述目标语言模型，对所述目标词图进行重打分，得到所述目标词图包含的各个路径的分数值，包括：

基于所述目标语言模型，确定所述目标词图包含节点对应的目标语言分数；

根据所述目标词图包含节点对应的声学分数和目标语言分数，确定所述目标词图中由节点组成的路径的分数值。

在其中一个实施例中，所述基于所述目标语言模型，确定所述目标词图包含节点对应的目标语言分数，包括：

获取所述目标词图包含节点对应的初始语言分数；

基于所述目标语言模型，将所述节点对应的初始语言分数替换为目标语言分数。

在其中一个实施例中，所述基于所述目标语言模型，对所述目标词图进行重打分之前，还包括：

根据所述目标词图包含的路径的分数值，从所述目标词图筛选预设数量个候选路径；

基于所述目标语言模型对所述候选路径包含的各个节点进行重打分；

所述根据分数值最高的路径确定所述目标文本表达，包括：

根据重打分后，分数值最高的候选路径确定所述目标文本表达。

在其中一个实施例中，所述基于所述目标语言模型和所述目标词图确定所述音频语句的目标文本表达，还包括：

获取所述第一词图对应的第一说话人标签，及所述第二词图对应的第二说话人标签；

基于所述目标语言模型，结合所述第一说话人标签、第二说话人标签和所述目标词图确定所述音频语句的目标文本表达。

将所述目标语言模型转换为图结构语言模型；

所述基于所述目标语言模型和所述目标词图确定所述音频语句的目标文本表达，包括：

基于转换的所述图结构语言模型和所述目标词图确定所述音频语句的目标文本表达。

在其中一个实施例中，所述目标语言模型的训练过程，包括：

获取训练文本，所述训练文本是由多个连续的对话文本拼接得到的；

将所述训练文本输入目标语言模型，通过所述目标语言模型基于所述训练文本中的第一文本输出预测文本；

根据所述预测文本与第二文本之间的差异值调整所述目标语言模型的参数，直至所述预测文本与所述第二文本之间的差异值低于差异阈值；

其中，所述第二文本为与所述第一文本的相邻的下一文本。

一种语音识别装置，所述装置包括：

词图获取模块，用于获取对音频语句进行语音识别得到的第一词图，及所述音频语句的上一个语句对应的第二词图；

词图拼接模块，用于将所述第一词图和第二词图进行拼接处理，得到目标词图；

模型获取模块，用于获取目标语言模型，所述目标语言模型是基于连续的语句训练得到的；

文本确定模块，用于基于所述目标语言模型和所述目标词图确定所述音频语句的目标文本表达。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

将所述第一词图和第二词图进行拼接处理，得到目标词图；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

将所述第一词图和第二词图进行拼接处理，得到目标词图；

上述语音识别方法、装置、计算机设备和计算机可读存储介质，可以将音频语句进行语音识别得到第一词图与上一语句对应的第二词图进行拼接，并获取基于连续的对话文本训练得到目标语言模型，基于目标语言模型和拼接得到的目标词图确定音频语句的目标文本表达，即可以结合上下文信息进行语音识别，提高语音识别的准确性。

附图说明

图1为一个实施例中语音识别方法的流程图；

图2为另一个实施例中语音识别方法的流程图；

图3为一个实施例中确定目标文本表达的流程图；

图4为一个实施例中目标语言模型训练的流程图；

图5为一个实施例中语音识别装置的结构框图；

图6为一个实施例中语音识别装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中语音识别方法的流程图。在一个实施例中，如图1所示，提供了一种语音识别方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，获取对音频语句进行语音识别得到的第一词图，及音频语句的上一个语句对应的第二词图。

音频语句可以是终端获取的用户输入的音频数据。具体地，终端可以通过传声器收集用户的声音信号，从而将声音信息转换为电信号，并通过音频电路接收后转换为音频语句。可选地，音频语句还可以是终端预存的音频数据，也可以是电子设备从网络下载的音频数据等。

词图即词网格，是一种有向无环图，每个词网格包含一个开始节点和结束节点，开始节点和结束节点之间存在多个节点，节点与节点之间通过一有向弧连接，每个节点上保存有当前位置语音识别结果。在该实施例中，节点包含的语音识别结果可以包括声学概率和语言概率等信息中的至少一种。根据词图中由节点与节点之间的转移连接可以得到多个有序的路径，即每个路径对应不同的文本表达。

终端可以对音频语句进行语音识别得到第一词图。具体地，终端可以通过ASR(inAutomatic Speech Recognition，语音识别)模型对音频语句进行语音识别，得到音频语句对应的第一词图。可选地，语音识别模型可以采用CTC(Connectionist TemporalClassification，时序分类)模型、LSTM(Long Short-Time Memory，长短期记忆)模型、CNN(Convolutional Neural Network，卷积神经网络)+DNN(Deep Neural Network，深度神经网络)模型、或HMM(Hidden Markov Model，隐马尔可夫模型)+DNN+WFST(Weighted FiniteState Transducer，加权有限状态转换机)系统等实现。

终端识别的词图可以保存于终端，终端可以获取音频语句的上一语句对应的第二词图。

步骤104，将第一词图和第二词图进行拼接处理，得到目标词图。

目标词图是由第一词图和第二词图拼接得到的词图。目标词图包含有音频语句及其上一语句分别对应的词图信息。终端将第一词图和第二词图进行拼接处理，得到目标词图。具体地，终端可以查找第二词图的结束点，将第二词图的结束节点与第一词图的开始节点进行拼接，即可以得到目标词图。

步骤106，获取目标语言模型，目标语言模型是基于连续的对话文本训练得到的。

语言模型是语言结构的知识表示，语言结构可以包括词语、句子之间的归类、语法、词语常用搭配等。语言模型可以用于计算句子的概率，即可以计算词图包含的各个路径中符合语言结构的概率。目标语言模型可以采用NNLM(Nerual Network Language Model，神经网络语言模型)，N元模子(N-gram)模型、或递归神经网络(Recurrent NeuralNetwork，RNN)实现。

目标语言模型是基于连续的对话文本训练得到的。连续的对话文本是指按照对话顺序排列的文本。通过连续的对话文本输入语言模型，语言模型基于连续的对话文本中的当前文本对下一文本进行预测，根据预测的下一文本与当前文本的下一文本之间的差异可以对语言模型的参数进行调整，得到能够准确根据上下文本关系确定句子概率的目标语言模型。

步骤108，基于目标语言模型和目标词图确定音频语句的目标文本表达。

目标文本表达即为音频语句对应的文本表达。目标词图包含了不同路径对应的文本表达。终端基于目标语言模型和目标词图确定音频语句的目标文本表达，具体地，终端可以根据目标语言模型确定目标词图包含的各个节点的语言概率，根据各个节点的语言概率，语言概率是指节点对应的词语表达符合语言结构的概率，从而确定由节点组成的路径的概率，根据概率最高的路径确定音频语句的目标文本表达。其中，由于目标词图包含第一词图和第二词图，终端可以从路径中获取与第一词图对应的目标文本表达。

在本申请实施例中，可以对用户输入的音频语句进行语音识别得到第一词图，并获取该音频语句的上一语句对应的第二词图，将第一词图和第二词图进行拼接处理，得到目标词图，基于根据连续的对话文本训练得到的目标语言模型和目标词图确定音频语句的目标文本表达。即可以根据上下文信息确定音频语句对应的文本表达，可以提高语音识别的准确性。并且，本实施例采用语音识别得到的上下文的词图进行文本表达的确定，可以避免端对端模型直接对上下文音频进行处理导致的处理准确较差的问题，终端可以不保留上一语句的音频数据，可以减少终端的内存消耗。

图2为另一个实施例中语音识别方法的流程图。如图2所示，在一个实施例中，提供的语音识别方法包括：

步骤202，获取对音频语句进行语音识别得到的第一词图，及音频语句的上一个语句对应的第二词图。

步骤204，将第一词图和第二词图进行拼接处理，得到目标词图。

步骤206，获取目标语言模型，目标语言模型是基于连续的对话文本训练得到的。

步骤208，基于目标语言模型，对目标词图进行重打分，得到目标词图包含的各个路径的分数值。

路径的分数值用于表征的音频语句属于该路径的得分值。终端基于目标语言模型对目标词图进行重打分，具体地，终端获取目标词图中相邻的字词，根据目标语言模型确定的上下文信息对相邻字词之间的节点的分数值进行调整，即根据连续的对话文本训练确定的目标语言模型中的语言结构，将目标语言模型确定的可信度较高的相邻字词之间的节点的分数调高，将目标语言模型确定的可信度较低的相邻字词之间的分数调低，从而可以得到重打分后的目标词图。终端根据重打分之后的目标词图可以得到由节点的分数相加得到的各个路径的分数值。

步骤210，根据分数值最高的路径确定目标文本表达。

分数值越高，则说明路径对应的文本表达更加符合语言结构。终端可以根据分数值最高的路径确定目标文本表达。可选地，当存在两个或两个以上分数值最高的路径时，终端还可以结合路径包含各个节点的分数的最大值、众数值、标准差等中的一种或多种选择作为目标文本表达的路径。

目标词图中节点与节点之间为两个节点之间的字词；两个节点的分数分别表示该字词与上一字词的得分值，和该字词与下一字词的得分值。终端根据分数值最高的路径确定目标文本表达，具体地，终端可以获取由分数值最高的路径包含的字词组成的字词序列中，属于第一词图的部分字词序列作为该目标文本表达。

在本实施例中，可以基于目标语言模型对目标词图进行重打分，得到目标词图包含的各个路径的分数值，根据分数值最高的路径确定目标文本表达，可以提高语音识别的准确性。

在一个实施例中，提供的语音识别方法中步骤208可以包括：基于目标语言模型，确定目标词图包含节点对应的目标语言分数；根据目标词图包含节点对应的声学分数和目标语言分数，确定目标词图中由节点组成的路径的分数值。

节点的分数可以由声学分数和语言分数构成。声学分数用于表征将语音的声学特征分类至对应音素或字词的得分值。语言分数用于表征连续的音素或字词之间符合语言结构的得分值。其中，节点的声学分数是音频语句进行语音识别后得到的。

终端基于目标语言模型确定目标词图包含的节点对应的目标语言分数，具体地，终端可以将目标语言模型确定的节点的语言分数作为节点对应的目标语言分数；也可以在语音识别输出各个节点的初始语言分数，结合节点的初始语言分数与目标语言模型确定的语言分数确定节点对应的目标语言分数。例如，可以将节点的初始语言分数与目标语言模型确定的语言分数相加的和作为节点的目标语言分数；也可以根据预设的权重对节点的初始语言分数和目标语言模型确定的语言分数进行加权处理，将加权处理后的和作为节点的目标语言分数。

在一个实施例中，基于目标语言模型，确定目标词图包含节点对应的目标语言分数，包括：获取目标词图包含节点对应的初始语言分数；基于目标语言模型，将节点对应的初始语言分数替换为目标语言分数。

初始语言分数是基于音频语句进行语音识别，节点的初始语言分数仅包含了字词之间在音频语句中的语言结构的得分值。终端基于目标语言模型，将节点对应的初始语言分数替换为目标语言分数。

在该实施例中，目标语言分数为目标语言模型确定字词之间的语言结构的得分值。由于目标语言模型是基于连续的对话文本训练得到的，目标语言模型确定的目标语言分数可以表征字词之间在上下文中的语言结构的得分值。终端将节点对应的初始语言分数替换为目标语言分数，根据替换的目标语言分数和声学分数确定路径的分数值，可以提高节点分数的准确性。

图3为一个实施例中确定目标文本表达的流程图。如图3所示，在一个实施例中，提供的语音识别方法中基于目标语言模型，对目标词图进行重打分，根据分数值最高的路径确定目标文本表达的过程，包括：

步骤302，根据目标词图包含的路径的分数值，从目标词图筛选预设数量个候选路径。

预设数量可以根据实际应用设定，在此不做设定。例如，预设数量可以是10、20、30等。在一个实施例中，预设数量与目标词图包含的路径的数量呈正相关。即目标词图包含的路径的数量越大，则对应的预设数量越大；反之，目标词图包含的路径的数量越小，则对应的预设数量越小。

未进行重打分之前，目标词图包含的路径的分数值为路径包含的各个节点的声学分数和初始语言分数之和。可选地，目标词图包含的路径的分数值也可以是路径包含的各个节点的声学分数之和。

终端根据目标词图包含的路径的分数值，从目标词图筛选预设数量个候选路径，具体地，终端可以获取目标词图中，分数值从高到低的预设数量个候选路径。

步骤304，基于目标语言模型对候选路径包含的各个节点进行重打分。

终端可以基于目标语言模型对候选路径包含的各个节点进行重打分，即确定候选路径包含的各个节点对应的目标语言分数。

步骤306，根据重打分后，分数值最高的候选路径确定目标文本表达。

终端根据重打分后，各个候选路径包含的节点的声学分数和目标语言分数即可以确定候选路径的分数值，从而根据分数值最高的候选路径确定目标文本表达。

在本实施例中，通过根据目标词图包含的路径的分数值，从目标词图筛选预设数量个候选路径，基于目标语言模型对候选路径包含的各个节点进行重打分，根据重打分后分数值最高的候选路径确定目标文本表达，可以减少重打分的节点的数量，在提高语音识别的准确性同时，提高语音识别的效率，可以降低终端的功耗。

在一个实施例中，提供的语音识别方法中基于目标语言模型和目标词图确定音频语句的目标文本表达的过程，还包括：获取第一词图对应的第一说话人标签，及第二词图对应的第二说话人标签；基于目标语言模型，结合第一说话人标签、第二说话人标签和目标词图确定音频语句的目标文本表达。

说话人标签用于表征输出词图对应的音频语句的说话人的类型。根据应用场景的不同的可以采用不同的说话人标签。例如，应用于商业场景时，说话人标签可以包括客服、客服等；应用于教学场景时，说话人标签可以包括教师、学生等。不同说话人标签进行的对话中，对应的语言结构存在差异。例如，客服与客户的对话更多是采用询问与回答的对话方式，客户与客户的对话更多是采用聊天陈述的对话方式。

在目标语言模型的过程中，可以在连续的对话文本加入各个对话文本分别对应的说话人标签，目标语言模型可以结合连续的对话文本及说话人标签确定不同的说话人标签的对话方式对应的语言结构。

终端可以在接收音频语句时确定音频语句对应的第一说话人标签，将第一说话人标签与语音识别得到的第一词图进行关联。

进而，在语言识别的过程中，终端可以获取第一词图对应的第一说话人标签和第二词图对应的第二说话人标签，基于目标语言模型、结合第一说话人标签和第二说话人标签对目标词图包含的各个节点的分数进行调整，获取分数值最高的目标文本表达。

在本实施例中，通过获取第一词图对应的第一说话人标签及第二词图对应的第二说话人标签，基于目标语言模型、结合第一说话人标签和第二说话人标签、目标词图确定音频语句的目标文本表达，可以进一步提高语音识别的准确性。

在一个实施例中，提供的语音识别方法中基于目标语言模型和目标词图确定音频语句的目标文本表达的过程，包括：将目标语言模型转换为图结构语言模型；基于转换的图结构语言模型和目标词图确定音频语句的目标文本表达。

图结构语言模型是指采用图结构进行表达的语言模型。终端将目标语言模型转换为图结构语言模型，具体地，终端可以将目标语言模型转换为N-gram模型格式。N-gram格式是指由大量的字词组成的序列表达。终端根据目标语言模型转换得到的N-gram格式的图结构语言模型，包含有根据连续的对话文本确定的字词之间的语言结构表达，其中，语言结构表达通过相邻字词之间的概率来表示。

终端根据转换的图结构语言模型和目标词图确定音频语句的目标文本表达，具体地，终端根据目标词图从图结构语言模型中匹配到对应的节点或路径，根据匹配的节点或路径的概率确定目标词图中对应节点的目标语言分数，进而根据目标词图中节点的声学分数和目标语言分数确定各个路径的分数值，根据分数值最高的路径确定音频语句对应的目标文本表达。

在本实施中，通过将目标语言模型转换为图结构语言模型，图结构语言模型即包含了不同字词对应的语言结构表达，终端可以根据图结构语言模型对目标词图进行重打分。

图4为一个实施例中目标语言模型训练的流程图。如图4所示，在一个实施例中，提供的语音识别方法中目标语言模型的训练过程，包括：

步骤402，获取训练文本，训练文本是由多个连续的对话文本拼接得到的。

训练文本由多个连续的对话文本拼接得到。终端获取的多个连续的对话文本可以根据用户输入的对话语句得到的，终端可以按照对话语句的输入顺序保存对应的对话文本，以形成由连续的对话文本拼接得到的训练文本。可选地，终端可以采用分隔符如speaker对对话文本进行切分，即分离不属于同一对话语句的对话文本。

步骤404，将训练文本输入目标语言模型，通过目标语言模型基于训练文本中的第一文本输出预测文本。

目标语言模型可以分别对训练文本包含的每一个对话文本进行分析，具体地，目标语言模型可以获取训练文本中包含的第一文本，通过对第一文本包含的字词进行提取、分析和预测，目标语言模型可以输出该第一文本对应的预测文本。其中，第一文本为训练文本包含的任一文本，预测文本为目标语言模型确定的第一文本对应的下一文本。

步骤406，根据预测文本与第二文本之间的差异值调整目标语言模型的参数，直至预测文本与第二文本之间的差异值低于差异阈值。

第二文本为在训练文本中与第一文本的相邻的下一文本。终端根据预测文本与第二文本之间的差异值调整目标语言模型的参数，具体地，终端可以根据预测文本与第二文本之间的差异值构建损失函数，通过损失函数采用反向传播算法调整目标语言模型的参数，对目标语言模型进行训练，直至预测文本与第二文本之间的差异值低于差异阈值。终端可以将训练文本中包含的对话文本依次作为第一文本对目标语言模型进行训练，以得到能够准确确定下一文本的目标语言模型。

在一个实施例中，预测文本与第二文本之间的差异值可以根据预测文本与第二文本之间的距离来确定。具体地，终端可以将预测文本和第二文本进行词向量转换，获得对应于预测文本的预测向量和对应于第二文本的第二向量，将预设向量与第二向量之间的距离值作为预测文本与第二文本之间的差异值。其中，距离值可以采用欧式距离、余弦距离等方式进行计算。

通过将由多个连续的对话文本拼接得到的训练文本输入目标语言模型，通过目标语言模型基于训练文本中的第一文本输出预测文本；根据预测文本与第二文本之间的差异值调整目标语言模型的参数，直至预测文本与第二文本之间的差异值低于差异阈值，可以得到能够准确识别下一文本的目标语言模型。

应该理解的是，虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种语音识别装置，包括：词图获取模块502、词图拼接模块504、模型获取模块506和文本确定模块508，其中：

词图获取模块502，用于获取对音频语句进行语音识别得到的第一词图，及音频语句的上一个语句对应的第二词图。

词图拼接模块504，用于将第一词图和第二词图进行拼接处理，得到目标词图。

模型获取模块506，用于获取目标语言模型，目标语言模型是基于连续的语句训练得到的。

文本确定模块508，用于基于目标语言模型和目标词图确定音频语句的目标文本表达。

本申请实施例中，用于对用户输入的音频语句进行语音识别得到第一词图，并获取该音频语句的上一语句对应的第二词图，将第一词图和第二词图进行拼接处理，得到目标词图，基于根据连续的对话文本训练得到的目标语言模型和目标词图确定音频语句的目标文本表达。即可以根据上下文信息确定音频语句对应的文本表达，可以提高语音识别的准确性。并且，本实施例采用语音识别得到的上下文的词图进行文本表达的确定，可以避免端对端模型直接对上下文音频进行处理导致的处理准确较差的问题，终端可以不保留上一语句的音频数据，可以减少终端的内存消耗。

如图6所示，在一个实施例中，文本确定模块508包括分数确定单元582和文本确定单元584；分数确定单元582用于基于目标语言模型，对目标词图进行重打分，得到目标词图包含的各个路径的分数值；文本确定单元584用于根据分数值最高的路径确定目标文本表达。

在一个实施例中，分数确定单元582还可以用于基于目标语言模型，确定目标词图包含节点对应的目标语言分数；根据目标词图包含节点对应的声学分数和目标语言分数，确定目标词图中由节点组成的路径的分数值。

在一个实施例中，分数确定单元582还可以用于获取目标词图包含节点对应的初始语言分数；基于目标语言模型，将节点对应的初始语言分数替换为目标语言分数。

在一个实施例中，分数确定单元582还可以用于根据目标词图包含的路径的分数值，从目标词图筛选预设数量个候选路径，基于目标语言模型对候选路径包含的各个节点进行重打分；文本确定单元584还可以用于根据重打分后，分数值最高的候选路径确定目标文本表达。

在一个实施例中，文本确定模块508还可以用于获取第一词图对应的第一说话人标签，及第二词图对应的第二说话人标签；基于目标语言模型，结合第一说话人标签、第二说话人标签和目标词图确定音频语句的目标文本表达。

在一个实施例中，文本确定模块508还可以用于将目标语言模型转换为图结构语言模型；基于转换的图结构语言模型和目标词图确定音频语句的目标文本表达。

在一个实施例中，提供的语音识别装置还可以包括模型训练模块510，模型训练模块510用于获取训练文本，训练文本是由多个连续的对话文本拼接得到的；将训练文本输入目标语言模型，通过目标语言模型基于训练文本中的第一文本输出预测文本；根据预测文本与第二文本之间的差异值调整目标语言模型的参数，直至预测文本与第二文本之间的差异值低于差异阈值；其中，第二文本为与第一文本的相邻的下一文本。

关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。

在一些实施例中，计算机设备还可以包括显示屏和输入装置。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取对音频语句进行语音识别得到的第一词图，及音频语句的上一个语句对应的第二词图；

将第一词图和第二词图进行拼接处理，得到目标词图；

获取目标语言模型，目标语言模型是基于连续的对话文本训练得到的；

基于目标语言模型和目标词图确定音频语句的目标文本表达。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于目标语言模型，对目标词图进行重打分，得到目标词图包含的各个路径的分数值；根据分数值最高的路径确定目标文本表达。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于目标语言模型，确定目标词图包含节点对应的目标语言分数；根据目标词图包含节点对应的声学分数和目标语言分数，确定目标词图中由节点组成的路径的分数值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取目标词图包含节点对应的初始语言分数；基于目标语言模型，将节点对应的初始语言分数替换为目标语言分数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据目标词图包含的路径的分数值，从目标词图筛选预设数量个候选路径；基于目标语言模型对候选路径包含的各个节点进行重打分；根据重打分后，分数值最高的候选路径确定目标文本表达。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取第一词图对应的第一说话人标签，及第二词图对应的第二说话人标签；基于目标语言模型，结合第一说话人标签、第二说话人标签和目标词图确定音频语句的目标文本表达。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将目标语言模型转换为图结构语言模型；基于转换的图结构语言模型和目标词图确定音频语句的目标文本表达。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取训练文本，训练文本是由多个连续的对话文本拼接得到的；将训练文本输入目标语言模型，通过目标语言模型基于训练文本中的第一文本输出预测文本；根据预测文本与第二文本之间的差异值调整目标语言模型的参数，直至预测文本与第二文本之间的差异值低于差异阈值；其中，第二文本为与第一文本的相邻的下一文本。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

将第一词图和第二词图进行拼接处理，得到目标词图；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于目标语言模型，对目标词图进行重打分，得到目标词图包含的各个路径的分数值；根据分数值最高的路径确定目标文本表达。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于目标语言模型，确定目标词图包含节点对应的目标语言分数；根据目标词图包含节点对应的声学分数和目标语言分数，确定目标词图中由节点组成的路径的分数值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取目标词图包含节点对应的初始语言分数；基于目标语言模型，将节点对应的初始语言分数替换为目标语言分数。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据目标词图包含的路径的分数值，从目标词图筛选预设数量个候选路径；基于目标语言模型对候选路径包含的各个节点进行重打分；根据重打分后，分数值最高的候选路径确定目标文本表达。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取第一词图对应的第一说话人标签，及第二词图对应的第二说话人标签；基于目标语言模型，结合第一说话人标签、第二说话人标签和目标词图确定音频语句的目标文本表达。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将目标语言模型转换为图结构语言模型；基于转换的图结构语言模型和目标词图确定音频语句的目标文本表达。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取训练文本，训练文本是由多个连续的对话文本拼接得到的；将训练文本输入目标语言模型，通过目标语言模型基于训练文本中的第一文本输出预测文本；根据预测文本与第二文本之间的差异值调整目标语言模型的参数，直至预测文本与第二文本之间的差异值低于差异阈值；其中，第二文本为与第一文本的相邻的下一文本。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，所述方法包括：

将所述第一词图和第二词图进行拼接处理，得到目标词图；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标语言模型和所述目标词图确定所述音频语句的目标文本表达，包括：

根据分数值最高的路径确定所述目标文本表达。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标语言模型，对所述目标词图进行重打分，得到所述目标词图包含的各个路径的分数值，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标语言模型，确定所述目标词图包含节点对应的目标语言分数，包括：

获取所述目标词图包含节点对应的初始语言分数；

5.根据权利要求2所述的方法，其特征在于，所述基于所述目标语言模型，对所述目标词图进行重打分，包括：

所述根据分数值最高的路径确定所述目标文本表达，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标语言模型和所述目标词图确定所述音频语句的目标文本表达，还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述目标语言模型和所述目标词图确定所述音频语句的目标文本表达，包括：

将所述目标语言模型转换为图结构语言模型；

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述目标语言模型的训练过程，包括：

其中，所述第二文本为与所述第一文本的相邻的下一文本。

9.一种语音识别装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。