CN112382289A

CN112382289A - 语音识别结果的处理方法、装置、电子设备及存储介质

Info

Publication number: CN112382289A
Application number: CN202011268903.XA
Authority: CN
Inventors: 白锦峰; 陈旭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-19
Anticipated expiration: 2040-11-13
Also published as: CN112382289B

Abstract

本申请公开了一种语音识别结果的处理方法、装置、电子设备及存储介质，涉及自然语言处理和深度学习等人工智能技术领域，具体智能语音技术领域。具体实现方案为：获取用户的语音信息的目标语音识别结果；以编辑成本最小为原则，获取所述目标语音识别结果中能够被替换的源单元和被替换后的目标单元；展示所述目标语音识别结果，并标识所述源单元和对应的所述目标单元，以降低用户的修改成本。本申请能够非常直观、清晰地向用户展示语音识别结果以及可能错误的源单元和可以替换源单元的目标单元，增强用户的使用体验度；且能够保证将目标语音识别结果中的源单元替换为目标单元后得到的结果的编辑成本最小，即语音识别结果的准确性最高，进而能够有效地提高语音识别结果的准确性。

Description

语音识别结果的处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及自然语言处理和深度学习等人工智能技术领域，尤其涉及一种语音识别结果的处理方法、装置、电子设备及存储介质。

背景技术

语音识别是指通过计算机把声音信号转换为对应的文本的过程，是实现人与机器交互的主要途径之一。近年来，随着深度学习技术在语音识别领域的广泛应用，语音识别的准确率得到了极大的提升。此外，由于智能设备的不断普及，使用语音进行识别的场合已经变得非常丰富。目前，语音识别产品已经广泛应用于语音输入、语音拨号、车载导航等各种场合。

例如在语音输入这样的使用场景中，用户期望在说话的同时能够看到识别结果实时展现。这就需要语音识别系统在保持高识别率的同时，及时快速地对语音信号进行解码并输出解码结果。如果等用户语音输入完毕后才开始解码，会严重影响用户的使用体验，造成语音交互的不流畅性。

发明内容

本申请提供了一种语音识别结果的处理方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种语音识别结果的处理方法，其中所述方法包括：

获取用户的语音信息的目标语音识别结果；

以编辑成本最小为原则，获取所述目标语音识别结果中能够被替换的源单元和被替换后的目标单元；

展示所述目标语音识别结果，并标识所述源单元和对应的所述目标单元。

根据本申请的另一方面，提供了一种语音识别结果的处理装置，其中所述装置包括：

结果获取模块，用于获取用户的语音信息的目标语音识别结果；

单元获取模块，用于以编辑成本最小为原则，获取所述目标语音识别结果中能够被替换的源单元和被替换后的目标单元；

展示模块，用于展示所述目标语音识别结果，并标识所述源单元和对应的所述目标单元。

根据本申请的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的技术，能够非常直观、清晰地向用户展示语音识别结果以及可能错误的源单元和可以替换源单元的目标单元，增强用户的使用体验度；且能够保证将目标语音识别结果中的源单元替换为目标单元后得到的结果的编辑成本最小，即语音识别结果的准确性最高，进而能够有效地提高语音识别结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是本实施例提供的两种结果展示方式；

图4是根据本申请第三实施例的示意图；

图5是根据本申请第四实施例的示意图；

图6是用来实现本申请实施例的语音识别结果的处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图；如图1所示，本实施例提供一种语音识别结果的处理方法，具体可以包括如下步骤：

S101、获取用户的语音信息的目标语音识别结果；

S102、以编辑成本最小为原则，获取目标语音识别结果中能够被替换的源单元和被替换后的目标单元；

S103、展示目标语音识别结果，并标识源单元和对应的目标单元。

本实施例的语音识别结果的处理方法的执行主体为语音识别结果的处理装置，该装置可以为一电子实体，或者也可以为一软件集成的应用，使用时，将用户的语音信息输入至该装置中，由该装置基于该用户的语音信息，可以展示用户的语音信息的目标语音识别结果、以及目标语音识别结果中的源单元以及能够替换源单元的对应的目标单元。

例如，在语音输入场景中，考量语音识别性能的评估指标时，除了采用传统的按照“字错误率”的方式，可以考虑按照“用户编辑成本”的方式来评估整个语音输入的性能。例如，当一个句子“识别正确”的时候，可以不要提供候选，因为这种情况下，每提供一个候选，便相当于做了一个插入，造成用户的干扰，就意味着“编辑成本”在上升。而当一个句子“识别错误”的时候，可以提供一个候选，那么此时要求提供的该“候选”必须足够准，准到在统计意义上能够带来“编辑成本”的下降。因为对于句子中的每一处错误，理论上需要删除错误的内容，并输入正确的内容，即需要经过两次编辑才可以，而且前提是用户还必须知道正确的内容是什么。而对于提供有正确的候选词时，不仅为用户提供正确的候选词，而且用户通过点击便可以替换错误的，可以捞回一个正确的，那么总体的语音输入是收益的。

基于上述思想，本实施例提供一种语音识别结果的处理方法，能够以编辑成本最小为原则，在目标语音识别结果疑似错误的时候，能够获取的目标语音识别结果中能够被替换的源单元和被替换后的目标单元，并进行展示，以向用户展示准确又高效的语音识别结果。

本实施例中，获取的用户的语音信息的目标语音识别结果，可以为对该用户的语音信息进行语音识别，得到的最匹配的或者最接近的语音的识别结果。或者还可以为按照现有的各种语音识别工具获取的、与该用户的语音信息匹配的语音识别结果，在此不再一一举例赘述。也就是说，本实施例的目标语音识别结果为采用语音识别工具识别到的，而非本实施例中基于对用户的语音信息识别到的语音识别结果构造的。

本实施例的源单元和目标单元的粒度可以以字为粒度，或者也可以以词语为粒度，或者还可以以短语或者其他单元为粒度，在此不做限定。

本实施例中，在目标语音识别结果中疑似存在识别错误时，此时若直接展示目标语音识别结果，用户进行编辑的编辑成本可能较高。基于该背景，本实施例中，可以以编辑成本最小为原则，获取目标语音识别结果中能够被替换的源单元和被替换后的目标单元；并展示目标语音识别结果、并标识目标语音识别结果中的源单元和对应的能够替换源单元的目标单元。例如，可以在目标语音识别结果中采用上划线、下划线、画圈或者标注方框等方式标识源单元，并在源单元的正上方或者正下方标识能够替换源单元的目标单元。或者，用户也可以在目标语音识别结果之后，再单独标识源单元和对应的目标单元。这样，用户看到展示的所有结果，便一目了然得知，该目标语音识别结果中源单元可能需要被替换为目标单元。

本实施例的语音识别结果的处理方法，通过获取用户的语音信息的目标语音识别结果；以编辑成本最小为原则，获取目标语音识别结果中能够被替换的源单元和被替换后的目标单元；展示目标语音识别结果，并标识源单元和对应的目标单元，以降低用户的修改成本，能够非常直观、清晰地向用户展示语音识别结果以及可能错误的源单元和可以替换源单元的目标单元，增强用户的使用体验度；且能够保证将目标语音识别结果中的源单元替换为目标单元后得到的结果的编辑成本最小，可以使得用户可以在执行最小编辑成本的操作下，有效地获取到最准确地语音识别结果，能够有效地提高语音识别结果的展示效率。

图2是根据本申请第二实施例的示意图；如图2所示，本实施例的语音识别结果的处理方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。如图2所示，本实施例的语音识别结果的处理方法，具体可以包括如下步骤：

S201、对用户的语音信息进行语音识别，得到多个备选语音识别结果；

S202、从多个备选语音识别结果中获取与用户的语音信息最匹配的语音识别结果，作为目标语音识别结果；

具体地，首先对用户的语音信息进行语音识别，得到多个备选语音识别结果。具体地，该语音信息为语音的形式，而各备选语音识别结果为文字形式。具体地，可以采用一定的语音识别工具来实现对用户的语音信息的识别，但是受用户的发音以及语音信息本身的读音存在较多相似的文字，所以，可以得到多个备选语音识别结果。具体得到的备选语音识别结果的数量可以为两个或者多个，在此不再赘述。

本实施例中，可以借助于预先训练的匹配模型对各备选语音识别结果和用户的语音信息进行匹配度打分，获取打分最高的备选语音识别结果作为目标语音识别结果。

该匹配模型为神经网络模型，在训练时，可以采集数条训练正样本和数条训练负样本，每条训练正样本中包括一条训练用户的语音信息和对应的正确的语音识别结果，对应标注的匹配度为100分。每条训练负样本中包括一条训练用户的语音信息和对应的错误的语音识别结果，对应的标注的匹配度为0分。训练时，将各条训练样本输入至匹配模型中，对于训练正样本，可以使得预测的匹配度打分趋于100分，而对于负样本，使得预测的匹配度打分趋于0分。采用数条训练正样本和数条训练负样本，按照上述方式不断地对匹配度模型进行训练，使得在连续预设轮数的训练中预测的结果与训练样本中标注的结果始终一致，确定匹配模型的参数，进而确定匹配模型。

另外，可选地，也可以采用其他检测方式检测各语音识别结果与用户的语音信息的匹配度，以获取与用户的语音信息最匹配的备选语音识别结果，作为目标语音识别结果，在此不再赘述。

步骤S201-S202为上述图1所示实施例的步骤S101的一种实现方式。采用该方式，能够准确地获取与用户的语音信息最匹配的目标语音识别结果。

S203、计算目标语音识别结果的期望编辑成本；

例如，可以采用如下步骤来实现：

(a1)采用预先训练的置信度模型，基于用户的语音信息和目标语音识别结果，对目标语音识别结果的各单元进行置信度分值的打分；

(b1)基于目标语音识别结果的各单元的置信度分值，计算目标语音识别结果的期望编辑成本。

同理，该步骤中的单元可以以字为粒度，也可以以词为粒度。但是在以词为粒度时，对于不构成词语的字也可以单独作为一个单元，如的、地得、你、我、他、她等之类得都可以单独作为一个单元。

本实施例的置信度模型，可以基于用户的语音信息，对目标语音识别结果中的各单元进行置信度打分。例如，每个单元的置信度分值可以为一个0-1之间的值，该置信度分值越大，表示该单元与用户的语音信息对应单元的匹配度越高，否则，置信度分值越小，表示该单元与用户的语音信息对应单元的匹配度越低。

例如，用户想要输入的语音信息为“产业连打通的水平创新”，而识别的目标语音识别结果是“产业连大同的水平创新”时，采用预先训练的置信度模型，基于用户的语音信息和目标语音识别结果，以词语为粒度，对目标语音识别结果的各单元进行置信度分值的打分的结果是：产业连/大同/的/水平/创新,依次给每个单元打的置信度分数分别是0.3/0.2/1/0.9/0.8。

本实施例中，在计算目标语音识别结果的期望编辑成本时，还需要考虑每种长度的单元被修改时的编辑成本参数。如1个字的单元被修改时的编辑成本参数可以更小，而字数越多的单元被修改时的编辑成本参数可以越大。具体的编辑成本参数可以由研发人员基于开源集合中的语料来进行统计和分析得到。置信度分值越高表示被修改的概率越低，反之置信度分值越高低表示被修改的概率越高。而且，理论上，目标语音识别结果的期望编辑成本可以等于该目标语音识别结果中各单元的编辑成本减去各单元的编辑收益。基于以上信息，计算的目标语音识别结果的期望编辑成本可以等于：(1-0.3)*对应单元的编辑成本参数+(1-0.2)*对应单元的编辑成本参数+(1-1)*对应单元的编辑成本参数+(1-0.9)*对应单元的编辑成本参数+(1-0.8)*对应单元的编辑成本参数-0.3*对应单元的编辑收益参数-0.2*对应单元的编辑收益参数-1*对应单元的编辑收益参数-0.9*对应单元的编辑收益参数-0.8*对应单元的编辑收益参数。

可选地，实际应用中，若各单元以字为粒度，则对应的编辑参数可以相同，此时在计算目标语音识别结果的期望编辑成本时，也可以不考虑各不同单元的编辑成本参数。

再可选地，还可以采用其他方式计算目标语音识别结果的期望编辑成本，例如，可以采用一定的方式预测目标语音识别结果的每个单元的准确率，并基于其准确率计算该单元的期望编辑成本，最后将所有单元的期望编辑成本叠加作为该目标语音识别结果的期望编辑成本。或者还可以采用其他方式来实现，在此不再一一举例赘述。采用本实施例的方式计算的目标语音识别结果的期望编辑成本准确性非常高。

另外，本实施例的置信度模型的训练时，可以预先采集训练用户的语音信息和对应的正确的训练语音识别结果，并标注训练语音识别结果中各单元的置信度分数均为1，该种情况为训练正样本，同时还可以采集训练负样本，训练负样本中包括的训练语音识别结果中存在错误的单元，同时标注训练语音识别结果中正确的单元的置信度分数为1，错误的单元的置信度分数为0。训练时，采用置信度模型基于各训练语音识别结果和对应的训练用户的语音信息，进行置信度的预测打分。然后比对预测的打分与标注的打分是否一致，若不一致，调整置信度模型的参数，使得打分趋于一致。按照上述方式，采用数条训练样本不断地对置信度模型进行训练，直至在连续多轮训练中，预测的和标注的打分情况始终一致，确定置信度模型的参数，进而确定置信度模型。

S204、计算预构建的多个候选语音识别结构中各候选语音识别结构的预测编辑成本；

首先，本实施例中，可以采用如下步骤构建多个候选语音识别结构：

(a2)获取多个备选语音识别结果中目标语音识别结果之外的数个备选语音识别结果；

该数个备选语音识别结果为对用户的语音信息进行识别得到的语音识别结果，而非构造的。例如该数个备选语音识别结果可以为上述步骤S201得到的多个备选语音识别结果中目标语音识别结果之外的其他所有备选语音识别结果。

(b3)对于数个备选语音识别结果中的各备选语音识别结果，将备选语音识别结果与目标语音识别结果进行对比，获取位于目标语音识别结果中的区别单元，作为第一差异单元，获取位于备选语音识别结果中、与第一差异单元对应的区别单元，作为第二差异单元；

例如，目标语音识别结果为：ABCDE

备选语音识别结果为：ABCDF

备选语音识别结果为：ABCEF

上述例子中以目标语音识别结果为ABCDE，某个备选语音识别结果为ABCDF，经过对比，可以获取到目标语音识别结果中的区别单元为E，即为第一差异单元。而备选语音识别单元中的区别单元为F，即为与第一差异单元E对应的第二差异单元。该种情况下是以目标语音识别结果和备选语音识别结果中仅存在一个区别单元为例，实际应用中，目标语音识别结果和备选语音识别结果中可以存在两个或者两个以上的区别单元。例如，对于备选语音识别结果为ABCEF，经过对比，可以获取到目标语音识别结果中的区别单元D作为第一差异单元时，对应的第二差异单元为E；而区别单元E作为第一差异单元时，对应的第二差异单元为F。按照类似的方式，对于每个备选语音识别结果，经和目标语音识别结果对比，均可以获取到相应的第一差异单元和相应的第二差异单元。

(c2)基于目标语音识别结果、第一差异单元和第二差异单元，一起构成候选语音识别结构，共得到多个候选语音识别结构。

例如，对于备选语音识别结果为ABCEF时，对于两个差异单元，可以分别构成的候选语音识别结构。采用第二差异单元E替换目标语音识别结果中对应的第一单元D时，对应的候选语音识别结构可以表示为：ABCDE；D→E。采用第二差异单元F替换目标语音识别结果中对应的第一单元E时，对应的候选语音识别结构可以表示为：ABCDE；E→F。按照类似的方式，可以采用每个备选语音识别结果中获取的每个第二差异单元，替换目标语音识别结果中对应的第一单元，均可以构造出相应的候选语音识别结构，按照上述方式，总共可以构建多个候选语音识别结构。

基于以上所述，可以得知，本实施例中的备选语音识别结果可以认为是语音识别的结果，而候选语音识别结果可以认为基于备选语音识别结果和目标语音识别结果构建的，两者存在一定的区别。上述仅为构建候选语音识别结构的一种方式，实际应用中，还可以基于目标语音识别结果和备选语音识别结果采用其他方式构建候选语音识别结构，在此不再一一举例赘述。采用本实施例的上述方式构建的多个候选语音识别结果客观、合理，准确性非常高。

可选地，在实际应用中，具体实现时，可以先对用户的语音信息进行语音识别，得到多个备选语音识别结果，然后可以计算各备选语音识别结果与用户的语音信息的匹配度，并按照匹配度由高到低的顺序对多个备选语音识别结果进行排序，得到一个备选语音识别结果队列。将备选语音识别结果队列中排序最靠前的备选语音识别结果为目标语音识别结果。然后依次按照排序由前向后的顺序取一个备选语音识别结果，将该备选语音识别结果与目标语音识别结果进行对比，基于相应的第一差异单元和第二差异单元，构建一个、两个或者多个候选语音识别结构。以此类推，直至分析完备选语音识别结果队列中所有的备选语音识别结果，得到所有的候选语音识别结构。

本实施例中，计算各候选语音识别结构的预测编辑成本时，考虑到各候选语音识别结构中还包括：采用第二差异单元替换第一差异单元的替换关系。若用户想要完成该替换，需要进行点击操作，此时可以直接将第二差异单元替换目标语音识别结果中的第一差异单元，以更新目标语音识别结果，此时计算各候选语音识别结构的预测编辑成本时，需要考虑该部分的成本。因此，基本各候选语音识别结构的预测编辑成本，可以等于各单元的编辑成本减去各单元的编辑收益，再减去用户操作的成本如点击操作的编辑成本。例如，候选语音识别结构ABCDE；E→F的预测编辑成本可以等于ABCDF的期望编辑成本减去ABCDE的期望编辑成本、再减去E→F的替换操作的成本参数，例如，可以等于操作次数*操作成本参数。其中ABCDF的期望编辑成本和ABCDE的期望编辑成本的计算方式，可以参考上述步骤S203的相关记载，在此不再赘述。

S205、从多个候选语音识别结构中筛选预测编辑成本小于期望编辑成本的数个候选语音识别结构；

具体地，候选语音识别结构的期望编辑成本小于目标语音识别结果的期望编辑成本，则说明候选语音识别结构中第二差异单元替换第一差异单元的准确性更高，即目标语音识别结果中可能存在错误的第一差异单元，且该错误的第一差异单元可以被候选语音识别结构中的第二差异单元替换。

S206、基于数个候选语音识别结构，获取目标语音识别结果中能够被替换的源单元和替换源单元的目标单元；

本实施例中获取的数个候选语音识别结构的数量可以为一个、两个或者多个。对于每个候选语音识别结构，其中除了包括目标语音识别结果外，还包括目标语音结果中的对应的第一差异单元，以及替换第一差异单元的第二差异单元。该第二差异单元可以替换第一单元，以改正目标语音识别结果中的错误，提高语音识别结果的准确性。

例如，在具体实现时，具体可以执行如下步骤的操作：

(a3)检测数个候选语音识别结构是否存在对应于目标语音识别结果中的同一个第一差异单元的至少两个不同的第二差异单元；若存在，执行步骤(b3)；否则若不存在，执行步骤(c3)；

(b3)从同一个第一差异单元对应的至少两个不同的第二差异单元中，获取预测编辑成本最小的候选语音识别结构对应的第二差异单元，作为目标单元；结束。

(c3)对于数个候选语音识别结构中各候选语音识别结构，取候选语音识别结构中、位于目标语音识别结果中的第一差异单元作为源单元，取候选语音识别结构中能够替换第一差异单元的第二差异单元为目标单元。

为了提高效率，在展示时，仅展示每个源单元的一个最佳的目标单元，所以，该步骤中需要检测数个候选语音识别结构是否存在对应于目标语音识别结果中的同一个第一差异单元的至少两个不同的第二差异单元；若存在，此时仅获取编辑成本最小的候选语音识别结构对应的第二差异单元，作为目标单元，而其他的对应于该第一差异单元的候选语音识别结构中对应的第二差异单元，不会作为目标单元，可以都忽略。而若数个候选语音识别结构中不存在对应于目标语音识别结果中的同一个第一差异单元的至少两个不同的第二差异单元，即每个候选语音识别结构中的第二差异单元都对应目标语音识别结果中的不同的第一差异单元。此时，可以取每个候选语音识别结构中的第二差异单元作为目标单元，而候选语音识别结构中对应的第一差异单元作为源单元。

步骤S203-S206为上述图1所示实施例的步骤S102的一种实现方式。另外，可选地，还可以基于输入场景中，历史输入中出现频率大于一定的预设频率的被替换单元与替换单元构成的单元对，以及单元对替换时用户的编辑成本，建立单元对替换表。此时该步骤S102在实现时，也可以直接基于单元对替换表，获取目标语音识别结果中能够被替换的源单元和被替换后的目标单元。需要说明的是，这里的替换单元和被替换单元可以基于字粒度来实现，也可以基于词粒度来实现，一个替换单元和被替换单元中可以仅包括一个单元粒度，也可以包括两个或者以上的单元粒度。另外实际应用中，还可以基于上述实现方式，扩展出其他实现方式，只要能够实现以编辑成本最小为原则，获取目标语音识别结果中能够被替换的源单元和被替换后的目标单元即可，在此不再一一举例赘述。

S207、展示目标语音识别结果，并标识源单元和对应的目标单元。

具体地，展示的方式可以参考上述图1所示实施例的步骤S103的具体实现方式，在此不再赘述。

例如，图3是本实施例提供的两种结果展示方式。如图3所示，第一行的展示方式中，在目标语音识别结果中对源单元采用下划线的方式标注，并且在源单元的上方或者下方标注目标单元。第二行的展示方式中，在目标语音识别结果之后，采用替换关系标注源单元和可以替换源单元的目标单元。如图3所示，其中目标语音识别结果为ABCDEF，其中B为源单元时，对应的目标单元可以为P；D为源单元时，对应的目标单元可以O；F为源单元时，对应的目标单元可以为Z。用户看到该结果展示，便可以确定，语音识别用户的语音信息得到的目标语音识别结果中的B、D和F疑似错误，对应的正确的分别为P、O、Z，结果展示方式非常清晰、直观。而且目标单元的过去过程基于编辑成本最小为原则，能够有效地保证目标单元的准确性，进而能够有效地提高语音识别效率。

本实施例的语音识别结果的处理方法，通过采用上述技术方案，能够非常直观、清晰地向用户展示语音识别结果以及可能错误的源单元和可以替换源单元的目标单元，增强用户的使用体验度；且能够保证将目标语音识别结果中的源单元替换为目标单元后得到的结果的编辑成本最小，即可以使得用户可以在执行最小编辑成本的操作下，有效地获取到最准确地语音识别结果，能够有效地提高语音识别结果的展示效率。

图4是根据本申请第三实施例的示意图；如图4所示，本实施例提供一种语音识别结果的处理装置400，包括：

结果获取模块401，用于获取用户的语音信息的目标语音识别结果；

单元获取模块402，用于以编辑成本最小为原则，获取目标语音识别结果中能够被替换的源单元和被替换后的目标单元；

展示模块403，用于展示目标语音识别结果，并标识源单元和对应的目标单元。

本实施例的语音识别结果的处理装置400，通过采用上述模块实现语音识别结果的处理的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图5是根据本申请第四实施例的示意图；如图5所示，本实施例的语音识别结果的处理装置400，在上述图4所示实施例的技术方案的基础上，进一步更加详细地介绍本申请的技术方案。

如图5所示，本实施例的语音识别结果的处理装置400中，结果获取模块401，包括：

识别单元4011，用于对用户的语音信息进行语音识别，得到多个备选语音识别结果；

结果获取单元4012，用于从多个备选语音识别结果中获取与用户的语音信息最匹配的语音识别结果，作为目标语音识别结果。

进一步可选地，如图5所示，本实施例的语音识别结果的处理装置400中，单元获取模块402，包括：

成本计算单元4021，用于计算目标语音识别结果的期望编辑成本；

成本计算单元4021，还用于计算预构建的多个候选语音识别结构中各候选语音识别结构的预测编辑成本；

筛选单元4022，用于从多个候选语音识别结构中筛选预测编辑成本小于期望编辑成本的数个候选语音识别结构；

获取单元4023，用于基于数个候选语音识别结构，获取目标语音识别结果中能够被替换的源单元和替换所述源单元的目标单元。

进一步可选地，获取单元4023，用于：

对于数个候选语音识别结构中各候选语音识别结构，取候选语音识别结构中、位于目标语音识别结果中的第一差异单元作为源单元，取候选语音识别结构中能够替换第一差异单元的第二差异单元为目标单元。

进一步可选地，如图5所示，单元获取模块402，还包括：

检测单元4024，用于检测并确定数个候选语音识别结构中不存在对应于目标语音识别结果中的同一个第一差异单元的至少两个不同的第二差异单元。

进一步可选地，获取单元4023，还用于：

若数个候选语音识别结构中存在对应于目标语音识别结果中的同一个第一差异单元的至少两个不同的第二差异单元时，从同一个第一差异单元对应的至少两个不同的第二差异单元中，获取预测编辑成本最小的候选语音识别结构中的第二差异单元，作为目标单元。

进一步可选地，如图5所示，单元获取模块402，还包括构造单元4025；

获取单元4023，还用于获取多个备选语音识别结果中目标语音识别结果之外的数个备选语音识别结果；

获取单元4023，还用于对于数个备选语音识别结果中的各备选语音识别结果，将备选语音识别结果与目标语音识别结果进行对比，获取位于目标语音识别结果中的区别单元，作为第一差异单元，获取位于备选语音识别结果中、与第一差异单元对应的区别单元，作为第二差异单元；

构造单元4025，用于基于目标语音识别结果、第一差异单元和第二差异单元，一起构成候选语音识别结构，共得到多个候选语音识别结构。

进一步可选地，成本计算单元4021，用于：

采用预先训练的置信度模型，基于用户的语音信息和目标语音识别结果，对目标语音识别结果的各单元进行置信度分值的打分；

基于目标语音识别结果的各单元的置信度分值的打分，计算目标语音识别结果的期望编辑成本。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是本申请实施例的实现语音识别结果的处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音识别结果的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音识别结果的处理方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音识别结果的处理方法对应的程序指令/模块(例如，附图4和附图5所示的相关模块)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别结果的处理方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实现语音识别结果的处理方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至实现语音识别结果的处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现语音识别结果的处理方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与实现语音识别结果的处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，能够非常直观、清晰地向用户展示语音识别结果以及可能错误的源单元和可以替换源单元的目标单元，增强用户的使用体验度；且能够保证将目标语音识别结果中的源单元替换为目标单元后得到的结果的编辑成本最小，即可以使得用户可以在执行最小编辑成本的操作下，有效地获取到最准确地语音识别结果，能够有效地提高语音识别结果的展示效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音识别结果的处理方法，其中所述方法包括：

获取用户的语音信息的目标语音识别结果；

2.根据权利要求1所述的方法，其中，获取用户的语音信息的目标语音识别结果，包括：

对所述用户的语音信息进行语音识别，得到多个备选语音识别结果；

从所述多个备选语音识别结果中获取与所述用户的语音信息最匹配的语音识别结果，作为所述目标语音识别结果。

3.根据权利要求2所述的方法，其中，以编辑成本最小为原则，获取所述目标语音识别结果中能够被替换的源单元和被替换后的目标单元，包括：

计算所述目标语音识别结果的期望编辑成本；

计算预构建的多个候选语音识别结构中各候选语音识别结构的预测编辑成本；

从所述多个候选语音识别结构中筛选预测编辑成本小于期望编辑成本的数个候选语音识别结构；

基于所述数个候选语音识别结构，获取所述目标语音识别结果中能够被替换的源单元和替换所述源单元的目标单元。

4.根据权利要求3所述的方法，其中，基于所述数个候选语音识别结构，获取所述目标语音识别结果中能够被替换的源单元和替换所述源单元的目标单元，包括：

对于所述数个候选语音识别结构中各所述候选语音识别结构，取所述候选语音识别结构中、位于所述目标语音识别结果中的第一差异单元作为所述源单元，取所述候选语音识别结构中能够替换所述第一差异单元的第二差异单元为所述目标单元。

5.根据权利要求4所述的方法，其中，对于所述数个候选语音识别结构中各所述候选语音识别结构，取所述候选语音识别结构中、位于所述目标语音识别结果中的第一差异单元作为所述源单元，取所述候选语音识别结构中能够替换所述第一差异单元的第二差异单元为所述目标单元之前，所述方法还包括：

检测并确定所述数个候选语音识别结构中不存在对应于所述目标语音识别结果中的同一个所述第一差异单元的至少两个不同的第二差异单元。

6.根据权利要求5所述的方法，其中，所述方法还包括：

若所述数个候选语音识别结构中存在对应于所述目标语音识别结果中的同一个所述第一差异单元的至少两个不同的第二差异单元时，从同一个所述第一差异单元对应的所述至少两个不同的第二差异单元中，获取预测编辑成本最小的所述候选语音识别结构中的第二差异单元，作为所述目标单元。

7.根据权利要求3所述的方法，其中，计算预构建的多个候选语音识别结构中各候选语音识别结构的预测编辑成本之前，所述方法还包括：

获取所述多个备选语音识别结果中所述目标语音识别结果之外的数个备选语音识别结果；

对于所述数个备选语音识别结果中的各所述备选语音识别结果，将所述备选语音识别结果与所述目标语音识别结果进行对比，获取位于所述目标语音识别结果中的区别单元，作为第一差异单元，获取位于所述备选语音识别结果中、与所述第一差异单元对应的区别单元，作为第二差异单元；

基于所述目标语音识别结果、所述第一差异单元和所述第二差异单元，一起构成所述候选语音识别结构，共得到所述多个候选语音识别结构。

8.根据权利要求3-7任一所述的方法，其中，计算所述目标语音识别结果的期望编辑成本，包括：

采用预先训练的置信度模型，基于所述用户的语音信息和所述目标语音识别结果，对所述目标语音识别结果的各单元进行置信度分值的打分；

基于所述目标语音识别结果的各单元的置信度分值的打分，计算所述目标语音识别结果的期望编辑成本。

9.一种语音识别结果的处理装置，其中所述装置包括：

10.根据权利要求9所述的装置，其中，所述结果获取模块，包括：

识别单元，用于对所述用户的语音信息进行语音识别，得到多个备选语音识别结果；

结果获取单元，用于从所述多个备选语音识别结果中获取与所述用户的语音信息最匹配的语音识别结果，作为所述目标语音识别结果。

11.根据权利要求10所述的装置，其中，所述单元获取模块，包括：

成本计算单元，用于计算所述目标语音识别结果的期望编辑成本；

所述成本计算单元，还用于计算预构建的多个候选语音识别结构中各候选语音识别结构的预测编辑成本；

筛选单元，用于从所述多个候选语音识别结构中筛选预测编辑成本小于期望编辑成本的数个候选语音识别结构；

获取单元，用于基于所述数个候选语音识别结构，获取所述目标语音识别结果中能够被替换的源单元和替换所述源单元的目标单元。

12.根据权利要求11所述的装置，其中，所述获取单元，用于：

13.根据权利要求12所述的装置，其中，所述单元获取模块，还包括：

检测单元，用于检测并确定所述数个候选语音识别结构中不存在对应于所述目标语音识别结果中的同一个所述第一差异单元的至少两个不同的第二差异单元。

14.根据权利要求13所述的装置，其中，所述获取单元，还用于：

15.根据权利要求11所述的装置，其中，所述单元获取模块，还包括构造单元；

所述获取单元，还用于获取所述多个备选语音识别结果中所述目标语音识别结果之外的数个备选语音识别结果；

所述获取单元，还用于对于所述数个备选语音识别结果中的各所述备选语音识别结果，将所述备选语音识别结果与所述目标语音识别结果进行对比，获取位于所述目标语音识别结果中的区别单元，作为所述第一差异单元，获取位于所述备选语音识别结果中、与所述第一差异单元对应的区别单元，作为第二差异单元；

所述构造单元，用于基于所述目标语音识别结果、所述第一差异单元和所述第二差异单元，一起构成所述候选语音识别结构，共得到所述多个候选语音识别结构。

16.根据权利要求11-15任一所述的装置，其中，所述成本计算单元，用于：

17.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。