CN111179939A

CN111179939A - 语音转写方法、语音转写装置及计算机存储介质

Info

Publication number: CN111179939A
Application number: CN202010283135.9A
Authority: CN
Inventors: 孟君; 黄宇凯; 郝玉峰; 曹琼; 李科; 宋琼
Original assignee: Beijing Speechocean Technology Co ltd
Current assignee: Beijing Speechocean Technology Co ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-05-19
Anticipated expiration: 2040-04-13
Also published as: CN111179939B

Abstract

本公开是关于一种语音转写方法、语音转写装置及计算机存储介质。语音转写方法包括：获取语音包；基于语音包，获取当前转写语音；通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果；基于各语音识别引擎识别第k条语音的置信度以及各语音识别引擎的历史正确率参数，得到各识别结果对应的推荐系数；基于推荐系数，得到识别结果中的最优结果；基于最优结果，得到第k条语音的转写结果。通过本公开提供的方法，能够根据各语音识别引擎的置信度和对应的历史正确参数，为当前转写的第k条语音筛选出准确率高的语音识别结果进行人工校对，进而节约人工校对的时间成本，提高语音转写的工作效率。

Description

语音转写方法、语音转写装置及计算机存储介质

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音转写方法、语音转写装置及计算机存储介质。

背景技术

语音转写，是将实际生活、工作中产生的录音数据中的语音内容转写为相应的文本。待转写完成后将语音和文本构建成语音识别数据库，主要用来训练、优化语音识别中的声学模型，以提高实际应用场景中语音识别引擎的识别准确率。

在语音转写业务中，待转写的语音来源十分广泛，如电话客服、销售、游戏、语音输入、（机器人、音箱）语音搜索、会场（会议，庭审，采访）、字幕生成等多个领域。同一语音识别引擎针对不同语音来源的自动语音识别准确率较低，绝大多数场景下还是利用人工听音频进行手动转写。但是这种工作方式效率极低，导致人工成本较高。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音转写方法、语音转写装置及计算机存储介质。

根据本公开实施例的第一方面，提供一种语音转写方法，包括获取语音包，语音包包括M条待转写语音，其中M为自然数，且M＞1；基于语音包，获取第k条语音，其中k为自然数，且1≤k≤M；通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果，其中N为自然数，且N＞1；基于各语音识别引擎识别第k条语音的置信度以及各语音识别引擎的历史正确率参数，得到各识别结果对应的推荐系数，其中，所述历史正确率参数基于所述语音识别引擎对语音包中已转写的k-1条语音的识别结果进行确定；基于推荐系数，得到N个识别结果中的最优结果；基于最优结果，得到当前转写语音的转写结果。

在一实施例中，各语音识别引擎的历史正确率参数，通过以下方式确定：根据已转写的k-1条语音的转写结果和已转写的k-1条语音分别对应N个语音识别引擎的N个识别结果，得到各语音识别引擎针对各已转写的k-1条语音的识别准确率；根据识别准确率，得到已转写的k-1条语音分别对应N个语音识别引擎中的识别准确率最高的语音识别引擎；根据已转写的k-1条语音分别对应的识别准确率最高的语音识别引擎，确定各语音识别引擎各自累计的正确率评分；根据各语音识别引擎各自的正确率评分以及已转写的k-1条语音的转写数量k-1，确定各语音识别引擎的历史正确率参数。

在另一实施例中，各语音识别引擎识别第k条语音的置信度，通过以下方式确定：通过最小贝叶斯风险算法，评估各语音识别引擎对第k条语音的识别结果，得到各语音识别引擎识别第k条语音的置信度。

在又一实施例中，基于各语音识别引擎识别所述第k条语音的置信度以及各语音识别引擎的历史正确率参数，得到各识别结果对应的推荐系数，包括：通过指定权重，将语音识别引擎识别第k条语音的置信度与语音识别引擎的历史正确率参数进行分权求和，得到语音识别引擎识别第k条语音的识别结果对应的推荐系数。

在又一实施例中，指定权重包括：第一权重和第二权重，第一权重对应于语音识别引擎识别第k条语音的置信度，第二权重对应于语音识别引擎的历史正确率参数，第一权重与第二权重的和为1；第一权重通过下述方式确定：获取各语音识别引擎的正确率评分；确定各语音识别引擎分别对已转写的k-1条语音进行可靠识别的可靠数量，其中，可靠识别同时满足以下两个条件：在先前通过各语音识别引擎分别对第i条语音进行识别时，语音识别引擎识别第i条语音的置信度高于其他N-1个语音识别引擎识别第i条语音的置信度，其中i为自然数，且1≤i≤k-1；及，在先前通过各语音识别引擎分别对第i条语音进行识别时，语音识别引擎识别第i条语音的正确率评分高于其他N-1个语音识别引擎的正确率评分；根据语音识别引擎的可靠数量与正确率评分之间的比值，得到第一权重。

在一实施例中，在基于语音包，获取第k条语音之后，语音转写方法还包括：判断语音包中已获取语音的语音数量k是否大于数量阈值，其中，语音数量k为已转写的k-1条语音与第k条语音的数量总和；若语音数量k小于或等于数量阈值，则执行通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果的步骤；若语音数量k大于数量阈值，则将第k条语音通过N个语音识别引擎中的一个最优引擎，得到第一最优结果；其中，最优引擎基于各语音识别引擎的正确率评分确定；基于第一最优结果，得到转写结果。

在另一实施例中，语音转写方法包括：判断第一最优结果的置信度是否大于置信度阈值；若第一最优结果的置信度大于置信度阈值，则执行基于第一最优结果，得到转写结果的步骤；若第一最优结果的置信度小于或等于置信度阈值，则执行通过N个语音识别引擎，分别对第k条语音进行语音识别，得到当前转写语音对应各语音识别引擎的N个识别结果的步骤。

根据本公开实施例的第二方面，提供一种语音转写装置，包括：获取模块，用于获取语音包，并基于语音包，获取第k条语音，语音包包括，M条待转写语音，其中M为自然数，且M＞1，k为自然数，且1≤k≤M；识别模块，用于通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果，其中N为自然数，且N＞1；决策模块，用于基于各语音识别引擎识别第k条语音的置信度以及各语音识别引擎的历史正确率参数，得到各识别结果对应的推荐系数，并基于推荐系数，得到N个识别结果中的最优结果，其中，所述历史正确率参数基于所述语音识别引擎对语音包中已转写的k-1条语音的识别结果进行确定；确定模块，用于基于最优结果，得到第k条语音的转写结果。

在一实施例中，决策模块采用下述方式确定各语音识别引擎的历史正确率参数：根据已转写的k-1条语音的转写结果和已转写的k-1条语音分别对应N个语音识别引擎的N个识别结果，得到各语音识别引擎针对各已转写的k-1条语音的识别准确率；根据识别准确率，得到已转写的k-1条语音分别对应N个语音识别引擎中识别准确率最高的语音识别引擎；根据已转写的k-1条语音分别对应的识别准确率最高的语音识别引擎，确定各语音识别引擎各自累计的正确率评分；根据各语音识别引擎各自的正确率评分以及已转写的k-1条语音的转写数量k-1，确定各语音识别引擎的历史正确率参数。

在另一实施例中，决策模块采用下述方式确定各语音识别引擎识别第k条语音的置信度：通过最小贝叶斯风险算法，评估各语音识别引擎对第k条语音的识别结果，得到各语音识别引擎识别第k条语音的置信度。

在又一实施例中，决策模块采用下述方式基于各语音识别引擎识别所述第k条语音的置信度以及各语音识别引擎的历史正确率参数，得到各识别结果对应的推荐系数：通过指定权重，将语音识别引擎识别第k条语音的置信度与语音识别引擎的历史正确率参数进行分权求和，得到语音识别引擎识别第k条语音的推荐系数。

在又一实施例中，指定权重包括：第一权重和第二权重，第一权重对应于语音识别引擎识别第k条语音的置信度，第二权重对应于语音识别引擎的历史正确率参数，第一权重与第二权重的和为1；决策模块采用下述方式确定第一权重：获取各语音识别引擎的正确率评分；确定各语音识别引擎分别对已转写的k-1条语音进行可靠识别的可靠数量，其中，可靠识别同时满足以下两个条件：在先前通过各语音识别引擎分别对已转写的k-1条语音中第i条语音进行识别时，语音识别引擎识别第i条语音的置信度高于其他N-1个语音识别引擎识别第i条语音的置信度，其中i为自然数，且1≤i≤k-1；及在先前通过各语音识别引擎分别对第i条语音进行识别时，语音识别引擎识别第i条语音的正确率评分高于其他N-1个语音识别引擎识别所述第i条语音的正确率评分；根据语音识别引擎的置信度最高且对应的正确率评分最高的可靠数量与正确率评分之间的比值，得到第一权重。

在一实施例中，在基于语音包，获取第k条语音之后，语音转写装置还包括：判断模块，用于判断语音包中已获取语音的语音数量k是否大于数量阈值，其中，语音数量k为已转写的k-1条语音与第k条语音的数量总和；若语音数量k小于或等于数量阈值，则通过识别模块执行通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果的步骤；若语音数量k大于数量阈值，则通过识别模块将第k条语音通过N个语音识别引擎中的一个最优引擎，得到第一最优结果；其中，最优引擎基于各语音识别引擎的正确率评分确定；基于第一最优结果，得到转写结果。

在另一实施例中，判断模块还用于：判断第一最优结果的置信度是否大于置信度阈值；若第一最优结果的置信度大于置信度阈值，则通过识别模块执行基于第一最优结果，得到转写结果的步骤；若第一最优结果的置信度小于或等于置信度阈值，则通过识别模块执行通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果的步骤。

根据本公开实施例的第三方面，提供另一种语音转写装置，包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行上述任意一种的语音转写方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上述任意一种的语音转写方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过本公开提供的方法，能够根据语音识别引擎的置信度和对应的历史正确参数，得到多个语音识别引擎中针对当前转写语音，即第k条语音，进行识别的最优结果，为当前转写语音筛选出准确率高的语音识别引擎。根据最优结果完成当前转写语音的语音转写，有助于节约人工校对的时间成本，进而提高语音转写的工作效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音转写方法的流程图。

图2是根据一示例性实施例示出的另一种语音转写方法的流程图。

图3是根据一示例性实施例示出的又一种语音转写方法的流程图。

图4是根据一示例性实施例示出的一种语音转写的工作流程示意图。

图5是根据一示例性实施例示出的一种语音转写装置的框图。

图6是根据一示例性实施例示出的另一种语音转写装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

图1是根据一示例性实施例示出的一种语音转写方法的流程图，如图1所示，语音转写方法10包括以下步骤S11至步骤S16。

在步骤S11中，获取语音包，语音包包括M条待转写语音，其中M为自然数，且M＞1。

在本公开实施例中，语音包中包括多条待转写语音。语音包的来源可以包括客服、销售、游戏、语音搜索、语音输入、会议、庭审、采访或字幕生成中的任意一种情景，一个语音包中的语音的领域相对集中。待转写语音可以涉及各种说话风格，应对的场景可以涉及以下任意一种或者多种：录音环境、噪音和混响。获取语音包，用于开始准备当前的语音转写任务，便于确定转写语音的工作量。

在步骤S12中，基于语音包，获取第k条语音，其中k为自然数，且1≤k≤M。

在本公开实施例中，从语音包中逐条获取需要转写的当前转写语音，即第k条语音，用于确定当前需要转写的语音。通过逐条获取当前转写语音，能够基于历史已转写语音获取的各语音识别引擎的历史正确率参数以及对应的置信度，对当前以及之后的待转写语音推荐更好的识别结果或更好的语音识别引擎。通过不断累积进行语音转写，能够不断提高语音转写准确率，进而加快转写效率。

在步骤S13中，通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果，其中N为自然数，且N＞1。

在本公开实施例中，语音识别引擎是一种能够将音频转化为文字的模型。语音识别引擎可以采用隐马尔可夫模型或者深度神经网络模型。训练语音识别引擎时，可以根据领域进行训练，将同领域的训练语音输入模型中，得到识别结果。根据训练语音的正确识别文本结果，不断调节模型参数，直至模型的准确率达到标准阈值，进而完成语音识别引擎的训练。在语音识别中，仅通过单一的、综合的语音识别引擎不能友好的处理所有的场景。由于语音包的来源具有不确定性，为便于提高第k条语音的识别结果的准确性，在进行语音识别时，将第k条语音同时送入N个语音识别引擎中进行识别，得到各语音识别引擎关于第k条语音的识别结果。各语音识别引擎涉及的说话方式、应用场景以及版本不尽相同，尽可能覆盖转写语音的所有来源领域、说话方式、应用场景等，且彼此之间涉及的领域尽可能的远离，有助于增大各语音识别引擎进行语音识别类型的差异，便于从多个语音识别引擎中获取适配当前语音包进行语音转写的语音识别模型，进而提高语音转写的识别准确率。语音识别引擎涉及的种类越多，最终得到的识别结果准确性越高。在一实施例中，为便于将多个语音识别引擎进行管理，通过构建语音识别森林，将多个语音识别引擎进行合集管理，有助于在进行语音识别时，各语音识别引擎能够同时对第k条语音进行语音识别。

在步骤S14中，基于各语音识别引擎识别第k条语音的置信度以及各语音识别引擎的历史正确率参数，得到各识别结果对应的推荐系数，其中，历史正确率参数基于语音识别引擎识别对语音包中已转写的k-1条语音的识别结果确定。

在本公开实施例中，置信度在语音识别中，是一种用于衡量声学模型和语音观察数据之间匹配程度的函数，该函数的值对于不同的语音观察数据具有可比性。通过各语音识别引擎识别当前转写语音和其对应的识别结果之间的置信度，有助于衡量语音识别引擎识别当前转写语音的可靠性，进而衡量对应识别结果的准确率。在语音转写过程中，根据语音识别引擎当前识别结果的置信度以及历史正确率参数，确定各语音识别引擎的推荐系数，有助于推荐的语音识别引擎更具有合理性，更适合当前转写语音的识别，使对应得到的识别结果准确性更高，进而节省人工校对时间，节约时间成本。

在一实施例中，各语音识别引擎的历史正确率参数，通过以下方式确定：根据已转写的k-1条语音的转写结果和已转写的k-1条语音分别对应语音识别引擎的N个识别结果，得到各语音识别引擎针对各已转写的k-1条语音的识别准确率；根据识别准确率，得到已转写的k-1条语音分别对应N个语音识别引擎中识别准确率最高的语音识别引擎；根据已转写的k-1条语音分别对应的识别准确率最高的语音识别引擎，确定各语音识别引擎各自累计的正确率评分；根据各语音识别引擎各自的正确率评分以及已转写的k-1条语音的转写数量k-1，确定各语音识别引擎的历史正确率参数。

各语音识别引擎的历史正确率参数取决于各语音识别引擎各已转写的k-1条语音的识别结果、各已转写的k-1条语音对应的校对结果以及已转写完成的语音的数量k-1。已转写的k-1条语音对应的校对结果，即为已转写的k-1条语音的正确转写结果。将校对结果作为正确结果与各语音识别引擎识别已转写的k-1条语音对应的识别结果进行对比，能够得到各语音识别引擎识别已完成转写语音对应识别结果的字错误率，进而能够得到各语音识别引擎针对各已转写语音的识别准确率，从而确定识别准确率最高的语音识别引擎。针对同一已转写语音，识别准确率最高的语音识别引擎与置信度最高的语音识别引擎可以不是同一语音识别引擎。根据已转写的k-1条语音的识别准确率为各语音识别引擎进行评分。根据每一轮已完成语音转写对应的已转写语音的识别准确率，累计各语音识别引擎的正确率评分。进而根据各语音识别引擎的正确率评分及已完成语音转写的已转写语音的转写数量，确定各语音识别引擎的历史正确率参数，便于基于历史校对结果，确定各语音识别引擎在各轮语音识别中的准确性，有助于为当前转写语音提供准确率高的语音识别引擎对应的识别结果。通过历史正确率参数，能够确定在各语音识别引擎对当前转写语音进行语音识别时，各自的识别准确率情况，有助于降低置信度发生识别结果不可靠的误判，但实际识别结果与校对结果相近的可能性，进而有助于推荐与语音包相匹配的语音识别引擎，提高语音转写的识别准确率。若当前转写语音为语音包中第一条转写语音，则历史正确率为零。例如：将各语音识别引擎在各轮语音识别中的历史正确率记为

，

。其中，i为各语音识别引擎的编号，每一个编号对应一个语音识别引擎，一共含有N个语音识别引擎。k为当前转写语音的句数，语音包中含有M条待转写语音。当当前转写语音的句数为第一句，即k=1时，各语音识别引擎对应的

。即，刚开始进行语音转写时，各语音识别引擎针对当前语音包的历史正确率为0，无法确定各语音识别引擎是否适用当前语音包。当

时，已完成k-1句已转写语音。将每轮已转写语音完成校对后的校对结果作为正确答案，计算各语音识别引擎在各轮语音识别中的识别结果的字错误率，进而确定识别准确率最高的语音识别引擎，为识别准确率最高的语音识别引擎加1分。转写完成k-1句后，各语音识别引擎的正确率评分记为

，

，历史正确率记为

，

，

的取值范围为0到1，即，

能够表征在完成k-1句已转写语音的语音转写后，各语音识别引擎在k-1句中各自获得识别准确率最高的句数占k-1句的比重，进而能够确定在k-1句中，各语音识别引擎的识别准确率评分。从而能够直观的获取各语音识别引擎在各轮语音识别中的准确率情况，推荐合理的语音识别引擎识别的识别结果。通过正确率评分与完成语音转写的总语句数之间的比值，能够直观地获取在历史语音转写的过程中，各语音识别引擎与语音包中各转写语音的适配情况，有利于合理的推选出适合语音包中当前以及后续的待转写语音进行语音转写的语音识别引擎，从而有助于提高语音转写的识别准确率。

在一实施例中，各语音识别引擎识别第k条语音的置信度，通过最小贝叶斯风险算法进行评估，获得各语音识别引擎识别第k条语音的置信度值，进而得到各语音识别引擎中对应第k条语音的识别结果的准确性。

在步骤S15中，基于推荐系数，得到N个识别结果中的最优结果。

在本公开实施例中，根据确定各语音识别引擎的推荐系数，推荐各语音识别引擎识别当前第k条语音的N个识别结果中的最优结果。在一实施例中，最优结果可以为推荐系数最大的语音识别引擎对应的识别结果。通过推荐系数获取最优结果，有助于在选择最优结果时，能够充分考虑各语音识别引擎自身的性能以及识别语音转写的实际情况，使推荐的识别结果更贴合当前转写语音的内容，进而能够快速完成校对，节省校对时间，提高语音转写效率。

在步骤S16中，基于最优结果，得到第k条语音的转写结果。

在本公开实施例中，根据得到的最优结果进行校对，修改最优结果中与实际第k条语音内容不同的部分，能够有效减少人工校对的功耗，进而快速得到第k条语音的转写结果，完成第k条语音的语音转写，提高转写工作效率。根据当前语音转写的转写结果以及最优结果对应的语音识别引擎，结合之前的历史正确率参数进行动态调整推荐系数，能够有效地帮助下一转写语音在多个语音识别引擎识别的识别结果中获取最贴合下一转写语音的最优结果。

通过上述实施例，结合人工校对后的已转写语音的校对结果以及语音识别引擎针对当前转写语音的识别结果置信度，动态调节推荐最优结果的推荐系数，使当前转写语音能够通过多个语音识别引擎的识别结果中得到最贴合当前转写语音内容的最优结果，进而能够快速完成语音转写工作，提高语音转写工作效率，降低人工成本。

在一实施例中，通过指定权重，将语音识别引擎识别第k条语音的置信度与语音识别引擎的历史正确率参数进行分权求和，得到语音识别引擎识别第k条语音的识别结果对应的推荐系数。各识别结果对应的推荐系数，是基于各语音识别引擎识别当前转写语音的置信度与对应的各语音识别引擎的历史正确率参数之间的指定权重进行分权求和所决定的。通过分配权重，能够确定各语音识别引擎的置信度和各语音识别引擎对应的历史正确参数率的影响程度，进而使得到的各识别结果对应的推荐系数具有合理性，有助于得到的最优结果更贴合当前转写语音的实际内容。

在另一实施例中，指定权重包括：第一权重和第二权重，第一权重对应于语音识别引擎识别第k条语音的置信度，第二权重对应于语音识别引擎的历史正确率参数，第一权重与第二权重的和为1。第一权重通过下述方式确定：获取各语音识别引擎的正确率评分；确定各语音识别引擎分别对已转写的k-1条语音进行可靠识别的可靠数量，其中，可靠识别同时满足以下两个条件：在先前通过各语音识别引擎分别对已转写的k-1条语音中第i条语音进行识别时，语音识别引擎识别第i条语音的置信度高于其他N-1个语音识别引擎识别第i条语音的置信度，其中i为自然数，且1≤i≤k-1；及在先前通过各语音识别引擎分别对第i条语音进行识别时，语音识别引擎识别第i条语音的正确率评分高于其他N-1个语音识别引擎识别所述第i条语音的正确率评分；根据语音识别引擎的可靠数量与正确率评分之间的比值，得到第一权重。

各语音识别引擎识别当前转写语音的置信度对应的指定权重为第一权重，各语音识别引擎的历史正确率参数对应的指定权重为第二权重，第一权重与第二权重的和为1。第一权重采用

表示，则对应的第二权重采用

表示。第一权重

的大小取决于语音识别引擎自身的累计的正确率评分

，以及各语音识别引擎获得正确率评分且对应的已转写语音置信度最高的可靠数量

，根据各语音识别引擎获得正确率评分且对应的已转写语音置信度最高的可靠数量

以及对应的正确率评分

之间的比值，得到各语音识别引擎识别当前转写语音的置信度的第一权重

，即第一权重

，

。进而各语音识别引擎的识别结果对应的推荐系数表示为

，

。其中，

用于表示各语音识别引擎基于当前转写语音对应识别结果的置信度。当

时，表示当前转写语音为第一句转写的语音，第一权重

为1，各语音识别引擎的推荐系数取决于各语音识别引擎针对当前转写语音的识别结果的置信度，语音识别引擎识别的置信度越高，推荐系数就越高，表示该语音识别引擎越适合转写当前转写语音。当

时，表示当前已完成k-1句的已转写语音，

。通过

和

决定各语音识别引擎识别当前转写语音的置信度以及各语音识别引擎的历史正确率参数之间的权重分配，能够充分考虑语音识别模型本身的识别能力以及针对不同类型语音的语音转写能力。在一些情况中，当语音识别引擎针对历史已转写语音的识别结果置信度大且识别结果准确率高的句数，与语音识别引擎针对历史已转写语音的识别结果准确率高的句数相等或差值极小时，则第一权重

较大，语音识别引擎识别的置信度更具有可靠性，在获取各语音识别引擎的推荐系数中，语音识别引擎基于当前转写语音对应识别结果的置信度

所占的权重较多，推荐语音识别引擎时，则着重考虑语音识别引擎识别当前转写语音的置信度。在另一些情况中，当

时，即为，根据已完成的k-1句已转写语音中，当各语音识别引擎没有获得正确率评分时，则该语音识别引擎的推荐系数取决于该语音识别引擎针对当前转写语音的置信度。在又一些情况中，当语音识别引擎针对历史已转写语音的识别结果置信度大且识别结果准确率高的句数，与语音识别引擎针对历史已转写语音的识别结果准确率高的句数差值极大时，则表明虽然该语音识别引擎的识别置信度较高，但识别结果与校对结果相差较大，因此，语音识别引擎识别的置信度可靠性不高。此时，语音识别引擎的历史正确率所占的第二权重

较大。在推选合适的语音识别引擎时，语音识别引擎的历史正确率更具有参考性，通过语音识别引擎的历史正确率，能够确定该语音识别引擎虽然衡量自身识别结果的可靠性不准，但在实际语音识别中，更适合识别此类语音包中的待转写语音，得到识别准确率较高的识别结果。由此，在获取各语音识别引擎的推荐系数，推荐语音识别引擎时，更适合推荐此类语音识别引擎，进而能够有效地提高语音转写的准确度，加快语音转写效率，节省人工成本。根据每轮的语音转写，动态调节权重分配，使最终推选的语音识别引擎针对当前转写语音对应的识别结果更具有合理的可靠性，识别结果更接近校对结果，使校对时，能够快速完成校对，进而提高语音转写的工作效率，降低人工成本。

在一实施场景中，语音识别森林中

语音识别引擎的个数

，各语音识别引擎编号分别记做

、

和

。转写当前转写语音为第6句和第21句时，各语音识别引擎的推荐系数

的计算示如下列表1和表2所示。其中，表1为各语音识别引擎在转写第6句当前转写语音和第21句当前转写语音时，各语音识别引擎正确率评分

、获得正确率评分且对应的已转写语音置信度最高的可靠数量

以及对应的识别的置信度情况。表2为各语音识别引擎在转写第6句当前转写语音和第21句当前转写语音时，各自推荐系数的计算过程。

表1

则各语音识别引擎对应的推荐系数

的值为：

表2

根据表2的计算结果，当前句号为6时，根据推荐系数，选择编号为1的语音识别引擎

对应的识别结果为最优结果，进而得到当前转写语音的转写结果。当前句号为21时，根据推荐系数，选择编号为2的语音识别引擎

对应的识别结果为最优结果，进而得到当前转写语音的转写结果。

图2是根据一示例性实施例示出的一种语音转写方法的流程图，如图2所示，语音转写方法10还包括步骤S17和步骤S18。

在步骤S17中，判断语音包中已获取的语音数量k是否大于数量阈值，其中，语音数量k为已转写的k-1条语音与第k条语音的数量总和；若语音数量k小于或等于数量阈值，则执行步骤S13；若语音数量k大于数量阈值，则执行步骤S18：将第k条语音通过N个语音识别引擎中的一个最优引擎，得到第一最优结果；其中，最优引擎基于各语音识别引擎的正确率评分确定。

在本公开实施例中，为便于提高语音转写工作效率，节省语音识别时间，通过预设数量阈值，完成与数量阈值对应数量的待转写语音的转写，进而能够根据各语音识别引擎的累计正确率评分，得到各语音识别引擎中适合当前语音包中各待转写语音的最优引擎，最优引擎可以是全部N个语音识别引擎中正确率评分最高的语音识别引擎。在进行当前转写语音的语音转写时，提前统计已转写语音的数量，当对当前转写语音进行转写，则将语音数量加1。由于多个语音识别引擎涉及的领域范围彼此覆盖的概率较小，且语音包中的待转写语音大概率来自同一领域。因此，在经过一定数量的语音转写时，能够缩小多个语音识别引擎中，适合当前语音包的语音识别引擎，进而能够提高语音转写的准确率。在进行语音识别前，判断已转写语音的语音数量是否大于数量阈值，便于确定当前是否有足够的数据确定各语音识别引擎中最适合当前语音包的语音识别引擎，进而决定是否继续校验各语音识别引擎或者直接采用各语音识别引擎中的最优引擎，提高语音识别的准确性，加快语音转写速率。即，若语音数量小于或等于数量阈值，则执行步骤S13，通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果。若语音数量大于数量阈值，则将当前语句通过多个语音识别引擎中的一个最优引擎，得到第一最优结果。在步骤S16中，基于第一最优结果，得到转写结果。

在本公开实施例中，将最优引擎识别的第一最优结果进行校对，修改第一最优结果中与实际当前转写语音内容不同的部分，能够有效减少人工校对的功耗，进而快速得到当前转写语音的转写结果，完成当前转写语音的语音转写，提高转写工作效率。

图3是根据一示例性实施例示出的一种语音转写方法的流程图，如图3所示，语音转写方法10还包括步骤S19。

在步骤S19中，判断第一最优结果的置信度是否大于置信度阈值；若第一最优结果的置信度大于置信度阈值，则执行基于第一最优结果，得到转写结果的步骤；若第一最优结果的置信度小于或等于置信度阈值，则执行步骤S13，通过N个语音识别引擎，对第k条语音进行语音识别，得到第k条语音对应的N个识别结果的步骤。

在本公开实施例中，为确提高语音转写的准确度，预设置信度阈值，用于评判最优引擎是否适合为当前转写语音进行语音转写。若第一最优结果的置信度大于置信度阈值，则表示当前转写语音涉及的场景或者说话方式与最优引擎能够识别的语音相符，通过最优引擎得到的第一最优结果与当前转写语音的实际内容贴近，进而执行步骤S16，基于第一最优结果，得到转写结果，完成当前转写语音的语音转写。若第一最优结果的置信度小于或等于置信度阈值，则最优引擎不适合识别当前转写语音，进而为获取准确度较高的识别结果执行步骤S13，通过多个语音识别引擎，对当前语音进行语音识别，得到当前语音对应的多个识别结果，进而得到多个语音识别引擎中对应的各识别结果中最贴合当前转写语音内容的最优结果。

在一实施场景中，如图4所示，负责语音转写的人员根据获取的语音包领取语音转写任务，逐句将语音包中的待转写语音进行转写。负责语音转写的人员预先并不清楚语音包中的各待转写语音涉及的说话风格或者应用场景。在进行语音转写时，判断当前语音包中是否含有待转写的待转写语音，如果存在，则获取并开始转写当前转写语音，并将已获取的语音数量加1；若不存在，则语音包中的待转写语音均已完成语音转写，结束任务。在进行当前转写语音的语音转写时，判断已获取语音数量是否大于数量阈值，便于确定是否继续通过语音识别森林筛选合适的最优结果或者根据各语音识别引擎的正确率评分推选出适合转写当前语音包的最优引擎进行转写。当语音数量小于或等于数量阈值时，则通过语音识别森林进行语音识别，基于各语音识别引擎识别当前转写语音的置信度以及各语音识别引擎的历史正确率参数，选择推荐系数最高的语音识别引擎对应的识别结果作为最优结果。进而将最优结果显示到转写界面上，用于转写人员根据最优结果进行校对工作，完成当前转写语音的语音转写，并对最优结果对应的语音识别引擎的正确率评分进行累计。当语音数量大于数量阈值时，则通过最优引擎进行识别当前转写语音。为降低人工校对时间成本，提高识别结果的准确度，通过置信度阈值评判当前最优引擎是否适合识别当前转写语音。若最优引擎识别当前转写语音的置信度大于置信度阈值，则最优引擎适合识别当前转写语音，进而将最优引擎识别的第一最优识结果发送至转写界面上供转写人员进行校对。若最优引擎识别当前转写语音的置信度小于或等于置信度阈值，则最优引擎不适合识别当前转写语音，则通过语音识别森林重新选择适合识别当前转写语音的语音识别引擎。通过结合人工校对后的校对结果确定各语音识别引擎的历史正确率参数，以及结合语音识别引擎的置信度，动态选择适合识别当前转写语音的语音识别引擎，进而提高语音转写工作效率，降低人工成本。

图5是根据一示例性实施例示出的一种语音转写装置框图。参照图5，该语音转写装置100包括获取模块110，识别模块120、决策模块130和确定模块140。

获取模块110，用于获取语音包，并基于语音包，获取第k条语音，语音包包括M条待转写语音，其中M为自然数，且M＞1，k为自然数，且1≤k≤M。

识别模块120，用于通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果，其中N为自然数，且N＞1。

决策模块130，用于基于各语音识别引擎识别第k条语音的置信度以及各语音识别引擎的历史正确率参数，得到各识别结果对应的推荐系数，并基于推荐系数，得到N个识别结果中的最优结果，其中，所述历史正确率参数基于所述语音识别引擎对语音包中已转写的k-1条语音的识别结果确定。

确定模块140，用于基于最优结果，得到第k条语音的转写结果。

在一实施例中，决策模块130采用下述方式确定各语音识别引擎的历史正确率参数：根据已转写的k-1条语音的转写结果和已转写的k-1条语音分别对应N个语音识别引擎的N个识别结果，得到各语音识别引擎针对各已转写的k-1条语音的识别准确率；根据识别准确率，得到已转写的k-1条语音分别对应N个语音识别引擎中识别准确率最高的语音识别引擎；根据已转写的k-1条语音分别对应的识别准确率最高的语音识别引擎，确定各语音识别引擎各自累计的正确率评分；根据各语音识别引擎各自累计的正确率评分以及已转写的k-1条语音的转写数量k-1，确定各语音识别引擎的历史正确率参数。

在另一实施例中，决策模块130采用下述方式确定各语音识别引擎识别第k条语音的置信度：通过最小贝叶斯风险算法，评估各语音识别引擎对第k条语音的识别结果，得到各语音识别引擎识别第k条语音的置信度。

在又一实施例中，决策模块130采用下述方式基于各语音识别引擎识别第k条语音的置信度以及各语音识别引擎的历史正确率参数，得到各识别结果对应的推荐系数：通过指定权重，将语音识别引擎识别第k条语音的置信度与语音识别引擎的历史正确率参数进行分权求和，得到语音识别引擎识别第k条语音的推荐系数。

在又一实施例中，指定权重包括：第一权重和第二权重，第一权重对应于语音识别引擎识别第k条语音的置信度，第二权重对应于语音识别引擎的历史正确率参数，第一权重与第二权重的和为1；决策模块130采用下述方式确定第一权重：获取各语音识别引擎的正确率评分；确定各语音识别引擎分别对已转写的k-1条语音进行可靠识别的可靠数量，其中，可靠识别同时满足以下两个条件：在先前通过各语音识别引擎分别对已转写的k-1条语音中第i条语音进行识别时，语音识别引擎识别第i条语音的置信度高于其他N-1个语音识别引擎识别第i条语音的置信度，其中i为自然数，且1≤i≤k-1；及在先前通过各语音识别引擎分别对第i条语音进行识别时，语音识别引擎识别第i条语音的正确率评分高于其他N-1个语音识别引擎识别所述第i条语音的正确率评分；根据语音识别引擎的可靠数量与正确率评分之间的比值，得到第一权重。

在一实施例中，语音转写装置还包括：判断模块，用于在基于语音包，获取第k条语音之后，判断语音包中已获取的语音数量k是否大于数量阈值，其中，语音数量k为已转写的k-1条语音与第k条语音的数量总和；若语音数量k小于或等于数量阈值，则通过识别模块执行通过N个语音识别引擎，分别对第k条语音进行语音识别，得到第k条语音对应各语音识别引擎的N个识别结果的步骤；若语音数量k大于数量阈值，则通过识别模块将第k条语音通过N个语音识别引擎中的一个最优引擎，得到第一最优结果；其中，最优引擎基于各语音识别引擎的正确率评分确定；基于第一最优结果，得到转写结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

如图6所示，本发明的一个实施方式提供了另一种语音转写装置200。其中，该语音转写装置200包括存储器210、处理器220、输入/输出（Input/Output，I/O）接口230。其中，存储器210，用于存储指令。处理器220，用于调用存储器210存储的指令执行本发明实施例的用于语音转写方法。其中，处理器220分别与存储器210、I/O接口230连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器210可用于存储程序和数据，包括本发明实施例中涉及的用于语音转写的程序，处理器220通过运行存储在存储器210的程序从而执行语音转写装置200的各种功能应用以及数据处理。

本发明实施例中处理器220可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，处理器220可以是中央处理单元（Central Processing Unit，CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本发明实施例中的存储器210可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器（Random Access Memory，RAM）和/或高速缓冲存储器（cache）等。非易失性存储器例如可以包括只读存储器（Read-Only Memory，ROM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，HDD）或固态硬盘（Solid-State Drive，SSD）等。

本发明实施例中，I/O接口230可用于接收输入的指令（例如数字或字符信息，以及产生与语音转写装置200的用户设置以及功能控制有关的键信号输入等），也可向外部输出各种信息（例如，图像或声音等）。本发明实施例中I/O接口230可包括物理键盘、功能按键（比如音量控制按键、开关按键等）、鼠标、操作杆、轨迹球、麦克风、扬声器和触控面板等中的一个或多个。

一种非临时性计算机可读存储介质，当存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种语音转写方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音转写方法，其特征在于，所述方法包括：

获取语音包，所述语音包包括M条待转写语音，其中M为自然数，且M＞1；

基于所述语音包，获取第k条语音，其中k为自然数，且1≤k≤M；

通过N个语音识别引擎，分别对所述第k条语音进行语音识别，得到所述第k条语音对应各所述语音识别引擎的N个识别结果，其中N为自然数，且N＞1；

基于各所述语音识别引擎识别所述第k条语音的置信度以及各所述语音识别引擎的历史正确率参数，得到各所述识别结果对应的推荐系数，其中，所述历史正确率参数基于所述语音识别引擎对所述语音包中已转写的k-1条语音的识别结果确定；

基于所述推荐系数，得到所述N个识别结果中的最优结果；

基于所述最优结果，得到所述第k条语音的转写结果。

2.根据权利要求1所述的方法，其特征在于，所述各所述语音识别引擎的历史正确率参数，通过以下方式确定：

根据所述已转写的k-1条语音的转写结果和所述已转写的k-1条语音分别对应所述N个语音识别引擎的N个识别结果，得到各所述语音识别引擎针对各所述已转写的k-1条语音的识别准确率；

根据所述识别准确率，得到所述已转写的k-1条语音分别对应所述N个语音识别引擎中所述识别准确率最高的所述语音识别引擎；

根据所述已转写的k-1条语音分别对应的所述识别准确率最高的所述语音识别引擎，确定各所述语音识别引擎各自累计的正确率评分；

根据各所述语音识别引擎各自的所述正确率评分以及所述已转写的k-1条语音的转写数量k-1，确定各所述语音识别引擎的历史正确率参数。

3.根据权利要求2所述的方法，其特征在于，所述各所述语音识别引擎识别所述第k条语音的置信度，通过以下方式确定：

通过最小贝叶斯风险算法，评估各所述语音识别引擎对所述第k条语音的识别结果，得到各所述语音识别引擎识别所述第k条语音的置信度。

4.根据权利要求3所述的方法，其特征在于，所述基于各所述语音识别引擎识别所述第k条语音的置信度以及各所述语音识别引擎的历史正确率参数，得到各所述识别结果对应的推荐系数，包括：

通过指定权重，将所述语音识别引擎识别所述第k条语音的置信度与所述语音识别引擎的历史正确率参数进行分权求和，得到所述语音识别引擎识别所述第k条语音的所述识别结果对应的推荐系数。

5.根据权利要求4所述的方法，其特征在于，

所述指定权重包括：第一权重和第二权重，所述第一权重对应于所述语音识别引擎识别所述第k条语音的置信度，所述第二权重对应于所述语音识别引擎的历史正确率参数，所述第一权重与所述第二权重的和为1；

所述第一权重通过下述方式确定：

获取各所述语音识别引擎的所述正确率评分；

确定各所述语音识别引擎分别对所述已转写的k-1条语音进行可靠识别的可靠数量，其中，所述可靠识别同时满足以下两个条件：

在先前通过各所述语音识别引擎分别对所述已转写的k-1条语音中第i条语音进行识别时，所述语音识别引擎识别所述第i条语音的置信度高于其他N-1个所述语音识别引擎识别所述第i条语音的置信度，其中i为自然数，且1≤i≤k-1；及，

在先前通过各所述语音识别引擎分别对所述第i条语音进行识别时，所述语音识别引擎识别所述第i条语音的正确率评分高于其他N-1个所述语音识别引擎识别所述第i条语音的正确率评分；

根据所述语音识别引擎的所述可靠数量与所述正确率评分之间的比值，得到所述第一权重。

6.根据权利要求2所述的方法，其特征在于，在所述基于所述语音包，获取第k条语音之后，所述方法还包括：

判断所述语音包中已获取的语音数量k是否大于数量阈值，其中，所述语音数量k为所述已转写的k-1条语音与所述第k条语音的数量总和；

若所述语音数量k小于或等于所述数量阈值，则执行所述通过N个语音识别引擎，分别对所述第k条语音进行语音识别，得到所述第k条语音对应各所述语音识别引擎的N个识别结果的步骤；

若所述语音数量k大于所述数量阈值，则将所述第k条语音通过所述N个语音识别引擎中的一个最优引擎，得到第一最优结果；其中，所述最优引擎基于各所述语音识别引擎的正确率评分确定；

基于所述第一最优结果，得到所述转写结果。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

判断所述第一最优结果的置信度是否大于置信度阈值；

若所述第一最优结果的置信度大于所述置信度阈值，则执行所述基于所述第一最优结果，得到所述转写结果的步骤；

若所述第一最优结果的置信度小于或等于所述置信度阈值，则执行所述通过N个语音识别引擎，分别对所述第k条语音进行语音识别，得到所述第k条语音对应各所述语音识别引擎的N个识别结果的步骤。

8.一种语音转写装置，其特征在于，所述装置包括：

获取模块，用于获取语音包，并基于所述语音包，获取第k条语音，所述语音包包括M条待转写语音，其中M为自然数，且M＞1，k为自然数，且1≤k≤M；

识别模块，用于通过N个语音识别引擎，分别对所述第k条语音进行语音识别，得到所述第k条语音对应各所述语音识别引擎的N个识别结果，其中N为自然数，且N＞1；

决策模块，用于基于各所述语音识别引擎识别所述第k条语音的置信度以及各所述语音识别引擎的历史正确率参数，得到各所述识别结果对应的推荐系数，并基于所述推荐系数，得到所述N个识别结果中的最优结果，其中，所述历史正确率参数基于所述语音识别引擎对所述语音包中已转写的k-1条语音的识别结果确定；

确定模块，用于基于所述最优结果，得到所述第k条语音的转写结果。

9.根据权利要求8所述的装置，其特征在于，所述决策模块采用下述方式确定各所述语音识别引擎的历史正确率参数：

10.根据权利要求9所述的装置，其特征在于，所述决策模块采用下述方式确定各所述语音识别引擎识别所述第k条语音的置信度：

11.根据权利要求10所述的装置，其特征在于，所述决策模块采用下述方式基于各所述语音识别引擎识别所述第k条语音的置信度以及各所述语音识别引擎的历史正确率参数，得到各所述识别结果对应的推荐系数：

通过指定权重，将所述语音识别引擎识别所述第k条语音的置信度与所述语音识别引擎的历史正确率参数进行分权求和，得到所述语音识别引擎识别所述第k条语音的推荐系数。

12.根据权利要求11所述的装置，其特征在于，

所述决策模块采用下述方式确定所述第一权重：

获取各所述语音识别引擎的所述正确率评分；

在先前通过各所述语音识别引擎分别对所述已转写的k-1条语音中第i条语音进行识别时，所述语音识别引擎识别所述第i条语音的置信度高于其他N-1个所述语音识别引擎识别所述第i条语音的置信度，其中i为自然数，且1≤i≤k-1；及

13.根据权利要求9所述的装置，其特征在于，在所述基于所述语音包，获取第k条语音之后，所述装置还包括：

判断模块，用于判断所述语音包中已获取的语音数量k是否大于数量阈值，其中，所述语音数量k为所述已转写的k-1条语音与所述第k条语音的数量总和；

若所述语音数量k小于或等于所述数量阈值，则通过所述识别模块执行所述通过N个语音识别引擎，分别对所述第k条语音进行语音识别，得到所述第k条语音对应各所述语音识别引擎的N个识别结果的步骤；

若所述语音数量k大于所述数量阈值，则通过所述识别模块将所述第k条语音通过所述N个语音识别引擎中的一个最优引擎，得到第一最优结果；其中，所述最优引擎基于各所述语音识别引擎的正确率评分确定；

基于所述第一最优结果，得到所述转写结果。

14.根据权利要求13所述的装置，其特征在于，所述判断模块还用于：

判断所述第一最优结果的置信度是否大于置信度阈值；

若所述第一最优结果的置信度大于所述置信度阈值，则通过所述识别模块执行所述基于所述第一最优结果，得到所述转写结果的步骤；

若所述第一最优结果的置信度小于或等于所述置信度阈值，则通过所述识别模块执行所述通过N个语音识别引擎，分别对所述第k条语音进行语音识别，得到所述第k条语音对应各所述语音识别引擎的N个识别结果的步骤。

15.一种语音转写装置，其中，所述语音转写装置包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1-7中任意一项所述的语音转写方法。

16.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-7中任一项所述的语音转写方法。