CN110087129A

CN110087129A - 视频节目配音效果评估方法、装置及计算机可读存储介质

Info

Publication number: CN110087129A
Application number: CN201910312601.9A
Authority: CN
Inventors: 朱胜强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-08-02
Anticipated expiration: 2039-04-18
Also published as: CN110087129B

Abstract

本发明提出一种视频节目配音效果的评估方法，该方法包括：将待播放视频节目对应的配音部分转换为相应文本T1；将配音部分转换所得的文本T1与待播放视频节目的脚本S进行对比，由对比的结果计算第一配音效果得分Score1；将待播放视频节目的脚本S转换为相应语音V；将脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比，由对比的结果计算第二配音效果得分Score2；根据转换的权重、所述第一配音效果得分Score1和所述第二配音效果得分Score2，得到最终的配音效果得分。本申请提供的技术方案既降低了配音部分与文本之间转换效果的审核成本，又可更加客观、公正、准确地评价配音人员的配音效果。

Description

视频节目配音效果评估方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种视频节目配音效果评估方法、装置及计算机可读存储介质。

背景技术

电台、电视台的新闻类节目属于视频节目中的一种，这种节目有赖于配音人员根据新闻节目的脚本即新闻节目对应的文字内容，准确无误地读出这些文字内容并通过电声设备播放出去。

鉴于新闻类节目的严肃性，在播放出去之前，电视台对新闻类节目要进行多级审核(通常需要审核二至三遍)，以确保播放出去的音频内容准确无误，主要审核过程是核查新闻播报人员播报新闻的配音与所播报新闻的脚本是否相符。目前，对新闻类节目，主要审核方式是人工审核或很大程度上都依赖于人工审核。

然而，鉴于心理和生理因素，例如，长时间地阅读文本，人眼和大脑容易疲劳等，这种人工审核的方式不仅需要耗费大量的人力物力，而且出错几率大，影响对配音效果评估的准确性。

发明内容

本发明提供一种视频节目配音效果评估方法、装置及存储介质，其主要目的在于降低审核新闻节目的成本并提高配音效果评估的准确性。

为实现上述目的，本发明提供一种计算机可读存储介质，该计算机可读存储介质中包括视频节目配音效果评估程序，所述视频节目配音效果评估程序被处理器执行时实现如下步骤：

将待播放视频节目对应的配音部分转换为相应文本T1；

将所述配音部分转换所得的文本T1与待播放视频节目的脚本S进行对比，由对比的结果计算第一配音效果得分Score1；

将待播放视频节目的脚本S转换为相应语音V；

将脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比，由对比的结果计算第二配音效果得分Score2；以及

根据转换的权重、所述第一配音效果得分Score1和所述第二配音效果得分Score2，得到最终的配音效果得分。

优选地，所述将待播放视频节目对应的配音部分转换为相应文本T1包括：

将所述配音部分转换为相应文本T1的出错率与Et或者Etmax对比，所述Et为所述配音部分对应配音人员历史上视频节目的配音部分转换为相应文本的出错率的平均值，所述Etmax为所述配音人员历史上视频节目的配音部分转换为相应文本的出错率的最高值；

若所述配音部分转换为相应文本T1的出错率高于所述Et或者Etmax，则对所述待播放视频节目对应的配音部分再次进行转换，若再次进行转换所得文本T'1的出错率与首次转换所得文本T1的出错率相同，则以文本T'1或首次转换所得文本T1作为所述配音部分转换后的文本。

优选地，所述将待播放视频节目对应的配音部分转换为相应文本T1之后，还包括：

识别将所述配音部分转换为相应文本T1时的错误之处，并将所述错误之处提示给文本校对人员。

优选地，所述将所述配音部分转换所得的文本T1与待播放视频节目的脚本S进行对比，由对比的结果计算第一配音效果得分Score1包括：

根据所述文本T1与待播放视频节目的脚本S进行对比的结果，查询第一配音效果得分表得到第一配音效果第一得分Score1'；

将所述第一配音效果第一得分Score1'与E₁s或者E₁smax对比，所述E₁s为所述配音部分对应配音人员历史上获取的第一配音效果得分的平均值，所述E₁smax为所述配音部分对应配音人员历史上获取的第一配音效果得分的最高值；

若所述第一配音效果第一得分Score1'低于所述E₁s或者E₁smax，则将所述配音部分再次转换所得的文本T”1与待播放视频节目的脚本S进行对比，得到第一配音效果第二得分Score1”；

求取所述第一配音效果第一得分Score1'与所述第一配音效果第二得分Score1”的平均值，将所述第一配音效果第一得分Score1'与所述第一配音效果第二得分Score1”的平均值确定为所述第一配音效果得分Score1。

优选地，所述将待播放视频节目的脚本S转换为相应语音V包括：

将脚本S转换为相应语音V的出错率与预设阈值相比；

若所述脚本S转换为相应语音V的出错率高于所述预设阈值，则再次将所述脚本S转换为相应语音V'，若再次进行转换所得语音V'的出错率与首次转换所得语音V的出错率相同，则以所述语音V'或首次转换所得语音V作为所述脚本S转换后的语音。

优选地，将待播放视频节目的脚本S转换为相应语音V之后，还包括：

识别将所述脚本S转换为相应语音V时的错误之处，并将所述错误之处提示给语音校对人员。

优选地，将脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比，由对比的结果计算第二配音效果得分Score2包括：

根据所述脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比的结果，查询第二配音效果得分表得到第二配音效果第一得分Score2'；

将所述第二配音效果第一得分Score2'与E₂s或者E₂smax对比，所述E₂s为所述配音部分对应配音人员历史上获取的第二配音效果得分的平均值，所述E₂smax为所述配音部分对应配音人员历史上获取的第二配音效果得分的最高值；

若所述第二配音效果第二得分Score2'低于所述E₂s或者E₂smax，则将所述脚本S再次转换所得的语音V'与待播放视频节目对应的配音部分进行对比，计算得到第二配音效果第二得分Score2”；

求取所述第二配音效果第一得分Score2'与所述第二配音效果第二得分Score2”的平均值，将所述第二配音效果第一得分Score2'与所述第二配音效果第二得分Score2”的平均值确定为所述第二配音效果得分Score2。

优选地，所述根据转换的权重、所述第一配音效果得分Score1和所述第二配音效果得分Score2，得到最终的配音效果得分包括：

分别确定与所述第一配音效果得分Score1和第二配音效果得分Score2对应的第一转换权重W₁和第二转换权重W₂，所述第一转换权重W₁和第二转换权重W₂取决于将所述待播放视频节目对应的配音部分转换为相应文本T1时正确率与将所述待播放视频节目的脚本S转换为相应语音V时正确率的高低；

计算Score1*W₁+Score2*W₂，将所述Score1*W₁+Score2*W₂的结果确定为所述最终的配音效果得分。

此外，为实现上述目的，本发明还提供一种视频节目配音效果的评估方法，该方法包括：

将待播放视频节目对应的配音部分转换为相应文本T1；

将待播放视频节目的脚本S转换为相应语音V；

将所述配音部分转换为相应文本T1时的错误之处提示给文本校对人员。

将脚本S转换为相应语音V的出错率与预设阈值相比；

将所述脚本S转换为相应语音V时的错误之处提示给语音校对人员。

此外，为实现上述目的，本发明还提供一种电子装置，该电子装置包括：

第一转换模块，用于将待播放视频节目对应的配音部分转换为相应文本T1；

第一对比模块，用于将所述配音部分转换所得的文本T1与待播放视频节目的脚本S进行对比，由对比的结果计算第一配音效果得分Score1；

第二转换模块，用于将待播放视频节目的脚本S转换为相应语音V；

第二对比模块，用于将脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比，由对比的结果计算第二配音效果得分Score2；以及

得分计算模块，用于根据转换的权重、所述第一配音效果得分Score1和所述第二配音效果得分Score2，得到最终的配音效果得分。

从上述本发明提出的视频节目配音效果评估方法、电子装置及计算机可读存储介质可知，一方面，视频节目对应的配音部分与文本之间的转换以及视频节目内容对应的脚本与语音之间的转换为技术手段，可通过计算机程序短时间地完成，其效率远大于与人工审核或校对，无需耗费大量人力物力，降低了审核的成本；另一方面，根据转换的权重，通过对两次不同转换获得的配音效果得分进行加权，并且由于加权系数可以进行自适应调整，因此，最大限度地克服了语音与文本之间的转换所带来的固有缺陷，可更加客观、公正、准确地评价配音人员的配音效果。

附图说明

图1为本申请实施例提供的视频节目配音效果的评估方法实现流程图；

图2为本申请实施例提供的视频节目配音效果的评估装置的结构示意图；

图3为本申请实施例提供的电子装置结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本申请。

为使得本申请的发明目的、特征、优点能够更加地明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频节目配音效果评估方法，该视频节目配音效果评估方法应用于电子装置，该电子装置可以为个人电脑、智能手机或平板电脑等。

请参阅图1，本申请实施例中的视频节目配音效果评估方法主要包括以下步骤S101至S105：

S101、将待播放视频节目对应的配音部分转换为相应文本T1。

在本申请实施例中，待播放视频节目可以是待播放的新闻节目，也可以是其他严肃类视频节目。此处所述的严肃，是指对正确性要求较高、配音人员不能有口误或者口误需要控制在一定范围之内。之所以说是待播放，是因为这些视频节目并非直接由配音人员或播音人员照着视频节目的脚本即视频节目对应的文字内容诵读，然后由电声设备播放出去，而是先由配音人员或播音人员照着视频节目的脚本即视频节目对应的文字内容诵读，将脚本录制成音视频后需要对这些音视频即视频节目对应的配音部分进行审核，审核通过之后方能播放出去。

可以事先对配音人员的声纹进行系统注册，根据注册的声纹特征，系统能够识别待播放视频节目是由哪个配音人员进行了配音。由于待播报新闻内容对应的配音部分属于语音信息，因此可以采用“音转文”技术，例如，自动语音识别(Automatic SpeechRecognition，ASR)或其他技术，将待播放视频节目对应的配音部分转换为相应的文本T1。

在本申请一个实施例中，将待播放视频节目对应的配音部分转换为相应文本T1可以通过如下步骤S1011和S1012实现：

S1011，将待播放视频节目对应的配音部分转换为相应文本T1的出错率与Et或者Etmax对比。

此处，Et为配音部分对应配音人员，例如，新闻节目的播音员历史上的配音部分转换为相应文本的出错率的平均值，Etmax为配音人员历史上的配音部分转换为相应文本的出错率的最高值；无论是Et还是Etmax，都可以从该播音员之前的历史上的配音部分转换为相应文本的出错率统计得到。需要说明的是，此处的历史上，可以是指该播音员有记录的整个播音生涯，也可以是整个播音生涯中的某一段时间，本申请对此不做限制。

S1012，若待播放视频节目对应的配音部分转换为相应文本T1的出错率高于Et或者Etmax，则对待播放视频节目对应的配音部分再次进行转换，若再次进行转换所得文本T'1的出错率与首次转换所得文本T1的出错率相同，则以文本T'1或首次转换所得文本T1作为配音部分转换后的文本。

一般而言，一个配音人员的配音水平具有一定的稳定性。因此，若待播放视频节目对应的配音部分转换为相应文本T1的出错率高于Et或者Etmax即该配音人员历史上的配音部分转换为相应文本的出错率的平均值或最高值，则需要考虑是否为待播放视频节目对应的配音部分转换为文本时出现了偶然的技术性失误。因此，为了避免这种偶然的技术性失误给配音人员的配音效果评估带来的不利影响，可以在待播放视频节目对应的配音部分转换为相应文本T1的出错率高于Et或者Etmax时，对待播放视频节目对应的配音部分再次进行转换。若再次进行转换所得文本T'1的出错率与首次转换所得文本T1的出错率相同，则以文本T'1或首次转换所得文本T1作为配音部分转换后的文本。当然，若再次进行转换所得文本T'1的出错率低于Et或者Etmax，则可以将再次进行转换所得文本T'1作为配音部分转换后的文本。

在上述实施例中，将待播放视频节目对应的配音部分转换为相应文本T1之后，还可以识别将待播放视频节目对应的配音部分转换为相应文本T1时的错误之处，并将这些错误之处提示给文本校对人员，一方面可以让文本校对人员对错误之处进行更正，另一方面，可以给文本校对人员提供第一手资料，这个第一手资料可以作为统计数据的一部分提供给配音人员，让其明了自己在哪些地方容易犯错，后期如何避免这些错误，等等。至于识别将待播放视频节目对应的配音部分转换为相应文本T1时的错误之处的识别方法，可以是：计算将文本T1中的任意字符C转换为文本Ts中相应字符Cs时所需最少编辑操作(包括字符替换、字符插入和字符删除等)次数；若该最少编辑操作次数低于设定阈值，则确定该字符C在配音部分转换为相应文本T1时转换正确，否则，转换错误，从而将文本T1中的语义、语法或/和逻辑等方面的错误之处识别出来，其中，文本Ts是配音部分通过其他手段转换所得的标准文本，该标准文本由于具有极高、甚至绝对的正确率而被用作参考文本。

S102、将待播放视频节目对应的配音部分转换所得的文本T1与待播放视频节目的脚本S进行对比，由对比的结果计算第一配音效果得分Score1。

在本申请实施例中，由于文本之间的对比无需考虑情感部分，因此，文本T1与脚本S之间的对比可以是词汇级别的对比，例如，逐字逐词进行对比。作为本申请的一个实施例，将待播放视频节目对应的配音部分转换所得的文本T1与待播放视频节目的脚本S进行对比，由对比的结果计算第一配音效果得分Score1可通过如下步骤S1021至S1024实现：

S1021，根据待播放视频节目对应的配音部分转换所得的文本T1与待播放视频节目的脚本S进行对比的结果，查询第一配音效果得分表得到第一配音效果第一得分Score1'。

在本申请实施例中，第一配音效果得分表给出了文本T1与脚本S之间的差值Ert与第一配音效果得分Sc₁之间的对应关系，例如，若两者的差值Ert在第一阈值范围之内，则给出一个第一配音效果得分，若两者的差值在第二阈值范围之内，则给出另一第一配音效果得分，等等，第一配音效果得分表的一个示例如下表1所示：

表1第一配音效果得分表

差值(Ert)	阈值范围	第一配音效果得分(S c<sub>1</sub>)
			Ert1	[Thr1，Thr2)	Sc<sub>1</sub>1
Ert2	[Thr2，Thr3)	Sc<sub>1</sub>2
			Ert3	[Thr3，Thr4)	Sc<sub>1</sub>3
Ert4	[Thr4，Thr5)	Sc<sub>1</sub>4

例如，若文本T1与脚本S之间的差值落在[Thr2，Thr3)，则第一配音效果第一得分Score1'等于Sc₁2；再如，若文本T1与脚本S之间的差值落在[Thr3，Thr4)，则第一配音效果第一得分Score1'等于Sc₁3，等等。

S1022，将经步骤S1021得到的第一配音效果第一得分Score1'与E₁s或者E₁smax对比，其中，E₁s为配音部分对应配音人员历史上获取的第一配音效果得分的平均值，E₁smax为配音部分对应配音人员历史上获取的第一配音效果得分的最高值。

与前述实施例类似，E₁s或E₁smax定义中的“历史上”，可以是指该配音员有记录的整个配音生涯，也可以是整个配音生涯中的某一段时间，本申请对此不做限制。

S1023，若经步骤S1021得到的第一配音效果第一得分Score1'低于E₁s或者E₁smax，则将待播放视频节目对应的配音部分再次转换所得的文本T”1与待播放视频节目的脚本S进行对比，得到第一配音效果第二得分Score1”。

一般而言，由于配音人员(例如，新闻节目的播音员)的配音水平具有一定的稳定性。因此，在本申请实施例中，若经步骤S1021得到的第一配音效果第一得分Score1'低于E₁s或者E₁smax，则需要考虑是否为待播放视频节目对应的配音部分转换为文本时出现了偶然的技术性失误。在这种情况下，可以将待播放视频节目对应的配音部分再次转换所得的文本T”1与待播放视频节目的脚本S进行对比，采用与步骤S1021相同的方法即通过查询第一配音效果得分表得到第一配音效果第二得分Score1”。

S1024，求取第一配音效果第一得分Score1'与第一配音效果第二得分Score1”的平均值，将第一配音效果第一得分Score1'与第一配音效果第二得分Score1”的平均值确定为第一配音效果得分Score1。

为了更加公正，经步骤S1023得到的第一配音效果第二得分Score1”与E₁s或者E₁smax相比，无论结果是高还是低，可以将第一配音效果第一得分Score1'与第一配音效果第二得分Score1”的平均值确定为第一配音效果得分Score1。

S103、将待播放视频节目的脚本S转换为相应语音V。

在本申请实施例中，将待播放视频节目的脚本S转换为相应语音V具体可以采用“文转音”即TTS技术实现，也可以采用其他技术实现，本申请对此不做限制。作为本申请一个实施例，将待播放视频节目的脚本S转换为相应语音V可通过如下步骤S1031和S1032实现：

S1031，将待播放视频节目的脚本S转换为相应语音V的出错率与预设阈值相比。

具体地，可以将文本S中的每个单字或字串所转换后的语音与标准语音库的语音对比，从而得到脚本S转换为相应的语音V的错误率，例如，文本S中的“改革深水区”，若其中的“改”、“革”、“深”、“水”、“区”在标准语音库中对应的编码分别是Vs1、Vs2、Vs3、Vs4和Vs5，则可以将“改”、“革”、“深”、“水”、“区”转换后的语音对应的编码V1、V2、V3、V4和V5分别与Vs1、Vs2、Vs3、Vs4和Vs5对比，从而得出脚本转换为相应语音的错误率。

S1032，若待播放视频节目的脚本S转换为相应语音V的出错率高于预设阈值，则再次将待播放视频节目的脚本S转换为相应语音V'，若再次进行转换所得语音V'的出错率与首次转换所得语音V的出错率相同，则以语音V'或首次转换所得语音V作为待播放视频节目的脚本S转换后的语音。

需要说明的是，若再次将待播放视频节目的脚本S转换为相应语音V'的出错率比首次转换所得语音V的出错率高或者低，则可以以出错率低的语音作为待播放视频节目的脚本S转换后的语音。例如，若再次将待播放视频节目的脚本S转换为相应语音V'的出错率比首次转换所得语音V的出错率高，则以首次转换所得语音V作为待播放视频节目的脚本S转换后的语音，反之，以再次将待播放视频节目的脚本S转换为相应语音V'作为待播放视频节目的脚本S转换后的语音。

进一步地，可以在将待播放视频节目的脚本S转换为相应语音V之后，识别将待播放视频节目的脚本S转换为相应语音V时的错误之处，并将这些错误之处提示给语音校对人员，一方面可以让语音校对人员对错误之处进行更正，另一方面，可以给语音校对人员提供第一手资料，这个第一手资料可以作为统计数据的一部分提供给配音人员，让其明了自己在哪些地方容易犯错，后期如何避免这些错误，等等。至于识别将脚本S转换为相应语音V时的错误之处的识别方法，可以是：将语音V中任意字音Vw与音库中语音Vst相应字音相比Vst-w，若两者的基频相似度高于设定的相似度阈值，则确定该字音Vw将脚本S转换为相应语音V时转换正确，否则，转换错误，其中，语音Vst为脚本S通过其他手段转换所得的标准语音，该标准语音由于具有极高、甚至绝对的正确率而被用作参考语音。

S104、将待播放视频节目的脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比，由对比的结果计算第二配音效果得分Score2。

需要说明的是，由于配音人员，例如新闻播音员一般具有一定年限的从业经验，在韵律(包括清晰度、自然度和连贯性等)、情感等方面一般不存在问题，因此，在将待播放视频节目的脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比时，只需对比脚本S转换所得的语音V与待播报新闻内容对应的配音部分的相似度，即两者是否相同或在多大程度上相同即可，而不必考虑韵律、情感方面的效果。

作为本申请一个实施例，将待播放视频节目的脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比，由对比的结果计算第二配音效果得分Score2可以通过如下步骤S1041至S1044实现：

S1041，根据将待播放视频节目的脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比的结果，查询第二配音效果得分表得到第二配音效果第一得分Score2'。

与前述实施例的第一配音效果得分表类似，在本申请实施例中，第二配音效果得分表给出了将待播放视频节目的脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比，两者之间的差值Erv与第二配音效果得分Sc₂之间的对应关系，例如，若两者的差值Erv在第一阈值范围之内，则给出一个第二配音效果得分，若两者的差值在第二阈值范围之内，则给出另一第二配音效果得分，等等，第二配音效果得分表的一个示例如下表2所示：

表2第二配音效果得分表

差值(Erv)	阈值范围	第二配音效果得分(Sc<sub>2</sub>)
			Erv1	[Thr1'，Thr2')	Sc<sub>2</sub>1
Erv2	[Thr2'，Thr3')	Sc<sub>2</sub>2
			Erv3	[Thr3'，Thr4')	Sc<sub>2</sub>3
Erv4	[Thr4'，Thr5')	Sc<sub>2</sub>4

例如，若将待播放视频节目的脚本S转换所得的语音V与待播放视频节目对应的配音部分对比，两者之间的差值落在[Thr2'，Thr3')，则第二配音效果第一得分Score2'等于Sc₂2；再如，若将待播放视频节目的脚本S转换所得的语音V与待播放视频节目对应的配音部分对比，两者之间的差值落在[Thr3'，Thr4')，则第二配音效果第一得分Score1'等于Sc₂3，等等。

S1042，将第二配音效果第一得分Score2'与E₂s或者E₂smax对比，其中，E₂s为配音部分对应配音人员历史上获取的第二配音效果得分的平均值，E₂smax为配音部分对应配音人员历史上获取的第二配音效果得分的最高值。

与前述实施例类似，E₂s或E₂smax定义中的“历史上”，可以是指该配音员有记录的整个配音生涯，也可以是整个配音生涯中的某一段时间，本申请对此不做限制。

S1043，若第二配音效果第一得分Score2'低于E₂s或者E₂smax，则将脚本S再次转换所得的语音V'与待播放视频节目对应的配音部分进行对比，计算得到第二配音效果第二得分Score2”。

一般而言，由于配音人员(例如，新闻节目的播音员)的配音水平具有一定的稳定性。因此，在本申请实施例中，若经步骤S1041得到的第二配音效果第一得分Score2'低于E₂s或者E₂smax，则需要考虑是否为将待播放视频节目的脚本S转换为语音V时出现了偶然的技术性失误。在这种情况下，可以将将待播放视频节目的脚本S转换所得的语音V'与待播放视频节目对应的配音部分进行对比，采用与步骤S1041相同的方法即通过查询第二配音效果得分表得到第二配音效果第二得分Score2”。

S1044，求取第二配音效果第一得分Score2'与第二配音效果第二得分Score2”的平均值，将第二配音效果第一得分Score2'与第二配音效果第二得分Score2”的平均值确定为第二配音效果得分Score2。

为了更加公正，经步骤S1043得到的第二配音效果第二得分Score2”与E₂s或者E₂smax相比，无论结果是高还是低，可以将第二配音效果第一得分Score2'与第二配音效果第二得分Score2”的平均值确定为第二配音效果得分Score1。

S105、根据转换的权重、第一配音效果得分Score1和第二配音效果得分Score2，得到最终的配音效果得分。

作为本申请一个实施例，根据转换的权重、第一配音效果得分Score1和第二配音效果得分Score2，得到最终的配音效果得分可以通过如下步骤S1051和S1052实现：

S1051，分别确定与第一配音效果得分Score1和第二配音效果得分Score2对应的第一转换权重W₁和第二转换权重W₂，其中，第一转换权重W₁和第二转换权重W₂取决于将待播放视频节目对应的配音部分转换为相应文本T1时正确率与将待播放视频节目的脚本S转换为相应语音V时正确率的高低，其中，0<W₁<100％，0<W₂<100％，且W₁+W₂＝100％。

在本申请实施例中，转换的权重可以根据步骤S101和步骤S103中的转换结果来确定，或者，根据对配音员的配音效果的客观性来自适应地调整。具体地，若步骤S101即“音转文”的正确率较高，或者，与通过步骤S103和步骤S104得到的第二配音效果得分Score2相比，通过步骤S101和步骤S102得到的第一配音效果得分Score1更客观，则可以将第一配音效果得分Score1的权重W₁设置较高，反之，若步骤S103即“文转音”的正确率较高，或者，与通过步骤S101和步骤S102得到的第一配音效果得分Score1相比，通过步骤S103和步骤S104得到的第二配音效果得分Score2更客观，则可以将第二配音效果得分Score2的权重W₂设置较高。例如，若步骤S101即“音转文”的正确率较高，或者，与通过步骤S103和步骤S104得到的第二配音效果得分Score2相比，通过步骤S101和步骤S102得到的第一配音效果得分Score1更客观，则可以将第一配音效果得分Score1的权重W₁设置为55％，W₂设置为45％，反之，若步骤S103即“文转音”的正确率较高，或者，与通过步骤S101和步骤S102得到的第一配音效果得分Score1相比，通过步骤S103和步骤S104得到的第二配音效果得分Score2更客观，则可以将第二配音效果得分Score2的权重W₂设置55％，W₁设置为45％，等等。

作为本申请的另一实施例，W₁和W₂可以根据步骤S101即“音转文”的正确率与步骤S103即“文转音”的正确率的比值来确定，即，W₁和W₂分别与根据步骤S101即“音转文”所得的正确率和步骤S103即“文转音”所得的正确率正相关。具体地，若根据步骤S101即“音转文”的正确率为P₁，根据步骤S103即“文转音”的正确率为P₂，则W₁＝100％*P₁/(P₁+P₂)，W₂＝100％*P₂/(P₁+P₂)。例如，作为本申请的另一实施例，W₁和W₂可以根据步骤S101即“音转文”的正确率与步骤S103即“文转音”的正确率的比值来确定，即，W₁和W₂分别与根据步骤S101即“音转文”所得的正确率和步骤S103即“文转音”所得的正确率正相关。具体地，若根据步骤S101即“音转文”的正确率为90％，根据步骤S103即“文转音”的正确率为98％，则W₁＝100％*90％/(90％+98％)＝47.9％，W₂＝100％*98％/(90％+98％)＝52.1％。

S1052，计算Score1*W₁+Score2*W₂，将Score1*W₁+Score2*W₂的结果确定为最终的配音效果得分。

进一步地，可以根据上述校对的结果，对配音人员的配音错误之处进行数理统计，将统计的结果展示给相应的配音人员，以期配音人员针对出错率较高之处进行针对性的改善。

由上述附图1示例的视频节目配音效果评估方法可知，一方面，视频节目对应的配音部分与文本之间的转换以及视频节目内容对应的脚本与语音之间的转换为技术手段，可通过计算机程序短时间地完成，其效率远大于与人工审核或校对，无需耗费大量人力物力，降低了审核的成本；另一方面，根据转换的权重，通过对两次不同转换获得的配音效果得分进行加权，并且由于加权系数可以进行自适应调整，因此，最大限度地克服了语音与文本之间的转换所带来的固有缺陷，可更加客观、公正、准确地评价配音人员的配音效果。

图2为本申请实施例提供一种电子装置。该电子装置可用于实现图1所示实施例中的视频节目配音效果评估方法。如图2所示，该装置主要包括第一转换模块201、第一对比模块202、第二转换模块203、第二对比模块204和得分计算模块205，其中：

第一转换模块201，用于将待播放视频节目对应的配音部分转换为相应文本T1；

第一对比模块202，用于将待播放视频节目对应的配音部分转换所得的文本T1与待播放视频节目的脚本S进行对比，由对比的结果计算第一配音效果得分Score1；

第二转换模块203，用于将待播放视频节目的脚本S转换为相应语音V；

第二对比模块204，用于将脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比，由对比的结果计算第二配音效果得分Score2；以及

得分计算模块205，用于根据转换的权重、第一配音效果得分Score1和第二配音效果得分Score2，得到最终的配音效果得分。

需要说明的是，以上图2示例的装置的实施方式中，各功能模块的划分仅是举例说明，实际应用中可以根据需要，例如相应硬件的配置要求或者软件的实现的便利考虑，而将上述功能分配由不同的功能模块完成，即将电子装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。而且，在实际应用中，本实施例中的相应的功能模块可以是由相应的硬件实现，也可以由相应的硬件执行相应的软件完成。本说明书提供的各个实施例都可应用上述描述原则，以下不再赘述。

本实施例提供的电子装置中各功能模块实现各自功能的具体过程，请参见上述方法实施例中描述的具体内容，此处不再赘述。

由上可见，本申请实施例中的视频节目配音效果评估装置，一方面，视频节目对应的配音部分与文本之间的转换以及视频节目内容对应的脚本与语音之间的转换为技术手段，可通过计算机程序短时间地完成，其效率远大于与人工审核或校对，无需耗费大量人力物力，降低了审核的成本；另一方面，根据转换的权重，通过对两次不同转换获得的配音效果得分进行加权，并且由于加权系数可以进行自适应调整，因此，最大限度地克服了语音与文本之间的转换所带来的固有缺陷，可更加客观、公正、准确地评价配音人员的配音效果。

可选地，第一转换模块201具体用于将待播放视频节目对应的配音部分转换为相应文本T1的出错率与Et或者Etmax对比，若所述配音部分转换为相应文本T1的出错率高于Et或者Etmax，则对待播放视频节目对应的配音部分再次进行转换，若再次进行转换所得文本T'1的出错率与首次转换所得文本T1的出错率相同，则以文本T'1或首次转换所得文本T1作为配音部分转换后的文本，其中，Et为配音部分对应配音人员历史上视频节目的配音部分转换为相应文本的出错率的平均值，Etmax为配音人员历史上视频节目的配音部分转换为相应文本的出错率的最高值。

可选地，附图2示例视频节目配音效果评估装置还包括第一识别模块，用于识别将待播放视频节目对应的配音部分转换为相应文本T1时的错误之处，并将这些错误之处提示给文本校对人员。

可选地，第一对比模块202具体用于根据文本T1与待播放视频节目的脚本S进行对比的结果，查询第一配音效果得分表得到第一配音效果第一得分Score1'；将第一配音效果第一得分Score1'与E₁s或者E₁smax对比；若第一配音效果第一得分Score1'低于E₁s或者E₁smax，则将配音部分再次转换所得的文本T”1与待播放视频节目的脚本S进行对比，得到第一配音效果第二得分Score1”；求取第一配音效果第一得分Score1'与第一配音效果第二得分Score1”的平均值，将第一配音效果第一得分Score1'与第一配音效果第二得分Score1”的平均值确定为第一配音效果得分Score1，其中，E₁s为配音部分对应配音人员历史上获取的第一配音效果得分的平均值，E₁smax为配音部分对应配音人员历史上获取的第一配音效果得分的最高值。

可选地，第二转换模块203具体用于将脚本S转换为相应语音V的出错率与预设阈值相比；若脚本S转换为相应语音V的出错率高于所述预设阈值，则再次将脚本S转换为相应语音V'，若再次进行转换所得语音V'的出错率与首次转换所得语音V的出错率相同，则以语音V'或首次转换所得语音V作为脚本S转换后的语音。

可选地，附图2示例视频节目配音效果评估装置还包括第二识别模块，用于识别将脚本S转换为相应语音V时的错误之处，并将这些错误之处提示给语音校对人员。

可选地，第二对比模块204具体用于根据脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比的结果，查询第二配音效果得分表得到第二配音效果第一得分Score2'；将第二配音效果第一得分Score2'与E₂s或者E₂smax对比；若第二配音效果第二得分Score2'低于E₂s或者E₂smax，则将脚本S再次转换所得的语音V'与待播放视频节目对应的配音部分进行对比，计算得到第二配音效果第二得分Score2”；求取第二配音效果第一得分Score2'与第二配音效果第二得分Score2”的平均值，将第二配音效果第一得分Score2'与第二配音效果第二得分Score2”的平均值确定为第二配音效果得分Score2，其中，E₂s为配音部分对应配音人员历史上获取的第二配音效果得分的平均值，E₂smax为配音部分对应配音人员历史上获取的第二配音效果得分的最高值。

可选地，得分计算模块205具体用于分别确定与所述第一配音效果得分Score1和第二配音效果得分Score2对应的第一转换权重W₁和第二转换权重W₂，计算Score1*W₁+Score2*W₂，将所述Score1*W₁+Score2*W₂的结果确定为所述最终的配音效果得分，其中，第一转换权重W₁和第二转换权重W₂取决于将所述待播放视频节目对应的配音部分转换为相应文本T1时正确率与将所述待播放视频节目的脚本S转换为相应语音V时正确率的高低，所述0<W₁<100％，0<W₂<100％，且W₁+W₂＝100％。

图3为本申请实施例提供一种电子装置。该电子装置可用于实现图1所示实施例中的视频节目配音效果评估方法。如图3所示，该电子装置主要包括：

存储器301、处理器302及存储在存储器301上并可在处理器302上运行的计算机程序，处理器302执行该计算机程序时，实现图1或前述实施例中的视频节目配音效果评估方法的步骤。

进一步地，该电子装置还包括：

至少一个输入设备303以及至少一个输出设备304。

上述存储器301、处理器302、输入设备303以及输出设备304，通过总线305连接。

其中，输入设备303具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备304具体可为显示屏。

存储器301可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器301用于存储一组可执行程序代码，处理器302与存储器301耦合。

由上可见，本申请实施例中的装置，一方面，视频节目对应的配音部分与文本之间的转换以及视频节目内容对应的脚本与语音之间的转换为技术手段，可通过计算机程序短时间地完成，其效率远大于与人工审核或校对，无需耗费大量人力物力，降低了审核的成本；另一方面，根据转换的权重，通过对两次不同转换获得的配音效果得分进行加权，并且由于加权系数可以进行自适应调整，因此，最大限度地克服了语音与文本之间的转换所带来的固有缺陷，可更加客观、公正、准确地评价配音人员的配音效果。

进一步地，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的电子装置中，该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现图1或前述实施例中的视频节目配音效果评估方法。进一步地，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本申请所提供的视频节目配音效果评估方法、电子装置及计算机可读存储介质的描述，对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频节目配音效果评估方法，其特征在于，所述方法包括：

将待播放视频节目对应的配音部分转换为相应文本T1；

将待播放视频节目的脚本S转换为相应语音V；

2.根据权利要求1所述的视频节目配音效果评估方法，其特征在于，所述将待播放视频节目对应的配音部分转换为相应文本T1包括：

3.根据权利要求1或2所述的视频节目配音效果评估方法，其特征在于，所述将待播放视频节目对应的配音部分转换为相应文本T1之后，还包括：

4.根据权利要求1所述的视频节目配音效果评估方法，其特征在于，所述将所述配音部分转换所得的文本T1与待播放视频节目的脚本S进行对比，由对比的结果计算第一配音效果得分Score1包括：

5.根据权利要求1所述的视频节目配音效果评估方法，其特征在于，所述将待播放视频节目的脚本S转换为相应语音V包括：

将脚本S转换为相应语音V的出错率与预设阈值相比；

6.根据权利要求1或5所述的视频节目配音效果评估方法，其特征在于，所述将待播放视频节目的脚本S转换为相应语音V之后，还包括：

7.根据权利要求1所述的视频节目配音效果评估方法，其特征在于，所述将脚本S转换所得的语音V与待播放视频节目对应的配音部分进行对比，由对比的结果计算第二配音效果得分Score2包括：

8.根据权利要求1所述的视频节目配音效果评估方法，其特征在于，所述根据转换的权重、所述第一配音效果得分Score1和所述第二配音效果得分Score2，得到最终的配音效果得分包括：

分别确定与所述第一配音效果得分Score1和第二配音效果得分Score2对应的第一转换权重W₁和第二转换权重W₂，所述第一转换权重W₁和第二转换权重W₂取决于将所述待播放视频节目对应的配音部分转换为相应文本T1时正确率与将所述待播放视频节目的脚本S转换为相应语音V时正确率的高低，所述0<W₁<100％，0<W₂<100％，且W₁+W₂＝100％；

9.一种电子装置，其特征在于，该电子装置包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括视频节目配音效果评估程序，所述视频节目配音效果评估程序被处理器执行时，实现如权利要求1至8中任一项所述的视频节目配音效果评估方法的步骤。