CN113453072A

CN113453072A - 按级别拼合和播放多语言影音文件的方法、系统和介质

Info

Publication number: CN113453072A
Application number: CN202110724689.2A
Authority: CN
Inventors: 王瑶
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-28

Abstract

本申请涉及一种用于按级别拼合多种语言的影音文件的方案，包括：接收输入的影音文件，所述影音文件包括非母语音频素材；对所述包括非母语音频素材的影音文件进行切片以生成多个影音切片；对于每个影音切片：对该影音切片文件进行分级；执行包括非母语音频素材的该影音切片与包括相应母语音频素材的影音文件的配对剪辑；以所述影音切片的级别为分级依据，为各个级别生成并存储与该级别相对应的多语言拼合的影音文件。

Description

按级别拼合和播放多语言影音文件的方法、系统和介质

技术领域

本申请涉及影音播放领域，特别是涉及一种按级别拼合和播放多种语言的影音文件的方法和系统。

背景技术

随着全球化进程的进一步加快，人们对非母语语言的学习热情日益高涨。很多国家都将至少一门非母语语言(例如英语)作为一门学生的必修课程，并对其学习成果进行相应的考试。

例如在中国，外语(一般为英语，但有些学校也可能采用日语、法语、德语等为办学特色)作为素质教育的重要组成部分而变得越来越普及。无论是家长还是学生都花费了大量的金钱和精力投入到外语学习中。

但是，传统的各种外语教学手段并不能向用户提供良好的学习体验，这主要是由下述几点原因造成的：

A.绝大多数人其实毕业后并没有应用英语的场景，外语能力会随时间的推移而退化。

B.而在低幼年龄段学外语的场景，更是需要营造语言环境而不是教授语言规则。

C.即使是外语专业的大学毕业生，因为语言差异、文化差异，也不能完全看懂外语的纯外语影音。而非外语专业更不能完全看懂。

因此，在实际场景中，当用户选择观看双语影音视频时，通常会放弃用耳朵去聆听学习影片的外语发音(即使影片采用了外语音轨播放)，而是将注意力主要集中在显示在影片(一般是在底部)上的母语字幕来欣赏外语影视作品。由于在观看时，视觉注意力需要聚焦于字幕本身，这就导致分散了对故事情节、画面的注意力，影响了对影视作品的观影体验。

或者，用户由于听力水平有限，为了能够顺畅观看外语影视作品，可能更加倾向于直接选择有母语配音的音轨来播放。这就导致所述外语影视作品对用户的外语水平的提高毫无用处。

另一方面，低幼年龄段的儿童在观看适龄的影音的时候，很多家长也在尝试通过播放原版外文影音(例如外文动画片)来营造外语语言环境(俗称磨耳朵)，但纯原版影音对于低幼龄孩子来说根本看不懂。因此，低幼龄孩子会消耗大量的时间被动接受他们无法认知的语言元素，这对其本身的语言能力来说完全没有帮助，并且还会影响孩子观影的积极性，久而久之会变得逆反，对外语学习产生负面抵触情绪。

因此，存在一种需求，希望在播放外语影音作品时能够提供一种既能让用户听懂能够听懂的外语部分以锻炼听力，同时又能针对用户听不懂的外语部分以母语进行替换以提供更加流畅的观看体验的方案。

发明内容

本申请通过先对非母语语言素材进行分级，并根据所述分级将母语素材和非母语素材精细地拼合在一起，以便为用户提供一种适合自己的多语言(例如双语)影音视频播放解决方案。

根据本申请的第一方面，提供了一种用于按级别拼合多种语言的影音文件的方法，包括：接收输入的影音文件，所述影音文件包括非母语音频素材；对所述包括非母语音频素材的影音文件进行切片以生成多个包括非母语音频素材的影音切片；对于每个影音切片：对该影音切片文件进行分级；执行包括非母语音频素材的该影音切片与包括相应母语音频素材的影音文件的配对剪辑；以所述影音切片的级别为分级依据，为各个级别生成并存储与该级别相对应的多语言拼合的影音文件。

根据本申请的第二方面，提供了一种用于按级别播放多语言拼合的影音文件的方法，其中所述多语言拼合的影音文件是通过如第一方面所述的方法生成的，包括：在前端各播放终端的播放界面上以影音列表界面形式呈现可供选择的影音文件；用户根据播放界面上的提示，选择所需的影音文件和所选影音文件的级别；根据用户的选择，前端播放终端从存储器中调用与用户所选的级别和影音文件相对应的多语言拼合的影音文件并进行播放。

根据本申请的第三方面，提供了一种用于按级别拼合多种语言的影音文件的系统，包括：接收模块，被配置用于接收输入的影音文件，所述影音文件包括非母语音频素材；切片模块，被配置用于对所述包括非母语音频素材的影音文件进行切片以生成多个包括非母语音频素材的影音切片；分级模块，被配置用于为每个影音切片进行分级；配对模块，被配置用于执行所述包括非母语音频素材的所述影音切片与包括相应母语音频素材的影音文件的配对剪辑；生成和存储模块，被配置用于以所述影音切片的级别为分级依据，为各个级别生成并存储与该级别相对应的多语言拼合的影音文件。

根据本申请的第四方面，提供了一种计算机存储介质，在所述计算机存储介质上存储有可执行指令，当所述可执行指令被执行时，使得计算机能够执行如第一或第二方面所述的方法。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

附图说明

为了描述可获得本发明的上述和其它优点和特征的方式，将通过参考附图中示出的本发明的具体实施例来呈现以上简要描述的本发明的更具体描述。可以理解，这些附图只描绘了本发明的各典型实施例，并且因此不被认为是对其范围的限制，将通过使用附图并利用附加特征和细节来描述和解释本发明，在附图中：

图1示出了根据本申请的一个实施例的一种用于按级别拼合多种语言的影音文件的方法的示例流程图。

图2示出了根据本申请的另一个实施例的另一种用于按级别拼合多种语言的影音文件的方法的示例流程图。

图3示出了根据本申请的一个实施例的用于播放按级别拼合的多种语言的影音文件的方法的示例流程图。

图4a示出了根据本申请的一个实施例的基于随机森林回归模型的分级模型的示例框图。

图4b示出了根据本申请的一个实施例的随机森林回归模型中的树A的示例树型结构。

图5a示出了根据本申请的一个实施例的基于RNN的语音识别的分级模型的示例框图。

图5b示出了根据本申请的一个实施例的基于RNN的语音识别的模拟记忆模型的示例框图。

图6a示出了根据本申请的一个实施例的执行用于播放按级别拼合的多种语言的影音文件的方法后的示例影音播放界面。

图6b以字幕形式示出了播放包括非母语音频素材的示例影音文件时的情形。

图6c以字幕形式示出了在播放经双语拼合后的图6b的示例影音文件的同一时刻时的情形。

图7示出了根据本申请的一个实施例的一种用于按级别拼合多种语言的影音文件的系统的示例系统框图。

具体实施方式

为了清楚说明，下面首先以拼合双语(一种非母语+一种母语)影音视频为实例来进行说明。

为了解决现有双语影音学习方案中的各种问题，本申请通过先对非母语语言素材进行分级，并根据所述分级将母语素材和非母语素材精细地拼合在一起，以便为用户提供一种适合自己的双语影音视频播放方案。通过在播放所述双语影音作品时，以适当级别的双语交替形式呈现非母语素材和母语素材，并随着用户能力的提升可选择更高级别的双语拼合视频，用户可以获得下述益处：

对于成年用户：

更好地欣赏外语影视作品；

长期维持适配的英语能力的环境和提高。

对于低幼龄用户：

更有针对性的外语素材输入，避免看不懂情况发生，提高了学习兴趣；

持续适合的渐进式双母语环境。

首先，在图1中示出了根据本申请的一个实施例的一种用于按级别拼合多种语言的影音文件的方法的示例流程图。在该实施例中，系统可以直接接收包括母语音频素材和非母语音频素材的影音文件，并根据分级自动对它们进行拼合。

如图所示，在步骤102，系统接收输入的影音文件，所述影音文件至少包括有非母语音频素材，或者还可进一步包括针对同一内容的母语音频素材。所述影音文件在被加工后将用作用户学习外语的教材。所述影音文件可以是下述几种形式：

1)无声视频，一般用作教学背景；

2)包括语言音频素材的有声视频；

3)无视频图像只有音频素材的音频文件。

根据不同的应用场景，所接收的影音文件可以包括上述几种形式的一个或多个文件。下面将结合具体示例进行详细说明。

示例1：接收的影音文件是针对相同内容的两种语言版本的有声视频文件，例如包括母语音频的有声视频和包括同一内容的非母语音频的有声视频。在这种场景中，所述系统将直接将这两个有声视频根据后续分级拼合成一个有双语混合的有声视频。在一些实施例中，一个有声视频可以同时具有两条不同语言的音轨音频(例如一条是母语音频音轨，另一条是非母语音频音轨)，这时，只需要将该有声视频的这两条音轨根据分级拼合成一个双语音轨就能构建一个包括有双语混合的有声视频。

示例2：接收的影音文件是无声视频和针对相同内容的包括不同语言素材的两个音频文件，例如无声视频、包括母语音频素材的音频文件和包括非母语音频素材的音频文件。针对这种场景，可以通过将无声视频作为播放时的背景，并将这两个音频文件根据分级拼合成一个双语音频来拼合一个双语混合的有声视频。

示例3：接收的影音文件是包括一种语言素材(例如非母语音频)的有声视频和另一种语言素材(例如母语音频)的音频文件。则系统可以根据分级用音频文件中的母语音频片段来替换有声视频中的相应非母语音频片段以拼合一个双语混合的有声视频。

其中所述包括母语音频素材的影音文件可以是来自系统输入，或者可以是根据已输入的包括非母语音频的影音文件从外部资源，例如互联网中检索输入的。或可用技术手段补充，如基于文本，用语音识别技术生成对应的语音。

无论是上述哪种示例场景，当接收了所需的影音文件之后，可以出于适合学习场景的目的对包括非母语音频素材的所述影音文件进行剪辑和调整，即步骤104，所述剪辑和调整包括但不限于：

剪辑或标定出片头片尾使其具有在实际播放中跳过片头片尾的可选择功能；

降噪，即针对学习的场景弱化音频中无意义的背景音；

逐句筛选排查，标注出无学习意义的语句，所述无学习意义的语句可以根据其性质执行下述处理：

1.不处理。也即将其视为普通语句以应用后续的分级规则。

2.如果其在非母语情况下不容易被理解，比如发音不清楚，则可以将转换并固定为相应的母语。

3.虽然其不具有学习意义但还有一定的熏陶意义，比如短的歌曲，片头曲等，可以在后续拼合中将其固定为非母语。

所述无学习意义的语句排查可以通过人工分析，例如从发音的清晰度(不清晰的语句用母语播放，或者听不懂的语句就固定为母语)、句子难度(太长、太难的句子就固定为母语)或者特殊语句(例如配乐，这种用母语翻译过来用配音唱起来会觉得很怪，就可以将其固定为非母语)的角度来分析。

上述操作仅仅是举例说明，实际上其他各种调整操作也可以被应用于本公开的方案。

应该理解，所述对影音文件进行剪辑和调整的数据预处理(或者也能称为数据清洗操作)并非是必须的，即使没有所述预处理步骤，只要影音文件的质量高还是能保证后续操作的高质量完成。如果所述影音文件中的音频素材质量较差时，则执行所述数据预处理操作可以提高后续步骤的执行效率和准确率。

在完成上述对影音文件的预处理之后，方法进入到步骤106。

在步骤106，系统对所述包括非母语音频素材的影音文件进行切片(分割)处理。例如，可以将整个影音文件以句为单元进行切片分割，所述切片处理可以包括下述步骤：

1.通过语音识别技术，标注出影音中各句的起止时间戳。

2.解析非母语音频的语言结构并对句子进行合并或再切分处理，以确定可独立成句表达的单个影音切片。

3.去除语言差异造成的语句破损影响，如英语中倒装句，定语从句等。

4.分解出相邻句间的时间间隙。

5.对一定时长内的间隙，居中切割，即对超出一定时长的间隙，对其两端做时间戳标注和切割，并将其标识为无效句，所述无效句在后续拼合中不应用双语拼合处理。这种处理可以避免影音切片中出现过长的无效等待时间。

6.对影音切片编码并储存在存储单元中。

应该理解，在现有领域中的很多音视频剪辑工具、软件或技术都提供了将一段长语音切分成若干个短语音切片以实现语音识别的功能，例如快剪辑，Adobe Premiere Pro，iMovie，会声会影等。例如，Adobe Premiere Pro是由Adobe公司开发的一款非线性编辑的视频编辑软件，为用户提供用于视频的采集、剪辑、调色、美色或者添加各种滤镜、特效、字幕等一系列功能。历经十几年的不断发展，现已成为普及程度最高的视频编辑软件之一，它就提供了所述切片功能。这些切分技术同样适用于步骤106中所述的影音文件的切片。因此，技术人员可以结合自己的需求选择合适的音视频剪辑工具、软件或技术来执行上述步骤。

还应该理解，除了如上所述按句进行切片之外，技术人员也可以根据所针对的非母语的实际语义和发音规则，选择例如单词或短语作为最小切片单位。这也属于本申请的保护范畴。

在一些实施例中，当在单词和短语的应用场景时，系统根据算法(结合单词难度+必须性+不影响播放顺序+句子的流畅性)，对整部影音文件中各个单词短语赋予相应的级别值。如影音文件是以该级别播放，影音文件中单词和短语的级别小于或等于本级别的适合呈现的单词或短语用非母语呈现，如:影音文件以2级播放：I want an apple，则由于只有单词“want”的级别是大于2级的，因此，理论上该影音文件会被替换成“I想要an Apple”。但是这种播放并不符合句子的学习的流畅性要求，如果变成这样会过于破坏语言表达的流畅性和逻辑性。因此，通过优化，可将其播放为：“我想要一个Apple”。这就是一个单词和短语切片的应用场景的简单示例。

为了方便说明，在下述实施例中以英语作为非母语，而以中文作为母语，根据所述语言的语义和发音规则，选择按句对所述影音文件进行切片处理。前述的切片过程属于物理层面的切割，将整个影音文件切分成了多个影音切片，但实际上还可以采用虚拟切割的方式来实现切片，这在之后的内容中有详述。

在利用音视频剪辑工具、软件或技术完成对影音文件的切片处理之后，方法行进至步骤108。

在步骤108，系统根据由每个已经切割完成的包括非母语音频素材的影音切片在语言学上的各参数所构建的分级模型对各影音切片文件进行级别赋值以实现对所述影音切片的分级。

所述分级步骤可以包括如下各步骤：

1.搭建分级模型，，通过对一个影音切片从语言学，语音学等多方面形成全面综合的评估维度，来精细地对影音切片进行分级。该分级模型会根据随项目的推进新增/减少的用于分级的参数来进行自适应更新，因此，在该模型搭建时即已经考虑了参数的扩展性。后续可在后台扩展和/或修改模型的参数和分配权重。构建分级模型时所涉及的参数和算法在后续的示例实例说明中有详细描述。

2.设定信息采集规则，所述规则设定了要从分级模型中调取的已有或新建相应参数的统计器，如切片时长统计器、切片因素统计器、切片音节统计器、切片音子统计器、切片内句子单词统计器、切片内句子字符统计器以及其他统计器等等。这些统计器分别记录了相关参数在待分级的句子中的数据。有关这些统计器的具体内容可以参考后续举例的具体实例中的描述。除了上述各参数统计器之外，部分参数则需要依据经验取值，如口腔肌肉发声习惯度，如英语中的咬舌音，德语中的小舌音等。技术人员可以根据具体语言的发音经验以及在运营的过程中的实际反馈，来为这些特殊参数进行人工取值和调整。

3.系统根据待分级的影音切片中的影音特征和文本特征对信息采集规则中所涉及的各参数进行赋值和加权以构建影音切片-级别系数参照表。

4.分级模型根据所述影音切片-级别系数参照表计算出该影音切片的最终值，并基于所述最终值与分级阈值的比较确定该影音切片的级别。

在将所有的影音切片进行分级之后，方法行进至步骤110。

在步骤110处，针对每个包括非母语音频素材的影音切片，执行其与包括母语音频素材的影音文件的配对剪辑。由于在步骤102接收影音文件时，已经接收了包括有对应的母语语言素材的影音文件，因此，对于每个包括非母语音频素材的影音切片，可以执行下述操作：

1.调取包括非母语音频素材的影音切片(或其起止时间戳)；

2.将该非母语影音切片和包括母语音频素材的影音文件进行配对剪辑，所述配对包括通过对与包括非母语音频素材的影音切片和包括母语音频素材的影音文件相关联的图像、时间戳或声音进行比对，从包括母语音频素材的影音文件中重截取出包括与影音切片中的非母语音频素材相对应的母语音频素材的影音切片，并将它们相关联地保存在存储器中。

在完成了每个包括非母语音频素材的影音切片与包括母语音频素材的影音切片的配对剪辑后，进入步骤112。

在步骤112，系统以包括各个非母语音频的影音切片的级别为分级依据，为各个级别生成与该级别相对应的双语拼合的影音文件并保存。所述步骤可以包括下述具体步骤：

1.按例如从低到高的顺序排列出与该影视作品的影音切片相关联的级别排列表。

2.针对级别排列表中的各级别，生成一个本级别的双语拼合影音文件，其时长与最初输入的包括非母语音频的影音文件相同，但呈现规则为：该双语拼合影音文件中等于或小于该级别的影音切片用包括非母语音频素材的影音切片呈现，大于该级别的影音切片用包括母语音频素材的影音切片呈现。

在生成了与级别对应的双语拼合的影音文件后，将各级别的生成后的双语拼合的影音文件存储在单独的存储单元以备用户选择或后台推送。至此，所述用于按级别拼合多种语言的影音文件的方法的流程结束。

在前面的示例中介绍的是在输入的影音文件同时包括针对同一内容的母语音频素材和非母语音频素材的一个或多个影音文件，并根据分级自动对它们进行拼合。但在一些场景中，系统也有可能仅仅接收到包括非母语音频素材的一个影音文件，而无法直接获得包括对应的母语音频素材的影音文件。在这种情况下，系统可以先尝试利用互联网是否能够搜索到相应的包括母语音频素材的影音文件。如果通过网络能够找到该包括母语音频素材的影音文件，则系统可以继续执行如图1所示的拼合方法。但是，在不少情况下，系统也有可能无法从其他渠道找到这样的影音文件。在此情况下，就需要利用人工后期配音来提供所述包括同一内容的母语音频素材的影音文件。下面在图2中就描述在这种情况下的拼合方法的示例流程。

如图2所示，示出了根据本申请的另一个实施例的另一种用于按级别拼合多种语言的影音文件的方法的示例流程图。

首先，与步骤102不同的是，在步骤202，系统仅接收到包括非母语音频素材的影音文件。如前所述，所述影音文件可以是包括非母语音频的有声视频、无视频图像只有非母语音频的音频文件、或者还可以是无声视频与非母语音频文件的组合等等。在这些影音文件中并不包括母语音频素材。

随后，在步骤204，对包括非母语音频素材的影音文件进行剪辑和调整。所述剪辑和调整的步骤与步骤104相类似，在此不再累述。

在步骤206，系统对所述包括非母语音频素材的影音文件例如按句进行切片(分割)处理以生成多个包括非母语音频素材的影音切片。所述切片处理与步骤106中的过程相类似，在此不再累述。

在步骤208，系统根据由每个已经切割完成的影音切片在语言学上的各参数所构建的分级模型对各影音切片文件进行级别赋值以实现对所述影音切片的分级。具体的分级过程与步骤108中的过程相类似，在此不再累述。

接着，在步骤210处，由于在该实施例的场景中，系统在步骤202仅仅接收到了包括非母语音频素材的影音文件，缺少与之对应的母语音频素材。因此，在该步骤中，需要通过后期配音来创建一个与包括非母语音频素材的影音文件相对应的母语音频素材，再根据其与非母语音频素材的影音文件进行配对剪辑。所述后期配音和配对可以包括下述三种形式：

方式一：

为整部影视作品整体做母语配音以生成包括母语音频素材的影音文件(例如母语音频文件)，为了后期能够精确匹配，在配音时，希望配音人员说出的母语能够尽可能与非母语保持时间上的一致，例如至少保证每句母语与对应的非母语句子的起止时间对应一致；

按包括非母语音频的影音文件在步骤206中的切割规则对所创建的包括母语音频素材的影音文件进行相应地切片，由于在配音时已经注意保持句子的起止时间的一致性，因此，可以基于经切割的非母语音频的各切割点的时间轴来对应地切割母语音频文件；

在切割完成后，通过编码将包括非母语音频素材的影音切片与对应的包括母语音频素材的影音切片相关联地存储在存储单元中。

这种配音方式的好处在于配音人员可以一气呵成为整部作品配音，这种配音方式可以保持语音语调和情绪的连贯性，配音的效果较好。

方式二：

梳理整部影视作品的角色；

对角色的对话剧本按角色配音，为了便于与先前的包括非母语音频素材的影音切片一一配对，配音的时长控制以切割后对应的有效非母语的影音切片时长为准；

通过编码将包括非母语音频素材的影音切片与对应的包括母语音频素材的影音切片相关联地存储在存储单元中。

这种方式的配音可以保留更多的剧中人物的音调特色，使得配音更加生动。

方式三：

针对每一包括非母语音频素材的影音切片，让配音人员针对该切片中出现的非母语进行母语配音，也即在按句切片的模式下，逐句为影音切片配音以生成包括对应的母语音频素材的影音切片。在完成对所有的包括非母语音频素材的影音切片的配音之后，通过编码将包括非母语音频素材的影音切片与对应的包括母语音频素材的影音切片相关联地存储在存储单元中。

在这种方式中，由于是以已切割的影音切片为单位进行配音，因此，可以获得非常精确的非母语和母语的对应匹配，但可能由于句子中间的间歇导致语音语调和情绪的连贯性较差。

方式四：

通过非母语影音文件中的非母语台词文本和时间戳，翻译出对应的母语台词文本并配上原非母语的时间戳，通过语音识别技术生成对应的母语影音来实现配音。

应该理解，上述这些后期配音方式仅仅是常用的配音方式的举例说明，并非是要将其局限于这样的方式之中。本领域中的其他配音方式只要能实现非母语和母语的对应匹配，也能应用于本申请的方案中。例如除了人工配音，还可以用语音识别技术，通过输入母语文本(例如母语字幕)得到相应的母语配音等等。

在完成所有母语音频素材的创建和与非母语音频素材的配对之后，在步骤212，系统以包括各个非母语音频的影音切片的级别为分级依据，为各个级别生成并存储与该级别相对应的双语拼合的影音文件。所述步骤与在步骤112中所描述的过程类似，在此不再累述。

在另一些实施例中，对所述输入的包括非母语音频素材的影音文件的切割也可以不用实际物理切割，而是按语言学模块(比如“句”)以切换点标注形式进行虚拟切割来得到虚拟影音切片。之后，可以再在此基础上进行虚拟拼合并实现双语拼合的影音文件的构建。这是因为所输入的包括非母语音频素材的影音文件通常会附带附着时间轴的对话台词文本，如没有台词文本，也可以非常方便的用语音识别技术或人工打轴对每个语言学模块比如句子生成带起始位置和结束位置时间戳的台词文本，如SRT格式的字幕文件。

因此，基于这一特点，所述虚拟切割和虚拟拼合的具体步骤可以包括：

1)对台词文本中的每个语言学模块(比如按“句”)进行“虚拟切片”，即生成与之对应的包含切割指令参数的数据包，包括但不限于：虚拟切片编号，虚拟切片的首尾切换点时间戳，虚拟切片对应的文本，虚拟切片对应的非母语音频。需要澄清说明的是，首尾切换点时间戳多数情况下都不等于语言学模块的首尾时间戳，因为影音文件对话中会有间隙，因此，虚拟切换点通常是在间隙的中间位置，而不是在间隙的两端，从而确保拼合后双语切换的平滑。这样，就能实现对影音文件的虚拟切片。

2)根据基于该虚拟切片在语言学上的各参数所构建的分级模型，对该虚拟切片进行级别标识；这个步骤和前述物理层面上的影音文件切片一样，前述对物理层面的影音切片的分级方法同样适用于虚拟切片。

3)执行所述包括非母语音频素材的该虚拟切片与包括相对应母语音频素材的影音文件的配对剪辑；这个步骤和前述物理层面的影音切片的配对过程类似，前述对物理层面的影音切片的配对过程同样适用于所述虚拟切片。两者的不同点仅在于，所述配对也可以利用首尾切换点时间戳来标识出包括母语音频素材的影音文件中的与非母语音频素材的该虚拟切片相对应的部分。

4)针对各个级别生成相应的双语拼合影音文件。在前述的物理层面切片的拼合是指：将两种不同语言的已经切分后的各个影音切片，根据分级规则和配对关系将它们重新拼合在一起，构成一个独立的双语拼合的影音文件。而用虚拟切片的虚拟拼合可以以一种语言的影音文件(例如包括非母语音频素材的影音文件)作为完整的基础影音文件，在其基础上根据虚拟切片中的切割指令参数，在指定的切换点用另一种语言的虚拟影音切片对应地替换该基础影音文件中的对应部分，从而生成新的双语拼合影音文件。

为了使得技术人员能够更好地理解本公开的方案，下面结合一个具体实例来说明本方案的具体工作流程。在该实例中以英语为非母语，而以中文为母语。需要注意的是，虽然本公开主要是针对包含音频文件的影音视频进行切割和配对，但为了能够更加清楚形象地描述所述切割和配对过程，在下述示例中，都是以文本形式的切割和配对来取代无法直观呈现的音频切割和配对过程。因此，在下述实例中提供的英文文本实际上应该被理解为是音频的形象化表示，而非诸如字幕之类的文本。

如前所述，首先，接收包括母语音频素材和非母语音频素材的影音文件。在本示例中，非母语音频素材可以为“Hi，how are you？I am fine,thanks！And you？No,I feelvery bad.I got a bad cold.I was out the whole night”(应理解为相应的音频形式，而非文本)。而母语音频素材可以为“嗨，你好吗？我很好，谢谢！你呢？不好，我感觉很不好。我得了重感冒。我昨天晚上整晚都在外面”(应理解为相应的音频形式，而非文本)。如前所述，此母语音频素材可以是影音文件中的自带音轨，也可以是通过例如后期配音生成的音频。

随后，对上述影音文件进行剪辑和调整。例如，去除音频中的背景噪声、无意义的语句(例如喘息声)等。所述影音文件的剪辑和调整是语音识别技术中常用的数据清洗过程。因此，不再具体介绍其过程。

接着，对所述包括非母语音频素材的影音文件进行切片(分割)处理，如前所述，所述切片可以将整个影音文件以句为单元进行切割，也可以按非母语的特点以例如词、短语为单位进行分割。在此的英语示例中，一般还是按句进行分割。所述具体的切片过程在步骤106中已经有明确的记载，而且所述切片也是语音识别技术中必经的一个步骤。因此，在此不再详细描述具体的切片过程。基于常用的音视频剪辑工具、软件或技术，上述举例的英文音频文件一般可以被切片成下述几个影音切片：

Hi

how are you

I am fine

thanks

And you

No

I feel very bad

I got a bad cold

I was out the whole night

随后，对经切片的各影音切片进行分级，以区分出每个影音切片中包括的非母语的级别。所述切片过程是利用一个分级模型来实现的，该分级模型会根据随项目的推进新增/减少的用于分级的参数来进行自适应更新。

为此，可以提供包括若干个与影音切片相关联的级别系数(参数)和分级算法的分级模型来方便计算所述影音切片的级别。这些级别系数(参数)设定了信息采集的规则。举例而言，在表1中示出可用于分级的级别系数的一些示例：

表1

表1中的上面这些参数是可以用于影音文件切片的级别参数的一些示例。应该理解，这些参数仅仅是出于说明的目的被示出，而不是要将级别参数仅仅局限于这些参数的范围中。技术人员可以根据应用场景和非母语的特点选择更多或更少的参数来用作级别分级。

其中，口型习惯度和口腔肌肉发音习惯度是用来反应不用语言体系中某些特定发音的对非母语学习者的适应度。比如英语中的咬舌音/θ/，发音时需要舌头卷曲抵住上牙齿发出，这个对很多不用语系非母语学习者而言是非习惯发音的口型，需要用新的口型训练口腔肌肉形成新的发音习惯。相对惯常辅音如/p/而言，难度增加，形成习惯的时间更长。

在上述这些参数中，“音节”、“音素”和“音子”三者的数量在级别参数中占有很重要的地位。

在母语习得场景中，语言的习得顺序是“听说读写”，听说是远远早于读写。在没有文字的干扰下，语言素材的难易程度(级别)，是很大程度基于发出的声音的数量来界定的。目前的主流的界定发音的单位是音节和音素。

“音节”是语音的基本单位，更是表达意义的语音单位，是作为语言最小音义结合体的语素的载体单位。

“音素”是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

它们是现有界定发音的基本单位，但两者都不能反映实际发音的多少。

如：

Please：为5个音素，1个音节，但需要发[p]-[li:]-[z],3个音；

Thanks：为6个音素，1个音节，但需要发

-[k]-[s],3个音；

How are you:为6个因素，3个音节，也只需要发

-[ɑ:]-[ju]，3个音。

目前并没有精确的方法能够具体统计不同语言学习中实际发声的数量。因此，本公开的方案把实际发声的数量作为一个最重要的划分语言影音切片的级别的依据(在此，将其命名为“音子”)。利用该音子，并结合其他语音学、语言学的分级参数，形成了一个体系化的分级系统，能够最真实还原母语习得场景中的听说的进阶体验。

具体而言，所述“音子”是介于“音素”和“音节”之间的发音单位，其主要根据自然语言发音中的自然停顿来进行划分，它可以在很大程度上代表该词的实际发声的数量。例如“Please”由5个音素组成1个音节，但在自然发音时嘴唇需要发[p]-[li:]-[z],3个音，也即在[p]和[li:]之间有个停顿，并且在[li:]和[z]之间也有个停顿，因此，我们可以将其设定为包括3个音子，也即在朗读“Please”时，实际发声的数量为3。而一个词有几个音子，也即实际发声的数量的多少与该词的发音难度有着直接的关系。通过引入“音子”的概念，使得对语句的分级有了更加直观准确的工具。在表2中示出了一些语言中的示例语句的音素、音节和音子之间关系。

表2

显然音子的数量实际上更加能够反映出每个语句的实际发音数量。所以，在计算语句的分级级别时，本公开将“音子”的权重设置得较高以充分体现出语句实际发声的数量在分级级别时的重要性。

在确定了用于分级的级别系数之后，本公开的方案针对每个级别系数设定其在分级时所占的权重，并且针对每个被切割的影音切片，可根据待分级的影音切片中的影音特征和文本特征对信息采集规则来设定其所有的级别系数的数值。

例如影音切片时间长度参数Va的权重1可以被设置为100％，而切片“Hi”的参数Va的值可以被设定为1(时长最短)，而音子参数Pa的权重2可以被设置为90％，切片“Hi”的参数Pa的值可以被设定为1(一个音子)，……。所述级别系数所占的权重可以根据其对句子级别的分级的影响来设置，影响越大，其百分比也就越高。所述权重的设置还可以根据实际应用中的经验来不断调整以更符合真实级别。

而影音切片的各个级别系数的数值的设定可以根据切片自身的属性通过调用模型提供的相应统计器来确定，例如切片时长统计器、切片因素统计器、切片音节统计器、切片音子统计器、切片内句子单词统计器、切片内句子字符统计器等等。

其中，切片音子统计器也是一个数据模型，通过输入不同切片样本，通过对比模型统计值和人工统计值的差异再调整和优化模型。如英语中：元音起始增加一个音子统计数、n结尾减少一个音子统计数等。可提炼新的规则进一步修正该模型。

除了使用统计器之外，部分参数的赋值可能需要依据经验赋值，如口腔肌肉发声习惯度，如英语中的咬舌音，德语中的小舌音等。技术人员可以根据实际发音经验，为这些参数赋值。

这样，所述分级模型可以为示例的影音文件构建出一个影音切片-级别系数参照表，如表3所示：

表3

在利用分级模型构建完该影音切片-级别系数参照表之后，就可以利用分级计算算法来为每个影音切片计算其对应的级别。

举例而言，根据我们对英语语言的语法、发音和学习经验的研究，针对各种参数，一种合理的分级算法可以是：

级别L＝[(参数Va*权重1)+(参数Pa*权重2+参数Pb*权重3+参数Pc*权重4+参数Wa*权重5+参数Wb*权重6)]/2*(参数Sa*权重7+参数Sb*权重8+参数Sc*权重9+参数Sd*权重10+参数Se*权重11)*(参数Na*权重12+参数Nb*权重13)*(参数Fa*权重14+参数Fb*权重15)*(参数Oa*权重16+参数Ob*权重17+参数Oc*权重18+参数Od*权重19+参数Ox*权重20)。

例如，"Hi"级别L＝[(1*100％)+(1*90％+1*4％+2*3％+1*2％+2*1％)]/2*(1*40％+1.2*30％+1*10％*1.2*10％+1*10％)*(1*80％+1*20％)*(1*50％+1*50％)*(1.1*50％+1*20％+1*10％+1*10％+1*10％)＝1.1016，取整数后为1，也即影音切片"Hi"的分级级别为1，级别很低。所述取整操作就是将计算出的数值与阈值进行比较后的结果，即基于四舍五入原理与阈值1.5比较，大于1.5，则为2，小于1.5则为1。

再比如，"I was out the whole night"的级别L＝[(7*100％)+(9*90％+6*4％+14*3％+6*2％+19*1％)]/2*(1.2*40％+1*30％+1.2*10％*1*10％+1*10％)*(1*80％+1*20％)*(1*50％+1*50％)*(1.1*50％+1*20％+1*10％+1*10％+1*10％)＝8.8830，取整数后为9，也即影音切片"I was out the whole night"的分级级别为9，级别很高。

除了上述分级算法之外，还可以使用其他算式来计算所述级别L，例如：

L＝[(参数Va*权重1)+(参数Pa*权重2+参数Pb*权重3+参数Pc*权重4)+(参数Wa*权重5+参数Wb*权重6)]/3*[(参数Sa*权重7+参数Sb*权重8+参数Sc*权重9+参数Sd*权重10+参数Se*权重11)+(参数Fa*权重14+参数Fb*权重15)]/2+(参数Fa*权重14+参数Fb*权重15)+(参数Oa*权重16+参数Ob*权重17+参数Oc*权重18+参数Od*权重19+参数Ox*权重20)。

应该理解，上述表1-表3所示出的各级别系数(参数)、权重和其赋值都是出于说明的目的给出，根据母语和非母语的特点，更多或更少的参数和不同的权重与赋值可以被应用到所述分级模型中，而不局限于上述所示出的这些示例。例如，对于新用户来说，缺乏上述的参数Ox中的用户特征和历史数据，因此，可以将其排除在所述分级级别计算之外。

以此类推，根据表3套用上述算法进行计算之后，可以获得每个影音切片的级别表，即表4：

基于模型逐句分级
		Hi	1
how are you？	3
		I am fine,	4
thanks！	3
		And you？	2
No,	1
		I feel very bad.	6
I got a bad cold.	8
		I was out the whole night.	9

表4

就此，影音切片的分级步骤完成。

除了上述的分级算法之外，还可以采用其他方法来进行分级，例如：

模型一：基于参数的随机森林回归模型的分级模型

模型简介：

该模型是基于语音级别系数的随机森林回归模型，用于给音频中的人类语音进行分级(0-100)。模型的概念图如图4a所示。

建模逻辑

该模型的特点是应用集成学习的方法结合多个决策树，从而使弱学习模型能够以集成方式形成一个强学习模型。模型逻辑是将所有样本投入到随机森林模型中，随机生成N棵决策树并调优，以这N棵决策树的输出均值为整个随机森林的输出。

模型完成后，系统可以通过输入任何一个句子的例如如上所述的20个参数值到模型中，输出该句子的级别系数评分。

实现方法

输入：九类系数20个变量

输出：级别系数评分(0-100)

建模方式：

1.对于任意语种，随机抽取样本生成训练数据特征值(20*M的矩阵，M为样本量)，训练数据的级别系数评分由例如100名资深翻译者评估取均值作为目标值(1*M的向量)，其中翻译者的数目可以根据要求变化。

2.抽取训练样本中的例如70％用于训练模型，成为训练集，剩下的30％成为验证集。将训练集特征值输入随机森林算法，用GridSearchCV进行随机森林算法参数调优(比如森林中决策树的数量N,最大深度D,结点最小样本量L等)，使得Mean Square Error(MSE)最小。所述训练样本和验证样本的占比可以根据需要进行调整，以适应不同应用情况。

3.将模型应用于验证集以查看模型效能，如MSE,R2等。此过程用于评估模型，防止过拟合。

4.模型效能达到最优之后，可将输出的初始评分映射到0-100的区间以形成最终评分。

场景举例：

以英语为例，如果我们拿到了10000个音频的系数集(X)及对应的10000个资深翻译者评估级别的分数均值(y)。X是一个20*10000的矩阵，y是一个维度为10000的向量。将这个训练集的70％(7000个样本)投入到随机森林回归模型中，而剩下的3000个样本作为验证集。假设我们打算建设一个100棵回归树的随机森林(这个N＝100在实践中可以由程序自动调优到最佳森林尺寸)，那么，每棵树会随机的分到M个样本用以训练树(M为小于等于7000的整数)。比如M为1000的话，那么每棵树都会有放回地抽到1000个样本作为训练集。然后从总体20个参数中，每棵树会随机的对系数进行采样,抽取k(k≤20)个系数用于回归树的生长。一颗回归树对应着特征空间(k)的划分和划分单元上的输出值。对于任一棵树，模型会遍历所有输入变量，找到最优的切分变量j和最优切分点s来划分输入空间。其中j和s是靠划分误差得到的，即

其中

为划分空间内各自的目标均值(级别评分均值)。取得最小的σ²的j和s即将其选取为根结点。比如，在树A获得的样本中，假设参数Pb(句子包含音节数)和10分别为最优的切分变量j和和切分变量s，那么树A的根结点就是Pb，而两根枝干则分别为<10和≥10。下一步模型会重复这个方法，继续获取两根枝干上新的结点和枝干，直到这棵树的平方误差小于预定阙值或达到建模师设定的其他限制条件(比如树的最大深度，叶子的最小样本数等等)以树A为例，假设这个平方误差的阙值小于1时模型停止，则树A可能有如图4b所示的树型造型(图4b所示的树型结果仅供举例说明，真实的树形可能达到十几乃至几十层)。

由于投入的样本不同(样本个体和参数群)，这座森林里的每棵树可能都不一样。从而，森林模型的输出是通过将所有树得出的预测值取均值，来减少单棵回归树可能产生的模型偏差。其后，3000个样本的验证集会被用于验证森林模型的效用。经过验证后的模型，可用于对于泛化的音频数据进行评分预测。

比如以表3中的“I feel very bad”列及其对应的20个参数值为例，将其投入到模型的时候，会按顺序输入每一棵回归树来获取一个评分。比如，在树A，这个句子会循着Pb(<10)->Sa(<1.3)->y的路被分配到y＝65.2的组。然后在树B，树C乃至整个森林的每一棵树上都得到一个评分yi。把所有树上的yi求和并取均值就成为模型输出的y评分，也就是该句“Ifeel very bad”的分级评分。随后，根据该句的分级评分与分级级别的阈值的大小关系，将该句分配到相应的分级级别。如此，基于随机森林回归模型，也能实现所述分级模型。

模型二：基于RNN的语音识别的分级模型

模型简介：循环神经网络Recurrent Neural Network(RNN)是指一个随着时间的推移，重复发生的结构。这个深度学习的模型因为纳入了序列输入数据的前后承续关系,在自然语言处理(NLP)和语音图像等多个领域均有非常广泛的应用。RNN模型能够实现语音学习的记忆功能，对处理过的数据留存一定信息以辅助下一段信息的解读。本模型使用LongShort-term Memory(LSTM)算法对音频进行语言识别，识别后的输出与真实语句进行对比，其相似度系数可映射到0-100的级别分级空间，从而生成语言级别分级评分。

模型概念图如图5a所示。

建模逻辑：

本模型基于音频数据的张量，设置基于LSTM算法的RNN模型。音频中的语音以数据张量形态进入模型。模型具有多层，从输入层->预训练模型->LSTM层->激活层->Dropout层->LSTM层->激活层->全连接层->输出。进入模型的语音数据被模型转化成识别后的语句。识别后的语句会跟实际的语句进行对比并产生相似度分数。核心逻辑是：通过训练的深度学习模型可以模拟人类识别语音的过程，如果模型本身在达到一定的识别度的基础上，仍然对于识别某些语音有偏差，输出的相似度评分很低，那么人类识别该句子也会比较困难。为了方便解读，相似度评分(％)可以被映射到0-100的区间上成为语言级别分级评分。

模型完成后，系统可以通过输入任何一个句子的语音数据到模型中，从而输出该句子的级别系数评分。

实现方法：

输入:语音数据

输出:级别分级评分

建模方式：

随机选取带目标语句的语音样本生成训练数据张量。70％的语音样本作为训练集，剩下的30％作为验证集。训练集投入到带预训练语音模型的RNN网络中，用以训练模型。验证集查看模型效能。模型被用于识别语音并输出。识别后的语音与原文本进行相似度计算。相似度为s∈[0,1],反向映射到[0,100]的区间，作为语言级别分级评分

场景举例：

还是以英语音频为例，假设投入10000个以句子为单位的音频数据集以及该音频数据对应的语句文本。该音频的数据集可能是[M,N,K]的张量形态，那么这个数据集就是[M,N,K,10000]的张量形态。按照7:3抽取训练集和验证集(所述抽取比例可以根据需要灵活调整)。训练集会被投入到模型中，逐层处理。输入层->预训练模型->LSTM层->激活层->Dropout层->LSTM层->激活层->全连接层->输出。输入层通过预训练模型可以获得对于这个语音识别的词向量。词向量作为新加入的一层数据拼接到原数据上，输入到LSTM层。LSTM层有如图5b的结构来模拟记忆模型，包含了一个输入门，一个遗忘门和一个输出门，分别管理信息的进入，记忆(上一个时间点的信息)的读取，以及信息的遗忘。

比如，以“I love apple”非母语影音切片为例。纳入了词向量之后，Xt-1＝[I,vt-1],Xt＝[Love,vt],Xt+1＝[apple,vt+1]。输入LSTM模型之后，I作为主语和代词的属性中，主语属性是对于下一个单词的预测有作用的，因为主语后面会加谓语，对于判断love有帮助，那么这部分的信息会以张量的形式传输到下一个数据Xt的处理。同时I作为代词对于下一个词的判断没有意义，则会被遗忘。应用这样的模式，所有的数据会一起训练这个LSTM神经元层的各个参数。

类似地，通过了LSTM层的数据还会经过激活层去激活非线性模型，Dropout层去随机保留部分数据，以及最后的全连接层去输出可以翻译为文字的词向量组合，也就是识别出来的句子。最后识别结果的偏差会被返回到模型中作为下一次训练优化的参数，这就是backpropagation(BP)方法。

这个模型经过检测优化后可用于识别音频中的语句，识别出来的句子会被与真实文本对比，生成级别分值。比如，I love apple被解读成了l lose apple，其相似度由算法识别为65％，则级别分值为(1-63％)＝35分。所获得的级别分值可以与分级级别的阈值的大小进行比较，从而为该句分配相应的分级级别。如此，基于RNN的语音识别，也能实现所述分级模型。

除了采用上述这种基于语言学上的各参数所构建的分级模型来对影音切片进行分级之外，还可以采用其他的分级方式。

例如可以从用户的年龄维度出发来对影音切片进行分级。所述基于年龄维度的分级可以考虑下述因素中的一个或多个：

纯粹按受众年龄或者年龄段划分；

以入学年龄划分；

以受众的年龄为基础，结合其语言能力的各个方面作为调整参数的划分；

基于内容本身的年龄级别设定(例如一些影音文件本身就对能够观看的受众的年龄进行了限制，例如15+或18+)。

下面就结合具体示例来详细描述所述按年龄进行分级的方案。

具体而言，所述分级可以基于两个角度：一个是使用受众的年龄，另一个是使用者的实际年龄，例如，可以从如下几个角度出发将其纳为分级所要考虑的输入参数：

基于年龄的听力认知能力；

基于年龄的语言表达能力；

基于年龄的对语言信息积累量；

基于年龄的智力发展水平(如从重复的语言信息中提炼语言规则)。

需要说明的是针对特定的区域、特定的目标的非母语水平，纯基于年龄的分级划分并非十分准确。比如在中国将英语作为非母语学习的情境下，1线城市、2线城市、3线及以下的城市的不同城市级别中的同龄段的孩子的英语能力差别非常大，英语作为学科的授课年龄也不一样。1线城市小学一年级开始教授英语，3到更低线的城市可能到小学三年级才教授英语，因此，并不十分推荐单纯基于年龄进行分级。在实际应用中，也需要结合例如地域等其他因素做出适当的调整才能使得分级变得更有使用价值。

另一个基于年龄的角度是从内容本身出发，不同的内容在制作的时候就会考虑其受众的年龄段和其年龄段对应的认知能力，而对影音的场景设定、情节对白等做适合的规划如：

低幼阶段1-3岁，会考虑受众喜欢的形式为唱跳等这个年龄段比较容易接纳形态，角色也会以动物等为主，故事情节本身并不丰满。

3-5岁的低龄段，这个时候孩子对内容本身的娱乐性和故事情节有一定要求。制作者通常也会设定和其年龄对应的角色，并且情节、对白也会设定为和这个年龄段受众相匹配，便于孩子理解。

6-10岁的年龄段，这个年龄段孩子对趣味性、知识性等有更高要求，唱跳等形态、低龄的角色不能满足其要求，但成人化的比如知识讲座、演讲又过于枯燥。因此，可能增加更多的互动游戏内容来帮助学习。

总之，不同的内容本身也有其年龄属性，因此，也可以基于影音切片的内容所针对的适合的年龄范围作为分级依据。

除了年龄，在一些实施例中我们也可以基于经验来对影音切片进行分级。

具体而言，使用受众本身对非母语的经验也可以作为一个划分等级的依据。实际应用中，通常会让受众选择一个基于经验值的描述由系统生成一个初始经验值，或由受众基于自身的经验判断直接选取一个基于经验值的级别。所述经验值的确定可以基于例如下述一个或多个因素：

用户接触此产品前认知的词汇量预估；

用户接触此产品前接触的非母语时长；

用户接触此产品前接触过的非母语学习应用的数量；

用户接触此产品前参加过的培训时长；

上面的因素只是部分经验值表达形式的举例，技术人员可根据实际情况结合其他能够反映学习经验值的参数，这也是本申请的保护范畴内。

在其他实施例中，还可以基于测试能力来进行影音切片的分级。

具体而言，基于受众对非母语能力的测试也可以作为一个划分等级的依据。实际应用中，通常会在正式服务开始之前，提供一个测试，基于测试的结果系统会设定该用户的起始级别。测试所考量的因素可以包括下述中的一个或多个：

用户在当前阶段的非母语词汇量；

用户在当前阶段的非母语语法能力；

用户在当前阶段的非母语听力能力；

用户在当前阶段的非母语表达能力。

上面的因素只是部分测试维度表达形式的举例，技术人员可根据实际情况结合其他反应测试参数，这也是本申请的保护范畴内。在还有一些实施例中，还可以基于例如用户的职业、考试成绩、学历、所读学校和专业以及其他维度来对影音切片进行分级。因此，技术人员应该理解，所述举例的各种分级方式仅仅是出于说明的目的而给出，而非要将分级仅仅局限于上述这些方式中。其他能够实现分级的应用方式也属于本申请的保护范畴内。

在完成所有有影音切片的分级之后，针对每个包括非母语音频素材的影音切片，执行其与包括母语音频素材的影音文件的配对剪辑过程。所述匹配包括通过对两者的图像、时间戳或声音进行比对，从包括母语音频素材的影音文件中截取出包括对应的母语音频素材的影音切片。还是以先前的示例为例，在表5中示出了经配对的非母语音频的影音切片和对应母语音频的影音切片(音频配对，而非文字配对)：

表5

随后，以包括非母语音频的所述影音切片的各自级别为分级依据，为每个级别生成与该级别相对应的双语拼合的影音文件。

具体而言，生成双语拼合的影音文件的具体步骤如下：

2.针对级别排列表中的每一级别，生成一个本级别的双语拼合影音文件，其时长与最初输入的包括非母语音频的影音文件相同，但呈现规则为：该双语拼合影音文件中等于或小于该级别的影音切片用包括非母语音频素材的影音切片呈现，大于该级别的影音切片用包括母语音频素材的影音切片呈现。

还是以上面的示例影音文件为例，在表格6中示出了不同级别的经双语拼合的影音文件。应该明白，虽然是以文本示出各个双语语句，但实际上所述英文和中文语句代表的是相应的音频发音。

表6

在将上述针对不同级别的所生成的双语拼合的影音文件存储在单独的存储单元以备用户播放之后，所述用于按级别拼合多语言影音文件的方法的实例流程结束。

下面结合图3描述一下根据本申请的一个实施例的用于按级别播放多语言拼合的影音文件的方法的示例流程图。

当包括非母音音频素材的影音文件经过如图1或2的用于按级别拼合多种语言(示例为双语)的影音文件的方法进行分级和按级别拼合之后，就可以将该经处理的影音文件用于例如双语教学点播。

在步骤302，在前端各播放终端的播放界面上以影音列表界面形式呈现可供选择的影音文件。所述在前端的播放终端可以包括家庭影音播放终端、智能电子终端、教育场景中的影音播放终端(例如投影仪、计算机等)、车载影音播放终端以及其他影音播放终端。而所述播放界面可以是例如视频点播网站、社交媒体播放出口或者基于推荐机制的影音播放界面。

在步骤304，用户可以根据影音播放界面上的提示，选择所需的影音文件和所选影音文件的级别，所述选择过程可以为依次进行如下进行选择：

选择要看的节目->选择该节目的级别->选择要看该节目的第几季和第几集，该过程在图6a的示例影音播放界面中被分步示出；或者

选择要看的节目->选择要看该节目的第几季和第几集->选择该节目的级别。

或者，在一些实施例中，其他选择方式也是允许的，例如直接从历史记录中选择上一次观看的影音视频，并以前一次选择的级别为基准继续播放该视频；或者可以先对用户的非母语水平进行测试，并根据测试结果自动给用户匹配一个默认级别。这样，在后续选择节目时，无需再次选择级别，而是可以根据该用户的默认级别自动播放与该级别相关联的双语拼合影音视频。还有更多的选择方式，在此不再累述。

在步骤306，根据用户的选择，前端播放终端从存储器中调用与用户所选的级别和影音文件相对应的双语拼合的影音文件并播放该双语拼合的影音文件。

由于所播放的双语拼合的影音文件是在原包括非母语音频素材的影音文件的基础上利用如图1或2所述的方法生成的经双语拼合的影音文件，因此，在播放时，可以根据用户所选的级别，在播放到低于该级别的影音切片时播放非母语音频，而在高级别(超出该级别)的影音切片时播放拼合的母语音频。

为了进一步理解，在附图6b和6c中分别以字幕形式示出了名为“卡由坐飞机”的包括非母语音频素材的影音文件和经双语拼合的影音文件在播放同一时刻的影音切片时的情形。如前所述，应该理解，虽然在附图中示出的是母语和非母语字幕，但它们仅仅是为了便于演示，其本质则是播放的相对应的母语和非母语音频(当然，在播放音频的同时显示对应的字幕也是可以的)。该视频是以母语为中文，非母语为英文。

在图6b中示出的是播放包括非母语音频素材的该影音文件时的一个影音切片时的情形。也即未经本申请所述的方案处理的影音文件的播放示例。因此，在播放该影音文件时，还是以非母语音频进行播放。

图6c示出了在播放经双语拼合后的图6b的示例影音文件的同一时刻时的情形。原本的非母语音频“we would love to”超出了用户选定的级别，因此，在图6c中播放的双语拼合的影音切片中，当说完“Yes”之后，随后播放的是替换该非母语音频的“我们非常愿意”的母语音频。

这样，通过对双语影音按切片按级别进行重新拼合播放，体系化控制影音文件中的双语切换，使得非母语影音统一在一个级别之内，就实现了非母语学习素材的海量精准输入和匹配。在用户流畅观看影音视频的同时，帮助了用户更好地学习和理解非母语的知识，提高了外语水平。

在图7中示出了根据本申请的一个实施例的一种用于按级别拼合多种语言的影音文件的系统700的示例系统框图。

如图所示，系统700包括接收模块702、剪辑和调整模块704、切片模块706、分级模块708、配对模块710以及生成和存储模块712。各个模块之间可通过有线或无线的通信链路相连。所述各个模块的功能与前述的附图1和2中的相应步骤相对应，因此，在此只是简略描述下各个模块所执行的操作。更多细节可以参考图1和2中的相应步骤来了解。具体而言：

接收模块702，被配置用于接收输入的影音文件，所述影音文件包括有非母语音频素材和针对同一内容的母语音频素材。或者，所述影音文件可以仅包括非母语音频素材。其对应的非母语音频素材可以在之后的配对模块710中通过配音获得。

剪辑和调整模块704，被配置用于对包括非母语音频素材的所述影音文件进行剪辑和调整，所述剪辑和调整包括剪辑影音文件的片头和片尾、背景降噪、无学习意义语句筛查等预处理操作。如前所述，所述剪辑和调整模块704是可选的模块，如果影音文件本身质量就很高，也可以省略所述模块。

切片模块706，被配置用于对所述包括非母语音频素材的影音文件进行切片(分割)处理，例如，可以将整个影音文件以句为单元进行切片分割。所述切片可以利用现有的语音识别技术中的切片手段。

分级模块708，被配置用于为每个影音切片进行分级。所述分级是指根据由每个已经切割完成的包括非母语音频素材的影音切片在语言学上的各参数所构建的分级模型对各影音切片文件进行级别赋值以实现对所述影音切片的分级。所述分级模块可以执行下述操作：搭建分级模型、设定信息采集规则、根据影音特征和文本特征对信息采集规则中所涉及的各参数进行赋值和加权，并计算其最终值以及基于计算出的影音切片的最终值与分级阈值的比较结果确定该影音切片的级别。

配对模块710，被配置用于针对每个包括非母语音频素材的影音切片，执行其与包括母语音频素材的影音文件的配对剪辑。所述配对可以包括两种情况：1)接收的影音文件本身就包括母语音频素材，或者还接收到包括相应母语音频素材的影音文件；2)接收的影音文件不包括母语音频素材。

在第一种情况下，配对模块710可以通过对与包括非母语音频素材的影音切片和包括母语音频素材的影音文件相关联的图像、时间戳或声音进行比对，从包括母语音频素材的影音文件中重截取出包括与影音切片中的非母语音频素材相对应的母语音频素材的影音切片，并将它们相关联地保存在存储器中。

在第二种情况下，配对模块710可以通过后期配音的方式为每个包括非母语音频素材的影音切片匹配相应的包含母语音频素材的影音切片。

生成和存储模块712，被配置用于以包括各个非母语音频的影音切片的级别为分级依据，为每个级别生成并存储与该级别相对应的双语拼合的影音文件。

具体而言，所述生成和存储模块712可执行下述操作：

2.针对级别排列表中的每一级别，生成一个本级别的双语拼合影音文件，其时长与最初输入的包括非母语音频的影音文件相同，但呈现规则为：该双语拼合影音文件中等于或小于该级别的影音切片用非母语呈现，大于该级别的影音切片用母语呈现。

3.将每个级别的生成后的双语拼合的影音文件存储在单独的存储单元以备用户选择。

在一些实施例中，本公开的方案还涉及一种计算机存储介质，在所述计算机存储介质上存储有可执行指令。当所述指令被执行时，使得所述计算机能够执行如图1、图2或图3中所述的方法。

应该理解，尽管在各实施例中是以英语作为非母语，而以中文作为母语来进行描述的，但其他语言的拼合也同样适用于本申请的方案。

应理解，上述的各种方法步骤仅仅是出于说明的目的而示出，而不是要将本公开的方案局限于此。例如更多或更少或不同执行顺序的步骤也可以被应用到本公开的方案中，

虽然以上描述了不同的实施例，但应当理解的是它们只是作为示例而非限制。(诸)相关领域的技术人员将领会，在不偏离如所附权利要求书所定义的本发明的精神和范围的情况下，可以在形式和细节方面进行各种修改。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种用于按级别拼合多种语言影音文件的方法，包括：

接收输入的影音文件，所述影音文件包括非母语音频素材；

对所述包括非母语音频素材的影音文件进行切片以生成多个包括非母语音频素材的影音切片；

对于每个影音切片：

对该影音切片文件进行分级；

执行所述包括非母语音频素材的该影音切片与包括相应母语音频素材的影音文件的配对剪辑；

以所述影音切片的级别为分级依据，为各个级别生成并存储与该级别相对应的多语言拼合的影音文件。

2.如权利要求1所述的方法，其特征在于，所述分级步骤包括：

搭建分级模型，所述分级模型通过对所述影音切片从语言学、语音学等多方面形成全面综合的评估维度来对影音切片进行分级；

设定信息采集规则，所述信息采集规则设定了要从所述分级模型中调取的已有或新建的相应参数的统计器；

根据所述影音切片中的影音特征和文本特征对所述信息采集规则中所涉及的各参数进行赋值和加权以构建影音切片-级别系数参照表；以及

根据所述影音切片-级别系数参照表计算出该影音切片的最终值，并基于所述最终值与分级阈值的比较确定所述影音切片的级别。

3.如权利要求2所述的方法，其特征在于，所述语言学上的参数包括：本句影音时长、本句包括的音子的数量、本句包括音节数、本句包括音素数、本句包括单词数、本句包括字符数、本句发音清晰度、本句语速、语音语调变声、人物角色变声、背景干扰、本句内单词出现频率、特定教学体系内必要性界定、口型习惯度、口腔肌肉发音习惯度、本句内所含单词难度、本句内所含语法难度、特定教学体系内级别界定、文化差异引起的理解难度以及其他参数；

所述参数的统计器包括：切片时长统计器、切片因素统计器、切片音节统计器、切片音子统计器、切片内句子单词统计器、切片内句子字符统计器以及其他统计器；

其中参数“音子”是介于“音素”和“音节”之间的发音单位，其主要根据自然语言发音中的自然停顿来进行划分，它能代表该词的实际发声的数量。

4.如权利要求1所述的方法，其特征在于，所述配对剪辑步骤有下述两种情况：

1)所接收的影音文件包括了包含相应的母语音频素材的影音文件，则：

通过将所述语音切片和包含母语音频素材的影音文件相关联的图像、时间戳或声音进行比对，从包含母语音频素材的所述影音文件中重截取出包括与所述影音切片中的非母语音频素材相对应的母语音频素材的影音切片，并将它们相关联地保存在存储器中；

2)所接收的影音文件不包括包含相应的母语音频素材的影音文件，则通过后期配音生成包括母语音频素材的影音文件来与各影音切片进行配对剪辑。

5.如权利要求1所述的方法，其特征在于，所述为每个级别生成并存储与该级别相对应的多语言拼合的影音文件的步骤包括：

按从低到高的顺序排列出与包括非母语音频素材的各影音切片相关联的级别排列表；

针对级别排列表中的每一级别，生成一个本级别的多种语言拼合影音文件，其时长与最初输入的包括非母语音频的影音文件相同，但呈现规则为：该多种拼合影音文件中等于或小于该级别的影音切片用包括非母语音频素材的影音切片呈现，大于该级别的影音切片用包括母语音频素材的影音切片呈现。

6.如权利要求1所述的方法，其特征在于，所述切片步骤能按句、按短语或按词的方式进行切片。

7.如权利要求1所述的方法，其特征在于，所述影音文件可以是单独音频文件、单独无声视频文件和有声视频文件中的任意形式。

8.如权利要求1所述的方法，其特征在于，所述切片步骤包括对所述影音文件进行物理层面的切割或通过句子的首尾切换点进行时间戳标识来实现的虚拟切割。

9.如权利要求1所述的方法，其特征在于，所述拼合包括：将非母语音频素材的影音切片与包括相应母语音频素材的影音切片的物理层面的拼合；或者在基于一个完整的影音文件的基础上用另一个影音文件中的对应影音部分替换该完整的影音文件对应部分的拼合。

10.如权利要求1所述的方法，其特征在于，所述分级步骤包括：基于用户的年龄、经验、职业、成绩、学历、学校和专业、影音文件的内容本身的受众年龄以及其他维度来对所述影音切片进行分级。

11.一种用于按级别播放多语言拼合的影音文件的方法，其中所述多语言拼合的影音文件是通过如权利要求1所述的方法生成的，包括：

在前端各播放终端的播放界面上以影音列表界面形式呈现可供选择的影音文件；

用户根据播放界面上的提示，选择所需的影音文件和所选影音文件的级别；

根据用户的选择，所述前端播放终端从存储器中调用与用户所选的级别和影音文件相对应的多语言拼合的影音文件并进行播放。

12.一种用于按级别拼合多种语言的影音文件的系统，包括：

接收模块，被配置用于接收输入的影音文件，所述影音文件包括非母语音频素材；

切片模块，被配置用于对所述包括非母语音频素材的影音文件进行切片以生成多个包括非母语音频素材的影音切片；

分级模块，被配置用于对每个影音切片进行分级；

配对模块，被配置用于执行所述包括非母语音频素材的所述影音切片与包括相应母语音频素材的影音文件的配对剪辑；

生成和存储模块，被配置用于以所述影音切片的级别为分级依据，为各个级别生成并存储与该级别相对应的多语言拼合的影音文件。

13.一种计算机存储介质，在所述计算机存储介质上存储有可执行指令，当所述可执行指令被执行时，使得计算机能够执行如权利要求1或11中所述的方法。