CN114946193A

CN114946193A - 使用基于云的语音结合的定制视频制作服务提供系统

Info

Publication number: CN114946193A
Application number: CN202080092879.0A
Authority: CN
Inventors: 张衡淳
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-01-23
Filing date: 2020-12-23
Publication date: 2022-08-26
Also published as: WO2021149929A1; EP4096231A4; US20220415362A1; JP2023511309A; EP4096231A1; KR102177768B1

Abstract

提供一种使用基于云的语音结合的定制视频制作服务提供系统，包括：用户终端，其接收以语音形式输入的用户话语并上传，从至少一种类别中选择任意一个类别，选择包括图像或视频的内容，选择字幕或背景音乐，播放包括内容及上传的语音、字幕或背景音乐的定制视频；以及定制视频制作服务提供服务器，其包括数据库化部、上传部、转换部、提供部、生成部，数据库化部对至少一种类别的文本、图像、视频及背景音乐进行分类及存储，上传部接收从用户终端上传的与用户话语相对应的语音数据的上传，转换部利用STT(语音转文本)将上传的语音数据转换为文本数据并存储，当用户终端从至少一个类别中选择了任意一个类别时，提供部将预先映射并存储在所选类别中的图像或视频提供给用户终端，当用户终端选择了字幕或背景音乐并接收了字幕数据或所选择的背景音乐时，生成部生成包括内容及上传的语音、字幕或背景音乐的定制视频。

Description

使用基于云的语音结合的定制视频制作服务提供系统

技术领域

本发明涉及一种使用基于云的语音结合的定制视频制作服务提供系统，提供可以将话语的语音数据上传至云端并利用用语音检索的录音文件制作视频的平台。

背景技术

最近，因为网络技术的进化和快速普及、多种媒体创作工具的出现，迅速形成直接制作视频并发布的环境。通过网络环境，视频的实时串流变得可能，因为移动设备的飞速普及，无论何时何地均能获取视频的基础设施的具备也成为这一环境变化的主要动力。我们认为当前具备了如果一般用户具有自己的能力和意志那么其可以直接生产和发布内容的环境。但事实是，即使相关基础设施得到发展，但生成并发布与各自的目的相符合的高质量的视频仍然很难。虽然可以利用能够简单地制作多媒体内容的强力且多样的编辑工具和服务，但是为了熟练地使用工具，仍然需要长期耐心的学习过程，而且制备相关工具的费用也不少。

此时，研究并开发了可以利用照片制作视频的方法，与此相关地，先行技术文献韩国公开专利第2014-0052167号(2014年05月07日公开)中公开了以下构成：如果从制作终端接收了视频制作请求，则向制作终端传输能够选作视频的背景音乐的背景音乐列表，作为其应答接收背景音乐选择信息，对从预先存储的音乐文件中选择的背景音乐的音源进行检测并传递给制作终端，接收并存储使得在播放背景音乐的过程中想要展示的照片与其播放时间相映射的映射信息，为了根据映射信息展示各照片，用户从视频制作终端接收决定了照片的展示方法和方向的场景并生成视频。

即使利用了上述构成，但将照片和背景音乐合起来制作视频只是支持基础阶段的视频制作，为了将用户的声音加入视频中，需要重新进行用户的录音过程及整合过程，因此个人或小规模企业直接制作媒体内容时仍然存在专业知识的不足、需要额外费用等负担。此外，录音文件按照文件名存储，所以需要看文件名确认是什么样的录音，或者需要直接播放试听，所以利用录音文件的视频生成过程是更加复杂多端的原因。因此，需要研究及开发一种可以将用户话语的语音自动分类存储、用语音进行检索的同时利用录音文件可以轻松地制作视频的平台。

发明内容

本发明的一个实施例可以提供一种使用基于云的语音结合的定制视频制作服务提供方法，其从用户终端存储的录音文件中自动分类及提取出包括用户的语音话语的录音文件，以后台模式上传至云平台，想要在用户终端制作定制视频的时候，提供预先存储的至少一个类别的内容，从而即使不购买或下载编辑程序，即使是普通人，也能直观地整合字幕、背景音乐、录音文件并制作用户定制视频，而且上传至预先设定的上传服务器时，以与上传服务器要求的格式相符合的形式自动转码，存储于用户终端时也转码为能在用户终端播放的格式，由此可以使得用户的便利极大化。但是，本实施例想要实现的技术课题不限定于上述的技术课题，还可以存在其他技术课题。

作为用于实现上述技术课题的技术手段，本发明的一个实施例包括：用户终端，其接收以语音形式输入的用户话语并上传，从至少一种类别中选择任意一个类别，选择包括图像或视频的内容，选择字幕或背景音乐，播放包括内容及上传的语音、字幕或背景音乐的定制视频；以及定制视频制作服务提供服务器，其包括数据库化部、上传部、转换部、提供部、生成部，数据库化部对至少一种类别的文本、图像、视频及背景音乐进行分类及存储，上传部接收从用户终端上传的与用户话语相对应的语音数据的上传，转换部利用STT(语音转文本)将上传的语音数据转换为文本数据并存储，当用户终端从至少一个类别中选择了任意一个类别时，提供部将预先映射并存储在所选类别中的图像或视频提供给用户终端，当用户终端选择了字幕或背景音乐并接收了字幕数据或所选择的背景音乐时，生成部生成包括内容及上传的语音、字幕或背景音乐的定制视频。

根据前述的本发明的课题解决手段中任意一个，从用户终端存储的录音文件中自动分类及提取出包括用户的语音话语的录音文件，以后台模式上传至云平台，想要在用户终端制作定制视频的时候，提供预先存储的至少一个类别的内容，从而即使不购买或下载编辑程序，即使是普通人，也能直观地整合字幕、背景音乐、录音文件并制作用户定制视频，而且上传至预先设定的上传服务器时，以与上传服务器要求的格式相符合的形式自动转码，存储于用户终端时也转码为能在用户终端播放的格式，由此可以使得用户的便利极大化。

附图说明

图1是用于说明根据本发明的一个实施例的使用基于云的语音结合的定制视频制作服务提供系统的图。

图2是用于说明图1的系统所包括的定制视频制作服务提供服务器的块状构成图。

图3及图4是用于说明根据本发明的一个实施例的实现使用基于云的语音结合的定制视频制作服务的一个实施例的图。

图5是用于说明根据本发明的一个实施例的使用基于云的语音结合的定制视频制作服务提供方法的操作流程图。

具体实施方式

作为使用基于云的语音结合的定制视频制作服务提供系统包括：用户终端，其接收以语音形式输入的用户话语并上传，从至少一种类别中选择任意一个类别，选择包括图像或视频的内容，选择字幕或背景音乐，播放包括内容及上传的语音、字幕或背景音乐的定制视频；以及定制视频制作服务提供服务器，其包括数据库化部、上传部、转换部、提供部、生成部，数据库化部对至少一种类别的文本、图像、视频及背景音乐进行分类及存储，上传部接收从用户终端上传的与用户话语相对应的语音数据的上传，转换部利用STT(语音转文本)将上传的语音数据转换为文本数据并存储，当用户终端从至少一个类别中选择了任意一个类别时，提供部将预先映射并存储在所选类别中的图像或视频提供给用户终端，当用户终端选择了字幕或背景音乐并接收了字幕数据或所选择的背景音乐时，生成部生成包括内容及上传的语音、字幕或背景音乐的定制视频。

下面参照附图对本发明的实施例进行详细说明，以便使得在本发明所属的技术领域内具有一般知识的人可以容易实施。但是，本发明可以以多种不同形态实现，不限定于这里说明的实施例。并且，为了明确说明本发明，附图中省略了和说明无关的部分，通过说明书整体对相似的部分赋予了相似的附图标号。

在说明书整体中，当提到某个部分和另一部分“连接”时，这不仅包括“直接连接”的情况，还包括在其中间存在其他元件“电连接”的情况。此外，当提到某部分“包括”某构成要素时，这意味着除非有特别相反的记载，否则不排除其他构成要素，而是还可以包括其他构成要素，而且应理解为不事先排除一个或一个以上的其他特征或数字、步骤、动作、构成要素、部件或它们组合的存在或者附加可能性。

在说明书整体中使用的程度用语“大约”、“实质上”等，当提及的意思提示固有的制造及物质容许误差时，用作该数值或与该数值接近的意思，并且为了帮助理解本发明而使用，以防没良心的侵害者不当利用准确或绝对的数值所提及的公开内容。本发明的说明书整体中使用的程度用语“～(的)步骤”或“～的步骤”不代表“用于～的步骤”。

在本说明书中，“部”包括由硬件实现的单元(unit)、由软件实现的单元、利用二者实现的单元。此外，1个单元可以利用2个以上的硬件实现，2个以上的单元也可以利用1个硬件实现。

在本说明书中，记述为终端、装置或设备执行的动作或功能中的一部分也可以在与相应终端、装置或设备连接的服务器中执行。同样，记述为服务器执行的动作或功能中的一部分也可以在与相应服务器连接的终端、装置或设备中执行。

在本说明书中，记述为和终端映射或匹配的动作或功能中的一部分可以解释为映射或匹配作为终端的识别信息的终端机的固有编号或个人的识别信息的意思。

以下参照附图对本发明进行详细说明。

图1是用于说明根据本发明的一个实施例的使用基于云的语音结合的定制视频制作服务提供系统的图。参照图1，使用基于云的语音结合的定制视频制作服务提供系统1可以包括至少一个用户终端100、定制视频制作服务提供服务器300、至少一个内容提供终端400及至少一个上传服务器500。但是，图1的使用基于云的语音结合的定制视频制作服务提供系统1不过是本发明的一个实施例，不能通过图1限定解释本发明。

此时，图1的各构成要素一般通过网络200连接。例如，如图1所示，至少一个用户终端100通过网络200可以和定制视频制作服务提供服务器300连接。并且，定制视频制作服务提供服务器300通过网络200可以和至少一个用户终端100、至少一个内容提供终端400、至少一个上传服务器500连接。此外，至少一个内容提供终端400通过网络200可以和定制视频制作服务提供服务器300连接。并且，至少一个上传服务器500通过网络200可以和至少一个用户终端100、定制视频制作服务提供服务器300以及至少一个内容提供终端400连接。

这里，网络指的是在多个终端和服务器之类的各个节点相互之间能够进行信息交换的连接结构，作为这种网络的一个例子包括RF、3GPP(3rd Generation PartnershipProject，第三代合作伙伴项目)网络、LTE(Long Term Evolution，长期演进)网络、5GPP(5th Generation Partnership Project，第五代合作伙伴项目)网络、WIMAX(WorldInteroperability for Microwave Access，全球微波接入互操作性)网络、因特网(Internet)、LAN(Local Area Network，局域网)、Wireless LAN(Wireless Local AreaNetwork，无线局域网)、WAN(Wide Area Network，广域网)、PAN(Personal Area Network，个域网)、蓝牙(Bluetooth)网络、NFC网络、卫星广播网络、模拟广播网络、DMB(DigitalMultimedia Broadcasting，数字多媒体广播)网络等，但不限定于此。

下面，至少一个的用语定义为包括一个及多个的用语，不言而喻的是，即使不存在至少一个的用语，各构成要素也可以存在一个或多个，可以意味着一个或多个。此外，可以根据实施例改变各构成要素是以一个还是多个形式设置的。

至少一个用户终端100可以是利用和使用基于云的语音结合的定制视频制作服务相关的网页、应用程序页面、程序或应用程序来制作用户定制视频的终端。此时，至少一个用户终端100可以是对用户的语音话语进行录音的终端，而且可以是将录音的语音数据以后台模式传输至定制视频制作服务提供服务器300的终端。此外，用户终端100可以是连接至定制视频制作服务提供服务器300提供的页面，可以选择至少一个类别，并可以选择预先映射并存储于类别的背景音乐、人物、图像或视频等的终端。此外，用户终端100可以是选择用后台上传的语音数据并插入至定制视频中的终端，而且可以是输入字幕文本并向定制视频制作服务提供服务器300传输的终端。并且，用户终端100可以是对在定制视频制作服务提供服务器300生成的定制视频进行播放或流式传输的终端，而且可以是能够进行编辑或修改等的终端。此时，视频是映射并存储于在定制视频制作服务提供服务器300预先设定的类别的多媒体，定制视频定义为通过用户选择所选择的多种构成要素转码并形成的多媒体。而且，用户终端100可以是为了存储于用户终端100内或为了上传至上传服务器500而进行结算的终端。

这里，至少一个用户终端100可以由通过网络能与远程服务器或终端连接的计算机实现。这里，计算机，例如，可以包括搭载有导航仪、网络浏览器的笔记本电脑、台式电脑、便携式电脑等。此时，至少一个用户终端100可以由通过网络能与远程服务器或终端连接的终端实现。至少一个用户终端100，例如，作为保障便携性和移动性的无线通信装置，可以包括导航仪、PCS(Personal Communication System，个人通讯系统)、GSM(Global Systemfor Mobile communications，全球移动通讯系统)、PDC(Personal Digital Cellular，个人数字蜂窝)、PHS(Personal Handyphone System，个人手机系统)、PDA(Personal DigitalAssistant，个人数字助理)、IMT(International Mobile Telecommunication，国际移动通信)-2000、CDMA(Code Division Multiple Access，码分多址访问)-2000、W-CDMA(W-CodeDivision Multiple Access，W-码分多址访问)、Wibro(Wireless Broadband Internet,无线宽带上网)终端、智能手机(smartphone)、智能平板(smartpad)、平板电脑(Tablet PC)等所有种类的基于手持式(Handheld)的无线通信装置。

定制视频制作服务提供服务器300可以是提供使用基于云的语音结合的定制视频制作服务网页、应用程序页面、程序或应用程序的服务器。并且，定制视频制作服务提供服务器300可以是从至少一个内容提供终端400收集人物、图像、视频、背景音乐等来构建大数据的服务器。此外，定制视频制作服务提供服务器300可以是以与预先设定的类别相对应的形式对大数据内的数据进行标注并分类，和预先设定的类别映射并存储的服务器。并且，定制视频制作服务提供服务器300可以是对存储于用户终端100的至少一个录音数据中的用户进行识别及区分，提取用户的语音数据并以后台模式接收上传的服务器。此外，定制视频制作服务提供服务器300可以是，当用户终端100制作定制视频时，接收选择的至少一个类别，向用户终端100传输与所选择的类别相映射的数据并进行选择的服务器。此时，定制视频制作服务提供服务器300可以是，当用户终端100检索语音数据的情况，以相似度为基础排列与检索语相对应的语音数据并向用户终端100传输的服务器。此外，定制视频制作服务提供服务器300可以是，当用户终端100在完成所有选择后请求生成定制视频时，生成定制视频后使之流式传输至用户终端100的服务器。并且定制视频制作服务提供服务器300可以是，当用户终端100进行结算时，掌握了用户终端100或至少一个上传服务器500的要求格式后，使之转码为所掌握的格式并进行传输或上传的服务器。

这里，定制视频制作服务提供服务器300可以由通过网络可以连接至远程服务器或终端的计算机实现。这里，计算机，例如可以包括搭载有导航仪、网络浏览器的笔记本电脑、台式电脑、便携式电脑等。

至少一个内容提供终端400可以是利用和使用基于云的语音结合的定制视频制作服务相关的网页、应用程序页面、程序或应用程序的著作权人、职员、策划公司或所属公司等的终端。此时，至少一个内容提供终端400可以是向定制视频制作服务提供服务器300传输图像、视频、人物、背景音乐等并基于著作权协议收取手续费的终端或进行清算的职员的终端。并且，至少一个内容提供终端400是职员的终端的情况，可以是以与预先设定的类别相对应的形式对至少一个数据进行分类及标注的终端。当然，数据的分类及标注在初期大数据构建作业中作为监督学习(Supervised Learning)的一环，可能存在内容提供终端400的介入，但在完成用于分类的人工智能算法的学习后，内容提供终端400可以是不再介入而转换为无监督学习(Unsupervised Learning)，只对错误进行检查的终端。

这里，至少一个内容提供终端400可以由通过网络可以连接至远程服务器或终端的计算机实现。这里，计算机，例如可以包括搭载有导航仪、网络浏览器的笔记本电脑、台式电脑、便携式电脑等。此时，至少一个内容提供终端400可以由通过网络能够连接至远程服务器或终端的终端实现。至少一个内容提供终端400，例如，作为保障便携性和移动性的无线通信装置，可以包括导航仪、PCS(Personal Communication System，个人通讯系统)、GSM(Global System for Mobile communications，全球移动通讯系统)、PDC(PersonalDigital Cellular，个人数字蜂窝)、PHS(Personal Handyphone System，个人手机系统)、PDA(Personal Digital Assistant，个人数字助理)、IMT(International MobileTelecommunication，国际移动通信)-2000、CDMA(Code Division Multiple Access，码分多址访问)-2000、W-CDMA(W-Code Division Multiple Access，W-码分多址访问)、Wibro(Wireless Broadband Internet,无线宽带上网)终端、智能手机(smartphone)、智能平板(smartpad)、平板电脑(Tablet PC)等所有种类的基于手持式(Handheld)的无线通信装置。

至少一个上传服务器500可以是利用或不利用和使用基于云的语音结合的定制视频制作服务相关的网页、应用程序页面、程序或应用程序而对从定制视频制作服务提供服务器300上传的定制视频进行上传的服务器。这里，至少一个上传服务器500可以由通过网络能连接至远程服务器或终端的计算机实现。这里，计算机，例如，可以包括搭载有导航仪、网络浏览器的笔记本电脑、台式电脑、便携式电脑等。

图2是用于说明图1的系统中包括的定制视频制作服务提供服务器的块状构成图，图3及图4是用于说明实现根据本发明的一个实施例的使用基于云的语音结合的定制视频制作服务的一个实施例的图。

参照图2，定制视频制作服务提供服务器300可以包括数据库化部310、上传部320、转换部330、提供部340、生成部350、检索部360、调整部370以及结算部380。

根据本发明的一个实施例的定制视频制作服务提供服务器300或联动操作的其他服务器(未示出)向至少一个用户终端100、至少一个内容提供终端400及至少一个上传服务器500传输使用基于云的语音结合的定制视频制作服务应用程序、程序、应用程序页面、网页等的情况，至少一个用户终端100、至少一个内容提供终端400及至少一个上传服务器500可以设置或打开使用基于云的语音结合的定制视频制作服务应用程序、程序、应用程序页面、网页等。此外，也可以利用网络浏览器中运行的脚本在至少一个用户终端100、至少一个内容提供终端400以及至少一个上传服务器500驱动服务程序。这里，网络浏览器作为可以利用网络(WWW:world wide web，万维网)服务的程序，指的是获得由HTML(hyper textmark-up language，超文本标记语言)叙述的超文本并显示的程序，例如，包括网景浏览器(Netscape)、IE浏览器(Explorer)、谷歌浏览器(chrome)等。此外，应用程序指的是终端上的应用程序(application)，例如包括在移动终端(智能手机)上运行的应用程序(app)。

参照图2，数据库化部310可以对至少一种类别的文本、图像、视频及背景音乐进行分类及存储。此时，至少一个类别的文本、图像、视频及背景音乐根据结构化程度可以分类为结构化(structured)数据、半结构化(semi-structured)数据、非结构化(unstructured)数据。结构化数据作为种类和形式具有既定规格的数据，是在固定字段填写规定形式(数值、日期等)的值或选作项目的类型的数据或各种资料的元数据。半结构化数据虽然大部分不会以文本形态固定字段，但属于可以根据资料的特性定义包含在文本内的内容的数据分类。非结构化数据作为形态不规则且难以定义的项目，通常文本和图像等属于这种项目。大部分的文本数据可以分析为半结构化，所以只有影像或图像数据可以考虑为是非结构化的。非结构化数据中包括多种视频数据和图像数据。这样的非结构化数据也通过关键词、标签或元数据进行学习、分类及模式化，之后要求新的非结构化数据的分类时，可以将数据加工为唱片形式和相关数据一起提供。

数据库化部310对原数据(Raw Data)进行并列及分散，并对包含在存储的原数据内的非结构化数据、结构化数据以及半结构化数据进行精制，用元数据可以实施包含分类的预处理，对预处理的数据可以实施包含数据挖掘(Data Mining)的分析。并且，数据库化部310可以将分析的数据可视化并输出。此时，数据挖掘可以对预处理的数据间的内在关系进行探索并学习已知级别的训练数据集，在没有预测新数据的级别的分类或级别信息的情况下以相似性为基准进行对数据分组的群集化。当然，除此之外可以存在多种挖掘方法，而且也可以根据收集及存储的大数据的种类或之后请求的查询(Query)的种类进行不同的挖掘。如此构建的大数据也可以通过人工神经网深度学习或机械学习等进行验证过程。这里，人工神经网深度学习在分析影像资料时有用。

此时，人工神经网可以利用CNN(Convolutional neural network，卷积神经网络)结构，这是因为CNN以利用卷积层的网络结构适合处理图像且输入图像数据后可以以图像内的特征为基础对图像进行分类。此外，文本挖掘(Text Mining)是以在非/半结构化文本数据中基于自然语言处理技术提取、加工有用的信息为目的的技术。通过文本挖掘技术可以从庞大的文本库中提取有意义的信息，把握和其他信息的联系性，查找出文本具有的类别或获得单纯的信息检索以上的结果。利用该技术，在根据本发明的一个实施例的定制视频制作服务中，对以查询输入的标识符或自然语言进行分析，为了挖掘隐藏在里面的信息，可以使用大容量语言资源和统计、规则算法。此外，群集分析(Cluster Analysis)可以用于合并具有相似特性的个体的同时最终挖掘相似特性的群组，把握群集的特性，之后收集作为新查询的新文本、图像、背景音乐等的时候，可以对新个体进行分类。

上传部320可以接收从用户终端100上传的与用户话语相对应的语音数据的上传。另外，上传部320可以被动或自动地从用户终端100接收上传的语音数据、文本数据、图像数据及视频数据中的任意一个或至少一个的组合。即，用户终端100被动地指定文件并上传是理所当然的，也包括自动地上传文件。此外，不仅可以上传语音数据，还包括可以上传文字之类的文本数据或者图像或视频。在上述构成中，上传语音数据的情况，用户也可以被动指定并上传，而且上传部320可以对用户终端100录音的录音数据中与用户话语相对应的语音进行区分并选择性地接收以后台模式上传的语音数据。为此，用户终端100可以接收以语音形式输入的用户话语并上传。这里，用户终端100可以对多种声音进行录音。客户访问较多的用户的情况，可能存在客户的声音或者和客户开会议的录音记录，如果是记者，也可能存在录有采访对象的语音的录音文件。其中，上传部320需要对用于定制视频的用户话语进行识别，分离说话者并上传，为此利用神经网络。

在利用神经网络的语音识别中，通过神经网络的学习过程对连接从输入层到中间层或从中间层到输出层的神经元之间的加权值进行变更而使得误差最小化，由此可以以能对新的输入数据进行分类的形式进行语音识别过程。此外，利用神经网络输入多人发声的语音并提取每个人具有的说话者的特征后将该特征输入数据作为神经网络的输入值。使得神经网络在几乎没有误差的一定时间期间学习网络后将和神经网络的学习数据不同的新的说话者的声音输入神经网络的情况，可以判断和识别是哪个人发出的声音。如果是需要别人的声音而不是用户声音的用户，则上传所有语音数据后，标注上识别标签，然后只提取需要的人的声音。此时，在后面的检索部360进行对语音内容的分类，因此不同于上述的说话者分离或识别。

为了上述的说话者识别及分离，上传部320首先使得分离的各框架的样本值通过汉明窗。然后区分浊音及清音区间。首先针对清音区间求出根据线性预测分析的LPC(Linear Predictive Coefficient，线性预测系数)倒谱系数及FFT(Fast FourierTransform，快速傅里叶变换)功率谱。并且，针对浊音区间求出包括低频部分的直流成分的FFT倒谱系数及FFT功率谱。然后针对各个浊音区间及清音区间，通过根据倒频谱平均消去法(Cepstral Mean Subtraction)的倒谱正规化过程将各框架中用于识别说话者的特征数据输入至神经网络的输入层并对各说话者进行分类。在该消去法中将没有被歪曲的语音的倒谱平均值假定为0(Zero)，求出整个区间的语音倒谱平均值。然后，可将消去该平均值的倒谱用于学习和识别。当然不言而喻的是，除了上述方法之外还存在多种说话者识别及分离方法，不仅限定于上述的方法。

转换部330可以利用STT(Speech to Text，语音转文本)将上传的语音数据转换为文本数据并存储。这是上述的内容识别，即为了在后述的检索部360进行根据检索语的检索而将内容文本化的作业。只有在文本中提取重要的关键词并进行标注才能在之后输入检索语查询时根据相似度进行检测。为此，转换部330不仅可以转换及存储文本，而且可以提取足以作为检索语出现的关键词。关键词作为和其他文件区分开并可代表该文件的词语，可以用于信息检索、文件分类、概括等。为此，可以利用TF-IDF(Term Frequency-InverseDocument Frequency，词频-逆文档频率法)来提取关键词。或者，也可以利用FastText，但其反映单词的前后文脉,计算单词嵌入。这种情况可以得出与类别单词相似度高的单词。或者，利用CNN(Convolutional Neural Networks)的加权值，在上下文中加入加权值并反映类别信息，从而也可以生成由给分类问题提供帮助的关键词构成的词典。

在CNN中，卷积层(Convolutional Layer)针对输入文章的资质计算加权值。之后通过最大池化(Max-Pooling)在各滤波中只选择具有最高加权值的资质分类类别。模型通过反向传播(Back-Propagation)将预测类别和实际类别之间的差传递至各层并更新加权值。在这一过程中卷积层在各文章中分类类别时以给重要的资质赋予高加权值的形式学习。此时，如果利用卷积层的加权值表现出分类的资质的重要度这一点的话，可以将加权值高的单词看作关键词并提取。此时，为了可以灵活应对话语错误(发音模糊、文本标记为错误或说出莫名其妙的单词时)之类的文件内错误，用音节单位学习CNN，求出针对相应文件的各音节的加权值后，可以组合形成单词的音节的加权值从而求出最终重要度。

就提供部340而言，当用户终端100从至少一个类别中选择至少一个类别时，提供部340可以向用户终端100提供预先映射并存储在所选类别中的图像或视频。此时，类别和图像如上所述，通过大数据分类在初期以人类的介入为前提，然后通过无监督学习进行映射。同样地，不仅图像，而且视频或文本或人物也得到分类，因此用户终端100选择任意一个类别的情况，可以输出与之对应的人物、图像、文本、视频等。例如，利用基于本体的图像标注方法的情况，属于利用图像之间的相关关系，通过下段选择图像的低维特征，这些特征在中间段和关键词语义地映射，这些关键词在上段连接于模式和本体。而且，为了获取图像的语义意思，借助内容分解图像，图像的结果分类在结构上位于定义结构的最根部。关键词序列是为了给图像进行标注而使用，在低维特征提取阶段形成的学习预测问题用作输入。

为了完全排除人的介入，可以利用自动图像标注方法，这里使用图像分割算法。为了标注图像使用全局特征。此建模框架可以以称作核光滑(Kernel Smoothing)的非参数密度判断方法为基础。此时，图像的学习数据集(Data Set)用于自动标注，并使用词汇描绘图像。由于属于训练数据集的图像的帮助，在生成标签时可以预测具体的图像。因此，在抽象的“爱”这一词中初期也存在因图像和标注单词之间的人类的介入进行的学习，反馈错误并进行学习及训练的情况，之后即使输入表现“爱”的音乐或图像或视频等，也可以通过上述的方法进行分类，由此在系统上即使不再有人力的介入，也能够对新上传的资料进行自动标注及分类，用户也可以按照分类及排列的状态利用新内容。

就生成部350而言，当用户终端100选择了字幕或背景音乐并接收了字幕数据或所选择的背景音乐时，生成部350可以生成包括内容及上传的语音、字幕或背景音乐的定制视频。此时，生成部350在不通过云而是直接作业的情况下，利用在用户终端100输入的语音、文本、文字、图像等也可以直接进行作业。因此，用户终端100可以从至少一种类别中选择至少一个类别，选择包括图像或视频的内容，选择字幕或背景音乐，播放包括内容及上传的语音、字幕或背景音乐的定制视频。这里，为了渲染视频，可以利用视频拼接方式或模板方式。前者是一次性选择照片或影像并选择喜欢的氛围，将输入的内容串成一个而生成视频的方式。后者是事先选择设计的模板，以代替·插入喜欢的媒体的方式制作影像。只要先制作好完成度高的模板，只需替换照片或视频就可以多次重复利用。

另外，在本发明的一个实施例中也可以利用以下构成，为了制作定制视频，输入各种元信息、照片、视频之类的资源，并将其按照战略元信息进行筛选，最终输出视频。和前面两种方法的不同点在于，可以利用元信息对有限的模板进行分类及推荐，从而制作符合意图的内容。这里，元信息假定是没有结构化或规定形态的日常文本字符串格式。

为了上述的渲染，可以利用MLT(Media Lovin'Toolkit)多媒体框架。其支持按照时间配置多种媒体资源并附加转换及滤波效应、二维及三维图像效果，从而可以制作实际影像。MLT作为公开源多媒体工程，为了创作以广播用内容为首的多种视频内容而开发。提供用于和外部程序联动的API，能够用多种编程语言接近并用于广播内容、视频编辑器、媒体播放器、转换编码器、视频流式传输之类的多种应用。从功能层面来说，提供容易组合多媒体内容并显示的必需功能，导入插件结构，能够持续扩展功能。当然，如果说提供渲染功能的话，除了上述的品牌之外，可以利用多种工具包或程序，并且只要满足上述的结构便可以使用任何方法。

举一个利用上述的战略元信息的例子来说的话，假定用户是销售净化空气植物的销售者，制作用于销售净化空气植物的宣传影像。此时，为了混搭视频，假定在系统中事先确保了记述为用户信息、用户意图信息、文本形态的元信息的战略元信息。虽然战略元信息可以通过多种路径及方法收集，但是假定为宣传用视频混搭的话，则可以概括为行业信息、营销战略、位置信息、氛围信息、用户意图信息、宣传时间段信息。例如，可以提出行业是“秧苗销售业”、营销战略是“中午将分发30多岁女性喜欢的宣传品”、用户意图是“希望广告重点是净化空气植物”之类的战略元信息。之后在显示元信息的字符串中以词典中定义的名词为主来提取关键词，利用主题建模方法时可以在用于场面组合的相似度计算中使用。关于情节串联图板，即宣传影像如何展开，假定用户终端100事先通过用户界面选择了具有想要的氛围或主题的情节串联图板。为了表现这样的情节串联图板，假设多个场面形成情节串联图板，根据场面将场面编号、场面草图、结构标签、非结构标签记述为JSON(JavaScriptObject Notation)格式，从而可以形成高水平的故事结构。根据情节串联图板进行选择场面模板(Scene Template)、资源(Resource)、背景音乐(Background Music)、滤波效应(Filter Effect)、掩蔽效应(Mask Effect)的过程，从而最终可以输出视频。

为此，需要在情节串联图板和场面构成要素之间定义基于元信息的连接接口，并事先设定可以相互连接的算法。一个情节串联图板由多个场面构成，场面模板、资源、各种效应等场面要素分别准备有多个的情况，构成情节串联图板的各场面(Storyboard Scene)和场面要素(Scene Element)分别包括规则元标签(RegularTags)和不规则元标签

(IrregularTags)。这里，规则元标签作为词典中为了联系情节串联图板和场面要素而定义的整体元标签集合的部分集合，用于以与情节或故事结构相符合的形式提取场面要素。不规则元标签在词典中未定义，是动态更新的词典中包括的单词的集合。以不规则元标签为基础使用主题建模方法可以计算情节串联图板的场面和场面要素之间的相似性，相似度利用LSA(Latent Sematic Analysis/Indexing，潜在语义分析/索引)，并可以利用余弦相似度或欧几里德距离。

LSA将输入的文件表现在向量空间(Vector Space)，执行SVD(Singular ValueDecomposition，单值分解)查找主题，据此减少向量空间中表现文件的层次，或分析相似度，按主题提供分类和推荐的功能。在完成主题建模的状态下，为了根据各种战略元信息推荐场面模板需要进行相似度分析，为了计算两向量之间的相似度利用余弦相似度(CosineSimilarity)公式，但不限定于此。如果使用余弦相似度，则相似度为1的情况可以表示完全不同，相似度为0的情况可以表示没有相关度，相似度和相关度根据之间的数字的大小而不同。

根据相关方式给出情节串联图板时，选择和情节串联图板各个场面相符的场面要素，从而抽象的情节串联图板可以转换为用于合成视频的具体的项目文件。例如，情节串联图板的规则元标签记载为“前奏”时，检查场面要素的规则元标签，“前奏”被整体或部分检索的情况，可以提取为后补场面要素。针对如此提取的后补场面要素，进行根据主题建模方式的相似度计算，从而可以选定最近似的场面要素。例如，如果在事先设置的特定场面要素的整体集合(Entire Set of Specific Scene Elements)中通过规则元标签的检索选择部分集合，最后通过不规则元标签提取完成相似度计算的最终场面要素的部分集合的话，那么规则元标签的情况，通过单纯单词检索可以简单地提取，但不规则元标签为了能够综合反映多个单词的加权值，可以使用上述的LSA。为了决定情节串联图板所包括的特定场面，可以在场面要素中选定场面模板的规则元标签和不规则元标签，然后用相同的方法选定相应场面中的资源、背景音乐、滤波效应、掩蔽效应。在场面要素中，背景音乐、滤波效应、掩蔽效应可以构成为为了视频氛围的连贯性而针对播放视频的整体时间进行全局反映。

就检索部360而言，当对用户终端100上传的语音进行检索时输入基于语音的检索语的情况，检索部360利用STT以和语音对应的形式输出文本后，可以以输出的文本和预先存储的语音内包含的文本之间的相似度为基础输出检索结果。另外，检索部360当检索部输入基于文本的检索语的情况，可以以输入的基于文本的检索语和预先存储的语音内包含的文本间的相似度为基础输出检索结果。并且，检索部360将检索结果按照相似度高的顺序列表并提供，检索结果可以一起输出语音的录音时间及位置和语音的录音文件。

调整部370在选择了从用户终端100上传的语音后选择背景音乐时，可以增减背景音乐的音量大小，使之与上传的语音的大小成反比例。此时，调整部370利用光谱图将声音的频率和振幅输出为图像，并用CNN对输出的图像进行分析，从而可以把握声音的增减，减小或增大背景音乐的声音。例如，用户的语音录得较小的情况，可以提高语音的音量，但也可以减小背景音乐。相反也同样。当然，在上述的过程之后为了声音输出的均匀性也可以额外进行使得声音的大小和定制视频整体匹配的作业。

就结算部380而言，从用户终端100输出对生成部生成的定制视频的购买及结算请求时，结算部380完成结算后可以将定制视频转码为用户终端100可驱动的格式并传输给用户终端100或转码为用户终端100指定的至少一个网站的预先设定的格式并上传。这里，所谓转码指的是，学习者之类的用户即使不设置多种程序或Active X控件等，也可以以适合用户终端100的格式转换原始视频的技术。转码根据压缩率或压缩方法的不同，网络资源和计算资源会急剧变化，在单一服务器基础上,无法获得充分的网络资源或计算资源。此时，本发明中，因为GPU可以比CPU每单位面积处理更多的数据，所以利用可以适应性地维持QoS这一点。首先，双转码方法在处理转码请求之前，结算部380可以预测工作负载(Workload)，判断是否能够维持对相应请求的QoS。此时，为了预测针对转码请求的工作负载虽然可以使用线性回归分析方法，但不限于此。如果判断能够维持QoS，则通过将作业分配给CPU或GPU转码器中更适合的设备，可以提高计算资源的效率。结果是，单一服务器在QoS维持下可以提供更多用户的请求。

定制视频制作服务提供服务器300可以是基于Saas(Software as a Service，软件即服务)、Iaas(Infrastructure as a Service，基础设施即服务)Saas(Software as aService，软件即服务)以及Paas(Platform as a Service，平台即服务)中任意一个或至少一个的组合的云服务器。通过Iaas(Infrastructure as a Service，基础设施即服务)可以弹性、快速地提供服务器运行所需的服务器资源、IP、网络、储存、电力等多种基础设施资源。Iaas可以轻松追加或去除资源并提供运行体系，因此可以提供熟悉的环境。可以通过Paas(Platform as a Service，平台即服务)提供服务，但是是提供稳定的环境和可以开发利用所述环境的应用程序的API的服务。Paas可简便地构建并分发原始代码，容易根据使用量进行调整。Saas(Software as a Service，软件即服务)是向用户提供在云环境下操作的应用程序的服务。Saas可以在任何地方轻易利用网络，只要有网络浏览器在任何地方均可以接近。

当然，在非云环境，例如，用户终端100能够直接录音并将录音的语音数据立即制作为定制视频的情况，也可以不利用上述的云，可以以删除云平台的结构的形式实现及构成。此外，例如，用户终端100为多个的情况，在未单独内置麦克风的用户终端100制作定制视频，在内置麦克风的用户终端100进行录音并上传至云，也可以按照这样的方向实现实施例。至少一个构成及步骤可以用多个用户终端100以分离的形式实现，相反也可以在一个用户终端100统一实现多个构成及步骤。

以下，以图3及图4为例对根据上述图2的定制视频制作服务提供服务器的结构的操作过程进行详细说明。但是不言而喻的是，实施例只是本发明的多个实施例中的某一个，不限于此。

参照图3，(a)定制视频制作服务提供服务器300从至少一个内容提供终端400接收背景音乐、人物、类别、内容等的上传，然后按照类别构建分类及大数据。并且(b)如果用户终端100选择了用于生成定制视频的类别，则定制视频制作服务提供服务器300提供预先映射并存储在该类别的背景音乐、人物、内容等。此时，类别包括爱、伤心/安慰、友情、激励、离别、节日问候、孝道、纪念日、高兴/祝贺、宣传问候、吊唁、开业问候、佛诞日、圣诞节、评论、通知/公告、季节、自然、生日祝福、旅行等，多种多样，但不限于列举的事项。

此时，用户终端100选择了“爱”这一类别时，可以输出与“爱”相关的图像、背景音乐、视频、文本、人物等，用户选定了人物后进行字幕、背景音乐、语音录音等的情况，随机或按顺序进行各个选择作业。因此，在用户终端100的画面输出(c)映射为A至F的“爱”标签或元数据的内容，用户选择A后，(d)选择背景音乐的情况，同样可以列表和“爱”相映射的背景音乐。此时，用户除了相应类别内的背景音乐外可能想使用多种背景音乐，因此也可以脱离类别或通过检索来检索及输入其他背景音乐。背景音乐的整个类别，例如，不仅可以分类为像幽默、恐怖、猎奇、伤心、感动、平和、希望、激励、单纯、安静、庄重、真挚、律动、高兴、合成必备要素图库、悲伤、沉重、活力、雄伟、朦胧、梦幻、从容、哀切、开心、凄凉、童心、忧郁、挫折、神秘、紧迫、平静、兴奋、日常、古典、活泼、夜店、紧张、悲壮、寒心、焦躁、温和、可爱、甜蜜、幸福、自作曲、堂堂正正、轻快，回忆、温暖之类的音乐类型，而且可以用形容词或抽象词之类的单词进行分类。可以按类别提供推荐音乐，也可以提供1分钟试听，做出选择的情况，相应背景音乐作为定制视频的背景音乐插入。

如此，用户终端100选择背景音乐的情况，如图4(a)所示，可以在下一步骤(或随机的步骤)唤出用户终端100录音的文件，即检索语音数据并插入。(b)语音数据可以用语音检索，可以如(c)所示进行检索。并且，对插入的语音数据、背景音乐、内容等渲染结果组合满意的情况，用户终端100可以进行用于存储或上传的结算。

对图2至图4的使用基于云的语音结合的定制视频制作服务提供方法没有进行说明，其和前面通过图1对使用基于云的语音结合的定制视频制作服务提供方法进行说明的内容相同或可以从说明的内容容易地推导出，因此以下省略说明。

图5是示出在根据本发明的一个实施例的图1的使用基于云的语音结合的定制视频制作服务提供系统所包括的各构成之间收发数据的过程的图。以下通过图5说明了在各构成之间收发数据的过程的一个例子，并非通过这一实施例限定解释本发明，根据前面说明的多种实施例，可以改变图5所示的数据收发过程，这对所属技术领域的从业者来说是显而易见的。

参照图5，定制视频制作服务提供服务器对至少一种类别的文本、图像、视频及背景音乐进行分类及存储S5100，并接收与从用户终端上传的用户的话语相对应的语音数据的上传S5200。

另外，定制视频制作服务提供服务器利用STT(语音转文本)将上传的语音数据转换为文本数据并存储S5300，用户终端从至少一个类别中选择任意一个类别时，向用户终端提供预先映射并存储在所选类别中的图像或视频S5400。

最后，用户终端选择了字幕或背景音乐并接收了字幕数据或选择的背景音乐的情况，定制视频制作服务提供服务器生成包括内容及上传的语音、字幕或背景音乐的定制视频S5500。

上述步骤S5100～S5500之间的顺序只是例示，不限于此。即，上述步骤S5100～S5500之间的顺序可以相互变动，其中一部分步骤也可以同时进行或删除。

对图5的使用基于云的语音结合的定制视频制作服务提供方法没有进行说明，其和前面通过图1至图4对使用基于云的语音结合的定制视频制作服务提供方法进行说明的内容相同或可以从说明的内容容易地推导出，因此以下省略说明。

通过图5说明的根据一个实施例的使用基于云的语音结合的定制视频制作服务提供方法也可以实现为通过计算机运行的应用程序或程序模块之类的通过计算机能运行的包括命令语的记录媒体的形态。计算机可读媒体可以是通过计算机能够访问的任意的可用媒体，包括挥发性及非挥发性媒体、分离型及非分离型媒体。此外，计算机可读媒体可以包括计算机存储媒体。计算机存储媒体包括用用于存储计算机可读命令、数据结构、程序模块或其他数据之类的信息的任意的方法或技术实现的挥发性及非挥发性媒体、分离型及非分离型媒体。

前述的根据本发明的一个实施例的使用基于云的语音结合的定制视频制作服务提供方法可以通过基本设置于终端机的应用程序(其可以包括基本搭载于终端机的平台或运行体系等所包含的程序)来运行，也可以借助用户通过应用商店服务器、和应用程序或相应服务相关的网页服务器等应用程序提供服务器直接设置于智能终端机的应用程序(即，程序)来运行。在这一意义上，前述的根据本发明的一个实施例的使用基于云的语音结合的定制视频制作服务提供方法可以通过基本设置于终端机或由用户直接设置的应用程序(即，程序)实现，可以记录在终端机上等计算机可读记录媒体上。

前述的本发明的说明用于例示，本发明所属的技术领域的具有一般知识的人在不变更本发明的技术思想或必要特征的情况下可以容易地变形为其他具体的形态，这是可以理解的。因此，需要理解以上记述的实施例在所有方面是例示的，并非限定。例如，说明为单一型的各构成要素也可以分散实施，同样，说明为分散的构成要素也可以实施为结合的形态。

应解释为，本发明的范围通过权利要求书得以体现，而不是通过详细的说明，从权利要求书的意义及范围以及其均等范围导出的所有变更或变形形态包含在本发明的范围内。

产业可利用性

根据本发明，对在用户终端存储的录音文件中包含用户语音话语的录音文件自动进行分类及提取并以后台模式上传至云平台，在用户终端制作定制视频的时候，提供预先存储的至少一个类别的内容，从而即使不购买或下载编辑程序，普通人也能直观地整合字幕、背景音乐、录音文件并制作用户定制视频，上传至预先设定的上传服务器的时候，以和上传服务器要求的格式相符合的形式自动转码，存储于用户终端的时候也转码为在用户终端能够播放的格式，从而可以使用户的便利最大化。

Claims

1.一种使用基于云的语音结合的定制视频制作服务提供系统，其特征在于，包括：

用户终端，其接收以语音形式输入的用户话语并上传，从至少一种类别中选择任意一个类别，选择包括图像或视频的内容，选择字幕或背景音乐，播放包括内容及上传的语音、字幕或背景音乐的定制视频；以及

定制视频制作服务提供服务器，其包括数据库化部、上传部、转换部、提供部、生成部，数据库化部对至少一种类别的文本、图像、视频及背景音乐进行分类及存储，上传部接收从用户终端上传的与用户话语相对应的语音数据的上传，转换部利用STT(语音转文本)将上传的语音数据转换为文本数据并存储，当用户终端从至少一个类别中选择了任意一个类别时，提供部将预先映射并存储在所选类别中的图像或视频提供给用户终端，当用户终端选择了字幕或背景音乐并接收了字幕数据或所选择的背景音乐时，生成部生成包括内容及上传的语音、字幕或背景音乐的定制视频。

2.根据权利要求1所述的使用基于云的语音结合的定制视频制作服务提供系统，其特征在于，

上传部被动或自动地从用户终端接收上传的语音数据、文本数据、图像数据及视频数据中的任意一个或至少一个的组合。

3.根据权利要求1所述的使用基于云的语音结合的定制视频制作服务提供系统，其特征在于，

上传部对用户终端录音的录音数据中与用户话语相对应的语音进行区分并选择性地接收以后台模式上传的语音数据。

4.根据权利要求1所述的使用基于云的语音结合的定制视频制作服务提供系统，其特征在于，

定制视频制作服务提供服务器是基于Saas(软件即服务)、Iaas(基础设施即服务)Saas(软件即服务)以及Paas(平台即服务)中任意一个或至少一个的组合的云服务器。

5.根据权利要求1所述的使用基于云的语音结合的定制视频制作服务提供系统，其特征在于，

定制视频制作服务提供服务器还包括：

检索部，对从用户终端上传的语音进行检索时，输入基于语音的检索语的情况，检索部利用STT以与语音相对应的形式输出文本后，以所输出的文本和预先存储的语音内包括的文本间的相似度为基础输出检索结果，

当输入基于文本的检索语时，检索部以所输入的基于文本的检索语和预先存储的语音内包括的文本间的相似度为基础输出检索结果。

6.根据权利要求5所述的使用基于云的语音结合的定制视频制作服务提供系统，其特征在于，

所述检索部将所述检索结果按照相似度高的顺序列表并提供，所述检索结果一起输出语音的录音时间及位置和语音的录音文件。

7.根据权利要求1所述的使用基于云的语音结合的定制视频制作服务提供系统，其特征在于，

所述定制视频制作服务提供服务器还包括：

调整部，其在选择了从用户终端上传的语音后选择背景音乐时，增减所述背景音乐的音量大小，使之与上传的语音的大小成反比例。

8.根据权利要求1所述的使用基于云的语音结合的定制视频制作服务提供系统，其特征在于，

所述定制视频制作服务提供服务器还包括：

结算部，当从用户终端输出对生成部生成的定制视频的购买及结算请求时，结算部完成结算后将定制视频转码为用户终端可驱动的格式并传输给用户终端或转码为用户终端指定的至少一个网站的预先设定的格式并上传。