CN107330961A

CN107330961A - 一种文字影音转换方法和系统

Info

Publication number: CN107330961A
Application number: CN201710557376.6A
Authority: CN
Inventors: 胡志卫
Original assignee: Hubei Union Technology Co Ltd
Current assignee: Hubei Union Technology Co Ltd
Priority date: 2017-07-10
Filing date: 2017-07-10
Publication date: 2017-11-07

Abstract

本发明涉及一种文字影音转换方法和系统，系统包括：读取模块、语音模块、图像模块、整合模块和输出模块；方法包括：读取数字化文件，所述数字化文件包括文字信息，所述文字信息包括若干文字；把所述文字信息转化为语音文件；创建人物模型，并根据所述数字化文件控制所述人物模型，输出所述人物模型的图像文件；整合所述语音文件和所述图像文件，得到影音文件；输出所述影音文件。本发明可以把数字化文件分别转化为语音文件，创建人物模型并根据文字的顺序控制所述人物模型，输出图像文件，再对语音文件和图像文件合成为影音文件，输出的影音文件既有语音，也有影像，有利提高阅读的趣味性，并能够增强阅读的互动性和体验感，阅读效果更好。

Description

一种文字影音转换方法和系统

技术领域

本发明涉及文字处理和电子技术领域，尤其涉及一种文字影音转换方法和系统。

背景技术

目前，人们看书的方式主要包括通过纸质书、电子墨水屏和手机平板等进行直接阅读；也可以通过把文字转化成语音，通过听书的方式进行间接阅读。不管是通过何种方式看书，都存在过于单调的缺点，人们只能单方面从听觉或者视觉上获取文字信息，体验感不够强。因此，提出一种新的阅读方式，增强阅读的互动性，是业界亟需解决的问题。

发明内容

为了克服上述现有技术的不足，本发明提出了一种文字影音转换方法和系统，能够增强阅读的互动性和体验感，阅读效果更好，以满足不同人群的需求。

本发明解决上述技术问题的技术方案如下：一种文字影音转换方法，具体包括步骤：

读取数字化文件，所述数字化文件包括文字信息，所述文字信息包括若干文字；

把所述文字信息转化为语音文件；

创建人物模型，并根据所述数字化文件控制所述人物模型，输出所述人物模型的图像文件；

整合所述语音文件和所述图像文件，得到影音文件；

输出所述影音文件。

本发明的有益效果在于：本技术方案先把数字化文件分成语音文件和图像文件，再对语音文件和图像文件进行整合得到影音文件，再输出影音文件就可以形成人物模型在为用户朗读书籍的场景。通过上述技术方案，本发明可以把数字化文件分别转化为语音文件，创建人物模型并根据文字的顺序控制所述人物模型，输出图像文件，再对语音文件和图像文件合成为影音文件，输出的影音文件既有语音，也有影像，有利提高阅读的趣味性，并能够增强阅读的互动性和体验感，阅读效果更好。

进一步地，根据所述数字化文件控制所述人物模型的过程具体为：

预设唇形库，所述唇形库内储存有多个唇形文件；

分析数字化文件中各个文字的读音；

根据各个文字的读音，匹配得到对应的所述唇形文件；

依次把匹配得到的所述唇形文件覆盖到人物模型嘴唇对应的位置上。

进一步地，在读取数字化文件后还进一步获取字幕文件，具体为：

提取所述文字信息，把所述文字信息转化为字幕文件；

把所述字幕文件整合到所述影音文件。

进一步地，所述数字化文件还包括图片信息，在读取数字化文件后还进一步获取图片信息，具体为；

提取所述图片信息，把所述图片信息转化为图片文件；

把所述图片文件整合到所述影音文件。

进一步地，根据所述数字化文件控制所述人物模型还包括控制人物模型的肢体动作。

本发明解决上述技术问题的技术方案如下：一种文字影音转换系统，包括：

读取模块，用于读取数字化文件，所述数字化文件包括文字信息，所述文字信息包括若干文字；

语音模块，用于把所述文字信息转化为语音文件；

图像模块，用于创建人物模型，并根据所述数字化文件控制所述人物模型，输出所述人物模型的图像文件；

整合模块，用于整合所述语音文件和所述图像文件，得到影音文件；

输出模块，用于输出所述影音文件。

进一步地，所述图像模块包括：

唇形库单元，用于预设唇形库，所述唇形库内储存有多个唇形文件；

读音分析单元，用于分析数字化文件中各个文字的读音；

匹配单元，用于根据各个文字的读音，匹配得到对应的所述唇形文件；

唇形覆盖单元，用于依次把匹配得到的所述唇形文件覆盖到人物模型嘴唇对应的位置上。

进一步地，所述整合模块还用于提取所述文字信息，并把所述文字信息转化为字幕文件，然后把所述字幕文件整合到所述影音文件。

进一步地，所述数字化文件还包括图片信息，所述整合模块还用于提取所述图片信息，并把所述图片信息转化为图片文件，然后把所述图片文件整合到所述影音文件。

进一步地，所述整合模块还用于控制人物模型的肢体动作。

附图说明

图1为本发明一种文字影音转换方法的流程图；

图2为本发明一种文字影音转换系统的模块示意图；

图3为本发明的应用场景示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明描述的是将数字化文件转化为影音输出的过程，构建出一个人物模型在为用户朗读书籍的场景。数字化文件包括电子书、电子文档、打字输入，或是电脑自动生成的且可在电子设备中显示文本等等。

如图1所示，图1为本发明一种文字影音转换方法的流程图。一种文字影音转换方法，具体包括步骤：

S1.读取数字化文件，所述数字化文件包括文字信息，所述文字信息包括若干文字；

S2.把所述文字信息转化为语音文件；

S3.创建人物模型，并根据所述数字化文件控制所述人物模型，输出所述人物模型的图像文件；

S4.整合所述语音文件和所述图像文件，得到影音文件；

S5.输出所述影音文件。

对应地，如图2所示，图2为本发明一种文字影音转换系统的模块示意图。一种文字影音转换系统，包括：

读取模块1，用于读取数字化文件，所述数字化文件包括文字信息，所述文字信息包括若干文字；

语音模块2，用于把所述文字信息转化为语音文件；

图像模块3，用于创建人物模型，并根据所述数字化文件控制所述人物模型，输出所述人物模型的图像文件；

整合模块4，用于整合所述语音文件和所述图像文件，得到影音文件；

输出模块5，用于输出所述影音文件。

本技术方案先把数字化文件分成语音文件和图像文件，再对语音文件和图像文件进行整合得到影音文件，再输出影音文件，就可以形成人物模型在为用户朗读书籍的场景。通过上述技术方案，本发明可以把数字化文件分别转化为语音文件，创建人物模型并根据文字的顺序控制所述人物模型，输出图像文件，再对语音文件和图像文件合成为影音文件，输出的影音文件既有语音，也有影像，有利提高阅读的趣味性，并能够增强阅读的互动性和体验感，阅读效果更好。

进一步，根据所述数字化文件控制所述人物模型的过程具体为：

预设唇形库，所述唇形库内储存有多个唇形文件；

分析数字化文件中各个文字的读音；

根据各个文字的读音，匹配得到对应的所述唇形文件；

对应地，所述图像模块3包括：

读音分析单元，用于分析数字化文件中各个文字的读音；

目前，常用汉字的数量大约为3500个，每个汉字都有对应的读音，因此，先预设唇形库，储存与汉字发音对应的唇形文件，唇形文件越丰富越好；然后，分析文字信息中所包括文字的读音，为匹配唇形文件做准备；再根据文字的读音，匹配得到对应的唇形文件，如根据“影”字的读音，匹配得到“影”字对应的唇形文件；最后，依次把匹配得到的唇形文件覆盖到人物模型嘴唇对应的位置上，如把“影”字对应的唇形文件覆盖到人物模型嘴唇对应的位置上，人物模型的嘴唇就可以做出发出“影”字时的唇形。根据文字信息中所包括文字的顺序，依次完成上述步骤，就可以模拟出人物模型朗读对应文字的图像文件，易于实现，有利于提高阅读增强阅读的互动性。

通过唇形库是其中的一种控制方式，也可通过其它的方式控制，只要能够实现人物模型的唇形与文字信息对应即可。

另外，所述数字化文件还包括图片信息，在读取数字化文件后还进一步获取字幕文件和图片信息。获取字幕文件具体为：提取所述文字信息，把所述文字信息转化为字幕文件；把所述字幕文件整合到所述影音文件。获取图片信息具体为：提取所述图片信息，把所述图片信息转化为图片文件；把所述图片文件整合到所述影音文件。对应地，所述整合模块4还用于提取所述文字信息，并把所述文字信息转化为字幕文件，然后把所述字幕文件整合到所述影音文件。所述整合模块4还用于提取所述图片信息，并把所述图片信息转化为图片文件，然后把所述图片文件整合到所述影音文件。

本发明的另一实施例为：

读取数字化文件；

把所述文字信息转化为语音文件；

提取所述文字信息，把所述文字信息转化为字幕文件；

提取所述图片信息，把所述图片信息转化为图片文件；

整合所述语音文件、所述图像文件、所述字幕文件和所述图片文件，得到影音文件；

输出所述影音文件。

总的来说，本实施例先把数字化文件分别转化为语音文件、图像文件、字幕文件和图片文件，再把语音文件、图像文件、字幕文件和图片文件整合到一起，得到影音文件。人物模型在为用户朗读书籍的场景中，除了听到声音和看到视频外，还可以看到字幕和图片，进一步提升阅读的体验。

需要说明的是，数字化文件包括文字信息和图片信息，其中文字信息可被语音模块2识别，而对于不能被识别的则作为图片信息，进一步转化为图片文件进行显示即可。

进一步，除了对人物模型的唇形进行匹配和覆盖外，根据数字化文件控制人物模型还包括控制人物模型的肢体动作。对应地，所述整合模块4还用于控制人物模型的肢体动作。

进一步，通过动画技术控制人物模型的肢体动作。例如，采用骨骼动画的方式模拟动画模型在多个时间需要更新的骨骼运动，从而生成骨骼动画的变换矩阵；建立若干个情景模式，如历史类情景和纪实类情景等，每个情景模式对应有不同的变换矩阵；根据数字化文件的内容，结合情景模式，采用不同的变换矩阵控制人物模型的肢体动作，提升阅读的趣味性。

具体地，本技术方案的硬件系统可以通过多种方式来实现。

在一个实施例中，读取模块1、语音模块2、图像模块3、整合模块4和输出模块5集成在手机或者平板电脑或者个人电脑中，通过纯软件来实现，上述设备在对数字化文件进行处理后，直接通过设备上的显示屏输出影音文件。

在另一个实施例中，读取模块1、语音模块2、图像模块3和整合模块4集成在手机或平板电脑等，输出模块5则为投影仪，手机或平板电脑通过连接并控制投影仪，在对数字化文件进行处理后，输出整合得到的影音文件。其中，可以通过连接扫描投影仪的二维码的方式进行连接。

在另一个实施例中，也可把读取模块1、语音模块2、图像模块3、整合模块4和输出模块5统一集成在VR设备中，VR设备在对数字化文件进行处理后，直接输出影音文件，用户只需要戴上VR设备即可使用本系统。

如图3所示，图3为本发明的应用场景示意图。创建虚拟的人物模型，是人物模型为用户朗读书籍场景中的视觉基础，此时只是一个无声的人物模型，搭配相应的场景与服装，其唇形和肢体动作则根据文字信息的内容不停变换，用户就能看到且听到一个虚拟的人在朗读，其唇形和肢体动作都与自然人类似。优选的，人物模型可以根据某个真人来创作，也可以自主设计合成。

把所述文字信息转化为语音文件，即以数字化文件中的文字信息为参考，不断合成相应的声音，是人物模型为用户朗读书籍场景中的听觉基础。如果没有声音，用户只能看到人物模型在做无声的动作。优选的，合成的声音可以是男声或是女声，也可以有孩童或是老人的声音。

有了视觉基础和听觉基础，需要进一步整合得到影音文件，保持人物模型的唇形和正在发出的声音一致。

数字化文件包括文字信息和图片信息，其中文字信息较容易被识别，而对于不能被识别的再作为图片信息

除此之外，数字化文件可能还会有图片信息，还需要把正在朗读的当前页中的图片信息整合到输出图像中，比如显示在人物模型旁边的图片显示区中，当此页朗读完毕，图片信息也就不再显示。优选的，还可以整合当前数字化文件的信息，如当前朗读的文档缩略图，显示在书籍信息显示区，当此页朗读完毕，此区域则自动替换成下一页的文档缩略图。进一步，由于汉字同音字较多，把字幕文件整合到影音文件，整合正在朗读的句子，以字幕的形式显示在画面下方的字幕显示区。

当然，这是只是用字幕和图片信息举例说明所显示的信息，实际应用中不只是这两种，也可依据应用场景的不同而显示其他需要的信息。

具体的应用场景包括：

在某写字楼大厅，摆放着一个一人来高的显示器，显示器展示着一位虚拟的物业管理员，通过预先输入的数字化文件，通过上述技术方案，物业管理员讲解着电梯的分布位置，向来往人们问好，提醒人们保持秩序。

在某会议室中，工作人员将数字化文件导入到电子设备中，通过上述技术方案，然后输出到投影仪上，画面中显示着一位虚拟工作人员，虚拟工作人员将数字化文件中的内容一一念出，图片则显示在画面一侧。

在某家庭中，作为数字化文件的电子书经过手机程序处理，然后把信号输出到电视机，电视上出现一位图书管理员，有声有色地朗读着电子书，书中的图片和页面缩略图显示在画面两侧，下方还显示着字幕，此时，人们可以放下手机，感受图书管理员读书所带来的直观体验。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文字影音转换方法，其特征在于，具体包括步骤：

把所述文字信息转化为语音文件；

整合所述语音文件和所述图像文件，得到影音文件；

输出所述影音文件。

2.根据权利要求1所述的一种文字影音转换方法，其特征在于，根据所述数字化文件控制所述人物模型的过程具体为：

预设唇形库，所述唇形库内储存有多个唇形文件；

分析数字化文件中各个文字的读音；

根据各个文字的读音，匹配得到对应的所述唇形文件；

3.根据权利要求1所述的一种文字影音转换方法，其特征在于，在读取数字化文件后还进一步获取字幕文件，具体为：

提取所述文字信息，把所述文字信息转化为字幕文件；

把所述字幕文件整合到所述影音文件。

4.根据权利要求1-3任一项所述的一种文字影音转换方法，其特征在于，所述数字化文件还包括图片信息，在读取数字化文件后还进一步获取图片信息，具体为；

提取所述图片信息，把所述图片信息转化为图片文件；

把所述图片文件整合到所述影音文件。

5.根据权利要求1-3任一项所述的一种文字影音转换方法，其特征在于，根据所述数字化文件控制所述人物模型还包括控制人物模型的肢体动作。

6.一种文字影音转换系统，其特征在于，包括：

语音模块，用于把所述文字信息转化为语音文件；

输出模块，用于输出所述影音文件。

7.根据权利要求6所述的一种文字影音转换系统，其特征在于，所述图像模块包括：

读音分析单元，用于分析数字化文件中各个文字的读音；

8.根据权利要求6所述的一种文字影音转换系统，其特征在于，所述整合模块还用于提取所述文字信息，并把所述文字信息转化为字幕文件，然后把所述字幕文件整合到所述影音文件。

9.根据权利要求6-8任一项所述的一种文字影音转换系统，其特征在于，所述数字化文件还包括图片信息，所述整合模块还用于提取所述图片信息，并把所述图片信息转化为图片文件，然后把所述图片文件整合到所述影音文件。

10.根据权利要求6-8任一项所述的一种文字影音转换系统，其特征在于，所述整合模块还用于控制人物模型的肢体动作。