CN101325502A - 基于文本-语音转换生成并处理数字内容的方法和系统 - Google Patents

基于文本-语音转换生成并处理数字内容的方法和系统 Download PDF

Info

Publication number
CN101325502A
CN101325502A CNA2008100817341A CN200810081734A CN101325502A CN 101325502 A CN101325502 A CN 101325502A CN A2008100817341 A CNA2008100817341 A CN A2008100817341A CN 200810081734 A CN200810081734 A CN 200810081734A CN 101325502 A CN101325502 A CN 101325502A
Authority
CN
China
Prior art keywords
audio data
data file
user
script
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100817341A
Other languages
English (en)
Inventor
李东勋
金姾希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN101325502A publication Critical patent/CN101325502A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Abstract

提供一种用文本-语音(TTS)转换生成数字内容的方法和系统。用便携式终端或用户个人计算机(PC)选择预定脚本。确定用于将所选脚本转换成音频数据文件的格式。使用向用户PC和web服务器中至少一个提供的TTS引擎,根据所确定的音频数据文件的转换格式将所选脚本生成为音频数据文件。

Description

基于文本-语音转换生成并处理数字内容的方法和系统
相关申请的交叉引用
本发明要求韩国专利申请No.10-2007-0058764(2007年6月15日提交)在35U.S.C.119和35U.S.C.365下的优先权,该申请通过引用整体结合于此。
背景技术
本公开涉及数字内容的生成和处理。
一般而言,连接到因特网的内容服务器向用户计算机提供通过将离线文档转换成web文档而构成数据库的其自身内容或者在因特网上搜索并适于用户请求的内容。用户在使用能够再现媒体的任何便携式终端访问连接于因特网的内容服务器之后搜索他/她希望的内容、通过该便携式终端下载搜索到的内容并通过该便携式终端的输出单元将所下载的内容再现为图像或声音。同时,从内容服务器提供的内容可由从服务频道广播等所提供的图像、声音、文本、数据构成。内容的使用根据内容提供者的服务范围而受限。如果文本以及与该文本同步的声音被一起提供作为由内容服务器提供的内容,则便携式终端的用户可选择性地使用文本和声音数据源中的所需之一。然而,如果由内容服务器提供的特定内容仅包括文本相关数据,则用户只能通过便携式终端看到文本中的内容,而无法按照他/她所希望地立即使用该文本的音频输出。特别地,即使用户希望在阅读国外新闻的同时听到相应外语的国外新闻,如果与国外新闻相关联的内容不包括相应外语的音频文件,则用户无法立即听到相应外语的国外新闻。这样,该内容在语言培训或学习上的使用受到限制。
将web服务器上的文本转换成语音的接口技术,即文本-语音(TTS)技术被应用于个人计算机、便携式终端或内容服务器,使得其将所选文本转换成语音并输出所转换的语音。然而,这种技术仅用于将所选文本转换成语音,而不能将所选文本提供为用户需要的声音文件。具体而言,如果用户想要使用与从因特网的web服务器提供的所选脚本相对应的声音文件学习外语,则所选脚本较佳地适于带有与用户要求水平或用户的语言能力水平相对应的合适的语音文件。然而,该请求并至今未得到满足。
发明内容
因此,实施方式涉及一种用于生成和处理数字内容的方法和系统,其中将由用户指定的预定脚本转换成与用户水平相对应的音频数据文件,并且存储所转换的音频数据文件,由此使得用所存储的音频数据文件进行适于用户水平的语言学习成为可能。
根据各实施方式,一种用于生成和处理数字内容的方法和系统,其中将由用户准备的脚本或者用户从由连接到因特网的web服务器提供的web页面上的脚本指定的预定脚本转换成对应于用户水平的音频数据文件,并且存储所转换的音频数据文件,由此使得用所存储的音频数据文件进行适于用户水平的语言学习成为可能。
根据一实施方式,一种用于生成和处理数字内容的系统包括:脚本选择器,选择预定脚本;文件格式确定器,确定用于将所选脚本转换成音频数据文件的格式;音频数据文件生成器,根据所确定的音频数据文件的格式生成对应于所选脚本的音频数据文件。
根据一实施方式,一种用于生成数字内容的方法包括以下步骤:选择预定脚本;确定用于将所选脚本转换成音频数据文件的格式;以及根据所确定的音频数据文件的转换格式将所选脚本转换成音频数据文件。
根据一实施方式,一种用于生成和处理数字内容的方法包括以下步骤:选择预定脚本;确定用于将所选脚本转换成音频数据文件的格式;根据所确定的音频数据文件的转换格式将所选脚本转换成音频数据文件;以及再现所转换的音频数据文件。
根据一实施方式,一种用于处理数字内容的方法,该方法包括以下步骤:选择预定脚本;设置用于将所选脚本转换成音频数据文件的格式;根据所设置的转换格式将所选脚本转换成音频数据文件,并将表达转换格式的信息与音频数据一起描述为元数据;以及连同元数据一起提供音频数据文件。
通过根据各实施方式的用于生成和处理数字内容的方法和系统,从由用户准备的脚本生成并存储对应于由用户设置的水平的音频数据文件,使得不仅允许所生成的音频数据文件在适于用户水平的语言学习中使用而且可被下载到便携式终端。因此,用户可在走动期间使用便携式终端进行适合用户水平的语言学习。
附图说明
附图被包括以提供对本发明的进一步理解并且被纳入并构成本申请的一部分。这些附图与描述一起示出本发明的实施方式,并且用于解释本发明的原理。
图1是示出根据一实施方式用于生成并处理数字内容的系统的视图;
图2是示出根据一实施方式的便携式终端的配置的视图;
图3是示出根据一实施方式的用于生成和处理数字内容的方法的概念的流程图;
图4是用于解释根据一实施方式的生成数字内容的方法的视图;
图5是用于解释根据另一实施方式的生成数字内容的方法的视图;
图6是用于解释根据又一实施方式的生成数字内容的方法的视图。
具体实施方式
下文中,将参照附图详细描述实施方式。用户从脚本直接生成音频文件的情形将作为实施方式进行描述。就用户直接生成音频文件(即数字内容)这个事实而言,音频文件可以被理解为用户生成内容(UGC)。然而,在该实施方式中所述的术语“UGC”仅供以帮助理解本发明,所以本发明并不限于该术语。
参照图1,根据一实施方式的生成和操作UGC的系统包括:至少一个便携式终端110或用户个人计算机(PC),选择用于生成音频文件的预定脚本;用户界面,通过便携式终端110或用户PC 120提供以便确定所选脚本的音频数据文件格式;以及文本-语音(TTS)引擎121或141,被提供给便携式终端110或用户PC 120和UGC服务器的至少一个,以便根据所确定的音频数据文件格式生成对应于所选脚本的音频数据文件。
在此,便携式终端110包括从都是在用户走动时可用的信息处理设备的个人数字助理(PDA)、袖珍PC、手持式PC(HPC)、掌上机(web pad)、膝上型计算机、和电子书终端中选择的至少一个,并且通常具有再现包括视频、音频等的多媒体的功能。预定脚本是从由用户准备的脚本以及从连接到因特网的至少一个web服务器提供的web页面上的脚本中选择的一个。在web页面上的脚本的情形中,web页面的整个脚本或用户指定区域内的部分脚本被选择。
用于处理各种输入指令的各种程序被存储在或安装在便携式终端110或用户PC 120上。UGC服务器140支持由通过因特网130彼此连接的多个便携式终端110或用户PC 120请求的上传和下载UGC的功能。与UGC服务器140连接的数据库150充当数据库并存储由UGC服务器140生成或向UGC服务器140上传的内容,并提供对应于多个便携式终端110或用户PC 120的请求的内容。同时,多个web服务器160存储诸如视频、音频、文本(脚本)等各种格式的各类内容,并且向对应设备提供与来自通过因特网130访问的便携式终端110或用户PC 120或UGC服务器140的请求相对应的内容。对应于由用户选择的脚本的音频文件适于由安装在用户PC 120上的TTS引擎121生成或者由安装在UGC服务器140上的TTS引擎141生成。此外,对应于由用户选择的脚本的音频文件可通过UGC服务器140基于由安装在用户PC 120上的UGC服务器专有浏览器提供的菜单项的输入来生成。
参照图2,便携式终端110包括控制器111、用户输入单元112、存储113、收发器114、音频信号处理器115、音频输出单元116、视频信号处理器117以及视频输出单元118。用户输入单元112包括具有用于选择和操控对应于用户期望执行的各种功能的键按钮的多个按钮,以及输出对应于用户输入的语音或者预定联系信号的预定指令数据的触摸面板。控制器111通常控制便携式终端的各个元件,以执行对应于通过用户输入单元112输入的指令的操作。存储113可包括高速数据处理所需的信息存储器单元(即存储器)和存储高容量信息的硬盘驱动器(HDD),并且存储便携式终端操作所需的操作程序和其它应用程序或者用户所需的数字内容。收发器114根据外部设备与便携式终端之间的接口以及通信协议在便携式终端的控制器111的控制下向外部设备发送或者从其接收数据。音频信号处理器115将音频数据处理成音频信号以适于音频输出设备,然后向音频输出单元116输出经处理的音频信号。音频输出单元116具有扬声器,并输出与从音频信号处理器115输出的音频信号相对应的语音或声音。视频信号处理器117将诸如视频图像信号、用户界面屏幕等的视频数据处理成视频信号以适于视频输出设备,并且向视频输出单元118输出该视频信号。视频输出单元118包括显示设备,并且适于在控制器111的控制下在显示器件上显示由视频信号处理器117处理的视频信号以及与便携式电子设备的操作选择相关联的用户界面屏幕。
图3是用于说明根据一实施方式的生成和操作UGC的方法的概念的流程图。由用户选择在便携式终端110的视频输出单元118上或者用户PC 120的显示单元的屏幕上显示的预定脚本(S310)。预定脚本包括用户直接制作的脚本或由服务预定类型的内容并通过因特网130连接的web服务器160提供的web页面上的脚本。在web页面上的脚本中,仅落在整个web页面的预置区域内的部分脚本可通过用户的鼠标操作信号或触摸面板操作信号来选择。在选择脚本的步骤S310,当要转换成音频数据文件的预定脚本被用户选择时,对应于所选脚本的待生成音频数据文件的格式被新近设置,或者先前设置格式的任一种被选择(S320)。对应于所选脚本的待生成音频数据文件的格式可被设置成用户希望使用由便携式终端110或用户PC 120提供的菜单功能的格式,或者通过使用户能够为由UGC服务器140提供的音频数据文件选择预置转换格式中的任一种或通过使UGC服务器140能够使用对UGC服务器140注册的用户信息来选择适于用户水平的音频数据文件转换格式来确定。
当对应于所选脚本的音频数据文本的格式被确定时,执行将所选脚本的字符(文本)信息转换成音频信息的TTS功能。由此,对应于所选脚本的音频数据文件被生成并存储在存储设备中(S330)。将所选脚本转换成音频信息的TTS功能适于由用户PC 120或UGC服务器140执行或者直接由便携式终端110执行。在通过用户PC 120基于脚本生成并存储音频数据文件的情形中,用户向他/她自己的用户PC 120安装同步程序,并且可将对应的音频数据文件下载到通过通用串行总线(USB)端口或串行端口连接的便携式终端110。
一方面,在音频数据文件由UGC服务器140生成并被存储在连接到该UGC服务器140的数据库150中的情形中,用户可通过用户PC 120下载对应的音频数据文件、使用通用串行总线(USB)端口或串行端口将他/她自己的用户PC 120与便携式终端110连接、通过收发器114下载对应的音频数据文件、以及将所下载的音频数据文件存储在存储113中。另一方面,在音频数据文件由UGC服务器140生成并被存储在连接于该UGC服务器140的数据库150中的情形中,便携式终端110可通过收发器114接入无线因特网或对UGC服务器140操作的提供商的通信网络、直接下载对应的音频数据文件、以及将所下载的音频数据文件存储在存储113中。
然后,当用户执行对应的音频数据文件以便于相关于对应脚本进行语言学习或音频听力时,音频信号处理器115再现对应的音频数据文件,并且音频输出单元116根据用户选择或者在适于用户的学习水平的状态中输出对应于脚本的音频信号。由此,用户可在期望状态中收听对应于脚本的语音(S340)。同时,当再现音频数据文件时,对应于音频数据文件的脚本的文本数据可被视频信号处理器117根据通过用户输入单元112输入的用户指令处理成视频信号,并且与视频数据文件的输出同步地输出。
根据一实施方式的生成和操作UGC的方法可取决于设置对应于由用户选择的脚本而生成的音频数据文件的格式的方法以及基于音频数据文件的生成装置的位置而不同地实现。根据该实施方式,对应于所选脚本生成的音频数据文件的格式可适于由用户通过便携式终端110或用户PC 120的用户界面屏幕进行设置。
参照图4,在便携式终端110或用户PC 120的屏幕上显示的预定脚本由用户选择(S410)。当脚本被用户选择时,设置对应于所选脚本生成的音频数据文件的格式的用户布置进程得到执行(S420)。具体而言,在用户选择在便携式终端110或用户PC 120的屏幕上显示的预定脚本的情形中,便携式终端110或用户PC 120的控制器导致界面屏幕被输出,使得用户能够设置对应于所选脚本生成的音频数据文件的格式。例如,当预定脚本被选择时,控制器使得自动显示诸如片段重复、速度调节、阅读后停用之类用于指定对应于所选脚本生成的音频数据文件的格式的子菜单项成为可能。作为一个示例,用户指定被视为较难或特别重要的特定部分或特定词或句子的脚本,然后在自动显示的子菜单项中选择片段重复。然后,用户可设置待生成音频数据文件的格式,使得所指定部分的音频输出被连续重复两次或三次。
作为另一示例,在用于期望调节所选脚本的阅读速度的情形中,用户指定特定区域、或特定词或句子的脚本,然后在自动显示的子菜单项中选择速度调节。在本情形中,额外提供各种速度的选择项以供用户选择,或者额外提供速度输入界面屏幕,使得用户能够输入所需速度。由此,用户可直接设置待生成的语音数据文件的格式使得所选脚本的阅读速度可按用户指定输出。作为又一示例,在用户期望在所选的特定部分的音频输出之后插入预定时间(例如10秒)的不活动片段的情形中,用户在对应于特定部分的选择而显示的子菜单项中选择在阅读之后的预定不活动时间。由此,待生成音频数据文件的格式反映这一特征,因此在再现对应音频数据文件的情形中,用户可设置待生成音频数据文件的格式使得他/她能够认真考虑或重复对应的特定部分的输出语音。
然后,判定设置待生成音频数据文件的格式的用户布置进程是否完成(S430)。如果用户布置进程完成,则执行TTS功能以使用或以对所选脚本设置的音频数据文件的格式生成音频数据文件,并且将所生成的音频数据文件与对应脚本同步。然后,将经同步的音频数据文件存储在预定存储设备中(S440)。在通过执行TTS功能生成所选脚本的音频数据文件的情形中,对应脚本信息适于对应于与在所生成音频数据文件被再现时的语音输出相同的格式或序列而一起被存储,或者独立的脚本信息文件适于被生成和存储以与音频数据文件同步。换言之,当添加片段重复功能时,片段的脚本适于重复生成和存储使得它也可被重复和显示。将所生成的数据文件下载到便携式终端110,然后存储在存储113中。由此,可用适合于用户的音频数据文件有效地进行语言学习。
根据另一实施方式,对应于所选脚本而生成的音频数据文件可适于由UGC服务器生成,并且该待生成音频数据文件可适于被设置成通过用户界面屏幕从由UGC服务器140提供的格式选择的一个。
参照图5,在便携式终端110或用户PC 120的屏幕上显示的预定脚本被用户选择(S510)。用户通过便携式终端110或用户PC 120访问支持UGC的生成和操作的UGC服务器140(S520)。当用户通过便携式终端110或用户PC 120访问UGC服务器140时,UGC服务器140判定访问用户是否是第一连接者(S530)。作为判定(S530)的结果,如果访问用户是第一连接者,则首先执行注册关于访问用户的用户认证信息的进程(S540),然后执行认证用户的进程(S550)。然而,如果访问用户不是第一连接者,则立即执行认证该用户的进程(S550)。随后,UGC服务器140判定用户水平是否被注册以便于确定对应于由用户选择的脚本而生成的音频数据文件的格式(S560)。如果用户水平未被注册,则提供界面屏幕使得用户能够选择对应于所选脚本而生成的音频数据文件的格式(S570)。用所提供的界面屏幕基于输入信息注册用户水平(S580)。在注册用户水平(S580)的进程之后,或者当在步骤S560中注册用户水平时,选择对应于所注册用户水平生成的音频数据文件的格式(S590)。
待生成的对应于用户水平的音频数据文件的格式可被设置成能够根据用户水平以不同阅读速度输出语音的音频数据文件的格式。例如,在按照水平1至水平5对用户水平进行分类的情形中,音频数据文件的格式被分配成允许以一阅读速度输出语音,其中在水平3中该速度是标准阅读速度,在水平1和2中慢于水平3的标准阅读速度,而在水平4和5中快于水平3的标准阅读速度。由此,对应于用户水平而生成的音频数据文件的格式可适于被自动设置成具有对应于访问UGC服务器140的用户的注册用户水平的阅读速度的音频数据文件的格式。此外,对应于用户水平而生成的音频数据文件的格式可适于被设置成如下生成的音频数据文件的格式:可相对于所选脚本根据预定用户水平输出对应于单次阅读、两次重复阅读、三次重复阅读等的语音。
然后,根据所选语音数据文件格式生成对应于由用户选择的脚本的语音数据文件,并且将所生成的音频数据文件与对应的脚本同步并存储在数据库150中(S595)。一方面,用户可通过将其下载到便携式终端110或用户PC 120来立即使用存储在数据库150中的音频数据文件。另一方面,如果以后有必要,用户可在任何时刻通过认证进程访问UGC服务器140,然后通过将其下载到便携式终端110或用户PC 120来使用所存储的音频数据文件。
根据再一实施方式,对应于所选脚本生成的音频数据文件的位置和格式可适于由用户通过用户界面屏幕来选择,或者由UGC服务器140自动生成和设定。
参照图6,在便携式终端110或用户PC 120的屏幕上显示的预定脚本可被用户选择(S410)。当在屏幕上显示的预定脚本被选择时,判定该用户是否适于直接设置待生成音频数据文件的格式。如果该用户适于直接设置待生成音频数据文件的格式,则执行设置待生成音频数据文件的格式的用户布置进程(S420)。然后,判定用户布置进程(S420)是否完成(S430)。如果设置待生成音频数据文件的格式的用户布置进程完成,则以所设置的音频数据文件格式生成对应于所选脚本的音频数据文件。将所生成的音频数据文件与对应脚本同步,然后存储在预定存储装置中(S440)。同时,如果用户不适于直接设置音频数据文件的格式,则对应于所选脚本的音频数据文件的格式适于由UGC服务器140设置(S500)。之后,所选脚本的音频数据文件适于由UGC服务器140生成。然后,将所生成的音频数据文件与对应脚本同步,然后存储在所连接的数据库150中(S440)。一方面,用户可通过将其下载到便携式终端110和用户PC 120来立即使用在步骤S440生成并存储的音频数据文件。另一方面,如果以后有必要,则用户可在任何时刻通过认证进程访问UGC服务器140,并可通过将其下载到便携式终端110或用户PC 120来将所存储的音频数据文件用作适合于用户水平的语言学习的数据。
在本公开中,可将基于TTS生成的音频数据文件分类成若干类型。生成音频数据文件的方法可包括常规转换、用户转换、水平转换、和听写转换。从这些转换模式的选择可基于用户界面来预置,并且TTS引擎可基于设置结果将对应脚本生成为音频数据文件以适于预置转换。常规转换是将脚本毫无变化地转换成语音。用户转换是通过用户直接设置脚本中待转换的片段、速度、间隔等来将脚本转换成语音。水平转换是按经注册的用户水平将脚本转换成语音。听写转换是通过例如转换脚本中的一个句子、等待预置时间然后转换下一个句子来生成音频数据文件。在预置的非活动时间内听写对应的句子。在本方面,这被表达为听写转换,但是听写转换还可用于重复转换。换言之,在再现一个句子的音频数据之后,可通过在给定的不活动时间重复该句子来进行语言学习。作为一个示例,在音频数据文件由用户转换生成的情形中,脚本还能够以与用户所确定的相同的格式生成并显示。例如,当对脚本或脚本中的部分文本设置片段重复时,对应的音频数据文件被重复,同时该片段的文本也被重复并显示。
基于TTS生成的音频数据文件可包括元数据。元数据可被配置成包含在音频数据文件的报头中、包含在音频数据中或者添加到报头或音频数据之外。在音频数据文件中包含元数据的方法可以由本领域技术人员根据音频数据文件格式、终端或服务器的性能、服务方法、网络环境等适应性地自由选择。
元数据描述对应的音频数据。在元数据中描述的信息是一种与音频数据文件的转换相关联的信息。作为一个示例,在元数据中描述的信息可以表达对应的音频数据文件是否是基于TTS转换的音频数据。作为另一示例,在元数据中描述的信息可表达对应音频数据文件通过何种分类进行转换。例如,在元数据中描述的信息可表达对应的音频数据文件通过常规转换、用户转换、水平转换和听写转换中的何种转换而被转换。此外,在元数据中描述的信息可表达对应的音频数据文件是否通过常规转换、用户转换、水平转换和听写转换中的至少两个的组合而被转换。在元数据中描述的信息可以包括表达对应的音频数据文件是否是基于TTS转换的音频数据的信息以及表达对应的音频数据文件通过何种分类进行转换的信息。
作为元数据的生成和管理的另一实施方式,通过TTS生成的音频数据文件可具有作为与音频数据文件分离的数据的元数据。当所生成的音频数据文件具有与音频数据文件分离的对应音频数据的元数据时,可用独立数据库管理该元数据。在本情形中,元数据包括表达音频数据文件是否基于TTS而被转换的信息和/或表达音频数据文件是否通过常规转换、用户转换、水平转换和听写转换中的至少一个或至少两个的组合而被转换的信息。
元数据在基于元数据根据每次转换来管理或使用对应音频数据文件时提供了优点。例如,当对基于TTS生成的音频数据文件进行分类时,可基于终端或服务器对元数据的分析结果自动判定音频数据文件通过常规转换、用户转换、水平转换和听写转换而进行转换。基于判定的结果对音频数据文件分类,以确保能够根据分类使用音频数据文件的环境。
根据该实施方式,音频学习文件根据用户的语言能力水平以适当格式从预定脚本生成,并被再现以允许用户开始学习,从而提供适合于用户水平的有效语言学习效果。此外,对应于该水平的音频数据文件通过UGC服务器或用户PC从预定脚本生成,并被下载到便携式终端并在其中使用,使得便携式终端的生成音频数据文件的装配得以减小,进而尺寸更小、重量更轻且功耗更低的便携式终端可使用适合于用户水平的音频数据文件来学习。此外,通常用作专用软件的字典程序、电子书程序等可应用到便携式终端,使得特定脚本的集中学习成为可能。此外,当基于外语准备讲演时,用户可基于对应外语制作脚本、生成对应脚本的音频内容、以及接着对所生成音频内容的输出进行听取。由此,用户很容易准备基于外语的讲演。

Claims (18)

1.一种生成数字内容的方法,所述方法包括以下步骤:
选择预定脚本;
确定用于将所选脚本转换成音频数据文件的格式;以及
根据所确定的所述音频数据文件的转换格式将所选脚本转换成所述音频数据文件。
2.如权利要求1所述的方法,其特征在于,所述预定脚本包括从由用户准备的脚本和由连接到因特网的至少一个web服务器提供的web页面上的脚本中选择的一个。
3.如权利要求1所述的方法,其特征在于,对应于用户水平设置所述音频数据文件的所述转换格式。
4.如权利要求3所述的方法,其特征在于,所述用户水平由用户设置或者由用户生成内容(UGC)web服务器自动设置。
5.如权利要求1所述的方法,其特征在于,将所选脚本转换成所述音频数据文件的所述步骤由用户个人计算机(PC)或UGC web服务器来执行。
6.如权利要求1所述的方法,其特征在于,在将所选脚本转换成所述音频数据文件的所述步骤中,所转换的音频数据文件被存储在预定存储设备中。
7.如权利要求6所述的方法,其特征在于,在将所选脚本转换成所述音频数据文件的所述步骤中,所述脚本与所转换的音频数据文件同步,并存储在预定存储区域中。
8.如权利要求1所述的方法,其特征在于,还包括将所转换的音频数据文件连同与所转换的音频数据文件同步的所述脚本一起发送到便携式终端的步骤。
9.一种用于处理数字内容的方法,所述方法包括以下步骤:
选择预定脚本;
确定用于将所选脚本转换成音频数据文件的格式;
根据所确定的所述音频数据文件的转换格式将所选脚本转换成所述音频数据文件;以及
再现所转换的音频数据文件。
10.如权利要求9所述的方法,其特征在于,将所选脚本转换成所述音频数据文件的所述步骤由便携式终端和用户个人计算机(PC)中的至少一个所访问的用户生成内容(UGC)服务器来执行。
11.如权利要求9所述的方法,其特征在于,还包括在将所选脚本转换成所述音频数据文件的所述步骤之后存储所转换的音频数据文件的步骤。
12.如权利要求9所述的方法,其特征在于,所转换的音频数据文件被存储在由便携式终端和用户个人计算机(PC)中的至少一个访问的UGC服务器管理的数据库中。
13.一种用于处理数字内容的系统,所述系统包括:
脚本选择器,选择预定脚本;
文件格式确定器,确定用于将所选脚本转换成音频数据文件的格式;
音频数据文件生成器,根据所确定的所述音频数据文件格式生成对应于所选脚本的所述音频数据文件。
14.如权利要求9所述的系统,其特征在于,所述音频数据文件生成器包括被提供给便携式终端、用户个人计算机(PC)和用户生成内容(UGC)服务器中的至少一个的文本-语音(TTS)引擎。
15.一种用于处理数字内容的方法,所述方法包括以下步骤:
选择预定脚本;
设置用于将所选脚本转换成音频数据文件的格式;
根据所设置的转换格式将所选脚本转换成所述音频数据文件,并将表达转换格式的信息连同音频数据一起描述为元数据;以及
提供连同所述元数据一起的音频数据文件。
16.如权利要求15所述的方法,其特征在于,所述元数据包括从表达所述音频数据文件是否基于文本-语音(TTS)被转换的信息以及表达所述转换的分类的信息中选择的至少一个。
17.如权利要求16所述的方法,其特征在于,表达所述转换的分类的所述信息包括相对于与所述对应音频数据文件相对应的所述脚本从关于常规转换的信息、关于用户转换的信息、关于水平转换的信息和关于听写转换的信息中选择的至少一个。
18.如权利要求15所述的方法,其特征在于,提供连同所述元数据一起的所述音频数据文件的所述步骤通过所述对应音频数据文件的存储、发送和再现中的至少一个来执行。
CNA2008100817341A 2007-06-15 2008-03-05 基于文本-语音转换生成并处理数字内容的方法和系统 Pending CN101325502A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020070058764 2007-06-15
KR1020070058764A KR20090003533A (ko) 2007-06-15 2007-06-15 사용자 손수 저작물의 생성과 운용을 위한 방법 및 시스템

Publications (1)

Publication Number Publication Date
CN101325502A true CN101325502A (zh) 2008-12-17

Family

ID=39816769

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100817341A Pending CN101325502A (zh) 2007-06-15 2008-03-05 基于文本-语音转换生成并处理数字内容的方法和系统

Country Status (4)

Country Link
US (1) US8340797B2 (zh)
EP (1) EP2003640A3 (zh)
KR (1) KR20090003533A (zh)
CN (1) CN101325502A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054044A (zh) * 2010-12-31 2011-05-11 深圳市华伯通讯设备有限公司 一种个性化资源文件的生成方法、装置及电子设备
CN102834801A (zh) * 2010-03-30 2012-12-19 弗莱克斯电子有限责任公司 具有描述性音频的移动电话菜单图标
US9203877B2 (en) 2012-03-12 2015-12-01 Huawei Device Co., Ltd. Method for mobile terminal to process text, related device, and system
CN107899243A (zh) * 2017-10-20 2018-04-13 深圳市乐智教育科技有限公司 一种生成游戏的方法和设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089443B2 (en) 2012-05-15 2018-10-02 Baxter International Inc. Home medical device systems and methods for therapy prescription and tracking, servicing and inventory
US9003303B2 (en) * 2010-04-30 2015-04-07 American Teleconferencing Services, Ltd. Production scripting in an online event
US8645141B2 (en) * 2010-09-14 2014-02-04 Sony Corporation Method and system for text to speech conversion
US9037679B2 (en) * 2012-12-31 2015-05-19 Futurewei Technologies, Inc. Efficient high availability storage systems
CN103632236A (zh) * 2013-12-05 2014-03-12 用友软件股份有限公司 一种语音阅读报表的装置
CN112002312A (zh) * 2019-05-08 2020-11-27 顺丰科技有限公司 一种语音识别方法、装置、计算机程序产品及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5899975A (en) * 1997-04-03 1999-05-04 Sun Microsystems, Inc. Style sheets for speech-based presentation of web pages
US6947044B1 (en) * 1999-05-21 2005-09-20 Kulas Charles J Creation and playback of computer-generated productions using script-controlled rendering engines
US7149690B2 (en) * 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6529873B1 (en) * 2000-05-15 2003-03-04 Focuspoint, Inc. Apparatus and method for providing and updating recorded audio messages for telecommunication systems
US20030007609A1 (en) * 2001-07-03 2003-01-09 Yuen Michael S. Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers
KR20030030328A (ko) * 2001-10-09 2003-04-18 (주)신종 음성합성엔진을 이용한 전자책 브라우저 시스템
US7386453B2 (en) * 2001-11-14 2008-06-10 Fuji Xerox, Co., Ltd Dynamically changing the levels of reading assistance and instruction to support the needs of different individuals
KR100466520B1 (ko) * 2002-01-19 2005-01-15 (주)자람테크놀로지 텍스트 데이터의 편집 및 재생 시스템
KR100689059B1 (ko) * 2002-08-26 2007-03-09 (주)잉카엔트웍스 인터넷 컨텐츠를 tts 변환하여 개인정보처리기로제공하는 네트워크 동기화 시스템 및 그 방법
GB0304630D0 (en) * 2003-02-28 2003-04-02 Dublin Inst Of Technology The A voice playback system
KR20040089905A (ko) * 2003-04-15 2004-10-22 주식회사 포스티브 음성 합성 기술을 이용한 오디오북 제공 시스템 및 그 방법
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102834801A (zh) * 2010-03-30 2012-12-19 弗莱克斯电子有限责任公司 具有描述性音频的移动电话菜单图标
CN102054044A (zh) * 2010-12-31 2011-05-11 深圳市华伯通讯设备有限公司 一种个性化资源文件的生成方法、装置及电子设备
CN102054044B (zh) * 2010-12-31 2013-10-23 深圳市华伯通讯设备有限公司 一种个性化资源文件的生成方法、装置及电子设备
US9203877B2 (en) 2012-03-12 2015-12-01 Huawei Device Co., Ltd. Method for mobile terminal to process text, related device, and system
CN107899243A (zh) * 2017-10-20 2018-04-13 深圳市乐智教育科技有限公司 一种生成游戏的方法和设备

Also Published As

Publication number Publication date
EP2003640A3 (en) 2009-01-21
US20080312760A1 (en) 2008-12-18
KR20090003533A (ko) 2009-01-12
US8340797B2 (en) 2012-12-25
EP2003640A2 (en) 2008-12-17

Similar Documents

Publication Publication Date Title
CN101325502A (zh) 基于文本-语音转换生成并处理数字内容的方法和系统
JP5667978B2 (ja) オーディオユーザインターフェイス
US10720145B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
RU2491617C2 (ru) Способ и устройство для реализации распределенных мультимодальных приложений
KR102304052B1 (ko) 디스플레이 장치 및 그의 동작 방법
CN104813636B (zh) 用于在接收内容和数据时使用网络服务的系统和方法
EP2329348B1 (en) Multi-tiered voice feedback in an electronic device
CN108063969B (zh) 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
US20150032453A1 (en) Systems and methods for providing information discovery and retrieval
EP2157571A2 (en) Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
US6856990B2 (en) Network dedication system
EP2015278B1 (en) Media Interface
KR20030059503A (ko) 사용자별 선호도에 따른 맞춤형 음악 서비스 시스템 및 방법
CN101568899A (zh) 用户界面方法以及装置
KR20120129015A (ko) 어학 컨텐츠 생성 방법 및 이를 위한 단말기
CN101401315A (zh) 使用移动电话进行翻译服务的方法
KR20110056131A (ko) 사용자 정의의 단어 학습 콘텐츠를 제공하는 단어 학습 시스템 및 그 단어 학습 방법
KR102020341B1 (ko) 악보 구현 및 음원 재생 시스템 및 그 방법
JP5466593B2 (ja) 情報処理装置及び情報処理方法
KR20130076852A (ko) 어학 컨텐츠 생성 방법 및 이를 위한 단말기
JP6736116B1 (ja) レコーダおよび情報処理装置
JP7048113B2 (ja) 情報処理装置、情報処理システム、および、プログラム
US11366489B2 (en) Electronic apparatus and control method thereof
CN112562733A (zh) 媒体数据处理方法及装置、存储介质、计算机设备
JP2005107320A (ja) 音声再生用データ生成装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20081217