CN103533155A - 在移动终端中记录和播放用户语音的方法和装置 - Google Patents
在移动终端中记录和播放用户语音的方法和装置 Download PDFInfo
- Publication number
- CN103533155A CN103533155A CN201310278241.8A CN201310278241A CN103533155A CN 103533155 A CN103533155 A CN 103533155A CN 201310278241 A CN201310278241 A CN 201310278241A CN 103533155 A CN103533155 A CN 103533155A
- Authority
- CN
- China
- Prior art keywords
- user speech
- text
- log file
- user
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000001360 synchronised effect Effects 0.000 claims description 69
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 31
- 230000008569 process Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004321 preservation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 229920001621 AMOLED Polymers 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000037805 labour Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
本发明提供了一种用于在移动终端中记录和播放用户语音的方法和装置。所述用于在移动终端中记录和存储用户语音的方法包括:通过运行电子书进入页面;识别是否存在与所述页面相关的用户语音记录文件;如果不存在用户语音记录文件,则通过将包括在所述页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件;以及如果存在用户语音记录文件,则通过将存储在用户语音记录文件中的用户语音与所述文本同步来进行播放。因此,当记录电子书的特定页面时,可以记录与页面的文本相对应的用户语音,并且通过将所述用户语音与文本相同步,可以加亮与正在播放的用户语音相对应的文本。
Description
技术领域
本发明涉及一种用于在移动终端中记录和播放语音的方法和装置。更具体地,本发明涉及一种方法和装置,用于当记录电子书的特定页面时,记录与页面的文本相对应的语音,并通过将语音和文本相同步来加亮(highlight)与正在播放的语音相对应的文本。
背景技术
随着通信技术的进步,移动终端正发展为提供多种可选服务(例如,电子记事本、游戏、日程安排管理等)的多媒体设备。随着目前提供的多种可选服务,用户界面对于方便地使用并管理上述多种可选服务而言是至关重要的。
图1示出了根据现有技术采用语音记录包括在电子书的特定页面中的文本以及播放所记录的语音。
如图1所示,电子书(e-book)提供了将配置在电子书的特定页面中内容(即,文本)记录为语音并播放所述语音的功能。为此,用户通过选择电子书的特定页面中的记录命令来输入其语音,并通过选择播放命令来播放记录在相应页面中的语音。
然而,在现有技术中,必须保存整个电子书以便记录用户的语音,因此如果电子书的数据量很大,则需要大量的时间和劳力。
此外,由于所记录的语音与电子书的文本并不同步,现有技术难以直观地识别当前正在播放哪个词语方面。
因此,需要一种改进的装置和方法,用于当记录电子书的特定页面时记录与该页面的文本相对应的语音,并通过将语音和文本相同步来加亮与正在播放的语音相对应的文本。
以上信息作为背景信息提供,仅帮助本公开的理解。对于上述任何内容是否可作为关于本发明的现有技术没有任何判定也没有任何断言。
发明内容
本发明的方面在于解决至少上述问题和/或缺点并提供至少下述优点。因此,本发明的一个方面是提供一种方法和装置,当记录电子书的特定页面时,记录与该页面的文本相对应的用户语音,并通过将用户语音和所述文本相同步来加亮与正在播放的用户语音相对应的文本。
按照本发明的一个方面,提供了一种用于记录和播放用户语音的方法。所述方法包括:通过运行电子书进入页面;识别是否存在与所述页面相关的用户语音记录文件;如果不存在用户语音记录文件,则通过将包括在页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件;并且如果用户语音记录文件存在,则通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
按照本发明的另一方面,提供一种用于记录和播放用户语音的装置。所述装置包括:用于接收用户输入的输入单元;用于显示包括在电子书中的文本的显示单元;以及控制单元,用于当进入电子书的页面时进行控制,以识别是否存在与所述页面相关的用户语音记录文件,如果不存在用户语音记录文件,则通过将包括在页面中的文本记录为用户语音来产生用户语音记录文件,并且如果存在用户语音记录文件,通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
根据本发明的示例性实施例,当记录电子书的特定页面时,可以记录与特定页面的文本相对应的语音,并且当播放语音时,可以通过将语音与文本相同步来加亮与正在播放的语音相对应的文本。因此,用户可以通过直观的界面来体验阅读真实书的感觉。
以下详细描述结合附图公开了本发明的示例性实施例,通过以下详细描述,本领域技术人员将更清楚本发明的其他方面、优点和突出特征。
附图说明
结合附图,根据以下详细描述,本发明的特定示例性实施例的上述和其他方面、特征以及优点将更清楚,附图中:
图1示出了根据现有技术采用语音记录包括在电子书的特定页面中的文本以及播放所记录的语音;
图2是示出了描述根据本发明示例性实施例的移动终端的内部结构的框图;
图3是示出了根据本发明示例性实施例记录或播放包括在电子书的特定页面中内容的过程的流程图;
图4是示出了根据本发明示例性实施例包括在电子书的特定页面中到用户语音的文本到语音(TTS)记录过程的流程图;
图5是示出了根据本发明示例性实施例在用户语音的TTS记录中与电子书的每一页面相对应存储的文件的结构的视图;
图6是示出了根据本发明示例性实施例在用户语音的TTS记录中通过划分为音素(phoneme)语音文件而存储用户语音的TTS数据库的结构的视图;
图7是示出了根据本发明示例性实施例执行TTS记录的自动完成功能的过程的流程图;
图8是示出了根据本发明示例性实施例电子书的特定页面的TTS播放过程的流程图;以及
图9是示出了根据本发明示例性实施例在电子书的TTS播放中通过将用户语音与文本相同步而描述显示器的示例的视图。
贯穿附图,应注意相同的参考标号用于描述相同或相似的部件、特征以及结构。
具体实施方式
提供了参照附图的以下描述来帮助全面理解权利要求及其等同物定义的本发明的示例性实施例。以下描述包括多种特定细节来帮助理解,但是这些特定细节应该视为仅是示例性的。因此,本领域技术人员会认识到可以在不脱离本发明的范围和精神的前提下,对本文所述实施例能够进行多种改变和修改。此外,为了清楚和简要目的,省略对公知功能和结构的描述。
以下描述和权利要求中使用的术语和词语不限于字面含义,而是发明人仅用于达到对本发明的清楚和一致理解。因此,本领域技术人员可以理解,本发明的示例性实施例的以下描述仅用于说明目的,而不是用于限制所附权利要求及其等同物定义的本发明的目的。
此外,应该理解,除非文中明确指出,否则单数形式的“一”、“一种”和“该”包括复数形式。因此,例如,对于“一组件表面”的引述包括对于一个或多个这种表面的引述。
图2示出了描述根据本发明的示例性实施例的移动终端的内部结构的框图。
参考图2,移动终端200可以包括无线通信单元210、音频处理器单元220、键输入单元230、触摸屏240、存储单元250以及控制单元260。
无线通信单元210执行数据发送和接收,以便支持移动终端200的无线通信功能。无线通信单元210包括RF发送器和RF接收器,所述RF发送器用于对要发送的信号上变频和放大;所述RF接收器用于低噪音放大和下变频所接收的信号。此外,无线通信单元210向控制单元260输出通过无线通信频道接收的数据,并通过无线通信频道发送由控制单元260输出的数据。
音频处理单元220配置为用于处理分组数据的数据编解码器以及用于处理音频信号(例如,语音)的音频编解码器。音频处理单元220通过音频编解码器将数字音频信号转换为模拟音频信号,并且通过扬声器输出所述模拟音频信号。从麦克风输入的模拟音频信号通过音频编解码器被转换为数字音频信号。
键输入单元230接收用于移动终端200的控制的用户的键输入,并产生输入信号以便发送给控制单元260。键输入单元230可以配置为包括数字键和方向键的键区,且可以在移动终端200的表面上形成功能键。根据本发明的示例性实施例,在具有触摸屏240的移动终端中,可以使用触摸屏240执行键输入单元230的操作,并因此可以省略键输入单元230。
触摸屏240包括触摸传感器241和显示单元242。触摸传感器241检测用户的触摸输入。触摸传感器241配置为触摸传感器(例如电容式覆盖传感器、压力敏感传感器、电阻式覆盖传感器以及红外束检测传感器)。根据本发明,除了以上传感器之外,还可以将任何类型的检测对象的接触或压力的传感器使用为触摸传感器241。触摸传感器241检测用户的触摸输入,并产生检测信号,以便发送给控制单元260。检测信号包括由用户触摸的位置的坐标数据。如果用户移动触摸位置,触摸传感器241产生包括触摸移动路径的坐标数据的检测信号,以便发送给控制单元260。
更具体地,根据本发明的示例性实施例,触摸传感器241检测用于记录或播放电子书的内容的用户输入。这样的用户输入可以是,例如,触摸(包括多点触摸)或者拖动。
显示单元242可以由液晶显示器(LCD)、有机光辐射二极管(OLED)或者有源矩阵有机光辐射二极管(AMOLED)形成,并且向用户提供多种视觉信息,例如,菜单、输入数据、移动终端200的功能设置信息等。显示单元242执行输出引导屏幕、待机屏幕、菜单屏幕、电信屏幕以及移动终端200的其它应用屏幕的功能。
如上所述,移动终端200可以配置为触摸屏。然而,移动终端200不限于触摸屏。在示例性实施例中,如果应用不具有触摸屏的移动终端,可以省略如图2所示的触摸屏240,以便只执行显示单元242的功能。
存储单元250可以分为程序区和数据区,并执行存储针对移动终端200的操作所需的程序和数据的作用。程序区存储用于控制移动终端200的总体操作的程序、用于引导移动终端200的操作系统(OS)、播放多媒体内容所需的应用程序以及移动终端200的可选功能所需的应用程序(例如,摄像机功能、音乐播放功能、静止或运动图像的播放功能等)。数据区存储根据移动终端200的使用而产生的数据,例如,静止图像、运动图像、电话簿、音频数据等。
根据本发明的示例性实施例,存储单元250存储记录在电子书的每一页面中的用户语音文件以及在每一页面中与用户语音文件同步的同步文件。此外,存储单元250在数据库中存储由音素记录的用户语音文件,以便执行对电子书内容的文本到语音(TTS)记录的自动完成功能。
控制单元260控制移动终端200的组件的总体操作。更具体地,当移动终端200记录特定页面时,控制单元260记录与电子书的特定页面的文本相对应的用户语音,并当移动终端200播放用户语音时,通过将所述文本与用户语音相同步来控制加亮与用户语音相对应的文本的处理。为此,控制单元260包括记录控制单元261和播放控制单元262。
记录控制单元261控制包括在电子书的特定页面中的文本到用户语音的TTS记录的总体过程。为此,当进入电子书的页面时,记录控制单元261识别是否存在与该页面相关的用户语音记录文件。如果不存在用户语音记录文件,则记录控制单元261将包括在该页面中的文本记录为用户语音,并产生与该页面相关的用户语音记录文件。
此处,记录控制单元261产生从包括在该页面中的文本转换的用户语音记录文件以及包括与用户语音记录文件的每一个时间段相对应的文本位置信息在内的同步文件。同步文件包括用于通过与用户语音记录文件同步来加亮正在播放的用户语音的文本的信息。后面将提供更详细的解释。
根据本发明的示例性实施例,如果接收到文本的TTS记录命令,记录控制单元261识别是否在文本位置处检测到触摸输入。如果在预设时间内没有检测到触摸输入,则记录控制单元261进行控制以便开始记录用户语音。如果在文本的位置处检测到触摸输入,则记录控制单元261将检测到触摸输入的文本位置设置为开始记录用户语音的初始位置。
此外,记录控制单元261通过音素将输入用户语音分类,并控制产生及保存音素语音文件。根据本发明的示例性实施例,音素语音文件用于执行TTS记录的自动完成功能。
为此,当完成记录页面的用户语音时,记录控制单元261将音素语音文件和包括在电子书中的所有文本文件进行比较。然后,记录控制单元261识别是否能够对于没有存储用户语音记录文件的其余页面中包括的文本来通过使用音素语音文件自动完成记录。如果能够自动完成记录,则记录控制单元261进行控制以便向用户通知能够自动完成记录。当执行自动记录命令时,记录控制单元261通过使用音素语音文件,将没有存储用户语音记录文件的其余页面中包括的文本转换为用户语音。
如果在电子书的页面中存在用户语音记录文件,则播放控制单元262进行控制,以便通过将文本与用户语音相同步来播放存储在用户语音记录文件中的用户语音。根据本发明的示例性实施例,播放控制单元262进行控制以加亮与存储在用户语音记录文件中的用户语音相对应的文本。
更详细地,如果接收到播放命令,播放控制单元262识别是否存在与用户语音记录文件相对应的同步文件。如果存在同步文件,则播放控制单元262识别包括在与用户语音记录文件的每一个时间段相对应的同步文件中的文本位置信息。根据识别的结果,播放控制单元262进行控制,以便通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
如果不存在同步文件,则播放控制单元262进行控制,以便将记录在与该页面相对应的用户语音记录文件中的用户语音转换为文本,并通过将转换的文本与包括在页面中的文本相同步来进行播放。
在以上的描述中,将控制单元260、记录控制单元261以及播放控制单元262示出为分离的块,并且各自执行不同的功能。然而,这是为了方便解释,应理解在备选实现方式中,可以不分开该功能。例如,由记录控制单元261执行的特定功能可以由控制单元260执行。
图3是示出了根据本发明示例性实施例记录或播放包括在电子书的特定页面中内容的过程的流程图。
参考图3,在步骤S310,控制单元260检测电子书应用的运行。电子书可以被称作e-book,是包含信息(例如,在电子介质中记录的字符和图像)的数字图书的通用名称。智能电话或便携式多媒体播放器(PMP)可以从服务器下载电子书应用用于执行并使用电子书,或者在生产的过程中,可以在智能电话或PMP内集成电子书应用。
在步骤S320,控制单元260检测电子书应用是否位于特定内容处,例如,包括文本的电子书内容的页面。在步骤S330,控制单元260识别是否存在与特定页面相对应的用户语音记录文件。以下文中,术语用户语音记录TTS文件可以用作用户语音记录文件。
根据用户的选择,在步骤S340,如果不存在与特定页面相对应的用户语音记录文件,控制单元260执行用户语音的TTS记录的处理,其中将包括在该页面中的文本转换为用户语音。在用户语音的TTS记录中,控制单元260可以配置并保存与该文本相对应的用户语音记录文件和与用户语音文件的用户语音相对应的同步文件(例如,字幕)。
通过参考图4,将在下文描述用户语音的TTS记录的更详细过程。
如果存在与特定页面相对应的用户语音记录文件,在步骤S350,控制单元260执行与该页面相对应的用户语音记录文件的TTS播放。在TTS播放中,控制单元260可以通过将用户语音与该页面的文本相同步来加亮与正在播放的用户语音相对应的文本。
通过参考图7,将在下文描述TTS播放的更详细过程。
图4是示出了根据本发明示例性实施例,包括在电子书的特定页面中的文本到用户语音的TTS记录过程的流程图。图4对应于图3的步骤S340。
通过使用传统TTS引擎可以执行记录包括在电子书的特定页面中的文本的示例性方法。然而,在本发明中不包括关于该方法的描述。
如果不存在与电子书的特定页面相对应的用户语音记录文件,则控制单元260可以在显示单元中显示用于记录包括在所述页面中的文本的记录手段。例如,记录手段可以是如图1所示的记录按钮REC。
参考图4,在步骤S405,控制单元260识别是否输入了用于记录用户语音的记录命令。如果没有输入记录命令,在步骤S410,控制单元260等待记录命令的输入。
如果输入了记录命令,控制单元260必须决定实际记录的开始时间和与该记录相对应的文本位置。在本发明的示例性实施例中,如果在输入记录命令之后的预定时间内没有产生触摸输入的状态下检测到用户语音,则仅将用户语音存储为用户语音记录文件。
如果输入记录命令后在文本上输入触摸,则将相应文本位置设为开始的初始值来记录,且通过同步检测到的用户语音和相应文本位置,保存用户语音记录文件和同步文件。
参考图4的流程图将详细描述该内容。
在步骤S415,在输入记录命令之后,控制单元260识别是否在文本上输入触摸。如果没有输入触摸,在步骤S420,控制单元260识别是否已经经过了预定时间。如果已经经过预定时间,在步骤S425,控制单元260识别是否输入用户语音。即,在输入记录命令之后,控制单元260识别是否在预定时间内没有产生触摸输入的状态下检测到用户语音。如果输入了用户语音,在步骤S427,控制单元260通过记录产生并保存与该页面相对应的用户语音记录文件。
如果在步骤415在文本上输入触摸,控制单元260在步骤S430将产生触摸的文本位置设置为开始记录的初始值,并且在步骤S435识别是否检测到用户语音。如果没有检测到用户语音,在步骤S440,控制单元260等待检测用户语音。
如果在步骤S435检测到用户语音,在步骤S445,控制单元260产生并保存记录有用户语音的用户语音记录文件以及与用户语音记录文件相对应的同步文件。
此处,同步文件包括用于通过与用户语音记录文件相同步来加亮正在播放的用户语音的文本的信息。根据本发明的示例性实施例,同步文件可以是同步多媒体集成语言(SMIL)文件。SMIL是用于通过使用XML处理并控制在时间和空间中的多媒体数据的W3C标准呈现语言。
根据本发明的示例性实施例的同步文件可以配置有与时间段相对应的文本集合。例如,在电子书的特定页面中的用户语音的TTS记录的情况下,同步文件可以包括在时间段0~a中记录的与该页面的段落a相对应的文本和在时间段a~b中记录的与该页面的段落b相对应的另一文本的信息。在下表中,示出了同步文件的示例性结构。
表1
根据本发明的示例性实施例,当执行用户语音的TTS记录时,可以通过将文本段落中输入了触摸的位置设置为起点来开始记录。备选地,可以与连续输入用户触摸的拖动区域的文本段落相对应地开始记录。在这种情况下,可以提供位置校正功能,以便即使用户的拖动输入超出文本线的偏离范围,控制单元260也能够显示与显示单元的文本线平行的拖动区域。类似地,根据本发明的示例性实施例,在释放用户的触摸输入后,可以执行记录空白或连续语音,并且在记录空白或连续语音之后,可以从再次输入触摸的位置处继续记录语音。
图5是示出了根据本发明示例性实施例在用户语音的TTS记录中与电子书的每一页面相对应存储的文件的结构的示意图。
参考图5,当执行与电子书的第1页面相对应的用户语音的TTS记录时,通过映射在电子书的第1页面中保存记录有第1页面中文本的用户语音的用户语音记录文件(mp3_P1)和与用户语音记录文件相对应的同步文件(SMIL_P1)。
在这种情况下,通过与文本的位置信息映射,保存电子书的第1页面的同步文件,该文本与用户语音记录文件的每一个时间段相对应。例如,如图5所示,通过与用户语音记录文件的时间段a的信息映射来保存电子书的第1页面的同步文件,该用户语音记录文件的时间段a保存有与电子书的第1页面的段落a相对应的文本的语音。按照相同的方式,通过与用户语音记录文件的时间段b的信息映射来保存电子书的第1页面的同步文件,该用户语音记录文件的时间段b保存有与电子书的第1页面的段落b相对应的文本的语音。
此外,如果执行电子书的第2页面的TTS记录,通过映射,在电子书的第2页面中保存记录有与第2页面的文本相对应用户语音的用户语音记录文件(mp3_P2)以及与用户语音记录文件相对应的同步文件(SMIL_P2)。
在这种情况中,通过与文本的位置信息映射,保存电子书的第2页面的同步文件,该文本与用户语音记录文件的每一个时间段相对应。例如,如图5所示,通过与用户语音记录文件的时间段a的信息映射来保存电子书的第2页面的同步文件,该用户语音记录文件的时间段a保存有与电子书的第2页面的段落a相对应的文本的语音。按照相同的方式,通过与用户语音记录文件的时间段b的信息映射来保存电子书的第2页面的同步文件,该用户语音记录文件的时间段b保存有与电子书的第2页面的段落b相对应的文本的语音。
如上所述,与电子书的每一页面相对应保存的用户语音记录文件和同步文件用于通过将用户语音和文本相同步来加亮与正在播放的用户语音相对应的文本。将在下文更详细地描述该特征。
图6是示出了根据本发明示例性实施例在用户语音的TTS记录中通过划分为音素语音文件而存储用户语音的TTS数据库的结构的示意图。
参考图6,当进行用户语音TTS记录时,通过划分为音素语音文件来保存每一个用户语音。例如,如果用户TTS记录用户语音“ABC”,则控制单元260将用户语音划分成“A”、“B”及“C”,并保存单独音素语音文件mp3_A、mp3_B及mp3_C。
根据本发明的另一示例性实施例,可以通过划分成词语而不是划分成音素来保存用户语音。例如,如果用户TTS记录用户语音“学校公司”,控制单元260将用户语音划分为词语“学校”和“公司”,并分别保存语音文件mp3_School及mp3_Company。
尽管以上描述了在用户语音的TTS记录中将用户语音保存为由音素或词语划分的单独语音文件的示例,TTS记录不限于音素或词语。即,即使用户不通过执行TTS记录的自动完成功能记录在电子书中文本的所有内容(将在下文阐述),可以提供以字符单元保存语音文件来完成对整个文本的TTS记录的另一示例性实施例。
根据以上原理产生的示例性TTS数据包括由音素或词语划分的用户语音,并用于TTS记录的自动完成功能。将在下文更详细地描述该特征。
图7是示出了根据本发明示例性实施例执行TTS记录的自动完成功能的过程的流程图。
根据本发明的示例性实施例,当执行用户语音的TTS记录时,控制单元260通过划分成由音素(或词语)分类的音素语音文件,在TTS数据库中保存用户语音。通过使用存储的TTS数据库,用户可以在不分别记录文本的整体内容的情况下,执行电子书的所有文本的TTS记录。
下文中,假定控制单元260已获得关于在电子书的所有页面中包括的所有文本的信息。
参考图7,在步骤S710,控制单元260检测到与特定页面相对应的用户语音的TTS记录的完成。在步骤S720,控制单元260检查TTS数据库,并在步骤S730识别自动完成功能是否可用。因此,控制单元260可以通过将TTS数据库中存储的每个音素与电子书的所有页面中包括的所有文本相比较来识别自动完成功能的可用性。
根据本发明的示例性实施例,在以下情况中,控制单元260识别自动完成功能的可用性:
1)电子书的所有页面中包括的所有内容在TTS数据库中登记的百分比是100%
2)登记的百分比高于预定水平
在第2)种情况下,控制单元260可以通过建议所需的音素来进行记录或者通过将所需音素替换为最相似的音素,以使TTS数据库中登记的百分比成为100%。
如果识别了自动完成功能的可用性,在步骤S740,控制单元260通知用户自动完成功能可用。在步骤S750,控制单元260识别是否从用户接收到用于使用自动完成功能的命令。
如果接收到用于使用自动完成功能的命令,或者如果自动完成功能不可用,在步骤S760,控制单元260通过使用存储在TTS数据库中的音素语音文件,针对没有TTS记录的页面来执行TTS记录。
图8是示出了根据本发明示例性实施例电子书的特定页面的TTS播放过程的流程图。图8对应于图3的步骤S350。
如果存在与电子书的特定页面相对应的用户语音记录文件,则控制单元260可以在显示单元中显示用于播放用户语音记录文件的播放手段。播放手段可以是如图1所示的播放按钮。
参考图8,在步骤S810,控制单元260识别是否接收到用于播放用户语音记录文件的播放命令。如果接收到播放命令,在步骤S820,控制单元260识别是否存在与用户语音记录文件相对应的同步文件。
如果存在同步文件,在步骤S860,控制单元260通过将用户语音记录文件与同步文件相同步来播放。通过将用户语音记录文件与同步文件相同步来进行播放意味着加亮与正在播放的用户语音相对应的文本。
如图5所示,通过映射,在电子书的每一页面中保存用户语音记录文件和与用户语音记录文件相对应的同步文件,并且通过映射,在同步文件中包括与用户语音记录文件的每一个时间段相对应的文本集合位置。因此,控制单元260通过使用以上关系,可以识别与正在播放的用户语音相对应的文本位置,并可以加亮相应位置。
如果在步骤S820不存在同步文件,在步骤S830,控制单元260通过使用语音到文本(STT)功能,将记录在用户语音记录文件中的语音转换为文本。控制单元260识别转换的文本的位置,优选是电子书中与转换的文本的第一位置相对应的文本位置,并且在步骤S840,将转换的文本的第一位置和电子书中的文本位置相同步。
在步骤S850,根据用户语音的播放,控制单元260加亮与用户语音相对应的文本。
图9是示出了根据本发明示例性实施例在电子书的TTS播放中通过将用户语音与文本相同步而描述显示器的示例的示意图。
参考图9,根据本发明的示例性实施例,在电子书的每一页面中保存与页面中的文本相对应的用户语音记录文件和与用户语音记录文件相对应的同步文件中的至少一个。
当进入特定页面时,如果在对应页面中存在用户语音记录文件,则电子书显示播放手段。随后,如果用户输入播放命令,则电子书加亮与正在播放的用户语音相对应的文本。
根据本发明,当记录电子书的特定页面时,可以记录与特定页面的内容相对应的用户语音,并且当播放用户语音时可以通过将用户语音与文本相同步来加亮与正在播放的用户语音相对应的文本。因此,用户可以通过直观界面来体验阅读真实的图书。
本发明的特定方面也可以实现为计算机可读介质上的计算机可读代码。计算机可读记录介质是能够存储随后可由计算机系统读取的数据的任何数据存储设备。计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光学数据存储设备。计算机可读记录介质也可以分布在联网的计算机系统上,使得按照分布式形式存储和执行计算机可读代码。此外,实现本发明的函数程序、代码、代码段是本发明所属技术领域的编程员易于理解的。
尽管结合本发明的特定示例性实施例示出和描述了本发明,然而本领域技术人员将理解,在不脱离由所附权利要求及其等同物限定的本发明的精神和范围的前提下,可以进行各种形式和细节上的改变。
Claims (21)
1.一种用于在移动终端中记录和播放用户语音的方法,所述方法包括:
通过运行电子书进入页面;
识别是否存在与所述页面相关的用户语音记录文件;
如果不存在用户语音记录文件,则通过将包括在所述页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件;以及
如果存在用户语音记录文件,则通过将存储在用户语音记录文件中的用户语音与所述文本同步来进行播放。
2.根据权利要求1所述的方法,其中产生用户语音记录文件包括:将包括在所述页面中的文本记录为用户语音和同步文件,所述同步文件包括与用户语音记录文件的每一个时间段相对应的文本位置信息。
3.根据权利要求1所述的方法,其中产生用户语音记录文件还包括:
如果接收到文本的记录命令,则识别是否检测到与文本位置相对应的触摸输入;以及
如果在预定的时间段内没有检测到触摸输入,则开始记录用户语音。
4.根据权利要求3所述的方法,还包括:如果检测到与文本位置相对应的触摸输入,将由触摸输入检测到的文本位置设置为开始记录用户语音的初始位置。
5.根据权利要求1所述的方法,其中产生用户语音记录文件还包括:
通过音素将输入的用户语音分类;以及
产生并存储由音素分类的音素语音文件。
6.根据权利要求5所述的方法,还包括:
如果完成记录与页面相关的用户语音,则将音素语音文件和电子书中包括的所有文本进行比较;
识别是否能够通过使用音素语音文件来自动完成对于没有存储用户语音记录文件的其余页面中包括的文本的记录;以及
如果能够自动完成记录,则向用户通知能够自动完成记录。
7.根据权利要求6所述的方法,还包括:当执行自动记录命令时,通过使用音素语音文件,将没有存储用户语音记录文件的其余页面中的文本转换为用户语音。
8.根据权利要求1所述的方法,其中所述播放包括加亮与存储在用户语音记录文件中的用户语音相对应的文本。
9.根据权利要求1所述的方法,其中所述播放还包括:
如果接收到播放命令,则识别是否存在与用户语音记录文件有关的同步文件;
如果存在同步文件,则识别包括在所述同步文件中的与用户语音记录文件的每一个时间段相对应的文本位置信息;以及
根据识别的结果,通过将记录在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
10.根据权利要求9所述的方法,还包括:
如果不存在同步文件,则将记录在与所述页面有关的用户语音记录文件中的用户语音转换为文本;以及
通过将转换的文本与包括在所述页面中的文本相同步来进行播放。
11.一种用于在移动终端中记录和播放用户语音的装置,所述装置包括:
输入单元,用于接收用户输入;
显示单元,用于显示包括在电子书中的文本;以及
控制单元,用于当进入电子书的页面时进行控制,以识别是否存在与所述页面有关的用户语音记录文件;如果不存在用户语音记录文件,则通过将包括在页面中的文本记录为用户语音来产生用户语音记录文件;并且如果存在用户语音记录文件,则通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
12.根据权利要求11所述的装置,其中控制单元进行控制,通过将包括在所述页面中的文本记录为用户语音和同步文件来产生用户语音记录文件,所述同步文件包括与用户语音记录文件的每一个时间段相对应的文本位置信息。
13.根据权利要求11所述的装置,其中如果接收到对文本的记录命令,则控制单元进行控制以识别是否检测到与文本位置相对应的触摸输入,如果在预定的时间段内没有检测到触摸输入,则开始记录用户语音。
14.根据权利要求13所述的装置,其中如果检测到与文本位置相对应的触摸输入,则控制单元进行控制,以便将由触摸输入检测到的文本位置设置为开始记录用户语音的初始位置。
15.根据权利要求11所述的装置,其中控制单元进行控制,以便通过音素将输入的用户语音分类,以及产生并存储由音素分类的音素语音文件。
16.根据权利要求15所述的装置,其中如果完成记录与页面相关的用户语音,则控制单元进行控制,以便将所述音素语音文件和电子书包括中的所有文本进行比较;识别是否能够通过使用音素语音文件来自动完成对于没有存储用户语音记录文件的其余页面中包括的文本的记录;以及如果能够自动完成记录,则向用户通知用户能够自动完成记录。
17.根据权利要求16所述的装置,其中当执行自动记录命令时,控制单元进行控制,以便通过使用音素语音文件,将没有存储用户语音记录文件的其余页面中包括的文本转换为用户语音。
18.根据权利要求11所述的装置,其中控制单元进行控制以加亮与存储在用户语音记录文件中的用户语音相对应的文本。
19.根据权利要求11所述的装置,其中如果接收到播放命令,则控制单元进行控制以识别是否存在与用户语音记录文件有关的同步文件;如果存在同步文件,则识别包括在所述同步文件中的与用户语音记录文件的每一个时间段相对应的文本位置信息;以及根据识别的结果,通过将记录在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
20.根据权利要求19所述的装置,其中如果不存在同步文件,则控制单元进行控制,以将记录在与所述页面有关的用户语音记录文件中的用户语音转换为文本;以及通过将转换的文本与包括在所述页面中的文本相同步来进行播放。
21.一种存储指令的非暂时性计算机可读存储介质,当执行所述指令时,使至少一个处理器执行权利要求1所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120073581A KR102023157B1 (ko) | 2012-07-06 | 2012-07-06 | 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치 |
KR10-2012-0073581 | 2012-07-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103533155A true CN103533155A (zh) | 2014-01-22 |
CN103533155B CN103533155B (zh) | 2018-04-13 |
Family
ID=48771304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310278241.8A Expired - Fee Related CN103533155B (zh) | 2012-07-06 | 2013-07-04 | 在移动终端中记录和播放用户语音的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9786267B2 (zh) |
EP (1) | EP2682931B1 (zh) |
KR (1) | KR102023157B1 (zh) |
CN (1) | CN103533155B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101582294B1 (ko) * | 2014-02-28 | 2016-01-06 | 엠플레어 주식회사 | 사용자 나레이션 기반의 e-book 대여 서비스 시스템 |
US10140973B1 (en) * | 2016-09-15 | 2018-11-27 | Amazon Technologies, Inc. | Text-to-speech processing using previously speech processed data |
JP6551848B2 (ja) * | 2016-12-13 | 2019-07-31 | 株式会社プロフィールド | データ処理装置、データ構造、データ処理方法、およびプログラム |
KR20200024484A (ko) | 2018-08-28 | 2020-03-09 | 주식회사 나무엔 | Stt 녹음 장치 및 이를 이용한 음성-텍스트 변환 시스템 |
KR102073979B1 (ko) * | 2019-05-13 | 2020-02-05 | 윤준호 | 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법 |
CN113096635B (zh) * | 2021-03-31 | 2024-01-09 | 抖音视界有限公司 | 一种音频和文本的同步方法、装置、设备以及介质 |
KR102497085B1 (ko) * | 2021-07-26 | 2023-02-07 | 주식회사 플렉슬 | 음성과 편집 개체 간의 매칭을 통해 문서와 음성 간의 동기화를 수행할 수 있는 전자 장치 및 그 동작 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999066493A1 (en) * | 1998-06-19 | 1999-12-23 | Kurzweil Educational Systems, Inc. | Computer audio reading device providing highlighting of either character or bitmapped based text images |
CN1946065A (zh) * | 2005-10-03 | 2007-04-11 | 国际商业机器公司 | 通过可听信号来注释即时消息的方法和系统 |
US20090006087A1 (en) * | 2007-06-28 | 2009-01-01 | Noriko Imoto | Synchronization of an input text of a speech with a recording of the speech |
US20100318363A1 (en) * | 2009-01-15 | 2010-12-16 | K-Nfb Reading Technology, Inc. | Systems and methods for processing indicia for document narration |
CN102184168A (zh) * | 2011-05-11 | 2011-09-14 | 中兴通讯股份有限公司 | 电子书签实现装置及方法 |
CN102446176A (zh) * | 2010-10-09 | 2012-05-09 | 上海博路信息技术有限公司 | 一种电子阅读多媒体用户数据记录及加载方法 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8073695B1 (en) * | 1992-12-09 | 2011-12-06 | Adrea, LLC | Electronic book with voice emulation features |
US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
US5893132A (en) * | 1995-12-14 | 1999-04-06 | Motorola, Inc. | Method and system for encoding a book for reading using an electronic book |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
US7369994B1 (en) * | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
CN1300018A (zh) * | 1999-10-05 | 2001-06-20 | 株式会社东芝 | 书籍朗读电子机器,编辑系统,存储媒体,及信息提供系统 |
US6985913B2 (en) * | 2000-12-28 | 2006-01-10 | Casio Computer Co. Ltd. | Electronic book data delivery apparatus, electronic book device and recording medium |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
KR20060088175A (ko) * | 2005-02-01 | 2006-08-04 | 장완호 | 멀티 포맷을 갖는 전자책 파일 생성 방법 및 시스템 |
JP2008545995A (ja) * | 2005-03-28 | 2008-12-18 | レサック テクノロジーズ、インコーポレーテッド | ハイブリッド音声合成装置、方法および用途 |
US20090202226A1 (en) * | 2005-06-06 | 2009-08-13 | Texthelp Systems, Ltd. | System and method for converting electronic text to a digital multimedia electronic book |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
BRPI0808289A2 (pt) * | 2007-03-21 | 2015-06-16 | Vivotext Ltd | "biblioteca de amostras de fala para transformar texto em falta e métodos e instrumentos para gerar e utilizar o mesmo" |
KR20090047159A (ko) * | 2007-11-07 | 2009-05-12 | 삼성전자주식회사 | 오디오-북 재생 방법 및 장치 |
US8370151B2 (en) * | 2009-01-15 | 2013-02-05 | K-Nfb Reading Technology, Inc. | Systems and methods for multiple voice document narration |
US8290777B1 (en) * | 2009-06-12 | 2012-10-16 | Amazon Technologies, Inc. | Synchronizing the playing and displaying of digital content |
US8150695B1 (en) * | 2009-06-18 | 2012-04-03 | Amazon Technologies, Inc. | Presentation of written works based on character identities and attributes |
US20110153330A1 (en) * | 2009-11-27 | 2011-06-23 | i-SCROLL | System and method for rendering text synchronized audio |
US20110184738A1 (en) * | 2010-01-25 | 2011-07-28 | Kalisky Dror | Navigation and orientation tools for speech synthesis |
CN102314874A (zh) * | 2010-06-29 | 2012-01-11 | 鸿富锦精密工业(深圳)有限公司 | 文本到语音转换系统与方法 |
US20120265533A1 (en) * | 2011-04-18 | 2012-10-18 | Apple Inc. | Voice assignment for text-to-speech output |
WO2013169262A1 (en) * | 2012-05-11 | 2013-11-14 | Empire Technology Development Llc | Input error remediation |
US8972265B1 (en) * | 2012-06-18 | 2015-03-03 | Audible, Inc. | Multiple voices in audio content |
KR20140003944A (ko) * | 2012-07-02 | 2014-01-10 | 삼성전자주식회사 | 단말기의 전자책 제어장치 장치 및 방법 |
-
2012
- 2012-07-06 KR KR1020120073581A patent/KR102023157B1/ko active IP Right Grant
-
2013
- 2013-07-03 US US13/934,973 patent/US9786267B2/en active Active
- 2013-07-04 EP EP13175098.6A patent/EP2682931B1/en not_active Not-in-force
- 2013-07-04 CN CN201310278241.8A patent/CN103533155B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999066493A1 (en) * | 1998-06-19 | 1999-12-23 | Kurzweil Educational Systems, Inc. | Computer audio reading device providing highlighting of either character or bitmapped based text images |
CN1946065A (zh) * | 2005-10-03 | 2007-04-11 | 国际商业机器公司 | 通过可听信号来注释即时消息的方法和系统 |
US20090006087A1 (en) * | 2007-06-28 | 2009-01-01 | Noriko Imoto | Synchronization of an input text of a speech with a recording of the speech |
US20100318363A1 (en) * | 2009-01-15 | 2010-12-16 | K-Nfb Reading Technology, Inc. | Systems and methods for processing indicia for document narration |
CN102446176A (zh) * | 2010-10-09 | 2012-05-09 | 上海博路信息技术有限公司 | 一种电子阅读多媒体用户数据记录及加载方法 |
CN102184168A (zh) * | 2011-05-11 | 2011-09-14 | 中兴通讯股份有限公司 | 电子书签实现装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103533155B (zh) | 2018-04-13 |
US9786267B2 (en) | 2017-10-10 |
KR102023157B1 (ko) | 2019-09-19 |
KR20140006503A (ko) | 2014-01-16 |
US20140012583A1 (en) | 2014-01-09 |
EP2682931A1 (en) | 2014-01-08 |
EP2682931B1 (en) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103533155A (zh) | 在移动终端中记录和播放用户语音的方法和装置 | |
KR102196671B1 (ko) | 전자 기기 및 전자 기기의 제어 방법 | |
KR101929301B1 (ko) | 필기 제스처 인식을 통한 휴대단말의 기능 실행 제어 방법 및 장치 | |
JP5563650B2 (ja) | 音声ファイルに関連するテキストの表示方法及びこれを実現した電子機器 | |
US9773101B2 (en) | Method for displaying contents and electronic device thereof | |
KR101897774B1 (ko) | 녹음된 음성의 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기 | |
KR20150017156A (ko) | 휴대단말기에서 추천어를 제공하는 방법 및 장치 | |
EP3288024A1 (en) | Method and apparatus for executing a user function using voice recognition | |
US10191716B2 (en) | Method and apparatus for recognizing voice in portable device | |
US20130179150A1 (en) | Note compiler interface | |
CN102754352A (zh) | 提供多个应用的信息的方法和装置 | |
CN104104768A (zh) | 通过使用呼叫方电话号码来提供附加信息的装置和方法 | |
RU2643437C2 (ru) | Способ и устройство для выделения информации | |
KR20130129747A (ko) | 음성 녹음 중에 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기 | |
KR20150024188A (ko) | 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치 | |
JP2014049140A (ja) | 使用者デバイスで入力文字を利用した知能型サービス提供方法及び装置 | |
CN102414994A (zh) | 移动终端的输入处理方法以及用于执行该方法的装置 | |
CN105139848B (zh) | 数据转换方法和装置 | |
KR20150027885A (ko) | 전자 필기 운용 방법 및 이를 지원하는 전자 장치 | |
KR101567449B1 (ko) | 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법 | |
KR20140105340A (ko) | 휴대 단말기의 멀티 태스킹 운용 방법 및 장치 | |
CN105373585B (zh) | 歌曲收藏方法和装置 | |
US20150363157A1 (en) | Electrical device and associated operating method for displaying user interface related to a sound track | |
EP2806364B1 (en) | Method and apparatus for managing audio data in electronic device | |
US20140324771A1 (en) | Method of providing information about electronic media content and electronic device supporting the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180413 |