CN103390016A - 显示与音频文件相关联的文本的方法以及电子设备 - Google Patents

显示与音频文件相关联的文本的方法以及电子设备 Download PDF

Info

Publication number
CN103390016A
CN103390016A CN2013101050179A CN201310105017A CN103390016A CN 103390016 A CN103390016 A CN 103390016A CN 2013101050179 A CN2013101050179 A CN 2013101050179A CN 201310105017 A CN201310105017 A CN 201310105017A CN 103390016 A CN103390016 A CN 103390016A
Authority
CN
China
Prior art keywords
text
audio file
mobile terminal
voice
electronic equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101050179A
Other languages
English (en)
Other versions
CN103390016B (zh
Inventor
具本俊
金怡伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN103390016A publication Critical patent/CN103390016A/zh
Application granted granted Critical
Publication of CN103390016B publication Critical patent/CN103390016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Abstract

本公开提供一种显示与音频文件相关联的文本的方法以及电子设备。本公开可以提供能够进行音频记录的电子设备。该电子设备可以包括记录功能单元,其被配置成记录外部声音以将其存储为音频文件;转换单元,其被配置为基于语音至文本(STT)转换将在声音中含有的语音转换为文本;以及控制器,其被配置成从文本检测核心关键字,以及将检测的核心关键字设置为用于音频文件的文件名的至少一部分。

Description

显示与音频文件相关联的文本的方法以及电子设备
技术领域
本发明涉及一种用于显示与音频文件相关联的文本的方法以及用于实施该方法的电子设备。
背景技术
随着信息时代的迅速发展,信息输入/输出功能和数据存储功能的重要性在电子设备中已经被加强。具有那些功能的电子设备可以分成诸如移动站的便携式电子设备和诸如图像显示设备、电冰箱等的固定电子设备。
当功能变得多样化时,移动站被实现为多媒体播放器的形式,其具有复杂的功能,诸如俘获静止和运动图像、播放音乐或视频文件、游戏、接收广播信号等。此外,为了用户的方便,那些复杂的功能也可以应用于固定电子设备。
近些年来,为了实现这些复杂的功能,在硬件或软件方面已经应用了各种新的尝试。例如,提供用户界面环境,以允许用户容易和方便地执行音频记录或检索和选择音频文件。
然而,当在当前用户界面环境中执行音频记录时,电子设备仅显示每个记录文件的文件名、日期和时间。然而,当以这种方式在电子设备上显示文件名时,仅通过相关文件名,用户不了解已经进行了何种记录。
发明内容
本公开要提供一种电子设备,其允许用户容易地了解内容,而不再现音频文件。
此外,本公开提供了一种电子设备,其用于允许用户通过由核心关键词构成的文本串来更方便地控制音频文件的再现。
为了实现前述目的,本说明的公开提供了一种电子设备。该电子设备可以包括记录功能单元,其被配置成记录外部声音以将其存储为音频文件;转换单元,其被配置成基于语音至文本(STT)转换,将声音中含有的语音转换成文本;以及控制器,其被配置成从该文本检测核心关键词,以及将检测到的核心关键词设置为用于该音频文件的文件名的至少一部分。
当存在对于音频文件列表的输出请求时,控制器可以在显示单元上显示基于该文本产生的文本串。该文本串可以在显示单元上被滚动显示。在屏幕上将文本串从右侧移动至左侧的同时,可以显示该文本串的滚动显示。
所述将文本串从右侧移动至左侧可以将该文本串显示为与在该屏幕上可以显示为行的字符数目一样多,并且将该文本串以水平方向移动以显示该文本串的剩余字符,或者可以在屏幕的一侧处显示文本串的第一字符,然后将其移动至屏幕另一侧以继续显示该文本串的剩余字符。
该文本串可以与文件名一起被显示在显示单元上。
当检测到对于该显示文本串的控制命令时,控制器可以在显示单元上显示该文本串的详细内容。
当检测到用于该显示文本串的控制命令时,控制器可以在显示单元上显示基于STT产生的文本。
文件名可以由含有核心关键字的文本串构成,并且当存在用于音频文件列表的输出请求时,控制器可以在显示单元上显示滚动的文本串。
当完成记录时,控制器可以将核心关键字设置为文件名,并且在记录完成之后,通过语音输入,可以对该文件名进行编辑。当该记录完成时,控制器可以在显示单元上显示核心关键字,并且在核心关键字被显示于其上的状态下,通过新的语音输入,可以确定编辑的文件名。
在文本的至少一部分可以被选择的状态下,控制器可以在显示单元上显示基于STT产生的文本。由用户选择的文本的至少一部分可以被存储为音频文件的附加信息。当存在用于该附加信息的输出请求时,该附加信息可以在显示单元上被滚动显示。
电子设备可以对应于移动电话、具有电话功能的设备、电子表、广播接收装置和家用电器中的任何一种。
此外,根据本公开,公开了一种电子设备,其具有麦克风、存储单元及控制器,其中,所述控制器执行记录通过麦克风输入到音频文件的用户语音的记录的步骤,基于从用户语音转换并产生的文本来检测核心关键字,并且将该核心关键字设置为该文件名的至少一部分以将该音频文件存储在存储单元中。
此外,根据本公开,公开了一种具有控制器的电子设备,其中该控制器执行的步骤包括:根据用户请求来驱动记录应用,利用该记录应用来将外部声音记录为音频文件,以及基于在该音频文件内的语音而转换并产生的文本,提供用于该音频文件的文件名。
此外,根据本公开,公开了一种音频记录方法,其包括根据用户请求来显示音频记录应用,利用该音频记录应用来记录含有用户语音的声音作为音频文件,并且当该记录完成时,基于以该音频文件内的语音为基础而转换并且产生的文本来自动为该音频文件提供文件名。
该文件名可以包括基于该文本产生的文本串。该文件名可以包括从基于对于该用户语音的语音至文本(STT)转换产生的文本提取的核心关键字。该文本串可以包括从该音频文件的元数据提取的字。
此外,根据本公开,公开了一种在电子设备中输出音频文件列表的方法。输出音频文件列表的方法可以包括输入用于根据用户请求输出音频文件列表的操作模式,并且在显示单元上显示列表中含有的每个音频文件相关联的文本串,其中基于对于该用户语音的语音至文本(STT)转换产生文本串,并且该文本串在被滚动显示。
该文本串可以在显示单元上与音频文件的文件名一起显示。该语音可以基于语音至文本(STT)转换而被转换成文本,并且该文件名可以包括从该文本检测的核心关键字。
附图说明
附图被包括以提供对本发明的进一步理解,并且被并入到本说明书中且构成本说明书的一部分,示出了本发明的实施例,以及描述一起用于解释本发明的原理。
在附图中:
图1是示出在移动终端中根据本公开能够实施的代表性操作的概念图;
图2是示出根据在此公开的实施例的移动终端的操作控制处理的流程图;
图3A至图3D是示出根据在此公开的第一实施例的移动终端的第一操作控制处理的视图;
图4A至图4D是示出根据在此公开的第一实施例的移动终端的第二操作控制处理的视图;
图5A至图5D是示出根据在此公开的第一实施例的移动终端的第三操作控制处理的视图;
图6A至图6G是示出根据在此公开的第二实施例的移动终端的操作控制处理的视图;
图7A至图7E是示出根据在此公开的第三实施例的移动终端的操作控制处理的视图;
图8A至图8J是示出根据在此公开的第三实施例的移动终端的操作控制处理的视图;
图9A至图9F是示出根据在此公开的第四实施例的移动终端的操作控制处理的视图;
图10A至图10B是示出根据在此公开的第四实施例的移动终端的操作控制处理的视图;
图11A至图11C是示出根据在此公开的第五实施例的移动终端的操作控制处理的视图;
图12A至图12G是示出根据在此公开的第六实施例的移动终端的操作控制处理的视图;
图13A至图13C是示出根据在此公开的第七实施例的移动终端的操作控制处理的视图;
图14是示出与本公开的实施例相关联的移动终端的框图;
图15是示出根据本公开实施例的图像显示设备的内部框图;以及
图16是示出当根据本公开实施例的电子设备是冰箱时包含在冰箱中的显示控制器和主体控制器的框图。
具体实施方式
应该注意的是,在此使用的技术术语仅用于描述特定实施例,但是不限于本发明。此外,除非特别说明,否则在此使用的技术术语应该被理解为由本发明所属领域中的技术人员通常所理解的含义,并且不应该太广泛或太狭隘地理解。此外,如果在此使用的技术术语是不能够正确表达本发明概念的错误术语,则它们应该由本领域的技术人员正确理解的那些技术术语所取代。另外,在该发明中使用的一般术语应该基于字典的定义或上下文来理解,并且不应该太广泛或太狭隘地理解。
顺便提及,除非另有清楚的使用,以单数数目的表达方式包括复数含义。在本申请中,术语“comprising(包括)”和“including(包括)”不应被解释为必然包括在此公开的所有元件或步骤,并且应被解释为包括其元件或步骤中的一些,或者应该被解释为进一步包括另外的元件或步骤。
用于此处所使用的组件的后缀“模块”和“单元或部分”仅被提供为便于本说明书的准备,并且因此它们不应被认为具有不同含义或功能。
此外,在本公开中的包括诸如第一、第二等的序数的术语可以被用于描述各个元件,但是所述元件不应该受那些术语的限制。这些术语仅被用于将一个元件与另一个元件区别开的目的。例如,在不脱离本发明的权利的范围的情况下,第一元件可以被命名为第二元件,并且类似地,第二元件可以被命名为第一元件。
下文中,将参考附图来详细描述此处公开的实施例,并且在附图中无论数字如何,相同附图标记指代相同或相似元件,并且将省略对于它们的冗余描述。
另外,在描述本发明中,当判断对于本发明所属的公开已知技术的特定描述模糊了本发明的要旨时,将省略该详细描述。此外,应该指出的是,附图仅被示出以容易地解释本发明的概念,并且因此它们不应被解释为通过附图限制此处公开的技术概念。
在此公开的移动电子设备包括便携式电话、智能电话、膝上型计算机、数字广播移动设备、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航仪、平板型(slate)PC、平板(tablet)PC、超级本等。在下文中,根据本公开的各种实施例基于诸如便携式电话、智能电话等的移动终端,但是应用到该移动终端的功能也可以应用到诸如数字TV、桌上型计算机、冰箱、投影仪等的固定电子设备、以及不使用诸如PMP等的通信网络的便携式电子设备。
图1是在移动终端中根据本公开能够实施的代表性操作的概念图。
移动终端100根据用户的请求来驱动记录应用。针对该操作,包括该记录应用的多个应用可以存储在移动终端100的存储单元中。参考图1,通过驱动该记录应用,该记录应用的图形用户界面(GUI)显示在显示单元151上。此外,移动站使用该记录应用,将外部声音记录为音频文件。
在该情形下,语音至文本(STT)执行应用可以与记录应用的驱动一起被驱动。又例如,用于接收在记录应用的驱动期间是否执行STT的选择的图标被弹出。另外,虽然在该附图中未示出,但是与记录的进度相联接,由STT转换的文本可以显示在显示单元151上。
参考图1,当记录完成时,移动站在基于音频文件内的语音转换和生成的文本的基础上,提供用于音频文件的文件名。在该情形下,通过语音至文本(STT)功能或算法将语音转换成文本,并且从转换的文本提取核心关键词,并且可以将核心关键词提供为用于音频文件的文件名。当通过该处理给予文件名时,在没有再现存储在此的音频文件的情形下,用户可以容易地猜测音频文件的内容。
将文件名提供至的音频文件与诸如记录、存储和再现的一系列处理相关联。因此,一系列处理将被划分成实施例并且在下文中详细描述,并且在前述实施例之一中详细描述提供使用转换文本的文件名的处理。
图2是示出根据在此公开的实施例的移动终端的整个操作控制处理的框图。
移动终端100执行起动语音备忘录(S100),进行语音备忘录(S200)以及终止语音备忘录(S300)的步骤。参考关于进行语音备忘录(S200)的步骤的图3A至图5D,描述在此公开的第一实施例。
此外,当语音备忘录被传输时(S300),移动终端100执行提供文件名(S400)和修改文件名(S500)的步骤。参考关于提供文件名(S400)的步骤的图6A至图6G,以及参考关于修改文件名(S500)的步骤的图7A至图7E,描述在此公开的第二实施例。
此外,移动终端100执行接入文件列表的步骤(S600)。关于此,参考图8A至8J来描述在此公开的第三实施例。
此外,移动终端100执行检索文件内容(S700)和编辑文件内容(S800)的步骤。参考关于编辑文件内容(S800)的步骤的图9A至图10B,将描述在此公开的第四实施例。此外,参考图11A至图11C描述在此公开的第五实施例,参考图12A至图12G来描述在此公开的第六实施例,以及最后参考关于检索文件内容的步骤(S700)的图13A至13C来描述在此公开的第七实施例。
通常,通过当音频记录被启动时将模拟语音转换成数字形式以将其存储在缓冲器中,并且当音频记录终止时使用存储在缓冲器中的数据来生成音频文件以将其存储在存储器中的处理,执行音频记录处理。然而,根据情形,用户会想要控制在记录期间(以及在终止音频记录之前)正被记录的语音。将在下文描述的第一实施例涉及用于控制当持续进行该记录时被记录的语音的操作,并且第一实施例包括各种操作示例。
首先,将参考图3A至图3D来描述第一操作控制处理。
图3A至图3C是示出根据在此公开的第一实施例的移动终端的第一操作控制处理的视图。
在音频记录期间,要求用户检查在诸如数秒钟或数分钟之前的先前时间点已经进行的音频记录的内容。为了此目的,用户可以终止目前正在进行记录的音频,并且再现该生成音频文件,以检查他的或她的期望内容。然而,终止音频记录和再现生成的音频文件以及随后重新开始记录是麻烦和无效率的。
因此,根据在此公开的第一实施例的第一操作控制处理涉及在没有终止音频记录的情形下实时记录音频期间允许用户检查与先前时间点相对应的音频记录的方法。
图3A是示出其中根据在此公开的第一操作控制处理的移动终端100在音频记录期间再现被记录的内容的处理的流程图,以及图3B至图3D是示出其中移动终端100在音频记录期间再现被记录的内容的处理的概念图。
参考图3A,存储器160(下文参考图14)通过例如麦克风122(下文参考图14)存储音频信号输入(S1110)。控制器180(下文参考图14)将输入音频信号转换成数字形式,以将其存储在例如缓冲器的存储器160的预定区域中。此外,控制器180可以存储被存储的音频信号的时间信息。该时间信息可以包括关于已经流逝直至在开始记录之后接收或存储相关音频信号的时间的信息。
当移动终端100将输入音频信号转换成文本时,控制器180使用语音至文本(STT)功能或算法,可以将输入音频信号转换成文本。控制器180在存储器160中可以存储被转换的文本。在该情形下,与记录应用相联接,驱动语音至文本(STT)执行应用。
在音频信号的存储期间,显示单元151(下文参考图14)显示用于指示正被存储的音频信号的进度状态的项目(S1120)。用于指示进度状态的项目可以是进度条。进度条可以包括指示整个记录部分的当前时间点的指示符。当整个被记录部分未被显露时,指示当前时间点的指示符被显示在进度条的中间。进度条可以可视地显示在整个记录时间(例如,5秒)内的当前记录时间(例如,3秒)。
作为更具体的示例,参考图3B(a),当根据用户的输入执行例如音频记录功能的音频记录功能执行请求时,控制器180在显示单元151上显示音频记录屏幕。音频记录屏幕可以包括指示功能执行状态的指示符1102以及指示记录进度状态的进度条1104。
例如,指示功能执行状态的指示符1102反映诸如“记录”或“播放”的当前功能执行状态。
进度条1104可以包括指示记录的开始时间点的指示符1106以及指示当前记录时间点以指示记录进度状态的指示符1108,以及显示单元151显示指示当前记录时间的时间信息1112和进度条1104。
参考图3A和图3B,针对下一步骤,用户输入单元130(下文参考图14)从用户接收用于选择指示进度状态的项目的预定部分的输入(S1130)。例如,当接收音频信号时,用户输入单元130接收用于选择指示进度状态的项目的预定部分的输入。
为了此目的,移动终端100能够监控是否接收先前时间点再现命令。先前时间点再现命令可以是用于允许用户在进度条上选择与当前时间点之前的时间点相对应的特定时间点的命令。否则,其可以是用于选择从当前时间点开始的特定时间之前的时间点的命令,诸如10秒钟以前、1分钟以前等。
作为选择命令的示例,用户可以触摸进度条1104上的在当前记录时间点之前的任何一个时间点,或者将指示记录开始时间点的指示符1106或指示当前记录时间点的指示符1108拖动到当前记录时间点之前的时间点中的任何一个。在该情形下,显示单元151可以显示指示被选择的时间点(再现时间点)的另一指示符1110。
又参考图3A,针对下一步骤,控制器180再现与被选择的部分(或者被选择的文本串)相对应的音频信号(S1140)。由于控制器180再现音频信号,所以与被选择的部分相对应的音频信号可以是通过耳机、扬声器或接收器来被听觉输出,或者从语音转换的文本可以通过显示器被可视地显示。此外,显示单元151可以显示与被选择的部分相对应的音频信号的时间信息。
例如,如图3B(b)中所示,当在当前记录时间点之前的时间点被选择时,控制器180从被选择的时间点再现被记录的音频。此外,显示单元151例如更改指示功能执行状态的指示符1102,以指示同时执行记录和播放,诸如“记录&播放”。此外,指示被选择的时间点(再现时间点)的指示符1110在进度条1104上移动,以在显示单元151上反映再现时间点。此外,显示单元151可以显示指示再现时间点的时间信息1114和进度条1104。
又例如,当用户选择如图3C(a)中所示的当前时间点之前的时间点时,显示单元151可以从相关时间点显示从记录语音转换的文本1118,如图3C(b)中所示。
另一方面,当从先前时间点再现记录音频时,控制器180不暂停当前进行的音频记录。换言之,控制器180在先前时间点处再现被记录的音频,同时在当前时间点处记录音频,并且存储器160可以连续存储正被输入的音频信号,同时再现与被选择的部分相对应的音频信号。因此,移动终端100监控音频记录结束命令是否被接收,并且在接收音频记录结束命令时终止音频记录。
又例如,参考图3D,移动终端100基于STT可以将正在被记录的语音转换成文本,以在显示单元151上显示被转换的文本。例如,如图3D(a)中所示,在显示单元151上可以显示用于从记录的开始直至当前时间点已经接收的音频信号的基于STT文本。
然而,本公开不限于此。例如,控制器180可以显示用于从预定先前时间点直到当前时间点已经接收的音频信号的基于STT的文本,或者显示用于从记录开始直至当前时间点已经接收的音频信号的基于STT的文本的每个特定单元(例如,段)的代表性文本。否则,显示单元151可以显示指示其中音频信号与用于存储音频信号的基于STT文本一起存储的进度状态的项目。
在该情形下,如图3D(b)中所示,显示的文本被形成为滚动的,并且因此当正在进行记录时,用户能够检索他的或她的期望部分。此外,用户输入单元130被形成为从在显示单元151上显示的基于STT文本来接收部分文本串或关键字的选择。被选择的文本串或关键字可以用于文件名、书签等的设置,并且将在下文对其进行描述。
根据先前的第一实施例的第一操作控制处理,在音频记录期间,在没有终止音频记录的情形下,用户能够便利地检查先前记录的内容。此外,用户通过使用进度条或文本的直观用户界面,能够同时控制记录和再现。
图4A至图4D是示出根据在此公开的第一实施例的移动终端的第二操作控制处理的视图。
通常,存在音频记录处理期间用户期望特别记忆或突出的部分。然而,检索音频文件的内容的处理不是直观的(在与视觉特性相比较的听觉特性方面),结果在随后再检索相关部分中会存在困难。此外,事先存储期望被记忆或突出的部分的记录时间或随后将其检索会有麻烦。
因此,第二操作控制处理涉及在音频记录期间通过具有能够被用户即刻应用到期望记忆或突出的部分的熟悉图案的输入来写入特定时间点的方法。
图4A是示出在音频记录期间写入特定时间点的处理的流程图,以及图4B是示出图4A的处理的概念图。图4C是示出在音频记录期间从写入特定时间点再现音频数据的处理的流程图,以及图4D是示出图4C的处理的概念视图。
参考图4A,当控制器180开始音频记录时,控制器180转换正在输入的音频信号,以将其存储为音频数据(S1210)。此时,显示单元151显示指示记录状态的进度条。该进度条包括指示整个被记录部分的当前时间点的指示符。当整个被记录部分未被显露时,指示当前时间点的指示符显示在进度条的中间。
此外,显示单元151显示用于正输入的音频信号的基于语音至文本(STT)的文本。例如,显示单元151显示用于已经从记录开始直至当前时间点的音频信号的基于STT文本,或者显示已经从预定先前时间点直至当前时间点接收的基于STT文本,或者显示用于音频信号的基于STT文本的每个特定单元(例如,段)的代表性文本串。
参考图4B,移动终端100执行根据用户输入的音频记录功能,并且显示音频记录屏幕。音频记录屏幕可以包括指示功能执行状态的指示符1202和指示记录状态的进度条1204。
例如,指示功能执行状态的指示符1202反映诸如“记录”的当前功能执行状态。
进度条1204包括指示记录的开始时间点的指示符1206、以及指示当前时间点以指示记录进度状态的指示符1208,并且例如移动终端100的电子设备显示指示当前记录时间和进度条1204的时间信息1210。
又参考图4A,输入单元(例如,麦克风122、用户输入单元130、感测单元140(下文参考图14)等)接收具有特定模式的输入,同时接收音频信号(S1220)。通过用于感测特定区域或按钮的触摸传感器、键盘、触觉传感器、加速传感器、陀螺仪传感器、麦克风等中的任何之一,输入单元可以接收具有预定模式的输入。
例如,预定模式的输入可以包括对特定区域的触摸输入、对特定键按钮的输入(对于按钮的推动或者对于触摸键的触摸)、在特定区域中触觉的变化、移动终端的加速的变化、移动终端的角速度的变化、以及针对其特定语音命令的强度或音量大于阈值的语音。可替选地,输入单元可以接收在显示单元151上显示的基于STT文本的部分的选择输入。
作为预定模式的示例,参考图4B(a),在音频记录期间,移动终端100可以感测针对移动终端100的屏幕121的特定区域的触摸。
可替选地,控制器180可以在音频数据的记录信息(未示出)中,写入在显示单元151上显示的从基于STT文本选择的文本的一部分的位置、或者基于文本的一部分的位置的局部部分。移动终端100基于STT转换将正在记录的语音转换成文本,以将被转换的文本显示在显示单元151上。在该情形下,文本串或关键字被形成为从被显示的文本中选择。例如,当应用针对任何关键字的触摸输入时,将触摸的关键字的位置写入音频数据的记录信息中。
又参考图4A,控制器180反映特定模式被输入到音频数据的记录信息中的时间点(S1230)。移动终端100可以存储相关输入和音频记录一起被接收的时间点。
此外,控制器180可以将音频数据和音频数据的记录信息生成为文件,或者分别将其生成为单独文件,以将其存储在存储器160中。当音频数据和音频数据的记录信息被生成为文件时,记录信息可以是音频文件的元数据,并且该音频数据可以包括在音频文件的主体中。当音频数据和音频数据的记录信息被生成为单独文件时,参考其中存储记录信息的文件,可以再现其中存储音频数据的文件。
参考图4B(b),移动终端100显示指示预定模式被输入到进度条1204的时间点的指示符1214。否则,移动终端100可以显示指示已经写入接收具有预定模式的输入的时间点的指示符,取代显示指示预定模式将被输入到进度条1204的时间点的指示符1214。移动终端100可以输出指示以视觉、听觉或触觉方式已经写入接收具有预定模式的输入的时间点的指示符。
移动终端100从用户接收除了特定时间点之外的备忘录,同时接收语音(或者语音信号)。此外,控制器能够存储包含基于STT的文本的文本文件和音频文件,并且在该情形下,备忘录或特定时间点可以分别写在音频文件或文本文件上。又例如,可以将备忘录和特定时间点划分并且分别写在文本文件和音频文件上。
当如上所述在记录期间执行用于特定时间点的写入时,进行通过终止记录所存储的语音文件,以将与特定时间点相关的信息通知给用户。在下文,将更详细地描述该操作。
参考图4C,当存在如图4A中所示的通过处理S1210至S1230存储的音频数据的接入请求时,控制器180获取从请求音频数据的记录信息接收的特定模式的时间点(S1240)。
此外,控制器180控制显示单元151,以显示指示特定模式被接收的获取时间点的指示符(S1250)。此时,显示单元151在进度条上显示指示音频数据的再现状态的指示符。
参考图4D(a),当根据用于执行例如用户输入的音频数据再现功能的请求来执行音频数据再现功能时,移动终端100执行音频数据再现功能并且显示音频数据再现屏幕。
音频数据再现屏幕包括指示功能执行状态的指示符1202以及指示再现状态的进度条1204。例如,指示功能执行状态的指示符1202反映诸如“播放”的当前功能执行状态。
进度条1204包括指示记录的开始时间点的指示符1206、以及指示具有预定模式的输入被接收的至少一个时间点的指示符1214至1208,移动终端100显示指示整个再现时间的时间信息1210和进度条1204。
又参考图4C,用户输入单元130从用户接收用于选择显示在显示单元151上的指示符的输入(S1260)。随后,控制器180从与由用户选择的指示符相对应的时间点再现音频数据(S1270)。
参考图4D(b),移动终端100接收用于在进度条1204上选择指示至少一个预定模式被接收的时间点的指示符1214至1218中的任何一个指示符1214的输入。移动终端100从与被选择的指示符相对应的时间点再现音频数据。在该情形下,指示当前再现时间点的指示符1208可以是指示被选择时间点的指示符。
此外,当根据其中如上所述在记录音频文件时能够输入备忘录的实施例的备忘录输入存在时,在再现音频文件的同时能够显示该备忘录。例如,在到达再现期间写入备忘录的位置时,在显示单元上可以将该备忘录作为文本显示。此外,在该情形下,除了指示图案的输入被接收的时间点的指示符(1214至1218)之外,指示该备忘录被接收的时间点的另一指示符(未示出)也可以被显示。
如上所述,根据此处公开的第一实施例,在音频记录期间,其允许用户容易地写入特定时间点。因此,随后能够提供检索的便利。
图5A至图5D是示出根据在此公开的第一实施例的移动终端的第三操作控制处理的视图。
通常,具有触摸屏幕的移动终端100使用铁笔或手指可以提供手写功能。此处,手写是用于允许用户写讲稿、公开内容、谈话等的内容的行为,并且电子设备可以存储被触摸的位置,以提供手写功能。然而,当用户记录语音而同时写入讲稿、公开内容、谈话等的内容时,分别管理写入文件和音频记录文件,并且因此当随后再听讲稿、公开内容、谈话等的内容时,存在应该呼叫每个文件的负担。
结果,第三操作控制处理涉及其中彼此同步存储写入和音频记录并且因此随后能够同时再便利地检查其内容的方法.
图5A是示出利用手写来同步音频记录的处理的流程图,并且图5B是示出图5A的处理的概念图。
参考图5A,移动终端100首先开始手写(S1310),以及检查是否接收音频记录命令(S1320)。
在接收音频记录命令时,例如移动终端100的电子设备与手写同步执行音频记录(S1330)直至接收手写结束命令(S1340)。在接收手写结束命令时,移动终端100终止手写(S1350)。
作为特定示例,参考图5B,当根据用户的输入来执行例如手写功能的手写功能执行请求时,移动终端100可以显示手写屏幕。
手写屏幕可以包括其中手写被接收的区域1320和音频记录菜单1304。其中接收手写的区域1302显示使用铁笔、手指等触摸的位置。因此,在其中接收手写的区域1302上,能够显示手写的内容(1306)。
当用户选择音频记录菜单1304同时进行手写时,移动终端100与手写进度时间点同步地记录由用户发出的语音1308。
移动终端100以各种方式与手写进度时间点同步地记录由用户发出的语音1308。例如,由用户发出的语音1308可以被记录,以与实时进行手写的时间点相对应。否则,可以记录由用户发出的语音1308,以与例如每页的手写单元相对应。
图5C是示出在手写再现期间与手写同步的再现音频记录的处理的流程图,以及图5D是示出图5C的处理的概念视图。
参考图5C,移动终端100开始手写的再现(S1370)。此外,移动终端100检查是否接收音频记录再现命令(S1380)。
在接收音频记录再现命令时,移动终端100与正在再现的手写同步地再现音频记录(S1390)。然而,当没有接收到音频记录再现命令时,在没有再现音频记录的情形下,移动终端100仅再现手写(S1395)。
参考图5D,当根据用户的输入来执行例如手写再现功能的手写再现功能执行请求时,移动终端100可以执行手写再现功能和显示手写再现屏幕。手写再现屏幕可以包括其中再现手写的区域1310和再现菜单1312。
当再现菜单1312被选择时,在例如页单元的手写单元中再现手写的区域1310中,移动终端100显示由用户使用铁笔、手指等所写入的手写1314的内容。在该情形下,移动终端100再现与手写1314内容同步存储的音频记录1316,即当写入手写内容时由用户发出的声音。
如上所示,根据在此公开的第一实施例,手写和音频记录彼此同步存储,从而允许用户立即便利地检查内容。结果,其可以增强教育的效率。
根据本公开的移动终端被实施,以使用被转换的文本来提供文件名。在下文中,将如第二实施例详细描述与提供文件名相关联的处理。
图6A是示出以基于STT的文本为基础来自动提供根据本公开的第二实施例记录的音频文件的文件名的方法的流程图。
参考图6A,根据本公开的第二实施例,移动终端执行用于正在记录的语音或被记录的语音的语音至文本(STT)功能或算法,以获取文本、文本串或脚本。此外,移动终端在从用户接收用于音频文件列表的接入请求时,可以在显示单元上显示文本、文本串或脚本。将在下文对此进行详细描述。
首先,开始音频记录(S2110)。当音频记录开始时,在缓冲器中存储正在实时接收的音频数据。缓冲器是具有最高处理速度的介质,例如易失性存储器。否则,缓冲器是电子设备的内存储器,例如移动终端。
此时,在缓冲器中存储的音频数据可以被存储为具有恒定时段的临时音频文件。将临时音频文件存储在具有最高处理速度的介质中,例如易失性存储器。根据随机提供的号或预定规则,将临时文件名提供给临时音频文件。
接下来,进行实时语音至文本(STT),以获取文本、文本串或脚本(S2120)。STT从语音如上所述地识别词(例如,主语、谓语、名词、动词),并且排列被识别的词,以产生文本、文本串或脚本。
当终止音频记录(S2130)时,生成音频文件(S2140)。该音频文件基于临时音频文件被生成。例如,可以将音频文件存储在具有大存储容量的介质中,具有大存储容量的介质可以是低速。因此,基于从存储在具有高处理速度的介质中的临时音频文件移动,在具有大存储容量的介质中,生成音频文件。
在该情形下,元数据和音频文件一起被生成。元数据可以包括记录数据、总记录时间、从GPS获得的位置、发言者的名称、联系地址等。可以将从GPS获得的位置作为坐标值来获取,并且因此移动终端基于坐标值通过地图数据服务器可以获得地理名称,然而将地理名称作为元数据被存储。
发言者的名称可以是发言者之间由其他人称呼的名称。例如,假定在会议中的情形下,当发言者A谈话同时呼叫其他的人Alice并且发言者B响应该交谈时,移动终端100通过该交谈推导出发言人B的名称是Alice。此外,在记得发言者A的语音和发言者B的语音的情形下(例如,在记得他或她的语音语调、讲话方式等的情形下),发言者B交谈同时呼叫其他人Bob,并且发言者A响应该交谈时,移动终端100通过该交谈推导出发言者A的名称是Bob。
当如上所述通过谈话获得发言者名称时,例如移动终端100的电子设备可以将发言者的名称存储为元数据,并且从地址本中获得发言者的联系地址,以存储联系地址和元数据。
另一方面,当音频文件被生成时,移动终端100基于生成的音频文件可以执行STT,以生成文本(S2150)。当在前述步骤S2120中生成文本时,步骤S2150可以省略,在没有步骤S2120的情形下仅进行步骤S2150。
否则,实时进行步骤S2120,并且根据情形不能实时识别语音,并且因此可以执行步骤S2150,以处理这种不完全的部分。
例如,当在多个发言者彼此交谈的情形下在步骤S2120中进行STT时,难以实时识别多个发言者的声音。因此,在这种情形下,仅识别一些发言者的声音,以在步骤S2120中获得文本,并且可以识别其他发言者的声音,以在步骤S2150中获得文本。随后,将从一些发言者的声音获得的文本和从其他发言者的声音获得的文本组合,以生成文本。此时,当组合两个文本时,以时间顺序来排列基于每个发言者的声音的文本串。
又例如,当移动终端100实时执行STT以在多个发言者同时交谈的情形下获得文本时,可以以混合的方式来识别两个人的谈话。作为更具体的示例,当发言者A发出“下星期再开一次会怎么样?”,并且发言者B发出“我们下星期制定一个时间表”时,移动终端100将谈话识别为“我们下星期制定再开一次会一个时间表怎么样”,从而产生错误。结果,移动终端100可以识别发言者A,然后仅针对发言者A的语音执行STT,以在步骤S2120中获得文本,并且仅针对发言者B的语音执行STT,以在步骤S2150中获得文本,然后将发言者A和B的文本组合。
随后,移动终端100基于文本可以提供音频文件的文件名(S2160)。
此时,在现有技术中,基于普通规则典型地生成文件名。例如,通过顺序地附加编号,生成具有诸如AUDIO_001、AUDIO_002、AUDIO_003的文件名的文件等。否则,在现有技术中,利用记录数据和序号组合生成每个记录文件的文件名。换言之,根据现有技术可以将前述三个文件生成为20120112_001、20120212_001、20120312_001等。
然而,当移动终端根据用于音频文件的列表的接入请求来显示这种文件名时,用户根本不知道仅利用该相关文件名,进行了何种类型的记录。
根据本公开,当记录被终止时,以基于音频文件内的语音转换和生成的文本为基础,提供用于音频文件的文件名。例如,控制器从文本检测核心关键字,并且将检测的核心关键字设置为用于音频文件的文件名的至少一部分。
音频文件的文件名可以基于转换的文本被自动地提供,或者根据用户的选择来被提供。在下文,将参考图6B至图6D描述自动提供文件名的情形,以及参考图6E和6F将描述部分地添加用户的选择的情形,以及参考图6G来描述根据用户的选择而提供文件名的情形。
图6B示出其中将文件名自动提供到音频文件的示例。
参考图6B,示出三个音频文件,并且将其处理,以分别根据不同方法来检测核心关键字。
第一音频文件指示其中核心关键字是由特定发言者在特定时间点(例如,在交谈的介绍期间)发出的词语。例如,在一般会议中,主办方通常讲什么时候开会的事情。因此,当在交谈的介绍期间,发言者A说“我们开始移动电话的新产品开发会议”时,移动终端100可以将“会议”检测为核心关键字,并且将包括相同的“移动终端新产品开发会议”的文本串,提供为文件名。在该情形下,特定时间点是用于预定时间段(例如,在开始记录之后的一分钟)的范围,并且预定时间段由用户设置。
否则,核心关键字是在记录期间由特定发言者强调的词。通过语音的情感分析或单词的重复率可以定义重点。
第二音频文件指示其中通过语音的情感分析来提供的文件名的情形。例如,终端使用情感分析算法,检测其中特定发言者在激动状态下的发言或高语调地发言的部分处的关键字。具体地,当用户记录在从无线电或电视机广播的新内容中的相关LTE文章时,移动终端100从即新闻主播的发言者的语音分析情感,以了解其是否是新闻。此外,当新闻主播讲话同时强调字LTE,则移动终端100可以将字LTE检测为核心关键字,并且提取“LTE相关的文章片段”作为将要设置成文件名的文本串。
又例如,可以将具有高重复率的字检测为关键字,并且在该情形下,在特定部分(例如,交谈的介绍、交谈的结束)处具有高重复率的字可以是关键字。例如,当短语“天线设计”重复多次同时发言者A和B彼此交谈,可以将天线设计作为文件名提供。此外,当在谈话的介绍期间检测字“会议”时,可以将“天线设计会议”作为文件名(参考第三文件名)被提供。以该种方式,可以将前述示例彼此组合。
此外,通过识别记录位置或情形,可以提取关键字。例如,当移动终端位于办公室或者客户的网站处并且因此期望频繁会议时,从交谈的介绍来检测关键字,并且当移动终端位于家中并且因此期望频繁看电视时,将通过情感分析提取的字检测为关键字。
在下文中,参考图6C至图6F来详细描述自动提供文件名的示例。
图6C示出根据利用表在图6A中示出的方法来自动提供音频文件的文件名的示例。
如图6C中所示,当通过前述步骤S2140生成音频文件时,基于序列号来分别提供临时文件名AUDIO_001、AUDIO_002、AUDIO_003等。否则,当通过前述步骤S2240来生成音频文件时,基于记录数据和序列号的组合,可以提供例如20110403_001、20110505_001、201200404_001等的临时文件名。换言之,根据现有技术可以生成前述三个文件。
将在下文详细描述在这种情形下提供用于三个音频文件的文件名的示例。
根据该表,为第一音频文件提供临时文件名AUDIO_001,并且从基于STT的文本中,提取即“移动电话的新产品开发会议”的由核心关键字组成的文本串,并且数据信息是2011-04-03,以及参加者是Alice、Bob和Charlie,以及作为元数据的位置是首尔的Yeouido(汝矣岛),并且存储每个参加者的联系地址。然后,移动终端100将“移动电话的新产品开发会议”提供为文件名。此外,移动终端100可以自动地提供文件名作为由日期组成的文本串和用于第一音频文件的核心关键字的组合。例如,如此处所示,“20110403移动终端新产品开发会议”可以提供为文件名。
又例如,为示出的第二音频文件提供临时文件名AUDIO_002,以及从基于STT的文本中,提取即“LTE相关文章”的由核心关键字组成的文本串,并且数据信息是2011-05-05,并且参加者是Bob和Charlie,以及作为元数据的位置是首尔的Gangnam(江南),以及每个参加者的联系地址被存储。然后,移动终端100将“LTE相关文章片段”提供为文件名。此外,如此处所示,移动终端100可以将由日期组成的文本串和用于第二音频文件的核心关键字组合,以例如将“20110505LTE相关文章片段”提供为文件名。
又例如,为示出的第三音频文件提供临时文件名AUDIO_003,以及从基于STT的文本中,提取即“天线设计会议”的由核心关键字组成的文本串,以及日期信息是2012-04-04,并且参加者是Charlie、Alice和Bob,并且作为元数据的位置是首尔的Myeongdong(明洞),以及每个参加者的联系地址被存储。然后,移动终端100使用由日期组成的文本串和核心关键字的组合,将“20120404天线设计会议”提供为文件名,如此处所示。
在图6C中,已经示出能够仅将每个音频文件和数据以及核心关键字的组合相区分的示例,但是如果存在具有相同数据和相同关键字的文件,则移动终端100进一步使用参加者、记录开始时间、以及位置信息中的至少一个,以提供文件名。
图6D示出根据图6A中示出的方法来自动地提供音频文件的文件名的另一示例。
参考图6D,在不使用YYYYMMDD的形式的情形下,当提供文件名时,例如移动终端100的电子设备可以使用今年、去年、前年、以及年/月/日。
此外,当提供文件名时,例如移动终端100的电子设备可以使用地理名称。
例如,针对示出的第一音频文件,使用由日期构成的文本串、地理位置、和核心关键字的组合,移动终端100可以提供例如用于第一音频文件的文件名“去年在Yeouido的移动电话的新产品开发会议”。
此处,值得注意的是,去年/今年的概念可以随着时间的过去而更改,并且因此移动终端100根据时间的流逝而自动地更改文件名。
例如,如果目前是2011年,则第二文件是在2011-05-05中生成,然后例如移动终端100的电子设备可以为第二文件提供文件名“今年在Gangnam日期为05-05的LTE相关文章”。
然而,如果随着时间的过去,目前是2012年,则例如移动终端100的电子设备可以自动地将第二文件的文件名更新为“去年Gangnam的LTE相关文章”。否则,无论何时执行音频记录相关功能,可以执行自动更新。此外,自动更新可以被安排以在空闲期间执行。否则,自动更新可以被安排以在每当月或年变换时执行一次。
另一方面,根据第二文件的示例在文件名中没有示出月/日。因为移动终端100确定仅通过由地理名称及核心关键字构成的文件名,足以区别每个音频文件。然而,当确定这种区别是不可能的时,移动终端100可以将关于月/日的信息添加到文件名,如在第三文件中所示。
图6E示出根据图6A中示出的方法的在自动提供音频文件的文件名之后允许用户确认的处理。
参考图6E,生成第三音频文件之后,移动终端100给第三音频文件自动地提供文件名“20120404天线设计会议”,如上所示。
以该方式,自动提供的文件名基于由移动终端100从基于STT的文本提取的核心关键字所组成的文本串。根据这些情形,这些核心关键字会不合适。
因此,移动终端100可以自动地提供文件名,然后执行用于允许用户确认被提供的文件名是否合适的操作。例如,如图6E(a)或6E(c)中所示,移动终端100可以提供文件名,然后显示“修改”按钮和“确认”按钮。
在该情形下,当如图6E(a)中所示,用户触摸所述确定按钮时,为音频文件可以决定性地提供文件名“20120404天线设计会议”,如图6E(b)中所示。相反,当如图6E(c)中所示用户触摸修改按钮时,音频文件的文件名可以被切换成为可修改状态。对于这样的示例,如图6E(d)中所示,可以提议另一文件名。对于另一文件名的提议,可以将优选权提供给创建的文件名。例如,可以将核心关键字检测方法中的重复率提供为优选权,并且可以将情感分析或特定时间点分析用作下一优先权。在该情形下,由于用户选择修改按钮,被提议的另一文件名可以是包括由下一优选权分析所提取的核心关键字的文本串。
可替选地,提供文件名之后,移动终端100可以以倾斜效果或以暗淡颜色来文件名。当用户触摸文件名时,移动终端100可以释放倾斜效果或暗淡颜色。然而,当触摸文件名超过预定时间段(例如,短或长的触摸),则移动终端100可以显示能够修改文件名的屏幕。
可替选地,在提供文件名之后,移动终端显示“确认”按钮同时以倾斜效果或以暗淡颜色来显示文件名。当在没有触摸确认按钮的情形下用户触摸文本串时,移动终端100可以显示能够修改文件名的屏幕。
图6F示出其中如图6A中所示的自动提供音频文件的文件名但是存在复制文件名的示例。
当自动提供音频文件的文件名但是存在复制文件名时,移动终端100还进一步显示其它被推荐的文件名。否则,当存在复制文件名时,移动终端100可以显示其它核心关键字。当用户选择其它核心关键字中的任何一个时,移动终端100使用被选择的关键字可以更新文件名。
更具体地说,当先前存在文件名“天线设计会议”时,被记录和被添加的文件名配置有“天线设计会议”。参考图6F,当存在复制文件名时,移动终端100可以显示说明短语“推荐文件名是复制的。你想要修改吗?”。然后,移动终端100可以显示“确认”按钮或“否定”按钮。
否则,当存在复制文件名时,移动终端100可以显示能够被提供的文件名列表。文件名列表可以是具有下一优先权的核心关键字,并且用户可以触摸在该列表上的文件名之中的他/她所期望的文件名,以给音频文件提供文件名。
图6G示出其中用户创建音频文件名的情形。
参考图6G,由STT转换的文本显示在显示单元151上同时记录被执行。当记录被执行时,可以实时显示被转换的文本,或者可以仅显示从文本提取的核心关键字或文本串。
用户可以选择关键字,以被提供为在显示单元151上显示的文本之中的文件名同时记录被执行。例如,当用户拖动以选择文本串“天线设计”时,随后文本串“天线设计”将作为文件名被创建。
这种选择输入可以被应用到多个关键字或文本串。例如,当用户拖动“天线设计”或者触摸“会议”时,其被组合以创建作为文件名的“天线设计会议”。
此外,当显示文本时通过用户触摸或拖动所选择的关键字或文本串可以作为用于随后提供文件名的列表被存储在此中。当记录被终止和存储时,可以将该列表显示为可选择的项目。
通过各种类型的驱动方法,可以实施图6G的实施例。例如,控制器可以通过三个步骤的执行来实施驱动方法。更具体地说,在第一步骤期间,控制器驱动用于将通过麦克风输入的用户声音记录成音频文件的记录应用,以及在第二步骤期间,与驱动记录应用相联接地驱动语音至文本(STT)执行应用,以在显示单元上显示从用户声音转换和生成的文本。在最后第三步骤期间,控制器将通过来自显示在显示单元上的文本的内容的触摸输入所指定的关键字设置成用于音频文件的文件名的至少一部分。
控制器可以检测来自文本的核心关键字,并且当在音频文件的记录期间不存在触摸输入时,将被检测的关键字设置成文件名的至少一部分。在该种情形下,文件名可以由包含关键字或核心关键字的文本串组成,并且当存在用于音频文件的列表的输出请求时,控制器可以显示文本串同时将其滚动。
此外,以各种方式执行应用的配置。例如,可以从记录应用单独提供STT执行应用,并且执行记录应用以在记录期间允许选择STT执行应用的驱动。又例如,可以将STT执行应用提供为记录应用的一部分,使得在记录应用的驱动期间,将STT的执行实施为记录应用的功能。
此外,当存储音频文件时,包括由STT生成的文本的文本文件可以与音频文件一起被存储。通过此,在随后音频文件再现期间,在没有单独STT处理的情形下,使用文本文件,可以立即显示与正在再现的语音相对应的文本。例如,在音频文件的再现期间,可以显示指示终端文件夹存在的弹出窗口,以及通过用户的选择,与音频文件的再现相联接,可以显示文本。
图7A是示出修改根据本公开的第二实施例的修改示例的已经自动提供的文件名的方法的流程图,并且图7B至图7E示出修改文件名的示例。
图7A中示出的处理S2210-S2260与图6A中示出的处理S2110-S2160相似,并且因此,图6A的前述描述仍然将使用,不再重复描述。
当为被生成的音频文件自动地提供文件名之后接收文件名修改请求时(S2270),移动终端100输入修改模式,以修改文件名。
如图7B中所示,当用户为特定文件名采取手势时(例如,当用户对特定文件名执行短或长的触摸,或者将其以特定方向拖动时),移动终端100对特定文件名创建或显示效果。例如,移动终端100可以以倾斜效果、暗淡效果、或摇晃效果来显示特定文件名。
移动终端100可以显示用于修改文件名的屏幕,同时以该种方式显示具有效果的特定文件名。针对用于修改的屏幕可以显示虚拟键盘。当如图7B中所示的用户使用虚拟键盘来输入特定字时,移动终端100可以将输入的关键字显示为文件名,而不是字。
另一方面,参考图7C,当用户为特定文件名采取手势时(例如,当用户对特定文件名执行长触摸,或者将其以特定方向拖动时),移动终端100显示“修改”按钮和“确认”按钮,以询问用户他或她是否想将其修改。当通过用户选择修改按钮时,移动终端100可以显示用于修改文件名的屏幕。
如附图中所示,在用于修改的屏幕上可以显示具有下一优选权的另一推荐关键字,以及当用户选择被显示的其它被推荐的关键字中的任何之一时,移动终端100可以使用被选择的关键字来更新文件名。
如图7D中所示,通过语音识别可以执行文件名的修正。在该情形下,可以利用指引语音输入和麦克风图像的短语来创建用于接收语音识别的屏幕,如图7D(b)所示。此外,虽然在附图中未示出,但是在用于接收语音识别的屏幕上显示被识别的语音。
参考图7D(a),当接入音频文件的列表以用于通过语音识别进行编辑时,与音频版相对应的图标可以显示在显示单元151的位置处。图标可以是设置在文件名侧处的麦克风图像。
当用户触摸图标时,屏幕被显示,并且当从用户接收声音时,可以根据被接收的语音命令来修正文件名。
例如,当接收的语音命令是“你想将文件名修改成移动电话天线设计?”时,移动终端100可以根据识别的语音来将现有文件名更改为“移动终端天线设计”。
又例如,当接收的语音命令是“你想将设计更改为仿真?”时,移动终端100可以在现有文件名中仅将一些词取代为新词。
另一方面,如图7E中所示,用于修改文件名的屏幕可以是用于显示基于STT转换的文本的窗口。
例如,当接入音频文件的列表时,与文本的输出相对应的图标可以被显示,如图7E中所示。当用户触摸图标时,在显示单元151上将显示文本,并且可以将显示的文本生成为通过拖动等来滚动。此时,如附图中所示,当用户通过触摸或拖动在文本的内容之中选择特定关键字或文本串时,示出是否更改文件名的确认屏幕被显示,并且当用户接收文件名更改时,更改该文件名。
可以应用图7E中公开的实施例,以设置第一时间文件名以及更改文件名。例如,当记录语音时,通过STT转换的文本可以显示在屏幕上,以及当用户通过触摸或拖动从文本的内容来选择特定关键字或文本串时,可以将被选择的关键字或文本串提供为文件名。
如上所述,根据本公开的第二实施例,可以通过从基于STT文本提取的关键字来自动地提供文件名和便利地更改文件名。
此外,当接入文件列表时,除了文件名之外,移动终端100可以显示附加信息。关于此,将参考图8A至图8J来描述在此公开的第三实施例。
图8A是示出根据本公开的第三实施例的显示与音频文件相关联的文本的方法的流程图。
在图8A中示出的处理S2310-S2350与图6A中示出的处理S2110-S2150相似,并且因此,前述描述将按照原样来使用,不再重复描述。并且因此,将从处理S2360对其进行描述。
当在生成音频文件之后,针对音频文件的列表(或者音频文件本身)请求的接入被接收时(S2360),基于与显示单元上的每个音频文件相对应的文本,来描述文本串(S2370)。
接入请求可以是用于音频文件的列表的用户请求。否则,移动终端100可以响应于音频文件的终止请求而自动地产生接入请求。
可替选地,当在音频记录应用被终止的情形下接收用于再次执行音频记录应用的请求时,移动终端100可以首先显示音频文件的列表。因此,接入请求可以是用于执行音频记录应用的请求。
根据本公开的第三实施例,移动终端可以从基于STT生成的文本中提取合适的文本串,并且显示提取的文本串,以响应用于音频文件的接入请求。此时,与前述第二实施例相似或相同的方法将用于文本串提取方法。
当难以在一个屏幕上显示全部被提取的文本串时,移动终端100可以显示自动滚动的文本串。换言之,移动终端100在右侧显示文本串,然后在左边方向上将其移动,从而显示整个文本字符。换言之,与作为在屏幕上的行能够显示的字符数一样多的文本串被显示,然后以水平方向移动,以显示文本串的剩余字符。否则,在屏幕的一侧处显示文本串的第一字符,然后将其移动至其另一侧,以继续显示文本串的剩余字符。
参考图8B至图8J来更加详细地描述前述处理的示例。
图8B示出显示用于描述音频文件的文本串的示例。
参考图8B,三个音频文件被显示在其上。在2012年1月12日15:30生成第一音频文件,并且其总共记录20分钟10秒,并且文件名是“移动电话的新产品开发会议”。
第二文件名是“LTE相关文章片段”,以及第三文件名是“天线设计会议”。
如附图中所示,来自文件名的不同文本串与音频文件的文件名一起被显示。包括文件名的内容或者包含在文件名中没有包含的核心关键字的内容可以被写入文本串中。
通过变化检测条件,可以创建与设置成文件名的文本串不同的文本串。为了详细描述,示出其中使用与根据第二实施例的第三音频文件的文件名相同的方法来创建文件名“天线设计会议”的情形。
当发言者A与发言者B交谈时除了“天线设计会议”之外多次重复短语“下个月海外旅行”和“组件供应商合同”时,移动终端100通过短语“下个月海外旅行”,将其识别为在海外旅行之前的预备会议,并且此外,通过短语“合同草案准备”,识别成该会议将准备合同草案。此外,移动终端100可以生成“海外旅行之前的预备会议:合同草案准备”,作为将要与文件名一起显示的文本串。
另一方面,当例如移动终端100的电子设备显示竖屏时,在其中整个文本串(“海外旅行之前的预备会议:合同草案准备”)不能显示在竖屏上的情形下,文本串可以在右侧中示出,然后在左边方向上移动,从而显示整个文本串。
例如,如示出的第三音频文件中,可以首先示出“在海外旅行之前的预备会议”,然后可以滚动文本串,即在左边方向上移动,并且因此可以随后显示“合同草案准备”。
图8C示出显示用于描述音频文件的文本串的另一示例。
参考图8C,当在用于音频文件的整个文本串不能够显示在一个屏幕上的情形下移动终端100滚动文本串的时候用户针对特定音频文件采取手势时,能够控制文本串的滚动速度。
具体而言,示出移动终端100首先显示用于示例的第二音频文件的“SBS的LTE相关文章”,然后将其在左边方向上移动,并且最后显示在“SBS无线电”的随后部分。
此时,当用户触摸或拖动屏幕的相应部分作为针对第二音频文件的手势时,移动终端100通过降低或增加即移动速度的滚动速度,可以显示文本串。具体而言,当用户触摸第二音频文件时,移动终端100可以降低滚动速度,从而允许用户更精确地读取文本串。否则,当用户拖动第二音频文件时,移动终端100增加滚动速度。例如,与如图8C(a)中所示的触摸的情形相比,在如图8C(b)中所示的拖动的情形下,可以增加滚动速度。
如另一特定示例,当用户在右边方向上拖动第二音频文件时,移动终端100可以在相反的滚动方向上移动文本串。
另一方面,当在没有将触摸或拖动屏幕的相应部分作为用于第二音频文件的手势的情形下,用户利用他或她的手指指示该屏幕的相应部分时,移动终端100可以通过照相机来识别用户的手势,并且根据手势来减小滚动速度。此外,当用户利用他或她的手指指示屏幕的相应部分,然后将其在左边方向或右边方向上移动,作为用于第二音频文件的手势,移动终端100可以增加滚动速度,或者以相反的滚动方向来移动文本串。
图8D示出显示用于描述音频文件的文本串的另一示例。
参考图8D,在移动终端的屏幕上显示三个音频文件的情形下,用户利用他的或她的声音可以接入音频文件的文本或文本串。将在下文对其进行详细描述。
如附图中所示,文本串“移动电话的新产品开发会议”、“LTE相关文章片段”、“天线设计会议”被显示在移动终端的屏幕上,并且正在滚动的文本串“文章SBS无线电”被显示在“LTE相关文章片段”中。此外,在该情况下,文件名本身可以如在第三文件中被滚动。又例如,虽然未在附图中示出,但是通过附加除了核心关键字之外的编号,可以创建诸如AUDIO_001的文件名,并且与该文件名一起显示的文本串可以被滚动显示。
此时,当用户说出“请概括并说出第二语音备忘录”时,移动终端100可以识别该交谈命令,并且在屏幕上显示从第二音频文件的相应文本提取的核心关键字,或者利用语音输出它们。该输出语音可以是提取的核心关键字通过文本至语音(TTS)交谈而转换成的语音。此外,输出的语音可以是仅与关键字相关的部分被从音频文件提取并且提取的部分彼此相结合的语音。
在这种情形下,移动终端100可以在屏幕上显示核心关键字,或者通过下列处理利用语音输出它们。例如,当识别了交谈命令时,移动终端100可以执行STT,然后在例如屏幕的下端的屏幕的一部分上显示识别的文本串,即“请概括并说出第二语音备忘录”。随后,例如移动终端100的电子设备可以通过扬声器输出问题“对于您的请求而言正确吗”。此外,移动终端100可以输出问题“您已经请求概括并说出第二语音备忘录,是这样吗?”。
此外,可替选地,当用户发出“请详细谈谈LTE相关文章”时,例如移动终端100的电子设备可以识别该谈话命令,并且执行STT,以利用语音输出“您想获得LTE相关文章的详细内容?”,或者将其显示在屏幕上。
当在输出上述问题之后,接收到确认表述的语音之后(或者肯定表述,例如,好的,是的,谢谢你等)时,移动终端100可以在屏幕上显示从与第二音频文件相对应的文本提取的核心关键字,或者利用语音输出它们。
否则,即使当在输出该问题之后在预定时间段没有来自用户的输入时,移动终端100将其分析成确认表达。
图8E和8F示出用于详细描述音频文件的文本串的另一示例。
参考图8E,当用户在用于三个音频文件的文本串被显示在移动终端的屏幕上的状态下,对于特定文本串做出手势时,例如移动终端100的电子设备可以以较大宽度显示该相关文本所属于的列,并且对于在该相关列中的文本串显示更详细的描述。下文将详细描述这一点。
如附图中所示,文本串“关于移动电话的新产品开发会议”、“LTE相关文章片段”、“天线设计会议”被显示在移动终端的屏幕上,并且正在滚动的文本串“文章SBS无线电”被显示在“LTE相关文章片段”中。
此时,当用户触摸屏幕上第二文本串所属的列超过预定时间段时,移动终端100可以以较大宽度显示第二文本串所属的列。此时,第二文本串所属的列的宽度被加宽,以及结果,第三列可以被移向屏幕下部,或者可以不被显示在屏幕上。
随后,移动终端100可以概括并显示与具有较大宽度的第二列内的第二音频文件相对应的基于STT的文本。此时,当所有概括内容不能在具有较大宽度的第二列中被显示时,移动终端100可以在右侧上显示滚动条。
另一方面,除了由用户在屏幕上执行对于第二文本串所属于的列的长触摸之外,这种方法也可以通过另一手势来使能。
例如,即使当用户触摸第二文本串所属的列,然后将其在屏幕底部方向上拖动或者将其在屏幕上的顶部方向上拖动时,移动终端100可以以较大宽度来显示相关文本串所属的列,并且显示对于在该相关列中的文本串的更详细描述。
参考图8F,当用户利用他或她的两个手指来触摸该相关文本串所属的列,然后将其以该触摸的两个手指从彼此移动开的方向拖动时,移动终端100可以以较大宽度显示该相关文本串所属的列,并且显示对于在该相关列中的文本串的更详细描述。
在这种情形下,根据拖动速度,可以控制被加宽的列的宽度速率。例如,如图8F(b)中所示,当拖动速度高时,该列可以比在以图8F(b)中所示的低速度拖动的情形放大更多。此外,当拖动速度大于预定大小时,其它列可以消失,以在整个屏幕上显示该相关文本串。
图8G示出显示用于详细描述音频文件的文本串的另一示例。
如图8G中所示,当用于第二音频文件的文本串的详细描述被显示时,例如移动终端100的电子设备可以以粗体或下划线属性来显示详细描述的关键字。
另外,移动终端可以利用高亮或红色属性来处理并显示核心关键字。
一般而言,当显示详细描述时,如果基于核心关键字来设置内容,那么,用户会无法重建并记忆记录时间的情况。因此,如图8F中所示,当显示详细描述时,移动终端100可以显示含有核心关键字的全部句子以及该核心关键字,并且以粗体或下滑线属性来显示相关核心关键字,从而允许用户重建并记忆记录时间的情况。此时,当用户执行对于具有粗体或下划线属性的核心关键字的触摸时,仅相关部分可以从音频文件被再现,以输出语音。另外,该部分可以被创建为待改变的文件名。
可替选地,当显示详细描述时,移动终端100可以仅设置并显示关键字。此时,关键字可以以下划线属性来被显示以指示链接。在这种情形下,当用户触摸在屏幕上的相关字时,移动终端100可以在显示含有该核心关键字的所有句子时,仅从音频文件再现该相关部分。
又例如,当显示详细描述时,如果存在不典型使用的术语,诸如技术术语,那么移动终端100可以以增强效果来显示相关术语,例如,粗体、下划线、高亮或红色属性。
此时,当用户如上所述触摸屏幕上的增强字时,例如移动终端100的电子设备可以在弹出屏幕上显示该字先前的搜索结果。
图8H示出在整个屏幕上详细显示与音频文件相对应的基于STT的本文的另一示例。
当存在来自用户的对于前述音频文件的手势时,例如,双触摸,移动终端100可以显示与第二音频文件相对应的整个基于STT的文本,如附图中所示。
此时,当整个文本不能全部显示在屏幕上时,例如移动终端100的电子设备可以在其右侧上显示滚动条。当整个文本不能全部显示在屏幕上时,电子设备亦即移动终端100可以在从开始显示整个文本时,在其右侧上显示滚动条,但是可替选地,移动终端100在屏幕上将其从包括整个文本中的核心关键字的部分显示。以该种方式,当执行记录时,使得用户没有必要读取诸如由发言者典型进行问候的部分。
如上所述,可以利用增强处理来显示核心关键字,例如,黑体、下划线、高亮或红色属性,以及当用户触摸增强的核心关键字时,音频文件的相关部分可以以语音被输出。
图8I示出允许用户在与音频文件相对应的基于STT文本被详细显示在整个屏幕上的状态中,利用语音来发送命令。
如上所述,移动终端100可以在显示整个基于STT文本时,在其下端部处显示用于从用户接收语音命令的屏幕。
此时,当用户说出“你将从LTE标准专利部分开始播放?”时,移动终端100识别该语音命令,并且从相关部分开始再现语音。
在这种情形下,移动终端100可以在再现语音之前,执行STT,以利用语音输出识别的文本串“你将从LTE标准专利部分开始播放?”,或者将其显示在屏幕上。
另一方面,整个文本的显示可以与语音的再现互锁地被控制。例如,基于STT转换的文本可以与语音的再现命令一起被显示在显示单元151上,如图8J所示。在这种情形下,指示与当前正在被再现的语音相对应的文本部分的指示符被显示在显示单元151上,并且该指示符与语音再现互锁地被移动。
此外,移动终端100被实施为在语音再现期间使能控制再现速度,并且指示符被形成为根据再现速度来改变移动速度或其形式。作为它们的示例,当指示符为如图8J中所示的突出特定范围的块时,其可以被形成为,当块的再现速度为1x速度时,突出一个字,而当块的再现速度为2x速度时,突出多个字。
如上所述,根据本公开的第三实施例,移动终端100可以在接收到对于音频文件列表的接入请求时,显示核心关键字构成的文本串,并且存在来自用户的用于该文本串的手势时,可以输出全文。此外,根据本公开的第三实施例,用户可以通过由核心关键字构成的文本串,以更方便的方式来控制音频文件的再现。
此处公开的第四实施例可以通过前述实施例中包括的配置或步骤的一部分或组合来实施,或者通过这些实施例的组合来实施。下文中,为了明确表述此处公开的第四实施例,冗余部分将被省略。
图9A是示出根据此处公开的第四实施例的音频文件编辑方法的流程图。
参考图9A,根据此处公开的第四实施例的音频文件编辑方法可以通过下列步骤执行。
移动终端可以在此处存储的多个音频文件之中再现特定音频文件(S3011)。接下来,移动终端可以执行用于该再现的特定音频文件的实时语音至文本(STT)。
此外,移动终端可以产生与基于执行的实时语音至文本(STT)的音频文件相对应的文本(文本串或脚本)(S3012)。
接下来,移动终端可以检测产生的文本的空格部分(文本串或脚本)(S3013)。此处,空格部分可以指具有在文本(文本串或脚本)中含有的空字符(或空文本串)的部分。
接下来,移动终端可以删除与检测空格部分相对应的音频文件部分。此外,移动终端可以基于排除了删除的音频文件部分的剩余音频文件部分来产生新的音频文件(S3014)。
参考图9B,根据此处公开的第四实施例的音频文件编辑方法可以应用于预先存储的文件。
根据可应用于预先存储文件的编辑方法,移动终端100可以首先在存储于其中的多个音频文件之中选择特定音频文件(S3021)。接下来,移动终端100可以执行用于选择的特定音频文件的语音至文本(STT)。
此外,移动终端100产生与基于该执行的语音至文本的音频文件相对应的文本(文本串或脚本)(S3022),并且检测产生的文本(文本串或脚本)的空格部分(S3023)。
接下来,移动终端删除与该检测空格部分相对应的音频文件部分,并且基于排除该删除的音频文件的剩余音频文件,来产生新的音频文件(S3024)。
图9C是示出根据此处公开的第四实施例的音频文件编辑方法的示例性视图。
当特定音频文件(A001.wmv)含有空白音频部分(A110)时,用户删除基于根据此处公开的第四实施例的音频文件编辑方法应该删除的音频部分(A110),以产生新的音频文件(A002.wmv)。
根据图9C中公开的第四实施例的音频文件编辑方法可以应用于在再现音频文件时的实时语音至文本(STT)或者在选择音频文件之后的语音至文本(STT)。
参考图9C(a),移动终端100可以基于终端用户的选择输入,在存储于其中的音频文件之中选择第一音频文件(A001.wmv)。
此外,移动终端100可以再现选择的第一音频文件(A001.wmv)。在这种情形下,移动终端100可以执行用于选择的第一音频文件(A001.wmv)的语音至文本(STT)。
移动终端100可以在该移动终端的局部区域中,显示基于语音至文本(STT)产生的第一文本(T110)。
此外,移动终端100可以检测第一文本的空格部分(E110)。
在这种情形下,移动终端100可以检测与检测的空格部分(E110)相对应的音频文件(A001.wmv)的部分(A110)。
参考图9C(b),移动终端100可以删除与空格部分(E110)相对应的音频文件(A001.wmv)的部分(A110),并且可以产生含有排除了音频文件(A001.wmv)的删除部分(A110)的剩余部分的新音频文件(A002.wmv)。
在这种情形下,检查新音频文件(A002.wmv)不具有与图9C(b)中的空格部分(E110)相对应的音频部分(A110)是可能的。
图9D是示出根据此处公开的第四实施例的另一音频文件编辑方法的流程图。
参考图9D,将以下列步骤,实施此处公开的第四实施例的音频文件编辑方法。
首先,移动终端可以在存储于其中的多个音频文件之中再现特定音频文件(S3031)。接下来,移动终端可以对再现的特定音频文件执行实时语音至文本(STT)。
此外,移动终端可以产生与基于执行的实时语音至文本(STT)的音频文件相对应的文本(文本串或脚本)(S3032)。
接下来,移动终端可以检测产生的文本(文本串或脚本)的一部分(S3033)。接下来,移动终端可以删除与选择的文本部分相对应的音频部分。
此外,移动终端可以基于排除了删除的音频文件部分的剩余音频文件来产生新音频文件(S3034)。然而,本公开不限于此,并且选择的文本部分可以被产生并且存储为新音频文件。
如图9E中所示,图9D中公开的音频文件编辑方法也可以应用于预先存储文件。
参考图9E,移动终端首先在存储于其中的多个音频文件之中选择特定音频文件(S3041),并且对于选择的特定音频文件执行语音至文本(STT)。在下文中,用于产生新音频文件的剩余处理可以被执行,与图9D中公开的方法类似。
图9F是示出在图9D或9E中公开的音频文件编辑方法的示例性视图。图9F中公开的音频文件编辑方法可以应用于在再现音频文件时的实时语音至文本(STT)以及在选择音频文件之后的语音至文本(STT)。
参考图9F(a),移动终端100可以基于移动终端用户的选择输入,从存储于其中的音频文件之中,选择特定音频文件(B001.wmv)。存储的音频文件可以是当前正在记录的音频的临时存储文件。
当选择该特定音频文件(B001.wmv)时,移动终端100可以对于该特定音频文件(B001.wmv)执行语音至文本(STT)。
选择的特定音频文件(B001.wmv)可以被再现,或者基于语音至文本(STT)产生的文本可以被显示在移动终端的屏幕的局部区域中。在这种情形下,文本的再现和输出可以是同时的。
当特定音频文件(B001.wmv)含有应该被删除的音频部分(A210)时,应该被删除的音频部分(A210)可以基于音频文件编辑方法而被删除,以产生新的音频文件(B002.wmv)。
更具体地说,如在附图中所示的,移动终端100可以基于用户的选择输入来选择产生的文本的特定文本(T210)。
以各种方式,可以将用户的选择输入输入到移动终端中。例如,如图9F(a)中所示,用户可以将触摸输入应用于移动终端。此外,用户可以基于触摸输入来产生拖动事件。换言之,移动终端100可以基于拖动来选择特定文本(T210)。此处,其可以是与特定文本(T210)相对应的音频文件(B001.wmv)的特定音频部分(或部分A210)。此外,本领域的技术人员应理解的是,用户的选择输入可以以各种方式被应用于移动终端。
参考图9F(b),移动终端100可以删除与特定文本(T210)相对应的音频文件(B001.wmv)的特定部分(A210),并且可以产生包含有排除音频文件(B001.wmv)的删除部分的剩余部分的新音频文件(B002.wmv)。
在这种情形下,检查新的音频文件(B002.wmv)不具有与特定部分(A210)相对应的音频或者与图9F(b)中的特定文本(T210)相对应的音频部分是可能的。
根据修改的第四实施例,相反,用户可以选择音频文件的局部音频部分,以独立存储用于排除该局部音频部分的剩余音频部分的文本。
此外,移动终端100可以在移动终端的屏幕上显示与音频文件(B001.wmv)相对应的再现音频部分指示符(例如,图9F(a)的进度条)。此外,用户可以基于触摸或拖动,来选择在该指示符上的音频部分(A210)。
图10A是示出根据本公开的用于音频文件编辑方法的另一实施例的流程图。
参考图10A,音频文件编辑方法可以在存储于其中的多个音频文件之中选择特定音频文件(S3051)。接下来,移动终端可以对选择的音频文件执行实时语音至文本(STT)。在这种情形下,选择的音频文件再现可以同时被操作。
移动终端可以基于执行的实时语音至文本(STT),来产生与音频文件相对应的文本(文本串或脚本)(S3052)。
接下来,产生的文本(文本串或脚本)的特定部分可以由用户选择(S3053)。最后,移动终端提供优先权给选择的特定部分,或者产生与特定部分相对应的新音频文件(S3054)。
图10B是示出在图10A中的音频文件编辑方法的示例性视图。
在图10B中公开的音频文件编辑方法可以应用于在再现音频文件时的实时语音至文本(STT)以及在选择音频文件之后的语音至文本(STT)这两者。
参考图10A,移动终端100可以基于用户的选择输入,在存储于其中的音频文件之中选择特定音频文件(C001.wmv)。
借助于选择,移动终端100可以在移动终端的屏幕的局部区域中显示基于语音至文本(STT)产生的终端。在该情形下,移动终端100可以再现被选择的特定音频文件(C001.wmv)和文本的输出。
当期望提供优先权给在特定音频文件(C001.wmv)的音频部分中的局部音频部分(A310)(或文本部分(T310))时,用户可以基于图10A中的音频文件编辑方法来产生为该局部音频部分(A310)提供有优先权的文件(C002.wmv)。例如,当如图10B(a)中所示,感测到对文本的连续触摸时,移动终端100选择将前一触摸作为起始点并且后一触摸作为结束点的音频部分。又例如,通过拖动,可以选择音频部分。
优先权被提供给音频部分,并且存储为新文件。然而,本公开不必然限于此,并且该优先权可以被提供给初始音频文件(C001.wmv)并且更新为新文件。如图10B(b)所示,当用户选择提供了优先权的文件(C002.wmv)时,语音的输出可以是对提供有优先权的音频部分(A310)的第一输出。
如上所述,根据此处公开的第四实施例,可以容易地执行音频文件的编辑。下文将描述此处公开的第五实施例。
通过在前述实施例中包括的配置或步骤的一部分或组合,或者通过这些实施例的组合,可以实施此处公开的第五实施例。下文中,为了明确描述此处公开的第五实施例,冗余部分将被省略。
此处公开的第五实施例示出用于在移动终端中存储的音频文件(或语音备忘录,下文称之为“语音备忘录”)的分组方法。
分组的概念可以是用于基于根据相似性的概念等将数据分成若干组的方案的一般术语。
一般而言,分组可以广泛应用于文件检索、模式识别、管理科学等。
根据此处公开的第五实施例,用户可以选择用于语音备忘录的分类参考,作为用于在移动终端中存储的语音备忘录的分组方法。移动终端100基于选择的分类参考将语音备忘录分类并列出,以产生用于这些语音备忘录的列表、以及在该移动终端的屏幕上显示用于这些语音备忘录的产生的列表。
此外,此处公开的第五实施例涉及一种方法,其中,移动终端分析用于语音备忘录的语音内容,以在屏幕上显示相关信息,从而允许移动终端的用户容易地发送或传送特定内容至特定人。其可以被称为通过语音备忘录(或音频文件)的直接接入方法。此处,相关信息可以包括关于与语音内容、时间表、人名或联系地址(例如,电话号码、或电子邮件地址)相关的位置的弹出窗口或链接信息。
图11A是示出根据此处所公开的第五实施例的用于语音备忘录的分组(或分类方法)的流程图。参考图11A,可以以下列步骤来执行用于语音备忘录的分组(或分类方法)。
首先,移动终端可以显示与移动终端中存储的音频文件再现或记录相关的UI屏幕(S3071)。
接下来,移动终端可以基于移动终端用户的用户选择输入,在UI屏幕上显示用于音频文件的分类菜单(S3072)。
接下来,基于用户的选择输入,移动终端可以从分类菜单选择特定分类参考(S3073)。
接下来,移动终端可以基于选择的分类参考在移动终端的屏幕上显示用于音频文件的列表(S3074)。
此处,与音频文件再现或记录相关联的UI可以包括各种UI元件。换言之,UI可以包括与由移动终端进行的音频文件再现或记录相关的各种UI元件。
例如,UI(具体而言,GUI)可以包括播放按钮、播放暂停按钮、能够以高速再现的功能激活按钮、能够以低速再现的功能激活按钮、向前跳按钮、向后跳按钮、指示音频文件的再现音频部分或再现时间点的指示符、用于移动终端用户的语音记录按钮、记录暂停按钮、以及与作为音频文件的语音转文本(STT)执行结果的文本显示相关的UI元件中的至少一个。
图11B是示出根据此处公开的第五实施例的用于语音备忘录的分组的示例性视图。
参考图11B,移动终端100可以在移动终端的屏幕上显示与存储于其中的语音备忘录的再现或记录相关联的UI。如上所述,UI可以包括指示用于存储的语音备忘录的分组(或分类)的指示符。
指示符可以是用于激活用于分组(或分类)的分类菜单的按钮(U110)。
当移动终端用户选择分类菜单激活按钮时,移动终端100可以在移动终端100的屏幕上显示用于存储的语音备忘录的分类菜单(p110)。
分类菜单(p110)可以包括用于关于存储的语音备忘录的各种分类参考的UI元素。
例如,用于分类参考的UI元素可以是用于该分类参考的选择按钮。此外,分类参考可以是用于语音备忘录的“主题”按钮(p111)、“扬声器”按钮、“地点”按钮或“时间”按钮。
根据第五实施例,当移动终端100的用户在分类按钮之中选择“主题”按钮(p111)时,移动终端100可以分组(或者分类)并且列出用于每个“主题”的语音备忘录,并且在移动终端100的屏幕上显示用于这些语音备忘录的列表(L110)。
例如,如图11B的情形下,当语音备忘录具有与会议相关的主题时,移动终端100可以列出用于会议的每个主题的语音备忘录,并且在移动终端100的屏幕上显示用于这些语音备忘录的列表(L110)。
图11C是示出根据此处公开的第五实施例的基于语音备忘录的内容的直接接入方法的示例性视图。
参考图11C,移动终端100可以在移动终端100的屏幕上,显示与存储于其中的语音备忘录的再现或记录相关联的UI。
移动终端100可以通过UI、基于终端用户的选择输入、在移动终端100中存储的音频文件之中选择并再现特定音频文件(D001)。
在这种情形下,移动终端100可以执行用于该特定音频文件(D001.wmv)的语音至文本(STT),并且可以在移动终端100的屏幕的局部区域中显示基于该语音至文本(STT)所产生的文本。此外,在本文正在被显示的状态下,可以显示指示哪个语音的一部分当前正在如上所述地被再现的指示符。
根据第五实施例,移动终端100可以分析语音备忘录的内容,以在移动终端100的屏幕上显示与语音备忘录相关联的信息。
例如,与语音备忘录相关联的信息可以包括该语音备忘录被记录的位置、与该语音备忘录相关联的人的时间表、与语音备忘录相关联的人的名称、与语音备忘录相关联的人的联系地址以及与语音备忘录相关联的人的电子邮件地址中的至少一个。
移动终端100可以通过弹出窗口(I110),在屏幕上显示与语音备忘录相关联的信息。
根据第五实施例,当移动终端100的用户选择在弹出窗口(I110)中含有的特定信息时(例如,基于在屏幕上的触摸输入的选择),移动终端100可以基于选择的特定信息来提供能够直接将选择的特定信息直接发送或联系至与该特定信息相关联的人。如上所述,基于与语音备忘录相关联的信息,其可以被称为直接接入功能。
例如,参考图11C,当用户在弹出窗口(I110)中含有的特定信息之中选择联系地址部分时,移动终端100可以利用与该联系地址相对应的电话号码来执行呼叫连接功能。
此外,例如,当用户在弹出窗口(I110)中含有的特定信息之中选择电子邮件部分时,移动终端100可以执行用于提供电子邮件传送功能的应用(例如,电子邮件编辑程序、Outlook程序),以将电子邮件传送至电子邮件地址。
此处公开的第六实施例可以通过前述实施例中包括的配置或步骤的一部分或组合来实施,或者通过这些实施例的组合来实施。下文中,为了明确地解释对于此处公开的第六实施例,冗余部分将予以省略。
此处公开的第六实施例涉及用于移动终端中存储的语音备忘录中含有的特定音频部分的搜索功能。该搜索功能可以是用于在语音备忘录中含有的特定音频部分的导航功能。另外,搜索功能也可以是用于在语音备忘录中含有的特定音频部分的语音扫描功能。
此外,此处公开的第六实施例涉及根据搜索功能、导航功能或语音扫描功能的用于与本文的特定音频部分相对应的特定文本部分的搜索、导航或扫描功能,该文本的特定音频部分是与语音备忘录相对应的语音至文本(STT)执行结果。
结果,根据此处公开的第六实施例,语音备忘录以及用于作为与该语音备忘录相对应的语音至文本(STT)执行结果的文本的搜索功能可以具有彼此可逆关系。
换言之,当执行用于语音备忘录的搜索功能时,用于关于该语音备忘录的文本的搜索功能也可以同时被执行。此外,当关于该语音备忘录的文本的搜索功能执行时,用于该语音备忘录的搜索功能也可以同时执行。
图12A是示出根据在此公开的第六实施例的用于语音备忘录的搜索功能执行方法的流程图。参考图12A,可以以下列步骤,执行用于语音备忘录的搜索功能执行。
首先,移动终端可以再现在电子设备中存储的多个音频文件之中的特定音频文件(S3081)。
接下来,移动终端可以为再现的特定音频文件执行实时语音至文本(STT),并且基于执行的实时语音至文本(STT)来产生与音频文件相对应的文本(文本串或脚本)(S3082)。然而,在该情况下,当已经产生基于STT的文本时或当基于其它方法已经产生文本时,产生文本的步骤可以省略。
接下来,移动终端可以基于移动终端用户的选择输入,来选择用于音频文件的特定再现时间点(S3083)。为此目的,移动终端可以在移动终端的屏幕上显示与文本(文本串或脚本)的特定再现时间点相对应的文本部分(S3084)。
图12B是示出根据在此公开的第六实施例的用于语音备忘录的搜索功能执行方法的示例视图。
移动终端100可以在移动终端100的屏幕上显示与语音备忘录(或音频文件)的再现或记录相关联的UI。
基于移动终端用户的选择输入,移动终端可以在移动终端中所存储的音频文件之中选择并再现特定音频文件(E001.wmv)。此时,移动终端可以在移动终端的屏幕的局部区域中显示与语音相对应的文本。
根据第五实施例,当移动终端的用户在特定音频文件(E001.wmv)的音频选择中选择特定再现时间点(p210)时,移动终端100可以在该文本中找到(或搜索)与特定再现时间点(p210)相对应的部分,以将其显示在移动终端的屏幕上。
当参考图12B(a)详细描述用于该文本的搜索功能时,移动终端100可以在移动终端的屏幕上显示与该音频文件(E001.wmv)相对应的再现音频部分指示符(例如,在图10C(a)中的再现部分条)。
此外,移动终端100可以基于用户的触摸输入来选择在该指示符上的特定再现时间点(p210)。此外,利用由用户操作的进度条、在搜索期间显示的文本以及该进度条可以互相链接。
例如,移动终端100可以从特定再现时间点(p210)再现音频文件(E001.wmv),并且在移动终端100的屏幕上同时显示与用于该音频文件(E001.wmv)的文本中的所选择的特定再现时间点(p210)相对应的特定文本(T410)。
更具体地说,控制器根据用户请求来输入与存储的语音备忘录的再现相关联的操作模式,并且在操作模式下的电子设备的屏幕的至少局部区域中,显示与语音备忘录的再现时间点相对应的文本,并且感测用于改变语音备忘录的再现时间点的控制命令,并且当感测到该控制命令时,输出显示的文本以与改变的再现时间点相对应。
指示语音备忘录的时间信息的进度条被显示在电子设备的屏幕上,并且用于语音备忘录的再现时间点被改变,以与用于该进度条的触摸点相对应。
在这种情况下,基于用于用户语音的语音至文本(STT)转换来产生文本,并且与语音备忘录的再现相链接,该文本可以被滚动显示。
又例如,参考图12B(b),通过用户控制命令输入,可以弹出独立搜索窗口。对于这样的示例,搜索窗口可以被执行以接收期望搜索的词,如附图中所示的,或者进度条可以被显示为图12A中的搜索条。在前者的情形下,用户可以输入词,以执行搜索操作,并且搜索结果可以通过输入词所使用的部分可以再次被用户选择的方式来显示搜索结果。在后者的情形下,用户触摸进度条的特定点,以执行搜索操作,并且如在前述示例中所示的,当进行触摸时,与特定点相对应的文本(或者含有文本的句子)被显示在屏幕上。
图12C是示出根据此处公开的第六实施例的用于语音备忘录的搜索功能执行方法的流程图。
参考图12C,可以以下列步骤来执行根据此处公开的第六实施例的用于语音备忘录(或音频文件)的搜索功能执行方法。
根据在本示例中的步骤S3091和S3092可以与在图12A中所示的搜索功能执行方法中的步骤S3081和S3082类似地被执行。
根据附图,在步骤S3092之后,移动终端基于移动终端用户的选择输入,在文本(文本串或脚本)中选择特定文本部分,并且再现与该特定文本部分相对应的音频文件部分(S3084)。
然而,本公开不必限于此。例如,当在STT执行之后存储音频文件时,新的文本文件也可以与音频文件一起存储。通过这个,在随后音频文件再现期间,在没有独立的STT处理的情况下,利用文本文件,能够立即显示与再现语音相对应的文本。对于这样的操作,与文本的特定部分相对应的时间可以与对应于音频文件中的特定部分的部分的时间同步。
图12D是示出在此公开的第六实施例的用于语音备忘录的搜索功能执行方法的示例性视图。
参考图12D(a),移动站终端100可以在移动终端100的屏幕上显示与存储于其中的语音备忘录(或音频文件)的再现或记录相关联的UI。
基于移动终端用户的选择输入,移动终端100在存储于其中的音频文件之中选择并再现特定音频文件(F001.wmv)。此外,基于语音至文本(STT)产生的文本(T510)可以被显示在移动终端的屏幕的局部区域中。
移动终端100可以基于用户的选择输入,从产生的文本(T510)来选择特定文本(T520)。
基于用户的触摸输入和基于该触摸输入的拖动事件,可以执行用于特定文本(T520)的选择。移动终端100可以基于拖动事件来选择特定文本(T520)。
参考图12D(b),当选择特定文本(T520)时,移动终端100可以将音频文件(F001.wmv)的再现时间点从当前音频文件(F001.wmv)的再现时间点(p310)改变为与特定文本(T520)相对应的特定再现时间点(p320)。
此时,移动终端100可以在移动终端的上端部中显示与该特定再现时间点相对应的文本(T530),同时改变音频文件(F001.wmv)的再现时间点。
参考图12E,又例如,当用户在再现语音时触摸进度条的特定位置时,在与特定位置相对应的特定时间点处的文本可以与该指示符一起被显示。然后,当用户触摸该文本或指示符时,可以改变音频文件(G001.wmv)的再现时间点以与该部分相对应以及在移动终端的屏幕的局部区域中显示与该特定再现时间点相对应的文本。
图12F是示出根据在此公开的第六实施例的音频扫描方法的示例性视图。
图12F中公开的第六实施例示出如下情形,其中,与存储于其中的音频文件的再现一起、特定效果、基于对音频文件的语音至文本(STT)的执行来显示与文本中的音频文件的再现时间点相对应的特定文本部分。
例如,该特定效果可以是在将其从屏幕右侧移动至屏幕左侧时显示特定文本部分的效果。此外,特定文本的移动可以与漂移效果一起表示。
此外,例如,特定效果可以指特定文本部分的突出效果。在这种情形下,突出效果可以指增强特定文本部分的效果(例如,与其它文本部分相比,加粗字符或相对较大尺寸的字符)。
此外,根据图12F中公开的第六实施例的音频扫描方法可以包括如下功能,其中,在移动终端中存储的音频文件再现期间,通过移动终端用户的选择输入来改变该音频文件的再现时间点时,其被改变,并且显示有与改变的再现时间点相对应的文本部分。
参考图12F(a),移动终端100可以在第一再现时间点(p410)处再现音频文件。
在这种情形下,移动终端100可以在移动终端的屏幕上显示与第一再现时间点相对应的文本(T610)(“Daeho Lee…在第三十上”)。
参考图12F(b),当移动终端用户将用于音频文件的再现时间点改变为第二再现时间点时(P420),移动终端100可以在屏幕上与用于音频文件的再现时间点的改变一起来显示与第二再现时间点(P420)相对应的文本(T620(“……一分本垒打”)。
图12G是示出根据此处公开的另一第六实施例的用于音频文件的语言信息改变方法的示例性视图。
参考图12G,移动终端100可以将特定语言语音改变为另一语言语音,以执行语音记录。
例如,当移动终端用户在通过移动终端执行语音记录的时候以韩语语音发出“Naneun sonyeonida”时,移动终端100可以依原样记录该韩语语音,或者翻译该韩语语音,以利用英语语音(例如,“我是个男孩”)来记录它。
在这种情形下,移动终端100可以与英语语音的存储一起、通过诸如扬声器等的音频输出设备来输出具有语音的英语语音(例如,“我是个男孩”)。
此外,移动终端100可以执行用于英语语音的语音至文本(STT)以产生用于该英语语音(例如,“我是个男孩”)的文本。
此外,移动终端100可以在移动终端的屏幕上显示用于产生的英语语音(例如,“我是个男孩”)的文本。
通过在前述实施例中包括的配置或步骤的一部分或组合,或者通过实施例的组合,可以实施此处公开的第七实施例。下文中,对于在此公开的第七实施例的明确表达,冗余部分将被省略。
此处公开的第七实施例涉及在移动终端中存储的语音备忘录(或音频文件)的自动再现功能,并且涉及当用户的身体的一部分(例如,用户的耳朵)处于接近于移动终端时激活语音备忘录(或音频文件)的自动再现功能。
图13A是示出根据此处公开的第七实施例的音频文件的自动再现方法的流程图。图13B是示出根据此处公开的第七实施例的音频文件的自动再现方法的示例性视图。
参考图13A,根据此处公开的第七实施例的音频文件的自动再现方法可以通过下列步骤执行。
首先,移动终端可以在存储于其中的多个音频文件之中选择特定音频文件(S3111)。接下来,当用户的身体的一部分接近于移动终端时,移动终端可以再现特定音频文件(S3112)。
参考图13B,移动终端100可以在移动终端的屏幕上显示移动终端中存储的用于音频文件的列表。
在这种情况下,移动终端的用户可以从音频文件列表来选择特定音频文件(C001.wmv)。音频文件(C001.wmv)的选择可以是基于由用户输入的触摸。
参考图13C,当用户身体的一部分(例如,用户耳朵)处于接近于移动终端100时,移动终端100可以自动地再现特定音频文件(C001.wmv)。
如上所述,根据本公开的这些实施例,例如移动终端100的电子设备可以执行语音至文本(STT)或算法,以获得文本、文本串或脚本,然后显示由核心关键字构成的文件名或文本串。通过这个,用户可以容易地猜出音频文件的内容,而不需要再现音频文件。
此外,根据本公开,当来自用户的用于文本串或文件名的手势存在时,移动终端可以显示整个文本。通过这个,通过文本可以执行用于语音内容的提取。
此外,根据本公开,通过核心关键字或由其构成的文本串,用户可以以更加方便的方式来控制音频文件的再现。
在上文中,通过将其分成实施例,已经详细描述了与音频文件相关联的整个处理。下文将描述用于实施前述功能的移动终端的硬件配置,以及此外,前述功能可应用于其的电子设备之中的图像显示设备和电冰箱的硬件配置。
图14是示出用于实施前述功能的移动终端的框图。
移动终端100可以包括无线通信单元110、音频/视频(A/V)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180、电源单元190等。然而,如图14中所示的组成元件不一定是必需的,并且可以利用比图示的元件更多或更少的元件数目来实施移动终端。
下文将顺序描述这些组成元件。
无线通信单元110通常包括一个或多个元件,其允许在移动终端100和无线通信系统之间的无线电通信,或者允许移动终端100与移动终端100所位于的网络之间的无线电通信。例如,无线通信单元110可以包括广播接收模块111、移动通信模块112、无线因特网模块113、短程通信模块114、位置信息模块115等。
广播接收模块111通过广播信道从外部广播管理服务器来接收广播信号和/或广播相关信息。
广播信道可以包括卫星信道和/或陆地信道。广播管理服务器可以指产生并传输广播信号和/或广播相关信息的服务器,或者接收先前产生的广播信号和/或广播相关信息并且传输至移动终端100的服务器。广播信号可以包括电视广播信号、无线电广播信号和数据广播信号以及数据广播信号被耦合至电视或无线电广播信号形式的广播信号。
广播相关信息可以指关于广播信道、广播节目、广播服务提供商等的信息。广播相关信息也可以通过移动通信网络被提供,以及在这种情况下,广播相关信息可以由移动通信模块112来接收。
广播相关信息可以以各种形式存在。例如,其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、手持数字视频广播(DVB-H)的电子服务指南(ESG)等形式存在。
广播接收模块111可以利用各种类型的广播系统来接收广播信号。具体而言,广播接收模块111可以利用诸如陆地数字多媒体广播(DMB-T)、卫星数字多媒体广播(DMB-S)、仅媒体前向链路(MediaFLO)、手持数字视频广播(DVB-H)、陆地集成服务数字广播(ISDB-T)等的数字广播系统,来接收数字广播信号。当然,广播接收模块111被配置成适合于提供广播信号以及上述数字广播系统的每个广播系统。
通过广播接收模块111接收的广播信号和/或广播相关信息可以被存储在存储器160中。
移动通信模块112通过移动通信网络向基站、外部终端以及服务器中的至少一个传输无线电信号,和/或从基站、外部终端以及服务器中的至少一个接收无线电信号。此处,无线电信号可以包括语音呼叫信号、视频呼叫信号和/或根据文本和/或多媒体消息传输和/或接收的各种类型数据。
无线因特网模块113指用于支持无线因特网接入的模块。无线因特网模块113可以被内置或者从外部安装到移动终端100中。此处,可以使用包括WLAN(无线LAN)、Wi-Fi、Wibro(无线宽带)、Wimax(全球微波接入互操作性)、HSDPA(高速下行链路分组接入)等的无线因特网接入技术。
短程通信模块114是用于支持短程通信的模块。此处,其可以使用包括蓝牙、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂(ZigBee)等的短程通信技术。
位置信息模块115是用于获取移动终端的位置的模块,并且存在全球定位系统(GPS)模块或无线保真(WiFi)模块作为代表性示例。
参考图14,A/V(音频/视频)输入单元120接收音频或视频信号,并且A/V(音频/视频)输入单元120可以包括相机121和麦克风122。相机121处理由视频电话呼叫或图像俘获模式中的图像传感器所获取的图像帧,诸如静止图片或视频。该处理的图像帧可以被显示在显示单元151上。
由相机121处理的图像帧可以被存储在存储器160中或者通过无线通信单元110传输到外部设备。根据移动终端的使用环境,可以提供两个或多个相机121。
麦克风122通过在电话呼叫模式、记录模式、语音识别模式等中的麦克风来接收外部音频信号,并且将音频信号处理成电语音数据。处理的语音数据可以被转换并且被输出为通过在电话呼叫模式中的移动通信模块112传输至移动通信基站的模式。麦克风122可以实施各种类型的噪声消除算法,以消除在接收外部音频信号过程中产生的噪声。
此外,A/V(音频/视频)输入单元120可以甚至用于音频记录。A/V(音频/视频)输入单元120可以被与记录功能单元123和转换单元124链接,以实施音频记录的功能。
记录功能单元123执行记录外部声音以将其存储为音频文件的功能,并且转换单元124执行基于语音至文本(STT)而将声音中含有的语音转换为文本的功能。控制器180可以从该文本检测核心关键字,并且将检测的核心关键字设置为用于音频文件的文件名的至少一部分,并且因此可以容易地设置音频文件的文件名。
用户输入单元130可以产生输入数据以控制终端的操作。用户输入单元130可以通过包括键区、圆顶开关、触摸垫(压力/电容)、转向轮、转向开关等来配置。
感测单元140检测移动终端100的当前状态,诸如移动终端100的打开和闭合状态、移动终端100的位置、移动终端100的取向等,并且产生用于控制移动终端100的操作的感测信号。例如,当移动终端100为滑盖电话类型时,其可以感测滑盖电话的打开或闭合状态。此外,感测单元140负责与电力是否从电源单元190被供给或者是否外部设备被耦合至接口单元170相关联的感测功能。
输出单元150被配置成提供用于音频信号、视频信号或警报信号的输出,并且输出单元150可以包括显示单元151、音频输出模块152、警报单元153、触觉模块154等。
显示单元151可以显示(输出)在移动终端100中处理的信息。例如,当移动终端100处于电话呼叫模式中时,显示单元151可以显示与呼叫相关联的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频呼叫模式或图像俘获模式中时,显示单元151可以显示俘获的图像和/或接收的图像、UI或GUI。
显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)、柔性显示器、三维(3D)显示器以及电子墨水显示器中的至少一个。
那些显示器中的一些可以被配置有透明或光学透明型,以允许通过显示单元来观看外部,其可以被称为透明显示器。典型的透明显示器的示例可以包括透明LCD(TOLED)等。在这种配置下,用户能够通过由终端主体的显示单元151占据的区域来观看在终端主体后侧的对象。
根据移动终端100的配置方面,可以实施两个或多个显示单元151。例如,多个显示单元151可以被布置在一个表面上以彼此隔开或集成,或者可以被布置在不同表面上。
当显示单元151和触敏传感器(以下称之为“触摸传感器”)具有夹层结构(以下称之为“触摸屏”)时,显示单元151可以被用作输入设备而不是输出设备。触摸传感器可以被实施为触摸膜、触摸片、触摸垫等。
触摸传感器可以被配置成将应用于显示单元151的特定部分的压力变化或者从显示单元151的特定部分出现的电容,转换成电输入信号。此外,触摸传感器可以被配置成不仅感测触摸的位置和触摸区域,而且感测触摸压力。
当存在对于触摸传感器的触摸输入时,相应的信号被传输至触摸控制器(未示出)。触摸控制器处理接收的信号,然后将相应的数据传输至控制器180。因此,控制器180可以感测显示单元151的哪个区域已经被触摸。
参考图14,接近传感器141可以被布置在由触摸屏覆盖的移动终端100的内部区域上,或者在触摸屏附近。接近传感器指通过使用磁场或红外线,在没有机械接触的条件下感测接近待感测的表面的对象或者设置在待感测表面的对象存在与否的传感器。接近传感器比接触传感器具有更长使用寿命和更强的实用性。
接近传感器的示例可以包括光学传输型光电传感器、直接反射型光电传感器、镜反射型光电传感器、高频振荡接近传感器、电容型接近传感器、磁型接近传感器、红外线接近传感器等。当将触摸屏实施为电容型时,通过电磁场的变化,感测指示器接近触摸屏。在这种情形下,触摸屏(触摸传感器)可以被归类为接近传感器。
在下文中,为了便于解释,将指示器定位在接近但不接触触摸屏的状态称为“接近触摸”,相反,将指示器基本与触摸屏接触的状态称为“接触触摸”。对于与指示器在触摸屏上的接近触摸相对应的位置,这样的位置对应于其中在指示器的接近触摸时指示器与触摸屏垂直面对的位置。
接近传感器感测接近触摸和接近触摸模式(例如,距离、方向、速度、时间、位置、移动状态等)。涉及感测的接近触摸的信息和感测的接近触摸模式可以被输出到触摸屏上。
音频输出模块152可以在呼叫接收模式、呼叫放置模式、记录模式、语音识别模式、广播接收模式等下,输出从无线通信单元110接收的或在存储器160中存储的音频数据。音频输出模块152可以输出在移动终端100中执行的功能相关的音频信号,例如,声音警报接收的呼叫或接收的消息等。音频输出模块152可以包括接收器、扬声器或蜂鸣器等。
警报模块153从移动终端100输出通知事件发生的信号。从移动终端100发生的事件可以包括电话接收、消息接收、关键信号输入、触摸输入等。警报模块153可以不仅输出视频或音频信号,而且输出其它类型的信号,诸如以振动方式通知事件发生的信号。由于通过显示单元151或音频输出单元152能够输出视频或音频信号,该显示单元151和音频输出模块152可以被归类为警报模块153的一部分。
触觉模块154产生用户能够感觉的各种触觉效果。由触觉模块154产生的触觉效果的代表性示例包括振动。由触觉模块154产生的振动可以具有可控强度、可控模式等。例如,不同振动可以以同步方式或以顺序方式输出。
触觉模块154可以产生各种触觉效果,不仅包括振动,而且也包括相对于被触摸的皮肤垂直移动的针布置、通过注入孔或吸入孔的空气注入力或空气吸入力、皮肤表面的触摸、与电极接触的存在与否、诸如静电力的刺激效果、利用吸热设备或发热设备的冷或热再现等。
触觉模块154可以被配置成通过用户的直接接触来传输触觉效果或者利用手指或手来传输用户的肌肉效果。触觉模块154可以根据移动终端100的配置,在数目上被实施为两个或多个。
存储器160(或者存储单元)可以存储用于处理并控制控制器180的程序。可替选地,存储器160可以临时存储输入/输出数据(例如,电话本数据、消息、音频、静止图像、视频等)。此外,存储器160可以存储与在触摸屏上输入触摸时所输出的各种振动模式和声音相关的数据。
利用任何一种适当的存储介质,可以实施存储器160,这些存储介质包括闪存型、硬盘型、多媒体卡微型、存储器卡型(例如,SD或DX存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘、光盘等。此外,移动终端100可以操作在因特网上执行存储器160的存储功能的网络存储。
此外,用于执行特定功能的应用可以被存储在存储器160中。此外,通过记录产生的音频文件可以被存储在存储器160中。
接口单元170一般可以被实施以将移动终端与外部设备接合。接口单元170可以允许从外部设备接收数据,向移动终端100中的每个组件传输电力,或者从移动终端100将数据传输至外部设备。例如,接口单元170可以包括有线/无线头戴式耳机端口、外部充电器端口、有线/无线数据端口、存储器卡端口、用于耦合具有识别模块的设备的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等。
识别模块可以被配置为用于存储认证使用该移动终端100的授权所要求的各种信息的芯片,其可以包括用户身份模块(UIM)、订户身份模块(SIM)等。此外,具有识别模块的设备(以下称之为“识别设备”)可以通过智能卡的形式实施。因此,识别设备可以经由端口被耦合至移动终端100。
当移动终端100连接至外部支架时,接口单元可以作为用于将电力从外部支架供给至移动终端100的路径,或者作为将用户从支架输入的各种命令信号传送至移动终端100的路径。从支架输入的这样的各种命令信号或电力可以作为用于识别该移动终端已经被精确安装到支架的信号。
控制器180通常控制移动终端100的全面操作。例如,控制器180执行与电话呼叫、数据通信、视频呼叫等相关的控制和处理。此外,控制器180可以执行此处公开的第一至第七实施例的操作。
控制器180可以包括用于再现多媒体数据的多媒体模块181。多媒体模块181可以以集成方式在控制器180内实现,或者以独立于控制器180的方式来实现。
此外,控制器180能够执行图案识别处理,以便将在触摸屏上输入的写或画识别为文本或图像。
电源单元190在控制器180的控制下接收外部电力和内部电力以提供各个组件所要求的电力。
此处所描述的各个实施例可以在使用软件、硬件或它们的任何组合的计算机或类似设备能够读取的介质中实施。
对于硬件实施,其可以通过使用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计成执行此处所描述功能的电单元中的至少一个来实施。在一些情形下,在控制器180本身中,可以实施这样的实施例。
对于软件实施,诸如过程或功能的实施例可以与独立软件模块一起实施。这些软件模块可以执行此处描述的至少一个功能或操作。通过以任何适当编程语言所写的软件应用,可以实施软件代码。这些软件代码可以被存储在存储器160中并且由控制器180执行。
另一方面,根据本公开实施例的前述移动终端100的功能可以在图像显示设备中实施,其将在后文描述。在下文中,将参考图15描述具有根据本公开实施例的移动终端100的操作控制功能的图像显示设备。
图15是示出根据本公开实施例的图像显示设备的内部框图。
参考图15,根据本公开实施例的图像显示设备200可以包括广播接收器205、外部设备接口单元235、存储单元240、用户输入接口单元250、控制器270、显示单元280、音频输出单元285以及电源单元290。其中,广播接收器205可以包括调谐器210、解调单元220以及网络接口单元230。其中,调谐器210和解调单元220可以可替换地为网络接口单元230提供。
调谐器210从通过天线接收的射频(RF)广播信号选择与由用户选择的信道或每个预存信道相对应的RF广播信号。此外,调谐器210将选择的RF广播信号转换成中频信号、基带图像或音频信号。
例如,如果选择的RF广播信号是数字广播信号,则其可以被转换成数字IF(DIF)信号,并且如果其是模拟广播信号,则可以被转换成模拟基带视频或音频信号(CVBS/SIF)。换言之,调谐器210可以处理数字广播信号和模拟广播信号。从调谐器210输出的模拟基带视频或音频信号(CVBS/SIF)可以被直接输入到控制器270。
此外,调谐器210可以根据高级电视系统委员会(ATSC)方法以单载波来接收RF广播信号,或者根据数字视频广播(DVB)方法以多个载波来接收RF广播信号。
另一方面,调谐器210可以在通过天线接收的RF广播信号之中、在已经通过信道存储功能存储的所有广播信道上顺序选择RF广播信号以将其转换成中频信号或基带视频或音频信号。
解调单元220接收已经被调谐器210转换的数字IF(DIF)信号,以执行解调操作。
例如,如果从调谐器210输出的数字IF信号为ATSC方法,那么,解调单元220可以执行例如8残留边带(8-VSB)解调。此外,解调单元220可以执行信道解码。为此目的,解调单元220可以包括格子解码器、解交织器、里德-所罗门解码器等,以执行格子解码、解交织以及里德-所罗门解码。
例如,如果从调谐器210输出的数字IF信号为DVB方法,那么解调单元220可以执行编译正交频分调制(COFDMA)解调。此外,解调单元220可以执行信道解码。为此目的,解调单元220可以包括卷积解码器、解交织器、里德-所罗门解码器等,以执行卷积解码、解交织以及里德-所罗门解码。
解调单元220可以执行解调和信道解码,然后输出流信号(TS)。此处,流信号可以是具有视频、音频或数据信号的复用信号。例如,流信号可以是具有MPEG-2视频信号的复用MPEG-2传输流(TS)、Dolby AC-3视频信号等。更具体地,MPEG-2TS可以包括4-字节报头和184-字节有效载荷。
另一方面,前述解调单元220可以根据ATSC方法或DVB方法,以独立方式被提供。换言之,其可以提供有ATSC解调单元和DVB解调单元。
从解调单元220输出的流信号可以被输入到控制器270中。控制器270可以执行逆复用、视频/音频信号处理等,然后将视频输出至显示单元280并且将音频输出至音频输出单元285。
可以提供外部设备接口单元235,以将外部设备与图像显示设备200连接。为此目的,外部设备接口单元235可以包括A/V输入和输出单元(未示出)或无线通信单元(未示出)。
外部设备接口单元235可以以有线/无线方式被连接至外部设备,诸如数字多功能盘(DVD)、蓝光盘、游戏设备、相机、摄像放像机、计算机(笔记本电脑)等。外部设备接口单元235可以将通过与之连接的外部设备从外部接收音频、视频或数据信号传送至图像显示设备200的控制器270。此外,外部设备接口单元235可以输出由控制器270处理的视频、音频或数据信号至与之连接的外部设备。为此目的,外部设备接口单元235可以包括A/V输入和输出单元(未示出)或无线通信单元(未示出)。
A/V输入和输出单元可以包括USB终端、复合视频消隐同步(CVBS)终端、组件终端、S-视频终端(模拟)、数字可视接口(DVI)终端、高清晰度多媒体接口(HDMI)终端、RGB终端、D-SUB终端等,以将外部设备的视频和音频信号输入到图像显示设备200中。
无线通信单元可以执行与其它电子设备的短程无线通信。图像显示设备200可以根据诸如蓝牙、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂(ZigBee)、数字生活网络联盟(DLNA)等的通信标准,被连接至在网络中的其它电子设备。
此外,外部设备接口单元235可以被连接至各种机顶盒和前述的各种终端中的至少一种,以利用机顶盒来执行输入和输出操作。
另一方面,外部设备接口单元235可以接收邻接的外部设备内的应用和应用列表,以将其传送至控制器270或存储单元240。
网络接口单元230提供接口,用于将图像显示设备200连接至包括因特网的有线/无线网络。该网络接口单元230可以包括以太网终端等,例如,用于与有线网络的连接;以及诸如无线LAN(WLAN、Wi-Fi)、无线宽带(Wibro)全球微波接入互操作性(Wimax)、高速下行链路分组接入(HSDPA),例如用于与无线网络的连接。
网络接口230可以通过网络被连接至特定网页。换言之,网络接口单元230可以通过网络被连接至特定网页,以向相关服务器发送数据或从其接收数据。此外,网络接口单元230可以接收由内容提供商或网络运营商提供的内容或数据。换言之,网络接口单元230可以通过网络来接收内容提供商或网络提供商所提供的诸如电影、广告、游戏、VOD、广播信号等的内容及与该内容相关的信息。此外,网络接口单元230可以接收由网络运营商提供的固件更新信息或更新文件。此外,网络接口单元230可以发送数据至因特网、内容提供商或网络运营商。
此外,网络接口230可以通过网络接收对于公众开放的应用之中的期望的应用。
存储单元240可以在控制器270内存储用于每个信号处理或控制的程序,并且可以存储信号处理的视频、音频或数据信号。
此外,存储单元240可以执行用于临时存储从外部设备接口单元235或网络接口单元230接收的视频、音频或数据信号的功能。此外,存储单元240可以通过信道存储功能来存储用于预定广播信道信息。
此外,存储单元240可以存储从外部设备接口单元235或网络接口单元230接收的应用或应用列表。
存储单元240可以包括包含闪存型、硬盘型、多媒体卡微型、卡型存储器(例如SD或XD存储器等)的存储介质、随机存取存储器(RAM)、只读存储器(EPROM等)等。图像显示设备200可以再现在存储单元240中存储的内容文件(视频文件、静止图像文件、音乐文件、文档文件、应用文件等),以提供给用户。
图15示出其中以与控制器270独立的方式提供存储单元240的实施例,但是本发明的范围不限于此。存储单元240可以被包括在控制器270中。
用户输入单元250可以传送用户的输入信号至控制器270或者传送从控制器270接收的信号至用户。
例如,根据诸如射频(RF)通信、红外(IR)通信等的各种通信方法,用户输入接口单元250可以接收并处理从遥控设备400产生的诸如电源接通/关断、信道选择、屏幕设置等的控制信号,或者传输并且处理从控制器270产生的控制信号至遥控设备400。
此外,例如,用户输入接口单元250可以将从诸如电源键、信道键、音量键、设置键等的本地键(未示出)接收的控制信号传输至控制器270。
此外,例如,用户输入接口单元250可以传送从用于感测用户手势的感测单元(未示出)接收的控制信号至控制器270或传输从控制器270产生的信号至感测单元(未示出)。此处,感测单元(未示出)可以包括触摸传感器、语音传感器、位置传感器或操作传感器等。
控制器270可以逆复用从调谐器210、解调单元220或外部设备接口单元235接收的流,以及另外,处理该逆复用信号以产生或输出用于视频或音频输出的信号。
已经在控制器270中进行图像处理的视频信号可以被输入到显示单元280,并且被显示为与相关视频信号相对应的视频。此外,在控制器270中的已经进行图像处理的视频信号可以通过外部设备接口单元235被输入到外部输出设备。
在控制器270中处理的音频信号可以是输出到音频输出单元285的音频。此外,在控制器270中处理的音频信号可以通过外部设备接口单元235被输入到外部输出设备。
虽然未在图15中示出,控制器270可以包括逆复用单元、视频处理单元等。
此外,控制器270可以控制在图像显示设备200内的整体操作。例如,控制器270可以控制调谐器210以调谐与用户调谐的信道或与存储信道相对应的RF广播信号。
此外,控制器270可以通过用户输入接口单元250输入的用户命令或内部程序来控制图像显示设备200。具体而言,可以将网络与之连接,从而允许用户期望的应用或应用列表被下载到图像显示设备200中。
例如,控制器270可以根据通过用户输入接口单元250接收的预定信道选择命令来接收调谐的信道的信号。然后,控制器270处理该调谐的信道的视频、音频或数据信号。控制器270可以允许用户的调谐信道信息等通过显示单元280或音频输出单元285而与处理的视频或音频信号一起被输出。
又例如,根据通过用户输入接口单元250接收的外部设备视频播放命令,控制器270可以允许从例如相机或摄像放像机的外部设备产生的、通过外部设备接口单元235接收的视频或音频信号,通过显示单元280或音频输出单元285输出。
另一方面,控制器270可以控制显示单元280显示图像。例如,控制器270可以控制通过调谐器210接收的广播图像、通过外部设备接口单元235接收的外部输入图像、通过网络接口单元接收的图像或者在存储单元240中存储的图像,以在显示单元280上显示。此处,在显示单元280上显示的图像可以是静止或运动图像,以及另外可以是2D或3D图像。
另一方面,当输入应用观看项目时,控制器270可以控制在图像显示设备200内的应用或应用列表或者能够从外部网络下载的应用或应用列表。
除了各种用户接口以外,控制器270可以控制从外部网络下载的应用被安装并驱动。此外,控制器270可以控制与被执行的应用相关的图像以通过用户选择在显示单元280上显示。
另一方面,虽然在附图中未示出,其可以进一步包括信道浏览处理单元,其用于产生与信道信号或外部输入信号相对应的缩略图图像。信道浏览处理单元可以接收从解调单元220输出的流信号(TS)、从外部设备接口单元235输出的流信号等,以从该接收的流信号提取图像,从而产生缩略图图像。产生的缩略图图像可以被依原样编码,以被输入到控制器270。此外,产生的缩略图图像也可以编码为流类型,以被输入到控制器270。控制器270可以利用输入的缩略图图像,在显示单元280上显示具有多个缩略图图像的缩略图列表。另一方面,在缩略图列表内的缩略图图像可以被顺序或同时更新。结果,用户可以通过方便的方式,领会多个广播信号的内容。
显示单元280可以将由控制器270处理的音频、数据和OSD信号、从外部设备接口单元235接收到的视频和数据信号等分别转换成R、G和B信号,以产生驱动信号。
显示单元280可以提供有PDP、LCD、OLED、柔性显示器、3D显示器等。
另一方面,显示单元280可以配置有触摸屏,以被用作除了输出设备以外的输入设备。
音频输出单元285可以从控制器270接收音频处理信号,例如,立体声信号、3.1信道信号或5.1信道信号,以输出为音频。音频输出单元285可以通过各种类型的扬声器来实施。
另一方面,其中可以进一步提供用于俘获用户的俘获单元(未示出)。俘获单元(未示出)可以利用一个相机来实施,但不限于此,并且也可以利用多个相机来实施。由俘获单元(未示出)俘获的图像信息可以被输入到控制器270。
另一方面,为了检测用户手势,图像显示设备200可以进一步包括具有如上所述的触摸传感器、语音传感器、位置传感器和操作传感器中的至少一个的感测单元(未示出)。由该感测单元(未示出)检测的信号可以通过用户输入接口单元250被传送至控制器270。
控制器270可以分别从相机单元(未示出)接收俘获的图像或者从感测单元(未示出)接收检测的信号或以组合方式来检测用户手势。
电源单元290可以在整个图像显示设备200上提供相关电力。具体而言,电源单元290可以将电力供给至控制器270,其可以芯片上系统(SOC)形式、用于显示视频的显示单元280、用于输出视频的视频输出单元285中实施。
为此目的,电源单元290可以包括转换器(未示出),其用于将交流电转换成直流电。另一方面,例如,在将显示单元280实施为具有多个背光灯的液晶显示面板时,可以进一步在其中包括能够执行PWM操作的逆变器(未示出),用于亮度变化或变暗驱动。
遥控设备400将用户输入传输至用户输入接口单元250。为此目的,遥控设备400可以使用各种通信技术,诸如蓝牙、射频(RF)通信、红外(IR)通信、超宽带(UWB)、紫蜂(ZigBee)等。
此外,遥控设备400可以接收从用户输入接口单元250输出的视频、音频或数字信号,以将其显示在遥控设备400上或输出音频或振动。
前述图像显示设备200可以是固定型数字广播接收器,其能够接收ATSC(8-VSB)广播服务、DVB-T(COFDM)广播服务以及ISDB-T(BST-OFDM)广播服务中的至少一个。
另一方面,此处公开的图像显示设备可以是用于通过无线通信向显示单元280和音频输出单元285传输数据和/或从显示单元280和音频输出单元285接收数据的无线型,作为如图15中所示的排除显示单元280和音频输出单元285的图像显示设备。
另一方面,图15中所示的图像显示设备200的框图是用于本公开实施例的框图。在框图中的每个组成元件可以根据实际实施的图像显示设备200的规格而被集成、添加或删除。换言之,根据情况,两个或多个组成元件可以被集成为一个组成元件,或者一个组成元件可以被分成两个或多个组成元件。此外,提供在每个块中执行的功能,以描述本发明的实施例,并且详细操作或设备将不限定本发明的权利范围。
另一方面,与图15相反,图像显示设备200可以不具有如图15中所示的调谐器110和解调单元220,但可以通过网络接口单元230或外部设备接口单元235来接收或播放视频内容。
此外,图像显示设备200可以包括被配置成记录外部声音以将其存储为音频文件的记录功能单元(未示出)以及基于语音至文本(STT)转换而将声音中含有的语音转换为文本的转换单元(未示出)。在这种情形下,控制器270可以从文本检测核心关键字,并且将该检测到的核心关键字设置为用于该音频文件的文件名的至少一部分。此外,控制器180可以执行在此所公开的第一至第七实施例的操作。
另一方面,根据本公开实施例的移动终端100的功能将通过电冰箱实施,其将在下文描述。接下来,将参考图16来描述具有根据本公开实施例的移动终端100的操作控制功能的电冰箱。
图16是示出当根据本公开实施例的电子设备是电冰箱时,在电冰箱中含有的显示控制器和主体控制器的框图。
参考图16,显示单元310、通信单元331和输入单元320、显示存储器单元333、语音识别单元335和语音输出单元339被连接至显示控制器330。显示控制器330控制显示单元310、通信单元331、输入单元320、显示存储器单元333、语音识别单元335以及语音输出单元339的操作。
通信单元331从广播站或基站接收图像信号和DMB数据,以将它们输出到显示单元310和/或语音输出单元339。此外,通信单元331在显示控制器330的控制下通过网络被连接至服务器或外部终端以传输和接收数据。例如,通信单元331从显示控制器330接收文本询问以将其发送至服务器或外部终端,并且该服务器或外部终端通过搜索引擎将对于文本询问的搜索结果传输至通信单元331。通信单元331将从服务器或外部终端接收的搜索结果传送至显示控制器330,从而允许搜索结果被从显示单元310和/或语音输出单元339输出。
语音识别单元335可以包括允许用户输入语音的语音输入单元336和被配置成将输入至音频输入单元336的语音转换成语音频率。转换器337将用户的语音频率转换成数字信号,然后将其传送至显示控制器330。显示控制器330在显示存储器单元333中存储传送的数字信号。
与在电冰箱中存储的食物名称相对应的通过语音输出单元339输出的语音信息被预先存储在显示存储器单元333中。关于食物名称的输出语音信息可以在电冰箱的制造期间被预先存储在显示存储器单元333中。
主体控制器340被连接至显示控制器330。主体存储器单元341可以被连接至主体控制器340。用于电冰箱的功能的数据被预先存储在主体存储器单元341中。
被配置为记录外部声音以将其存储为音频文件的记录功能单元(未示出)、被配置为基于语音至文本(STT)转换将在声音中含有的语音转换为文本的转换单元(未示出)等可以被另外地提供在电冰箱的配置中。主体控制器340或显示控制器330从文本检测核心关键字,并且将检测到的核心关键字设置为用于音频文件的文件名的至少一部分。此外,可以另外在其中提供用于执行在此公开的第一至第七实施例的操作的控制器。
根据此处公开的实施例,前述方法可以被实施为通过程序所写的在介质上由处理器可读的代码。处理器可读介质可以包括其中存储由计算机系统可读数据的所有类型记录设备。计算机可读介质的示例可以包括ROM、RAM、CD-ROM、磁带、软盘以及光学数据存储设备等,并且也可以包括以载波形式(例如,借助因特网的传输)实施的设备。
根据上述实施例的配置和方法将不以受限的方式可应用于前述移动终端、图像显示设备以及电冰箱,并且每个实施例的全部或一部分可以被选择性地组合和配置以对其做出各种修改。
如上所述,已经参考附图描述了此处公开的实施例。此处,在此所使用的术语和词语以及权利要求不应被解释为限于它们的典型或词汇含义,而是应该基于与本发明的技术概念相符合的含义和概念进行解释。
因此,在此处公开的实施例中示出的配置和附图仅是本发明的最优选实施例,并且不意图代表本发明的所有技术概念,并且由此应理解的是,在提交本申请时可以存在用于替换那些实施例的各种等效和修改。

Claims (33)

1.一种电子设备,包括:
记录功能单元,所述记录功能单元被配置成记录外部声音以将其存储为音频文件;
转换单元,所述转换单元被配置成基于语音至文本(STT)转换,将在所述声音中含有的语音转换成文本;以及
控制器,所述控制器被配置成从所述文本检测核心关键字,以及将所述检测的核心关键字设置为用于所述音频文件的文件名的至少一部分。
2.根据权利要求1所述的电子设备,其中,当存在用于所述音频文件的列表的输出请求时,在显示单元上显示基于所述文本产生的文本串。
3.根据权利要求2所述的电子设备,其中,所述文本串在所述显示单元上滚动显示。
4.根据权利要求3所述的电子设备,其中,当在所述屏幕上将所述文本串从右侧移动至左侧时,所述文本串的滚动显示被显示。
5.根据权利要求4所述的电子设备,其中,所述的将文本串从右侧移动至左侧显示与作为在所述屏幕上的行能够显示的字符数一样多的文本串,以及将所述文本串以水平方向移动,以显示所述文本串的剩余字符,或者
在所述屏幕的一侧处显示所述文本串的第一字符,然后将其移动至所述屏幕的另一侧以继续显示所述文本串的剩余字符。
6.根据权利要求2所述的电子设备,其中,所述文本串与所述文件名一起显示在所述显示单元上。
7.根据权利要求2所述的电子设备,其中,当检测到用于显示的文本串的控制命令时,所述控制器在所述显示单元上显示所述文本串的详细内容。
8.根据权利要求2所述的电子设备,其中,当检测到用于所述显示的文本串的控制命令时,所述控制器在所述显示单元上显示基于所述STT产生的文本。
9.根据权利要求1所述的电子设备,其中,所述文件名由含有所述核心关键字的文本串构成,以及
当存在用于所述音频文件的列表的输出请求时,所述控制器在所述显示单元上显示滚动的文本串。
10.根据权利要求1所述的电子设备,其中,当完成所述记录时,所述控制器将所述核心关键字设置为所述文件名,并且在所述记录完成之后,通过语音输入来进行所述文件名的编辑。
11.根据权利要求10所述的电子设备,其中,当所述记录完成时,所述控制器在所述显示单元上显示所述核心关键字,以及在其上显示所述核心关键字的状态下,通过新语音输入来确定所述编辑的文件名。
12.根据权利要求1所述的电子设备,其中,在能够选择所述文本的至少一部分的状态下,所述控制器在所述显示单元上显示基于所述STT产生的文本。
13.根据权利要求12所述的电子设备,其中,由所述用户选择的文本的至少一部分被存储为所述音频文件的附加信息。
14.根据权利要求13所述的电子设备,其中,当存在用于所述附加信息的输出请求时,在所述显示单元上显示被滚动的所述附加信息。
15.根据权利要求1所述的电子设备,其中,所述电子设备对应于移动电话、具有电话功能的设备、电子表、广播接收装置以及家用电器中的任何一种。
16.一种在电子设备中输出音频文件的列表的方法,所述方法包括:
根据用户请求来输入用于输出所述音频文件的列表的操作模式;以及
在所述显示单元上显示与在所述列表中含有的每个音频文件相关联的文本串,
其中,所述文本串是基于所述用户语音的语音至文本(STT)转换来产生的,以及所述文本串被滚动显示。
17.根据权利要求16所述的方法,其中,在所述屏幕上将所述文本串从右侧移动到左侧时,显示所述文本串的滚动显示。
18.根据权利要求16所述的方法,其中,所述文本串在所述显示单元上与所述音频文件的文件名一起被显示。
19.根据权利要求18所述的方法,其中,基于语音至文本(STT)转换将所述语音转换成文本,以及
所述文件名包括从所述文本检测到的核心关键字。
20.一种电子设备,具有麦克风、显示单元和控制器,其中,所述控制器执行下列所述步骤:
驱动用于记录通过所述麦克风输入到音频文件的用户语音的记录应用,
与驱动所述记录应用相链接地驱动语音至文本(STT)执行应用,以在所述显示单元上显示从所述用户语音转换并产生的文本,以及
将由触摸输入指定的来自在所述显示单元上显示的文本的内容的关键字设置为所述音频文件的文件名的至少一部分。
21.根据权利要求20所述的电子设备,其中,所述控制器检测来自所述文本的核心关键字,以及当在所述音频文件的记录期间没有触摸输入时,将所述检测到的核心关键字设置为所述文件名的至少一部分。
22.根据权利要求21所述的电子设备,其中,所述文件名由含有所述关键字或核心关键字的文本串构成,以及
当存在所述音频文件的列表的输出请求时,所述控制器显示滚动的文本串。
23.根据权利要求20所述的电子设备,其中,从所述记录应用独立地提供所述STT执行应用,以及所述记录应用被执行以允许在所述记录期间所述STT执行应用的驱动的选择。
24.根据权利要求20所述的电子设备,其中,所述STT执行应用作为所述记录应用的一部分被提供,使得所述STT的执行被实施为在所述记录应用的驱动期间的记录应用的功能。
25.一种在电子设备中再现语音备忘录的方法,所述方法包括:
根据用户请求,输入与存储的语音备忘录再现相关联的操作模式;
在所述操作模式中,在所述电子设备的屏幕的至少局部区域中显示与所述语音备忘录的再现时间点相对应的文本;
感测用于改变所述语音备忘录的再现时间点的控制命令;以及
当感测到所述控制命令时,改变并且输出显示的文本以对应于所述改变的再现时间点。
26.根据权利要求25所述的方法,其中,基于所述用户语音的语音至文本(STT)转换来产生所述文本,以及与所述语音备忘录的再现相链接、显示被滚动的所述文本。
27.根据权利要求26所述的方法,其中,改变所述再现时间点与通过触摸输入选择的显示文本的特定文本相链接。
28.根据权利要求25所述的方法,其中,指示所述语音备忘录的时间信息的进度条被显示在所述电子设备的屏幕上,以及用于所述语音备忘录的再现时间点被改变,以对应于用于所述进度条的触摸点。
29.一种电子设备,包括:
控制器,所述控制器被配置成存储正在被接收的音频信号;
显示单元,所述显示单元被配置成显示用于接收的音频信号的基于语音至文本(STT)的文本;以及
输入单元,所述输入单元被配置成从用户接收与所述音频信号相关联的备忘录或特定时间点,
其中,所述控制器与所述音频文件一起存储含有所述文本的文本文件,以及
所述备忘录或特定时间点被分别写在所述音频文件和所述文本文件上。
30.根据权利要求30所述的电子设备,其中,在所述音频信号被接收以写入所述特定时间点时,所述控制器感测特定模式被接收的时间点,并且控制所述显示单元以显示指示接收的时间点的指示符。
31.根据权利要求30所述的电子设备,其中,所述输入单元在再现所述音频文件时,从所述用户接收显示的指示符的选择,以及所述控制器从与由所述用户选择的指示符相对应的时间点来再现所述音频文件。
32.根据权利要求30所述的电子设备,其中,所述特定模式的输入是触摸特定区域的输入或者选择特定键按钮的输入。
33.根据权利要求29所述的电子设备,其中,所述备忘录被写在所述文本文件上,以及所述特定时间点被写在所述音频文件上。
CN201310105017.9A 2012-05-07 2013-03-28 显示与音频文件相关联的文本的方法以及电子设备 Active CN103390016B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120048324A KR101977072B1 (ko) 2012-05-07 2012-05-07 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
KR10-2012-0048324 2012-05-07

Publications (2)

Publication Number Publication Date
CN103390016A true CN103390016A (zh) 2013-11-13
CN103390016B CN103390016B (zh) 2018-03-06

Family

ID=47713759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310105017.9A Active CN103390016B (zh) 2012-05-07 2013-03-28 显示与音频文件相关联的文本的方法以及电子设备

Country Status (6)

Country Link
US (1) US20130297308A1 (zh)
EP (1) EP2662766A1 (zh)
JP (1) JP5563650B2 (zh)
KR (1) KR101977072B1 (zh)
CN (1) CN103390016B (zh)
WO (1) WO2013168860A1 (zh)

Cited By (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280207A (zh) * 2014-06-25 2016-01-27 禾瑞亚科技股份有限公司 关联到触控信息时间的播放方法、装置、及系统
CN106257439A (zh) * 2015-06-19 2016-12-28 Tcl集团股份有限公司 多媒体播放器中的多媒体文件存储方法和装置
CN106446887A (zh) * 2016-11-07 2017-02-22 罗杰仁 一种将图片转换为语音的方法及装置
CN106649807A (zh) * 2016-12-29 2017-05-10 维沃移动通信有限公司 一种音频文件处理方法及移动终端
CN108228132A (zh) * 2016-12-14 2018-06-29 谷歌有限责任公司 促进用户录制的音频的创建和回放
CN108292203A (zh) * 2015-12-23 2018-07-17 苹果公司 基于设备间对话通信的主动协助
CN109254720A (zh) * 2014-05-23 2019-01-22 三星电子株式会社 用于再现内容的方法和装置
CN109697283A (zh) * 2017-10-23 2019-04-30 谷歌有限责任公司 用于生成患者-健康护理提供者对话的文字记录的方法和系统
US20200075015A1 (en) 2016-12-05 2020-03-05 Sony Corporation Information processing device, information processing method, and information processing system
CN111277976A (zh) * 2018-11-19 2020-06-12 丰田自动车株式会社 信息处理设备、信息处理方法和程序
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
CN112424853A (zh) * 2018-07-24 2021-02-26 谷歌有限责任公司 以对文本文档的音频回放进行补充的视觉内容为特点的文本到语音界面
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130205213A1 (en) * 2012-02-06 2013-08-08 edX Inc. Caption-based navigation for a video player
US9965162B2 (en) * 2012-11-29 2018-05-08 Facebook, Inc. Scrolling across boundaries in a structured document
US9679564B2 (en) * 2012-12-12 2017-06-13 Nuance Communications, Inc. Human transcriptionist directed posterior audio source separation
KR102065045B1 (ko) * 2013-03-15 2020-01-10 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
US20140298364A1 (en) * 2013-03-26 2014-10-02 Rawllin International Inc. Recommendations for media content based on emotion
KR102149266B1 (ko) * 2013-05-21 2020-08-28 삼성전자 주식회사 전자 기기의 오디오 데이터의 관리 방법 및 장치
KR102092058B1 (ko) * 2013-07-01 2020-03-23 삼성전자 주식회사 인터페이스 제공 방법 및 장치
CN108595520B (zh) * 2013-07-05 2022-06-10 华为技术有限公司 一种生成多媒体文件的方法和装置
TWI502487B (zh) * 2013-10-24 2015-10-01 Hooloop Corp 語音管理方法,及其相關裝置與電腦程式產品
US9851896B2 (en) * 2013-12-17 2017-12-26 Google Inc. Edge swiping gesture for home navigation
KR102223728B1 (ko) 2014-06-20 2021-03-05 엘지전자 주식회사 이동단말기 및 그 제어방법
KR102340251B1 (ko) * 2014-06-27 2021-12-16 삼성전자주식회사 데이터 관리 방법 및 그 방법을 처리하는 전자 장치
KR20160005899A (ko) 2014-07-08 2016-01-18 엘지전자 주식회사 디지털 이미지 처리 장치, 시스템 및 제어 방법
KR102252665B1 (ko) * 2014-09-01 2021-05-17 삼성전자주식회사 오디오 파일 재생 방법 및 장치
US10275207B2 (en) 2014-09-01 2019-04-30 Samsung Electronics Co., Ltd. Method and apparatus for playing audio files
WO2016060296A1 (ko) * 2014-10-15 2016-04-21 엘지전자 주식회사 음향 정보 녹음 장치 및 그 제어 방법
CA2869245A1 (en) 2014-10-27 2016-04-27 MYLE Electronics Corp. Mobile thought catcher system
KR102300415B1 (ko) * 2014-11-17 2021-09-13 주식회사 엘지유플러스 이동통신단말기의 음성메모에 기초한 이벤트실행 시스템, 그 단말기 제어서버 및 이동통신단말기 제어방법, 이동통신단말기 및 어플리케이션 실행방법
JP6060989B2 (ja) * 2015-02-25 2017-01-18 カシオ計算機株式会社 音声録音装置、音声録音方法、及びプログラム
JP6552868B2 (ja) * 2015-04-27 2019-07-31 株式会社東芝 音声コミュニケーション支援装置、音声コミュニケーション支援方法およびプログラム
CN105516472A (zh) * 2015-11-30 2016-04-20 联想(北京)有限公司 一种信息处理方法及电子设备
KR102494584B1 (ko) * 2016-08-18 2023-02-02 삼성전자주식회사 디스플레이 장치 및 그 컨텐츠 디스플레이 방법
KR101705228B1 (ko) * 2016-08-22 2017-02-09 백승빈 전자문서생성장치 및 그 동작 방법
CN106412705A (zh) * 2016-09-13 2017-02-15 努比亚技术有限公司 一种调节文件进度的方法及终端
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
WO2018105373A1 (ja) * 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、および情報処理システム
CN107331394B (zh) * 2017-05-26 2020-11-13 暨南大学 基于移动互联网与手机app的语音资料采集系统
US9824691B1 (en) * 2017-06-02 2017-11-21 Sorenson Ip Holdings, Llc Automated population of electronic records
JP6943158B2 (ja) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
JP6666393B2 (ja) * 2018-07-30 2020-03-13 株式会社北陸テクノソリューションズ 通話支援システム
CN109151225A (zh) * 2018-09-04 2019-01-04 北京小鱼在家科技有限公司 通话处理方法、装置和通话设备
JP2020095689A (ja) * 2018-11-29 2020-06-18 株式会社リコー 表示端末、共用システム、表示制御方法およびプログラム
JP7347124B2 (ja) * 2019-10-30 2023-09-20 株式会社リコー プログラム、情報処理方法、情報処理装置および通信システム
US11880410B2 (en) * 2020-02-03 2024-01-23 Microstrategy Incorporated Systems and methods for proactive information discovery with multiple senses
JP7400548B2 (ja) 2020-03-03 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、画像処理装置、情報処理システム、及びプログラム
KR102377038B1 (ko) * 2020-06-16 2022-03-23 주식회사 마인즈랩 화자가 표지된 텍스트 생성 방법
US11662895B2 (en) * 2020-08-14 2023-05-30 Apple Inc. Audio media playback user interface
KR20220125523A (ko) * 2021-03-05 2022-09-14 삼성전자주식회사 전자 장치 및 전자 장치에서 레코딩과 음성 입력을 처리하는 방법
KR20220139189A (ko) * 2021-04-07 2022-10-14 네이버 주식회사 음성 녹음 후의 정보에 기초하여 생성된 음성 기록을 제공하는 방법 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030163308A1 (en) * 2002-02-28 2003-08-28 Fujitsu Limited Speech recognition system and speech file recording system
CN101395561A (zh) * 2006-03-03 2009-03-25 日本电气株式会社 便携终端机以及输入接受方法
US20100332517A1 (en) * 2009-06-26 2010-12-30 Hon Hai Precision Industry Co., Ltd. Electronic device and method for displaying image corresponding to playing audio file therein
CN102132548A (zh) * 2008-08-28 2011-07-20 高通股份有限公司 用于在视频显示会话期间滚动语音呼叫或消息的文本显示的方法和设备
CN102314314A (zh) * 2011-08-29 2012-01-11 上海量明科技发展有限公司 文档阅读时光标转换的方法及系统

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353809B2 (en) * 1997-06-06 2002-03-05 Olympus Optical, Ltd. Speech recognition with text generation from portions of voice data preselected by manual-input commands
US7203721B1 (en) * 1999-10-08 2007-04-10 At Road, Inc. Portable browser device with voice recognition and feedback capability
JP2003219327A (ja) * 2001-09-28 2003-07-31 Canon Inc 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ
WO2003056405A2 (en) * 2001-12-08 2003-07-10 Korea Media Co., Ltd. Portable cd player displaying caption data and audio cd having caption index data and system for providing caption data
US20040252679A1 (en) * 2002-02-26 2004-12-16 Tim Williams Stored voice message control extensions
DE60315947T2 (de) * 2003-03-27 2008-05-21 Sony Deutschland Gmbh Verfahren zur Sprachmodellierung
KR20050106246A (ko) * 2004-05-04 2005-11-09 엘지전자 주식회사 엠펙 플레이어에 있어서 데이터 검색 방법
US7559033B2 (en) * 2005-07-21 2009-07-07 International Business Machines Corporation Method and system for improving selection capability for user interface
WO2007013308A1 (ja) * 2005-07-28 2007-02-01 Matsushita Electric Industrial Co., Ltd. 番組録画装置、番組管理サーバ、番組管理方法、番組管理プログラム及び番組管理プログラムを記録したコンピュータ読み取り可能な記録媒体
US20070236583A1 (en) * 2006-04-07 2007-10-11 Siemens Communications, Inc. Automated creation of filenames for digital image files using speech-to-text conversion
KR100856407B1 (ko) * 2006-07-06 2008-09-04 삼성전자주식회사 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
US7844215B2 (en) * 2006-08-08 2010-11-30 Accenture Global Services Gmbh Mobile audio content delivery system
JP2009043353A (ja) * 2007-08-09 2009-02-26 Pioneer Electronic Corp タイトル付与装置、タイトル付与方法、タイトル付与プログラム、および記録媒体
US9274698B2 (en) * 2007-10-26 2016-03-01 Blackberry Limited Electronic device and method of controlling same
US20090125848A1 (en) * 2007-11-14 2009-05-14 Susann Marie Keohane Touch surface-sensitive edit system
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8650507B2 (en) * 2008-03-04 2014-02-11 Apple Inc. Selecting of text using gestures
KR101466027B1 (ko) * 2008-04-30 2014-11-28 엘지전자 주식회사 이동 단말기 및 그 통화내용 관리 방법
US8239201B2 (en) * 2008-09-13 2012-08-07 At&T Intellectual Property I, L.P. System and method for audibly presenting selected text
KR101504212B1 (ko) * 2008-11-19 2015-03-24 엘지전자 주식회사 단말기 및 그 제어 방법
US8515497B2 (en) * 2009-04-27 2013-08-20 Kyocera Corporation Voice file name generation for captured images
US20100324709A1 (en) * 2009-06-22 2010-12-23 Tree Of Life Publishing E-book reader with voice annotation
EP2275953B1 (en) * 2009-06-30 2018-10-24 LG Electronics Inc. Mobile terminal
JP2012014293A (ja) * 2010-06-29 2012-01-19 Toshiba Corp 情報検索装置および情報検索方法
US9128939B2 (en) * 2010-11-16 2015-09-08 Blackberry Limited Automatic file naming on a mobile device
US20120216113A1 (en) * 2011-02-18 2012-08-23 Google Inc. Touch gestures for text-entry operations
DE112011105305T5 (de) * 2011-06-03 2014-03-13 Google, Inc. Gesten zur Textauswahl
KR101457116B1 (ko) * 2011-11-07 2014-11-04 삼성전자주식회사 음성 인식 및 모션 인식을 이용한 전자 장치 및 그의 제어 방법
KR101921203B1 (ko) * 2012-03-02 2018-11-22 삼성전자 주식회사 녹음 기능이 연동된 메모 기능 운용 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030163308A1 (en) * 2002-02-28 2003-08-28 Fujitsu Limited Speech recognition system and speech file recording system
CN101395561A (zh) * 2006-03-03 2009-03-25 日本电气株式会社 便携终端机以及输入接受方法
CN102132548A (zh) * 2008-08-28 2011-07-20 高通股份有限公司 用于在视频显示会话期间滚动语音呼叫或消息的文本显示的方法和设备
US20100332517A1 (en) * 2009-06-26 2010-12-30 Hon Hai Precision Industry Co., Ltd. Electronic device and method for displaying image corresponding to playing audio file therein
CN102314314A (zh) * 2011-08-29 2012-01-11 上海量明科技发展有限公司 文档阅读时光标转换的方法及系统

Cited By (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
CN109254720B (zh) * 2014-05-23 2021-06-08 三星电子株式会社 用于再现内容的方法和装置
CN109508137A (zh) * 2014-05-23 2019-03-22 三星电子株式会社 用于再现内容的方法和装置
CN109254720A (zh) * 2014-05-23 2019-01-22 三星电子株式会社 用于再现内容的方法和装置
CN109508137B (zh) * 2014-05-23 2021-09-14 三星电子株式会社 用于再现内容的方法和装置
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN105280207A (zh) * 2014-06-25 2016-01-27 禾瑞亚科技股份有限公司 关联到触控信息时间的播放方法、装置、及系统
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
CN106257439A (zh) * 2015-06-19 2016-12-28 Tcl集团股份有限公司 多媒体播放器中的多媒体文件存储方法和装置
CN106257439B (zh) * 2015-06-19 2020-01-14 Tcl集团股份有限公司 多媒体播放器中的多媒体文件存储方法和装置
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
CN108292203A (zh) * 2015-12-23 2018-07-17 苹果公司 基于设备间对话通信的主动协助
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
CN106446887A (zh) * 2016-11-07 2017-02-22 罗杰仁 一种将图片转换为语音的方法及装置
US20200075015A1 (en) 2016-12-05 2020-03-05 Sony Corporation Information processing device, information processing method, and information processing system
US11189289B2 (en) 2016-12-05 2021-11-30 Sony Corporation Information processing device, information processing method, and information processing system
US11238854B2 (en) 2016-12-14 2022-02-01 Google Llc Facilitating creation and playback of user-recorded audio
CN108228132B (zh) * 2016-12-14 2021-09-10 谷歌有限责任公司 语音启用装置及其中执行的方法
CN108228132A (zh) * 2016-12-14 2018-06-29 谷歌有限责任公司 促进用户录制的音频的创建和回放
CN106649807A (zh) * 2016-12-29 2017-05-10 维沃移动通信有限公司 一种音频文件处理方法及移动终端
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
CN109697283B (zh) * 2017-10-23 2023-07-07 谷歌有限责任公司 用于生成患者-健康护理提供者对话的文字记录的方法和系统
CN109697283A (zh) * 2017-10-23 2019-04-30 谷歌有限责任公司 用于生成患者-健康护理提供者对话的文字记录的方法和系统
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
CN112424853A (zh) * 2018-07-24 2021-02-26 谷歌有限责任公司 以对文本文档的音频回放进行补充的视觉内容为特点的文本到语音界面
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN111277976A (zh) * 2018-11-19 2020-06-12 丰田自动车株式会社 信息处理设备、信息处理方法和程序
CN111277976B (zh) * 2018-11-19 2023-10-27 丰田自动车株式会社 信息处理设备、信息处理方法和程序
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones

Also Published As

Publication number Publication date
US20130297308A1 (en) 2013-11-07
JP2013235556A (ja) 2013-11-21
CN103390016B (zh) 2018-03-06
WO2013168860A1 (en) 2013-11-14
KR101977072B1 (ko) 2019-05-10
EP2662766A1 (en) 2013-11-13
JP5563650B2 (ja) 2014-07-30
KR20130124863A (ko) 2013-11-15

Similar Documents

Publication Publication Date Title
CN103390016A (zh) 显示与音频文件相关联的文本的方法以及电子设备
KR101897774B1 (ko) 녹음된 음성의 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
KR101939253B1 (ko) 음성 녹음 중에 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
US10782856B2 (en) Method and device for displaying application function information, and terminal device
KR102196671B1 (ko) 전자 기기 및 전자 기기의 제어 방법
US20090249198A1 (en) Techniques for input recogniton and completion
KR20150017156A (ko) 휴대단말기에서 추천어를 제공하는 방법 및 장치
KR102039553B1 (ko) 사용자 디바이스에서 입력 문자를 이용한 지능형 서비스 제공 방법 및 장치
CN103914502A (zh) 使用情形识别的智能搜索服务的方法及其终端
US20170249934A1 (en) Electronic device and method for operating the same
CN105808058A (zh) 一种智能显示粘贴提示的方法及装置
CN102473304A (zh) 元数据标记系统、图像搜索方法和设备、及其用于标记手势的方法
US20100273529A1 (en) Input processing method of mobile terminal and device for performing the same
CN114501106A (zh) 一种文稿显示控制方法、装置、电子设备和存储介质
KR20170000722A (ko) 전자기기 및 그의 음성 인식 방법
CN105096962B (zh) 一种信息处理方法及终端
CN110168536B (zh) 上下文敏感概要
KR20140100315A (ko) 이동 단말기 및 그것의 제어 방법
KR20130080713A (ko) 음성 인식 기능을 구비한 이동 단말기 및 그 검색 결과 제공 방법
KR20170065757A (ko) 맞춤형 언어학습 제공 방법 및 이를 지원하는 장치, 서버 및 시스템
KR20140090114A (ko) 키워드 검색 방법 및 장치
KR102620445B1 (ko) 동영상 콘텐츠에 대한 태그 삽입 방법 및 시스템
US20150236991A1 (en) Electronic device and method for extracting and using sematic entity in text message of electronic device
CN103324625A (zh) 插入网络资源的方法及其通信终端
US11900926B2 (en) Dynamic expansion of acronyms in audio content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant