CN101025917A - 具有语音合成功能的信息处理装置及方法 - Google Patents

具有语音合成功能的信息处理装置及方法 Download PDF

Info

Publication number
CN101025917A
CN101025917A CN200710003821.0A CN200710003821A CN101025917A CN 101025917 A CN101025917 A CN 101025917A CN 200710003821 A CN200710003821 A CN 200710003821A CN 101025917 A CN101025917 A CN 101025917A
Authority
CN
China
Prior art keywords
reading
processing
playback
reads
transferred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200710003821.0A
Other languages
English (en)
Inventor
山田雅章
川崎勝彥
深田俊明
奥谷泰夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2002039033A external-priority patent/JP3884970B2/ja
Priority claimed from JP2002124368A external-priority patent/JP2003316565A/ja
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN101025917A publication Critical patent/CN101025917A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种具有语音合成功能的信息处理装置及方法,具有音响数据重放功能和文本语音合成功能,该装置做到用户使用很少的操作给予指令,同时,提供适合于语音合成的快速进带、倒带功能。在语音合成中将按钮操作的指令供给语音合成设备,在音响数据重放中,当不是语音合成时,将按钮操作的指令供给音响数据重放设备。在快速进带时,读取摘要语句,或者读取语句的最前面部分。在倒带时,读取语句的最前面部分。另外,对应于越过阅读的部分将发出语音。

Description

具有语音合成功能的信息处理装置及方法
本申请为同一申请人于2003年2月14日递交的、发明名称为“具有语音合成功能的信息处理装置及方法”的发明专利申请的分案申请。
技术领域
本发明涉及具有语音合成功能的信息处理装置及方法。
背景技术
现在,例如图20所示那样可携带的信息终端已实用化,使用该信息终端能进行各式各样的信息处理。在这种可携带的信息终端中,例如,往往具备通信部分,存储部分,语音输出部分以及语音合成部分,在它们的各部分中,以下的“录音数据重放”,“存储文件读取”,“新到信息读取”等功能正在被实现。
1)“录音数据重放”功能
将通过通信部分下载的音乐和语言学教材的音响数据存储在存储部分,并在任何时间、场所进行重放。
2)“存储文件读取”功能
通过使用语音合成(文本语音变换)读取存储在数据存储部分的小说等文本数据,可随处阅览信息。
3)“新到信息读取”功能
使用通信部分与因特网等连接,获得邮件和新闻等实时信息(文本数据)。再使用语音合成(文本语音变换)读取所获得的信息。
而且,还能够使用将上述“录音数据重放”,“存储文件读取”,“新到信息读取”功能组合起来的以下功能。
4)“将录音数据作为BGM的文件读取”功能
一边重放录音数据,一边使用语音合成(文本语音变换)读取存储文件和新到信息(文本数据)。
5)“新到信息的插入通知”功能
在邮件和新到新闻到达时,使用语音合成(文本语音变换)读取。因为是语音,即使是在其它的作业中也难以受到该作业的干扰。另外,当正在重放音乐等高潮中也能够叠加合成语音。
但是,在上述所说明的现有方法中存在以下2个问题。
第1个问题是操作按钮多。
即使对“录音数据重放”,“存储文件读取”,“新到信息读取”的任何功能,用户在其操作中也能够进行“重放(playback)”,“停止(stop)”,“快速进带(fast-forward)”,“倒带(fast-reverse)”那样的操作。但是,对于“录音数据重放”,“存储文件读取”,“新到信息读取”,例如在分别设置“重放”,“停止”,“快速进带”,“倒带”等操作按钮的场合,部件个数增加,设置场所变大。结果,存在整个信息终端的尺寸变大,制造成本也上升的问题。
第2个问题是这样的问题,即,在使用语音合成(文本语音变换)读取时,在进行与录音数据的重放同样的“快速进带”,“倒带”处理的场合,在“快速进带”,“倒带”中,用户不能听见使用语音合成(文本语音变换)读取的内容,因此方便性差。
另外,将图书等的内容电子化的电子文件正在逐年增加。随着电子文化图书的增加,用于象书籍那样阅读这些数据的设备(所谓电子图书装置)、使用语音合成进行电子化文件的读取的读取装置或软件在市场被销售。而且,在读取装置或软件中,往往具有存储上次阅读结束地方的功能,并从读取停止时的文本的位置(书签位置)返回到一定量前重新开始读取。这是因为很容易让用户想起与上次阅读结束的文章的联系,认为有助于文章内容的理解。
但是,在现有的读取装置或软件中,在重新开始读取的场合的读取开始位置的返回量是固定的。为此,例如,在该返回量过短的场合,无助于实际文章内容的理解。另一方面,在返回量过长的场合,虽然让用户能想起上次阅读结束的文章,但很可能也会变得过于冗长。就是说,由于返回量是固定的,因此,实际上变成顺利地有助于对文章的内容的理解,这样的情况很少有。
发明内容
本发明就是用于解决上述现有技术的问题,其目的是,例如,在“录音数据重放”,“存储文件读取”,“新到信息读取”的操作中能够进行“重放“,“停止”,“快速进带”,“倒带”等各种操作,并且,提供即使操作按钮等部件个数增加也不会增加制造成本的可携带的信息处理装置以及信息处理方法。
另外,本发明的其它目的是提供例如在使用语音合成(文本语音变换)读取时,即使在进行与录音数据重放同样的“快速进带”,“倒带”处理的场合,用户也能听见使用语音合成读取的内容的、方便性好的可携带的信息处理装置以及信息处理方法。
此外,本发明的目的在于提供这样的读取装置及其控制方法以及程序,即,它们具有在停止读取后重新开始读取时,为从读取再开始位置想起上次读取结束的文章的联系能返回到必要而充分的位置的调整功能。
若依据本发明的一个侧面,它提供这样的信息处理装置,该装置具有以下设备:重放音响数据的重放设备;将文本数据进行语音合成后输出的语音合成设备;检测用户的指令的指令检测设备;检测所述重放设备和所述语音合成设备的动作状态的检测设备;按照所述动作状态,将所述用户的指令输出到所述重放设备或所述语音合成设备的任何一个的指令供给设备;以及被供给所述用户的指令的所述重放设备或所述语音合成设备为根据所述用户的指令实行处理那样进行控制的控制设备。
另外,若依据本发明的其它侧面,它提供这样的信息处理装置,该装置具有以下设备:将文本数据进行语音合成后输出的语音合成设备;输入用户的指令的输入设备;检测所述输入设备的状态的状态检测设备;以及象按照所述被检测的输入设备的状态将所述文本数据用快速进带进行语音合成后输出、或将所述文本数据用倒带进行语音合成后输出那样控制所述语音合成设备的控制设备。
此外,若依据本发明的其它侧面,它提供这样的信息处理装置,该装置具有以下设备:将文本数据进行语音合成后输出的语音合成设备;检测用户的指令的指令检测设备;检测所述语音合成设备的动态状态的检测设备;按照所述动作状态将所述用户的指令输出到所述语音合成设备的指令供给设备;以及象给予所述用户的指令的所述语音合成设备根据所述用户的指令实行处理那样进行控制的控制设备。
若依据本发明的另外的侧面,它还提供这样的读取装置,该装置使用语音合成进行被供给的文本的读取,其特征在于,它具备控制所述文本读取的开始/停止的控制设备,以及测量从读取停止后到读取再开的时间的测量设备,所述控制设备按照被测量的所述时间的长度控制所述读取再开时的所述文本的读取再开位置。
本发明的其它特征和优点从连同附图一起的下面的说明中将显而易见,在该附图中,相同的参考符号表示整个附图的图形中相同或类似的部分。
附图说明
被编入并组成本说明书的一部分的附图被用来说明本发明的实施例,并与该说明书一起用来解释本发明的原理。
图1是表示涉及本发明的第1实施形态的信息终端的硬件构成的方框图。
图2是说明涉及本发明的第1实施形态的整个事件处理的流程图。
图3是说明在按下重放按钮时的处理的流程图。
图4是说明在按下停止按钮时的处理的流程图。
图5是说明在按下暂停按钮时的处理的流程图。
图6是说明在按下快速进带按钮时的处理的流程图。
图7是说明在取消快速进带按钮时的处理的流程图。
图8是说明在按下倒带按钮时的处理的流程图。
图9是说明在取消倒带按钮时的处理的流程图。
图10是说明新规则信息到达时的处理的流程图。
图11是说明在指令存储信息读取时的处理的流程图。
图12是说明在指令语音合成时的处理的流程图。
图13是说明在指令录音重放时的处理的流程图。
图14是说明定时器事件处理的流程图。
图15A是说明语音合成开始处理的流程图。
图15B是说明语音合成停止处理的流程图。
图15C是说明语音合成暂停处理的流程图。
图15D是说明语音合成再开处理的流程图。
图16A是说明录音数据重放开始处理的流程图。
图16B是说明录音数据重放停止处理的流程图。
图16C是说明录音数据重放暂停处理的流程图。
图16D是说明录音数据重放再开处理的流程图。
图17是说明新到通知信息的一例的图。
图18A、B是说明最前面单词表的图象的一例的图。
图19A、B是说明摘要语句图象的一例的图。
图20是表示涉及本发明的第1实施形态的信息终端的外观的图。
图21是表示涉及本发明的第2实施形态的信息终端的硬件构成的方框图。
图22是说明涉及本发明的第2实施形态的整个事件处理的流程图。
图23是说明在转盘角度被变更时的处理的流程图。
图24是说明要求语音合成时的处理的流程图。
图25是说明转盘角度和读取跳过数的对应关系的图。
图26是说明同步点的一例的图。
图27是表示涉及本发明的第2实施形态的信息终端的外观的图。
图28A、B是说明在快速进带场合的最前面单词表的事件的一例的图。
图29A、B是表示倒带时的摘要的一例的图。
图30是表示实现实施形态中的读取装置的个人计算机的硬件构成的方框图。
图31是表示实施形态中的读取程序模块构成的图。
图32是表示实施形态中的读取装置的读取处理的流程图。
图33是表示在实施形态的读取装置的读取实行中的读取停止处理的流程图。
图34是用于说明搜索实施形态的读取再开位置的方法的图。
具体实施方式
[第1实施形态]
[信息终端的构成:图1,图20]
图1是表示第1实施形态的可携带的信息终端H1000的硬件构成的图。另外,图20是表示信息终端H1000的外观的图。
H1是进行数值运算、控制等处理的中央处理部分,按照描述本发明的处理步骤的控制程序进行运算。如后述那样,通过实行该控制程序,就能有选择地实行音响数据(audio data)的重放处理、文本语音合成处理。H2是对用户提示信息的输出部分。输出部分H2包含扬声器、耳机等语音输出部分H201和液晶等图象显示部分H202。
H3是用户对信息终端H1000给予动作的指令,或输入信息的输入部分。输入部分H3包含重放(playback)按钮H301、停止(stop)按钮H302、暂停(pause)按钮H303、快速进带(fast-forward)按钮H304、倒带(fast-reverse)按钮H305以及触摸屏H306的通用输入部分。
H4是LAN卡和PHS卡等的数据通信部分,用于新到邮件等的数据的获得。H5是硬盘和非易失性存储器等的存储器,并保持被录音的数据(音响数据)和存储信息。H6是读取专用的存储部分,存储表示本发明的步骤的控制程序和语音合成用的词典等的固定数据。
H7是保持RAM等的暂时信息的存储部分,并保持暂时的数据和各种标志等。H8是间隔的定时器部分,在定时器启动后经过规定的时间,进行使中央处理部分产生中断的工作。上述说明的中央处理部分H1~定时器H8通过总线被连接。
[各事件处理的概要:图2]
使用图2~图16所示的流程图说明关于在以上说明的信息终端H1000中的事件处理。此外,下述的处理是根据由中央处理部分存储在读取专用的存储部分H6等中的事件驱动型的控制程序,并使用保持RAM等的暂时信息的存储部分H7被实行。另外,来自输入部分H3的输入处理和来自输出部分H2的数据要求、定时器中断等的中断被处理为上述控制程序中的各事件的开始。
在图2中,在事件获取步骤S1中,获取新的事件。
接着,在按下重放按钮判定步骤S2中,判定在事件获取步骤S1中获取的事件是否是“按下重放按钮”,若所获取的事件是“按下重放按钮”,那么将处理转移到图3所示的步骤S101,若不是“按下重放按钮”,那么将处理转移到停止按钮按下判定步骤S3。
接着,在按下停止按钮判定S3中,判定在事件获取步骤S1中所获取的事件是否是“按下停止按钮”,若所获取的事件是“按下停止按钮”,那么将处理转移到图4所示的步骤S201,若不是“按下停止按钮”,就将处理转移到暂停按钮按下判定步骤S4。
接着,在按下暂停按钮判定步骤S4中,判定在事件获取步骤S1中所获取的事件是否是“按下暂停按钮”,若是“按下暂停按钮”,那么将处理转移到图5所示的S301,若不是“按下暂停按钮”,就将处理转移到快速进带按钮按下判定步骤S5。
接着,在按下快速进带按钮判定S5中,判定在事件获取步骤S1中所获取的事件是否是“按下快速进带按钮”,若是“按下快速进带按钮”,那么将处理转移到图6所示的步骤S401,若不是“按下快速进带按钮”,就将处理转移到取消快速进带判定步骤S6。
接着,在取消快速进带按钮判定步骤S6中,判定在事件获取步骤S1中所获取的事件是否是“取消快速进带按钮(离开已按下的按钮的操作)”,若是“取消快速进带按钮”,那么将处理转移到图7所示的步骤S501,若不是“取消快速进带按钮”,就将处理转移到按下倒带按钮判定步骤S7。
接着,在按下倒带按钮判定S7中,判定在事件获取步骤S1中所获取的事件是否是“按下倒带按钮”,若是“按下倒带按钮”,那么将处理转移到图8所示的步骤S601,若不是“按下倒带按钮”,就将处理转移到取消倒带按钮判定步骤S8。
接着,在取消倒带按钮判定步骤S8中,判定在事件获取步骤S1中所获取的事件是否是“取消倒带按钮”,若是“取消倒带按钮”,那么将处理转移到图9所示的步骤S701,若不是“取消倒带按钮”,就将处理转移到新规则信息到达判定步骤S9。
接着在新规则信息到达判定步骤S9中,判定在事件获取步骤S1中所获取的事件是否是表示到达了“新到信息”,若是到达“新到信息”,那么将处理转移到图10所示的步骤S801,若不是到达“新到信息”,就将处理转移到存储信息读取指令判定步骤S10。
接着,在存储信息读取指令判定步骤S10中,判定在事件获取步骤S1中所获取的事件是否是“用户的存储信息读取的指令”,若是“用户的存储信息读取的指令”,那么将处理转移到图11所示的步骤S901,若不是“用户的存储信息读取的指令”,就将处理转移到要求语音合成数据判定步骤S11。
接着,在要求语音合成数据判定步骤S11中,判定在事件获取步骤S1中所获取的事件是否是“来自合成语音输出设备的数据要求”,若是“来自合成语音输出设备的数据要求”,那么将处理转移到图12所示的步骤S1001,若不是“来自合成语音输出设备的数据要求”,就将处理转移到要求录音重放数据判定步骤S12。
接着,在要求录音重放数据判定步骤S12中,判定在事件获取步骤S1中所获取的事件是否是“来自录音数据输出设备的数据要求”,若是“来自录音数据输出设备的数据要求”,那么将处理转移到图13所示的步骤S1101,若不是“来自录音数据输出设备的数据要求”,就将处理转移到定时器事件判定步骤S13。
接着,在定时器事件判定步骤S13中,判定在事件获取步骤S1中所获取的事件是否是表示在来自定时器部分H8的定时器开始后经过规定时间的意旨的通知,若是来自定时器部分H8的通知,那么将处理转移到图14所示的S1201,若不是来自定时器部分H8的通知,就将处理转移到事件获取步骤S1。
[“按下重放按钮”处理:图3]
接着,以下详细说明关于上述说明的各事件的处理。首先,使用图3说明关于“按下重放按钮”处理。
[读取指针]
在读取指针设定判定(重放)步骤S101中,判定是否设定“读取指针”,若设定“读取指针”,那么将处理转移到取消语音合成暂停标志(重放)步骤S106,若没有设定“读取指针”,就将处理转移到存在优先读取语句判定(重放)步骤S102。此外,“读取指针”是例如在图8中示出一例的优先读取语句(文本数据)的途中,接着进行语音合成后保持开始读取位置的区域,并且是非设定的,或者将文件中的“读取指针”的位置作为值而被设定。
接着,在存在优先读取语句判定(重放)步骤S102中,判定是否有“存在优先读取语句”,若有“存在优先读取语句”,那么将处理转移到优先读取语句初始指针设定步骤S108,若没有“存在优先读取语句”,就将处理转移到存在存储读取语句判定S103。
接着,在存在存储读取语句判定S103中,判定是否有“存在存储读取语句”,若有“存在存储读取语句”,那么将处理转移到存储读取语句初始指针设定步骤S109,若没有“存在存储读取语句”,就将处理转移到设定重放指针判定(重放)步骤S104。
[重放指针]
接着,在设定重放指针判定(重放)步骤S104中,判定是否有“重放指针设定”,若有“重放指针设定”,那么将处理转移到重放暂停标志取消(重放)步骤S111,若没有“重放指针设定”,就将处理转移到存在录音数据判定步骤S105。此外,“重放指针”是保持接着被重放的位置的区域,是非设定或者将录音数据中的“重放指针”的位置作为值而被设定。
接着,在存在录音数据判定步骤S105中,判定是否有“录音数据存在”,若有“录音数据存在”,那么将处理转移到录音数据重放初始指针设定步骤S113,若没有“录音数据存在”,就将处理转移到图2的事件获取步骤S1。
接着,在语音合成暂停标志取消(重放)步骤S106中,取消语音合成暂停标志。语音合成暂停标志是表示语音合成是否处在暂时状态的标志,在被设定时为“真”的值,在被取消时为“假”的值。
接着,在语音合成再开(重放)步骤S107中,再开在图5的步骤S304中被暂停的语音合成之后,将处理转移图2的事件获取步骤S1。关于在“语音合成开始”,“语音合成停止”,“语音合成暂停”,“语音合成再开”的各子程序中的处理使用图15后述。
接着,在优先读取语句初始指针设定步骤S108中将读取指针设定在优先读取语句的最前面,并将处理转移到语音合成步骤S110。
接着,在存储读取语句初始指针设定步骤S109中,将读取指针设定在存储读取语句的最前面,并将处理转移到语音合成开始步骤S110。
接着,在优先读取语句初始设定步骤S108或存储读取语句初始指针设定步骤S19中设定读取指针后,并在语音合成开始步骤S110中开始语音合成后,将处理转移到图2的事件获取S1。
接着,在重放暂停标志取消(重放)步骤S111中,取消重放暂停标志。重放暂停标志是表示录音数据重放是否处在暂时状态的标志。
接着,在录音数据再开(重放)步骤S112中,再开在步骤S308中被暂停的录音数据的重放,之后,并将处理转移到所述事件获取步骤S1。关于在“录音数据重放开始”,“录音数据重放停止”,“录音数据重放暂停”,“录音数据重放再开”的子程序中的处理使用图16后述。
接着,在录音数据重放初始指针设定步骤S113中,将重放指针设定在录音数据的最前面,之后,将处理转移到录音数据重放开始步骤S114。在录音数据重放开始步骤S114中,在开始录音数据的重放后将处理转移到图2的事件获取步骤S1。
[“按下停止按钮”处理:图4]
接着,使用图4说明关于“按下停止按钮”处理。
在设定读取指针判定(停止)步骤S201中,判定“读取指针”是否被设定,若“读取指针”被设定,那么将处理转移到语音合成暂停标志取消(停止)步骤S203,若没有设定“读取指针”,就将处理转移到设定重放指针判定(停止)步骤S202。
接着,在设定重放指针判定(停止)步骤S202中,判定“重放指针”是否被设定,若“重放指针”被设定,那么将处理转移到重放暂停标志取消(停止)步骤S206,若“重放指针”没有被设定,就将处理转移到事件获取步骤S1。
在语音合成暂停标志取消(停止)步骤S203中,取消语音合成暂停标志。接着,在读取指针取消(停止)步骤S204中取消读取指针(变成非设定)。接着,在语音合成停止步骤S205中停止语音合成后,将处理转移到图2的事件获取步骤S1。
接着,在重放暂停标志取消(停止)步骤S206中,取消重放暂停标志。然后,在重放指针取消(停止)步骤S207取消重放指针(变成非设定)。接着,在录音数据重放停止步骤S208停止录音数据的重放后,将处理转移到图2的事件获取步骤S1。
[“按下暂停按钮”处理:图5]
接着,使用图5说明关于“按下暂停按钮”处理。
首先,在设定读取按钮判定(暂停)步骤S301中,判定“读取按钮”是否被设定,若“读取按钮”被设定,那么将处理转移到设定语音合成暂停标志判定步骤S302,若“读取按钮”没有被设定,就将处理转移到设定重放按钮判定(暂停)步骤S305。
接着,在设定语音合成暂停标志判定步骤S302中,判定语音合成暂停标志是否被设定,即语音合成是否处于暂停状态,若语音合成暂停标志被设定,那么将处理转移到图3的设定读取指针判定(重放)步骤S101,若语音合成暂停标志没有被设定,就将处理转移到设定语音合成暂停标志步骤S303。
接着,在设定语音合成暂停标志步骤S303中,设定语音合成暂停标志(将值变成“真”)。接着,在语音合成暂停步骤S304暂停语音合成后将处理转移到图2的事件获取步骤S1。
接着,在设定重放按钮判定(暂停)步骤S305中,判定“重放按钮”是否被设定,若“重放按钮”被设定,那么将处理转移到设定重放暂停标志判定步骤S306,若“重放按钮”没有被设定,就将处理转移到图2的事件获取步骤S1。
接着,在设定重放暂停标志判定步骤S306中,判定“重放暂停标志”是否被设定,即,录音数据的重放是否处于暂停状态,若“重放暂停标志”被设定,那么将处理转移到图3的设定读取指针判定(重放)步骤S101,若“重放暂停标志”没有被设定,就将处理转移到设定重放暂停标志步骤S307。
接着,在设定重放暂停标志步骤S307中,设定重放暂停标志(将值变成“真”)。接着,在录音数据重放暂停步骤S308暂停录音数据的重放后将处理转移到图2的事件获取步骤S1。
[“按下快速进带”处理:图6]
接着,使用图6说明关于“按下快速进带”处理。
在设定读取指针判定(快速进带)步骤S401中,判定“读取指针”是否被设定,若“读取指针”被设定,那么将处理转移到设定快速进带读取定时器模式步骤S402,若“读取指针”没有被设定,就将处理转移到设定重放指针判定(快速进带)步骤S405。
接着,在设定快速进带读取定时器模式步骤S402中,将定时器模式设定为“快速进带读取”后将处理转移到设定快速进带屏蔽步骤S403。定时器模式就是表示定时器的用途的模式。
接着,在设定快速进带屏蔽步骤S403中,将事件屏蔽设定为用于快速进带处理,以后,将在所述事件获取步骤S1中获取的事件只限定于“取消快速进带按钮”、“要求语音合成数据”、“要求录音重放数据”、“定时器事件”。
接着,在定时器开始(快速进带)步骤S404中做到使定时器开始工作,在规定的时间后产生定时器事件。然后,将处理转移到图2的事件获取步骤S1。
在设定重放指针判定(快速进带)步骤S405中,判定重放指针是否被设定,若重放指针被设定,那么将处理转移到设定快速进带重放定时器模式设定步骤S406,若重放指针没有被设定,就将处理转移到图2的事件获取步骤S1。
在快速进带重放定时器模式设定步骤S406中,将定时器模式设定为“快速进带重放”后将处理转移到快速进带事件屏蔽设定步骤S403。
[“取消快速进带按钮”处理:图7]
接着,使用图7说明关于“取消快速进带按钮”处理。
首先,在事件屏蔽取消(快速进带)S501中,做到取消事件屏蔽后,在以后的事件获取步骤S1中获取全部事件。
接着,在定时器模式初始化/定时器停止(快速进带)步骤S502中将定时器模式初始化后使定时器停止。
接着,在设定读取指针判定(取消快速进带)步骤S503中,判定“读取指针”是否被设定,若“读取指针”被设定,那么将处理转移到读取模式判定(快速进带)步骤S504,若“读取指针”没有被设定,就将处理转移到设定重放指针判定(取消快速进带)步骤S511。
在读取模式判定(快速进带)步骤S504中,判定读取模式是否是“快速进带”,若是“快速进带”,那么将处理转移到读取模式初始化(快速进带)步骤S505,若不是“快速进带”,就将处理转移到语音合成停止(快速进带)步骤S508。
接着,在读取模式初始化(快速进带)步骤S505中,使读取模式返回到初始状态。接着,在读取指针恢复(快速进带)步骤S506中,将被设定在图14的步骤S1207所生成的摘要语句中的读取指针设定在源文件中的对应的位置。
接着,在摘要语句废除步骤S507中废除摘要语句后将处理转移到图2的事件获取步骤S1。
接着,在语音合成停止(快速进带)步骤S508中停止语音合成。接着,在向读取指针前跳跃步骤S509中,将读取指针转移到当前正在读取的语句的下一个语句的前面。接着,在语音合成开始(快速进带)步骤S510中开始语音合成后将处理转移到事件获取步骤S1。
另一方面,在设定重放指针判定(取消快速进带)步骤S511中,判定“重放指针”是否被设定,若“重放指针”被设定,那么将处理转移到录音重放模式判定(快速进带)步骤S512,若“重放指针”没有被设定,就将处理转移到图2的事件获取步骤S1。
在录音重放模式判定(快速进带)步骤S512中,判定录音重放模式是否是“快速进带”,若是“快速进带”,那么将处理转移到录音重放模式初始化(快速进带)步骤S513,若不是“快速进带”,就将处理转移到录音数据重放停止(快速进带)步骤S514。
接着,在录音重放模式初始化(快速进带)步骤S513中,将录音重放模式返回到初始状态后使处理转移到图2的事件获取步骤S1。接着,在录音数据重放停止(快速进带)步骤S514中停止录音数据的重放。接着,在重放指针向前跳跃步骤S515中使重放指针前进1个索引。例如,若录音数据是音乐数据,那么将重放指针移到下一个曲子的前面。
接着,在录音数据重放开始(快速进带)步骤S516中开始录音数据的重放后将处理转移到图2的事件获取步骤S1。
[“按下倒带按钮”处理:图8]
下面,使用图8说明关于“按下倒带按”处理。
首先,在设定读取指针判定(倒带)步骤S601中,判定是否有“读取指针设定”,若有“读取指针设定”,那么将处理转移到倒带读取定时器模式设定步骤S602,若没有“读取指针设定”,就将处理转移到设定重放指针判定(倒带)步骤S605。
接着,在倒带读取定时器模式设定步骤S602中,将定时器模式设定为“倒带读取”后将处理转移到倒带事件屏蔽设定步骤S603。
接着,在倒带事件屏蔽设定步骤S603中,将事件屏蔽设定为用于倒带处理后,将在图2的事件获取步骤S1中所获取的事件只限定于“倒带按钮取消”,“语音合成要求”,“录音重放数据要求”,“定时器事件”。
接着,在定时器开始(倒带)步骤S604中做到使定时器开始工作,在规定的时间后产生定时器事件,之后,将处理转移到图2的事件获取步骤S1。
接着,在设定重放指针判定(倒带)步骤S605中,判定“重放指针”是否被设定,若“重放指针”被设定,那么将处理转移到倒带重放定时器模式设定步骤S606,若“重放指针”没有被设定,就将处理转移到图2的事件获取步骤S1。
接着,在倒带重放定时器模式设定步骤S606中,将定时器模式设定为“倒带重放”后将处理转移到倒带事件屏蔽设定步骤S603。
[“取消倒带按钮”处理:图9]
下面,使用图9说明关于“取消倒带按钮”处理。
首先,在事件屏蔽取消(倒带)步骤S701中,做到取消事件屏蔽,在以后的事件获取步骤S1中获取全部事件。
接着,在定时器模式初始化/定时器停止(倒带)步骤S702中将定时器模式初始化后使定时器停止。
接着,在设定读取指针判定(取消倒带)步骤S703中,判定“读取指针”是否被设定,若“读取指针”被设定,那么将处理转移到读取模式判定(倒带)步骤S704,若“读取指针”没有被设定,就将处理转移到设定重放指针判定(取消倒带)步骤S711。
接着,在读取模式判定(倒带)步骤S704中,判定读取模式是否是“倒带”,若是“倒带”,那么将处理转移到读取模式初始化(倒带)步骤S705,若不是“倒带”,就将处理转移到语音合成停止(倒带)步骤S708。
接着,在读取模式初始化(倒带)步骤S705中,使读取模式返回到初始状态。接着,在读取指针恢复(倒带)步骤S706中,将设定在图14的步骤S1204所生成的最前面单词表中的读取指针设定在源文件中的对应位置。(使用步骤S1205所生成的信息。)
接着,在最前面单词表废除步骤S707中废除前面单词表后将处理转移到图2的事件获取步骤S1。
接着,在语音合成停止(倒带)步骤S708中,停止语音合成。接着,在向读取指针后面跳跃步骤709中将读取指针移到当前正在读取的语句前面的语句的前面。
接着,在语音合成开始(倒带)步骤S710中,开始语音合成后将处理转移到图2的事件获取步骤S1。
接着,在设定重放指针判定(取消倒带)步骤S711中,判定“重放指针”是否被设定,若“重放指针”被设定,那么将处理转移到录音重放模式判定(倒带)步骤S712,若“重放指针”没有被设定,就将处理转移到事件获取步骤S1。
接着,在录音重放模式判定(倒带)步骤S712中,判定录音重放模式是否是“倒带”,若是“倒带”,那么将处理转移到录音重放模式初始化(倒带)步骤S713,若不是“倒带”,就将处理转移到录音重放停止(倒带)步骤S714。
接着,在录音重放模式初始化(倒带)步骤S713中,使录音重放模式返回到初始状态后将处理转移到事件获取步骤S1。
接着,在录音数据重放停止(倒带)步骤S714中停止数据的重放。接着,在向重放指针后面跳跃步骤S715中,使重放指针返回1个索引。例如,若录音数据是音乐数据,并且是重放指针和索引没有重合的状态,那么将重放指针移到当前曲子的前面。
接着,在录音数据重放开始(倒带)步骤S716中开始录音数据的重放后将处理移到图2的事件获取步骤S1。
[“到达新规则信息”处理:图10]
下面,使用图10说明关于“新规则信息的达到”处理。
首先,在存在优先读取语句判定(新到)步骤S801中,判定优先读取语句是否存在,若优先读取语句存在,那么将处理转移到新到读取语句追加步骤S807,若优先读取语句不存在,就将处理转移到新到通知信息拷贝步骤S802。
接着,在新到通知信息拷贝步骤S802中,将新到通知信息拷贝在优先读取语句的前面。图17表示新到通知信息的例子。
接着,在新到读取语句拷贝步骤S803中,将新到达的读取语句拷贝在优先读取语句中的新到通知信息的后面。
接着,在设定读取指针判定(新到)步骤S804中判定读取指针是否被设定,若读取指针被设定,那么将处理转移到读取指针备份生成(新到)步骤S805,若读取指针没有被设定,就将处理转移到步骤S101。
接着,在读取指针备份生成(新到)步骤S805中,将当前的读取指针值作为对优先读取语句的附带信息保存。
接着,在新到读取语句读取指针设定步骤S806中,将读取指针设定在优先读取语句的前面,并将处理转移到事件获取步骤S1。
接着,在新到读取语句追加步骤S807中,将新到读取语句拷贝在优先读取语句的末尾,之后,将处理转移到图2的事件获取步骤S1。
[“存储信息的读取指令”处理:图11]
下面,使用图11说明关于“存储信息的读取指令”处理。
在设定读取指针判定(存储信息读取)步骤S901中,判定是否有“读取指针设定”,若有“读取指针设定”,那么将处理转移到读取中警告显示步骤S905,若没有“读取指针设定”,就将处理转移到存储读取语句拷贝步骤S902。
接着,在存储读取语句拷贝步骤S902中,从存储在外部的存储部分H5的存储信息将在存储信息读取指令判定步骤S10中所指令的信息拷贝到存储读取语句中。
接着,在存在优先读取语句判定(存储信息读取)步骤S903中判定是否有“优先读取语句存在”,若有“优先读取语句存在”,那么将处理转移到读取指针备份设定步骤S904,若没有“优先读取语句存在”,就将处理转移到事件获取步骤S1。
接着,在读取指针备份设定步骤S904中,将存储读取语句的前面作为对优先读取语句的附带信息设定后将处理转移到图2的事件获取步骤S1。
接着,在读取中警告显示步骤S905中,输出在当前读取中的某种意旨的警告后将处理转移到图2的事件获取步骤S1。
[“语音合成要求的指令”处理:图12]
接着,使用图12说明关于“语音合成要求的指令”。
首先,在存在语音合成数据判定步骤S1001中,判定是否已经存在从文本变换成语音波形的“波形数据”,若存在“波形数据”,那么将处理转移到合成语音数据拷贝步骤S1007,若不存在“波形数据”,就将处理转移到设定读取指针判定(语音输出)步骤S1002。
在设定读取指针判定(语音输出)步骤S1002中,判定是否有“读取指针设定”,若有“读取指针设定”,那么将处理转移到文件数据结束判定步骤S1003,若没有“读取指针设定”,就将处理转移到图2的事件获取步骤S1。
接着,在文件数据结束判定步骤S1003中,判定“读取指针”是否到达“文件数据的终点”,若“读取指针”到达“文件数据的终点”,那么将处理转移到存在读取指针备份判定步骤S1008,若“读取指针”没有到达“文件数据的终点”,就将处理转移到文件数据截出步骤S1004。
在文件数据截出步骤S1004中,从文件数据截出规定量(例如1个语句)的数据。接着,在合成语音数据生成步骤S1005,对所述被截出的数据进行语音合成的处理,得到合成语音数据。
接着,在读取指针移动步骤S1006中,只移动在文件数据截出步骤S1004中被截出部分的读取指针后将处理转移到合成语音数据拷贝步骤S1007。
在合成语音数据拷贝步骤S1007中,将合成语音数据将规定量(合成语音输出设备的缓冲器尺寸)的数据输出到合成语音输出设备后将处理转移到事件获取步骤S1。
在存在读取指针备份判定步骤S1008中,作为文件数据的附带信息判定是否有“读取指针的备份存在”,若有“读取指针的备份存在”,那么将处理转移到读取指针备份恢复步骤S1009,若没有“读取指针的备份存在”,就将处理转移到读取指针取消步骤S1010。
接着,在读取指针备份恢复步骤S1009中,将附带在文件数据中的读取指针的备份设定在读取指针中,并将处理转移到所述文件数据结束判定步骤S1003。
接着,在读取指针取消步骤S1010中取消读取指针(变成非设定)。然后,将处理转移到事件获取步骤S1。
接着,在设定重放指针判定(录音重放)步骤S1101中,判定是否有“重放指针设定”,若有“重放指针设定”,那么将处理转移到录音重放模式判定(倒带2)步骤S1102,若没有“重放指针设定”,就将处理转移到事件获取步骤S1。
[“录音重放要求的指令”处理:图13]
下面,使用图13说明关于“录音重放要求的指令”处理。
首先,在录音重放模式判定(倒带2)步骤S1102中,判定录音重放模式是否是“倒带”,若是“倒带”,那么将处理转移到重放指针最前面判定步骤S1109,若不是“倒带”,就将处理转移到重放指针终点判定步骤S1103。
接着,在重放指针终点判定步骤S1103中,判定“重放指针”是否是“录音数据的终点(最后)”,若“重放指针”是“录音数据的终点”,那么将处理转移到重放指针取消步骤S1104,若“重放指针”不是“录音数据的终点”,就将处理转移到录音数据拷贝步骤S1105。
接着,在重放指针取消步骤S1104中,取消重放指针后将处理转移到事件获取步骤S1。
接着,在录音数据拷贝步骤S1105中,从录音数据中将规定量(录音数据输出设备的缓冲器尺寸)的数据输出到录音数据输出设备,并将处理转移到录音重放模式判定(快速进带)步骤S1106。
接着,在录音重放模式判定(快速进带2)步骤S1106中,判定“录音重放模式”是否是“快速进带”,若“录音重放模式”是“快速进带”,那么将处理转移到重放指针快速进带移动步骤S1107,若“录音重放模式”不是“快速进带”,就将处理转移到重放指针移动步骤S1108。
接着,在重放指针快速进带移动步骤S1107中,使重放指针比在录音数据拷贝步骤S1105中所输出的(指针)前进得更多(例如是所述规定量的10倍),之后,将处理转移到图2的事件获取步骤S1。
接着,在重放指针移动步骤S1108中,使重放指针只前进在录音数据拷贝步骤S1105中所输出的部分,并将处理转移到事件获取步骤S1。
接着,在重放指针最前面判定步骤S1109中,判定“重放指针”是否是指“录音数据的最前面”,若“重放指针”是“录音数据的最前面”,那么将处理转移到事件获取S1,若“重放指针”不是“录音数据的最前面”,就将处理转移到录音数据逆顺序地拷贝步骤S1110。
在录音数据逆顺序拷贝步骤S1110中,与所述录音数据拷贝步骤S1105一样将规定量(录音数据输出设备的缓冲器尺寸)的数据输出到录音数据输出设备,但使数据的顺序反向后输出。
接着,在重放指针倒带移动步骤S1111中,按重放时的逆方向移动重放指针后将处理转移到图2的事件获取步骤S1。
[“定时器事件”处理图14]
下面,使用图14说明关于“定时器事件”处理。
首先,在定时器停止步骤S1201中使定时器停止。
接着,在定时器模式判定(快速进带读取)步骤S1202中判定定时器模式是否是“快速进带读取”,若是“快速进带读取”,那么将处理转移到摘要语句生成步骤S1207,若不是“快速进带读取”,就将处理转移到定时器模式判定(倒带读取)步骤S1203。
接着,在定时器模式判定(倒带读取)步骤S1203中,判定定时器是否是“倒带读取”,若是“倒带读取”,那么将处理转移到最前面单词表生成步骤S1204,若不是“倒带读取”,就将处理转移到定时器模式判定(快速进带重放)步骤S1210。
在最前面单词表生成步骤S1204中,生成从读取指针表示的文件的最前面到读取指针存在的各语句的前面的单词表。图18A、B表示一个例子。图18A是源文件,图18B是被生成的单词表的图象。此外,为了使读取指针的位置到达被读取的文件的末尾,设定了读取指针的位置,若文件被读取,那么与该读取同步后移动读取指针的位置。
接着,在倒带读取指针备份生成步骤S1205中,在从倒带模式恢复时生成移动读取指针的对应点。在图18A、B中,连接最前面单词表和源文件的箭头的关系是对应点。
接着,在倒带读取模式设定步骤S1206中,在将读取模式设定为倒带之后,将处理转移到图2的事件获取步骤S1。
接着,在摘要语句生成步骤S1207中,生成从读取指针表示的地方到文件末尾的摘要语句。图19A、B表示1个例子。图19A是源文件,图19B是被生成的摘要语句的图象。此外,为了使读取指针的位置到达被读取的文件的末尾(即,未读部分的最前面),设定了读取指针的位置,若文件被读取,那么与该读取同步后移动读取指针的位置。
接着,在快速进带读取指针备份生成步骤S1208中,在从快速进带模式恢复时,生成移动读取指针的对应点。在图19A、B中,连接摘要语句和源文件的箭头的关系是对应点。但是,在图19A、B中,为避免麻烦,没有图示全部。
接着,在快速读取模式设定步骤S1209中,在将读取模式设定为快速进带后将处理转移到图2的事件获取步骤S1。
接着,在定时器模式判定(快速进带重放)步骤S1210中,判定定时器模式是否是“快速进带重放”。若是“快速进带重放”,那么将处理转移到快速进带录音重放模式设定步骤S1211,若不是“快速进带重放”,就将处理转移到倒带录音重放模式设定步骤S1212。
接着,在快速进带录音重放模式设定步骤S1211中,将录音重放模式设定为快速进带后将处理转移到事件获取步骤S1。
接着,在倒带录音重放模式设定步骤S1212中,在将录音重放模式设定为倒带后将处理转移到图2的事件获取步骤S1。
[“语音合成”的各处理:图15A~图15D]
下面,使用图15A~图15D说明关于“语音合成”的每个处理。
图15A~图15D表示在“语音合成开始”、“语音合成停止”、“语音合成暂停”、“语音合成再开”的各子程序中的处理。
首先,在合成语音输出设备设定步骤S1301中,进行抽样率设定等合成语音输出设备的初始设定。
接着,在合成语音输出设备起动步骤S1302中,起动合成语音输出设备后开始合成语音输出的工作。
接着,在合成语音数据清除步骤S1303中,清除在合成语音数据生成步骤S1005中生成、保持的合成语音数据。
接着,在合成语音输出设备停止步骤S1304中,停止合成语音输出设备的工作。
接着,在合成语音输出设备暂停步骤S1305中,暂停合成语音输出设备的工作。
接着,在合成语音输出设备再开步骤S1306中,再开在合成语音输出设备暂停步骤S1305中暂停的合成语音输出设备的工作。
[“录音数据重放”的每个处理:图16A~图16D]
下面,使用图16A~图16D说明关于“录音数据重放”的每个处理。图16A~图16D表示在“录音数据重放开始”、“录音数据重放停止”、“录音数据重放暂停”、“录音数据重放再开”的各子程序中的处理。
首先,在录音数据输出设备设定步骤S1401中,进行抽样率设定等录音数据输出设备的初始设定。
接着,在录音数据输出设备起动步骤S1402中,起动录音数据输出设备后开始录音数据输出的工作。
接着,在录音数据输出设备停止步骤S1403中,停止录音数据输出设备的工作。
接着,在录音数据输出设备暂停步骤S1404中暂停录音数据输出设备。
接着,在录音数据输出设备再开步骤S1405中,再开在录音数据输出设备暂停步骤S1404中暂停的录音数据输出设备的工作。
此外,上述说明的第1实施形态是一个例子,例如,在最前面单词表生成步骤S1204中,最前面单词表变成只由最前面1个单词组成的表,但它不一定必需是最前面1个单词,例如也可以是由用户设定的多个单词。
另外,在摘要语句生成步骤S1207中所表示的摘要语句的例子是各语句的主要部分被抽出的一个例子,但不一定必需对每个语句进行摘要,例如,信息少的语句也可以全部省略。
另外,除摘要语句生成步骤S1207外,在快速进带的场合,也可以做到如图28A、B所示那样生成最前面单词表,并从已生成的最前面单词表的最前面的“以下”到“H4是”按顺序从最前面读出。
另外,当在倒带时使用摘要的场合,也可以使用在图29A、B中表示一个例子的摘要。
另外,也可以做到,在上述文本数据中,对于通过语音合成没有被读取的部分进行表示省略的意旨的蜂鸣声等音响输出。
而且,最前面单词表生成步骤S1204和摘要语句生成步骤S1207在获取倒带/快速进带按钮的释放事件后一起被实行,但也可以在新到读取语句拷贝步骤S803、新到读取语句追加步骤S807和存储读取语句拷贝步骤S902的各步骤后实行。因此,倒带/快速进带按钮释放后的响应时间变短。
<第2实施形态>
[硬件构成:图21、图27]
图21是表示第2实施形态中的可携带的信息终端H1200的硬件构成的图。另外,图27是表示信息终端H1200的外观的图。
H11是进行数值运算、控制等处理的中央处理部分,按照记载本发明的处理步骤的控制程序进行运算。H12是对用户提示信息的输出部分。输出部分H12包含扬声器、耳机等语音输出部分H1201和液晶等图象显示部分H12102。
H13是用户对信息终端H1200给予工作的指令,或输入信息的输入部分。H14是LAN卡和PHS卡等数据通信部分,并用于新到邮件等数据的获取。H15是硬盘和非易失性存储器等存储部分,并保持被录音的数据和存储信息。
H16是读取专用的存储部分,存储表示本发明的步骤的控制程序和语音合成用的词典等固定的数据。H17是保持RAM等的暂时信息的存储部分,并保持暂时的数据和各种标志等。
H18是输出相应角度的值的角度检测部分,并检测转盘部分H19的操作量。H19是用户能操作的转盘部分,并与角度检测部分H18连接。上述中央处理部分H1~角度检测部分H18通过总线被连接。
应当强调指出的是,虽然图21和27中示出的信息终端使用转盘部作为输入设备,但本发明并不限于转盘部。本发明同样可适用于滑动调节设备之类的其他输入设备。所以,以下的描述仅用于例示说明的目的,而不是对本发明加以限制。
[事件处理概要:图22]
使用图22~图24所示的流程图说明关于以上说明的第2实施形态的信息终端H1200中的事件处理。此外,下述的处理是根据由中央处理部分H11存储在读取专用的存储部分H16等中的事件驱动型的控制程序,使用保持RAM等的暂时信息的存储部分H17而被实行。另外,来自输入部分H13的输入处理、来自输出部分H12的数据要求和定时器中断等中断被处理为上述控制程序中的各事件的开始。
首先,在图22的变量初始设定步骤S1501中,将各变量设定为初始值。
接着,在语音合成设备开始/暂停步骤S1502中,使语音合成设备变成暂停状态。
接着,在事件获取步骤S1503中,获取新的事件。
接着,在变转盘角度变更判定步骤S1504中,判定在事件获取步骤S1503中所获取的事件是否是“转盘的角度变更”产生的事件,若是“转盘的角度变更”,那么将处理转移到步骤S1601,若不是“转盘的角度变更”,就将处理转移到要求语音合成数据判定步骤S1505。
接着,在要求语音合成判定步骤S1505中,判定在事件获取步骤S1503中所获取的事件是否是“来自合成语音输出设备的数据要求”,若是“来自合成语音输出设备的数据要求”,那么将处理转移到步骤S1701,若不是“来自合成语音输出设备的数据要求”,就将处理转移到事件获取步骤S1503。
[“转盘角度变更”处理:图23]
接着,下面详细地说明关于上述说明的各事件的处理。
首先,使用图23说明关于“转盘角度变更”处理。
在新的转盘角度判定步骤S1601中,判定新的转盘角度是否是“0”,若是“0”,那么将处理转移到合成语音输出设备暂停步骤S1605,若新的转盘角度不是“0”,就将处理转移到角度变量判定步骤S1602。
在转盘角度变量判定步骤S1602中,判定保持在转盘角度变量中的以前的转盘角度是否是“0”,若保持在转盘角度变量中的以前的转盘角度为“0”,那么将处理转移到合成语音输出设备再开步骤S1606,若保持在转盘角度变量中的以前的转盘角度不为“0”,就将处理转移到转盘角度变量更新步骤S1603。
在转盘角度变量更新步骤S1603中,将新的转盘角度代入转盘角度变量中。
接着,在读取跳跃数设定步骤S1604中,按照转盘角度变量的值设定读取跳跃数。读取跳跃数这样设定,以便使转盘角度的绝对值越大,跳跃数的绝对值变得越大,而且使转盘角度的符号和跳跃数的符号变成相同。图25表示转盘角度(规定单位角度为θ)和跳跃数的对应表的例子。跳跃数设定后,将处理转移到事件获取步骤S1503。
接着,在合成语音输出设备暂停步骤S1605中使语音合成输出设备暂停,并将处理转移到事件获取步骤S1503。
接着,在合成语音输出设备再开步骤S1606中,再开在合成语音输出设备暂停步骤S1605中暂停的合成语音输出设备,并将处理转移到转盘角度变量更新步骤S1603。
[“语音合成指令”处理:图24]
下面,使用图24说明关于“语音合成指令”处理。
首先,在合成语音数据结束的判定步骤S1701中,判定是否“单词计数器与单词数相等”,若是“单词计数器与单词数相等”,那么将处理转移到文件数据截出步骤S1709,若不是“单词计数器与单词数相等”,就将处理转移到转盘角度绝对值判定步骤S1702。单词数是包含在已成为刚刚被实行的合成语音数据生成步骤S1701的对象的语句中的单词个数,单词计数器与单词数相等的状态表示将在S1710中所得到的合成语音数据全部输出后结束的状态。
接着,在转盘角度绝对值判定步骤S1702中,判定保持在转盘角度变量中的转盘角度的绝对值是否比“1”大,若转盘角度的绝对值比“1”大,那么将处理转移到读取对象语句更新步骤S1717,若转盘角度的绝对值不比“1”大,就将处理转移到读取指针判定步骤S1703。
接着,在读取指针判定步骤S1703中,判定是否“读取指针与读取对象相等”,若“读取指针与读取对象相等”,那么将处理转移到单词计数器判定步骤S1704,若不是“读取指针与读取对象相等”,就将处理转移到语音合成设备停止步骤S1705。
接着,在单词计数器判定步骤S1704中,判定单词计数器是否为“0”,若单词计数器为“0”,那么将处理转移到读取对象语句更新步骤S1717,若不为“0”,就将处理转移到语音合成设备停止步骤S1705。
接着,在语音合成设备停止步骤S1705中,停止语音合成设备,接着,在蜂鸣声输出步骤S1706中输出蜂鸣声,接着,在语音合成设备开始(2)步骤S1707中使语音合成设备开始工作。
接着,在单词计数器更新步骤S1708中在单词计数器中加“1”后将处理转移到事件获取步骤S1503。
接着,在文件数据截出步骤S1709中,从读取对象文件中,使读取指针在最前面截出1个语句。
接着,在合成语音数据生成步骤S1710中,对在文件数据截出的步骤S1709中截出的语句进行语音合成,并得到合成语音数据。
接着,在单词数计算步骤S1711中计算包含在文件数据截出步骤S1709中截出的语句中的语句数。
接着,在同步点生成步骤S1712中,求出在合成语音数据生成步骤S1710中所生成的合成语音和被包含在文件数据截出步骤S1709中截出的语句中的各单词的对应关系作为同步点保持。图26表示同步点的例子。
接着,在单词计数器初始化步骤S1713中,使单词计数器变成“0”。
接着,在转盘角度正负判定步骤S1714中,判定保持在转盘角度变量中的转盘角度是否为“正”,若为“正”,那么将处理转移到读取指针增量步骤S1715,若不为“正”,就将处理转移到读取计数器减量步骤S1716。
接着,在读取指针增量步骤S1715中,将读取指针加“1”后将处理转移到转盘角度绝对值判定步骤S1702。
接着,在读取对象更新步骤S1717中,将读取对象语句设定为读取指针和在读取跳跃数设定步骤S1604中设定的跳跃数之和。
接着,在合成语音数据拷贝步骤S1718中,将在合成语音数据生成步骤S1005中生成的合成语音拷贝到1个单词语音合成设备的缓冲器中。拷贝的范围是从对应于当前的单词计数器的同步点起1个单词。数据拷贝后,使处理前进到单词计数器更新步骤S1708。
此外,上述说明的第2实施形态是一个例子,例如,在读取跳跃数设定步骤S1604中,将读取跳跃数设定为相应于转盘角度变量值的固定的语句数,但在转盘角度大时,也有可能要跳跃到下一段落。它能通过计算从读取指针到下一段落最前面的语句的语句数实现。另外,在转盘角度小时,也可能跳过一至多个单词。
而且,在第2实施形态中,快速进带、倒带中的蜂鸣声的次数与跳过的单词个数相同,但不一定必需相同。另外,在第2实施形态中,使用单一的蜂鸣声表示快速进带、倒带,但也可以使用相应于快速进带、倒带的类别或转盘角度的不同的蜂鸣声或不同的信号发声。
另外,对于第2实施形态,也可能适用在第1实施形态中使用的摘要的快速进带。在这种场合,能够与在读取跳跃数设定步骤S1604中所设定的跳跃数对应后变更摘要的压缩率。
<第3实施形态>
如上述那样,在现有的读取装置或软件中,由于在再开读取的场合的读取开始位置的倒带量是固定的,因此存在着实际上它有助于理解文章内容的情况少的问题。
若从在读取再开时使用户想起与上次阅读结束的文章的联系的观点考虑,那么重要的问题是在读取再开时使读取开始位置返回到什么位置合适。因为若从上次阅读结束时到再开读取的时间是非常短的时间(例如几分钟),用户记住很多上次读取内容,因此使读取再开位置返回的量是少许就可以。然而,从上次阅读结束时到再开读取的时间变得越长,用户忘记上次读取内容的量就越多,在读取再开时想起上次阅读结束的内容变得很困难。在这种场合,使读取再开位置返回量多,将会对用户有帮助。就是说,为使用户想起上次读取内容,最佳读取再开位置的返回量应根据与用户有关的情况进行调整。
因此,本文件发明者提议根据从读取停止到再开的时间长短调整在停止读取后在再开读取时的读取再开位置的返回量。
下面,参照附图,详细说明关于本发明的第3实施形态。
本实施形态中的读取装置能用通用的个人计算机实现。图30是表示实现本实施形态中的读取装置的个人计算机的硬件构成的方框图。在本实施形态中,说明关于将使用CPU的通用的个人计算机作为读取装置使用的场合,但本发明也可以通过不使用CPU的专用的硬件逻辑构成。
在图30中,101是存储引导程序和各种控制参数等的控制存储器(ROM),102是管理整个读取装置的控制的中央处理装置(CPU),103是作为起主存储装置作用的存储器(RAM)。
另外,104是外部存储装置(例如硬盘),如图示那样,在该装置中除OS外,还安装了涉及本发明的、用于使用语音合成进行文本读取的读取程序、以及读取用的文本。也有时候读取用的文本是利用未图示的其它应用程序生成的文本,也有时候例如是经由因特网等从外部装入的文本。
105是D/A变换器,与扬声器105a连接。106是使用作为用户接口的键盘106a输入信息的输入部分,107是通过作为用户接口的显示器107a显示信息的显示部分。
图31是表示在实施形态中的读取程序的模块构成的图。
停止时间计算部分201计算从上次的读取停止时刻到当前的经过时间。停止时刻保持部分202将读取停止的时刻保持在RAM103中。停止时间保持部分203将从上次的读取停止时刻到读取被再开的停止时间保持在RAM103中。再开位置搜索部分204求出开始读取的文本中的位置。书签位置保持部分205将读取停止时的文本的位置信息作为书签位置保持在RAM103中。读取位置保持部分206将开始读取的位置信息保持在RAM103中。语句截出部分207从文本截出一语句。文章保持部分208将存储在外部存储装置104中的读取用的文本装入RAM103中并保持。一语句保持部分209将在语句截出部分207中截出的语句保持在RAM103中。语音合成部分210将由一语句保持部分209保持的语句变换成语音。控制部分211,例如根据键盘106a的输入监视来自用户的读取开始/停止命令。
图32是表示本实施形态中的读取装置的读取处理的流程图。与该流程图对应的程序是包含在被安装在外部存储装置104中的读取程序中的程序,并被装入RAM103,通过CPU102实行。
在步骤S3201中,根据控制部分211的来自用户的读取开始/停止命令的监视结果,判断是否检测了读取开始命令。当在此处检测了读取开始命令的场合,将处理转移到步骤S3202。在除此以外的场合返回到步骤S3201。
在步骤S3202,在停止时间计算部分201中,根据由停止时刻保持部分202所保持的上次的读取时刻和当前时刻计算停止时间。被计算的停止时间由停止时间保持部分203保持在RAM103中。
在下一个步骤S3203中,将由停止时间保持部分203所保持的停止时间(即,在步骤S3202中计算的停止时间)、将由书签位置保持部分205所保持的文章中的书签位置、以及由文章保持部分208所保持的文章作为输入,决定再开读取的位置。就是说,决定从书签位置起将只返回与停止时间相应的长度的位置作为读取再开位置。此处,使用语句作为该返回量的单位,并将只返回与停止时间的长度成比例的语句数的位置决定作为读取再开位置。
例如,可以这样设定,使停止时间不满1小时时的返回量为1语句,在1小时以上2小时以下时为2语句,在2小时以上3小时以下时为3语句,...。另外,在这种场合,也可以这样设定上限,例如使停止时间在50小时以上的场合的返回量一律设定为50语句。
另外,作为用于计算语句数的简便方法有计算从书签位置上溯文本的场合的句号“。”的个数的方法。另外,再开位置也可以设定为返回了该语句数的句号的下一个文字。作为一例,图34表示返回的语句数规定为2的场合的再开位置的搜索过程。如图示那样,若将书签位置设定为语句“用生鱿鱼片被爆炒时卷成圆筒形比喻卷铺盖。”的中途的位置,那么将文本从该书签位置上溯到“。”的出现次数为2。但是,最初被检测的“。”没有计入计算内。因此,在该场合中的读取开始位置变成“80年代由方言词进入普通话行列。”的最前面位置。
这样,作为返回量的单位可以使用语句,这始终是一个例子,例如也可以将段落数作为单位使用,代替使用语句。作为计算该场合的段落数,具有按句号、换行代码、以及空白(或TAB代码)的顺序连接的地方可以看作段落。
在以上的步骤S3203中所决定的读取开始位置由读取位置保持部分206被保持在RAM103中。
在下面的步骤S3204中,将由读取位置保持部分206所保持的读取位置作为基点,从由文章保持部分208所保持的读取用的文本中截出一个语句。被截出的语句由一语句保持部分209保持。其后,下一个截出位置有读取位置保持部分206保持。
在步骤S3205中,将由一语句保持部分209所保持的语句由语音合成部分210进行语音合成后实行读取。然后,在步骤S3206中,判断读取的语句是否还有剩余,在有剩余的场合,返回到步骤S3204后反复进行处理,在没有读取语句的场合,结束本处理。
还有,在步骤S3205的语音合成的读取中,在从书签位置读取以前的文章的场合和从书签位置读取后面的文章的场合,也可以做到改变读取速度和读取的语音质量(男声/女声等)。
图33是表示实施形态中的读取装置的读取实行中的读取停止处理的流程图。与该流程图对应的程序是包含在外部存储装置104中所安装的读取程序中,被装入RAM103后CPU102被实行。
在步骤S3301中,通过控制部分211,例如根据键盘106a的输入,在读取实行中,监视来自用户的读取停止命令。在检测出读取停止命令的场合,转移到步骤S3302,在除此以外的场合返回到步骤S3301。
在步骤S3302中,停止语音合成部分210的语音合成处理。在下一个步骤S3303中,通过停止时刻保持部分202,将当前时刻作为停止时刻保持在RAM103中,而且,在步骤S3304中,通过书签位置保持部分205,将在停止了读取的时刻的文本位置保持在RAM103中后结束。
这样,若依据第3实施形态,停止读取后在再开读取时的读取再开位置的返回量根据从读取停止到再开的时间长度进行调整。因此,停止读取后在再开读取时的再开位置被调整到适合于使用户想起与上次阅读结束的文章的联系的位置。
[其它的实施形态]
在以上说明的实施形态中,说明了关于读取文章是中文的场合,但并不受此限制,例如也可以是日语、英语和法语等其它语言。在这些场合,将准备日语用的、英语用的法语用的等等与各国语言对应的句号检测设备。
另外,在上述的实施形态中,也可以这样构成,作为读取程序的模块还附加摘要生成部分,并在再开读取的场合关于从书签位置起上溯后读取的部分将读取它的摘要语句。在这种场合,也可以按照停止时间调整摘要语句的长度。
另外,第3实施形态中的读取再开位置的返回量的调整处理也能够适用于上述的第1和第2实施形态中的信息终端的语音合成功能。
另外,上述实施形态中的读取装置用一台个人计算机实现,但不受此限制,也可以做到例如将读取程序分散到通过网络互相连接的多台计算机和处理装置中,协同地实行上述的处理。
或者,本发明也可以既适用于由多台设备(例如宿主计算机、接口设备、读出器、打印机等)组成的系统,又适用于由一台设备组成的装置(例如,复制机、传真装置等)。
此外,还包含本发明通过这样方式也被完成的场合,即,直接或从远距离将实现上述的实施形态的功能供给系统或装置,该系统或装置的计算机读出被供给的该程序并执行。
因此,为在计算机上实现本发明的功能处理,被安装在该计算机中的程序代码本身也应实现本发明。就是说,在本发明的权利要求范围内,也包含为实现本发明的功能处理的计算机程序本身。
在这种场合,如果具有程序的功能,就不管目标代码、有解释程序执行的程序、供给OS的手写数据等程序的形态。
作为用来供给程序的存储媒体,例如,有软盘、光盘(CD-ROM、CD-R、CD-RW、DVD等)磁光盘、磁带、存储卡等。
此外,作为程序的供给方法,也包含通过经由因特网将本发明的程序进行文件传送取得的样式。
另外,也可以通过将本发明程序加密后存储在CD-ROM等存储媒体中再散发给用户,对清除了规定条件的用户,经由因特网获得解密的密钥信息后使用该密钥信息,执行被加密的程序后将它安装在计算机中实现。
另外,计算机除通过执行读出的程序实现上述的实施形态的功能外,根据该程序的指令,在计算机上运行的OS等还能进行实际处理的一部分或全部,并通过该处理实现上述的实施形态的功能。
而且,从存储媒体读出的程序在写入被插入计算机的功能扩充板和连接到计算机的功能扩充单元所具备的存储器之后,根据该程序的指令,在该功能扩充板和功能扩充单元中所具备的CPU等进行实际处理的一部分或全部,并通过该处理也能实现上述的实施形态的功能。
本发明不限于以上的实施例,在本发明的范围和精神内能作各种变更和修改。因此,将本发明的范围公之于众,产生下面的权利要求书。

Claims (13)

1.一种为使用语音合成进行文本读取而在计算机上实行以下步骤的程序,其特征在于,这些步骤包含:控制所述文本读取的开始/停止的控制步骤;测量从读取停止后到读取再开的时间的测量步骤;以及按照所测量的所述时间的长度决定在所述读取再开时所述文本的读取再开位置的决定步骤。
2.如权利要求1记载的程序,其特征在于,所述决定步骤决定从所述读取停止时的所述文本位置起只上溯与所述时间长度相应的语句个数的位置作为所述读取再开位置。
3.如权利要求2记载的程序,其特征在于,所述语句个数基于句号来计算。
4.如权利要求1记载的程序,其特征在于,所述决定步骤决定从所述读取停止时的所述文本的位置起只上溯与所述时间长度相应的段落数的位置作为所述读取再开位置。
5.如权利要求4记载的程序,其特征在于,所述段落数基于句号、换行码和空白连续出现的位置来计算。
6.如权利要求1记载的程序,其特征在于,它还包含以所述读取停止时的所述文本的读取位置为界线变更读取速度或读取语音质量的至少任何一个的步骤。
7.一种读取装置,使用语音合成进行所供给的文本的读取,其特征在于,它具备控制所述文本读取的开始/停止的控制设备,以及测量从读取停止后到读取再开的时间的测量设备,所述控制设备按照被测量的所述时间的长度控制所述读取再开时所述文本的读取再开位置。
8.如权利要求7记载的读取装置,其特征在于,所述控制设备决定从所述读取停止时的所述文本的位置起只上溯与所述时间长度相应的语句数的位置作为所述读取再开位置。
9.如权利要求8记载的读取装置,其特征在于,所述语句的个数基于句号来计算。
10.如权利要求7记载的读取装置,其特征在于,所述控制设备决定从所述读取停止时的所述文本的位置起只上溯与所述时间长度相应的段落数的位置作为所述读取再开位置。
11.如权利要求10记载的读取装置,其特征在于,所述段落数基于句号、换行码和空白连续出现的位置来计算。
12.如权利要求7记载的读取装置,其特征在于,它还具备以所述读取停止时的所述文本的读取位置为界线,变更读取速度或读取语音质量的至少任何一个的设备。
13.一种读取装置的控制方法,所述读取装置使用语音合成进行文本的读取,其特征在于,所述控制方法具有以下步骤:控制所述文本读取的开始/停止的控制步骤;测量从读取停止后到读取再开的时间的测量步骤;以及按照所测量的所述时间的长度决定所述读取再开时所述文本的读取再开位置的步骤。
CN200710003821.0A 2002-02-15 2003-02-14 具有语音合成功能的信息处理装置及方法 Pending CN101025917A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002039033A JP3884970B2 (ja) 2002-02-15 2002-02-15 情報処理装置および情報処理方法
JP039033/2002 2002-02-15
JP2002124368A JP2003316565A (ja) 2002-04-25 2002-04-25 読み上げ装置およびその制御方法ならびにプログラム
JP124368/2002 2002-04-25

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNB031044387A Division CN1303581C (zh) 2002-02-15 2003-02-14 具有语音合成功能的信息处理装置及方法

Publications (1)

Publication Number Publication Date
CN101025917A true CN101025917A (zh) 2007-08-29

Family

ID=27736530

Family Applications (2)

Application Number Title Priority Date Filing Date
CN200710003821.0A Pending CN101025917A (zh) 2002-02-15 2003-02-14 具有语音合成功能的信息处理装置及方法
CNB031044387A Expired - Fee Related CN1303581C (zh) 2002-02-15 2003-02-14 具有语音合成功能的信息处理装置及方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNB031044387A Expired - Fee Related CN1303581C (zh) 2002-02-15 2003-02-14 具有语音合成功能的信息处理装置及方法

Country Status (4)

Country Link
US (1) US20030158735A1 (zh)
EP (1) EP1341155B1 (zh)
CN (2) CN101025917A (zh)
DE (1) DE60314929T2 (zh)

Families Citing this family (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8374879B2 (en) * 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
JP2003295882A (ja) 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
US7299182B2 (en) * 2002-05-09 2007-11-20 Thomson Licensing Text-to-speech (TTS) for hand-held devices
JP4280505B2 (ja) 2003-01-20 2009-06-17 キヤノン株式会社 情報処理装置及び情報処理方法
US8244828B2 (en) * 2003-08-28 2012-08-14 International Business Machines Corporation Digital guide system
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP2006155269A (ja) * 2004-11-30 2006-06-15 Fuji Xerox Co Ltd 音声ガイドシステムおよびその音声ガイド方法
US20080177548A1 (en) * 2005-05-31 2008-07-24 Canon Kabushiki Kaisha Speech Synthesis Method and Apparatus
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CN100487788C (zh) * 2005-10-21 2009-05-13 华为技术有限公司 一种实现文语转换功能的方法
JP4759374B2 (ja) * 2005-11-22 2011-08-31 キヤノン株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
US20070124148A1 (en) * 2005-11-28 2007-05-31 Canon Kabushiki Kaisha Speech processing apparatus and speech processing method
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
JP5816085B2 (ja) 2008-07-04 2015-11-17 ブックトラック ホールディングス リミテッド サウンドトラックを作成してプレイする方法及びシステム
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100042702A1 (en) * 2008-08-13 2010-02-18 Hanses Philip C Bookmarks for Flexible Integrated Access to Published Material
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5587119B2 (ja) * 2010-09-30 2014-09-10 キヤノン株式会社 文字入力装置、その制御方法、及びプログラム
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9159313B2 (en) * 2012-04-03 2015-10-13 Sony Corporation Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis
CN103383844B (zh) * 2012-05-04 2019-01-01 上海果壳电子有限公司 语音合成方法及系统
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9087508B1 (en) * 2012-10-18 2015-07-21 Audible, Inc. Presenting representative content portions during content navigation
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9798509B2 (en) 2014-03-04 2017-10-24 Gracenote Digital Ventures, Llc Use of an anticipated travel duration as a basis to generate a playlist
US9431002B2 (en) * 2014-03-04 2016-08-30 Tribune Digital Ventures, Llc Real time popularity based audible content aquisition
US9454342B2 (en) 2014-03-04 2016-09-27 Tribune Digital Ventures, Llc Generating a playlist based on a data generation attribute
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
WO2016157642A1 (ja) * 2015-03-27 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10261964B2 (en) 2016-01-04 2019-04-16 Gracenote, Inc. Generating and distributing playlists with music and stories having related moods
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10419508B1 (en) 2016-12-21 2019-09-17 Gracenote Digital Ventures, Llc Saving media for in-automobile playout
US10019225B1 (en) 2016-12-21 2018-07-10 Gracenote Digital Ventures, Llc Audio streaming based on in-automobile detection
US10565980B1 (en) 2016-12-21 2020-02-18 Gracenote Digital Ventures, Llc Audio streaming of text-based articles from newsfeeds
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN111149373B (zh) * 2017-09-27 2021-12-07 大北欧听力公司 用于评估语音接触的听力设备及相关方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3836555A1 (de) * 1988-10-27 1990-05-10 Bayerische Motoren Werke Ag Multifunktions-bedieneinrichtung
US5091931A (en) * 1989-10-27 1992-02-25 At&T Bell Laboratories Facsimile-to-speech system
JP3453405B2 (ja) * 1993-07-19 2003-10-06 マツダ株式会社 多重伝送装置
JP3323633B2 (ja) * 1994-02-28 2002-09-09 キヤノン株式会社 留守番電話装置
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
CN2246840Y (zh) * 1995-02-11 1997-02-05 张小宁 一种与录/放音机配合使用的语音复读器
JPH0963253A (ja) * 1995-08-23 1997-03-07 Sony Corp ディスク装置
GB9606739D0 (en) * 1996-03-29 1996-06-05 British Telecomm Telecommunications apparatus and method
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6243372B1 (en) * 1996-11-14 2001-06-05 Omnipoint Corporation Methods and apparatus for synchronization in a wireless network
US6017219A (en) * 1997-06-18 2000-01-25 International Business Machines Corporation System and method for interactive reading and language instruction
US5986200A (en) * 1997-12-15 1999-11-16 Lucent Technologies Inc. Solid state interactive music playback device
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6246672B1 (en) * 1998-04-28 2001-06-12 International Business Machines Corp. Singlecast interactive radio system
CA2300873A1 (en) * 1998-06-12 1999-12-16 Edward L. Elliott Remote video assist recorder box
JP2000148175A (ja) * 1998-09-10 2000-05-26 Ricoh Co Ltd テキスト音声変換装置
DE60020504T2 (de) * 1999-07-08 2006-05-04 Koninklijke Philips Electronics N.V. Anpassung eines spracherkenners an korrigierte texte
JP3759353B2 (ja) * 1999-11-16 2006-03-22 株式会社ディーアンドエムホールディングス ディジタル・オーディオ・ディスク・レコーダ
US6694297B2 (en) * 2000-03-30 2004-02-17 Fujitsu Limited Text information read-out device and music/voice reproduction device incorporating the same
US6933928B1 (en) * 2000-07-18 2005-08-23 Scott E. Lilienthal Electronic book player with audio synchronization

Also Published As

Publication number Publication date
EP1341155B1 (en) 2007-07-18
DE60314929T2 (de) 2008-04-03
EP1341155A3 (en) 2005-06-15
CN1303581C (zh) 2007-03-07
EP1341155A2 (en) 2003-09-03
DE60314929D1 (de) 2007-08-30
US20030158735A1 (en) 2003-08-21
CN1438626A (zh) 2003-08-27

Similar Documents

Publication Publication Date Title
CN101025917A (zh) 具有语音合成功能的信息处理装置及方法
CN1540625B (zh) 多语种文本-语音系统的前端结构
CN101154219A (zh) 用于机器翻译的方法、装置和系统
Roach et al. Marsec: A machine-readable spoken english corpus
KR950015131A (ko) 정보 액세스 시스템 및 기록 매체
JPH10274997A (ja) 文書読み上げ装置
KR20010108308A (ko) 데이터베이스 주석 및 검색
CN101447187A (zh) 语音识别装置及方法
JP2007133033A (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JPH08212228A (ja) 要約文作成装置および要約音声作成装置
CN1813285B (zh) 语音合成设备和方法
JP3270356B2 (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JPH0998140A (ja) 自動放送装置
JPH10274999A (ja) 文書読み上げ装置
Evain et al. Towards automatic captioning of university lectures for french students who are deaf
JP2004361766A (ja) 話速変換装置、話速変換方法及びプログラム
Serralheiro et al. Towards a repository of digital talking books.
JP3884970B2 (ja) 情報処理装置および情報処理方法
JP2006337403A (ja) 音声案内装置及び音声案内プログラム
Sudhakar et al. Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil
Huttenlocher et al. Exploring phonotactic lexical constraints in word recognition
JPH054676B2 (zh)
Rahimi et al. A computing environment for the blind
Hill Spoken language generation and understanding by machine: a problems and applications oriented overview
JP2010113397A (ja) 保守点検記録管理システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070829