CN104756181B - 回放装置、设置装置、回放方法及程序 - Google Patents

回放装置、设置装置、回放方法及程序 Download PDF

Info

Publication number
CN104756181B
CN104756181B CN201380055758.9A CN201380055758A CN104756181B CN 104756181 B CN104756181 B CN 104756181B CN 201380055758 A CN201380055758 A CN 201380055758A CN 104756181 B CN104756181 B CN 104756181B
Authority
CN
China
Prior art keywords
playback
unit
language data
auditory language
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201380055758.9A
Other languages
English (en)
Other versions
CN104756181A (zh
Inventor
北谷谦
北谷谦一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN104756181A publication Critical patent/CN104756181A/zh
Application granted granted Critical
Publication of CN104756181B publication Critical patent/CN104756181B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/58Details of telephonic subscriber devices including a multilanguage function

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

一种回放装置包括:获取单元,获取包括要被作为说话语音来回放的数据在内的听觉语言数据;分析单元,分析听觉语言数据以输出分析结果;设置单元,基于分析结果,将听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分;以及语音回放单元,以所设置的回放速度来回放作为说话语音的控制部分。

Description

回放装置、设置装置、回放方法及程序
技术领域
本发明涉及用于回放听觉语言数据的回放装置、对回放速度受到控制的部分进行设置的设置装置、回放方法及程序。
背景技术
作为信息媒体,已经存在很多使用视觉信息传输手段(例如文本、图和照片)的视觉信息媒体(以视觉方式提供信息的信息媒体),例如,书、报纸和网页。
在观看视觉信息媒体的情况下,用户(使用信息媒体的人)可以执行对以二维方式布置的信息的拣选。因此,用户在相对短的时间内掌握所需信息。例如,通过扫视报纸的页面并选择所需文章,用户可以仅详细阅读选定的文章。
例如,在走路或者驾驶机动车的情况下,必须使用人的视觉来确认周围的环境。因此,无法注视视觉信息媒体或者不应该注视视觉信息媒体。这样,存在很多不合适使用视觉信息媒体的情况。
在不适合使用视觉信息媒体的情况下,可想到让用户通过使用听觉信息媒体(以听觉方式提供信息的信息媒体)来掌握信息,例如音频播放器。具体来说,通过输出包括语音在内的声音的听觉信息媒体,可以向用户提供很多信息。这里,语音是指语言的声音。
已经提供了很多有关听觉信息提供的技术。
例如,专利文献1公开了延长语音和非语音输出时长的技术,其目的是让语音回放与正常语音回放相比具有更缓慢的感觉。
专利文献2公开了用于在语音数据回放期间逐单位语音数据来改变语音数据的回放条件的技术。
[现有技术文献]
[专利文献]
[专利文献1]日本专利公开JP 2009-075280
[专利文献2]日本专利公开JP 2007-219141
发明内容
本发明要解决的问题
与视觉显示(例如文本、图、照片)不同,声音输出是在时间上执行的。因此,当听觉信息媒体提供信息时,需要一些时间量。
例如,音频播放器回放的音频数据的回放速度一般是指定的。在音频播放器根据该回放速度将音频数据从开始回放到结束的情况下,需要被规定为该音频数据的回放时间的预定时间。如果音频播放器使回放时间加速,则该音频数据回放所需要的时间变短。然而,让用户能够掌握信息的回放速度是有限制的。具体来说,对于回放音频中包括语音的情况,当回放速度加快时,用户将听不到语音中所讲的话。
这样,由于声音输出是在时间上执行的,即使在用户掌握听觉信息媒体提供的的信息输出以执行信息拣选时,也需要时间。
作为一个示例,将描述用户要从未知内容的音频数据中掌握信息的情况(例如,用户第一次收听的音频数据)。在这个情况下,为了检测包括所需信息的位置,或者为了首先判断是否包括所需信息,容易想到在掌握该信息的同时,从开始到结束地收听该音频数据。在该情况下,如上文所述,让用户能够掌握信息的回放速度是有限制的。因此,使收听数据所需要的时间缩短是有限制的。这里提到的音频数据的内容是指音频数据示出的信息。
专利文献1中公开的技术是用于在例如增加语音的回放速度时以强烈的缓慢感对语音进行回放的技术。也就是说,专利文献1中公开的技术不是用于改变回放所需时间的技术。从这一点上说,在专利文献1公开的技术中,用户无法通过在更短时间内掌握听觉信息媒体提供的信息的概要来执行信息拣选。
在专利文献2公开的技术中,为了改变语音数据的回放速度,必须提前为每个单位语音数据(例如每一个单词)设置控制数据,或者提前在单词表中注册单词。为了执行对控制数据的设置或者对单词的注册,用户需要提前掌握语音数据的内容。因此,在专利文献2公开的技术中,用户无法通过在更短时间内掌握听觉信息媒体提供的信息的概要来执行信息拣选。
本发明的示例目的在于:提供能够解决上述问题的回放装置、设置装置、回放方法及程序。
解决问题的手段
一种根据本发明的示例方案的回放装置包括:获取单元,获取包括要被作为说话语音来回放的数据在内的听觉语言数据;分析单元,分析所述听觉语言数据以输出分析结果;设置单元,基于所述分析结果,将所述听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分;以及语音回放单元,以所设置的回放速度来回放作为说话语音的所述控制部分。
一种根据本发明的示例方案的设置装置包括:获取单元,获取包括要被作为说话语音来回放的数据在内的听觉语言数据;分析单元,分析所述听觉语言数据以输出分析结果;以及设置单元,基于所述分析结果,将所述听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分。
一种根据本发明的示例方案的回放方法包括:获取包括要被作为说话语音来回放的数据在内的听觉语言数据;分析所述听觉语言数据以输出分析结果;基于所述分析结果,将所述听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分;以及以所设置的回放速度来回放作为说话语音的所述控制部分。
一种根据本发明的示例方案的程序使计算机执行:获取包括要被作为说话语音来回放的数据在内的听觉语言数据;分析所述听觉语言数据以输出分析结果;基于所述分析结果,将所述听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分;以及以所设置的回放速度来回放作为说话语音的所述控制部分。
本发明的效果
根据本发明的示例实施例,用户可以在更短的时间内对未知内容的声音数据中包括的信息进行拣选。
附图说明
图1是示出了本发明示例实施例中的听觉语言数据回放装置的功能配置的示意框图。
图2是示出了在本发明示例实施例中基于用户操作来改变回放速度的语音回放单元的示例的说明图。
图3是示出了在本发明示例实施例中根据回放速度控制部分的设置来改变回放速度的语音回放单元的示例的说明图。
图4A是示出了在本发明示例实施例中针对听觉语言数据的每一类型的用于回放速度控制部分的设置规则的示例的说明图。
图4B是示出了在本发明示例实施例中针对听觉语言数据的每一类型的用于回放速度控制部分的设置规则的示例的说明图。
图4C是示出了在本发明示例实施例中针对听觉语言数据的每一类型的用于回放速度控制部分的设置规则的示例的说明图。
图5是示出了在本发明示例实施例中当听觉语言数据回放装置对向听觉语言数据设置的回放速度控制部分执行回放时的处理过程的流程图。
图6是示出了本发明另一示例实施例中的听觉语言数据回放装置的主要单元的示意框图。
图7是示出了在本发明又一示例实施例中的回放速度控制部分设置装置的功能构成的示意框图。
具体实施方式
以下将描述本发明的示例实施例。图1是示出了本发明示例实施例中的听觉语言数据回放装置的功能配置的示意框图。图1中,听觉语言数据回放装置(以下有时简称为“回放装置”)100包括通信单元110、听觉语言数据获取单元(以下有时简称为“获取单元”)120、显示单元130、语音回放单元140、操作输入单元150和控制单元190。获取单元120包括存储设备121。控制单元190包括通信控制单元191、分析单元192、显示控制单元193、回放速度控制部分设置单元(以下有时简称为“设置单元”)194、用户指令检测单元(以下有时简称为“检测单元”)195和应用执行单元196。
回放装置100回放听觉语言数据,并输出说话语音。听觉语言数据是可以被作为说话语音来回放的数据。听觉语言数据可以包括指示说话语音的声音数据以及句子数据(例如文本数据或单词处理器数据)这里的说话语音是一种作为语言听觉表达的声音。回放装置100输出的说话语音可以是人发出的语音录音中包括的语音或者合成语音。
回放装置100的用户(以下简称为“用户”)通过收听回放装置100输出的说话语音来获取信息。
以下,作为示例,将描述回放装置100是便携式终端设备(便携式电话或智能电话)的情况。然而,本发明的应用范围并不限于便携式终端装置。回放装置100可以是能够回放听觉语言数据的音频播放器、游戏机、个人计算机(PC)或个人数字助理(PDA)。
通信单元110通过连接到移动电话网络(即通信运营商向移动终端设备提供的通信网络)来执行通信。
获取单元120获取听觉语言数据。具体来说,获取单元120所包括的存储设备121存储听觉语言数据。通过从存储设备121读出听觉语言数据,获取单元120获取听觉语言数据。
获取单元120获取听觉语言数据的方法不限于从存储设备121读出听觉语言数据的方法。作为这种方法,能够使用各种以允许回放速度改变的方式来获取听觉语言数据的方法。例如,获取单元120可连接到外部存储设备,并从该外部存储设备读出听觉语言数据。
语音回放单元140具有扬声器并输出声音。具体来说,语音回放单元140通过根据设置单元194的设置回放听觉语言数据,来输出说话语音。设置单元194在听觉语言数据中设置回放速度控制部分(以下有时简称为“控制部分”)。该控制部分表示应当根据和回放速度有关的预定控制规则来回放的部分。
在回放听觉语言数据时,语音回放单元140根据和回放速度有关的预定控制规则来回放被设置为控制部分的部分。语音回放单元140以与用户指令相对应的回放速度来回放听觉语言数据中没有被设置为控制部分的部分。
可以应用各种控制规则,作为与回放速度有关的预定控制规则。例如,应用于控制部分的控制规则可以是以预定回放速度进行回放的规则,或者可以是应当以用户所指示回放速度的一半的回放速度来执行回放的规则。
参照图2和图3,将给出语音回放单元140回放听觉语言数据所用的回放速度的描述。
图2是示出了语音回放单元140基于用户操作来改变回放速度的示例的说明图。图2示出了控制部分没有被设置的情况的示例。
图2的(A)部分示出了对听觉语言数据的回放速度进行设置的示例。图2的(A)部分中,听觉语言数据被分成单元A至F。为每一个单元设置回放速度。
这里,单元是基于语言学含义对听觉语言数据分割的组。可以使用各种级别的单词单元作为单元,例如单词、短语、句子或段落。也可以使用除了单词单元之外的单元作为单元,例如,将两个句子用作单个单元,或者将听觉语言数据在每一个给定的时间分割为单元。
这里设置的回放速度指示用作标准的回放速度。当指示以标准速度回放时(以下称为“标准回放”),语音回放单元140以作为标准的该回放速度执行回放。在图2的示例中,作为初始设置,针对单元A至F中的每一个设置相同的回放速度。从附图标记H到每一个单元A至F的连线示出了针对每一个单元设置回放速度。
设置听觉语言数据的回放速度的方法不限于如图2的(A)部分所示的执行针对每一个单元的设置的方法。可以使用能够在语音回放单元140以标准速度回放听觉语言数据时获取回放速度的各种方法,作为对听觉语言数据的回放速度进行设置的方法。例如,在听觉语言数据是声音数据的情况下,整个听觉语言数据的回放速度可以由该声音数据的标准来指示。在听觉语言数据是句子数据的情况下,在语音回放单元140所执行的读出句子数据的功能中,可以设置对于每一个句子数据来说共同的标准朗读速度。
图2的(B)部分示出了在回放听觉语言数据时的回放速度的示例。在图2的(B)部分,以与用户操作相对应的回放速度来回放每一个单元。在用户操作的示例中,包括“正常收听”和“半收听”。“正常收听”是指示标准回放的用户操作。此外,“半收听”是指示高速回放的用户操作。这里,高速收听是指示以比标准回放期间更快的指定回放速度(例如标准回放速度的三倍)进行回放的用户操作。图2的(B)部分中,附图标记J1和J3示出了用户已针对单元A、B、E和F设置了“半收听”。附图标记J2示出了用户通过回放期间的设置改变已针对单元C和D设置了“正常收听”。图2的(B)部分中,附图标记I1示出了已针对单元A和B设置了高速回放(语音小)。附图标记I2示出了通过回放期间的设置改变已针对单元C和D设置了标准回放(语音大)。附图标记I3表示已针对单元E和F设置了高速回放(语音小)。
通过“半收听”的用户操作对高速回放进行选择,用户使回放装置100在更短的时间内回放全部听觉语言数据,以能够检测包括所需信息的位置。已检测到包括所需信息的位置的用户通过使回放装置100以标准速度回放该位置,来获得所需信息。
在图2的示例的情况下,回放装置100从初始单元A开始顺序高速回放听觉语言数据。已经收听了对单元C进行回放的说话语音的用户通过识别出单元C是包括所需信息的位置,向回放装置100指示标准回放。图2示例中的用户指示回放装置100对单元C和单元D执行标准回放,从而可以从这些单元中获取信息。
在检测单元195检测到降低回放速度的用户指令时,语音回放单元140使回放位置从当前回放位置回退,并且从回退后的位置起以降低的回放速度开始听觉语言数据的回放。更具体地,在检测单元195检测到降低回放速度的用户指令时,语音回放单元140将回放位置回退到包括当前回放位置的单元的开头。此外,语音回放单元140从该单元的开头起以降低的回放速度开始听觉语言数据的回放。
例如,在图2的(B)部分示出的示例中,在单元C的高速回放期间,通过向操作输入单元150输入“正常收听”指令,用户指示标准回放。响应于该指令,语音回放单元140使回放位置回退到单元C的开头,并且从单元C的开头起执行标准回放。
已经通过收听以高速回放单元C的说话语音而确定所需信息被包含在单元C中的用户之后通常将指示在单元C的中间进行标准回放。然而,在语音回放单元140执行从单元的中间开始进行标准回放的情况下,例如从句子的中间或者单词的中间,用户无法获取所需信息。
因此,语音回放单元140使回放位置回退到单元的开头,并从该单元的开头起执行标准回放。因此,用户容易地获取所需信息。
作为另一方法,还可以按以下方式执行回放。即,当检测单元195检测到降低回放速度的用户指令时,语音回放单元140使回放位置回退,甚至回溯到在包括当前回放位置在内的单元的开头之前的位置。此外,语音回放单元140从回溯位置起以降低的回放速度来回放听觉语言数据。
这里,回溯位置指示在整个听觉语言数据被连续回放的情况下在较早的时间处被回放的位置。
将参考图2的(B)部分来描述具体示例。在单元C的高速回放期间,操作输入单元150从用户接收“正常收听”指令。响应于该指令,检测单元195检测标准回放。然后,语音回放单元140使回放位置回退到单元B的中间的位置,后退到单元C开始之前的预定时间(例如标准回放期间的5秒)。此外,语音回放单元140从单元B中间的该位置起执行听觉语言数据的标准回放。
因而,用户可以掌握包括所需信息的单元(例如单元C)和前一单元(例如单元B)在内的单元之间的关系,且因此更容易获取所需信息。
然而,语音回放单元140将回放位置回退、然后以降低的回放速度来回放听觉语言数据的处理不是必须的。因此,当执行降低回放速度的用户指令时,语音回放单元140还可以降低回放速度以照现在的样子执行回放(例如执行标准回放),但不执行回放位置的回退。
图2的(B)部分的示例中,语音回放单元140以相对较高的音量执行标准回放,并以相对较低的音量执行高速回放。相对较高的音量是比标准音量更大的音量。相对较低的音量是比标准音量更小的音量。
因而,当用户通过使回放装置100执行听觉语言数据的高速回放来搜索包括所需信息的位置时,可以降低回放所产生的语音刺激用户或周边其他人的耳朵的风险。此外,通过语音回放单元140以相对较高的音量来执行对包括用户所需信息的位置的回放,用户容易地获取所需信息。
然而,语音回放单元140以相对较高的音量执行标准回放以及以相对较低的音量执行高速回放的处理不是必须的。语音回放单元140还可以以相同的音量执行标准回放和高速回放。
作为另一方法,语音回放单元140还可以用比标准回放期间更大的音量来执行高速回放。因而,在高速回放期间,用户可以容易地检测包括所需信息的位置。
图3是示出了语音回放单元140根据控制部分的设置来改变回放速度的示例的说明图。
图3的(A)部分示出了听觉语言数据的回放速度和控制部分的设置示例。
在图3的(A)部分中,听觉语言数据被分为单元A至F,并且针对每一个单元来设置回放速度。此外,单元D被设置为控制部分。从附图标记H到单元A至F的连线示出了针对每一个单元来设置回放速度。附图标记L示出了单元D被设置为控制部分。
在图3的示例中,控制部分指示应当以标准速度回放的部分。
图3的(B)部分示出了在回放听觉语言数据时的回放速度的示例。在图3的(B)部分中,通过执行“半收听”的用户操作,用户指示高速回放。然后,响应于该指令,语音回放单元140执行单元A至C以及单元E至F的高速回放。相反,针对被设置为控制部分的单元D,语音回放单元140根据设置执行标准回放。在图3的(B)部分中,附图标记N示出了用户针对单元A至F设置“半收听”。
在图3的(B)部分中,附图标记M1和M3指示针对单元A至C、E和F设置高速回放(低音量)。附图标记M2示出了针对单元D设置标准回放(高音量)。
如下文所描述的,分析单元192分析听觉语言数据,并且基于分析结果,设置单元194将听觉语言数据的各单元中高重要可能性的部分设置为控制部分。因而,语音回放单元140以相对较慢的速度重播听觉语言数据的重要部分(在图3的示例中,以标准速度回放重要部分)。因此,用户可以容易地获取所需信息。
另一方面,语音回放单元140以与用户指令相对应的速度回放没有被设置为控制部分的部分。因此,通过用户指示更快的回放(图3示例中的高速回放),能够缩短整个听觉语言数据的回放时间。
因此,用户可以用更短的时间对未知内容的声音数据中包含的信息执行拣选。
语音回放单元140增加控制部分的回放音量。在图3的(B)部分的示例中,语音回放单元140以相对较高的音量执行控制部分的回放。另一方面,语音回放单元140以相对较低的音量执行除控制部分之外的部分的回放。
因而,语音回放单元140执行除控制部分之外的部分的高速回放。因此,当用户判断在除控制部分之外的部分中是否存在所需信息时,可以降低回放的语音刺激用户和周边其他人的耳朵的风险。此外,语音回放单元140以相对较高的音量执行控制部分的回放。因此,用户容易获取所需信息。
然而,语音回放单元140以相对较高的音量执行控制部分的回放以及以相对较低的音量执行除控制部分之外的部分的回放的处理不是必须的。语音回放单元140可以用相同的音量执行控制部分及其他部分的回放。
作为另一方法,还可以让语音回放单元140以比控制部分的回放期间更高的音量来执行除控制部分之外的部分的回放。因而,在执行除控制部分之外的部分的高速回放时,用户可以容易地检测包括所需信息的位置。
将要描述语音回放单元140以预定音量(相对较高的音量或者相对较低的音量)来回放控制部分的情况。在该情况下,可以使语音回放单元140以恒定的音量回放除控制部分之外的部分。作为另一方法,可以使语音回放单元140根据用户指示的回放速度来改变音量。
在上文中,给出了针对语音回放单元140以相对较低的速度来回放控制部分的情况的描述(图3示例中的标准回放),但是不限于该情况。可以使语音回放单元140以相对较高的速度回放控制部分(图3示例中的高速回放)。
例如,设置单元194将听觉语言数据的单元中相对较低重要可能性的部分设置为控制部分。因而,当用户收听说话语音的听觉语言数据时,语音回放单元140可以用相对较高的速度回放相对较低重要可能性的部分。通过以这种方式执行回放,能够缩短整个听觉语言数据的回放时间。
另一方面,针对没有被设置为作为较高重要可能性的部分的控制部分的部分,语音回放单元140以与用户指令相对应的回放速度来执行回放。因而,通过使较高重要可能性部分中被判断为包括所需信息在内的部分以相对较低的速度进行回放(图3示例中的标准回放),用户可以获取所需信息。
回到图1,将继续描述。显示单元130可以具有显示屏,例如液晶面板或有机EL(有机电致发光)面板。显示单元130显示各种图像,例如运动图像、静止图像及文本(即字符)。具体来说,显示单元130以可滚动的方式通过文本来显示听觉语言数据。此外,显示单元130执行显示滚动,以便通过文本来显示听觉语言数据中由语音回放单元140正在回放的部分。
因而,用户还可以通过视觉来确认语音回放单元140正在回放的听觉语言数据。例如,即使在因环境噪声等影响而无法听到语音回放单元140回放的听觉语言数据的情况下,用户仍可以通过在显示单元130中显示的文本来确认。
此外,用户可以通过语音回放单元140输出的说话语音来确认听觉语言数据的内容。因此,能够获取所需信息,而不用连续地观看显示单元130。
然而,显示单元130以可滚动方式通过文本来显示听觉语言数据不是必须的。例如,可以在不包括显示单元130的情况下构成回放装置100。
操作输入单元150可以具有输入设备,例如构成触摸面板的触摸传感器,其中触摸面板设置在例如显示单元130的显示屏中。操作输入单元150接收用户操作。
控制单元190通过控制回放装置100的每个单元来执行各种功能。控制单元190可以通过例如回放装置100所具有的CPU(中央处理单元)从回放装置100所具有的存储设备中读出程序并执行该程序来实现。
通信控制单元191控制通信单元110,以使通信单元110执行通信。
显示控制单元193控制显示单元130,以使显示单元130显示各种图像。
应用执行单元196执行各种应用程序。
检测单元195检测操作输入单元150接收的用户操作。具体来说,检测单元195检测关于回放速度的用户指令。
能够使用各种操作作为指示回放速度的用户操作。例如,操作输入单元150可以具有针对每个回放速度的输入键(按钮或者在屏幕上显示的图标)或者用于增加/降低回放速度的输入键。检测单元195可以将这些输入键上的按键操作检测为指示回放速度的用户操作。
作为另一方法,操作输入单元150可以具有用于切换回放速度的拨盘开关(dialswitch)。检测单元195可以将拨盘开关上的拨动操作检测为指示回放速度的用户操作。
作为另一方法,显示单元130可以显示在整个听觉语言数据的回放时间中示出当前回放位置的滚动条或者滑块开关。检测单元195可以将滚动条或者滑块开关上的触摸操作(滚动操作或滑块操作)检测为指示回放速度的用户操作。
具体来说,将描述显示单元130通过文本来滚动显示听觉语言数据并执行显示的滚动以便显示语音回放单元140正在回放的部分的情况。在该情况下,检测单元195可以将显示单元130的显示上的滚动操作检测为关于回放速度的用户操作。
因而,用户不需要在显示单元130的显示上分别执行滚动操作以及指示回放速度的用户操作。从这一点来说,能够节省用户的时间和精力。
然而,检测单元195检测关于回放速度的用户指令的处理不是必须的。例如,可以在不包括检测单元195的情况下构成回放装置100。在该情况下,语音回放单元140以与控制部分的设置相对应的回放速度来执行听觉语言数据的回放。具体来说,在该情况下,语音回放单元140可以用标准速度来回放控制部分,并且可以执行没有被设置为控制部分的部分的高速回放。
分析单元192对获取单元120所获取的听觉语言数据进行分析。作为分析单元192执行的分析,能够使用各种分析。例如,分析单元192可以执行对听觉语言数据的语言分析(例如,所使用语言的分析、语法分析、等等)。分析单元192可以分析是否存在语音。
作为另一方法,分析单元192可以分析语音的强度。分析单元192还可以分析语音的音高。此外,分析单元192可以执行多种分析,例如分析语音的强度和语音的音高。具体来说,将描述分析单元192执行对听觉语言数据的语法分析的情况。在该情况下,分析单元192可以基于解析结果将听觉语言数据分割为句子单元,例如单词、短语、句子或者段落,并且可以使每个分割形成听觉语言数据的单元。
以下,作为示例,将描述分析单元192分析听觉语言数据的类型的情况。
例如,分析单元192执行对听觉语言数据的语言的确定,例如语言是英语还是日语,作为对听觉语言数据的类型的分析。此外,分析单元192执行对听觉语言数据的意图目的的确定,作为对听觉语言数据的类型的分析。在听觉语言数据的意图目的中,可以包括针对社交网络服务(SNS)的发帖、报纸或杂志中的文章、诸如电子邮件之类的消息。
分析单元192可以基于使用听觉语言数据的应用程序来确定听觉语言数据的类型。
以下给出具体示例。将要给出针对应用执行单元196执行移动浏览器应用程序(用于移动设备(例如移动终端设备)的网络浏览器)以连接SNS站点的情况的描述。在该情况下,分析单元192确定,应用执行单元196已获取并存储在存储设备121中的听觉语言数据是SNS发帖。
将要给出针对应用执行单元196执行移动浏览器应用程序以连接用于查看报纸文章的站点的情况的描述。在该情况下,分析单元192确定应用执行单元196已获取并存储在存储设备121中的听觉语言数据是报纸文章。
将要给出针对应用执行单元196执行移动浏览器应用程序以连接除SNS或文章之外的网站的情况的描述。在该情况下,分析单元192确定应用执行单元196已获取并存储在存储设备121中的听觉语言数据是网页。
将要给出针对应用执行单元196执行电子邮件应用程序的情况的描述。在该情况下,分析单元192确定应用执行单元196已获取并存储在存储设备121中的听觉语言数据是电子邮件消息。
作为另一方法,基于除使用应用语言数据的应用程序之外的信息,分析单元192可以确定听觉语言数据的类型。作为具体示例,分析单元192可以分析听觉语言数据的格式,以确定听觉语言数据的类型。
设置单元194基于分析单元192的分析结果在听觉语言数据中设置控制部分。例如,设置单元194基于听觉语言数据的类型来执行控制部分的设置。
图4A至4C是示出了针对听觉语言数据的每一类型的控制部分设置规则的示例的说明图。
在图4A至4C中,附图标记h指示开始。附图标记e指示结束。
基于图4A至4C中示出的设置规则,设置单元194设置控制部分。
针对英语听觉语言数据,设置单元194设置控制部分,使得句子开头的回放速度是相对较低的速度。例如,在控制部分指示执行标准回放的部分的情况下,设置单元194将位于句子开头处的单元设置为控制部分。因而,避免高速回放位于句子开头处的单元。
在图4A中,附图标记O1指示作为针对英语的设置规则的回放速度优选为“慢”的部分。附图标记O2指示作为针对英语的设置规则的回放速度优选为“快”的部分。
在英语句子中,重要内容经常被包含在句子的开头。因此,例如,通过设置单元194将控制部分设置为位于句子开头的单元,语音回放单元140以相对较低的速度回放句子开头。因此,用户可以容易地获取所需信息。这里,单元可以是段落,或可以是句子。
设置单元194可以设置控制部分,使得针对将单词或者短语用作单元的每一个句子,位于开头的单元的回放速度变为相对较低的速度。在英语句子中,重要内容经常被包含在句子的开头,例如,谓语布置在主语之后,并且否定词布置在句子的开头。因此,设置单元194设置控制部分,使得位于句子开头的单元的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度来回放句子的开头。因此,用户可以容易地获取所需信息。
作为另一方法,设置单元194可以设置控制部分,使得针对将句子用作单元的每个段落,位于段落开头的单元的回放速度变为相对较低的速度。
针对日语听觉语言数据,设置单元194设置控制部分,使得句子结尾的回放速度变为相对较低的速度。例如,在控制部分指示执行标准回放的部分的情况下,设置单元194将位于句子结尾处的单元设置为控制部分。因而,避免高速回放位于句子结尾处的单元。
在图4A中,附图标记P1指示作为针对日语的设置规则的回放速度优选为“快”的部分。附图标记P2指示作为针对日语的设置规则的回放速度优选为“慢”的部分。
在日语句子中,重要内容经常被包含在句子的结尾。因此,例如,通过设置单元194将控制部分设置为位于句子结尾的单元,语音回放单元140以相对较低的速度回放句子结尾。因此,用户可以容易地获取所需信息。这里,单元可以是段落,或可以是句子。
设置单元194可以设置控制部分,使得针对将单词或者短语用作单元的每一个句子,位于结尾的单元的回放速度变为相对较低的速度。在日语句子中,重要内容经常被包含在句子的结尾,例如,谓语和否定词布置在句子的结尾。因此,设置单元194设置控制部分,使得位于句子结尾的单元的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度回放句子的结尾。因此,用户可以容易地获取所需信息。
作为另一方法,设置单元194可以设置控制部分,使得针对将句子用作单元的每个段落,位于段落结尾的单元的回放速度变为相对较低的速度。
针对SNS发帖的听觉语言数据,设置单元194设置控制部分,使得句子结尾的回放速度变为相对较低的速度。
在图4A中,附图标记Q1指示作为针对SNS的设置规则的回放速度优选为“快”并且音量优选为“低”的部分。附图标记Q2指示作为针对SNS的设置规则的回放速度优选为“慢”并且音量优选为“高”的部分。
在SNS发帖中,句子开头经常不是非常重要。因此,重要内容经常被包含在句子结尾处。因此,设置单元194设置控制部分,使得位于句子结尾处的单元的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度来回放句子结尾。因此,用户可以容易地获取所需信息。这里,单元可以是段落,或可以是句子。在简短发帖的情况下,可以将短语用作单元。
针对报纸和杂志等的文章的听觉语言数据,设置单元194设置控制部分,使得句子中间附近的回放速度变为相对较低的速度。
附图标记R1和R3指示作为针对文章的设置规则的回放速度优选为“快”并且音量优选为“低”的部分。附图标记R2指示作为针对文章的设置规则的回放速度优选为“慢”并且音量优选为“高”的部分。
报纸和杂志文章经常在句子中间附近表达观点。因此,重要内容经常被包含在句子中间附近处。因此,设置单元194设置控制部分,使得位于句子中间附近处的单元的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度回放句子中间区域。因此,用户可以容易地获取所需信息。这里,单元可以是段落,或可以是句子。
针对诸如电子邮件之类的消息的听觉语言数据,设置单元194设置控制部分,使得发件人和正文的回放速度变为相对较低的速度。
在图4B中,附图标记S1和S3指示作为针对电子邮件的设置规则的回放速度优选为“慢”的部分。附图标记S2指示作为针对电子邮件的设置规则的回放速度优选为“快”的部分。
设置单元194设置控制部分,使得发件人姓名的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度回放发件人姓名。因此,用户可以基于发件人姓名来确定其是否是重要消息。
此外,设置单元194设置控制部分,使得正文的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度回放正文。因此,用户可以容易地获取正文中包含的所需信息。
针对网页的听觉语言数据,设置单元194设置控制部分,使得标题和每个段落的开头的回放速度变为相对较低的速度。这里,能够将每个段落中的句子用作单元。
在图4C中,附图标记T1和T3指示作为针对网页的设置规则的回放速度优选为“慢”的部分。附图标记T2和T4指示作为针对网页的设置规则的回放速度优选为“快”的部分。
设置单元194设置控制部分,使得标题的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度回放标题。因此,用户可以基于标题来确定其是否是重要句子。
在网页中,重要内容经常在段落开头提出,接下来一般是附加说明和具体示例。也就是说,在网页中,重要内容经常被包含在每个段落的开头。因此,设置单元194设置控制部分,使得位于每个段落开头的单元的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度回放每个段落开头。因此,用户可以容易地获取所需信息。
将要描述分析单元192分析听觉语言数据的语音的强度的情况。在该情况下,设置单元194可以设置控制部分,使得具有强语音的部分(也就是以相对较高的音量来回放的部分)的回放速度变为相对较低的速度。
说话人有时在说话时会增强他的语音,以强调重要部分。因此,重要内容被包含在具有强语音的部分中的可能性较高。因此设置单元194设置控制部分,使得具有强语音的部分的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度来回放具有强语音的部分。因此,用户可以容易地获取所需信息。这里,能够使用各种单元。例如,可以将单词、短语或者句子用作单元,或者可以通过将在每个预定时间处分割听觉语言数据而得到的每个部分用作单元。
将要描述分析单元192分析听觉语言数据的音高是高还是低的情况。在该情况下,设置单元194可以设置控制部分,使得具有较高音高的部分的回放速度是相对较低的速度。
由于说话人坚定地说出重要部分,所以重要部分的音高可能上升。因此,重要内容被包含在具有较高音高的部分中的可能性较高。因此,设置单元194设置控制部分,使得具有较高音高的部分的回放速度变为相对较低的速度。此外,语音回放单元140以相对较低的速度来回放具有较高音高的部分。因此,用户可以容易地获取所需信息。这里,能够使用各种单元。例如,可以将单词、短语或者句子用作单元。可以将在每个预定时间处分割听觉语言数据所得到的每个部分用作单元。
以下,将参考图5来描述回放装置100的操作。
图5是示出了当回放装置100执行对向听觉语言数据设置的控制部分的回放时的处理过程的流程图。例如,在检测到用户操作请求说话语音的听觉语言数据的回放时,则回放装置100执行图5的处理。
在图5的处理中,首先获取单元120获取听觉语言数据,并将其输出到控制单元190(步骤S101)。具体来说,通过读出存储设备121已存储的听觉语言数据,获取单元120获取听觉语言数据。
在控制单元190中,分析单元192分析由获取单元120获取的听觉语言数据(步骤S102)。
基于分析单元192的分析结果,设置单元194选择控制部分的设置规则(步骤S103)。设置单元194根据所选择的设置规则,向听觉语言数据设置控制部分。此外,设置单元194向语音回放单元140输出其中已设置控制部分的听觉语言数据(步骤S104)。
根据设置单元194已设置的控制部分,语音回放单元140回放来自设置单元194的听觉语言数据,并输出说话语音(步骤S105)。
此后,图5的处理结束。
按以上方式,分析单元192分析听觉语言数据。基于分析单元192的分析结果,设置单元194向听觉语言数据设置控制部分。语音回放单元140根据设置单元194的设置来回放听觉语言数据。
由于设置单元194基于分析单元192的分析结果来设置控制部分,语音回放单元140可以以较低的速度回放听觉语言数据中包括重要内容的可能性较高的部分。因此,用户可以容易地获取所需信息。另一方面,语音回放单元140可以用较高的速度回放除包括重要内容可能性较高的部分之外的部分。因此,能够缩短整个听觉语言数据的回放时间。因此,用户可以用更短的时间对未知内容的声音数据中包含的信息进行拣选。
语音回放单元140以与用户指令相对应的回放速度来回放听觉语言数据中没有被设置为控制部分的部分。
作为具体示例,将描述对以相对较低的速度回放的部分加以指示的控制部分的情况。在该情况下,通过使语音回放单元140以相对较低的速度回放没有被设置为控制部分的部分以及被判断为包括所需信息的部分,用户可以获取所需信息。另一方面,通过使语音回放单元140以相对较高的速度回放被判断为不包括所需信息的单元,用户可以缩短整个听觉语言数据的回放时间。
当检测单元195检测到降低回放速度的用户指令时,语音回放单元140使回放位置回退,并以降低的回放速度来回放听觉语言数据。
作为具体示例,当检测单元195检测到降低回放速度的用户指令时,语音回放单元140使回放位置回退到包括当前回放位置在内的单元的开头。此外,语音回放单元140从单元的开头起以降低的回放速度来回放听觉语言数据。
因而,由于用户可以从开头收听包括所需信息的单元,所以更容易地获取所需信息。
作为另一具体示例,当检测单元195检测到降低回放速度的用户指令时,语音回放单元140使回放位置回退,甚至回溯到在包括当前回放位置在内的单元的开头之前的位置。此外,语音回放单元140从回溯位置起以降低的回放速度来回放听觉语言数据。
因而,用户可以掌握包括所需信息在内的单元和前一单元之间的关系,并更容易地获取所需信息。
语音回放单元140增加控制部分的回放音量。
作为具体示例,将描述对应当以相对较低的速度回放的部分加以指示的控制部分的情况。在该情况下,当用户通过使回放装置100执行听觉语言数据的高速回放来搜索包括所需信息的位置时,可以降低回放所产生的语音刺激用户或周边其他人的耳朵的风险。另一方面,通过语音回放单元140以相对较高的音量对包括用户所需信息在内的位置执行回放,用户容易地获取所需信息。
作为另一具体示例,将描述对应当高速回放的部分加以指示的控制部分的情况。在该情况下,在相对较高速度的回放期间,用户可以容易地检测包括所需信息的位置。
显示单元130通过文本以可滚动方式来显示听觉语言数据,并且检测单元195将与显示单元显示的听觉语言数据有关的滚动操作检测为关于回放速度的用户指令。
因而,用户不需要分别执行在显示单元130的显示上的滚动操作以及指示回放速度的用户操作。从这一点来说,能够节省用户的时间和精力。
显示单元130执行显示滚动,以便通过文本来显示听觉语言数据中由语音回放单元140正在回放的部分。
因而,用户还可以通过视觉来确认语音回放单元140正在回放的听觉语言数据。例如,即使在因环境噪声等影响而无法听到语音回放单元140回放的听觉语言数据的情况下,用户仍可以通过在显示单元130中显示的文本来确认。
此外,用户可以通过语音回放单元140输出的说话语音来确认听觉语言数据的内容。因此,用户能够获取所需信息,而不用连续地观看显示单元130。
基于听觉语言数据的类型,设置单元194执行控制部分的设置。
因而,根据听觉语言数据的类型,设置单元194可以设置控制部分,以便以相对较低的速度来回放包括重要内容的可能性较高的部分。
基于使用听觉语言数据的应用程序,分析单元192确定听觉语言数据的类型。
因而,通过确定使用听觉语言数据的应用程序的简单处理,分析单元192可以确定听觉语言数据的类型。
以下参考图6,将描述本发明示例实施例中的听觉语言数据回放装置100的主要部分。
图6是示出了本发明示例实施例中的回放装置100的主要部分的示意框图。在图6中,示出了在图1示出的回放装置100的单元之中的获取单元120、分析单元192、设置单元194以及语音回放单元140。
在图6示出的构成中,获取单元120获取听觉语言数据。分析单元192分析该听觉语言数据。设置单元194基于分析单元192的分析结果向听觉语言数据设置控制部分。语音回放单元140根据设置单元194的设置来回放听觉语言数据。
因而,与图1示出的构成的情况类似,用户可以用更短的时间对未知内容的声音数据中包含的信息执行拣选。
以下参考图7,将描述回放速度控制部分设置装置(高速回放限制设置装置)200。
图7是示出了本发明示例实施例中的回放速度控制部分设置装置(以下有时简称为“设置装置”)200的功能构成的示意框图。在图7中,示出了在图1示出的回放装置100的单元之中的获取单元120、分析单元192以及设置单元194。
在图7示出的构成中,获取单元120获取听觉语言数据。分析单元192分析该听觉语言数据。设置单元194基于分析单元192的分析结果向听觉语言数据设置控制部分。
让其中设置单元194已设置过控制部分的听觉语言数据被语音回放装置所回放。因而,与图1示出的构成的情况类似,用户可以用更短的时间对未知内容的声音数据中包含的信息执行拣选。
设置装置200所包括的功能单元不限于图7示出的功能单元。除了图7示出的单元之外,设置装置200还可以包括其他功能单元。例如,设置装置200还可以包括通信单元110(参考图1)。
通过在计算机可读记录介质上记录用于实现回放装置100和设置装置200的所有或一些功能的程序,并且使计算机读入并执行记录在该记录介质上的程序,可以执行每个单元的处理。此处,“计算机系统”包括OS和诸如外围设备之类的硬件。
当使用WWW系统时,“计算机系统”还包括主页呈现环境(或显示环境)。
“计算机可读记录介质”包括存储设备,例如便携式介质,包括被并入计算机系统中的软盘、磁光盘、ROM、CD-ROM、以及硬盘等。此外,“计算机可读记录介质”包括当程序要经由网络(例如互联网或诸如电话线之类的通信线路)传输时以短暂时长动态保持程序的介质,如通信线路,以及包括以预定时长保持程序的介质,如该情况下,在用作服务器或客户端的计算机系统中的易失性存储器。上述程序可以是用于实现上述功能中一些功能的程序。上述程序可以与已存储在计算机系统中的程序组合实现。
尽管在上文中参考附图详细描述了本发明的示例实施例,具体配置不限于这些示例实施例,并且还包括在不脱离本发明保护范围的范围之内的设计修改等等。
本申请基于并要求于2012年10月31日递交的日本专利申请No.2012-240430的优先权,通过引用将其公开整体并入本文中。
工业实用性
本发明可应用于回放装置、设置装置、回放方法及程序。
附图标记
100:听觉语言数据回放装置
110:通信单元
120:听觉语言数据获取单元
121:存储设备
130:显示单元
140:语音回放单元
150:操作输入单元
190:控制单元
191:通信控制单元
192:分析单元
193:显示控制单元
194:回放速度控制部分设置单元
195:用户指令检测单元
196:应用执行单元
200:回放速度控制部分设置装置

Claims (10)

1.一种回放装置,包括:
获取单元,获取包括要被作为说话语音来回放的数据在内的听觉语言数据;
分析单元,分析所述听觉语言数据以输出分析结果;
设置单元,基于所述分析结果,将所述听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分;
语音回放单元,以所设置的回放速度来回放作为说话语音的所述控制部分;
检测单元,检测关于回放速度的用户指令;以及
显示单元,通过文本以可滚动的方式显示所述听觉语言数据;
其中,所述语音回放单元以与用户指令相对应的回放速度来回放所述听觉语言数据中没有被设置为所述控制部分的部分,以及
其中,所述检测单元检测与所述显示单元显示的所述听觉语言数据有关的滚动操作,作为关于回放速度的用户指令。
2.根据权利要求1所述的回放装置,
其中,在所述听觉语言数据以第一回放速度进行回放的同时,指令检测单元检测作为用户指令的指示降低所述回放速度的回放速度降低指令,
响应于所述速度降低指令,所述语音回放单元使所述听觉语言数据的回放位置回退,以及
所述语音回放单元以比所述第一回放速度慢的第二回放速度从回退的回放位置起回放所述听觉语言数据。
3.根据权利要求2所述的回放装置,
其中,所述听觉语言数据包括多个单元,所述多个单元包括第一单元,
在所述第一单元以第一回放速度回放的同时,所述指令检测单元检测作为用户指令的指示降低回放速度的速度降低指令,以及
响应于所述速度降低指令,所述语音回放单元以比所述第一回放速度慢的第二回放速度从所述第一单元的开头起回放所述听觉语言数据。
4.根据权利要求2所述的回放装置,
其中,所述听觉语言数据包括多个单元,所述多个单元包括第一单元,
在所述第一单元以第一回放速度回放的同时,所述指令检测单元检测作为用户指令的指示降低回放速度的速度降低指令,以及
响应于所述速度降低指令,所述语音回放单元以比所述第一回放速度慢的第二回放速度从比所述第一单元的开头早的回放位置起回放所述听觉语言数据。
5.根据权利要求1至4中任一项所述的回放装置,其中,所述语音回放单元增加所述控制部分的回放音量。
6.根据权利要求1所述的回放装置,其中,所述显示单元执行显示滚动,以便通过文本来显示所述听觉语言数据中由所述语音回放单元正在回放的部分。
7.根据权利要求1至4中任一项所述的回放装置,其中,所述设置单元基于所述听觉语言数据的类型,设置所述控制部分。
8.根据权利要求7所述的回放装置,其中,所述分析单元基于用于所述听觉语言数据的应用程序,确定所述听觉语言数据的类型。
9.一种设置装置,包括:
获取单元,获取包括要被作为说话语音来回放的数据在内的听觉语言数据;
分析单元,分析所述听觉语言数据以输出分析结果;
设置单元,基于所述分析结果,将所述听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分;
检测单元,检测关于回放速度的用户指令;以及
显示单元,通过文本以可滚动的方式显示所述听觉语言数据;
其中,所述检测单元检测与所述显示单元显示的所述听觉语言数据有关的滚动操作,作为关于回放速度的用户指令。
10.一种回放方法,包括:
获取包括要被作为说话语音来回放的数据在内的听觉语言数据;
分析所述听觉语言数据以输出分析结果;
基于所述分析结果,将所述听觉语言数据的至少一部分设置为要以所设置的回放速度来回放的控制部分;
以所设置的回放速度来回放作为说话语音的所述控制部分;
检测关于回放速度的用户指令;以及
通过文本以可滚动的方式显示所述听觉语言数据;
其中,以与用户指令相对应的回放速度来回放所述听觉语言数据中没有被设置为所述控制部分的部分,以及
其中,检测与所显示的所述听觉语言数据有关的滚动操作,作为关于回放速度的用户指令。
CN201380055758.9A 2012-10-31 2013-10-11 回放装置、设置装置、回放方法及程序 Expired - Fee Related CN104756181B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012-240430 2012-10-31
JP2012240430 2012-10-31
PCT/JP2013/077799 WO2014069220A1 (ja) 2012-10-31 2013-10-11 再生装置、設定装置、再生方法およびプログラム

Publications (2)

Publication Number Publication Date
CN104756181A CN104756181A (zh) 2015-07-01
CN104756181B true CN104756181B (zh) 2017-10-27

Family

ID=50627134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380055758.9A Expired - Fee Related CN104756181B (zh) 2012-10-31 2013-10-11 回放装置、设置装置、回放方法及程序

Country Status (5)

Country Link
US (1) US9728201B2 (zh)
EP (1) EP2916317B1 (zh)
JP (1) JP6277958B2 (zh)
CN (1) CN104756181B (zh)
WO (1) WO2014069220A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3430613B1 (en) * 2016-03-16 2019-10-30 Sony Mobile Communications Inc. Controlling playback of speech-containing audio data
EP3244408A1 (en) * 2016-05-09 2017-11-15 Sony Mobile Communications, Inc Method and electronic unit for adjusting playback speed of media files
CN107068145B (zh) * 2016-12-30 2019-02-15 中南大学 语音评测方法及系统
KR102329888B1 (ko) * 2017-01-09 2021-11-23 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법
CN107808007A (zh) * 2017-11-16 2018-03-16 百度在线网络技术(北京)有限公司 信息处理方法和装置
WO2021091692A1 (en) * 2019-11-07 2021-05-14 Square Panda Inc. Speech synthesizer with multimodal blending
CN111916053B (zh) * 2020-08-17 2022-05-20 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN113012498B (zh) * 2021-02-22 2023-12-05 广东青腾信息科技有限公司 一种智能化的教育系统及教育方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132282A (ja) * 2000-10-20 2002-05-09 Oki Electric Ind Co Ltd 電子テキスト読み上げ装置
CN1842831A (zh) * 2003-09-02 2006-10-04 法尔飞尔德语言技术公司 用于语言指令的系统和方法
JP2009004859A (ja) * 2007-06-19 2009-01-08 Mizuho Information & Research Institute Inc テレホンサービス処理システム、テレホンサービス処理プログラム及びテレホンサービス処理方法
JP2010002841A (ja) * 2008-06-23 2010-01-07 Panasonic Corp コンテンツ再生装置
JP2010066422A (ja) * 2008-09-10 2010-03-25 National Institute Of Information & Communication Technology 音声合成装置、音声合成方法、及びプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62219066A (ja) 1986-03-19 1987-09-26 Fujitsu Ltd 文章読み上げ装置
JP3393478B2 (ja) * 1994-06-15 2003-04-07 株式会社ナカヨ通信機 早送り巻戻し機能付き音声再生装置
JP3707872B2 (ja) * 1996-03-18 2005-10-19 株式会社東芝 音声出力装置及びその方法
US5850629A (en) 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US20060209076A1 (en) * 2000-08-29 2006-09-21 Vtel Corporation Variable play back speed in video mail
US20020086269A1 (en) * 2000-12-18 2002-07-04 Zeev Shpiro Spoken language teaching system based on language unit segmentation
AU2003245497A1 (en) 2002-06-13 2003-12-31 Panasonic Automotive Systems Company Of America Multimode interface
JP4684609B2 (ja) * 2004-09-29 2011-05-18 クラリオン株式会社 音声合成装置、制御方法、制御プログラム及び記録媒体
US20080189099A1 (en) * 2005-01-12 2008-08-07 Howard Friedman Customizable Delivery of Audio Information
JP2007219141A (ja) 2006-02-16 2007-08-30 Seiko Instruments Inc 音声学習器、音声学習器の制御方法及び制御プログラム
JP2009075280A (ja) 2007-09-20 2009-04-09 Nippon Hoso Kyokai <Nhk> コンテンツ再生装置
JP2009117989A (ja) * 2007-11-02 2009-05-28 Sony Corp 情報再生装置及び情報再生方法
JP5146434B2 (ja) * 2009-10-05 2013-02-20 株式会社ナカヨ通信機 録音再生装置
JP2011087196A (ja) * 2009-10-16 2011-04-28 Nec Saitama Ltd 電話機、及び電話機の話速変換方法
US20110184738A1 (en) * 2010-01-25 2011-07-28 Kalisky Dror Navigation and orientation tools for speech synthesis
US20120016671A1 (en) * 2010-07-15 2012-01-19 Pawan Jaggi Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
US8473084B2 (en) * 2010-09-01 2013-06-25 Apple Inc. Audio crossfading
US9037743B2 (en) * 2010-10-28 2015-05-19 Avvasi Inc. Methods and apparatus for providing a presentation quality signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132282A (ja) * 2000-10-20 2002-05-09 Oki Electric Ind Co Ltd 電子テキスト読み上げ装置
CN1842831A (zh) * 2003-09-02 2006-10-04 法尔飞尔德语言技术公司 用于语言指令的系统和方法
JP2009004859A (ja) * 2007-06-19 2009-01-08 Mizuho Information & Research Institute Inc テレホンサービス処理システム、テレホンサービス処理プログラム及びテレホンサービス処理方法
JP2010002841A (ja) * 2008-06-23 2010-01-07 Panasonic Corp コンテンツ再生装置
JP2010066422A (ja) * 2008-09-10 2010-03-25 National Institute Of Information & Communication Technology 音声合成装置、音声合成方法、及びプログラム

Also Published As

Publication number Publication date
EP2916317B1 (en) 2017-10-11
US20150243294A1 (en) 2015-08-27
US9728201B2 (en) 2017-08-08
JP6277958B2 (ja) 2018-02-14
CN104756181A (zh) 2015-07-01
JPWO2014069220A1 (ja) 2016-09-08
WO2014069220A1 (ja) 2014-05-08
EP2916317A4 (en) 2016-08-31
EP2916317A1 (en) 2015-09-09

Similar Documents

Publication Publication Date Title
CN104756181B (zh) 回放装置、设置装置、回放方法及程序
JP7419485B2 (ja) 非要請型コンテンツの人間対コンピュータダイアログ内へのプロアクティブな組込み
US11238854B2 (en) Facilitating creation and playback of user-recorded audio
US10387570B2 (en) Enhanced e-reader experience
US9483470B2 (en) Document navigation method
US10606950B2 (en) Controlling playback of speech-containing audio data
TW200900967A (en) Multi-mode input method editor
JPH0785243A (ja) データ処理方法
JP2011102862A (ja) 音声認識結果管理装置および音声認識結果表示方法
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
CN114023301A (zh) 音频编辑方法、电子设备及存储介质
EP3593346A1 (en) Graphical data selection and presentation of digital content
US20160027471A1 (en) Systems and methods for creating, editing and publishing recorded videos
CN106776634A (zh) 一种用于网络访问的方法、装置及终端设备
JP7481488B2 (ja) オーディオプレゼンテーション対話を用いた自動アシスタント
JP6365520B2 (ja) 音声出力装置、音声出力方法、およびプログラム
CN103678467B (zh) 信息显示控制装置、信息显示控制方法以及系统
KR20220037696A (ko) 연관 정보 제공 방법 및 시스템
KR20010000156A (ko) 인터넷을 이용한 구성요소별 영어학습 방법
WO2024095535A1 (ja) 音声認識結果表示装置、方法及びプログラム
Francisco Concurrent speech feedback for blind people on touchscreens
KR20230102565A (ko) 한국어 회화 학습 콘텐츠 제공 방법 및 장치
CN113672721A (zh) 会议信息显示方法、装置和电子设备
CN116955695A (zh) 音频文件的显示方法和显示装置
CN115118810A (zh) 通话内容回溯方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: NEC CORP.

Free format text: FORMER OWNER: NEC MOBILE COMMUNICATION, LTD.

Effective date: 20150710

C10 Entry into substantive examination
C41 Transfer of patent application or patent right or utility model
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: Kanagawa, Japan

Applicant after: NEC Mobile Communications Ltd.

Address before: Kanagawa, Japan

Applicant before: NEC CASIO Mobile Communications, Ltd.

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM:

Free format text: CORRECT: APPLICANT; FROM: NEC CASIO MOBILE COMMUNICATIONS, LTD. TO: NEC MOBILE COMMUNICATION, LTD.

SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20150710

Address after: Tokyo, Japan

Applicant after: NEC Corp.

Address before: Kanagawa, Japan

Applicant before: NEC Mobile Communications Ltd.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171027

Termination date: 20201011