CN102246225B - 用于合成语音的方法和设备 - Google Patents

用于合成语音的方法和设备 Download PDF

Info

Publication number
CN102246225B
CN102246225B CN2009801504258A CN200980150425A CN102246225B CN 102246225 B CN102246225 B CN 102246225B CN 2009801504258 A CN2009801504258 A CN 2009801504258A CN 200980150425 A CN200980150425 A CN 200980150425A CN 102246225 B CN102246225 B CN 102246225B
Authority
CN
China
Prior art keywords
speech
text
text data
attribute
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009801504258A
Other languages
English (en)
Other versions
CN102246225A (zh
Inventor
F.J.H.M.穆伦布罗克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TP Vision Holding BV
Original Assignee
TP Vision Holding BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TP Vision Holding BV filed Critical TP Vision Holding BV
Publication of CN102246225A publication Critical patent/CN102246225A/zh
Application granted granted Critical
Publication of CN102246225B publication Critical patent/CN102246225B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Machine Translation (AREA)

Abstract

从多个文本数据部分合成语音的方法和设备,每个部分具有至少一个关联的属性。本发明通过对于所述文本数据部分的每一个确定(25,35,45)属性的值、基于所述确定的属性值从多个候选话音中选择(27,37,47)选择话音并且使用所述对应的选择的话音将每个文本数据部分转换(29,39,49)成合成语音而实现。

Description

用于合成语音的方法和设备
技术领域
本发明涉及一种用于合成语音、特别是从多个文本数据部分合成语音的方法和设备。 
背景技术
语音合成,特别是文本-语音转换,在本领域中是公知的并且包括从例如源文本人工产生人类语音。通过这种方式,将文本转换成语音,这对于文盲或弱视者是有用的。与源文本的机器翻译相结合,文本-语音转换也可以允许外语文本在用户母语中的音频复现(reproduction)。
可以转换成语音的一种形式的文本是字幕。字幕是诸如电视节目或电影之类的视频项目回放期间显示的文本部分。字幕有本领域技术人员公知的三种主要类型:“开放式(open)”字幕,其中字幕文本与来自原始视频流的视频帧合并以产生随后以常规方式显示的最终视频流;“预再现(prerendered)”字幕,其中字幕存储为单独的视频帧,其可选地可以叠加到原始视频流上以便一起观看;以及“封闭式(closed)”字幕,其中字幕文本存储为标记文本(即像XML或HTML中的具有标记注释的文本)并且由允许与原始视频流同步回放的专用系统复现,例如图文字幕或封闭字幕信息。
已知将各种不同的符号和风格应用到字幕文本以便向观看者传递附加的信息,例如是否正在说或唱文本部分,或者文本部分是否涉及不同于语音的声音(例如门砰击或叹息)。此外,已知以各种不同的颜色复现字幕,每种颜色代表给定的说话者或者一群说话者。因此,耳背者可以在电视广播期间通过将颜色与每个说话者关联来区分说话者。
字幕也用于翻译的目的。例如,包含第一语言的语音的电影可以具有施加于其上的第二语言的字幕,从而允许第二语言的读者理解该电影。然而,该解决方案对于阅读困难(例如由于弱视或文盲)的第二语言的那些说话者是不够的。电影制作者广泛使用的一个选项是雇佣演员对原始语音“配音”,但这是昂贵且耗时的过程。
当前设置中没有一个允许阅读困难的用户区分以文本形式呈现的不同类别的信息。
发明内容
本发明意在通过对于每个文本类别或者每组文本类别提供对应话音的语音合成而使得用户能够区分不同类别的文本。
依照本发明的第一方面,提供一种合成语音的方法,该方法包括:接收多个文本数据部分,每个文本数据部分具有与其关联的至少一个属性;对于所述文本数据部分的每一个确定至少一个属性的值;基于所述确定的属性值的每一个从多个候选话音中选择话音;以及使用所述对应选择的话音将每个文本数据部分转换成合成语音。所述至少一个属性包括用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高(pitch)(例如第一语言的说话者话音的音高,第一语言的文本部分是第二语言的译文)。
通过这种方式,有可能将不同类别的文本(例如涉及不同的说话者或者不同类别的信息内容,例如标题和章节标题与章节内容)彼此区分。
所述多个文本数据部分可以包含在封闭式字幕中(例如作为标记文本数据)。此外,对于所述文本数据部分的每一个确定至少一个属性的值可包括,对于所述文本数据部分的每一个,确定包含在与文本数据的对应部分关联的封闭式字幕内的代码(例如通过标识标记文本数据的注释)。
可替换地,接收多个文本数据部分可以包括对多幅图像(例如视频帧)执行光学字符识别(OCR)或者类似的模式匹配技术以便提供多个文本数据部分,每幅图像包含包括封闭式字幕、预再现字幕或开放式字幕的文本部分的至少一个视觉表示。此外,所述多个文本数据部分之一的所述至少一个属性可以包括:文本部分的视觉表示之一的文本特征(例如颜色、字样、字体、字体粗细、大小或宽度、字形,如斜体或粗体,等等);文本部分的视觉表示之一在图像中的位置(例如视频帧或者图像中相邻的另一文本部分的左边或右边,或者顶部或底部);或者用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高(例如第一语言的说话者话音的音高,第一语言的文本部分是第二语言的译文)。
候选话音可以包括男性和女性的话音、具有不同口音的话音和/或在其对应音高或音量上不同的话音。
选择话音可以包括从所述多个候选话音中选择最佳的(即最合适的)话音。例如,如果与文本数据部分关联的属性指示该文本大写,那么可以以较高音量合成语音,或者以更迫切响亮的话音合成语音。类似地,如果属性是文本部分之前的项(例如“[耳语]”)的形式,那么可以以较低的音量合成语音。另一方面,如果与文本部分关联的属性与用于同时复现的音频信号的音量或音高相应,那么话音可以被选择成使得合成语音的音量或音高相应。可替换地,适当话音的选择可以由用户进行,而不是或者覆盖自动选择。
依照本发明的第二方面,提供一种计算机程序产品,其包括用于执行上面的方法的多个程序代码部分。
依照本发明的第三方面,提供一种用于从多个文本数据部分合成语音的设备,每个文本数据部分具有与其关联的至少一个属性,该设备包括:值确定单元,其用于对于多个文本数据部分的每一个确定至少一个属性的值;话音选择单元,其用于基于所述确定的属性值的每一个从多个候选话音中选择话音;以及文本-语音转换器,其用于使用所述对应选择的话音将每个文本数据部分转换成合成语音。所述至少一个属性包括用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高(例如第一语言的说话者话音的音高,第一语言的文本部分是第二语言的译文)。
所述值确定单元可以包括代码确定构件,该构件用于对于所述文本数据部分的每一个确定与对应的文本数据部分关联且包含在封闭式字幕中的代码。
可替换地,所述设备可以进一步包括文本数据提取单元,该单元用于对多幅图像执行光学字符识别(OCR)或者类似的模式匹配技术以便提供所述多个文本数据部分,每幅图像包含包括封闭式字幕、预再现字幕或开放式字幕的文本部分的至少一个视觉表示。此外,所述多个文本数据部分之一的所述至少一个属性可以包括:文本部分的视觉表示之一的文本特征(例如颜色、字样、字体、字体粗细、大小或宽度、字形,如斜体或粗体,等等);文本部分的视觉表示之一在图像中的位置;或者用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高。
附图说明
为了更好地理解本发明并且更清楚地显示可以如何实现本发明,现在将通过实例的方式参照附图,在附图中:
图1a示出依照本发明第一实施例的设备;
图1b示出依照本发明第二实施例的设备;
图1c示出依照本发明第三实施例的设备;
图2示出依照本发明第四实施例的设备;
图3a为描述依照本发明第五实施例的方法的流程图;
图3b为描述依照本发明第六实施例的方法的流程图;
图3c为描述依照本发明第七实施例的方法的流程图。
具体实施方式
参照图1a,依照本发明实施例的设备1包括文本数据提取单元3、值确定单元5、话音选择单元9、存储单元11和文本-语音转换器13。
设备1的输入终端15连接到文本数据提取单元3的输入端以及值确定单元5的输入端。值确定单元5的输出端连接到话音选择单元9的输入端。话音选择单元9和存储单元11可操作地彼此耦合。文本数据提取单元3和话音选择单元9的输出端连接到文本-语音转换器13的输入端。文本-语音转换器13的输出端连接到设备1的输出终端17。
操作时,文本数据提取单元3经由输入终端15接收数据。文本数据提取单元3被配置成处理接收的数据以便提取文本部分,该文本部分然后传送到文本-语音转换器13。例如,如果数据为视听流或视频流(从其获取包含文本部分的视觉表示的图像),或者只是包含文本部分的视觉表示的图像,那么文本数据提取单元3被配置成对图像执行光学字符识别以便提取文本部分,该文本部分然后传送到文本-语音转换器13。可替换地或者此外,如果数据为标记有注释的文本的形式,那么文本提取单元3被配置成从注释的(标记的)文本提取文本,并且然后将该文本部分传送到文本-语音转换器13。
值确定单元5也被配置成经由输入终端15直接接收数据。值确定单元5被配置成基于来自输入终端15的数据确定提取的文本部分的至少一个属性的值。例如,如果数据为视听流或视频流(从其获取包含文本部分的视觉表示的图像),或者只是包含文本部分的视觉表示的图像,那么值确定单元5被配置成标识图像中的文本特征,并且给该文本特征赋值。如果数据为视听流,那么值确定单元5被配置成标识该视听流的音频分量的音高并且选择与音高关联的值。如果数据为标记有注释的文本的形式,那么值确定单元5被配置成标识特定的注释并且给该注释赋值。该值然后传输到话音选择单元9。
话音选择单元9基于该值从存储在存储单元11中的多个候选话音中选择话音。文本-语音转换器13使用选择的话音采用标准的技术将文本数据提取单元3输送给它的文本部分转换成语音,该语音然后在输出终端17处输出。
图1b示出依照本发明实施例的设备1’,其与图1a的设备1相似。设备1’具有文本数据提取单元3’、值确定单元5’、话音选择单元9、存储单元11和文本-语音转换器13。
设备1’的输入终端15连接到文本数据提取单元3’的输入端。文本数据提取单元3’的一个输出端连接到值确定单元5’的输入端。值确定单元5’的输出端连接到话音选择单元9的输入端。话音选择单元9和存储单元11可操作地彼此耦合。文本数据提取单元3’的第二输出端和话音选择单元9的输出端连接到文本-语音转换器13的输入端。文本-语音转换器13的输出端连接到设备1’的输出终端17。
操作时,文本数据提取单元3’经由输入终端15接收数据。文本数据提取单元3’被配置成处理接收的数据以便提取文本部分,该文本部分然后传送到文本-语音转换器13。文本数据提取单元3’也被配置成标识与文本部分关联的属性,该属性然后传送到值确定单元5’。例如,如果数据为视听流或视频流(从其获取包含文本部分的视觉表示的图像),或者只是包含文本部分的视觉表示的图像,那么文本数据提取单元3’被配置成对图像执行光学字符识别以便提取文本部分,该文本部分然后传送到文本-语音转换器13。此外,文本数据提取单元3’被配置成标识与经由光学字符识别获得的文本关联的属性,例如图像中的文本的文本特征、图像中的文本的位置或者伴随图像的视听流的音频分量,并且然后将该属性传送到值确定单元5’。
可替换地或者此外,如果数据为标记有注释的文本的形式,那么文本提取单元3’被配置成从注释的(标记的)文本提取文本,并且然后将该文本部分传送到文本-语音转换器13。此外,文本数据提取单元3’被配置成标识与经由提取获得的文本关联的注释并且然后将该注释传送到值确定单元5’。
值确定单元5’被配置成确定文本提取单元3’传送给它的属性的值。
话音选择单元9基于该值从存储在存储单元11中的多个候选话音中选择话音。文本-语音转换器13使用该话音将文本数据提取单元3输送给它的文本部分转换成语音,该语音然后在输出终端17处输出。
可以设想上面两个实施例的各种不同的修改和组合。例如,图1c示出依照本发明实施例的设备1’’,该设备包括文本数据提取单元3’’、值确定单元5’’、话音选择单元9、存储单元11以及文本-语音转换器13。
设备1’’的输入终端15连接到文本数据提取单元3’’的输入端以及值确定单元5’’的一个输入端。文本数据提取单元3’’的一个输出端连接到值确定单元5’’的第二输入端。值确定单元5’’的输出端连接到话音选择单元9的输入端。话音选择单元9和存储单元11可操作地彼此耦合。文本数据提取单元3’’的第二输出端和话音选择单元9的输出端连接到文本-语音转换器13的输入端。文本-语音转换器13的输出端连接到设备1’’的输出终端17。
在该实施例中,文本数据提取单元3’’和值确定单元5’’被配置成取决于用户偏好或者经由输入端15接收的数据形式而表现为图1a或图1b的设置中的任一个。
图2示出本发明另一可替换的实施例,其为具有值确定单元5、话音选择单元9、存储单元11和文本-语音转换器19的设备2的形式。
设备2的输入终端15连接到文本-语音转换器19的第一输入端和值确定单元5的输入端。值确定单元5的输出端连接到话音选择单元9的输入端。话音选择单元9和存储单元11可操作地彼此耦合。话音选择单元9的输出端连接到文本-语音转换器19的第二输入端。文本-语音转换器19的输出端连接到设备2的输出终端17。
在操作时,文本-语音转换器19被配置成直接解释经由输入端15接收的数据,从而避免对于文本提取单元的需要。
尽管在附图中未示出,但是本发明的各个实施例此外包括用于用户与设备交互的用户接口装置。这样的交互可以包括操作话音选择单元9以便从存储在存储单元11中的多个候选话音中选择最佳的(即最合适的)话音,用于值确定单元的给定输出。可替换地,最佳话音的选择可以由话音选择单元基于值确定单元的输出而自动地实现。
图3a的流程图中示出依照本发明实施例的一个示例性的合成语音的方法。在21处,接收标记有注释的文本部分。在23处,标识与标记的文本部分关联的注释。在25处,确定注释的值。在27处,基于该值从多个候选话音中选择话音。在28处,从标记的文本部分提取纯文本以便产生纯文本部分。在29处,使用选择的话音将该纯文本部分转换成合成语音。然后,对于具有与其关联的不同值的注释的新的标记文本部分重复上面的步骤。
图3b中示出依照本发明实施例的另一个示例性的合成语音的方法。在31处,对视频帧执行光学字符识别以便提供文本数据部分和关联的属性。在36处,确定该属性的值。在37处,基于该值从多个候选话音中选择话音。在39处,使用选择的话音将该文本数据部分转换成合成语音。然后,对于新的视频帧重复上面的步骤。
图3c中示出依照本发明实施例的另一示例性的合成语音的方法。在41处,对视听流的视频分量的图像执行光学字符识别以便提供文本数据部分。在45处,确定用于与帧同时复现的视听流的音频分量的对应音高。在47处,基于确定的音高从多个候选话音中选择话音。在49处,使用选择的话音将该文本数据部分转换成合成语音。然后,对于新的图像和关联的音频分量重复上面的步骤。
尽管在附图中示出并且在前面的详细说明中描述了本发明的实施例,但是应当理解的是,本发明并不限于所公开的实施例,而是能够在不脱离以下权利要求书中阐述的本发明的范围的情况下做出许多修改。
本领域技术人员应当清楚的是,“构件(means)”意在包括操作时复现或者被设计成复现规定的功能的任何硬件(例如分立或集成电路或者电子元件)或软件(例如程序或程序部分),无论它是单独地还是与其他功能结合地,无论是隔离地还是与其它单元合作地都可。本发明可以借助于包括若干不同元件的硬件以及借助于经过适当编程的计算机来实现。在列举若干构件的设备权利要求中,这些构件中的一些可以由同一硬件项实施。“计算机程序产品”应当被理解为表示计算机可读介质(例如软盘)上存储的、可经由网络(例如因特网)下载的或者可以任何其他方式营销的任何软件产品。

Claims (14)

1.一种合成与多幅图像关联的语音的方法,该方法包括:
接收(21,31,41)多个文本数据部分,每个文本数据部分具有与其关联的至少一个属性;
对于所述文本数据部分的每一个确定(25,35,45)至少一个属性的值,所述至少一个属性包括用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高;
基于所述确定的属性值的每一个从多个候选话音中选择(27,37,47)话音;和
使用所述对应选择的话音将每个文本数据部分转换(29,39,49)成合成语音。
2.权利要求1的方法,其中接收(21,31,41)多个文本数据部分包括接收(21)包含多个文本数据部分的封闭式字幕。
3.权利要求2的方法,其中对于所述文本数据部分的每一个确定(25,35,45)至少一个属性的值包括:对于所述文本数据部分的每一个,确定(25)包含在与文本数据的对应部分关联的封闭式字幕内的代码。
4.权利要求1的方法,其中接收(21,31,41)多个文本数据部分包括对所述多幅图像执行(31,41)光学字符识别(OCR)或者类似的模式匹配技术以便提供多个文本数据部分,每幅图像包含包括封闭式字幕、预再现字幕或开放式字幕的文本部分的至少一个视觉表示。
5.权利要求4的方法,其中所述多个文本数据部分之一的所述至少一个属性包括:
文本部分的视觉表示之一的文本特征;
文本部分的视觉表示之一在图像中的位置。
6.权利要求1的方法,其中所述候选话音包括男性和女性的话音和/或在其对应音量上不同的话音。
7.权利要求1的方法,其中选择话音包括从所述多个候选话音中选择最佳的话音。
8.一种用于从多个文本数据部分合成与多幅图像关联的语音的设备(1,1’,1’’,2),每个文本数据部分具有与其关联的至少一个属性,该设备包括:
值确定单元(5,5’,5’’),其用于对于多个文本数据部分的每一个确定至少一个属性的值,所述至少一个属性包括用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高;
话音选择单元(9),其用于基于所述确定的属性值的每一个从多个候选话音中选择话音;和
文本-语音转换器(13,19),其用于使用所述对应选择的话音将每个文本数据部分转换成合成语音。
9.权利要求8的设备(1,1’,1’’,2),其中值确定单元(5,5’,5’’)包括代码确定构件,其用于对于所述文本数据部分的每一个确定与对应的文本数据部分关联且包含在封闭式字幕内的代码。
10.权利要求8的设备(1,1’,1’’,2),进一步包括文本数据提取单元(3,3’,3’’),其用于对所述多幅图像执行光学字符识别(OCR)或者类似的模式匹配技术以便提供所述多个文本数据部分,每幅图像包含包括封闭式字幕、预再现字幕或开放式字幕的文本部分的至少一个视觉表示。
11.权利要求10的设备(1,1’,1’’,2),其中所述多个文本数据部分之一的所述至少一个属性包括:
文本部分的视觉表示之一的文本特征;
文本部分的视觉表示之一在图像中的位置。
12.权利要求8的设备(1,1’,1’’,2),其中所述候选话音包括男性和女性的话音和/或在其对应音量上不同的话音。
13.权利要求8的设备(1,1’,1’’,2),其中话音选择单元(9)用于基于所述确定的属性值的每一个从多个候选话音中选择最佳的话音。
14.一种视听显示装置,包括权利要求8-13的设备(1,1’,1’’,2)。
CN2009801504258A 2008-12-15 2009-12-07 用于合成语音的方法和设备 Expired - Fee Related CN102246225B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08171611.0 2008-12-15
EP08171611 2008-12-15
PCT/IB2009/055534 WO2010070519A1 (en) 2008-12-15 2009-12-07 Method and apparatus for synthesizing speech

Publications (2)

Publication Number Publication Date
CN102246225A CN102246225A (zh) 2011-11-16
CN102246225B true CN102246225B (zh) 2013-03-27

Family

ID=41692960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801504258A Expired - Fee Related CN102246225B (zh) 2008-12-15 2009-12-07 用于合成语音的方法和设备

Country Status (8)

Country Link
US (1) US20110243447A1 (zh)
EP (1) EP2377122A1 (zh)
JP (1) JP2012512424A (zh)
KR (1) KR20110100649A (zh)
CN (1) CN102246225B (zh)
BR (1) BRPI0917739A2 (zh)
RU (1) RU2011129330A (zh)
WO (1) WO2010070519A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5104709B2 (ja) * 2008-10-10 2012-12-19 ソニー株式会社 情報処理装置、プログラム、および情報処理方法
US20130124242A1 (en) * 2009-01-28 2013-05-16 Adobe Systems Incorporated Video review workflow process
CN102984496B (zh) * 2012-12-21 2015-08-19 华为技术有限公司 视频会议中的视音频信息的处理方法、装置及系统
WO2014141054A1 (en) * 2013-03-11 2014-09-18 Video Dubber Ltd. Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
KR102299764B1 (ko) * 2014-11-28 2021-09-09 삼성전자주식회사 전자장치, 서버 및 음성출력 방법
KR20190056119A (ko) * 2017-11-16 2019-05-24 삼성전자주식회사 디스플레이장치 및 그 제어방법
US11386901B2 (en) 2019-03-29 2022-07-12 Sony Interactive Entertainment Inc. Audio confirmation system, audio confirmation method, and program via speech and text comparison

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1461146A (zh) * 2002-05-16 2003-12-10 精工爱普生株式会社 字幕提取装置
US6963839B1 (en) * 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application
EP1703492A1 (en) * 2005-03-16 2006-09-20 Research In Motion Limited System and method for personalised text-to-voice synthesis
CN101189657A (zh) * 2005-05-31 2008-05-28 皇家飞利浦电子股份有限公司 一种用于对多媒体信号执行自动配音的方法和设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181692B2 (en) * 1994-07-22 2007-02-20 Siegel Steven H Method for the auditory navigation of text
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
JP2000092460A (ja) * 1998-09-08 2000-03-31 Nec Corp 字幕・音声データ翻訳装置および字幕・音声データ翻訳方法
JP2002007396A (ja) * 2000-06-21 2002-01-11 Nippon Hoso Kyokai <Nhk> 音声多言語化装置および音声を多言語化するプログラムを記録した媒体
US6792407B2 (en) * 2001-03-30 2004-09-14 Matsushita Electric Industrial Co., Ltd. Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems
JP2004140583A (ja) * 2002-10-17 2004-05-13 Matsushita Electric Ind Co Ltd 情報提示装置
US20070282607A1 (en) * 2004-04-28 2007-12-06 Otodio Limited System For Distributing A Text Document
US8015009B2 (en) * 2005-05-04 2011-09-06 Joel Jay Harband Speech derived from text in computer presentation applications
US20070174396A1 (en) * 2006-01-24 2007-07-26 Cisco Technology, Inc. Email text-to-speech conversion in sender's voice
US9087507B2 (en) * 2006-09-15 2015-07-21 Yahoo! Inc. Aural skimming and scrolling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963839B1 (en) * 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application
CN1461146A (zh) * 2002-05-16 2003-12-10 精工爱普生株式会社 字幕提取装置
EP1703492A1 (en) * 2005-03-16 2006-09-20 Research In Motion Limited System and method for personalised text-to-voice synthesis
CN101189657A (zh) * 2005-05-31 2008-05-28 皇家飞利浦电子股份有限公司 一种用于对多媒体信号执行自动配音的方法和设备

Also Published As

Publication number Publication date
WO2010070519A1 (en) 2010-06-24
CN102246225A (zh) 2011-11-16
KR20110100649A (ko) 2011-09-14
JP2012512424A (ja) 2012-05-31
RU2011129330A (ru) 2013-01-27
BRPI0917739A2 (pt) 2016-02-16
US20110243447A1 (en) 2011-10-06
EP2377122A1 (en) 2011-10-19

Similar Documents

Publication Publication Date Title
CN102246225B (zh) 用于合成语音的方法和设备
KR100654455B1 (ko) 확장형 자막 파일을 이용하여 부가정보를 제공하는 장치 및방법
EP1246166B1 (en) Speech recognition based captioning system
JP3953886B2 (ja) 字幕抽出装置
US8229748B2 (en) Methods and apparatus to present a video program to a visually impaired person
CN101630448B (zh) 语言学习客户端及系统
US20150317304A1 (en) Method and system for sign language translation and descriptive video service
KR20160111275A (ko) 외국어 학습 시스템 및 외국어 학습 방법
JP2003333445A5 (ja) 字幕抽出装置及びシステム
CN102209227A (zh) 在视频会议中增加翻译的方法和系统
CN112449253A (zh) 交互式视频生成
US7120583B2 (en) Information presentation system, information presentation apparatus, control method thereof and computer readable memory
KR101990019B1 (ko) 하이브리드 자막 효과 구현 단말 및 방법
KR102307330B1 (ko) 수신 장치 및 수신 방법
Piccolo et al. Accessibility and interactive TV: design recommendations for the brazilian scenario
JP2004334369A (ja) 音声対話シナリオ変換方法、音声対話シナリオ変換装置、音声対話シナリオ変換プログラム
KR100977972B1 (ko) 캡션 정보를 이용한 스크립트 생성기능을 갖는영상표시기기 및 그 제어방법
JP2013157656A (ja) デジタル放送システム
JP2002108601A (ja) 情報処理システム及び装置及び方法
JP2004336606A (ja) 字幕制作システム
JP2977855B2 (ja) 文字放送システム
JP2006303959A (ja) 字幕生成プログラムおよび字幕生成装置
KR20230114130A (ko) 광고 영상 제작 시스템 및 방법
Costa et al. Universal set-top box: A simple design to provide accessible services
CN115841808A (zh) 视频处理方法、装置、电子设备、可读存储介质及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: TP VISION HOLDING B.V.

Free format text: FORMER OWNER: ROYAL PHILIPS ELECTRONICS N.V.

Effective date: 20120824

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20120824

Address after: Holland Ian Deho Finn

Applicant after: Tp Vision Holding B. V.

Address before: Holland Ian Deho Finn

Applicant before: Koninklijke Philips Electronics N.V.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130327

Termination date: 20141207

EXPY Termination of patent right or utility model