CN101504643A - 声音处理系统、声音处理程序以及声音处理方法 - Google Patents

声音处理系统、声音处理程序以及声音处理方法 Download PDF

Info

Publication number
CN101504643A
CN101504643A CNA2008101761822A CN200810176182A CN101504643A CN 101504643 A CN101504643 A CN 101504643A CN A2008101761822 A CNA2008101761822 A CN A2008101761822A CN 200810176182 A CN200810176182 A CN 200810176182A CN 101504643 A CN101504643 A CN 101504643A
Authority
CN
China
Prior art keywords
mentioned
language
sound
prosodic information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101761822A
Other languages
English (en)
Inventor
布社辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN101504643A publication Critical patent/CN101504643A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种声音处理系统、声音处理程序以及声音处理方法,输出根据源声音的韵律信息翻译出的声音。声音翻译系统接受基于第1语言的源声音的输入,将所输入的内容翻译成第2语言而以声音形式输出,具备:输入处理部,接受源声音的输入,根据源声音生成作为基于第1语言的文本的源语言文本以及源声音的韵律信息;翻译部,生成将源语言文本从第1语言翻译成第2语言的对译文;韵律变换信息,包括第1语言的韵律信息以及第2语言的韵律信息的对应关系;韵律特征变换部,根据韵律变换信息,将源声音的韵律信息变换成所输出的声音的韵律信息;以及声音合成部,利用根据所输出的声音的韵律信息合成的声音,输出对译文。

Description

声音处理系统、声音处理程序以及声音处理方法
技术领域
本发明涉及将以源语言形式输入的声音数据变换成目的语言而进行声音输出的技术。
背景技术
近年来,随着国际间的交流繁盛,多语言交流的必要性增加,从而为了实现多语言交流而需要多语言通译。作为实现多语言交流的手段,伴随计算机的处理能力提高和大容量数据库利用,声音识别技术以及自然语言处理技术、特别是针对文本的机械翻译技术的高速化以及高精度化等得到了进步。进而,声音合成技术的高品质化得到了进步,可以实现利用这些技术的多语言的声音翻译装置(例如参照专利文献1)。
在声音翻译装置中,公开出如下的技术:为了提高翻译的正确性,根据重要语句规则抽取条件,可以判定所输入的源语言信息的重要部分,根据判定结果设定翻译精度。并且根据所设定的精度,将源语言信息翻译成以目的语言记述的对译语言信息(例如参照专利文献2)。
另外,在声音翻译系统中,公开出如下的技术:为了提高声音质量,从源语言的输入声音抽取说话者的音质特征,测量与目的语言声音的类似性,根据所得到的声质类似性测量结果,合成出与源语言声音的声质比较类似的目的语言声音(例如参照专利文献3)。
专利文献1:专利公开2005-141759号公报
专利文献2:专利公开2004-355118号公报
专利文献3:专利公开2006-330298号公报
另外,上述的以往技术是通过测量所输入的源语言的声音的音质,并控制目的语言的声音合成部而实现的。另外,根据输入源语言的重要度的判定结果而翻译成目的语言。但是,在以往的声音翻译系统中,不存在自动地变换声音的韵律特征的技术,并且未利用输入输出声音的韵律特征模式与标准的韵律特征模式的差分信息,所以不能得到充分的精度。
本发明的目的在于提供一种声音翻译系统,利用所输入的源语言声音的韵律特征,并以更高的正确性且更自然的目的语言进行输出。
发明内容
本发明的代表性的一个方式的声音翻译系统接受基于第1语言的源声音的输入,将上述输入的内容翻译成第2语言而以声音形式输出,具备:输入处理部,接受上述源声音的输入,根据上述源声音生成作为基于上述第1语言的文本的源语言文本以及上述源声音的韵律信息;翻译部,生成将上述源语言文本从上述第1语言翻译成上述第2语言的对译文;韵律变换信息,包括上述第1语言的韵律信息以及上述第2语言的韵律信息的对应关系;韵律特征变换部,根据上述韵律变换信息,将上述源声音的韵律信息变换成上述输出的声音的韵律信息;以及声音合成部,利用根据上述输出的声音的韵律信息合成的声音,输出上述对译文。
根据本发明的一个方式,可以输出基于所输入的第1语言(源语言)的声音的韵律信息的第2语言(目的语言)的声音。
附图说明
图1是示出本发明的第1实施方式的声音翻译装置的结构的图。
图2是示出本发明的第1实施方式的各结构的处理的关系的图。
图3是示出本发明的第1实施方式的声音翻译处理的整体的步骤的流程图。
图4是示出本发明的第1实施方式的输入处理部的结构的图。
图5是示出本发明的第1实施方式的韵律特征变换部的结构的图。
图6是示出本发明的第1实施方式的韵律变换数据库的结构的一个例子的图。
图7是示出本发明的第1实施方式的韵律特征变换部的处理的步骤的流程图。
图8是本发明的第2实施方式的声音翻译装置的包括输入部以及输出部的图。
图9是示出本发明的第2实施方式的声音翻译装置的输入输出画面的一个例子的图。
标号说明
1   声音翻译装置
2   处理器
3   主存储器
4   存储部
5   输入部
6   输出部
10  输入处理部
20  翻译部
30  韵律特征变换部
40  韵律变换数据库
50  声音合成部
60  语言标准韵律集
110 声音特征抽取部
120 声音识别部
130 语言解析部
140 选择结果对象显示修正单元
150 特征变更修正部
160 语言修正变更部
310 韵律特征差分测量部
320 目的语言韵律特征生成部
330 差分变换部
340 源语言标准韵律集
350 目的语言标准韵律集
具体实施方式
接下来,参照附图对本发明的实施方式进行说明。
(第1实施方式)
图1是示出本发明的第1实施方式的声音翻译装置1的结构的图。
声音翻译装置1具备处理器2、主存储器3、存储部4、输入部5以及输出部6。另外,在本发明的第1实施方式中,构成为由声音翻译装置1处理所有的功能,但作为声音翻译系统,也可以构成为针对每个功能由不同的计算机进行处理,也可以构成为为了保存向存储部4保存的数据而包括其他贮存器装置。
处理器2通过处理存储在主存储器3中的程序,而执行各种处理。
主存储器3存储由处理器2执行的程序以及各种处理的执行所需的数据。主存储器3存储输入处理部10、翻译部20、韵律特征变换部30以及声音合成部50。输入处理部10、翻译部20、韵律特征变换部30以及声音合成部50是由处理器2执行的程序。
输入处理部10对所输入的源语言声音进行处理。翻译部20对所输入的源语言声音进行翻译(通译)。另外,翻译部20包括方言等同一语言间的变换。
韵律特征变换部30对所输入的源语言声音进行解析,而抽取韵律的特征。进而,根据所抽取的韵律特征以及目的语言的标准韵律,将所输入的源语言声音的韵律变换成目的语言的韵律。
声音合成部50根据由韵律特征变换部30变换后的目的语言的韵律,合成目的语言的声音。
存储部4保存本发明的声音翻译处理中所需的程序以及数据。保存在存储部4中的程序在执行时被载入主存储器3。在保存于存储部4中的数据中,包括韵律变换数据库40以及语言标准韵律集60。
韵律变换数据库40保存有成为翻译的对象的语言间的韵律的对应信息。语言标准韵律集60是包括与本发明的声音翻译装置1对应的语言的文章的巨大的文本数据。另外,在进行本发明的说明的情况下,将源语言(输入)的语言标准韵律集60设为源语言标准韵律集340,将目的语言(输出)的语言标准韵律集60设为目的语言标准韵律集成350。
输入部5接受声音信息以及文本信息等输入。具体而言,包括接受声音的输入的麦克风、以及接受文本信息等的输入的键盘等。
输出部6输出声音信息以及文本信息等。具体而言,包括输出声音信息的扬声器、以及显示翻译结果等的通用显示器等。
图2是说明基于本发明的第1实施方式的各结构的处理的关系的图。
在本发明的声音翻译装置1中,由输入处理部10接受输入语言(第1语言)的源声音数据。输入处理部10将所输入的源声音数据变换成文本,向翻译部20以及韵律特征变换部30提交变换结果。在后面,使用图4对输入处理部10的结构进行详细说明。
翻译部20将从源声音数据变换后的基于源语言的文本翻译成目的语言(第2语言)。韵律特征变换部30根据保存在韵律变换数据库40中的数据,对输入语言的声音数据的韵律特征模式进行解析,生成目的语言的声音数据的韵律特征模式。在后面,使用图5对韵律特征变换部30的结构进行详细说明。韵律是利用声音的长、短、辅音、原音或重音的排列的方式来表示的,韵律特征模式是抽取韵律的特征而得到的。
声音合成部50根据利用由翻译部20得到的翻译结果和由韵律特征变换部30生成的韵律特征模式合成目的语言的声音。然后,从输出部6输出所合成的目的语言声音。
图3是示出本发明的第1实施方式的声音翻译处理的整体的步骤的流程图。
在本发明的第1实施方式的声音翻译处理中,首先,声音翻译装置1的处理器2执行输入处理部10,从而执行源语言声音输入处理(S2)。在源语言声音输入处理中,接受从输入部5输入的源语言声音,将所输入的源语言声音变换成易于解析。具体而言,将声音信息变换成文本,或者从声音信息抽取韵律信息。
如果源语言声音输入处理结束,则处理器2通过执行翻译部20,执行目的语言翻译处理(S3)。在目的语言翻译处理中,根据文本变换后的源语言声音信息,翻译成目的语言。从源语言翻译成目的语言的技术利用既存的技术。
如果源语言声音输入处理以及目的语言翻译处理结束,则处理器2通过执行韵律特征变换部30,执行目的语言韵律特征生成处理(S4)。在目的语言韵律特征生成处理中,首先,根据在源语言声音输入处理中抽取的输入语言的声音数据的韵律信息,解析韵律特征模式。然后,根据所解析出的韵律特征模式以及通过目的语言翻译处理翻译后的目的语言的翻译结果,生成目的语言的声音信息的韵律信息。在后面,使用图6对目的语言韵律特征生成处理进行详细说明。
最后,处理器2通过执行声音合成部50,合成所翻译出的目的语言的声音(S5)。具体而言,将通过目的语言翻译处理得到的向目的语言的翻译结果变换成声音信息,在变换后的声音信息中根据在目的语言韵律特征生成处理中生成的韵律信息合成声音信息。
图4是示出本发明的第1实施方式的输入处理部10的结构的图。
输入处理部10构成为包括声音特征抽取部110、声音识别部120、语言解析部130、选择结果对象显示修正单元140、特征变更修正部150以及语言修正变更部160。
输入处理部10首先如果被输入源语言的声音,则利用声音识别部120取得源语言的语言文本以及音素分段识别结果。音素分段是指,针对每个音素分割所输入的声音的处理。
接下来,输入处理部10利用声音特征抽取部110,根据所输入的源语言的声音数据以及利用声音识别部120取得的音素分段识别结果,抽取源语言的韵律特征模式。韵律特征模式具体而言是指,音调模式、能量、重音、持续长度、或音素间的无声区间的长度等。
接下来,在输入处理部10中,根据使用声音识别部120抽取的源语言的韵律特征模式,语言解析部130对利用声音识别部120取得的语言文本进行解析。作为解析方法,例如有词素解析、句法解析、意思解析处理等。
在输入处理部10中,可以利用特征变更修正部150来修正利用声音特征抽取部110抽取的源语言的韵律特征模式。另外,可以利用语言修正变更部160接受源语言的文本信息的输入,而修正利用语言解析部130得到的语言文本的解析结果。特征变更修正部150以及语言修正变更部160接受来自包括GUI的选择结果对象显示修正单元140的输入,修正解析结果。在后面,使用图9对GUI的一个例子进行叙述。
在翻译部20中,将包括利用输入处理部10取得的源语言的语言文本以及音素分段识别结果的信息设为输入,而翻译成所指定的目的语言。在利用翻译部20执行的翻译处理中,可以利用一般的转换方式、基于规则方式、统计性语言模型方式、中间语言方式等机械翻译系统中利用的所有方法。
进而,在翻译部20中,通过利用韵律特征模式,可以判断文章中被强调的部分,而进行更恰当的翻译。例如,对将作为源语言(第1语言)的日文的输入文“开往东京的列车即将从3号线在9点40分发车。”翻译成作为目的语言(第2语言)的中文的情况进行说明。在输入文中“3号线”被强调的情况下,与“3号线”对应的中文单词配置于翻译文的第一关注位置。另外,在输入文中“9点40分”被当作焦点的情况下,所对应的中文单词可以配置于翻译文的第一关注位置。
图5是示出本发明的第1实施方式的韵律特征变换部30的结构的图。
韵律特征变换部30包括韵律特征差分测量部310、差分变换部330以及目的语言韵律特征生成部320。
韵律特征差分测量部310首先接受从输入处理部10的声音特征抽取部110或特征变更修正部150取得的源语言的韵律特征模式和通过语言解析部130或语言修正变更部160得到的源语言的句法解析结果。韵律特征差分测量部310参照源语言标准韵律集340,测量源语言的韵律特征模式和标准韵律模式的差分。具体而言,针对音调模式、能量、重音、持续长度、音素间的无声区间的长度、或输入文整体水平的韵律特征模式等,对源语言的韵律特征模式与标准韵律模式进行比较。
接下来,差分变换部330接受利用翻译部20翻译成目的语言的结果和源语言的韵律差分测量分析结果的输入。然后,根据韵律变换数据库40,取得最恰当的目的语言的韵律特征模式。韵律变换数据库40例如可以实现成基于集的变换表,在后面利用图6来进行叙述。
图6是示出本发明的第1实施方式的韵律变换数据库40的结构的一个例子的图。
韵律变换数据库40将源语言的语言解析向量、源语言的韵律差分解析向量以及目的语言的语言解析向量作为检索条件(输入项目),将检索结果(输出项目)设为目的语言的韵律差分解析向量。韵律差分解析向量是指,对构成韵律特征模式的各项目进行数值化,并将这些数值设为要素的向量。
具体而言,检索条件(输入项目)包括应用领域、句型、源语言的单词、词汇、前后环境、韵律特征解析向量、目的语言的单词、词汇以及前后音韵环境。另一方面,检索结果(输出项目)是所映射的目的语言的韵律差分解析向量。韵律差分解析向量包括音调模式、能量、重音、持续长度、音素间的无声区间的长度、输入文整体水平的韵律特征模式(平均音调、平均能量等)等信息。
这样,在韵律变换数据库40中,将源语言的语言解析向量以及韵律差分解析向量、与目的语言的语言解析向量以及韵律差分解析向量对应关联地保存。因此,可以加上源声音数据的韵律,而取得要输出的目的语言的韵律。另外,在韵律变换数据库40的各记录中,源语言的单词与目的语言的单词无需成为1对1,而还有时以多个单词来对应。
此处,在返回到图5的说明时,差分变换部330从韵律变换数据库40,利用最大似然决定等算法取得与检索条件最适合的目的语言的韵律差分解析向量。另外,将在后面叙述用于取得与检索条件最适合的目的语言的韵律差分解析向量的方法。
之后,将目的语言韵律差分向量和通过翻译部20得到的目的语言的翻译结果作为输入,参照目的语言标准韵律集350,利用目的语言韵律特征生成部320生成目的语言的韵律特征模式。
接下来,对将所输入的源语言的韵律变换成目的语言的韵律的步骤进行说明。
图7是示出本发明的第1实施方式的韵律特征变换部30的处理的步骤的流程图。本处理是通过声音翻译装置1的处理器2处理韵律特征变换部30而执行的。
处理器2首先根据源语言的韵律特征模式以及源语言的句法解析结果,计算出输入文的与各单词单位对应的韵律特征(S31)。接下来,计算出与各单词对应的韵律特征向量(S32)。
处理器2计算出与各单词对应的韵律特征向量和与包含在源语言标准韵律集340中的各单词对应的特征向量之间的韵律特征差分向量(S33)。进而,根据与源语言的各单词对应的目的语言翻译结果和源语言的韵律特征差分向量,制成韵律变换数据库的检索条件。
接下来,处理器2从韵律变换数据库40检索出源语言的单词与目的语言翻译结果的语言解析向量部分(参照图6)一致的记录,判定可否取得一致的记录(S34)。在无法检索出一致的记录的情况下(S34的结果为“否”),执行错误处理(S36),结束变换作业。
另一方面,处理器2在存在语言解析向量部分一致的记录的情况下(S34的结果为“是”),针对从韵律变换数据库40检索出的记录执行S35的处理。此处,在S33的处理中取得的源语言的韵律差分向量与在之前制成的候补语言韵律差分向量的欧几里德距离最小的情况下,将该距离定义成最小向量距离。在S35的处理中,检索成为最小向量距离的源语言韵律特征差分向量、即源语言的最大似然韵律特征差分向量。将与在S35的处理中取得的源语言的韵律差分向量的最小向量距离对应的目的语言韵律差分向量选择成最大似然的目的语言的韵律差分向量。
接下来,处理器2使用所选择出的目的语言的韵律差分向量和包含在目的语言标准韵律集350中的目的语言的标准特征向量,计算出目的语言的韵律特征向量(S37)。最后,根据所生成的韵律特征向量,利用目的语言韵律特征生成部320生成目的语言的韵律特征模式(S38)。
在进一步具体说明时,在源语言为日文、目的语言为英文的情况下,测量出所输入的日文源声音的音调模式与标准模式的差分。根据所测量出的差分值,利用通过在翻译部20取得的翻译结果,可以估计出所对应的英文内容的恰当的强调模式。
另外,作为另一例子,在源语言为日文、目的语言为中文的情况下,测量出所输入的日语疑问句的韵律特征中反映的整体性的音调模式特征与标准模式的差分。根据所测量出的差分值,可以生成所对应的中文疑问句的恰当的音调模式。
声音合成部50输入以目的语言翻译成的字符串,根据所变换后的目的语言的韵律特征合成声音而从输出部6输出。声音合成处理利用既存的技术,而在此不进行详细叙述。
根据本发明的第1实施方式,根据所输入的源语言的韵律特征模式,生成所输出的目的语言的韵律特征模式,合成所输出的声音信息,从而可以实现以更自然的发声输出的声音翻译。例如,可以以与所输入的声音信息类似的声质合成输出声音。进而,通过输入声音的重音或声量、或者、根据强调后的单词等,即使对微细差别的差异也能够应对。
(第2实施方式)
在本发明的第1实施方式中,对根据预先输入的韵律变换数据库40翻译输入声音的情况进行了说明,但在本发明的第2实施方式中,对通过由利用者进行追加和更新数据,而在韵律变换数据库40中具备学习功能的情况进行说明。
另外,在本发明的第2实施方式中,针对与本发明的第1实施方式共同的内容,恰当省略说明。
图8是说明本发明的第2实施方式的声音翻译装置1的输入部5以及输出部6的图。
本发明的第2实施方式的声音翻译装置1包括输入输出画面D10、麦克风的输入部D20、麦克风的音量调整部D30、扬声器输出部D40、以及扬声器的音量调整部D50。
输入输出画面D10为触摸面板,是受理韵律变换数据库40的记录的显示、变更以及追加的GUI接口。输入输出画面D10如上所述还可以作为向第1实施方式的特征变更修正部150以及语言修正变更部160输入修正项目的GUI发挥功能。
在声音翻译装置1中,向麦克风的输入部D20连接麦克风,使用麦克风的音量调整部D30调整音量。进而,向扬声器输出部D40连接扬声器,而使用扬声器的音量调整部D50调整音量。
图9是示出本发明的第2实施方式的声音翻译装置1的输入输出画面D10的一个例子的图。
输入输出画面D10具备源语言种类选择按钮1501、目的语言种类选择按钮1502、翻译按钮1503、再现按钮1504、源语言输入显示部1505、目的语言变换结果显示部1506、目的语言变换结果选择部1507、以及更新按钮1508。
源语言种类选择按钮1501选择从声音翻译装置1的麦克风的输入部D20输入的源语言声音的源语言的种类。目的语言种类选择按钮1502选择翻译源语言的目的语言。
翻译按钮1503执行翻译。在再次希望输出声音信息的情况下操作再现按钮1504。
源语言输入显示部1505显示利用输入处理部10对从声音翻译装置1的麦克风的输入部D20输入的源语言声音进行处理而得到的结果。在源语言输入显示部1505中,可以变更所输出的内容。通过变更源语言输入显示部1505的内容,并操作翻译按钮1503,可以利用翻译部20以及韵律特征变换部30将输入修正后的源语言的语言解析结果以及韵律特征模式从源语言的声音内容翻译成目的语言。
另外,在目的语言变换结果显示部1506中,作为翻译部20以及韵律特征变换部30的处理结果,显示出与目的语言的翻译结果对应的韵律特征模式。另外,可以在目的语言变换结果显示部1506中,显示多个目的语言变换结果。利用者通过选择最佳的目的语言变换结果,并操作所对应的目的语言变换结果选择部1507,可以使所选择的韵律特征模式反映到输出结果。如果操作翻译按钮1503,则根据所选择的目的语言变换结果,由声音合成部50合成目的语言的声音,从扬声器输出部D40输出所合成的声音。另外,也可以变更显示在目的语言变换结果显示部1506上的内容自身。
进而,如果操作更新按钮1508,则可以使在源语言输入显示部1505和/或目的语言变换结果显示部1506上变更的内容反映到韵律变换数据库40。
根据本发明的第2实施方式,通过修正基于输入处理部10的处理结果以及基于韵律特征变换部30的处理结果,可以使韵律变换数据库40学习到修正事项,而进一步提高翻译的精度。

Claims (13)

1.一种声音处理系统,接受基于第1语言的源声音的输入,将上述输入的内容变换成第2语言而以声音形式输出,其特征在于,具备:
输入处理部,接受上述源声音的输入,根据上述源声音生成作为基于上述第1语言的文本的源语言文本以及上述源声音的韵律信息;
翻译部,生成将上述源语言文本从上述第1语言变换成上述第2语言的对译文;
韵律变换信息,包括上述第1语言的韵律信息以及上述第2语言的韵律信息的对应关系;
韵律特征变换部,根据上述韵律变换信息,将上述源声音的韵律信息变换成上述输出的声音的韵律信息;以及
声音合成部,利用根据上述输出的声音的韵律信息合成的声音,输出上述对译文。
2.根据权利要求1所述的声音处理系统,其特征在于:
上述声音处理系统保存包括上述第1语言的标准的韵律信息的第1标准韵律信息、以及包括上述第2语言的标准的韵律信息的第2标准韵律信息,
上述韵律特征变换部
根据上述第1标准韵律信息,取得上述源声音的韵律信息与上述第1语言的标准的韵律信息之间的差分信息,
根据上述对译文以及上述源声音的韵律信息的差分信息,从上述韵律变换信息,检索上述第2语言的韵律信息,
根据上述第2标准韵律信息,取得上述检索出的第2语言的韵律信息与上述第2语言的标准的韵律信息之间的差分信息,
根据上述取得的第2语言的韵律信息的差分信息,生成上述输出的声音的韵律信息。
3.根据权利要求2所述的声音处理系统,其特征在于:
上述韵律特征变换部通过将上述源语言文本分割成单词,并针对每个上述分割出的单词取得上述第2语言的韵律信息的差分信息,从而生成为上述输出的声音的韵律信息。
4.根据权利要求2所述的声音处理系统,其特征在于:上述韵律信息是通过对包括音调以及重音的各项目进行数值化后的向量来被表示,
上述韵律特征变换部在从上述韵律变换信息检索与上述第1语言的韵律信息对应的上述第2语言的韵律信息的情况下,将表示上述源声音的韵律信息的向量与表示上述第1语言的韵律信息的向量的欧几里德距离成为最小的韵律信息设为检索结果。
5.根据权利要求1所述的声音处理系统,其特征在于:上述输入处理部解析包含在上述源声音中的音素,
根据上述音素的解析结果,生成上述源声音的韵律信息,
根据上述源声音的韵律信息,制成上述源语言文本。
6.根据权利要求1所述的声音处理系统,其特征在于:上述韵律特征变换部显示包括上述对译文以及所对应的韵律信息的变换结果,接受上述变换结果的修正,使上述修正后的变换结果反映到上述韵律变换信息。
7.一种由包含在声音处理系统中的声音处理装置执行的声音处理程序,该声音处理系统接受基于第1语言的源声音的输入,将上述输入的内容变换成第2语言而以声音形式输出,其特征在于:
上述声音处理系统具备包括上述第1语言的韵律信息以及上述第2语言的韵律信息的对应关系的韵律变换信息,
上述程序使上述声音处理装置执行如下步骤:
接受上述源声音的输入的步骤;
根据上述源声音生成作为基于上述第1语言的文本的源语言文本以及上述源声音的韵律信息的步骤;
生成将上述源语言文本从上述第1语言变换成上述第2语言的对译文的步骤;
根据上述韵律变换信息,将上述源声音的韵律信息变换成上述输出的声音的韵律信息的步骤;以及
利用根据上述输出的声音的韵律信息合成的声音,输出上述对译文的步骤。
8.根据权利要求7所述的声音处理程序,其特征在于:上述声音处理系统保存包括上述第1语言的标准的韵律信息的第1标准韵律信息、以及包括上述第2语言的标准的韵律信息的第2标准韵律信息,
变换上述韵律信息的步骤包括:
根据上述第1标准韵律信息,取得上述源声音的韵律信息与上述第1语言的标准的韵律信息之间的差分信息的步骤;
根据上述对译文以及上述源声音的韵律信息的差分信息,从上述韵律变换信息,检索上述第2语言的韵律信息的步骤;
根据上述第2标准韵律信息,取得上述检索出的第2语言的韵律信息与上述第2语言的标准的韵律信息之间的差分信息的步骤;
根据上述取得的第2语言的韵律信息的差分信息,生成为上述输出的声音的韵律信息的步骤。
9.根据权利要求8所述的声音处理程序,其特征在于:变换上述韵律信息的步骤包括将上述源语言文本分割成单词的步骤,
通过针对每个上述分割出的单词取得上述第2语言的韵律信息的差分信息,从而生成为上述输出的声音的韵律信息。
10.根据权利要求8所述的声音处理程序,其特征在于:上述韵律信息是利用对包括音调以及重音的各项目进行数值化后的向量来被表示,
从上述韵律变换信息检索上述第2语言的韵律信息的步骤是将表示上述源声音的韵律信息的向量与表示上述第1语言的韵律信息的向量的欧几里德距离成为最小的上述第2语言的韵律信息设为检索结果。
11.根据权利要求7所述的声音处理程序,其特征在于:生成上述源语言文本以及上述源声音的韵律信息的步骤包括:
解析包含在上述源声音中的音素的步骤;
根据上述音素的解析结果,生成上述源声音的韵律信息的步骤;以及
根据上述源声音的韵律信息,制成上述源语言文本的步骤。
12.根据权利要求7所述的声音处理程序,其特征在于:
变换上述韵律信息的步骤包括:
显示包括上述对译文以及所对应的韵律信息的变换结果的步骤;
接受上述变换结果的修正的步骤;以及
使上述修正后的变换结果反映到上述韵律变换信息的步骤。
13.一种声音处理系统中的声音处理方法,该声音处理系统接受基于第1语言的源声音的输入,将上述输入的内容变换成第2语言而以声音形式输出,其特征在于:
上述声音处理系统具备包括上述第1语言的韵律信息以及上述第2语言的韵律信息的对应关系的韵律变换信息,
在上述方法中,
接受上述源声音的输入,
根据上述源声音生成作为基于上述第1语言的文本的源语言文本以及上述源声音的韵律信息,
生成将上述源语言文本从上述第1语言变换成上述第2语言的对译文,
根据上述韵律变换信息,将上述源声音的韵律信息变换成上述输出的声音的韵律信息,
利用根据上述输出的声音的韵律信息合成的声音,输出上述对译文。
CNA2008101761822A 2008-02-07 2008-11-14 声音处理系统、声音处理程序以及声音处理方法 Pending CN101504643A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008027745 2008-02-07
JP2008027745A JP2009186820A (ja) 2008-02-07 2008-02-07 音声処理システム、音声処理プログラム及び音声処理方法

Publications (1)

Publication Number Publication Date
CN101504643A true CN101504643A (zh) 2009-08-12

Family

ID=40939639

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101761822A Pending CN101504643A (zh) 2008-02-07 2008-11-14 声音处理系统、声音处理程序以及声音处理方法

Country Status (3)

Country Link
US (1) US20090204401A1 (zh)
JP (1) JP2009186820A (zh)
CN (1) CN101504643A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106575502A (zh) * 2014-09-26 2017-04-19 英特尔公司 用于在合成语音中提供非词汇线索的系统和方法
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN111161725A (zh) * 2019-12-17 2020-05-15 珠海格力电器股份有限公司 一种语音交互方法、装置、计算设备及存储介质
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111837178A (zh) * 2018-03-14 2020-10-27 倍播看科技有限公司 语音处理系统和处理语音信号的方法
US12039969B2 (en) 2018-03-14 2024-07-16 Papercup Technologies Limited Speech processing system and a method of processing a speech signal

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011197511A (ja) * 2010-03-23 2011-10-06 Seiko Epson Corp 音声出力装置、音声出力装置の制御方法、印刷装置および装着ボード
KR20140121580A (ko) * 2013-04-08 2014-10-16 한국전자통신연구원 자동 번역 및 통역 장치 및 그 방법
JP6277597B2 (ja) * 2013-04-22 2018-02-14 カシオ計算機株式会社 音声翻訳装置、音声翻訳方法及びプログラム
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US9805028B1 (en) 2014-09-17 2017-10-31 Google Inc. Translating terms using numeric representations
JP6433063B2 (ja) * 2014-11-27 2018-12-05 日本放送協会 音声加工装置、及びプログラム
US10083155B2 (en) * 2016-05-17 2018-09-25 International Business Machines Corporation Method for detecting original language of translated document
JP6238181B1 (ja) * 2016-10-05 2017-11-29 パナソニックIpマネジメント株式会社 拡声装置およびその制御方法
CN109300469A (zh) * 2018-09-05 2019-02-01 满金坝(深圳)科技有限公司 基于机器学习的同声传译方法及装置
CN109448698A (zh) * 2018-10-17 2019-03-08 深圳壹账通智能科技有限公司 同声传译方法、装置、计算机设备和存储介质
DK3855340T3 (da) * 2019-12-30 2023-12-04 Tmrw Found Ip Sarl Tværsproglig stemmekonverteringssystem og fremgangsmåde
CN111754978B (zh) * 2020-06-15 2023-04-18 北京百度网讯科技有限公司 韵律层级标注方法、装置、设备和存储介质
US20230125543A1 (en) * 2021-10-26 2023-04-27 International Business Machines Corporation Generating audio files based on user generated scripts and voice components

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
CN1159702C (zh) * 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
KR100859532B1 (ko) * 2006-11-06 2008-09-24 한국전자통신연구원 대응 문형 패턴 기반 자동통역 방법 및 장치

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11848001B2 (en) 2014-09-26 2023-12-19 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
US11398217B2 (en) 2014-09-26 2022-07-26 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
US11404043B2 (en) 2014-09-26 2022-08-02 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
CN106575502A (zh) * 2014-09-26 2017-04-19 英特尔公司 用于在合成语音中提供非词汇线索的系统和方法
CN111837178A (zh) * 2018-03-14 2020-10-27 倍播看科技有限公司 语音处理系统和处理语音信号的方法
CN111837178B (zh) * 2018-03-14 2024-06-18 倍播看科技有限公司 语音处理系统和处理语音信号的方法
US12039969B2 (en) 2018-03-14 2024-07-16 Papercup Technologies Limited Speech processing system and a method of processing a speech signal
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN110010136B (zh) * 2019-04-04 2021-07-20 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN111161725A (zh) * 2019-12-17 2020-05-15 珠海格力电器股份有限公司 一种语音交互方法、装置、计算设备及存储介质
CN111161725B (zh) * 2019-12-17 2022-09-27 珠海格力电器股份有限公司 一种语音交互方法、装置、计算设备及存储介质
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111292720B (zh) * 2020-02-07 2024-01-23 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
US20090204401A1 (en) 2009-08-13
JP2009186820A (ja) 2009-08-20

Similar Documents

Publication Publication Date Title
CN101504643A (zh) 声音处理系统、声音处理程序以及声音处理方法
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
KR102101044B1 (ko) 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
CN101937431A (zh) 情感语音翻译装置及处理方法
CN104391980A (zh) 生成歌曲的方法和装置
CN101156196A (zh) 混合语音合成器、方法和使用
CN110797006A (zh) 端到端的语音合成方法、装置及存储介质
US9798653B1 (en) Methods, apparatus and data structure for cross-language speech adaptation
CN112233646A (zh) 基于神经网络的语音克隆方法、系统、设备及存储介质
JP4811557B2 (ja) 音声再生装置及び発話支援装置
Koudounas et al. Italic: An italian intent classification dataset
Lorenzo-Trueba et al. Simple4all proposals for the albayzin evaluations in speech synthesis
CN117216008A (zh) 一种基于知识图谱的档案多模态智能编纂方法及系统
Raghavendra et al. A multilingual screen reader in Indian languages
CN115019787A (zh) 一种交互式同音异义词消歧方法、系统、电子设备和存储介质
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
JP3576066B2 (ja) 音声合成システム、および音声合成方法
KR20220096129A (ko) 감정톤을 자동조절하는 음성합성 시스템
US11900072B1 (en) Quick lookup for speech translation
Ekpenyong et al. Towards an unrestricted domain TTS system for African tone languages
JP2021148942A (ja) 声質変換システムおよび声質変換方法
Bowden A Review of Textual and Voice Processing Algorithms in the Field of Natural Language Processing
CN116645957B (zh) 乐曲生成方法、装置、终端、存储介质及程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090812