CN104011791A - 角色的多语言语音系统及方法 - Google Patents
角色的多语言语音系统及方法 Download PDFInfo
- Publication number
- CN104011791A CN104011791A CN201280057229.8A CN201280057229A CN104011791A CN 104011791 A CN104011791 A CN 104011791A CN 201280057229 A CN201280057229 A CN 201280057229A CN 104011791 A CN104011791 A CN 104011791A
- Authority
- CN
- China
- Prior art keywords
- language
- voice
- behavior
- emotion
- role
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000006399 behavior Effects 0.000 claims abstract description 70
- 230000008451 emotion Effects 0.000 claims description 69
- 230000002093 peripheral effect Effects 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 17
- 230000008921 facial expression Effects 0.000 claims description 16
- 230000001360 synchronised effect Effects 0.000 claims description 16
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 5
- 230000004069 differentiation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 101000695861 Arabidopsis thaliana Brefeldin A-inhibited guanine nucleotide-exchange protein 5 Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种提供角色的多语言语音操作的系统及方法,更详细地涉及多语言语音系统及方法,其中,提供二维或者三维角色根据周围状况将传达内容表达为多语言的语音操作,从而可通过角色准确地传达咨询或者导向服务等内容。根据用于实现所述目的的本发明的角色的多语言语音系统包括:状况识别部,其用于识别周围状况;对话选择部,其对根据所述识别的周围状况的话语进行选择;统一码多语言数据库,其将所述话语根据各个国家语言存储为统一码基础的多语言;行为表现部,其用于表达根据所述选择的话语的行为;以及操作处理部,其控制为对所述选择的话语及根据所述话语的行为进行同步并表达。
Description
技术领域
本发明涉及一种提供角色(character)的多语言语音操作的系统及方法,更详细地涉及多语言语音系统及方法,其中,提供二维或者三维角色根据周围状况将传达内容表达为多语言的语音操作,从而可通过角色准确地传达咨询或者导向服务等内容。
背景技术
近来,活跃地进行国际交流的同时,在全世界范围内外国人的访问急剧增加。由此,在没有对所要访问的国家的地理或者文化知识的状态下,外国人需要通过本国语的咨询或者导向。由此,增加了可使用多国语言的人力资源的必要性。
特别是,在举行奥林匹克运动会或者亚洲运动会、世界杯等世界性活动的情况下,更切实感到可使用各种语言的人力资源的必要性。由此,近来作为用于应对所述人力资源的方案,正在开发利用导向机器人等的咨询或者导向系统,据此访问他国的外国人在需要时可通过所述导向机器人等接受本国语的咨询或者导向服务。
所述导向机器人等为了将咨询或者导向服务自然地传送给外国人等使用者,将二维或者三维角色显示于画面,可实现与真人相同的面孔表情及口形等,并且可将各种形态的信息向使用者提供为各个国家语言的语音。
二维或者三维角色向使用者将各种形态的信息提供为语音的语音操作为如下:将所属于话语(utterance)的数据作为文本(Text),从而将文本输出为语音。如上所述,适用于角色的语音操作的语音系统中,对所输入的文本进行语言解释,并且通过将此合成为语音的处理过程,将文本转换为自然的合成音而进行输出,通过语音合成(TTS,Text-To Speech)实现。
TTS是指将编码的字符信息转换为人们可听得懂的语音信息的技术。所述编码的字符信息根据所使用的语言或者国家存在很多,并且通过字符编码(character encoding)映射(mapping)为具有计算机可理解的0和1的二进制(binary)值的连续的比特(Bit)形式。
作为对所述字符信息进行编码的方法,ASCII编码系统使用7个比特总共只表示128个字符。ISO-8859-1编码系统作为将西部欧洲国家所使用的字符包括于现有ASCII字符集而制成的新字符集,由于ASCII的扩展,无法通过ASCII字符编码所使用的7比特编码系统全部收容,所以使用8比特(1字节)编码系统。各个国家所使用的代表性字符编码为如下:欧洲使用ISO8859系列、ISO6937;中东使用ISO8859系列;中国使用GB2312-80、GBK、BIG5;日本使用JIS;韩国使用如KSX1001一样的本国字符编码。
如上所述,在字符信息根据语言编码为各种各样的情况下,为了将所属于话语的数据的文本输出为语音,需要根据各个语言建立另外的句子。换句话说,根据状况且根据使用者的明确选择等决定语言,并且如果决定语言,则从存储有根据所属语言的文本的数据库中取得根据所属语言的句子,从而输出为语音,即声音。
如上所述的现有的多语言语音系统中存在如下问题:按照各个语言将对字符信息进行编码的方法构成为不同,从而语言编码按照各种语言无法一次将其他句子转换为语音,并且在将特定语言转换为语音后,指定其他语言,并且只能重新将所属语言转换为语音。
此外,现有的多语言语音系统中存在如下问题:另外制作根据各种语言对语言进行选择的方式的规则,并且也制作根据语言将所属句子转换为语音的顺序的规则,因此使得用于实现所述系统的程序变得复杂。由此,存在的问题在于,不会制作成连续变更语言的形式,而是将系统构成为,如果选择一种语言,则直至特定状况结束为止表达为一种语言。
此外,在对二维或者三维角色适用情感表现和多语言的语音操作的情况下,情感表现和语音操作进行为按次序的不同的操作,换句话说,所述角色在执行微笑等情感表现操作后,接着执行嘴唇运动的语音操作,或者在执行语音操作后,实现哭泣等情感表现操作等。由此,为了提高根据二维或者三维角色的操作的内容传达或者故事(Story)传达力,需要如下技术:执行哭泣或者微笑等情感表现操作的同时,实现语音操作。
发明内容
本发明是为了解决所述问题而提出的,本发明的目的在于,提供一种角色的多语言语音系统及方法,其中,二维或者三维角色提供根据周围状况将传达内容表达为多语言的语音操作,从而将按照各种语言对字符信息进行编码的方法构成为不同,进而可解决编码无法一次将所属于其他语言的句子转换为语音的问题。
根据用于实现所述目的的本发明的角色的多语言语音系统,其提供角色的多语言语音操作的系统,其包括:状况识别部,其用于识别周围状况;对话选择部,其对根据所述识别的周围状况的话语进行选择;统一码(unicode)多语言数据库,其将所述话语根据各个国家语言存储为统一码基础的多语言;行为表现部,其用于表达根据所述选择的话语的行为;以及操作处理部,其控制为对所述选择的话语及根据所述话语的行为进行同步并表达。
优选地,根据本发明的角色的多语言语音系统还包括情感生成部,其对根据所述识别的周围状况的情感进行选择,并且所述操作处理部控制为对所述选择的情感及根据所述话语的行为进行同步并表达。
此外,所述统一码多语言数据库额外存储有可区分各个国家语言的语言区分信息,并且所述对话选择部根据所述语言区分信息对根据所属语言的话语进行选择。
此外,所述行为表现部包括:语音合成部,其将所述选择的话语输出为语音;以及面孔表现部,其将根据所述选择的话语的面孔显示于画面上。
此外,所述语音合成部包括:语法分析部,其从所述话语中提取口形生成所需的辅音和元音信息,并且生成对所述口形所变化的辅音及元音进行发音的时间信息;以及声源生成部,其对所属于所述选择的话语的声源进行生成,并且将其输出为语音。所述面孔表现部包括:情感表现部,其用于对根据所述识别的周围状况的情感表现所对应的面孔表情进行选择,从而显示于画面上;以及语音表现部,其用于对表现所述选择的话语所需的口形进行选择,从而显示于画面上。
此外,所述面孔表现部还包括:表情数据库,其将所述面孔表情存储为影像(image);以及口形数据库,其将所述口形存储为影像。
此外,所述操作处理部控制为,在所述生成的声源中增加所述选择的情感信息,并且对音色进行变化,从而将其输出为语音。
根据用于实现所述目的的本发明的角色的多语言语音方法,其提供角色的多语言语音操作的方法,其包括:状况识别步骤,其识别周围状况;对话选择步骤,其从统一码多语言数据库中根据所述识别的周围状况且通过所述语言区分信息对根据所属语言的话语进行选择,所述统一码多语言数据库将可区分各个国家语言的语言区分信息及所属于所述各个国家语言的话语存储为统一码基础的多语言;以及行为表现步骤,其对所述选择的话语及根据所述话语的行为进行同步并表达。
优选地,根据本发明的角色多语言语音方法还包括:情感选择步骤,其对根据所述状况识别步骤中所识别的周围状况的情感进行选择,并且所述行为表现步骤对所述选择的情感及根据所述话语的行为进行同步并表达。
此外,所述行为表现步骤包括:语音合成步骤,其将所述选择的话语输出为语音;以及面孔表现步骤,其将根据所述选择的话语的面孔显示于画面上。
此外,所述语音合成步骤包括:语法分析步骤,其从所述话语中提取口形生成所需的辅音和元音信息,并且生成对所述口形变化的辅音及元音进行发音的时间信息;以及声源生成步骤,其对所属于所述选择的话语的声源进行生成,并且将其输出为语音。所述面孔表现步骤包括:情感表现步骤,其对根据所述识别的周围状况的情感表现所对应的面孔表情进行选择,从而显示于画面上;以及语音表现步骤,其对表现所述选择的话语所需的口形进行选择,从而显示于画面上。
此外,所述声源生成步骤中,在所述生成的声源中增加所述选择的情感信息,并且对音色进行变化,从而将其输出为语音。
根据本发明的角色的多语言语音系统及方法,具有如下显著效果:从统一码多语言数据库中对根据所属语言的话语进行选择,将其输出为语音,从而可同时表现各种国家的语言,其中所述统一码多语言数据库将根据各个国家语言的话语存储为统一码基础的多语言,并且在特定状况下,可易于处理将各种语言同时转换为语音的功能。
此外,根据本发明的角色的多语言语音系统及方法,具有如下显著效果:将可区分各个国家语言的语言区分信息包括于话语中,并且没有另外的语言选择和相关的规则等复杂的处理逻辑(logic),只可通过语言区分信息使用所属语言的语音引擎(speechengine),从而易于流畅地构成同时表现各种国家语言的语音。
此外,根据本发明的角色的多语言语音系统及方法,具有如下显著效果:二维或者三维角色中,可将增加有各种情感表现的面孔表情和语音内容同时表达为多语言。
附图说明
图1是表示根据本发明的角色的多语言语音系统的构成的框构成图。
图2是用于说明根据本发明的角色的多语言语音方法的流程图。
图3是用于说明根据本发明的角色的多语言语音中对情感及行为进行同步并表达的步骤的流程图。
标号说明
110:状况识别部 120:情感生成部
130:对话选择部 140:行为表现部
142:语音合成部 143:语法分析部
144:声源生成部 145:面孔表现部
146:情感表现部 148:语音表现部
150:操作处理部
具体实施方式
根据本发明的角色的多语言语音系统及方法,提出了如下技术特征:二维或者三维角色提供根据周围状况将传送内容表达为多语言的语音操作,从而可同时表现各种国家语言,并且在特定状况下,可易于处理同时将各种语言转换为语音的功能。
以下,参照附图,对本发明的优选实施例、优点及特征进行详细说明。
图1是表示根据本发明的角色的多语言语音系统的构成的框构成图。参照图1,根据本发明的角色的多语言语音系统100包括:状况识别部110,其用于识别周围状况;对话选择部130,其对根据所述识别的周围状况的话语进行选择;统一码多语言数据库135,其将所述话语根据各个国家语言存储为统一码基础的多语言;行为表现部140,其用于表达根据所述选择的话语的行为;以及操作处理部150,其控制为对所述选择的话语及根据所述话语的行为进行同步并表达。
优选地,根据本发明的角色的多语言语音系统100还包括情感生成部120,其对根据所述识别的周围状况的情感进行选择,并且所述操作处理部150控制为对所述选择的情感及根据所述话语的行为进行同步并表达。
根据本发明的状况识别部110对角色的周围状况进行识别。例如,是指如果客户在所述角色的周围接近为一定距离以下,则对客户接近的状况等进行识别。所述状况识别部110将周围状况通过照相机进行摄影,从而通过分析影像的系统等实现,或者包括可识别周围状况的各种传感器,从而也可通过利用其识别状况来实现。
根据本发明的情感生成部120对根据从所述状况识别部110中所识别的周围状况的情感进行选择。例如,如果从所述状况识别部110中对客户接近的状况等进行识别,则情感生成部120选择微笑等情感表现。所述情感生成部120构成为对根据状况识别部110所识别的周围状况的情感进行选择,或者可构成为使用者任意选择并输入情感及话语。
根据本发明的对话选择部130对根据从所述状况识别部110中所识别的周围状况的话语进行选择。换句话说,如果通过所述状况识别部110对客户接近的状况等进行识别,则选择例如“您好。欢迎光临。”的话语。所述对话选择部130构成为对通过状况识别部110所识别的周围状况的话语进行选择,或者可构成为使用者任意选择并输入话语。
此外,所述对话选择部130中,将所述话语选择为各个国家语言,从而可选择根据所属语言的话语。作为选择各个国家语言的方法,如果通过状况识别部110对所属语言进行识别,则可选择对应于所述所属语言的话语,并且可构成为通过使用者的明确选择等任意选择语言。
根据本发明的统一码多语言数据库135将所属于所述话语的数据根据各个国家语言存储为统一码基础的多语言。
统一码(Unicode)是指,通过国际标准制定的2字节系列的所有国家共同的通用编码系统(UCS:Universal Code System)。统一码为了将数据的交换顺畅地进行,将赋予一个文字的值统一为16比特。在现有技术的情况下,每编码的一个文字中英语为7比特,非英语为8比特,韩语或者日语为16比特值,但是将其统一为16比特。ISO/IEC10646-1的字符板中对全世界所使用的26个语言的文字和特殊符号一一赋予了编码值。
换句话说,统一码(unicode)采用为可进行对于现有的ASCII的界限及世界所有语言的互换,是考虑到国际化而设计的字符码,以便可表现人类所使用的所有语言,并且是研制为包括现有所有语言的编码系统的庞大的单一字符集。
由此,根据本发明的统一码多语言数据库135将根据各个国家语言的话语存储为统一码基础的多语言,从而所述对话选择部130从统一码多语言数据库135中可选择根据各个国家语言的话语,并且在没有各种国家语言的冲突下,不仅可同时表现,而且在特定状况下,将各种语言可同时转换为语音。
优选地,所述统一码多语言数据库135额外存储有可区分各个国家语言的语言区分信息,并且所述对话选择部130可构成为通过所述语言区分信息对根据所属语言的话语进行选择。由此,在没有另外的语言选择和相关的规则等复杂的处理逻辑下,只可通过语言区分信息对所属语言的话语进行选择,从而可流畅地构成同时表现各种国家语言的语音操作。
例如,在根据本发明的对话选择部130对{您好。}的话语进行选择时,在韩语的情况下,可选择以{<lang type="korean"></lang>}方式在语言区分信息中构成为韩语的话语,并且在英语的情况下,可选择以{<lang type="english">Hello.</lang>}方式在语言区分信息中构成为英语的话语,从而只可通过所述语言区分信息流畅地选择所属语言的话语。
根据本发明的行为表现部140对根据从所述对话选择部130中所选择的话语的行为进行表达。优选地,所述行为表现部140可构成为包括:语音合成部142,其将所述选择的话语输出为语音;以及面孔表现部145,其将根据所选择的话语的面孔显示于画面上。
优选地,根据本发明的语音合成部142可构成为包括:语法分析部143,其从所述话语中提取口形生成所需的辅音和元音信息,并且生成对所述口形所变化的辅音及元音进行发音的时间信息,其中所述话语从所述对话选择部130进行选择;以及声源生成部144,其对所属于从所述对话选择部130中所选择的话语的声源进行生成,并且将其输出为语音。
此外,根据本发明的面孔表现部145可构成为包括:情感表现部146,其用于对根据从所述状况识别部110中所识别的周围状况的情感表现所对应的面孔表情进行选择,从而显示于画面上;以及语音表现部148,其用于对表现从所述对话选择部130中所选择的话语所需的口形进行选择,从而显示于画面上。
所述面孔表现部145还包括表情数据库147,其将所述面孔表情存储为影像,并且所述情感表现部146从存储于所述表情数据库147的面孔表情影像中对根据周围状况的情感表现所对应的面孔表情进行选择,从而显示于画面上。
此外,所述面孔表现部145还包括口形数据库149,其将所述口形存储为影像,并且所述语音表现部148从存储于所述口形数据库149的口形影像中对表现话语所需的口形进行选择,从而显示于画面上。
根据本发明的操作处理部150控制为对所选择的话语及根据所述话语的行为进行同步并表达。此外,根据本发明的操作处理部150还包括情感生成部120的情况下,控制为对情感及根据话语的行为进行同步并表达。由此,所述操作处理部150通过语法分析部143对话语的辅音及元音进行分析,从而以口形变化最大的元音为基准对口形进行选择,并且在发闭唇音辅音时,在选择下一个元音之前,可选择闭嘴的口形。
优选地,所述操作处理部150可控制为,在生成的声源中增加所选择的情感信息,并且对音色进行变化,从而将其输出为语音。由此,与微笑的面孔等面孔表情同时增加微笑等情感信息,从而输出音色所变化的话语的语音,并且可将根据所述话语的辅音及元音表现口形的角色提供给使用者。
图2是用于说明根据本发明的角色的多语言语音方法的流程图,图3是用于说明根据本发明的角色的多语言语音方法中对情感及行为进行同步并表达的步骤的流程图。
参照图2及图3,根据本发明的角色的多语言语音方法200包括:状况识别步骤S210,其识别周围状况;对话选择步骤S230,其从统一码多语言数据库135中根据所述识别的周围状况且通过所述语言区分信息对根据所属语言的话语进行选择,所述统一码多语言数据库将可区分各个国家语言的语言区分信息及所属于所述各个国家语言的话语存储为统一码基础的多语言;以及行为表现步骤S240,其对所述选择的话语及根据所述话语的行为进行同步并表达。
优选地,根据本发明的角色的多语言语音方法200还包括:情感选择步骤S220,其对根据所述状况识别步骤S210中所识别的周围状况的情感进行选择,并且所述行为表现步骤S240对所述选择的情感及根据所述话语的行为进行同步并表达。
根据本发明的状况识别步骤S210首先通过状况识别部110识别周围状况。如上所述,所述状况识别部110通过照相机对周围状况进行摄影,从而通过分析影像的系统等实现,或者包括可识别周围状况的各种传感器,从而也可通过利用其识别状况来实现。
此后,根据本发明的情感选择步骤S220从情感生成部120中对根据所述识别的周围状况的情感进行选择。所述情感选择步骤S220构成为对通过所述状况识别部110所识别的周围状况的情感进行选择,或者可构成为使用者任意选择并输入情感及话语。
根据本发明的对话选择步骤S230中,对话选择部130从统一码多语言数据库135中根据所识别的周围状况且通过所述语言区分信息对根据所属语言的话语进行选择,所述统一码多语言数据库将可区分各个国家语言的语言区分信息及所属于所述各个国家语言的话语存储为统一码基础的多语言。
所述对话选择步骤S230构成为根据存储于统一码多语言数据库135中的语言区分信息对所属语言进行选择且对根据所述语言的话语进行选择,从而在没有另外的语言选择和相关的规则等复杂的处理逻辑下,只可通过所述语言区分信息对所属语言的话语进行选择,从而可流畅地构成同时表现各种国家语言的语音操作。
接着,根据本发明的行为表现步骤S240中,对从对话选择部130中所选择的话语及根据所述话语的行为进行同步,从而通过行为表现部140表达。此外,根据本发明的行为表现步骤S240还包括情感选择步骤S220的情况下,对从情感生成部120中所选择的情感及根据从对话选择部130中所选择的话语的行为进行同步,从而通过行为表现部140表达。优选地,所述行为表现步骤S240包括:语音合成步骤S242,其将所选择的话语通过语音合成部142输出为语音;以及面孔表现步骤S245,其将根据所选择的话语的面孔通过面孔表现部145显示于画面上。
优选地,所述语音合成步骤S242包括:语法分析步骤S243,其通过语法分析部143从所述话语中提取口形生成所需的辅音和元音信息,并且生成对所述口形所变化的辅音及元音进行发音的时间信息;以及声源生成步骤S244,其通过声源生成部144对所属于所述选择的话语的声源进行生成,并且将其输出为语音。
优选地,所述声源生成步骤S244中,通过操作处理部150在生成的声源中增加所选择的情感信息,并且对音色进行变化,从而可通过声源生成部144将其输出为语音。
此外,所述面孔表现步骤S245包括:情感表现步骤S246,其对根据所述识别的周围状况的情感表现所对应的面孔表情进行选择,从而显示于画面上;以及语音表现步骤S248,其对表现所述选择的话语所需的口形进行选择,从而显示于画面上。
所述情感表现步骤S246中,从将面孔表情存储为影像的表情数据库147中选择面孔表情,从而通过情感表现部146显示于画面上,并且所述语音表现步骤S248中,从将口形存储为影像的口形数据库149中对表现选择的话语所需的口形进行选择,从而通过语音表现部148显示于画面上。
以上,本发明的优选实施例使用特定术语进行了说明及示出,但是所述术语只是用于明确说明本发明,本发明的实施例及记叙的术语在不脱离以下的权利要求范围的技术性思想及范围内可进行各种变更及变化是显而易见的。如上所述,变形的实施例从本发明的思想及范围中不能个别地进行理解,应当理解为包括于本发明的权利要求范围内。
Claims (12)
1.一种角色的多语言语音系统,其提供角色的多语言语音操作,其特征在于,包括:
状况识别部,其用于识别周围状况;
对话选择部,其对根据所述识别的周围状况的话语进行选择;
统一码多语言数据库,其将所述话语根据各个国家语言存储为统一码基础的多语言;
行为表现部,其用于表达根据所述选择的话语的行为;以及
操作处理部,其控制为对所述选择的话语及根据所述话语的行为进行同步并表达。
2.根据权利要求1所述的角色的多语言语音系统,其特征在于,还包括:
情感生成部,其对根据所述识别的周围状况的情感进行选择,
所述操作处理部控制为对所述选择的情感及根据所述话语的行为进行同步并表达。
3.根据权利要求1或者2所述的角色的多语言语音系统,其特征在于:
所述统一码多语言数据库额外存储有可区分各个国家语言的语言区分信息,
所述对话选择部根据所述语言区分信息对根据所属语言的话语进行选择。
4.根据权利要求3所述的角色的多语言语音系统,其特征在于,所述行为表现部包括:
语音合成部,其将所述选择的话语输出为语音;以及
面孔表现部,其将根据所述选择的话语的面孔显示于画面上。
5.根据权利要求4所述的角色的多语言语音系统,其特征在于:
所述语音合成部包括:
语法分析部,其从所述话语中提取口形生成所需的辅音和元音信息,并且生成对所述口形所变化的辅音及元音进行发音的时间信息;以及
声源生成部,其对所属于所述选择的话语的声源进行生成,并且将其输出为语音,
所述面孔表现部包括:
情感表现部,其用于对根据所述识别的周围状况的情感表现所对应的面孔表情进行选择,从而显示于画面上;以及
语音表现部,其用于对表现所述选择的话语所需的口形进行选择,从而显示于画面上。
6.根据权利要求5所述的角色的多语言语音系统,其特征在于,所述面孔表现部还包括:
表情数据库,其将所述面孔表情存储为影像;以及
口形数据库,其将所述口形存储为影像。
7.根据权利要求5所述的角色的多语言语音系统,其特征在于:
所述操作处理部控制为,在所述生成的声源中增加所述选择的情感信息,并且对音色进行变化,从而将其输出为语音。
8.一种角色的多语言语音方法,其提供角色的多语言语音操作,其特征在于,包括:
状况识别步骤,其识别周围状况;
对话选择步骤,其从统一码多语言数据库中根据所述识别的周围状况且通过所述语言区分信息对根据所属语言的话语进行选择,所述统一码多语言数据库将可区分各个国家语言的语言区分信息及所属于所述各个国家语言的话语存储为统一码基础的多语言;以及
行为表现步骤,其对所述选择的话语及根据所述话语的行为进行同步并表达。
9.根据权利要求8所述的角色的多语言语音方法,其特征在于,还包括:
情感选择步骤,其对根据所述状况识别步骤中所识别的周围状况的情感进行选择,
所述行为表现步骤对所述选择的情感及根据所述话语的行为进行同步并表达。
10.根据权利要求9所述的角色的多语言语音方法,其特征在于,所述行为表现步骤包括:
语音合成步骤,其将所述选择的话语输出为语音;以及
面孔表现步骤,其将根据所述选择的话语的面孔显示于画面上。
11.根据权利要求10所述的角色的多语言语音方法,其特征在于:
所述语音合成步骤包括:
语法分析步骤,其从所述话语中提取口形生成所需的辅音和元音信息,并且生成对所述口形所变化的辅音及元音进行发音的时间信息;以及
声源生成步骤,其对所属于所述选择的话语的声源进行生成,并且将其输出为语音,
所述面孔表现步骤包括:
情感表现步骤,其对根据所述识别的周围状况的情感表现所对应的面孔表情进行选择,从而显示于画面上;以及
语音表现步骤,其对表现所述选择的话语所需的口形进行选择,从而显示于画面上。
12.根据权利要求11所述的角色的多语言语音方法,其特征在于:
所述声源生成步骤中,在所述生成的声源中增加所述选择的情感信息,并且对音色进行变化,从而将其输出为语音。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2011-0121825 | 2011-11-21 | ||
KR1020110121825A KR101358999B1 (ko) | 2011-11-21 | 2011-11-21 | 캐릭터의 다국어 발화 시스템 및 방법 |
PCT/KR2012/005722 WO2013077527A1 (ko) | 2011-11-21 | 2012-07-18 | 캐릭터의 다국어 발화 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104011791A true CN104011791A (zh) | 2014-08-27 |
Family
ID=48469940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280057229.8A Pending CN104011791A (zh) | 2011-11-21 | 2012-07-18 | 角色的多语言语音系统及方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20150073772A1 (zh) |
EP (1) | EP2772906A4 (zh) |
KR (1) | KR101358999B1 (zh) |
CN (1) | CN104011791A (zh) |
WO (1) | WO2013077527A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924483A (zh) * | 2015-08-31 | 2018-04-17 | 微软技术许可有限责任公司 | 通用假设排列模型的生成与应用 |
CN108475503A (zh) * | 2015-10-15 | 2018-08-31 | 交互智能集团有限公司 | 用于多语言通信排序的系统和方法 |
CN110385723A (zh) * | 2018-04-17 | 2019-10-29 | 株式会社日立大厦系统 | 引导机器人系统以及语言选择方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101388633B1 (ko) * | 2014-02-10 | 2014-04-24 | 대한민국 | 가상 쌍방향 신문 훈련 시스템 및 이를 활용한 훈련 방법 |
US10304013B2 (en) * | 2016-06-13 | 2019-05-28 | Sap Se | Real time animation generator for voice content representation |
GB2567600B (en) | 2016-08-29 | 2022-05-04 | Groove X Inc | Autonomously acting robot that recognizes direction of sound source |
US20230032760A1 (en) * | 2021-08-02 | 2023-02-02 | Bear Robotics, Inc. | Method, system, and non-transitory computer-readable recording medium for controlling a serving robot |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074689A1 (en) * | 2002-05-16 | 2006-04-06 | At&T Corp. | System and method of providing conversational visual prosody for talking heads |
KR20090119383A (ko) * | 2008-05-16 | 2009-11-19 | 한국과학기술정보연구원 | 다국어 전문용어 자원 제공 시스템 및 방법 |
CN101669090A (zh) * | 2007-04-26 | 2010-03-10 | 福特全球技术公司 | 情绪提示系统和方法 |
KR20110081364A (ko) * | 2010-01-06 | 2011-07-14 | (주) 퓨처로봇 | 캐릭터의 발화와 감정표현 제공 시스템 및 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100240637B1 (ko) * | 1997-05-08 | 2000-01-15 | 정선종 | 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 |
KR20020022504A (ko) * | 2000-09-20 | 2002-03-27 | 박종만 | 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법 |
US7240010B2 (en) * | 2004-06-14 | 2007-07-03 | Papadimitriou Wanda G | Voice interaction with and control of inspection equipment |
KR100706967B1 (ko) * | 2005-02-15 | 2007-04-11 | 에스케이 텔레콤주식회사 | 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템 |
JP2016522465A (ja) * | 2013-03-15 | 2016-07-28 | ジボ インコーポレイテッド | 永続性コンパニオンデバイスを提供するための装置及び方法 |
-
2011
- 2011-11-21 KR KR1020110121825A patent/KR101358999B1/ko active IP Right Grant
-
2012
- 2012-07-18 US US14/349,274 patent/US20150073772A1/en not_active Abandoned
- 2012-07-18 EP EP12852055.8A patent/EP2772906A4/en not_active Withdrawn
- 2012-07-18 WO PCT/KR2012/005722 patent/WO2013077527A1/ko active Application Filing
- 2012-07-18 CN CN201280057229.8A patent/CN104011791A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074689A1 (en) * | 2002-05-16 | 2006-04-06 | At&T Corp. | System and method of providing conversational visual prosody for talking heads |
CN101669090A (zh) * | 2007-04-26 | 2010-03-10 | 福特全球技术公司 | 情绪提示系统和方法 |
KR20090119383A (ko) * | 2008-05-16 | 2009-11-19 | 한국과학기술정보연구원 | 다국어 전문용어 자원 제공 시스템 및 방법 |
KR20110081364A (ko) * | 2010-01-06 | 2011-07-14 | (주) 퓨처로봇 | 캐릭터의 발화와 감정표현 제공 시스템 및 방법 |
Non-Patent Citations (2)
Title |
---|
DOMINIC W. MASSARO,ET AL.: "A Multilingual Embodied Conversational Agent", 《PROCEEDINGS OF THE 38TH HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES》 * |
WU ZHIYONG,ET AL.: "A Unified Framework for Multilingual Text-to-Speech Synthesis with SSML Specification as Interface", 《TSINGHUA SCIENCE AND TECHNOLOGY》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924483A (zh) * | 2015-08-31 | 2018-04-17 | 微软技术许可有限责任公司 | 通用假设排列模型的生成与应用 |
CN107924483B (zh) * | 2015-08-31 | 2022-04-01 | 微软技术许可有限责任公司 | 通用假设排序模型的生成与应用 |
CN108475503A (zh) * | 2015-10-15 | 2018-08-31 | 交互智能集团有限公司 | 用于多语言通信排序的系统和方法 |
CN108475503B (zh) * | 2015-10-15 | 2023-09-22 | 交互智能集团有限公司 | 用于多语言通信排序的系统和方法 |
CN110385723A (zh) * | 2018-04-17 | 2019-10-29 | 株式会社日立大厦系统 | 引导机器人系统以及语言选择方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20130056078A (ko) | 2013-05-29 |
US20150073772A1 (en) | 2015-03-12 |
EP2772906A4 (en) | 2015-06-17 |
EP2772906A1 (en) | 2014-09-03 |
WO2013077527A1 (ko) | 2013-05-30 |
KR101358999B1 (ko) | 2014-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6678764B1 (ja) | 多言語での自動化されたアシスタントを用いたエンドツーエンドコミュニケーションの促進 | |
CN104011791A (zh) | 角色的多语言语音系统及方法 | |
CN111477216B (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
JP4439431B2 (ja) | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム | |
US11295092B2 (en) | Automatic post-editing model for neural machine translation | |
US9058322B2 (en) | Apparatus and method for providing two-way automatic interpretation and translation service | |
CN101923858B (zh) | 一种实时同步互译语音终端 | |
US20130297284A1 (en) | Apparatus and method for generating polite expressions for automatic translation | |
US20170308526A1 (en) | Compcuter Implemented machine translation apparatus and machine translation method | |
Khan et al. | Speak Pakistan: Challenges in developing Pakistan sign language using information technology | |
JP2011504624A (ja) | 自動同時通訳システム | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
CN113918031A (zh) | 使用子字符信息进行中文标点恢复的系统和方法 | |
CN113505609A (zh) | 一种一键式多语言会议辅助翻译方法及具有该方法的设备 | |
KR102624790B1 (ko) | 다중 의도 발화의 의도 분석 및 처리를 위한 자연어 처리 장치, 프로그램 및 그것의 제어 방법 | |
CN112818709B (zh) | 用于多用户语音会议记录标记的语音翻译系统与方法 | |
CN104301500A (zh) | 一种终端控制方法、装置和终端 | |
JP4523312B2 (ja) | テキスト音声出力のための装置、方法、及びプログラム | |
Lehman-Wilzig | Autonomous, algorithmic, simultaneous translation systems in the glocal village: Consequences and paradoxical outcomes | |
Chaudhary et al. | A Framework to Find Single Language Version Using Pattern Analysis in Mixed Script Queries | |
EP4379598A1 (en) | A sign language translation method and system thereof | |
WO2021218750A1 (en) | System and method for translating sign language | |
Shroff et al. | Literature Review on Machine Translation Systems for Sign Language Generation | |
KR20210026437A (ko) | 도착언어의 생성 특징을 고려한 신경망 기계번역 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140827 |
|
RJ01 | Rejection of invention patent application after publication |