CN101981614B - 媒体处理服务器设备及其媒体处理方法 - Google Patents
媒体处理服务器设备及其媒体处理方法 Download PDFInfo
- Publication number
- CN101981614B CN101981614B CN200980111721.7A CN200980111721A CN101981614B CN 101981614 B CN101981614 B CN 101981614B CN 200980111721 A CN200980111721 A CN 200980111721A CN 101981614 B CN101981614 B CN 101981614B
- Authority
- CN
- China
- Prior art keywords
- emotion
- data
- speech
- text
- communication terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 title abstract description 14
- 230000008451 emotion Effects 0.000 claims abstract description 228
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 127
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 125
- 238000004891 communication Methods 0.000 claims description 115
- 239000000284 extract Substances 0.000 claims description 24
- 230000005055 memory storage Effects 0.000 claims description 23
- 230000002996 emotional effect Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 241000452734 Eudoraea Species 0.000 description 1
- 244000188472 Ilex paraguariensis Species 0.000 description 1
- 241000288902 Lemur catta Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000005039 memory span Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
媒体处理服务器设备具有在按情感归类之后,保存与用户标识符关联的语音合成用数据的语音合成数据存储装置,根据从消息服务器设备接收的文本消息,确定文本的情感的文本分析器,和通过利用对应于确定的情感,并且与作为文本消息的传送者的用户的用户标识符关联的语音合成用数据,合成对应于所述文本的语音,生成带情感表现的语音数据的语音数据合成器。
Description
技术领域
本发明涉及能够根据文本数据合成语音消息的媒体处理服务器设备和媒体处理方法。
背景技术
由于高度发达的信息处理技术和通信技术,电子邮件代表的利用文本的消息通信目前得到广泛使用。在这种利用文本的消息通信中,常常在消息中使用图形表情符号,和通过组合多于一个的字符而创建的文本表情符号或脸谱,以情感更丰富地表达消息的内容。
常规地,已知一种终端设备,该终端设备具有用发信人的声音,充满情感地朗读包含在电子邮件中的消息的功能(例如,参见专利文献1)。
在把从通话中得到的语音数据获得的声音特征数据归类到各种情感之后,在专利文献1中描述的终端设备关联地保存所述声音特征数据和电话号码或邮件地址。此外,当从为其保存声音特征数据的通信对方收到消息时,终端设备判定包含在消息中的文本数据对应于哪种情感,通过利用对应于邮件地址的声音特征数据执行语音合成,并进行消息的朗读。
专利文献1:日本专利公布No.3806030
发明内容
但是,在上面的常规终端设备中,由于诸如存储器容量之类的限制,其声音特征数据能够被记录的通信对方的数目,或者每位通信对方的声音特征数据的记录数有限。于是,存在能够用于合成的情感表现变化很少,合成的精确度降低的问题。
鉴于上述问题,做出了本发明,本发明的目的是提供一种能够根据文本数据,合成质量高并且情感表现丰富的语音消息的媒体处理服务器设备及其媒体处理方法。
为了解决上述问题,本发明提供一种媒体处理服务器设备,用于通过合成与在多于一个的通信终端间发射和接收的文本消息对应的语音,生成语音消息,所述媒体处理服务器设备具有语音合成数据存储装置,用于在按情感类别归类之后,保存与唯一地识别多于一个的通信终端的相应用户的用户标识符关联的语音合成用数据;情感判定器,用于当收到从多于一个的通信终端中的第一通信终端传来的文本消息时,提取收到的文本消息的每个判定单元的情感信息,所述情感信息提取自判定单元中的文本,并根据提取的情感信息判定情感类别;和语音数据合成器,用于从语音合成数据存储装置读取和指示第一通信终端的用户的用户标识符关联的语音合成用数据中的、与情感判定器判定的情感类别对应的语音合成用数据,并利用读取的语音合成用数据,合成与判定单元的文本对应的带情感表现的语音数据。
本发明的媒体处理服务器设备保存按用户并按情感类别归类的语音合成用数据,并根据文本消息的情感类别的判定结果,利用作为文本消息的传送者的用户的语音合成用数据,合成语音数据。于是,能够利用传送者本身的声音生成富有情感的语音消息。此外,由于保存语音合成用数据的存储装置设置在媒体处理服务器设备,因此与所述存储装置被设置在诸如通信终端之类终端设备的情况相比,能够记录大量的语音合成用数据。于是,由于为其记录语音合成用数据的用户的数目,和每位用户能够被记录的语音合成用数据的数目被增大,能够合成高质量并且情感表现丰富的语音消息。不需要在终端设备中记录语音合成用数据,尽管按照惯例语音合成数据是记录在终端设备中的,终端设备的存储容量不再有负担。此外,由于判定文本消息的情感的功能和合成语音的功能不再是必需的,因此减轻了终端设备的处理负荷。
按照本发明的优选实施例,在提取情感符号作为情感信息的情况下,情感判定器可根据情感符号判定情感类别,情感符号用多于一个的字符的组合表现情感。例如,情感符号是文本表情符号,由作为消息的传送者的通信终端的用户输入。换句话说,情感符号表示用户指定的情感。于是,通过提取情感符号作为情感信息,并根据情感符号判定情感类别,能够获得更准确地反映消息的传送者的情感的判定结果。
按照本发明的另一个实施例,在要插入文本中的图像被附加在接收的文本消息上的情况下,除了判定单元中的文本之外,情感判定器还可从要插入文本中的图像提取情感信息,当用图形表现情感的情感图像被提取为情感信息时,情感判定器可根据情感图像判定情感类别。例如,情感图像是图形表情符号图像,是由作为消息的传送者的通信终端的用户通过选择输入的。换句话说,情感图像表示用户指定的情感。于是,通过提取情感图像作为情感信息,并根据情感图像判定情感类别,能够获得更准确地反映消息的传送者的情感的判定结果。
最好,在从判定单元提取的情感信息多于一个的情况下,情感判定器可判定所述多于一个的情感信息中的每个情感信息的情感类别,并从判定的情感类别之中选择出现次数最多的情感类别作为判定结果。按照该实施例,能够选择判定单元中最突出出现的情感。
另一方面,在从判定单元提取的情感信息多于一个的情况下,情感判定器可根据出现在与判定单元的终点最接近的位置的情感信息,判定情感类别。按照该实施例,能够从消息中的传送者的情感之中,选择更接近传送时刻的情感。
在本发明的又一个优选实施例中,语音合成数据存储装置可另外保存为每种情感类别,设置所述多于一个的通信终端的每位用户的语音模式的特征的参数,语音数据合成器可根据所述参数调整合成的语音数据。在本实施例中,由于利用为每位用户保存的取决于情感类别的参数,调整语音数据,因此生成与用户的语音模式的特征匹配的语音数据。于是,能够生成反映作为传送者的用户的个人的声音特征的语音消息。
最好,所述参数是关于每位用户保存的,并按情感归类的语音合成用数据中的话音的音量平均值、话速平均值、语调平均值和频率平均值至少之一。这种情况下,根据每个用户的话音的音量、语速(话速)、语调(抑扬顿挫、节奏和重读)、和频率(音高),调整语音数据。于是,能够再现更接近用户本人话音的腔调的语音消息。
按照本发明的另一个优选实施例,语音数据合成器可把判定单元中的文本分解成多于一个的合成单元,并执行每个合成单元的语音数据的合成,当与情感判定器判定的情感对应的语音合成用数据未被包括在与指示第一通信终端的用户的用户标识符关联的语音合成用数据中时,语音数据合成器可从与指示第一通信终端的用户的用户标识符关联的语音合成用数据之中,选择和读取其发音部分与合成单元的文本一致的语音合成用数据。按照本发明,即使要被语音合成的文本的字符串实际上未保存在语音合成数据存储装置中,也能够进行语音合成。
另外,本发明提供一种供通过合成与在多于一个的通信终端间发射和接收的文本消息对应的语音,生成语音消息的媒体处理服务器设备之用的媒体处理方法,所述媒体处理服务器设备具有语音合成数据存储装置,用于在按情感类别归类之后,保存与唯一地识别多于一个的通信终端的相应用户的用户标识符关联的语音合成用数据,所述方法具有当收到从多于一个的通信终端中的第一通信终端传来的文本消息时,提取收到的文本消息的每个判定单元的情感信息,并根据提取的情感信息判定情感类别的判定步骤,所述情感信息提取自判定单元中的文本;和从语音合成数据存储装置读取和指示第一通信终端的用户的用户标识符关联的语音合成用数据中的、与在判定步骤中判定的情感类别对应的语音合成用数据,并利用读取的语音合成用数据,合成与判定单元的文本对应的语音数据的合成步骤。按照本发明,能够获得与上面的媒体处理服务器设备中相同的效果。
按照本发明,可提供能够根据文本数据,合成质量高,并且情感表现丰富的语音消息的媒体处理服务器设备及其媒体处理方法。
附图说明
图1是表示带情感表现的语音合成消息系统的简化结构图,该系统包括按照本发明的实施例的媒体处理服务器设备。
图2是按照本发明的实施例的通信终端的功能结构图。
图3是按照本发明的实施例的媒体处理服务器设备的功能结构图。
图4是描述在按照本发明的实施例的语音合成数据存储装置处管理的数据的示图。
图5是描述按照本发明的实施例的媒体处理方法的过程的时序图。
具体实施方式
下面将参考附图,详细说明本发明的实施例。在说明附图时,相同的附图标记被分配给相同的元件,相同元件的描述将被省略。
图1表示带情感表现的语音合成消息系统(下面简称为“语音合成消息系统”),该系统包括按照本实施例的媒体处理服务器设备。语音合成消息系统具有多于一个的通信终端10(10a,10b),能够在通信终端间实现文本消息的发射和接收的消息服务器设备20,为通信终端保存和处理媒体信息的媒体处理服务器设备30,和连接各个设备的网络N。为了说明的简明起见,图1只表示了两个通信终端10,不过实际上,语音合成消息系统包括大量的通信终端。
网络N是通信终端10的连接点,向通信终端10提供通信服务,例如是移动通信网络。
通信终端10经由中继装置(未示出)无线或者有线地与网络N连接,能够经由中继装置和与网络N连接的另一个通信终端进行通信。尽管未示出,不过通信终端10被配置成具有硬件,例如CPU(中央处理器)、作为主存储装置的RAM(随机存取存储器)和ROM(只读存储器)、进行通信的通信模块、和比如硬盘之类的辅助存储装置的计算机。这些组件相互协同工作,从而实现通信终端10(后面说明)的功能。
图2是通信终端10的功能结构图。如图2中所示,通信终端10具有发射器-接收器101,文本消息生成器102,语音消息重放单元103,输入装置104和显示单元105。
当从文本消息生成器102收到文本消息时,发射器-接收器101经网络N把文本消息发射给消息服务器设备20。例如,文本消息是电子邮件、聊天消息或者IM(即时消息接发)消息。当经网络N从消息服务器设备20收到在媒体处理服务器设备30语音合成的语音消息时,发射器-接收器101把语音消息传送给语音消息重放单元103。当收到文本消息时,发射器-接收器101把文本消息传送给显示单元105。
输入装置104是触摸面板和键盘,把输入的字符传送给文本消息生成器102。当通过选择输入了要插入文本中的图形表情符号图像时,输入装置104把输入的图形表情符号图像传送给文本消息生成器102。在选择图形表情符号图像的过程中,保存在通信终端10的存储器(未示出)中的图形表情符号词典被显示在显示单元105上,通过操作输入装置104,通信终端10的用户能够从显示的图形表情符号图像中选择希望的图像。例如,这种图形表情符号词典包括由网络N的通信公司唯一提供的图形表情符号词典。“图形表情符号图像”包括其中用图形表达情感的情感图像,和其中用图形表达事件或对象的非情感图像。情感图像包括其中用面部表情的变化表达情感的面部表情情感图像,和能够根据图形本身推断情感的非面部表情情感图像,比如表示“愤怒”的炸弹图像,或者表示“喜悦”和“好意”的心脏图像。非情感图像包括表示天气的太阳或雨伞的图像,和表示运动的种类的球或球拍的图像。
输入字符可包括用字符的组合(字符串)表现情感的文本表情符号或脸谱(情感符号)。文本表情符号用字符串表现情感,所述字符串是诸如逗号、冒号和连字号之类的标点符号,诸如星号和“”(“at符号”)之类的符号,字母表的一些字母(“m”和“T”)等的组合。典型的文本表情符号是表示笑脸的“:)”(冒号是眼睛,圆括号是嘴),表示怒脸的“>:(”,和表示哭脸的“T_T”。按照和图形表情符号类似的方式,文本表情符号词典已被保存在该通信终端10的存储器(未示出)中,通过操作输入装置104,通信终端10的用户能够从显示在显示单元105上的文本表情符号中选择希望的文本表情符号。
文本消息生成器102从由输入装置104输入的字符和文本表情符号生成文本消息,以便传送给发射器-接收器101。当要输入文本中的图形表情符号图像由输入装置104输入,并被传送给文本消息生成器102时,文本消息生成器生成文本消息,所述文本消息包括作为附加图像的图形表情符号图像,以便传送给发射器-接收器101。这种情况下,文本消息生成器102生成指示图形表情符号图像的插入位置的插入位置信息,并通过把插入位置信息附在文本消息上,把插入位置信息传送给发射器-接收器101。在附加多于一个的图形表情符号图像的情况下,为每个图形表情符号图像生成所述插入位置信息。文本消息生成器102是安装在通信终端10中的电子邮件、聊天或IM的软件。不过,文本消息生成器102并不局限于软件,相反可由硬件构成。
当从发射器-接收器101收到语音消息时,语音消息重放单元103重放语音消息。语音消息重放单元103是语音编码器和扬声器。当从发射器-接收器101收到文本消息时,显示单元105显示文本消息。在图形表情符号图像被附加在文本消息上的情况下,显示文本消息,同时在由插入位置信息指定的位置插入图形表情符号图像。例如,显示单元105是LCD(液晶显示器),不但能够显示接收的文本消息,而且能够显示各种信息。
通信终端10一般是移动通信终端,不过并不局限于此。例如,可以使用能够进行话音通信的个人计算机或者SIP(会话发起协议)电话机。在本实施例中,将在假定通信终端10是移动通信终端的情况下进行说明。这种情况下,网络N是移动通信网络,上面的中继装置是基站。
消息服务器设备20是安装有电子邮件、聊天、IM用应用服务器计算机程序和其它程序的计算机设备。当从通信终端10收到文本消息时,如果发射器通信终端10预订了语音合成服务,那么消息服务器设备20把接收的文本消息传送给媒体处理服务器设备30。语音合成服务是对用电子邮件、聊天和IM传送的文本消息执行语音合成,并把文本消息作为语音消息传递给目的地的服务。当消息仅仅传送自或者传送给用合同预订语音合成服务的通信终端10时,生成并传递语音消息。
媒体处理服务器设备30与网络N连接,并经由网络N与通信终端10连接。尽管图中未示出,不过媒体处理服务器设备30被配置成具有硬件(比如CPU、作为主存储装置的RAM和ROM、进行通信的通信模块、和诸如硬盘之类的辅助存储装置)的计算机。这些组件相互协同工作,从而实现媒体处理服务器设备30(后面说明)的功能。
如图3中所示,媒体处理服务器设备30具有发射器-接收器301,文本分析器302,语音数据合成器303,语音消息生成器304,和语音合成数据存储装置305。
当从消息服务器设备20收到文本消息时,发射器-接收器301把文本消息传送给文本分析器302。当从语音消息生成器304收到语音合成的消息时,发射器-接收器301把消息传送给消息服务器设备20。
当从发射器-接收器301收到文本消息时,文本分析器302从字符或字符串和附加图像中提取表示文本内容的情感的情感信息,从而根据提取的情感信息推断确定情感类别。文本分析器随后把指示确定的情感类别的信息连同要语音合成的文本数据一起输出给语音数据合成器303。
具体地说,文本分析器302根据个别附加到电子邮件等上的图形表情符号图像和文本表情符号(情感符号),判定情感。文本分析器302还根据表达诸如“高兴”、“悲伤”、“快乐”之类情感的词语识别文本的情感类别。
更具体地说,文本分析器302关于每个判定单元判定文本的情感类别。在本实施例中,检测文本消息的文本中的标点符号(表示句子结束的终止符;日语中的“。”(小圆)和英语中的句点“.”(圆点))或者空格,以分解文本,从而使用每个分解的文本作为判定单元。
随后,文本分析器302通过从出现在判定单元中的图形表情符号图像、文本表情符号和词语中提取指示表达判定单元的情感的情感信息,来判定情感。具体地说,文本分析器302提取图形表情符号图像的情感图像、每个文本表情符号、和表示情感的每个词语,作为上述情感信息。为此,在媒体处理服务器设备30的存储器(未示出)中保存有图形表情符号词典、文本表情符号词典、和表示情感的词语的词典。在每个文本表情符号词典和图形表情符号词典中保存有与每个文本表情符号和图形表情符号对应的词语的字符串。
由于文本表情符号和图形表情符号图像能够表达许多不同种类的情感,因此情况通常是与用句子表达情感相比,用文本表情符号和图形表情符号图像能够更容易、更准确地表达情感。于是,电子邮件(尤其是移动电话机的电子邮件)、聊天、IM等的文本消息的传送者往往会依靠文本表情符号和图形表情符号图像表达传送者的情感。由于本实施例被这样配置,以致在确定诸如电子邮件、聊天、IM之类文本消息的情感时,使用文本表情符号和图形表情符号图像,因此依据消息的传送者他/她本人指定的情感判定情感。于是,与仅仅利用包含在句子中的词语判定情感的情况相比,能够获得更准确地反映消息的传送者的情感的判定结果。
在多于一个的情感信息出现在一个判定单元中的情况下,文本分析器302可确定每个情感信息的情感类别,并计数每个确定的情感类别的出现次数,以选择出现次数最大的情感,或者可以选择出现在最接近判定单元的结尾或终点的位置的图形表情符号、文本表情符号或词语的情感。
就把文本数据分离成判定单元的方法而论,应根据编写文本的语言的特征,恰当地改变和设置判定单元的分离点。此外,应根据所述语言恰当地选择要提取为情感信息的词语。
如上所述,文本分析器302充当所接收文本消息的每个判定单元的情感判定器,用于从判定单元中的文本中提取情感信息,并根据提取的情感信息判定情感类别。
此外,文本分析器302对分解成判定单元的文本执行词法分析,把每个判定单元分解成更小的合成单元。合成单元是进行语音合成处理(语音合成处理或文本到语音处理)时的标准单元。在把表示判定单元中的文本的文本数据分割成合成单元之后,文本分析器302把文本数据连同指示关于整个判定单元的情感判定结果的信息一起传送给语音数据合成器303。当在判定单元的文本数据中包括文本表情符号时,文本分析器用对应词语的字符串替换构成该文本表情符号的字符串,以便随后作为一个合成单元传送给语音数据合成器303。类似地,在包括图形表情符号图像的情况下,文本分析器用对应词语的字符串替换该图形表情符号图像,以便随后作为一个合成单元传送给语音数据合成器303。通过参照保存在存储器中的文本表情符号词典和图形表情符号词典,执行文本表情符号和图形表情符号的替换。
可能存在其中文本消息包括作为句子的基本构成要素的图形表情符号图像或文本表情符号的情况(例如,“今天[代表“下雨”的图形表情符号]。”),和其中在词语的字符串之后直接包括图形表情符号或文本表情符号至少之一(所述图形表情符号或文本表情符号具有与该词语相同的含意)的情况(例如,“今天下雨[代表“下雨”的图形表情符号]”)。在后一情况下,如果执行上述替换,那么会在“下雨”的字符串之后插入与“下雨”的图形表情符号图像对应的字符串。于是,在两个连续的合成单元的字符串相同或几乎相同的情况下,在把文本数据传送给语音数据合成器303之前,可先删除它们之一。或者,文本分析器可检索包括图形表情符号图像或文本表情符号的判定单元是否还包括含意与该图形表情符号图像或文本表情符号相同的词语,如果是,那么可以简单地删除该图形表情符号或文本表情符号,而不用字符串替换它。
语音数据合成器303从文本分析器302接收要语音合成的文本数据,和表示该文本数据的判定单元的情感类别的信息。对于每个合成单元,语音数据合成器303根据接收的文本数据和情感信息,从语音合成数据存储装置305中的通信终端10a的数据中取回与所述情感类别对应的语音合成用数据,并且如果已记录了实际上与文本数据对应的语音,那么读取并使用该语音合成用数据。
在未记录实际上与合成单元的文本数据对应的语音的情况下,语音数据合成器303读取相对相似的词语的语音合成用数据,并把该数据用于合成语音数据。当完成了判定单元中的每个合成单元的文本数据的语音合成时,语音数据合成器303组合各个合成单元的语音数据,从而生成整个判定单元的语音数据。
相对相似的词语是其发音部分相同的词语,例如,对“tanoshi-katta”(enjoyed)和“tanoshi-mu”(enjoy)来说,是“tanoshi-i”(enjoyable)。具体地说,如果记录了与词语“tanoshi-i”对应的语音合成用数据,但是未记录与其日语字尾被改变的词语(比如“tanoshi-katta”和“tanoshi-mu”)对应的语音合成用数据,那么提取记录的“tanoshi”(“tanoshi-katta”和“tanoshi-mu”的词干部分)的语音合成用数据,并从相同情感类别中的另一个词语中提取“tanoshi-katta”的“-katta”或者“tanoshi-mu”的“-mu”,从而合成“tanoshi-katta”或“tanoshi-mu”。同样地,在未关于图形表情符号和文本表情符号记录对应的字符串的情况下,通过提取相对类似的词语,能够合成语音数据。
图4是在语音合成数据存储装置305管理的数据。对于每位用户,与诸如通信终端ID、邮件地址、聊天ID或IM ID之类的用户标识符关联地管理该数据。在图4的例子中,通信终端ID被用作用户标识符,作为例子表示了通信终端10a的数据3051。通信终端10a的数据3051是通信终端10a的用户本人的声音的语音数据,并且如图所示,是在其中记录语音数据而不将该语音数据归类到各种情感的语音数据3051a和按情感区分的数据部分3051b中管理的。按情感区分的数据部分3051b具有归类到各种情感的语音数据3052,和每种情感的参数3053。
其中记录语音数据而不将该语音数据归类到各种情感的语音数据3051a是在把记录的语音数据分成预定的分段单元(例如,文节(bunsetsu))之后记录的、但是未按情感归类的语音数据。记录在每种情感的数据部分中的语音数据3051a是在把记录的语音数据分成预定的分段单元之后,关于每种情感类别记录的语音数据。在作为语音合成服务的对象的语言是不同于日语的语言的情况下,应利用适合于该语言的分段单元,而不是文节来记录语音数据。
在记录语音数据时,对预订语音合成服务的通信终端10来说,可以考虑:(i)在通信终端10和媒体处理服务器30通过网络N连接的状态下,由对着通信终端10说话的用户在媒体处理服务器设备30录音的方法,(ii)复制通信终端10之间的话音通信的内容,以便保存在媒体处理服务器30的方法,和(iii)把用户在词语语音识别游戏期间,用话音输入的词语保存在通信终端10,并在游戏结束之后,把保存的词语经由网络传送给媒体处理服务器30,以便保存在媒体处理服务器设备30的方法等等。
在对语音数据归类时,可以考虑(i)在媒体处理服务器设备30,为每个用户和每种情感提供存储区,并按照从通信终端10接收的情感类别的指示,把在情感类别的指示时或以后所说的语音数据记录在对应情感的存储区中的方法,和(ii)预先准备供按照情感归类之用的文本信息的词典,在服务器执行语音识别,并且当发现属于每种情感的词语时,自动在服务器对语音数据归类的方法。
从而,在本实施例中,由于语音合成用数据被保存在媒体处理服务器设备30,因此与在存储容量有限的通信终端10保存语音合成用数据的情况相比,能够为其保存语音合成用数据的用户的数目和每位用户的语音合成用数据的记录数能够被增大。于是,能够增大要合成的情感表现的变化,并且能够精度更高地完成合成。因此,能够生成质量更高的语音合成数据。
此外,由于常规的终端设备是在语音通信期间学习和记录通信对方的声音特征数据(语音合成用数据)的,因此,能够利用电子邮件的传送者的语音语音合成的消息局限于终端设备的用户已借助电话机与传送者话音通话的情况。不过,按照本实施例,即使作为文本消息的接收器的通信终端10(例如,通信终端10b)实际上未与传送消息的通信终端10(例如,通信终端10a)进行过话音通信,如果通信终端10a的用户的语音合成用数据被保存在媒体处理服务器设备30,那么也能够接收利用通信终端10a的用户的话音合成的语音消息。
此外,数据部分3051b具有按情感归类的语音数据3052,和按情感记录的语音数据的平均参数3053。按情感归类的语音数据3052是按情感归类并保存在未按情感归类的情况下记录的语音数据而获得的数据。
按照本实施例,在按情感归类或未按情感归类的情况下重复地记录一个数据。于是,实际的语音数据可被记录在记录的语音数据3051a的区域中,而按情感区分的数据区3051b可保存记录的语音数据的文本信息,和实际记录的语音数据的区域的指针(地址,编号)。更具体地说,假定语音数据“enjoyable”被保存在记录的语音数据3051a的区域的地址编号100中,那么可以这样配置,以致按情感区分的数据区3051b把文本信息“enjoyable”保存在“‘enjoyment’的数据”的区域中,另外保存作为实际语音数据的存储位置的地址编号100。
作为参数3053,话音音量、话速、语调或节奏、话音频率等被设置成用于表现与通信终端10a的用户的每种情感对应的语音模式(说话的方式)的参数。
当完成判定单元的语音合成时,语音数据合成器303根据保存在语音合成数据存储装置305中的对应情感的参数3053,调整(处理)合成的语音数据。语音数据合成器再次匹配最终合成的判定单元的语音数据和每种情感的参数,并检查语音数据是否整体与记录的参数相适应。
当完成上述检查时,语音数据合成器303把合成的语音数据传给语音消息生成器304。之后,语音数据合成器对从文本分析器302接收的每个判定单元的文本数据重复上述操作。
对于每种情感类别,每种情感的参数被设置为移动通信终端10的每个用户的语音模式,如图4的参数3053中所示,每种情感的参数是话音音量、话速、语调、频率等等。参照每种情感的参数调整合成的语音意味着按照该情感的平均参数,调整话音的语调和话速。在合成语音时,由于是根据对应的情感选择词语用于语音合成的,因此合成的语音和另一语音的接合点可能听起来不舒服。于是,通过按照情感的平均参数调整话音的语调和话速,能够减少合成的语音和另一语音之间的接合点的使人不舒服的声音。更具体地说,根据关于每种情感记录的语音数据计算语音数据的音量、话速、语调、频率等的平均值,计算出的平均值被保存为代表每种情感的平均参数(图4中的附图标记3053)。语音数据合成器303比较这些平均参数和合成的语音数据的每个值,从而如果发现差异较大,那么调整合成的语音,以致合成的语音的每个值更接近所述平均参数。在上述参数之中,语调被用于调整与判定单元的文本对应的整个一组语音数据的话音的节奏、重读或者抑扬顿挫。
当从语音数据合成器303收到每个判定单元的合成语音数据时,语音消息生成器304连接收到的各个语音数据,从而生成与文本消息对应的语音消息。生成的语音消息由发射器-接收器301传送给消息服务器设备20。例如,在文本消息中的句子是通过插入两个图形表情符号,比如“xxxx[图形表情符号1]yyyy[图形表情符号2]”而构成的情况下,连接各个语音数据意味着按对应于图形表情符号1的情感语音合成在图形表情符号1之前的短语,和按对应于图形表情符号2的情感语音合成在图形表情符号2之前的短语。分别按每种情感合成的各个语音数据最后作为一个句子的语音消息被输出。这种情况下,“xxxx[图形表情符号1]”和“yyyy[图形表情符号2]”均对应于上面的判定单元。
保存在语音合成数据存储装置305中的数据被语音数据合成器303用于生成语音合成数据。即,语音合成数据存储装置305把语音合成用数据和参数提供给语音数据合成器303。
下面参考图5,说明按照本实施例的语音合成消息系统中的处理。该处理表示在经由消息服务器设备20传送从通信终端10a(第一通信终端)到通信终端10b(第二通信终端)的文本消息的过程中,媒体处理服务器设备30合成与文本消息对应的带情感表现的语音消息,以便作为语音消息传送给通信终端10b的处理。
通信终端10a生成去往通信终端10b的文本消息(S1)。文本消息的例子包括IM、电子邮件或聊天。
通信终端10a把在步骤S1中生成的文本消息传给消息服务器设备20(S2)。
当从通信终端10a收到消息时,消息服务器设备20把该消息传递给媒体处理服务器设备(S3)。当收到消息时,消息服务器设备20首先确定通信终端10a或通信终端10b是否预订了语音合成服务。具体地说,消息服务器设备20一旦检查合同信息,并且在消息来自或者去往预订语音合成服务的通信终端10的情况下,把消息传递给媒体处理服务器设备30,否则把消息原样作为普通的文本消息传送给通信终端10b。在文本消息不被传递给媒体处理服务器设备30的情况下,媒体处理服务器设备30不参与文本消息的处理,文本消息是按照和传送或接收普通的电子邮件、聊天或IM的相同方式处理的。
当从消息服务器设备20收到文本消息时,媒体处理服务器设备30确定消息中的情感(S4)。
媒体处理服务器设备30按照在步骤S4中确定的情感,语音合成接收的文本消息(S5)。
当生成语音合成的语音数据时,媒体处理服务器设备30生成与从消息服务器设备20传来的文本消息对应的语音消息(S6)。
当生成语音消息时,媒体处理服务器设备30把语音消息送回消息服务器设备20(S7)。这种情况下,媒体处理服务器设备30把合成的语音消息连同从媒体服务器设备20传来的文本消息一起传送给消息服务器设备20。具体地说,以文本消息的附加文件的形式传送语音消息。
当从媒体处理服务器设备30收到语音消息时,消息服务器设备20把语音消息连同文本消息一起传送给通信终端10b(S8)。
当从消息服务器设备20收到语音消息时,通信终端10b重放该语音(S9)。接收的文本消息由电子邮件软件显示。这种情况下,可以只有当存在来自用户的指令时,才显示文本消息。
修改
上面的实施例表示了其中语音数据被保存在语音合成数据存储装置305中,按情感被归类,并被分成文节等的例子,不过本发明并不局限于此。例如,可以这样配置,以致在按音素划分数据之后,按情感保存语音数据。这种情况下,可以这样配置,以致语音数据合成器303从文本分析器302接收要语音合成的文本数据,和表示与文本数据的文本对应的情感的信息,从语音合成用数据库305读取作为与该情感对应的语音合成用数据的音素,并使用所述音素合成语音。
在上面的实施例中,文本是按标点符号和空格划分成判定单元的,不过并不局限于此。例如,通常在句子的结尾插入图形表情符号和文本表情符号。于是,在包括图形表情符号或文本表情符号的情况下,图形表情符号或文本表情符号可被视为句子的定界符,并可据此分解判定单元。另外,由于有时直接在词语之后,或者替换词语而插入图形表情符号或文本表情符号,因此,文本分析器302可把由在出现图形表情符号或文本表情符号的位置之前和之后出现标点符号的位置定界的部分判定为一个判定单元。或者,整个文本消息可被看作判定单元。
可能存在没有从判定单元提取出任何情感信息的情况。在这种情况下,例如,基于在紧接的前一个或下一个判定单元中提取的情感信息的情感判定结果可被用于进行文本的语音合成。此外,在从文本消息中只提取到一条情感信息的情况下,基于该情感信息的情感判定结果可被用于语音合成整个文本消息。
在上面的实施例中,对于要作为情感信息提取的词语,没有提出任何特殊的限制。不过,可以预先准备要提取的词语的列表,在列表中的某个词语被包括在判定单元中的情况下,可提取该词语作为情感信息。按照这种方法,由于仅仅提取有限的情感信息,并用作判定的对象,因此与对判定单元的整个文本进行情感判定的方法相比,能够更容易地进行情感判定。于是,能够缩短情感判定所需的处理时间,从而能够快速进行语音消息的传递。另外,媒体处理服务器设备30需要较少的处理负荷。此外,如果被这样配置,以致从将从中提取情感信息的项目中排除词语(即,只有文本表情符号和图形表情符号图像被提取为情感信息),那么能够进一步缩短处理时间,并进一步降低处理负荷。
在上面的实施例中,说明了其中使用通信终端ID、邮件地址、聊天ID或IM ID作为用户标识符的情况。单个用户有时具有多于一个的通信终端ID和邮件地址。为此,可以分别提供唯一地识别用户的用户标识符,以致与该用户标识符关联地管理语音合成数据。这种情况下,最好另外保存其中使通信终端ID、邮件地址、聊天ID或IMID等与用户标识符关联的对应表。
在上面的实施例中,只有当文本消息的发射器或接收器终端预订语音合成服务时,消息服务器设备20才把接收的文本消息传送给媒体处理服务器设备30。不过,所有文本消息都可被传送给媒体处理服务器设备30,而不考虑语音合成服务的预定。
附图标记说明
10,10a,10b 通信终端
101 发射器-接收器
102 文本消息生成器
103 语音消息重放单元
104 输入装置
105 显示单元
20 消息服务器设备
30 媒体处理服务器设备
301 发射器-接收器
302 文本分析器(情感判定器)
303 语音数据合成器
304 语音消息生成器
305 语音合成数据存储装置
N 网络
Claims (9)
1.一种媒体处理服务器设备,用于通过合成与在多于一个的通信终端间发射和接收的文本消息对应的语音来生成语音消息,
所述媒体处理服务器设备包括:
语音合成数据存储装置,用于在按情感类别归类之后,与唯一地识别多于一个的通信终端的相应用户的用户标识符关联地保存语音合成用数据,其中所述语音合成用数据是各个通信终端的用户本人的声音的语音数据;
情感判定器,用于当收到从多于一个的通信终端中的第一通信终端传来的文本消息时,提取收到的文本消息的每个判定单元的情感信息,并根据提取的情感信息判定情感类别,所述情感信息提取自判定单元中的文本;和
语音数据合成器,用于从语音合成数据存储装置读取与指示第一通信终端的用户的用户标识符关联的语音合成用数据中的、与由所述情感判定器判定的情感类别对应的语音合成用数据,并利用所读取的语音合成用数据来合成与判定单元的文本对应的带情感表现的语音数据,
其中,由语音数据合成器合成的语音数据要被发送到所述多于一个的通信终端中的第二通信终端,该第二通信终端是第一通信终端发送的文本消息的目的地。
2.按照权利要求1所述的媒体处理服务器设备,
其中在提取情感符号作为情感信息的情况下,情感判定器根据情感符号判定情感类别,所述情感符号用多于一个的字符的组合来表现情感。
3.按照权利要求1或2所述的媒体处理服务器设备,
其中在要插入文本中的图像被附加到所接收的文本消息的情况下,除了判定单元中的文本之外,所述情感判定器还从要插入文本中的图像提取情感信息,当用图形表现情感的情感图像被提取为情感信息时,情感判定器根据情感图像判定情感类别。
4.按照权利要求1或2所述的媒体处理服务器设备,
其中在从判定单元提取的情感信息多于一个的情况下,情感判定器判定所述多于一个的情感信息中的每个情感信息的情感类别,并从所判定的情感类别之中选择出现次数最多的情感类别作为判定结果。
5.按照权利要求1或2所述的媒体处理服务器设备,
其中在从判定单元提取的情感信息多于一个的情况下,情感判定器根据出现在与判定单元的终点最接近的位置的情感信息来判定情感类别。
6.按照权利要求1或2所述的媒体处理服务器设备,
其中语音合成数据存储装置另外保存用于为每种情感类别设置所述多于一个的通信终端的每位用户的语音模式的特征的参数,
其中语音数据合成器根据所述参数来调整合成的语音数据。
7.按照权利要求6所述的媒体处理服务器设备,
其中所述参数是为每位用户保存的、并按情感类别归类的语音合成用数据中的话音的音量平均值、话速平均值、语调平均值和频率平均值中的至少一个。
8.按照权利要求1、2以及7之一所述的媒体处理服务器设备,
其中语音数据合成器把判定单元中的文本分解成多于一个的合成单元,并执行每个合成单元的语音数据的合成,
其中当与由情感判定器判定的情感类别对应的语音合成用数据未被包括在与指示第一通信终端的用户的用户标识符关联的语音合成用数据中时,语音数据合成器从与指示第一通信终端的用户的用户标识符关联的语音合成用数据之中,选择和读取其发音部分地与合成单元的文本一致的语音合成用数据。
9.一种供通过合成与在多于一个的通信终端间发射和接收的文本消息对应的语音来生成语音消息的媒体处理服务器设备之用的媒体处理方法,
其中所述媒体处理服务器设备包括语音合成数据存储装置,该语音合成数据存储装置用于在按情感归类之后,与唯一地识别多于一个的通信终端的相应用户的用户标识符关联地保存语音合成用数据,其中所述语音合成用数据是各个通信终端的用户本人的声音的语音数据,
所述方法包括:
判定步骤,当收到从多于一个的通信终端中的第一通信终端传来的文本消息时,提取所收到的文本消息的每个判定单元的情感信息,并根据所提取的情感信息判定情感类别,所述情感信息提取自判定单元中的文本;和
合成步骤,从语音合成数据存储装置读取与指示第一通信终端的用户的用户标识符关联的语音合成用数据中的、与在判定步骤中判定的情感类别对应的语音合成用数据,并利用所读取的语音合成用数据来合成与判定单元的文本对应的语音数据,
其中,由语音数据合成器合成的语音数据要被发送到所述多于一个的通信终端中的第二通信终端,该第二通信终端是第一通信终端发送的文本消息的目的地。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008-100453 | 2008-04-08 | ||
JP2008100453 | 2008-04-08 | ||
PCT/JP2009/056866 WO2009125710A1 (ja) | 2008-04-08 | 2009-04-02 | メディア処理サーバ装置およびメディア処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101981614A CN101981614A (zh) | 2011-02-23 |
CN101981614B true CN101981614B (zh) | 2012-06-27 |
Family
ID=41161842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980111721.7A Expired - Fee Related CN101981614B (zh) | 2008-04-08 | 2009-04-02 | 媒体处理服务器设备及其媒体处理方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20110093272A1 (zh) |
EP (1) | EP2267696A4 (zh) |
JP (1) | JPWO2009125710A1 (zh) |
KR (1) | KR101181785B1 (zh) |
CN (1) | CN101981614B (zh) |
WO (1) | WO2009125710A1 (zh) |
Families Citing this family (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
DE602009000214D1 (de) * | 2008-04-07 | 2010-11-04 | Ntt Docomo Inc | Gefühlerkennungsmitteilungssystem und Mitteilungsspeicherserver dafür |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US20110238406A1 (en) * | 2010-03-23 | 2011-09-29 | Telenav, Inc. | Messaging system with translation and method of operation thereof |
US10398366B2 (en) * | 2010-07-01 | 2019-09-03 | Nokia Technologies Oy | Responding to changes in emotional condition of a user |
KR101233628B1 (ko) | 2010-12-14 | 2013-02-14 | 유비벨록스(주) | 목소리 변환 방법 및 그를 적용한 단말 장치 |
WO2012089906A1 (en) * | 2010-12-30 | 2012-07-05 | Nokia Corporation | Method, apparatus and computer program product for emotion detection |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
KR101203188B1 (ko) * | 2011-04-14 | 2012-11-22 | 한국과학기술원 | 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체 |
CN102752229B (zh) * | 2011-04-21 | 2015-03-25 | 东南大学 | 一种融合通信中的语音合成方法 |
US8954317B1 (en) * | 2011-07-01 | 2015-02-10 | West Corporation | Method and apparatus of processing user text input information |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
US9191713B2 (en) * | 2011-09-02 | 2015-11-17 | William R. Burnett | Method for generating and using a video-based icon in a multimedia message |
RU2631164C2 (ru) * | 2011-12-08 | 2017-09-19 | Общество с ограниченной ответственностью "Базелевс-Инновации" | Способ анимации sms-сообщений |
WO2013094979A1 (ko) * | 2011-12-18 | 2013-06-27 | 인포뱅크 주식회사 | 통신 단말 및 그 통신 단말의 정보처리 방법 |
WO2013094982A1 (ko) * | 2011-12-18 | 2013-06-27 | 인포뱅크 주식회사 | 정보처리 방법 및 시스템과 기록매체 |
WO2013128715A1 (ja) * | 2012-03-01 | 2013-09-06 | 株式会社ニコン | 電子機器 |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN103543979A (zh) * | 2012-07-17 | 2014-01-29 | 联想(北京)有限公司 | 一种输出语音的方法、语音交互的方法及电子设备 |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
JP6003352B2 (ja) * | 2012-07-30 | 2016-10-05 | ブラザー工業株式会社 | データ生成装置、及びデータ生成方法 |
JP2014130211A (ja) * | 2012-12-28 | 2014-07-10 | Brother Ind Ltd | 音声出力装置、音声出力方法、およびプログラム |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
JP2014178620A (ja) * | 2013-03-15 | 2014-09-25 | Yamaha Corp | 音声処理装置 |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10051120B2 (en) * | 2013-12-20 | 2018-08-14 | Ultratec, Inc. | Communication device and methods for use by hearing impaired |
US10116604B2 (en) * | 2014-01-24 | 2018-10-30 | Mitii, Inc. | Animated delivery of electronic messages |
US9397972B2 (en) * | 2014-01-24 | 2016-07-19 | Mitii, Inc. | Animated delivery of electronic messages |
US10013601B2 (en) * | 2014-02-05 | 2018-07-03 | Facebook, Inc. | Ideograms for captured expressions |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11289077B2 (en) * | 2014-07-15 | 2022-03-29 | Avaya Inc. | Systems and methods for speech analytics and phrase spotting using phoneme sequences |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9747276B2 (en) | 2014-11-14 | 2017-08-29 | International Business Machines Corporation | Predicting individual or crowd behavior based on graphical text analysis of point recordings of audible expressions |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11016534B2 (en) | 2016-04-28 | 2021-05-25 | International Business Machines Corporation | System, method, and recording medium for predicting cognitive states of a sender of an electronic message |
JP6465077B2 (ja) * | 2016-05-31 | 2019-02-06 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
CN106571136A (zh) * | 2016-10-28 | 2017-04-19 | 努比亚技术有限公司 | 一种语音输出装置和方法 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10147415B2 (en) * | 2017-02-02 | 2018-12-04 | Microsoft Technology Licensing, Llc | Artificially generated speech for a communication session |
CN106710590B (zh) * | 2017-02-24 | 2023-05-30 | 广州幻境科技有限公司 | 基于虚拟现实环境的具有情感功能的语音交互系统及方法 |
US10170100B2 (en) * | 2017-03-24 | 2019-01-01 | International Business Machines Corporation | Sensor based text-to-speech emotional conveyance |
JP6806619B2 (ja) * | 2017-04-21 | 2021-01-06 | 株式会社日立ソリューションズ・テクノロジー | 音声合成システム、音声合成方法、及び音声合成プログラム |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) * | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10650095B2 (en) | 2017-07-31 | 2020-05-12 | Ebay Inc. | Emoji understanding in online experiences |
JP7021488B2 (ja) * | 2017-09-25 | 2022-02-17 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及びプログラム |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
JP2019179190A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社フュートレック | 音声変換装置、画像変換サーバ装置、音声変換プログラム及び画像変換プログラム |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
JP7179512B2 (ja) * | 2018-07-10 | 2022-11-29 | Line株式会社 | 情報処理方法、情報処理装置、及びプログラム |
US10929617B2 (en) * | 2018-07-20 | 2021-02-23 | International Business Machines Corporation | Text analysis in unsupported languages using backtranslation |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
KR20200036414A (ko) * | 2018-09-28 | 2020-04-07 | 주식회사 닫닫닫 | 비동기적 인스턴트 메시지 서비스를 제공하기 위한 장치, 방법 및 컴퓨터 판독가능 저장 매체 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US10902841B2 (en) * | 2019-02-15 | 2021-01-26 | International Business Machines Corporation | Personalized custom synthetic speech |
KR20200101103A (ko) * | 2019-02-19 | 2020-08-27 | 삼성전자주식회사 | 사용자 입력을 처리하는 전자 장치 및 방법 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
WO2020235696A1 (ko) * | 2019-05-17 | 2020-11-26 | 엘지전자 주식회사 | 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법 |
US11488576B2 (en) * | 2019-05-21 | 2022-11-01 | Lg Electronics Inc. | Artificial intelligence apparatus for generating text or speech having content-based style and method for the same |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
CN110189742B (zh) * | 2019-05-30 | 2021-10-08 | 芋头科技(杭州)有限公司 | 确定情感音频、情感展示、文字转语音的方法和相关装置 |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN111354334B (zh) | 2020-03-17 | 2023-09-15 | 阿波罗智联(北京)科技有限公司 | 语音输出方法、装置、设备和介质 |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11594226B2 (en) * | 2020-12-22 | 2023-02-28 | International Business Machines Corporation | Automatic synthesis of translated speech using speaker-specific phonemes |
WO2022178066A1 (en) * | 2021-02-18 | 2022-08-25 | Meta Platforms, Inc. | Readout of communication content comprising non-latin or non-parsable content items for assistant systems |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002041411A (ja) * | 2000-07-28 | 2002-02-08 | Nippon Telegr & Teleph Corp <Ntt> | テキスト読み上げロボット、その制御方法及びテキスト読み上げロボット制御プログラムを記録した記録媒体 |
JP2005062289A (ja) * | 2003-08-08 | 2005-03-10 | Triworks Corp Japan | データ表示サイズ対応プログラム、データ表示サイズ対応機能搭載携帯端末およびデータ表示サイズ対応機能支援サーバ |
WO2005086010A1 (ja) * | 2004-03-05 | 2005-09-15 | Nec Corporation | メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム |
JP3806030B2 (ja) * | 2001-12-28 | 2006-08-09 | キヤノン電子株式会社 | 情報処理装置及び方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0512023A (ja) * | 1991-07-04 | 1993-01-22 | Omron Corp | 感情認識装置 |
JPH09258764A (ja) * | 1996-03-26 | 1997-10-03 | Sony Corp | 通信装置および通信方法、並びに情報処理装置 |
JP2000020417A (ja) * | 1998-06-26 | 2000-01-21 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
US6990452B1 (en) * | 2000-11-03 | 2006-01-24 | At&T Corp. | Method for sending multi-media messages using emoticons |
GB0113570D0 (en) * | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Audio-form presentation of text messages |
US6876728B2 (en) * | 2001-07-02 | 2005-04-05 | Nortel Networks Limited | Instant messaging using a wireless interface |
JP2004023225A (ja) * | 2002-06-13 | 2004-01-22 | Oki Electric Ind Co Ltd | 情報通信装置およびその信号生成方法、ならびに情報通信システムおよびそのデータ通信方法 |
JP2005044330A (ja) * | 2003-07-24 | 2005-02-17 | Univ Of California San Diego | 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 |
JP2006330958A (ja) * | 2005-05-25 | 2006-12-07 | Oki Electric Ind Co Ltd | 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ |
US20070245375A1 (en) * | 2006-03-21 | 2007-10-18 | Nokia Corporation | Method, apparatus and computer program product for providing content dependent media content mixing |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
-
2009
- 2009-04-02 JP JP2010507223A patent/JPWO2009125710A1/ja active Pending
- 2009-04-02 KR KR1020107022310A patent/KR101181785B1/ko not_active IP Right Cessation
- 2009-04-02 US US12/937,061 patent/US20110093272A1/en not_active Abandoned
- 2009-04-02 EP EP09730666A patent/EP2267696A4/en not_active Withdrawn
- 2009-04-02 CN CN200980111721.7A patent/CN101981614B/zh not_active Expired - Fee Related
- 2009-04-02 WO PCT/JP2009/056866 patent/WO2009125710A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002041411A (ja) * | 2000-07-28 | 2002-02-08 | Nippon Telegr & Teleph Corp <Ntt> | テキスト読み上げロボット、その制御方法及びテキスト読み上げロボット制御プログラムを記録した記録媒体 |
JP3806030B2 (ja) * | 2001-12-28 | 2006-08-09 | キヤノン電子株式会社 | 情報処理装置及び方法 |
JP2005062289A (ja) * | 2003-08-08 | 2005-03-10 | Triworks Corp Japan | データ表示サイズ対応プログラム、データ表示サイズ対応機能搭載携帯端末およびデータ表示サイズ対応機能支援サーバ |
WO2005086010A1 (ja) * | 2004-03-05 | 2005-09-15 | Nec Corporation | メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP2267696A4 (en) | 2012-12-19 |
WO2009125710A1 (ja) | 2009-10-15 |
KR20100135782A (ko) | 2010-12-27 |
EP2267696A1 (en) | 2010-12-29 |
KR101181785B1 (ko) | 2012-09-11 |
CN101981614A (zh) | 2011-02-23 |
JPWO2009125710A1 (ja) | 2011-08-04 |
US20110093272A1 (en) | 2011-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101981614B (zh) | 媒体处理服务器设备及其媒体处理方法 | |
US9368102B2 (en) | Method and system for text-to-speech synthesis with personalized voice | |
US7308479B2 (en) | Mail server, program and mobile terminal synthesizing animation images of selected animation character and feeling expression information | |
FI115868B (fi) | Puhesynteesi | |
US8954335B2 (en) | Speech translation system, control device, and control method | |
US7570814B2 (en) | Data processing device, data processing method, and electronic device | |
CN102089804B (zh) | 声音合成模型生成装置、声音合成模型生成系统、通信终端以及声音合成模型生成方法 | |
US20060281064A1 (en) | Image communication system for compositing an image according to emotion input | |
KR20160108348A (ko) | 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법 | |
JP2008083376A (ja) | 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置 | |
KR101628050B1 (ko) | 텍스트 기반 데이터를 애니메이션으로 재생하는 애니메이션 시스템 | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
CN108536655A (zh) | 一种基于手持智能终端的场景化朗读音频制作方法及系统 | |
CN108122555A (zh) | 通讯方法、语音识别设备和终端设备 | |
US20210065695A1 (en) | Program storage medium, method, and apparatus for determining point at which trend of conversation changed | |
EP2747464A1 (en) | Sent message playing method, system and related device | |
KR20050032589A (ko) | 통신 네트워크와 관련 송신자 단말기상으로의 메세지전송방법 및 시스템 | |
KR20060125333A (ko) | 단문 메시지를 멀티미디어 메시지로 변환 및 전송하는방법과 이를 수행하는 문자 이미지 변환서버 | |
US20080243513A1 (en) | Apparatus And Method For Controlling Output Format Of Information | |
KR20150017662A (ko) | 텍스트-음성 변환 방법, 장치 및 저장 매체 | |
CN108364638A (zh) | 一种语音数据处理方法、装置、电子设备和存储介质 | |
US20140129228A1 (en) | Method, System, and Relevant Devices for Playing Sent Message | |
JP2008299753A (ja) | 広告出力システム、サーバ装置、広告出力方法、およびプログラム | |
KR100627853B1 (ko) | 단문 메시지를 멀티미디어 메시지로 변환하고 전송하는방법 및 문자 이미지 변환서버 | |
CN107393538A (zh) | 机器人交互方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120627 Termination date: 20140402 |