发明内容
本发明的目的在于提供一种信息传输系统和信息传输方法,其能够确实地使用象形图并有助于其输入操作。
根据本发明的一个方面,一种信息传输系统包括:语音输入单元,其接收语音形式的通信内容;信息转换单元,其将语音输入单元所接收的语音信息转换成文本信息;象形图对应信息抽取单元,其从通过信息转换单元的转换而获得的文本信息中抽取指示象形图的象形图对应信息;以及象形图转换单元,其将象形图对应信息抽取单元所抽取的象形图对应信息转换成每个对应的象形图。
在优选构造中,所述通信内容对应于电子邮件的主体文本。
在另一种优选构造中,所述信息传输系统还包括:地址表,在该地址表中,注册了每个由目的地读法信息和对应于目的地的地址信息所构成的对,所述目的地读法信息包括目的地的名字或者名字(名称)的读法;地址表搜索单元,其搜索地址表以找到所述目的地读法信息中适当的一个,所述适当的一个目的地读法信息对应于文本信息中指定位置处的信息,所述文本信息是由语音输入单元接收,并通过信息转换单元进行的转换而获得的;以及目的地设定单元,当地址表搜索单元找到所述适当的一个目的地读法信息时,所述目的地设定单元将相应的地址信息设定为文本信息的目的地。
在另一种优选构造中,所述信息传输系统还包括:类型判断单元,其判断要由象形图转换单元进行转换的象形图对应信息中的每一个属于第一类型的象形图还是第二类型的象形图,所述第一类型对通常的句子加以强调,所述第二类型将其自身用特定的单词或句子代替;以及象形图转换禁止单元,其对于禁止上述转换的信息目的地,禁止象形图转换单元的象形图转换,删除对应于第一类型象形图的文本信息,并将对应于第二类型象形图的文本信息保持不变。
在另一种优选构造中,所述信息传输系统还包括:语言指定单元,其指定对应于目的地的语言;以及翻译单元,其将象形图转换单元转换后的文本信息翻译成语言指定单元所指定的语言。
在上述发明中,通过语音信息/文本信息转换单元,将利用语音输入的电子邮件的主体文本转换成文本信息,并从通过该转换获得的所述文本信息中抽取指示象形图的象形图对应信息。将该象形图对应信息转换成每个对应的象形图,从而获得象形图/文本混合信息。为了从通过语音信息/文本信息转换单元的转换获得的文本信息中获得象形图,存在一种根据文本信息的语法分析来分辨象形图的方法,以及利用作为标记包括在文本信息中的标识信息来抽取要被转换成象形图的信息,并基于该信息来分辨象形图的方法。在本发明中,由于象形图/文本混合信息是从语音信息中获得的,因此可以节省诸如传统的按键输入操作之类麻烦的输入操作。
根据本发明的另一方面,一种信息传输系统包括:语音输入单元,其接收语音形式的通信内容;图像输入单元,其接收图像信息,所述图像信息是要与语音输入单元所接收的语音信息相关联地传输的内容;信息转换单元,其将语音输入单元所接收的语音信息转换成文本信息;象形图对应信息抽取单元,其从通过信息转换单元的转换而获得的文本信息中抽取指示象形图的象形图对应信息;象形图转换单元,其将象形图对应信息抽取单元所抽取的象形图对应信息转换成每个对应的象形图;以及信息发送单元,其将象形图和文本的混合信息与图像输入单元所接收的图像信息组合起来,并发送组合后的信息,所述混合信息是通过象形图转换单元的转换而获得的。
在优选构造中,所述信息传输系统还包括:地址表,在该地址表中,注册了每个由目的地读法信息和对应于目的地的地址信息所构成的对,所述目的地读法信息包括目的地的名字或者名字(名称)的读法;地址表搜索单元,其搜索地址表以找到所述目的地读法信息中适当的一个,所述适当的一个目的地读法信息对应于文本信息中指定位置处的信息,所述文本信息是由语音输入单元接收,并通过信息转换单元进行的转换而获得的;以及目的地设定单元,当地址表搜索单元找到所述适当的一个目的地读法信息时,目的地设定单元将相应的地址信息设定为文本信息的目的地。
在另一种优选构造中,所述信息传输系统还包括:类型判断单元,其判断要由象形图转换单元进行转换的象形图对应信息中的每一个属于第一类型的象形图还是第二类型的象形图,所述第一类型对通常的句子加以强调,所述第二类型将其自身用特定的单词或句子代替;以及象形图转换禁止单元,其对于禁止上述转换的信息目的地,禁止象形图转换单元的象形图转换,删除对应于第一类型象形图的文本信息,并将对应于第二类型象形图的文本信息保持不变。
在另一种优选构造中,所述信息传输系统还包括:语言指定单元,其指定对应于目的地的语言;以及翻译单元,其将象形图转换单元转换后的文本信息翻译成语言指定单元所指定的语言。
在另一种优选构造中,所述信息发送单元每一个相应地设在多个语音输入单元中,所述信息发送单元通过在语音输入单元中每个单元的用户之间交换图像和象形图/文本的混合信息,来实现TV电话。
上述发明例如可用于TV电话,或发送各自附带有注释的每个图像,并且权利要求1所述的本发明所获得的象形图/文本混合信息与通过图像输入单元输入的图像信息组合起来并发送出去。当发送运动图像时,形成所述运动图像的每个图像信息都是从图像输入单元提供的。
根据本发明的又一方面,一种信息传输方法包括:语音输入步骤,接收语音形式的通信内容;信息转换步骤,将通过语音输入步骤所接收的语音信息转换成文本信息;象形图对应信息抽取步骤,从通过信息转换步骤中的转换而获得的文本信息中抽取指示象形图的象形图对应信息;以及象形图转换步骤,将通过象形图对应信息抽取步骤所抽取的象形图对应信息转换成每个对应的象形图。
而且,在上述发明中,要被传输的内容是利用语音输入的,所输入的语音信息被转换成文本信息,从通过所述转换获得的文本信息中抽取指示象形图的象形图对应信息,并将所抽取的象形图对应信息转换成每个对应的象形图。通过这些步骤,可以节省传统上麻烦的按键输入操作。
从下文给出的具体描述中,本发明的其他目的、特征和优点将会变得清楚。
具体实施方式
下面将参照附图,详细讨论本发明的优选实施例。在以下描述中,阐述了许多具体细节以提供对本发明的透彻理解。然而,没有这些具体细节也可以实施本发明,这一点对本领域技术人员来说是显而易见的。在其他示例中,并未示出公知的结构,以免不必要地模糊了本发明。
下面,将根据实施例来描述本发明的细节。
(第一实施例)、
图1示出了根据本发明第一实施例的通信系统的概况。在该通信系统200中,第一用户终端201和第二用户终端202连接到通信网络203,所述第一用户终端201是电子邮件的传输源,所述第二用户终端202是电子邮件的传输目的地,所述通信网络203包括移动通信网络和因特网。通信网络203连接到由预定的服务提供商所管理的商业服务器204。商业服务器204是安装有一些诸如预定语音识别软件之类的应用程序的服务器,当接收到语音信息时,所述商业服务器204对其进行识别,创建对应于语音信息的文本信息,并将以上之一转换成象形图。
图2在功能上示出了所述商业服务器的结构。商业服务器204具有作为一般服务器的硬件。控制单元211包括CPU(中央处理单元)210,所述CPU210通过使用存储在存储单元213中的上述应用程序来实现一些功能模块,所述存储单元由诸如磁盘(未示出)之类的存储装置形成,其中存储单元213连接到总线212。除此之外,各种电路或电路功能单元连接到总线212。通信单元214通过通信网络203发送和接收数据。语音识别单元215是用于识别语音信息的电路部分。文本转换单元216通过使用存储在存储单元213中的词典217,将所识别的语音信息转换成相应的文本信息。象形图转换单元218通过使用存储在存储单元213中的用于每个用户的象形图转换表219,根据单词、图标或符号,将文本信息的预定部分转换成象形图。
电子邮件创建/发送单元221利用诸如添加到邮件主体文本上的电子邮件地址之类的预定信息来创建电子邮件,并使用通信单元214将其发送到邮件目的地。地址获得单元222通过使用包含在存储单元213中的地址转换表223,从文本转换单元216由语音信息转换成的文本信息的预定部分中抽取人名,并获得与所抽取的人名相对应的电子邮件目的地的地址。文本复用单元225根据需要,将其他信息(例如视频信息)复用到文本信息中。
图1所示的第一用户终端201和第二用户终端202可以是市场上的便携式电话。对于此实施例所实现的电子邮件通信来说,作为发送方的第一用户终端201的用户A必须预先将其自身注册到商业服务器204中,并获得用户ID(标识)和密码。在该注册过程中,或者在以后对商业服务器204的连接过程中,他或她要注册每个目的地的电子邮件地址和每个用于电子邮件的象形图。
图3示出了用于每个用户的象形图转换表的内容的一个示例。象形图转换表219是在商业服务器侧的图2所示的存储单元213内,根据发送侧的用户的注册处理而创建的。这里,对应于后面描述的“如何读”和“类型”,将用户ID231、用于标识象形图开头的象形图前缀232、用于标识象形图结尾的象形图后缀233,以及各种象形图注册到象形图注册区域234中。除了用户ID231以外,每个缺省数据都被存储到象形图转换表219中,除非用户改变、添加或删除,该表作为象形图转换表219仍保持有效。
例如,在象形图前缀232中,起初准备了“nn”,其不存在于任何日语单词的开头,当用户念出“nn”时,就认定随后将要说出对应于象形图的单词。某个用户可能还在此位置注册词语“象形图开始”,或者删除起初注册的单词“nn”。当并行地使用单词“nn”和“象形图开始”时,图2所示的象形图转换单元218将紧接在其后的后续单词识别为象形图,并将该单词看作要被转换成象形图的对象,即使文本转换单元216转换出的文本信息包括“nn”和“象形图开始”之一也是如此。
在象形图后缀233中,起初注册了“—”(预定时间和更长的空白时期)。在本实施例中,当用户说出象形图的“读法”时,象形图转换单元218就检测时间“空白”,其因此可以检测到要转换成象形图的对象的范围的结尾,而无需特别注册词语“象形图结束”并将其说出。无须赘述,用户可以注册词语“象形图结束”并使用之。或者,可以将“—”(预定时间和更长的空白时期)注册在象形图前缀232中。
当许多用户发出语音时,他们常常在单词之间设定时间空白。因此,当在象形图前缀232中使用了“—”时,除了大声读出准备好的句子的情形以外,可能会违背用户的意愿而进入转换成象形图的模式。自然地,可以在象形图前缀232中设定所述时间空白的整数倍的空白时间,例如“——”或“———”,从而将其转换成诸如“nn”之类的另一种“读法”。或者,可以将便携式电话的按键中的特定按键(包括多个按键的同时输入)指定为象形图前缀232或象形图后缀233。
在象形图注册区域234中,为每个象形图注册了一种或几种读法。虽然用户可以将上述的一种或几种“读法”用作缺省值,但也可以添加另一种“读法”或可以删除某种“读法”。例如,当为某个象形图注册了新的“读法”并且其碰巧与另一象形图的“读法”重叠时,其中之一可以从象形图转换表219中删除。当为一个象形图注册了若干种“读法”时,即使可能出现这些读法中的任何一个,象形图转换单元218也将其转换成对应的象形图。当用户由于他或她所属的年龄层次而被预期不会使用某个象形图时,删除该象形图的所有读法,从而禁止转换到该象形图。
图4示出了用于每个用户的地址转换表的一部分。地址转换表包括目的地名称与邮件地址之间的每个对应关系,所述目的地名称是发送方的用户在邮件的开头部分说出的。本实施例的地址转换表223还可注册对应于邮件地址转换成象形图的可能性或不可能性。当创建包括象形图的邮件时,发送方的用户发音以指定象形图,这从对图3所示的象形图转换表的描述中就可以清楚。在此情况下,当存在对应的文本信息时,自然地将其转换成象形图。
当电子邮件被广播到一些目的地时,可能存在下述情况,即在所述目的地中的一些目的地不希望使用象形图,或者可能害怕在将无法处理象形图的通信终端设定为目的地之一时,表示象形图的文本信息或者象形图前缀232的控制信息等等被错误地显示为文本形式。对于这种目的地,在转换成象形图的可能性/不可能性一栏中注册“不可能”,使得对于所述目的地,不会显示任何象形图。此时,通过随后描述的“类型”来执行控制。
图5示出了在本实施例中,当用户A执行用户注册时的处理流程。为了使用本实施例中的商业服务器204,用户必须注册到商业服务器204中。首先,用户A使用第一用户终端201(图1)或者台式计算机或同一通信终端(未示出),对商业服务器204进行访问(步骤S301)。当使用计算机或其他可操作通信终端可以比使用便携式的第一用户终端201更容易地进行用户注册时,可以用上述计算机或其他可操作通信终端来进行用户注册。
当用户A对商业服务器204进行访问时,他或她选择用于开始使用本实施例的通信系统200的注册页面(步骤S302)。然后,他或她设定用户ID和密码,以获得新的成员资格(步骤S303)。当在该状态下,通过从商业服务器204接收返回的确认邮件而确保了用户ID和密码的设置时,用户A执行象形图转换表219的注册处理(步骤S304)。
图6示出了象形图转换表的注册处理的流程。在图3所示的象形图转换表219中,首先,用户A指定他或她使用的象形图前缀(步骤S321),然后指定象形图后缀(步骤S322)。对于二者,都可以使用缺省值,这是因为缺省值是商业服务器假定标准使用模式时所准备的内容。
对于每个象形图的读法,用户A选择是否全部应用缺省值(步骤S323)。当同时使用商业服务器204所准备的每个象形图的读法时,用户A应选择“全部应用”(“是”)。从而,执行将所有缺省值应用于每个象形图读法的处理(步骤S324)。当选择不使用缺省值时(步骤S323:“否”),用户A必须为每个象形图指定读法(步骤S325)。在该处理中,对于他或她不喜欢的象形图,可以跳过读法的输入,从而完成不使用上述象形图的处理。
当在步骤S324中,选择了应用每个象形图读法的全部缺省值的处理时,询问用户A是否将其中之一改为其他读法,或者是否添加其他读法(步骤S326)。当用户A需要此编辑时(“是”),如上所述,执行添加、改变和删除的编辑处理(步骤S327)。编辑处理本身始终可以通过指定用户ID和密码,登录到商业服务器204来执行。以同样的方式返回缺省值。
返回图5,从图5继续描述。当用户A完成了用于每个用户的象形图转换表219的注册处理时,他或她执行地址转换表223(图4)的初始注册(步骤S305)。在地址转换表223中,以后可以自然地添加或删除或改变目的地和邮件地址的名称,并且可以自然地改变象形图转换可能性的设定。用户可以跳过地址转换表223的注册。在此情况下,用户必须像传统方式下那样,通过按键操作来指定目的地地址。
图7示出了当已注册的用户创建并发送包括象形图的电子邮件时,商业服务器侧的处理流程。商业服务器204等待用户终端用于发送电子邮件的连接(步骤S341)。具体处理将在假设用户A利用第一用户终端201将电子邮件发送到用户B的第二用户终端202的情况下进行描述。
当第一用户终端201对商业服务器204进行连接时(“是”),用户A此时利用语音发送电子邮件的内容。在商业服务器204中,图2所示的通信单元214接收该语音信息(步骤S342)。然后,它将该语音信息暂时存储到存储单元213的未示出的工作存储区中,并且语音识别单元215使用词典217来识别语音信息(步骤S343)。结果,就将语音信息转换成文本信息(步骤S344)并存储在工作存储区中。
在用户A发送语音信息的同时,以句子为单位或以基本块等为单位重复上述处理(步骤S345:“否”),在语音信息接收完成时停止(步骤S345:“是”)。从而,通过对从用户A获得的语音信息进行转换而得到的文本信息被存储到存储单元213的工作存储区中。为了将每个用户所发送的语音信息准确地转换成文本信息,优选地需要对每个用户的语音识别进行训练,并将所获得的信息存储到商业服务器204中。
图8是电子邮件发送者设想的邮件主体文本的一个示例,图9示出了被念出的上述邮件主体文本的语音信息被转换成文本信息。根据本实施例的通信系统200,作为电子邮件发送方的用户A在发送如图8所示的包括象形图的电子邮件时,必须在邮件主体文本的开头输入指示目的地用户B的语音信息。此后,根据象形图前缀232和象形图后缀233的设定内容,顺序地念出邮件主体文本的内容,并且该内容被作为通常的语音信息,从第一用户终端201发送到商业服务器204。在本实施例中,用于指定发送目的地的处理是基于从邮件主体文本的开头起预定范围内的语音信息而执行的。当不执行该处理时,就无需在邮件主体文本的开头输入目的地用户的名字。
在本实施例所示的示例中,由于象形图前缀232被设定为“nn”,因此每次检测到该发音时,跟在该发音之后的语音信息就会被认为是象形图。在该示例中,由于将要输入的是时间空白“—”而不是对象形图后缀233的识别,因此与从各个“读法”到空白的文本信息相比较,象形图转换单元218将其转换成对应的象形图。在其他部分中,通过使用词典和句法分析软件,将文本信息转换成汉字和假名的混合句子(未示出)。
返回图7,将继续描述商业服务器204侧的处理。当接收到如图9所示的文本信息时,商业服务器204通过从地址转换表223(图4)中进行名字检测,检查作为发送方的用户A是否设定了电子邮件的目的地(步骤S346)。如上所示,当电子邮件发送方的用户未注册地址转换表223时,不执行通过名字检测对电子邮件目的地的设定。即使注册了地址转换表223,也可以设计成当用户登录到商业服务器204时可以选择是否自动检测电子邮件目的地。
在步骤S346中,当执行了名字检测时(“是”),处理进行到步骤S347,其中根据地址转换表223获得邮件地址。当未执行时(步骤S346:“否”),用户输入邮件地址,或返回自身邮件地址(步骤S348)。即,在后一种情况下,当用户A说完了邮件主体文本时,商业服务器204要求第一用户终端201输入邮件地址。此时,用户A像传统方式下那样,通过按键操作来输入用户B的邮件地址,或者从起初存储在第一用户终端201中的地址簿中选择用户B的邮件地址,并将其作为数据发送到商业服务器204一侧。当未指定任何目的地时,将转换出的邮件主体文本返回到用户A的终端。这可以提高邮件主体文本的编辑能力,并可以参考终端内的电话簿来找到邮件目的地地址,从而减少了麻烦。
当完成了对邮件地址的获取或输入时,商业服务器204内的CPU210检查文本信息是否被转换成了象形图(步骤S349)。在本实施例中,如上所述,由于根据象形图前缀232指定象形图区域,因此原则上对应于象形图的文本部分被转换成了象形图。当广播目的地包括老板,并且判断出不适宜使用象形图时,可以将象形图转换设定为对这种目的地不起作用。
本实施例中所使用的象形图包括对通常的句子进行强调的第一类型,以及用其自身来代替特定单词或句子的第二类型。例如,在图8所示的示例中,指示“用餐”和“电影院”的象形图属于第二类型,将其从句子中删除就使句子无意义。相反,指示“哭脸”和“good-bye(bye-bye)”的象形图属于第一类型,即使将其从句子中删除句子也是有意义的。当指定了象形图转换时(步骤S349:“是”),将对应的文本信息全部转换成象形图(步骤S350),而在另一种情况下(步骤S349:“否”),将第二类型的象形图转换成文本(步骤S351)。在图3所示的象形图转换表219中,第一类型示出为“1”,第二类型示出为“2”。
图10示出了通过步骤S351的处理获得的电子邮件是如何显示的。图9所示的象形图前缀232所指定的象形图中第二类型的文本信息被分别转换成汉字字符“吃饭”241和“看电影”242。无须赘述,并非总是转换成汉字,有时转换成平假名、片假名或通常的句子中所使用的符号。
第一用户终端201(图1)在执行此象形图转换的状态下连接到商业服务器204。用户A可以在第一用户终端201的显示屏上确认步骤S350或步骤S351的象形图转换处理的结果。根据需要,在创建和编辑电子邮件数据时对内容进行修改(步骤S352)。此时,可以像传统方式下那样通过按键操作来修改句子,或者可以在指定变更的情况下发送语音信息,并如上所述地将其转换成文本信息,进而转换成相应的象形图。
当如此创建了电子邮件时,用户A对第一用户终端201进行操作,并将电子邮件发送到用户B(步骤S353)。在广播时,执行该效果的指令,然后将电子邮件发送到多个目的地。
<第一实施例可能的变化>
在上述第一实施例中,要转换成象形图的文本信息插入在象形图前缀232和象形图后缀233之间(其中,包括预定时间或更长的时间空白),从而与要被转换成字母的文本信息区分开来。与此不同的是,可以有效地使用句子的分析结果和要被转换成象形图的文本信息的表,以便将相应的文本部分转换成象形图,而无需使用象形图前缀232和象形图后缀233。
此外,可以将上述第一类型的象形图自动添加到特定文本信息中。例如,图8最后所示的摆手象形图可以自动添加到图8所示的文本信息“再见”之后,以及表示告别的单词例如“bye-bye”、“see you”和“good-bye”之后。
(第二实施例)
图11示出了根据第二实施例的通信系统的概况。在该通信系统400中,与第一实施例相同的部分附加了相同标号,并适当地省略了其描述。在第二实施例的通信系统400中,除了商业服务器204A以外,用于发送和接收图像的图像服务器401,以及识别语音并将其转换成文本信息的语音识别服务器402也连接到通信网络203。在执行第一用户终端201与第二用户终端202之间的通信时,商业服务器204A管理整个系统,其具有将TV电话的语音信息转换成文本信息的业务。语音识别服务器402可以高速地识别语音并将其转换成文本信息。
第一和第二用户终端201和202分别包括能够以较短时间间隔拍摄图像的照相机,并且它们分别具有能够在发送和接收运动图像或符合运动图像的类似于图片播放的图像串的同时利用语音进行通信的TV电话功能。如第一实施例中所述,在描述中作为呼叫端的第一用户终端201在接收本实施例的服务之前,必须注册到商业服务器204A当中以获得成员资格。当处置便携式电话的指定代理自己来运行商业服务器204A时,用户仅需与便携式电话处置代理签订用户终端的使用合同。
在本实施例的通信系统400中,第一和第二用户终端201和202可以与普通TV电话类似地实时发送和接收视频信息和语音信息。此外,当呼叫端的第一用户终端201先前已经注册到商业服务器204A中时,第一和第二用户终端201和202可以通过按压自身用户终端的指定按键将从对方发送来的语音信息转换成文本信息,在其显示器上将其显示为字幕,并存储所述文本信息。
此时,所述文本信息可以包括与第一实施例类似的图像,或者其可以仅包括字符和没有象形图的符号。存储在自身用户终端中的文本信息可以在需要时显示在用户终端的显示器上,或者其可被编辑成电子邮件并发送到自己的计算机、别人的另一计算机,或者诸如便携式电话之类的通信终端。从而,语音识别后的文本信息与需要较大容量存储器的图像和语音信息分开,并存储所述文本信息,使得即使是便携式通信终端也可以将重要的数据存储并转移到较小容量的存储器中。
图12示出了第二实施例的商业服务器的控制的概况。当第一用户终端201对商业服务器204A进行访问以用于TV电话通信时(步骤S501:“是”),用户A从第二用户终端202的用户B接受呼叫时开始,将视频信息和语音信息发送到商业服务器204A(步骤S502)。商业服务器204A监控是否从第一用户终端201发送了用于将语音信息转换成文本信息的请求(步骤S503)。
当用于将语音信息转换成文本信息的请求未到来时(“否”),执行与普通TV电话相同的用于再现视频信息和语音的处理。即,在此情况下,从第一用户终端201发送来的预定时间单位的视频信息被通过图像服务器401发送到作为目的地的第二用户终端202(步骤S504)。在此情况下,语音信息从商业服务器204A直接发送到第二用户终端202。
当执行了预定处理时,商业服务器204A检查第一用户终端201与第二用户终端202之间的通过TV电话进行的通信是否已完成(步骤S505)。当通信尚未完成时(“否”),则处理返回到步骤S503,其中商业服务器204A检查第一用户终端201是否已发送了用于将语音信息转换成文本信息的请求。
例如,考虑这样的情况,即用户A对用户B进行TV电话呼叫,以传授用户B如何烹调他或她最喜爱的菜肴。当第一用户终端201连接到第二用户终端202时,用户A与用户B交换普通的问候,此时,视频信息和语音信息从第一用户终端201原样发送到第二用户终端202。不执行将语音信息转换成文本信息的处理。在某一时刻,用户A告诉用户B让他或她传授菜谱并记录内容,并且用户A对第一用户终端201中未示出的按键进行操作。由此,用于将语音信息转换成文本信息的请求从第一用户终端201发送到商业服务器204A。
由于文本转换请求的到来(步骤S503:“是”),商业服务器204A将到目前为止发送到第二用户终端202的语音信息发送到语音识别服务器402。语音识别服务器402将发送而来的语音信息转换成文本信息,并将此文本信息稍微延迟后,与视频信息一起发送到图像服务器401。图像服务器401将发送来的视频信息与作为下半屏幕上的文本信息的字母和符号组合起来,并将这样获得的组合图像发送到第二用户终端202(步骤S506)。
该处理在每个预定时间单位内都执行一次,并且在每个时间单位上都检查是否已完成TV电话上的通信(步骤S505)。然后,处理返回到步骤S503。在第一用户终端201向语音识别服务器402发送文本转换请求时,由菜谱的语音信息转换而成的文本信息作为图像被显示给第二用户终端202。用户B可以将菜谱的文本信息存储到第二用户终端202未示出的存储器中。
与存储语音信息或将语音信息与图像一起存储相比,存储文本信息可以在存储器容量上节省得多。文本信息可以在接收到用户A所发送的与文本转换请求相关联的控制信号时自动存储到第二用户终端202中,或者用户B可以根据用户A的指令通过第二用户终端202侧的按键操作存储文本信息,从而高效地存储必要的信息。这样获得的文本信息可以从第二用户终端202通过电子邮件发送到期望目的地,并可以由打印机将内容打印出来。用户B可以在第二用户终端202的显示器上调用所存储的内容,并据此来烹调所述菜肴。
当在预定的时间单位内执行了步骤S506的处理时,检查是否完成了TV电话上的通信(步骤S505)。处理返回到步骤S503。当通信尚未完成,并且指示了将转换出的文本信息发送到第二用户终端202时,用户B可以将用户A说出的菜谱作为字符信息来接收。
当在通信过程中,用于将语音信息转换成文本信息的请求被取消时(步骤S503:“否”),处理返回到视频信息和语音信息的普通TV电话。当通信已完成时(步骤S505:“是”),商业服务器204A根据呼叫持续时间和语音信息被转换成文本信息的时间来执行计费处理(步骤S507),然后TV电话上的通信完成。
在第二实施例中,虽然描述了从第一用户终端201发送到第二用户终端202的视频信息和语音信息的处理,但相同的处理也可以对从第二用户终端202发送到第一用户终端201的视频信息和文本信息执行。从而,第一用户终端201可以接收具有从用户B发送到用户A的与文本信息相组合的视频信息的图像。
在第二实施例中,当存在用于将语音信息转换成文本信息的请求时,语音信息未被再现,而是在图像中显示文本信息。与此不同的是,当存在相同的请求时,可以设计成在另一终端中,既在图像中显示文本信息,又连续再现语音信息。为了进行此处理,语音信息不仅在步骤S506中被发送到语音识别服务器402,而且语音信息本身还被发送到TV电话上的对方的用户终端,以便连续地再现语音信息。
与第一实施例类似,当语音识别服务器402的商业服务器204A具有将预定对象转换成象形图的功能时,其可以将文本信息的一部分转换成象形图并将其显示在用户终端的屏幕上。
<第二实施例可能的变化>
图13示出了根据第二实施例的通信系统的变化示例。图13中与图11中相同的部分附加了相同的标号,并适当地省略了其描述。第一变化的通信系统400B除了通信网络203之外还具有翻译服务器411。例如,假定具有第一用户终端201的用户A是日本人,而具有第二用户终端202的用户B是俄罗斯人。
在此情况下,当用户A向商业服务器204B发出将信息转换成俄语文本信息的请求时,商业服务器204B将从第一用户终端201发送来的语音信息发送到语音识别服务器402并将其转换成日语文本信息,然后将该信息发送到翻译服务器411并将其转换成俄语文本信息。图像服务器401将文本信息与视频图像组合起来,并将其发送到第二用户终端202。
据此,俄罗斯用户B可以在屏幕上获得与用户A所讲的日语相对应的俄语文本信息,并在TV电话上与日本人对话。在此情况下,用户B所说出的俄语被最终转换成日语文本信息,并显示在第一用户终端201上。
无须赘述,被转换成对方母语的文本信息的语音信息可被返回成原始语音信息。与第一实施例类似,转换后的文本信息可以与象形图组合起来。由于象形图常常在全世界是共同理解的,因此经常使用象形图可以顺利地发展TV电话通信。
(第三实施例)
图14示出了根据本发明第三实施例的通信系统的概况。在图14中,与图11相同的部分附加了相同的标号,并适当地省略了其描述。在第三通信系统600中,图像信息存储单元601连接到商业服务器204C,商业服务器204C连接到通信网络203。图像信息存储单元601被形成为诸如磁盘之类的外部存储单元。
图15示出了根据第三实施例的商业服务器的控制的概况。将在用户A通过使用第一用户终端201,将包括图像文件的电子邮件发送到第二用户终端202的情况下进行描述。商业服务器204C等待用户终端的连接(步骤S701),当第一用户终端201进行连接时(“是”),所发送的图像文件被存储到图像信息存储单元601中(步骤S702)。
此后,用户A发送要被转换成文本信息和象形图的语音信息。当接收到语音信息时(步骤S703:“是”),商业服务器204C与第一实施例类似地将其转换成文本信息,进而将对应于象形图的部分转换成象形图(步骤S704)。然后,其执行图像编辑,以在用户A发送语音信息时所指定的位置将上述文本信息和象形图组合起来(步骤S705)。
可以在对商业服务器204C进行访问的第一用户终端201的屏幕上确认编辑结果。即,在静态图像的情况下,用户A确认对于用户A在步骤S703发送的语音信息,适当转换的文本信息和象形图是否显示在每个适当的位置。例如,在运动图像的情况下,当字符被插入其标题中时,用户A检查用于指定标题的语音信息是否已被适当的转换并显示。可以将文本或象形图插入到移动象形图的帧中。在此情况下,由于用于指定插入位置的语音信息被发送到商业服务器204C,因此用户A检查其是否已被适当地转换。
当图像编辑的结果无法被认可时(步骤S706:“否”),处理返回到步骤S703,其中根据语音信息的输入,对文本信息或象形图中的全部或之一进行校正或添加(步骤S703:“是”)。在步骤S706中,编辑内容的指令和诸如用户A的选择之类的预定输入可以通过对设在第一用户终端201中的按键的操作来执行。
当作为对象形图进行重编辑的结果,可以认可图像编辑或图像信息已被满意地编辑时(步骤S706:“是”),具有包括编辑后的图像信息在内的图像文件的电子邮件被发送到用户A所指定的用户B的第二用户终端202(步骤S707)。此后,执行取决于编辑的处理内容的计费处理(步骤S708)。无须赘述,可以在静态图像或动态图像的一幅图像中显示赞助商的名称或赞助商所出售的产品的名称,或者显示公司的徽标作为文本信息。在此情况下,不对用户A执行计费处理。
如上所述,当用户A将先前准备好的静态图像或运动图像发送到目的地时,他或她将其发送到商业服务器204C,在商业服务器204C中其被转换成文本信息,并可以将内置到图像中的字符和象形图发送到目的地而无需输入单独的字符。
<第三实施例的变化示例>
在上述第三实施例中,虽然在商业服务器204C侧执行图像信息的编辑,但也可以仅将语音信息发送到商业服务器204C以转换成对应的文本信息和象形图,并将结果返回到第一用户终端201,可在第一用户终端201中执行图像编辑。在此情况下,已被编辑的图像文件被发送到商业服务器204C,然后发送到第二用户终端202。
在上述实施例和变化中,在将语音信息转换成象形图时,使用用于标识象形图开头的象形图前缀232和用于标识其结尾的象形图后缀233,或者使用无声部分,以便指定象形图部分。此外,根据用户所指定的模式(大量使用象形图的模式,以及自动添加专门指示诸如用餐之类的预定的重复单词的象形图的模式),在分析整个句子之后,可以自动从语音信息中添加象形图而不指定象形图。用户所指定的模式可以包括表现人的感情的模式(例如情侣模式),以及商业模式和压抑人的感情的模式。在表现人的感情的模式的情况下,分析说话者的音调,并且如果存在对应于同一单词的多个象形图,则可以有选择地使用每个象形图。
根据上述本发明,不仅语音信息被转换成文本信息,而且从语音信息中抽取象形图相关信息,并将象形图相关信息转换成每个对应的象形图。从而,在诸如移动电话之类的使用多个象形图的通信系统的情况下,可以提高可操作性,并且仍然可以实时或几乎实时地发送包括象形图的信息。
由于与文本信息相组合的象形图不仅可以用在电子邮件中,而且可以用在TV会议时以及发送图像文件时,因此可以将信息理解为是直观地发送的。而且,可以掌握发送信息者的感情。尤其是,象形图类似于象形文字,因此语言不同的人可以准确地共享其意思。因此,通过将语音信息不仅转换成文本信息,而且转换成包括象形图的信息,可以在母语不同的人之间迅速地建立最小化的通信。
尽管针对本发明的示例性实施例示出并描述了本发明,但本领域技术人员应当理解,可以对其进行上述及各种其他修改、省略和添加,而不会偏离本发明的精神和范围。因此,不应将本发明理解为局限于上面所提出的特定实施例,而是包括可被包含在所附权利要求书中所提出的特征所覆盖的范围及其等同物的范围之内的所有可能的实施例。