CN104820662A

CN104820662A - 业务服务器装置

Info

Publication number: CN104820662A
Application number: CN201510201392.2A
Authority: CN
Inventors: 那须和德; 柴田精司; 阿久泽真理; 内山健
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2011-05-24
Filing date: 2012-05-24
Publication date: 2015-08-05
Anticipated expiration: 2032-05-24
Also published as: US20140180668A1; EP2590393A1; JP2013009367A; CN103026697A; CN103026697B; WO2012160824A1; EP2590393A4; US9110888B2; CN104820662B; JP5243646B2

Abstract

本发明提供一种业务服务器装置，可使用现有的应用程序来实现见面对话这样的业务。业务服务器装置由以下的部件来构建：业务启动部，其受理在通信之间执行任务的指示；电话/呼叫控制部，其在声音通信终端装置之间的通信中对说话者的通话声音进行录音；在受理了指示的情况下根据所录的通话声音来执行任务的声音识别使能器、文本翻译使能器、声音合成使能器；和通信控制使能器，其向声音通信终端装置提供通过执行任务而获得的任务数据，使任务数据成为将通话声音转换为文本而得的文本数据、将文本数据翻译为其它语言而得的翻译文本数据、将翻译文本数据转换为声音而得的声音数据。

Description

业务服务器装置

本申请是申请号为201280002148.8的发明专利申请(国际申请号：PCT/JP2012/003393，申请日：2012年05月24日，发明名称：业务服务器装置、业务提供方法、业务提供程序)的分案申请。

技术领域

本发明涉及通过通信来提供业务的业务服务器装置、业务提供方法、业务提供程序，尤其涉及在电话机的通话中提供通话以外的业务的业务服务器装置、业务提供方法、业务提供程序。

背景技术

目前，将说话者使用任意的语言所说的内容自动翻译为其它语言的翻译机或翻译系统已实用化。现有的翻译机等包括被称为单人应用型或见面会话型的翻译机和被称为远程会话型的翻译机。

图13(a)是例示单人应用的翻译机的图。在图13(a)中，例如，说话者利用日语将“この本はいくらですか？”以声音的方式输入到翻译机。于是，通过翻译机的翻译功能对该日语的声音进行英译，输出“How much is this book？”的合成声音。单人应用的翻译机可作为日英词典使用，或者用于在通过使会面中的其它人员听到合成声音来将说话者自己的意思传递给其它人员。例如非专利文献1记载了这样的现有翻译机。

图13(b)是例示远程会话型的翻译机的图。图13(b)所示的翻译机具备电话机的声音通信功能和翻译功能。在图13(b)中，例如，作为说话者的日本人利用母语即日语向翻译机声音输入“3名で予約を御願いします”。然后，通过翻译机的翻译功能对该日语的声音进行英译，输出“Please make a reservation for 3people”的合成声音。远程会话型的翻译机可在说话者利用母语进行会话的同时向无法理解其母语的其它人员传达自己的意思。例如非专利文献2记载了这样的现有翻译机。

此外，作为远程会话型的翻译机，还包括记载于专利文献1中的发明。专利文献1记载的电话系统统不仅能够翻译电话的内容并发送给通话对方，还能够将说话者的通话声音发送给通话对方。因此，专利文献1记载的发明能够给用户仿佛经由口译与通话对方进行会话的感觉。

现有技术文献

专利文献

专利文献1：日本专利第3741025号公报

非专利文献

非专利文献1：andro navi、[online]、“iTranslator for Android～20カ国語に対応した高機能翻訳アプリ～”、[2011年5月13日检索]、互联网<URL：http：//andronavi.com/2010/09/40880>

非专利文献2：iplatform.org、[online]、セカイフォン[2011年5月13日检索]、互联网<URL：http：//www.iplatform.org/>

发明内容

发明所要解决的问题

但是，在所使用的语言相互不同的两者进行会话的情况下，一般是由口译者翻译两者的语言。无论在采用上述非专利文献1、非专利文献2中的哪一个的情况下都无法实现像口译者翻译两者的语言那样具有如见面对话的现场感的业务。

另外，上述专利文献1记载的发明还可以将说话者的通话声音发送至通话对方。但是，在专利文献1记载的发明中，当把翻译通话内容后的数据与说话者的声音一起发送时，要启动专用的应用程序。在这样的专利文献1记载的发明中，为了实施发明需要开发新的应用程序，从而具有在此开发的过程中产生时间或人工、费用成本的问题。

本发明是鉴于以上的问题而完成的，其目的是提供如下这样的业务服务器装置、业务提供方法、业务提供程序，即：能够实现虽然处于远程位置但具有见面对话的现场感的业务，而且不需要开发新的专用的应用程序。

解决问题的手段

为了解决以上的课题，本发明一方式的业务服务器装置(例如图2所示的业务服务器装置200)与利用声音相互进行声音通信的多个声音通信终端装置(例如图2所示的去电通信终端装置241a、来电通信终端装置241b)连接，提供基于其它任务的业务，该其它任务是与在该声音通信终端装置之间进行的声音通信所涉及的应用程序不同的应用程序执行的作业，其特征在于，该业务服务器装置包括：指示受理部(例如图2所示的业务启动部250)，其受理在声音通信之间执行上述其它任务的指示；录音部(例如图2所示的电话/呼叫控制使能器201)，其在多个上述声音通信终端装置间的声音通信中对说话者的通话声音进行录音；任务执行部(例如图2所示的声音识别使能器203、文本翻译使能器204、声音合成使能器202)，其在上述指示受理部受理了上述指示时，根据上述录音部所录的上述通话声音来执行上述其它任务；任务数据提供部(例如图2所示的通信控制部224)，其向正在进行声音通信的多个所述声音通信终端装置分别提供任务数据，该任务数据包含通过所述任务执行部执行所述其它任务而获得的文本数据和通过所述任务执行部执行所述其它任务而获得的声音数据，所述任务执行部将所述通话声音转换为文本而生成文本数据，将该文本数据翻译为其它语言而生成翻译文本数据，将该翻译文本数据转换为声音而生成声音数据，所述任务数据提供部将所述文本数据、所述翻译文本数据以及所述声音数据与所述通话声音一起作为所述任务数据分别提供给正在进行声音通信的多个所述声音通信终端装置。

另外，本发明一方式的业务服务器装置(例如图10所示的业务服务器装置900)与利用声音相互进行声音通信的多个声音通信终端装置(例如图10所示的去电通信终端装置241a、来电通信终端装置241b)连接，提供基于其它任务的业务，该其它任务是与在该声音通信终端装置之间进行的声音通信所涉及的应用程序不同的应用程序执行的作业，其特征在于，该业务服务器装置包括：指示受理部(例如图10所示的业务启动部250)，其受理在上述声音通信之间执行上述其它任务的指示；录音部(例如图10所示的电话/呼叫控制使能器201)，其在多个上述声音通信终端装置间的通信中对说话者的通话声音进行录音；任务执行部(例如图10所示的声音识别使能器203、信息管理使能器214、图像影像合成/编辑使能器215)，其在所述指示受理部受理了所述指示时，根据所述录音部所录的所述通话声音执行所述其它任务；以及任务数据提供部(例如图10所示的通信控制部224)，其向正在进行声音通信的多个上述声音通信终端装置分别提供表示由上述任务执行部执行上述其它任务的结果的任务数据，所述任务执行部根据所述通话声音判定由所述声音通信终端装置的用户作出的指示，按照该指示提取预先登记的信息，使用提取的信息生成包含文本以及图像中的至少一方的任务数据，所述任务数据提供部将包含所述文本以及所述图像中的至少一方的所述任务数据与所述通话声音一起分别提供给正在进行声音通信的多个所述声音通信终端装置。

另外，本发明一方式的业务服务器装置在上述的发明中还可以包括：订正指示受理部，其受理发送到所述声音通信终端装置的所述任务数据的订正指示；以及学习部(例如图2、图10所示的学习部280)，其根据所述订正指示受理部受理的订正指示，对生成所述任务数据时使用的数据进行加权。

另外，本发明一方式的业务服务器装置在上述的发明中，所述任务执行部在判定为由用户作出的指示是该用户的日程调整时，提取预先登记的与所述用户相关的行动和与进行该行动的日期时刻相关的日程信息，使用所提取的日程信息，提取多个所述声音通信终端装置的用户的没有登记行动的共同日期时刻。

另外，本发明一方式的业务服务器装置在上述的发明中，所述任务数据提供部向文本通信终端装置发送所述任务数据中的所述文本数据而取代所述声音通信终端装置，该文本通信终端装置与该声音通信终端装置对应、且能够进行基于文本的通信。

另外，本发明一方式的业务提供方法是业务服务器装置的业务提供方法，该业务服务器装置与利用声音相互进行通信的多个声音通信终端装置连接，提供基于其它任务的业务，该其它任务是与在该声音通信终端装置之间进行的声音通信所涉及的应用程序不同的应用程序执行的作业，该业务提供方法的特征在于，包括以下步骤：指示受理步骤，受理在声音通信之间执行所述其它任务的指示；录音步骤，在多个所述声音通信终端装置之间的声音通信中对说话者的通话声音进行录音；任务执行步骤，在所述指示受理步骤中受理了所述指示的情况下，根据在所述录音步骤中所录的所述通话声音，将所述通话声音转换为文本而生成文本数据，将该文本数据翻译为其它语言而生成翻译文本数据，将该翻译文本数据转换为声音而生成声音数据；以及任务数据提供步骤，将所述文本数据、所述翻译文本数据和所述声音数据作为任务数据与所述通话声音一起分别提供给正在进行声音通信的多个所述声音通信终端装置。

本发明一方式的业务提供方法是业务服务器装置的业务提供方法，该业务服务器装置与利用声音相互进行声音通信的多个声音通信终端装置连接，提供基于其它任务的业务，该其它任务是与在该声音通信终端装置之间进行的声音通信所涉及的应用程序不同的应用程序执行的作业，该业务提供方法的特征在于，包括以下步骤：指示受理步骤，受理在声音通信之间执行所述其它任务的指示；录音步骤，在多个所述声音通信终端装置之间的声音通信中对说话者的通话声音进行录音；任务执行步骤，在所述指示受理步骤中受理了所述指示的情况下，根据在所述录音步骤中所录的所述通话声音判定由所述声音通信终端装置的用户作出的指示，按照该指示提取预先登记的信息，使用所提取的信息来生成包含文本以及图像中的至少一方的任务数据；以及任务数据提供步骤，将包含文本以及图像中的至少一方的所述任务数据与所述通话声音一起分别提供给正在进行声音通信的多个所述声音通信终端装置。

本发明一方式的业务提供程序是在业务服务器装置中执行的业务提供程序，该业务服务器装置与利用声音相互进行声音通信的多个声音通信终端装置连接，提供基于其它任务的业务，该其它任务是与在该声音通信终端装置之间进行的声音通信所涉及的应用程序不同的应用程序执行的作业，该业务提供程序的特征在于，使计算机实现以下功能：指示受理功能，受理在声音通信之间执行所述其它任务的指示；录音功能，在多个所述声音通信终端装置之间的声音通信中对说话者的通话声音进行录音；任务执行功能，在利用所述指示受理功能受理了所述指示时，根据在所述录音功能中所录的所述通话声音，对所述通话声音进行文本转换而生成文本数据，将该文本数据翻译为其它语言而生成翻译文本数据，将该翻译文本数据转换为声音而生成声音数据；以及任务数据提供功能，将所述文本数据、所述翻译文本数据和所述声音数据作为任务数据与所述通话声音一起分别提供给正在进行声音通信的多个所述声音通信终端装置。

本发明一方式的业务提供程序是在业务服务器装置中执行的业务提供程序，该业务服务器装置与利用声音相互进行声音通信的多个声音通信终端装置连接，提供基于其它任务的业务，该其它任务是与在该声音通信终端装置之间进行的声音通信所涉及的应用程序不同的应用程序执行的作业，该业务提供程序的特征在于，使计算机实现以下功能：指示受理功能，受理在声音通信之间执行所述其它任务的指示；录音功能，在多个所述声音通信终端装置之间的声音通信中对说话者的通话声音进行录音；任务执行功能，在利用所述指示受理功能受理了所述指示时，根据在所述录音功能中所录的所述通话声音判定由所述声音通信终端装置的用户作出的指示，按照该指示提取预先登记的信息，使用所提取的信息生成包含文本以及图像中的至少一方的任务数据；以及任务数据提供功能，将包含文本以及图像中的至少一方的所述任务数据与所述通话声音一起分别提供给正在进行声音通信的多个所述声音通信终端装置。

发明的效果

根据上述方式的本发明，利用与声音通信所涉及的应用程序不同的应用程序来执行任务，所以可使用现有的声音所涉及的应用程序和执行任务的应用程序，将说话者的通话声音与任务的执行结果一起发送到通话对方。这种方式的本发明可一边利用现有的应用程序一边提供虽然处于远程位置但仍具有如见面会话的现场感的通话业务。

附图说明

图1是用于说明作为本发明实施方式1的前提的业务概要的图。

图2是示出本发明实施方式1的业务服务器装置的一结构例的框图。

图3是用于说明图2所示的学习部的功能框图。

图4是用于说明利用图2所示的业务服务器装置进行的处理的步骤的图。

图5是用于具体地说明连接图2、图4所示的业务服务器装置与去电通信终端装置、来电通信终端装置的CS网、PS网的图。

图6是用于具体地说明连接图2、图4所示的业务服务器装置与去电通信终端装置、来电通信终端装置的PS网的图。

图7是用于说明利用实施方式1的业务服务器装置实现的业务提供方法的图。

图8是用于说明实施方式1的业务提供方法的流程图。

图9是用于说明实施方式2的日程管理应用的概要的图。

图10是示出实施方式2的业务服务器装置的图。

图11是例示了实施方式2的任务数据的图。

图12是用于说明实施方式2的业务提供方法的流程图。

图13中的(a)是用于说明普通的翻译机的结构的图，(b)是用于说明普通的翻译系统的结构的图。

具体实施方式

以下，参照附图来说明本发明的业务服务器装置、业务提供方法、业务提供程序的实施方式1、实施方式2。在以下参照的各个图中，对与其它图同样的结构标注同样的标号进行表示，并省略一部分说明。

(实施方式1)

[通信管理]

图1是用于说明作为实施方式1的前提的业务概要的图。该业务是为了支援具有通话功能的通信终端装置进行的会话(以下，称为通话)并实现如直接见面进行会话那样的交流而开发的。以下，将作为实施方式1的前提的业务称为CC(通信管理)业务。

如图1所示，CC业务是向与网络N连接的通信终端装置c1～c5提供的业务。作为通信终端装置c1～c5，可使用具有通话功能的电话机、与网络N连接并能利用分组通信来收发文本的通信终端装置或能收发通话声音和文本双方的通信终端装置(例如智能手机等)中的任意一个。另外，通信终端装置c1～c5可以具有不仅能够收发文本还收发静态图像、动态图像、音乐的功能。

在实施方式1中，假定与网络N连接的通信终端装置c1～c5中的至少1个装置的用户与其它至少1个装置的用户之间进行声音通话的情况。并且，使用电话机进行通话的用户在此通话中可启动其它任务而执行任务。通话中的电话机或与该电话机对应的其它通信终端装置可接收通过执行该启动的任务而获得的信息。

为了实现实施方式1，在利用电话机的通话中，需要提供基于与通话不同的任务的业务的业务服务器装置。用于实现实施方式1的业务服务器装置执行以下任务：通话内容的翻译、翻译后的通话内容的合成声音化、在通话声音中插入合成声音而得到的数据(以下，还称为任务数据)的生成、翻译后的通话内容的文本化、以及使任务数据与文本化后的数据(以下，还称为文本数据)联动地发送至通话中的电话机等。

以下，更具体地说明用于实现实施方式1的业务服务器装置。

[业务服务器装置]

(i)功能

图2是示出实施方式1的业务服务器装置的一结构例的框图。图2的业务服务器装置200构成为可与包含多个使能器的使能器组261进行通信。此外，使能器是用于使计算机工作的驱动软件，是指按照各个目的而设计的软件(应用程序)。

使能器组261含有电话功能用的使能器组205和为了实现实施方式1特有的功能即翻译功能而附加的使能器组206。使能器组205包含：会话联动使能器218、数据保留使能器207、设备管理控制使能器208、在线使能器209、电话簿使能器210、SNS(Social Networking Service：社交网络业务)使能器211、位置信息检测使能器262、电话/呼叫控制使能器201、消息发送使能器212等。

另外，使能器组206包含：点数管理使能器219、社区管理使能器213、管理与应用程序对应的预定信息的信息管理使能器214、声音合成使能器202、图像影像合成/编辑使能器215、字体转换使能器216、声音识别使能器203、图像影像识别使能器217、文本翻译使能器204等。

此外，电话功能用的使能器组205是声音的通信所涉及的使能器的集合。另外，使能器组206是与声音的通信所涉及的应用程序不同的使能器的集合。即，在本说明书中，使能器组205所包含的使能器是利用声音的通信所涉及的应用程序执行的任务，使能器组206所包含的使能器是其它任务，该其它任务是与声音通信所涉及的应用程序执行的任务不同的由应用程序执行的作业。

使能器组261所包含的使能器组205以及206构成用于在网络侧提供业务的环境、所谓的业务使能器网络(以下，称为SEN)2。SEN2可与多个互联网播放器P联动地提供各种业务，该多个互联网播放器P可提供包含翻译业务在内的多个业务。

在实施方式1中，业务服务器装置200为了执行翻译的任务而取得使能器组205的电话/呼叫控制使能器201，保存到业务应用部。另外，业务服务器装置200从使能器组206向业务应用部保存声音合成使能器202、声音识别使能器203、文本翻译使能器204。另外，如上所述，在实施方式1中，全部业务应用部都包含业务启动部250。结果，在实施方式1中，业务应用部成为提供翻译的业务的业务应用部225。

业务服务器装置200可选择性地取得执行与业务种类对应的任务而所需的使能器。业务服务器装置200取得的使能器作为后述的业务应用(业务应用软件)部按照每个业务保存到业务服务器装置200。

根据这样的结构，实施方式1的业务服务器装置200可组合现有的使能器来构建业务所需的应用程序。因此，根据实施方式1，不需要新开发专用的应用程序，从而不会产生应用程序的开发所需的时间以及成本。此外，根据实施方式1，还可以使用具有使用记录的现有的应用程序来提供业务，所以能够提供与开发新的应用程序相比可靠性高的业务。

在实施方式1中，去电通信终端装置241a、来电通信终端装置241b一边相互通话一边利用业务服务器装置200来接受业务的提供。业务服务器装置200在向去电通信终端装置241a、来电通信终端装置241b提供业务的情况下执行任务。实施方式1中的去电通信终端装置241a以及来电通信终端装置241b例如是同时具有电话机的功能和可收发文本、静态图像、动态图像等的功能的便携电话机。

业务服务器装置200除了具备具有与业务对应的使能器的业务应用部之外，还具备作为电话机的控制通话的现有结构。作为控制通话的结构包括：保存与CC业务的参加者(即接受CC业务的提供的用户，以下简称为“用户”)相关的数据的参加者简档蓄积部221、认证并许可CC业务提供的请求的认证许可部222、进行与通话缴纳的费用相关的处理的计费处理部223、控制通话或分组通信的通信控制部224。通信控制部224还具备作为向去电通信终端装置241a、来电通信终端装置241b分别提供任务数据的提供部的功能。

在参加者简档蓄积部221中与用户的姓名及所使用电话机的电话号码一起预先登记有用户所使用的语言的种类。另外，在参加者简档蓄积部221中登记了电话机的数据通信会话中包含的MSISDN(Mobile Subscriber ISDN Number：在电话机的SIM卡中登记的电话号码)作为确定电话机的信息。此外，为了使上述平板PC或相框等装置与电话机对应，只要将这些装置的识别符与相应的电话机的电话号码对应地登记到参加者简档蓄积部221中即可。

另外，通信控制部224向去电通信终端装置241a、来电通信终端装置241b提供在业务服务器装置200中生成的任务数据。此外，实施方式1的业务服务器装置200具备学习部280。关于学习部280，在后面进行说明。

业务服务器装置200可具备多个业务应用部225、226、227。另外，在实施方式1中，还可以将多个业务应用部225、226、227作为例如可存储多个使能器的存储区域。在这样的情况下，根据存储的使能器，存储区域可以是业务应用部225、226、227中的任意一个。另外，在作为实施方式1的业务应用部的存储区域中，存储有业务启动部250。该业务启动部250例如具有如下这样的功能：为了接收从去电通信终端装置241a经由IP网络230发送的指示来提供业务，启动使能器。

在实施方式1中，当用户操作了去电通信终端装置241a时，业务启动部250启动业务应用部225所保存的使能器。当启动该业务应用部225所保存的使能器后，开始执行任务。所启动的电话/呼叫控制使能器201在去电通信终端装置241a、来电通信终端装置241b之间的通信中，对说话者的声音(以下，称为通话声音)进行录音。此外，也可以对电话/呼叫控制使能器201所具备的公知的留言电话的录音进行控制，使用留言电话的通话声音录音功能来进行通话声音的录音。

声音识别使能器203根据所录的声音来生成文本数据。声音识别使能器203例如根据形态元素分析来分析所录的声音，将该声音转换为文本数据。

文本翻译使能器204通过将声音识别使能器203所生成的文本数据翻译为来电通信终端装置241b的用户所使用的语言，生成翻译文本数据。

声音合成使能器202通过将文本翻译使能器204生成的翻译文本数据转换为利用声音表示的声音，来生成用于借助合成声音来朗读的声音数据。

在实施方式1中，声音合成使能器202所生成的声音数据与通话声音一起被提供给去电通信终端装置241a、来电通信终端装置241b。另外，在实施方式1中，还向去电通信终端装置241a、来电通信终端装置241b提供声音识别使能器203所生成的文本数据和文本翻译使能器204所生成的翻译文本数据。在实施方式1中，还将声音数据、文本数据以及翻译文本数据一并称为任务数据。

如以上那样，在声音识别使能器203、文本翻译使能器204、声音合成使能器202通过业务启动部250受理了任务执行的指示时，根据电话/呼叫控制使能器201所录的声音来执行任务，并通过执行任务来生成任务数据。该任务数据被提供给去电通信终端装置241a以及来电通信终端装置241b。

在以上这样构成的实施方式1的业务服务器装置中，业务启动部250作为指示受理部发挥作用。另外，电话/呼叫控制使能器201作为录音部发挥作用，声音识别使能器203、文本翻译使能器204、声音合成使能器202作为任务执行部以及任务数据生成部发挥作用。

此外，在实施方式1中，也可以不是在去电通信终端装置241a、来电通信终端装置241b指示提供业务之后业务启动部250立即启动各个使能器，而是从参加者简档蓄积部221中取得预先登记的参加者信息。并且，在参加者信息中包含确定去电通信终端装置241a、来电通信终端装置241b中的至少一个的信息的情况下，接受去电通信终端装置241a、来电通信终端装置241b的指示。

另外，在实施方式1中，当指示提供业务时，可将业务启动部250的启动条件设定为，便携电话机在本机的电话号码中附加预先设定的特定号码等信息而进行去电。在这样设定了启动条件的情况下，当去电通信终端装置241a、来电通信终端装置241b中的至少一方使用附加有预先设定的信息的电话号码进行呼叫时，业务启动部250接受去电通信终端装置241a、来电通信终端装置241b的指示。

此外，实施方式1不限于业务启动部250根据利用去电通信终端装置241a、来电通信终端装置241b的操作而输出的信号来启动各个使能器的情况。例如，也可以在输入了电话/呼叫控制使能器201所录的通话声音的情况下，业务启动部250启动各个使能器，开始执行任务。在这样构成业务启动部250的情况下，预先设定可确定应用程序的语言例如“翻译开始”等语言。然后，仅在对声音识别使能器203所录的通话声音进行形态元素分析的结果为在通话声音中包含预先设定的语言的情况下，业务启动部250启动各个使能器来执行任务。

在上述实施方式1中，去电通信终端装置241a、来电通信终端装置241b不限于可发送文本的便携电话机。在去电通信终端装置241a、来电通信终端装置241b是仅具有通话功能的电话机的情况下，也可以根据来自仅具有通话功能的电话机的请求，向与该电话机预先对应的平板PC242a、242b或相框243a、243b发送任务的执行结果。

(ii)学习部

图3是用于说明图2所示的学习部280的功能框图。图2n所示的学习部280具备加权部313。图2所示的声音识别使能器203构成为可访问数据库(以下，称为DB)311。DB311可处于业务服务器装置的内部，或者可经由网络等与业务服务器装置连接。

在实施方式1中，在DB311内预先登记有多个文本，声音识别使能器203访问DB311，取得与进行形态元素分析后的通话声音对应的文本。然后，使用所取得的文本将通话声音转换为文本，生成文本数据。将文本数据作为任务数据之一发送到去电通信终端装置241a、来电通信终端装置241b。

在去电通信终端装置中，用户可通过确认文本数据来容易地检测通话声音的误识别以及与其相伴的误译。当存在误识别以及误译时，在实施方式1中，用户对显示在去电通信终端装置的显示画面上的文本数据进行编辑示出应订正的位置，提供给业务服务器装置200，指示订正文本数据。这样的订正的指示可使用能够收发文本或图像的便携电话机的现有结构容易地实现。

当从去电通信终端装置241a发送指示订正的订正指示信号后，订正指示信号到达声音识别使能器203。声音识别使能器203向加权部313通知从去电通信终端装置发送了订正指示信号的情况和由订正指示信号指示的订正位置。加权部313访问DB311，对于与被指示了订正的文本对应的通话声音，以降低赋予给该文本的权重的方式进行变更。

然后，在声音识别使能器203下次将通话声音与DB311对照时，使被赋予的权重较大的文本优先地与通话声音进行匹配。这样，能够在更短时间内提取与通话声音对应的可能性更高的文本。

图4是用于说明由图2所示的业务服务器装置进行的处理的顺序的图。

在图2所示的业务应用部225中，利用图2所示的电话/呼叫控制使能器201来执行通话声音的录音(步骤S311)。通话声音的录音是以从没有录音的状态(以下，还称为无录音状态)到下一无录音状态之间发出的通话声音为1个单位进行的。接着，由声音识别使能器203对声音进行形态元素分析，从而进行分析。按照作为1个单位录制的通话声音进行分析。然后，根据分析结果将通话声音转换为文本数据(步骤S312)。

接着，在业务应用部225中，利用文本翻译使能器204将在步骤S312中转换的文本数据翻译为由来电通信终端装置241b的用户预先登记在参加者简档蓄积部221内的语言的翻译文本数据(步骤S313)。将翻译后的翻译文本数据转换为合成声音，成为声音数据(步骤S314)。进而，在通话声音中插入声音数据(步骤S315)。

这里，所谓“在通话声音中插入声音数据”是决定与通话声音对应地发送声音数据的时刻。通过这样决定声音数据的发送时刻，可如平常那样经由CS(Circuit Switched)网向去电通信终端装置241a、来电通信终端装置241b发送通话声音。

另外，虽然声音数据也经由CS网利用数据通信会话发送到去电通信终端装置241a、来电通信终端装置241b，但还可以经由PS(Packet Switched)网进行发送。但是，在实施方式1中，通过经由CS网进行发送，可实时地发送声音数据。此外，利用PS网发送翻译通话声音而进行文本化的文本数据。此外，在图4中，对CS网和PS网标注标号320而示出。

此外，实施方式1不限于利用CS网发送通话声音的情况，也可以经由PS网向去电通信终端装置241a、来电通信终端装置241b发送通话声音。

在实施方式1中，如上所述将从无录音状态到下一无录音状态之间发出的通信声音作为1个单位进行录音、识别、翻译，生成任务数据，每次都发送到去电通信终端装置241a、来电通信终端装置241b，由此能够取得通话声音与任务数据的同步，发送到去电通信终端装置241a、来电通信终端装置241b。

在实施方式1中，为了避免通话的不适感，如平常那样，实时地向通信对象的去电通信终端装置241a、来电通信终端装置241b发送通话声音。因此，通过在通话声音中插入声音数据，用户有时会重叠地听到基于声音数据的声音和通话声音。但是，在经由口译者进行会话的情况下，一般可认为在口译者发话的期间，人处于抑制自己发话的倾向。因此，不易产生基于声音数据的声音与通话声音重叠而给会话带来障碍的情况。

在实施方式1中，去电通信终端装置241a、来电通信终端装置241b双方访问业务应用部225，取得文本数据、翻译文本数据以及声音数据。这样，经由业务应用部225连接去电通信终端装置241a与来电通信终端装置241b的方式被称为桥式连接。

另外，图1所示的业务服务器装置200可利用公知的方法来识别去电通信终端装置241a的电话线路和来电通信终端装置241b的电话线路。因此，可区别去电通信终端装置241a的上行线路u1、下行线路d1、来电通信终端装置241b的上行线路u2、下行线路d2，可适当翻译用户的发话并发送至通话对方。

根据以上说明的实施方式1，可将通话声音、合成声音的声音数据、文本数据、翻译文本数据提供给去电通信终端装置241a、来电通信终端装置241b。因此，用户能够容易地知道在业务服务器装置200中怎样识别了自己发话的内容，如果存在误译等，则能够迅速进行订正等处理。另外，因为用户能听到通话对方的通话声音和将其翻译后的声音数据，所以可实现好像在他们之间经由口译者进行会话的具有现场感的会话。

(iii)CS网以及PS网

图5是用于具体说明连接图2、图4所示的业务服务器装置200与去电通信终端装置241a、来电通信终端装置241b的CS网404、PS网405的图。对于与图5中的图2、图4所示的结构同样的结构，标注相同的标号而示出，省略其说明的一部分。

去电通信终端装置241a向MPN(媒体处理节点)408发出呼叫。该呼叫信号到达CS网404、现有的电话系统装置401。现有的电话系统装置401例如是指CSN(认证装置、用于实现切换的归属代理、DHCP业务器等)、ASN(无线基站等)。在现有的电话系统装置401中对呼叫执行非计费处理或专用号码路由的处理。非计费处理是使得不进行一般通话所需的计费处理的处理。另外，专用号码路由是在向预定的电话号码(专用号码)进行呼叫时将通信路径变更为进行与原来的处理不同的处理的通信路径。

接着，呼叫信号从现有的电话系统装置401到达实施方式1的业务服务器装置200。业务服务器装置200具备控制图1所示的电话机通信的通信控制部224、参加者简档蓄积部221、认证许可部222、计费处理部223，所以利用这样的结构进行来自其它网络的业务限制、或声音与画面的联动(声音数据与文本数据等的联动)处理。

可如下这样地实现声音数据与文本数据以及翻译文本数据的联动。

即，在可接收本业务的提供的电话机成为通话状态时，业务服务器装置200的通信控制部224开始监视包含与电话机通话所涉及的信号包含的MSISDN一致的MSISDN的数据通信会话的执行。并且，在进行了与通话所涉及的信号包含的MSISDN一致的数据会话时，判断为应该在CC业务中使该通话与数据会话联动。

在将通话声音、声音数据、文本数据以及翻译文本数据发送到1个通信终端装置时，利用CS网实时地发送通话声音和声音数据。但是，也可以利用PS网发送声音数据，根据上述结构，可取得利用CS网404发送的通话声音与利用PS网405发送的任务数据之间的联动。

另外，如上所述，在实施方式1中，与声音数据同样地经由PS网405发送通话声音。图6示出经由PS网405与声音数据等一起发送通话声音的结构。

另外，在实施方式1中，如上所述，在图2所示的参加者简档蓄积部221内，使仅具有通话功能的电话机与可发送文本等的通信终端装置对应地登记。在这样的情况下，也可以在通信控制部224以电话机的电话号码进行呼叫时，向所登记的通信终端装置的地址发送能够取得任务数据的URL。

另外，在MPN408中，利用电话/呼叫控制使能器201对与呼叫对应的通话声音进行录音，传递到业务服务器装置200。

在业务服务器装置200中，应用部225根据所录的通话声音生成声音数据和文本数据以及翻译文本数据。虽然经由CS网向来电通信终端装置241b实时地发送声音数据，但也可以利用PS网进行发送。另外，从现有的网络系统装置402(网关等)或xGSN(x-GPRS Support Node)/EPC(Evolved Packet Core)经由PS网405向来电通信终端装置241b发送文本数据以及翻译文本数据。

(iv)业务提供方法

图7是用于说明利用实施方式1的业务服务器装置200实现的业务提供方法的图。在图7中，利用虚线表示使用HTTP(Hypertext Transfer Protocol：超文本传送协议)的数据通信，利用实线表示基于电话机的通话。

在去电通信终端装置241a中，用户例如启动用于实现实施方式1的业务提供方法的应用程序，并且输入对象的电话号码(步骤S501)。通过这样的处理，从去电通信终端装置241a向业务服务器装置发送去电通信终端装置241a的地址。然后，在业务服务器装置200中，以满足了其它必需要件为条件，受理在通信(通话)之间执行任务的指示，开始翻译业务(步骤S502)。

业务服务器装置200建立与去电通信终端装置241a、来电通信终端装置241b之间的通话线路(步骤S503)。然后，业务服务器装置200对从去电通信终端装置241a的线路发送的通话声音进行录音(步骤S504)，并且发送到来电通信终端装置241b的线路(步骤S505)。

当成为没有从去电通信终端装置241a的线路发送通话声音的无录音状态时，业务服务器装置200暂时结束从去电通信终端装置241a的线路发送的通话声音的录音(步骤S506)。然后，图2、图4所示的声音识别使能器203、文本翻译使能器204、声音合成使能器202对所录的通话声音进行文本化、翻译、合成声音的合成(步骤S507)，生成声音数据、文本数据以及翻译文本数据。

然后，实施方式1的业务服务器装置200向去电通信终端装置241a、241b双方发送声音数据，并且还向去电通信终端装置241a、来电通信终端装置241b双方发送文本数据以及翻译文本数据(步骤S508～511)。接着，当来电通信终端装置241b的用户发话时，业务服务器装置200对从来电通信终端装置241b的电话线路发送的用户的通话声音执行以上的动作。此外，当在两个用户中的一方发话的期间另一方也发话时，在实施方式1中，针对录制通话声音时的用户的通话声音执行以上的处理，对于另一个用户发话的内容不作为处理的对象。

图8是用于说明在实施方式1的业务服务器装置中进行的实施方式1的业务提供方法的流程图。业务启动部判断是否从去电通信终端装置指示了执行与翻译相关的应用程序(步骤S701)。业务启动部在判断为已指示执行应用程序时(步骤S701：是)，启动业务应用部的各个使能器。此外，业务启动部在判断为没有这样的指示时(步骤S701：否)进行等待直至出现执行应用程序的指示为止。

由业务启动部启动的电话/呼叫控制使能器对通话声音进行录音(步骤S702)。电话/呼叫控制使能器判断在通话声音的录音中是否成为无音状态(步骤S703)。并且，电话/呼叫控制使能器在判断为是无音状态时(步骤S703：是)，暂时结束通话声音的录音(步骤S704)。声音识别使能器对由电话/呼叫控制使能器录制的通话声音进行形态元素分析(步骤S705)，将其分析结果与图3所示的DB311对照(步骤S706)。然后，提取与通话声音符合的文本进行组合，生成文本数据(步骤S707)。

文本识别部204将文本数据翻译为其它语言而生成翻译文本数据(步骤S708)。声音合成使能器将翻译文本数据转换为合成声音而生成声音数据(步骤S709)。将文本数据、翻译文本数据以及声音数据作为任务数据发送到去电通信终端装置以及来电通信终端装置(步骤S710)。

声音识别使能器根据是否发送了订正指示信号，判断是否用户订正了文本数据(步骤S711)。在订正了文本数据的情况下(步骤S711：是)，声音识别使能器将与所订正的文本对应的通话声音再次和DB进行对照并转换为其它文本。然后，使用其它文本生成文本数据。文本翻译使能器、声音合成使能器根据再次生成的文本数据来再次生成翻译文本数据或声音数据(步骤S706～711)。

另一方面，在由声音识别使能器判断为没有输入订正指示信号时(步骤S711：是)，图2所示的学习部280变更赋予给存储在DB中的文本数据的权重。即，学习部280以降低本次订正的文本的权重的方式进行变更，在DB中反映变更后的内容。在以上处理之后，业务启动部判断是否由用户指示了结束业务(步骤S713)。

业务启动部在判断为用户没有指示结束业务时(步骤S713：否)，使电话/呼叫控制部继续进行通话声音的录音。另一方面，业务启动部在判断为用户已指示结束业务时(步骤S713：是)，根据指示，使业务结束。

此外，实施方式1不限于以上说明的结构。即，在上述实施方式1中，是以两个用户之间的通话为对象来执行翻译所涉及的CC业务。但是，实施方式1不限于将两人之间的通话作为对象的情况，还可适用于3人以上进行通话的会议电话等。

[业务提供程序]

在以上说明的业务服务器装置中，执行这样的业务提供程序：在可利用声音进行通信的声音通信终端装置之间的声音通信中，提供基于与声音通信不同的其它任务的业务。该业务提供程序使计算机实现以下功能：指示受理功能，受理在声音通信之间执行其它任务的指示；录音功能，在多个所述声音通信终端装置之间的声音通信中对说话者的通话声音进行录音；任务执行功能，在利用所述指示受理功能受理了所述指示时，根据在所述录音功能中所录的所述通话声音，对所述通话声音进行文本转换而生成文本数据，将该文本数据翻译为其它语言而生成翻译文本数据，将该翻译文本数据转换为声音而生成声音数据；以及任务数据提供功能，将所述文本数据、所述翻译文本数据和所述声音数据作为所述任务数据与所述通话声音一起分别提供给正在进行声音通信的多个所述声音通信终端装置。

(实施方式2)

接着，说明本发明的实施方式2。实施方式2是在调整用户的日程的应用程序中应用本发明的业务服务器装置、业务控制方法、业务控制程序。

[日程管理应用]

图9是用于说明实施方式2所提供的调整日程的应用程序(以下，称为日程管理应用)的概要的图。在图8所示的例子中，业务服务器装置在去电通信终端装置241a、来电通信终端装置241b的通信中，提供与基于声音的通信不同的日程管理任务的业务。在这样的例子中，去电通信终端装置241a的用户为了在通话之间执行日程管理任务，而操作去电通信终端装置241a等，对业务服务器装置进行指示。当业务服务器装置受理指示后，在去电通信中，对去电通信终端装置241a、来电通信终端装置241b的用户的通话声音进行录音。

在图9所示的例子中，业务服务器装置从去电通信终端装置241a、来电通信终端装置241b的电话线路取得通话声音并分别进行录音。图2所示的声音识别部对所录的通话声音进行形态元素分析等，检测在通话声音中包含表示“日程调整”的声音的情况。因为在通话声音中包含“日程调整”，所以判断为已指示执行如下的任务：提取去电通信终端装置241a、来电通信终端装置241b的用户的日程都空闲的日期时刻以及其时间段。

通过进行这样的指示，在实施方式2中，业务服务器装置取得在去电通信终端装置241a、来电通信终端装置241b中登记的用户的日程数据。此外，日程数据是由用户自己在去电通信终端装置241a、来电通信终端装置241b中登记的数据，是包含与用户相关的行动和与进行该行动的日期时刻相关的信息的数据。

并且，在实施方式2的业务服务器装置中，从取得的日程数据中提取没有登记用户行动的去电通信终端装置241a、来电通信终端装置241b共同的日期以及其时间段(日期时刻)。将提取的日期时刻作为包含文本数据的图像数据发送到去电通信终端装置241a、来电通信终端装置241b双方。

[业务服务器装置]

(i)功能

图10是示出实施方式2的业务服务器装置900的图。实施方式2的业务服务器装置900与实施方式1的业务服务器装置200的不同之处仅在于业务应用部的结构。即，在实施方式2的业务服务器装置900中，从使能器组261取得的电话/呼叫控制使能器201、声音识别使能器203、信息管理使能器214、图像影像合成/编辑使能器215构建了业务应用部226。

并且，信息管理使能器214取得在去电通信终端装置241a、来电通信终端装置241b中登记的用户的日程数据。信息管理使能器214从取得的日程数据中提取没有登记去电通信终端装置241a、来电通信终端装置241b的用户预定的日期以及其时间段。

将由信息管理使能器214提取的信息传递到图像影像合成/编辑使能器215。图像影像合成/编辑使能器215根据该信息来生成包含文本以及图像中的至少1个的任务数据。图11是例示实施方式2的任务数据的图。任务数据被发送到去电通信终端装置241a、来电通信终端装置241b双方。

根据这样的结构，能够向去电通信终端装置241a、来电通信终端装置241b的用户提供具有与直接见面而进行日程调整同样的现场感的通信。另外，还能够取得可容易且无错误地调整日程的效果。

(ii)业务提供方法

图12是用于说明在实施方式2的业务服务器装置中进行的业务提供方法的流程图。业务启动部判断是否从去电通信终端装置指示了执行与日程管理相关的应用程序(步骤S1101)。业务启动部在判断为已指示执行应用程序的情况下(步骤S1101：是)，启动业务应用部的各个使能器。此外，业务启动部在判断为没有指示执行应用程序业务器的情况下(步骤S1101：否)进行等待直至出现这样的指示为止。

在由业务启动部启动了各个使能器的情况下，所启动的电话/呼叫控制使能器对通话声音进行录音(步骤S1102)。电话/呼叫控制使能器在通话声音的录音中判断是否为无音状态(步骤S1103)。电话/呼叫控制使能器在判断为是无音状态的情况下(步骤S1103：是)，暂时结束通话声音的录音(步骤S1104)。声音识别使能器对电话/呼叫控制使能器所录的通话声音进行形态元素分析(步骤S1105)，当在通话声音中含有表示“日程调整”的语句时，检测已指示日程调整的情况。信息管理使能器访问数据库，从数据库内取得与通话中的各个用户的日程相关的信息(步骤S1106)。

这样的实施方式2的数据库是预先登记了用户的日程的数据库。优选的是，日程是以便携电话机的应用程序所设定的预定形式登记的。另外，实施方式2的数据库也可以处于参加者简档蓄积部中。

图像影像合成/编辑使能器使用所提取的日程来生成例如图11所示的包含文本以及图像的任务数据(步骤S1107)。利用图10所示的通信控制部224将由图像影像合成/编辑使能器生成的任务数据发送到去电通信终端装置以及来电通信终端装置(步骤S1108)。

在实施方式2中，去电通信终端装置的用户可确认自己指示的内容与任务数据是否一致。在确认的结果是任务数据与自己期望的内容不同时，去电通信终端装置的用户进行这样的操作：从通信终端装置向业务服务器装置900指示订正。利用该操作来发送订正指示信号。此外，任务数据与期望的内容不同例如是指，虽然用户说出“下月的日程”，但是提示了6月的日程的情况等。

声音识别使能器根据是否发送了订正指示信号，判断用户是否订正了任务数据(步骤S1109)。在用户订正了任务数据的情况下(步骤S1109：是)，声音识别使能器将与订正的任务数据对应的通话声音再次与DB进行对照并转换为其它文本。然后，使用作为再次对照的结果而提取的其它文本生成文本数据。文本翻译使能器、声音合成使能器根据再次提取的文本数据，再次生成任务数据(步骤S1106～1109)。

另一方面，当判断为没有输入订正指示信号时(步骤S1110：是)，图10所示的学习部280变更赋予给在DB中存储的文本数据的权重。即，学习部以降低与本次订正的位置相关的文本的权重的方式进行变更，在DB中反映变更后的内容。以上的处理之后，业务启动部判断用户是否指示了结束业务(步骤S1111)。当业务启动部判断为没有业务结束的指示时(步骤S1111：否)，使电话/呼叫控制部继续通话声音的录音。另外，业务启动部在判断为已进行业务结束的指示时(步骤S1111：是)，根据指示使业务结束。

[业务提供程序]

在以上说明的业务服务器装置中，执行这样的业务提供程序：在可利用声音进行通信的声音通信终端装置之间的声音通信中，提供基于与声音通信不同的其它任务的业务。该业务提供程序使计算机实现以下功能：指示受理功能，受理在声音通信之间执行其它任务的指示；录音功能，在多个上述声音通信终端装置之间的通信中对说话者的通话声音进行录音；任务执行功能，在由上述指示受理功能受理了上述指示时，根据在上述录音功能中录制的上述通话声音，判定上述声音通信终端装置的用户作出的指示，根据该指示提取预先登记的信息，使用所提取的信息来生成包含文本以及图像中的至少一方的任务数据；以及任务数据提供功能，将包含文本以及图像中的至少一方的上述任务数据与上述通话声音一起分别提供给正在进行声音通信的多个上述声音通信终端装置。

此外，在实施方式2中，执行以两个用户之间的通话为对象进行日程调整的CC业务。但是，实施方式2不限于以两人之间的通话为对象的情况，还可以适用于3人以上进行通话的会议电话等。

另外，本发明的范围不限于图示并记载的例示的实施方式，还包含能实现与本发明的目的等同效果的全部实施方式。此外，本发明的范围不限于权利要求所划分的发明特征的组合，还能够由所有的公开的各个特征中的特定特征的所有期望组合来划分。

工业上的可利用性

本发明可提供适于支援使用智能手机等的通信的业务提供装置、业务提供方法以及业务提供程序。

标号说明

200、900 业务服务器装置

201 电话/呼叫控制使能器

202 声音合成使能器

203 声音识别使能器

204 文本翻译使能器

205、206、261 使能器组

208 设备管理控制使能器

209 在线使能器

210 电话簿使能器

211SNS 使能器

212 消息发送使能器

213 社区管理使能器

214 信息管理使能器

215 图像影像/合成编辑使能器

216 字体转换使能器

217 图像影像识别使能器

218 会话联动使能器

219 点数管理使能器

221 参加者简档蓄积部

222 认证许可部

223 计费处理部

224 通信控制部

225、226、227 业务应用部

230 网络

280 学习部

241a 去电通信终端装置

241b 来电通信终端装置

Claims

1.一种业务服务器装置，其与利用声音相互进行声音通信的多个声音通信终端装置连接，提供基于其它任务的业务，该其它任务是与在该声音通信终端装置之间进行的声音通信所涉及的应用程序不同的应用程序执行的作业，其特征在于，该业务服务器装置包括：

指示受理部，其受理在声音通信之间执行所述其它任务的指示；

录音部，其在多个所述声音通信终端装置之间的声音通信中对说话者的通话声音进行录音；

任务执行部，其在所述指示受理部受理了所述指示时，根据所述录音部所录的所述通话声音执行所述其它任务；以及

任务数据提供部，其向正在进行声音通信的多个所述声音通信终端装置分别提供通过所述任务执行部执行所述其它任务而获得的任务数据，

所述任务执行部根据所述通话声音判定由所述声音通信终端装置的用户作出的指示，按照该指示提取预先登记的信息，使用提取的信息生成包含文本以及图像中的至少一方的任务数据，

所述任务数据提供部将包含所述文本以及所述图像中的至少一方的所述任务数据与所述通话声音一起分别提供给正在进行声音通信的多个所述声音通信终端装置。

2.根据权利要求1所述的业务服务器装置，其特征在于，该业务服务器装置还包括：

订正指示受理部，其受理发送到所述声音通信终端装置的所述任务数据的订正指示；以及

学习部，其根据所述订正指示受理部受理的订正指示，对生成所述任务数据时使用的数据进行加权。

3.根据权利要求1所述的业务服务器装置，其特征在于，

所述任务执行部在判定为由用户作出的指示是该用户的日程调整时，提取预先登记的与所述用户相关的行动和与进行该行动的日期时刻相关的日程信息，使用所提取的日程信息，提取多个所述声音通信终端装置的用户的没有登记行动的共同日期时刻。

4.根据权利要求1所述的业务服务器装置，其特征在于，

所述任务数据提供部向文本通信终端装置发送所述任务数据中的所述文本数据而取代所述声音通信终端装置，该文本通信终端装置与该声音通信终端装置对应、且能够进行基于文本的通信。