JP5243646B2

JP5243646B2 - サービスサーバ装置、サービス提供方法、サービス提供プログラム

Info

Publication number: JP5243646B2
Application number: JP2012117545A
Authority: JP
Inventors: 和徳那須; 精司柴田; まり阿久澤; 健内山
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2011-05-24
Filing date: 2012-05-23
Publication date: 2013-07-24
Anticipated expiration: 2032-05-23
Also published as: CN103026697A; WO2012160824A1; US9110888B2; EP2590393A1; CN104820662A; EP2590393A4; CN103026697B; US20140180668A1; JP2013009367A; CN104820662B

Description

本発明は、通信を介してサービスを提供するサービスサーバ装置、サービス提供方法、サービス提供プログラムに係り、特に、電話機による通話中に通話以外のサービスを提供するサービスサーバ装置、サービス提供方法、サービス提供プログラムに関する。

現在、話者が任意の言語を使って話した内容を自動的に他の言語に翻訳する、翻訳機や翻訳システムが実用化されている。従来の翻訳機等は、一人用型または対面会話型と呼ばれるものと、遠隔会話型と呼ばれるものがある。
図１３（ａ）は、一人用の翻訳機を例示した図である。図１３（ａ）において、例えば、話者が「この本はいくらですか？」と日本語で翻訳機に音声で入力する。すると、翻訳機の翻訳機能により、この日本語の音声が英訳されて「How much is this book?」の合成音声が出力される。一人用の翻訳機は、和英辞書として使用したり、対面中の他者に合成音声を聴かせることによって話者が自身の意思を他者に伝えることに使用したりすることができる。このような従来の翻訳機は、例えば、非特許文献１に記載されている。

図１３（ｂ）は、遠隔会話型の翻訳機を例示した図である。図１３（ｂ）に示した翻訳機は、電話機の音声通信機能と翻訳機能とを備えている。図１３（ｂ）において、例えば、話者である日本人が、母国語である日本語で「３名で予約を御願いします」と翻訳機に音声入力する。すると、翻訳機の翻訳機能により、この日本語の音声が英訳されて「Please make a reservation for 3 people」の合成音声が出力される。遠隔会話型の翻訳機は、話者は母国語で話しながら、この母国語を理解できない他者にも自身の意思を伝えることができる。このような従来の翻訳機は、例えば、非特許文献２に記載されている。

さらに、遠隔会話型の翻訳機としては、特許文献１に記載されたものがある。特許文献１に記載された電話システムは、電話の内容を翻訳して通話先に送信することができるのみならず、話者の通話音声をも通話先に送信することができる。このため、特許文献１記載の発明は、あたかも通訳を介して通話相手と会話しているような感覚をユーザに与えることができるようになる。

特許第３７４１０２５号公報

ａｎｄｒｏｎａｖｉ、［ｏｎｌｉｎｅ］、「iTranslator for Android〜20カ国語に対応した高機能翻訳アプリ〜」、［平成２３年５月１３日検索］、インターネット＜ＵＲＬ：http：//andronavi.com/2010/09/40880＞ｉｐｌａｔｆｏｒｍ．ｏｒｇ、［ｏｎｌｉｎｅ］、セカイフォン［平成２３年５月１３日検索］、インターネット＜ＵＲＬ：http：//www.iplatform.org/＞

ところで、使用する言語が互いに異なる二者が会話をする場合、通訳者が両者の言語を翻訳するのが一般的である。通訳者が両者の言語を翻訳するように、対面で対話しているような臨場感を持ったサービスは、上記の非特許文献１、非特許文献２のいずれを用いた場合でも、実現することができない。
また、上記した特許文献１記載の発明は、話者の通話音声をも通話先に送信することができる。しかしながら、特許文献１記載の発明では、話者の音声と一緒に通話内容を翻訳したデータを送るにあたって専用のアプリケーションを起動している。このような特許文献１記載の発明は、発明を実施するために新たなアプリケーションを開発することが必要になり、この開発に時間や人的、金銭的なコストが発生するという問題がある。

本発明は、以上の点に鑑みてなされたものであって、遠隔地にありながら対面で対話しているような臨場感を持ったサービスを実現でき、しかも新たな専用のアプリケーションを開発する必要がないサービスサーバ装置、サービス提供方法、サービス提供プログラムを提供することを目的とする。

以上の課題を解決するため、本発明のサービスサーバ装置（例えば図２に示したサービスサーバ装置２００）は、音声によって互いに音声通信する複数の音声通信端末装置（例えば図２に示した発通信端末装置２４１ａ、着通信端末装置２４１ｂ）と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、前記別タスクを音声通信の間に実行する指示を受付ける指示受付部（例えば図２に示したサービス起動部２５０）と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部（例えば図２に示した電話／呼制御イネーブラ２０１）と、前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部（例えば図２に示した音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２）と、前記タスク実行部によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行部によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部（例えば図２に示した通信制御部２２４）と、前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付部と、前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習部（例えば図２、図１０に示した学習部２８０）と、を含み、前記タスク実行部は、前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成し、前記タスクデータ提供部は、前記テキストデータと、前記翻訳テキストデータと、前記音声データとを含む前記タスクデータを、前記話者の前記音声通信端末装置に提供し、前記タスクデータを、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信を行っている音声通信端末装置に提供することを特徴とする。
また、本発明のサービスサーバ装置（例えば図２に示したサービスサーバ装置２００）は、音声によって互いに音声通信する複数の音声通信端末装置（例えば図２に示した発通信端末装置２４１ａ、着通信端末装置２４１ｂ）と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、前記別タスクを音声通信の間に実行する指示を受付ける指示受付部（例えば図２に示したサービス起動部２５０）と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部（例えば図２に示した電話／呼制御イネーブラ２０１）と、前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部（例えば図２に示した音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２）と、前記タスク実行部によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行部によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部（例えば図２に示した通信制御部２２４）と、を含み、前記タスク実行部は、前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成し、前記タスクデータ提供部は、前記音声データを含む第１のタスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記第１のタスクデータを、前記話者の前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供し、前記テキストデータ及び前記翻訳テキストデータを含む第２のタスクデータを、前記話者の音声通信端末装置及び前記話者の音声通信端末装置と音声通信する音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供することを特徴とする。

また、本発明のサービスサーバ装置（例えば図１０に示したサービスサーバ装置９００）は、音声によって互いに音声通信する複数の音声通信端末装置（例えば図１０に示した発通信端末装置２４１ａ、着通信端末装置２４１ｂ）と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、前記別タスクを前記音声通信の間に実行する指示を受付ける指示受付部（例えば図１０に示したサービス起動部２５０）と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部（例えば図１０に示した電話／呼制御イネーブラ２０１）と、前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部（例えば図１０に示した音声認識イネーブラ２０３、情報管理イネーブラ２１４、画像・映像合成／編集イネーブラ２１５）と、前記タスク実行部によって前記別タスクが実行されたことによって得られるタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部（例えば図１０に示した通信制御部２２４）と、前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付部と、前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習部（例えば図２、図１０に示した学習部２８０）と、を含み、前記タスク実行部は、前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成し、前記タスクデータ提供部は、前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供することを特徴とする。
また、本発明のサービスサーバ装置（例えば図１０に示したサービスサーバ装置９００）は、音声によって互いに音声通信する複数の音声通信端末装置（例えば図１０に示した発通信端末装置２４１ａ、着通信端末装置２４１ｂ）と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、前記別タスクを前記音声通信の間に実行する指示を受付ける指示受付部（例えば図１０に示したサービス起動部２５０）と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部（例えば図１０に示した電話／呼制御イネーブラ２０１）と、前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部（例えば図１０に示した音声認識イネーブラ２０３、情報管理イネーブラ２１４、画像・映像合成／編集イネーブラ２１５）と、前記タスク実行部によって前記別タスクが実行されたことによって得られるタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部（例えば図１０に示した通信制御部２２４）と、を含み、前記タスク実行部は、前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成し、前記タスクデータ提供部は、前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供することを特徴とする。
また、本発明のサービスサーバ装置（例えば図１０に示したサービスサーバ装置９００）は、音声によって互いに音声通信する複数の音声通信端末装置（例えば図１０に示した発通信端末装置２４１ａ、着通信端末装置２４１ｂ）と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、前記別タスクを前記音声通信の間に実行する指示を受付ける指示受付部（例えば図１０に示したサービス起動部２５０）と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部（例えば図１０に示した電話／呼制御イネーブラ２０１）と、前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部（例えば図１０に示した音声認識イネーブラ２０３、情報管理イネーブラ２１４、画像・映像合成／編集イネーブラ２１５）と、前記タスク実行部によって前記別タスクが実行されたことによって得られるタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部（例えば図１０に示した通信制御部２２４）と、を含み、前記タスク実行部は、前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成し、前記タスクデータ提供部は、前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、複数の前記音声通信端末装置のいずれかに対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供し、前記通話音声を、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供することを特徴とする。

また、本発明のサービスサーバ装置は、上記した発明において、前記タスク実行部が、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出することが望ましい。
また、本発明のサービスサーバ装置は、上記した発明において、前記タスクデータ提供部は、前記音声通信端末装置の代わりに、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを送ることが望ましい。

また、本発明のサービス提供方法は、音声によって互いに通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、前記別タスクを音声通信の間に実行する指示を受付ける指示受付ステップと、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて、前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行ステップと、前記テキストデータと、前記翻訳テキストデータと、前記音声データとを含むタスクデータを、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信を行っている音声通信端末装置に提供するタスクデータ提供ステップと、前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付ステップと、前記訂正指示受付ステップによって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習ステップと、を含むことを特徴とする。
また、本発明のサービス提供方法は、音声によって互いに通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、前記別タスクを音声通信の間に実行する指示を受付ける指示受付ステップと、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて、前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行ステップと、前記音声データを含む第１のタスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記第１のタスクデータを、前記話者の前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供し、前記テキストデータ及び前記翻訳テキストデータを含む第２のタスクデータを、前記話者の音声通信端末装置及び前記話者の音声通信端末装置と音声通信する音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供するタスクデータ提供ステップと、を含むことを特徴とする。

本発明のサービス提供方法は、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付ステップと、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行ステップと、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供ステップと、前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付ステップと、前記訂正指示受付ステップによって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習ステップと、を含むことを特徴とする。
また、本発明のサービス提供方法は、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる、音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付ステップと、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行ステップと、前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供ステップと、を含むことを特徴とする。
また、本発明のサービス提供方法は、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる、音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付ステップと、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行ステップと、前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、複数の前記音声通信端末装置のいずれかに対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供し、前記通話音声を、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供ステップと、を含むことを特徴とする。

本発明のサービス提供プログラムは、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、コンピュータに、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記通話音声をテキスト変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行機能と、前記テキストデータと、前記翻訳テキストデータと、前記音声データとを含むタスクデータを、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信を行っている音声通信端末装置に提供するタスクデータ提供機能と、前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付機能と、前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習機能と、を実現させることを特徴とする。
また、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、コンピュータに、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記通話音声をテキスト変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行機能と、前記音声データを含む第１のタスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記第１のタスクデータを、前記話者の前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供し、前記テキストデータ及び前記翻訳テキストデータを含む第２のタスクデータを、前記話者の音声通信端末装置及び前記話者の音声通信端末装置と音声通信する音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供するタスクデータ提供機能と、を実現させることを特徴とする。

本発明のサービス提供プログラムは、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、コンピュータに、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行機能と、前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供機能と、前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付機能と、前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習機能と、を実現させることを特徴とする。
また、本発明のサービス提供プログラムは、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、コンピュータに、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記音声通信端末装置のユーザによってなされた指示を判定し、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行機能と、少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供機能と、を実現させることを特徴とする。
また、本発明のサービス提供プログラムは、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、コンピュータに、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行機能と、前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、複数の前記音声通信端末装置のいずれかに対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供し、前記通話音声を、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供機能と、を実現させることを特徴とする。

本発明によれば、音声による通信に係るアプリケーションとは別のアプリケーションによってタスクを実行することから、既存の音声に係るアプリケーションとタスクを実行するアプリケーションとを使って話者の通話音声をタスクの実行結果と共に通話相手に送信することができる。このような本発明は、既存のアプリケーションを用いながら、遠隔地にありながら対面で会話しているような臨場感を持った通話サービスを提供することができる。

本発明の実施形態１の前提となるサービスの概要を説明するための図である。本発明の実施形態１のサービスサーバ装置の一構成例を示すブロック図である。図２に示した学習部を説明するための機能ブロック図である。図２に示したサービスサーバ装置によって行われる処理の手順を説明するための図である。図２、図４に示したサービスサーバ装置と発通信端末装置、着通信端末装置とを接続するＣＳ網、ＰＳ網を具体的に説明するための図である。図２、図４に示したサービスサーバ装置と発通信端末装置、着通信端末装置とを接続するＰＳ網を具体的に説明するための図である。実施形態１のサービスサーバ装置によって実現されるサービス提供方法を説明するための図である。実施形態１のサービス提供方法を説明するためのフローチャートである。実施形態２のスケジューラアプリの概要を説明するための図である。実施形態２のサービスサーバ装置を示した図である。実施形態２のタスクデータを例示した図である実施形態２のサービス提供方法を説明するためのフローチャートである。図１３（ａ）は一般的な翻訳機の構成を説明するための図、図１３（ｂ）は一般的な翻訳システムの構成を説明するための図である。

以下、図を参照して本発明に係るサービスサーバ装置、サービス提供方法、サービス提供プログラムの実施形態１、実施形態２について説明する。以下に参照する各図において、他の図と同様の構成については、同様の符号を付して示し、その説明の一部を省略することがある。

（実施形態１）
［コミュニケーション・コンシェルジュ］
図１は、実施形態１の前提となるサービスの概要を説明するための図である。このサービスは、通話機能を有する通信端末装置による会話（以下、通話と記す）をサポートし、直接会って会話するようなコミュニケーションを実現するよう開発されている。実施形態１の前提となるサービスを、以下、ＣＣ（コミュニケーション・コンシェルジュ）サービスとも記す。

ＣＣサービスは、図１に示したように、ネットワークＮに接続されている通信端末装置ｃ１〜ｃ５に提供されるサービスである。通話機能を有する電話機、ネットワークＮと接続してパケット通信によりテキストを送受信できる通信端末装置、または、通話音声とテキストの両方を送受信できる通信端末装置（例えばスマートフォン等）、のいずれかを、通信端末装置ｃ１〜ｃ５として用いることができる。また、通信端末装置ｃ１〜ｃ５は、テキストばかりでなく、静止画像や動画像、音楽を送受信する機能を有するものであってもよい。

実施形態１では、ネットワークＮに接続されている通信端末装置ｃ１〜ｃ５のうちの少なくとも１つの装置のユーザと、他の少なくとも１つの装置のユーザとの間で音声通話が行われる場合を想定している。そして、電話機を使って通話中のユーザは、その通話中に、別のタスクを起動してタスクを実行させることができる。この起動されたタスクの実行によって得られた情報は、通話中の電話機またはこの電話機に対応する他の通信端末装置が受信することができる。

実施形態１を実現するには、電話機を用いた通話中に、通話とは別のタスクによるサービスを提供するサービスサーバ装置が必要である。実施形態１を実現するためのサービスサーバ装置は、通話内容の翻訳、翻訳後の通話内容の合成音声化、通話音声に合成音声を挿入することによるデータ（以下、タスクデータとも記す）の生成、翻訳後の通話内容のテキスト化、及びタスクデータとテキスト化されたデータ（以下、テキストデータとも記す）を連動して通話中の電話機等に送信するタスクを実行する。

以下、実施形態１を実現するためのサービスサーバ装置について、より具体的に説明する。
［サービスサーバ装置］
（ｉ）機能
図２は、実施形態１のサービスサーバ装置の一構成例を示すブロック図である。図２のサービスサーバ装置２００は、複数のイネーブラを含むイネーブラ群２６１と通信可能に構成されている。なお、イネーブラとは、コンピュータを動作させるためのドライバソフトウェアであり、個々の目的ごとに設計されたソフトウェア（アプリケーション）を指す。

イネーブラ群２６１は、電話機能用のイネーブラ群２０５と、実施形態１に特有の機能である翻訳機能を実現するために付加されたイネーブラ群２０６とを含んでいる。イネーブラ群２０５は、セッション連携イネーブラ２１８、データお預かりイネーブラ２０７、デバイス管理制御イネーブラ２０８、プレゼンスイネーブラ２０９、電話帳イネーブラ２１０、ＳＮＳ（Social Networking Service）イネーブラ２１１、位置情報検出イネーブラ２６２、電話／呼制御イネーブラ２０１、メッセージングイネーブラ２１２等を含んでいる。

また、イネーブラ群２０６は、ポイント管理イネーブラ２１９、コミュニティ管理イネーブラ２１３、アプリケーションに応じた所定の情報を管理する情報管理イネーブラ２１４、音声合成イネーブラ２０２、画像・映像合成／編集イネーブラ２１５、フォント変換イネーブラ２１６、音声認識イネーブラ２０３、画像・映像認識イネーブラ２１７、テキスト翻訳イネーブラ２０４等を含んでいる。

なお、電話機能用のイネーブラ群２０５は、音声による通信に係るイネーブラの集合である。また、イネーブラ群２０６は、音声による通信に係るアプリケーションとは別のイネーブラの集合である。すなわち、本明細書では、イネーブラ群２０５に含まれるイネーブラが音声による通信に係るアプリケーションによって実行されるタスクであり、イネーブラ群２０６に含まれるイネーブラが、音声による通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクである。

イネーブラ群２６１に含まれているイネーブラ群２０５および２０６は、ネットワーク側でサービスを提供するための環境、いわゆるサービス・イネーブラ・ネットワーク（以下、ＳＥＮと記す）２を構成する。ＳＥＮ２は、翻訳サービスを含む複数のサービスを提供できる複数のインターネットプレイヤＰと連携して様々なサービスを提供することができる。

実施形態１では、翻訳にかかるタスクを実行するために、サービスサーバ装置２００がイネーブラ群２０５の電話／呼制御イネーブラ２０１を取得してサービスアプリ部に保存する。また、サービスサーバ装置２００は、イネーブラ群２０６から音声合成イネーブラ２０２、音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４をサービスアプリ部に保存する。また、前記したように、実施形態１では、全てのサービスアプリ部がサービス起動部２５０を含んでいる。この結果、実施形態１ではサービスアプリ部が翻訳に係るサービスを提供するサービスアプリ部２２５になる。

サービスサーバ装置２００は、サービスの種別に応じたタスクの実行に必要なイネーブラを選択して取得することができる。サービスサーバ装置２００によって取得されたイネーブラは、後述するサービスアプリ（サービス・アプリケーション・ソフトウェア）部としてサービスサーバ装置２００にサービスごとに保存される。
このような構成により、実施形態１のサービスサーバ装置２００は、既存のイネーブラを組み合わせてサービスに必要なアプリケーションを構築することができる。このため、実施形態１によれば、新たに専用のアプリケーションを開発する必要がなく、アプリケーションの開発に係る時間及びコストが発生しない。さらに、実施形態１によれば、実績がある既存のアプリケーションを使ってサービスを提供することができるため、新たなアプリケーションを開発することに比べて信頼性が高いサービスを提供することができる。

実施形態１では、発通信端末装置２４１ａ、着通信端末装置２４１ｂが互いに通話しながらサービスサーバ装置２００によりサービスの提供を受けるものとする。サービスサーバ装置２００は、発通信端末装置２４１ａ、着通信端末装置２４１ｂにサービスを提供する場合には、タスクを実行する。実施形態１における発通信端末装置２４１ａおよび着通信端末装置２４１ｂは、例えば、電話機の機能と、テキスト、静止画像、動画像等を送受信できる機能とを併せ持つ携帯電話機である。

サービスサーバ装置２００は、サービスに応じたイネーブラを有するサービスアプリ部の他、電話機としての通話を制御する既存の構成を備えている。通話を制御する構成としては、ＣＣサービスの加入者（すなわちＣＣサービスの提供を受けるユーザ、以下、単に「ユーザ」と記す）に関するデータを保存する加入者プロファイル蓄積部２２１、ＣＣサービスの提供の要求を認証、許可する認証許可部２２２、通話に課せられる課金に関する処理をする課金処理部２２３、通話やパケット通信を制御する通信制御部２２４がある。通信制御部２２４は、発明通信端末装置２４１ａや、着通信端末装置２４１ｂに、タスクデータをそれぞれ提供する提供部としての機能も備えている。

加入者プロファイル蓄積部２２１には、ユーザの氏名や使用している電話機の電話番号と共に、ユーザが使用する言語の種類が予め登録されている。この他、加入者プロファイル蓄積部２２１には、電話機を特定する情報として、電話機のデータ通信セッションに含まれるＭＳＩＳＤＮ（Mobile Subscriber ISDN Number：電話機のＳＩＭカードに登録されている電話番号）が登録されている。さらに、前記したタブレットＰＣやフォトフレーム等の装置を電話機に対応付けるには、それらの装置の識別子を、該当する電話機の電話番号に対応付けて加入者プロファイル蓄積部２２１に登録すればよい。
また、通信制御部２２４は、サービスサーバ装置２００において生成されたタスクデータを発通信端末装置２４１ａ、着通信端末装置２４１ｂに提供する。さらに、実施形態１のサービスサーバ装置２００は、学習部２８０を備えている。学習部２８０については後に説明する。

サービスサーバ装置２００は、複数のサービスアプリ部２２５、２２６、２２７を備え得る。また、実施形態１では、複数のサービスアプリ部２２５、２２６、２２７を例えば複数のイネーブラを記憶できる記憶領域とすることもできる。このようにした場合、記憶されるイネーブラによってこの記憶領域をサービスアプリ部２２５、２２６、２２７のいずれにもなり得るようにすることができる。また、実施形態１のサービスアプリ部となる記憶領域には、サービス起動部２５０が記憶されている。このサービス起動部２５０は、例えば、発通信端末装置２４１ａからＩＰネットワーク網２３０を介して送信される指示を受付けてサービスを提供するためイネーブラを起動する機能を有している。

実施形態１では、ユーザが発通信端末装置２４１ａを操作すると、サービス起動部２５０が、サービスアプリ部２２５に保存されているイネーブラを起動する。このサービスアプリ部２２５に保存されているイネーブラが起動されると、タスクの実行が開始される。起動された電話／呼制御イネーブラ２０１は、発通信端末装置２４１ａ、着通信端末装置２４１ｂ間の通信中に、話者の音声（以下、通話音声と記す）を録音する。なお、通話音声の録音は、電話／呼制御イネーブラ２０１が備える周知の留守番電話の録音を制御するものとし、留守番電話の通話音声録音機能を使って行われるようにしてもよい。

音声認識イネーブラ２０３は、録音された音声からテキストデータを生成する。音声認識イネーブラ２０３は、例えば、録音された音声を形態素解析によって解析し、その音声をテキストデータに変換する。
テキスト翻訳イネーブラ２０４は、音声認識イネーブラ２０３が生成したテキストデータを、着通信端末装置２４１ｂのユーザが使用する言語に翻訳することによって、翻訳テキストデータを生成する。

音声合成イネーブラ２０２は、テキスト翻訳イネーブラ２０４によって生成された翻訳テキストデータを音声によって表される音声に変換することによって、合成音声によって読み上げるための音声データを生成する。
実施形態１では、音声合成イネーブラ２０２によって生成された音声データが、通話音声と共に発通信端末装置２４１ａ、着通信端末装置２４１ｂに提供される。また、実施形態１では、音声認識イネーブラ２０３によって生成されたテキストデータとテキスト翻訳イネーブラ２０４によって生成された翻訳テキストデータも、発通信端末装置２４１ａ、着通信端末装置２４１ｂに提供される。実施形態１では、音声データと、テキストデータ及び翻訳テキストデータとを併せてタスクデータとも記すものとする。

以上のように、音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２は、サービス起動部２５０によってタスク実行の指示が受付けられた場合、電話／呼制御イネーブラ２０１によって録音された音声に基づいてタスクを実行し、タスクの実行によってタスクデータが生成される。このタスクデータは、発通信端末装置２４１ａ及び着通信端末装置２４１ｂに提供される。
以上のように構成された実施形態１のサービスサーバ装置において、サービス起動部２５０が指示受付部として機能する。また、電話／呼制御イネーブラ２０１が録音部として機能し、音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２がタスク実行部及びタスクデータ生成部として機能する。

なお、実施形態１では、サービス起動部２５０が、発通信端末装置２４１ａ、着通信端末装置２４１ｂがサービスの提供を指示して直ちに各イネーブラを起動するものではなく、加入者プロファイル蓄積部２２１から予め登録されている加入者情報を取得するようにしてもよい。そして、加入者情報に発通信端末装置２４１ａ、着通信端末装置２４１ｂの少なくともいずれかを特定する情報が含まれている場合に発通信端末装置２４１ａ、着通信端末装置２４１ｂの指示を受付けるようにしてもよい。

また、実施形態１では、サービスの提供を指示する場合、携帯電話機が電話番号に、予め設定されている特定の番号等の情報を付加して発信するようにサービス起動部２５０の起動条件を設定してもよい。このように起動条件を設定した場合、サービス起動部２５０は、発通信端末装置２４１ａ、着通信端末装置２４１ｂの少なくともいずれかが、予め定められた情報が付加された電話番号を使って発呼した場合に発通信端末装置２４１ａ、着通信端末装置２４１ｂの指示を受付けることになる。

さらに、実施形態１は、サービス起動部２５０が発通信端末装置２４１ａ、着通信端末装置２４１ｂの操作によって出力される信号によって各イネーブラを起動するものに限定されるものではない。例えば、電話／呼制御イネーブラ２０１によって録音された通話音声が入力された場合に、サービス起動部２５０が各イネーブラを起動してタスクの実行を開始するようにしてもよい。このようにサービス起動部２５０を構成する場合、アプリケーションを特定できる文言、例えば、「翻訳開始」などの文言を予め設定しておく。そして、音声認識イネーブラ２０３が録音された通話音声を形態素解析した結果、予め設定された文言が通話音声に含まれている場合に限り、サービス起動部２５０が各イネーブラを起動してタスクを実行する。

以上説明した実施形態１において、発通信端末装置２４１ａ、着通信端末装置２４１ｂは、テキストを送信可能な携帯電話機に限定されるものではない。発通信端末装置２４１ａ、着通信端末装置２４１ｂを通話機能だけを有する電話機とした場合、通話機能だけを有する電話機からの要請によってタスクの実行結果をこの電話機に予め対応付けられたタブレットＰＣ２４２ａ、２４２ｂやフォトフレーム２４３ａ、２４３ｂに送信するようにしてもよい。

（ｉｉ）学習部
図３は、図２に示した学習部２８０を説明するための機能ブロック図である。図２ｎ示した学習部２８０は、重み付け部３１３を備えている。図２に示した音声認識イネーブラ２０３はデータベース（以下、ＤＢと記す）３１１にアクセスできるように構成されている。ＤＢ３１１は、サービスサーバ装置の内部にあってもよいし、サービスサーバ装置とネットワーク等によって接続されるものであってもよい。

実施形態１では、ＤＢ３１１に予め多数のテキストが登録されていて、音声認識イネーブラ２０３は、ＤＢ３１１にアクセスして形態素解析された通話音声に対応するテキストを取得する。そして、取得されたテキストを使って通話音声をテキストに変換し、テキストデータを生成する。テキストデータはタスクデータの１つとして発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信される。

発通信端末装置においては、ユーザがテキストデータを確認することによって通話音声の誤認識やそれに伴う誤訳を容易に検出することができる。誤認識や誤訳があった場合、実施形態１では、発通信端末装置の表示画面に表示されているテキストデータをユーザが編集して訂正すべき箇所を示し、サービスサーバ装置２００に提供してテキストデータを訂正するよう指示する。このような訂正の指示は、テキストや画像の送受信が可能な携帯電話機の既存の構成を使って容易に実現することができる。

発通信端末装置２４１ａから訂正を指示する訂正指示信号が送信されると、訂正指示信号は音声認識イネーブラ２０３に到達する。音声認識イネーブラ２０３は、訂正指示信号が発通信端末装置から送信されてきた旨と、訂正指示信号によって指示された訂正箇所を重み付け部３１３に通知する。重み付け部３１３は、ＤＢ３１１にアクセスし、訂正が指示されたテキストに対応する通話音声について、このテキストに付与されている重みを低下させるように変更する。

そして、次回音声認識イネーブラ２０３が通話音声をＤＢ３１１に対照する場合、付与されている重みが大きいテキストを優先的に通話音声とマッチングするように構成する。このようにすれば、通話音声に対応する可能性がより高いテキストをより短時間のうちに抽出することができる。
図４は、図２に示したサービスサーバ装置によって行われる処理の手順を説明するための図である。

図２に示したサービスアプリ部２２５では、図２に示した電話／呼制御イネーブラ２０１によって通話音声の録音が実行される（ステップＳ３１１）。通話音声の録音は、音声が録音されない状態（以下、無音録音状態とも記す）から次の無音録音状態までの間に発せられた通話音声を１単位として行われる。次に、音声認識イネーブラ２０３によって音声は形態素解析され、解析される。解析は、１単位として録音された通話音声ごとに行われる。そして、解析結果にしたがって通話音声はテキストデータに変換される（ステップＳ３１２）。

次に、サービスアプリ部２２５では、テキスト翻訳イネーブラ２０４により、ステップＳ３１２において変換されたテキストデータが、予め着通信端末装置２４１ｂのユーザによって加入者プロファイル蓄積部２２１に登録されている言語の翻訳テキストデータに翻訳される（ステップＳ３１３）。翻訳後の翻訳テキストデータは、合成音声に変換され、音声データとなる（ステップＳ３１４）。さらに、音声データが通話音声に挿入される（ステップＳ３１５）。

ここで、「音声データを通話音声に挿入する」とは、通話音声に合わせて音声データを送信するタイミングを決定することをいう。このように音声データの送信タイミングを決定することにより、通話音声は通常とおりＣＳ（Circuit Switched）網を介して発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信される。
また、音声データも、ＣＳ網を介してデータ通信セッションにより発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信されるが、ＰＳ（Packet Switched）網を経由して送信するようにすることもできる。ただし、ＣＳ網を介して送信することにより、実施形態１は、音声データをリアルタイムで送信することができるようになる。さらに、通話音性を翻訳してテキスト化したテキストデータは、ＰＳ網を利用して送信される。なお、図４においては、ＣＳ網とＰＳ網とに符号３２０を付して示すものとする。

さらに、実施形態１は、通話音声をＣＳ網で送信するものに限定されるものではなく、通話音声がＰＳ網を介して発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信されるようにしてもよい。
実施形態１では、前記したように、無音録音状態から次の無音録音状態までの間に発話された通信音声を１単位として録音、認識、翻訳してタスクデータを生成し、その都度、発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信することにより、通話音声とタスクデータとの同期をとって発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信することができる。

実施形態１では、通話の違和感を避けるため、通話音声は通常通りリアルタイムで通信先の発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信される。このため、通話音声に音声データが挿入されることにより、ユーザには音声データによる音声が通話音声に重なって聞こえることがある。しかし、通訳者を介して会話する場合、一般的に人は通訳者が発話している間は自身の発話を控える傾向にあると考えられる。このため、音声データによる音声と通話音声とが重なって会話に支障をきたすことは起こり難い。

実施形態１では、発通信端末装置２４１ａ、着通信端末装置２４１ｂの両方がサービスアプリ部２２５にアクセスしてテキストデータ、翻訳テキストデータ及び音声データを取得する。このように、サービスアプリ部２２５を介して発通信端末装置２４１ａ、着通信端末装置２４１ｂを接続する方式は、ブリッジ接続と呼ばれている。
また、図１に示したサービスサーバ装置２００は、発通信端末装置２４１ａの電話回線と、着通信端末装置２４１ｂの電話回線とを、周知の方法によって識別することができる。このため、発通信端末装置２４１ａの上り回線ｕ１、下り回線ｄ１、着通信端末装置２４１ｂの上り回線ｕ２、下り回線ｄ２を区別することができ、ユーザの発話を適切に翻訳して通話相手に送信することができる。

以上説明した実施形態１によれば、通話音声、合成音声の音声データ、テキストデータ、翻訳テキストデータを発通信端末装置２４１ａ、着通信端末装置２４１ｂに提供することができる。このため、ユーザは、自身の発話した内容がサービスサーバ装置２００にどのように認識されたのかを容易に認識でき、誤訳等があれば速やかに訂正するなどの対応を行うことができる。また、ユーザには通話相手の通話音声と、これを翻訳した音声データとの両方が聞こえるため、あたかも間に通訳者を介して会話しているような臨場感がある会話を実現することができる。

（ｉｉｉ）ＣＳ網及びＰＳ網
図５は、図２、図４に示したサービスサーバ装置２００と発通信端末装置２４１ａ、着通信端末装置２４１ｂとを接続するＣＳ網４０４、ＰＳ網４０５を具体的に説明するための図である。なお、図５中の図２、図４に示した構成と同様の構成については、同様の符号を付して示し、その説明の一部を略すものとする。

発通信端末装置２４１ａは、ＭＰＮ（メディア・プロセッシング・ノード）４０８に向けて発呼する。この発呼信号は、ＣＳ網４０４、既存の電話系装置４０１に到達する。既存の電話系装置４０１とは、例えば、ＣＳＮ（認証装置、ハンドオーバーを実現するためのホームエージェント、ＤＨＣＰサーバ等）、ＡＳＮ（無線基地局等）を指す。既存の電話系装置４０１では、発呼に対して非課金処理や特番ルーチングの処理が実行される。なお、非課金処理とは、一般的な通話にかかる課金処理を行わないようにする処理である。また、特番ルーチングとは、予め定められた電話番号（特番）に発呼された場合に、通信経路を、本来の処理とは異なる処理が行われる通信経路に変更することをいう。

次に、発呼信号は既存の電話系装置４０１から実施形態１のサービスサーバ装置２００に到達する。サービスサーバ装置２００には、図１に示した電話機の通信を制御する通信制御部２２４、加入者プロファイル蓄積部２２１、認証許可部２２２、課金処理部２２３を備えているから、このような構成によって他網からのサービス制限や音声と画面の連携（音声データとテキストデータ等との連携）の処理がなされる。

音声データとテキストデータ及び翻訳テキストデータとの連携は、次のようにして実現できる。
すなわち、本サービスの提供を受け得る電話機が通話状態になったとき、サービスサーバ装置２００の通信制御部２２４が、電話機の通話に係る信号に含まれるＭＳＩＳＤＮに一致するＭＳＩＳＤＮを含むデータ通信セッション実行の監視を開始する。そして、通話に係る信号に含まれるＭＳＩＳＤＮに一致するデータセッションが行われた場合、この通話とデータセッションとをＣＣサービスにおいて連携させるべきであると判断する。

通話音声と、音声データ、テキストデータ及び翻訳テキストデータを１つの通信端末装置に送信する場合、通話音声と音声データとは、ＣＳ網によってリアルタイムに送信される。しかし、音声データは、ＰＳ網によって送信することもでき、上記構成によれば、ＣＳ網４０４によって送信される通話音声と、ＰＳ網４０５によって送信されるタスクデータとの連携をとることができる。
また、前述したように、実施形態１は、通話音声を、音声データと同様にＰＳ網４０５を介して送信することができる。通話音声を音声データ等と共にＰＳ網４０５を介して送信する構成を、図６に示す。

また、実施形態１では、図２に示した加入者プロファイル蓄積部２２１において、前記したように、通話機能だけを有する電話機と、テキスト等を送信できる通信端末装置とを対応付けて登録している。このような場合、通信制御部２２４が、電話機の電話番号で発呼がされると、登録されている通信端末装置のアドレスにタスクデータを取得できるＵＲＬを送信するようにしてもよい。
また、発呼に対応する通話音声は、ＭＰＮ４０８において電話／呼制御イネーブラ２０１により録音され、サービスサーバ装置２００に渡される。

サービスサーバ装置２００では、アプリ部２２５が録音された通話音声に基づいて音声データとテキストデータ及び翻訳テキストデータとを作成する。音声データは、ＣＳ網を経由して着通信端末装置２４１ｂにリアルタイムで送信されるが、ＰＳ網を利用して送信することもできる。また、テキストデータ及び翻訳テキストデータは、既存のＷｅｂ系装置４０２（ゲートウェイ等）やｘＧＳＮ（ｘ−GPRS Support Node）／ＥＰＣ（Evolved Packet Core）よりＰＳ網４０５を介して着通信端末装置２４１ｂに送信される。

（ｉｖ）サービス提供方法
図７は、実施形態１のサービスサーバ装置２００によって実現されるサービス提供方法を説明するための図である。図７では、ＨＴＴＰ（Hypertext Transfer Protocol）を使
ったデータ通信を破線で示し、電話機による通話を実線で示している。
発通信端末装置２４１ａにおいて、ユーザが例えば実施形態１のサービス提供方法を実現するためのアプリケーションを起動するとともに、相手の電話番号が入力される(ステ
ップＳ５０１)。このような処理により、発通信端末装置２４１ａから発通信端末装置２
４１ａのアドレスがサービスサーバ装置に送信される。そして、サービスサーバ装置２００では、他の必要な要件が満たされたことを条件に、タスクを通信（通話）の間に実行する指示が受付けられて翻訳サービスが開始される(ステップＳ５０２)。

サービスサーバ装置２００は、発通信端末装置２４１ａ、着通信端末装置２４１ｂとの間の通話回線を確立する(ステップＳ５０３)。そして、サービスサーバ装置２００は、発通信端末装置２４１ａの回線から送信された通話音声を録音するとともに（ステップＳ５０４）、着通信端末装置２４１ｂの回線に送る（ステップＳ５０５）。
発通信端末装置２４１ａの回線から通話音声が送信されてこない無音録音状態になると、サービスサーバ装置２００は発通信端末装置２４１ａの回線から送信されてくる通話音声の録音をいったん終了する（ステップＳ５０６）。そして、録音された通話音声について、図２、図４に示した音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２によって、テキスト化、翻訳、合成音声の合成が行われ（ステップＳ５０７）、音声データとテキストデータ及び翻訳テキストデータとを生成する。

そして、実施形態１のサービスサーバ装置２００は、音声データを、発通信端末装置２４１ａ、２４１ｂの両方に送信するとともに、テキストデータ及び翻訳テキストデータも発通信端末装置２４１ａ、着通信端末装置２４１ｂの両方に送信する（ステップＳ５０８〜５１１）。次に、着通信端末装置２４１ｂのユーザが発話すると、サービスサーバ装置２００は、以上の動作を着通信端末装置２４１ｂの電話回線から送信されるユーザの通話音声に対して実行する。なお、２人のユーザのうち、一方が発話している間に他方が発話した場合、実施形態１では、通話音声を録音中のユーザの通話音声について以上の処理を実行し、他方のユーザが発話した内容については処理の対象にしないようにする。

図８は、実施形態１のサービスサーバ装置において行われる実施形態１のサービス提供方法を説明するためのフローチャートである。サービス起動部は、発通信端末装置から翻訳に関するアプリケーションの実行が指示されたか否かを判断している（ステップＳ７０１）。サービス起動部は、アプリケーションの実行の指示がされたと判断した場合（ステップＳ７０１：Ｙｅｓ）、サービスアプリ部の各イネーブラを起動する。なお、サービス起動部は、そのような指示がないと判断した場合には（ステップＳ７０１：Ｎｏ）、アプリケーション実行の指示があるまで待機する。

サービス起動部によって起動された電話／呼制御イネーブラは、通話音声を録音する（ステップＳ７０２）。電話／呼制御イネーブラは、通話音声の録音中、無音状態になったか否か判断する（ステップＳ７０３）。そして、電話／呼制御イネーブラは、無音状態になったと判断された場合（ステップＳ７０３：Ｙｅｓ）、通話音声の録音をいったん終了する（ステップＳ７０４）。音声認識イネーブラは、電話／呼制御イネーブラによって録音された通話音声を形態素解析し（ステップＳ７０５）、その解析結果を図３に示したＤＢ３１１に照合する（ステップＳ７０６）。そして、通話音声に合致するテキストを抽出して組み合わせ、テキストデータを生成する（ステップＳ７０７）。

テキスト認識部２０４は、テキストデータを他の言語に翻訳して翻訳テキストデータを生成する（ステップＳ７０８）。音声合成イネーブラは、翻訳テキストデータを合成音声に変換して音声データを生成する（ステップＳ７０９）。テキストデータ、翻訳テキストデータ及び音声データは、タスクデータとして発通信端末装置及び着通信端末装置に送信される（ステップＳ７１０）。

音声認識イネーブラは、訂正指示信号が送信されてきたか否かによってテキストデータがユーザによって訂正されたか否か判断する（ステップＳ７１１）。テキストデータが訂正された場合（ステップＳ７１１：Ｙｅｓ）音声認識イネーブラは訂正されたテキストに対応する通話音声を再びＤＢに照合して他のテキストに変換する。そして、他のテキストを使ってテキストデータを作成する。テキスト翻訳イネーブラ、音声合成イネーブラは、再度作成されたテキストデータに基づいて再度翻訳テキストデータや音声データを作成する（ステップＳ７０６〜７１１）。

一方、音声認識イネーブラによって訂正指示信号が入力されないと判断された場合（ステップＳ７１１：Ｙｅｓ）、図２に示した学習部２８０は、ＤＢに記憶されているテキストデータに付与されている重みを変更する。すなわち、学習部２８０は、今回訂正されたテキストの重みを低下させるように変更し、変更後の内容をＤＢに反映させる。以上の処理の後、サービス起動部がサービスの終了がユーザによって指示されたか否か判断する（ステップＳ７１３）。

サービス起動部は、ユーザによってサービスの終了の指示されていないと判断した場合には（ステップＳ７１３：Ｎｏ）、電話／呼制御部に通話音声の録音を継続させる。一方、サービス起動部は、ユーザによってサービスの終了が指示されたと判断した場合には（ステップＳ７１３：Ｙｅｓ）、指示にしたがってサービスを終了させる。
なお、実施形態１は、以上説明した構成に限定されるものではない。すなわち、以上説明した実施形態１では２人のユーザの間の通話を対象にして翻訳に係るＣＣサービスを実行している。しかしながら、実施形態１は、２人の間の通話を対象にするものに限定されず、３人以上で通話する会議電話等にも適用することができる。

［サービス提供プログラム］
以上説明したサービスサーバ装置においては、音声によって通信可能な音声通信端末装置間の音声通信中に、音声通信とは別の別タスクによるサービスを提供するためのサービス提供プログラムが実行される。このサービス提供プログラムは、コンピュータに、別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の上記音声通信端末装置間の通信中に、話者の音声を録音する録音機能と、上記指示受付機能によって上記指示が受付けられた場合、上記録音機能において録音された上記通話音声に基づいて、上記通話音声をテキスト変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行機能と、上記テキストデータ、上記翻訳テキストデータ、上記音声データを、上記タスクデータとして、上記通話音声と共に音声通信を行っている複数の上記音声通信端末装置にそれぞれ提供するタスクデータ提供機能と、を実現させるプログラムである。
（実施形態２）
次に、本発明の実施形態２を説明する。実施形態２は、本発明のサービスサーバ装置、サービス制御方法、サービス制御プログラムを、ユーザのスケジュールを調整するアプリケーションに適用したものである。

［スケジューラアプリ］
図９は、実施形態２で提供される、スケジュールを調整するアプリケーション（以下、スケジューラアプリと記す）の概要を説明するための図である。図８に示した例では、サービスサーバ装置が、発通信端末装置２４１ａ、着通信端末装置２４１ｂの通信中に、音声による通信とは別のスケジューラタスクによるサービスを提供する。このような例では、発通信端末装置２４１ａのユーザがスケジューラタスクを通話の間に実行するように発通信端末装置２４１ａを操作する等してサービスサーバ装置に指示する。サービスサーバ装置が指示を受付けると、発通信中に、発通信端末装置２４１ａ、着通信端末装置２４１ｂのユーザの通話音声が録音される。

図９に示した例では、サービスサーバ装置が発通信端末装置２４１ａ、着通信端末装置２４１ｂの電話回線から通話音声を取得してそれぞれ録音する。図２に示した音声認識部は、録音された通話音声を形態素解析する等して「スケジュール調整」を意味する音声が通話音声に含まれていることを検出する。通話音声に「スケジュール調整」が含まれていることから、発通信端末装置２４１ａ、着通信端末装置２４１ｂのユーザのスケジュールが両方とも空いている日時及びその時間帯を抽出するタスクを実行するように指示されたものと判断する。

このような指示がされたことにより、実施形態２では、サービスサーバ装置が発通信端末装置２４１ａ、着通信端末装置２４１ｂに登録されているユーザのスケジュールデータを取得する。なお、スケジュールデータとは、ユーザ自身によって発通信端末装置２４１ａ、着通信端末装置２４１ｂに登録されたデータであって、ユーザに関する行動と、この行動が行われる日時に関する情報を含むデータである。
そして、実施形態２のサービスサーバ装置では、取得されたスケジュールデータから、ユーザの行動が登録されていない発通信端末装置２４１ａ、着通信端末装置２４１ｂに共通の日及びその時間帯（日時）を抽出する。抽出された日時は、テキストデータを含む画像データとして発通信端末装置２４１ａ、着通信端末装置２４１ｂの両方に送信される。

［サービスサーバ装置］
（ｉ）機能
図１０は、実施形態２のサービスサーバ装置９００を示した図である。実施形態２のサービスサーバ装置９００は、サービスアプリ部の構成だけが実施形態１のサービスサーバ装置２００と異なっている。すなわち、実施形態２のサービスサーバ装置９００では、イネーブラ群２６１から取得された電話／呼制御イネーブラ２０１、音声認識イネーブラ２０３、情報管理イネーブラ２１４、画像・映像合成／編集イネーブラ２１５がサービスアプリ部２２６を構築している。
そして、情報管理イネーブラ２１４が発通信端末装置２４１ａ、着通信端末装置２４１ｂに登録されているユーザのスケジュールデータを取得する。情報管理イネーブラ２１４は、取得されたスケジュールデータから、発通信端末装置２４１ａ、着通信端末装置２４１ｂのユーザの予定が共に登録されていない日及びその時間帯を抽出する。

情報管理イネーブラ２１４によって抽出された情報は、画像・映像合成／編集イネーブラ２１５に渡される。画像・映像合成／編集イネーブラ２１５は、この情報からテキスト及び画像の少なくとも１つを含むタスクデータを作成する。図１１は、実施形態２のタスクデータを例示した図である。タスクデータは、発通信端末装置２４１ａ、着通信端末装置２４１ｂの両方に送信される。
このような構成によれば、発通信端末装置２４１ａ、着通信端末装置２４１ｂのユーザに対し、直接対面してスケジュール調整するのと同様の臨場感があるコミュニケーションを提供することができる。また、スケジュールを容易かつ間違いなく調整できるという効果をも得ることができる。

（ｉｉ）サービス提供方法
図１２は、実施形態２のサービスサーバ装置において行われるサービス提供方法を説明するためのフローチャートである。サービス起動部は、発通信端末装置からスケジューラに関するアプリケーションの実行が指示されたか否かを判断している（ステップＳ１１０１）。サービス起動部は、アプリケーション実行の指示がされたと判断した場合（ステップＳ１１０１：Ｙｅｓ）、サービスアプリ部の各イネーブラを起動する。なお、サービス起動部はアプリケーションサーバ実行の指示がないと判断した場合には（ステップＳ１１０１：Ｎｏ）、そのような指示があるまで待機する。

サービス起動部によって各イネーブラが起動された場合、起動された電話／呼制御イネーブラは、通話音声を録音する（ステップＳ１１０２）。電話／呼制御イネーブラは、通話音声の録音中、無音状態になったか否かを判断する（ステップＳ１１０３）。電話／呼制御イネーブラは、無音状態になったと判断した場合（ステップＳ１１０３：Ｙｅｓ）、通話音声の録音をいったん終了する（ステップＳ１１０４）。音声認識イネーブラは、電話／呼制御イネーブラによって録音された通話音声を形態素解析し（ステップＳ１１０５）、通話音声に「スケジュール調整」を意味する語句が含まれていた場合には、スケジュール調整が指示されたことを検出する。情報管理イネーブラは、データベースにアクセスし、データベースから通話中の各ユーザのスケジュールに関する情報を取得する（ステップＳ１１０６）。

このような実施形態２のデータベースは、予めユーザのスケジュールが登録されたデータベースである。スケジュールは、携帯電話機のアプリケーションによって設定された所定の形式で登録されたものであることが好ましい。また、実施形態２のデータベースは、加入者プロファイル蓄積部にあってもよい。
画像・映像合成／編集イネーブラは、抽出されたスケジュールを使って例えば図１１に示したような、テキスト及び画像を含むタスクデータを生成する（ステップＳ１１０７）。画像・映像合成／編集イネーブラによって作成されたタスクデータは、図１０に示した通信制御部２２４によって発通信端末装置及び着通信端末装置に送信される（ステップＳ１１０８）。

実施形態２では、発通信端末装置のユーザが、自身が指示した内容とタスクデータとが一致しているか否か確認することができる。確認の結果、タスクデータが自身の意図した内容と異なる場合、発通信端末装置のユーザは、通信端末装置からサービスサーバ装置９００に向けて訂正を指示する操作を行う。この操作によって訂正指示信号が送信される。なお、タスクデータが意図した内容と異なるとは、例えば、ユーザが「来月のスケジュール」と発話したにも関わらず、６月のスケジュールが提示された場合等をいう。

音声認識イネーブラは、訂正指示信号が送信されてきたか否かによってタスクデータがユーザによって訂正されたか否か判断する（ステップＳ１１０９）。タスクデータがユーザによって訂正された場合（ステップＳ１１０９：Ｙｅｓ）、音声認識イネーブラは訂正されたタスクデータに対応する通話音声を再びＤＢに照合して他のテキストに変換する。そして、再度の照合の結果抽出された他のテキストを使ってテキストデータを作成する。テキスト翻訳イネーブラ、音声合成イネーブラは、再度抽出されたテキストデータに基づいて再度タスクデータを作成する（ステップＳ１１０６〜１１０９）。

一方、訂正指示信号が入力されないと判断された場合（ステップＳ１１１０：Ｙｅｓ）、図１０に示した学習部２８０は、ＤＢに記憶されているテキストデータに付与されている重みを変更する。すなわち、学習部は、今回訂正された箇所に関するテキストの重みを低下させるように変更し、変更後の内容をＤＢに反映させる。以上の処理の後、サービス起動部は、ユーザによってサービスの終了が指示されたか否か判断する（ステップＳ１１１１）。サービス終了の指示がなされていないとサービス起動部によって判断された場合には（ステップＳ１１１１：Ｎｏ）、電話／呼制御部に通話音声の録音を継続させる。また、サービス起動部は、サービス終了の指示がなされたと判断した場合には（ステップＳ１１１１：Ｙｅｓ）、指示にしたがってサービスを終了させる。

［サービス提供プログラム］
以上説明したサービスサーバ装置においては、音声による通信が可能な音声通信端末装置の通信中に、音声による通信とは別の別タスクによるサービスを提供するサービスサーバ装置によって実行されるサービス提供プログラムが実行される。このサービス提供プログラムは、コンピュータに、別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の上記音声通信端末装置間の通信中に、話者の通話音声を録音する録音機能と、上記指示受付機能によって上記指示が受付けられた場合、上記録音機能において録音された上記通話音声に基づいて、上記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキスト及び画像の少なくとも一方を含むタスクデータを生成するタスク実行機能と、テキスト及び画像の少なくとも一方を含む上記タスクデータを、上記通話音声と共に音声通信を行っている複数の上記音声通信端末装置にそれぞれ提供するタスクデータ提供機能と、を実現させるプログラムである。
なお、実施形態２では、２人のユーザの間の通話を対象にしてスケジュール調整をするＣＣサービスを実行している。しかしながら、実施形態２は、２人の間の通話を対象にするものに限定されず、３人以上で通話する会議電話等にも適用することができる。

本発明は、スマートフォン等を使ったコミュニケーションをサポートすることに最適なサービス提供装置、サービス提供方法及びサービス提供プログラムを提供することができる。

２００、９００サービスサーバ装置
２０１電話／呼制御イネーブラ
２０２音声合成イネーブラ
２０３音声認識イネーブラ
２０４テキスト翻訳イネーブラ
２０５、２０６、２６１イネーブラ群
２０８デバイス管理制御イネーブラ
２０９プレゼンスイネーブラ
２１０電話帳イネーブラ
２１１ＳＮＳイネーブラ
２１２メッセージングイネーブラ
２１３コミュニティ管理イネーブラ
２１４情報管理イネーブラ
２１５画像・映像／合成編集イネーブラ
２１６フォント変換イネーブラ
２１７画像・映像認識イネーブラ
２１８セッション連携イネーブラ
２１９ポイント管理イネーブラ
２２１加入者プロファイル蓄積部
２２２認証許可部
２２３課金処理部
２２４通信制御部
２２５、２２６、２２７サービスアプリ部
２３０ネットワーク網
２８０学習部
２４１ａ発通信端末装置
２４１ｂ着通信端末装置

Claims

音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付部と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部と、
前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部と、
前記タスク実行部によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行部によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部と、
前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付部と、
前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習部と、
を含み、
前記タスク実行部は、
前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成し、
前記タスクデータ提供部は、
前記テキストデータ、前記翻訳テキストデータ、及び前記音声データを含む前記タスクデータを、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信を行っている音声通信端末装置に提供することを特徴とするサービスサーバ装置。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付部と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部と、
前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部と、
前記タスク実行部によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行部によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部と、
を含み、
前記タスク実行部は、
前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成し、
前記タスクデータ提供部は、
前記音声データを含む第１のタスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記第１のタスクデータを、前記話者の前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供し、前記テキストデータ及び前記翻訳テキストデータを含む第２のタスクデータを、前記話者の音声通信端末装置及び前記話者の音声通信端末装置と音声通信する音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供することを特徴とするサービスサーバ装置。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付部と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部と、
前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部と、
前記タスク実行部によって前記別タスクが実行されたことによって得られるタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部と、
前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付部と、
前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習部と、
を含み、
前記タスク実行部は、
前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成し、
前記タスクデータ提供部は、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供することを特徴とするサービスサーバ装置。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付部と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部と、
前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部と、
前記タスク実行部によって前記別タスクが実行されたことによって得られるタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部と、
を含み、
前記タスク実行部は、
前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成し、
前記タスクデータ提供部は、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供することを特徴とするサービスサーバ装置。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付部と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部と、
前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部と、
前記タスク実行部によって前記別タスクが実行されたことによって得られるタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部と、
を含み、
前記タスク実行部は、
前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成し、
前記タスクデータ提供部は、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、複数の前記音声通信端末装置のいずれかに対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供し、前記通話音声を、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供することを特徴とするサービスサーバ装置。
前記タスク実行部は、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出することを特徴とする請求項３に記載のサービスサーバ装置。
前記タスクデータ提供部は、前記音声通信端末装置の代わりに、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを送ることを特徴とする請求項１、３、４または６に記載のサービスサーバ装置。
音声によって互いに通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付ステップと、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、
前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて、前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行ステップと、
前記テキストデータと、前記翻訳テキストデータと、前記音声データとを含むタスクデータを、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信を行っている音声通信端末装置に提供するタスクデータ提供ステップと、
前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付ステップと、
前記訂正指示受付ステップによって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習ステップと、
を含むことを特徴とするサービス提供方法。
音声によって互いに通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付ステップと、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、
前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて、前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行ステップと、
前記音声データを含む第１のタスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記第１のタスクデータを、前記話者の前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供し、前記テキストデータ及び前記翻訳テキストデータを含む第２のタスクデータを、前記話者の音声通信端末装置及び前記話者の音声通信端末装置と音声通信する音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供するタスクデータ提供ステップと、
を含むことを特徴とするサービス提供方法。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる、音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付ステップと、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、
前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行ステップと、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供ステップと、
前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付ステップと、
前記訂正指示受付ステップによって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習ステップと、
を含むことを特徴とするサービス提供方法。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる、音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付ステップと、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、
前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行ステップと、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供ステップと、
を含むことを特徴とするサービス提供方法。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる、音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付ステップと、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、
前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行ステップと、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、複数の前記音声通信端末装置のいずれかに対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供し、前記通話音声を、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供ステップと、
を含むことを特徴とするサービス提供方法。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、
コンピュータに、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、
前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記通話音声をテキスト変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行機能と、
前記テキストデータと、前記翻訳テキストデータと、前記音声データとを含むタスクデータを、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信を行っている音声通信端末装置に提供するタスクデータ提供機能と、
前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付機能と、
前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習機能と、
を実現させることを特徴とするサービス提供プログラム。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、
コンピュータに、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、
前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記通話音声をテキスト変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行機能と、
前記音声データを含む第１のタスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記第１のタスクデータを、前記話者の前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供し、前記テキストデータ及び前記翻訳テキストデータを含む第２のタスクデータを、前記話者の音声通信端末装置及び前記話者の音声通信端末装置と音声通信する音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供するタスクデータ提供機能と、
を実現させることを特徴とするサービス提供プログラム。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、
コンピュータに、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、
前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行機能と、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供機能と、
前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付機能と、
前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習機能と、
を実現させることを特徴とするサービス提供プログラム。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、
コンピュータに、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、
前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記音声通信端末装置のユーザによってなされた指示を判定し、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行機能と、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置に提供し、前記タスクデータを、前記通話音声と共に、複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供機能と、
を実現させることを特徴とするサービス提供プログラム。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、
コンピュータに、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、
前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキストデータ及び画像データの少なくとも一方を含むタスクデータを生成するタスク実行機能と、
前記テキストデータ及び前記画像データの少なくとも一方を含む前記タスクデータを、複数の前記音声通信端末装置のいずれかに対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に提供し、前記通話音声を、音声通信を行っている複数の前記音声通信端末装置のうちの前記話者の音声通信端末装置と音声通信する音声通信端末装置に提供するタスクデータ提供機能と、
を実現させることを特徴とするサービス提供プログラム。