JP5243645B2

JP5243645B2 - サービスサーバ装置、サービス提供方法、サービス提供プログラム

Info

Publication number: JP5243645B2
Application number: JP2012117544A
Authority: JP
Inventors: 和徳那須; 精司柴田; まり阿久澤; 健内山
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2011-05-24
Filing date: 2012-05-23
Publication date: 2013-07-24
Anticipated expiration: 2032-05-23
Also published as: US20140066022A1; US9277051B2; CN103229494B; EP2590392B1; EP2590392A4; EP2590392A1; JP2013009366A; CN103229494A; WO2012160823A1

Description

本発明は、通信を介してサービスを提供するサービスサーバ装置、サービス提供方法、サービス提供プログラムに係り、特に、電話機による通話中に通話以外のサービスを提供するサービスサーバ装置、サービス提供方法、サービス提供プログラムに関する。

現在、話者が任意の言語を使って話した内容を自動的に他の言語に翻訳する、翻訳機や翻訳システムが実用化されている。従来の翻訳機等は、一人用型または対面会話型と呼ばれるものと、遠隔会話型と呼ばれるものがある。
図８（ａ）は、一人用の翻訳機を例示した図である。図８（ａ）において、例えば、話者が「この本はいくらですか？」と日本語で翻訳機に音声で入力する。すると、翻訳機の翻訳機能により、この日本語の音声が英訳されて「How much is this book?」の合成音声が出力される。一人用の翻訳機は、和英辞書として使用したり、対面中の他者に合成音声を聴かせることによって話者が自身の意思を他者に伝えることに使用したりすることができる。このような従来の翻訳機は、例えば、非特許文献１に記載されている。

図８（ｂ）は、遠隔会話型の翻訳機を例示した図である。図８（ｂ）に示した翻訳機は、電話機の音声通信機能と翻訳機能とを備えている。図８（ｂ）において、例えば、話者である日本人が、母国語である日本語で「３名で予約を御願いします」と翻訳機に音声入力する。すると、翻訳機の翻訳機能により、この日本語の音声が英訳されて「Please make a reservation for 3 people」の合成音声が出力される。遠隔会話型の翻訳機は、話者は母国語で話しながら、この母国語を理解できない他者にも自身の意思を伝えることができる。このような従来の翻訳機は、例えば、非特許文献２に記載されている。

さらに、遠隔会話型の翻訳機としては、特許文献１に記載されたものがある。特許文献１に記載された電話システムは、電話の内容を翻訳して通話先に送信することができるのみならず、話者の通話音声をも通話先に送信することができる。このため、特許文献１記載の発明は、あたかも通訳を介して通話相手と会話しているような感覚をユーザに与えることができるようになる。

特許第３７４１０２５号公報

ａｎｄｒｏｎａｖｉ、［ｏｎｌｉｎｅ］、「iTranslator for Android〜20カ国語に対応した高機能翻訳アプリ〜」、［平成２３年５月１３日検索］、インターネット＜ＵＲＬ：http://andronavi.com/2010/09/40880＞ｉｐｌａｔｆｏｒｍ．ｏｒｇ、［ｏｎｌｉｎｅ］、セカイフォン［平成２３年５月１３日検索］、インターネット＜ＵＲＬ：http://www.iplatform.org/＞

しかしながら、上記非特許文献２の技術では、話者の話した内容を翻訳した音声が通話先にだけ送信されるため、話者は自身が話した内容がどのように認識され、翻訳されたかを知ることができない。また、特許文献１記載の発明であっても、話者の話した内容を翻訳した音声と話者の通話音声は相手先にだけ送信されるから、話者が自身の話した内容がシステムにどのように翻訳されたかを知ることはできない。さらに、非特許文献１記載の発明では、自身が音声によって入力した内容をテキストに変換して確認することはできるものの、そもそも一人用の翻訳機であるから、自身が音声によって入力した内容を確認しながらこの内容を送信することはできない。

このため、上記の特許文献１、非特許文献１、非特許文献２の技術のいずれによっても、話者の通話内容を翻訳する場合、話者が自身の話した内容がどのように翻訳されたかを認識して誤りを訂正することが難しい。
本発明は、以上の点に鑑みてなされたものであって、話者の通話内容に基づいて実行された翻訳の誤りの訂正に対応しやすいサービスを実現することのできる、サービスサーバ装置、サービス提供方法、サービス提供プログラムを提供することを目的とする。

以上の課題を解決するため、本発明のサービスサーバ装置（例えば図２に示したサービスサーバ装置２００）は、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる、音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、前記別タスクを実行する指示を受付ける指示受付部（例えば図２に示したサービス起動部２５０）と、複数の前記音声通信端末装置間の音声通信中の、話者の音声を録音する録音部（例えば図２に示した電話／呼制御イネーブラ２０１）と、前記別タスクを実行する指示を受付ける指示受付部（例えば図２に示したサービス起動部２５０）と、前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された音声に基づいて前記別タスクを実行するタスク実行部（例えば図２に示した音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２）と、前記タスク実行部によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行部によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを作成するタスクデータ作成部（例えば図２に示した音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２）と、音声通信を行っている複数の前記音声通信端末装置のそれぞれに、前記テキストデータを除く前記タスクデータを提供し、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを提供するタスクデータ提供部（例えば図２に示した通信制御部２２４）と、を含むことを特徴とする。

前記タスクデータ提供部は、前記音声通信端末装置に対し、前記タスクデータと、前記話者の前記音声と、を提供するのが望ましい。
前記指示受付部は、前記サービスに関して予め登録されている加入者情報を取得し、前記加入者情報に、前記音声通信端末装置を特定する情報が含まれている場合に前記指示を受付けるのが望ましい。
また、前記音声通信端末装置が電話機であって、前記指示受付部は、複数の前記音声通信端末装置の少なくとも１つが、予め定められた情報が付加された電話番号を使って発呼した場合に、前記指示を受付けるのが望ましい。

前記タスク実行部は、前記録音部に録音される音声が予め定められた意味を示す音声である場合に、前記別タスクの実行を開始することが望ましい。
また、前記タスク実行部は、前記音声通信端末装置の操作によって出力される信号が予め定められた信号である場合に、前記タスクの実行を開始することが望ましい。

本発明のサービス提供方法は、音声によって互いに音声通信する複数の音声通信端末装置と接続され、前記音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において、サービスを提供するサービス提供方法であって、前記別タスクを音声通信の間に実行する指示を受付ける指示受付ステップと、前記指示受付ステップにおいて前記指示が受付けられた場合、複数の前記音声通信端末装置間の音声通信中の、話者の音声を録音する録音ステップと、前記録音ステップにおいて録音された音声に基づいて該タスクを実行するタスク実行ステップと、前記タスク実行ステップによって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行ステップによって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを作成するタスクデータ作成ステップと、音声通信を行っている複数の前記音声通信端末装置のそれぞれに、前記テキストデータを除く前記タスクデータを提供し、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを提供するタスクデータ提供ステップと、を含むことを特徴とする。

本発明のサービス提供プログラムは、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、コンピュータに、前記別タスクを音声通信の間に実行する指示を受付ける指示受付機能と、複数の前記音声通信端末装置間の通信中の、話者の音声を録音する録音機能と、前記指示受付機能によって前記指示が受付けられた場合、前記録音機能によって録音された音声に基づいて前記別タスクを実行するタスク実行機能と、前記タスク実行機能によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行機能によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを作成するタスクデータ作成機能と、音声通信を行っている複数の前記音声通信端末装置のそれぞれに、前記テキストデータを除く前記タスクデータを提供し、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを提供するタスクデータ提供機能と、を実現させることを特徴とする。

本発明によれば、タスクの実行によってテキスト及び音声を含むタスクデータを作成し、これを通話している音声通信端末装置の各々に送信するため、話者は翻訳音声と共にタスクの実行結果をテキストによっても受け取ることができる。このため、話者の通話内容に基づいて実行されたタスクの誤りや訂正に対応しやすくなる。
また、本発明によれば、タスクデータと、話者の音声とを通話相手に送信することができる。このため、タスクデータが翻訳音声を含む場合には、話者の翻訳音声をタスクの実行結果と共に通話相手に送信することができる。そして、本発明は、音声による通信に係るアプリケーションとは別のアプリケーションによってタスクを実行することから、既存の音声に係るアプリケーションとタスクを実行するアプリケーションとを使って話者の通話音声をタスクの実行結果と共に通話相手に送信することができる。このような本発明は、既存のアプリケーションを用いながら、遠隔地にありながら対面で会話しているような臨場感を持った通話サービスを提供することができる。

本発明の実施形態の前提となるサービスの概要を説明するための図である。本発明の実施形態のサービスサーバ装置のブロック図である。図２に示したサービスサーバ装置によって行われる処理の手順を0説明するための図である。図２、図３に示したサービスサーバ装置と発通信端末装置、着通信端末装置とを接続するＣＳ網、ＰＳ網を具体的に説明するための図である。図２、図３に示したサービスサーバ装置と発通信端末装置、着通信端末装置とを接続するＰＳ網を具体的に説明するための図である。本発明の実施形態のサービス提供方法を説明するための図である。本発明をユーザのスケジュールを調整するアプリケーションに適用する例を説明した図である。図８（ａ）は一般的な翻訳機の構成を説明するための図、図８（ｂ）は一般的な翻訳システムの構成を説明するための図である。

以下、図を参照して本発明に係るサービスサーバ装置、サービス提供方法、サービス提供プログラムの実施形態について説明する。以下に参照する各図において、他の図と同様の構成については、同様の符号を付して示し、その説明の一部を省略することがある。

［コミュニケーション・コンシェルジュ］
図１は、本実施形態の前提となるサービスの概要を説明するための図である。このサービスは、通話機能を有する通信端末装置による会話（以下、通話と記す）をサポートし、直接会って会話するようなコミュニケーションを実現するよう開発されている。本実施形態の前提となるサービスを、以下、ＣＣ（コミュニケーション・コンシェルジュ）サービスとも記す。

ＣＣサービスは、図１に示したように、ネットワークＮに接続されている通信端末装置ｃ１〜ｃ５に提供されるサービスである。通話機能を有する電話機、ネットワークＮと接続してパケット通信によりテキストを送受信できる通信端末装置（例えば、スマートフォンなど）、または、通話音声とテキストの両方を送受信できる通信端末装置、のいずれかを、通信端末装置ｃ１〜ｃ５として用いることができる。また、通信端末装置ｃ１〜ｃ５は、テキストばかりでなく、静止画像や動画像、音楽を送受信する機能を有するものであってもよい。

本実施形態では、ネットワークＮに接続されている通信端末装置ｃ１〜ｃ５のうちの少なくとも１つの装置のユーザと、他の少なくとも１つの装置のユーザとの間で音声通話が行われる場合を想定している。そして、電話機を使って通話中のユーザは、その通話中に、別のタスクを起動してタスクを実行させることができる。この起動されたタスクの実行によって得られた情報は、通話中の電話機またはこの電話機に対応する他の通信端末装置が受信することができる。

本実施形態を実現するには、電話機を用いた通話中に、通話とは別のタスクによるサービスを提供するサービスサーバ装置が必要である。本実施形態を実現するためのサービスサーバ装置は、通話内容の翻訳、翻訳後の通話内容の合成音声化、通話音声に合成音声を挿入することによるデータ（以下、タスクデータとも記す）の生成、翻訳後の通話内容のテキスト化、及びタスクデータとテキスト化されたデータ（以下、テキストデータとも記す）を連動して通話中の電話機等に送信するタスクを実行する。

以下、本実施形態を実現するためのサービスサーバ装置について、より具体的に説明する。
［サービスサーバ装置］
（ｉ）機能
図２は、本実施形態のサービスサーバ装置の一構成例を示すブロック図である。図２のサービスサーバ装置２００は、複数のイネーブラを含むイネーブラ群２６１と通信可能に構成されている。なお、イネーブラとは、コンピュータを動作させるためのドライバソフトウェアであり、個々の目的ごとに設計されたソフトウェア（アプリケーション）を指す。

イネーブラ群２６１は、電話機能用のイネーブラ群２０５と、本実施形態に特有の機能である翻訳機能を実現するために付加されたイネーブラ群２０６とを含んでいる。イネーブラ群２０５は、セッション連携イネーブラ２１８、データお預かりイネーブラ２０７、デバイス管理制御イネーブラ２０８、プレゼンスイネーブラ２０９、電話帳イネーブラ２１０、ＳＮＳ（Social Networking Service）イネーブラ２１１、位置情報検出イネーブラ２６２、電話／呼制御イネーブラ２０１、メッセージングイネーブラ２１２等を含んでいる。

また、イネーブラ群２０６は、ポイント管理イネーブラ２１９、コミュニティ管理イネーブラ２１３、アプリケーションに応じた所定の情報を管理する情報管理イネーブラ２１４、音声合成イネーブラ２０２、画像・映像合成／編集イネーブラ２１５、フォント変換イネーブラ２１６、音声認識イネーブラ２０３、画像・映像認識イネーブラ２１７、テキスト翻訳イネーブラ２０４等を含んでいる。

なお、電話機能用のイネーブラ群２０５は、音声による通信に係るイネーブラの集合である。また、イネーブラ群２０６は、音声による通信に係るアプリケーションとは別のイネーブラの集合である。すなわち、本明細書では、イネーブラ群２０５に含まれるイネーブラが音声による通信に係るアプリケーションによって実行されるタスクであり、イネーブラ群２０６に含まれるイネーブラが、音声による通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクである。

イネーブラ群２６１に含まれているイネーブラ群２０５および２０６は、ネットワーク側でサービスを提供するための環境、いわゆるサービス・イネーブラ・ネットワーク（以下、ＳＥＮと記す）２を構成する。ＳＥＮ２は、翻訳サービスを含む複数のサービスを提供できる複数のインターネットプレイヤＰと連携して様々なサービスを提供することができる。

本実施形態では、翻訳にかかるタスクを実行するために、サービスサーバ装置２００がイネーブラ群２０５の電話／呼制御イネーブラ２０１を取得してサービスアプリ部に保存する。また、サービスサーバ装置２００は、イネーブラ群２０６から音声合成イネーブラ２０２、音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４をサービスアプリ部に保存する。また、前記したように、本実施形態では、全てのサービスアプリ部がサービス起動部２５０を含んでいる。この結果、本実施形態ではサービスアプリ部が翻訳に係るサービスを提供するサービスアプリ部２２５になる。

サービスサーバ装置２００は、サービスの種別に応じたタスクの実行に必要なイネーブラを選択して取得することができる。サービスサーバ装置２００によって取得されたイネーブラは、後述するサービスアプリ（サービス・アプリケーション・ソフトウェア）部としてサービスサーバ装置２００にサービスごとに保存される。
このような構成により、本実施形態のサービスサーバ装置２００は、既存のイネーブラを組み合わせてサービスに必要なアプリケーションを構築することができる。このため、本実施形態によれば、新たに専用のアプリケーションを開発する必要がなく、アプリケーションの開発に係る時間及びコストが発生しない。さらに、本実施形態によれば、実績がある既存のアプリケーションを使ってサービスを提供することができるため、新たなアプリケーションを開発することに比べて信頼性が高いサービスを提供することができる。

本実施形態では、発通信端末装置２４１ａ、着通信端末装置２４１ｂが互いに通話しながらサービスサーバ装置２００によりサービスの提供を受けるものとする。サービスサーバ装置２００は、発通信端末装置２４１ａ、着通信端末装置２４１ｂにサービスを提供する場合には、タスクを実行する。本実施形態における発通信端末装置２４１ａおよび着通信端末装置２４１ｂは、例えば、電話機の機能と、テキスト、静止画像、動画像等を送受信できる機能とを併せ持つ携帯電話機である。

サービスサーバ装置２００は、サービスに応じたイネーブラを有するサービスアプリ部の他、電話機としての通話を制御する既存の構成を備えている。通話を制御する構成としては、ＣＣサービスの加入者（すなわちＣＣサービスの提供を受けるユーザ、以下、単に「ユーザ」と記す）に関するデータを保存する加入者プロファイル蓄積部２２１、ＣＣサービスの提供の要求を認証、許可する認証許可部２２２、通話に課せられる課金に関する処理をする課金処理部２２３、通話やパケット通信を制御する通信制御部２２４がある。通信制御部２２４は、発通信端末装置２４１ａや、着通信端末装置２４１ｂに、タスクデータをそれぞれ提供する提供部としての機能も備えている。

加入者プロファイル蓄積部２２１には、ユーザの氏名や使用している電話機の電話番号と共に、ユーザが使用する言語の種類が予め登録されている。この他、加入者プロファイル蓄積部２２１には、電話機を特定する情報として、電話機のデータ通信セッションに含まれるＭＳＩＳＤＮ（Mobile Subscriber ISDN Number：電話機のＳＩＭカードに登録されている電話番号）が登録されている。さらに、前記したタブレットＰＣやフォトフレーム等の装置を電話機に対応付けるには、それらの装置の識別子を、該当する電話機の電話番号に対応付けて加入者プロファイル蓄積部２２１に登録すればよい。

サービスサーバ装置２００は、複数のサービスアプリ部２２５、２２６、２２７を備え得る。また、実施形態１では、複数のサービスアプリ部２２５、２２６、２２７を例えば複数のイネーブラを記憶できる記憶領域とすることもできる。このようにした場合、記憶されるイネーブラによってこの記憶領域をサービスアプリ部２２５、２２６、２２７のいずれにもなり得るようにすることができる。また、本実施形態のサービスアプリ部となる記憶領域には、サービス起動部２５０が記憶されている。このサービス起動部２５０は、例えば、発通信端末装置２４１ａからＩＰネットワーク網２３０を介して送信される指示を受付けてサービスを提供するためイネーブラを起動する機能を有している。

本実施形態では、ユーザが発通信端末装置２４１ａを操作すると、サービス起動部２５０が、サービスアプリ部２２５に保存されているイネーブラを起動する。このサービスアプリ部２２５に保存されているイネーブラが起動されると、タスクの実行が開始される。起動された電話／呼制御イネーブラ２０１は、発通信端末装置２４１ａ、着通信端末装置２４１ｂ間の通信中に、話者の音声（以下、通話音声と記す）を録音する。なお、通話音声の録音は、電話／呼制御イネーブラ２０１が備える周知の留守番電話の録音を制御するものとし、留守番電話の通話音声録音機能を使って行われるようにしてもよい。

音声認識イネーブラ２０３は、録音された音声からテキストデータを作成する。音声認識イネーブラ２０３は、例えば、録音された音声を形態素解析によって解析し、その音声をテキストデータに変換する。
テキスト翻訳イネーブラ２０４は、音声認識イネーブラ２０３が作成したテキストデータを、着通信端末装置２４１ｂのユーザが使用する言語に翻訳することによって、翻訳テキストデータを作成する。

音声合成イネーブラ２０２は、テキスト翻訳イネーブラ２０４によって作成された翻訳テキストデータを音声によって表される音声に変換することによって、合成音声によって読み上げるための音声データを作成する。
本実施形態では、音声合成イネーブラ２０２によって作成された音声データが、通話音声と共に発通信端末装置２４１ａ、着通信端末装置２４１ｂに提供される。また、本実施形態では、音声認識イネーブラ２０３によって作成されたテキストデータとテキスト翻訳イネーブラ２０４によって生成された翻訳テキストデータも、発通信端末装置２４１ａ、着通信端末装置２４１ｂに提供される。本実施形態では、音声データと、テキストデータ及び翻訳テキストデータとを併せてタスクデータとも記すものとする。

以上のように、音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２は、サービス起動部２５０によってタスク実行の指示が受付けられた場合、電話／呼制御イネーブラ２０１によって録音された音声に基づいてタスクを実行し、タスクの実行によってタスクデータが作成される。このタスクデータは、発通信端末装置２４１ａ及び着通信端末装置２４１ｂに提供される。

以上のように構成された本実施形態のサービスサーバ装置において、サービス起動部２５０が指示受付部として機能する。また、電話／呼制御イネーブラ２０１が録音部として機能し、音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２がタスク実行部及びタスクデータ作成部として機能する。
なお、本実施形態では、サービス起動部２５０が、発通信端末装置２４１ａ、着通信端末装置２４１ｂがサービスの提供を指示して直ちに各イネーブラを起動するものではなく、加入者プロファイル蓄積部２２１から予め登録されている加入者情報を取得するようにしてもよい。そして、加入者情報に発通信端末装置２４１ａ、着通信端末装置２４１ｂの少なくともいずれかを特定する情報が含まれている場合に発通信端末装置２４１ａ、着通信端末装置２４１ｂの指示を受付けるようにしてもよい。

また、本実施形態では、サービスの提供を指示する場合、携帯電話機が電話番号に、予め設定されている特定の番号等の情報を付加して発信するようにサービス起動部２５０の起動条件を設定してもよい。このように起動条件を設定した場合、サービス起動部２５０は、発通信端末装置２４１ａ、着通信端末装置２４１ｂの少なくともいずれかが、予め定められた情報が付加された電話番号を使って発呼した場合に発通信端末装置２４１ａ、着通信端末装置２４１ｂの指示を受付けることになる。

さらに、本実施形態は、サービス起動部２５０が発通信端末装置２４１ａ、着通信端末装置２４１ｂの操作によって出力される信号によって各イネーブラを起動するものに限定されるものではない。例えば、電話／呼制御イネーブラ２０１によって録音された通話音声が入力された場合に、サービス起動部２５０が各イネーブラを起動してタスクの実行を開始するようにしてもよい。このようにサービス起動部２５０を構成する場合、アプリケーションを特定できる文言、例えば、「翻訳開始」などの文言を予め設定しておく。そして、音声認識イネーブラ２０３が録音された通話音声を形態素解析した結果、予め設定された文言が通話音声に含まれている場合に限り、サービス起動部２５０が各イネーブラを起動してタスクを実行する。

以上説明した本実施形態において、発通信端末装置２４１ａ、着通信端末装置２４１ｂは、テキストを送信可能な携帯電話機に限定されるものではない。発通信端末装置２４１ａ、着通信端末装置２４１ｂを通話機能だけを有する電話機とした場合、通話機能だけを有する電話機からの要請によってタスクの実行結果をこの電話機に予め対応付けられたタブレットＰＣ２４２ａ、２４２ｂやフォトフレーム２４３ａ、２４３ｂに送信するようにしてもよい。

（ｉｉ）処理手順
図３は、図２に示したサービスサーバ装置によって行われる処理の手順を説明するための図である。
図２に示したサービスアプリ部２２５では、図２に示した電話／呼制御イネーブラ２０１によって通話音声の録音が実行される（ステップＳ３１１）。通話音声の録音は、音声が録音されない状態（以下、無音録音状態とも記す）から次の無音録音状態までの間に発せられた通話音声を１単位として行われる。次に、音声認識イネーブラ２０３によって音声は形態素解析され、解析される。解析は、１単位として録音された通話音声ごとに行われる。そして、解析結果にしたがって通話音声はテキストデータに変換される（ステップＳ３１２）。

次に、サービスアプリ部２２５では、テキスト翻訳イネーブラ２０４により、ステップＳ３１２において変換されたテキストデータが、予め着通信端末装置２４１ｂのユーザによって加入者プロファイル蓄積部２２１に登録されている言語の翻訳テキストデータに翻訳される（ステップＳ３１３）。翻訳後の翻訳テキストデータは、合成音声に変換され、音声データとなる（ステップＳ３１４）。さらに、音声データが通話音声に挿入される（ステップＳ３１５）。

ここで、「音声データを通話音声に挿入する」とは、通話音声に合わせて音声データを送信するタイミングを決定することをいう。このように音声データの送信タイミングを決定することにより、通話音声は通常とおりＣＳ（Circuit Switched）網を介して発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信される。また、音声データも、ＣＳ網を介してデータ通信セッションにより発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信されるが、ＰＳ網（Packet Switched）を経由して送信するようにすることもできる。さらに、通話音性を翻訳してテキスト化したテキストデータは、ＰＳ網を利用して送信される。なお、図３においては、ＣＳ網とＰＳ網とに符号３２０を付して示すものとする。

ただし、本実施形態は、通話音声をＣＳ網で送信するものに限定されるものではない。例えば、音声データと共に通話音声がＰＳ網を介して発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信されるようにしてもよい。
本実施形態では、前記したように、無音録音状態から次の無音録音状態までの間に発話された通信音声を１単位として録音、認識、翻訳してタスクデータを作成し、その都度、発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信することにより、通話音声とタスクデータとの同期をとって発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信することができる。

本実施形態では、通話の違和感を避けるため、通話音声は通常通りリアルタイムで通信先の発通信端末装置２４１ａ、着通信端末装置２４１ｂに送信される。このため、通話音声に音声データが挿入されることにより、ユーザには音声データによる音声が通話音声に重なって聞こえることがある。しかし、通訳者を介して会話する場合、一般的に人は通訳者が発話している間は自身の発話を控える傾向にあると考えられる。このため、音声データによる音声と通話音声とが重なって会話に支障をきたすことは起こり難い。

本実施形態では、発通信端末装置２４１ａ、着通信端末装置２４１ｂの両方がサービスアプリ部２２５にアクセスしてテキストデータ、翻訳テキストデータ及び音声データを取得する。このように、サービスアプリ部２２５を介して発通信端末装置２４１ａ、着通信端末装置２４１ｂを接続する方式は、ブリッジ接続と呼ばれている。
また、図１に示したサービスサーバ装置２００は、発通信端末装置２４１ａの電話回線と、着通信端末装置２４１ｂの電話回線とを、周知の方法によって識別することができる。このため、発通信端末装置２４１ａの上り回線ｕ１、下り回線ｄ１、着通信端末装置２４１ｂの上り回線ｕ２、下り回線ｄ２を区別することができ、ユーザの発話を適切に翻訳して通話相手に送信することができる。

以上説明した本実施形態によれば、通話音声、合成音声の音声データ、テキストデータ、翻訳テキストデータを発通信端末装置２４１ａ、着通信端末装置２４１ｂに提供することができる。このため、ユーザは、自身の発話した内容がサービスサーバ装置２００にどのように認識されたのかを容易に認識でき、誤訳等があれば速やかに訂正するなどの対応を行うことができる。また、ユーザには通話相手の通話音声と、これを翻訳した音声データとの両方が聞こえるため、あたかも間に通訳者を介して会話しているような臨場感がある会話を実現することができる。

（ｉｉｉ）ＣＳ網及びＰＳ網
図４は、図２、図３に示したサービスサーバ装置２００と発通信端末装置２４１ａ、着通信端末装置２４１ｂとを接続するＣＳ網４０４、ＰＳ網４０５を具体的に説明するための図である。
発通信端末装置２４１ａは、ＭＰＮ（メディア・プロセッシング・ノード）４０８に向けて発呼する。この発呼信号は、ＣＳ網４０４、既存の電話系装置４０１に到達する。既存の電話系装置４０１とは、例えば、ＣＳＮ（認証装置、ハンドオーバーを実現するためのホームエージェント、ＤＨＣＰサーバ等）、ＡＳＮ（無線基地局等）を指す。既存の電話系装置４０１では、発呼に対して非課金処理や特番ルーチングの処理が実行される。なお、非課金処理とは、一般的な通話にかかる課金処理を行わないようにする処理である。また、特番ルーチングとは、予め定められた電話番号（特番）に発呼された場合に、通信経路を、本来の処理とは異なる処理が行われる通信経路に変更することをいう。

次に、発呼信号は既存の電話系装置４０１から本実施形態のサービスサーバ装置２００に到達する。サービスサーバ装置２００には、図１に示した電話機の通信を制御する通信制御部２２４、加入者プロファイル蓄積部２２１、認証許可部２２２、課金処理部２２３を備えているから、このような構成によって他網からのサービス制限や音声と画面の連携（音声データとテキストデータ等との連携）の処理がなされる。
音声データとテキストデータ及び翻訳テキストデータとの連携は、次のようにして実現できる。

すなわち、本サービスの提供を受け得る電話機が通話状態になったとき、サービスサーバ装置２００の通信制御部２２４が、電話機の通話に係る信号に含まれるＭＳＩＳＤＮに一致するＭＳＩＳＤＮを含むデータ通信セッション実行の監視を開始する。そして、通話に係る信号に含まれるＭＳＩＳＤＮに一致するデータセッションが行われた場合、この通話とデータセッションとをＣＣサービスにおいて連携させるべきであると判断する。このような方法によれば、通話音声と、音声データ、テキストデータ及び翻訳テキストデータを１つの通信端末装置に送信する場合、ＣＳ網４０４によって送信される通話音声と、ＰＳ網４０５によって送信されるタスクデータとの連携をとることができる。

また、前述したように、本実施形態は、通話音声を、音声データと同様にＰＳ網４０５を介して送信することができる。通話音声を音声データ等と共にＰＳ網４０５を介して送信する構成を、図５に示す。
また、実施形態１では、図２に示した加入者プロファイル蓄積部２２１において、前記したように、通話機能だけを有する電話機と、テキスト等を送信できる通信端末装置とを対応付けて登録している。このような場合、通信制御部２２４が、電話機の電話番号で発呼がされると、登録されている通信端末装置のアドレスにタスクデータを取得できるＵＲＬを送信するようにしてもよい。

また、発呼に対応する通話音声は、ＭＰＮ４０８において電話／呼制御イネーブラ２０１により録音され、サービスサーバ装置２００に渡される。
サービスサーバ装置２００では、アプリ部２２５が録音された通話音声に基づいて音声データとテキストデータ及び翻訳テキストデータとを作成する。音声データは、ＣＳ網を経由して着通信端末装置２４１ｂに送信される。なお、音声データの送信には、ＰＳ網を利用することもできる。また、テキストデータ及び翻訳テキストデータは、既存のＷｅｂ系装置４０２（ゲートウェイ等）やｘＧＳＮ（ｘ−GPRS Support Node）／ＥＰＣ（Evolved Packet Core）よりＰＳ網４０５を介して着通信端末装置２４１ｂに送信される。

（ｉｖ）サービス提供方法
図６は、本実施形態のサービスサーバ装置２００によって実現されるサービス提供方法を説明するための図である。図６では、ＨＴＴＰ（Hypertext Transfer Protocol）を使ったデータ通信を破線で示し、電話機による通話を実線で示している。
発通信端末装置２４１ａにおいて、ユーザが例えば本実施形態のサービス提供方法を実現するためのアプリケーションを起動するとともに、相手の電話番号が入力される(ステップＳ５０１)。このような処理により、発通信端末装置２４１ａから発通信端末装置２４１ａのアドレスがサービスサーバ装置に送信される。そして、サービスサーバ装置２００では、他の必要な要件が満たされたことを条件に、タスクを通信（通話）の間に実行する指示が受付けられて翻訳サービスが開始される(ステップＳ５０２)。

サービスサーバ装置２００は、発通信端末装置２４１ａ、着通信端末装置２４１ｂとの間の通話回線を確立する(ステップＳ５０３)。そして、サービスサーバ装置２００は、発通信端末装置２４１ａの回線から送信された通話音声を録音するとともに（ステップＳ５０４）、着通信端末装置２４１ｂの回線に送る（ステップＳ５０５）。
発通信端末装置２４１ａの回線から通話音声が送信されてこない無音録音状態になると、サービスサーバ装置２００は発通信端末装置２４１ａの回線から送信されてくる通話音声の録音をいったん終了する（ステップＳ５０６）。そして、録音された通話音声について、図２、図３に示した音声認識イネーブラ２０３、テキスト翻訳イネーブラ２０４、音声合成イネーブラ２０２によって、テキスト化、翻訳、合成音声の合成が行われ（ステップＳ５０７）、音声データとテキストデータ及び翻訳テキストデータとを作成する。

そして、本実施形態のサービスサーバ装置２００は、音声データを、発通信端末装置２４１ａ、２４１ｂの両方に送信するとともに、テキストデータ及び翻訳テキストデータも発通信端末装置２４１ａ、着通信端末装置２４１ｂの両方に送信する（ステップＳ５０８〜５１１）。次に、着通信端末装置２４１ｂのユーザが発話すると、サービスサーバ装置２００は、以上の動作を着通信端末装置２４１ｂの電話回線から送信されるユーザの通話音声に対して実行する。なお、２人のユーザのうち、一方が発話している間に他方が発話した場合、本実施形態では、通話音声を録音中のユーザの通話音声について以上の処理を実行し、他方のユーザが発話した内容については処理の対象にしないようにする。

なお、本実施形態は、以上説明した構成に限定されるものではない。すなわち、以上説明した本実施形態では２人のユーザの間の通話を対象にして翻訳に係るＣＣサービスを実行している。しかしながら、本実施形態は、２人の間の通話を対象にするものに限定されず、３人以上で通話する会議電話等にも適用することができる。
さらに、本発明は、本実施形態の翻訳に係るアプリケーションに適用される構成に限定されるものではない。図７は、本発明のサービスサーバ装置、サービス制御方法、サービス制御プログラムは、ユーザのスケジュールを調整するアプリケーションに適用する例を説明した図である。

図７に示した例では、サービスサーバ装置が、発通信端末装置６４１ａ、着通信端末装置６４１ｂの通信中に、音声による通信とは別のスケジューラタスクによるサービスを提供する。このような例では、発通信端末装置６４１ａのユーザがスケジューラタスクを通話の間に実行するように発通信端末装置６４１ａを操作する等してサービスサーバ装置に指示する。サービスサーバ装置が指示を受付けると、発通信中に、発通信端末装置６４１ａ、着通信端末装置６４１ｂのユーザの通話音声が録音される。

図７に示した例では、サービスサーバ装置が発通信端末装置６４１ａ、着通信端末装置６４１ｂの電話回線から通話音声を取得してそれぞれ録音する。図２に示した音声認識部は、録音された通話音声を形態素解析する等して「スケジュール調整」を意味する音声が通話音声に含まれていることを検出する。通話音声に「スケジュール調整」が含まれていることから、発通信端末装置６４１ａ、着通信端末装置６４１ｂのユーザのスケジュールが両方とも空いている日時及びその時間帯を抽出するタスクを実行するように指示されたものと判断する。

そして、例えば図２に示した情報管理イネーブラ２１４がスケジュール情報管理部として機能して発通信端末装置６４１ａ、着通信端末装置６４１ｂに登録されているユーザのスケジュールデータを取得する。情報管理部２１４は、取得されたスケジュールデータから、２人のユーザの予定が登録されていない日及びその時間帯を抽出する。抽出された日時は、テキストデータを含む画像データとして発通信端末装置６４１ａ、着通信端末装置６４１ｂの両方に送信される。
このような構成によれば、発通信端末装置６４１ａ、着通信端末装置６４１ｂのユーザに対し、スケジュールを簡易かつ間違いなく調整でき、しかも直接対面してスケジュール調整するのと同様の臨場感があるコミュニケーションを提供することができる。

（ｖ）サービス提供プログラム
以上説明したサービスサーバ装置においては、音声によって通信可能な音声通信端末装置間の通信中に、音声による通信とは別のタスクによるサービスを提供するためのサービス提供プログラムが実行される。このサービス提供プログラムは、コンピュータに、別タスクを音声通信の間に実行する指示を受付ける指示受付機能と、複数の上記音声通信端末装置間の音声通信中に、話者の音声を録音する録音機能と、上記指示受付機能によって上記指示が受付けられた場合、上記録音機能によって録音された音声に基づいて該タスクを実行するタスク実行機能と、上記タスク実行機能においてタスクが実行されたことによって得られるテキストまたは音声を含むタスクデータを作成するタスクデータ作成機能と、音声通信を行っている音声通信端末装置、または、音声通信端末装置に対応付けられ、かつテキストによる通信が可能なテキスト通信端末装置に、タスクデータを提供する機能と、を実現させるプログラムである。

本発明は、スマートフォンなどを使ったコミュニケーションをサポートすることに最適なサービス提供装置、サービス提供方法及びサービス提供プログラムを提供することができる。

２００サービスサーバ装置
２０１呼制御イネーブラ
２０２音声合成イネーブラ
２０３音声認識イネーブラ
２０４テキスト翻訳イネーブラ
２０５、２０６、２６１イネーブラ群
２０８デバイス管理制御イネーブラ
２０９プレゼンスイネーブラ
２１０電話帳イネーブラ
２１１ＳＮＳイネーブラ
２１２メッセージングイネーブラ
２１３コミュニティ管理イネーブラ
２１４情報管理イネーブラ
２１５編集イネーブラ
２１６フォント変換イネーブラ
２１７画像・映像認識イネーブラ
２１８セッション連携イネーブラ
２１９ポイント管理イネーブラ
２２１加入者プロファイル蓄積部
２２２認証許可部
２２３課金処理部
２２４通信制御部
２２５、２２６、２２７サービスアプリ部
２３０ネットワーク網
２４１ａ、６４１ａ発通信端末装置
２４１ｂ、６４１ｂ着通信端末装置

Claims

音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、
前記別タスクを実行する指示を受付ける指示受付部と、
複数の前記音声通信端末装置間の音声通信中の、話者の音声を録音する録音部と、
前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された音声に基づいて前記別タスクを実行するタスク実行部と、
前記タスク実行部によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行部によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを作成するタスクデータ作成部と、
音声通信を行っている複数の前記音声通信端末装置のそれぞれに、前記テキストデータを除く前記タスクデータを提供し、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを提供するタスクデータ提供部と、
を含むことを特徴とするサービスサーバ装置。
前記タスクデータ提供部は、
前記音声通信端末装置に対し、
前記タスクデータと、前記話者の前記音声と、を提供することを特徴とする請求項１に記載のサービスサーバ装置。
前記指示受付部は、
前記サービスに関して予め登録されている加入者情報を取得し、
前記加入者情報に、前記音声通信端末装置を特定する情報が含まれている場合に前記指示を受付けることを特徴とする請求項１または２に記載のサービスサーバ装置。
前記音声通信端末装置が電話機であって、
前記指示受付部は、
複数の前記音声通信端末装置の少なくとも１つが、予め定められた情報が付加された電話番号を使って発呼した場合に、前記指示を受付けることを特徴とする請求項１または２に記載のサービスサーバ装置。
前記タスク実行部は、
前記録音部に録音される音声が予め定められた意味を示す音声である場合に、前記別タスクの実行を開始することを特徴とする請求項１〜４のいずれか１項に記載のサービスサーバ装置。
前記タスク実行部は、
前記音声通信端末装置の操作によって出力される信号が予め定められた信号である場合に、前記別タスクの実行を開始することを特徴とする請求項１〜４のいずれか１項に記載のサービスサーバ装置。
前記指示受付部は、
前記サービスに関して予め登録されている加入者情報を取得し、
前記加入者情報に、前記音声通信端末装置に対応付けられた前記テキスト通信端末装置を特定する情報が含まれている場合に前記指示を受付けることを特徴とする請求項１〜６のいずれか１項に記載のサービスサーバ装置。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において、サービスを提供するサービス提供方法であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付ステップと、
複数の前記音声通信端末装置間の音声通信中の、話者の音声を録音する録音ステップと、
前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された音声に基づいて前記別タスクを実行するタスク実行ステップと、
前記タスク実行ステップによって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行ステップによって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを作成するタスクデータ作成ステップと、
音声通信を行っている複数の前記音声通信端末装置のそれぞれに、前記テキストデータを除く前記タスクデータを提供し、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを提供するタスクデータ提供ステップと、
を含むことを特徴とするサービス提供方法。
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、
コンピュータに、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付機能と、
複数の前記音声通信端末装置間の音声通信中の、話者の音声を録音する録音機能と、
前記指示受付機能によって前記指示が受付けられた場合、前記録音機能によって録音された音声に基づいて前記別タスクを実行するタスク実行機能と、
前記タスク実行機能によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行機能によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを作成するタスクデータ作成機能と、
音声通信を行っている複数の前記音声通信端末装置のそれぞれに、前記テキストデータを除く前記タスクデータを提供し、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを提供するタスクデータ提供機能と、
を実現させることを特徴とするサービス提供プログラム。