JP7340835B2

JP7340835B2 - プログラム、情報処理方法、及び情報処理装置

Info

Publication number: JP7340835B2
Application number: JP2019033090A
Authority: JP
Inventors: 未知佐藤; 健司梶原
Original assignee: CHIKAKU, INC.
Current assignee: CHIKAKU, INC.
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2023-09-08
Anticipated expiration: 2039-02-26
Also published as: JP2020141162A

Description

本開示は、プログラム、情報処理方法、及び情報処理装置に関する。

近年、音声認識技術の活用により、ユーザの音声を認識して様々な機器を制御する技術が開発されている。例えば、Ａｍａｚｏｎ（登録商標）のＥｃｈｏ（登録商標）は、この機器に所定の言葉を呼びかけることで、事前に設定しておいた呼出先に自動で接続される機能を有することが知られている（例えば、非特許文献１参照）。

"便利&楽しい！Amazon Echo のビデオ通話、メッセージ、呼びかけの使い方"、［online］、2018年10月1日、SmartHacks Magazine、［2019年2月1日検索）］、インターネット〈URL：https://smarthacks.jp/mag/37636〉

しかしながら、非特許文献１に記載の技術において、呼出先では音声通話等が自動で開始されてしまうため、呼出先の予期しない音声等が呼出元に聞かれてしまう場合がある。また、ユーザがこの呼びかけ機能の設定をオフにすることで、自動接続を回避することができるが、ユーザがこの呼びかけ機能を使いたい場合には設定をオンにしなければならず、着呼側のユーザにとって利便性の観点で課題が残る。

そこで、発呼側及び着呼側の両方のユーザに対して利便性があり、シームレスな通話開始を可能とするプログラム、情報処理方法及び情報処理装置を提供することを目的とする。

本開示の一態様におけるプログラムは、情報処理装置に、第１音声データを入力し、入力された第１音声データを音声認識し、前記第１音声データの認識結果に関連付けられる呼出先を特定し、前記呼出先の他の情報処理装置を示す呼出先情報と、呼出元の前記情報処理装置を示す呼出元情報とを含むリクエストであって、セッションの開始を要求するリクエストを呼制御サーバに送信し、前記第１音声データを、前記呼制御サーバ又は前記他の情報処理装置に送信する、処理を実行させる。

本開示の所定の態様によれば、発呼側及び着呼側の両方のユーザに対して利便性があり、シームレスな通話開始を可能とする。

本開示のシステム概要を説明するための図である。第１実施形態に係る情報処理システム１の概略構成の一例を示す図である。第１実施形態に係るサーバ１０のハードウェア構成の一例を示す図である。第１実施形態に係るユーザ端末２０のハードウェア構成の一例を示す図である。第１実施形態に係る情報処理システム１の各装置の機能の一例を示す図である。第１実施形態に係るＩＮＶＩＴＥのリクエストの一例を示す図である。第１実施形態に係る２００ＯＫのレスポンスの一例を示す図である。第１実施形態に係る動作処理の一例を示すシーケンス図である。第１実施形態に係る発呼側の処理の一例を示すフローチャートである。第１実施形態に係る着呼側の処理の一例を示すフローチャートである。第２実施形態に係るシステム２の概要を説明する図である。

以下、添付図面を参照しながら本開示の実施形態について詳細に説明する。

＜システム概要＞
図１は、本開示のシステム概要を説明するための図である。図１に示す例では、ユーザＵＡ（孫）が、ユーザＵＢ（祖母）との通話を開始したいことを想定する。ユーザＵＡは、携帯端末などの情報処理装置２０Ａを利用し、ユーザＵＢは、携帯端末などの情報処理装置２０Ｂを利用する。また、サーバ１０は、ＩＰ（Internet Protocol）電話の呼制御を行う情報処理装置である。なお、図１に示す概要は、ＩＰ電話の例を用いるが、ＷｅｂＲＴＣ（Web Real-time Communication）技術などを用いるＰ２Ｐ通信により通話が実現される例も含んでもよい。

（１）呼びかけ
まず、ユーザＵＡは、情報処理装置２０Ａに向かって、「おーい、おばあちゃん！」と呼びかける。このとき、情報処理装置２０Ａでは、所定のアプリケーションが実行されており、このアプリケーションの下で、マイク機能はオンにされている。情報処理装置２０Ａは、マイクから「おーい、おばあちゃん！」の音声データを入力し、この音声データに対して音声認識処理を実行する。

情報処理装置２０Ａは、入力された音声データに対し、音声認識を行って得られた結果が、呼出先に関連付けてあれば、その関連付けられた呼出先を特定する。呼出先が特定されれば、情報処理装置２０Ａは、セッションを開始するために、セッションの開始（又はセッションの確立）を要求するリクエストをサーバ１０に送信する。このとき、情報処理装置２０Ａは、「おーい、おばあちゃん！」という音声データもサーバ１０に送信する。

つまり、ユーザＵＡの「おーい、おばあちゃん！」という呼びかけが、セッションを開始するためのトリガとなり、情報処理装置２０Ａは、この音声データと、このリクエストとをサーバ１０に送信する。

（２）呼びかけ音声データの送信
サーバ１０は、リクエストに含まれる呼出先情報から、ユーザＵＢが利用する情報処理装置２０Ｂを特定し、特定された情報処理装置２０Ｂに、セッションを開始するためのリクエストと、音声データとを送信する。

ユーザＵＢが利用する情報処理装置２０Ｂは、サーバ１０からリクエストと音声データとを受信すると、スピーカから音声データを出力する。この音声データが着信音の代わりとなり、ユーザＵＢに通話要求が来ていることを報知する。このとき、スピーカからは、着信音の代わりに「おーい、おばあちゃん！」という音声が流れ、ユーザＵＢは、通常の会話においてユーザＵＡから話しかけられるようにして、通話の要求を把握することができる。

（３）応答音声データの送信
「おーい、おばあちゃん！」という音声が情報処理装置２０Ｂから出力されると、ユーザＵＢは、通常の会話をするように、例えば、「どうしたの？」と回答する。情報処理装置２０Ｂは、「どうしたの？」という音声データを音声認識し、認識結果がリクエストに対応するレスポンスであるか否かを判定する。このとき、認識結果が、予め設定された音声データを示す場合、情報処理装置２０Ｂは、入力された音声データはレスポンスであると判定し、セッションを開始するためのリクエストに対するレスポンスと、入力された音声データとをサーバ１０に送信する。レスポンスか否かの判定は、音声認識結果が、予め設定された所定のワードに該当するか否かを判定することや、自然言語処理を用いて肯定文（例、「はーい」）であるか否かを判定することなどを含む。

（４）セッション確立
サーバ１０は、情報処理装置２０Ｂからレスポンスと音声データとを受信すると、セッションのリクエストを送信した情報処理装置２０Ａに、レスポンスと音声データとを送信する。この結果、情報処理装置２０Ａは、受信した音声データをスピーカから出力し、ユーザＵＡは、「どうしたの？」を聞くことができる。情報処理装置２０Ａは、セッション確立を確認するメッセージを情報処理装置２０Ｂに送信し、その後、情報処理装置２０Ｂと通話のためのデータの送受信を開始する。通話は、音声通話、ビデオ通話のいずれでもよい。

これにより、ユーザＵＡは、情報処理装置２０Ａに向かってユーザＵＢに呼び掛けることで、通話の開始をリクエストすることができ、ユーザＵＢには、ユーザＵＡが呼び掛けた音声が情報処理装置２０Ｂから出力され、その呼びかけに答えることで、通話の開始を指示することができる。

したがって、呼出元は、呼出先に呼びかけ、呼出先は、その呼びかけに答えることで、通常の会話を行うようにして、シームレスに通話を開始することができる。また、呼びかけた音声と、呼びかけに答えた音声とが出力されるため、あたかも近くにいるような感覚で通話を開始することができる。さらに、呼出先では、呼びかけに応答しなければ通話は開始されないため、プライバシーを保護することも可能である。

［第１実施形態］
次に、上述したシステムを実現するためのシステム構成例について説明する。図２は、第１実施形態に係る情報処理システム１の概略構成の一例を示す図である。図２に示すように、サーバ１０と、各ユーザが利用するユーザ端末２０Ａ、２０Ｂ、２０Ｃ、２０Ｄ、・・・とが、ネットワークＮを介して相互に通信可能に接続されることにより、情報処理システム１が構成される。以降、ユーザ端末を個別に区別する必要がない場合は、符号２０を用いる。また、サーバ１０について、ネットワークＮに接続される数は複数あってもよい。

サーバ１０は、例えば、ＩＰパケット化された音声データを送受信可能な情報処理装置であり、電話の発呼（発信）、着呼（着信）、応答、切断などの呼制御を行う装置であり、呼制御サーバとも称される。また、呼制御については、Ｈ．３２３、ＭＧＣＰ（Media Gateway Control Protocol）、ＳＩＰ（Session Initiation Protocol）などのシグナリングプロトコルが用いられる。以下、サーバ１０は、ＳＩＰのシグナリングプロトコルを用いる例を説明するが、この例に限定されるものではない。

ユーザ端末２０は、ネットワークにアクセス可能な情報処理装置であって、限定ではなく例として、スマートフォンなどの携帯端末、コンピュータ（限定でなく例として、デスクトップ、ラップトップ、タブレットなど）、メディアコンピュータプラットホーム（限定でなく例として、セットトップボックス、デジタルビデオレコーダなど）、ハンドヘルドコンピュータデバイス（限定でなく例として、ＰＤＡ（Personal Digital Assistant）、電子メールクライアントなど）、ウェアラブル端末（限定でなく例として、メガネ型デバイス、時計型デバイスなど）、他種のコンピュータ、またはコミュニケーションプラットホームを含む。

ネットワークＮは、複数種の通信回線や通信網及び種々のネットワーク機器を含んで構成され得る。例えば、ネットワークＮは、折り畳み装置１０に無線接続される基地局や、無線ＬＡＮのアクセスポイント（ＷｉＦｉルータ等）、基地局に接続された移動体通信網、アクセスポイントからルータやモデムを介して接続された電話回線、ケーブルテレビ回線又は光通信回線などの公衆回線、サーバ装置２０に接続されたインターネット、移動体通信網や、公衆回線とインターネットを接続するゲートウェイ装置を含む。

図２に示すシステム構成において、呼出元である第１ユーザは、呼出先である第２ユーザとの通話を開始するため、ユーザ端末２０に呼びかける。例えば、第１ユーザが利用するユーザ端末２０をユーザ端末２０Ａとし、第２ユーザが利用するユーザ端末２０をユーザ端末２０Ｂとする。

ユーザ端末２０Ｂは、サーバ１０を介して取得した第１ユーザの呼びかけの音声データを出力し、第２ユーザからの応答を待つ。第２ユーザからの応答の音声データがユーザ端末２０Ｂで入力されると、応答の音声データがサーバ１０を介してユーザ端末２０Ａに送信される。

ユーザ端末２０Ａは、応答の音声データを取得すると、第２ユーザが応答したことを報知するために、この応答の音声データを出力する。その後、通話のセッションが確立され、通話内容の音声データがＩＰパケット化されて、ＩＰパケットされた通話データが、ユーザ端末２０Ａとユーザ端末２０Ｂとの間を送受信されることにより、通話が行われる。

以下、上述したような、ユーザによる呼びかけ、及び／又は、ユーザによる応答により通話が開始される機能を、シームレス通話機能と呼ぶ。

＜ハードウェア構成＞
次に、シームレス通話機能を実行する情報処理システム１に係る各装置のハードウェア構成について説明する。図３は、第１実施形態に係るサーバ１０のハードウェア構成の一例を示す図である。図３に示すように、サーバ１０は、制御部１０２と、通信インタフェース１０４と、記憶部１０６と、を有し、各部はバスライン１１２を介して接続される。

制御部１０２は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等からなる。また、制御部１０２は、記憶部１０６に記憶されるアプリケーション等を実行することにより、一般的なウェブサーバとしての機能に加え、通話の発呼、着呼、応答、切断の呼制御を行う機能を実現するように構成される。

通信インタフェース１０４は、ネットワークＮを介してユーザ端末２０との通信を制御する。

記憶部１０６は、例えば大容量の複数のＨＤＤ等からなり、呼制御を行うサーバ機能を実現するためのアプリケーション及びデータ（図示省略）を記憶することに加え、制御プログラム１０８を記憶する。また、記憶部１０６は、情報記憶部１１０を有する。

制御プログラム１０８は、呼制御を行うアプリケーションを実行するプログラムであり、発呼側からのリクエストを着呼側に送信したり、着呼側からリクエストに対するレスポンスを受信して、発呼側にレスポンスを返したりするためのプログラムである。

情報記憶部１１０は、シームレス通話機能を利用する各ユーザ端末の情報などを記憶する。例えば、情報記憶部１１０は、ユーザ端末２０のＩＰアドレスに対応するＵＲＩ（Uniform Resource Identifier）を記憶するロケーションサーバとして機能してもよい。

次に、ユーザ端末２０のハードウェア構成について説明する。図４は、第１実施形態に係るユーザ端末２０のハードウェア構成の一例を示す図である。図４に示すように、ユーザ端末２０は、制御部２０２と、通信インタフェース２０６と、記憶部２０８と、表示部２１４と、入力部２１６と、マイク２２０と、スピーカ２２２とを有し、各部はバスライン２１８を介して接続される。

制御部２０２は、ＣＰＵ、ＲＯＭ、ＲＡＭ２０４等からなる。制御部２０２は、記憶部２０８に記憶されるアプリケーション等を実行することにより、一般的な情報処理装置としての機能に加え、ＩＰ通話機能を実現するように構成される。このＩＰ通話機能は、シームレス通話機能を含む。また、制御部２０２は、入力された音声データに対して音声認識機能を実行することも可能である。

また、ＲＡＭ２０４は、各種情報を一時的に保持したり、ＣＰＵが各種処理を実行する際のワークエリアとして使用されたりする。

通信インタフェース２０６は、ネットワークＮを介してサーバ１０との通信を制御する。

記憶部２０８は、例えばＨＤＤ等からなり、一般的な情報処理装置としての機能を実現するためのアプリケーション及びデータ（図示省略）を記憶することに加え、アプリプログラム２１０を記憶する。また、記憶部２０８は、情報記憶部２１２を有している。

アプリプログラム２１０は、上述したシームレス通話機能を実行するためのプログラムであり、サーバ１０を介して着呼側へリクエストを送信し、このリクエストに対するレスポンスを、着呼側からサーバ１０を介して受信し、通話を開始するためのプログラムである。

情報記憶部２１２は、音声に関する所定のデータと、呼出先を示す呼出先情報とを関連付けた対応テーブル（音声データ及び呼出先の関連情報）を記憶する。

表示部２１４は、例えばタッチパネルや液晶モニターなどのディスプレイであり、ユーザに情報を表示する。例えば、表示部２１４は、アプリケーションの実行画面を表示し、具体的には、ＩＰ通話中の画面や、呼出先の設定画面などを表示する。

入力部２１６は、ユーザからの入力を受け付けたり、ユーザからの指示を受け付けたりする。なお、表示部２１４と入力部２１６とは、タッチパネルとして構成されてもよい。

マイク２２０は、音声などの音を集音するデバイスであり、ノイズキャンセル機能などを有してもよい。スピーカ２２２は、音声データを物理振動に変えて、音楽や音声などの音を出力するデバイスである。

＜機能構成＞
次に、図５を用いて、第１実施形態に係る情報処理システム１の各装置の機能について説明する。図５に示す例では、ユーザ端末２０Ａは、発呼側であり、リクエストメッセージを送信する側のＵＡＣ（User Agent Client）である。ユーザ端末２０Ｂは、着呼側であり、レスポンスメッセージを送信する側のＵＡＳ（User Agent Server）である。なお、各ユーザ端末２０は、発呼側にも着呼側にもなりうるため、ＵＡＣの機能と、ＵＡＳの機能との両方の機能を有する。

サーバ１０は、上述したとおり、ＳＩＰサーバとしての機能を有する呼制御サーバの例を用いる。ＳＩＰにおける通信は、ＨＴＴＰ（Hyper Text Transfer Protocol）を基礎とするリクエスト（ＳＩＰメソッド）と、レスポンス（応答コード）とのやりとりによって行われる。以下、リクエスト及びレスポンスの一部を示す。

（Ａ）リクエスト
ＩＮＶＩＴＥ：セッション開始要求
ＡＣＫ：セッション確立の確認
ＢＹＥ：セッション終了
ＲＥＧＩＳＴＥＲ：情報の登録
…
（Ｂ）レスポンス
１ＸＸ：リクエストを受信して、その処理を実行中
２ＸＸ：リクエストの成功
３ＸＸ：リクエストを完了させるために、他リソースへの再実行を指示
…

本開示のシームレス通話機能では、上述したリクエストとレスポンスとのやりとりに加え、呼び掛けや応答に関する音声データの送受信が行われる。図５に示すユーザ端末２０Ａでは、主に発呼側の機能を説明し、ユーザ端末２０Ｂでは、主に着呼側の機能を説明する。なお、ユーザ端末２０Ａ及びユーザ端末２０Ｂは、同じ機能を有するため、それぞれの機能を区別しない場合は、Ａ又はＢの符号を省略する。例えば、ユーザ端末２０は認識部３０４を有する、という表現が可能である。

ユーザ端末２０Ａは、入力部３０２Ａ、認識部３０４Ａ、送信部３０６Ａ、特定部３１０Ａを含む発呼処理部３０８Ａ、通話処理部３２０Ａ、受信部３１２Ａ、着呼処理部３１４Ａ、及び出力部３１８Ａを有する。ユーザ端末２０Ａにおける各部の機能は、図４に示す制御部２０２がアプリプログラム２１０を実行することにより実現される。

なお、ユーザ端末２０Ａは、本開示のシームレス通話機能に関するアプリケーションを実行している場合、マイク機能がオンに設定され、発呼側のユーザである第１ユーザの音声データが入力される。第１ユーザにより入力された呼びかけの音声データを第１音声データとも称する。

（ユーザ端末２０Ａのセッション開始機能）
入力部３０２Ａは、マイク２２０により集音された第１音声データを入力する。例えば、図１に示す例では、入力部３０２Ａは、第１ユーザの呼びかけ音声である「おーい、おばあちゃん」の音声データを入力する。入力された音声データは、バッファに記憶され、所定時間経過後に削除される。

認識部３０４Ａは、音声データに対して音声認識を実行する処理部である。例えば、入力部３０２Ａにより入力され、バッファに記憶されている音声データである「おーい、おばあちゃん」を音声認識して、どんな音声が入力されたのかを把握する。

特定部３１０Ａは、認識部３０４Ａにより認識されたデータと、上述した対応テーブルに含まれる所定のデータとの照合処理を行う。認識されたデータと、所定のデータは、音声データでもよいし、テキストデータなどでもよい。所定のデータとは、例えば、図１に示す「おーい、おばあちゃん！」や、「おじいちゃん、いる？」などの通常の呼びかけの音声データでもよいし、既定の「おばあちゃんに電話して」などの音声データでもよい。

また、対応テーブルには、複数の異なるデータと、複数の異なる呼出先とを１対１で対応させてもよい。例えば、「おばあちゃん」を示すデータは、祖母の呼出先と関連付け、「おじいちゃん」を示すデータは、祖父の呼出先と関連付ける。また、対応テーブルは、複数の異なるデータと、１つの呼出先とを対応させてもよい。例えば、「おばあちゃん」を示すデータ及び「〇〇さん」を示すデータと、祖母の呼出先とを対応させてもよい。

照合の結果、照合が成功した所定のデータがあれば、特定部３１０Ａは、特定された所定のデータに関連付けられる呼出先を特定する。特定部３１０Ａは、呼出先のユーザ端末２０Ｂを示す呼出先情報（図５に示す例ではＵＲＩ）を、ＩＮＶＩＴＥのリクエストに含める。また、特定部３１０Ａは、照合が成功した第１音声データを、呼出先に送信するためバッファから取り出す。

発呼処理部３０８Ａは、ＩＮＶＩＴＥのリクエストに、呼出先のユーザ端末２０Ｂを示す呼出先情報と、呼出元のユーザ端末Ａを示す呼出元情報とを含める。例えば、呼出元情報及び呼出先情報は、サーバ１０によって管理されているＵＲＩである。

図６は、第１実施形態に係るＩＮＶＩＴＥのリクエストの一例を示す図である。図６に示すＩＮＶＩＴＥは、スタートラインＳＬ、ヘッダＨＤ、及びボディＢＤの３つの部分を含む。スタートラインＳＬにおいて、ＳＩＰメソッドが特定される。ヘッダＨＤには、呼出元情報Ｈ１０、呼出先情報Ｈ１２、通話識別情報Ｈ１４、及び文書タイプＨ１６が含まれる。

呼出元情報Ｈ１０は、ＩＮＶＩＴＥリクエストの宛先（呼出先）のＵＲＩを含む。呼出先情報Ｈ１２は、ＩＮＶＩＴＥリクエストの送信元（呼出元）のＵＲＩを含む。通話識別情報Ｈ１４は、通話を識別するためのＩＤを含む。文書タイプＨ１６は、ボディＢＤにＳＤＰ（Session Description Protocol）形式の文書が入ることを示す。

ヘッダＨＤとボディＢＤとの間に空白行が入る。ボディＢＤは、ＳＩＰ自体では特に内容は定められていない。通常、ＶｏＩＰ（Voice over Internet Protocol）では、ＳＤＰ形式の記述構文を使い、音声などのメディアストリーミングのＩＰアドレスや圧縮形式といったセッション情報が含まれる。ラインＨ２０は、＜メディア識別／ポート番号／トランスポートプロトコル／メディフォーマット／０＝Ｇ．７１１ μ－ｌａｗ、又は１８＝Ｇ．７９９＞を示す。

図６に示す例では、ラインＨ２０によれば、端末間でやり取りされるデータは、ａｕｄｉｏ（音声）で、ポート番号が４９１７２であり、トランスポートプロトコルがＲＴＰで、メディアフォーマットがＡＶＰであることを示す。

なお、ボディＢＤに、第１音声データを識別する識別情報、例えばファイル名が記載されてもよい。これにより、ユーザ端末２０Ｂは、ＩＮＶＩＴＥのリクエストの取得と異なるタイミングで第２音声データを取得した場合に、どの音声データを着信音の代わりに出力すればよいかを、リクエスト内の識別情報を用いて識別することが可能になる。

図５に戻り、送信部３０６Ａは、発呼処理部３０８Ａにより生成されたＩＮＶＩＴＥのリクエストを、ＵＤＰ（User Datagram Protocol）のトランスポート層を用いてサーバ１０に送信する。このとき、送信部３０６Ａは、ＵＤＰのトランスポート層やＲＴＰ（Real-time Transport Protocol）を用いて、第１音声データをサーバ１０に送信する。なお、送信部３０６は、ＩＮＶＩＴＥのリクエストと第１音声データとを同じタイミングでサーバ１０に送信してもよいし、少し異なるタイミングでそれぞれを別に送信してもよい。これにより、呼出先のユーザ端末２０Ｂで、着信音の代わりに第１音声データを用いることができる。

また、送信部３０６Ａは、呼出先のＩＰアドレスを特定できる場合は、ＩＮＶＩＴＥのリクエストをサーバ１０に送信し、第１音声データを直接呼出先のユーザ端末２０Ｂに送信してもよい。この場合、ＩＮＶＩＴＥのリクエストに第１音声データを識別する識別情報を含めるとよい。これによれば、サーバ１０は、従来どおり、ＩＮＶＩＴＥのリクエストを転送するだけで済むため、シームレス通話機能の導入が容易になる。また、ユーザ端末２０Ｂは、ＩＮＶＩＴＥのリクエストに含まれる音声データの識別情報を用いて、どの音声データを着信音の代わりに用いればよいかを特定することができる。

（ユーザ端末２０Ａのセッション確立機能）
受信部３１２Ａは、サーバ１０から、「２００ＯＫ」を示すレスポンスを受信する。このとき、受信部３１２Ａは、呼出先で入力され、呼びかけの第１音声データに対する応答の第２音声データも受信する。第２音声データは、図１に示す例では、「どうしたの」である。

図７は、第１実施形態に係る「２００ＯＫ」のレスポンスの一例を示す図である。図７に示す例では、スタートラインＳＬにより、「２００ＯＫ」のレスポンスであることが特定でき、ヘッダＨＤにより、図６に示すリクエストに対するレスポンスであることが特定できる。

図５に戻り、出力部３１８Ａは、受信部３１２Ａにより受信された第２音声データを、スピーカ２２２を用いて出力する。これにより、呼出元の第１ユーザは、自身の呼びかけに対して、第２ユーザの応答音声を聞いて通話が開始されることを把握することができる。

通話処理部３２０Ａは、受信部３１２Ａにより「２００ＯＫ」のレスポンスが受信された場合、ＡＣＫのリクエストを、直接的又は間接的にユーザ端末２０Ｂに送信する。通話処理部３２０Ａは、第２音声が出力された後、ＩＮＶＩＴＥや「２００ＯＫ」などのＳＤＰで記述された条件で、ＩＰアドレスが示すユーザ端末２０Ｂに、ＲＴＰを用いて通話パケットの送受信を行う。

通話処理部３２０Ａは、受信部３１２Ａが、ユーザ端末２０Ｂから直接的又は間接的にＢＹＥのリクエストを受信した場合、「２００ＯＫ」のリクエストを直接的又は間接的にユーザ端末２０Ｂに送信する。これにより、セッションが終了し、通話が終了する。なお、ＢＹＥのリクエストは、ユーザ端末２０Ａから送信してもよい。

（サーバ１０の呼制御機能）
サーバ１０は、受信部４０２、呼制御部４０４、及び送信部４０６を有する。サーバ１０における各部の機能は、図３に示す制御部１０２が制御プログラム１０８を実行することにより実現される。

サーバ１０の受信部４０２は、ユーザ端末２０Ａの送信部３０６Ａから送信されたＩＮＶＩＴＥのリクエストと第１音声データとを受信する。

呼制御部４０４は、受信部４０２により受信されたＩＮＶＩＴＥのリクエストのヘッダから呼出先情報（例えばＵＲＩ）を特定し、特定された呼出先情報を用いてユーザ端末２０ＢのＩＰアドレスを取得する。例えば、呼制御部４０４は、図示しないロケーションサーバに問い合わせて、呼出先情報からＩＰアドレスを特定する。

送信部４０６は、呼制御部４０４により特定されたＩＰアドレスを有するユーザ端末２０Ｂに、ＩＮＶＩＴＥのリクエストを送信する。このとき、送信部４０６は、第１音声データも、ＩＮＶＩＴＥのリクエストと同じタイミング又は少し異なるタイミングでユーザ端末２０Ｂに送信する。

また、受信部４０２は、ＩＮＶＩＴＥのリクエストに対して、「１８０Ｒｉｎｇｉｎｇ」のレスポンスや、「２００ＯＫ」のレスポンスを、ユーザ端末２０Ｂから受信する。また、受信部４０２は、ユーザ端末２０Ｂから、「２００ＯＫ」のレスポンスを受信する際に、第２音声データも受信すると、送信部４０６は、「２００ＯＫ」のレスポンスと、第２音声データとをユーザ端末２０Ａに送信する。

また、送信部４０６は、ＩＮＶＩＴＥのリクエストがユーザ端末２０Ｂに送信された後、処理中であることを示す「１００Ｔｒｙｉｎｇ」のレスポンスをユーザ端末２０Ａに送信する。

（ユーザ端末２０Ｂの着呼処理機能）
ユーザ端末２０Ｂは、入力部３０２Ｂ、認識部３０４Ｂ、送信部３０６Ｂ、発呼処理部３０８Ｂ、通話処理部３２０Ｂ、受信部３１２Ｂ、判定部３１６Ｂを含む着呼処理部３１４Ｂ、及び出力部３１８Ｂを有する。ユーザ端末２０Ｂにおける各部の機能は、図４に示す制御部２０２がアプリプログラム２１０を実行することにより実現される。また、ユーザ端末２０Ｂの機能は、ユーザ端末２０Ａが有する機能と同様である。以下では、着呼処理機能を主に説明する。

受信部３１２Ｂは、サーバ１０からＩＮＶＩＴＥのリクエストと第１音声データとを受信する。出力部３１８Ｂは、受信された第１音声データを、着信音の代わりにスピーカ２２２から出力する。これにより、第２ユーザは、第１ユーザによる呼びかけを聞くことができ、さらに、通話開始のリクエストであることを把握することができる。

入力部３０２Ｂは、呼びかけに対する第２ユーザの応答を示す第２音声データを、マイク２２０を用いて集音し、入力する。第２音声データは、図１に示す例では、「どうしたの」である。第２音声データは、応答に用いられる他のフレーズでも良い。

認識部３０４Ｂは、入力された第２音声データを音声認識する。判定部３１６Ｂは、第２音声データの認識結果が、ＩＮＶＩＴＥのリクエストに対するレスポンスを示す場合、このレスポンスと、この第２音声データとを、サーバ１０に送信する。判定部３１６Ｂは、レスポンスを示す所定のデータを含むレスポンスリストを保持しておく。

例えば、判定部３１６Ｂは、認識された第２音声データがレスポンスリストに含まれるか否かを判定する。レスポンスリストに第２音声データが含まれる場合、着呼処理部３１４Ｂは、送信部３０６Ｂを介して、「２００ＯＫ」のレスポンスと、第２音声データとをユーザ端末２０Ａに送信する。

なお、送信部３０６Ｂは、ユーザ端末２０ＡのＩＰアドレスが分かる場合は、第２音声データをユーザ端末２０Ａに直接送信してもよい。この場合、判定部３１６Ｂは、「２００ＯＫ」のレスポンスのボディ部に、第２音声データを識別する識別情報を含める。これにより、ユーザ端末２０Ａは、「２００ＯＫ」のレスポンスに含まれる第２音声データの識別情報に基づき、受信された第２音声データを特定し、特定された第２音声データを出力することが可能になる。この場合、サーバ１０は、「２００ＯＫ」レスポンスを転送するだけでよいので、従前のサーバ１０の機能を変更せずにすみ、実装が容易になる。

また、出力部３１８Ｂは、第２音声データが入力されるまで、又は、所定時間（例えば１０秒）が経過するまで、第１音声データを繰り返し出力してもよい。この場合、第２ユーザは、一回の呼びかけを聞き逃しても、再度呼びかけを聞くことが可能になる。これにより、通話可能性を高めることができる。

また、入力部３０２Ｂは、通話中の第３音声データを入力する。例えば、第３音声データは、「ばいばい」などの電話を切るときに通常用いられるフレーズにするとよい。

認識部３０４Ｂは、入力された第３音声データを音声認識する。通話処理部３２０Ｂは、第３音声データの認識結果が、予め設定された終了条件を満たす場合、セッションを終了してもよい。終了条件は、会話が終了されるときによく使われるフレーズを含む。例えば、終了条件のフレーズは、「ばいばい」、「じゃあね」、「それじゃ」などである。これにより、第２ユーザはハンズフリーで、通話を終了させることができる。

また、通話処理部３２０Ｂは、第３音声データの認識結果が終了条件を満たしてから、所定時間内に音声データの出力又は入力がない場合に、セッションを終了してもよい。所定時間は、例えば３秒である。これは、通常の会話の中で、「ばいばい」と言って会話を終わらせようとしても、自ら、又は相手から、急に思い出したことを相手に伝えることがある。これを許容するために、例えば３秒を双方に与え、通話処理部３２０Ｂは、「ばいばい」を検知した後、所定時間が経過すれば、完全に通話が終了したと認識することができる。上記の通話終了機能は、通話処理部３２０Ａにも備わっている。

以上、各装置の機能を実行することにより、呼びかけの音声データを着信音代わりにし、又は応答の音声データをオフフックの代わりにすることを含むシームレス通話機能を実現することができる。

＜動作＞
次に、情報処理システム１の各動作について説明する。図８は、第１実施形態に係る動作処理の一例を示すシーケンス図である。

ステップＳ１０２で、ユーザ端末２０Ａは、自身の電話番号、及び／又はＩＰアドレスを含む登録メッセージ（レジストリ）をサーバ１０に送信する。

ステップＳ１０４で、ユーザ端末２０Ｂは、自身の電話番号、及び／又はＩＰアドレスを含む登録メッセージ（レジストリ）をサーバ１０に送信する。

ステップＳ１０６で、ユーザ端末２０Ａの入力部３０２Ａは、第１音声データを入力し、認識部３０４Ａは、第１音声データを音声認識する。特定部３１０Ａは、呼出先に関連付けられた音声データであると判定し、この呼出先を特定する。

ステップＳ１０８で、ユーザ端末２０Ａの送信部３０６Ａは、サーバ１０にＩＮＶＩＴＥのリクエスト（図６参照）と第１音声データとを送信する。

ステップＳ１１０で、サーバ１０の呼制御部４０４は、ロケーションサービスで呼出先の特定後、ユーザ端末２０ＢにＩＮＶＩＴＥのリクエストと、第１音声データとを送信する。

ステップＳ１１２で、サーバ１０の送信部４０６は、ユーザ端末２０Ａに「１００Ｔｒｙｉｎｇ」のレスポンスを送信する。

ステップＳ１１４で、ユーザ端末２０Ｂの出力部３１８Ｂは、第１音声データを着信音の代わりに出力する。

ステップＳ１１６で、ユーザ端末２０Ｂの着呼処理部３１４Ｂは、第１音声データの出力後、「１８０Ｒｉｎｇｉｎｇ」のレスポンスをサーバ１０に送信する。

ステップＳ１１８で、サーバ１０の送信部４０６は、ユーザ端末２０Ａに「１８０Ｒｉｎｇｉｎｇ」のレスポンスを送信する。このとき、ユーザ端末２０Ａは、呼出中であることを第１ユーザに知らせるため、呼出音を出力してもよい。

ステップＳ１２０で、ユーザ端末２０Ｂの入力部３０２Ｂは、呼びかけに対する応答を示す第２音声データを入力する。認識部３０４Ｂは、第２音声データを音声認識する。判定部３１６Ｂは、レスポンスリストに含まれる音声データか否かを判定する。ここでは、第２音声データは、レスポンスリストに含まれるとする。また、第２音声データの入力は、受話器を上げることに対応する。

ステップＳ１２２で、ユーザ端末２０Ｂの送信部３０６Ｂは、「２００ＯＫ」のレスポンスをサーバ１０に送信する。

ステップＳ１２４で、サーバ１０の送信部４０６は、ユーザ端末２０Ｂから受信した「２００ＯＫ」のレスポンスと、第２音声データとを、ユーザ端末２０Ａに送信する。

ステップＳ１２６で、ユーザ端末２０Ａの出力部３１８Ａは、受信された第２音声データを出力する。これにより、第１ユーザは、自身の呼びかけに対し、第２ユーザが応えてくれたことを知ることができる。

ステップＳ１２８で、ユーザ端末２０Ａの送信部３０６Ａは、ユーザ端末２０ＢのＩＰアドレスが分かるため、ＡＣＫのリクエスト（図７参照）を直接送信する。

ステップＳ１３０で、ユーザ端末２０Ａとユーザ端末２０Ｂとは、ＲＴＰパケットによって通話データを直接送受信する。これにより、ユーザ端末間で、音声通話又はビデオ通話が開始される。

ステップＳ１３２で、ユーザ端末２０Ｂの入力部３０２Ｂは、第３音声データを入力し、認識部３０４Ｂは、第３音声データを音声認識する。通話処理部３２０Ｂは、終了条件を満たす音声データであるかを判定し、ここでは、第３音声データが終了条件を満たすとする。第３音声データが終了条件を満たすことは、電話を切ることに相当する。

ステップＳ１３４で、ユーザ端末２０Ｂは、ＢＹＥのリクエストをユーザ端末２０Ａに送信する。

ステップＳ１３６で、ユーザ端末２０Ａは、ビジー音を出力する。また、ユーザ端末２０Ａは、最終応答の「２００ＯＫ」を送信してセッションを終了する。

図９は、第１実施形態に係る発呼側の処理の一例を示すフローチャートである。図９に示す例では、ユーザ端末２０Ａが行う処理を主に説明する。

ステップＳ２０２で、ユーザ端末２０Ａの入力部３０２Ａは、第１音声データを入力する。

ステップＳ２０４で、ユーザ端末２０Ａの認識部３０４Ａは、第１音声データを音声認識する。

ステップＳ２０６で、ユーザ端末２０Ａの特定部３１０Ａは、呼出先に関連付けられた音声データであるか否かを判定し、音声データが呼出先に関連付けられる場合、この呼出先を特定する。呼出先が特定されれば（ステップＳ２０６－ＹＥＳ）、ステップＳ２０８に進み、呼出先が特定されなければ（ステップＳ２０６－ＮＯ）、処理は終了する。

ステップＳ２０８で、ユーザ端末２０Ａの送信部３０６Ａは、サーバ１０にＩＮＶＩＴＥのリクエスト（図６参照）と、第１音声データとを送信する。

ステップＳ２１０で、ユーザ端末２０Ａは、ユーザ端末２０Ｂからサーバを介してレスポンスを受信したか否かを判定する。レスポンスを受信すれば（ステップＳ２１０－ＹＥＳ）、処理はステップＳ２１２に進み、レスポンスを受信しなければ（ステップＳ２１０－ＮＯ）、処理は終了する。

ステップＳ２１２で、ユーザ端末２０Ａは、ユーザ端末２０Ｂと、ＲＴＰパケットによって通話データを直接送受信して通話を開始する。

図９に示す処理は、第２音声データが入力されない例であって、この場合は、呼出側で、呼びかけに対してオフフック処理で対応することで、「２００ＯＫ」のレスポンスを送信することができる。

図１０は、第１実施形態に係る着呼側の処理の一例を示すフローチャートである。図１０に示す例では、ユーザ端末２０Ｂが行う処理を主に説明する。

ステップＳ３０２で、ユーザ端末２０Ｂの受信部３１２Ｂは、サーバ１０からＩＮＶＩＴＥのリクエストと、第１音声データとを受信する。

ステップＳ３０４で、ユーザ端末２０Ｂの出力部３１８Ｂは、第１音声データを着信音の代わりに出力する。

ステップＳ３０６で、ユーザ端末２０Ｂの入力部３０２Ｂは、呼びかけに対する応答を示す第２音声データを入力したか否かを判定する。第２音声データが入力されれば（ステップＳ３０６－ＹＥＳ）、処理はステップＳ３０８に進み、第２音声データが入力されなければ（ステップＳ３０６－ＮＯ）、処理は終了する。

ステップＳ３０８で、ユーザ端末２０Ｂの認識部３０４Ｂは、第２音声データを音声認識する。

ステップＳ３１０で、ユーザ端末２０Ｂの判定部３１６Ｂは、第２音声データがレスポンスリストに含まれる音声データであるか否かを判定する。第２音声データがレスポンスリストに含まれれば（ステップＳ３１０－ＹＥＳ）、処理はステップＳ３１２に進み、第２音声データがレスポンスリストに含まれなければ（ステップＳ３１０－ＮＯ）、処理は終了する。

ステップＳ３１２で、ユーザ端末２０Ｂの送信部３０６Ｂは、「２００ＯＫ」のレスポンスをサーバ１０に送信する。

ステップＳ３１４で、ユーザ端末２０Ｂは、ユーザ端末２０Ａと、ＲＴＰパケットによって通話データを直接送受信して通話を開始する。

以上、第１実施形態における情報処理システムによれば、発呼側及び着呼側の両方のユーザに対して便利であり、シームレスな通話開始を可能とする。

なお、サーバ１０において、音声認識を行うことが可能であれば、ユーザ端末２０の認識部３０４、特定部３１０、判定部３１６等の機能をサーバ１０に持たせてもよい。この場合、サーバ１０は、第１音声データに基づき、呼出先を特定し、ＩＮＶＩＴＥのリクエストのＴｏの欄に、特定された呼出先情報を記載する。

また、上述した例では、ＳＩＰシグナリングプロトコルを用いたが、Ｈ．３２３のプロトコルを用いても本開示のシームレス通話機能は実現可能である。例えば、Ｈ．３２３の場合、呼出元の端末は、セッションを開始するリクエストとともに、呼びかけの音声データを、呼出先の端末に送信する。呼出先の端末は、呼出元のＩＰアドレスが着信を許可されているかどうかを、電話番号管理サーバに問い合わせる。そして、着信が許可されているＩＰアドレスであると確認ができたら、呼出先側の端末が、受信された音声データを着信音の代わりに出力する。

また、ＷｅｂＲＴＣを用いて実施形態が実現される場合、サーバ１０は、Ｗｅｂサーバ、ＳＵＮ又はＴＵＲＮサーバ、及びシグナリングサーバなどである。例えば、Ｗｅｂサーバは、ＨＴＴＰで通信するＷｅｂページを提供するサーバであり、ＳＴＵＮ又はＴＵＲＮサーバは、ＮＡＴやファイアウォールを超えるためのサーバであり、シグナリングサーバは、相手端末に情報を伝える仲介役となるサーバである。

ＷｅｂＲＴＣの場合、まず、通信を行う端末が互いにＷｅｂサーバとシグナリングサーバとに接続する。次に、呼出元の端末が、上述したようなＳＤＰを作成し、このＳＤＰに、着信音の代わりとなる第１音声データの識別情報を含めてもよい。呼出元の端末は、このＳＤＰを第１音声データとともに呼出先の端末に送信する。これにより、呼出先の端末は、ＳＤＰを自身に登録するとともに、第１音声データを着信音として出力する。

呼出先の端末は、ＳＤＰを作成し、このＳＤＰに第２音声データの識別情報を含めてもよい。これにより、呼出元の端末は、ＳＤＰを自身に登録するとともに、第２音声データを着呼通知として出力する。

次に、呼出元の端末は、接続できそうな接続経路の候補（ICE（Interactive Connectivity Establishment）Candidate）を呼出先の端末に送信する。呼出先の端末は、受け取ったＩＣＥＣａｎｄｉｄａｔｅを登録し、呼出先の端末も、呼出元の端末に接続経路の候補を送信する。これにより、呼出元の端末と、呼出先の端末とでセッションが確立し、Ｐ２Ｐ通信が成立する。

また、上述した第１実施形態で説明した情報処理は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、前述した情報処理を実現することができる。

また、このプログラムを記録媒体に記録し、このプログラムが記録された記録媒体をコンピュータに読み取らせて、前述した情報処理を実現させることも可能である。記録媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。

なお、記録媒体は、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的，電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

［第２実施形態］
図１１は、本開示の第２実施形態に係るシステム２の概要を説明する図である。図２に示されるシステム２は、画像を管理するためのシステムに第１実施形態で説明したシステムを適用したシステムであり、管理装置１０Ａと、サーバ１０Ｂと、ユーザ端末２０と、画像出力装置３０とを含む。また、画像出力装置３０は、表示装置４０と接続され、表示装置４０は、遠隔制御装置５０によって制御される。サーバ１０Ｂは、第１実施形態で説明したサーバ１０である。

管理装置１０Ａ又はサーバ１０Ｂとユーザ端末２０とは、通信技術の一例としての無線ＬＡＮ又は第４世代移動通信システム（４Ｇ）若しくはＬＴＥ（Long Term Evolution）等によるネットワークＮ１により、互いに通信可能である。また、管理装置１０Ａと画像出力装置３０とは、第３世代移動通信システム（３Ｇ）のような、ネットワークＮ１と比べて通信料金が安価であるが低速な、無線ネットワークＮ２により、互いに通信可能である。なお、説明のために、ネットワークＮ１及び無線ネットワークＮ２を区別して記載したが、これらのネットワークは、インターネットにより、互いに接続され得る。

管理装置１０Ａは、まず、インターネットのＷｅｂサイトを通じて、画像の投稿者から、画像の閲覧者又は投稿者の氏名や住所等の情報を取得する。なお、閲覧者又は投稿者の氏名や住所等の情報は必須の情報ではない。このとき、管理装置１０Ａは、閲覧者により使用される画像出力装置３０の識別子（デバイスＩＤと呼ぶ）を生成する。次いで、画像の投稿者に、例えば電子メールで、デバイスＩＤを通知する。

管理装置１０Ａは、生成されたデバイスＩＤを、画像出力装置３０に設定する。その後、管理装置１０Ａの管理者により、画像出力装置３０が、画像の閲覧者の住所へと発送される。画像出力装置３０は、例えば３Ｇ通信モジュールを内蔵しており、電源が投入されると、設定されたデバイスＩＤを用いて、すぐに管理装置１０Ａとの通信を開始するよう構成される。

一方、画像の投稿者は、例えばスマートフォンやタブレットのようなユーザ端末２０で動作する、画像共有を行うアプリケーションをダウンロードする。このアプリケーションは、通知されたデバイスＩＤを用いて、管理装置１０Ａにアクセスする。管理装置１０Ａは、アプリケーションから通知されたデバイスＩＤをキーとして、ユーザ端末２０（投稿者）と画像出力装置３０（閲覧者）とを関連付けることができる。

その後、投稿者は、アプリケーションを用いて、様々な被写体を撮影することができる。アプリケーションは、撮影により取得された画像データを、ネットワークＮ１を介して、管理装置１０Ａに自動的に送信する。投稿者は、画像データを管理装置１０Ａに送信するために、如何なる特別な操作も要求されない。

管理装置１０Ａは、ユーザ端末２０のアプリケーションから送信された画像データを蓄積し、順次、画像出力装置３０に配信する。画像出力装置３０は、閲覧者からの指示に応じて、画像データを表示装置４０に表示する。また、画像出力装置３０は、マイクとスピーカとを有し、ＩＰ通話が可能である。

ここで、表示装置４０は、例えば、一般家庭で普及しているテレビであり、遠隔制御装置５０は、リモートコントローラである。画像出力装置３０は、例えば、ＨＤＭＩ（High-Definition Multimedia Interface）(登録商標)により、表示装置４０と接続され、ＨＤＭＩを介して、遠隔制御装置５０から発せられた制御信号を取得することができる。

画像出力装置３０は、遠隔制御装置５０から発せられた制御信号を取得し、閲覧者の入力した操作の内容を把握することができる。すなわち、閲覧者は、普段から慣れ親しんだ、テレビのリモコンを用いて、配信された画像データを閲覧することが可能となる。

上述した画像共有を行うアプリケーションに、第１実施形態で説明したシームレスに通話を開始することができる機能が実装される。これにより、投稿者と閲覧者は、サーバ１０Ｂを利用してシームレスに通話を開始し、さらに、管理装置１０Ａを利用して配信される画像をみながら、会話を楽しむことができる。

さらに、画像出力装置３０は、音声認識機能を有するので、通話の中で画像を特定する音声を認識した場合は、管理装置１０Ａに対し、認識された画像を配信するように指示することができる。これにより、投稿者又は閲覧者が、音声で画像を特定し、特定された画像を閲覧者が見ながら会話を楽しむことができる。

以上、実施形態及び変形例は、本発明を説明するための例示であり、本発明をその実施形態及び変形例のみに限定する趣旨ではなく、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。例えば、ユーザ端末２０Ａは、音声データをサーバ１０に送信し、サーバ１０側で音声認識をして、呼出先を特定するようにしてもよい。つまり、サーバ１０が、認識部３０４を有してもよい。

１…情報処理システム、２…システム、１０…サーバ、１０Ａ…サーバ、１０Ｂ…管理装置、２０…ユーザ端末、３０…画像出力装置、４０…表示装置、１０２…制御部、１０６…記憶部、２０２…制御部、２０４…ＲＡＭ、２０８…記憶部、２２０…マイク、２２２…スピーカ、３０２…入力部、３０４…認識部、３０６…送信部、３０８…発呼処理部、３１０…特定部、３１２…受信部、３１４…着呼処理部、３１６…判定部、３１８…出力部、３２０…通話処理部、４０２…受信部、４０４…呼制御部、４０６…送信部

Claims

情報処理装置に、
第１音声データを入力し、
入力された第１音声データを音声認識し、
前記第１音声データの認識結果に関連付けられる呼出先を特定し、
前記呼出先の他の情報処理装置を示す呼出先情報と、呼出元の前記情報処理装置を示す呼出元情報と、前記第１音声データを識別する識別情報とを含むリクエストであって、セッションの開始を要求するリクエストを呼制御サーバに送信し、
前記第１音声データを、前記呼制御サーバ又は前記他の情報処理装置に送信する、処理を実行させるプログラム。
前記情報処理装置に、
前記他の情報処理装置から送信された前記リクエストに対するレスポンスを、前記呼制御サーバを介して受信し、
前記他の情報処理装置から送信され、前記レスポンスの判定に用いられた第２音声データを、直接的に、又は前記呼制御サーバを介して受信し、
前記第２音声データを出力する、処理をさらに実行させる請求項１に記載のプログラム。
前記情報処理装置に、
前記第２音声データの出力後、前記他の情報処理装置との間で前記セッションにおけるデータの送受信を行う、処理をさらに実行させる請求項２に記載のプログラム。
前記情報処理装置に、
第３音声データを入力し、
前記第３音声データを音声認識し、
前記第３音声データの認識結果が、予め設定された終了条件を満たす場合、前記セッションを終了する、処理をさらに実行させる請求項３に記載のプログラム。
前記セッションを終了することは、
前記第３音声データの認識結果が前記終了条件を満たしてから、所定時間内に音声データの出力又は入力がない場合に、前記セッションを終了することを含む、請求項４に記載のプログラム。
情報処理装置が、
第１音声データを入力し、
入力された第１音声データを音声認識し、
前記第１音声データの認識結果に関連付けられる呼出先を特定し、
前記呼出先の他の情報処理装置を示す呼出先情報と、呼出元の前記情報処理装置を示す呼出元情報と、前記第１音声データを識別する識別情報とを含むリクエストであって、セッションの開始を要求するリクエストを送信し、
前記第１音声データを、呼制御サーバ又は前記他の情報処理装置に送信する、情報処理方法。
第１音声データを入力する入力部と、
入力された第１音声データを音声認識する認識部と、
前記第１音声データの認識結果に関連付けられる呼出先を特定する特定部と、
前記呼出先の他の情報処理装置を示す呼出先情報と、呼出元の前記情報処理装置を示す呼出元情報と、前記第１音声データを識別する識別情報とを含むリクエストであって、セッションの開始を要求するリクエストを送信し、かつ、前記第１音声データを、呼制御サーバ又は前記他の情報処理装置に送信する送信部と、
を備える情報処理装置。
情報処理装置に、
呼出先の前記情報処理装置を示す呼出先情報と、呼出元の他の情報処理装置を示す呼出元情報とを含むリクエストであって、セッションの開始を要求するリクエストを呼制御サーバから受信し、
第１音声データを前記呼制御サーバ又は前記他の情報処理装置から受信し、
前記第１音声データを出力し、
第２音声データを入力し、
入力された第２音声データを音声認識し、
前記第２音声データの認識結果が、前記リクエストに対するレスポンスを示す場合、前記レスポンスを前記呼制御サーバに送信し、
前記第２音声データを前記呼制御サーバ又は前記他の情報処理装置に送信する、処理を実行させるプログラム。
前記第１音声データを出力することは、
前記第２音声データが入力されるまで、又は、所定時間が経過するまで、前記第１音声データを繰り返し出力することを含む、請求項８に記載のプログラム。
情報処理装置が、
呼出先の前記情報処理装置を示す呼出先情報と、呼出元の他の情報処理装置を示す呼出元情報とを含むリクエストであって、セッションの開始を要求するリクエストを呼制御サーバから受信し、
第１音声データを前記呼制御サーバ又は前記他の情報処理装置から受信し、
前記第１音声データを出力し、
第２音声データを入力し、
入力された第２音声データを音声認識し、
前記第２音声データの認識結果が、前記リクエストに対するレスポンスを示す場合、前記レスポンスを前記呼制御サーバに送信し、
前記第２音声データを前記呼制御サーバ又は前記他の情報処理装置に送信する、情報処理方法。
呼出先の情報処理装置を示す呼出先情報と、呼出元の他の情報処理装置を示す呼出元情報とを含むリクエストであって、セッションの開始を要求するリクエストを呼制御サーバから受信し、かつ、第１音声データを前記呼制御サーバ又は前記他の情報処理装置から受信する受信部と、
前記第１音声データを出力する出力部と、
第２音声データを入力する入力部と、
入力された第２音声データを音声認識する認識部と、
前記第２音声データの認識結果が、前記リクエストに対するレスポンスを示す場合、前記レスポンスを前記呼制御サーバに送信し、かつ、前記第２音声データを前記呼制御サーバ又は前記他の情報処理装置に送信する送信部と、
を備える情報処理装置。