JP2022089000A

JP2022089000A - 非対称ビデオ通話システムおよび非対称ビデオ通話方法

Info

Publication number: JP2022089000A
Application number: JP2020201182A
Authority: JP
Inventors: 彗斗佐藤; Keito Sato; 竜太遠藤; Ryuta Endo; 済松田; Toru Matsuda
Original assignee: Zeals Co Ltd
Current assignee: Zeals Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-06-15

Abstract

【課題】非対称ビデオ通話を提供する。【解決手段】第２のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むＩＰパケットを交換することによってビデオ通話が確立される。ビデオ通話において、第１の状態では、第２のコンピュータデバイスから、映像データおよび／または音声データを受信が受信され、映像データが表示され、および／または音声データが出力され、第２のコンピュータデバイスに、映像データおよび音声データのいずれも送信することなく、テキストデータが送信される。第１の状態は、第１のユーザが、カメラを活性化する操作およびマイクを活性化する操作のいずれも行っていない状態である。【選択図】図２

Description

本開示は、非対称ビデオ通話システムおよび非対称ビデオ通話方法に関し、特に、２つのコンピュータデバイスの間で非対称的に映像、音声、およびテキストを通信する非対称ビデオ通話システムおよび非対称ビデオ通話方法に関する。

近年では、パーソナルコンピュータおよびスマートフォンなどのコンピュータデバイスを使用して、映像、音声、およびテキストを交換することによって、遠隔者との映像を交えた通話を可能とする技術が普及している。これらの技術は、一般的に「ビデオ通話」または「ビデオ音声通話」と称される。このような技術によって、遠隔者と映像を交えて会議などを行うことが可能になっている。

例えば、非特許文献１は、コンピュータデバイスの間で映像および音声を交換することによって、ユーザと遠隔者である英会話講師とがビデオ通話をすることができる技術を開示している。非特許文献１に開示された技術では、ユーザが使用するコンピュータデバイスが、英会話講師が使用するコンピュータデバイスに接続することによって、相互に映像および音声を交換する。

"ＤＭＭ英会話"、［online］、合同会社ＤＭＭ．ｃｏｍホームページ、［令和2年11月16日検索］、インターネット（URL：https://eikaiwa.dmm.com/）

非特許文献１に開示された技術では、２つのコンピュータデバイスが、インターネットなどの広域ネットワークを通じて、映像および音声を相互に通信することになる。映像および音声はテキストと比較してデータ容量が大きい。よって、非特許文献１に開示された技術では、原則として、２つのコンピュータデバイスが相互に、大容量のデータを通信することになる。２つのコンピュータデバイスの間の回線状況によっては、相互に大容量のデータを通信することによって、ネットワークが輻輳し、十分なビデオ通話を行うことができないこともある。

一実施形態に係る方法は、第１のユーザと第２のユーザとが対話するための、第１のコンピュータデバイスによって実行される方法であって、前記第１のコンピュータデバイスは、カメラ、マイク、表示装置、およびスピーカを含み、前記第２のユーザが使用する第２のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むＩＰパケットを交換することによってビデオ通話を確立するステップと、前記確立したビデオ通話において、第１の状態では、前記第２のコンピュータデバイスから、前記第２のユーザの映像に対応する映像データおよび／または前記第２のユーザが発した音声に対応する音声データを受信するステップと、前記受信した映像データを前記表示装置に表示し、および／または前記受信した音声データを前記スピーカから出力するステップと、前記第２のコンピュータデバイスに、前記第１のユーザの映像に対応する映像データおよび前記第１のユーザが発した音声に対応する音声データのいずれも送信することなく、前記第１のユーザが入力したテキストに対応するテキストデータを送信するステップと、を含み、前記第１の状態は、前記第１のユーザが、前記カメラを活性化する操作および前記マイクを活性化する操作のいずれも行っていない状態である、方法を含む。

別の実施形態に係るコンピュータデバイスは、第１のユーザと第２のユーザとが対話する第１のコンピュータデバイスであって、前記第２のユーザが使用する第２のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むＩＰパケットを交換することによってビデオ通話を確立し、前記確立したビデオ通話において、第１の状態では、前記第２のコンピュータデバイスから、前記第２のユーザの映像に対応する映像データおよび／または前記第２のユーザが発した音声に対応する音声データを受信し、前記受信した映像データを表示装置に表示し、および／または前記受信した音声データをスピーカから出力し、前記第２のコンピュータデバイスに、前記第１のユーザの映像に対応する映像データおよび前記第１のユーザが発した音声に対応する音声データのいずれも送信することなく、前記第１のユーザが入力したテキストに対応するテキストデータを送信し、前記第１の状態は、前記第１のユーザが、カメラを活性化する操作およびマイクを活性化する操作のいずれも行っていない状態である、コンピュータデバイスを含む。

本実施形態によれば、２つのコンピュータの間で映像、音声、およびテキストを通信するときに、相互に送信するデータの量を削減することができる。

実施形態に係る非対称ビデオ通話システムの構成の例を示すブロック図である。実施形態に係る非対称ビデオ通話システムが実行する処理の例を示すフローチャートである。実施形態に係るエリア選択画面の例を示す図である。実施形態に係る旅行内容入力画面の例を示す図である。実施形態に係る相談員データテーブルの例を示す図である。実施形態に係る相談員選択画面の例を示す図である。実施形態に係る通話可能表示画面の例を示す図である。実施形態に係る通話画面の例を示す図である。実施形態に係る通話画面の例を示す図である。

以下、図面を参照して、本実施形態に係る非対称ビデオ通話システムの例を説明する。本実施形態に係る非対称ビデオ通話システムでは、２つのコンピュータデバイスが、映像、音声、およびテキストを通信することによって、ビデオ通話を可能にするが、２つのコンピュータデバイスのうちの一方のみが映像および音声を通信し、もう一方は、テキストのみを通信する。つまり、２つのコンピュータデバイスの間の通信は、非対称である。

非特許文献１に開示された技術は、ユーザと英会話講師とがビデオ通話を通じて会話を行うといったケースに適用される。このような対話（会話）は、ユーザが使用するコンピュータデバイスと英会話講師が使用するコンピュータデバイスとの双方が、少なくとも音声を通信することによってはじめて成立する。よって、非特許文献１に開示された技術に従ってビデオ通話を行うと、２つのコンピュータデバイスが大容量のデータを通信することになる。

上述したように、２つのコンピュータデバイスが大容量のデータを通信することによって、ネットワークが輻輳することがある。非特許文献１に開示された技術では、ユーザによるコマンド操作によって、映像および／または音声を通信しないようにし、場合によっては、ビデオ通話の通信品質を改善することができる。しかしながら、ユーザが、このような操作によって、ビデオ通話の通信品質を改善することができることを把握していないこともある。また、ユーザおよび英会話講師のいずれもが、少なくとも音声を通信しないと会話が成立しない。

上述したケースとは異なり、映像および音声を一方向のみで通信することによっても十分な対話が成立することがある。一方から提供する情報量ともう一方から提供する情報量との間に大きな差がある場合に、このような通信による対話が成立することがある。例えば、ユーザが旅行を計画しているとき、金融商品を購入するときなど、相談員（旅行を計画しているケースでは、旅行代理店の窓口担当者、金融商品を購入するケースでは、金融機関の窓口担当者など）から説明を受けるようなケースが当てはまる。いずれのケースでも、ユーザが知りたい情報を相談員が提供することになるので、相談員がユーザに提供する情報が、ユーザが相談員に提供する情報よりもはるかに多いことが通常であるからである。

本実施形態に係る非対称ビデオ通話システムは、ユーザによるコマンド操作を必要とすることなしに、相談員が使用するコンピュータデバイスからユーザが使用するコンピュータデバイスへの方向のみ、映像および音声を通信することによって、ユーザと相談員との間でのビデオ通話を可能にする。以下の実施形態では、ユーザが旅行を計画しているとき、相談員とビデオ通話をする例を説明する。ユーザは、ビデオ通話を利用して相談員と対話を行うユーザ（第１のユーザ）であり、相談員も、ビデオ通話を利用してユーザと対話するユーザ（第２のユーザ）である。

本実施形態におけるビデオ通話は、ビデオ通話を実装するために提供される既存のＷｅｂサービスＡＰＩ（Application Program Interface）（以下、ビデオ通話ＡＰＩ）を利用する。ビデオ通話ＡＰＩは、例えば、Ｔｗｉｌｉｏなどによって、クラウドサービスを介して提供され、例えば、発呼ＡＰＩ、ビデオ送信ＡＰＩ、音声送信ＡＰＩ、およびＳＮＳ（Social Networking Service）メッセージ送信ＡＰＩなどを含む。ビデオ通話ＡＰＩを使用することによって、ビデオおよび音声送信、ならびにＳＮＳメッセージ送信などを実装することができる。

上述したビデオ通話は、２つのコンピュータの間で、映像データ、音声データ、およびテキストデータを含むＩＰ（Internet Protocol）パケットを交換することによって確立する。本実施形態に係るビデオ通話サービスでは、上述したクラウドサービスに登録した２つの電話番号の間で、一方の電話番号が他方の電話番号を呼び出し、他方が応答することによって、２つのコンピュータデバイスの間で通話が確立する。

まず、図１を参照して、非対称ビデオ通話システム１００の全体的な構成の例を説明する。非対称ビデオ通話システム１００は、サーバコンピュータ１、コンピュータデバイス２、コンピュータデバイス３、およびサーバコンピュータ４を含む。サーバコンピュータ１、コンピュータデバイス２、コンピュータデバイス３、およびサーバコンピュータ４は、ネットワーク５（インターネットなどの広域ネットワーク）を介して相互に接続される。

サーバコンピュータ１は、ビデオ通話ＡＰＩを利用して、ユーザと相談員との間で非対称ビデオ通話を可能にするコンピュータデバイス（情報処理装置）である。サーバコンピュータ１は、Ｗｅｂサーバを実装し、２つのコンピュータデバイスがビデオ通話を行うために、コンピュータデバイス上で実行されるＷｅｂアプリケーション（コンピュータプログラム）を提供する。Ｗｅｂアプリケーションは、要求に応じてコンピュータデバイスにダウンロードされる。なお、サーバコンピュータ１は、単独のコンピュータデバイスによって実装されてもよく、または複数のコンピュータデバイスによって実装されてもよい。

サーバコンピュータ４は、ビデオ通話ＡＰＩを含むビデオ通話サービスを提供するためのクラウド型サーバを実装したコンピュータデバイス（情報処理装置）である。本実施形態に係る非対称ビデオ通話は、サーバコンピュータ４によって提供されるビデオ通話サービスを利用して実装される。

サーバコンピュータ１は、本実施形態に係るサービスを提供する事業者Ａによって実装される。事業者Ａは、ビデオ通話サービスに特定の電話番号（以下、電話番号Ｘ）を登録している。ユーザは、電話番号Ｘを使用して、相談員とビデオ通話を行う。各々の相談員も、ビデオ通話サービスに電話番号を登録している。

サーバコンピュータ１は、制御装置１１、メモリ１２、記憶装置１３、および通信装置１４を含み、それらの各要素がシステムバスを介して結合されている。図１に示すように、サーバコンピュータ１は、コンピュータデバイス２およびコンピュータデバイス３と接続する。

制御装置１１は、プロセッサとも称され、上記各構成要素の制御やデータの演算を実行する。また、制御装置１１は、本実施形態に係る各種処理を実行するための、記憶装置１３に記憶されているプログラムをメモリ１２に読み出して実行する。ここで、上述したプログラムとは、非対称ビデオ通話システム１００が実行する機能の一部を実装するためのプログラムであり、サーバコンピュータ１の記憶装置１３に記憶されている。

メモリ１２は、コンピュータデバイス２およびコンピュータデバイス３から送信されたデータ、コンピュータ実行可能な命令、および当該命令による演算処理後のデータなどを記憶した揮発性データ記憶装置である。メモリ１２は、ＲＡＭ（ランダムアクセスメモリ）（例えば、ＳＲＡＭ（スタティックＲＡＭ）およびＤＲＡＭ（ダイナミックＲＡＭ））などで実装されてもよい。

記憶装置１３は、上述したプログラムおよびＤＢＭＳによって使用されるデータベーステーブル１３ａなどを記憶した不揮発性データ記憶装置である。記憶装置１３は、ＲＯＭ（リードオンリメモリ）などの不揮発性半導体メモリ、磁気記憶装置（ハードディスクドライブなど）、および光ディスクなどで実装されてもよい。なお、プログラムおよびデータベーステーブルなどのデータは、記憶装置１３に加えまたはその代わりに、ＮＡＳ（Network Attached Storage）および／またはＳＡＮ（Storage Area Network）などに記憶されてもよい。

通信装置１４は、ネットワーク５を通じてコンピュータデバイス２およびコンピュータデバイス３との間でデータおよび制御情報を送受信するネットワークインタフェースである。このネットワークインタフェースは、例えば、ＴＣＰ（Transmission Control Protocol）／ＩＰなどのプロトコルに準拠したネットワークカード（例えば、ＬＡＮカード）などによって実装される。

コンピュータデバイス２は、ユーザによって使用され、相談員とビデオ通話を行うコンピュータデバイス（情報処理装置）である。コンピュータデバイス３は、相談員によって使用され、ユーザとビデオ通話を行うコンピュータデバイス（情報処理装置）である。コンピュータデバイス２およびコンピュータデバイス３はいずれも、パーソナルコンピュータ、スマートフォン、およびタブレットコンピュータなどによって実装されてもよい。

コンピュータデバイス２は、制御装置２１、メモリ２２、記憶装置２３、通信装置２４、入力装置２５、表示装置２６、カメラ２７、スピーカ２８、およびマイク２９を含み、それらの各要素がシステムバスを介して結合されている。制御装置２１、メモリ２２、記憶装置２３、および通信装置２４は、サーバコンピュータ１に含まれる制御装置１１、メモリ１２、記憶装置１３、および通信装置１４とそれぞれ同様に機能するので、それらの詳細な説明は省略する。

入力装置２５は、キーボードおよびタッチパネルなど、ユーザがテキストデータを入力するための入力装置である。表示装置２６は、ディスプレイなど、コンピュータデバイス３から受信した映像データおよびテキストデータを表示する。カメラ２７は、ユーザを撮像して映像信号を生成する。映像信号は、符号化されて映像データに変換されるスピーカ２８は、コンピュータデバイス３から受信した音声データを音声出力する。マイク２９は、ユーザが発した声などから音声信号を生成する。音声信号は、符号化されて音声データに変換される。

コンピュータデバイス３は、制御装置３１、メモリ３２、記憶装置３３、通信装置３４、入力装置３５、表示装置３６、カメラ３７、スピーカ３８、およびマイク３９を含み、それらの各要素がシステムバスを介して結合されている。制御装置３１、メモリ３２、記憶装置３３、通信装置３４、入力装置３５、表示装置３６、カメラ３７、スピーカ３８、およびマイク３９は、コンピュータデバイス３に含まれる制御装置２１、メモリ２２、記憶装置２３、通信装置２４、入力装置２５、表示装置２６、カメラ２７、スピーカ２８、およびマイク２９とそれぞれ同様に機能するので、それらの詳細な説明は省略する。

次に、図２に示すフローチャートを参照して、本実施形態に係る非対称ビデオ通話システム１００が実行する処理の例を説明する。図２に示す例では、旅行代理店に所属する複数の相談員から、ユーザが希望する相談員を選択し、選択した相談員とビデオ通話を行う。

コンピュータデバイス２によって実行される動作はいずれも、サーバコンピュータ１からダウンロードしたＷｅｂアプリケーション（コンピュータプログラム）を制御装置２１が実行することによって実行される。Ｗｅｂアプリケーションは、コンピュータデバイス２の表示装置２６に表示される、後述するエリア選択画面３００などのＷｅｂインタフェース画面に組み込まれ、Ｗｅｂインタフェース画面に対する操作によって実行される。同様に、コンピュータデバイス３によって実行される動作はいずれも、サーバコンピュータ１からダウンロードしたＷｅｂアプリケーション（コンピュータプログラム）を制御装置３１が実行することによって実行される。

まず、コンピュータデバイス２の制御装置２１は、表示装置２６に相談希望画面（図示せず）を表示する（ステップＳ２０１）。相談希望画面は、サーバコンピュータ１からダウンロードしたＷｅｂインタフェース画面であり、例えば、相談員とビデオ通話を介して通話することを希望する旨のボタン（相談ボタン）を含む。

このような状態で、ユーザが、相談希望画面に表示された相談ボタンを押下すると、制御装置２１は、表示装置２６にエリア選択画面を表示する（相談希望画面からエリア選択画面に遷移する）（ステップＳ２０２）。エリア選択画面は、ユーザが「相談」ボタンを押下したことを示す電文をコンピュータデバイス２がサーバコンピュータ１に送信したことに応答して、サーバコンピュータ１によって生成され（Ｗｅｂアプリケーション）、サーバコンピュータ１からダウンロードされる。

なお、本実施形態では、最初に相談希望画面が表示され、相談希望画面からエリア選択画面に遷移する例を示すが、このような例に限定されない。例えば、旅行代理店が提供するＷｅｂサイト（例えば、各旅行ツアーの情報を提供するＷｅｂページ）からハイパーリンクにより、相談希望画面またはエリア選択画面に遷移してもよい。

また、旅行代理店の物理的な店舗に、二次元コード（ＱＲコード（登録商標）など）を設置し、ユーザがコンピュータデバイス２のカメラ２７を使用して二次元コードを読み出すことによって、相談希望画面またはエリア選択画面を表示してもよい。二次元コードは、上述した画面を表示するプログラムが起動するよう、コードが符号化されている。

図３を参照して、エリア選択画面３００の例を説明する。エリア選択画面３００は、ユーザが居住しているエリアについての選択を受け付けるＷｅｂインタフェース画面である。図３に示すように、エリア選択画面３００は、所定の単位に区切られたエリアを選択するためのエリア選択ボタン３０１を含む。ユーザがエリア選択ボタン３０１（例えば、関東）を選択すると、制御装置２１は、表示装置２６に旅行内容入力画面を表示する（エリア選択画面３００から旅行内容入力画面に遷移する）（ステップＳ２０３）。

図４を参照して、旅行内容入力画面４００の例を説明する。旅行内容入力画面４００は、ユーザによる旅行内容（相談内容）の概要の入力を受け付けるＷｅｂインタフェース画面である。ユーザは、相談員とのビデオ通話の前に、相談内容の概要について相談員に知らせるための情報を旅行内容入力画面４００に入力することができる。

ユーザが旅行内容入力画面４００に情報を入力すると、コンピュータデバイス２の制御装置２１は、ステップＳ２０２においてユーザによって選択された「関東」を示すエリア選択ボタン３０１が押下されたことを示す電文（エリア選択電文）をサーバコンピュータ１に送信する（ステップＳ２０４）。

次に、サーバコンピュータ１の制御装置１１は、通信装置１４を介してエリア選択電文を受信すると、エリア選択電文に基づいて、相談員データテーブル５００から対応する全ての相談員データレコードを取得する（ステップＳ２０５）。図５を参照して、相談員データテーブル５００の例を説明する。

相談員データテーブル５００は、対応する相談員についての情報を含むデータレコードを含み、相談員ごとに一意なデータレコードを予め記憶している。図５に示すように、相談員データテーブル５００は、データ項目として、電話番号フィールド５０１、氏名フィールド５０２、店舗フィールド５０３、プロフィールフィールド５０４、および担当エリアフィールド５０５を含む。

電話番号フィールド５０１は、ビデオ通話サービスに登録された相談員の電話番号を含む。氏名フィールド５０２は、対応する相談員の氏名を含む。店舗フィールド５０３は、対応する相談員が勤務する店舗（旅行代理店）の住所を含む。プロフィールフィールド５０４は、対応する相談員が設定したプロフィール（能力、経験など）を含む。担当エリアフィールド５０５は、対応する相談員が担当する（または、得意とする）旅行のエリアを含む。

ステップＳ２０５では、エリア選択電文が示すエリアおよび店舗フィールド５０３に設定された住所に基づいて、相談員データレコードが取得される。つまり、ユーザが選択した（居住している）エリア内の店舗に勤務する相談員に対応する相談員データレコードが取得される。例えば、ユーザが実際の店舗に訪問する必要があるときを考慮して、ユーザが居住しているエリア内の店舗に勤務する相談員が選択されるものとしている。

なお、本実施形態では、エリア選択画面３００においてユーザが居住しているエリアを選択しているが、ユーザが旅行を希望しているエリアを選択するようにしてもよい。この場合、ステップＳ２０５では、ユーザが選択したエリアおよび担当エリアフィールド５０５に設定された住所に基づいて、相談員データレコードが取得される。つまり、ユーザが選択および／または入力した内容および相談員の属性を比較することによって、対応する相談員データレコードが取得される（候補となる相談員が選択される）。

次に、サーバコンピュータ１の制御装置１１は、ステップＳ２０５において取得した相談員データレコードに記憶された情報を含む相談員選択画面を生成し、通信装置１４を介してコンピュータデバイス２に送信する（ステップＳ２０６）。コンピュータデバイス２では、制御装置２１は、通信装置２４を介して相談員選択画面を受信し、表示装置２６に表示する（エリア選択画面３００から相談員選択画面に遷移する）（ステップＳ２０７）。相談員選択画面は、相談員データレコードに対応する情報をリスト化した、相談員リストを含む。

図６を参照して、相談員選択画面６００の例を説明する。相談員選択画面６００は、ユーザによる相談員の選択を受け付けるＷｅｂインタフェース画面である。つまり、相談員選択画面６００は、複数の通話相手の候補から通話相手を選択するための候補選択画面である。図６に示すように、相談員選択画面６００は、ステップＳ２０５において取得した相談員データレコードに対応する相談員の情報を含む相談員リスト６０１、および相談員を選択するための相談員選択ボタン６０２を含む。

なお、相談員リスト６０１は、サーバコンピュータ１から相談員データレコードに含まれるプロフィールなどの情報を含む（図６に示すように、各相談員に対応するサムネイル画像をサーバコンピュータ１に記憶し、サムネイル画像を相談員リスト６０１に含めてもよい）。図６に示した相談員リスト６０１に表示される相談員の情報は例示にすぎず、予め記憶された相談員の属性についての情報が表示されてもよい。

ユーザが相談員選択ボタン６０２（例えば、相談員Ａ）を選択すると（選択した対話相手を相談員（第２のユーザ）として特定する）、コンピュータデバイス２の制御装置２１は、通信装置２４を介して相談員Ａが使用するコンピュータデバイス３に、ステップＳ２０３において旅行内容入力画面４００に入力された情報を含む電文（情報入力電文）を送信する（ステップＳ２０８）。情報入力電文は、例えば、旅行内容入力画面４００に組み込まれたＷｅｂアプリケーションがビデオ通話ＡＰＩ（例えば、ＳＮＳメッセージ送信ＡＰＩ）を呼び出すことによって、ＳＮＳメッセージとして送信される（相談員Ａの電話番号に対してチャット電文が送信される）。相談員Ａの電話番号は、ステップＳ２０５において取得した相談員データレコードの電話番号フィールド５０１に設定された値から特定される。

上述した情報入力電文がコンピュータデバイス３に送信されるので、相談員Ａは、自身が選択されたことを認識し、後述するビデオ通話を待機することができる。本実施形態では、相談員Ａが相談内容（対話内容）の概要を事前に把握するために情報入力電文を送信しているが、例えば、相談員Ａが選択されたことのみを示す通知電文が送信されてもよい。この通知電文は、チャット電文または電子メールの形式で送信されてもよい（電子メールが、コンピュータデバイス３に対して設定された電子メールアドレスに送信される）。

情報入力電文を送信すると、制御装置２１は、表示装置２６に通話可能表示画面を表示する（相談員選択画面６００から通話可能表示画面に遷移する）（ステップＳ２０９）。

図７を参照して、通話可能表示画面７００の例を説明する。通話可能表示画面７００は、相談員Ａとのビデオ通話を開始する入力を受け付けるＷｅｂインタフェース画面である。図７に示すように、通話可能表示画面７００は、相談員Ａとビデオ通話を開始するための通話開始ボタン７０１を含む。また、カメラ２７を活性化する映像開始ボタン７０２およびマイク２９を活性化する音声開始ボタン７０３を含む。

上述したように、本実施形態では、サーバコンピュータ４によって提供されるビデオ通話ＡＰＩを利用する。ユーザが通話開始ボタン７０１を押下すると、制御装置２１は、相談員Ａに対応する電話番号に基づいて、相談員Ａとビデオ通話を開始する（ステップＳ２１０）。つまり、電話番号Ｘから相談員の電話番号に発呼する。

このビデオ通話は、通話可能表示画面７００に組み込まれたＷｅｂアプリケーションがビデオ通話ＡＰＩ（例えば、発呼ＡＰＩ）を呼び出すことによって、コンピュータデバイス３に発呼し、相談員Ａが呼び出しに応答することによって開始する。コンピュータデバイス３の表示装置３６には、着信画面（図示せず）が表示され、相談員Ａが応答ボタンを押下することによって、コンピュータデバイス２とコンピュータデバイス３との間でビデオ通話が開始する。

ビデオ通話が開始すると、制御装置２１は、表示装置２６に通話画面を表示する（通話可能表示画面７００から通話画面に遷移する）。また、コンピュータデバイス３では、制御装置３１は、表示装置３６に通話画面を表示する。

図８を参照して、コンピュータデバイス２の表示装置２６に表示される通話画面８００の例を説明する。通話画面８００は、相談員Ａとのビデオ通話の通話状態を表示するＷｅｂインタフェース画面である。また、図９を参照して、コンピュータデバイス３の表示装置３６に表示される通話画面９００の例を説明する。通話画面９００は、ユーザとのビデオ通話の通話状態を表示するＷｅｂインタフェース画面である。

ビデオ通話は、初期状態（第１の状態）では、コンピュータデバイス２からコンピュータデバイス３への方向（つまり、ユーザから相談員Ａへの方向）において、テキストデータのみを送信し、映像データおよび音声データは送信しない。一方、初期状態（第１の状態）では、コンピュータデバイス３からコンピュータデバイス２への方向（つまり、相談員Ａからユーザへの方向）において、映像データ、音声データ、およびテキストデータを送信する。

上述した映像データ、音声データ、およびテキストデータを送信するか否かの制御は、通話画面８００／９００に組み込まれたＷｅｂアプリケーションが、ビデオ通話ＡＰＩ（例えば、ビデオ送信ＡＰＩおよび音声送信ＡＰＩ）の呼び出しを制御することによって実行される。例えば、ビデオ送信ＡＰＩを実行しない（非活性化する）と、カメラ２７／３７が非活性化される。同様に、音声送信ＡＰＩを実行しない（非活性化する）と、マイク２９／３９が非活性化される。

初期状態は、コンピュータデバイス２からコンピュータデバイス３への方向においては、少なくともユーザが通話可能表示画面７００または通話画面８００に対して、カメラ２７およびマイク２９を活性化／非活性化する操作を行わない状態を指す。通話可能表示画面７００の例では、映像開始ボタン７０２および音声開始ボタン７０３のいずれに対しても、ユーザが何ら操作を行わず、通話画面８００の例では、後述する映像開始ボタン８０４および音声開始ボタン８０５のいずれに対しても、ユーザが何ら操作を行わない状態を指す。

同様に、初期状態は、コンピュータデバイス３からコンピュータデバイス２への方向においては、少なくとも相談員Ａが上述した着信画面（図示せず）または通話画面９００に対して、カメラ３７およびマイク３９を活性化／非活性化する操作を行わない状態を指す。着信画面の例では、カメラ３７を非活性化するビデオ停止ボタン（図示せず）およびマイク３９を非活性化する音声停止ボタン（図示せず）のいずれに対しても、相談員Ａが何ら操作を行わず、通話画面９００の例では、後述するビデオ停止ボタン９０４および音声停止ボタン９０５のいずれに対しても、相談員Ａが何ら操作を行わない状態を指す。

図８に示すように、通話画面８００（つまり、ユーザが相談員Ａとのビデオ通話における通話状態を表示する画面）では、映像表示欄８０１は、相談員Ａの顔を示す映像が表示される。この映像は、コンピュータデバイス３がカメラ３７によって相談員Ａの顔を撮像して生成した映像信号を映像データに変換し、コンピュータデバイス２に送信することによって表示装置２６が表示する。また、相談員Ａが発した音声は、コンピュータデバイス３がマイク３９によって生成した音声信号を音声データに変換し、コンピュータデバイス２に送信することによってスピーカ２８が出力する。

また、相談員Ａは、チャット形式でテキストデータをコンピュータデバイス２に送信することができ、相談員Ａが入力したテキストデータは、テキスト表示欄８０２に表示される（相談員Ａは、コンピュータデバイス３の表示装置３６に表示された通話画面９００内のテキストデータ入力欄９０３（図９を参照）にテキストデータを入力することができる）。テキストデータは、上述したように、チャットアプリケーションを通じて送信される。

一方で、コンピュータデバイス２からコンピュータデバイス３への方向では、テキストデータのみを送信するので、図９に示すように、通話画面９００（つまり、相談員Ａがユーザとのビデオ通話における通話状態を表示する画面）では、映像表示欄９０１は、ユーザの映像が表示されない。また、ユーザが発した音声も、スピーカ３８によって出力されない。

代わりに、ユーザは、チャット形式でテキストデータをコンピュータデバイス３に送信することができるので、ユーザが入力したテキストデータは、テキスト表示欄９０２に表示される（ユーザは、コンピュータデバイス２の表示装置２６に表示された通話画面８００内のテキストデータ入力欄８０３（図８を参照）にテキストデータを入力することができる）。テキストデータは、上述したように、チャットアプリケーションを通じて送信される。

上述したように、コンピュータデバイス２からコンピュータデバイス３への方向では、テキストデータのみが送信され、コンピュータデバイス３からコンピュータデバイス２への方向では、映像データ、音声データ、およびテキストデータが送信される。このような状態で、本実施形態に従って非対称ビデオ通話が開始する。

ユーザは、通話画面８００に表示された映像開始ボタン８０４を押下することによって、カメラ２７を活性化し、ユーザを撮像した映像に対応する映像データをコンピュータデバイス３に送信することができる。この場合、通話画面９００内の映像表示欄９０１には、ユーザの映像が表示される。ビデオ通話が開始する前の通話可能表示画面７００内で映像開始ボタン７０２を押下した場合も同様である。

また、ユーザは、通話画面８００に表示された音声開始ボタン８０５を押下することによって、マイク２９を活性化し、ユーザが発した音声に対応する音声データをコンピュータデバイス３に送信することができる。この場合、スピーカ３８がユーザの音声を表示する。ビデオ通話が開始する前の通話可能表示画面７００内で音声開始ボタン７０３を押下した場合も同様である。

通話可能表示画面７００内の映像開始ボタン７０２および／もしくは音声開始ボタン７０３を押下した状態、または通話画面８００内の映像開始ボタン８０４および／もしくは音声開始ボタン８０５を押下した状態を、第２の状態を指す。つまり、ビデオ通話は、第２の状態では、コンピュータデバイス２からコンピュータデバイス３への方向およびコンピュータデバイス３からコンピュータデバイス２への方向のいずれにおいても、映像および音声を通信する。

コンピュータデバイス３では、通話画面９００内のビデオ停止ボタン９０４を押下することによって、カメラ３７を非活性化し、相談員Ａの映像に対応する映像データの送信を停止することができる。同様に、音声停止ボタン９０５を押下することによって、マイク３９を非活性化し、相談員Ａの音声に対応する音声データの送信を停止することができる。上述したカメラ／マイクを活性化／非活性化する制御は、通話画面８００／通話画面９００に組み込まれたＷｅｂアプリケーションが、ビデオ通話ＡＰＩ（例えば、ビデオ送信ＡＰＩおよび音声送信ＡＰＩ）の呼び出しを制御することによって実行される。

少なくともコンピュータデバイス３では、制御装置３１は、ボットを実行する。ボットとは、自動化されたタスクを実行するプログラムである。ボットを実行することによって、ユーザが、テキストデータ入力欄９０３に入力したテキストデータ（例えば、質問）に応答して、ボットがテキストデータを解析して、サーバコンピュータ１に問い合わせてもよい。サーバコンピュータ１は、例えば、解析したテキストデータの特定のキーワードに応じて、予め定められた回答（テキストデータ）を、コンピュータデバイス３を介してコンピュータデバイス２に返してもよい。この質問および回答に対応するテキストデータは、上述したように、チャットアプリケーションを通じて送信される。

上述した映像データ、音声データ、およびテキストデータは、送信側（コンピュータデバイス２からコンピュータデバイス３への通信の場合、コンピュータデバイス２が送信側、コンピュータデバイス３が受信側）において、ＩＰに準拠してＩＰヘッダが付加されたＩＰパケットに変換される。

ＩＰパケットは、音声データ／映像データの通信の場合、ＡＣＫによる受信側での受信確認および再送処理を行うＴＣＰ（Transmission Control Protocol）の代わりに、ＵＤＰ（User Datagram Protocol）に準拠して送信されてもよい。ＵＤＰに従うと、伝送誤りが発生した場合に再送処理を行わないので、再送処理などに伴うオーバヘッドを削減することができる。

また、ＩＰパケットは、特に映像データの通信の場合、ＵＤＰに加え、ＲＴＰ（Real-time Transport Protocol）ＵＤＰ／ＲＴＰ）に準拠して送信されてもよい。ＲＴＰに従うと、送信側において、ＩＰパケット単位でＲＴＰシーケンス番号を付加するので、受信側においてシーケンス番号に基づいて映像を再構築することができる。

映像データおよび音声データは、伝送誤りが発生した場合でも、受信側で出力される映像および音声に乱れが生じるだけであるので、ＴＣＰによる再送処理を行うよりも、より低いオーバヘッドで送信する方が効率的である。

一方、テキストデータのみの場合、ＩＰパケットは、ＴＣＰに準拠して送信されてもよい。テキストデータは、映像および音声と異なり、伝送誤りが発生した場合、データ全体が解読することができないレベルまで破損することがある。また、テキストデータは、映像および音声と比較して、データの容量が少ないので、ＴＣＰによる再送処理などに伴うオーバヘッドの影響も小さい。よって、ＴＣＰによる再送処理によって確実性を重視したものである。

以上のように本実施形態に係る非対称ビデオ通話システム１００を説明した。本実施形態に係る非対称ビデオ通話システム１００によれば、ユーザによるコマンド操作を必要とすることなしに、コンピュータデバイス３からコンピュータデバイス２への方向においてのみ、映像データおよび音声データを通信し、その逆方向においてはテキストデータのみを通信する。よって、２つのコンピュータデバイスが通信するデータの量を削減することができる。

本実施形態に係る非対称ビデオ通話システム１００は、ユーザが相談員から説明を受けるようなケースなど、相談員がユーザに提供する情報が、ユーザが相談員に提供する情報よりもはるかに多いケースに適用されるので、非対称ビデオ通信でも十分な対話が成立する。相談員は、自身の顔だけでなく、旅行に関する資料なども映像を通じてユーザに提供することができるので、相談員は、例えば、ユーザからの質問に対して、映像を交えて十分な量の情報を提供することができる。

本実施形態に係る非対称ビデオ通話システム１００によれば、ユーザはテキストのみを通信し、相談員の映像を閲覧し、相談員の音声を聞くことができる。よって、例えば、ユーザは、電車内でスマートフォンを使用し、スマートフォンにイヤフォンを取り付けることによって、何ら音声を周囲に漏らすことなく、相談員と相談することができる。

また、ユーザが、例えば、他人に自身の顔などを見せたくないような状態にあることもある。本実施形態に係る非対称ビデオ通話システム１００によれば、ユーザの映像に対応する映像データを送信しないので、ユーザは自身の顔を他人に見せることなく、相談員との対話を実現することができる。

本実施形態では、ユーザが居住しているエリアなどに基づいて、候補となる相談員がリスト表示され、ユーザが複数の相談員から対応する相談員を選択することができるが、この構成は必須ではない。例えば、エリア選択画面３００からエリアを選択すると、サーバコンピュータ４に登録された複数の相談員の電話番号に発呼し（ブロードキャスト）、応答した相談員との通話を開始してもよい。この場合、情報入力電文もブロードキャストされてもよく、または応答した相談員の電話番号に対してチャットメッセージとして送信されてもよい。

また、本実施形態では、既存のビデオ通話ＡＰＩを利用しているが、例えば、ＷｅｂＲＴＣ（Web Real-Time Communication）技術に準拠して、ビデオ通話を実装してもよい。この場合、サーバコンピュータ１は、ＷｅｂＲＴＣ技術に準拠して、シグナリングサーバおよびＳＴＵＮ (Session Traversal of User NAT)サーバなどを実装して。２つのコンピュータデバイスの間でビデオ通話を確立する。

更に、事業者Ａがサーバコンピュータ４に登録した電話番号Ｘを使用して（つまり、ユーザ以外の電話番号）、相談員の電話番号に発呼する。このようにして、ユーザは、ビデオ通話サービスにアカウントなどを登録することなく、相談員とビデオ通話を行うことができる。

上記方式の場合、シグナリングサーバによって、２つのコンピュータデバイスの間で、アドレス情報に関する情報が共有される。また、ＳＴＵＮサーバによって、ＮＡＴ（Network Address Translation）通過（NAT traversal）に対処し、２つのコンピュータデバイスの間で、ビデオ通話が確立される。

また、既存のＳＮＳが提供するビデオ通話サービスを利用してビデオ通話を実装してもよい。このようなビデオ通話サービスは、例えば、ＬＩＮＥ（登録商標）、Ｆａｃｅｂｏｏｋ（登録商標）Ｍｅｓｓｅｎｇｅｒなどを含む。これらのビデオ通話サービスは、ＳＮＳにアカウントを登録することによって利用することができる。

上記方式の場合、例えば、事業者Ａは、特定のＳＮＳにアカウントを登録する。アカウント（以下、アカウントＹ）は、サーバコンピュータ１に対して設定された電子メールアドレスなどにより登録される。ユーザは、アカウントＹを使用して、相談員とビデオ通話を行う。各々の相談員も、ＳＮＳにアカウントを登録する。ビデオ通話は、アカウントＹと相談員のアカウントとの間で実行される。

このような状態で、例えば、図５において説明したいずれかの画面遷移のときに、制御装置２１が通信装置２４を介して、ＳＮＳを実装するサーバコンピュータ（図示せず）に、アカウントＹについてのアカウントＩＤなどの情報（つまり、ログイン情報）を送信することによって、ＳＮＳを起動して、ＳＮＳのアカウントＹにログインする。ＳＮＳの起動によって、ＳＮＳのアカウントＹにログインした状態でコンピュータデバイス２とコンピュータデバイス３とが、登録したアカウントを介してビデオ通話を実行することができる。

例えば、ＳＮＳを提供するＬＩＮＥサービスでは、ＬＩＮＥサービスにログインした状態で、ＬＩＮＥサービスが提供するＡＰＩ（Application Program Interface）を利用することができる。本実施形態では、ＳＮＳにログインした状態で、ＳＮＳが提供するビデオ通話および関連するＡＰＩを利用する。

上述したように、事業者ＡがＳＮＳに登録したアカウントＹを使用して（つまり、ユーザ以外のアカウント）ＳＮＳにログインし、ＳＮＳが提供するビデオ通話および関連するＡＰＩを利用する。このようにして、ユーザは、ＳＮＳにアカウントを登録することなく、相談員とビデオ通話を行うことができる。また、既存のＳＮＳを利用してビデオ通話を行うので、新たにビデオ通話を実装する必要もなくなる。

既存のＳＮＳでは、別のＳＮＳのアカウントを使用してログインすることができる（ソーシャルログインとも称される）。この場合、当該別のＳＮＳにアカウントを登録する必要があるが、上記方式では、いかなるＳＮＳへもアカウントを登録する必要なしに、相談員とビデオ通話を行うことができる。

上記実施形態で説明したハードウェアの構成要素は例示的なものにすぎず、その他の構成も可能であることに留意されたい。また、上記実施形態で説明した処理の順序は、必ずしも説明した順序で実行される必要がなく、任意の順序で実行されてもよい。さらに、本発明の基本的な概念から逸脱することなく、追加の処理が新たに加えられてもよい。

また、上記説明した実施形態は、コンピュータデバイス（プロセッサ）によって実行されるコンピュータプログラムによって実装されるが、当該コンピュータプログラムは、非一時的記憶媒体に記憶されてもよい。非一時的記憶媒体の例は、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリ装置、内蔵ハードディスクおよび取外可能ディスク装置などの磁気媒体、光磁気媒体、ならびにＣＤ－ＲＯＭディスクおよびデジタル多用途ディスク（ＤＶＤ）などの光学媒体などを含む。

Claims

第１のユーザと第２のユーザとが対話するための、第１のコンピュータデバイスによって実行される方法であって、前記第１のコンピュータデバイスは、カメラ、マイク、表示装置、およびスピーカを含み、
前記第２のユーザが使用する第２のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むＩＰパケットを交換することによってビデオ通話を確立するステップと、
前記確立したビデオ通話において、第１の状態では、
前記第２のコンピュータデバイスから、前記第２のユーザの映像に対応する映像データおよび／または前記第２のユーザが発した音声に対応する音声データを受信するステップと、
前記受信した映像データを前記表示装置に表示し、および／または前記受信した音声データを前記スピーカから出力するステップと、
前記第２のコンピュータデバイスに、前記第１のユーザの映像に対応する映像データおよび前記第１のユーザが発した音声に対応する音声データのいずれも送信することなく、前記第１のユーザが入力したテキストに対応するテキストデータを送信するステップと、を備え、
前記第１の状態は、前記第１のユーザが、前記カメラを活性化する操作および前記マイクを活性化する操作のいずれも行っていない状態である、
ことを特徴とする方法。
前記ビデオ通話は、ビデオ通話サービスによって提供されるビデオ通話ＡＰＩを使用して、前記ビデオ通話サービスに登録された前記第１のユーザ以外の電話番号から、前記ビデオ通話サービスに登録された前記第２のユーザの電話番号に発呼することによって確立される、ことを特徴とする請求項１に記載の方法。
前記映像データおよび／または前記音声データは、ＵＤＰに準拠して受信される、ことを特徴とする請求項１または２に記載の方法。
前記映像データおよび／または前記音声データは、ＵＤＰ／ＲＴＰに準拠して受信される、ことを特徴とする請求項１乃至３のいずれか一項に記載の方法。
前記テキストデータは、ＴＣＰに準拠して送信される、ことを特徴とする請求項１乃至４のいずれか一項に記載の方法。
サーバコンピュータから、複数の対話相手の候補を表示した選択画面を受信するステップと、
前記第１のユーザにより前記選択画面への選択に応じて、選択された対話相手を前記第２のユーザとして特定するステップと、
を更に備えたことを特徴とする請求項１乃至５のいずれか一項に記載の方法。
前記サーバコンピュータに、前記第１のユーザが入力した所定の情報を送信するステップを更に備え、
前記複数の対話相手の候補は、前記所定の情報と前記候補のそれぞれの属性との比較によって、前記選択画面に含まれる、
ことを特徴とする請求項６に記載の方法。
前記ビデオ通話を確立する前に、前記第２のコンピュータデバイスに、前記第１のユーザが入力した対話内容を示す電文を送信するステップを更に備えた、ことを特徴とする請求項１乃至７のいずれか一項に記載の方法。
前記ビデオ通話を確立する前に、前記第２のコンピュータデバイスに、前記対話相手を選択したことを示す電文を送信するステップを更に備えた、ことを特徴とする請求項６または７に記載の方法。
第１のユーザと第２のユーザとが対話する第１のコンピュータデバイスであって、
前記第２のユーザが使用する第２のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むＩＰパケットを交換することによってビデオ通話を確立し、
前記確立したビデオ通話において、第１の状態では、
前記第２のコンピュータデバイスから、前記第２のユーザの映像に対応する映像データおよび／または前記第２のユーザが発した音声に対応する音声データを受信し、
前記受信した映像データを表示装置に表示し、および／または前記受信した音声データをスピーカから出力し、
前記第２のコンピュータデバイスに、前記第１のユーザの映像に対応する映像データおよび前記第１のユーザが発した音声に対応する音声データのいずれも送信することなく、前記第１のユーザが入力したテキストに対応するテキストデータを送信し、
前記第１の状態は、前記第１のユーザが、カメラを活性化する操作およびマイクを活性化する操作のいずれも行っていない状態である、
ことを特徴とする第１のコンピュータデバイス。
コンピュータ実行可能命令を含むコンピュータプログラムであって、前記コンピュータ実行可能命令は、プロセッサによって実行されると、コンピュータデバイスに、請求項１乃至９のいずれか一項に記載の方法を実行させる、ことを特徴とするコンピュータプログラム。