JP2022089000A - 非対称ビデオ通話システムおよび非対称ビデオ通話方法 - Google Patents

非対称ビデオ通話システムおよび非対称ビデオ通話方法 Download PDF

Info

Publication number
JP2022089000A
JP2022089000A JP2020201182A JP2020201182A JP2022089000A JP 2022089000 A JP2022089000 A JP 2022089000A JP 2020201182 A JP2020201182 A JP 2020201182A JP 2020201182 A JP2020201182 A JP 2020201182A JP 2022089000 A JP2022089000 A JP 2022089000A
Authority
JP
Japan
Prior art keywords
user
video
computer device
video call
counselor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020201182A
Other languages
English (en)
Inventor
彗斗 佐藤
Keito Sato
竜太 遠藤
Ryuta Endo
済 松田
Toru Matsuda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zeals Co Ltd
Original Assignee
Zeals Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zeals Co Ltd filed Critical Zeals Co Ltd
Priority to JP2020201182A priority Critical patent/JP2022089000A/ja
Publication of JP2022089000A publication Critical patent/JP2022089000A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】非対称ビデオ通話を提供する。【解決手段】第2のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むIPパケットを交換することによってビデオ通話が確立される。ビデオ通話において、第1の状態では、第2のコンピュータデバイスから、映像データおよび/または音声データを受信が受信され、映像データが表示され、および/または音声データが出力され、第2のコンピュータデバイスに、映像データおよび音声データのいずれも送信することなく、テキストデータが送信される。第1の状態は、第1のユーザが、カメラを活性化する操作およびマイクを活性化する操作のいずれも行っていない状態である。【選択図】図2

Description

本開示は、非対称ビデオ通話システムおよび非対称ビデオ通話方法に関し、特に、2つのコンピュータデバイスの間で非対称的に映像、音声、およびテキストを通信する非対称ビデオ通話システムおよび非対称ビデオ通話方法に関する。
近年では、パーソナルコンピュータおよびスマートフォンなどのコンピュータデバイスを使用して、映像、音声、およびテキストを交換することによって、遠隔者との映像を交えた通話を可能とする技術が普及している。これらの技術は、一般的に「ビデオ通話」または「ビデオ音声通話」と称される。このような技術によって、遠隔者と映像を交えて会議などを行うことが可能になっている。
例えば、非特許文献1は、コンピュータデバイスの間で映像および音声を交換することによって、ユーザと遠隔者である英会話講師とがビデオ通話をすることができる技術を開示している。非特許文献1に開示された技術では、ユーザが使用するコンピュータデバイスが、英会話講師が使用するコンピュータデバイスに接続することによって、相互に映像および音声を交換する。
"DMM英会話"、[online]、合同会社DMM.comホームページ、[令和2年11月16日検索]、インターネット(URL:https://eikaiwa.dmm.com/)
非特許文献1に開示された技術では、2つのコンピュータデバイスが、インターネットなどの広域ネットワークを通じて、映像および音声を相互に通信することになる。映像および音声はテキストと比較してデータ容量が大きい。よって、非特許文献1に開示された技術では、原則として、2つのコンピュータデバイスが相互に、大容量のデータを通信することになる。2つのコンピュータデバイスの間の回線状況によっては、相互に大容量のデータを通信することによって、ネットワークが輻輳し、十分なビデオ通話を行うことができないこともある。
一実施形態に係る方法は、第1のユーザと第2のユーザとが対話するための、第1のコンピュータデバイスによって実行される方法であって、前記第1のコンピュータデバイスは、カメラ、マイク、表示装置、およびスピーカを含み、前記第2のユーザが使用する第2のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むIPパケットを交換することによってビデオ通話を確立するステップと、前記確立したビデオ通話において、第1の状態では、前記第2のコンピュータデバイスから、前記第2のユーザの映像に対応する映像データおよび/または前記第2のユーザが発した音声に対応する音声データを受信するステップと、前記受信した映像データを前記表示装置に表示し、および/または前記受信した音声データを前記スピーカから出力するステップと、前記第2のコンピュータデバイスに、前記第1のユーザの映像に対応する映像データおよび前記第1のユーザが発した音声に対応する音声データのいずれも送信することなく、前記第1のユーザが入力したテキストに対応するテキストデータを送信するステップと、を含み、前記第1の状態は、前記第1のユーザが、前記カメラを活性化する操作および前記マイクを活性化する操作のいずれも行っていない状態である、方法を含む。
別の実施形態に係るコンピュータデバイスは、第1のユーザと第2のユーザとが対話する第1のコンピュータデバイスであって、前記第2のユーザが使用する第2のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むIPパケットを交換することによってビデオ通話を確立し、前記確立したビデオ通話において、第1の状態では、前記第2のコンピュータデバイスから、前記第2のユーザの映像に対応する映像データおよび/または前記第2のユーザが発した音声に対応する音声データを受信し、前記受信した映像データを表示装置に表示し、および/または前記受信した音声データをスピーカから出力し、前記第2のコンピュータデバイスに、前記第1のユーザの映像に対応する映像データおよび前記第1のユーザが発した音声に対応する音声データのいずれも送信することなく、前記第1のユーザが入力したテキストに対応するテキストデータを送信し、前記第1の状態は、前記第1のユーザが、カメラを活性化する操作およびマイクを活性化する操作のいずれも行っていない状態である、コンピュータデバイスを含む。
本実施形態によれば、2つのコンピュータの間で映像、音声、およびテキストを通信するときに、相互に送信するデータの量を削減することができる。
実施形態に係る非対称ビデオ通話システムの構成の例を示すブロック図である。 実施形態に係る非対称ビデオ通話システムが実行する処理の例を示すフローチャートである。 実施形態に係るエリア選択画面の例を示す図である。 実施形態に係る旅行内容入力画面の例を示す図である。 実施形態に係る相談員データテーブルの例を示す図である。 実施形態に係る相談員選択画面の例を示す図である。 実施形態に係る通話可能表示画面の例を示す図である。 実施形態に係る通話画面の例を示す図である。 実施形態に係る通話画面の例を示す図である。
以下、図面を参照して、本実施形態に係る非対称ビデオ通話システムの例を説明する。本実施形態に係る非対称ビデオ通話システムでは、2つのコンピュータデバイスが、映像、音声、およびテキストを通信することによって、ビデオ通話を可能にするが、2つのコンピュータデバイスのうちの一方のみが映像および音声を通信し、もう一方は、テキストのみを通信する。つまり、2つのコンピュータデバイスの間の通信は、非対称である。
非特許文献1に開示された技術は、ユーザと英会話講師とがビデオ通話を通じて会話を行うといったケースに適用される。このような対話(会話)は、ユーザが使用するコンピュータデバイスと英会話講師が使用するコンピュータデバイスとの双方が、少なくとも音声を通信することによってはじめて成立する。よって、非特許文献1に開示された技術に従ってビデオ通話を行うと、2つのコンピュータデバイスが大容量のデータを通信することになる。
上述したように、2つのコンピュータデバイスが大容量のデータを通信することによって、ネットワークが輻輳することがある。非特許文献1に開示された技術では、ユーザによるコマンド操作によって、映像および/または音声を通信しないようにし、場合によっては、ビデオ通話の通信品質を改善することができる。しかしながら、ユーザが、このような操作によって、ビデオ通話の通信品質を改善することができることを把握していないこともある。また、ユーザおよび英会話講師のいずれもが、少なくとも音声を通信しないと会話が成立しない。
上述したケースとは異なり、映像および音声を一方向のみで通信することによっても十分な対話が成立することがある。一方から提供する情報量ともう一方から提供する情報量との間に大きな差がある場合に、このような通信による対話が成立することがある。例えば、ユーザが旅行を計画しているとき、金融商品を購入するときなど、相談員(旅行を計画しているケースでは、旅行代理店の窓口担当者、金融商品を購入するケースでは、金融機関の窓口担当者など)から説明を受けるようなケースが当てはまる。いずれのケースでも、ユーザが知りたい情報を相談員が提供することになるので、相談員がユーザに提供する情報が、ユーザが相談員に提供する情報よりもはるかに多いことが通常であるからである。
本実施形態に係る非対称ビデオ通話システムは、ユーザによるコマンド操作を必要とすることなしに、相談員が使用するコンピュータデバイスからユーザが使用するコンピュータデバイスへの方向のみ、映像および音声を通信することによって、ユーザと相談員との間でのビデオ通話を可能にする。以下の実施形態では、ユーザが旅行を計画しているとき、相談員とビデオ通話をする例を説明する。ユーザは、ビデオ通話を利用して相談員と対話を行うユーザ(第1のユーザ)であり、相談員も、ビデオ通話を利用してユーザと対話するユーザ(第2のユーザ)である。
本実施形態におけるビデオ通話は、ビデオ通話を実装するために提供される既存のWebサービスAPI(Application Program Interface)(以下、ビデオ通話API)を利用する。ビデオ通話APIは、例えば、Twilioなどによって、クラウドサービスを介して提供され、例えば、発呼API、ビデオ送信API、音声送信API、およびSNS(Social Networking Service)メッセージ送信APIなどを含む。ビデオ通話APIを使用することによって、ビデオおよび音声送信、ならびにSNSメッセージ送信などを実装することができる。
上述したビデオ通話は、2つのコンピュータの間で、映像データ、音声データ、およびテキストデータを含むIP(Internet Protocol)パケットを交換することによって確立する。本実施形態に係るビデオ通話サービスでは、上述したクラウドサービスに登録した2つの電話番号の間で、一方の電話番号が他方の電話番号を呼び出し、他方が応答することによって、2つのコンピュータデバイスの間で通話が確立する。
まず、図1を参照して、非対称ビデオ通話システム100の全体的な構成の例を説明する。非対称ビデオ通話システム100は、サーバコンピュータ1、コンピュータデバイス2、コンピュータデバイス3、およびサーバコンピュータ4を含む。サーバコンピュータ1、コンピュータデバイス2、コンピュータデバイス3、およびサーバコンピュータ4は、ネットワーク5(インターネットなどの広域ネットワーク)を介して相互に接続される。
サーバコンピュータ1は、ビデオ通話APIを利用して、ユーザと相談員との間で非対称ビデオ通話を可能にするコンピュータデバイス(情報処理装置)である。サーバコンピュータ1は、Webサーバを実装し、2つのコンピュータデバイスがビデオ通話を行うために、コンピュータデバイス上で実行されるWebアプリケーション(コンピュータプログラム)を提供する。Webアプリケーションは、要求に応じてコンピュータデバイスにダウンロードされる。なお、サーバコンピュータ1は、単独のコンピュータデバイスによって実装されてもよく、または複数のコンピュータデバイスによって実装されてもよい。
サーバコンピュータ4は、ビデオ通話APIを含むビデオ通話サービスを提供するためのクラウド型サーバを実装したコンピュータデバイス(情報処理装置)である。本実施形態に係る非対称ビデオ通話は、サーバコンピュータ4によって提供されるビデオ通話サービスを利用して実装される。
サーバコンピュータ1は、本実施形態に係るサービスを提供する事業者Aによって実装される。事業者Aは、ビデオ通話サービスに特定の電話番号(以下、電話番号X)を登録している。ユーザは、電話番号Xを使用して、相談員とビデオ通話を行う。各々の相談員も、ビデオ通話サービスに電話番号を登録している。
サーバコンピュータ1は、制御装置11、メモリ12、記憶装置13、および通信装置14を含み、それらの各要素がシステムバスを介して結合されている。図1に示すように、サーバコンピュータ1は、コンピュータデバイス2およびコンピュータデバイス3と接続する。
制御装置11は、プロセッサとも称され、上記各構成要素の制御やデータの演算を実行する。また、制御装置11は、本実施形態に係る各種処理を実行するための、記憶装置13に記憶されているプログラムをメモリ12に読み出して実行する。ここで、上述したプログラムとは、非対称ビデオ通話システム100が実行する機能の一部を実装するためのプログラムであり、サーバコンピュータ1の記憶装置13に記憶されている。
メモリ12は、コンピュータデバイス2およびコンピュータデバイス3から送信されたデータ、コンピュータ実行可能な命令、および当該命令による演算処理後のデータなどを記憶した揮発性データ記憶装置である。メモリ12は、RAM(ランダムアクセスメモリ)(例えば、SRAM(スタティックRAM)およびDRAM(ダイナミックRAM))などで実装されてもよい。
記憶装置13は、上述したプログラムおよびDBMSによって使用されるデータベーステーブル13aなどを記憶した不揮発性データ記憶装置である。記憶装置13は、ROM(リードオンリメモリ)などの不揮発性半導体メモリ、磁気記憶装置(ハードディスクドライブなど)、および光ディスクなどで実装されてもよい。なお、プログラムおよびデータベーステーブルなどのデータは、記憶装置13に加えまたはその代わりに、NAS(Network Attached Storage)および/またはSAN(Storage Area Network)などに記憶されてもよい。
通信装置14は、ネットワーク5を通じてコンピュータデバイス2およびコンピュータデバイス3との間でデータおよび制御情報を送受信するネットワークインタフェースである。このネットワークインタフェースは、例えば、TCP(Transmission Control Protocol)/IPなどのプロトコルに準拠したネットワークカード(例えば、LANカード)などによって実装される。
コンピュータデバイス2は、ユーザによって使用され、相談員とビデオ通話を行うコンピュータデバイス(情報処理装置)である。コンピュータデバイス3は、相談員によって使用され、ユーザとビデオ通話を行うコンピュータデバイス(情報処理装置)である。コンピュータデバイス2およびコンピュータデバイス3はいずれも、パーソナルコンピュータ、スマートフォン、およびタブレットコンピュータなどによって実装されてもよい。
コンピュータデバイス2は、制御装置21、メモリ22、記憶装置23、通信装置24、入力装置25、表示装置26、カメラ27、スピーカ28、およびマイク29を含み、それらの各要素がシステムバスを介して結合されている。制御装置21、メモリ22、記憶装置23、および通信装置24は、サーバコンピュータ1に含まれる制御装置11、メモリ12、記憶装置13、および通信装置14とそれぞれ同様に機能するので、それらの詳細な説明は省略する。
入力装置25は、キーボードおよびタッチパネルなど、ユーザがテキストデータを入力するための入力装置である。表示装置26は、ディスプレイなど、コンピュータデバイス3から受信した映像データおよびテキストデータを表示する。カメラ27は、ユーザを撮像して映像信号を生成する。映像信号は、符号化されて映像データに変換されるスピーカ28は、コンピュータデバイス3から受信した音声データを音声出力する。マイク29は、ユーザが発した声などから音声信号を生成する。音声信号は、符号化されて音声データに変換される。
コンピュータデバイス3は、制御装置31、メモリ32、記憶装置33、通信装置34、入力装置35、表示装置36、カメラ37、スピーカ38、およびマイク39を含み、それらの各要素がシステムバスを介して結合されている。制御装置31、メモリ32、記憶装置33、通信装置34、入力装置35、表示装置36、カメラ37、スピーカ38、およびマイク39は、コンピュータデバイス3に含まれる制御装置21、メモリ22、記憶装置23、通信装置24、入力装置25、表示装置26、カメラ27、スピーカ28、およびマイク29とそれぞれ同様に機能するので、それらの詳細な説明は省略する。
次に、図2に示すフローチャートを参照して、本実施形態に係る非対称ビデオ通話システム100が実行する処理の例を説明する。図2に示す例では、旅行代理店に所属する複数の相談員から、ユーザが希望する相談員を選択し、選択した相談員とビデオ通話を行う。
コンピュータデバイス2によって実行される動作はいずれも、サーバコンピュータ1からダウンロードしたWebアプリケーション(コンピュータプログラム)を制御装置21が実行することによって実行される。Webアプリケーションは、コンピュータデバイス2の表示装置26に表示される、後述するエリア選択画面300などのWebインタフェース画面に組み込まれ、Webインタフェース画面に対する操作によって実行される。同様に、コンピュータデバイス3によって実行される動作はいずれも、サーバコンピュータ1からダウンロードしたWebアプリケーション(コンピュータプログラム)を制御装置31が実行することによって実行される。
まず、コンピュータデバイス2の制御装置21は、表示装置26に相談希望画面(図示せず)を表示する(ステップS201)。相談希望画面は、サーバコンピュータ1からダウンロードしたWebインタフェース画面であり、例えば、相談員とビデオ通話を介して通話することを希望する旨のボタン(相談ボタン)を含む。
このような状態で、ユーザが、相談希望画面に表示された相談ボタンを押下すると、制御装置21は、表示装置26にエリア選択画面を表示する(相談希望画面からエリア選択画面に遷移する)(ステップS202)。エリア選択画面は、ユーザが「相談」ボタンを押下したことを示す電文をコンピュータデバイス2がサーバコンピュータ1に送信したことに応答して、サーバコンピュータ1によって生成され(Webアプリケーション)、サーバコンピュータ1からダウンロードされる。
なお、本実施形態では、最初に相談希望画面が表示され、相談希望画面からエリア選択画面に遷移する例を示すが、このような例に限定されない。例えば、旅行代理店が提供するWebサイト(例えば、各旅行ツアーの情報を提供するWebページ)からハイパーリンクにより、相談希望画面またはエリア選択画面に遷移してもよい。
また、旅行代理店の物理的な店舗に、二次元コード(QRコード(登録商標)など)を設置し、ユーザがコンピュータデバイス2のカメラ27を使用して二次元コードを読み出すことによって、相談希望画面またはエリア選択画面を表示してもよい。二次元コードは、上述した画面を表示するプログラムが起動するよう、コードが符号化されている。
図3を参照して、エリア選択画面300の例を説明する。エリア選択画面300は、ユーザが居住しているエリアについての選択を受け付けるWebインタフェース画面である。図3に示すように、エリア選択画面300は、所定の単位に区切られたエリアを選択するためのエリア選択ボタン301を含む。ユーザがエリア選択ボタン301(例えば、関東)を選択すると、制御装置21は、表示装置26に旅行内容入力画面を表示する(エリア選択画面300から旅行内容入力画面に遷移する)(ステップS203)。
図4を参照して、旅行内容入力画面400の例を説明する。旅行内容入力画面400は、ユーザによる旅行内容(相談内容)の概要の入力を受け付けるWebインタフェース画面である。ユーザは、相談員とのビデオ通話の前に、相談内容の概要について相談員に知らせるための情報を旅行内容入力画面400に入力することができる。
ユーザが旅行内容入力画面400に情報を入力すると、コンピュータデバイス2の制御装置21は、ステップS202においてユーザによって選択された「関東」を示すエリア選択ボタン301が押下されたことを示す電文(エリア選択電文)をサーバコンピュータ1に送信する(ステップS204)。
次に、サーバコンピュータ1の制御装置11は、通信装置14を介してエリア選択電文を受信すると、エリア選択電文に基づいて、相談員データテーブル500から対応する全ての相談員データレコードを取得する(ステップS205)。図5を参照して、相談員データテーブル500の例を説明する。
相談員データテーブル500は、対応する相談員についての情報を含むデータレコードを含み、相談員ごとに一意なデータレコードを予め記憶している。図5に示すように、相談員データテーブル500は、データ項目として、電話番号フィールド501、氏名フィールド502、店舗フィールド503、プロフィールフィールド504、および担当エリアフィールド505を含む。
電話番号フィールド501は、ビデオ通話サービスに登録された相談員の電話番号を含む。氏名フィールド502は、対応する相談員の氏名を含む。店舗フィールド503は、対応する相談員が勤務する店舗(旅行代理店)の住所を含む。プロフィールフィールド504は、対応する相談員が設定したプロフィール(能力、経験など)を含む。担当エリアフィールド505は、対応する相談員が担当する(または、得意とする)旅行のエリアを含む。
ステップS205では、エリア選択電文が示すエリアおよび店舗フィールド503に設定された住所に基づいて、相談員データレコードが取得される。つまり、ユーザが選択した(居住している)エリア内の店舗に勤務する相談員に対応する相談員データレコードが取得される。例えば、ユーザが実際の店舗に訪問する必要があるときを考慮して、ユーザが居住しているエリア内の店舗に勤務する相談員が選択されるものとしている。
なお、本実施形態では、エリア選択画面300においてユーザが居住しているエリアを選択しているが、ユーザが旅行を希望しているエリアを選択するようにしてもよい。この場合、ステップS205では、ユーザが選択したエリアおよび担当エリアフィールド505に設定された住所に基づいて、相談員データレコードが取得される。つまり、ユーザが選択および/または入力した内容および相談員の属性を比較することによって、対応する相談員データレコードが取得される(候補となる相談員が選択される)。
次に、サーバコンピュータ1の制御装置11は、ステップS205において取得した相談員データレコードに記憶された情報を含む相談員選択画面を生成し、通信装置14を介してコンピュータデバイス2に送信する(ステップS206)。コンピュータデバイス2では、制御装置21は、通信装置24を介して相談員選択画面を受信し、表示装置26に表示する(エリア選択画面300から相談員選択画面に遷移する)(ステップS207)。相談員選択画面は、相談員データレコードに対応する情報をリスト化した、相談員リストを含む。
図6を参照して、相談員選択画面600の例を説明する。相談員選択画面600は、ユーザによる相談員の選択を受け付けるWebインタフェース画面である。つまり、相談員選択画面600は、複数の通話相手の候補から通話相手を選択するための候補選択画面である。図6に示すように、相談員選択画面600は、ステップS205において取得した相談員データレコードに対応する相談員の情報を含む相談員リスト601、および相談員を選択するための相談員選択ボタン602を含む。
なお、相談員リスト601は、サーバコンピュータ1から相談員データレコードに含まれるプロフィールなどの情報を含む(図6に示すように、各相談員に対応するサムネイル画像をサーバコンピュータ1に記憶し、サムネイル画像を相談員リスト601に含めてもよい)。図6に示した相談員リスト601に表示される相談員の情報は例示にすぎず、予め記憶された相談員の属性についての情報が表示されてもよい。
ユーザが相談員選択ボタン602(例えば、相談員A)を選択すると(選択した対話相手を相談員(第2のユーザ)として特定する)、コンピュータデバイス2の制御装置21は、通信装置24を介して相談員Aが使用するコンピュータデバイス3に、ステップS203において旅行内容入力画面400に入力された情報を含む電文(情報入力電文)を送信する(ステップS208)。情報入力電文は、例えば、旅行内容入力画面400に組み込まれたWebアプリケーションがビデオ通話API(例えば、SNSメッセージ送信API)を呼び出すことによって、SNSメッセージとして送信される(相談員Aの電話番号に対してチャット電文が送信される)。相談員Aの電話番号は、ステップS205において取得した相談員データレコードの電話番号フィールド501に設定された値から特定される。
上述した情報入力電文がコンピュータデバイス3に送信されるので、相談員Aは、自身が選択されたことを認識し、後述するビデオ通話を待機することができる。本実施形態では、相談員Aが相談内容(対話内容)の概要を事前に把握するために情報入力電文を送信しているが、例えば、相談員Aが選択されたことのみを示す通知電文が送信されてもよい。この通知電文は、チャット電文または電子メールの形式で送信されてもよい(電子メールが、コンピュータデバイス3に対して設定された電子メールアドレスに送信される)。
情報入力電文を送信すると、制御装置21は、表示装置26に通話可能表示画面を表示する(相談員選択画面600から通話可能表示画面に遷移する)(ステップS209)。
図7を参照して、通話可能表示画面700の例を説明する。通話可能表示画面700は、相談員Aとのビデオ通話を開始する入力を受け付けるWebインタフェース画面である。図7に示すように、通話可能表示画面700は、相談員Aとビデオ通話を開始するための通話開始ボタン701を含む。また、カメラ27を活性化する映像開始ボタン702およびマイク29を活性化する音声開始ボタン703を含む。
上述したように、本実施形態では、サーバコンピュータ4によって提供されるビデオ通話APIを利用する。ユーザが通話開始ボタン701を押下すると、制御装置21は、相談員Aに対応する電話番号に基づいて、相談員Aとビデオ通話を開始する(ステップS210)。つまり、電話番号Xから相談員の電話番号に発呼する。
このビデオ通話は、通話可能表示画面700に組み込まれたWebアプリケーションがビデオ通話API(例えば、発呼API)を呼び出すことによって、コンピュータデバイス3に発呼し、相談員Aが呼び出しに応答することによって開始する。コンピュータデバイス3の表示装置36には、着信画面(図示せず)が表示され、相談員Aが応答ボタンを押下することによって、コンピュータデバイス2とコンピュータデバイス3との間でビデオ通話が開始する。
ビデオ通話が開始すると、制御装置21は、表示装置26に通話画面を表示する(通話可能表示画面700から通話画面に遷移する)。また、コンピュータデバイス3では、制御装置31は、表示装置36に通話画面を表示する。
図8を参照して、コンピュータデバイス2の表示装置26に表示される通話画面800の例を説明する。通話画面800は、相談員Aとのビデオ通話の通話状態を表示するWebインタフェース画面である。また、図9を参照して、コンピュータデバイス3の表示装置36に表示される通話画面900の例を説明する。通話画面900は、ユーザとのビデオ通話の通話状態を表示するWebインタフェース画面である。
ビデオ通話は、初期状態(第1の状態)では、コンピュータデバイス2からコンピュータデバイス3への方向(つまり、ユーザから相談員Aへの方向)において、テキストデータのみを送信し、映像データおよび音声データは送信しない。一方、初期状態(第1の状態)では、コンピュータデバイス3からコンピュータデバイス2への方向(つまり、相談員Aからユーザへの方向)において、映像データ、音声データ、およびテキストデータを送信する。
上述した映像データ、音声データ、およびテキストデータを送信するか否かの制御は、通話画面800/900に組み込まれたWebアプリケーションが、ビデオ通話API(例えば、ビデオ送信APIおよび音声送信API)の呼び出しを制御することによって実行される。例えば、ビデオ送信APIを実行しない(非活性化する)と、カメラ27/37が非活性化される。同様に、音声送信APIを実行しない(非活性化する)と、マイク29/39が非活性化される。
初期状態は、コンピュータデバイス2からコンピュータデバイス3への方向においては、少なくともユーザが通話可能表示画面700または通話画面800に対して、カメラ27およびマイク29を活性化/非活性化する操作を行わない状態を指す。通話可能表示画面700の例では、映像開始ボタン702および音声開始ボタン703のいずれに対しても、ユーザが何ら操作を行わず、通話画面800の例では、後述する映像開始ボタン804および音声開始ボタン805のいずれに対しても、ユーザが何ら操作を行わない状態を指す。
同様に、初期状態は、コンピュータデバイス3からコンピュータデバイス2への方向においては、少なくとも相談員Aが上述した着信画面(図示せず)または通話画面900に対して、カメラ37およびマイク39を活性化/非活性化する操作を行わない状態を指す。着信画面の例では、カメラ37を非活性化するビデオ停止ボタン(図示せず)およびマイク39を非活性化する音声停止ボタン(図示せず)のいずれに対しても、相談員Aが何ら操作を行わず、通話画面900の例では、後述するビデオ停止ボタン904および音声停止ボタン905のいずれに対しても、相談員Aが何ら操作を行わない状態を指す。
図8に示すように、通話画面800(つまり、ユーザが相談員Aとのビデオ通話における通話状態を表示する画面)では、映像表示欄801は、相談員Aの顔を示す映像が表示される。この映像は、コンピュータデバイス3がカメラ37によって相談員Aの顔を撮像して生成した映像信号を映像データに変換し、コンピュータデバイス2に送信することによって表示装置26が表示する。また、相談員Aが発した音声は、コンピュータデバイス3がマイク39によって生成した音声信号を音声データに変換し、コンピュータデバイス2に送信することによってスピーカ28が出力する。
また、相談員Aは、チャット形式でテキストデータをコンピュータデバイス2に送信することができ、相談員Aが入力したテキストデータは、テキスト表示欄802に表示される(相談員Aは、コンピュータデバイス3の表示装置36に表示された通話画面900内のテキストデータ入力欄903(図9を参照)にテキストデータを入力することができる)。テキストデータは、上述したように、チャットアプリケーションを通じて送信される。
一方で、コンピュータデバイス2からコンピュータデバイス3への方向では、テキストデータのみを送信するので、図9に示すように、通話画面900(つまり、相談員Aがユーザとのビデオ通話における通話状態を表示する画面)では、映像表示欄901は、ユーザの映像が表示されない。また、ユーザが発した音声も、スピーカ38によって出力されない。
代わりに、ユーザは、チャット形式でテキストデータをコンピュータデバイス3に送信することができるので、ユーザが入力したテキストデータは、テキスト表示欄902に表示される(ユーザは、コンピュータデバイス2の表示装置26に表示された通話画面800内のテキストデータ入力欄803(図8を参照)にテキストデータを入力することができる)。テキストデータは、上述したように、チャットアプリケーションを通じて送信される。
上述したように、コンピュータデバイス2からコンピュータデバイス3への方向では、テキストデータのみが送信され、コンピュータデバイス3からコンピュータデバイス2への方向では、映像データ、音声データ、およびテキストデータが送信される。このような状態で、本実施形態に従って非対称ビデオ通話が開始する。
ユーザは、通話画面800に表示された映像開始ボタン804を押下することによって、カメラ27を活性化し、ユーザを撮像した映像に対応する映像データをコンピュータデバイス3に送信することができる。この場合、通話画面900内の映像表示欄901には、ユーザの映像が表示される。ビデオ通話が開始する前の通話可能表示画面700内で映像開始ボタン702を押下した場合も同様である。
また、ユーザは、通話画面800に表示された音声開始ボタン805を押下することによって、マイク29を活性化し、ユーザが発した音声に対応する音声データをコンピュータデバイス3に送信することができる。この場合、スピーカ38がユーザの音声を表示する。ビデオ通話が開始する前の通話可能表示画面700内で音声開始ボタン703を押下した場合も同様である。
通話可能表示画面700内の映像開始ボタン702および/もしくは音声開始ボタン703を押下した状態、または通話画面800内の映像開始ボタン804および/もしくは音声開始ボタン805を押下した状態を、第2の状態を指す。つまり、ビデオ通話は、第2の状態では、コンピュータデバイス2からコンピュータデバイス3への方向およびコンピュータデバイス3からコンピュータデバイス2への方向のいずれにおいても、映像および音声を通信する。
コンピュータデバイス3では、通話画面900内のビデオ停止ボタン904を押下することによって、カメラ37を非活性化し、相談員Aの映像に対応する映像データの送信を停止することができる。同様に、音声停止ボタン905を押下することによって、マイク39を非活性化し、相談員Aの音声に対応する音声データの送信を停止することができる。上述したカメラ/マイクを活性化/非活性化する制御は、通話画面800/通話画面900に組み込まれたWebアプリケーションが、ビデオ通話API(例えば、ビデオ送信APIおよび音声送信API)の呼び出しを制御することによって実行される。
少なくともコンピュータデバイス3では、制御装置31は、ボットを実行する。ボットとは、自動化されたタスクを実行するプログラムである。ボットを実行することによって、ユーザが、テキストデータ入力欄903に入力したテキストデータ(例えば、質問)に応答して、ボットがテキストデータを解析して、サーバコンピュータ1に問い合わせてもよい。サーバコンピュータ1は、例えば、解析したテキストデータの特定のキーワードに応じて、予め定められた回答(テキストデータ)を、コンピュータデバイス3を介してコンピュータデバイス2に返してもよい。この質問および回答に対応するテキストデータは、上述したように、チャットアプリケーションを通じて送信される。
上述した映像データ、音声データ、およびテキストデータは、送信側(コンピュータデバイス2からコンピュータデバイス3への通信の場合、コンピュータデバイス2が送信側、コンピュータデバイス3が受信側)において、IPに準拠してIPヘッダが付加されたIPパケットに変換される。
IPパケットは、音声データ/映像データの通信の場合、ACKによる受信側での受信確認および再送処理を行うTCP(Transmission Control Protocol)の代わりに、UDP(User Datagram Protocol)に準拠して送信されてもよい。UDPに従うと、伝送誤りが発生した場合に再送処理を行わないので、再送処理などに伴うオーバヘッドを削減することができる。
また、IPパケットは、特に映像データの通信の場合、UDPに加え、RTP(Real-time Transport Protocol)UDP/RTP)に準拠して送信されてもよい。RTPに従うと、送信側において、IPパケット単位でRTPシーケンス番号を付加するので、受信側においてシーケンス番号に基づいて映像を再構築することができる。
映像データおよび音声データは、伝送誤りが発生した場合でも、受信側で出力される映像および音声に乱れが生じるだけであるので、TCPによる再送処理を行うよりも、より低いオーバヘッドで送信する方が効率的である。
一方、テキストデータのみの場合、IPパケットは、TCPに準拠して送信されてもよい。テキストデータは、映像および音声と異なり、伝送誤りが発生した場合、データ全体が解読することができないレベルまで破損することがある。また、テキストデータは、映像および音声と比較して、データの容量が少ないので、TCPによる再送処理などに伴うオーバヘッドの影響も小さい。よって、TCPによる再送処理によって確実性を重視したものである。
以上のように本実施形態に係る非対称ビデオ通話システム100を説明した。本実施形態に係る非対称ビデオ通話システム100によれば、ユーザによるコマンド操作を必要とすることなしに、コンピュータデバイス3からコンピュータデバイス2への方向においてのみ、映像データおよび音声データを通信し、その逆方向においてはテキストデータのみを通信する。よって、2つのコンピュータデバイスが通信するデータの量を削減することができる。
本実施形態に係る非対称ビデオ通話システム100は、ユーザが相談員から説明を受けるようなケースなど、相談員がユーザに提供する情報が、ユーザが相談員に提供する情報よりもはるかに多いケースに適用されるので、非対称ビデオ通信でも十分な対話が成立する。相談員は、自身の顔だけでなく、旅行に関する資料なども映像を通じてユーザに提供することができるので、相談員は、例えば、ユーザからの質問に対して、映像を交えて十分な量の情報を提供することができる。
本実施形態に係る非対称ビデオ通話システム100によれば、ユーザはテキストのみを通信し、相談員の映像を閲覧し、相談員の音声を聞くことができる。よって、例えば、ユーザは、電車内でスマートフォンを使用し、スマートフォンにイヤフォンを取り付けることによって、何ら音声を周囲に漏らすことなく、相談員と相談することができる。
また、ユーザが、例えば、他人に自身の顔などを見せたくないような状態にあることもある。本実施形態に係る非対称ビデオ通話システム100によれば、ユーザの映像に対応する映像データを送信しないので、ユーザは自身の顔を他人に見せることなく、相談員との対話を実現することができる。
本実施形態では、ユーザが居住しているエリアなどに基づいて、候補となる相談員がリスト表示され、ユーザが複数の相談員から対応する相談員を選択することができるが、この構成は必須ではない。例えば、エリア選択画面300からエリアを選択すると、サーバコンピュータ4に登録された複数の相談員の電話番号に発呼し(ブロードキャスト)、応答した相談員との通話を開始してもよい。この場合、情報入力電文もブロードキャストされてもよく、または応答した相談員の電話番号に対してチャットメッセージとして送信されてもよい。
また、本実施形態では、既存のビデオ通話APIを利用しているが、例えば、WebRTC(Web Real-Time Communication)技術に準拠して、ビデオ通話を実装してもよい。この場合、サーバコンピュータ1は、WebRTC技術に準拠して、シグナリングサーバおよびSTUN (Session Traversal of User NAT)サーバなどを実装して。2つのコンピュータデバイスの間でビデオ通話を確立する。
更に、事業者Aがサーバコンピュータ4に登録した電話番号Xを使用して(つまり、ユーザ以外の電話番号)、相談員の電話番号に発呼する。このようにして、ユーザは、ビデオ通話サービスにアカウントなどを登録することなく、相談員とビデオ通話を行うことができる。
上記方式の場合、シグナリングサーバによって、2つのコンピュータデバイスの間で、アドレス情報に関する情報が共有される。また、STUNサーバによって、NAT(Network Address Translation)通過(NAT traversal)に対処し、2つのコンピュータデバイスの間で、ビデオ通話が確立される。
また、既存のSNSが提供するビデオ通話サービスを利用してビデオ通話を実装してもよい。このようなビデオ通話サービスは、例えば、LINE(登録商標)、Facebook(登録商標)Messengerなどを含む。これらのビデオ通話サービスは、SNSにアカウントを登録することによって利用することができる。
上記方式の場合、例えば、事業者Aは、特定のSNSにアカウントを登録する。アカウント(以下、アカウントY)は、サーバコンピュータ1に対して設定された電子メールアドレスなどにより登録される。ユーザは、アカウントYを使用して、相談員とビデオ通話を行う。各々の相談員も、SNSにアカウントを登録する。ビデオ通話は、アカウントYと相談員のアカウントとの間で実行される。
このような状態で、例えば、図5において説明したいずれかの画面遷移のときに、制御装置21が通信装置24を介して、SNSを実装するサーバコンピュータ(図示せず)に、アカウントYについてのアカウントIDなどの情報(つまり、ログイン情報)を送信することによって、SNSを起動して、SNSのアカウントYにログインする。SNSの起動によって、SNSのアカウントYにログインした状態でコンピュータデバイス2とコンピュータデバイス3とが、登録したアカウントを介してビデオ通話を実行することができる。
例えば、SNSを提供するLINEサービスでは、LINEサービスにログインした状態で、LINEサービスが提供するAPI(Application Program Interface)を利用することができる。本実施形態では、SNSにログインした状態で、SNSが提供するビデオ通話および関連するAPIを利用する。
上述したように、事業者AがSNSに登録したアカウントYを使用して(つまり、ユーザ以外のアカウント)SNSにログインし、SNSが提供するビデオ通話および関連するAPIを利用する。このようにして、ユーザは、SNSにアカウントを登録することなく、相談員とビデオ通話を行うことができる。また、既存のSNSを利用してビデオ通話を行うので、新たにビデオ通話を実装する必要もなくなる。
既存のSNSでは、別のSNSのアカウントを使用してログインすることができる(ソーシャルログインとも称される)。この場合、当該別のSNSにアカウントを登録する必要があるが、上記方式では、いかなるSNSへもアカウントを登録する必要なしに、相談員とビデオ通話を行うことができる。
上記実施形態で説明したハードウェアの構成要素は例示的なものにすぎず、その他の構成も可能であることに留意されたい。また、上記実施形態で説明した処理の順序は、必ずしも説明した順序で実行される必要がなく、任意の順序で実行されてもよい。さらに、本発明の基本的な概念から逸脱することなく、追加の処理が新たに加えられてもよい。
また、上記説明した実施形態は、コンピュータデバイス(プロセッサ)によって実行されるコンピュータプログラムによって実装されるが、当該コンピュータプログラムは、非一時的記憶媒体に記憶されてもよい。非一時的記憶媒体の例は、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリ装置、内蔵ハードディスクおよび取外可能ディスク装置などの磁気媒体、光磁気媒体、ならびにCD-ROMディスクおよびデジタル多用途ディスク(DVD)などの光学媒体などを含む。

Claims (11)

  1. 第1のユーザと第2のユーザとが対話するための、第1のコンピュータデバイスによって実行される方法であって、前記第1のコンピュータデバイスは、カメラ、マイク、表示装置、およびスピーカを含み、
    前記第2のユーザが使用する第2のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むIPパケットを交換することによってビデオ通話を確立するステップと、
    前記確立したビデオ通話において、第1の状態では、
    前記第2のコンピュータデバイスから、前記第2のユーザの映像に対応する映像データおよび/または前記第2のユーザが発した音声に対応する音声データを受信するステップと、
    前記受信した映像データを前記表示装置に表示し、および/または前記受信した音声データを前記スピーカから出力するステップと、
    前記第2のコンピュータデバイスに、前記第1のユーザの映像に対応する映像データおよび前記第1のユーザが発した音声に対応する音声データのいずれも送信することなく、前記第1のユーザが入力したテキストに対応するテキストデータを送信するステップと、を備え、
    前記第1の状態は、前記第1のユーザが、前記カメラを活性化する操作および前記マイクを活性化する操作のいずれも行っていない状態である、
    ことを特徴とする方法。
  2. 前記ビデオ通話は、ビデオ通話サービスによって提供されるビデオ通話APIを使用して、前記ビデオ通話サービスに登録された前記第1のユーザ以外の電話番号から、前記ビデオ通話サービスに登録された前記第2のユーザの電話番号に発呼することによって確立される、ことを特徴とする請求項1に記載の方法。
  3. 前記映像データおよび/または前記音声データは、UDPに準拠して受信される、ことを特徴とする請求項1または2に記載の方法。
  4. 前記映像データおよび/または前記音声データは、UDP/RTPに準拠して受信される、ことを特徴とする請求項1乃至3のいずれか一項に記載の方法。
  5. 前記テキストデータは、TCPに準拠して送信される、ことを特徴とする請求項1乃至4のいずれか一項に記載の方法。
  6. サーバコンピュータから、複数の対話相手の候補を表示した選択画面を受信するステップと、
    前記第1のユーザにより前記選択画面への選択に応じて、選択された対話相手を前記第2のユーザとして特定するステップと、
    を更に備えたことを特徴とする請求項1乃至5のいずれか一項に記載の方法。
  7. 前記サーバコンピュータに、前記第1のユーザが入力した所定の情報を送信するステップを更に備え、
    前記複数の対話相手の候補は、前記所定の情報と前記候補のそれぞれの属性との比較によって、前記選択画面に含まれる、
    ことを特徴とする請求項6に記載の方法。
  8. 前記ビデオ通話を確立する前に、前記第2のコンピュータデバイスに、前記第1のユーザが入力した対話内容を示す電文を送信するステップを更に備えた、ことを特徴とする請求項1乃至7のいずれか一項に記載の方法。
  9. 前記ビデオ通話を確立する前に、前記第2のコンピュータデバイスに、前記対話相手を選択したことを示す電文を送信するステップを更に備えた、ことを特徴とする請求項6または7に記載の方法。
  10. 第1のユーザと第2のユーザとが対話する第1のコンピュータデバイスであって、
    前記第2のユーザが使用する第2のコンピュータデバイスとの間で、映像データ、音声データ、およびテキストデータを含むIPパケットを交換することによってビデオ通話を確立し、
    前記確立したビデオ通話において、第1の状態では、
    前記第2のコンピュータデバイスから、前記第2のユーザの映像に対応する映像データおよび/または前記第2のユーザが発した音声に対応する音声データを受信し、
    前記受信した映像データを表示装置に表示し、および/または前記受信した音声データをスピーカから出力し、
    前記第2のコンピュータデバイスに、前記第1のユーザの映像に対応する映像データおよび前記第1のユーザが発した音声に対応する音声データのいずれも送信することなく、前記第1のユーザが入力したテキストに対応するテキストデータを送信し、
    前記第1の状態は、前記第1のユーザが、カメラを活性化する操作およびマイクを活性化する操作のいずれも行っていない状態である、
    ことを特徴とする第1のコンピュータデバイス。
  11. コンピュータ実行可能命令を含むコンピュータプログラムであって、前記コンピュータ実行可能命令は、プロセッサによって実行されると、コンピュータデバイスに、請求項1乃至9のいずれか一項に記載の方法を実行させる、ことを特徴とするコンピュータプログラム。
JP2020201182A 2020-12-03 2020-12-03 非対称ビデオ通話システムおよび非対称ビデオ通話方法 Pending JP2022089000A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020201182A JP2022089000A (ja) 2020-12-03 2020-12-03 非対称ビデオ通話システムおよび非対称ビデオ通話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020201182A JP2022089000A (ja) 2020-12-03 2020-12-03 非対称ビデオ通話システムおよび非対称ビデオ通話方法

Publications (1)

Publication Number Publication Date
JP2022089000A true JP2022089000A (ja) 2022-06-15

Family

ID=81987893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020201182A Pending JP2022089000A (ja) 2020-12-03 2020-12-03 非対称ビデオ通話システムおよび非対称ビデオ通話方法

Country Status (1)

Country Link
JP (1) JP2022089000A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07322229A (ja) * 1994-05-25 1995-12-08 Canon Inc ビデオ会議システム
JP2002024639A (ja) * 2000-07-06 2002-01-25 Kobayashi Pharmaceut Co Ltd オンラインショッピングシステム
JP2019117998A (ja) * 2017-12-27 2019-07-18 キヤノンマーケティングジャパン株式会社 ウェブ会議システム、ウェブ会議システムの制御方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07322229A (ja) * 1994-05-25 1995-12-08 Canon Inc ビデオ会議システム
JP2002024639A (ja) * 2000-07-06 2002-01-25 Kobayashi Pharmaceut Co Ltd オンラインショッピングシステム
JP2019117998A (ja) * 2017-12-27 2019-07-18 キヤノンマーケティングジャパン株式会社 ウェブ会議システム、ウェブ会議システムの制御方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ゼロからはじめる SKYPE スマートガイド, vol. 初版, JPN6022006304, 20 January 2017 (2017-01-20), pages 14 - 16, ISSN: 0004854245 *

Similar Documents

Publication Publication Date Title
JP7263442B2 (ja) モバイルアプリケーションのリアルタイム遠隔制御のためのシステムおよび方法
JP6723340B2 (ja) 業務状態をプロンプトする方法及び装置
US10827011B2 (en) Presence enhanced co-browsing customer support
JP5615922B2 (ja) 電話で見いだされるマッシュアップとプレゼンス
EP2852106B1 (en) Real time communication method, terminal device, real time communication server and system
EP3340564B1 (en) A system and method for quality-aware recording in large scale collaborate clouds
US9491124B2 (en) Remote control using instant messaging
AU2009240392B2 (en) Real-time communications over data forwarding framework
US20170091717A1 (en) Auto extraction of tasks from unstructured communications such as emails and messages
JP6501919B2 (ja) 音声チャットモード自己適応方法及び装置
US10225215B2 (en) Method and system for caching input content
US20160127282A1 (en) System and method of adding an anonymous participant to a chat session
US8386585B2 (en) Real-time communications over data forwarding framework
US10701116B2 (en) Method, computer-readable storage device and apparatus for establishing persistent messaging sessions
JP2015534677A (ja) インスタントメッセージングの方法、端末、サーバ及びシステム
JP2014155128A (ja) 管理システム、管理方法及びプログラム
JP2015180992A (ja) 情報処理システム、情報処理装置及びプログラム
JP4363942B2 (ja) サーバ、通信制御方法、および、プログラム
KR101342406B1 (ko) 통신 네트워크에서 가상 아이디를 이용한 대화 시스템 및 방법
JP2022089000A (ja) 非対称ビデオ通話システムおよび非対称ビデオ通話方法
US20110051915A1 (en) Community telephony brokerage system and techniques
US20220070231A1 (en) Information processing device, communication method, and communication system
US20160373504A1 (en) Method for sharing a digital content during communication
JP5311490B2 (ja) ウェブログシステム、ウェブログサーバ、通話ログ記録方法
US20220239618A1 (en) Answering systems and methods for voice to text transition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220823