JP2020136921A - Video call system and computer program - Google Patents
Video call system and computer program Download PDFInfo
- Publication number
- JP2020136921A JP2020136921A JP2019028411A JP2019028411A JP2020136921A JP 2020136921 A JP2020136921 A JP 2020136921A JP 2019028411 A JP2019028411 A JP 2019028411A JP 2019028411 A JP2019028411 A JP 2019028411A JP 2020136921 A JP2020136921 A JP 2020136921A
- Authority
- JP
- Japan
- Prior art keywords
- user
- interpreter
- face
- voice
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004590 computer program Methods 0.000 title claims description 11
- 238000004891 communication Methods 0.000 claims abstract description 64
- 230000008451 emotion Effects 0.000 claims description 13
- 230000001815 facial effect Effects 0.000 claims description 4
- 210000003128 head Anatomy 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 abstract 2
- 230000004044 response Effects 0.000 description 13
- 239000004973 liquid crystal related substance Substances 0.000 description 11
- 238000001514 detection method Methods 0.000 description 7
- 230000003213 activating effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 230000008921 facial expression Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、ビデオ通話システム、およびコンピュータプログラムに関する。 The present invention relates to a video call system and a computer program.
従来から、通訳者に対してビデオ通話を介して通訳を依頼する通訳サービスが知られている(例えば、特許文献1参照)。 Conventionally, an interpreter service for requesting an interpreter to interpret via a video call has been known (see, for example, Patent Document 1).
そして、近年訪日外国人が増加しており、外国人の旅行者が、クラウドソーシングで働く通訳者とのクラウド通訳を利用して旅行を楽しむ機会が増えている。 In recent years, the number of foreign visitors to Japan has increased, and foreign travelers have more opportunities to enjoy traveling by using cloud interpreters with interpreters who work in crowdsourcing.
また、近年のインバウンドを利用して在宅ワーカーである通訳者がクラウド通訳サービスにおいて通訳者となることが多く見られるようになっている。 In recent years, it has become common for interpreters who are home-based workers to become interpreters in cloud interpretation services by using inbound tourism.
しかしながら、前述のとおり、クラウド通訳にたずさわる通訳者として在宅ワーカーが増えており、通訳者の服装あるいは背景(環境)が適切とはいえない状況が散見されるようになっている。 However, as mentioned above, the number of home-based workers is increasing as interpreters involved in cloud interpretation, and there are some situations in which the clothes or background (environment) of the interpreter is not appropriate.
特に、通訳者の背景から通訳依頼者に通訳者の生活感が見えてしまう場合には、通訳者にとっても通訳依頼者にとっても好ましい状況とはいえなかった。 In particular, when the interpreter's background gives the interpreter a sense of life, it is not a favorable situation for both the interpreter and the interpreter.
また、通訳者が女性である場合には、家にいるにもかかわらず通訳のために化粧をする必要があり、通訳者になることをためらう場合があった。 In addition, when the interpreter was a woman, she had to put on makeup for the interpreter even though she was at home, and she sometimes hesitated to become an interpreter.
したがって、在宅ワーカーである通訳者が顔、服装、環境などを気にすることなく通訳業務を行うことのできる仕組みが求められていた。この問題は、クラウド通訳に限らず、他の分野のビデオ通話についても同様に当てはまる。 Therefore, there has been a demand for a mechanism that allows an interpreter who is a home worker to perform interpreting work without worrying about the face, clothes, environment, and the like. This issue applies not only to cloud interpreters, but also to video calls in other areas.
さらには、従来のビデオ通話システムにおいては、通訳者の装置と通訳依頼者の装置との間でデータ量の大きい映像情報が送受信されるため、多くの通信帯域が必要となり、サーバ装置の処理負荷が大きくなってしまう。そのため、リアルタイムでの通信ができなくなったり、通訳者と通訳依頼者との間の通信が途切れてしまったりする場合があった。 Furthermore, in a conventional video communication system, since video information with a large amount of data is transmitted and received between the interpreter's device and the interpreter's device, a large amount of communication band is required, and the processing load of the server device is increased. Becomes large. As a result, real-time communication may not be possible, or communication between the interpreter and the interpreter requester may be interrupted.
本発明の目的は、処理負荷が小さく、在宅ワーカーが顔および環境などを気にすることなくサービスを提供することができるビデオ通話システムを提供することである。 An object of the present invention is to provide a video call system having a small processing load and capable of providing a service to a home worker without worrying about the face and the environment.
第1の発明は、
通信ネットワークによって互いに接続されるとともに各ユーザの操作を受けつける複数のユーザ装置を備えるビデオ通話システムであって、
少なくとも1つの前記ユーザ装置である第1ユーザ装置は、
前記第1ユーザ装置を操作する前記ユーザである第1ユーザの顔画像を撮影する撮影手段、
前記第1ユーザの音声を入力する音声入力手段、
撮影された前記第1ユーザの前記顔画像から前記第1ユーザの顔の部位に関する顔情報を生成する顔情報生成手段、および
少なくとも前記第1ユーザの前記顔情報および前記音声を、前記複数のユーザ装置のうち前記第1ユーザ装置以外の第2ユーザ装置へ送信する通信手段、
を備え、
前記第2ユーザ装置は、
前記第1ユーザ装置から送信された前記第1ユーザの前記顔情報に基づいて前記第1ユーザのアバター画像を生成するとともに出力するアバター画像生成手段、および
前記第1ユーザの前記音声を出力する音声出力手段、
を備える、
ビデオ通話システムである。
The first invention is
A video communication system including a plurality of user devices that are connected to each other by a communication network and receive operations of each user.
The first user device, which is at least one of the user devices,
A photographing means for capturing a face image of the first user who operates the first user device,
A voice input means for inputting the voice of the first user,
A face information generating means for generating face information regarding a face portion of the first user from the photographed face image of the first user, and at least the face information and the voice of the first user are used by the plurality of users. A communication means for transmitting to a second user device other than the first user device among the devices,
With
The second user device is
An avatar image generation means that generates and outputs an avatar image of the first user based on the face information of the first user transmitted from the first user device, and a voice that outputs the voice of the first user. Output means,
To prepare
It is a video call system.
また、第1の発明において、
前記第1ユーザ装置は、通訳の依頼を受けた通訳者によって操作され、
前記第2ユーザ装置は、前記通訳者に通訳を依頼する通訳依頼者によって操作されてもよい。
Further, in the first invention,
The first user device is operated by an interpreter who has been requested to interpret.
The second user device may be operated by an interpreter requester who requests the interpreter to interpret.
また、第1の発明において、
前記顔情報は、少なくとも、前記第1ユーザの前記顔の部位である口の開け閉めの有無、目の開け閉めの有無、ならびに、頭の傾きおよび回転に関する顔認証情報であってもよい。
Further, in the first invention,
The face information may be at least face recognition information regarding the presence / absence of opening / closing of the mouth, the presence / absence of opening / closing of eyes, and the inclination and rotation of the head, which are the parts of the face of the first user.
また、第1の発明において、
前記アバター画像生成手段は、前記顔認証情報に基づいて、3次元モデルで構成される前記アバター画像において対応する目、口、および顔の頂点位置を変動させて前記アバター画像を生成してもよい。
Further, in the first invention,
The avatar image generation means may generate the avatar image by varying the positions of the apex of the eyes, mouth, and face corresponding to the avatar image composed of the three-dimensional model based on the face recognition information. ..
また、第1の発明において、
前記顔情報生成手段は、前記第1ユーザの前記顔情報および前記音声の少なくともいずれか一方に基づいて前記第1ユーザの感情を表現するための感情情報を生成し、
前記アバター画像生成手段は、前記顔情報に加えて前記感情情報に基づいて前記第1ユーザの前記アバター画像を生成してもよい。
Further, in the first invention,
The face information generating means generates emotion information for expressing the emotion of the first user based on at least one of the face information of the first user and the voice.
The avatar image generation means may generate the avatar image of the first user based on the emotion information in addition to the face information.
第2の発明は、
コンピュータ装置を、
前記コンピュータ装置を操作するユーザの顔画像を撮影する撮影手段、
前記ユーザの音声を入力する音声入力手段、
他のコンピュータ装置において前記ユーザのアバター画像を生成するために、撮影された前記ユーザの前記顔画像から前記ユーザの顔の部位に関する顔情報を生成する顔情報生成手段、および
少なくとも前記ユーザの前記顔情報および前記音声を、前記他のコンピュータ装置へ送信する通信手段、
として機能させる、
コンピュータプログラムである。
The second invention is
Computer equipment,
A photographing means for capturing a facial image of a user who operates the computer device,
A voice input means for inputting the user's voice,
A face information generating means for generating face information regarding a part of the user's face from the photographed face image of the user in order to generate an avatar image of the user in another computer device, and at least the face of the user. A communication means for transmitting information and the voice to the other computer device,
To function as
It is a computer program.
第3の発明は、
コンピュータ装置を、
ユーザの操作に基づいて、他のコンピュータ装置から前記他のコンピュータ装置を操作する他ユーザについて前記他のコンピュータ装置で撮影された前記他ユーザの顔画像から生成された前記他ユーザの顔の部位に関する顔情報および音声を受信する通信手段、
前記顔情報に基づいて前記他ユーザのアバター画像を生成するとともに出力するアバター画像生成手段、および
前記他ユーザの前記音声を出力する音声出力手段、
として機能させる、
コンピュータプログラムである。
The third invention is
Computer equipment,
Regarding the other user who operates the other computer device from the other computer device based on the user's operation, the face portion of the other user generated from the face image of the other user taken by the other computer device. Communication means for receiving face information and voice,
An avatar image generation means that generates and outputs an avatar image of the other user based on the face information, and a voice output means that outputs the voice of the other user.
To function as
It is a computer program.
第4の発明は、
コンピュータ装置を、
ユーザの操作に基づいて、他のコンピュータ装置から前記他のコンピュータ装置を操作する他ユーザについて前記他のコンピュータ装置で撮影された前記他ユーザの顔画像および音声を受信する通信手段、
前記他のコンピュータ装置から受信した前記他ユーザの前記顔画像から前記他ユーザの顔の部位に関する顔情報を生成する顔情報生成手段、
前記顔情報に基づいて前記他ユーザのアバター画像を生成するとともに出力するアバター画像生成手段、および
前記他ユーザの前記音声を出力する音声出力手段、
として機能させる、
コンピュータプログラムである。
The fourth invention is
Computer equipment,
A communication means for receiving a face image and voice of the other user taken by the other computer device for another user who operates the other computer device from the other computer device based on the user's operation.
A face information generating means for generating face information regarding a face portion of the other user from the face image of the other user received from the other computer device.
An avatar image generation means that generates and outputs an avatar image of the other user based on the face information, and a voice output means that outputs the voice of the other user.
To function as
It is a computer program.
本発明によれば、処理負荷が小さく、在宅ワーカーが顔および環境などを気にすることなくサービスを提供することができるビデオ通話システムを提供することができる。 According to the present invention, it is possible to provide a video call system in which a processing load is small and a home worker can provide a service without worrying about the face and the environment.
[実施形態]
本発明の実施の形態にかかるビデオ通話システム1について、図1〜図5を参照して説明する。
[Embodiment]
The video communication system 1 according to the embodiment of the present invention will be described with reference to FIGS. 1 to 5.
<ビデオ通話システム1の説明>
本発明のビデオ通話システム1は、図1のとおり、サーバ装置2と、複数の通訳者端末(第1ユーザ装置)3と、複数の通訳依頼者端末(第2ユーザ装置)4とを備える。
<Explanation of video call system 1>
As shown in FIG. 1, the video communication system 1 of the present invention includes a server device 2, a plurality of interpreter terminals (first user device) 3, and a plurality of interpreter requester terminals (second user device) 4.
サーバ装置2は、通訳者端末3および通訳依頼者端末4と通信ネットワーク5を介して接続される。
The server device 2 is connected to the
そして、サーバ装置2は、通訳者端末3と通訳依頼者端末4との間で映像(画像)および音声を送受信する。これにより、通訳者端末3と通訳依頼者端末4との間でビデオ通話が提供される。
Then, the server device 2 transmits / receives video (image) and audio between the
通訳者端末3は、通訳者(第1ユーザ)の操作を受けつける操作部を備えるとともに、通訳依頼者端末4およびサーバ装置2と通信ネットワーク5を介して接続される。
The
通訳依頼者端末4は、通訳依頼者(第2ユーザ)の操作を受けつける操作部を備えるとともに、通訳者端末3およびサーバ装置2と通信ネットワーク5を介して接続される。
The interpreter requester
<ハードウェア構成>
以下、図2〜図4を参照して、サーバ装置2の機能構成、ビデオ通話処理が提供される通訳者端末3の機能構成、および通訳依頼者端末4の機能構成について説明する。
<Hardware configuration>
Hereinafter, with reference to FIGS. 2 to 4, the functional configuration of the server device 2, the functional configuration of the
なお、各通訳者および各通訳依頼者には、それぞれ異なるアカウント(識別情報)が付与される。 A different account (identification information) is assigned to each interpreter and each interpreter requester.
各通訳者端末3が通信ネットワーク5を介してサーバ装置2と通信を行う場合には、通訳者端末3からサーバ装置2へ通訳者のアカウントが送信される。
When each
また、各通訳依頼者端末4が通信ネットワーク5を介してサーバ装置2と通信を行う場合には、通訳依頼者端末4からサーバ装置2へ通訳依頼者のアカウントが送信される。
Further, when each interpreter requester
送信されたアカウントは、サーバ装置2において所定の認証がなされる。これにより、通訳者端末3または通訳依頼者端末4とサーバ装置2との通信が可能となる。その結果、通訳者端末3と通訳依頼者端末4との通信が可能となる。
The transmitted account is subjected to predetermined authentication on the server device 2. As a result, communication between the
<サーバ装置2の説明>
サーバ装置2は、図2のとおり、制御部20、記憶部21、および、ネットワークインターフェース22を備える。
<Explanation of server device 2>
As shown in FIG. 2, the server device 2 includes a
記憶部21およびネットワークインターフェース22は、バス200を介してサーバ装置2の制御部20に接続される。
The
制御部20は、サーバ装置2の動作を制御する。
The
記憶部21は、主にHDD(Hard Disk Drive)、RAM(Random Access Memory)およびROM(Read Only Memory)で構成される。
The
この記憶部21には、通訳者の氏名、通訳可能言語、通訳業務の担当可能な時間帯、詳しい地域等、通訳者の登録情報が記憶されている。
The
また、記憶部21には、通訳依頼者の氏名、所在地、通訳依頼者が選択したサービスプラン等、通訳依頼者の登録情報が記憶されている。
Further, the
ネットワークインターフェース22は、サーバ装置2と通訳者端末3あるいは通訳依頼者端末4との間でデータを送受信するために、通信ネットワーク5に接続される。
The
<サーバ装置2の制御部20の機能構成>
サーバ装置2の制御部20は、所定のプログラムを実行することにより、通訳者管理手段201、通訳依頼者管理手段202、サービス管理手段203、および通信手段204として機能する。
<Functional configuration of
The
<通訳者管理手段201の説明>
通訳者管理手段201は、通訳者端末3から送信される通訳者のアカウントを用いて、通訳者のアカウントの認証を行う。
<Explanation of interpreter management means 201>
The interpreter management means 201 authenticates the interpreter's account by using the interpreter's account transmitted from the
また、通訳者管理手段201は、通訳者端末3から送信された通訳者の登録情報を記憶部21に記憶させる。この登録情報は、通訳者の操作に基づいて事前に設定される。
Further, the interpreter management means 201 stores the registered information of the interpreter transmitted from the
また、通訳者管理手段201は、通訳依頼者端末4からの通訳依頼に関する情報を受信したあと、記憶部21から各通訳者の登録情報を読み出し、サービス管理手段203へ送信する。
Further, the interpreter management means 201 reads the registration information of each interpreter from the
<通訳依頼者管理手段202の説明>
通訳依頼者管理手段202は、通訳依頼者端末4から送信される通訳依頼者のアカウントを用いて、通訳依頼者のアカウントの認証を行う。
<Explanation of interpreter requester management means 202>
The interpreter requester management means 202 authenticates the account of the interpreter requester by using the account of the interpreter requester transmitted from the
また、通訳依頼者管理手段202は、通訳依頼者端末4からの通訳依頼に関する情報を受信したあと、通訳依頼者端末4から送信された通訳依頼者の登録情報を記憶部21に記憶させる。この登録情報は、事前に、あるいは、通訳依頼時に通訳依頼者の操作に基づいて設定される。
Further, the interpreter requester management means 202 stores the registration information of the interpreter requester transmitted from the
また、通訳依頼者管理手段202は、記憶部21から通訳依頼者の登録情報を読み出し、サービス管理手段203へ送信する。
Further, the interpreter requester management means 202 reads the registration information of the interpreter requester from the
<サービス管理手段203の説明>
サービス管理手段203は、通訳依頼者管理手段202を介して通訳依頼者端末4からの通訳依頼に関する情報を受信する。この通訳依頼に関する情報には、通訳依頼者の所在地、選択言語等の情報が含まれている。
<Explanation of service management means 203>
The service management means 203 receives information regarding the interpretation request from the
また、サービス管理手段203は、通訳依頼者端末4から通訳依頼に関する情報を受信したあと、通訳者管理手段201を介して受信した通訳者の登録情報(通訳可能言語、通訳業務担当可能時間帯)を参照して、対応可能な通訳者を選定する。通訳者が選定されたあと、サービス管理手段203は、通訳依頼者からの通訳依頼(コール)を、選定された通訳者の通訳者端末3に送信する。その後、通訳者端末3と通訳依頼者端末4との通信接続が確立される。
Further, the service management means 203 receives the information related to the interpreter request from the
また、サービス管理手段203は、通訳者端末3および通訳依頼者端末4のいずれかにおいて通話切断が行われた場合に、サービス利用時間等を算出し、サービス料金等を算出する。
Further, the service management means 203 calculates the service usage time and the like and calculates the service charge and the like when the call is disconnected at either the
また、サービス管理手段203は、通訳者端末3および通訳依頼者端末4のいずれかの通信状況の悪化等により通信が遮断された場合には、通訳者および通訳依頼者のアカウントを記憶部21から読み出し、自動的に、あるいは、通訳者などの操作に基づいて、再接続を試みる。
In addition, the service management means 203 stores the accounts of the interpreter and the interpreter requester from the
<通信手段204の説明>
通信手段204は、通訳者のアカウント、通訳者の登録情報、通訳応答に関する情報、通訳者の顔認証情報(後述)、および音声情報などを通訳者端末3から受信する。
<Explanation of communication means 204>
The communication means 204 receives the interpreter's account, the interpreter's registration information, the information on the interpreter response, the interpreter's face recognition information (described later), the voice information, and the like from the
また、通信手段204は、通訳依頼者のアカウント、通訳依頼者の登録情報、通訳依頼に関する情報、通訳依頼者の映像情報、および音声情報などを通訳依頼者端末4から受信する。
Further, the communication means 204 receives the account of the interpreter requester, the registration information of the interpreter requester, the information related to the interpreter request, the video information of the interpreter requester, the audio information, and the like from the
また、通信手段204は、通訳者の顔認証情報、および音声情報などを通訳依頼者端末4へ送信する。
Further, the communication means 204 transmits the face authentication information of the interpreter, voice information, and the like to the
また、通信手段204は、通訳依頼者の映像情報、および音声情報などを通訳者端末3へ送信する。
Further, the communication means 204 transmits the video information and audio information of the interpreter requester to the
<通訳者端末3の説明>
通訳者端末3は、例えば、ラップトップコンピュータである。
<Explanation of
The
また、通訳者端末3は、サーバ装置2および通訳依頼者端末4との間で、インターネットあるいはLANなどの通信ネットワーク5を介して互いにデータ通信をすることができる。これにより、通訳者端末3において、サーバ装置2を介して通訳依頼者端末4との間のビデオ通話が提供される。
Further, the
また、通訳者端末3は、図3のとおり、制御部30、記憶部31、ネットワークインターフェース32、撮影部33、音声入力部34、グラフィック処理部35、オーディオ処理部36、および操作部37を備える。
Further, as shown in FIG. 3, the
記憶部31、ネットワークインターフェース32、撮影部33、音声入力部34、グラフィック処理部35、オーディオ処理部36、および操作部37は、バス300を介して通訳者端末3の制御部30に接続される。
The
制御部30は、通訳者端末3の動作を制御する。
The
記憶部31は、主にHDD、RAMおよびROMで構成される。
The
ネットワークインターフェース32は、通訳者端末3とサーバ装置2あるいは通訳依頼者端末4との間でデータを送受信するために、通信ネットワーク5に接続される。
The
撮影部33は、カメラ330と接続されている。このカメラ330によって通訳者の映像が取得される。
The photographing
音声入力部34は、マイク340と接続されている。このマイク340によって通訳者の音声が取得される。
The
グラフィック処理部35は、液晶画面350と接続されている。液晶画面350には、通訳依頼者の映像が表示される。
The
オーディオ処理部36は、スピーカ360と接続されている。スピーカ360からは、通訳依頼者の音声が出力される。
The
操作部37は、キーボードおよびマウス370(以下、「キーボード等」370という。)と接続されている。本実施形態において操作部37には、入力検出装置であるキーボード等370を介して通訳者からの操作信号が入力される。通訳者はキーボード等370を操作することで、通訳応答、通話切断等を行う。
The
<通訳者端末3の制御部30の機能構成>
通訳者端末3の制御部30は、所定のプログラムを実行することにより、通話応答手段301、撮影手段302、音声入力手段303、顔情報生成手段304、映像出力手段305、音声出力手段306、および通信手段307として機能する。
<Functional configuration of
By executing a predetermined program, the
<通話応答手段301の説明>
通話応答手段301は、通訳者の操作に基づいて、サーバ装置2によって振り分けられた、通訳依頼者からのコールを受信(通訳応答)する。具体的には、液晶画面350に表示された「応答」ボタンをユーザが操作することで、通訳応答が行われる。
<Explanation of call answering means 301>
The call answering means 301 receives a call from the interpreter requester (interpreter answer) distributed by the server device 2 based on the operation of the interpreter. Specifically, the interpreter response is performed by the user operating the "response" button displayed on the
<撮影手段302の説明>
撮影手段302は、通訳者が通訳応答を行ったことに基づいて、通訳者の映像を撮影する。具体的には、撮影手段302は、カメラ330を起動させるための情報を撮影部33へ送信する。これにより、通訳者の映像情報が取得される。
<Explanation of photographing
The photographing means 302 photographs the image of the interpreter based on the fact that the interpreter has made an interpreter response. Specifically, the photographing means 302 transmits information for activating the
<音声入力手段303の説明>
音声入力手段303は、通訳者が通訳応答を行ったことに基づいて、通訳者の音声を取得する。具体的には、音声入力手段303は、マイク340を起動させるための情報を音声入力部34へ送信する。これにより、通訳者の音声情報が取得される。
<Explanation of voice input means 303>
The voice input means 303 acquires the voice of the interpreter based on the fact that the interpreter has made an interpreter response. Specifically, the voice input means 303 transmits information for activating the
<顔情報生成手段304の説明>
顔情報生成手段304は、通訳者の映像情報を解析し、通訳者の顔の部位に関する顔情報を生成する。
<Explanation of face information generation means 304>
The face information generation means 304 analyzes the video information of the interpreter and generates face information regarding the facial part of the interpreter.
本実施形態において、顔情報は、例えば、通訳者の顔の部位である口の開け閉めの有無、目の開け閉めの有無、ならびに、頭の傾きおよび回転などに関する顔認証情報である。この顔認証情報を生成するにあたっては、例えば、ディープラーニングを用いたオープンソースライブラリを利用することができる。このオープンソースライブラリにより、ディープランニングで蓄積された情報に基づいて口の開け閉めの有無などの判定が行われる。 In the present embodiment, the face information is, for example, face recognition information regarding the presence / absence of opening / closing of the mouth, which is a part of the face of the interpreter, the presence / absence of opening / closing of eyes, and the inclination and rotation of the head. In generating this face recognition information, for example, an open source library using deep learning can be used. With this open source library, it is determined whether or not the mouth is opened or closed based on the information accumulated by deep running.
また、顔情報生成手段304は、顔認証情報に基づく通訳者の表情および通訳者の声の抑揚等から通訳者の感情情報を生成する。 Further, the face information generating means 304 generates emotion information of the interpreter from the facial expression of the interpreter and the intonation of the voice of the interpreter based on the face recognition information.
顔情報生成手段304は、例えば、通訳者の声のトーンが高い場合には、通訳者が楽しそうに説明している状態となるよう感情情報を生成する。また、所定の場合には、顔情報生成手段304は、アバター映像の周辺にハートマークあるいはエクスクラメーションマークなどを生成するための情報を生成する。これらの感情情報をアバター映像に反映させることで、アバター映像の表情を豊かにすることができる。 For example, when the tone of the interpreter's voice is high, the face information generating means 304 generates emotional information so that the interpreter is in a state of having fun explaining. Further, in a predetermined case, the face information generating means 304 generates information for generating a heart mark, an exclamation mark, or the like around the avatar image. By reflecting these emotional information in the avatar image, the facial expression of the avatar image can be enriched.
そして、顔情報生成手段304は、顔認証情報を、後述の通信手段307を介してサーバ装置2へ送信する。 Then, the face information generation means 304 transmits the face authentication information to the server device 2 via the communication means 307 described later.
<映像出力手段305の説明>
映像出力手段305は、通訳者が通訳応答を行ったことに基づいて、通訳依頼者端末4から送信された通訳依頼者の映像を出力する。具体的には、映像出力手段305は、液晶画面350に通訳依頼者の映像を表示させるための情報をグラフィック処理部35へ送信する。これにより、通訳依頼者の映像が液晶画面350に表示される。
<Explanation of video output means 305>
The video output means 305 outputs the video of the interpreter requester transmitted from the
<音声出力手段306の説明>
音声出力手段306は、通訳者が通訳応答を行ったことに基づいて、通訳依頼者端末4から送信された通訳依頼者の音声を出力する。具体的には、音声出力手段306は、スピーカ360から通訳依頼者の音声を出力させるための情報をオーディオ処理部36へ送信する。これにより、通訳依頼者の音声がスピーカ360から出力される。
<Explanation of audio output means 306>
The voice output means 306 outputs the voice of the interpreter requester transmitted from the
<通信手段307の説明>
通信手段307は、通訳依頼に関する情報、通訳依頼者の映像情報および音声情報などをサーバ装置2から受信する。
<Explanation of communication means 307>
The communication means 307 receives information related to the interpreter request, video information and audio information of the interpreter requester from the server device 2.
また、通信手段307は、通訳応答に関する情報、通訳者の顔認証情報および音声情報などをサーバ装置2へ送信する。 Further, the communication means 307 transmits information related to the interpreter response, face authentication information of the interpreter, voice information, and the like to the server device 2.
<通訳依頼者端末4の説明>
通訳依頼者端末4は、例えば、スマートフォン、タブレットなどの端末装置である。
<Explanation of
The interpreter requester
また、通訳依頼者端末4は、サーバ装置2および通訳者端末3との間で、インターネットあるいはLANなどの通信ネットワーク5を介して互いにデータ通信をすることができる。これにより、通訳依頼者端末4において、サーバ装置2を介して通訳者端末3との間のビデオ通話が提供される。
Further, the
通訳依頼者端末4は、図4のとおり、制御部40、記憶部41、ネットワークインターフェース42、撮影部43、音声入力部44、グラフィック処理部45、オーディオ処理部46、操作部47、および位置情報検出部48を備える。
As shown in FIG. 4, the
記憶部41、ネットワークインターフェース42、撮影部43、音声入力部44、グラフィック処理部45、オーディオ処理部46、操作部47、および位置情報検出部48は、バス400を介して、制御部40に接続される。
The
制御部40は、通訳依頼者端末4の動作を制御する。
The
記憶部41は、主にHDD、RAMおよびROMで構成される。
The
ネットワークインターフェース42は、通訳依頼者端末4とサーバ装置2あるいは通訳者端末3との間でデータを送受信するために、通信ネットワーク5に接続される。
The
撮影部43は、カメラ430と接続されている。このカメラ430によって通訳依頼者の映像が取得される。
The photographing
音声入力部44は、マイク440と接続されている。このマイク440によって通訳依頼者の音声が取得される。
The
グラフィック処理部45は、液晶画面450と接続されている。液晶画面450には、通訳者のアバター映像が表示される。
The
オーディオ処理部46は、スピーカ460と接続されている。スピーカ460からは、通訳者の音声が出力される。
The
操作部47は、タッチパッド470と接続されている。本実施形態において操作部47には、入力位置検出装置であるタッチパッド470を介して通訳依頼者からの操作信号が入力される。通訳依頼者はタッチパッド470を操作することで、通訳依頼、通話切断等を行う。
The
位置情報検出部48は、例えば、GPS受信機であって、通訳依頼者端末4の現在位置を示す位置情報(例えば、経度および緯度)を検出する。
The position
<通訳依頼者端末4の制御部40の機能構成>
通訳依頼者端末4の制御部40は、通訳アプリケーションを起動することで、通訳依頼手段401、撮影手段402、音声入力手段403、アバター画像生成手段404、音声出力手段405、位置情報検出手段406、および通信手段407として機能する。
<Functional configuration of the
By activating the interpreting application, the
通訳アプリケーションは、通訳依頼者によってダウンロードされたのち、サーバ装置2に対し、通訳依頼者が氏名、国籍、サービスプランなどの登録を行うことで利用可能となる。通訳依頼者が必要な情報を登録したのちは、サーバ装置2よりID(アカウント)、パスワードが通訳依頼者端末4へ送信される。通訳依頼者はこのID等を入力することによって通訳アプリケーションにログインすることができる。
After being downloaded by the interpreter requester, the interpreter application can be used by the interpreter requester registering the name, nationality, service plan, etc. in the server device 2. After the interpreter requester registers the necessary information, the server device 2 transmits the ID (account) and password to the
<通訳依頼手段401の説明>
通訳依頼手段401は、通訳依頼者の操作に基づいて、通訳アプリケーションを起動したのち、サーバ装置2対して通訳依頼を行う。具体的には、液晶画面450に表示された「通訳依頼」ボタンが表示されている位置に対応するタッチパッド470をユーザがタッチすることで、通訳依頼が行われる。
<Explanation of interpreter request means 401>
The interpreter request means 401 starts the interpreter application based on the operation of the interpreter requester, and then makes an interpreter request to the server device 2. Specifically, the interpretation request is made by the user touching the
<撮影手段402の説明>
撮影手段402は、通訳依頼者が通訳依頼を行ったことに基づいて、通訳依頼者の映像を撮影する。具体的には、撮影手段402は、カメラ430を起動させるための情報を撮影部43へ送信する。これにより、通訳依頼者の映像情報が取得される。
<Explanation of photographing
The photographing means 402 captures an image of the interpreter requester based on the interpreter requester's request for interpretation. Specifically, the photographing means 402 transmits information for activating the
<音声入力手段403の説明>
音声入力手段403は、通訳依頼者が通訳依頼を行ったことに基づいて、通訳依頼者の音声を取得する。具体的には、音声入力手段403は、マイク440を起動させるための情報を音声入力部44へ送信する。これにより、通訳依頼者の音声情報が取得される。
<Explanation of voice input means 403>
The voice input means 403 acquires the voice of the interpreter requester based on the interpreter requester's request for interpretation. Specifically, the voice input means 403 transmits information for activating the
<アバター画像生成手段404の説明>
アバター画像生成手段404は、通訳者端末3から送信された通訳者の顔認証情報に基づいて3Dモデル(3次元モデル)で構成されるアバター映像を生成する。
<Explanation of avatar image generation means 404>
The avatar image generation means 404 generates an avatar image composed of a 3D model (three-dimensional model) based on the face recognition information of the interpreter transmitted from the
具体的には、アバター画像生成手段404は、サーバ装置2を介して通訳者端末3から送信された通訳者の顔認証情報および感情情報を、あらかじめ用意されたアバターの3Dモデルに対応させて、通訳者のアバター映像を生成する。
Specifically, the avatar image generation means 404 makes the face recognition information and emotion information of the interpreter transmitted from the
アバターの3Dモデルには、例えば通訳者の口が開いた場合に3Dモデルの口の頂点位置を所定の位置に移動させるシェイプキーが保存されている。これにより、アバター画像生成手段404は、通訳者が口を開いたり、目を閉じたり、顔を振ったりすることに対応して、アバターが口を開いたり、目を閉じたり、顔を振ったりする状態を描画することが可能となる。なお、例えばアバターの口が開いた状態から閉じた状態までの描画はモーフィングを行うことにより実現することができる。 The 3D model of the avatar stores, for example, a shape key that moves the apex position of the mouth of the 3D model to a predetermined position when the interpreter's mouth is opened. As a result, the avatar image generation means 404 responds to the interpreter opening his mouth, closing his eyes, and shaking his face, so that the avatar opens his mouth, closes his eyes, and shakes his face. It is possible to draw the state to be done. For example, drawing of the avatar from the open state to the closed state can be realized by performing morphing.
また、アバター画像生成手段404は、通訳者のアバター映像を出力する。具体的には、アバター画像生成手段404は、液晶画面450に通訳者のアバター映像を表示させるための情報をグラフィック処理部45へ送信する。これにより、通訳者のアバター映像が液晶画面450に表示される。
Further, the avatar image generation means 404 outputs the avatar image of the interpreter. Specifically, the avatar image generation means 404 transmits information for displaying the interpreter's avatar image on the
なお、本実施形態において、通訳者のアバター映像の服装および背景は、アバター映像に合うようにあらかじめ設定された服装等である。これにより、通訳者は、服装および部屋内部の状況を気にすることなく通訳業務にたずさわることができる。 In the present embodiment, the clothes and background of the interpreter's avatar image are clothes and the like preset to match the avatar image. As a result, the interpreter can be involved in the interpreting work without worrying about the clothes and the situation inside the room.
<音声出力手段405の説明>
音声出力手段405は、通訳者が通訳応答を行ったことに基づいて、通訳者の音声を出力する。具体的には、音声出力手段405は、スピーカ460から通訳者の音声を出力させるための情報をオーディオ処理部46へ送信する。これにより、通訳者の音声がスピーカ360から出力される。
<Explanation of audio output means 405>
The voice output means 405 outputs the voice of the interpreter based on the interpreter's response to the interpreter. Specifically, the voice output means 405 transmits information for outputting the voice of the interpreter from the
<位置情報検出手段406の説明>
位置情報検出手段406は、通訳依頼者が通訳依頼を行ったことに基づいて、通訳依頼者の現在位置を検出する。具体的には、位置情報検出手段406は、位置情報検出部48を起動させるための情報を位置情報検出部48へ送信する。
<Explanation of position information detecting means 406>
The position
<通信手段407の説明>
通信手段407は、通訳応答に関する情報、通訳者の顔認証情報および音声情報などをサーバ装置2から受信する。
<Explanation of communication means 407>
The communication means 407 receives information on the interpreter response, face authentication information of the interpreter, voice information, and the like from the server device 2.
また、通信手段407は、通訳依頼に関する情報、通訳依頼者の映像情報および音声情報などをサーバ装置2へ送信する。 Further, the communication means 407 transmits information related to the interpreter request, video information and audio information of the interpreter requester to the server device 2.
<ビデオ通話処理の説明>
以下、図5のフローチャートを用いて、ビデオ通話処理について説明する。なお、後述の制御手段および処理手順は一例であり、本発明の実施形態はこれらには限られない。処理手順等は、本発明の要旨を変更しない範囲で適宜設計変更が可能である。
<Explanation of video call processing>
Hereinafter, the video call processing will be described with reference to the flowchart of FIG. The control means and the processing procedure described later are examples, and the embodiments of the present invention are not limited thereto. The design of the processing procedure and the like can be appropriately changed without changing the gist of the present invention.
まず、通訳依頼者端末4の通訳依頼手段401が、通訳依頼者の操作に基づいて、通訳依頼者端末4にインストールされている通訳アプリケーションを起動する(ステップS1)。
First, the interpreter request means 401 of the
ついで、通訳依頼手段401が、通訳依頼者の操作に基づいて、必要な情報を登録するほか、通訳を依頼したい言語を選択する(ステップS2)。 Then, the interpreter request means 401 registers necessary information based on the operation of the interpreter requester, and also selects the language for which the interpreter is requested (step S2).
ついで、通訳依頼手段401が、通訳依頼者の操作に基づいて、通訳依頼を行う(ステップS3)。具体的には、通訳依頼手段401が、通信手段407を介して通訳依頼者のアカウント、通訳依頼に関する情報などをサーバ装置2へ送信する。 Then, the interpreter request means 401 makes an interpreter request based on the operation of the interpreter requester (step S3). Specifically, the interpreter request means 401 transmits the account of the interpreter requester, information on the interpreter request, and the like to the server device 2 via the communication means 407.
ついで、サーバ装置2が、通訳依頼者端末4との通信を開始する(ステップS4)。 Then, the server device 2 starts communication with the interpreter requester terminal 4 (step S4).
ついで、通訳依頼者端末4の撮影手段402および音声入力手段403が、それぞれ、通訳依頼者端末4のカメラ430およびマイク440を起動させる(ステップS5)。
Then, the photographing means 402 and the voice input means 403 of the
ついで、撮影手段402が通訳依頼者の映像情報を取得し、音声入力手段403が通訳依頼者の音声情報を取得する(ステップS6)。 Next, the photographing means 402 acquires the video information of the interpreter requester, and the voice input means 403 acquires the voice information of the interpreter requester (step S6).
ついで、撮影手段402および音声入力手段403が、それぞれ通信手段407を介して通訳依頼者の映像情報および音声情報をサーバ装置2へ送信する(ステップS7)。 Then, the photographing means 402 and the voice input means 403 transmit the video information and the voice information of the interpreter requester to the server device 2 via the communication means 407, respectively (step S7).
ついで、サーバ装置2のサービス管理手段203が、通訳者端末3と通訳依頼者端末4との接続確立のために必要な接続要求の確認を行う(ステップS8)。
Then, the service management means 203 of the server device 2 confirms the connection request necessary for establishing the connection between the
ついで、サーバ装置2の通訳者管理手段201が、現在対応可能な通訳者を検索し、サービス管理手段203が対応可能な通訳者の通訳者端末3への通訳依頼の振り分けを実行する(ステップS9)。
Next, the interpreter management means 201 of the server device 2 searches for an interpreter currently available, and distributes the interpreter request to the
ついで、サービス管理手段203が、通訳依頼者端末4から送信された通訳依頼者の映像情報および音声情報を、通訳依頼を振り分けた通訳者端末3へ送信する(ステップS10)。
Next, the service management means 203 transmits the video information and audio information of the interpreter requester transmitted from the
ついで、通訳者端末3の通訳応答手段301が、通訳者の操作に基づいて、通訳応答を行う(ステップS11)。
Then, the interpreter response means 301 of the
ついで、通訳者端末3の撮影手段302および音声入力手段303が、それぞれ、通訳者端末3のカメラ330およびマイク340を起動させる(ステップS12)。
Then, the photographing means 302 and the voice input means 303 of the
ついで、通訳者端末3の撮影手段302が通訳者の映像情報を取得し、音声入力手段403が通訳者の音声情報を取得する(S13)。
Next, the photographing means 302 of the
ついで、通訳者端末3の顔情報生成手段304が、通訳者の映像情報を解析し、通訳者の顔の部位に関する情報である顔認証情報を生成する(ステップS14)。具体的には、顔情報生成手段304は、通訳者の映像情報から通訳者の口の開け閉め、頭の傾きなどを抽出し、通訳者の顔に基づく顔認証情報を生成する。
Next, the face information generation means 304 of the
ついで、顔情報生成手段304が、顔認証情報および音声情報から感情情報を生成する(ステップS15)。具体的には、顔情報生成手段304は、顔認証情報に基づく通訳者の表情および通訳者の声の抑揚等から通訳者の感情情報を生成する。 Then, the face information generation means 304 generates emotion information from the face authentication information and the voice information (step S15). Specifically, the face information generation means 304 generates emotion information of the interpreter from the facial expression of the interpreter based on the face recognition information, the intonation of the interpreter's voice, and the like.
ついで、通訳者端末3が、サーバ装置2を介して、通訳者の顔認証情報、感情情報、および音声情報を通訳依頼者端末4へ送信する(ステップS16)。
Next, the
ついで、通訳依頼者端末4のアバター画像生成手段404が、受信した通訳者の顔認証情報および感情情報をもとに通訳者のアバター映像を生成する(ステップS17)。具体的には、アバター画像生成手段404は、あらかじめ用意されたアバターの3Dモデルに、通訳者の顔認証情報を当てはめ、通訳者の顔認証情報と同じようにアバターが動くようにアバター映像を生成する。
Next, the avatar image generation means 404 of the
ついで、アバター画像生成手段404が通訳依頼者端末4の液晶画面450に通訳者のアバター映像を表示させ、音声出力手段405が通訳依頼者端末4のスピーカ460に通訳者の音声を出力させる(ステップS18)。その後、通訳者端末3あるいは通訳依頼者端末4において通話が切断された場合には、本発明のビデオ通話処理は終了する。
以上の手順により、本発明のビデオ通話処理が実行される。
Next, the avatar image generation means 404 displays the interpreter's avatar image on the
According to the above procedure, the video call processing of the present invention is executed.
以上をまとめると、本実施形態のビデオ通話システム1は、
通信ネットワーク5によって互いに接続されるとともに各ユーザの操作を受けつける複数のユーザ装置を備えるビデオ通話システム1であって、
1つのユーザ装置である通訳者端末3は、
通訳者端末3を操作するユーザである通訳者の顔画像を撮影する撮影手段302、
通訳者の音声を入力する音声入力手段303、
撮影された通訳者の顔画像から通訳者の顔の部位に関する顔情報を生成する顔情報生成手段304、および
通訳者の顔情報および音声を、通訳依頼者端末4へ送信する通信手段307、
を備え、
通訳依頼者端末4は、
通訳者端末3から送信された通訳者の顔情報に基づいて通訳者のアバター画像を生成するとともに出力するアバター画像生成手段404、および
通訳者の音声を出力する音声出力手段405、
を備える。
Summarizing the above, the video call system 1 of the present embodiment is
A video communication system 1 including a plurality of user devices connected to each other by a
The
Shooting means 302, which captures a face image of an interpreter who is a user who operates the
Voice input means 303 for inputting the voice of the interpreter,
Face information generating means 304 that generates face information about the face part of the interpreter from the photographed face image of the interpreter, and communication means 307 that transmits the face information and voice of the interpreter to the
With
The interpreter requester
An avatar image generation means 404 that generates and outputs an avatar image of an interpreter based on the face information of the interpreter transmitted from the
To be equipped.
<発明の効果>
本実施形態のビデオ通話システムによれば、処理負荷が小さく、在宅ワーカーが顔および環境などを気にすることなくサービスを提供することができるビデオ通話システムを提供することができる。
<Effect of invention>
According to the video call system of the present embodiment, it is possible to provide a video call system in which the processing load is small and the home worker can provide the service without worrying about the face and the environment.
具体的には、本発明を用いれば、通訳者が在宅ワーカーであっても、通訳者は、自身の服装あるいは背景を気にすることなく通訳業務を遂行することができる。 Specifically, according to the present invention, even if the interpreter is a home-based worker, the interpreter can carry out the interpreting work without worrying about his / her clothes or background.
また、通訳者が女性であっても、通訳業務のためにわざわざ化粧をする必要がなく、気軽に通訳業務にたずさわることができる。 Moreover, even if the interpreter is a woman, she does not have to bother to put on makeup for the interpreting work, and can easily participate in the interpreting work.
さらには、通訳者端末と通訳依頼者端末との間でデータ量の小さい顔認証情報が送受信されるため、通信にタイムラグが発生することを抑制しつつ、サーバ装置の処理負荷が大きくなってしまうことを抑制することができる。 Furthermore, since face recognition information with a small amount of data is transmitted and received between the interpreter terminal and the interpreter requester terminal, the processing load of the server device increases while suppressing the occurrence of a time lag in communication. Can be suppressed.
[他の実施形態]
前記実施形態では、通訳依頼者端末では常に通訳者のアバター映像が表示される例が記載されているが、本発明はこれには限られない。例えば、通訳者は、通訳者端末の操作に基づいて、通訳者の実画像を表示させるか、アバター映像(アバター映像の種類を含む。)を表示させるかを選択することができてもよい。
[Other Embodiments]
In the above embodiment, an example is described in which the avatar image of the interpreter is always displayed on the interpreter requester terminal, but the present invention is not limited to this. For example, the interpreter may be able to select whether to display the actual image of the interpreter or the avatar image (including the type of the avatar image) based on the operation of the interpreter terminal.
また、前記実施形態とは異なり、アバター映像の背景などは黒色などの単一色であってもよい。 Further, unlike the above-described embodiment, the background of the avatar image may be a single color such as black.
さらには、通訳依頼者は、通訳依頼者端末の操作に基づいて、アバター映像の種類を選択することができてもよい。 Further, the interpreter requester may be able to select the type of the avatar image based on the operation of the interpreter requester terminal.
また、前記実施形態では、第1ユーザ装置は通訳者端末であり、第2ユーザ装置は通訳依頼者端末である例が記載されているが、本発明はこれには限られない。例えば、第1ユーザ装置は、コンビニエンスストアの店員が操作する端末であり、第2ユーザ装置は客が操作する端末であってもよい。また、第1ユーザ装置は家庭教師が操作する端末であり、第2ユーザ装置は生徒が操作する端末であってもよい。 Further, in the above embodiment, an example is described in which the first user device is an interpreter terminal and the second user device is an interpreter requester terminal, but the present invention is not limited to this. For example, the first user device may be a terminal operated by a clerk at a convenience store, and the second user device may be a terminal operated by a customer. Further, the first user device may be a terminal operated by the tutor, and the second user device may be a terminal operated by the student.
また、VR(ヴァーチャル・リアリティ)において、各アバターが会話する際にも、本発明を適用することができる。さらに、ホログラム、AR(オーグメンテッド・リアリティ)にも本発明を適用することができる。 Further, in VR (Virtual Reality), the present invention can be applied even when each avatar talks. Furthermore, the present invention can be applied to holograms and AR (augmented reality).
また、前記実施形態においては、ディープラーニングを用いたオープンソースライブラリによる顔認証技術が記載されているが、本発明はこれには限られない。例えば、図6、図7の顔認証技術を用いて通訳者の顔の特徴点が生成され、この特徴点の情報に基づいて顔認証が行われてもよい。 Further, in the above-described embodiment, a face recognition technique using an open source library using deep learning is described, but the present invention is not limited to this. For example, facial feature points of the interpreter's face may be generated using the face recognition techniques of FIGS. 6 and 7, and face recognition may be performed based on the information of the feature points.
また、前記実施形態では、顔の表情、声の抑揚などによって通訳者の感情情報が生成される例が記載されているが、本発明はこれには限られない。例えば、通訳者の発した言葉に対してテキストマイニングを行うことによって、通訳者の感情情報が生成されてもよい。例えば、通訳者が「うれしい」などのポジティブな言葉を発した場合に、アバター映像の表情に、喜びの気持ちが反映されてもよい。 Further, in the above-described embodiment, an example in which emotional information of an interpreter is generated by facial expressions, inflection of voice, etc. is described, but the present invention is not limited to this. For example, emotional information of the interpreter may be generated by performing text mining on the words spoken by the interpreter. For example, when the interpreter utters a positive word such as "happy", the facial expression of the avatar image may reflect the feeling of joy.
さらに、顔情報生成手段は、通訳者の音声情報からリップシンクなどの技術を用いて顔情報および感情情報を生成することもできる。具体的には、例えば、通訳者の音声情報から母音情報を抽出し、それに基づいてアバターの口の動きを生成することもできる。 Further, the face information generation means can also generate face information and emotion information from the voice information of the interpreter by using a technique such as lip sync. Specifically, for example, vowel information can be extracted from the voice information of the interpreter, and the movement of the avatar's mouth can be generated based on the vowel information.
また、前記実施形態では、顔情報は通訳者端末で生成される例が記載されているが、本発明はこれには限られない。例えば、通訳依頼者による通訳依頼操作のあとに、通訳者端末から通訳者の顔画像(実写映像)を受信した通訳依頼者端末に備えられる顔情報生成手段が、通訳者の顔画像から通訳者の顔の部位に関する顔情報を生成し、その顔情報に基づいて通訳依頼者端末のアバター画像生成手段が通訳者のアバター画像を生成してもよい。 Further, in the above embodiment, an example in which the face information is generated by the interpreter terminal is described, but the present invention is not limited to this. For example, the face information generation means provided in the interpreter requester terminal that receives the interpreter's face image (live video) from the interpreter terminal after the interpreter request operation by the interpreter requester is the interpreter from the interpreter's face image. The face information regarding the part of the face of the interpreter may be generated, and the avatar image generation means of the interpreter requester terminal may generate the avatar image of the interpreter based on the face information.
また、前記実施形態では、顔情報生成手段は、通訳者の顔に基づいて顔情報のみを生成する例が記載されているが、本発明はこれには限られない。例えば、顔情報生成手段は、顔のほか、手の動き、上半身の動きなどに基づいて情報を生成してもよい。 Further, in the above-described embodiment, an example is described in which the face information generating means generates only face information based on the face of an interpreter, but the present invention is not limited to this. For example, the face information generating means may generate information based on the movement of the hand, the movement of the upper body, and the like in addition to the face.
また、図5の例では、サーバ装置と通訳依頼者端末との通信が開始されたのちに通訳依頼者端末のカメラおよびマイクが起動する例が記載されているが、本発明はこれには限られない。サーバ装置と通訳依頼者端末との通信が開始される前(例えば、通訳依頼者が通訳アプリケーションを起動したとき)に通訳依頼者端末のカメラおよびマイクが起動してもよい。 Further, in the example of FIG. 5, an example is described in which the camera and the microphone of the interpreter requester terminal are activated after the communication between the server device and the interpreter requester terminal is started, but the present invention is limited to this. I can't. The camera and microphone of the interpreter requester terminal may be activated before the communication between the server device and the interpreter requester terminal is started (for example, when the interpreter requester starts the interpreter application).
また、通訳者端末に用いられるコンピュータプログラム、および、通訳依頼者端末に用いられるコンピュータプログラムは、それぞれ2つ以上のコンピュータプログラム(アプリケーション)で構成されていてもよい。 Further, the computer program used for the interpreter terminal and the computer program used for the interpreter requester terminal may each be composed of two or more computer programs (applications).
また、前記実施形態においては、通訳者端末はラップトップコンピュータである例が記載されているが、デスクトップコンピュータ、スマートフォン、タブレットなどであってもよい。 Further, in the above embodiment, the interpreter terminal is described as a laptop computer, but it may be a desktop computer, a smartphone, a tablet, or the like.
同様に、前記実施形態においては、通訳依頼者端末はスマートフォン、タブレットなどの携帯型端末である例が記載されているが、デスクトップコンピュータ、ラップトップコンピュータなどであってもよい。 Similarly, in the above-described embodiment, the interpreter requester terminal is described as a portable terminal such as a smartphone or tablet, but may be a desktop computer, a laptop computer, or the like.
1 ビデオ通話システム
2 サーバ装置
201 通訳者管理手段
202 通訳依頼者管理手段
203 サービス管理手段
204 通信手段
3 通訳者端末
301 通訳応答手段
302 撮影手段
303 音声入力手段
304 顔情報生成手段
305 映像出力手段
306 音声出力手段
307 通信手段
4 通訳依頼者端末
401 通訳依頼手段
402 撮影手段
403 音声入力手段
404 アバター画像生成手段
405 音声出力手段
406 位置情報検出手段
407 通信手段
5 通信ネットワーク
1 Video call system 2 Server device 201 Interpreter management means 202 Interpreter requester management means 203 Service management means 204 Communication means 3
Claims (8)
少なくとも1つの前記ユーザ装置である第1ユーザ装置は、
前記第1ユーザ装置を操作する前記ユーザである第1ユーザの顔画像を撮影する撮影手段、
前記第1ユーザの音声を入力する音声入力手段、
撮影された前記第1ユーザの前記顔画像から前記第1ユーザの顔の部位に関する顔情報を生成する顔情報生成手段、および
少なくとも前記第1ユーザの前記顔情報および前記音声を、前記複数のユーザ装置のうち前記第1ユーザ装置以外の第2ユーザ装置へ送信する通信手段、
を備え、
前記第2ユーザ装置は、
前記第1ユーザ装置から送信された前記第1ユーザの前記顔情報に基づいて前記第1ユーザのアバター画像を生成するとともに出力するアバター画像生成手段、および
前記第1ユーザの前記音声を出力する音声出力手段、
を備える、
ビデオ通話システム。 A video communication system including a plurality of user devices that are connected to each other by a communication network and receive operations of each user.
The first user device, which is at least one of the user devices,
A photographing means for capturing a face image of the first user who operates the first user device,
A voice input means for inputting the voice of the first user,
A face information generating means for generating face information regarding a face portion of the first user from the photographed face image of the first user, and at least the face information and the voice of the first user are used by the plurality of users. A communication means for transmitting to a second user device other than the first user device among the devices,
With
The second user device is
An avatar image generation means that generates and outputs an avatar image of the first user based on the face information of the first user transmitted from the first user device, and a voice that outputs the voice of the first user. Output means,
To prepare
Video calling system.
前記第2ユーザ装置は、前記通訳者に通訳を依頼する通訳依頼者によって操作される、
請求項1に記載のビデオ通話システム。 The first user device is operated by an interpreter who has been requested to interpret.
The second user device is operated by an interpreter requester who requests the interpreter to interpret.
The video call system according to claim 1.
請求項1または2に記載のビデオ通話システム。 The face information is at least face recognition information regarding the presence / absence of opening / closing of the mouth, which is the portion of the face of the first user, the presence / absence of opening / closing of eyes, and the inclination and rotation of the head.
The video calling system according to claim 1 or 2.
請求項3に記載のビデオ通話システム。 The avatar image generation means generates the avatar image by varying the positions of the apex of the eyes, mouth, and face corresponding to the avatar image composed of the three-dimensional model based on the face recognition information.
The video call system according to claim 3.
前記アバター画像生成手段は、前記顔情報に加えて前記感情情報に基づいて前記第1ユーザの前記アバター画像を生成する、
請求項1〜4のいずれか1項に記載のビデオ通話システム。 The face information generating means generates emotion information for expressing the emotion of the first user based on at least one of the face information of the first user and the voice.
The avatar image generation means generates the avatar image of the first user based on the emotion information in addition to the face information.
The video call system according to any one of claims 1 to 4.
前記コンピュータ装置を操作するユーザの顔画像を撮影する撮影手段、
前記ユーザの音声を入力する音声入力手段、
他のコンピュータ装置において前記ユーザのアバター画像を生成するために、撮影された前記ユーザの前記顔画像から前記ユーザの顔の部位に関する顔情報を生成する顔情報生成手段、および
少なくとも前記ユーザの前記顔情報および前記音声を、前記他のコンピュータ装置へ送信する通信手段、
として機能させる、
コンピュータプログラム。 Computer equipment,
A photographing means for capturing a facial image of a user who operates the computer device,
A voice input means for inputting the user's voice,
A face information generating means for generating face information regarding a part of the user's face from the photographed face image of the user in order to generate an avatar image of the user in another computer device, and at least the face of the user. A communication means for transmitting information and the voice to the other computer device,
To function as
Computer program.
ユーザの操作に基づいて、他のコンピュータ装置から前記他のコンピュータ装置を操作する他ユーザについて前記他のコンピュータ装置で撮影された前記他ユーザの顔画像から生成された前記他ユーザの顔の部位に関する顔情報および音声を受信する通信手段、
前記顔情報に基づいて前記他ユーザのアバター画像を生成するとともに出力するアバター画像生成手段、および
前記他ユーザの前記音声を出力する音声出力手段、
として機能させる、
コンピュータプログラム。 Computer equipment,
Regarding the other user who operates the other computer device from the other computer device based on the user's operation, the face portion of the other user generated from the face image of the other user taken by the other computer device. Communication means for receiving face information and voice,
An avatar image generation means that generates and outputs an avatar image of the other user based on the face information, and a voice output means that outputs the voice of the other user.
To function as
Computer program.
ユーザの操作に基づいて、他のコンピュータ装置から前記他のコンピュータ装置を操作する他ユーザについて前記他のコンピュータ装置で撮影された前記他ユーザの顔画像および音声を受信する通信手段、
前記他のコンピュータ装置から受信した前記他ユーザの前記顔画像から前記他ユーザの顔の部位に関する顔情報を生成する顔情報生成手段、
前記顔情報に基づいて前記他ユーザのアバター画像を生成するとともに出力するアバター画像生成手段、および
前記他ユーザの前記音声を出力する音声出力手段、
として機能させる、
コンピュータプログラム。 Computer equipment,
A communication means for receiving a face image and voice of the other user taken by the other computer device for another user who operates the other computer device from the other computer device based on the user's operation.
A face information generating means for generating face information regarding a face portion of the other user from the face image of the other user received from the other computer device.
An avatar image generation means that generates and outputs an avatar image of the other user based on the face information, and a voice output means that outputs the voice of the other user.
To function as
Computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019028411A JP2020136921A (en) | 2019-02-20 | 2019-02-20 | Video call system and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019028411A JP2020136921A (en) | 2019-02-20 | 2019-02-20 | Video call system and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020136921A true JP2020136921A (en) | 2020-08-31 |
Family
ID=72263673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019028411A Pending JP2020136921A (en) | 2019-02-20 | 2019-02-20 | Video call system and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020136921A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022149741A1 (en) * | 2021-01-08 | 2022-07-14 | 삼성전자 주식회사 | Electronic device and method for managing information for creating avatar of electronic device |
US11475652B2 (en) | 2020-06-30 | 2022-10-18 | Samsung Electronics Co., Ltd. | Automatic representation toggling based on depth camera field of view |
WO2023120472A1 (en) * | 2021-12-23 | 2023-06-29 | 株式会社Nttドコモ | Avatar generation system |
US12026901B2 (en) | 2020-07-01 | 2024-07-02 | Samsung Electronics Co., Ltd. | Efficient encoding of depth data across devices |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003085583A (en) * | 2001-09-14 | 2003-03-20 | Mitsubishi Electric Corp | Head posture measuring device and cg character controller |
JP2005323340A (en) * | 2004-04-07 | 2005-11-17 | Matsushita Electric Ind Co Ltd | Communication terminal and communication method |
JP2006330958A (en) * | 2005-05-25 | 2006-12-07 | Oki Electric Ind Co Ltd | Image composition device, communication terminal using the same, and image communication system and chat server in the system |
JP2008060864A (en) * | 2006-08-31 | 2008-03-13 | Kiyoshi Onishi | Interpretation system with privacy protection function |
-
2019
- 2019-02-20 JP JP2019028411A patent/JP2020136921A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003085583A (en) * | 2001-09-14 | 2003-03-20 | Mitsubishi Electric Corp | Head posture measuring device and cg character controller |
JP2005323340A (en) * | 2004-04-07 | 2005-11-17 | Matsushita Electric Ind Co Ltd | Communication terminal and communication method |
JP2006330958A (en) * | 2005-05-25 | 2006-12-07 | Oki Electric Ind Co Ltd | Image composition device, communication terminal using the same, and image communication system and chat server in the system |
JP2008060864A (en) * | 2006-08-31 | 2008-03-13 | Kiyoshi Onishi | Interpretation system with privacy protection function |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475652B2 (en) | 2020-06-30 | 2022-10-18 | Samsung Electronics Co., Ltd. | Automatic representation toggling based on depth camera field of view |
US12026901B2 (en) | 2020-07-01 | 2024-07-02 | Samsung Electronics Co., Ltd. | Efficient encoding of depth data across devices |
WO2022149741A1 (en) * | 2021-01-08 | 2022-07-14 | 삼성전자 주식회사 | Electronic device and method for managing information for creating avatar of electronic device |
WO2023120472A1 (en) * | 2021-12-23 | 2023-06-29 | 株式会社Nttドコモ | Avatar generation system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020204000A1 (en) | Communication assistance system, communication assistance method, communication assistance program, and image control program | |
JP2020136921A (en) | Video call system and computer program | |
JP7073116B2 (en) | Office virtual reality system and office virtual reality program | |
US20220224735A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and method | |
US9977510B1 (en) | Gesture-driven introduction system | |
US11164341B2 (en) | Identifying objects of interest in augmented reality | |
KR20200043658A (en) | Vr presentation and interview training system | |
US20200413009A1 (en) | Bidirectional video communication system and kiosk terminal | |
KR20220123576A (en) | Integrated input/output (i/o) for a three-dimensional (3d) environment | |
JP2019086858A (en) | Customer service system and customer service method | |
KR20140078258A (en) | Apparatus and method for controlling mobile device by conversation recognition, and apparatus for providing information by conversation recognition during a meeting | |
JP2020112895A (en) | Control program of information processing apparatus, control method of information processing apparatus, and information processing apparatus | |
JPWO2019155735A1 (en) | Information processing equipment, information processing methods and programs | |
KR102412823B1 (en) | System for online meeting with translation | |
CN110188364B (en) | Translation method, device and computer readable storage medium based on intelligent glasses | |
CN112669416B (en) | Customer service system, method, device, electronic equipment and storage medium | |
JP2023099309A (en) | Method, computer device, and computer program for interpreting voice of video into sign language through avatar | |
CN112119372A (en) | Electronic device and control method thereof | |
KR20190002386A (en) | Apparatus for providing character service in character service system | |
JP2002259318A (en) | Method for displaying picture of person in virtual reality space | |
US11935449B2 (en) | Information processing apparatus and information processing method | |
KR20230048959A (en) | Communication method using metaverse agent and device and system therefor | |
CN115605835A (en) | Interaction method of display equipment and terminal equipment, storage medium and electronic equipment | |
JP6140327B2 (en) | Message transmission system, message transmission method, and program | |
JP6889191B2 (en) | Game programs and game equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230711 |