JP2023099309A - アバターを通じて映像の音声を手話に通訳する方法、コンピュータ装置、およびコンピュータプログラム - Google Patents
アバターを通じて映像の音声を手話に通訳する方法、コンピュータ装置、およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2023099309A JP2023099309A JP2022196793A JP2022196793A JP2023099309A JP 2023099309 A JP2023099309 A JP 2023099309A JP 2022196793 A JP2022196793 A JP 2022196793A JP 2022196793 A JP2022196793 A JP 2022196793A JP 2023099309 A JP2023099309 A JP 2023099309A
- Authority
- JP
- Japan
- Prior art keywords
- sign language
- speaker
- video
- avatar
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
Abstract
【課題】アバターを通じて映像の音声を手話に通訳する手話通訳方法、コンピュータ装置およびコンピュータプログラムを提供する。【解決手段】手話通訳方法は、インターネット電話(VoIP)ベースのビデオ通話に参加する参加者それぞれに対して手話通訳のためのアバターを設定する段階と、ビデオ通話中の発話者の音声を手話に変換し、発話者のアバターを通じて通訳する段階と、を含む。【選択図】図3
Description
以下の説明は、手話通訳サービスを提供する技術に関する。
近年の通信デバイスは、音声通話サービスやメッセージサービスはもちろん、無線インターネットや地上波/衛星放送などの多様なサービスを提供している。
特に、映像の圧縮技術および復元技術の発展とカメラを備えたデバイスの常用化にともない、相手の顔を見ながら通話することを可能にしたビデオ通話サービスが提供されるようになった。
ビデオ通話サービスを提供する技術の一例として、特許文献1(登録日2003年9月29日)では、無線環境の移動電話網で移動電話端末機間にビデオ電話サービスを提供する技術が開示されている。
ビデオ通話中にアバターを利用して通話音声をリアルタイムで手話に通訳することができる。
発話者それぞれのアバターを通じて手話を提供することにより、発話の主体を容易に区分することができる。
通話映像や通話音声を分析し、発話者の表情や感情をアバターの表情に反映することができる。
コンピュータ装置で実行される手話通訳方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記手話通訳方法は、前記少なくとも1つのプロセッサにより、インターネット電話(VoIP)ベースのビデオ通話に参加する参加者それぞれに対して手話通訳のためのアバターを設定する段階、および前記少なくとも1つのプロセッサにより、前記ビデオ通話中の発話者の音声を手話に変換し、前記発話者のアバターを通じて通訳する段階を含む、手話通訳方法を提供する。
一側面によると、前記設定する段階は、ビデオ通話オプションにより、前記参加者それぞれに対して手話通訳とアバターを設定する段階を含んでよい。
他の側面によると、前記設定する段階は、前記参加者それぞれに対して通話映像から顔を認識し、認識した顔に基づいてアバターを生成して前記手話通訳のためのアバターとして設定する段階を含んでよい。
また他の側面によると、前記通訳する段階は、前記発話者の通話映像と通話音声のうちの少なくとも1つから前記発話者の感情状態を分析する段階、および前記発話者の感情状態を前記発話者のアバターの表情またはジェスチャで表現する段階を含んでよい。
また他の側面によると、前記通訳する段階は、2人以上の参加者が同時に発話する場合、各発話者のアバターをともに登場させて各発話者の音声を手話に通訳する段階を含んでよい。
また他の側面によると、前記通訳する段階は、前記参加者の通話映像が1つの画面で構成されたビデオ通話画面の一側に、前記発話者のアバター映像をオーバーレイで表示する段階を含んでよい。
また他の側面によると、前記通訳する段階は、前記参加者の通話映像が1つの画面で構成されたビデオ通話画面上に、別のディスプレイ要素を用いて前記発話者の通話映像を区分して表示する段階を含んでよい。
また他の側面によると、前記表示する段階は、2人以上の参加者が同時に発話する場合、前記ディスプレイ要素を発話者ごとに異なるように表示するが、発話者それぞれのアバターのディスプレイ要素の一部と前記発話者映像のディスプレイ要素とを統一させて表示してよい。
さらに他の側面によると、前記手話通訳方法は、前記少なくとも1つのプロセッサにより、前記ビデオ通話中の通話映像から手話を認識して字幕または音声で通訳する段階をさらに含んでよい。
コンピュータ装置で実行される手話通訳方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記手話通訳方法は、前記少なくとも1つのプロセッサにより、動画プラットフォーム内の映像を対象に、登場人物それぞれに対して手話通訳のためのアバターを設定する段階、および前記少なくとも1つのプロセッサにより、前記映像の再生中の前記登場人物の音声を手話に変換し、この人物のアバターを通じて通訳する段階を含む、手話通訳方法を提供する。
前記手話通訳方法を前記コンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。
コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、インターネット電話(VoIP)ベースのビデオ通話に参加する参加者それぞれに対して手話通訳のためのアバターを設定する過程、および前記ビデオ通話中の発話者の音声を手話に変換し、前記発話者のアバターを通じて通訳する過程を処理するコンピュータ装置を提供する。
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態は、手話通訳サービスを提供する技術に関する。
本明細書で具体的に開示される事項を含む実施形態は、ビデオ通話においてアバターを利用して映像の音声をリアルタイムで手話に通訳することができる。
本発明の実施形態に係る手話通訳システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る手話通訳方法は、手話通訳システムに含まれる少なくとも1つのコンピュータ装置で実行されてよい。このとき、コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御にしたがって本発明の実施形態に係る手話通訳方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して手話通訳方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境のうちの一例を説明したものに過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、コンピュータ、ノート型PC(Personal Computer)、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットPCなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することができる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(Personal Area Network)、LAN(Local Area Network)、CAN(Campus Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、BBN(BroadBand Network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、手話通訳サービス)を提供するシステムであってよい。
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示したコンピュータ装置200によって実現されてよい。
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(Random Access Memory)、ROM(Read Only Memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピードライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置で構成されてもよい。
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、データベースなどのような他の構成要素をさらに含んでもよい。
以下では、アバターを通じて映像の音声を手話通訳する方法および装置の実施形態について具体的に説明する。
本明細書において、ビデオ通話とは、ユーザと相手が映像と音声をやり取りする映像電話を包括したものを意味してよく、一例として、IPアドレスを使用するネットワークを介して映像と音声をデジタルパケットに変換して送信する技術であるインターネット電話(VoIP)を意味してよい。
本実施形態は、手話通訳を通訳オプションの1つとしてインターネット電話(VoIP)上に提供してよい。
本実施形態に係るコンピュータ装置200は、クライアント上にインストールされた専用アプリケーションやコンピュータ装置200と関連するウェブ/モバイルサイトへの接続により、手話通訳サービスをクライアントに提供してよい。コンピュータ装置200には、コンピュータで実現された手話通訳システムが構成されてよい。一例として、手話通訳システムは、独立的に動作するプログラム形態で実現されてもよいし、特定のアプリケーションのイン-アプリ(in-app)形態で構成されて前記特定のアプリケーション上で動作が可能なように実現されてもよい。
コンピュータ装置200のプロセッサ220は、以下の手話通訳方法を実行するための構成要素で実現されてよい。実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。
このようなプロセッサ220およびプロセッサ220の構成要素は、以下の手話通訳方法に含まれる段階を実行するようにコンピュータ装置200を制御してよい。例えば、プロセッサ220およびプロセッサ220の構成要素は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。
ここで、プロセッサ220の構成要素は、コンピュータ装置200に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される、互いに異なる機能(different functions)の表現であってよい。
プロセッサ220は、コンピュータ装置200の制御と関連する命令がロードされたメモリ210から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、プロセッサ220が以下で説明する段階を実行するように制御するための命令を含んでよい。
以下で説明する段階は、図に示したものとは異なる順序で実行されてもよいし、段階のうちの一部が省略されたり追加の過程がさらに含まれたりしてもよい。
図3は、本発明の一実施形態における、コンピュータ装置が実行することができる方法の一例を示したフローチャートである。
図3を参照すると、段階310で、プロセッサ220は、インターネット電話(VoIP)ベースのビデオ通話に参加しようとするユーザそれぞれに対し、ビデオ通話オプションの1つとして手話通訳を設定してよい。プロセッサ220は、特定のユーザのためのオプション(例えば、聴覚障害のあるユーザのためのオプション)として、ビデオ通話進入過程などのビデオ通話と関連する環境設定によって視覚言語である手話への通訳を要請してよい。
段階320で、プロセッサ220は、手話通訳を設定したビデオ通話において、ビデオ通話参加者それぞれに対して手話表現のためのアバターを設定してよい。アバターとは、仮想環境でユーザの分身として使用されるキャラクタであって、複数のアバター構成要素を含んでよい。例えば、アバター構成要素は、アバターの外形を定義する構成要素(目の形、鼻の形、口の形、顔型、体形、ヘアースタイルなど)、アバターのジェスチャを定義する構成要素、アバターが着用するアイテムを定義する構成要素(衣服、靴、眼鏡、アクセサリなど)を含んでよい。一例として、プロセッサ220は、ビデオ通話参加者それぞれに対して、参加者が直接選択したアバターを設定してよい。他の例として、プロセッサ220は、ビデオ通話参加者それぞれに対して、任意の設定によって重複しないアバターを自動で設定してよい。プロセッサ220は、ビデオ通話参加者それぞれにアバターを設定するにあたり、顔認識および人工知能(AI)技術に基づいて通話映像から各参加者の顔を認識し、参加者に似せたキャラクタのアバターを生成して活用してよい。
段階330で、プロセッサ220は、ビデオ通話中の発話者の音声を手話に翻訳してよい。このとき、プロセッサ220は、インターネット電話(VoIP)ベースのビデオ通話環境において、音声認識(STT:Speech To Text)技術を利用して通話音声を文字データであるテキストに変換してよい。この後、プロセッサ220は、人工知能(AI)ベースの手話翻訳モデルを利用して、前記変換されたテキストを手話に変換してよい。
段階340で、プロセッサ220は、段階330で翻訳された手話に該当する動作を該当となる発話者のアバターを通じて再生してよい。プロセッサ220は、発話者の分身であるアバターの動作を、翻訳された手話動作で表現してよい。言い換えれば、プロセッサ220は、手話文章に対して事前に定められた手の動作やその他の身体要素の動作をアバターの行動に変えて表現してよい。
プロセッサ220は、手の形状、手の方向、手の運動を含んだ手の動作はもちろん、唇の動き、表情、顔色、目の動き、身振りなどを用いながら、より自然な手話を表現することができるアバターモデルを適用してよい。一例として、プロセッサ220は、顔検出(face detection)技術に基づいて発話者の通話映像から抽出した発話者の表情をアバターモデルに反映してよい。
プロセッサ220は、通話音声に含まれた発話文章やイントネーションから発話者の感情状態を分析し、分析した感情情報をアバターの表情やジェスチャに反映してよい。通話音声の他にも、顔検出技術に基づいて発話者の通話映像を分析し、発話者の顔から読み取れる感情状態を抽出してよい。プロセッサ220は、手話通訳を提供するにあたり、手話の手の動きの他にも、発話者の感情を視覚言語で表現することが可能なその他の身振り、表情、視線、姿勢などをアバターの多様な行動で表現してよい。
プロセッサ220は、相手の端末からビデオ通話のための相手映像を受信し、ユーザ映像と相手映像を含んだビデオ通話画面を表示してよい。プロセッサ220は、ビデオ通話に参加する相手映像を個別の映像としてそれぞれ受信した後、受信した相手映像をユーザ映像とともに1つの画面にレンダリング(rendering)してビデオ通話画面を構成してよい。
ビデオ通話サービスを提供するサーバ150側で複数の参加者映像を含んだ1つの映像を生成してクライアントに提供するのではなく、各参加者映像を個別の映像で送信し、クライアント側で複数の参加者画像を個別の映像としてそれぞれ受信して1つの画面のビデオ通話画面を構成するのである。
このとき、サーバ150は、手話を表現するアバター映像を通話映像の一側にミキシングして参加者映像として送信してもよいし、通話映像とアバター映像を個別の映像で送信してもよい。クライアントでは、前者の場合には、一側にアバター映像がミキシングされた参加者映像としてビデオ通話画面を構成してよく、後者の場合には、通話映像とアバター映像を定められたレイアウトで組み合わせてビデオ通話画面を構成してよい。例えば、通話映像を1つの画面のビデオ通話画面で構成し、ビデオ通話画面の一側(例えば、右下)に手話通訳アバター映像をオーバーレイで表示してよい。
プロセッサ220は、ビデオ通話参加者ごとに互いに異なるキャラクタのアバターが設定されることにより、発話者ごとに異なるアバター、すなわち、発話者それぞれに設定されたアバターを通じて手話通訳を提供してよい。
プロセッサ220は、手話通訳を提供するアバターがビデオ通話参加者のうちのどの参加者のアバターであるか、すなわち、現在手話に通訳されている音声の発話者が誰であるかを容易に区分できるように、別のディスプレイ要素をビデオ通話画面に適用してよい。
プロセッサ220は、ビデオ通話参加者のうちの2人以上の参加者が同時に発話する場合、各発話者のアバターをともに登場させ、発話者それぞれに対する手話通訳を提供してよい。
本実施形態に係る手話通訳サービスは、ビデオ通話中の発話者の音声を手話に通訳する機能はもちろん、通話映像内に登場する人物の身振りを認識し、これをテキストまたは音声で提供する機能を含んでもよい。言い換えれば、人工知能と映像認識技術に基づいて映像の手話言語をテキストに変換してこれを字幕に翻訳してもよく、またはTTS(Text To Speech)技術に基づいて音声に通訳してもよい。
図4は、本発明の一実施形態における、手話通訳を設定するインタフェース画面の一例を示した図である。
図4は、ビデオ通話参加のための設定画面400を示している。
図4を参照すると、ビデオ通話設定画面400は、ビデオ通話と関連する各種環境設定のためのインタフェースを含んでよく、このとき、ビデオ通話中に手話通訳を使用できるように設定するための「手話通訳」メニュー401を含んでよい。
ユーザは、ビデオ通話に参加する前に、「手話通訳」メニュー401を利用して自身の通話音声に対する手話通訳を設定してよい。
図5~7は、本発明の一実施形態における、アバターを通じて発話者の音声を手話に通訳するビデオ通話画面の一例を示した図である。
図5を参照すると、プロセッサ220は、ユーザがビデオ通話に参加した場合、相手の端末からビデオ通話のための相手映像520を受信し、ユーザ映像510と相手映像520を含んだビデオ通話画面500を表示してよい。
このとき、プロセッサ220は、ビデオ通話に参加する相手映像520を個別の映像でそれぞれ受信した後、受信した相手映像520をユーザ映像510とともに1つの画面にレンダリングすることによってビデオ通話画面500を構成してよい。
図6を参照すると、プロセッサ220は、ビデオ通話中の通話音声を手話に通訳してよく、このとき、発話者に該当するアバター650を利用して発話者の音声に対する手話通訳を提供してよい。
サーバ150側が参加者それぞれの通話映像を個別の映像で送信すると同時に、手話通訳を提供するアバター650の映像をともに送信してよい。このとき、プロセッサ220は、ユーザ映像510と相手映像520が1つの画面にレンダリングされたビデオ通話画面500上にアバター650の映像をオーバーレイで表示してよい。
プロセッサ220は、アバター650がビデオ通話参加者のうちのどの参加者のアバターであるか、すなわち、現在手話に通訳されている音声の発話者が誰であるかを、別のディスプレイ要素651を用いて他の参加者と区分してビデオ通話画面500上に表示してよい。
図6では、ビデオ通話画面500の右下にアバター650が表示されているが、他の例によると、アバター650は、相手映像520内で発話者の映像に隣接して表示されたり、発話者の映像内にオーバーレイで表示されたり、発話者の映像の代わりに表示されたりしてもよい。
プロセッサ220は、ビデオ通話中に発話者が変わる場合、図7に示すように、ディスプレイ要素761を用いて現在の発話者と他の参加者とを区分して表示すると同時に、現在の発話者のアバター760を利用して通話音声を手話に通訳してよい。
言い換えれば、プロセッサ220は、発話者を容易に区分できるように、発話者によってそれぞれ異なるアバター650、760を通じて手話通訳を提供してよい。
図8~9は、本発明の一実施形態における、複数人が同時に発話する音声を手話に通訳するビデオ通話画面の一例を示した図である。
図8を参照すると、プロセッサ220は、ビデオ通話参加者のうちの2人以上の参加者が同時に発話する場合、ビデオ通話画面500上に各発話者のアバター850、860をともに登場させて発話者それぞれに対する手話通訳を提供してよい。
プロセッサ220は、同時発話の環境でも発話者を容易に識別できるように、図9に示すように、各発話者の通話映像のディスプレイ要素851、861を異なるように区分して表示してよい。このとき、発話者それぞれのアバター850、860のディスプレイ要素の一部と通話映像のディスプレイ要素851、861とが統一するようにしてよい。
例えば、ユーザAとユーザBが同時に発話する場合、ユーザAの通話映像とアバターには赤色の枠線を適用する反面、ユーザBの通話映像とアバターには青色の枠線を適用してよい。これにより、ユーザAとユーザBの発話音声に対する手話通訳を容易に分別することができる。
図9では、発話中のユーザのアバターだけが表示されているが、他の実施形態によれば、手話通訳が設定されたビデオ通話に対してユーザそれぞれのアバターを相手映像520にオーバーレイさせて表示してよい。このとき、発話者に対するアバターを他のユーザのアバターと区分できるように、異なる大きさまたはカラーを利用して表示してよい。
図10は、本発明の一実施形態における、発話者の感情が反映された手話通訳アバターの一例を示した図である。
プロセッサ220は、ビデオ通話画面500上に発話者のアバター1050を登場させて発話者の音声に対して手話通訳を提供するにあたり、発話者の通話映像、発話文章、イントネーションなどから発話者の現在の感情状態を分析し、分析した感情情報をアバター1050の表情やジェスチャに反映してよい。
図10に示すように、プロセッサ220は、ビデオ通話中に発話者が微笑みながら「ありがとう」と発話した場合、通話映像や発話内容から感情状態「喜び」を抽出してよく、このとき、アバター1050の表情も感情状態「喜び」を示す笑顔で表現してよい。
図11は、本発明の一実施形態における、映像から認識した手話を字幕に翻訳するビデオ通話画面の一例を示した図である。
プロセッサ220は、ビデオ通話中の通話音声を手話に通訳することはもちろん、通話映像の手話言語を文字に翻訳したり音声に通訳したりすることも可能である。
図11を参照すると、プロセッサ220は、ビデオ通話中にユーザが手話を利用する場合、ユーザ映像510からユーザが表現する手話動作を認識し、認識した手話を文字に変換することにより、手話通訳結果として字幕1100を提供してよい。このとき、プロセッサ220は、手話を利用するユーザのアバターを利用して、手話または変換された文字に該当する表情やジェスチャをアバターに適用しながら字幕1100を提供してよい。
プロセッサ220は、映像の手話言語に対する通訳結果を字幕1100で提供することはもちろん、TTSを利用して手話通訳結果を音声形態で提供することも可能である。
上述した実施形態は、ビデオ通話中に手話通訳サービスを提供するものと説明しているが、これに限定されてはならず、視覚的な情報伝達が可能な映像ベースのサービスであれば手話通訳サービスを適用することができる。例えば、動画コンテンツを共有する動画プラットフォームにおいて、映像再生中に映像に登場する人物の音声をアバターを利用して手話に通訳することも可能である。登場人物ごとに互いに異なるキャラクタのアバターを設定し、登場人物の音声をこの人物のアバターを通じて手話に通訳することができる。
このように、本発明の実施形態によると、アバターを利用して、ビデオ通話中の映像の音声をリアルタイムで手話に通訳することができる。本発明の実施形態によると、各発話者のアバターを通じて手話を提供することにより、発話の主体を容易に区別することができる。本発明の実施形態によると、通話映像や通話音声から発話者の感情を分析し、手話通訳を提供するアバターの表情に反映することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(Arithmetic Logic Unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(Field Programmable Gate Array)、PLU(Programmable Logic Unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、望む動作をするように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピーディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
110、120、130、140:電子機器
150、160:サーバ
170:ネットワーク
150、160:サーバ
170:ネットワーク
Claims (20)
- コンピュータ装置で実行される手話通訳方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記手話通訳方法は、
前記少なくとも1つのプロセッサにより、ビデオ通話に参加する参加者それぞれに対して手話通訳のためのアバターを設定する段階、および
前記少なくとも1つのプロセッサにより、前記ビデオ通話中の発話者の音声を手話に変換し、前記発話者のアバターを通じて通訳する段階
を含む、手話通訳方法。 - 前記設定する段階は、
ビデオ通話オプションにより、前記参加者それぞれに対して手話通訳とアバターを設定する段階
を含む、請求項1に記載の手話通訳方法。 - 前記設定する段階は、
前記参加者それぞれに対して通話映像から顔を認識し、認識した顔に基づいてアバターを生成して前記手話通訳のためのアバターとして設定する段階
を含む、請求項1に記載の手話通訳方法。 - 前記通訳する段階は、
前記発話者の通話映像と通話音声のうちの少なくとも1つから前記発話者の感情状態を分析する段階、および
前記発話者の感情状態を前記発話者のアバターの表情またはジェスチャで表現する段階
を含む、請求項1に記載の手話通訳方法。 - 前記通訳する段階は、
2人以上の参加者が同時に発話する場合、各発話者のアバターをともに登場させて各発話者の音声を手話に通訳する段階
を含む、請求項1に記載の手話通訳方法。 - 前記通訳する段階は、
前記参加者の通話映像が1つの画面で構成されたビデオ通話画面の一側に前記発話者のアバター映像をオーバーレイで表示する段階
を含む、請求項1に記載の手話通訳方法。 - 前記通訳する段階は、
前記参加者の通話映像が1つの画面で構成されたビデオ通話画面上に別のディスプレイ要素を用いて前記発話者の通話映像を区分して表示する段階
を含む、請求項1に記載の手話通訳方法。 - 前記表示する段階は、
2人以上の参加者が同時に発話する場合、前記ディスプレイ要素を発話者ごとに異なるように表示するが、発話者それぞれのアバターのディスプレイ要素の一部と前記発話者映像のディスプレイ要素とを統一させて表示すること
を特徴とする、請求項7に記載の手話通訳方法。 - 前記手話通訳方法は、
前記少なくとも1つのプロセッサにより、前記ビデオ通話中の通話映像から手話を認識して字幕または音声に通訳する段階
をさらに含む、請求項1に記載の手話通訳方法。 - コンピュータ装置で実行される手話通訳方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記手話通訳方法は、
前記少なくとも1つのプロセッサにより、動画プラットフォーム内の映像を対象に、登場人物それぞれに対して手話通訳のためのアバターを設定する段階、および
前記少なくとも1つのプロセッサにより、前記映像の再生中の前記登場人物の音声を手話に変換し、この人物のアバターを通じて通訳する段階
を含む、手話通訳方法。 - 請求項1から請求項10のうちのいずれか一項に記載の手話通訳方法を前記コンピュータ装置に実行させるためのコンピュータプログラム。
- コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
ビデオ通話に参加する参加者それぞれに対して手話通訳のためのアバターを設定する過程、および
前記ビデオ通話中の発話者の音声を手話に変換し、前記発話者のアバターを通じて通訳する過程
を処理する、コンピュータ装置。 - 前記設定する段階は、
ビデオ通話オプションにより、前記参加者それぞれに対して手話通訳とアバターを設定すること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサは、
前記参加者それぞれに対して通話映像から顔を認識し、認識した顔に基づいてアバターを生成して前記手話通訳のためのアバターとして設定すること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサは、
前記発話者の通話映像と通話音声のうちの少なくとも1つから前記発話者の感情状態を分析し、
前記発話者の感情状態を前記発話者のアバターの表情またはジェスチャで表現すること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサは、
2人以上の参加者が同時に発話する場合、各発話者のアバターをともに登場させて各発話者の音声を手話に通訳すること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサは、
前記参加者の通話映像が1つの画面で構成されたビデオ通話画面の一側に前記発話者のアバター映像をオーバーレイで表示すること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサは、
前記参加者の通話映像が1つの画面で構成されたビデオ通話画面上に別のディスプレイ要素を用いて前記発話者の通話映像を区分して表示すること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサは、
2人以上の参加者が同時に発話する場合、前記ディスプレイ要素を発話者ごとに異なるように表示するが、発話者それぞれのアバターのディスプレイ要素の一部と前記発話者映像のディスプレイ要素とを統一させて表示すること
を特徴とする、請求項18に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサは、
前記ビデオ通話中の通話映像から手話を認識して字幕または音声に通訳すること
を特徴とする、請求項12に記載のコンピュータ装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0193128 | 2021-12-30 | ||
KR1020210193128A KR20230102753A (ko) | 2021-12-30 | 2021-12-30 | 아바타를 통해 영상의 음성을 수어로 통역하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023099309A true JP2023099309A (ja) | 2023-07-12 |
Family
ID=86992028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022196793A Pending JP2023099309A (ja) | 2021-12-30 | 2022-12-09 | アバターを通じて映像の音声を手話に通訳する方法、コンピュータ装置、およびコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230215296A1 (ja) |
JP (1) | JP2023099309A (ja) |
KR (1) | KR20230102753A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102644927B1 (ko) * | 2023-10-10 | 2024-03-06 | 한규범 | 수어 통역 서비스를 제공하는 온라인 다방향 소통 시스템 |
-
2021
- 2021-12-30 KR KR1020210193128A patent/KR20230102753A/ko unknown
-
2022
- 2022-12-09 JP JP2022196793A patent/JP2023099309A/ja active Pending
- 2022-12-28 US US18/147,118 patent/US20230215296A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230215296A1 (en) | 2023-07-06 |
KR20230102753A (ko) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
US11222632B2 (en) | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs | |
EP3951604A1 (en) | Communication assistance system, communication assistance method, communication assistance program, and image control program | |
JP6688227B2 (ja) | 通話中翻訳 | |
US20200125920A1 (en) | Interaction method and apparatus of virtual robot, storage medium and electronic device | |
US11468894B2 (en) | System and method for personalizing dialogue based on user's appearances | |
JP5195106B2 (ja) | 画像修正方法、画像修正システム、及び画像修正プログラム | |
US20150347399A1 (en) | In-Call Translation | |
JP2021192222A (ja) | 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム | |
KR20130022434A (ko) | 통신단말장치의 감정 컨텐츠 서비스 장치 및 방법, 이를 위한 감정 인지 장치 및 방법, 이를 이용한 감정 컨텐츠를 생성하고 정합하는 장치 및 방법 | |
WO2022089224A1 (zh) | 一种视频通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
JP2019213198A (ja) | 字幕生成方法および字幕生成装置 | |
WO2022106654A2 (en) | Methods and systems for video translation | |
CN111654715A (zh) | 直播的视频处理方法、装置、电子设备及存储介质 | |
JP2022020659A (ja) | 通話中の感情を認識し、認識された感情を活用する方法およびシステム | |
JP2023099309A (ja) | アバターを通じて映像の音声を手話に通訳する方法、コンピュータ装置、およびコンピュータプログラム | |
US11164341B2 (en) | Identifying objects of interest in augmented reality | |
KR20220109373A (ko) | 발화 영상 제공 방법 | |
JP2020136921A (ja) | ビデオ通話システム、およびコンピュータプログラム | |
CN113157241A (zh) | 交互设备、交互装置及交互系统 | |
KR102509106B1 (ko) | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 | |
US20240112389A1 (en) | Intentional virtual user expressiveness | |
KR102546532B1 (ko) | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 | |
WO2022196880A1 (ko) | 아바타에 기초한 인터랙션 서비스 방법 및 장치 | |
JP2023131825A (ja) | 情報処理装置、制御プログラムおよび制御方法 |