JP2017204067A - Sign language conversation support system - Google Patents

Sign language conversation support system Download PDF

Info

Publication number
JP2017204067A
JP2017204067A JP2016094600A JP2016094600A JP2017204067A JP 2017204067 A JP2017204067 A JP 2017204067A JP 2016094600 A JP2016094600 A JP 2016094600A JP 2016094600 A JP2016094600 A JP 2016094600A JP 2017204067 A JP2017204067 A JP 2017204067A
Authority
JP
Japan
Prior art keywords
sign language
image
language image
data
sign
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016094600A
Other languages
Japanese (ja)
Inventor
米倉 豪志
Takeshi Yonekura
豪志 米倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alt Inc
Original Assignee
Alt Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alt Inc filed Critical Alt Inc
Priority to JP2016094600A priority Critical patent/JP2017204067A/en
Priority to PCT/JP2017/017540 priority patent/WO2017195775A1/en
Publication of JP2017204067A publication Critical patent/JP2017204067A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/04Devices for conversing with the deaf-blind

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a sign language conversation support system that allows an indication of intention to be accurately interpreted and allows the interpreted indication of intention to be accurately transmitted.SOLUTION: A sign language conversation support system includes: a sign language image reception device that receives a sign language image transmitted from a terminal device shooting the sign language image; a sign language image recognition device that recognizes the sign language image received by the sign language image reception device to generate sign language image data; a sign language image interpretation device that reads and interprets data from a sign language image storage device so that the sign language image data generated by the sign language image recognition device corresponds to a natural language; a natural language data generation device that generates the natural language from the sign language image data interpreted by the sign language image interpretation device; an audiovisual data generation device that generates the natural language generated by the natural language data generation device into audio/visible data; and an audio visual data transmission device that transmits the audiovisual data generated by the audiovisual data generation device.SELECTED DRAWING: Figure 5

Description

本発明は、人工知能を用いた機械学習とコンピュータビジョンを用いて行われるコミュニケーションを支援する装置、システム、コンユータプログラムに関する。   The present invention relates to an apparatus, a system, and a computer program that support machine learning using artificial intelligence and communication performed using computer vision.

聴覚障害者とコミュニケーションを図る手段として手話が用いられている。聴覚障害者間、または聴覚障害者と健常者との間で良好なコミュニケーションを図るには、双方が手話を理解しなければならない。しかし、手話を理解し自在に扱えるようになるには時間と労力が必要であり、幅広い年齢層に普及しているとは言えないのが実情である。そこで、手話者が不特定多数の者に対して手話者の意思を正確に伝達するために、手話を画像取得手段によって画像データに変換し、変換した画像データを文字として認識する手話確認方法及び装置が開示されている(例えば、特許文献1参照。)。   Sign language is used as a means of communicating with hearing impaired people. For good communication between deaf people or between deaf and healthy people, both sides must understand sign language. However, it takes time and effort to understand and use sign language freely, and it cannot be said that it is popular in a wide range of age groups. Therefore, in order for the sign language to accurately convey the intention of the sign language to an unspecified number of people, the sign language is converted into image data by the image acquisition means, and the sign language confirmation method for recognizing the converted image data as characters and An apparatus is disclosed (for example, refer to Patent Document 1).

特開2012−252581号公報JP 2012-252581 A

しかしながら、言葉に方言があり、話し方に個性があるように、手話を話す際にも手や指の動作は個人によって変化する。したがって、手話の画像データを取得して文字データに変換しようとしても、正確に翻訳されず意思表示が正確に伝達できないことが問題となる。一方、文字情報又は音声情報に基づいて手話動画を生成する際には、発話者の個性を表現できた方がコミュニケーションの親密度を高めることができるが、単純な変換作業では画一的な手話動画しか生成できないのが実情である。また、手話画像して文字や音声に変換する方式では、手話による発話者の正面から撮像しなければ正確な翻訳ができないという問題がある。本発明の一実施形態は、このような問題を解決することを目的の一つとする。   However, as there are dialects of words and personality in speaking, hand and finger movements vary from person to person when speaking sign language. Therefore, even if it is attempted to acquire sign language image data and convert it into character data, there is a problem that the intention representation cannot be accurately transmitted without being accurately translated. On the other hand, when generating sign language video based on text information or voice information, it is possible to increase the familiarity of communication if the individuality of the speaker can be expressed, but in simple conversion work, it is a uniform sign language The reality is that only videos can be generated. Further, the method of converting a sign language image into characters and voices has a problem that accurate translation cannot be performed unless an image is taken from the front of the speaker in sign language. One embodiment of the present invention has an object to solve such a problem.

本発明の一実施形態に係る手話会話支援システムは、手話画像を認識する手話画像認識装置と、手話画像認識装置が認識した手話画像を自然言語に翻訳する手話画像変換部とを含み、手話画像翻訳装置は、機械学習により予め機械学習された手話画像データとのマッチングを行うように構成されている。   A sign language conversation support system according to an embodiment of the present invention includes a sign language image recognition device that recognizes a sign language image, and a sign language image conversion unit that translates the sign language image recognized by the sign language image recognition device into a natural language. The translation apparatus is configured to perform matching with sign language image data previously machine-learned by machine learning.

本発明の一実施形態に係る手話会話支援システムは、手話動画像を撮影する端末装置から送信された手話画像を受信する手話画像受信装置と、手話画像受信装置が受信した手話画像を認識し手話画像データを生成する手話画像認識装置と、手話画像認識装置で認識された手話画像データを自然言語に対応するように手話画像記憶装置からデータを読み出して翻訳する手話画像翻訳装置と、手話画像認識装置で翻訳された手話画像データから自然言語を生成する自然言語データ生成装置と、自然言語データ生成装置で生成された自然言語を視聴覚可能なデータに生成する視聴覚データ生成装置と、視聴覚データ生成装置で生成された視聴覚データを送信する視聴覚データ送信装置と、を含む。   A sign language conversation support system according to an embodiment of the present invention recognizes a sign language image receiving device that receives a sign language image transmitted from a terminal device that captures a sign language moving image, and a sign language image received by the sign language image receiving device. A sign language image recognition device that generates image data, a sign language image translation device that reads and translates data from a sign language image storage device so that the sign language image data recognized by the sign language image recognition device corresponds to a natural language, and sign language image recognition Natural language data generating device for generating natural language from sign language image data translated by the device, audiovisual data generating device for generating natural language generated by the natural language data generating device into audiovisual data, and audiovisual data generating device And an audiovisual data transmission device that transmits the audiovisual data generated in (1).

本発明の一実施形態に係る手話会話支援システムの概要を示す図である。It is a figure which shows the outline | summary of the sign language conversation assistance system which concerns on one Embodiment of this invention. 本発明の一実施形態に係る手話会話支援システムの全体的な構成を示す図である。It is a figure which shows the whole structure of the sign language conversation assistance system which concerns on one Embodiment of this invention. 本発明の一実施形態に係る手話会話支援システムの全体的な構成を示す図である。It is a figure which shows the whole structure of the sign language conversation assistance system which concerns on one Embodiment of this invention. 本発明の一実施形態に係る手話会話支援システムに含まれるコンピュータ装置102のハードウェアの構成例を示す図である。It is a figure which shows the structural example of the hardware of the computer apparatus 102 contained in the sign language conversation assistance system which concerns on one Embodiment of this invention. 本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す図である。It is a figure which shows the functional structure of the sign language conversation assistance system which concerns on one Embodiment of this invention. 本発明の一実施形態に係る手話会話支援システムにおいて行われる画像処理の一例を示す図である。It is a figure which shows an example of the image process performed in the sign language conversation assistance system which concerns on one Embodiment of this invention. 本発明の一実施形態に係る手話会話支援システムにおいて行われる手話を撮影する一形態を説明する図である。It is a figure explaining one form which image | photographs the sign language performed in the sign language conversation assistance system which concerns on one Embodiment of this invention. 本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す図である。It is a figure which shows the functional structure of the sign language conversation assistance system which concerns on one Embodiment of this invention. 本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す図である。It is a figure which shows the functional structure of the sign language conversation assistance system which concerns on one Embodiment of this invention.

本発明の実施の形態を、図面等を参照しながら説明する。但し、本発明は多くの異なる態様で実施することが可能であり、以下に例示する実施の形態の記載内容に限定して解釈されるものではない。図面は説明をより明確にするため、実際の態様に比べ、各部の幅、厚さ、形状等について模式的に表される場合があるが、あくまで一例であって、本発明の解釈を限定するものではない。また、本明細書と各図において、既出の図に関して前述したものと同様の要素には、同一の符号(又は数字の後にa、bなどを付した符号)を付して、詳細な説明を適宜省略することがある。さらに各要素に対する「第1」、「第2」と付記された文字は、各要素を区別するために用いられる便宜的な標識であり、特段の説明がない限りそれ以上の意味を有さない。   Embodiments of the present invention will be described with reference to the drawings. However, the present invention can be implemented in many different modes and should not be construed as being limited to the description of the embodiments exemplified below. In order to clarify the description, the drawings may be schematically represented with respect to the width, thickness, shape, and the like of each part as compared to actual aspects, but are merely examples and limit the interpretation of the present invention. It is not a thing. In addition, in the present specification and each drawing, the same elements as those described above with reference to the previous drawings are denoted by the same reference numerals (or reference numerals with a, b, etc. added to the numerals), and detailed description will be given. It may be omitted as appropriate. In addition, the letters “first” and “second” attached to each element are convenient signs used to distinguish each element, and have no meaning unless otherwise specified. .

本発明の一実施形態に係る手話会話支援システムは、手話画像を認識し、自然言語に変換する処理、および自然言語を認識し手話画像を生成する処理を行う機能を有する。この手話会話支援システムは、電気通信回線(電話回線、インターネット回線を含む)に接続され、利用者の端末装置と通信可能な状態に置かれて動作する。   A sign language conversation support system according to an embodiment of the present invention has a function of performing a process of recognizing a sign language image and converting it into a natural language, and a process of recognizing the natural language and generating a sign language image. This sign language conversation support system is connected to a telecommunication line (including a telephone line and an Internet line) and operates in a state where it can communicate with a user terminal device.

図1は、手話会話支援システムの概要を示す。手話会話支援システム100は、コンピュータ装置102を含み、利用者側の端末装置104と電気通信回線を介して接続されている。利用者が発話する手話の動作は端末装置104によって撮像される。端末装置104としては画像を撮影可能な各種電子機器であり、ビデオカメラの他、端末装置104に設けられた動作撮影可能なカメラ等が適用される。端末装置104で撮像された手話画像は動画として、または連続する複数枚の静止画としてコンピュータ装置102に送信される。端末装置104とコンピュータ装置102との間は電気通信回線により接続されている。以下、手話画像というときは、動画像のみならず一つ又は複数の静止画像を含むものとする。   FIG. 1 shows an outline of a sign language conversation support system. The sign language conversation support system 100 includes a computer device 102 and is connected to a terminal device 104 on the user side via an electric communication line. The operation of the sign language uttered by the user is captured by the terminal device 104. The terminal device 104 is various electronic devices capable of capturing an image, and a video camera, a camera capable of capturing an operation, and the like are applied in addition to a video camera. The sign language image captured by the terminal device 104 is transmitted to the computer device 102 as a moving image or as a plurality of continuous still images. The terminal device 104 and the computer device 102 are connected by an electric communication line. Hereinafter, the sign language image includes not only a moving image but also one or a plurality of still images.

端末装置104から送信された手話画像は、コンピュータにより自然言語に翻訳される。コンピュータは手話画像が記憶されている。コンピュータ装置102は、送信された手話画像と予め記憶されている手話画像を参照して、自然言語への翻訳を行う。   The sign language image transmitted from the terminal device 104 is translated into a natural language by a computer. The computer stores sign language images. The computer apparatus 102 refers to the transmitted sign language image and a pre-stored sign language image, and translates into a natural language.

コンピュータ装置102は、利用者が撮像した手話画像を学習対象として用いる。コンピュータ装置102はディープラーニングにより利用者の手話画像を機械学習する。これにより、多くの利用者の手話画像が蓄積され、ディープラーニングにより手話画像の解析精度が向上する。すなわち、利用者は共通する規則に従って手話を発話するが、各個人の手話動作には個性が含まれる。別言すれば、手話動作には揺らぎがあるため、画一的な手話動作の画像解析では翻訳の正確性が低下する。しかし、利用者から集められた手話画像をディープラーニングに対象とすることで、手話画像の識別力を高め、翻訳制度を向上させることが可能となる。   The computer apparatus 102 uses a sign language image captured by the user as a learning target. The computer apparatus 102 performs machine learning on the sign language image of the user by deep learning. Thereby, the sign language images of many users are accumulated, and the sign language image analysis accuracy is improved by deep learning. That is, the user utters sign language according to common rules, but each person's sign language action includes personality. In other words, there is a fluctuation in the sign language action, so that the accuracy of translation is reduced in the image analysis of the uniform sign language action. However, by using sign language images collected from users for deep learning, it becomes possible to increase the discriminating power of sign language images and improve the translation system.

コンピュータ装置102は、利用者から送信される手話画像の取得と、学習された手話画像のマッチングをリアルタイムで行い、結果を利用者又は他の利用者に向けて出力(送信)する。   The computer apparatus 102 obtains a sign language image transmitted from the user and matches the learned sign language image in real time, and outputs (transmits) the result to the user or another user.

図2は、手話会話支援システム100の全体的な構成を示す。手話会話支援システム100は、コンピュータ装置102と、一方の会話者の端末装置104、他方の会話者の端末装置106とが電気通信回線を介して接続されている。端末装置104、106としては、携帯電話、タブレット端末、スマートフォンと呼ばれる多機能携帯電話等が適用される。また、会話者に属する通信手段はとして、パーソナルコンピュータ108のような電気通信回線を通じて双方の通信が可能な電子機器が適用される。また、会話内容(手話及び自然言語による視聴覚データ)は、ラジオ等の音声再生装置110、テレビジョン112のような情報の出力のみが主として可能な電子機器であってもよい。   FIG. 2 shows the overall configuration of the sign language conversation support system 100. In the sign language conversation support system 100, a computer device 102, a terminal device 104 of one conversation person, and a terminal device 106 of the other conversation person are connected via an electric communication line. As the terminal devices 104 and 106, mobile phones, tablet terminals, multifunctional mobile phones called smartphones, and the like are applied. In addition, as a communication means belonging to the conversation person, an electronic device that can communicate with each other through an electric communication line such as a personal computer 108 is applied. The conversation content (audio / visual data in sign language and natural language) may be an electronic device that can mainly output only information, such as a sound reproduction device 110 such as a radio and a television 112.

本実施形態に係る手話会話支援システムは、複数の端末装置の間で手話を介した双方向の会話が可能である。例えば、図3に示すように、ある端末装置116から、手話会話が発信されたとき、コンピュータ装置102は手話を翻訳して他の端末装置114へ会話を送信する。例えば、端末装置114には手話を自然言語に翻訳されて「こんにちは、お元気ですか?」と音声、文字及び/又はアニメーション等により出力される。次に、端末装置114の利用者が「こんにちは。はい、元気ですよ。」と文字又は音声で返答すると、コンピュータ装置102はこれを手話に翻訳して、端末装置116に手話画像として送信する。   The sign language conversation support system according to the present embodiment is capable of two-way conversation via sign language between a plurality of terminal devices. For example, as shown in FIG. 3, when a sign language conversation is transmitted from a certain terminal device 116, the computer device 102 translates the sign language and transmits the conversation to another terminal device 114. For example, the terminal device 114 is translated sign language to natural language "Hello, how are you?" Is output to the voice, by the character and / or animation, or the like. Next, the user of the terminal device 114 is "Hello. Yes, I'm fine." If you reply with a letter or voice and, computing device 102 to translate this into sign language, to send as sign language image to the terminal device 116.

本実施形態に係る手話会話支援システムは、このような会話をリアルタイムで実行することができる。これにより、手話により電話をかけるということも可能となる。また、その逆に、手話者の端末装置に対して別の端末装置から情報を送信することもできる。その情報が音声やテキストなどであった場合はその情報を手話の映像に変換することもできる。これにより双方向での遠隔コミュニケーションが可能となる。   The sign language conversation support system according to the present embodiment can execute such a conversation in real time. This also makes it possible to make a call by sign language. Conversely, information can be transmitted from another terminal device to the sign language terminal device. If the information is voice or text, the information can be converted into a sign language video. This enables two-way remote communication.

なお、図3は、手話の発話者の端末装置と、音声等の発話者の端末装置が1対1である関係を示すが、本発明の一実施形態はこれに限定されない。例えば、手話の発話者の端末装置から発信された手話が、複数の端末装置に自然言語に翻訳された形で送信されてもよい。また、文字又は音声等により発話する1台の端末装置から、複数の端末装置に手話画像が送信されてもよい。   FIG. 3 shows a one-to-one relationship between a terminal device of a sign language speaker and a terminal device of a speaker such as a voice, but the embodiment of the present invention is not limited to this. For example, sign language transmitted from a terminal device of a sign language speaker may be transmitted to a plurality of terminal devices in a form translated into a natural language. In addition, a sign language image may be transmitted from one terminal device that utters text or voice to a plurality of terminal devices.

図4は、本発明の一実施形態に係る手話会話支援システムに含まれるコンピュータ装置102のハードウェアの構成例を示す。コンピュータ装置102は、演算処理及び各種制御を行う中央処理装置120、画像データの解析及び生成を行う画像処理装置122、データ、プログラム及びディープラーニングのアルゴリズムを含むプログラムが格納される主記憶装置124、手話画像等のデータが記憶される手話画像記憶装置118、電気通信回線を介してデータ等の受信を行う受信装置、電気通信回線へデータ等の送信を行う送信装置128を含む。   FIG. 4 shows a hardware configuration example of the computer apparatus 102 included in the sign language conversation support system according to the embodiment of the present invention. The computer device 102 includes a central processing unit 120 that performs arithmetic processing and various controls, an image processing device 122 that analyzes and generates image data, a main storage device 124 that stores data, programs, and programs including deep learning algorithms, It includes a sign language image storage device 118 that stores data such as sign language images, a receiving device that receives data and the like via a telecommunication line, and a transmitting device 128 that transmits data and the like to the telecommunication line.

中央処理装置120はマイクロプロセッサで実現され、画像処理装置が画像処理に特化した専用のプロセッサで実現される。主記憶装置124はダイナミックランダムアクセスメモリ(DRAM)等の半導体メモリによって実現される。手話画像記憶装置118は書き換え可能な不揮発性メモリで構成され、例えば、磁気ディスク(ハードディスク)、フラッシュメモリとも呼ばれる不揮発性半導体メモリが適用される。受信装置126及び送信装置128は各種規格に準じた通信モジュールによって実現される。コンピュータ装置102は、これらの装置が共通にバスラインで接続され、協働して動作することで手話会話支援機能を実現している。   The central processing unit 120 is realized by a microprocessor, and the image processing apparatus is realized by a dedicated processor specialized for image processing. The main storage device 124 is realized by a semiconductor memory such as a dynamic random access memory (DRAM). The sign language image storage device 118 is composed of a rewritable nonvolatile memory, and for example, a nonvolatile semiconductor memory called a magnetic disk (hard disk) or flash memory is applied. The receiving device 126 and the transmitting device 128 are realized by communication modules conforming to various standards. The computer device 102 realizes a sign language conversation support function by connecting these devices in common via a bus line and operating in cooperation.

図5は、本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す。手話会話支援システム100は、手話画像受信装置130、手話画像認識装置132、手話画像翻訳装置134、自然言語データ生成装置136、自然言語データ解析装置138、自然言語較正装置140、手話画像学習装置142、視聴覚データ生成装置144、視聴覚データ送信装置146、手話画像記憶装置148、標準手話画像データ記憶部150及び学習手話画像データ記憶部152を含む手話画像データ記憶装置154、自然言語辞書記憶装置156を含む。   FIG. 5 shows a functional configuration of a sign language conversation support system according to an embodiment of the present invention. The sign language conversation support system 100 includes a sign language image reception device 130, a sign language image recognition device 132, a sign language image translation device 134, a natural language data generation device 136, a natural language data analysis device 138, a natural language calibration device 140, and a sign language image learning device 142. A sign language image data storage device 154 including a sign language image data storage device 148, a sign language image data storage device 148, a standard sign language image data storage device 150, and a learning sign language image data storage device 152, and a natural language dictionary storage device 156. Including.

手話画像受信装置130は、利用者の端末装置104から送信された手話画像を受信する。手話画像受信装置130が受信した手話画像は手話画像認識装置132に出力される。手話画像認識装置132は受信した手話画像を手話画像記憶装置148に記憶させる。手話画像認識装置132は手話画像の特徴的部分を抽出する。例えば、手話画像認識装置132は、手話者の頭部と手の相対的ない位置を認識する。また、手話をする手の形態を認識するために手話者の手の輪郭部分を抽出し輪郭線を生成する。このように手話画像認識装置132は、形態画像処理を行う。手話画像認識装置132は手話者の映像と、形態画像処理された画像データを一組とする手話画像データとして生成する。または、手話画像認識装置132は、形態画像処理された画像データを手話画像データとして生成してもよい。   The sign language image receiving device 130 receives the sign language image transmitted from the user terminal device 104. The sign language image received by the sign language image reception device 130 is output to the sign language image recognition device 132. The sign language image recognition device 132 stores the received sign language image in the sign language image storage device 148. The sign language image recognition device 132 extracts a characteristic part of the sign language image. For example, the sign language image recognition device 132 recognizes a position where the signer's head and the hand are not relative to each other. Moreover, in order to recognize the form of the hand which performs sign language, the outline part of a signer's hand is extracted and an outline is produced | generated. As described above, the sign language image recognition device 132 performs morphological image processing. The sign language image recognition device 132 generates sign language image data including a signer image and image data subjected to morphological image processing as a set. Alternatively, the sign language image recognition device 132 may generate image data that has undergone morphological image processing as sign language image data.

例えば、手話画像認識装置132に、図6(A)で示す手話画像が入力されたとき、図6(B)で示すように、手話画像は映像処理され、「手」及び「顔」にその形態を認識した線ないし画像を重ね合わせる。手話画像の認識や機械学習をするときに、この形態映像処理を施された手話画像に基づいて行われる。これにより、手話動作を単純化及び明確化することができ、画像処理における手話画像の認識精度を向上させることができる。また機械学習においても学習精度及び習熟度の向上を図ることができる。ただし、このような画像処理は必須ではなく、画像処理を行わないで学習及びリアルタイム処理が行われてもよい。   For example, when the sign language image shown in FIG. 6A is input to the sign language image recognition device 132, the sign language image is image-processed as shown in FIG. Superimpose lines or images with recognized shapes. When sign language image recognition or machine learning is performed, it is performed based on the sign language image subjected to the morphological image processing. Thereby, the sign language operation can be simplified and clarified, and the recognition accuracy of the sign language image in the image processing can be improved. In machine learning, learning accuracy and proficiency can be improved. However, such image processing is not essential, and learning and real-time processing may be performed without performing image processing.

図5において、手話画像認識装置132は、生成された手話画像データを手話画像翻訳装置134に出力する。手話画像記憶装置148は、手話画像データ記憶装置154の標準手話画像データ記憶部152に記憶されている標準手話画像データを参照し、標準手話画像データの中から手話画像データと一致するものがあるか否かを調べる。また、手話画像翻訳装置134は、学習手話画像データ記憶部152に記憶されている学習手話画像データを参照し、学習手話画像データの中から手話画像データと一致するものがあるか否かを調べる。手話画像翻訳装置134は、手話画像データと標準手話画像データ及び/又は学習手話画像データとの関連付けを行う。   In FIG. 5, the sign language image recognition device 132 outputs the generated sign language image data to the sign language image translation device 134. The sign language image storage device 148 refers to the standard sign language image data stored in the standard sign language image data storage unit 152 of the sign language image data storage device 154, and some of the standard sign language image data matches the sign language image data. Check whether or not. In addition, the sign language image translation device 134 refers to the learning sign language image data stored in the learning sign language image data storage unit 152 and checks whether there is a match with the sign language image data among the learning sign language image data. . The sign language image translation device 134 associates sign language image data with standard sign language image data and / or learning sign language image data.

手話には方言があるとされる。例えば、関西のある地域における手話は両手を使って大きな身振りで表現する場合が多いとされている。例えば、「まさか!」を表現するとき両手の手のひらを胸の前で大きく合わせる動作をするが、他の地域では片手で拳を胸に当てたあと手のひらを開いて突き出す動作をするとされる。したがって、標準手話画像データのみを参照した場合には正しく手話を自然言語に翻訳できない場合がある。しかしながら、本実施形態に係る手話会話支援システムでは、学習手話画像データ記憶部152に人工知能でディープラーニングされた手話画像の学習データが蓄積されている。手話画像翻訳装置134は、学習手話画像データ記憶部152のデータを参照して、手話画像がどの地域の方言に近いのか、またはどの地域の方言に該当するのかを当てはめる作業を行う。   There are dialects in sign language. For example, sign language in an area in Kansai is often expressed with large gestures using both hands. For example, when expressing “No way!”, The palm of both hands is moved in front of the chest, but in other areas, the fist is applied to the chest with one hand and then the palm is opened and pushed out. Therefore, when only standard sign language image data is referred to, there are cases where sign language cannot be correctly translated into a natural language. However, in the sign language conversation support system according to the present embodiment, learning data of sign language images deep-learned with artificial intelligence is stored in the learning sign language image data storage unit 152. The sign language image translation device 134 refers to the data in the learning sign language image data storage unit 152 and performs an operation of applying to which area dialect the sign language image is close or to which area dialect.

手話画像翻訳装置134によって、標準手話画像データ及び/又は学習手話画像データと関連付けられた手話画像データは、自然言語データ生成装置136において、自然言語に変換される。例えば、標準手話画像データ及び/又は学習手話画像データと関連付けられた手話画像データが「こんにちは」を意味するものであれば、自然言語としての「こんにちは」という自然言語データを生成する。   The sign language image generation device 136 converts the sign language image data associated with the standard sign language image data and / or the learning sign language image data by the sign language image translation device 134 into a natural language. For example, if the standard sign language image data and / or learning sign language image data with sign language image data associated with it means "Hello", and generates a natural language data of "Hello" as a natural language.

自然言語データ生成装置136で生成された自然言語データは自然言語データ解析装置138に出力される。自然言語データ解析装置138は、自然言語データを解析し、自然言語辞書記憶装置156を参照して、文法的な誤りや語彙を自然な日本語に修正する。また、自然言語データ解析装置138は、手話の発話者が方言で発話している場合、その方言に即した言葉に修正する。例えば、「こんにちは」を意味する手話動作が手話画像翻訳装置134で翻訳されて「こんにちは」と翻訳されたとき、その発話者が沖縄地方の方言を使っている場合、「こんにちは」を「はいさい」という言葉に修正する。このように手話の発話者の方言に合わせて自然言語データを生成し又は修正することで、発話者の個性を尊重した手話翻訳をすることができる。   The natural language data generated by the natural language data generation device 136 is output to the natural language data analysis device 138. The natural language data analysis device 138 analyzes the natural language data and refers to the natural language dictionary storage device 156 to correct grammatical errors and vocabulary into natural Japanese. In addition, when the sign language speaker speaks in a dialect, the natural language data analysis device 138 corrects the language according to the dialect. For example, when the sign language operation, which means "hello" has been translated is translated by sign language image translation device 134 as "Hello", if the speaker is using the Okinawan dialect, the "Hello", "high side To the word "." Thus, by generating or correcting natural language data according to the dialect of the sign language speaker, sign language translation that respects the individuality of the speaker can be performed.

なお、自然言語データ解析装置138で修正された自然言語データは、自然言語較正装置140に出力される。自然言語較正装置140は、較正の対象となった手話画像データを特定し、手話画像学習装置142にその情報を出力する。手話画像学習装置142は、手話画像記憶装置148から該当する手話画像を読み出し、修正された自然言語と関連付けて学習手話画像データ記憶部150のデータに追加する。これにより、学習手話画像データ記憶部152には手話画像データが蓄積される。   The natural language data corrected by the natural language data analysis device 138 is output to the natural language calibration device 140. The natural language calibration device 140 identifies the sign language image data that is the object of calibration, and outputs the information to the sign language image learning device 142. The sign language image learning device 142 reads out the corresponding sign language image from the sign language image storage device 148 and adds it to the data in the learning sign language image data storage unit 150 in association with the corrected natural language. Thereby, sign language image data is accumulated in the learning sign language image data storage unit 152.

学習手話画像データ記憶部152に、手話画像データと対応する自然言語の情報は蓄積されることにより、手話の動作にゆらぎがあっても、手話翻訳の正確性を向上させることができる。また、手話の動作が方言に基づくものであったとしても、その方言に合わせた手話翻訳をすることができる。   By storing the natural language information corresponding to the sign language image data in the learning sign language image data storage unit 152, it is possible to improve the accuracy of sign language translation even if there is a fluctuation in the behavior of the sign language. Moreover, even if the action of the sign language is based on a dialect, it is possible to translate the sign language according to the dialect.

視聴覚データ生成装置144は、自然言語データ解析装置138で生成された自然言語データを視聴覚可能なデータに変換する。例えば、視聴覚データ生成装置144は、自然言語データを音声データ、文字データ及び又は感情や表現等を表す画像データに変換する。視聴覚データ送信装置146は、視聴覚データ生成装置144で生成された音声データ、文字データ及び/又は感情や表現等画像データを他の利用者の端末装置106に出力する。   The audiovisual data generation device 144 converts the natural language data generated by the natural language data analysis device 138 into audiovisual data. For example, the audiovisual data generation device 144 converts natural language data into audio data, character data, and / or image data representing emotions and expressions. The audiovisual data transmission device 146 outputs the audio data, character data, and / or image data such as emotion and expression generated by the audiovisual data generation device 144 to the terminal device 106 of another user.

このように、本実施形態に係る手話会話支援システムは、手話の発話者の個性を反映させたコミュニケーションを実現することができる。この場合において、手話会話支援システムは、手話画像をディープラーニングにより学習することで、発話者の動作のばらつきや、方言を認識して、手話翻訳の正確性を高めることができる。さらに、本実施形態に係る手話会話支援システムは、このような手話を介したコミュニケーションをリアルタイムで実行することができる。   As described above, the sign language conversation support system according to the present embodiment can realize communication reflecting the personality of the sign language speaker. In this case, the sign language conversation support system can improve the accuracy of sign language translation by learning the sign language image by deep learning, thereby recognizing variations in the movement of the speaker and dialects. Furthermore, the sign language conversation support system according to the present embodiment can execute communication via such sign language in real time.

図7で示すように、手話の発話者は、身につけたビデオカメラ又は携帯端末装置104のカメラ機能、背後に設置されカメラ(撮像装置)158、カメラ搭載ドローン160、その他手話の発話者の背後からの撮影をするデバイスを用いることもできる。このように、正面以外の角度から手話を撮影することで、手話の発話者はカメラを意識しないで、リラックスした状態で手話を発話することができる。   As shown in FIG. 7, the sign language speaker is the camera function of the video camera or portable terminal device 104 worn, the camera (imaging device) 158 installed behind the camera, the drone 160 equipped with the camera, and the other behind the sign language speaker. It is also possible to use a device for taking pictures from. In this way, by photographing the sign language from an angle other than the front, the sign language speaker can speak the sign language in a relaxed state without being aware of the camera.

しかしながら、手話の発話者の背後から撮影を行う場合、カメラによって撮影される映像は正面から撮影される場合のものとは異なる映像となる。手話の発話者の背後から撮影された映像は、基本的に逆向きであり、撮影される角度の違いによっても異なる映像となる。   However, when shooting from behind a sign language speaker, the video shot by the camera is different from the video shot from the front. Images taken from behind a sign language speaker are basically in the opposite direction, and differ depending on the angle at which they are taken.

しかしながら、本実施形態においては、このような不具合を修正し、手話画像を正確に認識するために、以下に示す施策の一つ又は複数の組み合わせを行う。
(1) あらかじめ様々な角度や距離による背後からの手話画像を機械学習させておく。
(2) 機械学習を行う前に、正面から、または、背後から撮影された学習教材となる手話画像に複数の角度に近くなる映像処理を施し、その全てを学習の対象とする。
(3) リアルタイム処理時に入力される手話画像をリアルタイムに角度などを調整及び変換し、機械学習された正面又は背後からの手話画像に近い形で認識処理を行う。
However, in the present embodiment, in order to correct such a problem and accurately recognize the sign language image, one or a plurality of combinations of the following measures are performed.
(1) Machine learning of sign language images from behind at various angles and distances in advance.
(2) Before performing machine learning, video processing that is close to a plurality of angles is performed on a sign language image that is a learning material photographed from the front or from behind, and all of them are subjected to learning.
(3) The sign language image input at the time of real time processing is adjusted and converted in real time, and the recognition processing is performed in a form close to the machine-learned front or back sign language image.

このように、本実施形態に係る手話会話支援システムは、人工知能の機能を用いて、手話の発話者の背後から撮影された手話画像を学習しておくことで、手話画像を正確に認識することができる。   As described above, the sign language conversation support system according to the present embodiment recognizes the sign language image accurately by learning the sign language image captured from behind the sign language speaker using the artificial intelligence function. be able to.

図8は、手話者の正面以外の角度から手話画像が撮影された場合にも適応可能な手話会話支援システム100bの一例を示す。図8で示す手話会話支援システム100bは、図5で示す手話会話支援システムと、手話画像解析装置162、三次元画像記憶装置164、三次元画像生成装置166、を備えている点で相違する。以下、当該相違部分を中心に説明する。   FIG. 8 shows an example of a sign language conversation support system 100b that can be adapted even when a sign language image is taken from an angle other than the front of the sign language. The sign language conversation support system 100b shown in FIG. 8 is different from the sign language conversation support system shown in FIG. 5 in that it includes a sign language image analysis device 162, a three-dimensional image storage device 164, and a three-dimensional image generation device 166. Hereinafter, the difference will be mainly described.

手話画像解析装置162は、撮影された手話画像がどの角度から撮影された画像であるかを解析する。三次元画像記憶装置164には、予め様々な角度や距離による正面及び正面以外の角度から撮影された手話画像が記憶されている。手話画像解析装置162は、三次元画像記憶装置164から手話画像のデータを読み出して、撮影された手話画像がどの角度から撮影された画像であるかの特定を行う。なお、撮影された手話画像は、複数の角度から撮影された情報が含まれていてもよい。複数の角度から撮影された手話画像を用いることで、手話画像の解析精度を向上させることが可能となる。   The sign language image analysis device 162 analyzes from which angle the captured sign language image is captured. The three-dimensional image storage device 164 stores sign language images taken in advance from various angles and distances from the front and angles other than the front. The sign language image analysis device 162 reads the data of the sign language image from the three-dimensional image storage device 164 and identifies from which angle the captured sign language image is an image. Note that the photographed sign language image may include information photographed from a plurality of angles. By using sign language images taken from a plurality of angles, it is possible to improve the analysis accuracy of sign language images.

手話画像解析装置162において機械学習が行われてもよい。機械学習は、正面、背後から撮影された手話画像に、複数の角度に近くなる映像処理を施し、その全てを学習の対象とすることが好ましい。また、手話を介した会話がリアルタイムで行われる場合には、手話画像をリアルタイムに角度などを調整及び変換し、機械学習された正面又は背後からの手話画像に近い形で認識処理を行うようにすることが好ましい。   Machine learning may be performed in the sign language image analysis apparatus 162. In the machine learning, it is preferable to perform video processing close to a plurality of angles on a sign language image photographed from the front and the back, and make all of them subject to learning. In addition, when a conversation through sign language is performed in real time, the sign language image is adjusted and converted in real time, and the recognition process is performed in a form close to the machine-learned front or back sign language image. It is preferable to do.

手話画像解析装置162は、特定された撮影角度情報と共に、手話画像データを三次元画像生成装置166に出力する。三次元画像生成装置166は、特定された撮影角度情報と手話画像に基づいて、三次元画像記憶装置164から手話の動作に対応する、様々な角度から撮影された三次元手話画像データを読み出して合成し、手話の三次元画像を生成する。三次元画像生成装置166は、生成された三次元手話画像データを手話画像認識装置132に出力する。手話画像認識装置132が三次元手話画像データを認識する。これ以降の各部の動作及び処理は、図5で示す処理と同様である。   The sign language image analysis device 162 outputs sign language image data to the three-dimensional image generation device 166 together with the specified shooting angle information. The three-dimensional image generation device 166 reads out the three-dimensional sign language image data photographed from various angles corresponding to the operation of the sign language from the three-dimensional image storage device 164 based on the specified photographing angle information and the sign language image. Combine to generate a 3D image of sign language. The 3D image generation device 166 outputs the generated 3D sign language image data to the sign language image recognition device 132. The sign language image recognition device 132 recognizes 3D sign language image data. The subsequent operations and processes of the respective units are the same as the processes shown in FIG.

また、三次元画像生成装置166を介さずに、特定された撮影角度情報と手話映像に基づいて、手話画像認識装置132が手話の内容を認識するようにしてもよい。手話画像翻訳装置134は、機械学習された正面又は背後からの手話画像に近い形で認識処理を行い、手話翻訳を行う。   Further, the sign language image recognition device 132 may recognize the contents of the sign language based on the specified shooting angle information and the sign language image without using the 3D image generation device 166. The sign language image translation device 134 performs recognition processing in a form close to a machine-learned front or back sign language image, and performs sign language translation.

このように、本実施形態によれば、手話画像が正面以外の角度から撮影された場合でも、手話翻訳を正確に行うことができ、手話の発話者と自然言語での発話者との間で、円滑なコミュニケーションを図ることができる。   Thus, according to the present embodiment, even when the sign language image is taken from an angle other than the front, the sign language translation can be performed accurately, and between the sign language speaker and the natural language speaker. Smooth communication can be achieved.

図9は、自然言語の発話を手話に変換する手話会話支援システムの一例を示す。手話会話支援システム100cは、視聴覚データ受信装置168、視聴覚データ変換装置170、自然言語データ解析装置138、手話画像変換データ生成装置172、手話画像翻訳装置134、手話画像変換データ生成装置172、手話画像送信装置174、標準手話画像データ記憶部150及び学習手話画像データ記憶部152を含む手話画像データ記憶装置154、自然言語辞書記憶装置156を含む。このような手話会話支援システム100cは、図4で示すコンピュータ装置102で実現される。   FIG. 9 shows an example of a sign language conversation support system that converts natural language speech into sign language. The sign language conversation support system 100c includes an audiovisual data reception device 168, an audiovisual data conversion device 170, a natural language data analysis device 138, a sign language image conversion data generation device 172, a sign language image translation device 134, a sign language image conversion data generation device 172, and a sign language image. It includes a transmission device 174, a sign language image data storage device 154 including a standard sign language image data storage unit 150 and a learning sign language image data storage unit 152, and a natural language dictionary storage device 156. Such a sign language conversation support system 100c is realized by the computer apparatus 102 shown in FIG.

視聴覚データ受信装置168は、利用者の端末装置106から送信された音声、文字、アニメーション等による視聴覚データを受信する。視聴覚データ受信装置168が受信した視聴覚データは視聴覚データ変換装置170に出力される。視聴覚データ変換装置170は、音声、文字、アニメーション等による視聴覚データをコンピュータで認識可能なデータ(例えば、バイナリ形式のデータ)に変換する。   The audiovisual data receiving device 168 receives audiovisual data such as voice, characters, and animation transmitted from the user terminal device 106. The audiovisual data received by the audiovisual data receiving device 168 is output to the audiovisual data conversion device 170. The audiovisual data converter 170 converts audiovisual data such as voice, characters, animation, etc. into data that can be recognized by a computer (for example, binary format data).

視聴覚データ変換装置170で変換された視聴覚データは、自然言語データ解析装置138に出力される。自然言語データ解析装置138は、視聴覚データを解析し、自然言語辞書記憶装置156を参照して、文法的な誤りや語彙を手話に翻訳可能な文章に変換する。また、自然言語データ解析装置138は、視聴覚データに方言が含まれている場合、その方言に即したように修正する。   The audiovisual data converted by the audiovisual data converter 170 is output to the natural language data analyzer 138. The natural language data analysis device 138 analyzes audiovisual data and refers to the natural language dictionary storage device 156 to convert grammatical errors and vocabulary into sentences that can be translated into sign language. In addition, when the audiovisual data includes a dialect, the natural language data analysis apparatus 138 corrects the dialect according to the dialect.

手話画像変換データ生成装置172は、手話に翻訳可能なように、自然言語による文章を一つ又は複数のブロックに分割する。例えば、自然言語が「こんにちは、今日は暑いですね」という文章であった場合、「こんにちは」と、「今日は」と、「暑い」と、「ですね」とのブロックに分解する。   The sign language image conversion data generation device 172 divides a natural language sentence into one or a plurality of blocks so that it can be translated into sign language. For example, "Hello, I am it is hot today" natural language is a case was a sentence, as "Hello", and "today", and "hot", broken down into blocks of the "This is it".

手話画像翻訳装置134は、手話画像記憶装置148から手話画像のデータを読み出して、自然言語に対応する手話画像を組み合わせ、一つのまとまった手話画像データを生成する。上記の例では、「こんにちは」、「今日は」、「暑い」、「ですね」に対応する手話画像を組み合わせる。手話画像翻訳装置134は、これらの手話画像を連続する一つの手話画像として生成する。   The sign language image translation device 134 reads the sign language image data from the sign language image storage device 148, combines the sign language images corresponding to the natural language, and generates one set of sign language image data. In the above example, "Hello", "today", "hot", combined with the sign language images corresponding to the "This is it". The sign language image translation device 134 generates these sign language images as one continuous sign language image.

この場合、手話画像翻訳装置134は、学習手話画像データ記憶部152からデータを読み出すとき、自然言語の発話者の個性に基づいたデータを読み出してもよい。例えば、自然言語の発話者自身の手話画像データが記憶されているとき、該当者のデータを読み出してもよい。また、手話画像翻訳装置134は、自然言語による発話が方言である場合、その方言に対応した手話画像を読み出してもよい。このように、自然言語の発話者の個性が反映されるようにすることで、手話と自然言語との会話者間の親密度を高めることができる。学習手話画像データ記憶部152は、図5を参照して説明したように、機械学習により随時データが蓄積されている。このような手話画像の学習データは、自然言語による視聴覚データから、手話画像データを生成するときにも活用することができる。手話画像変換データ生成装置172は、例えば、アニメーションによって手話画像を生成する。手話画像送信装置174は、手話画像を利用者の端末装置104に送信する。   In this case, when the sign language image translation device 134 reads data from the learning sign language image data storage unit 152, the sign language image translation device 134 may read data based on the personality of the natural language speaker. For example, when sign language image data of a natural language speaker is stored, the data of the corresponding person may be read out. In addition, when the utterance in the natural language is a dialect, the sign language image translation device 134 may read a sign language image corresponding to the dialect. Thus, by making the personality of the natural language speaker reflect, it is possible to increase the closeness between the sign language and the natural language conversation. As described with reference to FIG. 5, the learning sign language image data storage unit 152 stores data as needed by machine learning. Such learning data for sign language images can also be used when sign language image data is generated from audiovisual data in natural language. The sign language image conversion data generation device 172 generates a sign language image by animation, for example. The sign language image transmission device 174 transmits the sign language image to the terminal device 104 of the user.

本実施形態によれば、自然言語に基づく情報を、手話画像に変換することができる。この場合において、手話の画像データが機械学習されていることで、発話者の個性に即した手話画像を生成することができる。   According to this embodiment, information based on a natural language can be converted into a sign language image. In this case, the sign language image can be generated in accordance with the personality of the speaker because the image data of the sign language is machine-learned.

なお、図5、図8、及び図9は、コンピュータ装置102の機能的構成として説明したが、本発明の一実施形態はこれに限定されず、このような機能は、利用者の端末装置において実現することもできる。   5, 8, and 9 have been described as the functional configuration of the computer apparatus 102, one embodiment of the present invention is not limited to this, and such a function is used in a user terminal device. It can also be realized.

100・・・手話会話支援システム、102・・・コンピュータ装置、104・・・端末装置、106・・・端末装置、108・・・パーソナルコンピュータ、110・・・音声再生装置、112・・・テレビジョン、114・・・端末装置、116・・・端末装置、118・・・手話画像記憶装置、120・・・中央処理装置、122・・・画像処理装置、124・・・主記憶装置、126・・・受信装置、128・・・送信装置、130・・・手話画像受信装置、132・・・手話画像認識装置、134・・・手話画像翻訳装置、136・・・自然言語データ生成装置、138・・・自然言語データ解析装置、140・・・自然言語較正装置、142・・・手話画像学習装置、144・・・視聴覚データ生成装置、146・・・視聴覚データ送信装置、148・・・手話画像記憶装置、150・・・標準手話画像データ記憶部、152・・・学習手話画像データ記憶部、154・・・手話画像データ記憶装置、156・・・自然言語辞書記憶装置、158・・・カメラ、160・・・ドローン、162・・・手話画像解析装置、164・・・三次元画像記憶装置、166・・・三次元画像生成装置、168・・・視聴覚データ受信装置、170・・・視聴覚データ変換装置、172・・・手話画像変換データ生成装置、174・・・手話画像送信装置
DESCRIPTION OF SYMBOLS 100 ... Sign language conversation support system, 102 ... Computer apparatus, 104 ... Terminal apparatus, 106 ... Terminal apparatus, 108 ... Personal computer, 110 ... Sound reproduction apparatus, 112 ... Television John, 114 ... terminal device, 116 ... terminal device, 118 ... sign language image storage device, 120 ... central processing device, 122 ... image processing device, 124 ... main storage device, 126 ... Receiving device, 128 ... Transmitting device, 130 ... Sign language image receiving device, 132 ... Sign language image recognition device, 134 ... Sign language image translation device, 136 ... Natural language data generation device, 138: Natural language data analysis device, 140: Natural language calibration device, 142: Sign language image learning device, 144: Audiovisual data generation device, 146: Audiovisual data Data transmission device, 148 ... sign language image storage device, 150 ... standard sign language image data storage unit, 152 ... learning sign language image data storage unit, 154 ... sign language image data storage device, 156 ... natural Language dictionary storage device, 158 ... camera, 160 ... drone, 162 ... sign language image analysis device, 164 ... three-dimensional image storage device, 166 ... three-dimensional image generation device, 168 ... Audiovisual data receiving device, 170 ... audiovisual data conversion device, 172 ... sign language image conversion data generation device, 174 ... sign language image transmission device

Claims (12)

手話画像を認識する手話画像認識装置と、前記手話画像認識装置が認識した手話画像を自然言語に翻訳する手話画像翻訳装置と、を含み、
前記手話画像翻訳装置は、機械学習により予め機械学習された手話画像データとのマッチングを行うことを特徴とする手話会話支援システム。
A sign language image recognition device for recognizing a sign language image, and a sign language image translation device for translating the sign language image recognized by the sign language image recognition device into a natural language,
The sign language image translation device performs matching with sign language image data machine-learned in advance by machine learning.
前記手話画像翻訳装置は、リアルタイムで予め機械学習された手話画像データとのマッチンググを行う、請求項1に記載の手話会話支援システム。   The sign language conversation support system according to claim 1, wherein the sign language image translation device performs matching with sign language image data previously machine-learned in real time. 前記手話画像認識装置は、手話の発話者の画像に対し形態画像処理を行う、請求項1に記載の手話会話支援システム。   The sign language conversation support system according to claim 1, wherein the sign language image recognition device performs morphological image processing on an image of a sign language speaker. 前記形態画像処理は、手話の発話者の頭部の位置と手の輪郭線を抽出する、請求項3に記載の手話会話支援システム。   4. The sign language conversation support system according to claim 3, wherein the morphological image processing extracts a position of a head of a sign language speaker and a contour line of the hand. 前記手話画像は正面以外の角度から撮影された画像であり、
前記手話画像認識装置は、前記手話画像から撮影された角度を判別し、
前記手話会話翻訳装置は、予め複数の角度や距離から撮影され、機械学習された手話画像データに基づいて前記手話画像データとのマッチングを行う、請求項1に記載の手話会話支援システム。
The sign language image is an image taken from an angle other than the front,
The sign language image recognition device determines an angle taken from the sign language image;
2. The sign language conversation support system according to claim 1, wherein the sign language conversation translation device performs matching with the sign language image data based on sign language image data that is photographed in advance from a plurality of angles and distances and machine-learned.
手話画像を撮影する端末装置から送信された手話画像を受信する手話画像受信装置と、
前記手話画像受信装置が受信した手話画像を認識し手話画像データを生成する手話画像認識装置と、
前記手話画像認識装置で認識された前記手話画像データを自然言語に対応するように手話画像記憶装置からデータを読み出して翻訳する手話画像翻訳装置と、
前記手話画像認識装置で翻訳された前記手話画像データから自然言語を生成する自然言語データ生成装置と、
前記自然言語データ生成装置で生成された自然言語を視聴覚可能なデータに生成する視聴覚データ生成装置と、
前記視聴覚データ生成装置で生成された前記視聴覚データを送信する視聴覚データ送信装置と、を含むことを特徴とする手話会話支援システム。
A sign language image receiving device that receives a sign language image transmitted from a terminal device that captures a sign language image;
A sign language image recognition device that recognizes a sign language image received by the sign language image reception device and generates sign language image data;
A sign language image translation device that reads and translates data from a sign language image storage device so that the sign language image data recognized by the sign language image recognition device corresponds to a natural language;
A natural language data generation device for generating a natural language from the sign language image data translated by the sign language image recognition device;
An audiovisual data generation device for generating natural language data generated by the natural language data generation device into audiovisual data;
A sign language conversation support system, comprising: an audiovisual data transmission device that transmits the audiovisual data generated by the audiovisual data generation device.
前記手話画像翻訳装置は、リアルタイムで予め機械学習された手話画像データとのマッチンググを行う、請求項6に記載の手話会話支援システム。   The sign language conversation support system according to claim 6, wherein the sign language image translation device performs matching with sign language image data previously machine-learned in real time. 前記手話画像認識装置は、前記手話画像に対し形態画像処理を行う、請求項6に記載の手話会話支援システム。   The sign language conversation support system according to claim 6, wherein the sign language image recognition device performs morphological image processing on the sign language image. 前記形態画像処理は、手話の発話者の頭部の位置と手の輪郭線を抽出する、請求項8に記載の手話会話支援システム。   The sign language conversation support system according to claim 8, wherein the morphological image processing extracts a head position and a hand outline of a sign language speaker. 前記手話画像は正面以外の角度から撮影された画像であり、前記手話画像を解析する手話画像解析装置をさらに含む、請求項6に記載の手話会話支援システム。   The sign language conversation support system according to claim 6, wherein the sign language image is an image photographed from an angle other than the front, and further includes a sign language image analysis device that analyzes the sign language image. 前記手話画像認識装置は、前記手話画像から撮影された角度を判別し、
前記手話会話翻訳装置は、予め複数の角度や距離から撮影され、機械学習された手話画像データに基づいて前記手話画像データとのマッチングを行う、請求項10に記載の手話会話支援システム。
The sign language image recognition device determines an angle taken from the sign language image;
11. The sign language conversation support system according to claim 10, wherein the sign language conversation translation device performs matching with the sign language image data based on sign language image data that has been photographed from a plurality of angles and distances and machine-learned in advance.
前記手話画像記憶装置は、標準的な手話画像を記憶する標準手話画像記憶部と、機械学習により学習された手話画像を記憶する学習手話画像記憶部を含み、
前記手話画像翻訳装置は、前記標準手話画像記憶部と前記学習手話画像記憶部とからデータを読み出す、請求項6に記載の手話会話支援システム。
The sign language image storage device includes a standard sign language image storage unit that stores standard sign language images, and a learning sign language image storage unit that stores sign language images learned by machine learning,
The sign language conversation support system according to claim 6, wherein the sign language image translation device reads data from the standard sign language image storage unit and the learning sign language image storage unit.
JP2016094600A 2016-05-10 2016-05-10 Sign language conversation support system Pending JP2017204067A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016094600A JP2017204067A (en) 2016-05-10 2016-05-10 Sign language conversation support system
PCT/JP2017/017540 WO2017195775A1 (en) 2016-05-10 2017-05-09 Sign language conversation assistance system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016094600A JP2017204067A (en) 2016-05-10 2016-05-10 Sign language conversation support system

Publications (1)

Publication Number Publication Date
JP2017204067A true JP2017204067A (en) 2017-11-16

Family

ID=60267051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016094600A Pending JP2017204067A (en) 2016-05-10 2016-05-10 Sign language conversation support system

Country Status (2)

Country Link
JP (1) JP2017204067A (en)
WO (1) WO2017195775A1 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190067662A (en) * 2017-12-07 2019-06-17 한국생산기술연구원 Sign language translation system using robot
KR20190067663A (en) * 2017-12-07 2019-06-17 한국생산기술연구원 Wearable sign language translation device
KR102098734B1 (en) * 2019-08-06 2020-04-08 전자부품연구원 Method, apparatus and terminal for providing sign language video reflecting appearance of conversation partner
KR102115551B1 (en) * 2019-08-06 2020-05-26 전자부품연구원 Sign language translation apparatus using gloss and translation model learning apparatus
JP2020126144A (en) * 2019-02-05 2020-08-20 ソフトバンク株式会社 System, server device, and program
JP2022037891A (en) * 2020-08-25 2022-03-09 株式会社セルシス Three-dimensional pose data generation system, method, and program
JP7485454B2 (en) 2022-08-05 2024-05-16 Necソリューションイノベータ株式会社 Sign language translation processing device, sign language translation processing system, sign language translation processing method, program, and recording medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534009A (en) * 2019-09-05 2019-12-03 北京青橙创客教育科技有限公司 A kind of unmanned course teaching aid of artificial intelligence

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328460A (en) * 1995-05-30 1996-12-13 Nec Off Syst Ltd Sign language translating device
JP2004220138A (en) * 2003-01-10 2004-08-05 Mitsubishi Heavy Ind Ltd Image recognizing device and image learning device
JP2004254218A (en) * 2003-02-21 2004-09-09 Seiko Epson Corp Cellular phone, communication method, and communication program
JP2011191418A (en) * 2010-03-12 2011-09-29 Nippon Telegr & Teleph Corp <Ntt> System, method and program for generating community-based sign language
JP2015069396A (en) * 2013-09-30 2015-04-13 富士通株式会社 Program, information processor, and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328460A (en) * 1995-05-30 1996-12-13 Nec Off Syst Ltd Sign language translating device
JP2004220138A (en) * 2003-01-10 2004-08-05 Mitsubishi Heavy Ind Ltd Image recognizing device and image learning device
JP2004254218A (en) * 2003-02-21 2004-09-09 Seiko Epson Corp Cellular phone, communication method, and communication program
JP2011191418A (en) * 2010-03-12 2011-09-29 Nippon Telegr & Teleph Corp <Ntt> System, method and program for generating community-based sign language
JP2015069396A (en) * 2013-09-30 2015-04-13 富士通株式会社 Program, information processor, and method

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190067662A (en) * 2017-12-07 2019-06-17 한국생산기술연구원 Sign language translation system using robot
KR20190067663A (en) * 2017-12-07 2019-06-17 한국생산기술연구원 Wearable sign language translation device
KR102023356B1 (en) * 2017-12-07 2019-09-23 한국생산기술연구원 Wearable sign language translation device
KR102037789B1 (en) * 2017-12-07 2019-10-29 한국생산기술연구원 Sign language translation system using robot
JP2020126144A (en) * 2019-02-05 2020-08-20 ソフトバンク株式会社 System, server device, and program
KR102098734B1 (en) * 2019-08-06 2020-04-08 전자부품연구원 Method, apparatus and terminal for providing sign language video reflecting appearance of conversation partner
KR102115551B1 (en) * 2019-08-06 2020-05-26 전자부품연구원 Sign language translation apparatus using gloss and translation model learning apparatus
US11482134B2 (en) 2019-08-06 2022-10-25 Korea Electronics Technology Institute Method, apparatus, and terminal for providing sign language video reflecting appearance of conversation partner
JP2022037891A (en) * 2020-08-25 2022-03-09 株式会社セルシス Three-dimensional pose data generation system, method, and program
JP7212908B2 (en) 2020-08-25 2023-01-26 株式会社セルシス 3D POSE DATA GENERATION SYSTEM, METHOD AND PROGRAM
JP7485454B2 (en) 2022-08-05 2024-05-16 Necソリューションイノベータ株式会社 Sign language translation processing device, sign language translation processing system, sign language translation processing method, program, and recording medium

Also Published As

Publication number Publication date
WO2017195775A1 (en) 2017-11-16

Similar Documents

Publication Publication Date Title
WO2017195775A1 (en) Sign language conversation assistance system
US11227129B2 (en) Language translation device and language translation method
KR102361389B1 (en) Method and apparatus to synthesize voice based on facial structures
US10691898B2 (en) Synchronization method for visual information and auditory information and information processing device
KR102115551B1 (en) Sign language translation apparatus using gloss and translation model learning apparatus
US11527242B2 (en) Lip-language identification method and apparatus, and augmented reality (AR) device and storage medium which identifies an object based on an azimuth angle associated with the AR field of view
KR102098734B1 (en) Method, apparatus and terminal for providing sign language video reflecting appearance of conversation partner
JP7279494B2 (en) CONFERENCE SUPPORT DEVICE AND CONFERENCE SUPPORT SYSTEM
KR102174922B1 (en) Interactive sign language-voice translation apparatus and voice-sign language translation apparatus reflecting user emotion and intention
CN113689879B (en) Method, device, electronic equipment and medium for driving virtual person in real time
US20220327309A1 (en) METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA
CN207718803U (en) Multiple source speech differentiation identifying system
JP6754154B1 (en) Translation programs, translation equipment, translation methods, and wearable devices
CN116415597A (en) Speech translation and simultaneous interpretation method
KR20110066628A (en) Apparatus and method of inputting a text using lip reading in a mobile phone
KR20220034396A (en) Device, method and computer program for generating face video
CN114155849A (en) Virtual object processing method, device and medium
KR101410321B1 (en) Apparatus and method for silent voice recognition and speaking
CN113903325B (en) Method and device for converting text into 3D audio
KR102370993B1 (en) Artificial Intelligence sign language service system with real-time translation and communication based on neural network
JP2022041769A (en) Translation program, translation device, and translation method
KR20240048977A (en) Finger language interpretation system
TW202334858A (en) Various sign language translation system
CN115409923A (en) Method, device and system for generating three-dimensional virtual image facial animation
CN114333863A (en) Voice enhancement method and device, electronic equipment and computer readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200721

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210202