JP6301427B1 - 自然言語処理装置、自然言語処理方法および自然言語処理プログラム - Google Patents

自然言語処理装置、自然言語処理方法および自然言語処理プログラム Download PDF

Info

Publication number
JP6301427B1
JP6301427B1 JP2016200483A JP2016200483A JP6301427B1 JP 6301427 B1 JP6301427 B1 JP 6301427B1 JP 2016200483 A JP2016200483 A JP 2016200483A JP 2016200483 A JP2016200483 A JP 2016200483A JP 6301427 B1 JP6301427 B1 JP 6301427B1
Authority
JP
Japan
Prior art keywords
sign language
natural language
language
sign
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016200483A
Other languages
English (en)
Other versions
JP2018063502A (ja
Inventor
正弘 淵▲崎▼
正弘 淵▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Research Institute Ltd
Original Assignee
Japan Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Research Institute Ltd filed Critical Japan Research Institute Ltd
Priority to JP2016200483A priority Critical patent/JP6301427B1/ja
Priority to US15/730,294 priority patent/US10733381B2/en
Application granted granted Critical
Publication of JP6301427B1 publication Critical patent/JP6301427B1/ja
Publication of JP2018063502A publication Critical patent/JP2018063502A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】人工知能アルゴリズムの画像認識技術を自然言語理解に応用し、効率的かつ迅速な処理対応が可能な自然言語データベースを効率的に作成すること。【解決手段】人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理装置において、入力部301が、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力し、手話動作解析部302が、入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析し、推測部303が、解析された共通点または相違点から、自然言語の意味内容について推測し、記憶部304が、推測された意味内容に関する情報を、自然言語と関連付けして記憶する。【選択図】図3

Description

この発明は、自然言語の解析に用いるデータベースを作成する自然言語処理装置、自然言語処理方法および自然言語処理プログラムに関する。
昨今、人工知能(AI)アルゴリズムによる機械学習を用いた画像認識の技術は、ニューラルネットワークや、ディープラーニングなどの技術により、飛躍的な認識精度の向上が実現できており、その認識精度は、人間の能力を超える程度までになっているといわれる。
たとえば、いわゆる『Googleの猫』のように、教師なし学習により、膨大な画像から、コンピュータが猫という存在自体を発見し、容姿を特定し、猫そのものを判別できるように学習することができる。また、昨今、人工知能アルゴリズムを用いた自動運転車に関する実用化可能な技術についても飛躍的に発展している。
しかしながら、上述した従来の技術は、画像認識技術の分野におけるものであり、一方、人工知能アルゴリズムによる機器学習を用いた自然言語理解については、翻訳や、会話などにおいて、未だ、実施レベルに到達できない状況にあるという問題がある。人工知能アルゴリズムが自然言語処理を苦手とするのは、たとえば、以下のような理由による。
第1に、言語には順序性があり、単語の順序によって意味が変わってしまうため、順列と組み合わせを考慮する必要があることから膨大な計算量が発生するからである。また、第2に、そもそも人工知能アルゴリズムが、言葉の持つ意味合いを理解できておらず、文字列としての認識にとどまっているからである。また、第3に、言葉の持つ意味を容易に理解していないので、人工知能アルゴリズムは、単語の出現回数や、類似性に基づいて判断せざるを得ないからである。
また、第4に、名詞や動詞などに比べて、形容詞や抽象概念は、画像による表現も困難であり、文字列と画像の組み合わせも困難だからである。また、第5に、人工知能アルゴリズムが意味を理解しておらず、反対語や同義語、同音異義語などの言葉の関係性を容易に理解できないからである。
この発明は、上述した従来技術による問題点を解消するため、人工知能アルゴリズムの画像認識技術を、自然言語理解に応用し、効率的かつ迅速な処理対応が可能な自然言語データベースを作成することができる自然言語処理装置、自然言語処理方法および自然言語処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、この発明にかかる自然言語処理装置は、人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理装置において、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力手段と、前記入力手段によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析手段と、前記手話動作解析手段によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測手段と、前記推測手段によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶手段と、を備えたことを特徴とする。
また、この発明にかかる自然言語処理装置は、上記の発明において、前記手話動作解析手段が、前記入力手段によって入力された手話画像から、複数に分類された手形ごとに手話動作の特徴点を抽出することを特徴とする。
また、この発明にかかる自然言語処理装置は、上記の発明において、前記手話動作解析手段が、前記入力手段によって入力された手話画像を、片手で表す手話である片手の手話と、両手で表し、両手が同じ形の手話である両手同形の手話と、両手で表し、両手が違う形の手話である両手異形の手話と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出することを特徴とする。
また、この発明にかかる自然言語処理装置は、上記の発明において、前記手話動作解析手段が、分類されたそれぞれの手話間において、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする。
また、この発明にかかる自然言語処理装置は、上記の発明において、前記推測手段が、前記手話動作の手形または動作が有する意味から、前記自然言語の意味内容について推測することを特徴とする。
また、この発明にかかる自然言語処理装置は、上記の発明において、前記手話動作解析手段が、前記入力手段によって入力された手話画像から、前記手話動作に加えて、あるいは、前記手話動作に代えて、手話動作者の表情を含む、手の動き以外の要素である非手指動作に関する特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする。
また、この発明にかかる自然言語処理装置は、上記の発明において、前記入力手段が、前記自然言語を連想させる関連画像を、当該自然言語および前記手話画像と関連付けして入力し、前記推測手段が、前記関連画像を用いて、前記自然言語の意味内容について推測することを特徴とする。
また、この発明にかかる自然言語処理方法は、コンピュータが、人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理方法において、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力処理と、前記入力処理によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析処理と、前記手話動作解析処理によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測処理と、前記推測処理によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶処理と、を前記コンピュータが実行することを特徴とする。
また、この発明にかかる自然言語処理プログラムは、コンピュータに、人工知能アルゴリズムを用いて自然言語の解析をおこなわせる自然言語処理プログラムにおいて、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力処理と、前記入力処理によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析処理と、前記手話動作解析処理によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測処理と、前記推測処理によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶処理と、を前記コンピュータに実行させることを特徴とする。
この発明にかかる自然言語処理装置、自然言語処理方法および自然言語処理プログラムによれば、人工知能アルゴリズムの画像認識技術を自然言語理解に応用し、効率的かつ迅速な処理対応が可能な自然言語データベースを作成することができるという効果を奏する。
この発明にかかる実施の形態の自然言語処理装置を含む自然言語処理システムのシステム構成を示す説明図である。 この発明にかかる実施の形態の自然言語処理装置のハードウエア構成の一例を示す説明図である。 この発明にかかる実施の形態の自然言語処理装置の機能的構成の一例を示す説明図である。 この発明にかかる実施の形態の自然言語処理装置のネットワーク構成の一例を示す説明図である。 手話画像に付与できるマルチ検索キーの内容の一例を示す説明図である。 この発明にかかる実施の形態の自然言語処理装置の全体の処理手順を示すフローチャートである。 一般的な手話動作における「手形」の種類の一例を示す説明図(その1)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その2)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その3)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その4)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その5)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その6)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その7)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その8)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その9)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その10)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その11)である。 一般的な手話動作における「手形」の種類の一例を示す説明図(その12)である。 一般的な手話動作における片手の手話の手の位置の一例を示す説明図(その1)である。 一般的な手話動作における片手の手話の手の位置の一例を示す説明図(その2)である。 一般的な手話動作における片手の手話の手の位置の一例を示す説明図(その3)である。 一般的な手話動作における片手の手話の手の位置の一例を示す説明図(その4)である。 一般的な手話動作における片手の手話の手の位置の一例を示す説明図(その5)である。 一般的な手話動作における片手の手話の手の位置の一例を示す説明図(その6)である。 一般的な手話動作における両手同形の手話の動きの一例を示す説明図(その1)である。 一般的な手話動作における両手同形の手話の動きの一例を示す説明図(その2)である。 一般的な手話動作における両手同形の手話の動きの一例を示す説明図(その3)である。 一般的な手話動作における両手同形の手話の動きの一例を示す説明図(その4)である。 一般的な手話動作における両手同形の手話の動きの一例を示す説明図(その5)である。 一般的な手話動作における両手同形の手話の動きの一例を示す説明図(その6)である。 一般的な手話動作における両手異形の手話の手の形の一例を示す説明図(その1)である。 一般的な手話動作における両手異形の手話の手の形の一例を示す説明図(その2)である。 自然言語『暑い』に対する手話動作の一例を示す説明図(その1)である。 自然言語『暑い』に対する手話動作の一例を示す説明図(その2)である。 自然言語『暑い』に対する手話動作の一例を示す説明図(その3)である。 自然言語『暑い』に対する手話動作の一例を示す説明図(その4)である。 自然言語『暑い』に対する手話動作の一例を示す説明図(その5)である。 自然言語『暑い』に対する手話動作の一例を示す説明図(その6)である。 自然言語『暑い』に対する手話動作の一例を示す説明図(その7)である。 自然言語『愛』に対する手話動作の一例を示す説明図(その1)である。 自然言語『愛』に対する手話動作の一例を示す説明図(その2)である。 自然言語『愛』に対する手話動作の一例を示す説明図(その3)である。 自然言語『愛』に対する手話動作の一例を示す説明図(その4)である。 自然言語『愛』に対する手話動作の一例を示す説明図(その5)である。 自然言語『愛』に対する手話動作の一例を示す説明図(その6)である。 自然言語『愛』に対する手話動作の一例を示す説明図(その7)である。 この発明にかかる実施の形態の自然言語処理装置のニューラルネットワークの構成を示す説明図である。 この発明にかかる実施の形態の応用例の内容を示す説明図(その1)である。 この発明にかかる実施の形態の応用例の内容を示す説明図(その2)である。 この発明にかかる実施の形態の応用例の内容を示す説明図(その3)である。 この発明にかかる実施の形態の応用例の内容を示す説明図(その4)である。 この発明にかかる実施の形態の応用例の内容を示す説明図(その5)である。 この発明にかかる実施の形態の応用例の内容を示す説明図(その6)である。
以下に添付図面を参照して、この発明にかかる自然言語処理装置、自然言語処理方法および自然言語処理プログラムの好適な実施の形態を詳細に説明する。
(自然言語処理システムのシステム構成)
まず、この発明にかかる実施の形態の自然言語処理装置を含む自然言語処理システムのシステム構成について説明する。図1は、この発明にかかる実施の形態の自然言語処理装置を含む自然言語処理システムのシステム構成を示す説明図である。
図1において、自然言語処理システム100は、たとえば、自然言語処理装置の管理者によって管理されるコンピュータ装置110によって実現することができる(図2および図3を参照)。この場合、自然言語処理装置を含むネットワーク101は、コンピュータ装置110によって実現される自然言語処理装置と、各種の端末装置120と、によって構成される。自然言語処理装置を実現するコンピュータ装置110と各種の端末装置120とは、それぞれ、インターネットなどのネットワーク101を介して相互に通信可能に接続されている。
自然言語処理装置は、単一のコンピュータ装置110によって実現されるものに限らず、コンピュータ装置110を管理用端末とするクラウドシステム111によって実現されるものであってもよい。
自然言語処理装置をクラウドシステム111によって実現する場合、当該クラウドシステム111は、管理用端末を実現するコンピュータ装置110、リソース管理装置111a、ストレージ装置111b、ルータ111c、スイッチ111dなどの複数のリソースによって構成される。クラウドシステム111において、リソース管理装置111aとストレージ装置111bとは、ネットワーク101を介してそれぞれ接続されるようにしてもよい。
また、リソース管理装置111aは、管理用端末を実現するコンピュータ装置110とネットワーク101を介して接続される。管理用端末を実現するコンピュータ装置110は、汎用的なコンピュータ装置によって実現することができ(図2および図3を参照)、管理者などによる操作を受け付ける。
リソース管理装置111aは、管理用端末を実現するコンピュータ装置110からの要求に応じて、ストレージ装置111bなどのリソースの中から選択したリソースを用いてユーザの要求を満たすシステムを構築し、構築したシステムによってユーザの要求に応じた処理をおこなうことができる。
リソース管理装置111aは、たとえば、ストレージ装置111bを制御するコンピュータ装置によって実現することができる。ストレージ装置111bは、データを保持する記憶媒体や、当該記憶媒体に対する情報の読み書きをおこなうドライブなどによって構成される。
ストレージ装置111bにおける記憶媒体は、たとえば、ハードディスクなどの磁気ディスクや、CD・DVD・Blu−ray Discなどの光学ディスク、USBメモリ・メモリカード・SSD(Solid State Drive)などのフラッシュメモリ記憶装置、磁気テープなどによって実現することができる。なお、Blu−rayは登録商標である。
各種の端末装置120は、PC(Personal Computer)、ノートPC、スマートフォン、タブレット端末、携帯型電話機などのユーザが使用するコンピュータ装置によって実現することができる。各種の端末装置120は、ネットワーク101に対して、無線接続されていてもよく、有線接続されていてもよい。
(自然言語処理装置のハードウエア構成の一例)
つぎに、この発明にかかる実施の形態の自然言語処理装置のハードウエア構成の一例について説明する。図2は、この発明にかかる実施の形態の自然言語処理装置のハードウエア構成の一例を示す説明図である。
図2において、この発明にかかる実施の形態の自然言語処理装置(あるいは管理用端末)を実現するコンピュータ装置110は、CPU(Central Processing Unit)211と、メモリ212と、ネットワークI/F(Interface)213と、操作部214と、カメラ215と、マイク216と、スピーカー217と、ディスプレイ218と、スキャナ219と、プリンタ220と、を備えている。コンピュータ装置110が備える各部211〜220は、バス210によってそれぞれ接続されている。
CPU211は、コンピュータ装置110の全体の制御をつかさどる。メモリ212は、ブートプログラムなどのプログラムや各種のデータベースを構成するデータなどを記憶している。また、メモリ212は、この発明にかかる実施の形態の自然言語処理プログラムや当該自然言語処理プログラムの実行にかかる各種のデータベースなど、自然言語処理にかかる各種のプログラムやデータを記憶している。
また、メモリ212は、CPU211のワークエリアとして使用される。メモリ212は、たとえば、ROM(Read−Only Memory)、RAM(Random Access Memory)、HDD(Hard Disc Drive)およびHD(Hard Disc)などによって実現することができる。
ネットワークI/F213は、ネットワーク101に接続され、コンピュータ装置110の内部と外部装置との間におけるデータの入出力を制御する。具体的に、ネットワークI/F213は、コンピュータ装置110の内部と、各種の端末装置120などの外部装置と、のインターフェイスをつかさどる。
操作部214は、文字、数値、各種指示などの入力のためのキーを備え、データ入力をおこなう。操作部214は、たとえば、タッチパネルやキーボードなどによって実現することができる。タッチパネルやキーボードなどによって実現される操作部214は、当該操作部214に対する入力操作に応じた信号をCPU211に対して出力する。
操作部214をタッチパネルによって実現する場合、当該タッチパネルは、ディスプレイ218の表示面側に積層される。タッチパネルは、指やペンなどの筆記部材が接触したことを検出した場合に、タッチパネルに対する筆記部材の接触位置に応じた電気信号を出力する。タッチパネルは、たとえば抵抗膜方式や静電容量方式、音響パルス認識方式、超音波表面弾性波方式、赤外遮光方式、画像認識方式など公知の各種の方式のものを用いることができる。
カメラ215は、CPU211によって制御されて撮像対象を撮像し、画像データを生成する。画像データは静止画像でも動画画像であってもよい。具体的に、カメラ215は、利用者が操作部214に対して所定の入力操作をした場合に、カメラ215の撮像範囲に位置する手話動作者などを撮像する。カメラ215によって生成された画像データは、CPU211に出力される。
マイク216は、アナログデータとして入力された話者の声をアナログ/デジタル変換し、デジタル形式の音声データを生成する。マイク216を備えることにより、自然言語処理装置(あるいは管理用端末)コンピュータ装置110は、手話動作者の手話画像とともに音声の入力を受け付けることができる。マイク216は、自然言語処理装置に位置固定された形態であってもよく、有線あるいは無線によって自然言語処理装置の本体に接続されて手話動作者の口元などに近づけて使用することができる形態であってもよい。
スピーカー217は、たとえば、操作内容を案内するためのデジタル形式の音声データをデジタル/アナログ変換し、アナログ形式の音声データに基づいてスピーカーコーンにおけるコイルに通電するなどして音声を出力する。マイク216およびスピーカー217は、電話機における受話器のように一体化されていてもよい。
ディスプレイ218は、手話画像などを表示する。ディスプレイ218は、たとえば、主に液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイなどによって実現することができる。
具体的には、たとえば、液晶パネルによって実現されるディスプレイ218は、透明電極が組み込まれた一対のガラス基板によって液晶材料(液晶分子)を挟み、このガラス基板に偏光フィルタを設けることによって構成されている。液晶パネルは、電極に電圧を加えて液晶分子の向きを変化させることによって、ガラス基板を透過する光の状態を制御する。また、液晶パネルは、光源として、バックライトを備えている。これにより自らは発光しない液晶分子が表示する画像を照明することができる。
スキャナ219は、コンタクトガラス、露光ランプ、反射ミラー、結像レンズ、固体撮像素子などを備えている。コンタクトガラスには、読み取り対象とする原稿が載置される。原稿は、たとえば、手話画像や、手話画像とともに入力する画像が描画されている。手話画像とともに入力する画像は、たとえば、「暑さ」を連想させる太陽の画像や「寒さ」を連想させる雪景色の画像などであってもよく、「熱さ」を連想させる火にかけられた鍋の画像や「冷たさ」を連想させる氷の入った容器の画像であってもよい。
露光ランプは、コンタクトガラス上の原稿に走査光を照射する。反射ミラーは、原稿からの反射光を結像レンズに導く。結像レンズは、反射ミラーによって反射された反射光を固体撮像素子に入射させる。固体撮像素子は、たとえば、RGB3色用に1次元固体撮像素子であるCCD(Charge Coupled Device)イメージセンサを3列分並べた3ラインCCDイメージセンサアレイによって実現することができる。
なお、固体撮像素子は、CCDに代えて、CMOS(Complimentary Metal Oxide Semiconductor)などのMOS系イメージセンサを用いてもよい。固体撮像素子によって電気信号に変換された画像信号は、CPU211に入力される。
プリンタ220は、たとえば、手話画像の解析結果などを記録した所定の用紙を発行することができる。プリンタ220は、所定の用紙に対して決済の内容などを記録する記録処理をおこなうことによって上記の所定の用紙を発行する。プリンタ220は、たとえば、レーザプリンタ、インクジェットプリンタなど公知の各種の印字方式のプリンタによって実現することができる。
(自然言語処理装置の機能的構成)
つぎに、この発明にかかる実施の形態の自然言語処理装置の機能的構成の一例について説明する。図3は、この発明にかかる実施の形態の自然言語処理装置の機能的構成の一例を示す説明図である。
図3において、この発明にかかる実施の形態の自然言語処理装置(自然言語処理装置を実現するコンピュータ装置110、コンピュータ装置110を管理用端末とするクラウドシステム111)は、少なくとも、入力部301と、手話動作解析部302と、推測部303と、記憶部304と、を含む構成である。
入力部301は、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する。ここで、自然言語は、単語でもよく、また、一連の文章であってもよい。手話画像は、当該自然言語について手話動作者に実施させた手話動作に関する画像である。手話画像は、静止画または動画であってもよい。静止画の場合は、手話動作の内容がわかるように、動作の始まり、中間、終わりなどがわかるように複数の静止画によって構成されているとよい。
入力部301は、具体的には、たとえば、図2に示したネットワークI/F213、操作部214、カメラ215、マイク216、スキャナ219などによってその機能を実現することができる。
手話動作解析部302は、入力部301によって入力された手話画像から、手話動作の複数の特徴点を抽出する。ここで、手話動作とは、手の形、手の位置、手の動きなどを含む動作であり、特徴点とは、それらの動作の各特徴部分を示すものである。手話動作解析部302は、具体的には、たとえば、図2に示したコンピュータ装置110が備えるCPU211などによってその機能を実現することができる。
また、手話動作解析部302は、入力部301によって入力された手話画像から、複数に分類された「手形」ごとに手話動作の特徴点を抽出するようにしてもよい。ここで、「手形」とは、手の形を分類したものであり、たとえば、竹村茂著「手話・日本語大辞典」(廣済堂出版 1999年)によれば、指文字を基本として59種類が存在する。「手形」の詳細については、図6A〜図6Lを用いて、後述する。
また、手話動作解析部302は、入力部301によって入力された手話画像を、「片手の手話」と、「両手同形の手話」と、「両手異形の手話」と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出するようにしてもよい。
ここで、「片手の手話」とは、片手で表す手話である片手の手話であり、「両手同形の手話」とは、両手で表し、両手が同じ形の手話であり(後述する図8A〜図8F参照)、「両手異形の手話」とは、両手で表し、両手が違う形の手話である(後述する図9A、図9B参照)。
そして、手話動作解析部302は、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する。解析した共通点、相違点は、どのくらい共通しているか、あるいは、どのくらい相違しているかについての特徴量を算出(数値化)する。その特徴量は、特徴点に関する情報の中に含めるようにしてもよい。
また、手話動作解析部302は、「手形」ごとに手話動作どうしを比較することによって、他の手話動作との共通点または相違点を解析するようにしてもよい。あるいは、手話動作解析部302は、「片手の手話」と、「両手同形の手話」と、「両手異形の手話」と、に分類されたそれぞれの手話動作間において、抽出された特徴点ごとに比較することによって、他の手話動作との共通点または相違点を解析するようにしてもよい。どのように、手話の特徴点を比較して共通点または相違点を解析するかは、機械学習によって、コンピュータに取捨選択させることができる。
また、手話動作解析部302は、入力部301によって入力された手話画像から、手話動作に加えてあるいは手話動作に代えて、「非手指動作」に関する特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析するようにしてもよい。ここで、「非手指動作」とは、手話動作者の表情や手話動作者の姿勢などを含む、手の動き以外の要素である。
推測部303は、手話動作解析部302によって解析された共通点または相違点から、自然言語の意味内容について推測する。具体的には、解析された共通点または相違点の特徴量に基づいて、どのような意味内容なのか、より具体的には、たとえば、あらかじめ複数の意味内容の分類を作っておいて、その中のどの意味内容の分類に含まれるのかを判断するようにしてもよい。推測部303は、具体的には、たとえば、図2に示したコンピュータ装置110が備えるCPU211などによってその機能を実現することができる。
推測部303は、手話動作の手形または動作が有する意味から、自然言語の意味内容について推測する。ここで、手話動作の手形または動作が有する意味とは、たとえば、後述する図6Aの「手形」が『ソ』の文字を示し、図6Bの「手形」が『ヒ』、図6Dの「手形」が『サ』、図6Iの「手形」が『ク』、図6Jの「手形」が『タ』、図6Kの「手形」が『フ』、図6Lの「手形」が『モ』、図6Hの「手形」が『C』を表している。また、後述する図11D、図11Fでは、手話動作が、「ハート」の形で「愛」を表している。このような情報を用いて、自然言語の意味内容について推測する。
入力部301は、自然言語を連想させる「関連画像」を、当該自然言語および手話画像と関連付けして入力するようにしてもよい。そして、推測部303は、関連画像(『暑い』という自然言語に対して、たとえば、太陽がギラギラ照りつけている様子の後に汗を拭いている人の映像など)を用いて、自然言語の意味内容について推測するようにしてもよい。「関連画像」の詳細については、後述する。
記憶部304は、推測部303によって推測された意味内容に関する情報を、入力部301によって入力された自然言語と関連付けして記憶する。これによって、自然言語の解析に用いる自然言語データベースを構築することができる。記憶部304は、具体的には、たとえば、図2に示したコンピュータ装置110が備えるCPU211やメモリ212などによってその機能を実現することができる。
(自然言語処理装置を含むネットワーク構成の一例)
つぎに、自然言語処理装置を用いたインターネット検索の概要について説明する。図4Aは、この発明にかかる実施の形態の自然言語処理装置のネットワーク構成の一例を示す説明図である。また、図4Bは、手話画像に付与できるマルチ検索キーの内容の一例を示す説明図である。
図4Aにおいて、コンピュータ装置110は、インターネットなどのネットワーク101を介して、ネットワーク101上の様々なコンテンツ(動画、テキスト、音声など)を検索し、その情報を取得することができる。取得されたコンテンツに関する情報は、言語と関連付けして記憶部304に記憶することによって、言語データベース401を構築することができる。
第三者が作成したコンテンツは様々な記録形式で存在している。記憶部304に記憶されたデータは、図4Bに示すように、複数の形式のコンテンツから学習させたい事柄を検索するための複数の記録形式に対応した検索キーを備えていてもよい。
たとえば、「FinTech」について学ばせたい場合は、「FinTech」の手話動作の特徴点をキーに他の手話者が「FinTech」について語っている手話画像を検索し、取得することで、手話画像コンテンツから学習できる。「FinTech」の音声の特徴点をキーにすれば音声のコンテンツを、「FinTech」のテキストをキーにすれば、テキストコンテンツを検索し取得することで学習することができる。
図4Bに示した一覧には主な検索対象という項目を設け、画像系は画像を、音声は音声を、テキストはテキストを主な検索対象としているが、テキストから音声や画像を検索できるのと同様に、第三者が作成したコンテンツが、いずれかのキーで検索可能であれば、この限りではない。
自然言語処理装置は、記憶部304に記憶されたデータに、インターネット上に存在するコンテンツの形式ごとの検索キーを格納しているため、複数の形式のコンテンツを漏れなく取得して、機械学習することができる。
(自然言語処理装置の全体の処理手順)
つぎに、この発明にかかる実施の形態の自然言語処理装置の全体の処理手順について説明する。図5は、この発明にかかる実施の形態の自然言語処理装置の全体の処理手順を示すフローチャートである。
図5のフローチャートにおいて、まず、自然言語と、当該自然言語に対する手話動作の手話画像、すなわち、手話者動作が当該自然言語を手話動作に翻訳した手話画像とを関連付けして、自然言語処理装置(コンピュータ装置110)内に入力する(ステップS501)。
つぎに、自然言語処理装置(コンピュータ装置110)内に入力された手話画像から、手話動作の特徴点を抽出する(ステップS502)。手話動作における特徴点については無数に考えられるため、特徴点の取捨選択が必要となる場合がある。その場合に、処理の効率化および迅速化を図るために、手話動作のどの部分を特徴点として抽出するかは、関連付けされて入力された自然言語の内容などに基づいて、手話画像ごとに変更してもよい。これらは、機械学習によって得られた知識ベースに基づいて、人工知能アルゴリズムを用いて決定させるようにしてもよい。
そして、抽出された手話動作の特徴点の中から、1つ目の特徴点について着目する(ステップS503)。複数の特徴点からどのような順序で特徴点に着目するかについても、処理の効率化および迅速化を図るために、手話画像ごとに変更してもよい。これらは、機械学習によって得られた知識ベースに基づいて、人工知能アルゴリズムを用いて決定させるようにしてもよい。
そして、ステップS503において着目した特徴点について、既に自然言語処理装置(コンピュータ装置110)内、あるいは、自然言語処理装置(コンピュータ装置110)に接続されている他の装置内に登録されている他の手話画像の手話動作の特徴点と比較し、比較した結果、両者の特徴点における共通点を解析し(ステップS504)、その解析結果を保存する(ステップS505)。
引き続き、ステップS503において着目した特徴点について、既に自然言語処理装置(コンピュータ装置110)内、あるいは、自然言語処理装置(コンピュータ装置110)に接続されている他の装置内に登録されている他の手話画像の手話動作の特徴点と比較し、比較した結果、両者の特徴点における相違点を解析し(ステップS506)、その解析結果を保存する(ステップS507)。
ステップS504の共通点の解析処理とステップS506の相違点の解析処理の順序は逆であってもよい。すなわち、先にステップS506の相違点の解析処理をおこなってその解析結果を保存し、その後、ステップS504の共通点の解析処理をおこなってその解析結果を保存してもよい。また、ステップS504の共通点の解析処理とステップS506の相違点の解析処理を同時におこなってもよい。
また、どのような順序でおこなうかは、特徴点ごとに変更してもよい。また、特徴点ごとに、ステップS504の共通点の解析処理のみをおこない、ステップS506の相違点の解析処理をおこなわないようにしてもよい。あるいは、ステップS506の相違点の解析処理のみをおこない、ステップS504の共通点の解析処理をおこなわないようにしてもよい。これらの手順については、処理の効率化および迅速化を考慮して、機械学習によって得られた知識ベースに基づいて、人工知能アルゴリズムを用いて決定させるようにするとよい。
その後、ステップS507において解析結果を保存した特徴点が最後の特徴点であるか否かを判断する(ステップS508)。ここで、最後の特徴点ではない場合(ステップS508:No)は、次の特徴点に着目する(ステップS509)。そして、ステップS504へ戻り、ステップS504〜ステップS509の各処理を、ひたすら繰り返し実行する。
そして、ステップS508において、ステップS507において解析結果を保存した特徴点が最後の特徴点であった場合(ステップS508:Yes)は、つぎに、保存された解析結果に基づいて、当該手話画像に関連付けて入力された自然言語の意味内容についての推測処理をおこなう(ステップS510)。
ステップS510の推測処理は、解析され、保存された特徴点の共通点、相違点に基づいておこなう。保存された共通点、相違点のうち、すべての共通点、相違点を利用するのか、いずれの共通点、相違点のみを利用するのかについては、処理の効率化および迅速化を考慮して、機械学習によって得られた知識ベースに基づいて、人工知能アルゴリズムを用いて決定させるようにするとよい。
そして、ステップS510における意味内容推測処理の結果、すなわち、自然言語に対する意味内容に関する情報を記憶する(ステップS511)。つぎに、次の自然言語と、当該自然言語に対する手話動作の手話画像とを関連付けして、自然言語処理装置(コンピュータ装置110)内に入力し(ステップS512)、ステップS502へ戻る。
その後、ステップS502〜S512の処理を繰り返しおこなう。このようにして、自然言語データベースへの自然言語の入力処理をおこなうことができる。
(特徴点の抽出処理の一例)
つぎに、手話動作解析部302によっておこなわれる、手話画像から手話動作の特徴点を抽出する特徴点の抽出処理(図5のフローチャートにおけるステップS502)について、その内容を詳細に説明する。
特徴点は、手話動作における手の形、手の位置、手の動きなどを含む動作である。より具体的には、特徴点は、手の形、その手の位置を画像処理技術によって抽出することができる。当該画像処理技術については、周知の技術を用いるため、その詳細な説明については省略する。
また、手の動きは、手話動作が静止画像の場合は、複数の静止画像から、手の位置の変化量を抽出し、手の動きを推測する。また、手話動作が動画像の場合も、動画に関する画像処理技術によって、手の動きを特定する。これらをすべて特徴点(特徴量)として、手話画像から抽出する。
手話動作の特徴点は、特に片手でおこなう「片手の手話」の場合に、手の形である「手形」によって特徴点とすることができる。図6A〜図6Lは、一般的な手話動作における「手形」の種類の一例を示す説明図である。
「手形」は、たとえば、前出の「手話・日本語大辞典」によれば、指文字から、図6Aに示す『ソ型』、図6Bに示す『ヒ型』、図6Dに示す『サ型』、図6Iに示す『ク型』、図6Jに示す『タ型』、図6Kに示す『フ型』、図6Lに示す『モ型』などがある。
さらに、図示を省略する『ハ型』、『ナ型』、『ニ型』、『ウ型』、『ト型』、『ラ型』、『マ型』、『ミ型』、『ユ型』、『ワ型』、『ヨ型』、『オ型』、『ア型』、『イ型』、『エ型』、『カ型』、『キ型』、『ク型』、『コ型』、『シ型』、『ス型』、『セ型』、『テ型』、『ヌ型』、『ネ型』、『ホ型』、『ム型』、『メ型』、『ヤ型』、『ル型』、『レ型』、『ロ型』などがある。
また、英語の指文字から、図6Hに示す『C型』や、図示を省略する『Q型』などがある。また、人差し指が向いている方向によって、図示を省略する『人差指後』、『人差指下』、『一型』などや、人差し指と中指を前にそろえて出した型である、図示を省略する『二上型』、『二下型』などがある。
また、握り拳のバリエーションを示す、図6Cに示す『握り拳縦』や、図示を省略する、小指側が相手に向いている型である『握り拳小』、親指側が相手に向いている型である『握り拳親』、四指の甲が相手に向いている型である『握り拳甲』、手のひら側が上を向いている型である『握り拳平』などがある。
また、「手形」をその形の由来から、図6Eに示す『熊手型』、図Fに示す『祈る型』、図6Gに示す『テ↓型』や、図示を省略する『すぼめ型』、『手刀』、『屋根型』、『テ↑型』、『キーボード型』、『薬指』などがある。これらの「手形」がすべて手話動作の特徴点となり得る。
また、「片手の手話」の場合は、「手形」だけでなく、手の位置、すなわち、手が体のどの部位の位置にあるかによって意味が決まる場合があるため、手の位置についても特徴点となり得る。図7A〜図7Fは、一般的な手話動作における片手の手話の手の位置の一例を示す説明図である。
たとえば、図7Aに示すように「鼻」に接するかあるいは「鼻」のすぐ側に手の位置がある場合、図7Bに示すように「こめかみ」に接するかあるいは「こめかみ」のすぐ側に手の位置がある場合、図7Cに示すように「首」に接するかあるいは「首」のすぐ側に手の位置がある場合、図7Eに示すように「胸」に接するかあるいは「胸」のすぐ側に手の位置がある場合、それぞれ、その身体部位を占めるなどの独自の意味を有することがある。
それ以外に、図示を省略するが、たとえば、「頭」、「額」、「耳」、「目」、「頬」、「口」、「顎」、「喉」、「肩」、「腹」、「足」などに接するかあるいはこれらのすぐ側にある場合である。
また、手が体の部位に接していないが、その周辺にある場合には、また別の意味を有するため、その場合も特徴点として考慮するとよい。たとえば、図7Dに示すように「頭の横」、すなわち頭の横側であって、頭から少し離れた位置に手がある場合、図7Fに示すように「胸の前」、すなわち、胸の前側であって、胸が少し離れた位置に手がある場合、などである。
それ以外、図示を省略するが、たとえば、「頭の上」、「顔の前」、「腹の前」、「体の脇」などの位置に手がある場合も、特徴点となり得る。
また、「両手同形の手話」の場合は、「手形」のほかに、さらに、両手がどのように動くかが特徴点になり得る。たとえば、両手についての「上下の動き」、「前後の動き」、「その場の動き」、「左右の動き」、「円運動」、「動きなし」などが、下記のように、それぞれ手話動作の特徴点となり得る。
図8A〜図8Fは、一般的な手話動作における両手同形の手話の動きの一例を示す説明図である。具体的には、たとえば、図8Aに示すように、手を上下に動かす「上下の動き」がある。図8Aでは、「手形」が『ヒ型』(図6B)であって、その手形の両手を上下に1〜2回交互に動かすことで、『どちら』、『とにかく』、『〜かどうか』、『比べる』、『比較』という言葉を示す。この手話動作は、両手を上下に1〜2回交互に動かすことで、どちらがよいかということを表している。
また、図8Bに示すように、手を前後方向に動かす「前後の動き」がある。図8Bでは、「手形」が『ヒ型』(図6B)であって、その手形の両手、すなわち、両手の人差し指を顔の両側におき、互い違いに前後に軽く振るようにすることで、『遊ぶ』、『チャンバラ』という言葉を示す。この手話動作は、両手の人差し指を互い違いに前後に軽く振るようにすることで、チャンバラ遊びで、棒を振り回している様子を表している。
また、図8Cに示すように、位置はそのままで指だけが動く「その場の動き」がある。図8Cでは、「手形」が『タ型』(図6J)であって、その手形の両手、すなわち、両手の親指を向かい合わせて、両親指に指先を折るようにすることで、『挨拶』という言葉を示す。この手話動作は、親指を人に見立てて、指先を折ることで、挨拶をしている様子を表している。
また、図8Dに示すように、手を左右方向に動かす「左右の動き」がある。図8Dでは、「手形」が『ヒ型』(図6B)であって、その手形の両手、すなわち、両手の人差し指を体の左右に立てて胸の前で合わせ、両手は手のひら側で向かい合うようにすることで、『会う』、『面接』、『面会』という言葉を示す。この手話動作は、人差し指を人に見立てて、会う様子を表している。
また、図8Eに示すように、指先が円を描くように手を動かす「円運動」がある。図8Eでは、「手形」が『タ型』(図6J)であって、その手形の両手を前方で並べて示し、左右を引き離して水平面で円を描くように後に持ってきて、また両手をつけるようにすることで、『男子』、『男性』、『男たち』という言葉を示す。この手話動作は、「男」の集合ということを表している。
また、図8Fに示すように、手の動きがなく、位置が変わらない「動きなし」がある。図8Fでは、「手形」が『ヒ型』(図6B)と『一型』であって、両手とも人差し指以外は握り、一方の手の人差し指を伸ばして横向きにおき(『一型』)、その後に、他方の手の人差し指を立てる(『ヒ型』)。後の手は、手のひらを横向きにすることで、『科学』という言葉を示す。この手話動作は、平原から上昇するロケットのイメージを表している。
また、「両手異形の手話」の場合は、たとえば、利き手の「手形」のほかに、さらに、利き手でない方の手の「手形」も含めた、両方の「手形」の組み合わせが特徴点になり得る。さらに、利き手でない方の手においては、利き手の「手形」には現れない「腕」の形が特徴点になり得る。
図9A、図9Bは、一般的な手話動作における両手異形の手話の手の形の一例を示す説明図である。具体的には、たとえば、図9Aに示すように、利き手の「手形」が『ソ型』(図6A)、利き手でない方の手が『テ↓型』(図6G)であって、利き手でない方の手(『テ↓型』)の手のひらを下に向け、やや丸めた手の下に、利き手(『ソ型』)の手の人差し指をくぐらせることで、『なぜ』、『どうして』、『意味」、『理由』、『訳』、『探求』という言葉を示す。この手話動作は、隠されたものごとを探っている様子を示している。
また、図9Bに示すように、利き手の形が『人差指下』、利き手でない方の手が『テ↓型』であって、利き手でない方の手(「テ↓型」)指先を横、手のひらを下に向けた手を示し、その手の小指側を、利き手(『人差指下』)の人差し指の先でなぞることで、『(線を)引く』、『デザイン』、『定規』、『予定』、『計画』、『〜つもり』という言葉を示す。この手話動作は、定規で線を引いて、予定表を作るしぐさを表している。
また、利き手でない方の手では現れない「手形」がある。たとえば、図示を省略する『薬指』、『キ型』、『シ型』、『ス型』、『セ型』、『ラ型』、『ル型』、『ロ型』などである。このような型が出現した場合は、そちらの手が利き手であるとの判断をすることもできる。
このように、手話画像における手話動作が、「片手の手話」なのか、「両手同形の手話」なのか、「両手異形の手話」なのかを、判別した上で、それぞれの手話における独自の特徴点を判断し、判断した特徴点を抽出するようにしてもよい。
これらの特徴点についても、人工知能アルゴリズムを用いて、あらかじめ機械学習させて、どの部分の特徴点を抽出し、どの部分の特徴点は抽出しない(無視する)かを決めさせるようにするとよい。
このように、手話動作とは、手の形、手の位置、手の動きなどを含む動作であり、特徴点とは、それらの動作の各特徴部分を示している。そして、上述した複数に分類された「手形」ごとに手話動作の特徴点を抽出するようにしてもよく、入力された手話画像を、「片手の手話」と、「両手同形の手話」と、「両手異形の手話」と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出するようにしてもよい。
そして、手話画像における手話動作が、「片手の手話」なのか、「両手同形の手話」なのか、「両手異形の手話」なのかの類型を判別した上で、それぞれの類型における独自の特徴点を判断し、判断した特徴点を抽出するようにしてもよい。
さらに、特徴点として、「非手指動作」を用いてもよい。「非手指動作」とは、手話動作者の表情や手話動作者の姿勢などを含む、手の動き以外の要素である。手話動作者の表情については、表情の認識に関する周知技術としての画像認識処理機能を用いることができる。その詳細については省略する。
手話動作者の姿勢については、図示は省略するが、たとえば、手話動作者の首の角度、肩の位置、肘の位置や角度などの情報を、手話画像から抽出し、それらの情報を特徴点とするようにしてもよい。
これらの特徴点についても、他の特徴点と同様に、人工知能アルゴリズムを用いて、あらかじめ機械学習させて、どの部分の特徴点を抽出し、どの部分の特徴点は抽出しない(無視する)かを決めさせるようにするとよい。
(共通点・相違点の解析処理)
つぎに、手話動作解析部302によっておこなわれる、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する解析処理(図5のフローチャートにおけるステップS503〜ステップS509)について、図10A〜図10Gを用いて詳細に説明する。図10A〜図10Gは、自然言語『暑い』に対する手話動作の一例を示す説明図であり、手話動作は異なるが、いずれも自然言語『暑い』を手話動作化したものである。
図10Aにおける手話動作は、「片手の手話」であって、「手形」は『握り拳縦』(図6C参照)、手の位置は『首』(図7C参照)であり、その握り拳を縦にして、首のところで振るという動作である。この手話動作には、『暑い』のほかに、『夏』、『南』、『うちわ』、『扇子』という意味がある。「うちわ」であおぐのは「夏」であって、暑さは「南」からくるので、『暑い』を表している。
また、図10Bにおける手話動作は、「片手の手話」であって、「手形」は『ク型』(図6I参照)、手の位置は『首』(図7C参照)であり、その指文字「ク」の手を、手話動作者の首に向けて振るという動作である。この手話動作には、図10Aと同様に、『暑い』のほかに、『夏』、『南』、『うちわ』、『扇子』という意味がある。図10Aと同様に、「うちわ」であおぐのは「夏」であって、暑さは「南」からくるので、『暑い』を表している。
また、図10Cにおける手話動作は、「片手の手話」であって、「手形」は『タ型』(図6J参照)、手の位置は『首』(図7C参照)であり、その指文字「タ」の手を、手話動作者の首のところで振るという動作である。この手話動作には、図10A、図10Bと同様に、『暑い』のほかに、『夏』、『南』、『うちわ』、『扇子』という意味がある。図10A、図10Bと同様に、「うちわ」であおぐのは「夏」であって、暑さは「南」からくるので、『暑い』を表している。
このように、図10A、図10B、図10Cの特徴点を「手形」とした場合には、それぞれ『握り拳縦』、『ク型』、『タ型』であり、いずれもその形は異なる。この点は互いに相違点になる。しかしながら、手の位置が同じであり、(「うちわ」あるいは「扇子」を振るように)手を振るという動作が同じであり、これらが共通点となり得る。
「手形」についても、手の形は異なるとはいえ、手話動作者はいずれも「うちわ」あるいは「扇子」などを想定した「手形」としているものであり、その点では、いずれも共通するものとして解析させることもできる。この手話動作から、身体に風を送って、身体周辺の熱気を飛ばして、身体の体温を下げようとしているという共通点を導き、自然言語『暑い』とは、身体の体温を下げさせる必要がある状態であるとの意味内容を推測部303に推測させることができる。
また、図10Dにおける手話動作は、「片手の手話」であって、「手形」は『モ型』(図6L参照)、手の位置は『こめかみ』(図7B参照)であり、親指と人差し指の先をつけ指の先をこめかみに当て、下におろす。その際、他の指は握っているという動作である。この手話動作には、『暑い』のほかに、『汗』、『汗をかく』、『夏』という意味がある。汗が一筋流れる様子を示しており、夏は暑くて汗が出るので『夏』、『暑い』を表している。
また、図10Eにおける手話動作は、「片手の手話」であって、「手形」は『(上から下へ動かす動作とともにおこなう)テ↓型』(図6G参照)、手の位置は『こめかみ』(図7B参照)であり、手のひらを下にした手の指先をこめかみに当てて、下へ引き下ろすという動作である。強調したいときは、何度も繰り返す。この手話動作には、『暑い』のほかに、『汗』、『汗をかく』、『夏』という意味がある。汗がたくさん流れる様子を示しており、図10Dと同様に、夏は暑くて汗が出るので『夏』、『暑い』を表している。
また、図10Fにおける手話動作は、「両手の手話」であって、「手形」は『モ型』(図6L参照)、両手は「上下の動き」(図8A参照)であり、両手の指文字「モ」の指先を両こめかみに当てて、同時に下へ引き下ろすという動作である。図10Eと同様に、強調したいときは、何度も繰り返す。この手話動作には、図10D、図10Eと同様に、『暑い』のほかに、『汗』、『汗をかく』、『夏』という意味がある。汗がたくさん流れる様子を示しており、図10D、図10Eと同様に、夏は暑くて汗が出るので『夏』、『暑い』を表している。
また、図10Gにおける手話動作は、「両手の手話」であって、「手形」は『(上から下へ動かす動作とともにおこなう)テ↓型』(図6G参照)、両手は「上下の動き」(図8A参照)であり、両手の指先をこめかみに当てて、下へ引き下ろすという動作である。図10D〜図10Fと同様に、強調したいときは、何度も繰り返す。この手話動作には、図10D〜図10Fと同様に、『暑い』のほかに、『汗』、『汗をかく』、『夏』という意味がある。汗がたくさん流れる様子を示しており、図10D〜図10Fと同様に、夏は暑くて汗が出るので『夏』、『暑い』を表している。
このように、図10Dと図10Eが「片手の手話」であるのに対して、図10Fと図10Gが「両手同形の手話」である点で、両者は異なる。この点が相違点になる。また、図10D〜図10Gの特徴点を「手形」とした場合には、図10Dと図10Fが、いずれも『モ型』である点で一致し、図10Eと図10Gが、いずれも『(上から下へ動かす動作とともにおこなう)テ↓型』である点で一致するが、図10D・図10Fと、図10E・図10Gとは「手形」が異なる点で、相違点になる。
しかしながら、手の位置が同じであり、(汗が流れるように)手を下に下げるという動作が同じであり、これらが共通点となる。
片手か両手かの違いや、「手形」について、手の形は異なるとはいえ、手話動作者はいずれも汗がこめかみから流れ落ちることを想定した「手形」としているものであり、この点について共通するものとして解析することができる。この手話動作から、汗が流れるような状況であるという共通点を導き、自然言語『暑い』とは、身体の体温が上昇している状態であるとの意味内容を推測部303に推測させることができる。
その際、自然言語『暑い』を想起させる映像若しくは文脈、たとえば、太陽がギラギラ照りつけている様子の後に汗を拭いている人の映像、ボイラーの炎を目の前にして汗をかいている人の画像または映像、サウナに入って暑がっている人の画像または映像などの「関連画像」をあわせて用いるようにすることで、自然言語『暑い』の意味内容をより正確にかつ多様的に把握させることができる。
(意味内容の推測処理)
つぎに、推測部303によっておこなわれる、解析された共通点または相違点から、自然言語の意味内容について推測する解析処理(図5のフローチャートにおけるステップS510)について、図11A〜図11Gを用いて詳細に説明する。図11A〜図11Gは、自然言語『愛』に対する手話動作の一例を示す説明図であり、手話動作は異なるが、いずれも自然言語『愛』を手話動作化したものである。
図11Aにおける手話動作は、「片手の手話」であって、「手形」は『(上から下へ動かす動作とともにおこなう)テ↓型』(図6G参照)であり、指先を前、手のひらを下に向けた手を胸の前において、水平面にやや小さい円を描くという動作である。この手話動作には、『愛』のほかに、『大切』、『かわいい』という意味がある。愛しているものを、大切になでまわしているしぐさを表している。
また、図11Bにおける手話動作は、「両手同形の手話」であって、「手形」は『握り拳縦』(図6C参照)、両手は「動きなし」(図8F参照)であり、両手の握り拳を縦にして、両腕が胸のところで「×」印に交差するようにかかえるという動作である。ハートをしっかりと抱きかかえる様子を表している。
また、図11Cにおける手話動作は、「両手同形の手話」であって、「手形」は『テ↓型』(図6G参照)、両手は「その場の動き」(図8C参照)であり、手のひらで他の手の甲をなでまわす。その際、両手は「×」印に交差するようするという動作である。この手話動作には、『愛』のほかに、『大切』、『大事』、『重要』、『かわいい』という意味がある。さらには、『愛知』という意味もある。この手話動作では、図11Aと同様に、大切になでまわすところがポイントである。
また、図11Dにおける手話動作は、「両手同形の手話」であって、「手形」は『C型』(図6H参照)、両手は「動きなし」(図8F参照)であり、指文字「C」の両手を、親指を上にして向かい合わせ、ハートの形を作り、胸の前におくという動作である。この手話動作には、『愛』のほかに、『ハート』、『恋』という意味がある。この手話動作では、「ハート」の形で「愛」を表している。
また、図11Eにおける手話動作は、「両手同形の手話」であって、「手形」は『ク型』(図6I参照)、両手は「その場の動き」(図8C参照)であり、指文字「ク」の両手を、胸のところで「×」印に交差するように重ねるという動作である。図11Bと同様に、ハートをしっかりと抱きかかえる様子を表している。
また、図11Fにおける手話動作は、「両手同形の手話」であって、「手形」は『フ型』(図6K参照)、両手は「動きなし」(図8F参照)であり、指文字「フ」の両手を、親指と人差し指の先を合わせてハートの形を作るという動作である。この手話動作には、図11Dと同様に、『愛』のほかに、『ハート』、『恋』という意味がある。この手話動作では、「ハート」の形で「愛」・「恋」を表している。
また、図11Gにおける手話動作は、「両手異形の手話」であって、「手形」は『テ↓型』(図6G参照)、であり、他の手の「手形」は、『サ型』(図6D参照)であり、手のひらで、指文字「サ」の他の手の甲をなでまわす。この手話動作には、図11Cと同様に、『愛』のほかに、『大切』、『大事』、『重要』、『かわいい』、『愛知』という意味がある。この手話動作では、図11Aと同様に、大切になでまわすところがポイントである。図11A、図11Cと同様に、愛しているものを、大切になでまわしているしぐさを表している。
このように、自然言語『愛』に対して、手話動作の共通点となる特徴点としては、「なでまわすこと」、「ハートを示すこと」、「胸(ハート)を抱きかかえること」が抽出される。「ハートを示すこと」と「胸(ハート)を抱きかかえること」については、「ハート」を媒介として共通点と捉えることができるが、それらと、「なでまわすこと」とは、共通点がないことから、相違点として捉えることができる。これらの共通点・相違点に基づいて、『愛』という言葉の意味内容を推測する。
具体的には、「なでまわすこと」から、相手がいて、その相手に対するもの(こと)であると推測できる。また、「ハート(心臓)」が出てくることから、心すなわち感情に関することであると推測できる。このようにして、抽出された複数の特徴点(共通点・相違点)を取捨選択し、複数の組み合わせを試行錯誤することによって、いままで難しかった『愛』という言葉の意味内容の推測をおこなわせることができる。
(ニューラルネットワークの構成)
つぎに、この発明にかかる実施の形態の自然言語処理装置のニューラルネットワークの構成について説明する。図12は、この発明にかかる実施の形態の自然言語処理装置のニューラルネットワークの構成を示す説明図である。
図12において、この発明にかかる実施の形態の自然言語処理装置のニューラルネットワークは、入力層1201と出力層1203とを備え、さらに、入力層1201と出力層1203の間に中間層1202を備えている。入力層1201、中間層1202、出力層1203にそれぞれ存在する複数の「○」は、形式ニューロンやノードを示している。図3に示した手話動作解析部302および推測部303は、いずれもこのようなニューラルネットワークによって構成されていることが望ましい。
ニューラルネットワークにおいて、入力層1201と出力層1203だけでなく、中間層1202を設けることで、処理をおこなうニューロン群の層が増える。これによって、思考を深くすることができる。入力層1201と出力層1203のみで構成されたネットワークよりもニューロンが増えた分だけ、解析や推測の精度が向上し、あるいは、汎用性がある解析や推測が得られ、また、いわゆる「教師なし学習」により解析結果や推測結果を得ることができる。
入力層1201は、中間層1202にある多数のニューロン群に対して、手話動作の特徴点に関する情報を伝達する。そして、中間層1202のニューロンは、当該情報を処理し、共通点・相違点の解析結果や、意味内容の推測結果に関する情報を出力層1203のニューロンに伝達して処理を実行する。そして、出力層1203のニューロンは、処理した結果を出力する。その出力結果1204を、図3に示した記憶部304に記憶することができる。
(応用例)
つぎに、この発明の応用例にかかる、第三者が作成した手話画像を取得した場合の手順について説明する。図13A〜図15Bは、この発明にかかる実施の形態の応用例の内容を示す説明図である。図13Aに示す手話画像1301、図14Aに示す手話画像1401、図15Aに示す手話画像1501は、『TAKEDA自動車』を表現する手話動作をデータ化した検索キーを用いて、インターネット上の手話画像を検索し、取得したものである。
図13Aは、手話画像1301を取得したばかりの状態であって、意味内容が付加されていない状態を示す。図13Bに表示されたテキスト1302は、取得した手話画像1301の内容を翻訳したものである。良い評価材料という評価スタンプ(『良い評価』)1303の表示は、テキスト1302の文脈と手話画像1301に映っている手話動作者の表情から、『TAKEDA自動車』にとって良い評価を表す手話画像であることを自然言語処理装置が判断したことを示すものである。手話画像1301と翻訳テキスト1302、評価スタンプ1303は相互に関連付けられて、図3に示した記憶部304に記憶される。
図14Aは、手話画像1401を取得したばかりの状態であって、意味内容が付加されていない状態を示す。図14Bに表示されたテキスト1402は、取得した手話画像1401の内容を翻訳したものである。悪い評価材料という評価スタンプ(『悪い評価』)1403の表示は、テキスト1402の文脈と手話画像1401に映っている手話動作者の表情から、『TAKEDA自動車』にとって悪い評価を表す手話画像であることを自然言語処理装置が判断したことを示すものである。手話画像1401と翻訳テキスト1402、評価スタンプ1403は相互に関連付けられて、図3に示した記憶部304に記憶される。
図15Aは、手話画像1501を取得したばかりの状態であって、意味内容が付加されていない状態を示す。図15Bに表示されたテキスト1502は、取得した手話画像1501の内容を翻訳したものである。良い評価材料という評価スタンプ(『良い評価』)1503の表示は、テキスト1502の文脈と手話画像1501に映っている手話動作者の表情から、『TAKEDA自動車』にとって良い評価を表す手話画像であることを自然言語処理装置が判断したことを示すものである。手話画像1501と翻訳テキスト1502、評価スタンプ1503は相互に関連付けられて、図3に示した記憶部304に記憶される。
なお、図4Bに示した第三者が作成したコンテンツはインターネット上に数多くあり、『TAKEDA自動車』の収益構造についてもインターネット上から取得して学習済みであって、その内容が「売上額の割合が国内は3割未満で欧州が4割以上である」というようなことがわかっているとすると、テキスト1502の意味は信憑性が高いことを自然言語処理装置が判断することができる。評価スタンプ1503は良い評価材料とだけの表現にとどめているが、信憑性の高さの評価を加えた表現、あるいは、数値化した評価にしてもよい。
図3に示した記憶部304に記憶される意味内容に関する情報は、たとえば、手話画像から取得できる情報と、図示を省略する、別途取得したインターネット上の第三者が作成したコンテンツと、に基づいて、推測させるようにしてもよい。手話画像から取得できる情報は、翻訳テキストの他には、手話動作者の表情、手話動作者の姿勢、手話の強調動作、手話動作者の発声音声、手話動作者の発声にともなって動く唇の動きなどであってもよい。
手話動作者の表情からは喜怒哀楽が推測でき、手話動作者の姿勢や動作の大きさからは手話動作者の性格や手話内容についての自信の度合いなどが表われる。元気な人の動作は大きく、おとなしい人の動作は小さくなる傾向がある。手話内容に自信があれば力強い動きになるが自信がない場合の動きは弱くなる傾向がある。強調動作には、動作の大きさの他に繰り返しの表現もある。
上がる/下がる、増える/減るなどの表現が大きければ大小の意味が重要であることや変化量が多いことが伝えられる。表現が小さければその逆の意味に取ることができる。緊急避難を知らせる場合などは、急ぐを繰り返し表現することによって急ぐべきことを強調して伝えることができる。
手話動作者は、手話動作だけでなくしゃべる場合もある、また、手話動作者の手話動作の内容を通訳した音声が手話画像に含まれている場合もある。この音声と手話動作から翻訳したテキストを比較して翻訳内容を精査することも可能である。音声が付いていない場合は、読唇によって音声内容を推測することも可能である。
このように、手話画像には、手話動作以外に手話の意味内容の推測を助ける情報が多く含まれており、コンピュータに知識を学習させるにあたって手話画像を用いることの効果は高い。
以上説明したように、この発明にかかる実施の形態の自然言語処理装置は、人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理装置において、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力部301と、入力部301によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析部302と、手話動作解析部302によって解析された共通点または相違点から、自然言語の意味内容について推測する推測部303と、推測部303によって推測された意味内容に関する情報を、自然言語と関連付けして記憶する記憶部304と、を備える。
これによって、自然言語、すなわち、文字情報を一度手話翻訳したあとに、その手話画像(または手話画像と文字情報)を機械学習させる。画像情報をいれることで、類義語や似た意味の言葉(たとえば、「やさしい」と「思いやりがある」など)も、より高精度(または少ないデータ量)で自動的に学習することが可能になる。結果として、従来、人工知能アルゴリズムが不可能または困難であった、ニュアンスの学習も含めて可能になる。そして、今後、将来的に、人工知能アルゴリズムが言葉の本質的な意味を理解するためのデータベースを構築することができる。
このように、手話の画像データ(静止画、動画)と単語を関連付けし、大量の手話画像をディープラーニングにより学習させるとともに、大量の言葉(自然言語)をディープラーニングにより学習させる。さらには、言葉と手話画像の相関関係をディープラーニングにより学習させる。これにより、言葉の意味内容における相関関係が判定でき、自然言語として、入力される言葉を、学習した手話画像と組み合わせ、抽象的な概念で捉え、ニュアンスを判断できるようになる。
また、この発明にかかる自然言語処理装置は、手話動作解析部302が、入力部301によって入力された手話画像から、複数に分類された手形ごとに手話動作の特徴点を抽出する。
また、この発明にかかる自然言語処理装置は、手話動作解析部302が、入力部301によって入力された手話画像を、片手で表す手話である片手の手話と、両手で表し、両手が同じ形の手話である両手同形の手話と、両手で表し、両手が違う形の手話である両手異形の手話と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出する。
このように構成することによって、手話動作の最も主要な特徴点を効率的にかつ迅速に抽出することができる。
また、この発明にかかる自然言語処理装置は、手話動作解析部302が、分類されたそれぞれの手話間において、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する。
また、この発明にかかる自然言語処理装置は、手話動作解析部302が、入力部301によって入力された手話画像から、手話動作に加えて、あるいは、手話動作に代えて、手話動作者の表情を含む、手の動き以外の要素である非手指動作に関する特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする。
このように構成することによって、手話動作解析部302は、特徴点の共通点および相違点を効率的にかつ迅速に解析することができる。
また、この発明にかかる自然言語処理装置は、推測部303が、手話動作の手形または動作が有する意味から、自然言語の意味内容について推測する。
また、この発明にかかる自然言語処理装置は、入力部301が、自然言語を連想させる関連画像を、当該自然言語および手話画像と関連付けして入力し、推測部302が、関連画像を用いて、自然言語の意味内容について推測する。
このように構成することによって、推測部303は、入力された自然言語の意味内容を正確にかつ多様的に推測することができる。
なお、この実施の形態で説明した自然言語処理方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。
以上のように、この発明にかかる自然言語処理装置、自然言語処理方法および自然言語処理プログラムは、言語解析データベースの構築に適している。
100 自然言語処理システム
101 ネットワーク
110 コンピュータ装置
111 クラウドシステム
120 (各種)端末装置
301 入力部
302 手話動作解析部
303 推測部
304 記憶部

Claims (9)

  1. 人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理装置において、
    ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力手段と、
    前記入力手段によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析手段と、
    前記手話動作解析手段によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測手段と、
    前記推測手段によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶手段と、
    を備えたことを特徴とする自然言語処理装置。
  2. 前記手話動作解析手段は、前記入力手段によって入力された手話画像から、複数に分類された手形ごとに手話動作の特徴点を抽出することを特徴とする請求項1に記載の自然言語処理装置。
  3. 前記手話動作解析手段は、前記入力手段によって入力された手話画像を、片手で表す手話である片手の手話と、両手で表し、両手が同じ形の手話である両手同形の手話と、両手で表し、両手が違う形の手話である両手異形の手話と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出することを特徴とする請求項1または2に記載の自然言語処理装置。
  4. 前記手話動作解析手段は、分類されたそれぞれの手話間において、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする請求項3に記載の自然言語処理装置。
  5. 前記推測手段は、前記手話動作の手形または動作が有する意味から、前記自然言語の意味内容について推測することを特徴とする請求項1〜4のいずれか一つに記載の自然言語処理装置。
  6. 前記手話動作解析手段は、前記入力手段によって入力された手話画像から、前記手話動作に加えて、あるいは、前記手話動作に代えて、手話動作者の表情を含む、手の動き以外の要素である非手指動作に関する特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする請求項1〜5のいずれか一つに記載の自然言語処理装置。
  7. 前記入力手段は、前記自然言語を連想させる関連画像を、当該自然言語および前記手話画像と関連付けして入力し、
    前記推測手段は、前記関連画像を用いて、前記自然言語の意味内容について推測することを特徴とする請求項1〜6のいずれか一つに記載の自然言語処理装置。
  8. コンピュータが、人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理方法において、
    ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力処理と、
    前記入力処理によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析処理と、
    前記手話動作解析処理によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測処理と、
    前記推測処理によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶処理と、
    を前記コンピュータが実行することを特徴とする自然言語処理方法。
  9. コンピュータに、人工知能アルゴリズムを用いて自然言語の解析をおこなわせる自然言語処理プログラムにおいて、
    ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力処理と、
    前記入力処理によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析処理と、
    前記手話動作解析処理によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測処理と、
    前記推測処理によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶処理と、
    を前記コンピュータに実行させることを特徴とする自然言語処理プログラム。
JP2016200483A 2016-10-11 2016-10-11 自然言語処理装置、自然言語処理方法および自然言語処理プログラム Active JP6301427B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016200483A JP6301427B1 (ja) 2016-10-11 2016-10-11 自然言語処理装置、自然言語処理方法および自然言語処理プログラム
US15/730,294 US10733381B2 (en) 2016-10-11 2017-10-11 Natural language processing apparatus, natural language processing method, and recording medium for deducing semantic content of natural language elements based on sign language motion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016200483A JP6301427B1 (ja) 2016-10-11 2016-10-11 自然言語処理装置、自然言語処理方法および自然言語処理プログラム

Publications (2)

Publication Number Publication Date
JP6301427B1 true JP6301427B1 (ja) 2018-03-28
JP2018063502A JP2018063502A (ja) 2018-04-19

Family

ID=61756616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016200483A Active JP6301427B1 (ja) 2016-10-11 2016-10-11 自然言語処理装置、自然言語処理方法および自然言語処理プログラム

Country Status (2)

Country Link
US (1) US10733381B2 (ja)
JP (1) JP6301427B1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854308B1 (en) * 2016-02-17 2023-12-26 Ultrahaptics IP Two Limited Hand initialization for machine learning based gesture recognition
US11841920B1 (en) * 2016-02-17 2023-12-12 Ultrahaptics IP Two Limited Machine learning based gesture recognition
US11714880B1 (en) 2016-02-17 2023-08-01 Ultrahaptics IP Two Limited Hand pose estimation for machine learning based gesture recognition
US10275646B2 (en) 2017-08-03 2019-04-30 Gyrfalcon Technology Inc. Motion recognition via a two-dimensional symbol having multiple ideograms contained therein
EP3707693A1 (en) * 2017-11-08 2020-09-16 Signall Technologies Zrt Computer vision based sign language interpreter
US10346198B1 (en) 2018-02-12 2019-07-09 Avodah Labs, Inc. Data processing architecture for improved data flow
WO2019157344A1 (en) 2018-02-12 2019-08-15 Avodah Labs, Inc. Real-time gesture recognition method and apparatus
US10289903B1 (en) * 2018-02-12 2019-05-14 Avodah Labs, Inc. Visual sign language translation training device and method
US10304208B1 (en) 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
US10489639B2 (en) 2018-02-12 2019-11-26 Avodah Labs, Inc. Automated sign language translation and communication using multiple input and output modalities
US10902219B2 (en) * 2018-11-21 2021-01-26 Accenture Global Solutions Limited Natural language processing based sign language generation
USD912139S1 (en) 2019-01-28 2021-03-02 Avodah, Inc. Integrated dual display sensor
CN110349577B (zh) * 2019-06-19 2022-12-06 达闼机器人股份有限公司 人机交互方法、装置、存储介质及电子设备
CN110457673B (zh) * 2019-06-25 2023-12-19 北京奇艺世纪科技有限公司 一种自然语言转换为手语的方法及装置
KR102115551B1 (ko) * 2019-08-06 2020-05-26 전자부품연구원 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치
TWI743623B (zh) * 2019-09-05 2021-10-21 美商訊能集思智能科技股份有限公司 基於人工智慧的商務智慧系統及其分析方法
CN111414750B (zh) * 2020-03-18 2023-08-18 北京百度网讯科技有限公司 一种词条的同义判别方法、装置、设备和存储介质
JP7493398B2 (ja) 2020-07-03 2024-05-31 日本放送協会 変換装置、学習装置、およびプログラム
CN112084846A (zh) * 2020-07-30 2020-12-15 崔恒鑫 一种无障碍手语交流系统
CN114639158A (zh) * 2020-11-30 2022-06-17 伊姆西Ip控股有限责任公司 计算机交互方法、设备和程序产品
CN112836682B (zh) * 2021-03-04 2024-05-28 广东建邦计算机软件股份有限公司 视频中对象的识别方法、装置、计算机设备和存储介质
KR102624226B1 (ko) * 2021-06-29 2024-01-15 한국전자기술연구원 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3289304B2 (ja) * 1992-03-10 2002-06-04 株式会社日立製作所 手話変換装置および方法
US5659764A (en) * 1993-02-25 1997-08-19 Hitachi, Ltd. Sign language generation apparatus and sign language translation apparatus
JPH0836586A (ja) * 1994-07-22 1996-02-06 Fujitsu Ltd 手話検索システム
JPH0934863A (ja) * 1995-07-14 1997-02-07 Hitachi Ltd ニューラルネットワークによる情報統合処理方法
US6477239B1 (en) * 1995-08-30 2002-11-05 Hitachi, Ltd. Sign language telephone device
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US9282377B2 (en) * 2007-05-31 2016-03-08 iCommunicator LLC Apparatuses, methods and systems to provide translations of information into sign language or other formats
US20090012788A1 (en) * 2007-07-03 2009-01-08 Jason Andre Gilbert Sign language translation system
US8760551B2 (en) * 2011-03-02 2014-06-24 Canon Kabushiki Kaisha Systems and methods for image capturing based on user interest
US8793118B2 (en) * 2011-11-01 2014-07-29 PES School of Engineering Adaptive multimodal communication assist system
TWI501205B (zh) * 2014-07-04 2015-09-21 Sabuz Tech Co Ltd 手語圖像輸入方法及裝置

Also Published As

Publication number Publication date
US20180101520A1 (en) 2018-04-12
US10733381B2 (en) 2020-08-04
JP2018063502A (ja) 2018-04-19

Similar Documents

Publication Publication Date Title
JP6301427B1 (ja) 自然言語処理装置、自然言語処理方法および自然言語処理プログラム
US11747618B2 (en) Systems and methods for sign language recognition
US11423909B2 (en) Word flow annotation
Sinclair et al. The haptic nature of gesture: Rethinking gesture with new multitouch digital technologies
Zheng et al. Recent advances of deep learning for sign language recognition
WO2019000326A1 (en) GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION SERVICE
KR102148151B1 (ko) 디지털 커뮤니케이션 네트워크에 기반한 지능형 채팅
US20200226136A1 (en) Systems and methods to facilitate bi-directional artificial intelligence communications
JP2016045724A (ja) 電子機器
Khan et al. Use hand gesture to write in air recognize with computer vision
CN108628454B (zh) 基于虚拟人的视觉交互方法及系统
Puranik et al. AirNote–Pen it Down!
Shilkrot et al. FingerReader: A finger-worn assistive augmentation
Yin Body language classification and communicative context
Danielescu Discoverable Free Space Gesture Sets for Walk-Up-and-Use Interactions
Kurosu Human-Computer Interaction. Interaction Technologies: 20th International Conference, HCI International 2018, Las Vegas, NV, USA, July 15–20, 2018, Proceedings, Part III
Betke et al. Symbol design: a user-centered method to design pen-based interfaces and extend the functionality of pointer input devices
Nowosielski Swipe-like text entry by head movements and a single row keyboard
Shilkrot Digital digits: designing assistive finger augmentation devices
Segers The efficacy of the eigenvector approach to south african sign language identification
Šperka Past and future of Human—Computer Interaction
Thompson To Touch and be Touched: Being Articulated Through the Haptics of Typing Technologies
Ch et al. A Compressive Overview of Facial Feeling Responses Utilizing AI and Profound learning
NEIVA Dynamic translation between sign languages: a deep learning approach
Halonen Interaction Design Principles for Industrial XR

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180228

R150 Certificate of patent or registration of utility model

Ref document number: 6301427

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250