JP6301427B1

JP6301427B1 - 自然言語処理装置、自然言語処理方法および自然言語処理プログラム

Info

Publication number: JP6301427B1
Application number: JP2016200483A
Authority: JP
Inventors: 正弘淵▲崎▼
Original assignee: Japan Research Institute Ltd
Current assignee: Japan Research Institute Ltd
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2018-03-28
Anticipated expiration: 2036-10-11
Also published as: US20180101520A1; US10733381B2; JP2018063502A

Abstract

【課題】人工知能アルゴリズムの画像認識技術を自然言語理解に応用し、効率的かつ迅速な処理対応が可能な自然言語データベースを効率的に作成すること。【解決手段】人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理装置において、入力部３０１が、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力し、手話動作解析部３０２が、入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析し、推測部３０３が、解析された共通点または相違点から、自然言語の意味内容について推測し、記憶部３０４が、推測された意味内容に関する情報を、自然言語と関連付けして記憶する。【選択図】図３

Description

この発明は、自然言語の解析に用いるデータベースを作成する自然言語処理装置、自然言語処理方法および自然言語処理プログラムに関する。

昨今、人工知能（ＡＩ）アルゴリズムによる機械学習を用いた画像認識の技術は、ニューラルネットワークや、ディープラーニングなどの技術により、飛躍的な認識精度の向上が実現できており、その認識精度は、人間の能力を超える程度までになっているといわれる。

たとえば、いわゆる『Ｇｏｏｇｌｅの猫』のように、教師なし学習により、膨大な画像から、コンピュータが猫という存在自体を発見し、容姿を特定し、猫そのものを判別できるように学習することができる。また、昨今、人工知能アルゴリズムを用いた自動運転車に関する実用化可能な技術についても飛躍的に発展している。

しかしながら、上述した従来の技術は、画像認識技術の分野におけるものであり、一方、人工知能アルゴリズムによる機器学習を用いた自然言語理解については、翻訳や、会話などにおいて、未だ、実施レベルに到達できない状況にあるという問題がある。人工知能アルゴリズムが自然言語処理を苦手とするのは、たとえば、以下のような理由による。

第１に、言語には順序性があり、単語の順序によって意味が変わってしまうため、順列と組み合わせを考慮する必要があることから膨大な計算量が発生するからである。また、第２に、そもそも人工知能アルゴリズムが、言葉の持つ意味合いを理解できておらず、文字列としての認識にとどまっているからである。また、第３に、言葉の持つ意味を容易に理解していないので、人工知能アルゴリズムは、単語の出現回数や、類似性に基づいて判断せざるを得ないからである。

また、第４に、名詞や動詞などに比べて、形容詞や抽象概念は、画像による表現も困難であり、文字列と画像の組み合わせも困難だからである。また、第５に、人工知能アルゴリズムが意味を理解しておらず、反対語や同義語、同音異義語などの言葉の関係性を容易に理解できないからである。

この発明は、上述した従来技術による問題点を解消するため、人工知能アルゴリズムの画像認識技術を、自然言語理解に応用し、効率的かつ迅速な処理対応が可能な自然言語データベースを作成することができる自然言語処理装置、自然言語処理方法および自然言語処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するため、この発明にかかる自然言語処理装置は、人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理装置において、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力手段と、前記入力手段によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析手段と、前記手話動作解析手段によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測手段と、前記推測手段によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶手段と、を備えたことを特徴とする。

また、この発明にかかる自然言語処理装置は、上記の発明において、前記手話動作解析手段が、前記入力手段によって入力された手話画像から、複数に分類された手形ごとに手話動作の特徴点を抽出することを特徴とする。

また、この発明にかかる自然言語処理装置は、上記の発明において、前記手話動作解析手段が、前記入力手段によって入力された手話画像を、片手で表す手話である片手の手話と、両手で表し、両手が同じ形の手話である両手同形の手話と、両手で表し、両手が違う形の手話である両手異形の手話と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出することを特徴とする。

また、この発明にかかる自然言語処理装置は、上記の発明において、前記手話動作解析手段が、分類されたそれぞれの手話間において、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする。

また、この発明にかかる自然言語処理装置は、上記の発明において、前記推測手段が、前記手話動作の手形または動作が有する意味から、前記自然言語の意味内容について推測することを特徴とする。

また、この発明にかかる自然言語処理装置は、上記の発明において、前記手話動作解析手段が、前記入力手段によって入力された手話画像から、前記手話動作に加えて、あるいは、前記手話動作に代えて、手話動作者の表情を含む、手の動き以外の要素である非手指動作に関する特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする。

また、この発明にかかる自然言語処理装置は、上記の発明において、前記入力手段が、前記自然言語を連想させる関連画像を、当該自然言語および前記手話画像と関連付けして入力し、前記推測手段が、前記関連画像を用いて、前記自然言語の意味内容について推測することを特徴とする。

また、この発明にかかる自然言語処理方法は、コンピュータが、人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理方法において、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力処理と、前記入力処理によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析処理と、前記手話動作解析処理によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測処理と、前記推測処理によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶処理と、を前記コンピュータが実行することを特徴とする。

また、この発明にかかる自然言語処理プログラムは、コンピュータに、人工知能アルゴリズムを用いて自然言語の解析をおこなわせる自然言語処理プログラムにおいて、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力処理と、前記入力処理によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析処理と、前記手話動作解析処理によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測処理と、前記推測処理によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶処理と、を前記コンピュータに実行させることを特徴とする。

この発明にかかる自然言語処理装置、自然言語処理方法および自然言語処理プログラムによれば、人工知能アルゴリズムの画像認識技術を自然言語理解に応用し、効率的かつ迅速な処理対応が可能な自然言語データベースを作成することができるという効果を奏する。

この発明にかかる実施の形態の自然言語処理装置を含む自然言語処理システムのシステム構成を示す説明図である。この発明にかかる実施の形態の自然言語処理装置のハードウエア構成の一例を示す説明図である。この発明にかかる実施の形態の自然言語処理装置の機能的構成の一例を示す説明図である。この発明にかかる実施の形態の自然言語処理装置のネットワーク構成の一例を示す説明図である。手話画像に付与できるマルチ検索キーの内容の一例を示す説明図である。この発明にかかる実施の形態の自然言語処理装置の全体の処理手順を示すフローチャートである。一般的な手話動作における「手形」の種類の一例を示す説明図（その１）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その２）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その３）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その４）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その５）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その６）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その７）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その８）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その９）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その１０）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その１１）である。一般的な手話動作における「手形」の種類の一例を示す説明図（その１２）である。一般的な手話動作における片手の手話の手の位置の一例を示す説明図（その１）である。一般的な手話動作における片手の手話の手の位置の一例を示す説明図（その２）である。一般的な手話動作における片手の手話の手の位置の一例を示す説明図（その３）である。一般的な手話動作における片手の手話の手の位置の一例を示す説明図（その４）である。一般的な手話動作における片手の手話の手の位置の一例を示す説明図（その５）である。一般的な手話動作における片手の手話の手の位置の一例を示す説明図（その６）である。一般的な手話動作における両手同形の手話の動きの一例を示す説明図（その１）である。一般的な手話動作における両手同形の手話の動きの一例を示す説明図（その２）である。一般的な手話動作における両手同形の手話の動きの一例を示す説明図（その３）である。一般的な手話動作における両手同形の手話の動きの一例を示す説明図（その４）である。一般的な手話動作における両手同形の手話の動きの一例を示す説明図（その５）である。一般的な手話動作における両手同形の手話の動きの一例を示す説明図（その６）である。一般的な手話動作における両手異形の手話の手の形の一例を示す説明図（その１）である。一般的な手話動作における両手異形の手話の手の形の一例を示す説明図（その２）である。自然言語『暑い』に対する手話動作の一例を示す説明図（その１）である。自然言語『暑い』に対する手話動作の一例を示す説明図（その２）である。自然言語『暑い』に対する手話動作の一例を示す説明図（その３）である。自然言語『暑い』に対する手話動作の一例を示す説明図（その４）である。自然言語『暑い』に対する手話動作の一例を示す説明図（その５）である。自然言語『暑い』に対する手話動作の一例を示す説明図（その６）である。自然言語『暑い』に対する手話動作の一例を示す説明図（その７）である。自然言語『愛』に対する手話動作の一例を示す説明図（その１）である。自然言語『愛』に対する手話動作の一例を示す説明図（その２）である。自然言語『愛』に対する手話動作の一例を示す説明図（その３）である。自然言語『愛』に対する手話動作の一例を示す説明図（その４）である。自然言語『愛』に対する手話動作の一例を示す説明図（その５）である。自然言語『愛』に対する手話動作の一例を示す説明図（その６）である。自然言語『愛』に対する手話動作の一例を示す説明図（その７）である。この発明にかかる実施の形態の自然言語処理装置のニューラルネットワークの構成を示す説明図である。この発明にかかる実施の形態の応用例の内容を示す説明図（その１）である。この発明にかかる実施の形態の応用例の内容を示す説明図（その２）である。この発明にかかる実施の形態の応用例の内容を示す説明図（その３）である。この発明にかかる実施の形態の応用例の内容を示す説明図（その４）である。この発明にかかる実施の形態の応用例の内容を示す説明図（その５）である。この発明にかかる実施の形態の応用例の内容を示す説明図（その６）である。

以下に添付図面を参照して、この発明にかかる自然言語処理装置、自然言語処理方法および自然言語処理プログラムの好適な実施の形態を詳細に説明する。

（自然言語処理システムのシステム構成）
まず、この発明にかかる実施の形態の自然言語処理装置を含む自然言語処理システムのシステム構成について説明する。図１は、この発明にかかる実施の形態の自然言語処理装置を含む自然言語処理システムのシステム構成を示す説明図である。

図１において、自然言語処理システム１００は、たとえば、自然言語処理装置の管理者によって管理されるコンピュータ装置１１０によって実現することができる（図２および図３を参照）。この場合、自然言語処理装置を含むネットワーク１０１は、コンピュータ装置１１０によって実現される自然言語処理装置と、各種の端末装置１２０と、によって構成される。自然言語処理装置を実現するコンピュータ装置１１０と各種の端末装置１２０とは、それぞれ、インターネットなどのネットワーク１０１を介して相互に通信可能に接続されている。

自然言語処理装置は、単一のコンピュータ装置１１０によって実現されるものに限らず、コンピュータ装置１１０を管理用端末とするクラウドシステム１１１によって実現されるものであってもよい。

自然言語処理装置をクラウドシステム１１１によって実現する場合、当該クラウドシステム１１１は、管理用端末を実現するコンピュータ装置１１０、リソース管理装置１１１ａ、ストレージ装置１１１ｂ、ルータ１１１ｃ、スイッチ１１１ｄなどの複数のリソースによって構成される。クラウドシステム１１１において、リソース管理装置１１１ａとストレージ装置１１１ｂとは、ネットワーク１０１を介してそれぞれ接続されるようにしてもよい。

また、リソース管理装置１１１ａは、管理用端末を実現するコンピュータ装置１１０とネットワーク１０１を介して接続される。管理用端末を実現するコンピュータ装置１１０は、汎用的なコンピュータ装置によって実現することができ（図２および図３を参照）、管理者などによる操作を受け付ける。

リソース管理装置１１１ａは、管理用端末を実現するコンピュータ装置１１０からの要求に応じて、ストレージ装置１１１ｂなどのリソースの中から選択したリソースを用いてユーザの要求を満たすシステムを構築し、構築したシステムによってユーザの要求に応じた処理をおこなうことができる。

リソース管理装置１１１ａは、たとえば、ストレージ装置１１１ｂを制御するコンピュータ装置によって実現することができる。ストレージ装置１１１ｂは、データを保持する記憶媒体や、当該記憶媒体に対する情報の読み書きをおこなうドライブなどによって構成される。

ストレージ装置１１１ｂにおける記憶媒体は、たとえば、ハードディスクなどの磁気ディスクや、ＣＤ・ＤＶＤ・Ｂｌｕ−ｒａｙＤｉｓｃなどの光学ディスク、ＵＳＢメモリ・メモリカード・ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などのフラッシュメモリ記憶装置、磁気テープなどによって実現することができる。なお、Ｂｌｕ−ｒａｙは登録商標である。

各種の端末装置１２０は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ノートＰＣ、スマートフォン、タブレット端末、携帯型電話機などのユーザが使用するコンピュータ装置によって実現することができる。各種の端末装置１２０は、ネットワーク１０１に対して、無線接続されていてもよく、有線接続されていてもよい。

（自然言語処理装置のハードウエア構成の一例）
つぎに、この発明にかかる実施の形態の自然言語処理装置のハードウエア構成の一例について説明する。図２は、この発明にかかる実施の形態の自然言語処理装置のハードウエア構成の一例を示す説明図である。

図２において、この発明にかかる実施の形態の自然言語処理装置（あるいは管理用端末）を実現するコンピュータ装置１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１１と、メモリ２１２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２１３と、操作部２１４と、カメラ２１５と、マイク２１６と、スピーカー２１７と、ディスプレイ２１８と、スキャナ２１９と、プリンタ２２０と、を備えている。コンピュータ装置１１０が備える各部２１１〜２２０は、バス２１０によってそれぞれ接続されている。

ＣＰＵ２１１は、コンピュータ装置１１０の全体の制御をつかさどる。メモリ２１２は、ブートプログラムなどのプログラムや各種のデータベースを構成するデータなどを記憶している。また、メモリ２１２は、この発明にかかる実施の形態の自然言語処理プログラムや当該自然言語処理プログラムの実行にかかる各種のデータベースなど、自然言語処理にかかる各種のプログラムやデータを記憶している。

また、メモリ２１２は、ＣＰＵ２１１のワークエリアとして使用される。メモリ２１２は、たとえば、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）およびＨＤ（ＨａｒｄＤｉｓｃ）などによって実現することができる。

ネットワークＩ／Ｆ２１３は、ネットワーク１０１に接続され、コンピュータ装置１１０の内部と外部装置との間におけるデータの入出力を制御する。具体的に、ネットワークＩ／Ｆ２１３は、コンピュータ装置１１０の内部と、各種の端末装置１２０などの外部装置と、のインターフェイスをつかさどる。

操作部２１４は、文字、数値、各種指示などの入力のためのキーを備え、データ入力をおこなう。操作部２１４は、たとえば、タッチパネルやキーボードなどによって実現することができる。タッチパネルやキーボードなどによって実現される操作部２１４は、当該操作部２１４に対する入力操作に応じた信号をＣＰＵ２１１に対して出力する。

操作部２１４をタッチパネルによって実現する場合、当該タッチパネルは、ディスプレイ２１８の表示面側に積層される。タッチパネルは、指やペンなどの筆記部材が接触したことを検出した場合に、タッチパネルに対する筆記部材の接触位置に応じた電気信号を出力する。タッチパネルは、たとえば抵抗膜方式や静電容量方式、音響パルス認識方式、超音波表面弾性波方式、赤外遮光方式、画像認識方式など公知の各種の方式のものを用いることができる。

カメラ２１５は、ＣＰＵ２１１によって制御されて撮像対象を撮像し、画像データを生成する。画像データは静止画像でも動画画像であってもよい。具体的に、カメラ２１５は、利用者が操作部２１４に対して所定の入力操作をした場合に、カメラ２１５の撮像範囲に位置する手話動作者などを撮像する。カメラ２１５によって生成された画像データは、ＣＰＵ２１１に出力される。

マイク２１６は、アナログデータとして入力された話者の声をアナログ／デジタル変換し、デジタル形式の音声データを生成する。マイク２１６を備えることにより、自然言語処理装置（あるいは管理用端末）コンピュータ装置１１０は、手話動作者の手話画像とともに音声の入力を受け付けることができる。マイク２１６は、自然言語処理装置に位置固定された形態であってもよく、有線あるいは無線によって自然言語処理装置の本体に接続されて手話動作者の口元などに近づけて使用することができる形態であってもよい。

スピーカー２１７は、たとえば、操作内容を案内するためのデジタル形式の音声データをデジタル／アナログ変換し、アナログ形式の音声データに基づいてスピーカーコーンにおけるコイルに通電するなどして音声を出力する。マイク２１６およびスピーカー２１７は、電話機における受話器のように一体化されていてもよい。

ディスプレイ２１８は、手話画像などを表示する。ディスプレイ２１８は、たとえば、主に液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどによって実現することができる。

具体的には、たとえば、液晶パネルによって実現されるディスプレイ２１８は、透明電極が組み込まれた一対のガラス基板によって液晶材料（液晶分子）を挟み、このガラス基板に偏光フィルタを設けることによって構成されている。液晶パネルは、電極に電圧を加えて液晶分子の向きを変化させることによって、ガラス基板を透過する光の状態を制御する。また、液晶パネルは、光源として、バックライトを備えている。これにより自らは発光しない液晶分子が表示する画像を照明することができる。

スキャナ２１９は、コンタクトガラス、露光ランプ、反射ミラー、結像レンズ、固体撮像素子などを備えている。コンタクトガラスには、読み取り対象とする原稿が載置される。原稿は、たとえば、手話画像や、手話画像とともに入力する画像が描画されている。手話画像とともに入力する画像は、たとえば、「暑さ」を連想させる太陽の画像や「寒さ」を連想させる雪景色の画像などであってもよく、「熱さ」を連想させる火にかけられた鍋の画像や「冷たさ」を連想させる氷の入った容器の画像であってもよい。

露光ランプは、コンタクトガラス上の原稿に走査光を照射する。反射ミラーは、原稿からの反射光を結像レンズに導く。結像レンズは、反射ミラーによって反射された反射光を固体撮像素子に入射させる。固体撮像素子は、たとえば、ＲＧＢ３色用に１次元固体撮像素子であるＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサを３列分並べた３ラインＣＣＤイメージセンサアレイによって実現することができる。

なお、固体撮像素子は、ＣＣＤに代えて、ＣＭＯＳ（ＣｏｍｐｌｉｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などのＭＯＳ系イメージセンサを用いてもよい。固体撮像素子によって電気信号に変換された画像信号は、ＣＰＵ２１１に入力される。

プリンタ２２０は、たとえば、手話画像の解析結果などを記録した所定の用紙を発行することができる。プリンタ２２０は、所定の用紙に対して決済の内容などを記録する記録処理をおこなうことによって上記の所定の用紙を発行する。プリンタ２２０は、たとえば、レーザプリンタ、インクジェットプリンタなど公知の各種の印字方式のプリンタによって実現することができる。

（自然言語処理装置の機能的構成）
つぎに、この発明にかかる実施の形態の自然言語処理装置の機能的構成の一例について説明する。図３は、この発明にかかる実施の形態の自然言語処理装置の機能的構成の一例を示す説明図である。

図３において、この発明にかかる実施の形態の自然言語処理装置（自然言語処理装置を実現するコンピュータ装置１１０、コンピュータ装置１１０を管理用端末とするクラウドシステム１１１）は、少なくとも、入力部３０１と、手話動作解析部３０２と、推測部３０３と、記憶部３０４と、を含む構成である。

入力部３０１は、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する。ここで、自然言語は、単語でもよく、また、一連の文章であってもよい。手話画像は、当該自然言語について手話動作者に実施させた手話動作に関する画像である。手話画像は、静止画または動画であってもよい。静止画の場合は、手話動作の内容がわかるように、動作の始まり、中間、終わりなどがわかるように複数の静止画によって構成されているとよい。

入力部３０１は、具体的には、たとえば、図２に示したネットワークＩ／Ｆ２１３、操作部２１４、カメラ２１５、マイク２１６、スキャナ２１９などによってその機能を実現することができる。

手話動作解析部３０２は、入力部３０１によって入力された手話画像から、手話動作の複数の特徴点を抽出する。ここで、手話動作とは、手の形、手の位置、手の動きなどを含む動作であり、特徴点とは、それらの動作の各特徴部分を示すものである。手話動作解析部３０２は、具体的には、たとえば、図２に示したコンピュータ装置１１０が備えるＣＰＵ２１１などによってその機能を実現することができる。

また、手話動作解析部３０２は、入力部３０１によって入力された手話画像から、複数に分類された「手形」ごとに手話動作の特徴点を抽出するようにしてもよい。ここで、「手形」とは、手の形を分類したものであり、たとえば、竹村茂著「手話・日本語大辞典」（廣済堂出版１９９９年）によれば、指文字を基本として５９種類が存在する。「手形」の詳細については、図６Ａ〜図６Ｌを用いて、後述する。

また、手話動作解析部３０２は、入力部３０１によって入力された手話画像を、「片手の手話」と、「両手同形の手話」と、「両手異形の手話」と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出するようにしてもよい。

ここで、「片手の手話」とは、片手で表す手話である片手の手話であり、「両手同形の手話」とは、両手で表し、両手が同じ形の手話であり（後述する図８Ａ〜図８Ｆ参照）、「両手異形の手話」とは、両手で表し、両手が違う形の手話である（後述する図９Ａ、図９Ｂ参照）。

そして、手話動作解析部３０２は、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する。解析した共通点、相違点は、どのくらい共通しているか、あるいは、どのくらい相違しているかについての特徴量を算出（数値化）する。その特徴量は、特徴点に関する情報の中に含めるようにしてもよい。

また、手話動作解析部３０２は、「手形」ごとに手話動作どうしを比較することによって、他の手話動作との共通点または相違点を解析するようにしてもよい。あるいは、手話動作解析部３０２は、「片手の手話」と、「両手同形の手話」と、「両手異形の手話」と、に分類されたそれぞれの手話動作間において、抽出された特徴点ごとに比較することによって、他の手話動作との共通点または相違点を解析するようにしてもよい。どのように、手話の特徴点を比較して共通点または相違点を解析するかは、機械学習によって、コンピュータに取捨選択させることができる。

また、手話動作解析部３０２は、入力部３０１によって入力された手話画像から、手話動作に加えてあるいは手話動作に代えて、「非手指動作」に関する特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析するようにしてもよい。ここで、「非手指動作」とは、手話動作者の表情や手話動作者の姿勢などを含む、手の動き以外の要素である。

推測部３０３は、手話動作解析部３０２によって解析された共通点または相違点から、自然言語の意味内容について推測する。具体的には、解析された共通点または相違点の特徴量に基づいて、どのような意味内容なのか、より具体的には、たとえば、あらかじめ複数の意味内容の分類を作っておいて、その中のどの意味内容の分類に含まれるのかを判断するようにしてもよい。推測部３０３は、具体的には、たとえば、図２に示したコンピュータ装置１１０が備えるＣＰＵ２１１などによってその機能を実現することができる。

推測部３０３は、手話動作の手形または動作が有する意味から、自然言語の意味内容について推測する。ここで、手話動作の手形または動作が有する意味とは、たとえば、後述する図６Ａの「手形」が『ソ』の文字を示し、図６Ｂの「手形」が『ヒ』、図６Ｄの「手形」が『サ』、図６Ｉの「手形」が『ク』、図６Ｊの「手形」が『タ』、図６Ｋの「手形」が『フ』、図６Ｌの「手形」が『モ』、図６Ｈの「手形」が『Ｃ』を表している。また、後述する図１１Ｄ、図１１Ｆでは、手話動作が、「ハート」の形で「愛」を表している。このような情報を用いて、自然言語の意味内容について推測する。

入力部３０１は、自然言語を連想させる「関連画像」を、当該自然言語および手話画像と関連付けして入力するようにしてもよい。そして、推測部３０３は、関連画像（『暑い』という自然言語に対して、たとえば、太陽がギラギラ照りつけている様子の後に汗を拭いている人の映像など）を用いて、自然言語の意味内容について推測するようにしてもよい。「関連画像」の詳細については、後述する。

記憶部３０４は、推測部３０３によって推測された意味内容に関する情報を、入力部３０１によって入力された自然言語と関連付けして記憶する。これによって、自然言語の解析に用いる自然言語データベースを構築することができる。記憶部３０４は、具体的には、たとえば、図２に示したコンピュータ装置１１０が備えるＣＰＵ２１１やメモリ２１２などによってその機能を実現することができる。

（自然言語処理装置を含むネットワーク構成の一例）
つぎに、自然言語処理装置を用いたインターネット検索の概要について説明する。図４Ａは、この発明にかかる実施の形態の自然言語処理装置のネットワーク構成の一例を示す説明図である。また、図４Ｂは、手話画像に付与できるマルチ検索キーの内容の一例を示す説明図である。

図４Ａにおいて、コンピュータ装置１１０は、インターネットなどのネットワーク１０１を介して、ネットワーク１０１上の様々なコンテンツ（動画、テキスト、音声など）を検索し、その情報を取得することができる。取得されたコンテンツに関する情報は、言語と関連付けして記憶部３０４に記憶することによって、言語データベース４０１を構築することができる。

第三者が作成したコンテンツは様々な記録形式で存在している。記憶部３０４に記憶されたデータは、図４Ｂに示すように、複数の形式のコンテンツから学習させたい事柄を検索するための複数の記録形式に対応した検索キーを備えていてもよい。

たとえば、「ＦｉｎＴｅｃｈ」について学ばせたい場合は、「ＦｉｎＴｅｃｈ」の手話動作の特徴点をキーに他の手話者が「ＦｉｎＴｅｃｈ」について語っている手話画像を検索し、取得することで、手話画像コンテンツから学習できる。「ＦｉｎＴｅｃｈ」の音声の特徴点をキーにすれば音声のコンテンツを、「ＦｉｎＴｅｃｈ」のテキストをキーにすれば、テキストコンテンツを検索し取得することで学習することができる。

図４Ｂに示した一覧には主な検索対象という項目を設け、画像系は画像を、音声は音声を、テキストはテキストを主な検索対象としているが、テキストから音声や画像を検索できるのと同様に、第三者が作成したコンテンツが、いずれかのキーで検索可能であれば、この限りではない。

自然言語処理装置は、記憶部３０４に記憶されたデータに、インターネット上に存在するコンテンツの形式ごとの検索キーを格納しているため、複数の形式のコンテンツを漏れなく取得して、機械学習することができる。

（自然言語処理装置の全体の処理手順）
つぎに、この発明にかかる実施の形態の自然言語処理装置の全体の処理手順について説明する。図５は、この発明にかかる実施の形態の自然言語処理装置の全体の処理手順を示すフローチャートである。

図５のフローチャートにおいて、まず、自然言語と、当該自然言語に対する手話動作の手話画像、すなわち、手話者動作が当該自然言語を手話動作に翻訳した手話画像とを関連付けして、自然言語処理装置（コンピュータ装置１１０）内に入力する（ステップＳ５０１）。

つぎに、自然言語処理装置（コンピュータ装置１１０）内に入力された手話画像から、手話動作の特徴点を抽出する（ステップＳ５０２）。手話動作における特徴点については無数に考えられるため、特徴点の取捨選択が必要となる場合がある。その場合に、処理の効率化および迅速化を図るために、手話動作のどの部分を特徴点として抽出するかは、関連付けされて入力された自然言語の内容などに基づいて、手話画像ごとに変更してもよい。これらは、機械学習によって得られた知識ベースに基づいて、人工知能アルゴリズムを用いて決定させるようにしてもよい。

そして、抽出された手話動作の特徴点の中から、１つ目の特徴点について着目する（ステップＳ５０３）。複数の特徴点からどのような順序で特徴点に着目するかについても、処理の効率化および迅速化を図るために、手話画像ごとに変更してもよい。これらは、機械学習によって得られた知識ベースに基づいて、人工知能アルゴリズムを用いて決定させるようにしてもよい。

そして、ステップＳ５０３において着目した特徴点について、既に自然言語処理装置（コンピュータ装置１１０）内、あるいは、自然言語処理装置（コンピュータ装置１１０）に接続されている他の装置内に登録されている他の手話画像の手話動作の特徴点と比較し、比較した結果、両者の特徴点における共通点を解析し（ステップＳ５０４）、その解析結果を保存する（ステップＳ５０５）。

引き続き、ステップＳ５０３において着目した特徴点について、既に自然言語処理装置（コンピュータ装置１１０）内、あるいは、自然言語処理装置（コンピュータ装置１１０）に接続されている他の装置内に登録されている他の手話画像の手話動作の特徴点と比較し、比較した結果、両者の特徴点における相違点を解析し（ステップＳ５０６）、その解析結果を保存する（ステップＳ５０７）。

ステップＳ５０４の共通点の解析処理とステップＳ５０６の相違点の解析処理の順序は逆であってもよい。すなわち、先にステップＳ５０６の相違点の解析処理をおこなってその解析結果を保存し、その後、ステップＳ５０４の共通点の解析処理をおこなってその解析結果を保存してもよい。また、ステップＳ５０４の共通点の解析処理とステップＳ５０６の相違点の解析処理を同時におこなってもよい。

また、どのような順序でおこなうかは、特徴点ごとに変更してもよい。また、特徴点ごとに、ステップＳ５０４の共通点の解析処理のみをおこない、ステップＳ５０６の相違点の解析処理をおこなわないようにしてもよい。あるいは、ステップＳ５０６の相違点の解析処理のみをおこない、ステップＳ５０４の共通点の解析処理をおこなわないようにしてもよい。これらの手順については、処理の効率化および迅速化を考慮して、機械学習によって得られた知識ベースに基づいて、人工知能アルゴリズムを用いて決定させるようにするとよい。

その後、ステップＳ５０７において解析結果を保存した特徴点が最後の特徴点であるか否かを判断する（ステップＳ５０８）。ここで、最後の特徴点ではない場合（ステップＳ５０８：Ｎｏ）は、次の特徴点に着目する（ステップＳ５０９）。そして、ステップＳ５０４へ戻り、ステップＳ５０４〜ステップＳ５０９の各処理を、ひたすら繰り返し実行する。

そして、ステップＳ５０８において、ステップＳ５０７において解析結果を保存した特徴点が最後の特徴点であった場合（ステップＳ５０８：Ｙｅｓ）は、つぎに、保存された解析結果に基づいて、当該手話画像に関連付けて入力された自然言語の意味内容についての推測処理をおこなう（ステップＳ５１０）。

ステップＳ５１０の推測処理は、解析され、保存された特徴点の共通点、相違点に基づいておこなう。保存された共通点、相違点のうち、すべての共通点、相違点を利用するのか、いずれの共通点、相違点のみを利用するのかについては、処理の効率化および迅速化を考慮して、機械学習によって得られた知識ベースに基づいて、人工知能アルゴリズムを用いて決定させるようにするとよい。

そして、ステップＳ５１０における意味内容推測処理の結果、すなわち、自然言語に対する意味内容に関する情報を記憶する（ステップＳ５１１）。つぎに、次の自然言語と、当該自然言語に対する手話動作の手話画像とを関連付けして、自然言語処理装置（コンピュータ装置１１０）内に入力し（ステップＳ５１２）、ステップＳ５０２へ戻る。

その後、ステップＳ５０２〜Ｓ５１２の処理を繰り返しおこなう。このようにして、自然言語データベースへの自然言語の入力処理をおこなうことができる。

（特徴点の抽出処理の一例）
つぎに、手話動作解析部３０２によっておこなわれる、手話画像から手話動作の特徴点を抽出する特徴点の抽出処理（図５のフローチャートにおけるステップＳ５０２）について、その内容を詳細に説明する。

特徴点は、手話動作における手の形、手の位置、手の動きなどを含む動作である。より具体的には、特徴点は、手の形、その手の位置を画像処理技術によって抽出することができる。当該画像処理技術については、周知の技術を用いるため、その詳細な説明については省略する。

また、手の動きは、手話動作が静止画像の場合は、複数の静止画像から、手の位置の変化量を抽出し、手の動きを推測する。また、手話動作が動画像の場合も、動画に関する画像処理技術によって、手の動きを特定する。これらをすべて特徴点（特徴量）として、手話画像から抽出する。

手話動作の特徴点は、特に片手でおこなう「片手の手話」の場合に、手の形である「手形」によって特徴点とすることができる。図６Ａ〜図６Ｌは、一般的な手話動作における「手形」の種類の一例を示す説明図である。

「手形」は、たとえば、前出の「手話・日本語大辞典」によれば、指文字から、図６Ａに示す『ソ型』、図６Ｂに示す『ヒ型』、図６Ｄに示す『サ型』、図６Ｉに示す『ク型』、図６Ｊに示す『タ型』、図６Ｋに示す『フ型』、図６Ｌに示す『モ型』などがある。

さらに、図示を省略する『ハ型』、『ナ型』、『ニ型』、『ウ型』、『ト型』、『ラ型』、『マ型』、『ミ型』、『ユ型』、『ワ型』、『ヨ型』、『オ型』、『ア型』、『イ型』、『エ型』、『カ型』、『キ型』、『ク型』、『コ型』、『シ型』、『ス型』、『セ型』、『テ型』、『ヌ型』、『ネ型』、『ホ型』、『ム型』、『メ型』、『ヤ型』、『ル型』、『レ型』、『ロ型』などがある。

また、英語の指文字から、図６Ｈに示す『Ｃ型』や、図示を省略する『Ｑ型』などがある。また、人差し指が向いている方向によって、図示を省略する『人差指後』、『人差指下』、『一型』などや、人差し指と中指を前にそろえて出した型である、図示を省略する『二上型』、『二下型』などがある。

また、握り拳のバリエーションを示す、図６Ｃに示す『握り拳縦』や、図示を省略する、小指側が相手に向いている型である『握り拳小』、親指側が相手に向いている型である『握り拳親』、四指の甲が相手に向いている型である『握り拳甲』、手のひら側が上を向いている型である『握り拳平』などがある。

また、「手形」をその形の由来から、図６Ｅに示す『熊手型』、図Ｆに示す『祈る型』、図６Ｇに示す『テ↓型』や、図示を省略する『すぼめ型』、『手刀』、『屋根型』、『テ↑型』、『キーボード型』、『薬指』などがある。これらの「手形」がすべて手話動作の特徴点となり得る。

また、「片手の手話」の場合は、「手形」だけでなく、手の位置、すなわち、手が体のどの部位の位置にあるかによって意味が決まる場合があるため、手の位置についても特徴点となり得る。図７Ａ〜図７Ｆは、一般的な手話動作における片手の手話の手の位置の一例を示す説明図である。

たとえば、図７Ａに示すように「鼻」に接するかあるいは「鼻」のすぐ側に手の位置がある場合、図７Ｂに示すように「こめかみ」に接するかあるいは「こめかみ」のすぐ側に手の位置がある場合、図７Ｃに示すように「首」に接するかあるいは「首」のすぐ側に手の位置がある場合、図７Ｅに示すように「胸」に接するかあるいは「胸」のすぐ側に手の位置がある場合、それぞれ、その身体部位を占めるなどの独自の意味を有することがある。

それ以外に、図示を省略するが、たとえば、「頭」、「額」、「耳」、「目」、「頬」、「口」、「顎」、「喉」、「肩」、「腹」、「足」などに接するかあるいはこれらのすぐ側にある場合である。

また、手が体の部位に接していないが、その周辺にある場合には、また別の意味を有するため、その場合も特徴点として考慮するとよい。たとえば、図７Ｄに示すように「頭の横」、すなわち頭の横側であって、頭から少し離れた位置に手がある場合、図７Ｆに示すように「胸の前」、すなわち、胸の前側であって、胸が少し離れた位置に手がある場合、などである。

それ以外、図示を省略するが、たとえば、「頭の上」、「顔の前」、「腹の前」、「体の脇」などの位置に手がある場合も、特徴点となり得る。

また、「両手同形の手話」の場合は、「手形」のほかに、さらに、両手がどのように動くかが特徴点になり得る。たとえば、両手についての「上下の動き」、「前後の動き」、「その場の動き」、「左右の動き」、「円運動」、「動きなし」などが、下記のように、それぞれ手話動作の特徴点となり得る。

図８Ａ〜図８Ｆは、一般的な手話動作における両手同形の手話の動きの一例を示す説明図である。具体的には、たとえば、図８Ａに示すように、手を上下に動かす「上下の動き」がある。図８Ａでは、「手形」が『ヒ型』（図６Ｂ）であって、その手形の両手を上下に１〜２回交互に動かすことで、『どちら』、『とにかく』、『〜かどうか』、『比べる』、『比較』という言葉を示す。この手話動作は、両手を上下に１〜２回交互に動かすことで、どちらがよいかということを表している。

また、図８Ｂに示すように、手を前後方向に動かす「前後の動き」がある。図８Ｂでは、「手形」が『ヒ型』（図６Ｂ）であって、その手形の両手、すなわち、両手の人差し指を顔の両側におき、互い違いに前後に軽く振るようにすることで、『遊ぶ』、『チャンバラ』という言葉を示す。この手話動作は、両手の人差し指を互い違いに前後に軽く振るようにすることで、チャンバラ遊びで、棒を振り回している様子を表している。

また、図８Ｃに示すように、位置はそのままで指だけが動く「その場の動き」がある。図８Ｃでは、「手形」が『タ型』（図６Ｊ）であって、その手形の両手、すなわち、両手の親指を向かい合わせて、両親指に指先を折るようにすることで、『挨拶』という言葉を示す。この手話動作は、親指を人に見立てて、指先を折ることで、挨拶をしている様子を表している。

また、図８Ｄに示すように、手を左右方向に動かす「左右の動き」がある。図８Ｄでは、「手形」が『ヒ型』（図６Ｂ）であって、その手形の両手、すなわち、両手の人差し指を体の左右に立てて胸の前で合わせ、両手は手のひら側で向かい合うようにすることで、『会う』、『面接』、『面会』という言葉を示す。この手話動作は、人差し指を人に見立てて、会う様子を表している。

また、図８Ｅに示すように、指先が円を描くように手を動かす「円運動」がある。図８Ｅでは、「手形」が『タ型』（図６Ｊ）であって、その手形の両手を前方で並べて示し、左右を引き離して水平面で円を描くように後に持ってきて、また両手をつけるようにすることで、『男子』、『男性』、『男たち』という言葉を示す。この手話動作は、「男」の集合ということを表している。

また、図８Ｆに示すように、手の動きがなく、位置が変わらない「動きなし」がある。図８Ｆでは、「手形」が『ヒ型』（図６Ｂ）と『一型』であって、両手とも人差し指以外は握り、一方の手の人差し指を伸ばして横向きにおき（『一型』）、その後に、他方の手の人差し指を立てる（『ヒ型』）。後の手は、手のひらを横向きにすることで、『科学』という言葉を示す。この手話動作は、平原から上昇するロケットのイメージを表している。

また、「両手異形の手話」の場合は、たとえば、利き手の「手形」のほかに、さらに、利き手でない方の手の「手形」も含めた、両方の「手形」の組み合わせが特徴点になり得る。さらに、利き手でない方の手においては、利き手の「手形」には現れない「腕」の形が特徴点になり得る。

図９Ａ、図９Ｂは、一般的な手話動作における両手異形の手話の手の形の一例を示す説明図である。具体的には、たとえば、図９Ａに示すように、利き手の「手形」が『ソ型』（図６Ａ）、利き手でない方の手が『テ↓型』（図６Ｇ）であって、利き手でない方の手（『テ↓型』）の手のひらを下に向け、やや丸めた手の下に、利き手（『ソ型』）の手の人差し指をくぐらせることで、『なぜ』、『どうして』、『意味」、『理由』、『訳』、『探求』という言葉を示す。この手話動作は、隠されたものごとを探っている様子を示している。

また、図９Ｂに示すように、利き手の形が『人差指下』、利き手でない方の手が『テ↓型』であって、利き手でない方の手（「テ↓型」）指先を横、手のひらを下に向けた手を示し、その手の小指側を、利き手（『人差指下』）の人差し指の先でなぞることで、『（線を）引く』、『デザイン』、『定規』、『予定』、『計画』、『〜つもり』という言葉を示す。この手話動作は、定規で線を引いて、予定表を作るしぐさを表している。

また、利き手でない方の手では現れない「手形」がある。たとえば、図示を省略する『薬指』、『キ型』、『シ型』、『ス型』、『セ型』、『ラ型』、『ル型』、『ロ型』などである。このような型が出現した場合は、そちらの手が利き手であるとの判断をすることもできる。

このように、手話画像における手話動作が、「片手の手話」なのか、「両手同形の手話」なのか、「両手異形の手話」なのかを、判別した上で、それぞれの手話における独自の特徴点を判断し、判断した特徴点を抽出するようにしてもよい。

これらの特徴点についても、人工知能アルゴリズムを用いて、あらかじめ機械学習させて、どの部分の特徴点を抽出し、どの部分の特徴点は抽出しない（無視する）かを決めさせるようにするとよい。

このように、手話動作とは、手の形、手の位置、手の動きなどを含む動作であり、特徴点とは、それらの動作の各特徴部分を示している。そして、上述した複数に分類された「手形」ごとに手話動作の特徴点を抽出するようにしてもよく、入力された手話画像を、「片手の手話」と、「両手同形の手話」と、「両手異形の手話」と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出するようにしてもよい。

そして、手話画像における手話動作が、「片手の手話」なのか、「両手同形の手話」なのか、「両手異形の手話」なのかの類型を判別した上で、それぞれの類型における独自の特徴点を判断し、判断した特徴点を抽出するようにしてもよい。

さらに、特徴点として、「非手指動作」を用いてもよい。「非手指動作」とは、手話動作者の表情や手話動作者の姿勢などを含む、手の動き以外の要素である。手話動作者の表情については、表情の認識に関する周知技術としての画像認識処理機能を用いることができる。その詳細については省略する。

手話動作者の姿勢については、図示は省略するが、たとえば、手話動作者の首の角度、肩の位置、肘の位置や角度などの情報を、手話画像から抽出し、それらの情報を特徴点とするようにしてもよい。

これらの特徴点についても、他の特徴点と同様に、人工知能アルゴリズムを用いて、あらかじめ機械学習させて、どの部分の特徴点を抽出し、どの部分の特徴点は抽出しない（無視する）かを決めさせるようにするとよい。

（共通点・相違点の解析処理）
つぎに、手話動作解析部３０２によっておこなわれる、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する解析処理（図５のフローチャートにおけるステップＳ５０３〜ステップＳ５０９）について、図１０Ａ〜図１０Ｇを用いて詳細に説明する。図１０Ａ〜図１０Ｇは、自然言語『暑い』に対する手話動作の一例を示す説明図であり、手話動作は異なるが、いずれも自然言語『暑い』を手話動作化したものである。

図１０Ａにおける手話動作は、「片手の手話」であって、「手形」は『握り拳縦』（図６Ｃ参照）、手の位置は『首』（図７Ｃ参照）であり、その握り拳を縦にして、首のところで振るという動作である。この手話動作には、『暑い』のほかに、『夏』、『南』、『うちわ』、『扇子』という意味がある。「うちわ」であおぐのは「夏」であって、暑さは「南」からくるので、『暑い』を表している。

また、図１０Ｂにおける手話動作は、「片手の手話」であって、「手形」は『ク型』（図６Ｉ参照）、手の位置は『首』（図７Ｃ参照）であり、その指文字「ク」の手を、手話動作者の首に向けて振るという動作である。この手話動作には、図１０Ａと同様に、『暑い』のほかに、『夏』、『南』、『うちわ』、『扇子』という意味がある。図１０Ａと同様に、「うちわ」であおぐのは「夏」であって、暑さは「南」からくるので、『暑い』を表している。

また、図１０Ｃにおける手話動作は、「片手の手話」であって、「手形」は『タ型』（図６Ｊ参照）、手の位置は『首』（図７Ｃ参照）であり、その指文字「タ」の手を、手話動作者の首のところで振るという動作である。この手話動作には、図１０Ａ、図１０Ｂと同様に、『暑い』のほかに、『夏』、『南』、『うちわ』、『扇子』という意味がある。図１０Ａ、図１０Ｂと同様に、「うちわ」であおぐのは「夏」であって、暑さは「南」からくるので、『暑い』を表している。

このように、図１０Ａ、図１０Ｂ、図１０Ｃの特徴点を「手形」とした場合には、それぞれ『握り拳縦』、『ク型』、『タ型』であり、いずれもその形は異なる。この点は互いに相違点になる。しかしながら、手の位置が同じであり、（「うちわ」あるいは「扇子」を振るように）手を振るという動作が同じであり、これらが共通点となり得る。

「手形」についても、手の形は異なるとはいえ、手話動作者はいずれも「うちわ」あるいは「扇子」などを想定した「手形」としているものであり、その点では、いずれも共通するものとして解析させることもできる。この手話動作から、身体に風を送って、身体周辺の熱気を飛ばして、身体の体温を下げようとしているという共通点を導き、自然言語『暑い』とは、身体の体温を下げさせる必要がある状態であるとの意味内容を推測部３０３に推測させることができる。

また、図１０Ｄにおける手話動作は、「片手の手話」であって、「手形」は『モ型』（図６Ｌ参照）、手の位置は『こめかみ』（図７Ｂ参照）であり、親指と人差し指の先をつけ指の先をこめかみに当て、下におろす。その際、他の指は握っているという動作である。この手話動作には、『暑い』のほかに、『汗』、『汗をかく』、『夏』という意味がある。汗が一筋流れる様子を示しており、夏は暑くて汗が出るので『夏』、『暑い』を表している。

また、図１０Ｅにおける手話動作は、「片手の手話」であって、「手形」は『（上から下へ動かす動作とともにおこなう）テ↓型』（図６Ｇ参照）、手の位置は『こめかみ』（図７Ｂ参照）であり、手のひらを下にした手の指先をこめかみに当てて、下へ引き下ろすという動作である。強調したいときは、何度も繰り返す。この手話動作には、『暑い』のほかに、『汗』、『汗をかく』、『夏』という意味がある。汗がたくさん流れる様子を示しており、図１０Ｄと同様に、夏は暑くて汗が出るので『夏』、『暑い』を表している。

また、図１０Ｆにおける手話動作は、「両手の手話」であって、「手形」は『モ型』（図６Ｌ参照）、両手は「上下の動き」（図８Ａ参照）であり、両手の指文字「モ」の指先を両こめかみに当てて、同時に下へ引き下ろすという動作である。図１０Ｅと同様に、強調したいときは、何度も繰り返す。この手話動作には、図１０Ｄ、図１０Ｅと同様に、『暑い』のほかに、『汗』、『汗をかく』、『夏』という意味がある。汗がたくさん流れる様子を示しており、図１０Ｄ、図１０Ｅと同様に、夏は暑くて汗が出るので『夏』、『暑い』を表している。

また、図１０Ｇにおける手話動作は、「両手の手話」であって、「手形」は『（上から下へ動かす動作とともにおこなう）テ↓型』（図６Ｇ参照）、両手は「上下の動き」（図８Ａ参照）であり、両手の指先をこめかみに当てて、下へ引き下ろすという動作である。図１０Ｄ〜図１０Ｆと同様に、強調したいときは、何度も繰り返す。この手話動作には、図１０Ｄ〜図１０Ｆと同様に、『暑い』のほかに、『汗』、『汗をかく』、『夏』という意味がある。汗がたくさん流れる様子を示しており、図１０Ｄ〜図１０Ｆと同様に、夏は暑くて汗が出るので『夏』、『暑い』を表している。

このように、図１０Ｄと図１０Ｅが「片手の手話」であるのに対して、図１０Ｆと図１０Ｇが「両手同形の手話」である点で、両者は異なる。この点が相違点になる。また、図１０Ｄ〜図１０Ｇの特徴点を「手形」とした場合には、図１０Ｄと図１０Ｆが、いずれも『モ型』である点で一致し、図１０Ｅと図１０Ｇが、いずれも『（上から下へ動かす動作とともにおこなう）テ↓型』である点で一致するが、図１０Ｄ・図１０Ｆと、図１０Ｅ・図１０Ｇとは「手形」が異なる点で、相違点になる。

しかしながら、手の位置が同じであり、（汗が流れるように）手を下に下げるという動作が同じであり、これらが共通点となる。

片手か両手かの違いや、「手形」について、手の形は異なるとはいえ、手話動作者はいずれも汗がこめかみから流れ落ちることを想定した「手形」としているものであり、この点について共通するものとして解析することができる。この手話動作から、汗が流れるような状況であるという共通点を導き、自然言語『暑い』とは、身体の体温が上昇している状態であるとの意味内容を推測部３０３に推測させることができる。

その際、自然言語『暑い』を想起させる映像若しくは文脈、たとえば、太陽がギラギラ照りつけている様子の後に汗を拭いている人の映像、ボイラーの炎を目の前にして汗をかいている人の画像または映像、サウナに入って暑がっている人の画像または映像などの「関連画像」をあわせて用いるようにすることで、自然言語『暑い』の意味内容をより正確にかつ多様的に把握させることができる。

（意味内容の推測処理）
つぎに、推測部３０３によっておこなわれる、解析された共通点または相違点から、自然言語の意味内容について推測する解析処理（図５のフローチャートにおけるステップＳ５１０）について、図１１Ａ〜図１１Ｇを用いて詳細に説明する。図１１Ａ〜図１１Ｇは、自然言語『愛』に対する手話動作の一例を示す説明図であり、手話動作は異なるが、いずれも自然言語『愛』を手話動作化したものである。

図１１Ａにおける手話動作は、「片手の手話」であって、「手形」は『（上から下へ動かす動作とともにおこなう）テ↓型』（図６Ｇ参照）であり、指先を前、手のひらを下に向けた手を胸の前において、水平面にやや小さい円を描くという動作である。この手話動作には、『愛』のほかに、『大切』、『かわいい』という意味がある。愛しているものを、大切になでまわしているしぐさを表している。

また、図１１Ｂにおける手話動作は、「両手同形の手話」であって、「手形」は『握り拳縦』（図６Ｃ参照）、両手は「動きなし」（図８Ｆ参照）であり、両手の握り拳を縦にして、両腕が胸のところで「×」印に交差するようにかかえるという動作である。ハートをしっかりと抱きかかえる様子を表している。

また、図１１Ｃにおける手話動作は、「両手同形の手話」であって、「手形」は『テ↓型』（図６Ｇ参照）、両手は「その場の動き」（図８Ｃ参照）であり、手のひらで他の手の甲をなでまわす。その際、両手は「×」印に交差するようするという動作である。この手話動作には、『愛』のほかに、『大切』、『大事』、『重要』、『かわいい』という意味がある。さらには、『愛知』という意味もある。この手話動作では、図１１Ａと同様に、大切になでまわすところがポイントである。

また、図１１Ｄにおける手話動作は、「両手同形の手話」であって、「手形」は『Ｃ型』（図６Ｈ参照）、両手は「動きなし」（図８Ｆ参照）であり、指文字「Ｃ」の両手を、親指を上にして向かい合わせ、ハートの形を作り、胸の前におくという動作である。この手話動作には、『愛』のほかに、『ハート』、『恋』という意味がある。この手話動作では、「ハート」の形で「愛」を表している。

また、図１１Ｅにおける手話動作は、「両手同形の手話」であって、「手形」は『ク型』（図６Ｉ参照）、両手は「その場の動き」（図８Ｃ参照）であり、指文字「ク」の両手を、胸のところで「×」印に交差するように重ねるという動作である。図１１Ｂと同様に、ハートをしっかりと抱きかかえる様子を表している。

また、図１１Ｆにおける手話動作は、「両手同形の手話」であって、「手形」は『フ型』（図６Ｋ参照）、両手は「動きなし」（図８Ｆ参照）であり、指文字「フ」の両手を、親指と人差し指の先を合わせてハートの形を作るという動作である。この手話動作には、図１１Ｄと同様に、『愛』のほかに、『ハート』、『恋』という意味がある。この手話動作では、「ハート」の形で「愛」・「恋」を表している。

また、図１１Ｇにおける手話動作は、「両手異形の手話」であって、「手形」は『テ↓型』（図６Ｇ参照）、であり、他の手の「手形」は、『サ型』（図６Ｄ参照）であり、手のひらで、指文字「サ」の他の手の甲をなでまわす。この手話動作には、図１１Ｃと同様に、『愛』のほかに、『大切』、『大事』、『重要』、『かわいい』、『愛知』という意味がある。この手話動作では、図１１Ａと同様に、大切になでまわすところがポイントである。図１１Ａ、図１１Ｃと同様に、愛しているものを、大切になでまわしているしぐさを表している。

このように、自然言語『愛』に対して、手話動作の共通点となる特徴点としては、「なでまわすこと」、「ハートを示すこと」、「胸（ハート）を抱きかかえること」が抽出される。「ハートを示すこと」と「胸（ハート）を抱きかかえること」については、「ハート」を媒介として共通点と捉えることができるが、それらと、「なでまわすこと」とは、共通点がないことから、相違点として捉えることができる。これらの共通点・相違点に基づいて、『愛』という言葉の意味内容を推測する。

具体的には、「なでまわすこと」から、相手がいて、その相手に対するもの（こと）であると推測できる。また、「ハート（心臓）」が出てくることから、心すなわち感情に関することであると推測できる。このようにして、抽出された複数の特徴点（共通点・相違点）を取捨選択し、複数の組み合わせを試行錯誤することによって、いままで難しかった『愛』という言葉の意味内容の推測をおこなわせることができる。

（ニューラルネットワークの構成）
つぎに、この発明にかかる実施の形態の自然言語処理装置のニューラルネットワークの構成について説明する。図１２は、この発明にかかる実施の形態の自然言語処理装置のニューラルネットワークの構成を示す説明図である。

図１２において、この発明にかかる実施の形態の自然言語処理装置のニューラルネットワークは、入力層１２０１と出力層１２０３とを備え、さらに、入力層１２０１と出力層１２０３の間に中間層１２０２を備えている。入力層１２０１、中間層１２０２、出力層１２０３にそれぞれ存在する複数の「○」は、形式ニューロンやノードを示している。図３に示した手話動作解析部３０２および推測部３０３は、いずれもこのようなニューラルネットワークによって構成されていることが望ましい。

ニューラルネットワークにおいて、入力層１２０１と出力層１２０３だけでなく、中間層１２０２を設けることで、処理をおこなうニューロン群の層が増える。これによって、思考を深くすることができる。入力層１２０１と出力層１２０３のみで構成されたネットワークよりもニューロンが増えた分だけ、解析や推測の精度が向上し、あるいは、汎用性がある解析や推測が得られ、また、いわゆる「教師なし学習」により解析結果や推測結果を得ることができる。

入力層１２０１は、中間層１２０２にある多数のニューロン群に対して、手話動作の特徴点に関する情報を伝達する。そして、中間層１２０２のニューロンは、当該情報を処理し、共通点・相違点の解析結果や、意味内容の推測結果に関する情報を出力層１２０３のニューロンに伝達して処理を実行する。そして、出力層１２０３のニューロンは、処理した結果を出力する。その出力結果１２０４を、図３に示した記憶部３０４に記憶することができる。

（応用例）
つぎに、この発明の応用例にかかる、第三者が作成した手話画像を取得した場合の手順について説明する。図１３Ａ〜図１５Ｂは、この発明にかかる実施の形態の応用例の内容を示す説明図である。図１３Ａに示す手話画像１３０１、図１４Ａに示す手話画像１４０１、図１５Ａに示す手話画像１５０１は、『ＴＡＫＥＤＡ自動車』を表現する手話動作をデータ化した検索キーを用いて、インターネット上の手話画像を検索し、取得したものである。

図１３Ａは、手話画像１３０１を取得したばかりの状態であって、意味内容が付加されていない状態を示す。図１３Ｂに表示されたテキスト１３０２は、取得した手話画像１３０１の内容を翻訳したものである。良い評価材料という評価スタンプ（『良い評価』）１３０３の表示は、テキスト１３０２の文脈と手話画像１３０１に映っている手話動作者の表情から、『ＴＡＫＥＤＡ自動車』にとって良い評価を表す手話画像であることを自然言語処理装置が判断したことを示すものである。手話画像１３０１と翻訳テキスト１３０２、評価スタンプ１３０３は相互に関連付けられて、図３に示した記憶部３０４に記憶される。

図１４Ａは、手話画像１４０１を取得したばかりの状態であって、意味内容が付加されていない状態を示す。図１４Ｂに表示されたテキスト１４０２は、取得した手話画像１４０１の内容を翻訳したものである。悪い評価材料という評価スタンプ（『悪い評価』）１４０３の表示は、テキスト１４０２の文脈と手話画像１４０１に映っている手話動作者の表情から、『ＴＡＫＥＤＡ自動車』にとって悪い評価を表す手話画像であることを自然言語処理装置が判断したことを示すものである。手話画像１４０１と翻訳テキスト１４０２、評価スタンプ１４０３は相互に関連付けられて、図３に示した記憶部３０４に記憶される。

図１５Ａは、手話画像１５０１を取得したばかりの状態であって、意味内容が付加されていない状態を示す。図１５Ｂに表示されたテキスト１５０２は、取得した手話画像１５０１の内容を翻訳したものである。良い評価材料という評価スタンプ（『良い評価』）１５０３の表示は、テキスト１５０２の文脈と手話画像１５０１に映っている手話動作者の表情から、『ＴＡＫＥＤＡ自動車』にとって良い評価を表す手話画像であることを自然言語処理装置が判断したことを示すものである。手話画像１５０１と翻訳テキスト１５０２、評価スタンプ１５０３は相互に関連付けられて、図３に示した記憶部３０４に記憶される。

なお、図４Ｂに示した第三者が作成したコンテンツはインターネット上に数多くあり、『ＴＡＫＥＤＡ自動車』の収益構造についてもインターネット上から取得して学習済みであって、その内容が「売上額の割合が国内は３割未満で欧州が４割以上である」というようなことがわかっているとすると、テキスト１５０２の意味は信憑性が高いことを自然言語処理装置が判断することができる。評価スタンプ１５０３は良い評価材料とだけの表現にとどめているが、信憑性の高さの評価を加えた表現、あるいは、数値化した評価にしてもよい。

図３に示した記憶部３０４に記憶される意味内容に関する情報は、たとえば、手話画像から取得できる情報と、図示を省略する、別途取得したインターネット上の第三者が作成したコンテンツと、に基づいて、推測させるようにしてもよい。手話画像から取得できる情報は、翻訳テキストの他には、手話動作者の表情、手話動作者の姿勢、手話の強調動作、手話動作者の発声音声、手話動作者の発声にともなって動く唇の動きなどであってもよい。

手話動作者の表情からは喜怒哀楽が推測でき、手話動作者の姿勢や動作の大きさからは手話動作者の性格や手話内容についての自信の度合いなどが表われる。元気な人の動作は大きく、おとなしい人の動作は小さくなる傾向がある。手話内容に自信があれば力強い動きになるが自信がない場合の動きは弱くなる傾向がある。強調動作には、動作の大きさの他に繰り返しの表現もある。

上がる／下がる、増える／減るなどの表現が大きければ大小の意味が重要であることや変化量が多いことが伝えられる。表現が小さければその逆の意味に取ることができる。緊急避難を知らせる場合などは、急ぐを繰り返し表現することによって急ぐべきことを強調して伝えることができる。

手話動作者は、手話動作だけでなくしゃべる場合もある、また、手話動作者の手話動作の内容を通訳した音声が手話画像に含まれている場合もある。この音声と手話動作から翻訳したテキストを比較して翻訳内容を精査することも可能である。音声が付いていない場合は、読唇によって音声内容を推測することも可能である。

このように、手話画像には、手話動作以外に手話の意味内容の推測を助ける情報が多く含まれており、コンピュータに知識を学習させるにあたって手話画像を用いることの効果は高い。

以上説明したように、この発明にかかる実施の形態の自然言語処理装置は、人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理装置において、ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力部３０１と、入力部３０１によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析部３０２と、手話動作解析部３０２によって解析された共通点または相違点から、自然言語の意味内容について推測する推測部３０３と、推測部３０３によって推測された意味内容に関する情報を、自然言語と関連付けして記憶する記憶部３０４と、を備える。

これによって、自然言語、すなわち、文字情報を一度手話翻訳したあとに、その手話画像（または手話画像と文字情報）を機械学習させる。画像情報をいれることで、類義語や似た意味の言葉（たとえば、「やさしい」と「思いやりがある」など）も、より高精度（または少ないデータ量）で自動的に学習することが可能になる。結果として、従来、人工知能アルゴリズムが不可能または困難であった、ニュアンスの学習も含めて可能になる。そして、今後、将来的に、人工知能アルゴリズムが言葉の本質的な意味を理解するためのデータベースを構築することができる。

このように、手話の画像データ（静止画、動画）と単語を関連付けし、大量の手話画像をディープラーニングにより学習させるとともに、大量の言葉（自然言語）をディープラーニングにより学習させる。さらには、言葉と手話画像の相関関係をディープラーニングにより学習させる。これにより、言葉の意味内容における相関関係が判定でき、自然言語として、入力される言葉を、学習した手話画像と組み合わせ、抽象的な概念で捉え、ニュアンスを判断できるようになる。

また、この発明にかかる自然言語処理装置は、手話動作解析部３０２が、入力部３０１によって入力された手話画像から、複数に分類された手形ごとに手話動作の特徴点を抽出する。

また、この発明にかかる自然言語処理装置は、手話動作解析部３０２が、入力部３０１によって入力された手話画像を、片手で表す手話である片手の手話と、両手で表し、両手が同じ形の手話である両手同形の手話と、両手で表し、両手が違う形の手話である両手異形の手話と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出する。

このように構成することによって、手話動作の最も主要な特徴点を効率的にかつ迅速に抽出することができる。

また、この発明にかかる自然言語処理装置は、手話動作解析部３０２が、分類されたそれぞれの手話間において、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する。

また、この発明にかかる自然言語処理装置は、手話動作解析部３０２が、入力部３０１によって入力された手話画像から、手話動作に加えて、あるいは、手話動作に代えて、手話動作者の表情を含む、手の動き以外の要素である非手指動作に関する特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする。

このように構成することによって、手話動作解析部３０２は、特徴点の共通点および相違点を効率的にかつ迅速に解析することができる。

また、この発明にかかる自然言語処理装置は、推測部３０３が、手話動作の手形または動作が有する意味から、自然言語の意味内容について推測する。

また、この発明にかかる自然言語処理装置は、入力部３０１が、自然言語を連想させる関連画像を、当該自然言語および手話画像と関連付けして入力し、推測部３０２が、関連画像を用いて、自然言語の意味内容について推測する。

このように構成することによって、推測部３０３は、入力された自然言語の意味内容を正確にかつ多様的に推測することができる。

なお、この実施の形態で説明した自然言語処理方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。

以上のように、この発明にかかる自然言語処理装置、自然言語処理方法および自然言語処理プログラムは、言語解析データベースの構築に適している。

１００自然言語処理システム
１０１ネットワーク
１１０コンピュータ装置
１１１クラウドシステム
１２０（各種）端末装置
３０１入力部
３０２手話動作解析部
３０３推測部
３０４記憶部

Claims

人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理装置において、
ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力手段と、
前記入力手段によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析手段と、
前記手話動作解析手段によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測手段と、
前記推測手段によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶手段と、
を備えたことを特徴とする自然言語処理装置。
前記手話動作解析手段は、前記入力手段によって入力された手話画像から、複数に分類された手形ごとに手話動作の特徴点を抽出することを特徴とする請求項１に記載の自然言語処理装置。
前記手話動作解析手段は、前記入力手段によって入力された手話画像を、片手で表す手話である片手の手話と、両手で表し、両手が同じ形の手話である両手同形の手話と、両手で表し、両手が違う形の手話である両手異形の手話と、に分類し、分類されたそれぞれの手話において手話動作の特徴点を抽出することを特徴とする請求項１または２に記載の自然言語処理装置。
前記手話動作解析手段は、分類されたそれぞれの手話間において、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする請求項３に記載の自然言語処理装置。
前記推測手段は、前記手話動作の手形または動作が有する意味から、前記自然言語の意味内容について推測することを特徴とする請求項１〜４のいずれか一つに記載の自然言語処理装置。
前記手話動作解析手段は、前記入力手段によって入力された手話画像から、前記手話動作に加えて、あるいは、前記手話動作に代えて、手話動作者の表情を含む、手の動き以外の要素である非手指動作に関する特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析することを特徴とする請求項１〜５のいずれか一つに記載の自然言語処理装置。
前記入力手段は、前記自然言語を連想させる関連画像を、当該自然言語および前記手話画像と関連付けして入力し、
前記推測手段は、前記関連画像を用いて、前記自然言語の意味内容について推測することを特徴とする請求項１〜６のいずれか一つに記載の自然言語処理装置。
コンピュータが、人工知能アルゴリズムを用いて自然言語の解析をおこなう自然言語処理方法において、
ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力処理と、
前記入力処理によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析処理と、
前記手話動作解析処理によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測処理と、
前記推測処理によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶処理と、
を前記コンピュータが実行することを特徴とする自然言語処理方法。
コンピュータに、人工知能アルゴリズムを用いて自然言語の解析をおこなわせる自然言語処理プログラムにおいて、
ある自然言語に対する複数の手話画像を当該自然言語ごとに当該自然言語と関連付けして入力する入力処理と、
前記入力処理によって入力された手話画像から、手話動作の複数の特徴点を抽出し、抽出された特徴点ごとに手話動作の、他の手話動作との共通点または相違点を解析する手話動作解析処理と、
前記手話動作解析処理によって解析された共通点または相違点から、前記自然言語の意味内容について推測する推測処理と、
前記推測処理によって推測された意味内容に関する情報を、前記自然言語と関連付けして記憶する記憶処理と、
を前記コンピュータに実行させることを特徴とする自然言語処理プログラム。