JP2023023032A

JP2023023032A - 手話情報伝送装置、手話情報出力装置、手話情報伝送システム及びプログラム

Info

Publication number: JP2023023032A
Application number: JP2021128187A
Authority: JP
Inventors: 修一梅田; Shuichi Umeda; 礼子齋藤; Reiko Saito
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2023-02-16

Abstract

【課題】手話の映像と同期させて、手話に伴って発生する刺激を出力する。【解決手段】手話情報伝送システムは、手話情報伝送装置と手話情報出力装置とを有する。手話情報伝送装置は、手話の映像データと、手話映像データが示す手話において所定の種類の聴覚又は触覚の刺激が発生したタイミングを示すタイミングデータとを送信する送信部を備える。手話情報出力装置は、映像データを受信する第一受信部と、タイミングデータを受信する第二受信部と、映像データを再生する再生制御部と、タイミングデータが示すタイミングにおいて、振動、光又は音の刺激を出力するようデバイスを制御する出力制御部とを備える。【選択図】図１

Description

本発明は、手話情報伝送装置、手話情報出力装置、手話情報伝送システム及びプログラムに関する。

日本語から日本手話に翻訳し、翻訳結果を手話の形式で情報提示するシステムが求められている。この実現のため、手話ＣＧ（コンピュータグラフィック）アニメーションを合成する技術の研究が行われている（例えば、特許文献１参照）。しかし、この技術の評価実験を通じて、手話を表現する映像のみで元の意味を伝えることは非常に困難であることが明らかとなっている。そこで、手話をもっと分かりやすく伝えられるようにするための技術の改善が求められている。

実際に手話が使用されている場面を見ると、話し手と聞き手が近い位置にあることが多い。対話している距離が近ければ、視覚的な映像だけではなく、話者の発する音や振動までも伝わっていることが考えられる。一方で、手話映像が再現するのは、視聴者の視覚に対する刺激のみである。話し手と聞き手間の距離の違いに伴って、手話映像だけでは何か重要な情報が欠落しており、そのことが聞き手の理解度の低下に影響しているものと考えられる。

特開２０１９－１９７０８４号公報

ろう者同士が手話で会話しているところを観察すると、視覚情報として伝達される情報は全体の中の一部のみであり、視覚情報以外の様々な手段を用いてコミュニケーションが図られていると考えられる。例えば、難聴者やろう者が発話する手話において、全く音が発生しないとは限らない。手が反対の手、ないしは体の部位に触れて音が発生することや、口から音が発生することがある。手話の会話の流れから、特に重要な文脈において、大きな音を発生させて強調することにより、相手に対して理解を求めていることが考えられる。

また、聴覚として認識されないまでも、ごく近い距離にある話し手の動きは空気の振動として伝わり、聞き手に「空気感」として感じられていることが想像できる。特に先天的に聴覚を持たない人は、健聴者とは比較できないほどに全身の感覚か鋭敏になっており、円滑にコミュニケーションが行われている可能性は高い。

上記のことから、伝わりやすい手話を再現するためには、視覚に対する映像だけでは不十分であり、聴覚や触覚など、手話の発話によって発生する刺激を再現することが望ましいと考えらえる。また、これらの刺激は別々の刺激として単独で再現することは無意味であるだけではなく、かえって理解を妨げる可能性がある。そのため、手話の発話と同期したタイミングでの再生が求められる。

本発明は、このような事情を考慮してなされたもので、手話の映像と同期させて、手話に伴って発生する刺激を出力することができる手話情報伝送装置、手話情報出力装置、手話情報伝送システム及びプログラムを提供することを目的としている。

［１］本発明の一態様は、手話の映像データから得られる特徴量と前記手話の音声データから得られる特徴量との一方又は両方に基づいて、前記映像データが示す前記手話において所定の種類の聴覚又は触覚の刺激が発生したタイミングを検出する検出部と、前記映像データと、前記検出部が検出したタイミングとを示すタイミングデータを送信する送信部と、を備える手話情報伝送装置である。

［２］本発明の一態様は、上述の手話情報伝送装置であって、所定の種類の前記刺激は、破裂音の発声であり、前記検出部は、破裂音が発声されたタイミングと、前記破裂音の種類とを検出し、前記送信部は、前記検出部が検出した前記タイミングと、前記破裂音の種類とを示す前記タイミングデータを送信する。

［３］本発明の一態様は、手話の映像データを受信する第一受信部と、前記映像データが示す前記手話において所定の種類の聴覚又は触覚の刺激が発生したタイミングを示すタイミングデータを受信する第二受信部と、前記映像データを再生する再生制御部と、前記タイミングデータが示す前記タイミングにおいて、振動、光又は音の刺激を出力するようデバイスを制御する出力制御部と、を備える手話情報出力装置である。

［４］本発明の一態様は、上述の手話情報出力装置であって、前記刺激は、破裂音の発声であり、前記タイミングデータは、破裂音が発声されたタイミングと、前記破裂音の種類の情報とを含み、前記出力制御部は、前記タイミングにおいて前記破裂音の種類に応じた振動、光又は音の刺激を出力するよう前記デバイスを制御する。

［５］本発明の一態様は、手話情報伝送装置と手話情報出力装置とを有する手話情報伝送システムであって、前記手話情報伝送装置は、手話の映像データと、前記映像データが示す前記手話において所定の種類の聴覚又は触覚の刺激が発生したタイミングを示すタイミングデータとを送信する送信部を備え、前記手話情報出力装置は、前記映像データを受信する第一受信部と、前記タイミングデータを受信する第二受信部と、前記映像データを再生する再生制御部と、前記タイミングデータが示す前記タイミングにおいて、振動、光又は音の刺激を出力するようデバイスを制御する出力制御部とを備える、手話情報伝送システムである。

［６］本発明の一態様は、コンピュータを、上述したいずれかの手話情報伝送装置として機能させるためのプログラムである。

［７］本発明の一態様は、コンピュータを、上述したいずれかの手話情報出力装置として機能させるためのプログラムである。

本発明により、手話の映像と同期させて、手話に伴って発生する刺激を出力することが可能となる。

本発明の第１の実施形態による手話情報伝送システムの構成図である。同実施形態による手話情報伝送装置の構成を示す機能ブロック図である。同実施形態による手話情報出力装置の構成を示す機能ブロック図である。同実施形態による手話情報配信データの例を示す図である。同実施形態によるデバイス別刺激情報の例を示す図である。同実施形態による手話情報伝送装置の検出条件データ生成処理を示すフロー図である。同実施形態による手話情報伝送装置の手話情報配信処理を示すフロー図である。同実施形態による手話情報出力装置の手話情報出力処理を示すフロー図である。第３の実施形態による手話情報出力装置の構成を示す機能ブロック図である。同実施形態による手話情報出力装置の手話情報出力処理を示すフロー図である。同実施形態による手話情報出力装置の構成を示す機能ブロック図である。第１の実施形態による手話情報出力装置のハードウェア構成を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。本実施形態では手話映像による視覚刺激を補足するために、聴覚や触覚による刺激を手話映像に同期して再生する。手話映像による視覚刺激以外の手話の刺激には、例えば、口から発生する音や、手が体の他の部位などに触れることにより発生する音などの聴覚や触覚の刺激がある。以下では、手話映像の視覚刺激以外に手話において発生する聴覚や触覚の刺激を、単に刺激とも記載する。本実施形態では、手話における聴覚や触覚の刺激全般に用いることができるが、以下では、わかりやすさのため、刺激が日本手話の口型に伴う破裂音「パ・ピ・プ・ぺ・ポ」の発声である場合を主な例に用いて説明する。破裂音の発声は、映像では伝えられない手話情報の最も顕著な例である（例えば、参考文献１参照）。

（参考文献１）ＮＰＯ法人バイリンガル・バイカルチュラルろう教育センター編、「文法が基礎からわかる日本手話のしくみ」、大修館書店、２０１１年、p.89-92

［第１の実施形態］
図１は、本発明の第１の実施形態による手話情報伝送システム１の構成を示す図である。手話情報伝送システム１は、手話情報伝送装置１００と、手話情報出力装置３００とを有する。手話情報伝送装置１００と手話情報出力装置３００とは、伝送網５００を介して接続される。伝送網５００は、放送でもよく、インターネットなどの通信網でもよく、放送及び通信網でもよい。図１においては、手話情報出力装置３００を１台のみ示しているが、手話情報出力装置３００の台数は任意である。本実施形態では、手話映像の配信等を行う手話映像配信者が手話情報伝送装置１００を有し、手話映像の視聴者が手話情報出力装置３００を有する場合を例に説明する。

手話情報伝送装置１００は、実際の手話に近づけて再現を行うために、視覚によって認識される手話の映像だけではなく、手話における聴覚や触覚などの刺激の発生タイミングを手話情報出力装置３００に送信する。手話における刺激の発生タイミングは、手話映像配信者が手動で手話情報伝送装置１００に入力してもよいが、手話情報伝送装置１００が映像認識技術や音声認識技術を利用して検出することによって手話映像配信者を支援することができる。手話情報伝送装置１００は、手話の映像データである手話映像データと、手話映像データが示す手話において刺激が発生したタイミングを設定したタイミングデータとを手話情報出力装置３００に送信する。このように、刺激の発生タイミングは、電子的に取り扱える形式により伝送される。

手話情報出力装置３００は、手話映像データに基づいて手話の映像を再生し、タイミングデータに記述された発生タイミングにおいて、手話の映像と同期させて手話の映像以外の刺激を出力する。刺激を出力するデバイスを刺激出力デバイスと記載する。刺激出力デバイスは、例えば、聴覚デバイス、触覚デバイス、発光デバイスなどである。聴覚デバイスは、スピーカーなど、聴覚に対する音の刺激を与えるデバイスである。触覚デバイスは、バイブレータなど、触覚に対して振動の刺激を与えるデバイスである。発光デバイスは、ランプなど、視覚に対して光の刺激を与えるデバイスである。

第１の実施形態では、手話映像データは、手話者を撮影した実写の映像データである。運用時には、手話情報伝送装置１００が手話情報出力装置３００に手話映像データを配信する。その運用前の準備として、刺激の発生を検出するための検出条件を手話情報伝送装置１００に設定しておく。検出条件を決定するために、手話映像配信者は、手話者が手話を行っているときの口元を撮影した映像データと、その手話の音声データとを撮りためておく。手話映像配信者は、それら映像データ及び音声データに破裂音の発声などの刺激が発生したときのタイミングの情報を手動で付加して、タイミング付き手話映像データ及びタイミング付き手話音声データを生成する。手話情報伝送装置１００は、タイミング付き手話映像データ及びタイミング付き手話音声データから得られた特徴量に基づいて、刺激の発生を表す特徴量や、特徴量の変化などを検出する。手話情報伝送装置１００は、検出した特徴量や特徴量の変化に基づく刺激の検出条件を記憶する。

運用時、手話者が手話を行い、手話を撮影した手話映像データや、その手話の音声を収音した手話音声データが手話情報伝送装置１００に入力される。手話情報伝送装置１００は、手話映像データから得られた口元の映像の特徴量や、手話音声データから得られた特徴量が刺激の検出条件を満たした場合に、刺激の発生を検出する。手話情報伝送装置１００は、検出した刺激の発生タイミングを記述したタイミングデータを生成する。手話映像配信者は、必要に応じてタイミングデータを修正してもよい。手話情報伝送装置１００は、各視聴者の手話情報出力装置３００に、手話映像データ、手話音声データ及びタイミングデータを伝送する。なお、手話音声データの伝送は、オプションとしてもよい。手話情報出力装置３００は、手話映像データに基づく手話映像を表示し、手話音声データに基づく手話音声を出力する。さらに、手話情報出力装置３００は、タイミングデータが示す発生タイミングに、刺激出力デバイスにより、手話映像と同期させて手話映像以外の刺激を出力する。

上記により手話情報伝送システム１は、例えば、パピプペポに代表される、手話で発生する音声信号を、再生側の手話情報出力装置３００において元と同じ形式の音声信号に戻すだけではなく、発光デバイスや振動デバイスなどにより出力される他の形式の刺激に変換して出力することができる。このように、手話情報出力装置３００は、手話を発話する際に特化した音声信号を、その手話の映像と同期させて刺激として出力することにより、手話情報出力装置３００が再生する手話映像を視聴する人の理解度を向上させる。

図２は、手話情報伝送装置１００の構成を示す機能ブロック図である。図２では、本実施形態と関係する機能ブロックのみを抽出して示してある。手話情報伝送装置１００は、例えば、１台以上のコンピュータ装置により実現される。手話情報伝送装置１００は、データ入力部１０１と、記憶部１０２と、入力部１０３と、表示部１０４と、音声出力部１０５と、再生制御部１１１と、解析部１１２と、検出条件設定部１１３と、検出部１１４と、配信データ生成部１１５と、修正部１１６と、送信部１１７とを有する。

データ入力部１０１は、カメラ２０１から手話映像データを入力し、マイク２０２から手話音声データを入力する。手話映像データは、カメラ２０１が手話者の手話を撮影した映像データである。映像データは、時刻の情報と、その時刻における映像フレームとを含む。時刻の情報は、例えば、ＵＴＣ（Coordinated Universal Time）を用いた時刻でもよく、先頭など所定の映像フレームが撮影された時刻を開始時刻とした場合の相対時刻でもよい。また、時刻の情報として、映像フレームの番号を用いてもよい。手話音声データは、マイク２０２が、手話者による手話が行われているときに収音した音声のデータである。手話音声データは、時刻の情報と、その時刻における音声を表すデータとを含む。手話映像データの時刻の情報と手話音声データの時刻の情報とは同期している。

記憶部１０２は、各種データを記憶する。記憶部１０２は、手話映像データと、手話音声データと、タイミング付き映像データと、タイミング付き手話音声データと、検出条件データとを記憶する。タイミング付き映像データは、刺激の発生タイミングの情報が付与された手話映像データである。タイミング付き手話音声データは、刺激の発生タイミングの情報が付与された手話音声データである。検出条件データは、刺激の発生を検出する条件を示す。

入力部１０３は、キーボード、ポインティングデバイス（マウス、タブレット等）、ボタン、タッチパネル等の既存の入力装置を用いて構成される。入力部１０３は、各種指示を手話情報伝送装置１００に入力する際にユーザーによって操作される。入力部１０３は、入力装置を手話情報伝送装置１００に接続するためのインタフェースであってもよい。この場合、入力部１０３は、入力装置においてユーザーの入力に応じて生成された入力信号を手話情報伝送装置１００に入力する。

表示部１０４は、映像を表示する。例えば、表示部１０４は、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、ＣＲＴ（Cathode Ray Tube）ディスプレイ等の画像表示装置である。表示部１０４は、画像表示装置を手話情報伝送装置１００に接続するためのインタフェースであってもよい。この場合、表示部１０４は、映像を表示するための映像信号を生成し、手話情報伝送装置１００に接続されている画像表示装置に映像信号を出力する。

音声出力部１０５は、音声を出力する。音声出力部１０５は、例えばスピーカーなどの音声出力装置である。音声出力部１０５は、音声出力装置を手話情報伝送装置１００に接続するためのインタフェースであってもよい。この場合、音声出力部１０５は、音声を出力するための音声信号を生成し、手話情報伝送装置１００に接続されている音声出力装置に音声信号を出力する。

再生制御部１１１は、映像データを表示部１０４に表示し、音声データを音声出力部１０５から出力する。解析部１１２は、タイミング付き映像データ及びタイミング付き手話音声データから、刺激が発生したタイミングや、刺激が発生したタイミングの前後における１以上の種類の特徴量を取得する。解析部１１２は、刺激が発生したタイミングにおける特徴量、又は、刺激が発生したタイミングを含む時間区間における特徴量の変化を検出する。検出条件設定部１１３は、解析部１１２による検出結果に基づいて、刺激の発生を検出したと判断するための特徴量又は特徴量の変化を示す検出条件データを生成し、記憶部１０２に書き込む。検出条件設定部１１３は、映像配信者が入力部１０３により入力した情報に基づいて検出条件データの生成及び修正を行ってもよい。

検出部１１４は、配信対象の手話映像データ及び手話音声データから時系列の特徴量を取得し、取得した特徴量が検出条件データにより示される検出条件を満たすか否かを判定する。検出部１１４は、検出条件を満たすと判定した場合に、刺激の発生を検出する。検出部１１４は、配信対象の手話映像データ又は手話音声データにおいて検出条件を満たす特徴量が得られた時刻の情報を、刺激の発生タイミングとして取得する。配信データ生成部１１５は、検出部１１４が検出した刺激の発生タイミングを示すタイミングデータを生成する。修正部１１６は、入力部１０３により入力された手話映像配信者の指示に従って、タイミングデータを修正する。送信部１１７は、手話映像データと、手話音声データと、タイミングデータとを手話情報出力装置３００に送信する。送信部１１７は、手話映像データ、手話音声データ及びタイミングデータを放送又は通信のいずれかで伝送してもよく、手話映像データ及び手話音声データを放送により伝送し、タイミングデータを通信により伝送してもよい。本実施形態では、タイミングデータを、後述する図５に示す手話情報配信データに設定して送信する。手話情報配信データは、手話映像データ及び手話音声データとタイミングデータとの対応を示す。

図３は、手話情報出力装置３００の構成を示す機能ブロック図である。図３では、本実施形態と関係する機能ブロックのみを抽出して示してある。手話情報出力装置３００は、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ、テレビジョン受信機などである。手話情報出力装置３００は、受信部３０１と、記憶部３０２と、表示部３０３と、音声出力部３０４と、入力部３０５と、再生制御部３０６と、遅延付加部３０７と、出力制御部３０８と、出力デバイス３０９とを有する。手話情報出力装置３００は、異なる種類又は同じ種類の出力デバイス３０９を複数有してもよい。

受信部３０１は、手話映像データ及び手話音声データを受信する第一受信部の機能と、タイミングデータを受信する第二受信部の機能とを有する。受信部３０１は、手話映像データ及び手話音声データと、タイミングデータが設定された手話情報配信データとを手話情報伝送装置１００から受信し、記憶部３０２に書き込む。記憶部３０２は、各種データを記憶する。記憶部３０２は、手話映像データと、手話音声データと、手話情報配信データと、使用デバイス情報と、デバイス別刺激情報とを記憶する。使用デバイス情報は、手話情報出力装置３００が刺激の出力に用いる一以上の刺激出力デバイスの種類を示す。刺激出力デバイスの種類は、例えば、聴覚デバイス、触覚デバイス、発光デバイスなどである。デバイス別刺激情報は、刺激出力デバイス別の刺激情報を含む。刺激情報は、手話における手話映像以外の刺激の発生を表すために刺激出力デバイスから出力する刺激を示す。例えば、刺激情報は、聴覚デバイスから出力する音、触覚デバイスの振動パターン、発光デバイスの発光パターンなどを示す。

表示部３０３は、映像を表示する。例えば、表示部３０３は、液晶ディスプレイ、有機ＥＬディスプレイ、ＣＲＴディスプレイ等の画像表示装置である。表示部３０３は、画像表示装置を手話情報出力装置３００に接続するためのインタフェースであってもよい。この場合、表示部３０３は、映像を表示するための映像信号を生成し、手話情報出力装置３００に接続されている画像表示装置に映像信号を出力する。

音声出力部３０４は、音声を出力する。音声出力部３０４は、例えばスピーカーなどの音声出力装置（音声出力デバイス）である。音声出力部３０４は、音声出力装置を手話情報出力装置３００に接続するためのインタフェースであってもよい。この場合、音声出力部３０４は、音声を出力するための音声信号を生成し、手話情報出力装置３００に接続されている音声出力装置に音声信号を出力する。刺激を音声により出力する場合、音声出力部３０４は出力デバイス３０９を兼ねる。

入力部３０５は、タッチパネル、ボタン、キーボード、ポインティングデバイス（マウス、タブレット等）等の既存の入力装置を用いて構成される。入力部３０５は、各種指示を手話情報出力装置３００に入力する際にユーザーによって操作される。入力部３０５は、入力装置を手話情報出力装置３００に接続するためのインタフェースであってもよい。この場合、入力部３０５は、入力装置においてユーザーの入力に応じて生成された入力信号を手話情報出力装置３００に入力する。例えば、手話情報出力装置３００がテレビジョン受信機である場合、入力部３０５は、リモートコントローラに入力された指示を赤外線により受信してもよく、スマートフォンに入力された指示を無線により受信してもよい。

再生制御部３０６は、手話映像データを表示部３０３に表示し、手話音声データを音声出力部３０４から出力する。遅延付加部３０７は、再生制御部３０６が表示部３０３に表示する手話映像データ及び音声出力部３０４から出力する手話音声データに遅延を付加する。出力制御部３０８は、タイミングデータが示す刺激の出力タイミングに、使用デバイス情報が示す種類の出力デバイス３０９から刺激を出力するように制御する。出力デバイス３０９は、刺激出力デバイスである。出力デバイス３０９は、例えば、バイブレータなどの振動デバイスや、ランプなどの発光デバイスである。出力デバイス３０９が振動デバイスの場合、刺激は振動として出力される。出力デバイス３０９が発光デバイスの場合、刺激は光として出力される。音声出力部３０４を出力デバイス３０９として用いる場合、刺激は音声として出力される。

図４は、手話情報配信データの例を示す図である。手話情報配信データには、ＳＭＩＬ（Synchronized Multimedia Integration Language）などのマルチメディア記述用の言語が用いられる。手話情報配信データは、ＸＭＬ（extensible markup language）により記述されるタイミングデータを含む。手話情報伝送装置１００は、汎用的な言語により記述された手話情報配信データを手話情報出力装置３００に伝送することにより、手話映像データに同期させて刺激出力デバイスから刺激を出力させることが可能である。

手話情報配信データは、手話映像データの表示位置、手話映像データ名、手話映像再生タイミング、手話音声データ名、手話音声再生タイミング、及び、タイミングデータを含む。手話音声再生タイミングは、手話映像再生タイミングと同じ場合は省略されてもよい。タイミングデータは、刺激の種類と、刺激再生タイミングとを含む。本実施形態では、刺激の種類として、破裂音の種類が設定される。刺激の種類に代えて刺激情報名が設定されてもよい。刺激情報名は、刺激情報を特定する情報の一例である。さらに、刺激の種類に対応付けて、刺激の出力に用いる刺激出力デバイスの種類の情報が設定されてもよい。なお、刺激の種類によらず刺激出力デバイスから出力する刺激が同一の場合、刺激の種類及び刺激情報名の設定を省略可能である。刺激再生タイミングは、手話情報伝送装置１００が検出した刺激の発生タイミングに基づき設定されてもよく、手話映像配信者が手動で設定してもよい。

図５は、デバイス別刺激情報の例を示す図である。デバイス別刺激情報は、手話情報出力装置３００が有する刺激出力デバイスの種類別に刺激の種類と刺激情報とを対応づけた情報である。図５では、手話情報出力装置３００が、刺激出力デバイスとして、スピーカー、バイブレータ、及び、ランプを使用可能である場合を例に示している。本実施形態では、刺激の種類として、破裂音の種類が設定される。タイミングデータに刺激情報名が設定される場合、デバイス別刺激情報には、刺激の種類に代えて刺激情報名が設定される。刺激出力デバイスの種類がスピーカーなどの聴覚デバイスである場合、刺激情報は破裂音音声データである。破裂音音声データは、破裂音の音声又は破裂音の発生を表す音のデータである。刺激出力デバイスがバイブレータなどの触覚デバイスである場合、刺激情報は振動パターンデータである。振動パターンデータは、振動の開始及び停止のタイミングにより表される振動パターンと振動の周波数とのいずれか又は組み合わせを示す。刺激出力デバイスがランプなどの発光デバイスである場合、刺激情報は発光パターンデータである。発光パターンデータは、点灯及び消灯のタイミングにより表される点灯パターンと、点灯色とのいずれか又は組み合わせを示す。異なる刺激の種類に同一の刺激情報が対応付けられてもよい。手話情報出力装置３００が一種類の刺激出力デバイスのみを有する場合、記憶部３１２は、デバイス別刺激情報に代えて、刺激の種類別の刺激情報を記憶してもよい。

図６は、手話情報伝送装置１００による検出条件データ生成処理を示すフロー図である。手話映像配信者は、手話者の手話をカメラ２０１により撮影し、手話の音声をマイク２０２により収音する。カメラ２０１は、手話者が手話を行っているときの口元のみを撮影してもよい。データ入力部１０１は、カメラ２０１から入力した手話映像データ及びマイク２０２から入力した手話音声データと、入力部１０３により入力された手話者の識別情報とを対応づけて記憶部１０２に書き込む（ステップＳ１０５）。

複数の手話映像データ及び手話音声データが記憶部１０２に記憶された後、手話映像配信者は、入力部１０３により再生対象の手話映像データの選択を入力する。再生制御部１１１は、選択された手話映像データと、その手話映像データに対応した手話音声データとを記憶部１０２から読み出す。再生制御部１１１は、手話映像データを表示部１０４に表示し、手話音声データを音声出力部１０５に出力する（ステップＳ１１０）。このとき、再生制御部１１１は、同じ時刻の手話映像データの映像フレームの表示と手話音声データの音声の出力とを同期させる。

手話映像配信者は、手話映像データの映像や手話音声データの音声に基づいて破裂音の発声などの刺激の発生を検出すると、刺激の発生と発生した刺激の種類とを入力部１０３により入力する（ステップＳ１１５）。刺激の種類の入力が、刺激の発生の入力を兼ねてもよい。本実施形態では、刺激の種類として、「ぱ」「ぴ」「ぷ」「ぺ」「ぽ」などの破裂音の種類が入力される。再生制御部１１１は、刺激の発生が入力されたときに表示されていた映像フレームの時刻を刺激の発生タイミングとして取得する。さらに、再生制御部１１１は、手話映像データの表示及び手話音声データの出力を継続し、刺激の発生と刺激の種類との入力を受ける。

再生制御部１１１は、手話映像データを最後まで再生したか、手話情報配信者が入力部１０３により再生の終了が入力された場合、発生タイミングと刺激の種類とを対応付けた刺激発生情報を生成する。再生制御部１１１は、手話映像データに刺激発生情報を付加してタイミング付き手話映像データを生成し、手話音声データに刺激発生情報を付加してタイミング付き手話音声データを生成する（ステップＳ１２０）。再生制御部１１１は、タイミング付き手話映像データ及びタイミング付き手話音声データを対応づけて記憶部１０２に書き込む。

手話映像配信者がさらに入力部１０３により再生対象の手話映像データの選択を入力した場合（ステップＳ１２５：ＮＯ）、手話情報伝送装置１００は、ステップＳ１１０からの処理を繰り返す。なお、手話情報伝送装置１００は、ステップＳ１０５からの処理を繰り返してもよい。そして、手話映像配信者が入力部１０３により分析指示を入力した場合（ステップＳ１２５：ＹＥＳ）、解析部１１２は、タイミング付き手話映像データ及びタイミング付き手話音声データを記憶部１０２から読み出す。解析部１１２は、読み出したタイミング付き手話映像データが示す口元の映像のデータ及びタイミング付き手話音声データから時系列の複数種類の特徴量を取得する。解析部１１２は、同じ手話者の識別情報が付与されているタイミング付き手話映像データ及びタイミング付き手話音声データから取得した特徴量を刺激の種類毎に分析し、手話者別に刺激の発生を表す特徴量を刺激の種類毎に得る（ステップＳ１３０）。

破裂音の発生を表す特徴量の取得には、例えば、既存の任意の技術を用いることができる。例えば、タイミング付き手話映像データから取得した特徴量とタイミング付き手話音声データとから取得した特徴量とを組み合わせて用いる場合、参考文献２の技術を用いることができる。参考文献２では、特徴量として、タイミング付き手話映像データから得られる時系列の口の周辺の特徴点の座標や、タイミング付き手話音声データから得られるＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）が用いられる。また、タイミング付き手話音声データから取得した特徴量を用いる場合、参考文献３の技術を用いることができる。

（参考文献２）有木康雄ほか、「画像と音声情報を統合した発話認識」、情報処理、Vol52、No.1、２０１１年、p.87-94

（参考文献３）王国民ほか、「声門破裂音の音響特性評価」、インターネット<https://www.jstage.jst.go.jp/article/cleftpalate1976/16/1/16_37/_pdf>

また、タイミング付き手話音声データから取得される特徴量として、デシベルで表される音の大きさ、音の大きさの変化、周波数毎の音の大きさ、周波数毎の音の大きさの変化などを用いてもよい。なお、特徴量の種類はこれらに限定されない。破裂音の場合、無音又は小さな音から急激に大きな音が発生するため、音の大きさの変化が破裂音の発声の検出に使用されることが考えられる。そこで、解析部１１２は、手話者別に、音の大きさを特徴量に用い、時系列の特徴量において破裂音が発生したときの下限値を検出する。また、解析部１１２は、周波数ごとの音の大きさを特徴量に用いて、破裂音の種類毎に特徴量の下限値を検出する。

検出条件設定部１１３は、解析部１１２による検出結果に基づいて、手話者ごとに検出条件データを生成する。具体的には、手話映像配信者は、入力部１０３により特徴量の種類毎に係数の値を入力する。検出条件設定部１１３は、解析部１１２が検出した各特徴量の下限値に、その特徴量の種類について入力された係数の値を乗算して閾値とする。検出条件設定部１１３は、手話者の識別情報と、破裂音の種類と、その種類の破裂音について算出した各特徴量の閾値を示す検出条件とを対応づけて検出条件データを生成し、記憶部１０２に書き込む（ステップＳ１３５）。なお、検出条件設定部１１３は、解析部１１２が検出した特徴量をそのまま検出条件データとしてもよい。また、検出条件設定部１１３は、手話映像配信者が入力した特徴量の閾値を検出条件データとして設定してもよい。

手話映像配信者は、後述する図７に示す手話情報配信処理が行われた後に、検出条件データを書き替えてもよい。例えば、手話映像配信者は、変更対象の検出条件データを特定する情報と、変更後の係数の値とを入力部１０３により入力する。検出条件設定部１１３は、変更対象の検出条件データが示す閾値を、解析部１１２が検出した特徴量の下限値に変更後の係数の値を乗算して算出した新たな閾値に書き替える。あるいは、手話映像配信者は、変更対象の検出条件データを特定する情報と、変更後の特徴量の閾値とを入力部１０３により入力してもよい。検出条件設定部１１３は、変更対象の検出条件データが示す閾値を、入力された閾値に書き替える。

図７は、手話情報伝送装置１００による手話情報配信処理を示すフロー図である。手話映像配信者は、手話者の識別情報を入力部１０３により入力する。さらに、手話映像配信者は、手話者の手話をカメラ２０１により撮影し、手話の音声をマイク２０２により収音する。データ入力部１０１は、カメラ２０１から手話映像データを入力し、マイク２０２から手話音声データを入力する（ステップＳ２０５）。

検出部１１４は、ステップＳ２０５において入力された手話映像データ及び手話音声データから特徴量を取得する。検出部１１４は、取得した特徴量が、入力された手話者の識別情報により特定されるいずれかの検出条件データに記述された検出条件を満たすと判定した場合に、その検出条件データに対応づけられた種類の刺激が発生したことを検出する（ステップＳ２１０）。例えば、検出条件データに特徴量の閾値が記述されている場合、検出部１１４は、取得した特徴量が閾値を超えている場合に検出条件を満たしたと判定する。検出部１１４は、刺激の種類と、手話映像データ又は手話音声データにおいてその刺激の発生が検出された特徴量が得られた時刻を示す発生タイミングとを対応づけた情報を配信データ生成部１１５に出力する。

配信データ生成部１１５は、検出部１１４から刺激の種類及び発生タイミングの情報を受信すると、手話情報配信データを生成する（ステップＳ２１５）。まず、配信データ生成部１１５は、手話映像データ表示位置と、ステップＳ２０５において入力された手話映像データから生成された配信用の手話映像データのデータ名と、手話映像再生タイミングと、ステップＳ２０５において入力された手話音声データから生成された配信用の手話音声データ名と、手話音声再生タイミングとを手話情報配信データに設定する。手話映像データ表示位置、手話映像再生タイミング、手話音声再生タイミングは、例えば、入力部１０３により手話映像配信者が予め入力した情報に基づき設定される。手話音声再生タイミングは、所定の映像フレームを基準とした相対時刻でもよく、ＵＴＣにより表される提示時刻でもよい。なお、手話映像再生タイミング及び手話音声再生タイミングは、手話映像データの映像フレームと手話音声データの音声とが同期して出力されるように設定される。

配信データ生成部１１５は、さらに、検出部１１４から受信した刺激の種類と、検出部１１４から受信した発生タイミングを示す刺激再生タイミングとを対応づけた情報を含むタイミングデータを手話情報配信データに設定する。検出部１１４が刺激の検出に用いた手話映像データに設定されている時刻の情報と、配信用の手話映像データに設定されている時刻の情報とが異なる場合、配信データ生成部１１５は、検出部１１４が検出した発生タイミングを、配信用の手話映像データの再生時における時刻の情報に変換して、刺激再生タイミングに設定する。例えば、ステップＳ２０５において入力した手話映像データの時刻の情報にＵＴＣが使用されており、最初の映像フレームが時刻ａ、発生タイミングが時刻ｂであるとする。配信用の手話映像データの時刻の情報に先頭の映像フレームを０とした相対時刻が用いられる場合、配信データ生成部１１５は、刺激再生タイミングに時刻（ｂ－ａ）を設定する。また、手話映像再生タイミングにＵＴＣの時刻ｃが設定される場合、配信データ生成部１１５は、刺激再生タイミングに時刻（ｃ＋ｂ－ａ）を設定してもよい。また、配信データ生成部１１５は、刺激の種類の情報に代えて、刺激情報名をタイミングデータに設定してもよく、刺激の種類に応じた刺激出力デバイスの種類の情報をさらにタイミングデータに設定してもよい。この場合、刺激の種類に応じた刺激情報名や刺激出力デバイスの種類の情報を予め記憶部１０２に記憶しておく。

再生制御部１１１は、手話情報配信データに記述されている手話映像データ名の手話映像データと再生中の映像フレームの時刻の情報とを表示部１０４に表示し、手話情報配信データに記述されている手話音声データ名の手話音声データを音声出力部１０５から出力する。さらに、修正部１１６は、手話情報配信データに含まれるタイミングデータを表示部１０４に表示する（ステップＳ２２０）。手話映像配信者は、必要に応じて、タイミングデータの修正指示を入力部１０３により入力する。修正部１１６は、入力された修正指示に従って、タイミングデータを書き替える（ステップＳ２２５）。送信部１１７は、手話映像データと、手話音声データと、手話情報配信データとを、手話情報出力装置３００に送信する（ステップＳ２３０）。

なお、手話映像配信者がタイミングデータを全て手動で設定してもよい。その場合、手話情報伝送装置１００は、図６の処理、及び、図７のステップＳ２１０の処理を行わなくてもよい。ステップＳ２１５において、配信データ生成部１１５は、タイミングデータを除いて手話情報配信データを生成する。ステップＳ２２０において、手話映像配信者は、タイミングデータを入力部１０３により入力し、修正部１１６は、入力されたタイミングデータを手話情報配信データに設定する。

図８は、手話情報出力装置３００による手話情報出力処理を示すフロー図である。手話情報出力装置３００の受信部３０１は、手話情報伝送装置１００から送信された手話映像データ、手話音声データ及び手話情報配信データを受信し、記憶部３０２に書き込む（ステップＳ３０５）。再生制御部３０６は、手話情報配信データに基づいて、手話映像再生時刻に、手話映像データ名により特定される手話映像データが映像表示位置に表示されるように映像フレームの出力を開始し、手話音声生時刻に、手話音声データ名により特定される手話音声データの出力を開始する。遅延付加部３０７は、所定時間だけ遅らせて、再生制御部３０６が出力した映像フレームを表示部３０３に表示させ、再生制御部３０６が出力した手話音声データを音声出力部３０４から出力させる（ステップＳ３１０）。

出力制御部３０８は、タイミングデータに記述された刺激再生タイミングとなったことを検出する（ステップＳ３１５）。出力制御部３０８は、検出された刺激再生タイミングに対応した刺激の種類又は刺激情報名をタイミングデータから読み出す。出力制御部３０８は、デバイス別刺激情報から、記憶部３０２に記憶されている使用デバイス情報が示す刺激出力デバイスの種類と、読み出した刺激の種類又は刺激情報名とに対応した刺激情報を読み出す。なお、タイミングデータに刺激再生タイミングと対応づけて刺激出力デバイスの種類が設定されている場合、出力制御部３０８は、タイミングデータに設定されている刺激出力デバイスの種類と、記憶部３０２に記憶されている使用デバイス情報が示す刺激出力デバイスの種類とが一致する場合に、刺激情報を読み出す。出力制御部３０８は、使用デバイス情報が示す種類の刺激出力デバイスである音声出力部３０４、又は、出力デバイス３０９から、その刺激出力デバイスの種類について読み出した刺激情報に基づく刺激を出力する（ステップＳ３２０）。

再生制御部３０６は、手話映像データの再生が終了したか否かを判定する（ステップＳ３２５）。再生制御部３０６が、終了していないと判定した場合（ステップＳ３２５：ＮＯ）、手話情報出力装置３００は、ステップＳ３１５からの処理を繰り返す。再生制御部３０６が、終了したと判定した場合（ステップＳ３２５：ＹＥＳ）、手話情報出力装置３００は、図８の処理を終了する。

なお、手話情報出力装置３００は、視聴者が入力部３０５により入力した情報に基づいて記憶部３０２に記憶されている使用デバイス情報を書き替えてもよい。また、手話情報出力装置３００は、視聴者が入力部３０５により入力した情報に基づいて、刺激情報を書き替えてもよい。また、手話情報出力装置３００は、視聴者が入力部３０５により入力した情報に基づいて、デバイス別刺激情報に設定されている刺激情報を、予め用意された他の刺激情報と入れ替えてもよい。

なお、手話情報伝送装置１００が検出部１１４及び修正部１１６を有さず、手話情報出力装置３００が検出部１１４を有してもよい。この場合、予め、手話情報伝送装置１００の送信部１１７は、手話者に応じた刺激の種類毎の検出条件データを手話情報出力装置３００に送信し、手話情報出力装置３００は、受信した検出条件データを記憶部３０２に記憶しておく。配信データ生成部１１５は、手話映像データと、手話音声データと、タイミングデータを除いた手話情報配信データとを手話情報出力装置３００に配信する。手話情報出力装置３００の検出部１１４は、手話情報伝送装置１００から受信した手話映像データ及び手話音声データから特徴量を取得し、取得した特徴量がいずれかの検出条件データに記述された検出条件を満たすと判定した場合に、その検出条件データに対応づけられた種類の刺激が発生したことを検出する。検出部１１４は、刺激の種類と、手話映像データ又は手話音声データにおいてその刺激の発生が検出された特徴量が得られた時刻を示す刺激再生タイミングとを対応づけたタイミングデータを生成し、記憶部３０２に書き込む。出力制御部３０８は、検出部１１４が生成したタイミングデータを用いて、上記と同様の処理を行う。また、手話情報出力装置３００は、検出条件設定部１１３をさらに備えてもよい。検出条件設定部１１３は、記憶部３０２に記憶される検出条件データが示す検出条件を、視聴者が入力部３０５により入力した係数又は閾値に基づいて書き替える。

上述のように、手話情報出力装置３００は、手話映像データ及び手話音声データに遅延を加えて出力することで、手話の映像及び音声の出力と、刺激の出力とを同期させる。これは、映像と、振動などの刺激とを比較すると、通常は映像の方が早く再生されてしまうことが考えられるためである。遅延付加部３０７が、手話映像データ及び手話音声データに遅延を加えて出力することで、元の手話における刺激の出力タイミングをできるだけ忠実に再現できる。なお、手話情報出力装置３００は、遅延時間や、遅延付加部３０７を機能させるか否かの制御情報を手話情報伝送装置１００から受信してもよく、視聴者が入力部３０５により入力してもよい。

［第２の実施形態］
第１の実施形態では、手話映像データとして実写の映像を用いていた。第２の実施形態では、手話映像データとしてＣＧ映像を用いる。第２の実施形態を、第１の実施形態との差分を中心に説明する。

本実施形態の手話情報伝送装置の構成は、図２に示す第１の実施形態の手話情報伝送装置１００と同様である。ただし、データ入力部１０１は、図６のステップＳ１０５及び図７のステップＳ２０５において、ＣＧの手話映像データと、その手話映像データと同期して出力される手話音声データとを入力する。入力は、手話情報伝送装置１００と接続されている他の装置からの受信でもよく、記録媒体からの読み出しでもよい。手話映像データが手話ＣＧの場合、手話映像データは、モーションデータにより記述される。モーションデータは一般的に全身の関節の回転角で表されるＢＶＨ（Biovision Hierarchy）フォーマットで記録される。そこで、解析部１１２がタイミング付き手話映像データから取得する特徴量及び検出部１１４が手話映像データから取得する特徴量として、頭部の顔表情を生成するためのモーションデータが示す回転角を用いる。これらの点を除き、手話情報伝送装置１００は、第１の実施形態と同様に動作する。また、手話情報出力装置３００の構成及び動作は、第１の実施形態と同様である。

［第３の実施形態］
第３の実施形態では、手話映像データ及び手話音声データを出力する装置と、刺激を出力する装置とを異なる装置とする。

図９は、手話情報出力装置３００ａの構成を示す機能ブロック図である。図９においては、本実施形態と関係する機能ブロックのみを抽出して示してある。手話情報伝送システム１は、一部又は全ての手話情報出力装置３００に代えて、図９に示す手話情報出力装置３００ａを備えてもよい。手話情報出力装置３００ａは、手話映像出力装置３１０及び刺激出力装置３２０を備える。例えば、手話映像出力装置３１０はテレビジョン受信機やパーソナルコンピュータであり、刺激出力装置３２０はスマートフォンやタブレット端末、刺激出力用の専用装置である。手話映像出力装置３１０及び刺激出力装置３２０とは、時刻の同期がとれている。手話情報伝送装置１００の送信部１１７は、手話映像データ及び手話音声データと、手話情報配信データを放送又は通信により手話映像出力装置３１０に送信し、タイミングデータを通信により刺激出力装置３２０に送信する。手話情報配信データには、タイミングデータが設定されていなくてもよい。手話情報伝送装置１００の送信部１１７は、タイミングデータを設定した手話情報配信データを刺激出力装置３２０に送信してもよい。手話情報配信データに設定する手話映像再生タイミングと、タイミングデータに設定される刺激再生タイミングとには、例えば、ＵＴＣの時刻が用いられる。

手話映像出力装置３１０は、受信部３１１と、記憶部３１２と、表示部３１３と、音声出力部３１４と、入力部３１５と、再生制御部３１６と、遅延付加部３１７と、通信部３１８とを有する。受信部３１１、表示部３１３、音声出力部３１４、入力部３１５及び遅延付加部３１７はそれぞれ、図３に示す第１の実施形態の手話情報出力装置３００が有する受信部３０１、表示部３０３、音声出力部３０４、入力部３０５及び遅延付加部３１７と同様の機能を有する。記憶部３１２は、手話映像データ、手話音声データ及び手話情報配信データを記憶する。再生制御部３１６は、図３に示す第１の実施形態の再生制御部３０６と同様の機能に加え、手話映像データの再生の開始及び終了を刺激出力装置３２０に通知する機能を有する。通信部３１８は、無線又は有線により刺激出力装置３４０と通信する。

刺激出力装置３２０は、受信部３２１と、記憶部３２２と、通信部３２３と、出力制御部３２４と、出力デバイス３２５と、入力部３２６とを有する。出力制御部３２４及び入力部３２６は、それぞれ、図３に示す第１の実施形態の手話情報出力装置３００が有する出力制御部３０８及び入力部３０５と同様の機能を有する。受信部３２１は、手話情報伝送装置１００からタイミングデータを受信し、記憶部３２２に書き込む。記憶部３２２は、タイミングデータと、デバイス別刺激情報と、使用デバイス情報とを記憶する。使用デバイスが一つである場合、記憶部３２２は、デバイス別刺激情報に代えて、刺激の種類又は刺激情報名と対応付けられた刺激情報を記憶してもよい。通信部３２３は、無線又は有線により手話映像出力装置３１０と通信する。出力デバイス３２５は、音声出力デバイス、振動デバイス又は発光デバイスである。発光デバイスは、異なる種類又は同じ種類の出力デバイス３２５を複数備えてもよい。

図１０は、手話情報出力装置３００ａによる手話情報出力処理を示すフロー図である。手話映像出力装置３１０の受信部３１１は、手話情報伝送装置１００から送信された手話映像データ、手話音声データ及び手話情報配信データを受信し、記憶部３１２に書き込む。刺激出力装置３２０の受信部３２１は、手話情報伝送装置１００から送信されたタイミングデータを記憶部３２２に書き込む（ステップＳ４０５）。手話映像出力装置３１０の再生制御部３１６は、手話情報配信データが示す手話映像再生時刻に、手話映像データの再生開始を刺激出力装置３２０に通知する（ステップＳ４１０）。再生制御部３１６は、手話情報配信データに基づいて、手話映像再生時刻に、手話映像データ名により特定される手話映像データが映像表示位置に表示されるように映像フレームの出力を開始し、手話音声生時刻に、手話音声データ名により特定される手話音声データの出力を開始する。遅延付加部３１７は、所定時間だけ遅らせて、再生制御部３１６が出力した映像フレームを表示部３１３に表示させ、再生制御部３１６が出力した手話音声データを音声出力部３１４から出力させる（ステップＳ４１５）。

刺激出力装置３２０の出力制御部３２４は、手話映像データの再生開始の通知を受信した後、タイミングデータに記述された刺激再生タイミングとなったことを検出する（ステップＳ４２０）。出力制御部３２４は、図８における出力制御部３０８と同様の処理を行い、出力デバイス３２５から刺激情報に基づく刺激を出力する（ステップＳ４２５）。

手話映像出力装置３１０の再生制御部３１６は、手話映像データの再生が終了したか否かを判定する（ステップＳ４３０）。再生制御部３１６が、終了していないと判定した場合（ステップＳ４３０：ＮＯ）、手話映像出力装置３１０及び刺激出力装置３２０は、ステップＳ４２０からの処理を繰り返す。再生制御部３１６は、終了したと判定した場合（ステップＳ４３０：ＹＥＳ）、手話映像データの再生終了を刺激出力装置３２０に通知する（ステップＳ４３５）。手話映像出力装置３１０及び刺激出力装置３２０は、図１０の処理を終了する。

なお、刺激出力装置３２０は、受信部３２１を有さなくてもよい。この場合、手話映像出力装置３１０は、手話情報伝送装置１００から受信した手話情報配信データ又はタイミングデータを通信部３１８から刺激出力装置３２０に送信する。刺激出力装置３２０の記憶部３２２は、通信部３２３が受信した手話情報配信データ又はタイミングデータを記憶する。また、伝送網５００と手話映像出力装置３１０及び刺激出力装置３２０との間に受信装置を備えてもよい。受信装置は、例えば、視聴者宅に設定される。受信装置は、手話情報伝送装置１００から手話映像データ、手話音声データ及び手話情報配信データを受信し、手話映像データ、手話音声データ及び手話情報配信データを手話映像出力装置３１０に送信し、手話情報配信データ又は手話情報配信データ内のタイミングデータを刺激出力装置３２０に送信する。

上述の手話情報出力装置３００ａでは、刺激出力デバイスを備える装置が刺激の出力を制御しているが、手話映像データを表示する装置が刺激の出力を制御してもよい。

図１１は、手話情報出力装置３００ｂの構成を示すブロック図である。手話情報伝送システム１は、一部又は全ての手話情報出力装置３００に代えて、図１１に示す手話情報出力装置３００ｂを備えてもよい。同図において、図９に示す手話情報出力装置３００ａと同一の部分には同一の符号を付し、その説明を省略する。手話情報出力装置３００ｂは、手話映像出力装置３３０及び刺激出力装置３４０を備える。

手話映像出力装置３３０が、図９に示す手話映像出力装置３１０と異なる点は、記憶部３１２に代えて記憶部３３１を備える点と、出力制御部３３２をさらに備える点である。記憶部３３１は、図３に示す手話情報出力装置３００の記憶部３０２と同様に、手話情報伝送装置１００から送信された手話映像データ、手話音声データ、手話情報配信データと、使用デバイス情報と、デバイス別刺激情報とを記憶する。出力制御部３３２は、第１の実施形態の手話情報出力装置３００が備える出力制御部３０８と同様の処理を行う。ただし、出力制御部３３２は、刺激情報が示す刺激の出力を指示する刺激出力指示を通信部３１８から刺激出力装置３４０に送信する。

刺激出力装置３４０は、通信部３２３と、出力制御部３４１と、出力デバイス３２５とを有する。刺激出力装置３４０は、異なる種類又は同じ種類の出力デバイス３２５を複数備えてもよい。出力制御部３４１は、手話映像出力装置３３０から受信した刺激出力指示に従って出力デバイス３２５から刺激を出力するよう制御する。出力制御部３４１は、刺激出力指示を受信し、リアルタイムに出力デバイス３２５から刺激情報を出力するよう制御するため、手話映像出力装置３３０と刺激出力装置３４０の時刻は同期していなくてもよい。

手話情報伝送装置１００は、第１の実施形態と同様に動作する。手話情報出力装置３００ｂは、ステップＳ３２０の処理を除き、図８に示す第１の実施形態の手話情報出力処理と同様の処理を行う。すなわち、ステップＳ３０５～Ｓ３１５において、手話映像出力装置３３０の受信部３１１、再生制御部３１６、遅延付加部３１７、及び、出力制御部３３２は、手話情報出力装置３００の受信部３０１、再生制御部３０６、遅延付加部３０７、及び、出力制御部３０８と同様の処理を行う。ステップＳ３１５において、出力制御部３３２は、タイミングデータに記述された刺激再生タイミングとなったことを検出する。

ステップＳ３２０において、出力制御部３３２は、第１の実施形態の出力制御部３０８と同様の処理を行い、デバイス別刺激情報から、使用デバイス情報が示す刺激出力デバイスの種類と、タイミングデータから読み出した刺激の種類又は刺激情報名とに対応した刺激情報を読み出す。出力制御部３３２は、使用デバイス情報が示す種類の刺激出力デバイスである出力デバイス３２５から、その刺激出力デバイスの種類について読み出した刺激情報に基づく刺激を出力するよう指示する刺激出力指示を刺激出力装置３４０に送信する。刺激出力装置３４０の出力制御部３４１は、手話映像出力装置３３０から受信した刺激出力指示の指示に従って、出力デバイス３２５から刺激を出力する。

ステップＳ３２５おいて、手話映像出力装置３３０の再生制御部３１６は、手話映像データの再生が終了していないと判定した場合、ステップＳ３１５からの処理を繰り返し、終了したと判定した場合、図８の処理を終了する。

なお、手話映像出力装置３３０の出力制御部３３２は、刺激の種類又は刺激情報名を設定した刺激出力指示を送信してもよい。この場合、刺激出力装置３４０の出力制御部３３２は、刺激の種類又は刺激情報名に対応した刺激情報を予め記憶しておく。出力制御部３３２は、刺激出力指示に設定されている刺激の種類又は刺激情報名に対応した刺激情報に基づいて、出力デバイス３２５から刺激を出力する。

上記実施形態によれば、例えば、刺激出力装置３２０、３４０を、振動を再現する専用機とし、振動の周波数を変えることによりパ・ピ・プ・ペ・ポの違いをつけて出力することができる。よって、視聴者の手話の理解度の向上を図ることが可能となる。

また、手話情報出力装置３００、刺激出力装置３２０、３４０として、例えば、一般に使用されているスマートフォンを用い、スマートフォンのバイブレータ、スピーカー、ランプによって刺激を出力することができる。この場合、破裂音の種類などの刺激の種類によらず、同一の刺激を出力してもよい。スマートフォンは、専用のアプリケーションによって指示されたタイミングで振動する。手話情報出力装置３００がスマートフォンである場合、専用のアプリケーションは、再生制御部３０６、遅延付加部３０７及び出力制御部３０８の機能を実現する。また、刺激出力装置３２０、３４０がスマートフォンである場合、手話映像出力装置３１０、３３０と無線ＬＡＮあるいはBluetoothなどの通信手段によって同期を行ってもよい。またあるいは、手話映像出力装置３１０、３３０がスマートフォンである場合、刺激出力装置３２０、３４０と無線ＬＡＮあるいはBluetoothなどの通信手段によって同期を行ってもよい。

本実施形態によれば、手話情報伝送システム１は、手話の映像と刺激の出力とを組み合わせ、伝わりやすい手話を再現可能である。

上述した実施形態における手話情報伝送装置１００、手話情報出力装置３００、手話映像出力装置３１０、３３０及び刺激出力装置３２０、３４０の少なくとも一部の機能をコンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。また、これらの機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、手話情報伝送装置１００を、ネットワークに接続される複数のコンピュータ装置により実現してもよい。この場合、手話情報伝送装置１００の各機能部を、これら複数のコンピュータ装置のいずれにより実現するかは任意とすることができる。また、手話情報伝送装置１００の同一の機能部を複数のコンピュータ装置により実現してもよい。

図１２は、上述した手話情報伝送装置１００の各装置のハードウェア構成を示す図である。手話情報伝送装置１００は、プロセッサ７０１と、記憶部７０２と、通信インタフェース７０３と、ユーザインタフェース７０４とを備える。プロセッサ７０１は、演算や制御を行う中央演算装置である。プロセッサ７０１は、例えば、ＣＰＵ（central processing unit）である。プロセッサ７０１は、記憶部７０２からプログラムを読み出して実行する。記憶部７０２は、さらに、プロセッサ７０１が各種プログラムを実行する際のワークエリアなどを有する。記憶部１０２は、記憶部７０２により実現される。通信インタフェース７０３は、他装置と通信可能に接続するものである。データ入力部１０１及び送信部１１７は、通信インタフェース７０３により実現される。ユーザインタフェース７０４は、ボタン、キーボード、ポインティングデバイスなどの入力装置や、ランプ、ディスプレイなどの表示装置である。また、ユーザインタフェース７０４により、人為的な操作が入力される。入力部１０３、表示部１０４及び音声出力部１０５は、ユーザインタフェース７０４により実現される。

再生制御部１１１、解析部１１２、検出条件設定部１１３、検出部１１４、配信データ生成部１１５、修正部１１６及び送信部１１７の機能の全て又は一部は、プロセッサ７０１が記憶部７０２からプログラムを読み出して実行することより実現される。なお、これらの機能の全て又は一部は、ＡＳＩＣやＰＬＤ等のハードウェアを用いて実現されてもよい。

手話情報出力装置３００のハードウェア構成も図１２と同様である。受信部３０１は、通信インタフェース７０３により実現される。記憶部３０２は、記憶部７０２により実現される。表示部３０３、音声出力部３０４、入力部３０５及び出力デバイス３０９は、ユーザインタフェース７０４により実現される。再生制御部３０６、遅延付加部３０７及び出力制御部３０８の機能の全て又は一部は、プロセッサ７０１が記憶部７０２からプログラムを読み出して実行することより実現される。なお、これらの機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されてもよい。

手話映像出力装置３１０、３３０及び刺激出力装置３２０、３４０のハードウェア構成も図１２と同様である。

上述した実施形態によれば、手話情報伝送システムは、手話情報伝送装置と、手話情報出力装置とを有する。手話情報伝送装置は、送信部を備える。送信部は、手話の映像データと、映像データが示す手話において所定の種類の聴覚又は触覚の刺激が発生したタイミングを示すタイミングデータとを送信する。手話情報伝送装置は、さらに検出部を備えてもよい。検出部は、手話の映像データから得られる特徴量と手話の音声データから得られる特徴量との一方又は両方に基づいて、手話において所定の種類の聴覚又は触覚の刺激が発生したタイミングを検出する。送信部は、映像データと、検出部が検出したタイミングとを示すタイミングデータを送信する。

手話情報出力装置は、第一受信部と、第二受信部と、再生制御部と、出力制御部とを備える。第一受信部は、手話情報伝送装置から映像データを受信する。第二受信部は、手話情報伝送装置からタイミングデータを受信する。再生制御部は、映像データを再生する。再生制御部と、出力制御部は、タイミングデータが示すタイミングにおいて、振動、光又は音の刺激を出力するようデバイスを制御する。

所定の種類の刺激は、例えば、破裂音の発声である。手話情報伝送装置の検出部は、破裂音が発声されたタイミングと、破裂音の種類とを検出する。送信部は、検出部が検出したタイミングと、破裂音の種類とを示すタイミングデータを送信する。手話情報出力装置の出力制御部は、タイミングデータが示すタイミングにおいて、破裂音の種類に応じた振動、光又は音の刺激を出力するようデバイスを制御する。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１手話情報伝送システム
１００手話情報伝送装置
１０１データ入力部
１０２、３０２、３１２、３２２、３３１、７０２記憶部
１０３、３０５、３１５、３２６入力部
１０４、３０３、３１３表示部
１０５、３０４、３１４音声出力部
１１１、３０６、３１６再生制御部
１１２解析部
１１３検出条件設定部
１１４検出部
１１５配信データ生成部
１１６修正部
１１７送信部
２０１カメラ
２０２マイク
３００、３００ａ、３００ｂ手話情報出力装置
３０１、３１１、３２１受信部
３０７、３１７遅延付加部
３０８、３２４、３３２、３４１出力制御部
３０９、３２５出力デバイス
３１０、３３０手話映像出力装置
３１８、３２３通信部
３２０、３４０刺激出力装置
５００伝送網
７０１プロセッサ
７０３通信インタフェース
７０４ユーザインタフェース

Claims

手話の映像データから得られる特徴量と前記手話の音声データから得られる特徴量との一方又は両方に基づいて、前記映像データが示す前記手話において所定の種類の聴覚又は触覚の刺激が発生したタイミングを検出する検出部と、
前記映像データと、前記検出部が検出したタイミングとを示すタイミングデータを送信する送信部と、
を備える手話情報伝送装置。
所定の種類の前記刺激は、破裂音の発声であり、
前記検出部は、破裂音が発声されたタイミングと、前記破裂音の種類とを検出し、
前記送信部は、前記検出部が検出した前記タイミングと、前記破裂音の種類とを示す前記タイミングデータを送信する、
請求項１に記載の手話情報伝送装置。
手話の映像データを受信する第一受信部と、
前記映像データが示す前記手話において所定の種類の聴覚又は触覚の刺激が発生したタイミングを示すタイミングデータを受信する第二受信部と、
前記映像データを再生する再生制御部と、
前記タイミングデータが示す前記タイミングにおいて、振動、光又は音の刺激を出力するようデバイスを制御する出力制御部と、
を備える手話情報出力装置。
前記刺激は、破裂音の発声であり、
前記タイミングデータは、破裂音が発声されたタイミングと、前記破裂音の種類の情報とを含み、
前記出力制御部は、前記タイミングにおいて前記破裂音の種類に応じた振動、光又は音の刺激を出力するよう前記デバイスを制御する、
請求項３に記載の手話情報出力装置。
手話情報伝送装置と手話情報出力装置とを有する手話情報伝送システムであって、
前記手話情報伝送装置は、
手話の映像データと、前記映像データが示す前記手話において所定の種類の聴覚又は触覚の刺激が発生したタイミングを示すタイミングデータとを送信する送信部を備え、
前記手話情報出力装置は、
前記映像データを受信する第一受信部と、
前記タイミングデータを受信する第二受信部と、
前記映像データを再生する再生制御部と、
前記タイミングデータが示す前記タイミングにおいて、振動、光又は音の刺激を出力するようデバイスを制御する出力制御部とを備える、
手話情報伝送システム。
コンピュータを、
請求項１又は請求項２に記載の手話情報伝送装置として機能させるためのプログラム。
コンピュータを、
請求項３又は請求項４に記載の手話情報出力装置として機能させるためのプログラム。