JP7072390B2 - Sign language translator and program - Google Patents
Sign language translator and program Download PDFInfo
- Publication number
- JP7072390B2 JP7072390B2 JP2018007445A JP2018007445A JP7072390B2 JP 7072390 B2 JP7072390 B2 JP 7072390B2 JP 2018007445 A JP2018007445 A JP 2018007445A JP 2018007445 A JP2018007445 A JP 2018007445A JP 7072390 B2 JP7072390 B2 JP 7072390B2
- Authority
- JP
- Japan
- Prior art keywords
- sign language
- length
- motion data
- voice
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、手話翻訳装置及びプログラムに関する。 The present invention relates to a sign language translator and a program.
手話のCG(Computer Graphics)アニメーション生成においては、日本語などの音声言語から手話言語へリアルタイム翻訳する手法が用いられている。この手法として、日本語と手話の対訳データであるコーパスを利用した機械翻訳などを用いるものがある(例えば、特許文献1、2参照)。
In sign language CG (Computer Graphics) animation generation, a method of real-time translation from a voice language such as Japanese to a sign language language is used. As this method, there is a method using machine translation using a corpus, which is bilingual data of Japanese and sign language (see, for example,
現在、手話のCGアニメーションを生成するためには、まず上述した翻訳手法を用いて翻訳結果となる手話単語列を出力する。次に、手話単語列の各単語に対応する手話のモーションデータを読み込み、文章単位でそれらモーションデータを合成したものをCGモデルで再生する手法が一般的である。 Currently, in order to generate a sign language CG animation, first, a sign language word string that is a translation result is output using the above-mentioned translation method. Next, a method of reading the sign language motion data corresponding to each word in the sign language word string, synthesizing the motion data for each sentence, and reproducing it with a CG model is common.
音声言語と手話言語では同じ語彙を表す単語であっても発話長が異なることから、アニメーションとして生成された手話と元の音声の長さを完全に一致させることは困難である。さらに、視覚言語であり複雑な身体動作を伴う手話言語の方が、聴覚言語である音声言語に比べ発話長が長くなる場合が多々ある。そのため、テキスト化された音声を手話へリアルタイムに翻訳した場合に、元となる音声から手話を提示するまでに遅延が生じ、発話が重なるにつれその遅延が蓄積される。例えば、テレビ番組に対して、番組音声からリアルタイム翻訳した手話CGアニメーションを付与する場合、メインとなるテレビ番組と音声情報を補間しているはずの手話との間に遅延が生じ、視聴するユーザにとっては大きな負担となる。 It is difficult to completely match the length of the sign language generated as an animation with the length of the original voice because the utterance lengths of words representing the same vocabulary are different between the voice language and the sign language language. Furthermore, sign language, which is a visual language and involves complicated physical movements, often has a longer utterance length than speech language, which is an auditory language. Therefore, when the textualized voice is translated into sign language in real time, there is a delay from the original voice to the presentation of the sign language, and the delay is accumulated as the utterances overlap. For example, when a sign language CG animation that is real-time translated from a program sound is given to a TV program, a delay occurs between the main TV program and the sign language that should be interpolating the sound information, and the user who watches the program Is a big burden.
本発明は、このような事情を考慮してなされたもので、音声からの遅延を低減した手話翻訳を行うことができる手話翻訳装置及びプログラムを提供する。 The present invention has been made in consideration of such circumstances, and provides a sign language translation device and a program capable of performing sign language translation with reduced delay from speech.
本発明の一態様は、発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する手話翻訳部と、前記発話内容の音声の長さである音声発話長と、前記手話翻訳情報に含まれる前記モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部と、前記手話発話長が前記音声発話長に近くなるように、前記手話翻訳情報に含まれる前記モーションデータの一部のフレームを削除するデータ編集部と、を備えることを特徴とする手話翻訳装置である。 One aspect of the present invention is a sign language translation unit that converts the text of the utterance content into sign language translation information in which motion data indicating the movement of the sign language representing the sign language word is arranged for each frame, and the length of the voice of the utterance content. A speech length acquisition unit that acquires a certain voice speech length and a sign language speech length that is the sum of the reproduction times of the motion data included in the sign language translation information, and a sign language speech length so as to be close to the voice speech length. The sign language translation device is characterized by comprising a data editing unit for deleting a part of frames of the motion data included in the sign language translation information.
本発明の一態様は、上述する手話翻訳装置であって、前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータのそれぞれから前記フレームを削除する。 One aspect of the present invention is the sign language translation device described above, and the data editing unit deletes the frame from each of the plurality of motion data included in the sign language translation information.
本発明の一態様は、上述する手話翻訳装置であって、前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、複数の前記モーションデータのそれぞれから対応する前記手話単語の重要度に基づいた割合の前記フレームを削除する。 One aspect of the present invention is the sign language translation device described above, wherein the data editing unit acquires the importance of the sign language word represented by each of the plurality of motion data included in the sign language translation information, and the plurality of the above. The frame of the ratio based on the importance of the corresponding sign language word is deleted from each of the motion data.
本発明の一態様は、上述する手話翻訳装置であって、前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、取得した重要度に基づいて前記手話翻訳情報に含まれる複数の前記モーションデータから前記手話単語の単位で前記フレームを削除する。 One aspect of the present invention is the sign language translation device described above, and the data editing unit acquires and acquires the importance of the sign language word represented by each of the plurality of motion data included in the sign language translation information. The frame is deleted in units of the sign language words from the plurality of motion data included in the sign language translation information based on the degree.
本発明の一態様は、コンピュータを、上述したいずれかの手話翻訳装置として機能させるためのプログラムである。 One aspect of the present invention is a program for making a computer function as any of the above-mentioned sign language translators.
本発明によれば、音声からの遅延を低減した手話翻訳を行うことができる。 According to the present invention, sign language translation with reduced delay from speech can be performed.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
コンピュータグラフィックス(CG)アニメーションで利用するリアルタイム手話翻訳技術は、様々な分野において広く使用される可能性を持つ技術である。一般的なCGアニメーション向けの手話翻訳では、入力情報となるテキスト化した日本語などの音声言語を単純に全て手話言語へ翻訳する。本実施形態において、手話言語とは、手話の動き(モーション)を表すデータである。手話言語は、例えば、映像フレーム毎の体の各部の位置を三次元座標などで表すモーションデータでもよく、実際に人が手話の動きを行っている映像データでもよい。以下では、手話言語に、手話のCGに変換可能なモーションデータを用いる場合を例に説明する。以下では、モーションデータを構成する各フレームを、「モーションフレーム」と記載する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
The real-time sign language translation technique used in computer graphics (CG) animation is a technique that has the potential to be widely used in various fields. In general sign language translation for CG animation, all voice languages such as Japanese, which is textualized as input information, are simply translated into sign language. In the present embodiment, the sign language language is data representing the movement (motion) of sign language. The sign language language may be, for example, motion data representing the position of each part of the body in each video frame in three-dimensional coordinates or the like, or video data in which a person actually moves the sign language. In the following, a case where motion data that can be converted into sign language CG is used as the sign language language will be described as an example. In the following, each frame constituting the motion data will be referred to as a “motion frame”.
素材となるモーションデータを単純に並べて手話言語が生成される場合、手話言語の長さはそれらモーションデータそれぞれの再生時間長を全て足し合わせたものとなる。従来の手話翻訳では、音声言語の発話時間と手話言語の発話(映像によるモーションの表出)時間との間に差が生じる。そのため、実際の利用を想定した場合、発話の度に、手話への翻訳結果に音声言語からの遅延が生じ、さらに時間が経過するにつれその遅延が蓄積されていく。 When a sign language language is generated by simply arranging motion data as materials, the length of the sign language language is the sum of all the playback time lengths of each of the motion data. In conventional sign language translation, there is a difference between the utterance time of the spoken language and the utterance time of the sign language language (expression of motion by video). Therefore, assuming actual use, a delay occurs from the spoken language in the translation result into sign language each time the utterance is made, and the delay accumulates as time elapses.
そこで、本実施形態の手話翻訳装置は、上記の問題を改善するため、音声言語の時間的な発話長を考慮することで、音声言語から手話言語への柔軟な翻訳を実現する。1つ目の方法では、手話翻訳を表すモーションデータ列からモーションフレームを間引くことによって、再生速度を上げる。2つ目の方法では、モーションデータ列から重要度が低い手話単語のモーションデータそのものを削除することにより、詳細を省いた意訳の手話翻訳とする。つまり、手話単語の単位で、モーションフレームを削除する。また、1つ目の方法と2つ目の方法を組み合わせることもできる。これらの方法によって、本実施形態の手話翻訳装置は、入力された音声言語の発話長に応じて、日本語テキストから手話への翻訳結果であるモーションデータを最適な形に自動編集し、音声からの遅延を最小化する。本実施形態の手話翻訳装置により、番組の音声に対応した手話映像の遅延を抑えて提示することができ、視聴するユーザの負担を解消することが可能となる。 Therefore, in order to improve the above problem, the sign language translation device of the present embodiment realizes flexible translation from the speech language to the sign language by considering the temporal utterance length of the speech language. In the first method, the playback speed is increased by thinning out motion frames from the motion data string representing the sign language translation. In the second method, the motion data itself of the sign language word of low importance is deleted from the motion data string, so that the sign language translation is a free translation without details. In other words, the motion frame is deleted in units of sign language words. It is also possible to combine the first method and the second method. By these methods, the sign language translator of the present embodiment automatically edits the motion data, which is the translation result from the Japanese text to the sign language, in the optimum form according to the spoken length of the input voice language, and from the voice. Minimize the delay. With the sign language translation device of the present embodiment, it is possible to suppress the delay of the sign language video corresponding to the sound of the program and present it, and it is possible to eliminate the burden on the viewing user.
図1は、本発明の一実施形態による手話翻訳装置100の構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。手話翻訳装置100は、音声認識結果有効部20と、手話翻訳部1と、発話長比較部2と、データ編集部3とを備えて構成される。
FIG. 1 is a functional block diagram showing a configuration example of a sign
音声認識結果有効部20は、手話翻訳装置100の内部又は外部に備えられた音声認識装置(図示せず)から音声認識結果を取得する。音声認識結果有効部20は、音声認識結果の利用が有効に設定されている場合、音声認識結果として得られた日本語テキストを手話翻訳部1へ入力し、音声認識時に算出される音声の発話時間である音声発話長を発話長比較部2へ入力する。
The voice recognition result
手話翻訳部1は、日本語-手話翻訳部11と、手話モーションデータ列生成部12とを備える。手話翻訳部1は、入力された日本語テキストを手話翻訳する。手話翻訳とは、テキストの発話内容を表す手話モーションデータ列を生成することである。手話モーションデータ列は、1つの手話単語を表す手話モーションデータを1以上並べたものである。CGアニメーションで用いるモーションデータは、手指や顔表情などを含んだ実際の人の動きをモーションキャプチャし、BVH(Biovision Hierarchy)などの形式でモーションデータとして保存したものである。各手話モーションデータは、手話単語単位で手話の動きが収録されたモーションデータである。手話モーションデータを時系列に並べて手話単語間を接続することで、手話の文章を表す手話映像のモーションデータ列を生成する。
The sign
日本語-手話翻訳部11は、入力された日本語テキストを手話単語列に翻訳する。翻訳結果の手話単語列は、手話モーションデータのデータ番号が時系列に並んだデータである。例えば、日本語-手話翻訳部11は、日本語テキストが示す発話内容「日本の山田選手が…」を、「日本」、「山」、「田」、「選手」、…の手話単語列に変換する。翻訳結果は、これら各手話単語を表す手話モーションデータを特定するデータ番号を、手話単語の出現順に並べたものとなる。日本語-手話翻訳部11は、任意の従来技術により日本語テキストから手話単語列への変換を行う。従来技術として、例えば、特許文献1、2等の機械翻訳の技術を利用することができるが、この限りではない。手話モーションデータ列生成部12は、日本語-手話翻訳部11から出力された手話単語列に、手話単語列を構成するデータ番号それぞれにより特定される手話モーションデータを紐付けて生成した手話翻訳情報を発話長比較部2に出力する。手話モーションデータ列生成部12は、データ番号に対応した手話モーションデータを、手話翻訳部1が備える記憶部(図示せず)又は外部の記憶装置から読み出す。
The Japanese-sign
発話長比較部2は、音声発話長算出部21と、手話発話長算出部22と、音声・手話発話長比較部23とを備える。発話長比較部2は、発話内容の音声の長さである音声発話長と、手話翻訳情報に含まれる手話モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部として動作する。
The utterance
音声発話長算出部21は、音声発話長を予測算出する。音声発話長算出部21は、入力された日本語テキストから、発話内容を音声合成した際の総発話時間である音声発話長の予測を算出する。この算出には、既存の音声合成技術などを利用することで実現可能である。音声発話長算出部21は、算出した予測の音声発話長を音声・手話発話長比較部23に出力する。
The voice utterance
手話発話長算出部22は、手話翻訳部1が生成した手話翻訳情報を入力する。手話発話長算出部22は、手話翻訳結果の手話単語列がCGアニメーション化された時の予測の総発話長である手話発話長を算出する。具体的には、手話発話長算出部22は、手話翻訳情報に含まれる各手話単語の手話モーションデータそれぞれのフレーム長を足し合わせた結果と、1フレーム分の表示時間とを乗算し、予測の手話発話長を算出する。
The sign language utterance
音声・手話発話長比較部23は、音声発話長算出部21から入力した音声発話長と、手話発話長算出部22から入力した手話発話長とを比較する。なお、既存の音声認識技術と組み合わせる際には、音声認識装置が音声認識を行った際の総発話長を保持し、音声発話長算出部21から入力した音声発話長に代えて利用してもよい。その場合、音声・手話発話長比較部23は、音声認識結果有効部20から音声発話長を入力する。音声・手話発話長比較部23は、音声発話長に対する手話発話長の差分である発話長差を算出する。音声・手話発話長比較部23は、音声発話長の方が長い場合、データ編集部3を通過させずに、手話翻訳情報の手話モーションデータ列をそのまま手話翻訳装置100の外部に出力する。音声・手話発話長比較部23は、手話発話長の方が長い場合、手話翻訳情報と、音声発話長と、発話長差とをデータ編集部3に出力する。
The voice / sign language utterance
データ編集部3は、モード選択部31と、間引きモード処理部32と、要約モード処理部33と、重み付け間引きモード処理部34とを備える。モード選択部31は、音声・手話発話長比較部23から入力した発話長差と閾値との比較、または、ユーザによる事前設定に基づいて、手話翻訳情報を間引きモード処理部32、要約モード処理部33、及び、重み付け間引きモード処理部34のうちいずれかに出力する。閾値は、ユーザが設定してもよく、予め決められた値を用いてもよい。
The
間引きモード処理部32は、手話翻訳情報に含まれる手話モーションデータそれぞれから、音声・手話発話長比較部23から入力した発話長差に応じて一定のフレーム間隔のモーションフレームを全て削除する。これにより、各手話単語のモーションの長さを短縮し、必然的に全体の長さが短縮される。間引きモード処理部32は、フレーム長削減率計算部321と、フレーム長変換処理部322とを備える。フレーム長削減率計算部321は、手話翻訳情報に含まれる手話モーションデータ列から削除するモーションフレームの割合である削減率を計算する。フレーム長変換処理部322は、手話翻訳情報に含まれる手話モーションデータそれぞれから、フレーム長削減率計算部321が計算した削減率に応じてモーションフレームを削除する。
The thinning
要約モード処理部33は、手話翻訳情報に含まれる手話モーションデータ列から、手話単語の重要度に応じて、手話単語の単位で手話モーションデータを削除する。これにより、手話翻訳結果の全体の長さを短縮する。要約モード処理部33は、手話単語重要度計算部331と、手話単語省略処理部332とを備える。手話単語重要度計算部331は、手話翻訳情報に含まれる各手話モーションデータが表す手話単語それぞれの重要度を計算する。例えば、手話単語重要度計算部331は、手話単語列を形態素解析し、各手話単語の重要度を品詞に基づいて決定する。手話単語省略処理部332は、手話翻訳情報に含まれる手話モーションデータ列から、手話単語重要度計算部331が計算した手話単語の重要度に基づいて一部の手話モーションデータを削除する。
The summary
重み付け間引きモード処理部34は、手話単語の重要度に応じて手話モーションデータからモーションフレームを削除する。重み付け間引きモード処理部34は、手話単語重要度計算部341と、フレーム長削減率計算部342と、フレーム長変換処理部343とを備える。手話単語重要度計算部341は、手話単語重要度計算部331と同様に、手話翻訳情報に含まれる各手話モーションデータが表す手話単語それぞれの重要度を計算する。フレーム長削減率計算部342は、手話単語の重要度に応じて各手話モーションデータの削減率を計算する。最も低い削減率は0であってもよい。フレーム長変換処理部343は、手話翻訳情報に含まれる各手話モーションデータから、フレーム長削減率計算部321が計算した削減率に応じてモーションフレームを削除する。
The weighted thinning mode processing unit 34 deletes motion frames from the sign language motion data according to the importance of the sign language word. The weighted thinning mode processing unit 34 includes a sign language word
図2は,本実施形態の手話翻訳装置100の処理手順の一例を示すフローチャートである。音声認識なしの場合(ステップS105:NO)、手話翻訳装置100は、日本語テキストを読み込む(ステップS110)。日本語-手話翻訳部11は、読み込まれた日本語テキストを、手話モーションデータのデータ番号を時系列に並べた手話単語列に翻訳する(ステップS115)。発話長比較部2の音声発話長算出部21は、ステップS110において読み込まれた日本語テキストから、発話内容を音声合成した際の音声発話長の予測を算出する(ステップS120)。
FIG. 2 is a flowchart showing an example of the processing procedure of the
手話モーションデータ列生成部12は、日本語-手話翻訳部11から出力された手話単語列に、各手話単語のデータ番号により特定される手話モーションデータを紐付け、テキストファイルや配列データなどの定型化されたフォーマットにより手話翻訳情報として出力する(ステップS125)。手話発話長算出部22は、手話翻訳情報に含まれる手話モーションデータそれぞれのフレーム長の合計に基づいて、手話単語列がCGアニメーション化された時の手話発話長の予測を算出する(ステップS130)。
The sign language motion data
一方、音声認識ありの場合(ステップS105:YES)、手話翻訳装置100の内部又は外部の音声認識装置が音声認識を行う(ステップS135)。音声認識結果有効部20は、音声認識結果が有効であることが設定されている場合(ステップS140:YES)、音声認識装置による音声認識結果を取得し、手話翻訳部1に出力する。さらに、音声認識結果有効部20は、音声認識装置から音声認識を行った音声の総発話長を取得し、音声・手話発話長比較部23に出力する。
On the other hand, when there is voice recognition (step S105: YES), the voice recognition device inside or outside the sign
手話翻訳部1の日本語-手話翻訳部11は、音声認識結果有効部20から音声認識結果が示す日本語テキストを読み込む(ステップS145)。日本語-手話翻訳部11は、ステップS115と同様の処理を行い、音声認識結果の日本語テキストを手話単語列に翻訳する(ステップS150)。ステップS150の処理の後、手話翻訳装置100は、ステップS125及びステップS130の処理を行う。なお、音声認識結果有効部20に音声認識結果が有効であることが設定されていない場合(ステップS140:NO)、手話翻訳装置100はステップS110からの処理を行う。
The Japanese-sign
ステップS130の処理の後、音声・手話発話長比較部23は、音声発話長と手話発話長を比較する(ステップS155)。この音声発話長は、音声認識が有効ではない場合は音声発話長算出部21が算出した音声発話長であり、音声認識が有効の場合は音声認識結果有効部20が音声認識装置から取得した音声認識対象の音声の総発話長である。音声・手話発話長比較部23は、手話発話長が音声発話長以下であると判断した場合(ステップS155:音声≧手話)、手話翻訳情報の手話モーションデータ列をそのまま手話翻訳装置100の外部に出力する。
After the process of step S130, the voice / sign language utterance
音声・手話発話長比較部23は、手話発話長が音声発話長よりも長いと判断した場合、手話翻訳情報と、手話発話長から音声発話長を減算した発話長差と、音声発話長とをモード選択部31に出力する。モード選択部31は、モードを判断する(ステップS160)。モード選択部31は、発話長差が閾値よりも小さい場合、間引きモードと判断する(ステップS160:間引きモード)。モード選択部31は、手話翻訳情報、発話長差及び音声発話長を間引きモード処理部32に出力する。間引きモード処理部32のフレーム長削減率計算部321は、手話発話長が、音声発話長に近くなるように手話モーションデータ列から削除するモーションフレームの割合である削減率を計算する(ステップS165)。フレーム長削減率計算部321は、発話長差が大きいほど、削除するモーションフレームの間隔が短くなるように削減率を高くするよう調整する。以下に、削除するフレーム間隔を決定する一例を挙げるがこの限りではない。
When the voice / handwriting utterance
手話翻訳の結果が手話モーションデータA及び手話モーションデータBから構成されており、手話モーションデータA、Bはそれぞれ、150フレームのモーションフレームにより構成されるとする。また、手話モーションデータが60fps(フレーム毎秒)であり、発話長差が+2.0秒であるとする。この場合、発話長差に相当するフレーム数は、(+2.0秒)×(60fps)=120フレームとなる。つまり、手話翻訳情報に含まれる手話モーションデータ列の全体から120フレームのモーションフレームを削除することにより、音声発話長と手話発話長とが等しくなる。 It is assumed that the result of the sign language translation is composed of the sign language motion data A and the sign language motion data B, and the sign language motion data A and B are each composed of 150 motion frames. Further, it is assumed that the sign language motion data is 60 fps (frames per second) and the utterance length difference is +2.0 seconds. In this case, the number of frames corresponding to the difference in utterance length is (+2.0 seconds) × (60 fps) = 120 frames. That is, by deleting 120 frames of motion frames from the entire sign language motion data string included in the sign language translation information, the voice utterance length and the sign language utterance length become equal.
手話翻訳の結果は2つの手話モーションデータから構成されるため、各手話モーションデータそれぞれから120/2=60フレームを削除すればよい。ここで、削除するフレーム数60を単純に手話モーションデータのフレーム数150で除算すると60/150=1/2.5となり、削減率1/2(2フレームのうち1フレームを削除)と削減率1/3(3フレームのうち1フレームを削除)の間である。ここでは、高い方の削減率1/2を選択し、フレーム削除間隔を「1」と決定する。150フレームからフレーム削除間隔「1」でフレームを削除すると、150×(削減率1/2)=75フレームを削除することになる。この場合、厳密には60フレーム分を削除することはできないが、手話発話長を音声発話長に近づけることが可能となる。
Since the result of sign language translation is composed of two sign language motion data, 120/2 = 60 frames may be deleted from each sign language motion data. Here, if the number of frames to be deleted 60 is simply divided by the number of frames of sign language motion data 150, 60/150 = 1 / 2.5, and the reduction rate is 1/2 (1 frame out of 2 frames is deleted). It is between 1/3 (1 frame out of 3 frames is deleted). Here, the
フレーム長変換処理部322は、手話翻訳情報に含まれる各手話モーションデータA、Bのそれぞれから、フレーム長削減率計算部321が算出したフレーム削除間隔に従ってモーションフレームを削除し、手話翻訳装置100の外部に出力する(ステップS170)。なお、フレーム長変換処理部322は、手話発話長を音声発話長に近づけるように、手話翻訳情報に含まれる各手話モーションデータを並べたときの全体のモーションフレームから、均等間隔でモーションフレームを削除してもよい。
The frame length
モード選択部31は、発話長差が閾値以上である場合、要約モードと判断する(ステップS160:要約モード)。モード選択部31は、手話翻訳情報及び音声発話長を要約モード処理部33に出力する。要約モード処理部33の手話単語重要度計算部331は、手話翻訳情報に含まれる各手話モーションデータが表す単語それぞれの重要度を計算する(ステップS175)。重要度の計算には、例えば、以下のように、一般的な形態素解析技術を用いる方法があるが、この限りではない。
When the difference in utterance length is equal to or greater than the threshold value, the
手話単語重要度計算部331は、手話翻訳情報に含まれる各手話モーションデータが表す単語列に、一文単位で一般的な形態素解析技術を適用して単語単位に分割すると共に、それら各単語に品詞を付与する。手話単語重要度計算部331は、事前に設定された品詞と重要度との対応付けを表すデータ及び単語と重要度との関係を表すデータに基づいて、各単語の重要度を得る。品詞ごとの重要度では、例えば、名詞、固有名詞、動詞等の重要度を高く、助詞や形容詞、副詞は重要度を低くする。単語の重要度は、その単語の前後の単語や、前後の単語の品詞によって決まるものであってもよい。単語の重要度と、単語が分類された品詞の重要度とが異なる場合は、単語の重要度を優先する。これにより、翻訳対象に合わせて重要な単語をチューニングすることができる。例えば、スポーツの番組の音声を手話翻訳する場合、一般的な規則では名詞の優先度が高い場合でも、名詞の単語「選手」の前に名前を表す固有名詞が付加されていた場合は、優先度を低くすることができる。なお、手話単語重要度計算部331は、日本語テキストに形態素解析を行ってもよい。この場合、日本語テキストに含まれる単語の重要度が、その単語に対応した手話単語の重要度として用いられる。
The sign language word
手話単語省略処理部332は、音声発話長に近くなるように、手話翻訳情報が示す手話モーションデータ列から、手話単語重要度計算部331が計算した優先度が低い手話単語から順に1以上の手話モーションデータを削除する(ステップS180)。手話単語省略処理部332は、間引きモード処理部32における処理と同様に、音声・手話発話長比較部23が出力した発話長差が大きいほど、削除する手話モーションデータの数が多くなるように、削除する手話モーションデータの数を決定する。その際、手話単語省略処理部332は、削除の結果残った手話モーションデータ列が予め設定された最低限の単語数以下とならないようにする。削除されない最低限の単語数の閾値を予め設定しておくことで、意味を持たない翻訳結果が出力されることを防ぐことが可能である。手話単語省略処理部332は、手話翻訳情報が示す手話モーションデータ列から優先度が低い手話モーションデータを削除した結果を、手話翻訳装置100の外部に出力する。
The sign language word
また、モード選択部31は、予め入力された設定に応じて、間引きモードに代えて重み付け間引きモードと判断してもよい(ステップS160:重み付け間引きモード)。モード選択部31は、手話翻訳情報及び音声発話長を重み付け間引きモード処理部34に出力する。重み付け間引きモード処理部34の手話単語重要度計算部341は、手話単語重要度計算部331と同様の処理により、手話翻訳情報に含まれる各手話モーションデータが表す単語それぞれの重要度を計算する(ステップS185)。フレーム長削減率計算部342は、手話単語重要度計算部341が算出した手話単語の重要度に応じて、手話モーションデータ単位で異なる削減数を算出する(ステップS190)。フレーム長削減率計算部342は、重要度が高い手話単語を表す手話モーションデータほど、フレーム長削減率を低くする。これにより、さらに柔軟に発話長を変更することができる。フレーム長変換処理部343は、フレーム長削減率計算部342が計算した各手話モーションデータの削減率に従って、手話モーションデータ列のモーションフレームを削除し、手話翻訳装置100の外部に出力する(ステップS195)。
Further, the
モード選択部31は、発話長差の値に応じてハイブリッドモードと判断することもできる。例えば、モード選択部31は、第一の閾値と第一の閾値より大きな第二の閾値とを用い、発話長差が第一の閾値未満のときは要約モード又は重み付け間引きモードと判断し、第一の閾値以上第二の閾値未満であるときには要約モードと判断する。モード選択部31は、発話長差が第二の閾値以上であるときにはハイブリッドモードと判断する。あるいは、モード選択部31は、予め入力された設定に応じて、要約モードとハイブリッドモードのいずれを行うかを可変にしてもよい。
The
モード選択部31が、ハイブリッドモードと判断した場合(ステップS160:ハイブリッドモード)、まず、要約モード処理部33は、ステップS175~ステップS180と同様の処理を行い、手話モーションデータ単位で大まかに手話発話長を削減する(ステップS200、S205)。要約モード処理部33は、削減後の手話モーションデータ列に更新された手話翻訳情報を間引きモード処理部32に入力する。間引きモード処理部32は、更新された手話翻訳情報を用いてステップS165~ステップS170と同様の処理を行う(ステップS210、S215)。ただし、間引きモード処理部32は、発話長差として、音声発話長と、要約モード処理部33が出力した手話翻訳情報の手話発話長との差分を用いる。これにより、フレーム単位で細かく発話長を調整することが可能となる。
When the
手話翻訳部1は、ステップS170、ステップS180、ステップS195又はステップS215の処理の後、次の入力を検出したかを判断する(ステップS220)。手話翻訳部1が次の入力を検出した場合(ステップS220:YES)、手話翻訳装置100は、ステップS105からの処理を繰り返す。手話翻訳部1が次の入力を検出しなかった場合(ステップS220:NO)、手話翻訳装置100は、図2の処理を終了する。手話翻訳装置100から出力された手話モーションデータ列は、CGグラフィック処理により、手話のモーションを映像化したCGアニメーションに変換される。なお、手話翻訳部1は、ステップS105~ステップS215までの処理を1文の発話内容ごとに行ってもよく、複数文まとめて行ってもよい。
The sign
図3は、手話翻訳の具体的な例を示す図である。図3(a)は、従来の手話翻訳技術の例を示す。番組の音声や、テキストから合成した合成音声の発話時間に対し、同じ内容をそのまま翻訳した手話の発話時間には遅延が生じる傾向がある。例えば、早めの口調で“日本の山田選手が・・・”と発話された音声をリアルタイムで手話翻訳し、CGアニメーションを用いて手話言語を提示する。この場合、手話翻訳や、CGアニメーションの合成処理における遅延を考慮しなかったとしても、手話翻訳結果は、“日本”、“山”、“田”、“選手”、・・・、の順に、手を加えていないモーションキャプチャ時の平均的な速度で淡々と手話を発話する手話モーションデータの接続となる。そのため、手話翻訳の対象となった音声からの遅延が徐々に増加してしまう。本実施形態では、図3(b)に示す間引きモード、図3(c)に示す要約モードなどにより手話翻訳の発話長を短くし、その問題を解決している。 FIG. 3 is a diagram showing a specific example of sign language translation. FIG. 3A shows an example of a conventional sign language translation technique. There is a tendency for a delay to occur in the utterance time of sign language, which is a translation of the same content as it is, with respect to the utterance time of the voice of the program or the synthetic voice synthesized from the text. For example, the voice spoken in an early tone, "Yamada of Japan ..." is translated into sign language in real time, and the sign language language is presented using CG animation. In this case, even if the delay in sign language translation and CG animation composition processing is not taken into consideration, the sign language translation results are in the order of "Japan", "mountain", "field", "player", ... It is a connection of sign language motion data that speaks sign language lightly at the average speed at the time of untouched motion capture. Therefore, the delay from the voice targeted for sign language translation gradually increases. In the present embodiment, the utterance length of the sign language translation is shortened by the thinning mode shown in FIG. 3 (b), the summary mode shown in FIG. 3 (c), and the like, and the problem is solved.
手話翻訳装置100に、手話翻訳の対象となる日本語テキスト“日本の山田選手が・・・”が入力された場合、手話翻訳部1は、手話単語列“日本”、“山”、“田”、“選手”、・・・、を表す手話モーションデータ列を生成する。次に、発話長比較部2は、日本語テキストを音声発話した際の音声発話長と、手話単語列の手話発話長との予測をそれぞれ算出する。発話長比較部2は、それらの発話長を比較し、音声からの手話の遅延を表す発話長差を算出してデータ編集部3へ出力する。データ編集部3のモード選択部31は、例えば発話長差の閾値を10秒に設定していた場合、発話長差が10秒以内の場合は間引きモードを選択し、10秒以上の場合は要約モードを選択する。なお、ユーザが事前に、モード選択部31にモードを設定しておくことで、固定のモードを選択することも可能である。
When the Japanese text "Japanese Yamada player ..." is input to the sign
データ編集部3は、間引きモードを選択した場合、図3(b)に示すように、各手話単語“日本”、“山”、“田”、“選手”、・・・、のそれぞれに対応する手話モーションデータのモーションフレームを、発話長差の値に基づき均等間隔で削除する。モーションフレームの削除によって各手話単語のモーションの再生速度を上げることで、手話の発話長を短縮することが可能となる。
When the thinning mode is selected, the
データ編集部3は、要約モードを選択した場合、図3(c)に示すように一つの発話に含まれる各手話単語の重要度を算出する。同図では、“日本”の重要度は4、“山”の重要度は5、“田”の重要度は5、“選手”の重要度は2である。データ編集部3は、発話長差が最小になるように、手話単語列において重要度が低い手話単語“日本”や“選手”の手話モーションデータから先に削除していき、重要度が高い“山”や“田”のみの手話モーションデータ列を手話翻訳情報とする。ディテールを省き意訳の手話翻訳とすることで、手話の発話長を短縮する。
When the summarization mode is selected, the
データ編集部3は、上述の2つのモードを組み合わせたハイブリッドモードとする場合、手話単語列“日本”、“山”、“田”、“選手”、・・・、において最も重要度が低い“選手”のみを要約モードで削除する。データ編集部3は、残った手話単語列“日本”,“山”,“田”については間引きモードでフレーム長を短縮する。
The
以上説明した実施形態によれば、手話翻訳装置は、手話翻訳部と、発話長取得部と、データ編集部とを備える。発話長取得部は、実施形態の発話長比較部2に対応する。手話翻訳部は、発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する。発話長取得部は、発話内容の音声の長さである音声発話長と、手話翻訳情報に含まれるモーションデータの再生時間を合計した手話発話長とを取得する。データ編集部は、手話発話長が音声発話長に近くなるように、手話翻訳情報に含まれるモーションデータの一部のフレームを削除する。例えば、データ編集部は、手話翻訳情報に含まれる複数のモーションデータのそれぞれから均等にフレームを削除する。あるいは、データ編集部は、手話翻訳情報に含まれる複数のモーションデータそれぞれが表す手話単語の重要度を取得し、複数のモーションデータのそれぞれから対応する手話単語の重要度に基づいた割合のフレームを削除する。またあるいは、データ編集部は、手話翻訳情報に含まれる複数のモーションデータそれぞれが表す手話単語の重要度を取得し、取得した重要度に基づいて手話翻訳情報に含まれる複数のモーションデータから手話単語の単位でフレームを削除する。
According to the embodiment described above, the sign language translation device includes a sign language translation unit, an utterance length acquisition unit, and a data editing unit. The utterance length acquisition unit corresponds to the utterance
本実施形態の手話翻訳装置は、入力された音声言語の発話長に応じて、手話単語列や各手話モーションデータを最適な形に自動編集することによって、翻訳時の音声からの遅延を最小化し、より手話通訳者などに近い形の自動翻訳を実現することが可能となる。 The sign language translation device of the present embodiment minimizes the delay from the voice during translation by automatically editing the sign language word string and each sign language motion data in the optimum form according to the spoken length of the input voice language. , It is possible to realize automatic translation in a form closer to that of a sign language interpreter.
なお、上述の手話翻訳装置100は、内部にコンピュータシステムを有している。そして、手話翻訳装置100の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
The
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
Further, the "computer system" includes the homepage providing environment (or display environment) if the WWW system is used.
Further, the "computer-readable recording medium" refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, or a CD-ROM, and a storage device such as a hard disk built in a computer system. Further, a "computer-readable recording medium" is a communication line for transmitting a program via a network such as the Internet or a communication line such as a telephone line, and dynamically holds the program for a short period of time. In that case, it also includes those that hold the program for a certain period of time, such as the volatile memory inside the computer system that is the server or client. Further, the above-mentioned program may be for realizing a part of the above-mentioned functions, and may be further realized by combining the above-mentioned functions with a program already recorded in the computer system.
1…手話翻訳部
2…発話長比較部
3…データ編集部
11…日本語-手話翻訳部
12…手話モーションデータ列生成部
20…音声認識結果有効部
21…音声発話長算出部
22…手話発話長算出部
23…音声・手話発話長比較部
31…モード選択部
32…間引きモード処理部
33…要約モード処理部
34…重み付け間引きモード処理部
100…手話翻訳装置
321、342…フレーム長削減率計算部
322、343…フレーム長変換処理部
331、341…手話単語重要度計算部
332…手話単語省略処理部
1 ... Sign
Claims (4)
前記発話内容の音声の長さである音声発話長と、前記手話翻訳情報に含まれる前記モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部と、
前記手話発話長が前記音声発話長に近くなるように、前記手話翻訳情報に含まれる前記モーションデータの一部のフレームを削除するデータ編集部と、
を備え、
前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、複数の前記モーションデータのそれぞれから対応する前記手話単語の重要度に基づいた割合の前記フレームを削除する、
ことを特徴とする手話翻訳装置。 A sign language translation unit that converts the text of the utterance content into sign language translation information in which motion data indicating the movement of the sign language representing the sign language word is arranged for each frame.
An utterance length acquisition unit that acquires a voice utterance length that is the length of the voice of the utterance content and a sign language utterance length that is the sum of the reproduction times of the motion data included in the sign language translation information.
A data editing unit that deletes a part of the frame of the motion data included in the sign language translation information so that the sign language utterance length is close to the voice utterance length.
Equipped with
The data editing unit acquires the importance of the sign language word represented by each of the plurality of motion data included in the sign language translation information, and is based on the importance of the corresponding sign language word from each of the plurality of motion data. Delete the percentage of the frame,
A sign language translator characterized by that.
前記発話内容の音声の長さである音声発話長と、前記手話翻訳情報に含まれる前記モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部と、
前記手話発話長が前記音声発話長に近くなるように、前記手話翻訳情報に含まれる前記モーションデータの一部のフレームを削除するデータ編集部と、
を備え、
前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、取得した重要度に基づいて前記手話翻訳情報に含まれる複数の前記モーションデータから前記手話単語の単位で前記フレームを削除する、
ことを特徴とする手話翻訳装置。 A sign language translation unit that converts the text of the utterance content into sign language translation information in which motion data indicating the movement of the sign language representing the sign language word is arranged for each frame.
An utterance length acquisition unit that acquires a voice utterance length that is the length of the voice of the utterance content and a sign language utterance length that is the sum of the reproduction times of the motion data included in the sign language translation information.
A data editing unit that deletes a part of the frame of the motion data included in the sign language translation information so that the sign language utterance length is close to the voice utterance length.
Equipped with
The data editing unit acquires the importance of the sign language word represented by each of the plurality of motion data included in the sign language translation information, and the plurality of motion data included in the sign language translation information based on the acquired importance. Delete the frame in units of the sign language word from
A sign language translator characterized by that.
ことを特徴とする請求項2に記載の手話翻訳装置。 The data editing unit deletes the frame from each of the plurality of motion data included in the sign language translation information.
The sign language translation device according to claim 2 , wherein the sign language translator is characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018007445A JP7072390B2 (en) | 2018-01-19 | 2018-01-19 | Sign language translator and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018007445A JP7072390B2 (en) | 2018-01-19 | 2018-01-19 | Sign language translator and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019124901A JP2019124901A (en) | 2019-07-25 |
JP7072390B2 true JP7072390B2 (en) | 2022-05-20 |
Family
ID=67398633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018007445A Active JP7072390B2 (en) | 2018-01-19 | 2018-01-19 | Sign language translator and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7072390B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102211445B1 (en) * | 2020-09-30 | 2021-02-03 | (주)멀틱스 | AI Based Audiovisual Information System |
WO2023195603A1 (en) * | 2022-04-04 | 2023-10-12 | Samsung Electronics Co., Ltd. | System and method for bidirectional automatic sign language translation and production |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001186430A (en) | 1999-12-22 | 2001-07-06 | Mitsubishi Electric Corp | Digital broadcast receiver |
JP2005064600A (en) | 2003-08-15 | 2005-03-10 | Toshiba Corp | Information processing apparatus, information processing method, and program |
JP2008134686A (en) | 2006-11-27 | 2008-06-12 | Matsushita Electric Works Ltd | Drawing program, programmable display, and display system |
JP2015115007A (en) | 2013-12-13 | 2015-06-22 | 日本放送協会 | Machine translation device and machine translation program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH086494A (en) * | 1994-06-16 | 1996-01-12 | Hitachi Ltd | Finger language display device |
-
2018
- 2018-01-19 JP JP2018007445A patent/JP7072390B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001186430A (en) | 1999-12-22 | 2001-07-06 | Mitsubishi Electric Corp | Digital broadcast receiver |
JP2005064600A (en) | 2003-08-15 | 2005-03-10 | Toshiba Corp | Information processing apparatus, information processing method, and program |
JP2008134686A (en) | 2006-11-27 | 2008-06-12 | Matsushita Electric Works Ltd | Drawing program, programmable display, and display system |
JP2015115007A (en) | 2013-12-13 | 2015-06-22 | 日本放送協会 | Machine translation device and machine translation program |
Also Published As
Publication number | Publication date |
---|---|
JP2019124901A (en) | 2019-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022110354A1 (en) | Video translation method, system and device, and storage medium | |
JP3664474B2 (en) | Language-transparent synthesis of visual speech | |
US7636662B2 (en) | System and method for audio-visual content synthesis | |
JP4344658B2 (en) | Speech synthesizer | |
JP2014519082A (en) | Video generation based on text | |
JP2000123191A (en) | Device and method for processing image and information transmission system | |
JP2022518721A (en) | Real-time generation of utterance animation | |
KR20200027331A (en) | Voice synthesis device | |
JP6711044B2 (en) | Image processing device, display device, animation generation method, and program | |
CN113077537A (en) | Video generation method, storage medium and equipment | |
JP4192703B2 (en) | Content processing apparatus, content processing method, and program | |
JP2012181358A (en) | Text display time determination device, text display system, method, and program | |
JP7072390B2 (en) | Sign language translator and program | |
JP2010011409A (en) | Video digest apparatus and video editing program | |
JP7101057B2 (en) | Language model learning device and its program, and word estimation device and its program | |
US10923106B2 (en) | Method for audio synthesis adapted to video characteristics | |
JP2011186143A (en) | Speech synthesizer, speech synthesis method for learning user's behavior, and program | |
JP2021156907A (en) | Information processor and information processing method | |
CN116912375A (en) | Facial animation generation method and device, electronic equipment and storage medium | |
CN116828129A (en) | Ultra-clear 2D digital person generation method and system | |
WO2023142590A1 (en) | Sign language video generation method and apparatus, computer device, and storage medium | |
CN113362432B (en) | Facial animation generation method and device | |
KR102287325B1 (en) | Method and apparatus for generating a voice suitable for the appearance | |
D’alessandro et al. | Reactive statistical mapping: Towards the sketching of performative control with data | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7072390 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |