JP2976811B2 - Human Body Motion Speech Generation System from Text - Google Patents

Human Body Motion Speech Generation System from Text

Info

Publication number
JP2976811B2
JP2976811B2 JP12600294A JP12600294A JP2976811B2 JP 2976811 B2 JP2976811 B2 JP 2976811B2 JP 12600294 A JP12600294 A JP 12600294A JP 12600294 A JP12600294 A JP 12600294A JP 2976811 B2 JP2976811 B2 JP 2976811B2
Authority
JP
Japan
Prior art keywords
text
motion
voice
human body
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12600294A
Other languages
Japanese (ja)
Other versions
JPH07334507A (en
Inventor
山 呂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP12600294A priority Critical patent/JP2976811B2/en
Publication of JPH07334507A publication Critical patent/JPH07334507A/en
Application granted granted Critical
Publication of JP2976811B2 publication Critical patent/JP2976811B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Processing Or Creating Images (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、テキストからの人体動
作音声生成システムに関し、特に計算機システムを用い
て自然言語で書かれたテキスファイルから、人体動作
および音声の生成や人間の動きと音声のアニメーション
の作成を行うシステムに関する。
The present invention relates to relates to human behavior sound generation system from the text, especially from a text file written in natural language by using the computer system, human motion and the voice of the generation and human movement and voice Related to a system for creating animations.

【0002】[0002]

【従来の技術】従来の技術として、計算機による自然言
語の構文解析技術を利用した人体動作の生成方法が、特
開平4−264972号公報に開示されている。これは
自然言語の構文解析技術を用いて、テキストから解析さ
れる動作を表す特定な単語などを利用して動作プログラ
ムを生成し、人体動作の生成を行うものである。
2. Description of the Related Art As a conventional technique, a method of generating a human body motion using a natural language syntax analysis technique by a computer is disclosed in Japanese Patent Application Laid-Open No. 4-264972. In this method, an action program is generated by using a specific word or the like representing an action analyzed from a text using a syntax analysis technique of a natural language, and a human body action is generated.

【0003】また、別の従来の技術として、音声合成装
置からの音素を利用して人間の口形の変化を生成する方
法が、特開平2−234285号公報に開示されてい
る。これはテキスファイルから規則音声合成装置によ
って生成された音声の音素を利用して、各音素に対応す
る口形特徴のパラメータを制御することにより、人間の
口形の変化を生成するものである。
As another conventional technique, Japanese Patent Laid-Open Publication No. Hei 2-234285 discloses a method for generating a change in the shape of a human mouth using phonemes from a speech synthesizer. It utilizes the phonemes of the voice generated by the rule based speech synthesizer from a text file, by controlling the parameters of the mouth shape features corresponding to each phoneme, and generates a change in the human mouth shape.

【0004】[0004]

【発明が解決しようとする課題】上述した従来の技術に
は、次のような問題点が存在する。
The above-mentioned prior art has the following problems.

【0005】(1)前者の場合は、テキストから動作の
生成が可能であるが、その動作に同期した音声の出力は
できない。
(1) In the former case, an action can be generated from a text, but a sound cannot be output in synchronization with the action.

【0006】(2)さらに、前者では動作を記述するア
ニメーション専用の動作プログラムを生成するが、その
動作プログラムが計算機プログラムと同様な形式に記述
されているため、プログラマーではない一般利用者の編
集作業には適していない。
(2) Furthermore, in the former, an animation-specific operation program for describing an operation is generated. However, since the operation program is described in a format similar to that of a computer program, the editing work of a general user who is not a programmer. Not suitable for

【0007】(3)後者の場合は、テキストの音声出力
から人間動作の一部である口形の変化だけを生成してお
り、より自然な人間な動作映像を生成するための身体な
どの他の部分の動きの生成が困難である。
(3) In the latter case, only a change in the mouth shape, which is a part of the human motion, is generated from the audio output of the text, and other changes such as the body for generating a more natural human motion image. It is difficult to generate the motion of the part.

【0008】[0008]

【課題を解決するための手段】本発明のテキストからの
人体動作音声生成システムは、上述した(1)項および
(3)項に記載の課題を解決するために、テキストから
動詞や副詞などの単語を取り出す自然言語解析手段と、
動詞などの動作を表す単語と人体動作パターンの対応関
係を記述する動詞・動作パターン辞書と、前記自然言語
解析手段で抽出された動詞を用いて前記動詞・動作パタ
ーン辞書を検索し人体動作パターンを生成する動作パタ
ーン生成手段と、動詞を修飾する副詞などの修飾語と動
作の程度の対応関係を記述する修飾語・動作程度辞書
と、前記自然言語解析手段で抽出された修飾語を用いて
前記修飾語・動作程度辞書を検索し前記人体動作パター
ンの動作程度を生成する動作程度生成手段と、動作映像
出力と合成音声出力とを同期させるためのテキスト中の
動詞の出現位置を動作生成の開始時刻に対応付けた動作
時間データ、およびテキストの長さから計算されるテキ
ストの読み上げ時間を含む音声時間データを出力する動
作音声同期化手段と、前記人体動作パターン,動作程度
および動作時間データを含む動作生成命令を入力とし人
体動作の時系列映像データを生成し表示手段に出力する
動作映像生成手段と、前記テキストおよび前記音声時間
データを含む音声生成命令を入力とし規則音声合成方法
で音声を出力する音声合成手段とを備えている。
In order to solve the problems described in the above items (1) and (3), the system for generating a human body motion sound from a text according to the present invention has the following features. Natural language analysis means for extracting words,
A verb / movement pattern dictionary describing the correspondence between words representing movements such as verbs and human body movement patterns, and the verb / movement pattern dictionary using the verb extracted by the natural language analysis means, and the human body movement pattern is searched. A motion pattern generating means for generating, a modifier / movement degree dictionary describing a correspondence between a modifier such as an adverb that modifies a verb and a degree of action, and a modifier extracted by the natural language analyzer. A motion level generating means for searching a modifier / motion level dictionary and generating a motion level of the human body motion pattern; and starting motion generation by determining an appearance position of a verb in a text for synchronizing a motion video output and a synthesized voice output. Operation time synchronization means for outputting operation time data associated with time, and sound time data including a text-to-speech time calculated from the length of the text; and An operation image generation unit that receives an operation generation command including the human body operation pattern, the operation degree, and operation time data, generates time-series image data of the human body operation, and outputs the data to a display unit, and an audio including the text and the audio time data Voice synthesis means for receiving a generation command as input and outputting voice by a rule voice synthesis method.

【0009】また、上述した(2)項に記載の課題を解
決するために、上記の構成に前記動作パターン生成手
段,前記動作程度生成手段および前記動作音声同期化手
段から出力される前記動作生成命令と前記音声生成命令
とを外部のエディタで修正可能な人間可読のテキストで
ある文章動作記述ファイルに変換する動作音声生成命令
・テキスト変換手段と、前記動作音声生成命令・テキス
ト変換手段に変換された文章動作記述ファイルを格納す
る文章動作記述ファイル蓄積手段と、前記文章動作記述
ファイル蓄積手段からの文章動作記述ファイルを前記動
作生成命令と音声生成命令とに変換し前記動作映像生成
手段および前記音声合成手段に出力するテキスト・動作
音声生成命令変換手段とを付加することにより、外部の
エディターで前記文章動作記述ファイルを修正できるこ
とを可能にしている。
Further, in order to solve the problem described in the above item (2), the operation pattern generation means, the operation degree generation means, and the operation sound synchronization means output from the operation sound synchronizing means in the above configuration. An operation voice generation instruction / text conversion unit for converting the instruction and the voice generation instruction into a sentence operation description file which is a human-readable text modifiable by an external editor; and an operation voice generation instruction / text conversion unit. A text motion description file storing means for storing the text motion description file, and converting the text motion description file from the text motion description file storage device into the motion generation command and the voice generation command. By adding a text / action voice generation command conversion means to be output to the synthesis means, the text can be output by an external editor. Is it possible that you can modify the behavior description file.

【0010】[0010]

【作用】本発明においては、入力されたテキストを解析
して語句ごとに分割し、動詞や動詞修飾語などの単語を
取り出す。そして、動詞に出現する位置を動作開始の信
号とする規則に基づいて、動作生成のタイミングを決定
する。
According to the present invention, an input text is analyzed and divided into words and phrases, and words such as verbs and verb modifiers are extracted. Then, based on the rule that the position appearing in the verb is used as the signal for starting the operation, the timing of generating the operation is determined.

【0011】また、動詞の種類に対応する人体動作パタ
ーンを決定したり、修飾語などを用いて、動作の動きの
程度を決めるところがポイントである。これにより、テ
キストを与えると音声出力および音声と同期した円滑な
人間の動作を自動的に作成することができる。
It is also important to determine a human body movement pattern corresponding to the type of verb, and to determine the degree of movement of the movement by using a modifier. Thus, when a text is given, an audio output and a smooth human motion synchronized with the audio can be automatically created.

【0012】[0012]

【実施例】次に、本発明について図面を参照して説明す
る。
Next, the present invention will be described with reference to the drawings.

【0013】図1は、本発明のテキストからの人体動作
音声生成システムの一実施例を示すブロック図であっ
て、第1の発明の実施例の構成を示す図である。
FIG. 1 is a block diagram showing an embodiment of the system for generating human body motion sound from text according to the present invention, and is a diagram showing the configuration of the first embodiment of the present invention.

【0014】本実施例のテキストからの人体動作音声生
成システムは、図1に示すように、A装置100とB装
置200とから成り、A装置100は、テキストから動
詞や副詞などの単語を取り出す自然言語解析装置1と、
動詞などの動作を表す単語と人体動作パターンの対応関
係を記述する動詞・動作パターン辞書21と、自然言語
解析装置1で抽出された動詞を用いて動詞・動作パター
ン辞書21を検索し人体動作パターンを生成する動作パ
ターン生成装置2と、動詞を修飾する副詞などの修飾語
と動作の程度の対応関係を記述する修飾語・動作程度辞
書31と、自然言語解析装置1で抽出された修飾語を用
いて修飾語・動作程度辞書31を検索し前記人体動作パ
ターンの動作程度を生成する動作程度生成装置3と、動
作映像出力と合成音声出力とを同期させるためのテキス
ト中の動詞の出現位置を動作生成の開始時刻に対応付け
た動作時間データ、およびテキストの長さから計算され
るテキストの読み上げ時間を含む音声時間データを出力
する動作音声同期化装置4とから構成される。
As shown in FIG. 1, the system for generating a human body motion sound from text according to the present embodiment includes an A device 100 and a B device 200. The A device 100 extracts words such as verbs and adverbs from the text. A natural language analyzer 1,
A verb / movement pattern dictionary 21 that describes the correspondence between words representing movements such as verbs and human body movement patterns, and a verb / movement pattern dictionary 21 using the verb extracted by the natural language analysis device 1 are searched. , A qualifier / movement degree dictionary 31 that describes the correspondence between a modifier such as an adverb that modifies a verb and the degree of action, and a qualifier extracted by the natural language analyzer 1. The motion degree generating device 3 for searching the modifier / motion degree dictionary 31 and generating the motion degree of the human body motion pattern by using the same, and the appearance position of the verb in the text for synchronizing the motion video output and the synthesized voice output. Motion audio synchronization that outputs motion time data associated with the start time of motion generation and voice time data including text-to-speech time calculated from the length of the text Composed from the device 4.

【0015】また、B装置200は、人体動作パター
ン,動作程度および動作時間データを含む動作生成命令
を入力とし人体動作の時系列映像データを生成し表示装
置に出力する動作映像生成装置5と、テキストおよび音
声時間データを含む音声生成命令を入力とし規則音声合
成方法で音声を出力する音声合成装置6とから構成され
る。
The B apparatus 200 receives an operation generation command including a human body operation pattern, an operation degree, and operation time data, generates time-series image data of the human body operation, and outputs the data to a display device. And a voice synthesizing device 6 which receives a voice generation command including text and voice time data as input and outputs voice by a rule voice synthesis method.

【0016】自然言語解析装置1は、外部より入力され
るテキストから個々の単語を取り出す。この自然言語解
析装置1は、従来からの構文解析の手法を用いて、文か
ら単語を抽出する。ここでは、CYK法を用いた構文解
析の方法(杉村領一,赤坂宏二,久保幸弘:論理型形態
素解析LAX,Proc. of the Logic
Programming Conf. ICOT,2
13−222,1988年)などを利用している。な
お、自然言語解析装置1は、既存技術を利用するので、
ここでは詳細な説明を省略する。
The natural language analyzer 1 extracts individual words from a text input from the outside. The natural language analysis device 1 extracts words from a sentence by using a conventional syntax analysis method. Here, a parsing method using the CYK method (Ryoichi Sugimura, Koji Akasaka, Yukihiro Kubo: Logic Morphological Analysis LAX, Proc. Of the Logic)
Programming Conf. ICOT, 2
13-222, 1988). Since the natural language analysis device 1 uses an existing technology,
Here, detailed description is omitted.

【0017】この自然言語解析装置1によって、例え
ば、「彼が気持ち良く笑った」のような文を、「彼・が
・気持ち良く・笑った」の個々の独立した語句に分解す
ることができる。また、次に示すように、文の中に各々
の語句の文法上の意味が得られる。
With this natural language analyzer 1, for example, a sentence such as "he laughed comfortably" can be decomposed into individual words such as "he laughs comfortably". Further, as shown below, the grammatical meaning of each phrase is obtained in the sentence.

【0018】 彼 :主語 が :助詞 気持ち良く:修飾語 笑った :動詞 自然言語解析装置1から出力される動詞を動作パターン
生成装置2の入力として、人体動作パターンを生成す
る。具体的には動詞および人体動作パターンの対応関係
を格納した動詞・動作パターン辞書21を調べ、入力さ
れた動詞に対応した動作パターンを生成し出力する。
He: Subject: Particles Pleasant: Modifiers Laughed: Verbs A verb output from the natural language analyzer 1 is used as an input to the motion pattern generator 2 to generate a human body motion pattern. More specifically, the verb / motion pattern dictionary 21 storing the correspondence between the verb and the human body motion pattern is examined, and a motion pattern corresponding to the input verb is generated and output.

【0019】次に、人体動作パターンを生成する処理の
詳細について説明する。
Next, details of the processing for generating a human body movement pattern will be described.

【0020】動詞・動作パターン辞書21は、1つの動
詞に対して複数の人体動作パターンを対応させ、さら
に、それぞれの人体動作パターンに優先度が付与されて
いる。従って、動詞から人体動作パターンを検索すると
き、優先度の高い順に人体動作パターンを出力する。
The verb / motion pattern dictionary 21 associates a plurality of human body motion patterns with one verb, and each of the human body motion patterns is given a priority. Therefore, when retrieving a human body motion pattern from a verb, the human body motion patterns are output in descending order of priority.

【0021】図5は、図1の動作パターン生成装置2の
詳細を示すブロック図である。図5において、動作パタ
ーン制約条件辞書26は、順序を付けられた2つの前後
の人体動作パターンが適切であるか否かの情報を格納す
る。例えば、頭部が左に傾けた状態で、頭部を前後に振
るといった動作パターンは明らかに不自然で適切ではな
いと定義される。こうした前人体動作パターンから現在
生成される人体動作パターンが適切であるか否かの知識
を動作パターン制約条件辞書26の中に定義する。
FIG. 5 is a block diagram showing details of the operation pattern generation device 2 of FIG. In FIG. 5, the motion pattern constraint dictionary 26 stores information as to whether or not two ordered front and rear human body motion patterns are appropriate. For example, an action pattern in which the head is swung back and forth while the head is tilted to the left is obviously unnatural and is not appropriate. The knowledge as to whether or not the human body motion pattern currently generated from the previous human body motion pattern is appropriate is defined in the motion pattern constraint dictionary 26.

【0022】図6は、図5の動作パターン生成装置2が
人体動作パターンを生成する処理の流れを示す流れ図で
ある。
FIG. 6 is a flowchart showing the flow of the process in which the motion pattern generation device 2 of FIG. 5 generates a human body motion pattern.

【0023】まず、自然言語解析装置1から得られた動
詞を、動作パターン探索部22に入力する。このとき、
カウント発生器23から現在のカウント値(初期値が
“0”である)に“1”を加え、そのカウント値を動作
パターン探索部22に送る。
First, the verb obtained from the natural language analyzer 1 is input to the motion pattern search unit 22. At this time,
The count generator 23 adds “1” to the current count value (the initial value is “0”), and sends the count value to the operation pattern search unit 22.

【0024】以下、動作パターン生成装置2の動作につ
いて、カウント値=1の場合と、カウント値>1の場合
とに分けて説明する。 カウント値=1の場合;まず、動作パターン探索部2
2が入力された動詞を基に、動詞・動作パターン辞書2
1から優先度の最も高い人体動作パターンを取り出す。
そして、取り出された人体動作パターンを出力すると同
時に、この人体動作パターンとカウント値とを合わせて
ヒストリー記憶部24に記憶させる。 カウント値>1の場合;動作パターン探索部22が入
力された動詞を基に、動詞・動作パターン辞書21から
優先度の最も高い人体動作パターン(MPi )を取り出
す。次に、ヒストリー記憶部24から現カウント値の1
つ前の人体動作パターン(MPi-1 )を取り出す。そし
て、人体動作パターン(MPi )および(MPi-1 )を
動作パターン照合部25に送る。
Hereinafter, the operation of the operation pattern generation device 2 will be described separately for a case where the count value = 1 and a case where the count value> 1. When the count value = 1; first, the operation pattern search unit 2
Verb / operation pattern dictionary 2 based on the verb into which 2 is input
From 1, the highest priority human body motion pattern is extracted.
Then, the extracted human body movement pattern is output, and at the same time, the history storage unit 24 stores the human body movement pattern together with the count value. When the count value> 1, the motion pattern search unit 22 extracts the highest priority human body motion pattern (MP i ) from the verb / motion pattern dictionary 21 based on the input verb. Next, the current count value of 1 is stored in the history storage unit 24.
The previous human body movement pattern (MP i-1 ) is extracted. Then, the human body motion patterns (MP i ) and (MP i-1 ) are sent to the motion pattern matching unit 25.

【0025】動作パターン照合部25は、動作パターン
制約条件辞書26を参考にし、1つ前の人体動作パター
ン(MPi-1 )に対して現在の人体動作パターン(MP
i )が適切であるか否かを判断する。
The motion pattern collation unit 25 refers to the motion pattern constraint dictionary 26 to compare the current human motion pattern (MP i-1 ) with the previous human motion pattern (MP i-1 ).
Determine if i ) is appropriate.

【0026】そして、適切であると判断されると、現在
の人体動作パターン(MPi )を出力し、現在のカウン
ト値と現在の人体動作パターン(MPi )とをヒストリ
ー記憶部24に記憶させる。また、適切ではないと判断
されると、動作パターン探索部22がもう一度次に優先
度の高い人体動作パターン(MP′i-1 )を取り出す。
If it is determined that the current human body motion pattern (MP i ) is appropriate, the current count value and the current human body motion pattern (MP i ) are stored in the history storage unit 24. . On the other hand, if it is determined that the human body motion pattern is not appropriate, the motion pattern search unit 22 takes out the human body motion pattern (MP ' i-1 ) having the next highest priority again.

【0027】次に、この人体動作パターン(MP′
i-1 )と1つ前の人体動作パターン(MPi-1 )とを用
いて人体動作パターンの照合を行い、適切と判断される
まで人体動作パターンの探索・照合の処理を繰り返えす
とともに、探索されたすべての人体動作パターンが不適
切であると判断されると、優先度の最も高い人体動作パ
ターンを出力する。
Next, the human body movement pattern (MP '
i-1 ) and the immediately preceding human body movement pattern (MP i-1 ) to perform matching of the human body movement pattern, and repeat the process of searching and matching the human body movement pattern until it is determined to be appropriate. If it is determined that all of the searched human body motion patterns are inappropriate, the human body motion pattern having the highest priority is output.

【0028】さらに、自然言語解析装置1から出力され
る修飾語を動作程度生成装置3の入力として、人体動作
パターンの程度を記述する動作程度のデータを生成す
る。具体的には、修飾語および人体動作パターンの動作
程度の対応関係を格納した修飾語・動作程度辞書31を
検索し、入力された修飾語に対応した動作程度を生成し
出力する。ここで、動作程度を表現するため、数値デー
タを用いることができる。
Further, by using the modifier output from the natural language analyzer 1 as an input to the operation degree generator 3, operation degree data describing the degree of the human body operation pattern is generated. More specifically, it searches the modifier / movement degree dictionary 31 storing the correspondence between the modifier and the degree of movement of the human body movement pattern, and generates and outputs the degree of movement corresponding to the inputted modifier. Here, numerical data can be used to express the degree of operation.

【0029】動作音声同期化装置4は、自然言語解析装
置1から得られた語句を基に、動作の生成および合成音
声の出力のタイミングを一致させる機能を有する。本発
明においては、自然言語解析装置1からの句読点ではさ
まれた1区切りのテキストを動作生成と音声合成の基本
単位として考え、このテキスト中に動作を表す動詞の出
現する位置を動作生成の開始位置とする。その具体的な
処理について以下に説明する。
The operation voice synchronizing device 4 has a function of matching the timing of the generation of the operation and the output timing of the synthesized voice based on the phrase obtained from the natural language analysis device 1. In the present invention, one-segment text sandwiched by punctuation marks from the natural language analysis device 1 is considered as a basic unit of action generation and speech synthesis, and a position where a verb representing an action appears in the text is used to start the action generation. Position. The specific processing will be described below.

【0030】図4は、動作音声同期化装置4の出力する
動作・音声の時間データの一例を示す図である。図4に
おいて、まず、音声合成装置6の音声出力速度を基にし
て1語句を出力する総時間を計算する。例えば、音声合
成装置6が1文字を出力するための所要時間をt秒とす
ると、 n個の文字からなる語句の出力時間TS =n×t 秒 となる。そして、語句の始めの単語に対応して、音声の
開始時刻をtS0秒(相対時間が0秒である)とすると、 音声の終了時刻 =tS0+TS 秒 となる。また、語句の中に動詞の出現する位置がm文字
目にあるとすると、 動作生成の開始時間tm0=tS0+m×t 秒 動作時間の長さTm =(n−m)×t 秒 となる。図4には、このようにして計算された動作時間
データと音声時間データとを示す。
FIG. 4 is a diagram showing an example of operation / speech time data output from the operation sound synchronizer 4. In FIG. 4, first, the total time for outputting one word is calculated based on the voice output speed of the voice synthesizer 6. For example, assuming that the time required for the speech synthesizer 6 to output one character is t seconds, the output time of a word composed of n characters is T s = n × t seconds. Then, assuming that the start time of the voice is t S0 seconds (the relative time is 0 second) corresponding to the first word of the phrase, the end time of the voice = t S0 + T S seconds. Assuming that the verb appears in the m-th character in the phrase, the operation generation start time t m0 = ts 0 + m × t seconds The operation time length T m = (nm) × t seconds Becomes FIG. 4 shows the operation time data and the voice time data calculated in this way.

【0031】次に、動作映像生成装置5は、動作パター
ン生成装置2からの人体動作パターン、動作程度生成装
置3からの動作程度、および動作音声同期化装置4から
の動作時間データを含む動作生成命令を入力として、デ
ィスプレイ装置やVTRなどに人体動作の時系列画像を
出力する。この動作映像生成装置5においては、人体動
作パターンを複数の動作モジュールの合成による生成方
式(例えば、呂山,吉坂主旬,宮井均:「人体動作生成
システムの提案」,情報処理学会第47回全国大会講演
論文集(2),345−346,1993年)を利用す
る。
Next, the motion video generation device 5 generates a motion including the human body motion pattern from the motion pattern generation device 2, the motion degree from the motion degree generation device 3, and the motion time data from the motion audio synchronization device 4. With the command as input, a time-series image of human body motion is output to a display device, a VTR, or the like. In this operation image generating device 5, generation by synthesis of a plurality of operating modules of the human body movement pattern scheme (e.g., Ryoyama, Kichisaka main season, Hitoshi Miyai: "Proposed human body motion generating system", IPSJ 47 Annual National Conference Lecture Papers (2), 345-346, 1993).

【0032】続いて、音声合成装置6については、既存
の音声規則合成手法を利用することができる(山本誠
一,樋口宜男,清水水徹:「テキスト編集機能付き音声
規則合成装置の試作」,電子情報通信学会技術報告SP
87−137,1988年3月)。そして、自然言語解
析装置1からの語句と動作音声同期化装置4からの時間
データを含む音声出力命令を入力として、音声を合成し
出力する。
Subsequently, the existing speech rule synthesizing method can be used for the speech synthesizer 6 (Seiichi Yamamoto, Yoshio Higuchi, Toru Shimizu: "Trial production of speech rule synthesizer with text editing function", IEICE Technical Report SP
87-137, March 1988). Then, the speech is synthesized and output by using as input the words from the natural language analysis device 1 and the voice output command including the time data from the operation voice synchronization device 4.

【0033】図2は、第2の発明の一実施例の構成を示
すブロック図である。本実施例は、図2に示すように、
A装置100から出力される動作生成命令と音声生成命
令とを人間可読のテキストである文章動作記述ファイル
変換する動作音声生成命令・テキスト変換装置7と、こ
の動作音声生成命令・テキスト変換装置7に変換された
文章動作記述ファイルを格納する文章動作記述ファイル
蓄積装置8と、この文章動作記述ファイル蓄積装置8か
らの文章動作記述ファイルを動作生成命令と音声生成命
令とに変換し、B装置200に出力するテキスト・動作
音声生成命令変換装置9とから構成される。
FIG. 2 is a block diagram showing the configuration of one embodiment of the second invention. In the present embodiment, as shown in FIG.
The operation voice generation command / text converter 7 converts the motion generation command and the voice generation command output from the A device 100 into a sentence motion description file which is a human-readable text, and the operation voice generation command / text converter 7 A sentence action description file storage device 8 that stores the converted sentence action description file, and the sentence action description file from the sentence action description file storage device 8 is converted into an action generation command and a speech generation command, and the B device 200 And a text / action voice generation command conversion device 9 to be output.

【0034】なお、A装置100は、動作パターン生成
装置2,動作程度生成装置3および動作音声同期化装置
4を含み、B装置200は、動作映像生成装置5および
音声合成装置6を含んでいるが、これらA装置100お
よびB装置200については、第1の発明の実施例にお
いて既に説明済みであり、重複を避けるために省略し、
図2の他の部分について説明する。
The A device 100 includes an operation pattern generation device 2, an operation degree generation device 3, and an operation audio synchronization device 4, and the B device 200 includes an operation video generation device 5 and an audio synthesis device 6. However, these A device 100 and B device 200 have already been described in the embodiment of the first invention, and are omitted to avoid duplication.
The other part of FIG. 2 will be described.

【0035】本実施例では、A装置100から出力され
る動作生成命令と音声生成命令とを動作音声生成命令・
テキスト変換装置7により文章動作記述ファイルのフォ
ーマットに合ったテキストファイルに変換する。
In this embodiment, the operation generation command and the voice generation command output from the A device 100 are
The text converting device 7 converts the text file into a text file conforming to the format of the text description file.

【0036】図3は、このフォーマットの一例を示す図
である。図3において、テキストファイルに書き込まれ
たテキスト文章に対し、このテキスト中に含まれる動詞
と同じ位置に、アンダーラインマークを付け、さらに、
そのアンダーラインマークの下にA装置100が生成し
た人体動作パターン名,人体動作パターンの動作程度の
パラメータpと動作時間の長さtとを記述する。
FIG. 3 is a diagram showing an example of this format. In FIG. 3, an underline mark is added to the text sentence written in the text file at the same position as the verb included in the text, and
Below the underline mark, the name of the human body motion pattern generated by the A device 100, the parameter p of the degree of motion of the human body motion pattern, and the length of operation time t are described.

【0037】次に、動作音声生成命令・テキスト変換装
置7により変換された文章動作記述ファイルを磁気ディ
スク装置などの外部記憶装置から構成される文章動作記
述ファイル蓄積装置8に格納する。この格納した文章動
作記述ファイルは、可読なテキストファイルの形式であ
るため、一般に市販されているテキストエディターを利
用して、動作の修正などを容易に行うことができる。
Next, the sentence action description file converted by the action voice generation command / text converter 7 is stored in a sentence action description file storage device 8 composed of an external storage device such as a magnetic disk device. Since the stored sentence operation description file is in the form of a readable text file, the operation can be easily corrected using a generally available text editor.

【0038】テキスト・動作音声生成命令変換装置9
は、動作音声生成命令・テキスト変換装置7とは反対
に、文章動作記述ファイル書き込まれた人体動作パター
ン,人体動作パターンの動作程度および動作時間データ
を読み出し、B装置200中の動作映像生成装置5に入
力の動作生成命令に変換する。続いて、文章動作記述フ
ァイル書き込まれたテキストを読み出し、動作音声同期
化装置4で用いられた音声時間のデータの生成方法を利
用して、音声出力用のテキストと音声時間データを生成
し、音声合成装置6に入力し音声の出力を行う。
Text / operation voice generation command converter 9
Reads the human body motion pattern, the degree of motion of the human body motion pattern, and the operation time data written in the text motion description file, as opposed to the motion voice generation command / text conversion device 7, and reads the motion video generation device 5 in the B device 200. Is converted into an operation generation instruction. Then, the text written in the sentence action description file is read out, and a text for voice output and voice time data are generated by using the voice time data generation method used in the motion voice synchronization device 4. The sound is input to the synthesizing device 6 and is output.

【0039】[0039]

【発明の効果】以上説明したように、本発明のテキスト
からの人体動作音声生成システムは、入力された自然言
語のテキストを合成音声で出力し、音声と同期が取れた
人体動作を自動的に生成することができる。
As described above, the human body motion sound generation system from text according to the present invention outputs an input natural language text as synthesized speech and automatically performs human body motion synchronized with the voice. Can be generated.

【0040】また、元のテキストに近い形の動作音声記
述ファイルを作成し、普通のテキストエディターでその
ファイルを編集することにより、最終的に生成される人
体動作の調整を行うことができる。
Further, by creating a motion sound description file in a form close to the original text and editing the file with a normal text editor, it is possible to adjust the finally generated human body motion.

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1の発明の一実施例の構成を示すブロック図
である。
FIG. 1 is a block diagram showing a configuration of an embodiment of the first invention.

【図2】第2の発明の一実施例の構成を示すブロック図
である。
FIG. 2 is a block diagram showing a configuration of one embodiment of the second invention.

【図3】文章動作記述ファイルのフォーマットの一例を
示す図である。
FIG. 3 is a diagram illustrating an example of a format of a sentence action description file.

【図4】本実施例の動作音声同期化装置の出力する動作
・音声の時間データの一例を示す図である。
FIG. 4 is a diagram showing an example of operation / speech time data output by the operation / sound synchronizer of the embodiment.

【図5】図1の動作パターン生成装置の詳細を示すブロ
ック図である。
FIG. 5 is a block diagram showing details of the operation pattern generation device of FIG. 1;

【図6】図5の動作パターン生成装置が人体動作パター
ンを生成する処理の流れを示す流れ図である。
FIG. 6 is a flowchart showing a flow of a process in which the motion pattern generation device of FIG. 5 generates a human body motion pattern.

【符号の説明】[Explanation of symbols]

1 自然言語解析装置 2 動作パターン生成装置 3 動作程度生成装置 4 動作音声同期化装置 5 動作映像生成装置 6 音声合成装置 7 動作音声生成命令・テキスト変換装置 8 文章動作記述ファイル蓄積装置 9 テキスト・動作音声生成命令変換装置 21 動詞・動作パターン辞書 22 動作パターン探索部 23 カウント発生器 24 ヒストリー記憶部 25 動作パターン照合部 26 動作パターン制約条件辞書 31 修飾語・動作程度辞書 100 A装置 200 B装置 DESCRIPTION OF SYMBOLS 1 Natural language analysis device 2 Operation pattern generation device 3 Operation degree generation device 4 Operation voice synchronizing device 5 Operation video generation device 6 Voice synthesis device 7 Operation voice generation command / text conversion device 8 Text operation description file storage device 9 Text / operation Speech generation command converter 21 Verb / operation pattern dictionary 22 Operation pattern search unit 23 Count generator 24 History storage unit 25 Operation pattern matching unit 26 Operation pattern constraint dictionary 31 Modifier / operation degree dictionary 100 A device 200 B device

フロントページの続き (56)参考文献 特開 平6−52290(JP,A) 特開 平4−264972(JP,A) 特開 昭63−59665(JP,A) 光永知生、三浦恒、倉内喜孝、「音声 同期アニメーション生成システム」、テ レヒジョン学会技術報告、Vol.17、 No.28、p.17−22(1993) 吉坂主旬、呂山、神谷俊之、一色敬、 宮井均、「人体の動作を利用した擬人化 エージェントに対する考察 モジュール 型人体動作生成とその応用について」、 情報処理学会研究報告、Vol.94、N o.31(HI−54)、p.41−48 (1994) (58)調査した分野(Int.Cl.6,DB名) G06F 17/00 G06T 13/00 G10L 3/00 G06F 17/28 JICSTファイル(JOIS)Continuation of the front page (56) References JP-A-6-52290 (JP, A) JP-A-4-264972 (JP, A) JP-A-63-59665 (JP, A) Tomio Mitsunaga, Tsune Miura, Yoshitaka Kurauchi , "Sound Synchronized Animation Generation System", Technical Report of the Telegraph John Society, Vol. 17, No. 28, p. 17-22 (1993) Yoshizaka, Shun, Ryoyama, Kamiya Toshiyuki, Isshiki Takashi, Miyai Hitoshi, "Thinking about anthropomorphic agents using human body movements, Modular human body movement generation and its application," Information Processing Society of Japan research report Vol. 94, No. 31 (HI-54), p. 41-48 (1994) (58) Fields investigated (Int. Cl. 6 , DB name) G06F 17/00 G06T 13/00 G10L 3/00 G06F 17/28 JICST file (JOIS)

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 テキストから動詞や副詞などの単語を取
り出す自然言語解析手段と、 動詞などの動作を表す単語と人体動作パターンの対応関
係を記述する動詞・動作パターン辞書と、 前記自然言語解析手段で抽出された動詞を用いて前記動
詞・動作パターン辞書を検索し人体動作パターンを生成
する動作パターン生成手段と、 動詞を修飾する副詞などの修飾語と動作の程度の対応関
係を記述する修飾語・動作程度辞書と、 前記自然言語解析手段で抽出された修飾語を用いて前記
修飾語・動作程度辞書を検索し前記人体動作パターンの
動作程度を生成する動作程度生成手段と、 動作映像出力と合成音声出力とを同期させるためのテキ
スト中の動詞の出現位置を動作生成の開始時刻に対応付
けた動作時間データ、およびテキストの長さから計算さ
れるテキストの読み上げ時間を含む音声時間データを出
力する動作音声同期化手段と、 前記人体動作パターン,動作程度および動作時間データ
を含む動作生成命令を入力とし人体動作の時系列映像デ
ータを生成し表示手段に出力する動作映像生成手段と、 前記テキストおよび前記音声時間データを含む音声生成
命令を入力とし規則音声合成方法で音声を出力する音声
合成手段とを備えることを特徴とするテキストからの人
体動作音声生成システム。
1. A natural language analyzing means for extracting words such as verbs and adverbs from text, a verb / movement pattern dictionary describing correspondence between words representing actions such as verbs and human body movement patterns; An operation pattern generating means for searching the verb / operation pattern dictionary using the verb extracted in step 1 and generating a human body operation pattern; and a modifier describing a correspondence between a modifier such as an adverb modifying the verb and the degree of operation. An operation degree dictionary; an operation degree generation unit that searches the modifier / operation degree dictionary using the modifier extracted by the natural language analysis unit and generates an operation degree of the human body operation pattern; Calculates the verb appearance position in the text to synchronize with the synthesized speech output from the operation time data that correlates to the start time of the operation generation, and the text length Voice synchronizing means for outputting voice time data including a text-to-speech time to be read, and generating and displaying time-series video data of human body motion by inputting a motion generation command including the human body motion pattern, motion degree and motion time data. Motion video generating means for outputting to the means, and voice synthesizing means for receiving a voice generating instruction including the text and the voice time data as input and outputting voice by a regular voice synthesizing method. Voice generation system.
【請求項2】 請求項1記載のテキストからの人体動作
音声生成システムにおいて、前記動作パターン生成手
段,前記動作程度生成手段および前記動作音声同期化手
段から出力される前記動作生成命令と前記音声生成命令
とを外部のエディタで修正可能なテキストファイル形式
文章動作記述ファイルに変換する動作音声生成命令・
テキスト変換手段と、前記動作音声生成命令・テキスト
変換手段に変換された文章動作記述ファイルを格納する
文章動作記述ファイル蓄積手段と、前記文章動作記述フ
ァイル蓄積手段からの文章動作記述ファイルを前記動作
生成命令と音声生成命令とに変換し前記動作映像生成手
段および前記音声合成手段に出力するテキスト・動作音
声生成命令変換手段とを備え、前記外部のエディタで前
記文章動作記述ファイルを修正できるようにしたことを
特徴とするテキストからの人体動作音声生成システム。
2. The system according to claim 1, wherein the motion generation command output from the motion pattern generation means, the motion degree generation means, and the motion voice synchronization means, and the voice generation. Text file format that can modify instructions and external editor
An operation voice generation instruction to convert to a text operation description file
Text conversion means, text motion description file storage means for storing the text motion description file converted by the motion voice generation command / text conversion means, and text motion description file from the text motion description file storage means for generating the motion. A text / motion sound generation command conversion means for converting the text motion description file into a command and a voice generation command, and outputting the text / motion voice generation command to the motion video generation means and the voice synthesis means, so that the external action editor can modify the text motion description file. A human body motion sound generation system from text.
【請求項3】 前記文章動作記述ファイルは人間可読の
テキストであることを特徴とする請求項2記載のテキス
トからの人体動作音声生成システム。
3. The system according to claim 2, wherein the text motion description file is a human-readable text.
JP12600294A 1994-06-08 1994-06-08 Human Body Motion Speech Generation System from Text Expired - Fee Related JP2976811B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12600294A JP2976811B2 (en) 1994-06-08 1994-06-08 Human Body Motion Speech Generation System from Text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12600294A JP2976811B2 (en) 1994-06-08 1994-06-08 Human Body Motion Speech Generation System from Text

Publications (2)

Publication Number Publication Date
JPH07334507A JPH07334507A (en) 1995-12-22
JP2976811B2 true JP2976811B2 (en) 1999-11-10

Family

ID=14924301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12600294A Expired - Fee Related JP2976811B2 (en) 1994-06-08 1994-06-08 Human Body Motion Speech Generation System from Text

Country Status (1)

Country Link
JP (1) JP2976811B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301953A (en) * 1997-04-28 1998-11-13 Just Syst Corp Image managing device, image retrieving device, image managing method, image retrieving method, and computer-readable recording medium recording program for allowing computer to execute these methods
JP3968277B2 (en) 2002-08-26 2007-08-29 株式会社日立製作所 Mail server, program for realizing the mail server, and portable terminal
KR100571835B1 (en) 2004-03-04 2006-04-17 삼성전자주식회사 Apparatus and Method for generating recording sentence for Corpus and the Method for building Corpus using the same
US7812840B2 (en) 2004-11-30 2010-10-12 Panasonic Corporation Scene modifier representation generation apparatus and scene modifier representation generation method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
光永知生、三浦恒、倉内喜孝、「音声同期アニメーション生成システム」、テレヒジョン学会技術報告、Vol.17、No.28、p.17−22(1993)
吉坂主旬、呂山、神谷俊之、一色敬、宮井均、「人体の動作を利用した擬人化エージェントに対する考察 モジュール型人体動作生成とその応用について」、情報処理学会研究報告、Vol.94、No.31(HI−54)、p.41−48(1994)

Also Published As

Publication number Publication date
JPH07334507A (en) 1995-12-22

Similar Documents

Publication Publication Date Title
JP2003295882A (en) Text structure for speech synthesis, speech synthesizing method, speech synthesizer and computer program therefor
US6549887B1 (en) Apparatus capable of processing sign language information
JP2009139677A (en) Voice processor and program therefor
JP2976811B2 (en) Human Body Motion Speech Generation System from Text
JP2003271194A (en) Voice interaction device and controlling method thereof
JP3706758B2 (en) Natural language processing method, natural language processing recording medium, and speech synthesizer
EP0982684A1 (en) Moving picture generating device and image control network learning device
JPH08335096A (en) Text voice synthesizer
JP2001042879A (en) Karaoke device
JP3446342B2 (en) Natural language processing method and speech synthesizer
JPH1165597A (en) Voice compositing device, outputting device of voice compositing and cg synthesis, and conversation device
JP2005181840A (en) Speech synthesizer and speech synthesis program
JP2002123281A (en) Speech synthesizer
JP3314106B2 (en) Voice rule synthesizer
JPH09305197A (en) Method and device for voice conversion
JPH11231899A (en) Voice and moving image synthesizing device and voice and moving image data base
JP2000056788A (en) Meter control method of speech synthesis device
JP2001013982A (en) Voice synthesizer
JPH04199421A (en) Document read-aloud device
JPH11296193A (en) Voice synthesizer
JP3279261B2 (en) Apparatus, method, and recording medium for creating a fixed phrase corpus
JP2003280680A (en) Speech synthesizing device, and method, program and storage medium therefor
JPH0634175B2 (en) Text-to-speech device
JP3446341B2 (en) Natural language processing method and speech synthesizer
JP3573889B2 (en) Audio output device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990810

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees