JPH05313686A - Display controller - Google Patents

Display controller

Info

Publication number
JPH05313686A
JPH05313686A JP4109357A JP10935792A JPH05313686A JP H05313686 A JPH05313686 A JP H05313686A JP 4109357 A JP4109357 A JP 4109357A JP 10935792 A JP10935792 A JP 10935792A JP H05313686 A JPH05313686 A JP H05313686A
Authority
JP
Japan
Prior art keywords
text
voice
animation
unit
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4109357A
Other languages
Japanese (ja)
Inventor
Keiko Sakuragi
恵子 桜木
Masanobu Sakaguchi
正信 坂口
Shigeko Asano
薫子 浅野
Fumitaka Kawate
史隆 川手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP4109357A priority Critical patent/JPH05313686A/en
Publication of JPH05313686A publication Critical patent/JPH05313686A/en
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

PURPOSE:To output an optional voice and an image synchronously. CONSTITUTION:A voice synthesis part 12 calculates parameters for synthesizing a voice corresponding to a text supplied from a application program 14 through a control part 11. Then, when a mouse is operated and a speak button is clicked, a control part 11 outputs an actuation instruction to a voice synthesis part 12 and an animation display part 13, and the voice synthesis part 12 outputs the parameters for synthesizing the voice corresponding to the text to a voice synthesizer, which synthesizes the voice according to the parameters. At the same time, the animation display part 13 outputs an animation corresponding to the motion of the mouse for vocalizing the text in order.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、例えば英語の発音を学
習させるCAIシステムなどに適用して好適な表示制御
装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a display controller suitable for application to, for example, a CAI system for learning English pronunciation.

【0002】[0002]

【従来の技術】従来のCAIシステムにおいては、あら
かじめ、例えばハードディスクなどに記録しておいた音
声信号と画像信号を読み出し、所定の同期信号に同期さ
せて音声に対応した画像(画像に対応した音声)を出力
することができるようになっている。
2. Description of the Related Art In a conventional CAI system, an audio signal and an image signal previously recorded in, for example, a hard disk are read out, and an image corresponding to the audio (audio corresponding to the image is synchronized with a predetermined synchronization signal). ) Can be output.

【0003】これにより、例えば音声信号としてネイテ
ィブスピーカの発声した英語をハードディスクにあらか
じめ記録しておくとともに、画像信号としてその英語が
発声されるときの口の動き(動作)を行うアニメーショ
ンをハードディスクにあらかじめ記録しておけば、使用
者に英語の発音と、その英語が発声されるときの口の動
きとを同時に学習させることができる。
Thus, for example, the English uttered by the native speaker is recorded in advance in the hard disk as an audio signal, and the animation of the mouth movement (motion) when the English is uttered as the image signal is recorded in the hard disk in advance. If recorded, the user can learn the pronunciation of English and the movement of the mouth when the English is uttered at the same time.

【0004】[0004]

【発明が解決しようとする課題】このように、従来のC
AIシステムでは、あらかじめ音声信号と画像信号とを
ハードディスクに記録させておく必要がある。従って、
例えば単語単位で記録しておいた有限数の音声信号と画
像信号に対応する音声と画像しか出力することができ
ず、使用者に学習させる範囲が限定されてしまう課題が
あった。
As described above, the conventional C
In the AI system, it is necessary to record the audio signal and the image signal in the hard disk in advance. Therefore,
For example, there is a problem that only a finite number of voice signals and image and voices and images corresponding to image signals recorded in units of words can be output, and the range for learning by the user is limited.

【0005】そこで、ハードディスクに記録させておく
英単語に対応する音声信号と画像信号を順次追加する方
法がある。しかしながら、この方法では、ハードディス
クに記録されていない音声信号と画像信号が発見される
たびに、即ち使用者が学習しているときに、学習を中断
させて、その音声信号と画像信号とを追加記録しなけれ
ばならないので、学習者の興味をそいでしまう課題があ
った。
Therefore, there is a method of sequentially adding audio signals and image signals corresponding to English words to be recorded on the hard disk. However, in this method, every time an audio signal and an image signal which are not recorded in the hard disk are found, that is, when the user is learning, the learning is interrupted and the audio signal and the image signal are added. Since it had to be recorded, there was a problem that attracted learners' interest.

【0006】本発明は、このような状況に鑑みてなされ
たものであり、任意の音声を画像と同期させて出力する
ことができるようにするものである。
The present invention has been made in view of such a situation, and it is possible to output an arbitrary sound in synchronization with an image.

【0007】[0007]

【課題を解決するための手段】請求項1に記載の表示制
御装置は、テキストから音声を合成して出力する音声合
成手段としての音声合成器1および音声合成部12と、
テキストに対応して例えばアニメーションなどの動画像
を表示する表示手段としてのCRT3およびアニメ表示
部13と、音声合成器1および音声合成部12により合
成された音声と、CRT3およびアニメ表示部13によ
り表示されたアニメーションとを同期させる同期手段と
してのコントロール部11とを備えることを特徴とす
る。
A display controller according to a first aspect of the present invention includes a voice synthesizer 1 and a voice synthesizer 12 as a voice synthesizer for synthesizing and outputting voice from text.
A CRT 3 and an animation display unit 13 as display means for displaying a moving image such as an animation corresponding to a text, a voice synthesized by the voice synthesizer 1 and a voice synthesis unit 12, and a CRT 3 and an animation display unit 13 are displayed. It is characterized by comprising a control unit 11 as a synchronizing means for synchronizing the generated animation.

【0008】この表示制御装置は、CRT3およびアニ
メ表示部13に、テキストに対応して口が動くアニメー
ションを表示させることができる。
This display control device can cause the CRT 3 and the animation display section 13 to display an animation in which the mouth moves in accordance with the text.

【0009】[0009]

【作用】請求項1に記載の表示制御装置においては、テ
キストから合成された音声と、テキストに対応して動く
アニメーションとを同期させて出力する。従って、任意
の音声をアニメーションと同期させて出力するようにす
ることができる。
In the display control device according to the first aspect, the voice synthesized from the text and the animation that moves corresponding to the text are output in synchronization. Therefore, it is possible to output any voice in synchronization with the animation.

【0010】CRT3およびアニメ表示部13に、テキ
ストに対応して口が動くアニメーションを表示させるこ
とができる場合においては、例えばCAIシステムなど
に適用することにより、学習者の興味がひきつけられ、
学習効果を向上させることができる。
When the animation in which the mouth moves corresponding to the text can be displayed on the CRT 3 and the animation display unit 13, the learner's interest can be attracted by applying it to the CAI system, for example.
The learning effect can be improved.

【0011】[0011]

【実施例】図1は、本発明の表示制御装置を応用したC
AIシステムの一実施例の構成を示すブロック図であ
る。端末2は、RS232−Cケーブル7を介して音声
合成器1に接続され、CRT3、例えばUNIX用のワ
ークステーション(EWS)4、キーボード5、および
マウス6より構成されている。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows a C to which the display control device of the present invention is applied.
It is a block diagram which shows the structure of one Example of AI system. The terminal 2 is connected to the voice synthesizer 1 via an RS232-C cable 7, and is composed of a CRT 3, for example, a workstation (EWS) 4 for UNIX, a keyboard 5, and a mouse 6.

【0012】EWS4は、装置全体を制御するCPU、
システムプログラムなどを記憶しているROM、および
装置の動作上必要なデータを記憶するRAM(いずれも
図示せず)などより構成され、オペレーションシステム
としての例えばUNIXオペレーションシステム、およ
びCRT3に表示される(オープンされる)ウインドウ
などを制御する制御プログラムとしての例えばXウイン
ドウシステムがインストールされている。
The EWS 4 is a CPU that controls the entire apparatus,
It is composed of a ROM that stores a system program and the like, and a RAM (none of which is shown) that stores data necessary for the operation of the apparatus, and is displayed on, for example, a UNIX operation system as an operation system and a CRT 3 ( For example, an X window system is installed as a control program for controlling (opened) windows and the like.

【0013】CRT3は、EWS4にインストールされ
たXウインドウシステムに制御され、EWS4より出力
される信号に対応して、例えばアニメーションやキーボ
ード5で入力されたテキスト(文字列)などを表示す
る。キーボード5およびマウス6は、EWS4に接続さ
れており、テキストを作成したり、またはEWS4に対
してコマンドを発する場合に操作される。
The CRT 3 is controlled by the X window system installed in the EWS 4 and displays, for example, an animation or a text (character string) input by the keyboard 5 in response to a signal output from the EWS 4. The keyboard 5 and the mouse 6 are connected to the EWS 4 and are operated when creating text or issuing a command to the EWS 4.

【0014】音声合成器1は、EWS4よりRS232
−Cケーブル7を介して供給される音声の特徴パラメー
タから音声を合成して、内蔵するスピーカ(図示せず)
より出力する。
The voice synthesizer 1 uses RS232 from EWS4.
-A speaker (not shown) that synthesizes voice from the characteristic parameters of the voice supplied via the C cable 7 and is built in
Output more.

【0015】図1に示すCAIシステムは、英語学習用
のもので、学習者が自由に試行錯誤しながら能動的に思
考することができる環境提供型、且つコミュニケーショ
ン型(双方主導型)のシステムであり、 ○シミュレーション機能 ○検索機能 ○ユーザ・フレンドリなインタフェース を有し、マルチメディアを駆使して、範囲にとらわれな
い学習、および様々な学習方法を提供することができる
ようになっている。
The CAI system shown in FIG. 1 is for learning English, and is an environment-providing type and communication type (both sides initiative type) system in which a learner can think actively by trial and error. Yes, ○ Simulation function ○ Search function ○ Has a user-friendly interface, and by using multimedia, it is possible to provide learning that is not bound by the range and various learning methods.

【0016】さらに、このCAIシステムは、楽しい学
校の雰囲気を出すため、 ・「STUDY」 ・「POST OFFICE」 ・「LIBRARY」 ・「PLAYROOM」 ・「LABORATORY」 と呼ばれる5つのサブシステムから構成される。
Further, this CAI system is composed of five subsystems called "STUDY", "POST OFFICE", "LIBRARY", "PLAYROOM", and "LABORATORY" in order to create a pleasant school atmosphere.

【0017】サブシステム「STUDY」は、教科書に
基づいて英語の文法的基礎を学び、内容を理解し、さら
には知識の定着をはかるための問題演習などを行なう、
基礎学習室である。
The subsystem "STUDY" learns the grammatical basics of English based on textbooks, understands the contents, and also carries out problem exercises to establish knowledge.
It is a basic learning room.

【0018】サブシステム「POST OFFICE」
は、実用的な英語での表現や手紙の書式を身につける手
助けをするために、英文で手紙を書いて送ることをシミ
ュレートするものである。
Subsystem "POST OFFICE"
Simulates writing and sending letters in English to help you learn practical English expressions and letter formats.

【0019】サブシステム「LIBRARY」は、シス
テム(各サブシステム)内で使用される言葉をデータベ
ースとして持ち、他のサブシステムから自由に検索・参
照できる支援ツールである。このサブシステムでは、絵
や音も提供されるので、日本語を経由することなく視覚
聴覚の助けによって、学習者に言葉のイメージを捕えさ
せることができるようになっている。
The subsystem "LIBRARY" is a support tool which has a database of words used in the system (each subsystem) and which can be freely searched / referenced from other subsystems. This subsystem also provides pictures and sounds so that the learner can capture the image of the words without the help of Japanese and with the aid of visual and auditory senses.

【0020】サブシステム「PLAYROOM」は、英
語の勉強に対する、学習者の興味、関心が失われてしま
うのを防止するためのもので、知的なゲームで遊びなが
ら、知らず知らずのうちに、英語を学習することができ
るようになっている。
The subsystem "PLAYROOM" is intended to prevent the learner's interest in studying English from being lost, and he / she can play English games without hesitation. You are able to learn.

【0021】サブシステム「LABORATORY」
は、英語による会話の実験をするためのもので、画像と
音声を組合せ、実際に人と会話しているかのような状況
(仮想状況)を作り、その中で学習者に英会話を体験さ
せることができるようになっている。
Subsystem "LABORATORY"
Is an experiment for conversation in English. By combining images and sounds, we create a situation (virtual situation) as if we are actually talking to a person, and let the learner experience English conversation in it. You can do it.

【0022】サブシステム「LABORATORY」
は、アプリケーション14、並びに実際に人と会話して
いるかのような状況(仮想状況)を作り出すためのユー
ザインターフェースとしてのコントロール部11、音声
合成部12、およびアニメ表示部13より構成される
(図2)。
Subsystem "LABORATORY"
Is composed of an application 14, and a control unit 11 as a user interface for creating a situation (virtual situation) as if one were actually talking to a person, a voice synthesis unit 12, and an animation display unit 13 (see FIG. 2).

【0023】コントロール部11は、音声合成部12お
よびアニメ表示部13を制御し、音声合成部12(音声
合成器1)により合成される音声と、アニメ表示部13
によりCRT3に表示されるアニメーションの口の動き
とを同期させる。さらに、コントロール部11は、アプ
リケーション14より供給されるテキストの文字数、テ
キストに含まれるカンマ(,)の数、またはピリオ
ド(.)の数をそれぞれカウントし、CRT3に表示さ
れるアニメーションの表示時間(アニメーションの口を
動かす時間)を算出してアニメ表示部13に出力する。
音声合成部12は、コントロール部11を介してアプリ
ケーション14より供給されるテキスト(文字列)か
ら、音声を合成するためのパラメータを算出し、音声合
成器1に出力する。アニメ表示部13は、コントロール
部11の制御にしたがって、セルフレームデータ記憶部
13a(図6)に記憶された、アニメーション(アニメ
ーションの口)を動かすためのセルフレームデータを読
み出し、CRT3に出力する。セルフレームデータ記憶
部13aには、アニメーション(アニメーションの口)
を動かすためのセルフレームデータ(図8)が記憶され
ている。
The control unit 11 controls the voice synthesizing unit 12 and the animation display unit 13, and the voice synthesized by the voice synthesizing unit 12 (voice synthesizer 1) and the animation display unit 13 are controlled.
To synchronize the movement of the mouth of the animation displayed on the CRT 3. Further, the control unit 11 counts the number of characters of the text supplied from the application 14, the number of commas (,), or the number of periods (.) Included in the text, respectively, and displays the animation display time (CRT3). The time for moving the mouth of the animation) is calculated and output to the animation display unit 13.
The voice synthesizing unit 12 calculates a parameter for synthesizing voice from a text (character string) supplied from the application 14 via the control unit 11, and outputs the parameter to the voice synthesizer 1. Under the control of the control unit 11, the animation display unit 13 reads the cell frame data for moving the animation (animation mouth) stored in the cell frame data storage unit 13a (FIG. 6) and outputs it to the CRT 3. An animation (animation mouth) is stored in the cell frame data storage unit 13a.
The cell frame data (FIG. 8) for moving the cell are stored.

【0024】アプリケーション14は、サブシステム
「LABORATORY」におけるアプリケーション
で、例えば図3に示すように、対話処理部21、言語処
理部22、知識データベース検索部23、および知識デ
ータベース24より構成される。対話処理部21は、様
々な状況に関するスクリプトと対話履歴を記憶(保持)
し、これらを基に対話の流れを管理する。
The application 14 is an application in the subsystem "LABORATORY", and comprises a dialogue processing section 21, a language processing section 22, a knowledge database searching section 23, and a knowledge database 24, as shown in FIG. The dialogue processing unit 21 stores (holds) scripts and dialogue history relating to various situations.
And manage the flow of dialogue based on these.

【0025】言語処理部22は、解析部と生成部(いず
れも図示せず)より構成される。言語処理部22の解析
部は、キーボード5で入力された英語文の構文解析、お
よび意味解析を行い、内部表現に変換して、知識データ
ベース検索部23に供給する。言語処理部22の生成部
は、知識データベース検索部23より返された回答と、
対話処理部21からの指示(制御)に基づき英語文を生
成し、コントロール部11(図2)に出力する。
The language processing unit 22 is composed of an analysis unit and a generation unit (neither is shown). The analysis unit of the language processing unit 22 performs syntactic analysis and semantic analysis of the English sentence input by the keyboard 5, converts the sentence into an internal representation, and supplies the internal representation to the knowledge database search unit 23. The generation unit of the language processing unit 22 uses the answer returned from the knowledge database search unit 23,
An English sentence is generated based on an instruction (control) from the dialogue processing unit 21 and output to the control unit 11 (FIG. 2).

【0026】知識データベース検索部23は、言語処理
部22の解析部より供給された内部表現に対する返答
を、知識データベース24に記憶されているデータベー
スから検索して言語処理部22の生成部に出力する。知
識データベース24には、質問に対する返答パターンな
どが内部表現の形で記憶されている。
The knowledge database search unit 23 searches the database stored in the knowledge database 24 for a response to the internal expression supplied from the analysis unit of the language processing unit 22 and outputs it to the generation unit of the language processing unit 22. .. The knowledge database 24 stores reply patterns to questions in the form of internal expressions.

【0027】次に、その動作について説明する。まず、
図1に示すCAIシステムにおいて、キーボード5また
はマウス6が操作され、図3に示すアプリケーション1
4が起動されると、CRT3に図4に示すような、先生
としてのアニメーション32と、CAIシステムの使用
者、即ち学習者本人としてのアニメーション31が表示
される。さらに、キーボード5が操作され、質問文とし
てのテキスト33(What is the fastest train in Jap
an?)が入力されると、Xウインドウシステムに制御さ
れたCRT3のウインドウ上にテキスト33が表示され
るとともに、アプリケーション14の言語処理部22
(図3)にテキスト33が供給される。
Next, the operation will be described. First,
In the CAI system shown in FIG. 1, the keyboard 5 or the mouse 6 is operated and the application 1 shown in FIG.
4 is activated, an animation 32 as a teacher and an animation 31 as a user of the CAI system, that is, the learner himself are displayed on the CRT 3 as shown in FIG. Further, the keyboard 5 is operated, and the text 33 (What is the fastest train in Jap as a question sentence is displayed.
an?) is input, the text 33 is displayed on the window of the CRT 3 controlled by the X window system, and the language processing unit 22 of the application 14 is displayed.
The text 33 is provided (FIG. 3).

【0028】言語処理部22の解析部において、キーボ
ード5で入力されたテキスト33の構文解析、および意
味解析が行われ、内部表現に変換されて、知識データベ
ース検索部23に供給される。知識データベース検索部
23において、言語処理部22の解析部より供給された
内部表現に対する返答が、知識データベース24に記憶
されているデータベースから検索され言語処理部22の
生成部に出力される。言語処理部22の生成部におい
て、知識データベース検索部23より返された回答と、
対話処理部21からの指示(制御)に基づきテキスト3
4(図4)(Thefastest train in Japan is Shinkanse
n.)が生成され、コントロール部11(図2)に出力さ
れる。
In the analysis section of the language processing section 22, the text 33 input by the keyboard 5 is subjected to syntax analysis and semantic analysis, converted into an internal representation, and supplied to the knowledge database search section 23. In the knowledge database search unit 23, the reply to the internal expression supplied from the analysis unit of the language processing unit 22 is searched from the database stored in the knowledge database 24 and output to the generation unit of the language processing unit 22. In the generation unit of the language processing unit 22, the answer returned from the knowledge database search unit 23,
Text 3 based on an instruction (control) from the dialogue processor 21
4 (Figure 4) (The fastest train in Japan is Shinkanse
n.) is generated and output to the control unit 11 (FIG. 2).

【0029】コントロール部11において、アプリケー
ション14より供給されたテキスト34の文字数、テキ
スト34に含まれるカンマ(,)の数、またはピリオド
(.)の数がそれぞれカウントされ、CRT3に表示さ
れた先生としてのアニメーション32の表示時間(アニ
メーション32の口を動かす時間)が算出され、アニメ
表示部13に供給される。
In the control section 11, the number of characters of the text 34 supplied from the application 14, the number of commas (,), or the number of periods (.) Contained in the text 34 are counted, respectively, and as a teacher displayed on the CRT 3. The display time of the animation 32 (time to move the mouth of the animation 32) is calculated and supplied to the animation display unit 13.

【0030】アニメ表示部13において、コントロール
部11を介してアプリケーション14より供給された、
テキスト33の返答であるテキスト34を発声するため
の口の動きに対応するアニメーション32のセルフレー
ムデータが、セルフレームデータ記憶部13aより読み
出される。
In the animation display section 13, supplied from the application 14 via the control section 11,
The cell frame data of the animation 32 corresponding to the movement of the mouth for uttering the text 34, which is the response of the text 33, is read from the cell frame data storage unit 13a.

【0031】一方、音声合成部12において、コントロ
ール部11を介してアプリケーション14より供給され
た、テキスト33の返答であるテキスト34に対応する
音声を合成するためのパラメータが算出される。
On the other hand, the voice synthesizing unit 12 calculates a parameter for synthesizing the voice corresponding to the text 34 which is the reply of the text 33 and is supplied from the application 14 via the control unit 11.

【0032】そして、マウス6が操作され、スピークボ
タン35がクリックされると、コントロール部11にお
いて、起動命令が音声合成部12およびアニメ表示部1
3に出力される。
Then, when the mouse 6 is operated and the speak button 35 is clicked, in the control section 11, the start command is issued to the voice synthesis section 12 and the animation display section 1.
3 is output.

【0033】音声合成部12において、テキスト34に
対応する音声を合成するためのパラメータが音声合成器
1に出力され、音声合成器1において、そのパラメータ
から音声「The fastest train in Japan is Shinkanse
n.」が合成され、内蔵するスピーカより出力される(図
5)。
In the voice synthesizer 12, a parameter for synthesizing the voice corresponding to the text 34 is output to the voice synthesizer 1, and the voice synthesizer 1 uses the parameter "Voice The fastest train in Japan is Shinkanse".
n. "is synthesized and output from the built-in speaker (Fig. 5).

【0034】同時に、アニメ表示部13において、セル
フレームデータ記憶部13aより読み出された、テキス
ト34を発声するための口の動きに対応するアニメーシ
ョン32のセルフレームデータが、コントロール部11
より供給されたアニメーション32の表示時間(アニメ
ーション32の口を動かす時間)に対応して、CRT3
に順次出力され(図6)、CRT3において、テキスト
34を発声しているように口を動かすアニメーション3
2が表示される。
At the same time, in the animation display unit 13, the cell frame data of the animation 32 corresponding to the movement of the mouth for uttering the text 34 read out from the cell frame data storage unit 13a is stored in the control unit 11.
Corresponding to the display time of animation 32 (time to move the mouth of animation 32) supplied by CRT3
Are sequentially output to (Fig. 6), and an animation 3 in which the mouth is moved as if the text 34 is being spoken on the CRT 3
2 is displayed.

【0035】なお、このとき、Xウインドウシステムに
制御されたCRT3のウインドウ上にテキスト34(図
4)が表示される。
At this time, the text 34 (FIG. 4) is displayed on the window of the CRT 3 controlled by the X window system.

【0036】以上のようにして、テキストから合成され
た音声と、テキストに対応して動くアニメーションとが
同期して出力される。
As described above, the voice synthesized from the text and the animation that moves corresponding to the text are output in synchronization.

【0037】次に、図7を参照して、さらにその動作に
ついて説明する。まず最初に、ステップS1において、
キーボード5よりテキストが入力されたか否かが判定さ
れる。ステップS1において、キーボード5よりテキス
トが入力されていないと判定された場合、再びステップ
S1に戻る。ステップS1において、キーボード5より
テキストが入力されたと判定された場合、ステップS2
に進み、テキストに対応する口の動きを行うためのアニ
メーションのセルフレームデータがセルフレームデータ
記憶部13aから読み出されるとともに、そのセルフレ
ームデータをCRT3に出力する時間、即ちアニメーシ
ョンの口を動かす時間が算出され、ステップS3に進
む。
Next, the operation will be further described with reference to FIG. First, in step S1,
It is determined whether or not text has been input from the keyboard 5. When it is determined in step S1 that the text is not input from the keyboard 5, the process returns to step S1 again. If it is determined in step S1 that text has been input from the keyboard 5, step S2
The cell frame data of the animation for moving the mouth corresponding to the text is read from the cell frame data storage unit 13a, and the time for outputting the cell frame data to the CRT 3, that is, the time for moving the mouth of the animation It is calculated, and the process proceeds to step S3.

【0038】ステップS3において、ステップS1で入
力されたテキストから音声合成するためのパラメータが
算出され、ステップS4に進む。ステップS4におい
て、ステップS3で算出されたパラメータから合成され
る音声の出力タイミングと、ステップS2でセルフレー
ムデータ記憶部13aから読み出されたセルフレームデ
ータの出力タイミングとを同期させるための同期信号
(起動命令)が検出されたか否かが判定される。ステッ
プS4において、同期信号が検出されていないと判定さ
れた場合、再びステップS4に戻る。ステップS4にお
いて、同期信号が検出されたと判定された場合、ステッ
プS5に進み、ステップS3で算出されたパラメータか
ら合成された音声が、音声合成器1の内蔵するスピーカ
より出力されるとともに、ステップS1で入力されたテ
キストを発声しているように口を動かすアニメーション
が、ステップS2で算出されたアニメーションの口を動
かす時間に対応して、CRT3に表示される。
In step S3, parameters for voice synthesis from the text input in step S1 are calculated, and the process proceeds to step S4. In step S4, a synchronization signal (for synchronizing the output timing of the voice synthesized from the parameters calculated in step S3 and the output timing of the cell frame data read from the cell frame data storage unit 13a in step S2 ( It is determined whether or not a start command) has been detected. When it is determined in step S4 that the sync signal is not detected, the process returns to step S4 again. When it is determined in step S4 that the synchronization signal is detected, the process proceeds to step S5, the voice synthesized from the parameters calculated in step S3 is output from the speaker incorporated in the voice synthesizer 1, and step S1 is performed. The animation of moving the mouth as if uttering the text input in step S2 is displayed on the CRT 3 in correspondence with the time of moving the mouth of the animation calculated in step S2.

【0039】次に、アニメーションの表示時間(アニメ
ーションの口を動かす時間)の算出方法について説明す
る。まず、セルフレームデータ記憶部13aに記憶され
ているセルフレーム(図8)をアニメーションらしく表
示させるために、CRT3で一枚のセルフレームが描画
される回数をTとする。なお、この回数Tは、CRT3
の表示速度と画像データの大きさを基にして、あらかじ
めEWS4に設定されている。
Next, a method of calculating the animation display time (animation moving time) will be described. First, in order to display the cell frame (FIG. 8) stored in the cell frame data storage unit 13a like an animation, the number of times one cell frame is drawn by the CRT 3 is T. It should be noted that the number of times T is CRT3.
Is set in the EWS 4 in advance based on the display speed and the size of the image data.

【0040】CRT3に表示するセルフレームの枚数を
Nとすると、合成された音声が出力されている時間内
に、時間(T×N)だけかかるセルフレームの表示を行
うことのできる回数TIMESは、テキストの文字数を
Mとして、次式にしたがって求められる。 TIMES = M/a 但し、aはテキスト中にコンマ(,)、またはピリオド
(.)を含むか否かと、これらを含む場合はその数によ
って可変の値を取るようになっており、取りうる値は前
述したTと同様、あらかじめEWS4に設定されてい
る。
Assuming that the number of cell frames displayed on the CRT 3 is N, the number of times TIMES that can display a cell frame that takes time (T × N) within the time when the synthesized voice is output is: It is calculated according to the following equation, where M is the number of characters in the text. TIMES = M / a However, a takes a variable value depending on whether or not a comma (,) or period (.) Is included in the text and the number of the commas. Is set in the EWS 4 in advance, similar to T described above.

【0041】ここで、図9はテキストの文字数と発話時
間の関係を表す図である。テキストに用いられている単
語やその前後との繋がりにより若干ばらつきがあるもの
の、図に示すとおりほぼ矩形領域内に収まる。(この統
計結果によると、1文字あたりの発話時間は、0.05
秒程度となっている。)
Here, FIG. 9 is a diagram showing the relationship between the number of characters in the text and the utterance time. Although there are some variations depending on the words used in the text and the connections between the words and their surroundings, they fit within the rectangular area as shown in the figure. (According to this statistical result, the utterance time per character is 0.05
It is about a second. )

【0042】上述したaが可変値を取る理由は、例えば
テキスト「No. Japan is not a large country.」や、
テキスト「Yes, I do.」などのようにテキスト中にピリ
オド、またはカンマがある場合、発話においては、その
直後に一呼吸、間が入るので、全体としての発話時間が
若干長くなることを考慮しているためである。
The reason why the above-mentioned a takes a variable value is, for example, the text "No. Japan is not a large country."
If there is a period or comma in the text, such as the text "Yes, I do.", Take a breath and a pause immediately after the utterance, so consider that the total utterance time may be slightly longer. This is because

【0043】図10は、音声合成器1からのテキストの
発話時間を測定した結果を示す図である。図10(a)
はテキスト「No. Japan is not a large country.」の
波形で、図10(b)はテキスト「No Japan is not a
large country.」の波形で、図10(c)はテキスト
「Now Japan is not a large country.」の波形であ
る。この3つを比べると、ピリオドがテキスト中に入っ
ているテキスト「No. Japan is not a large countr
y.」の発話時間が一番長いことが判る。
FIG. 10 is a diagram showing a result of measuring the speech time of the text from the speech synthesizer 1. Figure 10 (a)
Is the waveform of the text "No. Japan is not a large country.", And Fig. 10 (b) is the text "No Japan is not a large country."
FIG. 10C shows a waveform of the text "Now Japan is not a large country." Comparing these three, the text "No. Japan is not a large countr" with a period in the text
It turns out that the utterance time of "y." is the longest.

【0044】以上説明した方法により、テキストから合
成された音声と、そのテキストに対応して動くアニメー
ションの同期が、視聴覚的許容範囲内で実現可能とな
る。
By the method described above, the synchronization of the voice synthesized from the text and the animation that moves corresponding to the text can be realized within the audiovisually permissible range.

【0045】さらに、音声合成器1が音声出力を終えた
時点で、終了信号をEWS4に返すようにして、EWS
4において、この終了信号が検出された場合に動画の表
示を終了するようにすれば、テキストから合成された音
声と、そのテキストに対応して動くアニメーションを、
より良く同期させることができる。
Further, when the voice synthesizer 1 finishes outputting the voice, the end signal is returned to the EWS 4 so that the EWS 4 outputs.
If the display of the moving image is ended when the end signal is detected in 4, the voice synthesized from the text and the animation that moves in response to the text are
Can be better synchronized.

【0046】また、単語の発話時間が定義してある単語
辞書(図11)をEWS4の内蔵する、例えばハードデ
ィスク(図示せず)にあらかじめ記録させておくように
すれば、例えばテキスト「My uncle lives in a small
town.」などのテキストが与えられた時点で、そのテキ
ストを構成する単語「my」、「uncle」、「live」、「i
n」、「a」、「small」、「town」の発話時間を単語辞
書より、それぞれ0.148秒、0.298秒、0.2
75秒、0.103秒、0.056秒、0.319秒、
0.231秒のように算出し、この合計時間(1.92
8秒)の間だけアニメーションを表示するようにするこ
とができる。
If the word dictionary (FIG. 11) in which the utterance time of a word is defined is recorded in advance in, for example, a hard disk (not shown) built in the EWS 4, for example, the text “My uncle lives” can be recorded. in a small
When a text such as "town." is given, the words "my", "uncle", "live", "i" that compose the text are given.
The utterance times of "n", "a", "small", and "town" are respectively 0.148 seconds, 0.298 seconds, 0.2 from the word dictionary.
75 seconds, 0.103 seconds, 0.056 seconds, 0.319 seconds,
It is calculated as 0.231 seconds, and this total time (1.92
The animation can be displayed only for 8 seconds.

【0047】さらに、図8に示す口の動きを表すセルフ
レームと、英語の発音記号との対応表(図12)をEW
S4の内蔵するハードディスクにあらかじめ記録させて
おくようにすれば、テキストを発音記号に変換し(図1
3)、対応表から表示するセルフレームを得るようにし
て、アニメーションを生成するようにすることができ
る。
Furthermore, the correspondence table (FIG. 12) between the cell frame representing the mouth movement shown in FIG. 8 and the English phonetic symbols is shown in EW.
If it is recorded in advance on the hard disk built into S4, the text will be converted into phonetic symbols (see Fig. 1).
3) The animation can be generated by obtaining the cell frame to be displayed from the correspondence table.

【0048】以上説明したように、テキストから合成さ
れた音声が、テキストに対応して動くアニメーションが
話しているかのように出力されるので、学習者の興味が
ひきつけられ、学習効果を向上させることができる。
As described above, since the voice synthesized from the text is output as if the animation moving corresponding to the text is output, the learner's interest is attracted and the learning effect is improved. You can

【0049】[0049]

【発明の効果】請求項1に記載の表示制御装置によれ
ば、テキストから合成された音声と、テキストに対応し
て表示される動画とが同期して出力される。従って、任
意の音声を動画と同期させて出力するようにすることが
できる。
According to the display control device of the first aspect, the voice synthesized from the text and the moving image displayed corresponding to the text are output in synchronization. Therefore, it is possible to output any sound in synchronization with the moving image.

【0050】請求項2に記載の表示制御装置によれば、
表示手段に、テキストに対応して口が動くアニメーショ
ンを表示させるようにしたので、例えばCAIシステム
などの学習用装置に適用することにより、学習者の興味
がひきつけられ、学習効果を向上させることができる。
According to the display control device of the second aspect,
Since the animation in which the mouth moves corresponding to the text is displayed on the display means, by applying it to a learning device such as a CAI system, the interest of the learner can be attracted and the learning effect can be improved. it can.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の表示制御装置を応用したCAIシステ
ムの一実施例の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of an embodiment of a CAI system to which a display control device of the present invention is applied.

【図2】図1のCAIシステムのサブシステム「LAB
ORATORY」におけるユーザインターフェースを示
す図である。
FIG. 2 is a subsystem “LAB” of the CAI system of FIG.
It is a figure which shows the user interface in "ORATORY."

【図3】図2のアプリケーション14のより詳細なブロ
ック図である。
3 is a more detailed block diagram of the application 14 of FIG.

【図4】図1のCAIシステムのCRT3に表示される
画面を示す図である。
4 is a diagram showing a screen displayed on a CRT 3 of the CAI system of FIG.

【図5】図2の音声合成部12の入出力を説明するため
の図である。
5 is a diagram for explaining input / output of the speech synthesizer 12 of FIG.

【図6】図2のアニメ表示部13の入出力を説明するた
めの図である。
FIG. 6 is a diagram for explaining input / output of the animation display unit 13 of FIG.

【図7】図2のインターフェースの動作を説明するため
のフローチャートである。
FIG. 7 is a flowchart for explaining the operation of the interface of FIG.

【図8】アニメ表示部13のセルフレームデータ記憶部
13aに記憶されているセルフレームデータを示す図で
ある。
8 is a diagram showing cell frame data stored in a cell frame data storage unit 13a of the animation display unit 13. FIG.

【図9】テキストの文字数と、テキストの発声時間との
関係を測定した結果を示す図である。
FIG. 9 is a diagram showing a result of measuring the relationship between the number of characters in a text and the utterance time of the text.

【図10】カンマまたはピリオドを含むテキストと、含
まないテキストとの発話時間を示す図である。
FIG. 10 is a diagram showing utterance times of text including commas or periods and text not including commas.

【図11】単語と、単語の発話時間とを対応させた単語
辞書を示す図である。
FIG. 11 is a diagram showing a word dictionary in which words are associated with utterance times of the words.

【図12】図8のセルフレームデータと、発音記号との
対応表を示す図である。
12 is a diagram showing a correspondence table between the cell frame data of FIG. 8 and phonetic symbols.

【図13】テキストを発音記号に変換したことを示す図
である。
FIG. 13 is a diagram showing that text has been converted into phonetic symbols.

【符号の説明】 1 音声合成器 2 端末 3 CRT 4 ワークステーション(EWS) 5 キーボード 6 マウス 11 コントロール部 12 音声合成部 13 アニメ表示部 13a セルフレームデータ記憶部 14 アプリケーション 21 対話処理部 22 言語処理部 23 知識データベース検索部 24 知識データベース 31,32 アニメーション 33,34 テキスト 35 スピークボタン[Explanation of Codes] 1 voice synthesizer 2 terminal 3 CRT 4 workstation (EWS) 5 keyboard 6 mouse 11 control unit 12 voice synthesis unit 13 animation display unit 13a cell frame data storage unit 14 application 21 dialogue processing unit 22 language processing unit 23 Knowledge Database Search Section 24 Knowledge Database 31, 32 Animation 33, 34 Text 35 Speak Button

フロントページの続き (72)発明者 川手 史隆 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内Front page continued (72) Inventor Fumitaka Kawate 6-735 Kitashinagawa, Shinagawa-ku, Tokyo Sony Corporation

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 テキストから音声を合成して出力する音
声合成手段と、 前記テキストに対応して動画像を表示する表示手段と、 前記音声合成手段により合成された音声と、前記表示手
段により表示された動画像とを同期させる同期手段と を備えることを特徴とする表示制御装置。
1. A voice synthesizing unit for synthesizing and outputting a voice from a text, a display unit for displaying a moving image corresponding to the text, a voice synthesized by the voice synthesizing unit, and a display by the display unit. And a synchronization means for synchronizing the captured moving image.
【請求項2】 前記表示手段は、前記テキストに対応し
て口が動くアニメーションを表示することを特徴とする
請求項1に記載の表示制御装置。
2. The display control device according to claim 1, wherein the display unit displays an animation in which a mouth moves corresponding to the text.
JP4109357A 1992-04-02 1992-04-02 Display controller Pending JPH05313686A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4109357A JPH05313686A (en) 1992-04-02 1992-04-02 Display controller

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4109357A JPH05313686A (en) 1992-04-02 1992-04-02 Display controller

Publications (1)

Publication Number Publication Date
JPH05313686A true JPH05313686A (en) 1993-11-26

Family

ID=14508180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4109357A Pending JPH05313686A (en) 1992-04-02 1992-04-02 Display controller

Country Status (1)

Country Link
JP (1) JPH05313686A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004177650A (en) * 2002-11-27 2004-06-24 Kenichiro Nakano Language learning computer system
JP2005242798A (en) * 2004-02-27 2005-09-08 Nomura Research Institute Ltd Avatar control system
JP2007511854A (en) * 2003-05-26 2007-05-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ System and method for generating an audiovisual summary of audiovisual program content
JP2007328806A (en) * 2007-07-27 2007-12-20 Casio Comput Co Ltd Display control device and display control processing program
WO2009013875A1 (en) * 2007-07-24 2009-01-29 Panasonic Corporation Character information presentation device
USRE42000E1 (en) 1996-12-13 2010-12-14 Electronics And Telecommunications Research Institute System for synchronization between moving picture and a text-to-speech converter
USRE42647E1 (en) 1997-05-08 2011-08-23 Electronics And Telecommunications Research Institute Text-to speech conversion system for synchronizing between synthesized speech and a moving picture in a multimedia environment and a method of the same
JP2012150363A (en) * 2011-01-20 2012-08-09 Kddi Corp Message image editing program and message image editing apparatus
US8306824B2 (en) 2008-10-14 2012-11-06 Samsung Electronics Co., Ltd. Method and apparatus for creating face character based on voice
WO2014024399A1 (en) 2012-08-10 2014-02-13 Casio Computer Co., Ltd. Content reproduction control device, content reproduction control method and program

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE42000E1 (en) 1996-12-13 2010-12-14 Electronics And Telecommunications Research Institute System for synchronization between moving picture and a text-to-speech converter
USRE42647E1 (en) 1997-05-08 2011-08-23 Electronics And Telecommunications Research Institute Text-to speech conversion system for synchronizing between synthesized speech and a moving picture in a multimedia environment and a method of the same
JP2004177650A (en) * 2002-11-27 2004-06-24 Kenichiro Nakano Language learning computer system
US7326057B2 (en) 2002-11-27 2008-02-05 Kenichiro Nakano Language learning computer system
JP2007511854A (en) * 2003-05-26 2007-05-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ System and method for generating an audiovisual summary of audiovisual program content
JP2005242798A (en) * 2004-02-27 2005-09-08 Nomura Research Institute Ltd Avatar control system
US8370150B2 (en) 2007-07-24 2013-02-05 Panasonic Corporation Character information presentation device
WO2009013875A1 (en) * 2007-07-24 2009-01-29 Panasonic Corporation Character information presentation device
JP2007328806A (en) * 2007-07-27 2007-12-20 Casio Comput Co Ltd Display control device and display control processing program
US8306824B2 (en) 2008-10-14 2012-11-06 Samsung Electronics Co., Ltd. Method and apparatus for creating face character based on voice
JP2012150363A (en) * 2011-01-20 2012-08-09 Kddi Corp Message image editing program and message image editing apparatus
WO2014024399A1 (en) 2012-08-10 2014-02-13 Casio Computer Co., Ltd. Content reproduction control device, content reproduction control method and program
CN104520923A (en) * 2012-08-10 2015-04-15 卡西欧计算机株式会社 Content reproduction control device, content reproduction control method and program

Similar Documents

Publication Publication Date Title
CA2317359C (en) A method and apparatus for interactive language instruction
Cole et al. Perceptive animated interfaces: First steps toward a new paradigm for human-computer interaction
Cole et al. New tools for interactive speech and language training: Using animated conversational agents in the classrooms of profoundly deaf children
JPH10509811A (en) Foreign language education assistance method and device
WO2005115559A2 (en) Interactive language learning system and method
JPH05313686A (en) Display controller
Gustafson et al. Experiences from the development of August-a multi-modal spoken dialogue system
JP2003228279A (en) Language learning apparatus using voice recognition, language learning method and storage medium for the same
CN110956859A (en) VR intelligent voice interaction English method based on deep learning
JP3110215B2 (en) Pronunciation training device
JP2006030513A (en) Education support device and education information managing server
KR20030079497A (en) service method of language study
Mögele et al. SmartWeb UMTS Speech Data Collection: The SmartWeb Handheld Corpus.
Boston Synthetic facial communication
JP2004101637A (en) Online educational system, information processor, information providing method and program
Wik Designing a virtual language tutor
Wald et al. Using automatic speech recognition to assist communication and learning
JP2001337594A (en) Method for allowing learner to learn language, language learning system and recording medium
CN112863267B (en) English man-machine conversation system and learning method
Tran et al. Revisit dialogflow in an english teaching virtual assistant use case
WO2000022597A1 (en) Method for computer-aided foreign language instruction
Granström et al. Speech and gestures for talking faces in conversational dialogue systems
Lê et al. Speech-enabled tools for augmented interaction in e-learning applications
TWI227449B (en) Match-making system and method for on-line language learning
Bernsen et al. HC Andersen Conversation Corpus.

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020522