JPH02129686A - Conversation aid apparatus - Google Patents

Conversation aid apparatus

Info

Publication number
JPH02129686A
JPH02129686A JP63273874A JP27387488A JPH02129686A JP H02129686 A JPH02129686 A JP H02129686A JP 63273874 A JP63273874 A JP 63273874A JP 27387488 A JP27387488 A JP 27387488A JP H02129686 A JPH02129686 A JP H02129686A
Authority
JP
Japan
Prior art keywords
voice
data
conversation
input
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63273874A
Other languages
Japanese (ja)
Other versions
JP2638151B2 (en
Inventor
Kenji Kurono
黒野 健治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ROEHM PROPERTIES BV
Original Assignee
ROEHM PROPERTIES BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ROEHM PROPERTIES BV filed Critical ROEHM PROPERTIES BV
Priority to JP63273874A priority Critical patent/JP2638151B2/en
Publication of JPH02129686A publication Critical patent/JPH02129686A/en
Application granted granted Critical
Publication of JP2638151B2 publication Critical patent/JP2638151B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE: To use a word or a conversational sentence which are not prepared by a memory by syntheisizing the voice data of a voice storage means with voice data selected by a selecting means as a series of voice data, and outputting it as a voice. CONSTITUTION: Conversational data such as a stylized sentence are prepared as a conversational data group M4, and when the output of the desired conversation is instructed by an operator from an instruction inputting means M3, the voice data of the desired conversation are selected from the conversational data group M4 by a selecting means M5. The voice data are synthesized with the voice data directly obtained from the voice of the operator stored through a voice inputting means M1 in a voice storage means M2 as a series of voice data by a synthesizing means M6. Then, this series of voice data are uttered from a voice outputting means M7. Thus, a desired complete sentence can be automatically and smoothly uttered altogether with a sentence in the memory only by uttering and inputting a voice which is not prepared by the memory.

Description

【発明の詳細な説明】 え咀Ω旦句 [産業上の利用分野] 本発明は会話補助装置に関し、特に外国語会話において
、少ない知識でその場の状況に合わせた会話、あるいは
自己の音声にて会話する場合の補助装置に関する。
[Detailed Description of the Invention] え咀Ωdanku [Field of Industrial Application] The present invention relates to a conversation aid device, and in particular, in foreign language conversation, it is possible to have a conversation tailored to the situation at the moment with little knowledge, or to adjust one's own voice. This invention relates to auxiliary devices for conversation.

[従来の技術] 従来、発音練習機として、所定の単語をキーボードから
入力すると、その単語に対応する発声を電子回路により
合成して示す装置が存在する(特開昭62−36685
号)。また、メツセージ用に所定の文章を音声で出力す
る装置がある(特開昭62−40524号)。また人間
の音声を電気的に半導体メモリに記憶しておき、後で再
生する装置もある(特開昭62−55698号)。
[Prior Art] Conventionally, as a pronunciation practice device, there is a device in which when a predetermined word is inputted from a keyboard, the utterance corresponding to the word is synthesized and displayed using an electronic circuit (Japanese Patent Laid-Open No. 62-36685).
issue). There is also a device that outputs a predetermined text for a message in the form of voice (Japanese Patent Laid-Open No. 62-40524). There is also a device that electrically stores human voice in a semiconductor memory and reproduces it later (Japanese Patent Laid-Open No. 62-55698).

[発明が解決しようとする課題] しかし、これらの装置は単に操作者が所望の会話・単語
を発音させたり、テープレコーダ代わりに録音し再生す
るものである。従ってメモリに用意してない単語や会話
文では利用することが困難であり、更に装置に記憶され
た会話文を自己の声で発声させることなども不可能であ
った。
[Problems to be Solved by the Invention] However, these devices simply allow the operator to pronounce desired conversations and words, or record and reproduce the desired conversation or words in place of a tape recorder. Therefore, it is difficult to use words or conversational sentences that are not prepared in the memory, and it is also impossible to utter the conversational sentences stored in the device in one's own voice.

発明の構成 本発明はこの課題を解決し、装置のメモリにある知識は
十分に活用すると共に、装置のメモリにない単語や会話
文についても音声で出力可能な会話補助装置を提供し、
また操作者の声でその会話が出力される会話補助装置を
提供することを目的とするものである。
Structure of the Invention The present invention solves this problem, and provides a conversation aid device that can make full use of the knowledge stored in the device's memory, and can also output words and conversational sentences that are not in the device's memory in voice.
Another object of the present invention is to provide a conversation auxiliary device that outputs the conversation using the operator's voice.

[課題を解決するための手段] 上記課題を解決するための構成は次のごとくである。即
ち、第1発明の会話補助装置は、第1図(A)に例示す
るごとく、 音声入力手段M1と、 音声入力手段M1から入力された音声を記憶する音声記
憶手段M2と、 指示入力手段M3と、 指示入力手段M3から入力された指示に基づいて、音声
データからなる会話データ群M4から所定の会話の音声
データを選択する選択手段M5と、音声記憶手段M2の
音声データと選択手段M5にて選択された音声データと
を一連の音声データとして合成する合成手段M6と、 合成手段M6にて合成された音声データを音声として出
力する音声出力手段M7と、 を備えたことを特徴とする。
[Means for solving the problem] The configuration for solving the above problem is as follows. That is, the conversation auxiliary device of the first invention, as illustrated in FIG. 1(A), includes: voice input means M1; voice storage means M2 for storing the voice input from voice input means M1; and instruction input means M3. and a selection means M5 for selecting audio data of a predetermined conversation from a conversation data group M4 consisting of audio data based on an instruction inputted from the instruction inputting means M3; The present invention is characterized by comprising: a synthesizing means M6 for synthesizing the voice data selected by the synthesizing means M6 as a series of voice data; and an audio output means M7 for outputting the voice data synthesized by the synthesizing means M6 as voice.

第2発明の会話補助装置は、第1図(B)に例示するご
とく、 音声入力手段Mllと、 音声入力手段Mllから入力された音声を記憶する音声
記憶手段M12と、 指示入力手段M13と、 指示入力手段M13から入力された指示に基づいて、会
話データ群M14から所定の会話データを選択する選択
手段M15と、 音声入力手段Mllから入力された音声パターンの特性
を抽出する特性抽出手段MIBと、選択手段M15にて
選択された会話データを、特性抽出手段M16にて抽出
された音声パターン特性を有する音声データに変換する
データ変換手段M17と、 音声記憶手段M12の音声データとデータ変換手段M1
7にて変換された音声データとを一連の音声データとし
て合成する合成手段M18と、合成手段M1Bにて合成
された音声データを音声として出力する音声出力手段M
19と、を備えたことを特徴とする。
The conversation auxiliary device of the second invention, as illustrated in FIG. 1(B), includes: voice input means Mll; voice storage means M12 for storing the voice input from the voice input means Mll; instruction input means M13; Selection means M15 selects predetermined conversation data from the conversation data group M14 based on instructions input from the instruction input means M13; Characteristic extraction means MIB extracts characteristics of the voice pattern input from the voice input means Mll. , data conversion means M17 for converting the conversation data selected by the selection means M15 into voice data having the voice pattern characteristics extracted by the characteristic extraction means M16, and voice data of the voice storage means M12 and data conversion means M1.
synthesis means M18 for synthesizing the voice data converted in step 7 as a series of voice data; and voice output means M for outputting the voice data synthesized by the synthesis means M1B as voice.
19.

[作用コ 第1発明 定形文などの会話データは、会話データ群M4として準
備され、指示入力手段M3から操作者が所定の会話の出
力を指示すれば、選択手段M5が会話データ群M4から
所望の会話の音声データを選び出す。この会話の音声デ
ータは操作者が発声する部分が空白となっているデータ
である。この音声データは、合成手段M6により、音声
入力手段M1を介して音声記憶手段M2に記憶されてい
る操作者の声から直接的に得られた音声データと一連の
音声データに合成される。この一連の音声データは、音
声出力手段M7から発声される。
[Operations] Conversation data such as first invention fixed phrases are prepared as a conversation data group M4, and when the operator instructs output of a predetermined conversation from the instruction input means M3, the selection means M5 selects a desired one from the conversation data group M4. Select the audio data of the conversation. The voice data of this conversation is data in which the part uttered by the operator is blank. This voice data is synthesized by the synthesis means M6 into a series of voice data and voice data directly obtained from the operator's voice stored in the voice storage means M2 via the voice input means M1. This series of audio data is output from the audio output means M7.

即ち、その発声される会話の内容は、操作者が声で入力
した部分と、会話データ群中にある会話とが一連の文に
合成されて、完全な会話文として出力される。
That is, the contents of the spoken conversation are output as a complete conversation by combining the part inputted by the operator's voice and the conversation in the conversation data group into a series of sentences.

第2発明 定形文などの会話データは、会話データ群M14として
準備され、指示入力手段M13から操作者が所定の会話
の出力を指示すれば、選択手段M15が会話データ群M
14から所望の会話データを選び出す。更に、音声入力
手段Mllから入力された音声が音声記憶手段M12に
記憶されるのは、第1発明と同様である。
Conversation data such as fixed sentences of the second invention are prepared as a conversation data group M14, and when the operator instructs output of a predetermined conversation from the instruction input means M13, the selection means M15 selects the conversation data group M14.
Select desired conversation data from 14. Furthermore, similar to the first invention, the voice input from the voice input means Mll is stored in the voice storage means M12.

第2発明では、音声入力手段Mllから入力された音声
について、特性抽出手段M16により音声のパターン特
性が抽出される。次いで上記選択された会話データを、
データ変換手段M17にて上記パターン特性を有する音
声データに変換される。この変換された音声データが、
第1発明と同様に、合成手段M1Bにより、音声記憶手
段M12に記憶されている音声データと一連の音声デー
タに合成され、この一連の音声データは、音声出力手段
M19から発声される。
In the second invention, the characteristic extraction means M16 extracts the pattern characteristics of the voice input from the voice input means Mll. Next, the conversation data selected above is
The data conversion means M17 converts the audio data into audio data having the above pattern characteristics. This converted audio data is
Similar to the first invention, the synthesizing means M1B synthesizes the audio data stored in the audio storage means M12 into a series of audio data, and this series of audio data is uttered from the audio output means M19.

第2発明の場合は、その合成された会話文がすべて、操
作者の声あるいは操作者に近似の声で出力される。
In the case of the second invention, all of the synthesized conversation sentences are output in the operator's voice or a voice similar to the operator's voice.

[実施例コ 第2図に第1発明会話補助装置の一実施例を示す。本装
置は英仏西会話補助装置として構成されたものである。
[Embodiment] Fig. 2 shows an embodiment of the conversation assisting device of the first invention. This device is configured as an English, French, and Spanish conversation aid.

会話補助装置1の外観はカード型を為し、その−面に、
指示入力用キー3が配列され、表示用の液晶パネル(L
CD)5、音声出力用のスピーカ7及び音声入力用のマ
イク9が設けられている。
The appearance of the conversation aid device 1 is card-shaped, and on its side,
Instruction input keys 3 are arranged, and a display liquid crystal panel (L
CD) 5, a speaker 7 for audio output, and a microphone 9 for audio input.

この内部構成は第3図のブロック図に示すごとく、マイ
クロコンピュータとして構成され、主要部はCPUl1
.ROM13.RAM15を備えると共ここ5、キー3
及びマイク90入力回路17と、液晶パネル5及びスピ
ーカ7の出力回路19とを備えている。これらの構成は
図示しないアドレスバスやデータバスにて信号送受信可
能に接続されている。
As shown in the block diagram of Fig. 3, this internal structure is configured as a microcomputer, and the main part is CPU11.
.. ROM13. With RAM15, here 5, key 3
and a microphone 90 input circuit 17, and an output circuit 19 for the liquid crystal panel 5 and speaker 7. These components are connected to enable signal transmission and reception via an address bus and a data bus (not shown).

第4図のフローチャートに第1発明一実施例の会話補助
装置1の処理を示す。本処理は電池21が会話補助装置
1に装着された以後に繰り返し実行される。
The flowchart in FIG. 4 shows the processing of the conversation assisting device 1 of the first embodiment of the invention. This process is repeatedly executed after the battery 21 is attached to the conversation assisting device 1.

処理が開始されると、まず初期設定がなされ、各種変数
やフラグの期間値が設定される(ステップ110)。次
にキー入力待となる(ステ・ンプ120)。ここでキー
3のいずれかが押されると、キー内容が判定される(ス
テップ130)。
When the process starts, initial settings are first made, and period values of various variables and flags are set (step 110). Next, the system waits for a key input (step 120). If any of the keys 3 is pressed here, the contents of the key are determined (step 130).

仏語キー3bが押されると、ROM13またはRAM1
5内に記憶されている仏語の文章ファイルが、文章選択
の対象として設定される(ステップ135)、このとき
LCD5には「仏会話が設定されました。」とメツセー
ジが表示される(ステップ137)。
When French key 3b is pressed, ROM13 or RAM1
The French text file stored in 5 is set as a text selection target (step 135), and at this time, the message "French conversation has been set" is displayed on the LCD 5 (step 137). ).

次に、文章選択キー3eが押されると、該当する言語、
このときは仏語の文章がファイルの先頭から1つ読み出
されて表示される(ステップ140)。この文章が希望
の文章ではない場合、次候補選択キー3hが押されると
(ステップ15o)次の文章を表示する(ステップ14
0)。希望の文章が表示されれば、確定キー3dを押す
と、その確定された文章に該当する音声データが、RO
M13からRAM15内の所定のアドレスに記憶される
(ステップ160)。
Next, when the text selection key 3e is pressed, the corresponding language,
At this time, one French sentence is read from the beginning of the file and displayed (step 140). If this sentence is not the desired sentence, when the next candidate selection key 3h is pressed (step 15o), the next sentence is displayed (step 14).
0). When the desired sentence is displayed, press the confirm key 3d and the audio data corresponding to the confirmed sentence will be transferred to the RO.
The data is stored from M13 to a predetermined address in the RAM 15 (step 160).

例えば、順番にLCD5に表示されて来る複数の会話文
、例えば、 rcomb i en  y  a−t−i 1d’1
cia$場所$?」 rQue  prendrez−vous。
For example, a plurality of conversation sentences that are sequentially displayed on the LCD 5, such as rcomb i en y a-t-i 1d'1
cia$location$? ” rQue prendrez-vous.

$物*  ou  $物$?」 の中から、 rQue  prendrez−vous。$ thing * ou $ thing $? ” From among the rQue prendrez-vous.

$物$ou  $物$?」 なる文章を選択すると、この文章の音声データがRAM
15内に記憶されることになる。この音声データは各種
の分析台成形符号化方式により得られたパラメータにて
構成されているものでもよく、また記録再生方式の音声
データでもよい。尚、文、章の内、2ftf所の「$物
$」は音声データ挿入部分であり、音声データには変換
されない。
$things$ou $things$? ” When you select a sentence, the audio data of this sentence is stored in RAM.
15. This audio data may be composed of parameters obtained by various types of analysis table shaping encoding methods, or may be audio data obtained by recording and reproducing methods. Note that "$mono$" at 2 ftf in a sentence or chapter is an audio data insertion part and is not converted into audio data.

次に「音声人カキ−を押してから、音声をいれてくださ
い。」という、音声入力指示表示がLCD5に表示され
る(ステップ170)。
Next, a voice input instruction display is displayed on the LCD 5, ``Please press the voice key and then input voice.'' (step 170).

音声人カキ−3fが押されると、マイク9から音声入力
し記憶することが可能となる(ステップ180)。マイ
ク9から入力された音声は、入力回路17に備えられた
A/D変換装置により、その波形がデジタル値に変換さ
れて、RAM15内に設定されたバッファ中に記憶され
る。例えば、rdu  1aitJと発音すれば、その
発音データがバッファに記憶される。この音声データは
上記会話文の内の第1番目の「$物$」に該当する。
When the voice key 3f is pressed, it becomes possible to input voice from the microphone 9 and store it (step 180). The waveform of the audio input from the microphone 9 is converted into a digital value by an A/D converter provided in the input circuit 17, and the digital value is stored in a buffer set in the RAM 15. For example, if you pronounce rdu 1aitJ, the pronunciation data will be stored in the buffer. This audio data corresponds to the first "$mono$" in the conversational text.

その後、再度、音声人カキ−3fが押されれば(ステッ
プ184)、前回の訂正処理としてステップ180の音
声入力及び記憶処理が繰り返される。
Thereafter, if the voice person key 3f is pressed again (step 184), the voice input and storage process of step 180 is repeated as the previous correction process.

確定キー3dが押されれば(ステップ186)、処理回
数が所定回数に至ったか否かが判断される(ステップ1
8日)。「$物$」は2つあり、もう1回音声データ入
力が必要なので否定判定されて、2回目の音声入力・記
憶処理に移る(ステップ180)。即ち、上記会話文の
内の第2番目の「$物$」に該当する音声データが同様
に入力・記憶されることとなる。例えば、 rde  
lacreme」と発音すれば、第2番目の発音データ
としてバ・ソファに記憶される。
When the confirmation key 3d is pressed (step 186), it is determined whether the number of processing times has reached a predetermined number (step 1).
8th). Since there are two "$ items $" and one more voice data input is required, a negative determination is made and the process moves to the second voice input/storage process (step 180). That is, the audio data corresponding to the second "$thing $" in the conversational text is similarly input and stored. For example, rde
If you pronounce "la creme", it will be stored in the basso as the second pronunciation data.

次にこの音声データ中の2つの「$物$」部分にステッ
プ180にて記憶された2つの音声データを挿入して、
1つの文章に合成する(ステ・ンブ210)。即ち、 rQue  prendrez−vous、dufai
′t  ou  de  la  crこme?」とい
う文章に該当する音声データを合成することになる。
Next, insert the two audio data stored in step 180 into the two "$thing $" parts in this audio data,
Combine them into one sentence (Ste Mbu 210). That is, rQue prendrez-vous, dufai
'tou de la crome? The audio data corresponding to the sentence ``'' will be synthesized.

次に音声出力指示表示をして(ステップ220)、キー
入力待となる(ステ・ンブ120)。
Next, a voice output instruction is displayed (step 220), and the system waits for key input (step 120).

次に音声出カキ−3gを押すと、ステップ210で合成
された音声データがスピーカ7から出力される(ステッ
プ230)。
Next, when the audio output key 3g is pressed, the audio data synthesized in step 210 is output from the speaker 7 (step 230).

即ち、 rQue  prendrez−vous、dulai
t  ou  de  la  cr″eme  ?J
なる音声がスピーカ7から出力されることになる。
That is, rQue prendrez-vous, dulai
tou de la cr″eme ?J
The sound will be output from the speaker 7.

従って、単に目的の単語を発声して入力するだけで、所
望の文章が自動的に滑らかに発声されることになる。
Therefore, by simply uttering and inputting the desired word, the desired sentence will be automatically and smoothly uttered.

本実施例において特別にステ・ンブ210の挿入合成処
理を実施せずとも、他の合成処理として、ステ・ンブ2
30にて出力する際に発声すべき順に出力するようにし
てもよい。
In this embodiment, even if the insertion and synthesis processing of the stem 210 is not performed, other synthesis processing can be performed on the stem 210.
When outputting in step 30, the outputting may be performed in the order in which they should be uttered.

即ちROM13からrQue  prendreZ−V
OuSJの音声データを取り出して発声した後、RAM
15からrd u  l a i t」の音声データを
取り出して発声し、次ぎにROM13から「Ou」の音
声データを取り出して発声し、次ぎにRAM15からr
de  la  creme」の音声データを取り出し
て発声するようにしてもよい。尚、このような発声方式
ならば、ステップ160では音声データそのものを記憶
する必要はなく、文章の音声データが格納されているメ
モリ、アドレスのみ記憶しておけばよい。
That is, rQue prendreZ-V from ROM13
After extracting and uttering the OuSJ audio data, the RAM
15, the voice data of ``rd u l a it'' is extracted and uttered, then the voice data of ``Ou'' is extracted from the ROM 13 and uttered, and then the voice data of ``rd u l a it'' is extracted from the RAM 15 and uttered.
The audio data of "de la creme" may be extracted and uttered. In addition, if such a utterance method is used, it is not necessary to store the audio data itself in step 160, but only the memory and address in which the audio data of the sentence is stored may be stored.

上記実施例において、マイク9が音声入力手段M1に該
当、し、RAM15が音声記憶手段M2に該当し、次候
補選択キー3hが指示入力手段M3に該当し、CPUI
Iが選択手段M5及び合成手段M6に該当し、スピーカ
7が音声出力手段M7に該当する。CPL]11の処理
の内、ステップ140.150の処理が選択手段M5と
しての処理に該当し、ステップ210の処理が合成手段
M6としての処理に該当する。
In the above embodiment, the microphone 9 corresponds to the voice input means M1, the RAM 15 corresponds to the voice storage means M2, the next candidate selection key 3h corresponds to the instruction input means M3, and the CPU
I corresponds to the selection means M5 and the synthesis means M6, and the speaker 7 corresponds to the audio output means M7. CPL] 11, the processing of steps 140 and 150 corresponds to the processing as the selection means M5, and the processing of step 210 corresponds to the processing as the synthesis means M6.

第5図のフローチャートに第2発明一実施例の会話補助
装置の処理を示す。本実施例のハード的構成は第2図及
び第3図に示した第1発明の実施例と同一であるので説
明は省略する。本処理は電池21が会話補助装置に装着
された以後に繰り返し実行される。
The flowchart in FIG. 5 shows the processing of the conversation assisting device according to an embodiment of the second invention. The hardware configuration of this embodiment is the same as the embodiment of the first invention shown in FIGS. 2 and 3, so a description thereof will be omitted. This process is repeatedly executed after the battery 21 is attached to the conversation assisting device.

処理が開始されると、まず初期設定がなされ、各種変数
やフラグの初期値が設定される(ステップ310)。次
にキー入力待となる(ステップ320)。ここでキー3
のいずれかが押されると、キー内容が判定される(ステ
ップ330)。
When the process starts, initial settings are first made, and initial values of various variables and flags are set (step 310). Next, the system waits for a key input (step 320). key 3 here
When any one of the keys is pressed, the contents of the key are determined (step 330).

英語キー3aが押されると、ROM13またはRAM1
5内に記憶されている英語の文章ファイルが、文章選択
の対象として設定される(ステップ335)。このとき
LCD5には「英会話が設定されました。」とメツセー
ジが表示される(ステ・ンプ337)。
When English key 3a is pressed, ROM13 or RAM1
The English text file stored in 5 is set as a text selection target (step 335). At this time, the message "English conversation has been set" is displayed on the LCD 5 (step 337).

次に、文章選択キー3eが押されると、該当する言語、
このときは英語の文章がファイルの先頭から1つ読み出
されて表示される(ステップ340)。この文章が希望
の文章ではない場合、次候補選択キー3hが押されると
(ステップ350)次の文章を表示する(ステップ34
0)。希望の文章が表示されれば、確定キー3dを押す
と、その確定された文章に該当する音声データが、RO
M13からRAM15内の所定のアドレスに記憶される
(ステ・ンブ360)。
Next, when the text selection key 3e is pressed, the corresponding language,
At this time, one English sentence is read from the beginning of the file and displayed (step 340). If this sentence is not the desired sentence, when the next candidate selection key 3h is pressed (step 350), the next sentence is displayed (step 34).
0). When the desired sentence is displayed, press the confirm key 3d and the audio data corresponding to the confirmed sentence will be transferred to the RO.
The data is stored from M13 to a predetermined address in the RAM 15 (step 360).

例えば、順番にLCD5に表示されて来る複数の会話文
、例えば、 rWhere  can  I  get  $物$?
」rWould  you  page  $人$?」
の中から、 rWould  you  page  $人$?」な
る文章を選択すると、この文章の音声データがRAM1
5内tこ記憶されることになる。この音声データは各種
の分析合成形符号化方式により得られたパラメータにて
構成されているものである。
For example, a plurality of conversation sentences are sequentially displayed on the LCD 5, such as rWhere can I get $things$?
”Would you page $people$? ”
From the rWould you page $people$? ”, the audio data of this sentence will be stored in RAM1.
5 out of 5 times will be stored. This audio data is composed of parameters obtained by various analysis-synthesis encoding methods.

尚、文章の内、「$人$」は音声データ挿入部分であり
、音声データには変換されない。
Note that in the text, "$人$" is a portion into which audio data is inserted, and is not converted into audio data.

次に「音声人カキ−を押してから、音声をいれてくださ
い。」という、音声入力指示表示がLCD5に表示され
る(ステップ370)。
Next, a voice input instruction display is displayed on the LCD 5, ``Please press the voice key and then input voice.'' (step 370).

音声人カキ−3fが押されると、マイク9から音声入力
し記憶することが可能となる(ステップ380)。マイ
ク9から入力された音声は、入力回路17に備えられた
A/D変換装置により、その波形がデジタル値に変換さ
れて、RAM15内に設定されたバッファ中に記憶され
る。例えば、rMr、Smi t hJと発音すれば、
その発音データがバッファに記憶される。この音声デー
タは上記会話文の内の「$人$」に該当する。
When the voice key 3f is pressed, it becomes possible to input voice from the microphone 9 and store it (step 380). The waveform of the audio input from the microphone 9 is converted into a digital value by an A/D converter provided in the input circuit 17, and the digital value is stored in a buffer set in the RAM 15. For example, if you pronounce rMr, Smit hJ,
The sound data is stored in a buffer. This audio data corresponds to "$人$" in the above conversation sentence.

その後、再度、音声人カキ−3fが押されれば(ステッ
プ3日4)、前回の訂正処理としてステップ380の音
声入力及び記憶処理が繰り返される。
Thereafter, if the voice person key 3f is pressed again (step 3, day 4), the voice input and storage process of step 380 is repeated as the previous correction process.

確定キー3dが押されれば(ステップ386)、処理回
数が所定回数に至ったか否かが判断される(ステップ3
88)。ここでは音声データが必要なのは「$人$」の
1つだけであるので、否定判定されて、次ぎにステ・ン
ブ380にてバッファに記憶されている音声のパターン
分析が行われる(ステップ390)。
If the confirmation key 3d is pressed (step 386), it is determined whether the number of processing times has reached a predetermined number (step 3
88). Here, since only one piece of audio data, "$人$", is required, a negative determination is made, and then pattern analysis of the audio stored in the buffer is performed in step 380 (step 390). .

即ち、一般的に知られているPARCORボコーダ方式
やLSPボコーダ方式等の分析合成形符号化方式により
、話者の音声の特徴を表すパラメータを検出する。特に
スペクトル包絡と基本周波数(ピッチ)とが特撮を表し
ているので、この2つのパラメータのみを捉えてもよい
That is, parameters representing characteristics of the speaker's voice are detected using a generally known analysis-synthesis encoding method such as the PARCOR vocoder method or the LSP vocoder method. In particular, since the spectral envelope and fundamental frequency (pitch) represent special effects, only these two parameters may be captured.

次にステップ360で記憶された文章の音声データの標
準的パラメータの内、スペクトル包絡パラメータと基本
周波数(ピッチ)パラメータとの部分が、ステップ39
0にて検出されたパラメータで入れ替えられる(ステッ
プ400)。勿論、ステ・ンブ390で他のパラメータ
を検出していれば、そのパラメータも入れ替えてもよい
。こうして選択された文章の音声データが話者の声に近
似される。
Next, among the standard parameters of the audio data of the sentence stored in step 360, the spectral envelope parameter and fundamental frequency (pitch) parameter are stored in step 39.
It is replaced with the parameter detected at 0 (step 400). Of course, if other parameters are detected by the stem 390, those parameters may also be replaced. In this way, the audio data of the selected sentence is approximated to the speaker's voice.

次にこの近似された音声データ中の「$人$」の部−分
にステップ380にて記憶された音声データを挿入して
、1つの文章に合成する(ステップ410)。
Next, the voice data stored in step 380 is inserted into the "$人$" portion of the approximated voice data to synthesize one sentence (step 410).

次に音声出力指示表示をして(ステップ420)、キー
入力待となる(ステップ320)。
Next, a voice output instruction is displayed (step 420), and the system waits for key input (step 320).

次に音声出カキ−3gを押すと、ステップ410で合成
された音声データがスピーカ7から出力される(ステッ
プ430)。
Next, when the audio output key 3g is pressed, the audio data synthesized in step 410 is output from the speaker 7 (step 430).

即ち、 rWould  you  page Mr、Smi th  ?J なる音声がスピーカ7から出力されることになる。That is, rWould you page Mr. Smith? J The sound will be output from the speaker 7.

しかもこの音声の内、rMr、Smi thJは完全に
話者の音質であり、rWould  youpageJ
は話者の音質に近似した音質となっている。
Furthermore, among these sounds, rMr, Smith thJ are completely the sound quality of the speaker, and rWould youpageJ
has a sound quality that approximates that of the speaker.

従って、単に目的の単語を発声して入力するだけで、所
望の文章が自動的に自己の声で滑らかに発声されること
になる。
Therefore, by simply speaking and inputting the desired word, the desired sentence will be automatically and smoothly uttered in one's own voice.

本実施例において特別にステ・ンプ410の挿入合成処
理を実施せずとも、他の合成処理として、ステップ43
0にて出力する際に発声すべき順に出力してもよいこと
は、第1発明の実施例と同様である。
In this embodiment, even if step 410 is not specially inserted and synthesized, step 43 can be performed as another synthesis process.
Similar to the embodiment of the first invention, the output may be performed in the order in which the utterances should be made when outputting the utterances at 0.

上記実施例において、マイク9が音声入力手段Mllに
該当し、次候補選択キー3hが指示入力手段M13に該
当し、CPUIIが選択手段M15、特性抽出手段M1
6、データ変換手段M17及び合成手段M1Bに該当し
、RAM15が音声記憶手段M12に該当し、スピーカ
7が音声出力手段M19に該当する。CPUIIの処理
の内、ステップ340.350の処理が選択手段M15
としての処理に該当し、ステップ390の処理が特性抽
出手段M16としての処理に該当し、ステップ400の
処理がデータ変換手段M17としての処理に該当し、ス
テップ410の処理が合成手段M18としての処理に該
当する。
In the above embodiment, the microphone 9 corresponds to the voice input means Mll, the next candidate selection key 3h corresponds to the instruction input means M13, the CPU II corresponds to the selection means M15, and the characteristic extraction means M1.
6. corresponds to the data conversion means M17 and the synthesis means M1B, the RAM 15 corresponds to the voice storage means M12, and the speaker 7 corresponds to the voice output means M19. Among the processes of the CPU II, the processes of steps 340 and 350 are performed by the selection means M15.
The processing at step 390 corresponds to the processing as the characteristic extraction means M16, the processing at step 400 corresponds to the processing as the data conversion means M17, and the processing at step 410 corresponds to the processing as the synthesis means M18. Applies to.

各実施例において、発音すべき単語が不明な場合を考慮
して辞書機能を設け、ステ・ツブ180゜380の処理
時に、日本語を、別途設けた仮名キーから入力すると、
英語、仏語、スペイン語に変換してLCD5に出力する
ようにしてもよい。また同時にスピーカ7からその発音
を音声出力してもよい。操作者はそれを見て、あるいは
それを問いて音声入力すればよい。
In each embodiment, a dictionary function is provided in case the word to be pronounced is unknown, and when Japanese is input from the separately provided kana key when processing Ste-Tsub 180°380,
The information may be converted into English, French, or Spanish and output to the LCD 5. At the same time, the pronunciation may be output as audio from the speaker 7. The operator can look at it or ask it and input it by voice.

またステ・ツブ140.340の表示処理にて、各国語
の文章を表示する際に、あわせて日本語を表示するよう
にしてもよい。
Further, in the display processing of STEP 140.340, when displaying sentences in each language, Japanese may also be displayed.

例えば、 rQue  prendrez−vous。for example, rQue prendrez-vous.

$物$  ou  $物$ ? $物$と $物$と どちらにしますか。」rWoul
d  you  page  $人$ ?$人$ を呼
び出してもらえますか。」といった表示にする。
$things$ou $things$? Which would you prefer, $things or $things? ”rWool
d you page $人$? Could you please call someone $? ” will be displayed.

またこの表示の際に同時に装置が発音するようにしても
よい。こうすれば操作者にとっては予め正確な発音が覚
えられるという、メリットがある。
Furthermore, the device may generate a sound at the same time as this display. This has the advantage that the operator can memorize the correct pronunciation in advance.

及肌辺苅1 第1発明によれば、単に目的の単語を発声して入力する
だけで、メモリ中の文章と一体となって所望の完全な文
章が自動的に滑らかに発声されることになる。
According to the first invention, by simply speaking and inputting the desired word, the desired complete sentence is automatically and smoothly uttered together with the sentence in memory. Become.

第2発明によれば、更に所望の文章が自己の声で滑らか
に発声されることになる。
According to the second invention, the desired sentence can be uttered smoothly in one's own voice.

各発明のような会話補助装置を使用すれば、即座に必要
な会話文を円滑に発声できる。話者が発音する部分は一
部分であり、他は装置側が正確な発音をするので、話者
の発音が上手でなくとも、外国人の聞き手にも理解が容
易である。特に第2発明の会話補助装置は文章全体が話
者の音声に近い音質りこ統一されるので、聞き側も違和
感なく一層理解し易い。
By using a conversation aid device such as those disclosed in the inventions, it is possible to immediately and smoothly utter the necessary conversation sentences. The speaker pronounces only one part, and the rest is pronounced accurately by the device, so even if the speaker is not good at pronunciation, it is easy for foreign listeners to understand. In particular, in the conversation assisting device of the second invention, the entire text has a uniform sound quality that is close to the speaker's voice, making it easier for the listener to understand without feeling any discomfort.

【図面の簡単な説明】[Brief explanation of drawings]

第1図(A)は第1発明の基本的構成例示図、第1図(
B)は第2発明の基本的構成例示図、第2図は第1発明
及び第2発明の各実施例の外観斜視図、第3図はそのブ
ロック図、第4図は第1発明一実施例の処理内容のフロ
ーチャート、第5図は第2発明一実施例の処理内容のフ
ローチャートを表す。 Ml、MI M2.MI M3.MI M4.MI M5.MI M6.Ml 1・・・音声入力手段 2・・・音声記憶手段 3・・・指示入力手段 4・・・会話データ群 5・・・選択手段 8・・・合成手段 M7.M19・・・音声出力手段 M2S・・・特性抽出手段 M17・・・データ変換手
段3h・・・次候補選択キー  7・・・スピーカ9・
・・マイク      11・・・CPU13・・・R
OM      15・・・RAM代理人 弁理士 定
立 勉 (はが2名)図万そのl
FIG. 1(A) is a diagram illustrating the basic configuration of the first invention;
B) is a diagram illustrating the basic configuration of the second invention, FIG. 2 is an external perspective view of each embodiment of the first invention and the second invention, FIG. 3 is a block diagram thereof, and FIG. 4 is an implementation of the first invention. FIG. 5 shows a flowchart of the processing contents of the example of the embodiment of the second invention. Ml, MI M2. MI M3. MI M4. MI M5. MI M6. Ml 1... Voice input means 2... Voice storage means 3... Instruction input means 4... Conversation data group 5... Selection means 8... Synthesis means M7. M19...Audio output means M2S...Characteristic extraction means M17...Data conversion means 3h...Next candidate selection key 7...Speaker 9.
...Microphone 11...CPU13...R
OM 15...RAM agent Patent attorney Tsutomu Sadatsu (2 people)

Claims (1)

【特許請求の範囲】 1 音声入力手段と、 音声入力手段から入力された音声を記憶する音声記憶手
段と、 指示入力手段と、 指示入力手段から入力された指示に基づいて、音声デー
タからなる会話データ群から所定の会話の音声データを
選択する選択手段と、 音声記憶手段の音声データと選択手段にて選択された音
声データとを一連の音声データとして合成する合成手段
と、 合成手段にて合成された音声データを音声として出力す
る音声出力手段と、 を備えたことを特徴とする会話補助装置。 2 音声入力手段と、 音声入力手段から入力された音声を記憶する音声記憶手
段と、 指示入力手段と、 指示入力手段から入力された指示に基づいて、会話デー
タ群から所定の会話データを選択する選択手段と、 音声入力手段から入力された音声パターンの特性を抽出
する特性抽出手段と、 選択手段にて選択された会話データを、特性抽出手段に
て抽出された音声パターン特性を有する音声データに変
換するデータ変換手段と、 音声記憶手段の音声データとデータ変換手段にて変換さ
れた音声データとを一連の音声データとして合成する合
成手段と、 合成手段にて合成された音声データを音声として出力す
る音声出力手段と、 を備えたことを特徴とする会話補助装置。
[Claims] 1. A voice input means, a voice storage means for storing the voice input from the voice input means, an instruction input means, and a conversation consisting of voice data based on the instructions input from the instruction input means. a selection means for selecting voice data of a predetermined conversation from a data group; a synthesis means for synthesizing the voice data in the voice storage means and the voice data selected by the selection means as a series of voice data; and synthesis by the synthesis means. A conversation auxiliary device comprising: a voice output means for outputting the voice data as voice; 2 voice input means; voice storage means for storing the voice input from the voice input means; instruction input means; and selecting predetermined conversation data from the conversation data group based on the instructions input from the instruction input means. a selection means; a characteristic extraction means for extracting the characteristics of the voice pattern input from the voice input means; and a characteristic extraction means for extracting the characteristics of the voice pattern input from the voice input means; a data converting means for converting; a synthesizing means for synthesizing the audio data in the audio storage means and the audio data converted by the data converting means as a series of audio data; and outputting the audio data synthesized by the synthesizing means as audio. A conversation auxiliary device comprising: a voice output means for outputting a voice;
JP63273874A 1988-10-28 1988-10-28 Conversation aid Expired - Lifetime JP2638151B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63273874A JP2638151B2 (en) 1988-10-28 1988-10-28 Conversation aid

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63273874A JP2638151B2 (en) 1988-10-28 1988-10-28 Conversation aid

Publications (2)

Publication Number Publication Date
JPH02129686A true JPH02129686A (en) 1990-05-17
JP2638151B2 JP2638151B2 (en) 1997-08-06

Family

ID=17533771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63273874A Expired - Lifetime JP2638151B2 (en) 1988-10-28 1988-10-28 Conversation aid

Country Status (1)

Country Link
JP (1) JP2638151B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100512387B1 (en) * 1996-02-07 2006-01-27 코닌클리케 필립스 일렉트로닉스 엔.브이. Interactive Audio Entertainment and Storage

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100512387B1 (en) * 1996-02-07 2006-01-27 코닌클리케 필립스 일렉트로닉스 엔.브이. Interactive Audio Entertainment and Storage

Also Published As

Publication number Publication date
JP2638151B2 (en) 1997-08-06

Similar Documents

Publication Publication Date Title
JP4867804B2 (en) Voice recognition apparatus and conference system
JP4714694B2 (en) Error detection in speech-text transcription systems
JP2002328695A (en) Method for generating personalized voice from text
JP3384646B2 (en) Speech synthesis device and reading time calculation device
JP2001318592A (en) Device for language study and method for language analysis
AU769036B2 (en) Device and method for digital voice processing
JP2006139162A (en) Language learning system
JP2638151B2 (en) Conversation aid
JPS616732A (en) Vocal training device
JPH01154189A (en) Enunciation training apparatus
JP2008058379A (en) Speech synthesis system and filter device
JP4543919B2 (en) Language learning device
JPS6184771A (en) Voice input device
JP2642617B2 (en) Speech synthesizer
JP2578876B2 (en) Text-to-speech device
JP4736524B2 (en) Speech synthesis apparatus and speech synthesis program
JP2703253B2 (en) Speech synthesizer
JPH05341705A (en) Conversation training device
JP2001282098A (en) Foreign language learning device, foreign language learning method and medium
JPH01211799A (en) Regular synthesizing device for multilingual voice
JP5042485B2 (en) Voice feature amount calculation device
JPH04311989A (en) Voice utterance learning unit
JPH11327594A (en) Voice synthesis dictionary preparing system
JPH01285998A (en) Speech recognizing device
JPH04243299A (en) Voice output device