JPH08248990A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH08248990A
JPH08248990A JP7047189A JP4718995A JPH08248990A JP H08248990 A JPH08248990 A JP H08248990A JP 7047189 A JP7047189 A JP 7047189A JP 4718995 A JP4718995 A JP 4718995A JP H08248990 A JPH08248990 A JP H08248990A
Authority
JP
Japan
Prior art keywords
voice
unit
synthesis
user
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7047189A
Other languages
English (en)
Inventor
Hitoshi Iwamida
均 岩見田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP7047189A priority Critical patent/JPH08248990A/ja
Publication of JPH08248990A publication Critical patent/JPH08248990A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は、複数の文からなるテキストを文単
位で読み上げるテキスト音声合成装置に係り、途中の文
の読み上げ開始のタイミングをユーザが制御して内容を
理解した後、次の文の音声合成に移ることを可能とす
る。 【構成】 テキストデータに含まれるまたは付加した予
め定めたデータを区切り情報として識別する区切り情報
識別部3と、該区切り情報識別部3からの識別信号に応
答して音声合成動作の中断を指示する合成中断制御部4
と、ユーザの発声に基づく所定の音声情報を出力の開始
情報として識別する開始情報識別部8と、該開始情報識
別部8からの再開信号に応答して中断されたテキストデ
ータの次の文に対応する音声合成動作の開始を指示する
合成開始制御部9とを有して成ることを特徴とする音声
合成装置。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキストデータを所定
の単位(文、節、句、単語または行等の任意の単位であ
るが、以下では単に「文」と言う。)に区切って読み上
げる音声合成装置に係り、特に、途中の文の読み上げ開
始のタイミングをユーザが制御できるような音声合成装
置に関する。
【0002】音声合成は、電子メールの読み上げ、校閲
のための原稿読み上げ、などに応用されており、使いや
すいユーザインタフェースが期待されている。
【0003】
【従来の技術】従来、複数の文からなるテキストを読み
上げるテキスト音声合成装置は、文の区切りを検出する
と、そこまでの文に相当する音声を合成し出力すること
を繰り返して、テキスト全体を順次読み上げていた。す
なわち、次々に文を読み上げるようになっていた。
【0004】
【発明が解決しようとする課題】従来、テキストを読み
上げるテキスト音声合成装置は、文の区切り時間を一定
にしていたので、ユーザが聴取したその文の内容を理解
したか否かに関係なしに、次の文の読み上げが始まって
しまうという問題点があった。
【0005】本発明は、かかる事情に鑑みてなされたも
のであって、ユーザが聴取したその文の内容を理解して
から、次の文の音声出力を開始する音声合成装置を提供
することを目的とするものである。
【0006】
【課題を解決するための手段】本発明は、上記のような
目的を達成するため、以下の手段を提供する。即ち、テ
キストデータに含まれるまたは付加した予め定めたデー
タを区切り情報として検出するまで音声合成を行って一
旦中断し、そこまでの合成音声の結果を聴取したユーザ
が、次のデータ区切り情報までの音声合成を開始しても
よいとの意思表示をした場合に限って、次のデータ区切
り情報までの音声合成を開始する。従って、ユーザが何
ら意思表示をしない場合には、先へ進まない。ユーザの
意思表示の方法として、ユーザが音声で応答することと
すれば、ユーザは釦を押す等の余分な機械操作を行なう
必要がない。
【0007】かかる構成を実現するために、本発明では
図1の原理構成図に示すように、入力されたテキストデ
ータに含まれる区切り情報までを音声合成部5で合成し
て、音声発声部6で発声する。この発声された合成音声
をユーザが聴取して、次の区切りまでのテキストデータ
の合成を始めて良いときには、ユーザは音声でその意思
表示を行なう。ユーザの発する音声を音声変換部7が検
知して音声合成を続行する。
【0008】各部の動作を更に詳細に説明すると、テキ
ストデータファイル2にファイルされたテキストデータ
は、区切り情報識別部3と合成中断制御部4とを経由し
て前記音声合成部5に送られて音声合成される。合成さ
れた音声は前記のように、該音声発声部5から音声とし
て出力される。テキストデータに区切り情報が含まれて
いると、区切り情報識別部3がこれを検知し、制御部1
に区切り情報識別した旨を知らせる。
【0009】区切り情報識別した旨を知った前記制御部
1は、テキストデータファイル2からのテキストデータ
の送出を中断させる。該制御部1は前記合成中断制御部
4へ区切り情報の存在を通知し、該合成中断制御部4は
該制御部1を通して音声合成部5に対し、現在届いてい
るテキストデータの末尾までで音声合成を中止する指令
を発する。
【0010】ユーザが合成再開の意思表示を音声で行な
うと、前記音声変換部7は音声を開始情報である電気信
号に変換する。開始情報識別部8は開始情報を識別し、
合成開始制御部9へ開始情報を検知した旨通知する。該
合成開始制御部9は、テキストデータをテキストデータ
ファイル2から、前記区切り情報識別部3と前記合成中
断制御部4とを経由して前記音声合成部5に送らせる。
前記合成開始制御部9は、同時に、開始情報を検知した
旨を前記合成中断制御部4に通知し、該合成中断制御部
4は前記制御部1を通して音声合成部にテキストデータ
の音声合成を再開させる。
【0011】請求項2の発明に係る音声合成装置は、音
声合成動作の中断後のユーザの発声が、該中断時点から
所定の時間を越えるか否かを基準に合成再開を判定す
る。
【0012】
【作用】上記のような本発明の構成によれば、複数の文
が含まれるテキストデータを文の区切り単位に音声合成
して出力し、ユーザが内容を理解した旨を音声で表示す
ると、次の区切りまでの単位を音声合成して出力すると
言った動作を繰り返し、ユーザは釦を押す等の操作から
解放され、ハンズフリーの状態で装置に対応することが
できる。また請求項2の発明によればユーザが音声を発
しなくとも、一定時間経過すると自動的に音声合成を再
開するが、その時間経過前にユーザが指示の音声を発す
ると、音声合成の再開動作を繰り延べることができる。
従って、その際ユーザが音声を発しないと、一定時間後
自動的に次の区切りまでの単位を音声合成して出力する
と言った柔軟な操作が可能となる。
【0013】
【実施例】図2は本発明の一実施例を示すブロック図で
あり、図1を更に詳細に記載したものであるが、一部は
表示を省略した、また図1と同じ構成要素は同じ番号で
表示してある。
【0014】本実施例は、1単位の文の合成音を出力し
た後に、ユーザが「はい」と発声すると、その次の文の
合成を開始し、以下これを繰り返して複数の文の音声合
成を行なう音声合成装置である。なお、ここで文と言う
のは、すでに述べたように、文のみならず、文節、句、
単語等必要に応じて区切った文章の一部をも含むものと
する。
【0015】このような文の区切りを識別するに当たっ
ては、テキストデータに含まれる句点や読点のコードデ
ータを利用しても良いし、テキスト入力時に付加した改
行コードやその他の付加データを利用することができ
る。区切りの単位としては、区切り情報として予め定め
た1つまたは複数のデータを選択的にまたは任意に組み
合わせて設定することができる。
【0016】図中、テキストデータとあるのは、図1中
のテキストデータファイルから、合成中断制御部4を経
由して、音声合成部5へ送られる文である。テキストデ
ータが送られてくると、該合成中断検出部4はテキスト
データ中に区切り情報を検出するまで、テキストデータ
を音声合成部5へ送り続ける。文末を検出すると、図示
されていない制御部へ文末検出した旨の情報を送るとと
もに、合成開始制御主部91の合成再開の指令があるま
で、テキストデータを前記音声合成部5へ送ることを中
断する。
【0017】前記音声合成部5は、図に示すように、単
語辞書51と、言語処理部52と、音響処理部53と、
波形辞書54と、波形生成部55の5つの要素から構成
されている。
【0018】単語辞書51は、音声合成で使用される各
単語の読みとアクセント位置とを記載したものである。
言語処理部52は、前記合成中断制御部4が文末を検出
したときに、そこまでの1つの文のテキストから表音文
字列(発音を表すカナ文字列とアクセント位置を示した
もの)を前記単語辞書51を用いて生成する、即ち、音
声合成を司るものである。音響処理部53は、前記言語
処理部52で生成された表音文字列から音響パラメータ
(合成単位である音素の列と各音素の時間長、およびピ
ッチ周波数の時間変化パターン)を生成する音声合成要
素である。
【0019】また、波形辞書54は、各音素の素片波形
を蓄積しておくものである。波形生成部55は、前記音
響処理部53で生成された音響パラメータに従って前記
波形辞書54中の適当な波形を滑らかに接続することで
1文に相当する音声波形を生成するものである。
【0020】前記音声合成部5から出力された合成音声
は、図2には図示していなが図1に示す音声発声部6を
通して、ユーザに向かって発せられ、また、出力後に前
記合成開始制御主部91に1区切りの文の出力が終了し
た旨の情報を伝えられる。この状態で該合成開始制御主
部91は、図2には図示されないが図1に示す音声変換
部7に指令を発し、ユーザの発声する音声の入力を開始
可能とするものである。ここで、ユーザが前記音声発声
部6から発せられた文の内容が理解できたら、ユーザは
「はい」等の音声を発して応答する。
【0021】ユーザの発した音声は、前記音声変換部7
で電気信号(音声情報)に変換されて、開始情報識別部
8に入力される。該開始情報識別部8は、図に示すよう
に、分析部81と、照合部82と、標準パターン83の
3つの要素から構成されている。分析部81は、入力さ
れた音声を一定時間間隔毎に周波数分析し、周波数特徴
パラメータの時系列(以下、入力パターンと言う。)を
得るものである。標準パターン83は、「はい」という
音声を分析部81と同じ方法で予め分析して求めておい
た周波数特徴パラメータの時系列である。
【0022】照合部82は、前記分析部81で求められ
た入力パターンと、前記標準パターン83との照合を行
なって類似度を求め、類似度がある一定値より高いとき
は入力された音声が「はい」という音声であると判断
し、類似度がある一定値より低いときは入力された音声
が「はい」という音声ではないと判断するものである。
【0023】前記開始情報識別部8から発せられた入力
音声の判断結果は、合成開始制御部9に送られる。該合
成開始制御部9は、制御手順格納部92と、合成開始制
御主部91の2つの要素で構成されている。制御手順格
納部92は、合成開始制御主部91における制御の手順
を格納してある。即ち、入力音声が「はい」と認識され
たときは、前記合成中断制御部4に次の文の文末を検出
するよう指令を与え、また、入力音声が「はい」ではな
いと認識されたときは、前記音声変換部7に音声入力を
開始する指令を与えるという手順が格納されている。
【0024】合成開始制御主部91は、前記音声発生部
6から1つの文の合成音声出力が終了したという情報を
受け取ると、前記音声変換部7に音声入力を開始する指
令を与え、前記照合部82からの結果を受けとり、前記
制御手順格納部92に格納されている制御手順に従っ
て、入力音声が「はい」と認識されたときは、前記合成
中断制御部4に次の文の文末を検出するよう指令を与え
る。
【0025】また、入力音声が「はい」ではないと認識
されたときは、再び前記音声変換部7に音声入力を開始
する指令を与え、前記照合部82からの結果を受けと
り、上述した制御手順に従い再び制御を行なう。
【0026】以上のように構成することで、複数の文か
らなるテキストを音声合成装置が読み上げる際に、1つ
の文の読み上げが終了するごとにユーザの音声入力をチ
ェックし、ユーザが「はい」と言ったと判断したとき
に、次の文の読み上げを開始するという制御ができるよ
うになる。
【0027】次に、図3を用いて、他の実施例を説明す
る。図3は、開始情報識別部8の構成の一例であり、音
声変換部7の音声出力のレベルを、レベル検出部84で
検出し、一定レベルを超えたタイミングを、タイミング
判定部85で判定し、判定結果を合成開始制御部9へ送
出する。これは、開始情報識別部8にタイマーの機能を
追加することによって、ユーザが音声を発しなくとも、
一定時間経過すると自動的に音声合成を再開するが、そ
の際ユーザが音声を発すると、再開した音声合成を取り
止める構成である。従って、その際ユーザが音声を発し
ないと、一定時間後自動的に次の区切りまでの単位を音
声合成して出力すると言った柔軟な操作が可能となる。
この場合、上記で説明に用いたユーザの発すべき音声は
「はい」等の肯定的なものではなく、例えば「待て」と
いった、否定的なものが考えられる。
【0028】上記説明では「はい」、「待て」という応
答で説明したが、その他の応答を採用することは勿論可
能である。例えば、前者の代わりに「イエス」、「ヤ
ー」、「うん」、「オーケー」等、また後者の代わりに
「ノー」、「ストップ」等でもなんら差支えがない。
【0029】また、発声が憚られる環境においては、音
声以外の手段による応答も可能である。例えば、ユーザ
の表情を捕らえる視覚的手段を用いて、「うなずき」、
「まばたき」を検知するとか、ユーザの「脳波」に含ま
れる情報を使用することも考えられる。
【0030】
【発明の効果】以上説明したように、本発明の音声合成
装置によれば、ユーザが文の内容を理解したときに「は
い」等の単語を発声すると言うような、自然なユーザイ
ンタフェースで、次の文の合成の開始を制御できるとい
う効果がある。
【図面の簡単な説明】
【図1】 本発明の原理構成図である。
【図2】 本発明の一実施例である。
【図3】 開始情報識別部の構成例である。
【符号の説明】
1 制御部 2 テキストデータファイル 3 区切り情報識別部 4 合成中断制御部 5 音声合成部 6 音声発声部 7 音声変換部 8 開始情報識別部 9 合成開始制御部 51 単語辞書 52 言語処理部 53 音響処理部 54 波形辞書 55 波形生成部 81 分析部 82 照合部 83 標準パターン 84 レベル検出部 85 タイミング判定部 91 合成開始制御主部 92 制御手順格納部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の文からなるテキストデータを所定
    の単位に区切って読み上げる音声合成装置であって、 前記テキストデータに含まれるまたは付加した予め定め
    たデータを区切り情報として識別する区切り情報識別部
    と、該区切り情報識別部からの識別信号に応答して音声
    合成動作の中断を指示する合成中断制御部と、 ユーザの発声に基づく所定の音声情報を合成動作の開始
    情報として識別する開始情報識別部と、該開始情報識別
    部からの再開信号に応答して中断されたテキストデータ
    の次の文に対応する音声合成動作の開始を指示する合成
    開始制御部とを有して成ることを特徴とする音声合成装
    置。
  2. 【請求項2】 複数の文からなるテキストデータを所定
    の単位に区切って読み上げる音声合成装置であって、 前記テキストデータに含まれるまたは付加した予め定め
    たデータを区切り情報として識別する区切り情報識別部
    と、該区切り情報識別部からの識別信号に応答して所定
    時間音声合成動作の中断を指示する合成中断制御部と、 ユーザの発声に基づく所定の音声情報の入力レベルを検
    出するレベル検出部とを具え、該レベル検出部の出力タ
    イミングが上記音声合成動作の中断時点から所定の時間
    を越えるか否かを判定するタイミング判定部を具え、該
    タイミング判定部の出力を条件として再開信号を出力す
    ることを特徴とする音声合成装置。
JP7047189A 1995-03-07 1995-03-07 音声合成装置 Pending JPH08248990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7047189A JPH08248990A (ja) 1995-03-07 1995-03-07 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7047189A JPH08248990A (ja) 1995-03-07 1995-03-07 音声合成装置

Publications (1)

Publication Number Publication Date
JPH08248990A true JPH08248990A (ja) 1996-09-27

Family

ID=12768170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7047189A Pending JPH08248990A (ja) 1995-03-07 1995-03-07 音声合成装置

Country Status (1)

Country Link
JP (1) JPH08248990A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053581A (ja) * 2007-08-29 2009-03-12 Oki Electric Ind Co Ltd 音声出力装置
CN110473516A (zh) * 2019-09-19 2019-11-19 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053581A (ja) * 2007-08-29 2009-03-12 Oki Electric Ind Co Ltd 音声出力装置
CN110473516A (zh) * 2019-09-19 2019-11-19 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备
US11417314B2 (en) 2019-09-19 2022-08-16 Baidu Online Network Technology (Beijing) Co., Ltd. Speech synthesis method, speech synthesis device, and electronic apparatus

Similar Documents

Publication Publication Date Title
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
Cutler Segmentation problems, rhythmic solutions
US5752227A (en) Method and arrangement for speech to text conversion
Klatt The Klattalk text-to-speech conversion system
JP4536323B2 (ja) 音声−音声生成システムおよび方法
US4852170A (en) Real time computer speech recognition system
EP0986802B1 (en) Reading and pronunciation tutor
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
US7191132B2 (en) Speech synthesis apparatus and method
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
JPH09500223A (ja) 多言語音声認識システム
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
GB2376394A (en) Speech synthesis apparatus and selection method
GB2380380A (en) Speech synthesis method and apparatus
GB2380379A (en) Speech system barge in control
EP2645364A1 (en) Spoken dialog system using prominence
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
JP2011504624A (ja) 自動同時通訳システム
JPH10504404A (ja) 音声認識のための方法および装置
JPH05165486A (ja) テキスト音声変換装置
JP2000267687A (ja) 音声応答装置
JP2010197644A (ja) 音声認識システム
JPH08248990A (ja) 音声合成装置
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP3277579B2 (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030610