JPH10133678A - 音声再生装置 - Google Patents

音声再生装置

Info

Publication number
JPH10133678A
JPH10133678A JP8287942A JP28794296A JPH10133678A JP H10133678 A JPH10133678 A JP H10133678A JP 8287942 A JP8287942 A JP 8287942A JP 28794296 A JP28794296 A JP 28794296A JP H10133678 A JPH10133678 A JP H10133678A
Authority
JP
Japan
Prior art keywords
voice
audio
data
text
recording medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8287942A
Other languages
English (en)
Inventor
Masayuki Misaki
正之 三崎
Hirotsugu Taniguchi
宏嗣 谷口
Michio Matsumoto
美治男 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8287942A priority Critical patent/JPH10133678A/ja
Publication of JPH10133678A publication Critical patent/JPH10133678A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声データと文字情報との対応づけを文章単
位で行い、文章単位で音声を強調処理すること。 【解決手段】 記録媒体に11に音声データ及び音声と
対応したテキストデータを記録する。音声−テキスト対
応設定手段15で音声データと文字情報との文章単位で
の対応付けを行った音声制御データを求め、記録媒体1
1に記録する。音声再生手段12で音声信号を出力する
とき、強調処理手段14は音声制御データを用いて一文
章の時間長及び文章始端からの経過時間長に関連して強
調処理を行う。こうすると受聴者に対して聴き取り易い
音声を出力することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パーソナルコンピ
ュータなどのように、音声データとテキストデータの双
方を取り扱うことが可能な機器において、音声データを
聴取し易くするため強調処理して出力する音声再生装置
に関するものである。
【0002】
【従来の技術】従来、音声信号を強調処理して意志疎通
を円滑にすることを目的とした音声強調装置があり、例
えば特開平5−27792号公報にその一例が開示され
ている。この音声強調装置の基本構成図を図3に示し、
その機能について説明する。
【0003】音声強調装置30において、音声入力部3
1は電話回線やマイクロホン等を通じて音声を取り込
み、アナログ信号をディジタル信号に変換してキーワー
ド抽出部32へ供給する。キーワード抽出部32は入力
音声信号中から強調すべき語を検出する。この例では、
特徴抽出部33において音声のスペクトルの特徴のパラ
メータを抽出をしたり、韻律の特徴の抽出をする。スペ
クトルの特徴としてはLPCケプストラム、強調処理の
ための韻律的特徴のパラメータとしてパワーやピッチ情
報を抽出する。
【0004】キーワード抽出部34は、入力された音声
からキーワード辞書35にあらかじめ登録されたキーワ
ードの抽出を行う。キーワード抽出は音声認識技術の1
つであるワードスポッティングの技術を用いて行える。
即ち、あらかじめ抽出すべき音声のパラメータの時系列
をキーワード辞書35に登録しておき、入力される音声
信号のキーワードと順次パターンマッチングしていくこ
とでキーワードを検出するものである。
【0005】強調処理部36は、キーワード抽出部32
で検出されたキーワードの強調処理を行う。このため特
徴抽出部33で抽出されたピッチやパワーなどの韻律的
特徴は韻律特徴蓄積部37に蓄積される。同様にスペク
トルの特徴のパラメータはスペクトル特徴蓄積部38に
蓄積される。また、キーワード抽出部34で抽出された
キーワード区間の情報はキーワード区間蓄積部39に蓄
積される。特徴量変形処理部40では、抽出されたキー
ワード区間に対して、韻律特徴量、スペクトル特徴量な
どを変形処理することにより、当該するキーワード区間
の強調を行う。そして音声合成部41は夫々の特徴を合
成し、強調処理されたディジタル音声信号を作成して音
声出力部42に与える。
【0006】
【発明が解決しようとする課題】しかしながら、上記の
ような構成では、不特定な話者に対する実環境のキーワ
ードの検出は困難であることが多く、誤検出したキーワ
ードに対しても強調処理を行ってしまう可能性が高い。
また、韻律的特徴量やスペクトル特徴量の抽出などに
は、かなりの演算量が必要になり、パーソナルコンピュ
ータなどのシステムのハードウェア資源を有効に活用で
きないという問題点があった。
【0007】本発明は、このような従来の問題点に鑑み
てなされたものであって、音声データとテキストデータ
の対応付けをマニュアル操作、又は自動的に行うことに
より、文章単位での強調処理を容易にかつ安定して行う
ことができる音声再生装置を提供するものである。
【0008】
【課題を解決するための手段】このような課題を解決す
るために本願の請求項1記載の発明は、音声信号の内容
に対応する文字情報をテキストデータとするとき、前記
音声データと前記テキストデータ及び音声制御データを
記録する記録媒体と、記録媒体に記録された音声データ
を読み出して音声信号に復号する音声再生手段と、前記
音声再生手段から出力される音声信号に対して明瞭度を
向上するための強調処理を行う強調処理手段と、前記音
声信号と前記テキストデータとの対応付け情報を入力
し、その対応結果を音声制御データとして前記記録媒体
に記録する音声−テキスト対応設定手段と、前記記録媒
体から読み出した前記音声制御データに基づいて前記音
声再生手段の制御を行うと共に、前記音声−テキスト対
応設定手段で設定された対応付け区間の音声信号に対し
て強調処理の制御パラメータを前記強調処理手段に与え
る制御手段と、を具備することを特徴とするものであ
る。
【0009】また、本願の請求項2記載の発明は、音声
信号の内容に対応する文字情報をテキストデータとする
とき、前記音声データと前記テキストデータ及び音声制
御データを記録する記録媒体と、記録媒体に記録された
音声データを読み出して音声信号に復号する音声再生手
段と、前記音声再生手段から出力される音声信号に対し
て明瞭度を向上するための強調処理を行う強調処理手段
と、前記音声再生手段の出力する音声信号から音声の始
端及び終端を検出する音声区間検出手段と、前記音声信
号と前記テキストデータとの文章単位での対応付けを前
記音声区間検出手段の検出結果を用いて指示し、その対
応結果を音声制御データとして前記記録媒体に記録する
音声−テキスト対応設定手段と、前記記録媒体から読み
出した前記音声制御データに基づいて前記音声再生手段
の制御を行うと共に、前記音声−テキスト対応設定手段
で設定された対応付け区間の音声信号に対して強調処理
の制御パラメータを前記強調処理手段に与える制御手段
と、を具備することを特徴とするものである。
【0010】また、本願の請求項3記載の発明では、前
記音声−テキスト対応設定手段は、前記記録媒体に記録
されたテキストデータを基にして音声信号中に含まれる
文章数を求め、更に文章中に含まれるモーラ数を求める
ことにより音声区間長を推定する推定手段を有し、前記
音声区間検出手段から得られる音声の始端と終端が文章
の始端と終端に適合するように対応づけを行うことを特
徴とするものである。
【0011】また、本願の請求項4記載の発明では、前
記制御手段は、前記音声−テキスト対応設定手段で得ら
れた一文章の時間長と文章の始端からの経過時間長とに
関連して強調処理の制御パラメータを制御することを特
徴とするものである。
【0012】また、本願の請求項5記載の発明では、前
記強調処理手段は、話速を可変する話速変換処理、音声
のエネルギーを増幅する振幅強調処理、ホルマント周波
数を増幅するホルマント強調処理、文章間のポーズ長を
伸長するポーズ伸長処理、音声の基本周波数を変更する
基本周波数変換処理のうち、少なくともいずれか1つの
処理を行うことを特徴とするものである。
【0013】
【発明の実施の形態】
(実施の形態1)本発明の第1の実施の形態における音
声再生装置について図1を参照しながら説明する。図1
は第1の実施の形態における音声再生装置10Aの基本
構成を示すブロック図である。音声再生装置10Aは、
記録媒体11、音声再生手段12、制御手段13、強調
処理手段14、音声−テキスト対応設定手段15を含ん
で構成される。
【0014】音声信号はあらかじめAD変換されて収録
され、高能率符号化された音声データとして記録媒体1
1に格納される。また、この音声データと対応する文字
情報がテキストデータとして記録媒体11に記録されて
いるものとする。音声再生手段12は、記録媒体11に
高能率符号化されて記録されている音声データを復号化
する。強調処理手段14は、音声再生手段12の出力信
号に対して、話速を可変する話速変換処理、音声のエネ
ルギーを増幅する振幅強調処理、ホルマント周波数を増
幅するホルマント強調処理、文章間のポーズ長を伸長す
るポーズ伸長処理、又音声の基本周波数を変更する基本
周波数変換処理等の強調処理を行う。
【0015】音声−テキスト対応設定手段15は、記録
媒体11に記録された音声データと、これに対応するテ
キストデータとにおいて、文章単位での対応づけ情報を
マニュアル操作により音声制御データとして作成し、記
録媒体11に記録する。マニュアル操作の一例として
は、音声データを再生しながらテキストデータを画面で
参照し、文章の段落、文節の切れ目が段落記号又は句読
点としてテキストデータに記録されている場合、音声デ
ータにそれらの記号に相当するマークを対応付け情報と
して付加することである。
【0016】制御手段13は記録媒体11に記録された
音声制御データを基に、音声データの各文章の時間長を
求め、文章の始端からの経過時間長を監視することで、
強調処理へのパラメータ制御を行うものである。強調処
理手段14では、制御手段13によって与えられるパラ
メータで前述したような各種の強調処理を行う。
【0017】例えば話速変換処理では、文章の始端はゆ
っくりとした話速で再生し、文章の終端に近づくにつれ
て話速を早くするように話速変換処理のパラメータを与
える。このような話速を変化させる手法については例え
ば、池沢龍他「話速変換に伴う時間伸張を吸収するため
の一方法」信学技報SP92-56 に詳しく報告されている。
【0018】また、振幅強調やホルマント強調処理など
では、文章区間のみ強調処理を行う制御を行えばよいの
で、無音区間では強調処理を行わずに、音声データの始
端前後から徐々に強調パラメータを大きくし、音声デー
タの終端部分では再びに強調パラメータを小さくしてい
けば、常時強調処理を行う場合に比べて自然な感じが保
たれる。
【0019】また、文章間のポーズ長を伸張する際に
も、直前の文章の時間長が長い場合には、現在のポーズ
を長いポーズ長に変換して付与するなどの規則を与える
ことで、聴き取り易い音声を得ることができる。
【0020】さらに、文章の始端部分で基本周波数を上
げる操作を行うことで、韻律的特徴を損なわずに、強調
処理を行うこともできる。
【0021】このように音声データとテキストデータと
の対応づけを与えることで、音声データ中に含まれる文
章の時間長、及び一文章の始端からの経過時間を利用し
た強調処理を行うことができる。音声データから発声内
容を直接文字情報に変換する技術は、音声認識技術の発
展により可能となるであろうが、現在のところ実環境で
の不特定話者の連続音声認識技術は膨大な演算量を必要
とする。しかしその割りには満足な結果を得られず、実
用的ではない。ここでは、テキストデータ上に存在する
音声の文字情報と音声信号との対応を、マニュアル操作
で入力することにより、より安定した強調処理の動作を
保証できる。
【0022】(実施の形態2)次に本発明の第2の実施
の形態における音声再生装置について、図2を参照しな
がら説明する。図2は本実施の形態における音声再生装
置10Bの基本構成を示すブロック図であり、第1の実
施の形態と同一部分は同一の符号を付けて説明する。音
声再生装置10Bは、記録媒体11、音声再生手段1
2、制御手段13、強調処理手段14に加えて、推定手
段16aを有する音声−テキスト対応設定手段16、音
声区間検出手段17を含んで構成される。
【0023】このような構成の音声再生装置10Bの動
作について説明する。記録媒体11、音声再生手段1
2、制御手段13、強調処理手段14の基本的動作は第
1の実施の形態と同様であるので、ここでは説明を省略
する。音声区間検出手段17は信号のエネルギーや零交
差数、ピッチなどを用いることにより、音声データに含
まれる文章の始端候補や終端候補の位置を求める。この
ような音声区間検出方法は、例えばL.R.Rabiner, R.W.S
hafer , (鈴木久喜訳)「音声のディジタル信号処理
(上)」などに詳しく報告されている。この場合の候補
には、文章の始端位置、終端位置だけではなく、息継ぎ
の間や言い淀み、無声化した音声区間などによる始端や
終端も含まれている。尚、音声区間検出手段だけでは、
正確に音声データ中の文章の始端や終端、即ち一文章の
区切りを検出することは困難である。
【0024】一方、音声−テキスト対応設定手段16で
は、推定手段16aによりまず記録媒体11に記録され
たテキストデータに存在する音声の文字情報から、文章
の区切りを検出して音声データ中に含まれる文章数を求
める。さらに各文章中に含まれる単語を音韻辞書等を参
照して音節数、モーラ数を求める。この一文章あたりの
音節数から、各文章の相対的な時間長が推定でき、音声
データ全体における各文章の概略位置を推定できる。そ
して、音声区間検出手段17の出力信号である始端候補
や終端候補のうち、推定手段16aが推定した概略位置
と最も近いものを始端や終端として決定する。
【0025】このように始端や終端を、音声区間検出手
段17の出力する候補だけでなく、推定手段16aで文
字情報から得た文章数、各文章の音節数に基づいて決定
することにより、文章の始端や終端の音声データ上での
位置をより正確に対応付けることが可能となる。そし
て、音声データとテキストデータの対応づけ情報を音声
制御データとして記録媒体11に記録する。この音声制
御データを利用した音声再生手段12及び強調処理手段
14の動作は第1の実施の形態と同様であるので、ここ
では説明を省略する。
【0026】このように、一度作成した音声データの文
字情報を利用して、音声データを再度聴取する場合、又
は高齢者や難聴者などの利用者が聴取する場合、文章単
位で強調処理パラメータを与えられているので、より明
瞭な音声を再生することができる。このような機能はパ
ーソナルコンピュータのように高速アクセス可能な記録
メディアを有する装置で実現可能となる。従来の口述筆
記具(ディクテイティングマシン)のように音声だけの
呈示を行う音声再生装置とは異なり、マルチメディアを
利用する場合の音声再生装置として実現し易くなる。例
えば、このような音声再生装置を用いることにより、語
学学習機なども容易に実現できる。
【0027】なお、以上の説明では音節数から各文章の
概略位置を推定しているが、音韻数から推定することも
可能である。
【0028】
【発明の効果】以上のように本発明によれば、音声−テ
キスト対応設定手段で音声データとテキストデータとの
文章単位での対応付けを行い、その音声制御データをも
とに音声信号の強調処理パラメータを文章単位で制御す
ることができるので、より有効な部分に対して効果的な
音声の強調処理を行うことができる。その結果、人の収
録音声を聴き取り易い音声に変換して納得の行くまで繰
り返し聞くことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声再生装
置の基本構成図である。
【図2】本発明の第2の実施の形態における音声再生装
置の基本構成図である。
【図3】従来の音声強調装置の構成図である。
【符号の説明】
10A,10B 音声再生装置 11 記録媒体 12 音声再生手段 13 制御手段 14 強調処理手段 15,16 音声−テキスト対応設定手段 16a 推定手段 17 音声区間検出手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声信号の内容に対応する文字情報をテ
    キストデータとするとき、前記音声データと前記テキス
    トデータ及び音声制御データを記録する記録媒体と、 記録媒体に記録された音声データを読み出して音声信号
    に復号する音声再生手段と、 前記音声再生手段から出力される音声信号に対して明瞭
    度を向上するための強調処理を行う強調処理手段と、 前記音声信号と前記テキストデータとの対応付け情報を
    入力し、その対応結果を音声制御データとして前記記録
    媒体に記録する音声−テキスト対応設定手段と、 前記記録媒体から読み出した前記音声制御データに基づ
    いて前記音声再生手段の制御を行うと共に、前記音声−
    テキスト対応設定手段で設定された対応付け区間の音声
    信号に対して強調処理の制御パラメータを前記強調処理
    手段に与える制御手段と、を具備することを特徴とする
    音声再生装置。
  2. 【請求項2】 音声信号の内容に対応する文字情報をテ
    キストデータとするとき、前記音声データと前記テキス
    トデータ及び音声制御データを記録する記録媒体と、 記録媒体に記録された音声データを読み出して音声信号
    に復号する音声再生手段と、 前記音声再生手段から出力される音声信号に対して明瞭
    度を向上するための強調処理を行う強調処理手段と、 前記音声再生手段の出力する音声信号から音声の始端及
    び終端を検出する音声区間検出手段と、 前記音声信号と前記テキストデータとの文章単位での対
    応付けを前記音声区間検出手段の検出結果を用いて指示
    し、その対応結果を音声制御データとして前記記録媒体
    に記録する音声−テキスト対応設定手段と、 前記記録媒体から読み出した前記音声制御データに基づ
    いて前記音声再生手段の制御を行うと共に、前記音声−
    テキスト対応設定手段で設定された対応付け区間の音声
    信号に対して強調処理の制御パラメータを前記強調処理
    手段に与える制御手段と、を具備することを特徴とする
    音声再生装置。
  3. 【請求項3】 前記音声−テキスト対応設定手段は、 前記記録媒体に記録されたテキストデータを基にして音
    声信号中に含まれる文章数を求め、更に文章中に含まれ
    るモーラ数を求めることにより音声区間長を推定する推
    定手段を有し、前記音声区間検出手段から得られる音声
    の始端と終端が文章の始端と終端に適合するように対応
    づけを行うものであることを特徴とする請求項2記載の
    音声再生装置。
  4. 【請求項4】 前記制御手段は、 前記音声−テキスト対応設定手段で得られた一文章の時
    間長と文章の始端からの経過時間長とに関連して強調処
    理の制御パラメータを制御するものであることを特徴と
    する請求項1〜3のいずれか1項記載の音声再生装置。
  5. 【請求項5】 前記強調処理手段は、 話速を可変する話速変換処理、音声のエネルギーを増幅
    する振幅強調処理、ホルマント周波数を増幅するホルマ
    ント強調処理、文章間のポーズ長を伸長するポーズ伸長
    処理、音声の基本周波数を変更する基本周波数変換処理
    のうち、少なくともいずれか1つの処理を行うものであ
    ることを特徴とする請求項1〜4のいずれか1項記載の
    音声再生装置。
JP8287942A 1996-10-30 1996-10-30 音声再生装置 Pending JPH10133678A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8287942A JPH10133678A (ja) 1996-10-30 1996-10-30 音声再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8287942A JPH10133678A (ja) 1996-10-30 1996-10-30 音声再生装置

Publications (1)

Publication Number Publication Date
JPH10133678A true JPH10133678A (ja) 1998-05-22

Family

ID=17723739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8287942A Pending JPH10133678A (ja) 1996-10-30 1996-10-30 音声再生装置

Country Status (1)

Country Link
JP (1) JPH10133678A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007206524A (ja) * 2006-02-03 2007-08-16 Toshiba Tec Corp 音声検出装置及び音声検出プログラム
JP2009080298A (ja) * 2007-09-26 2009-04-16 Nippon Hoso Kyokai <Nhk> 補聴装置
JP2009192903A (ja) * 2008-02-15 2009-08-27 Yamaha Corp 音声処理装置、再生装置およびプログラム
EP2806415A1 (en) 2013-05-23 2014-11-26 Fujitsu Limited Voice processing device and voice processing method
JP2015215463A (ja) * 2014-05-09 2015-12-03 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007206524A (ja) * 2006-02-03 2007-08-16 Toshiba Tec Corp 音声検出装置及び音声検出プログラム
JP2009080298A (ja) * 2007-09-26 2009-04-16 Nippon Hoso Kyokai <Nhk> 補聴装置
JP2009192903A (ja) * 2008-02-15 2009-08-27 Yamaha Corp 音声処理装置、再生装置およびプログラム
EP2806415A1 (en) 2013-05-23 2014-11-26 Fujitsu Limited Voice processing device and voice processing method
US9443537B2 (en) 2013-05-23 2016-09-13 Fujitsu Limited Voice processing device and voice processing method for controlling silent period between sound periods
JP2015215463A (ja) * 2014-05-09 2015-12-03 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
US5911129A (en) Audio font used for capture and rendering
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
US8447592B2 (en) Methods and apparatus for formant-based voice systems
JP4536323B2 (ja) 音声−音声生成システムおよび方法
US7502739B2 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
US6463412B1 (en) High performance voice transformation apparatus and method
US20030158734A1 (en) Text to speech conversion using word concatenation
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
JPH08212228A (ja) 要約文作成装置および要約音声作成装置
Lee et al. Voice response systems
JP2002268660A (ja) テキスト音声合成方法および装置
JPWO2012001730A1 (ja) 音声認識装置
JPH10133678A (ja) 音声再生装置
CN113948062B (zh) 数据转换方法及计算机存储介质
JPH10247093A (ja) オーディオ情報分類装置
JPH09146580A (ja) 効果音検索装置
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JPH06337876A (ja) 文章読み上げ装置
JP2004347732A (ja) 言語自動識別方法及び装置
JP2002169579A (ja) オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置
JPH06202688A (ja) 音声認識装置
KR101095867B1 (ko) 음성합성장치 및 방법
JP2000231396A (ja) セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
Jian Classification of Taiwanese tones based on pitch and energy movements