JPH10133678A

JPH10133678A - 音声再生装置

Info

Publication number: JPH10133678A
Application number: JP8287942A
Authority: JP
Inventors: Masayuki Misaki; 正之三崎; Hirotsugu Taniguchi; 宏嗣谷口; Michio Matsumoto; 美治男松本
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-10-30
Filing date: 1996-10-30
Publication date: 1998-05-22

Abstract

(57)【要約】【課題】音声データと文字情報との対応づけを文章単
位で行い、文章単位で音声を強調処理すること。【解決手段】記録媒体に１１に音声データ及び音声と
対応したテキストデータを記録する。音声−テキスト対
応設定手段１５で音声データと文字情報との文章単位で
の対応付けを行った音声制御データを求め、記録媒体１
１に記録する。音声再生手段１２で音声信号を出力する
とき、強調処理手段１４は音声制御データを用いて一文
章の時間長及び文章始端からの経過時間長に関連して強
調処理を行う。こうすると受聴者に対して聴き取り易い
音声を出力することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、パーソナルコンピ
ュータなどのように、音声データとテキストデータの双
方を取り扱うことが可能な機器において、音声データを
聴取し易くするため強調処理して出力する音声再生装置
に関するものである。

【０００２】

【従来の技術】従来、音声信号を強調処理して意志疎通
を円滑にすることを目的とした音声強調装置があり、例
えば特開平５−２７７９２号公報にその一例が開示され
ている。この音声強調装置の基本構成図を図３に示し、
その機能について説明する。

【０００３】音声強調装置３０において、音声入力部３
１は電話回線やマイクロホン等を通じて音声を取り込
み、アナログ信号をディジタル信号に変換してキーワー
ド抽出部３２へ供給する。キーワード抽出部３２は入力
音声信号中から強調すべき語を検出する。この例では、
特徴抽出部３３において音声のスペクトルの特徴のパラ
メータを抽出をしたり、韻律の特徴の抽出をする。スペ
クトルの特徴としてはＬＰＣケプストラム、強調処理の
ための韻律的特徴のパラメータとしてパワーやピッチ情
報を抽出する。

【０００４】キーワード抽出部３４は、入力された音声
からキーワード辞書３５にあらかじめ登録されたキーワ
ードの抽出を行う。キーワード抽出は音声認識技術の１
つであるワードスポッティングの技術を用いて行える。
即ち、あらかじめ抽出すべき音声のパラメータの時系列
をキーワード辞書３５に登録しておき、入力される音声
信号のキーワードと順次パターンマッチングしていくこ
とでキーワードを検出するものである。

【０００５】強調処理部３６は、キーワード抽出部３２
で検出されたキーワードの強調処理を行う。このため特
徴抽出部３３で抽出されたピッチやパワーなどの韻律的
特徴は韻律特徴蓄積部３７に蓄積される。同様にスペク
トルの特徴のパラメータはスペクトル特徴蓄積部３８に
蓄積される。また、キーワード抽出部３４で抽出された
キーワード区間の情報はキーワード区間蓄積部３９に蓄
積される。特徴量変形処理部４０では、抽出されたキー
ワード区間に対して、韻律特徴量、スペクトル特徴量な
どを変形処理することにより、当該するキーワード区間
の強調を行う。そして音声合成部４１は夫々の特徴を合
成し、強調処理されたディジタル音声信号を作成して音
声出力部４２に与える。

【０００６】

【発明が解決しようとする課題】しかしながら、上記の
ような構成では、不特定な話者に対する実環境のキーワ
ードの検出は困難であることが多く、誤検出したキーワ
ードに対しても強調処理を行ってしまう可能性が高い。
また、韻律的特徴量やスペクトル特徴量の抽出などに
は、かなりの演算量が必要になり、パーソナルコンピュ
ータなどのシステムのハードウェア資源を有効に活用で
きないという問題点があった。

【０００７】本発明は、このような従来の問題点に鑑み
てなされたものであって、音声データとテキストデータ
の対応付けをマニュアル操作、又は自動的に行うことに
より、文章単位での強調処理を容易にかつ安定して行う
ことができる音声再生装置を提供するものである。

【０００８】

【課題を解決するための手段】このような課題を解決す
るために本願の請求項１記載の発明は、音声信号の内容
に対応する文字情報をテキストデータとするとき、前記
音声データと前記テキストデータ及び音声制御データを
記録する記録媒体と、記録媒体に記録された音声データ
を読み出して音声信号に復号する音声再生手段と、前記
音声再生手段から出力される音声信号に対して明瞭度を
向上するための強調処理を行う強調処理手段と、前記音
声信号と前記テキストデータとの対応付け情報を入力
し、その対応結果を音声制御データとして前記記録媒体
に記録する音声−テキスト対応設定手段と、前記記録媒
体から読み出した前記音声制御データに基づいて前記音
声再生手段の制御を行うと共に、前記音声−テキスト対
応設定手段で設定された対応付け区間の音声信号に対し
て強調処理の制御パラメータを前記強調処理手段に与え
る制御手段と、を具備することを特徴とするものであ
る。

【０００９】また、本願の請求項２記載の発明は、音声
信号の内容に対応する文字情報をテキストデータとする
とき、前記音声データと前記テキストデータ及び音声制
御データを記録する記録媒体と、記録媒体に記録された
音声データを読み出して音声信号に復号する音声再生手
段と、前記音声再生手段から出力される音声信号に対し
て明瞭度を向上するための強調処理を行う強調処理手段
と、前記音声再生手段の出力する音声信号から音声の始
端及び終端を検出する音声区間検出手段と、前記音声信
号と前記テキストデータとの文章単位での対応付けを前
記音声区間検出手段の検出結果を用いて指示し、その対
応結果を音声制御データとして前記記録媒体に記録する
音声−テキスト対応設定手段と、前記記録媒体から読み
出した前記音声制御データに基づいて前記音声再生手段
の制御を行うと共に、前記音声−テキスト対応設定手段
で設定された対応付け区間の音声信号に対して強調処理
の制御パラメータを前記強調処理手段に与える制御手段
と、を具備することを特徴とするものである。

【００１０】また、本願の請求項３記載の発明では、前
記音声−テキスト対応設定手段は、前記記録媒体に記録
されたテキストデータを基にして音声信号中に含まれる
文章数を求め、更に文章中に含まれるモーラ数を求める
ことにより音声区間長を推定する推定手段を有し、前記
音声区間検出手段から得られる音声の始端と終端が文章
の始端と終端に適合するように対応づけを行うことを特
徴とするものである。

【００１１】また、本願の請求項４記載の発明では、前
記制御手段は、前記音声−テキスト対応設定手段で得ら
れた一文章の時間長と文章の始端からの経過時間長とに
関連して強調処理の制御パラメータを制御することを特
徴とするものである。

【００１２】また、本願の請求項５記載の発明では、前
記強調処理手段は、話速を可変する話速変換処理、音声
のエネルギーを増幅する振幅強調処理、ホルマント周波
数を増幅するホルマント強調処理、文章間のポーズ長を
伸長するポーズ伸長処理、音声の基本周波数を変更する
基本周波数変換処理のうち、少なくともいずれか１つの
処理を行うことを特徴とするものである。

【００１３】

【発明の実施の形態】

（実施の形態１）本発明の第１の実施の形態における音
声再生装置について図１を参照しながら説明する。図１
は第１の実施の形態における音声再生装置１０Ａの基本
構成を示すブロック図である。音声再生装置１０Ａは、
記録媒体１１、音声再生手段１２、制御手段１３、強調
処理手段１４、音声−テキスト対応設定手段１５を含ん
で構成される。

【００１４】音声信号はあらかじめＡＤ変換されて収録
され、高能率符号化された音声データとして記録媒体１
１に格納される。また、この音声データと対応する文字
情報がテキストデータとして記録媒体１１に記録されて
いるものとする。音声再生手段１２は、記録媒体１１に
高能率符号化されて記録されている音声データを復号化
する。強調処理手段１４は、音声再生手段１２の出力信
号に対して、話速を可変する話速変換処理、音声のエネ
ルギーを増幅する振幅強調処理、ホルマント周波数を増
幅するホルマント強調処理、文章間のポーズ長を伸長す
るポーズ伸長処理、又音声の基本周波数を変更する基本
周波数変換処理等の強調処理を行う。

【００１５】音声−テキスト対応設定手段１５は、記録
媒体１１に記録された音声データと、これに対応するテ
キストデータとにおいて、文章単位での対応づけ情報を
マニュアル操作により音声制御データとして作成し、記
録媒体１１に記録する。マニュアル操作の一例として
は、音声データを再生しながらテキストデータを画面で
参照し、文章の段落、文節の切れ目が段落記号又は句読
点としてテキストデータに記録されている場合、音声デ
ータにそれらの記号に相当するマークを対応付け情報と
して付加することである。

【００１６】制御手段１３は記録媒体１１に記録された
音声制御データを基に、音声データの各文章の時間長を
求め、文章の始端からの経過時間長を監視することで、
強調処理へのパラメータ制御を行うものである。強調処
理手段１４では、制御手段１３によって与えられるパラ
メータで前述したような各種の強調処理を行う。

【００１７】例えば話速変換処理では、文章の始端はゆ
っくりとした話速で再生し、文章の終端に近づくにつれ
て話速を早くするように話速変換処理のパラメータを与
える。このような話速を変化させる手法については例え
ば、池沢龍他「話速変換に伴う時間伸張を吸収するため
の一方法」信学技報SP92-56 に詳しく報告されている。

【００１８】また、振幅強調やホルマント強調処理など
では、文章区間のみ強調処理を行う制御を行えばよいの
で、無音区間では強調処理を行わずに、音声データの始
端前後から徐々に強調パラメータを大きくし、音声デー
タの終端部分では再びに強調パラメータを小さくしてい
けば、常時強調処理を行う場合に比べて自然な感じが保
たれる。

【００１９】また、文章間のポーズ長を伸張する際に
も、直前の文章の時間長が長い場合には、現在のポーズ
を長いポーズ長に変換して付与するなどの規則を与える
ことで、聴き取り易い音声を得ることができる。

【００２０】さらに、文章の始端部分で基本周波数を上
げる操作を行うことで、韻律的特徴を損なわずに、強調
処理を行うこともできる。

【００２１】このように音声データとテキストデータと
の対応づけを与えることで、音声データ中に含まれる文
章の時間長、及び一文章の始端からの経過時間を利用し
た強調処理を行うことができる。音声データから発声内
容を直接文字情報に変換する技術は、音声認識技術の発
展により可能となるであろうが、現在のところ実環境で
の不特定話者の連続音声認識技術は膨大な演算量を必要
とする。しかしその割りには満足な結果を得られず、実
用的ではない。ここでは、テキストデータ上に存在する
音声の文字情報と音声信号との対応を、マニュアル操作
で入力することにより、より安定した強調処理の動作を
保証できる。

【００２２】（実施の形態２）次に本発明の第２の実施
の形態における音声再生装置について、図２を参照しな
がら説明する。図２は本実施の形態における音声再生装
置１０Ｂの基本構成を示すブロック図であり、第１の実
施の形態と同一部分は同一の符号を付けて説明する。音
声再生装置１０Ｂは、記録媒体１１、音声再生手段１
２、制御手段１３、強調処理手段１４に加えて、推定手
段１６ａを有する音声−テキスト対応設定手段１６、音
声区間検出手段１７を含んで構成される。

【００２３】このような構成の音声再生装置１０Ｂの動
作について説明する。記録媒体１１、音声再生手段１
２、制御手段１３、強調処理手段１４の基本的動作は第
１の実施の形態と同様であるので、ここでは説明を省略
する。音声区間検出手段１７は信号のエネルギーや零交
差数、ピッチなどを用いることにより、音声データに含
まれる文章の始端候補や終端候補の位置を求める。この
ような音声区間検出方法は、例えばL.R.Rabiner, R.W.S
hafer , （鈴木久喜訳）「音声のディジタル信号処理
（上）」などに詳しく報告されている。この場合の候補
には、文章の始端位置、終端位置だけではなく、息継ぎ
の間や言い淀み、無声化した音声区間などによる始端や
終端も含まれている。尚、音声区間検出手段だけでは、
正確に音声データ中の文章の始端や終端、即ち一文章の
区切りを検出することは困難である。

【００２４】一方、音声−テキスト対応設定手段１６で
は、推定手段１６ａによりまず記録媒体１１に記録され
たテキストデータに存在する音声の文字情報から、文章
の区切りを検出して音声データ中に含まれる文章数を求
める。さらに各文章中に含まれる単語を音韻辞書等を参
照して音節数、モーラ数を求める。この一文章あたりの
音節数から、各文章の相対的な時間長が推定でき、音声
データ全体における各文章の概略位置を推定できる。そ
して、音声区間検出手段１７の出力信号である始端候補
や終端候補のうち、推定手段１６ａが推定した概略位置
と最も近いものを始端や終端として決定する。

【００２５】このように始端や終端を、音声区間検出手
段１７の出力する候補だけでなく、推定手段１６ａで文
字情報から得た文章数、各文章の音節数に基づいて決定
することにより、文章の始端や終端の音声データ上での
位置をより正確に対応付けることが可能となる。そし
て、音声データとテキストデータの対応づけ情報を音声
制御データとして記録媒体１１に記録する。この音声制
御データを利用した音声再生手段１２及び強調処理手段
１４の動作は第１の実施の形態と同様であるので、ここ
では説明を省略する。

【００２６】このように、一度作成した音声データの文
字情報を利用して、音声データを再度聴取する場合、又
は高齢者や難聴者などの利用者が聴取する場合、文章単
位で強調処理パラメータを与えられているので、より明
瞭な音声を再生することができる。このような機能はパ
ーソナルコンピュータのように高速アクセス可能な記録
メディアを有する装置で実現可能となる。従来の口述筆
記具（ディクテイティングマシン）のように音声だけの
呈示を行う音声再生装置とは異なり、マルチメディアを
利用する場合の音声再生装置として実現し易くなる。例
えば、このような音声再生装置を用いることにより、語
学学習機なども容易に実現できる。

【００２７】なお、以上の説明では音節数から各文章の
概略位置を推定しているが、音韻数から推定することも
可能である。

【００２８】

【発明の効果】以上のように本発明によれば、音声−テ
キスト対応設定手段で音声データとテキストデータとの
文章単位での対応付けを行い、その音声制御データをも
とに音声信号の強調処理パラメータを文章単位で制御す
ることができるので、より有効な部分に対して効果的な
音声の強調処理を行うことができる。その結果、人の収
録音声を聴き取り易い音声に変換して納得の行くまで繰
り返し聞くことができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態における音声再生装
置の基本構成図である。

【図２】本発明の第２の実施の形態における音声再生装
置の基本構成図である。

【図３】従来の音声強調装置の構成図である。

【符号の説明】

１０Ａ，１０Ｂ音声再生装置１１記録媒体１２音声再生手段１３制御手段１４強調処理手段１５，１６音声−テキスト対応設定手段１６ａ推定手段１７音声区間検出手段

Claims

【特許請求の範囲】

【請求項１】音声信号の内容に対応する文字情報をテ
キストデータとするとき、前記音声データと前記テキス
トデータ及び音声制御データを記録する記録媒体と、記録媒体に記録された音声データを読み出して音声信号
に復号する音声再生手段と、前記音声再生手段から出力される音声信号に対して明瞭
度を向上するための強調処理を行う強調処理手段と、前記音声信号と前記テキストデータとの対応付け情報を
入力し、その対応結果を音声制御データとして前記記録
媒体に記録する音声−テキスト対応設定手段と、前記記録媒体から読み出した前記音声制御データに基づ
いて前記音声再生手段の制御を行うと共に、前記音声−
テキスト対応設定手段で設定された対応付け区間の音声
信号に対して強調処理の制御パラメータを前記強調処理
手段に与える制御手段と、を具備することを特徴とする
音声再生装置。
【請求項２】音声信号の内容に対応する文字情報をテ
キストデータとするとき、前記音声データと前記テキス
トデータ及び音声制御データを記録する記録媒体と、記録媒体に記録された音声データを読み出して音声信号
に復号する音声再生手段と、前記音声再生手段から出力される音声信号に対して明瞭
度を向上するための強調処理を行う強調処理手段と、前記音声再生手段の出力する音声信号から音声の始端及
び終端を検出する音声区間検出手段と、前記音声信号と前記テキストデータとの文章単位での対
応付けを前記音声区間検出手段の検出結果を用いて指示
し、その対応結果を音声制御データとして前記記録媒体
に記録する音声−テキスト対応設定手段と、前記記録媒体から読み出した前記音声制御データに基づ
いて前記音声再生手段の制御を行うと共に、前記音声−
テキスト対応設定手段で設定された対応付け区間の音声
信号に対して強調処理の制御パラメータを前記強調処理
手段に与える制御手段と、を具備することを特徴とする
音声再生装置。
【請求項３】前記音声−テキスト対応設定手段は、前記記録媒体に記録されたテキストデータを基にして音
声信号中に含まれる文章数を求め、更に文章中に含まれ
るモーラ数を求めることにより音声区間長を推定する推
定手段を有し、前記音声区間検出手段から得られる音声
の始端と終端が文章の始端と終端に適合するように対応
づけを行うものであることを特徴とする請求項２記載の
音声再生装置。
【請求項４】前記制御手段は、前記音声−テキスト対応設定手段で得られた一文章の時
間長と文章の始端からの経過時間長とに関連して強調処
理の制御パラメータを制御するものであることを特徴と
する請求項１〜３のいずれか１項記載の音声再生装置。
【請求項５】前記強調処理手段は、話速を可変する話速変換処理、音声のエネルギーを増幅
する振幅強調処理、ホルマント周波数を増幅するホルマ
ント強調処理、文章間のポーズ長を伸長するポーズ伸長
処理、音声の基本周波数を変更する基本周波数変換処理
のうち、少なくともいずれか１つの処理を行うものであ
ることを特徴とする請求項１〜４のいずれか１項記載の
音声再生装置。