JPH0527792A - 音声強調装置 - Google Patents

音声強調装置

Info

Publication number
JPH0527792A
JPH0527792A JP3180812A JP18081291A JPH0527792A JP H0527792 A JPH0527792 A JP H0527792A JP 3180812 A JP3180812 A JP 3180812A JP 18081291 A JP18081291 A JP 18081291A JP H0527792 A JPH0527792 A JP H0527792A
Authority
JP
Japan
Prior art keywords
voice
word
keyword
emphasized
emphasizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3180812A
Other languages
English (en)
Other versions
JP3266157B2 (ja
Inventor
Hiroshi Hamada
洋 浜田
Katsuhiko Ogawa
克彦 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP18081291A priority Critical patent/JP3266157B2/ja
Publication of JPH0527792A publication Critical patent/JPH0527792A/ja
Application granted granted Critical
Publication of JP3266157B2 publication Critical patent/JP3266157B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 例えばテレホンショッピング(注文受付)で
入力音声中の注文の商品名や注文の数量のような重要な
語(キーワード)を強調する。 【構成】 入力音声をディジタル化し、特徴抽出部13
で韻律特徴量とスペクトル特徴量とを抽出し、その抽出
したスペクトル特徴の時系列と、予め登録したキーワー
ド辞書15中のスペクトル特徴時系列とをキーワード抽
出部14で比較して、一致したキーワードの区間を検出
し、強調処理部16で入力音声中の検出キーワード区間
の前後にポーズを挿入したり、キーワード区間中のピッ
チを高くしたり、パワーを大として音声合成部31へ供
給し、音声合成し、音声出力として出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、人間同士が対話を行
う通信システムにおいて、人間間の意思疎通を円滑に行
うために、話題中の重要な語を強調して伝えるための音
声強調装置に関するものである。
【0002】
【従来の技術】テレコミュニケーションが発達し、人間
同士が対面せず通信を介して対話をする機会が増加して
いる。例えば、コンサルティング、注文受け付け、故障
受け付け、予約受け付け、苦情受け付けなどは、ほとん
どの業務が電話などの通信手段を介して行われるように
なってきている。さらに、画像蓄積・通信技術、大容量
通信技術、などの進歩にともない、音声のみでなく、静
止画像、動画像と音声を組み合わせた通信も用いられる
ようになっており、通信のマルチメディア化は更に進む
ものと考えられる。しかし、人間同士が何れかの通信手
段を介してコミュニケーションを行う場合に、最も重要
かつ効果が大きいのは電話、すなわち、音声によるコミ
ュニケーションであることが知られている〔例えば、
A.Chapanis,“Studies in In
teractive Communication:I
I. The Effects of Four Com
munication Modes on the L
inguistic Performance of
Teams during Cooperative
Problem Solving”.Human Fa
ctors,19(2),pp.101−126(19
77)参照〕。
【0003】人間同士の対話において、両者の間で話題
や前提となる知識が一致していない場合、両者のコミュ
ニケーションを円滑に行うために要する時間がかかる、
誤った理解が生じることがある、などの問題がある。ま
た、人間はある意図をもって相手に話しかけるとき主題
となる語やキーワードを強調して発声するが、両者の前
提や知識が一致していない場合、または、他に作業しな
がら対話をしている場合など、必ずしもキーワードが一
致しないなどの問題があった。
【0004】
【問題を解決するための手段】この発明によれば、入力
音声から重要となる語、つまり強調すべき語(キーワー
ド)がキーワード検出部で検出され、その検出された強
調すべき語が強調処理部で強調処理され、入力音声が該
当部分を上記強調処理された語におきかえて音声出力部
から音声出力される。
【0005】
【実施例】以下に、この発明の実施例を図面を用いて詳
細に説明する。図1にこの発明の一実施例を示す。音声
入力部11は、電話回線、マイクロホン等を通じて音声
を取り込み、アナログ信号をディジタル信号に変換する
処理を行ってキーワード検出部12へ供給する。キーワ
ード検出部12は入力音声中から強調すべき語を検出す
る。このためこの例では特徴抽出部13においてディジ
タル信号に変換された音声から、キーワード抽出処理を
行うための音声のスペクトル特徴のパラメータの抽出を
行う。この例では強調処理を行うための韻律的特徴のパ
ラメータの抽出も行う。音声のスペクトル的な特徴を表
すパラメータの分析法としては帯域通過フィルタ分析、
線形予測分析、FFT(高速フーリエ変換)分析など各
種のものが提案されており、後に行うキーワード抽出処
理の方式に合致した分析法を選択して行えば良い。例え
ば、線形予測分析法による場合は、LPCケプストラ
ム、自己相関関数などがパラメータとして良く用いられ
る。また、強調処理を行うための韻律的特徴として、音
声のパワー、基本周波数(ピッチ)を抽出する。なお、
分析法は、スペクトル特徴を表すパラメータと強調処理
により変形した韻律特徴を表すパラメータとから音声信
号として合成できる分析法でなければならない。
【0006】キーワード抽出部14では、入力された音
声の中からキーワード辞書15にあらかじめ登録された
キーワードの抽出を行う。キーワード抽出は、音声認識
技術のひとつであるワードスポッティングの技術を用い
て行うことができる。すなわち、あらかじめ抽出する必
要のある音声のパラメータ時系列をキーワード辞書15
に登録しておき、特徴抽出部13で得られたスペクトル
特徴を表す特徴パラメータの時系列と、キーワード辞書
15に登録されているキーワードのスペクトル特徴を表
すパラメータ時系列とを順次パターンマッチング法によ
り比較しながら、入力音声中に含まれるキーワード、つ
まり強調すべき語を検出する。パターンマッチングを行
う際には、音声の時間的な伸縮を考慮し、非線形伸縮を
吸収するマッチング法を用いる方法が良い。キーワード
辞書15に登録するキーワードは、該当する業務に応じ
てあらかじめ決定し、その音声のスペクトル特徴を表す
パラメータを蓄積しておく。例えば、テレホンショッピ
ングの受付であれば商品名や注文数を表す単語などがキ
ーワードとなる。
【0007】強調処理部16では、入力音声からキーワ
ード検出部12で抽出したキーワードの強調処理を行
う。このため特徴抽出部13から抽出された基本周波
数、音声パワー等の韻律特徴が韻律特徴蓄積部17に蓄
積される。また、特徴抽出部13で抽出されたスペクト
ル特徴量は、キーワード抽出に用いられた後、スペクト
ル特徴蓄積部18に蓄積される。また、キーワード抽出
部14で抽出されたキーワード区間の情報は、キーワー
ド区間蓄積部19に蓄積される。特徴量変形処理部21
では、抽出されたキーワード区間に対して韻律特徴量、
スペクトル特徴量などを変形処理することにより、該当
するキーワード区間の強調を行う。
【0008】請求項2の発明によるキーワードの少くと
も前にポーズ(無音区間)を挿入する場合の特徴量変形
処理を図2の例に従って説明する。入力音声22中にキ
ーワード23が図2Aに示すように検出された場合、そ
のキーワード23に相当する音声区間24の前後に図2
Bに示すように長さX1 のポーズ25、長さX2 のポー
ズ26(X1 >0、X2 ≧0)を挿入し、さらに、各ポ
ーズ25、26における前後の音声のパワーの不連続を
解消するため音声パワーの平滑化処理を行う(図2
C)。人間の音声パワーに対する知覚は、対数音声パワ
ーに比例していることが良く知られており、平滑化の処
理は対数パワーに対して行う方が良い。キーワードの後
ろにはポーズ26を挿入しなくても、強調の効果は出
る。また、挿入する場合も、前のポーズ25の長さX1
より短くて良い。X1 ,X2 は例えば0.5〜1.5秒
程度がよく、通常の音声の切れ目にポーズ25を入れる
場合は1.5〜2.5秒程度が好ましい。
【0009】請求項3の発明によるキーワードに相当す
る音声区間の基本周波数を高く設定することによる強調
処理する場合を図3の例に従って説明する。入力音声2
2中にキーワード23が図3Aに示すように検出された
場合、そのキーワードに相当する音声区間24の基本周
波数(ピッチ)を図3Bに示すように高く設定し、さら
に、キーワードの始端、終端部分での基本周波数の不連
続を解消するため基本周波数平滑化を行う(図3C)。
基本周波数を処理する場合においても、人間の基本周波
数の知覚が基本周波数の対数に比例していることを考慮
し、対数軸上で処理することが望ましい。基本周波数を
高く設定する方法としては、下記に示すように予め定め
た係数aを対数で表現した基本周波数log(Fi)に
乗ずる方法と、 log(Fi′)=a×log(Fi) Fi、Fi′は、それぞれ、i時点での強調前の基本周
波数、強調後の基本周波数。
【0010】下記に示すように対数で表現した基本周波
数log(Fi)に対し、一定の値bを加算する方法と log(Fi′)=log(Fi)+b など種々の方法があるが、計算量等を考慮して決定すれ
ば良い。また、a、bの値を変えることにより強調の程
度を制御することが可能である。aとしては1.05程
度、bとしては0.1程度がよい。対数軸上で処理しな
い場合は、乗算は1.1〜1.2倍、加算は男性につい
ては20〜30Hz、女性については40〜50Hz程
度が好ましい。
【0011】請求項4の発明によるキーワードに相当す
る音声区間の音声パワーを大に設定することによる強調
処理する場合を図4の例に従って説明する。入力音声2
2中にキーワード23が図4Aに示すように検出された
場合、そのキーワード23に相当する音声区間24の音
声パワーを図4Bに示すように大きく設定し、さらに、
キーワード23の始端、終端部分での音声パワーの不連
続を解消するため音声パワー平滑化を行う(図4C)。
また、音声パワーの処理に際しては、人間の音声のパワ
ーに関する知覚が音声パワーの対数に比例していること
を考慮し、対数軸上で行う方が効果が大きい。音声パワ
ーを大きく設定する方法としては、下記に示すように、
予め定めた係数cを対数で表現した音声パワーlog
(Pi)に乗ずる方法と、 log(Pi′)=c×log(Pi) Pi、Pi′は、それぞれ、i時点での強調前の音声パ
ワー、強調後の音声パワー。
【0012】下記に示すように対数で表現した音声パワ
ーに対し、一定の値dを加算する方法と、 log(Pi′)=log(Pi)+d など種々の方法があり、また、対数で表現しない場合に
おいても同様の効果が得られるが、計算量等を考慮して
いずれの方法を採用するか決定すれば良い。この時、
c、dの値を制御することにより、強調の程度を変える
ことが可能である。何れにしても入力パワーに応じて適
当に決められるが、例えば、対数パワーで1、2倍程度
にされる。
【0013】請求項5の発明によるキーワードに相当す
る音声区間の前に警報音を挿入することにより強調処理
する場合を図2の例に従って説明する。まず、図2Aに
示すように入力音声中にキーワードが検出された場合、
そのキーワードの前後に前述したように無音区間を挿入
(図2B)、その各前後の平滑化処理をする(図2
C)。つぎに、図2Dに示すように前後の無音区間2
5、26に、ブザー、チャイム等受信者の注意を喚起す
る警報音27、28をそれぞれ挿入する。警報音はキー
ワードの前のみに挿入しても強調効果は得られる。
【0014】請求項6の発明によりキーワードに相当す
る音声区間を長くして強調処理する場合を図5の例に従
って説明する。まず、キーワードが図5Aに示すように
検出された場合、そのキーワード区間のみ、特徴抽出部
13における特徴分析の分析フレーム長Tiに対して、
あらかじめ定めた係数eを乗じた Ti′=e×Ti をフレーム長として出力速度(再生)をゆっくり行う
(図5B)。すなわち、韻律特徴蓄積部17およびスペ
クトル特徴蓄積部18に蓄積された特徴を、キーワード
区間の長さがもとの長さTaに対して定数e倍になるよ
うに補間して出力する。この結果、キーワード区間はゆ
っくり発声されたことになり、キーワード区間のみ強調
する効果が得られる。なお、音声出力時の基本周波数は
もとの音声と同じとし、区間長のみを変形すれば音声の
自然性は保存される。eとしては1.2〜1.4程度が
よい。
【0015】請求項2〜6の各発明による強調処理を複
数組み合わせることにより更に大きな強調効果が期待で
きる。以上のように強調処理部16で強調処理されたキ
ーワードのパラメータを入力音声パラメータの該当部分
に取り替え挿入し、その音声のパラメータを、音声合成
部31において再度音声信号として合成され、音声出力
部32でディジタル信号からアナログ信号に変換されて
音声出力される。
【0016】図1に示した処理をテレホンショッピング
(注文受付)に適用すると、例えば、「新聞で見たので
すが、広告にのっていたネクタイを買いたいのですが。
同じものを3本お願いします。」という顧客(利用者)
の発声が、「新聞でみたのですが、広告にのっていた
ネクタイ を買いたいのですが。同じものを 3本 お願
いします。」( は、音声のポーズ(無音区間)を表
す)のように、「ネクタイ」と「3本」の前後にポーズ
が挿入されることにより、注文受付を行うオペレータに
とって商品名と数量が強調された音声として聞くことが
できるようになる。この例ではキーワードの前後にポー
ズを挿入することにより強調を行っているが、音声パワ
ーを大きく設定することにより強調した場合、または、
基本周波数を高く設定することにより強調した場合にお
いても、「ネクタイ」と「3本」が、強く発声される、
または、高いピッチで発声されることにより強調され、
オペレータは容易に注文内容を聞き取ることが可能にな
る。
【0017】
【発明の効果】以上説明したように、この発明の音声強
調装置によれば、人間同士の対話において、該当する話
題に相当するキーワードを自動的に強調することができ
るため、前提となる知識が異なる場合、話題が一致して
いない場合、においても、コミュニケーションが図り易
くなり、対話による業務に要する時間の短縮、人間に対
する負担の軽減につながるという利点がある。
【図面の簡単な説明】
【図1】この発明による音声強調装置の一実施例を示す
ブロック図。
【図2】キーワードの前後にポーズを挿入する、キーワ
ードの前後に警報音を挿入する例を示す図。
【図3】キーワード区間の基本周波数を高く設定する例
を示す図。
【図4】キーワード区間の音声パワーを大きく設定する
例を示す図。
【図5】キーワード区間に相当する音声をゆっくり再生
する例を示す図。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力音声中から強調すべき語を検出する
    キーワード検出部と、 その抽出された強調すべき語を強調処理する強調処理部
    と、 上記入力音声を、上記検出された強調すべき語を上記強
    調処理された語におきかえて音声出力する音声出力部
    と、 を具備する音声強調装置。
  2. 【請求項2】 上記強調処理部は強調すべき語に相当す
    る音声区間の前または前後にポーズを挿入するものであ
    ることを特徴とする請求項1記載の音声強調装置。
  3. 【請求項3】 上記強調処理部は強調すべき語に相当す
    る音声区間の基本周波数を高くするものであることを特
    徴とする請求項1記載の音声強調装置。
  4. 【請求項4】 上記強調処理部は強調すべき語に相当す
    る音声区間のパワーを大とするものであることを特徴と
    する請求項1記載の音声強調装置。
  5. 【請求項5】 上記強調処理部は強調すべき語に相当す
    る音声区間の前に警報音を挿入するものであることを特
    徴とする請求項1記載の音声強調装置。
  6. 【請求項6】 上記強調処理部は、強調すべき語に相当
    する音声区間をあらかじめ定めた定数倍長くするもので
    あることを特徴とする請求項1記載の音声強調装置。
JP18081291A 1991-07-22 1991-07-22 音声強調装置 Expired - Lifetime JP3266157B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18081291A JP3266157B2 (ja) 1991-07-22 1991-07-22 音声強調装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18081291A JP3266157B2 (ja) 1991-07-22 1991-07-22 音声強調装置

Publications (2)

Publication Number Publication Date
JPH0527792A true JPH0527792A (ja) 1993-02-05
JP3266157B2 JP3266157B2 (ja) 2002-03-18

Family

ID=16089790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18081291A Expired - Lifetime JP3266157B2 (ja) 1991-07-22 1991-07-22 音声強調装置

Country Status (1)

Country Link
JP (1) JP3266157B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316386A (ja) * 2002-04-24 2003-11-07 Toshiba Corp 音声認識方法および音声認識装置および音声認識プログラム
JP2005062420A (ja) * 2003-08-11 2005-03-10 Nec Corp コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
JP2008026565A (ja) * 2006-07-20 2008-02-07 Fujitsu Ltd ピッチ変換方法及び装置
JP2008145841A (ja) * 2006-12-12 2008-06-26 Sony Corp 再生装置、再生方法、信号処理装置、信号処理方法
US7454345B2 (en) 2003-01-20 2008-11-18 Fujitsu Limited Word or collocation emphasizing voice synthesizer
JP2009192903A (ja) * 2008-02-15 2009-08-27 Yamaha Corp 音声処理装置、再生装置およびプログラム
US7643991B2 (en) * 2004-08-12 2010-01-05 Nuance Communications, Inc. Speech enhancement for electronic voiced messages
JP2010175717A (ja) * 2009-01-28 2010-08-12 Mitsubishi Electric Corp 音声合成装置
US8924199B2 (en) 2011-01-28 2014-12-30 Fujitsu Limited Voice correction device, voice correction method, and recording medium storing voice correction program
JP2015172622A (ja) * 2014-03-11 2015-10-01 日本電気株式会社 音声出力装置および音声出力方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316386A (ja) * 2002-04-24 2003-11-07 Toshiba Corp 音声認識方法および音声認識装置および音声認識プログラム
US7454345B2 (en) 2003-01-20 2008-11-18 Fujitsu Limited Word or collocation emphasizing voice synthesizer
JP2005062420A (ja) * 2003-08-11 2005-03-10 Nec Corp コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
US7643991B2 (en) * 2004-08-12 2010-01-05 Nuance Communications, Inc. Speech enhancement for electronic voiced messages
JP2008026565A (ja) * 2006-07-20 2008-02-07 Fujitsu Ltd ピッチ変換方法及び装置
JP4757130B2 (ja) * 2006-07-20 2011-08-24 富士通株式会社 ピッチ変換方法及び装置
JP2008145841A (ja) * 2006-12-12 2008-06-26 Sony Corp 再生装置、再生方法、信号処理装置、信号処理方法
JP2009192903A (ja) * 2008-02-15 2009-08-27 Yamaha Corp 音声処理装置、再生装置およびプログラム
JP2010175717A (ja) * 2009-01-28 2010-08-12 Mitsubishi Electric Corp 音声合成装置
US8924199B2 (en) 2011-01-28 2014-12-30 Fujitsu Limited Voice correction device, voice correction method, and recording medium storing voice correction program
JP2015172622A (ja) * 2014-03-11 2015-10-01 日本電気株式会社 音声出力装置および音声出力方法

Also Published As

Publication number Publication date
JP3266157B2 (ja) 2002-03-18

Similar Documents

Publication Publication Date Title
US6804643B1 (en) Speech recognition
Molau et al. Computing mel-frequency cepstral coefficients on the power spectrum
US8185395B2 (en) Information transmission device
JP3055691B2 (ja) 音声認識装置
CN109065067A (zh) 一种基于神经网络模型的会议终端语音降噪方法
JP4391701B2 (ja) 音声信号の区分化及び認識のシステム及び方法
JPH0876788A (ja) 音声認識における混同しやすい語の検出方法
CN108108357B (zh) 口音转换方法及装置、电子设备
JPH06332492A (ja) 音声検出方法および検出装置
Kesarkar et al. Feature extraction for speech recognition
EP1093112B1 (en) A method for generating speech feature signals and an apparatus for carrying through this method
JP3266157B2 (ja) 音声強調装置
JPH0638199B2 (ja) 音声認識装置
EP1189204B1 (en) HMM-based noisy speech recognition
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
JP2797861B2 (ja) 音声検出方法および音声検出装置
JP3354252B2 (ja) 音声認識装置
JP3555490B2 (ja) 声質変換システム
Mantha et al. Implementation and analysis of speech recognition front-ends
JP2863214B2 (ja) 雑音除去装置及び該装置を用いた音声認識装置
Rosell An introduction to front-end processing and acoustic features for automatic speech recognition
JPH07121197A (ja) 学習式音声認識方法
JPH08110796A (ja) 音声強調方法および装置
JPH1097278A (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100111

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 10