JP3513030B2 - データ再生装置 - Google Patents

データ再生装置

Info

Publication number
JP3513030B2
JP3513030B2 JP26786598A JP26786598A JP3513030B2 JP 3513030 B2 JP3513030 B2 JP 3513030B2 JP 26786598 A JP26786598 A JP 26786598A JP 26786598 A JP26786598 A JP 26786598A JP 3513030 B2 JP3513030 B2 JP 3513030B2
Authority
JP
Japan
Prior art keywords
data
section
voice
pitch
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26786598A
Other languages
English (en)
Other versions
JP2000099099A (ja
Inventor
啓子 綿貫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP26786598A priority Critical patent/JP3513030B2/ja
Publication of JP2000099099A publication Critical patent/JP2000099099A/ja
Application granted granted Critical
Publication of JP3513030B2 publication Critical patent/JP3513030B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、記録媒体に記録さ
れた音声信号を読み出し再生する音声再生装置、ならび
に、音声・画像信号を読み出し再生する出力装置に関す
る。
【0002】
【従来の技術】従来より、音声メールやビデオメール等
の音声や画像を録音、録画して、その後に、その音声や
画像データを再生する装置が普及してきた。しかし、従
来の音声や画像データを再生する装置にあっては、音声
や画像の入力時に、例えば「えーと」や「あのー」とい
った言葉により表現される、いわゆる考えながらの表現
データをも含めて全ての情報をそのままシーケンシャル
に録音、録画するために、その音声や画像データの再生
時には上記のような不要データを含む全データを再現
し、目的とする必要な情報以外のデータをも再現するこ
ととなるために、本来必要とするデータの再現以上に再
現時間がかかってしまう、という問題があった。また、
音声や画像の入力者にとっては、入力者が望まない音声
や表情がそのまま再生されてしまうという不都合があっ
た。
【0003】
【発明が解決しようとする課題】従来、前記問題点等を
解決するために以下に示すような種々の方法が試みられ
ている。 まず始めに、既に記録された音声を矩縮する
ことにより解決する方法として、音声信号を所定時間の
フレームに区切り、各フレームの一部を隣接するフレー
ムに重畳させることにより再生時間を短縮しようとする
方法があり、特開平7−98933号公報に開示されて
いる。しかしながら、上記の方法では必要な単語も「え
ー」や「あのー」などの不要な発話と区別なく記録され
た音声データすべてを一様に短縮してしまうという問題
があった。
【0004】また、音声データ中の無音区間を削除する
ことによる解決方法として、音声パワーを検出し、閾値
と比較して有音/無音区間を判定し、無音区間が所定の
時間長連続した場合には、無音区間と判定して削除する
という方法があり、特開平7−28486号公報、ある
いは特開平9−190678号公報に開示されている。
しかしながら、この方法では「えー」や「あのー」など
の発話部分を削除することはできない。
【0005】そこで「えー」や「あのー」などの音声を
除去する方法として、「えー」や「あのー」などの音声
の音響的特徴量を単語辞書に登録しておき、パターンマ
ッチングにより不要語を抽出する方法が特開平7−77
998号公報に開示されている。しかしながら、この方
法では不要語除去の過程において、必要な単語も含めす
べての単語に対して認識(マッチング処理)を行い、そ
の中で不要語の認定を行うため、膨大な演算量とメモリ
サイズを必要とし、処理時間の増大、処理装置の大型
化、及びコストの増大等となってしまうという問題を有
していた。
【0006】また、特開平6−110496号公報で
は、音声合成器において、高速音声発声を実現するため
に、スペクトル情報により有声または母音と判定された
フレームの予測ゲインを算出し、ピッチ周期の変化量が
少ない区間を間引く方法が開示されているが、この方法
は、変化量が少ない母音フレームの1フレーム分を削除
し、次の1フレーム分のデータを残す、というような間
引きを行うことにより、合成音声の高速発声を実現する
ともので、不要語の削除までをも可能とするものではな
い。
【0007】また、特開平8−76789号公報には、
無声音はピッチを持たないことを利用して、音声認識シ
ステムにおいて、例えば「くしゃみ」や「咳」などの雑
音を除去する方法が述べられている。しかし、この方法
でも、「えー」「あのー」などの有声音は除去すること
ができない。
【0008】また、特開平8−187368号公報に
は、口唇にLED(Light Emitting Diode)の光を照射
し、反射された光を検出して電気信号に変換し、この電
気信号の変化の度合いから口の動きを検出することによ
って、対象者(ユーザ)が発声しているか否かを検出
し、ユーザ以外の者の音声を削除する方法が開示されて
いる。しかし、この方法もユーザの発声する「えー」
「あー」などの不要語の削除を可能とするものではなか
った。
【0009】そこで本発明は、前記の問題点を解消する
ためなされたものであって、処理時間が長く、大型処理
装置を要する音声認識をすることなく、少ない演算量と
メモリサイズで不要な音声を除去することを可能とする
音声再生装置ならびに出力装置を提供することを目的と
する。また、必要なことば・表情のみを再生することが
できる音声再生装置ならびに出力装置を提供することを
も目的とする。尚、不要語や不要な表情とは、ユーザが
考えている時や、つかえながら話しているときに現れ
る、「えー」「あのー」等の発話、およびこれら発声時
の、口の動き、視線が泳いでいる等の表情に相当する。
【0010】
【課題を解決するための手段】本発明は、上記の目的を
達成するため、次の構成を有する。本発明の第1の要旨
は、外部からの音声信号を入力する音声入力部と、前記
音声入力部に入力されてくるアナログの前記音声信号を
デジタルの音声データに変換する音響処理部と、前記
声データ中から不要な音声データ区間を除去した短縮デ
ータを作成する短縮制御部と、前記短縮データを記録媒
体に格納し、該記録媒体から該短縮データを読み出し再
生する出力部とを備えたデータ再生装置において、前記
短縮制御部前記音声データの音声ピッチの変化量を
抽出するピッチ変化量抽出手段と、前記ピッチ変化量抽
出手段で求められた前記音声ピッチ変化量の度合いに基
づき不要語区間を判定するピッチ判定手段と、前記ピッ
チ判定手段で判定された前記不要語区間を前記音声デー
タから除去する除去処理手段とを有することを特徴とす
るデータ再生装置である。
【0011】上記第1の要旨によれば、ピッチ変化量抽
出手段により音声データの音声ピッチ変化量を抽出す
る。そして、通常「あのー」、「えー」などの不要語に
は独特の音声ピッチ変化があるので、ピッチ変化量抽出
手段で求められた音声ピッチ変化量の度合いをピッチ判
定手段にて比較判断して、不要語区間の抽出がなされ
る。そして、除去処理手段において、ピッチ判定手段で
不要語区間と判定されたデータ区間を音声データから除
去して短縮化した音声データを所定記憶媒体に格納し、
再生することによって、ユーザが入力した音声信号より
も再生時間を短縮し、入力者が望む、必要な音声データ
のみを出力することが可能となる。
【0012】本発明の第2の要旨は、外部からの音声
とユーザの顔画像信号を入力する入力部と、前記入力
部に入力されるアナログの前記音声信号をデジタルの音
声データに変換する音響処理部と、前記入力部に入力さ
れるアナログの前記顔画像信号をデジタルの画像データ
に変換する顔画像処理部と、前記音声データと前記画像
データから不要データを除去した短縮データを作成する
短縮制御部と、前記短縮データを記憶媒体に格納し、該
記憶媒体から該短縮データを読み出し、再生する音声及
び/又は顔画像データを出力する出力部とを備えたデ
タ再生装置において、前記短縮制御部前記音声デー
タの音声ピッチの変化量を抽出するピッチ変化量抽出手
段と、前記ピッチ変化量抽出手段で求められた前記音声
ピッチ変化量の度合いに基づき前記音声データ中の不要
語区間を判定するピッチ判定手段と、前記画像データか
ら口の形の変化の度合いである口形変化量を抽出する口
形変化量抽出手段と、前記口形変化量が所定の値を越え
ない区間が、所定の長さ連続したときに、該区間を不要
語区間と判断する口形判定手段と、前記ピッチ判定手段
で不要語区間と判定された区間と口形判定手段で不要語
区間と判定された区間に基づき、除去すべき音声および
画像データを抽出する統合判定手段とを備えることを特
徴とするデータ再生装置である。
【0013】前記第2の要旨によれば、ピッチ変化量抽
出手段により音声データの音声ピッチ変化量を抽出す
る。そして、通常「あのー」、「えー」などの不要語に
は独特の音声ピッチ変化があると同時に、不要語を発し
ている場合の口の形にも特徴がでるので、ピッチ変化量
抽出手段で求められた音声ピッチ変化量の度合いと口形
変化量抽出手段で求められた口の形の変化の度合いを統
合判定手段にて比較判断して、不要語区間の抽出がなさ
れる。そして、除去処理手段において、統合判定手段で
求められた不要語区間を音声、画像データから除去して
短縮化した音声、画像データを所定記憶媒体に格納し、
再生することによって、ユーザが入力した音声・画像
号よりも再生時間を短縮し、入力者が望む、必要な音
声、表情データのみを出力することが可能となる。ま
た、音声ピッチ変化量の度合いに加え、口の形の変化の
度合いをも考慮することで確実に不要語区間の判断が可
能となる。
【0014】本発明の第3の要旨は、外部からの音声
とユーザの顔画像信号を入力する入力部と、前記入力
部に入力されるアナログの前記音声信号をデジタルの音
声データに変換する音響処理部と、前記入力部に入力さ
れるアナログの前記顔画像信号をデジタルの画像データ
に変換する顔画像処理部と、前記音声データと前記画像
データから不要データを除去した短縮データを作成する
短縮制御部と、前記短縮データを記憶媒体に格納し、該
記憶媒体から該短縮データを読み出し、再生する音声及
び/又は顔画像データを出力する出力部とを備えたデ
タ再生装置において、前記短縮制御部前記音声デー
タの音声ピッチの変化量を抽出するピッチ変化量抽出手
段と、前記ピッチ変化量抽出手段で求められた前記音声
ピッチ変化量の度合いに基づき前記音声データ中の不要
語区間を判定するピッチ判定手段と、前記画像データ
におけるユーザの視線方向と、該視線方向の継続時間に
基づいて不要語区間を抽出する視線判定手段と、前記ピ
ッチ判定手段で不要語区間と判定された区間と視線判定
手段で不要語区間と判定された区間に基づき、除去すべ
き音声および画像データを抽出する統合判定手段とを備
えることを特徴とするデータ再生装置である。
【0015】前記第3の要旨によれば、ピッチ変化量抽
出手段により音声データの音声ピッチ変化量を抽出す
る。そして、通常「あのー」、「えー」などの不要語に
は独特の音声ピッチ変化があると同時に、不要語を発し
ている場合の視線の方向にも特徴がでるので、ピッチ変
化量抽出手段で求められた音声ピッチ変化量の度合いと
視線判定手段で抽出した視線を統合判定手段にて比較判
断して、不要語区間の抽出がなされる。そして、除去処
理手段において、統合判定手段で求められた不要語区
を音声、画像データから除去して短縮化した音声、画像
データを所定記憶媒体に格納し、再生することによっ
て、ユーザが入力した音声・画像信号よりも再生時間を
短縮し、入力者が望む、必要な音声、表情データのみを
出力することが可能となる。また、音声ピッチ変化量の
度合いによりに加え、視線をも考慮することでより確実
に不要語区間の抽出、除去が可能となる。
【0016】本発明の第4の要旨は、外部からの音声
とユーザの顔画像信号を入力する入力部と、前記入力
部に入力されるアナログの前記音声信号をデジタルの音
声データに変換する音響処理部と、前記入力部に入力さ
れるアナログの前記顔画像信号をデジタルの画像データ
に変換する顔画像処理部と、前記音声データと前記画像
データから不要データを除去した短縮データを作成する
短縮制御部と、前記短縮データを記憶媒体に格納し、該
記憶媒体から該短縮データを読み出し、再生する音声及
び/又は顔画像データを出力する出力部とを備えたデ
タ再生装置において、前記短縮制御部前記音声デー
タの音声ピッチの変化量を抽出するピッチ変化量抽出手
段と、前記ピッチ変化量抽出手段で求められた前記音声
ピッチ変化量の度合いに基づき前記音声データ中の不要
語区間を判定するピッチ判定手段と、前記画像データか
ら口の形の変化の度合いである口形変化量を抽出する口
形変化量抽出手段と、前記口形変化量が所定の値を越え
ない区間が、所定の長さ連続したときに、該区間を第1
の不要語区間と判断する口形判定手段と、前記画像デー
中におけるユーザの視線方向と、該視線方向の継続時
間に基づいて第2の不要語区間を抽出する視線判定手段
と、前記ピッチ判定手段、口形判定手段、及び視線判定
手段で不要語区間と判定された区間に基づいて、除去す
べき音声および画像データを抽出する統合判定手段とを
備えることを特徴とするデータ再生装置である。
【0017】前記第4の要旨によれば、ピッチ変化量抽
出手段により音声データの音声ピッチ変化量を抽出す
る。そして、通常「あのー」、「えー」などの不要語に
は独特の音声ピッチ変化があると同時に、不要語を発し
ている場合の口の形と視線の方向にも特徴がでるので、
ピッチ変化量抽出手段で求められた音声ピッチ変化量の
度合いと口形変化量抽出手段で求められた口の形の変化
の度合いと視線判定手段で求めた視線の向きを統合判定
手段にて比較判断して、不要語区間の抽出がなされる。
そして、除去処理手段において、統合判定手段で求めら
れた不要語区間を音声、画像データから除去して短縮化
した音声、画像データを所定記憶媒体に格納し、再生す
ることによって、ユーザが入力した音声・画像信号より
も再生時間を短縮し、入力者が望む、必要な音声、表情
データのみを出力することが可能となる。また、音声ピ
ッチ変化量の度合いに加え、口の形の変化の度合いと視
線の向きを考慮することで確実に不要語区間の判断が可
能となる。
【0018】本発明の第5の要旨は、前記ピッチ判定手
段は、前記音声ピッチ変化量が閾値より少ない平坦な区
間が、所定時間以上、連続する音声区間を前記不要語区
間と判定することを特徴とする要旨1から4のいずれか
に記載のデータ再生装置である。
【0019】前記第5の要旨によれば、前記ピッチ変化
量が閾値より少ない平坦な区間が、所定の時間長連続す
る音声区間を抽出することにより、不要語区間をより的
確に抽出することが可能となる。
【0020】本発明の第6の要旨は、前記ピッチ判定手
長母音の特徴データを保存する長母音データベー
スを有し、前記音声ピッチ変化量が閾値より少ない平坦
な区間が、所定時間以上連続する音声区間であって、該
長母音特徴データを含む場合には、前記不要語区間と
定することを特徴とする要旨1からのいずれかに記載
のデータ再生装置である。
【0021】前記第6の要旨によれば、ピッチの変化率
により抽出された音声区間において、その区間に長母音
特徴データを含む場合に、除去すべきデータとして判定
することにより、より確実に不要語区間を除去すること
が可能となる。本発明の第7の要旨は、前記音響処理部
で変換された前記音声データから所定閾値以下の音声パ
ワーを持つ無音音声データ区間を除去する無音区間処理
部を有し、前記短縮制御部は、前記無音音声データ区間
を除去した前記音声データ中から、前記不要語区間を除
去することで前記短縮データを作成することを特徴とす
る要旨1に記載のデータ再生装置である。 本発明の第8
の要旨は、前記音響処理部で変換された前記音声データ
から所定閾値以下の音声パワーを持つ無音音声データ区
間を除去する無音区間処理部を有し、前記短縮制御部
は、前記無音音声データ区間を除去した前記音声データ
と前記画像データから、前記不要語区間を除去すること
で前記短縮データを作成することを特徴とする要旨2か
ら4のいずれかに記載のデータ再生装置である。 前記第
7、8の要旨によれば、所定の継続時間長を超える無音
区間を除去することができる。
【0022】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。 (実施形態1)図1は、本発明の第1の実施形態を説明
するためのブロック図で、本音声再生装置の基本構成を
示している。音声入力部10より入力されたユーザの音
声は、音響処理部20で音声パワーおよび音声ピッチ
(基本周波数)がA/D変換され、所定の処理単位(た
とえばフレーム=1/30sec.)ごとに音声パワーお
よびピッチレベルが認識され、無音区間処理部21に入
力される。無音区間処理部21では、たとえば特開平7
−28486公報、特開平9−190678公報に示される手法によ
り、前記音響処理部20から出力された音声パワーか
ら、閾値に満たないパワーレベルが所定の継続時間(た
とえば10フレーム)以上続く区間(すなわち無音区
間)を抽出し、該当フレーム間の音声データを除去し
て、短縮制御部30Aに入力する。
【0023】短縮制御部30Aでは、まず始めにピッチ
変化量抽出手段31で、ピッチ変化率を抽出した後に、
音声ピッチデータをピッチ判定手段32に送る。ピッチ
判定手段32では、ピッチ変化量が閾値より少ない平坦
な区間が、所定の継続時間(たとえば15フレーム)以
上続くピッチ区間を抽出し、該当する始点・終点フレー
ム番号を除去処理手段33に送る。除去処理手段33で
は、該当フレーム間の音声を除去して、音声出力部40
より出力する。尚、音声のピッチ抽出は、限定するもの
ではなく、例えば、時間波形の周期性、スペクトルの周
期的周波数構造、自己相関関数などの基本的性質を用い
るもの、時間波形遅延マッチング、基本周波数強調、逆
フィルタリング、ケプストラム分析、非線形処理、パラ
レル処理、種々の推定処理方法などを利用可能である。
【0024】図2に、音声入力部10より入力された音
声「すごい あのー テレビですごい あのー」、図3
に音声入力部10より入力された音声「なんかね アメ
リカでね あのー」の音響処理部20で処理される音声
波形、音声パワーおよび音声ピッチの横軸を時間軸にと
った例を示している。ここでは、上記発話中の「あの
ー」という不要語を抽出し、除去する方法を説明する。
【0025】通常、ユーザは常に淀みなくしゃべり続け
るわけではなく、時には考えながら、あるいはつかえな
がらしゃべる。したがって、無音区間や、「あのー」や
「えー」「あー」といった、そのまま再生すると、聞き
手にとっては耳障りな、時間の無駄となる音声(不要
語)が含まれていることが多い。まず、入力音声が、音
響処理部20で音声パワーとピッチがA/D変換され、
所定の処理単位(ここでは1フレーム=1/30se
c.)ごとに音声パワーとピッチが認識される。
【0026】音響処理部20には無音区間処理部21が
接続されており(図1参照)、無音区間処理部21で
は、前記音響処理部20から出力された音声パワーか
ら、例えば特開平7−28486公報に述べる方法等により、
所定の閾値を越えないパワーレベルが所定の継続時間
(たとえば10フレーム)以上続く区間(例:図2の2
−5部分)を抽出し、該当フレーム間の音声データを無
音区間として除去する。よって、短縮制御部30Aに
は、所定の継続時間長を越える無音区間が除去された音
声データと音声ピッチの時系列データが、フレーム番号
nとともに入力される(図1参照)。
【0027】次に、短縮制御部30Aの詳細について説
明する。ピッチ変化量抽出手段31では、音声ピッチの
時系列データから、ピッチの変化量を抽出し、ピッチ判
定手段32は、前記ピッチ変化量が閾値より少ない平坦
な区間が、所定の継続時間(ここでは15フレーム)以
上続く区間を抽出する。一般に、自然発声の単語のピッ
チパターンは、各単語に固有のアクセントにより、図4
に示すような山型のパターンを示す。図4は、4モーラ
のピッチパターンの例を示すしている。ここで、アクセ
ント型Nは、アクセント核の位置を示す。アクセントと
は、アクセントがついた際に、周波数が下降する直前の
モーラである。つまり、1型とは、アクセント核が第1
モーラであること、2型とは、アクセント核が第2モー
ラであること、3型とは、アクセント核が第3モーラで
あること、0型とは、アクセント核がないことを示す。
【0028】上記アクセント核の存在により、音声ピッ
チが上下する。0型の場合はアクセント核が存在しない
が、図3に示すように、「アメリカ」という単語は0型
であるが、語頭のピッチの立ち上がりが大きく(図3の
2−4部分参照)、平坦でないのがわかる。
【0029】一方、上に示した通常の単語とは異なり、
「えー」「あのー」等の不要語は、アクセント核もな
く、また発話の立ち上がりも小さく、さらに母音部分を
長く伸して発音する長母音が含まれるため、図2、図3
に示すように、非常に平坦な独特なピッチパターン(図
2の2−1、2−3部分、図3の2−6部分参照)を示
す。この平坦部分は、通常の単語の発声時に現れる平坦
部分(図2の2−2部分、図4の2−4部分参照)より
も長く、一定時間以上続くことが多い。そこで、実施形
態では、このような不要語特有のピッチパターンを利用
して、「あのー」等の不要語を抽出するにあたって、ピ
ッチ変化量抽出手段31およびピッチ判定手段32にお
いて、所定の変化率が、所定の継続時間(ここでは15
フレーム)以上続く音声区間を抽出する。
【0030】以下、音響処理部20で処理された音声ピ
ッチを使って、不要語区間を抽出するピッチ変化量抽出
手段31およびピッチ判定手段32の動作を図5のフロ
ーチャートで説明する。ピッチ変化量抽出手段31で
は、ピッチの自然対数を取り、窓幅W(ここでは1フレ
ーム=1/30sec.)で平均化する。これを平均化対
数ピッチALPi(Average Log Pitch;以下、「AL
Pi」と略記する)とする(ステップ110)。
【0031】ところで、ALPiは常に存在するわけで
はなく、たとえば「あさって」等の単語に含まれる促音
部やポーズ部分のALPiは存在しない。そこでステッ
プ120では、ALPi(n)=NULLの場合はステ
ップ160に移行して、ALPi(n)=NULLとな
る区間の始点フレーム番号Spi(n)および終点フレ
ーム番号Epi(n)を求める
【0032】ステップ170では、無音区間等に現れる
長い空白部分を除去するために、ステップ160で抽出
された区間が所定の継続時間T1(ここでは10フレー
ム)を越える(Epi(n)−Spi(n)>T1)区
間を検出し、当該処理から除く。
【0033】一方、ステップ120でALPi(n)=
NULLでない場合、あるいは、ステップ170で(E
pi(n)−Spi(n)≦T1)の場合は、ステップ
130に移行し、時間方向のALPiの傾斜Tpi
(n)を次式(1)により計算する。 式(1):Tpi(n)=(ALPi(n)−ALPi
(m))/(n−m) ここで、nは現フレーム番号、mは連続してピッチが存
在する区間であれば、直前のフレーム番号、連続したピ
ッチの存在しない区間の場合、たとえば「あさって」の
促音部のような場合は、空白区間の直前のフレーム番号
である。すなわち、連続したピッチの存在しない区間の
場合、空白区間の両端を結んだALPiの傾斜を測るこ
とになる。これにより、ピッチの時間方向での変化率が
求まる。
【0034】次に、ピッチ判定手段32では、平坦なピ
ッチパターンを示す区間を抽出するために、フレームn
でのピッチ変化率Tpi(n)の絶対値を計算し、絶対
値が閾値D1(ここでは0.05)より小さい(|Tp
i(n)|<D1)区間の始点フレーム番号Spi
(n)および終点フレーム番号Epi(n)を求める
(ステップ140)。
【0035】さらに、ステップ150にて、ステップ1
40で抽出された区間のフレーム長(Epi(n)−S
pi(n))を計算し、その長さが所定の継続時間T2
(ここでは15フレーム)以上である区間の始点フレー
ム番号Spi(n)および終点フレーム番号Epi
(n)を不要語区間として、除去処理手段33に送り、
当該処理を終了する。
【0036】除去処理手段33では、ピッチ判定手段3
2で判定された区間の音声を除去して、音声出力部40
に出力する。このようにして、音声ピッチから不要語音
声区間が除去される。音声出力部40で、短縮化した音
声データを所定記憶媒体に格納し、再生することによっ
て、ユーザが入力した音声信号よりも再生時間を短縮
し、入力者が望む、必要な音声データのみを出力するこ
とが可能となる。
【0037】ピッチ判定手段32で抽出される音声区間
の例を図6に示す。ピッチ判定手段32においては、図
6に示すように、フレーム番号Spi(n)=1551
7からEpi(n)=15553までは、所定の継続時
間T2の間、変化率が小さいので、不要語音声区間とし
て抽出されている。一方、フレーム番号15453から
15504までと15566から15611までは、ピ
ッチの変化率が大きいので抽出されていない。また、フ
レーム番号15505から15516、15554から
15565、及び15612から15624の各区間で
は、ALPi=NULLの継続時間が所定閾値T1を越
えるためステップ170(図5参照)で当該処理から除
かれる。
【0038】除去処理手段33では、ピッチ判定手段3
2で判定された区間の音声を除去して音声出力部40よ
り出力する。
【0039】以上説明したように、音声ピッチ変化量を
用いて検出、判断(音声ピッチの変化率を求めて、所定
の変化率を示すフレーム区間を抽出して、不要な音声区
間を削除)することにより、音声等の再現時に不快感を
与える「えー」「あのー」等の不要語を削除することが
でき、最適な時間で、適切な情報のみを再現することが
可能とできた。
【0040】(実施形態2)次に、図7を参照して本発
明の第2の実施形態を説明する。本実施形態は、第1の
実施形態のピッチ判定手段32に、長母音データベース
34を付加したものであり、前記した構成と同一部分に
は同一符号を付して説明を省略する。
【0041】前記した実施形態1では、音声ピッチの変
化率を求めて、所定の変化率を示すフレーム区間を抽出
して、不要な音声区間として除去処理手段33に入力す
る方法を示したが、本実施形態では不要な音声区間をよ
り確実に抽出するため、ピッチ判定手段32で抽出され
た始点・終点フレーム区間(図6の例では、フレーム番
号Spi(n)=15517からEpi(n)=155
53)を対象に、以下の処理をするものである。
【0042】すなわち、この区間の音素系列を、長母音
データベース34の標準テンプレートとマッチングする
ことにより、同区間に母音の長音が含まれているかどう
かを判定し、長母音が含まれていれば、該当する始点・
終点フレーム番号を除去処理手段33に送る。除去処理
手段33では、該当フレーム間の音声を除去して、音声
出力部40より出力する。
【0043】ピッチ判定手段32で抽出された音声区間
が不要語である確からしさを調べるためには、単語標準
テンプレートに不要語をあらかじめ登録しておく方法が
考えられるが、不要語とは予期できない発声であるため
すべての不要語を標準テンプレートとして網羅すること
は不可能である。ところが、不要語は、「あのー」「あ
ー」「えー」「えーつと」「えとー」「そのー」「ん
ー」「んとー」などというように、母音部分を長く伸し
て発音する長母音が含まれることが多い。そこで、ピッ
チ判定手段32で抽出された区間に所定の継続時間T3
(ここでは15フレーム)を越える長さの長母音が含ま
れているかどうかを調べることにより、不要な音声区間
であるかどうかを判定する。所定の継続時間を越える長
さの長母音が検出されれば不要な音声区間と確定し、そ
の始点フレーム番号と終点フレーム番号を除去処理手段
33に送る(図7参照)。
【0044】長母音データベース34には、日本語の長
母音「あー」「いー」「うー」「えー」「おー」の音声
データを所定の周期(ここでは1フレーム=1/30se
c.)ごとに音響分析した特徴量(例えばケプストラ
ム)が保存されている。ピッチ判定手段32では、前記
の方法で抽出されたフレーム間のデータを所定の周期
(ここでは、1フレーム =1/30sec.)毎に順次
音響分析して音響特徴量(例えばケプストラム)を抽出
し、周知のDPマッチング法など(参考文献:音声認識
の基碇(上)(下) NTTアドバンステクノロジ社
刊)により、長母音データベース34の音声データの音
響特徴量との一致度(距離)を算出し、該当フレーム間
に長母音が含まれるかどうかを調べる。なお、このと
き、いずれの長母音が含まれているかは問題ではない。
【0045】以上説明したように、音声ピッチの変化率
を求めて、所定の変化率を示すフレーム区間を抽出し
て、不要な音声区間を削除する方法に加えて、ピッチ判
定手段32で抽出された始点・終点フレーム区間を対象
に、同区間に母音の長音が含まれているかどうかを判定
し、長母音が含まれていれば、該当する始点・終点フレ
ーム番号を除去する方法を行うことにより、不要な音声
区間をより確実に抽出することができ、より確実に、
「えー」や「あのー」などの不要語音声を除去でき、短
縮された、簡潔で必要なメッセージのみが再生できるよ
うになった。
【0046】(実施形態3)次に、図8から図10を参
照しつつ本発明の第3の実施形態を説明する。前記した
第1の実施形態が、音声ピッチをパラメータとして不要
語音声部分のデータを削除して録音等する方法を示した
が、本実施形態では使用者等の録音、録画の対象者の口
の形を不要語音声部分判断のパラメータとして音声ピッ
チと並列して利用することにより、より確実に不要な音
声および表情を除去するものである。
【0047】図8に示すように本実施形態は、画像デー
タ処理可能とするために前記した第1の実施形態に加え
て、ユーザの顔画像を入力する画像入力部11と、入力
されてくるアナログの画像信号をデジタルの画像データ
に変換する顔画像処理部22、および短縮された顔画像
データを出力する画像出力手段41を備えている。
【0048】また、画像データから抽出する口の形の変
化により不要語音声部分の判断を行うために、前記した
第1の実施形態の短縮制御部30Aに加えて、入力され
た顔画像データから口の形の変化の度合いを抽出する口
形変化量抽出手段35と、該変化量が所定の値を越えな
い区間が所定の長さ連続したときに不要語を発声してい
る区間と判断する口形判定手段36と、該口形判定手段
36で不要語区間と判定された区間と前記ピッチ判定手
段32で不要語区間と判定された区間とから除去すべさ
音声および表情を抽出する統合判定手段37が付加さ
れ、音声ピッチと口の形から除去すべき区間を抽出する
ものである。尚、上記第1、2の実施形態の構成と同一
部分には同一符号を付して説明を省略する。
【0049】音声入力部10に入力されたユーザの音声
データ、画像入力部11に入力された顔画像データは、
それぞれ同期をとって、音響処理部20、顔画像処理部
22に送られる。顔画像処理部22では、カメラから取
り込まれた顔画像データを、他の知られた方法(参考文
献:画像認識の基礎[工工]‥特徴抽出、エッジ抽出、
テクスチヤ解析 オーム社刊)により、A/D変換した
り、エッジ抽出を行ったり、フィルター処理を施して、
口の形を抽出し、画像データとして口形変化量抽出手段
35に送る。
【0050】一般に「あー」や「えー」「んー」等の発
音時には、図9に示す顔の表情のように、口の動きが止
まっているか、あるいは閉じて動かない状態であると推
定できる。そこで、本実施形態では、口の形を認識する
ことなく、口が動いているか否かだけで不要語区間を抽
出する。
【0051】口形変化量抽出手段35では、口の動きの
変化量を抽出する。ここで、変化の度合いの算出方法と
しては、例えば、(1)2フレーム間での明度パターン
の相関をとる方法、(2)フレーム内の特徴に着目した
対応づけ手法、(3)時空間微分法(オプティカルフロ
ーの抽出)による方法などが、知られている(参考文
献:ダイナミックシーンの理解 電子情報通信学会199
4)。また、特開平8−187368号公報に述べられている方
法のように、ユーザの口にLEDの光を照射し、反射さ
れた光を検出して電気信号に変換し、この電気信号の変
化の度合いを測定してもよい。
【0052】次に、口形判定手段36では、前記口形変
化量抽出手段35で、変化量が閾値を越えない区間が所
定の継続時間T4(ここでは15フレーム)以上続く区
間を不要な表情の区間と判定し、その始点フレームSm
o(n)と終点フレームEmo(n)を統合処理手段3
7に送る(図8参照)。
【0053】ピッチ判定手段32で抽出された音声区間
の例を図10(a)に、口形判定手段36で抽出れた区
間の例を図10(b)に示す。口形判定手段36におい
ては、図10(b)に示すように、フレーム番号Smo
(n)=15514からEmo(n)=15550まで
は、所定の継続時間T4の間、口が開いたまま動いてい
ない状態なので、除去すべき区間として抽出されてい
る。一方、フレーム番号15453から15513と1
5551から15635までは口が動いているので抽出
されない。
【0054】図8に示すように、統合処理手段37では
ピッチ判定手段32、およびロ型判定手段36で抽出さ
れた重複区間を、除去すべき始点フレーム番号Sdel
m(n)および終点フレーム番号Edelm(n)とし
て求め、除去処理手段33に送る。本実施形態では、フ
レーム番号Sdelm(n)=15517からEdel
m(n)=15550が除去処理手段33に送られる
(図8参照)。
【0055】除去処理手段33では、該当フレーム間の
音声および顔画像を除去して音声出力部40および画像
出力部41より出力する。音声出力部40および画像出
力部41は、短縮化した音声、画像データを所定記憶媒
体に格納し、再生することによって、ユーザが入力した
音声・画像信号よりも再生時間を短縮した、入力者が望
む、必要な音声、表情データのみを出力することが可能
となる。
【0056】このように、音声ピッチ、および口の形を
同時に利用することにより、より確実に不要な音声およ
び表情を除去できることとなる。
【0057】(実施形態4)次に図11から図13を参
照しつつ、本発明の第4の実施形態を説明する。本実施
形態は、第3の実施形態の構成に、視線から不要な表情
を抽出する視線判定手段38を短縮制御部30Aに付加
したものであり、前記実施形態の構成と同一部分には同
一符号を付して説明を省略する。
【0058】一般に人間は、喋っているときに考え込む
と図12に略記して示すように、視線が極端に上を向い
たり、横を向いたりするものである。そこで、この独特
の習性を判断のパラメータとして利用して判断するもの
であり、視線判定手段38(図11参照)では、カメラ
で捕らえた判断対象者の視線の向きから「あのー」など
と発音しながら考え込んでいるかどうかを推定する。
【0059】そこで、表情の検出方法としては、顔面全
体にわたつて筋肉の微少な動きを計測し、その時間的変
化をパターン化して標準表情画像における特徴ベクトル
を定めて表情認識に利用する方法が特開平4−342078号
公報に開示されている。また、顔の筋肉の動きを測定し
て表情をパターン化し、類似する標準表情パターンを検
索して認識対象パターンが何の表情であるかを認識する
方法が特開平3−252775号公報に開示されている。ここ
では、図12のような視線の向きが所定の継続時間T5
(ここでは15フレーム)以上続く区間を不要な表情の
区間と判定し、その始点フレームSey(n)と終点フ
レームEey(n)を統合処理手段37に送る。
【0060】ピッチ判定手段32で抽出された音声区間
の例を図13(a)に、ロ型判定手段36で抽出された
区間の例を(b)に、視線判定手段38で抽出された区
間の例を(c)に横軸をフレーム数として比較して示
す。
【0061】視線判定手段38においては、図13
(c)に示すように、フレーム番号Sey(n)=15
515からEey(n)=15558までは、所定の継
続時間T5の間、視線が上を向いている状態なので、除
去すべき区間として抽出される。一方、フレーム番号1
5453から15514までと15559から1563
5までは視線が正面を向いているので抽出しない。
【0062】図11に示すように統合処理手段38で
は、上記ピッチ判定手段32、口形判定手段36、およ
び視線判定手段38で抽出された重複区間を除去すべき
始点フレーム番号Sdle(n)および終点フレーム番
号Edele(n)として求め、除去処理手段33に送
る。本実施形態では、フレーム番号Sdle(n)=1
5517からEdele(n)=15550が除去処理
手段33に送られる。
【0063】除去処理手段33では、該当フレーム間の
音声および顔画像を除去して音声出力部40および画像
出力部41より出力する。音声出力部40および画像出
力部41は、短縮化した音声、画像データを所定記憶媒
体に格納し、再生することによって、ユーザが入力した
音声・画像信号よりも再生時間を短縮した、入力者が望
む、必要な音声、表情データのみを出力することが可能
となる。
【0064】このように、音声ピッチ、口の形、視線を
同時に利用することにより、より確実に不要な音声およ
び表情を除去でき、より確実に、「えー」や「あのー」
などの不要語音声、映像を除去でき、短縮された、簡潔
で必要なメッセージ、画像のみが再生できるようになっ
た。
【0065】なお、前記の実施形態では本発明の好適例
を説明したが、本発明はこれに限定されないことはもち
ろんである。例えば、第4の実施形態では、音声ピッ
チ、口の形、視線を同時に利用したが、例えば音声ピッ
チと、視線を利用することによっても不要な音声および
表情を除去できる。すなわち、不要語判断は種々の目的
等に応じてより適切な判断パラメータを選択することが
望ましい。
【0066】また、第1から第4の実施形態では、説明
の便宜上、不要語音声、映像の判断は前記した判断パラ
メータの各所データを所定の閾値と比較することで判断
の決定を行ったが、例えばファジィ推論を判断に使用す
ることもできる。ファジィ推論の適用の場合には、前記
した音声ピッチ、口の形、視線等のデータに対して、各
入力パラメータ、出力のメンバーシップ関数を規定する
ことにより行う。
【0067】図14(a)は、ピッチの傾きが平坦な音
声部分を抽出する関数fpである。しきい値D1はここ
では0.05である。図14(b)は、ピッチ変化率が
しきい値D1より小さい区間(Epi(n)−Spi
(n))が、ある継続長をもつ部分を抽出する関数gp
である。しきい値T2はここでは15フレームである。
したがって、ピッチ判定手段32の出力値は、fp*g
pで表され、fp*gp>F1(ここでは0.6)であ
れば、不要語であると判定され、除去される。
【0068】図15(a)は、口の動きの変化率が小さ
い顔画像部分を抽出する関数fmである。しきい値D2
はここでは0.05である。図15(b)は、口の動き
の変化率がしきい値D2より小さい区間(Emo(n)
−Smo(n))が、ある継続長をもつ部分を抽出する
関数gmである。しきい値T4はここでは15フレーム
である。したがって、口形判定手段36の出力値は、f
m*gmで表され、fm*gm>F2(ここでは0.
6)であれば、不要語であると判定され、除去される。
【0069】図16(a)は、視線が図12に示すよう
な方向を向いている部分、すなわち、視線が中央を向い
ている場合からのずれが大きい顔画像部分を抽出する関
数feである。しきい値D3はここでは0.1である。
図16(b)は、そのずれがしきい値D3より大きい区
間(Eey(n)−Sey(n))が、ある継続長続く
部分を抽出する関数geである。したがって、視線判定
手段38の出力値は、fe*geで表され、fe*ge
>F3(ここでは0.6)であれば、不要語であると判
定され、除去される。
【0070】さらに、統合判定手段37の出力値は、f
p*gp*fm*gm*fe*geで表され、fp*g
p*fm*gm*fe*ge>F4(ここでは0.2)
であれば、不要語であると判定され、除去されることに
なる。
【0071】かかる手段によれば、閾値により画一的に
判断する場合に較べて処理データ等は多くなり、処理時
間を要することとなるが、より適切な判断が可能とな
る。したがって、閾値処理と処理負担等を考慮したファ
ジィ推論の双方の適用によりに処理の正確性とコスト等
を調整も可能となる。
【0072】
【発明の効果】以上説明した通り、本発明の第1の要旨
によれば、ユーザが入力した音声信号の音声ピッチから
不要語区間を抽出し、除去することにより、再生時間を
短縮し、入力者が望む、必要な音声データのみ出力する
ことが可能となった。また、簡単な装置によるために、
少ない演算量とメモリサイズで処理が可能となり再生装
置の小型化、コストダウン等が可能となる。
【0073】本発明の第2の要旨によれば、音声ピッチ
と口の形から判定することにより、より確実に不要な音
声や表情を除去できる。
【0074】本発明の第3の要旨によれば、音声パワー
/ピッチと視線から判定することにより、不要な音声お
よび表情をより確実に抽出し、除去できる。
【0075】本発明の第4の要旨によれば、音声パワー
/ピッチ、口の形及び視線から判定することにより、不
要な音声および表情をより確実に抽出し、除去できる。
【0076】本発明の第5の要旨によれば、前記ピッチ
変化量が閾値より少ない平坦な区間が、所定の時間長連
続する音声区間を抽出することにより、不要語区間をよ
り的確に抽出することができる。
【0077】本発明の第6の要旨によれば、ピッチの変
化率により抽出された音声区間において、その区間に長
母音特徴データを含む場合に、除去すべきデータとして
判定することにより、より確実に不要語区間を除去でき
る。前記第7、8の要旨によれば、所定の継続時間長を
超える無音区間を除去することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態にかかる音声再生装置
の概略するブロック図でである。
【図2】図1に示す音響処理部20で処理する音声信号
の各種データの時間的変化を示す説明図である。
【図3】図1に示す音響処理部20で処理する音声信号
の各種データの時間的変化を示す説明図である。
【図4】図1に示す短縮制御部30Aの処理におけるア
クセント格の説明図である。
【図5】図1に示す短縮制御部30Aの処理のフローチ
ャートである。
【図6】図1に示すピッチ判定手段32の処理の説明図
である。
【図7】本発明の第2の実施形態にかかる音声再生装置
の概略するブロック図である。
【図8】本発明の第3の実施形態にかかる音声再生装置
の概略するブロック図である。
【図9】無音区間あるいは不要語音声区間に現れる顔画
像の口形の一例である。
【図10】(a)は図8のピッチ判定手段32で抽出さ
れる始点・終点フレームの一例を示す図であり、(b)
は図8の口形判定手段36で抽出される始点・終点フレ
ームの一例を示す図である。
【図11】本発明の第4の実施形態を説明するためのブ
ロック図である。
【図12】不要語音声区間に現れる顔画像の視線の一例
である。
【図13】(a)は図11に示すピッチ判定手段32で
抽出される始点・終点フレームの一例を示し、(b)は
図11に示す口形判定手段36で抽出される始点・終点
フレームの一例を示し、(c)は図11に示す視線判定
手段38で抽出される始点・終点フレームの一例を示す
説明図である。
【図14】(a)はピッチの傾きが平坦な音声部分を抽
出するメンバーシップ関数fp、(b)はピッチ変化率
がしきい値D1より小さい区間(Epi(n)−Spi
(n))が、ある継続長をもつ部分を抽出するメンバー
シップ関数gpである。
【図15】(a)は口の動きの変化率が小さい顔画像部
分を抽出するメンバーシップ関数fm、(b)は口の動
きの変化率がしきい値D2より小さい区間(Emo
(n)−Smo(n))が、ある継続長をもつ部分を抽
出するメンバーシップ関数gmである。
【図16】(a)は視線が中央を向いている場合からの
ずれが大きい顔画像部分を抽出する関数fe、(b)は
そのずれがしきい値D3より大きい区間(Eey(n)
−Sey(n))が、ある継続長続く部分を抽出する関
数geである。
【符号の説明】
10 音声入力部 11 画像入力部 20 音響処理部 21 無音区間処理部 22 顔画像処理部 30A、30B、30C、30D 短縮制御部 31 ピッチ変化量抽出手段 32 ピッチ判定手段 33 除去処理手段 34 長母音データベース 35 口形変化量抽出手段 36 口形判定手段 37 統合判定手段 38 視線判定手段 40 音声出力部 41 画像出力部
フロントページの続き (56)参考文献 特開 平7−261782(JP,A) 特開 平8−335091(JP,A) 特開 平1−255899(JP,A) 特開 平6−22266(JP,A) 特開 平9−198082(JP,A) 特開 平8−263258(JP,A) 特開 平6−43897(JP,A) 特開 平8−187368(JP,A) 特開 平4−93899(JP,A) 特開 平8−263092(JP,A) 特開 平10−190865(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 21/04

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 外部からの音声信号を入力する音声入力
    部と、前記音声入力部に入力されてくるアナログの前記
    音声信号をデジタルの音声データに変換する音響処理部
    と、前記音声データ中から不要な音声データ区間を除去
    した短縮データを作成する短縮制御部と、前記短縮デー
    タを記録媒体に格納し、該記録媒体から該短縮データ
    読み出し再生する出力部とを備えたデータ再生装置にお
    いて、 前記短縮制御部前記 音声データの音声ピッチの変化量を抽出するピッチ
    変化量抽出手段と、 前記ピッチ変化量抽出手段で求められた前記音声ピッチ
    変化量の度合いに基づき不要語区間を判定するピッチ判
    定手段と、前記 ピッチ判定手段で判定された前記不要語区間を前記
    音声データから除去する除去処理手段とを有することを
    特徴とするデータ再生装置。
  2. 【請求項2】 外部からの音声信号とユーザの顔画像
    を入力する入力部と、前記入力部に入力されるアナロ
    グの前記音声信号をデジタルの音声データに変換する音
    響処理部と、前記入力部に入力されるアナログの前記
    画像信号をデジタルの画像データに変換する顔画像処理
    部と、前記音声データと前記画像データから不要データ
    を除去した短縮データを作成する短縮制御部と、前記
    縮データを記憶媒体に格納し、該記憶媒体から該短縮
    ータを読み出し、再生する音声及び/又は顔画像データ
    を出力する出力部とを備えたデータ再生装置において、 前記短縮制御部前記 音声データの音声ピッチの変化量を抽出するピッチ
    変化量抽出手段と、 前記ピッチ変化量抽出手段で求められた前記音声ピッチ
    変化量の度合いに基づき前記音声データ中の不要語区間
    を判定するピッチ判定手段と、 前記画像データから口の形の変化の度合いである口形変
    化量を抽出する口形変化量抽出手段と、前記口形 変化量が所定の値を越えない区間が、所定の長
    さ連続したときに、該区間を不要語区間と判断する口形
    判定手段と、 前記ピッチ判定手段で不要語区間と判定された区間と口
    形判定手段で不要語区間と判定された区間に基づき、除
    去すべき音声および画像データを抽出する統合判定手段
    とを備えることを特徴とするデータ再生装置。
  3. 【請求項3】 外部からの音声信号とユーザの顔画像
    を入力する入力部と、前記入力部に入力されるアナロ
    グの前記音声信号をデジタルの音声データに変換する音
    響処理部と、前記入力部に入力されるアナログの前記
    画像信号をデジタルの画像データに変換する顔画像処理
    部と、前記音声データと前記画像データから不要データ
    を除去した短縮データを作成する短縮制御部と、前記
    縮データを記憶媒体に格納し、該記憶媒体から該短縮
    ータを読み出し、再生する音声及び/又は顔画像データ
    を出力する出力部とを備えたデータ再生装置において、 前記短縮制御部前記 音声データの音声ピッチの変化量を抽出するピッチ
    変化量抽出手段と、 前記ピッチ変化量抽出手段で求められた前記音声ピッチ
    変化量の度合いに基づき前記音声データ中の不要語区間
    を判定するピッチ判定手段と、 前記画像データ中におけるユーザの視線方向と、該視線
    方向の継続時間に基づいて不要語区間を抽出する視線判
    定手段と、 前記ピッチ判定手段で不要語区間と判定された区間と視
    線判定手段で不要語区間と判定された区間に基づき、除
    去すべき音声および画像データを抽出する統合判定手段
    とを備えることを特徴とするデータ再生装置。
  4. 【請求項4】 外部からの音声信号とユーザの顔画像
    を入力する入力部と、前記入力部に入力されるアナロ
    グの前記音声信号をデジタルの音声データに変換する音
    響処理部と、前記入力部に入力されるアナログの前記
    画像信号をデジタルの画像データに変換する顔画像処理
    部と、前記音声データと前記画像データから不要データ
    を除去した短縮データを作成する短縮制御部と、前記
    縮データを記憶媒体に格納し、該記憶媒体から該短縮
    ータを読み出し、再生する音声及び/又は顔画像データ
    を出力する出力部とを備えたデータ再生装置において、 前記短縮制御部前記 音声データの音声ピッチの変化量を抽出するピッチ
    変化量抽出手段と、 前記ピッチ変化量抽出手段で求められた前記音声ピッチ
    変化量の度合いに基づき前記音声データ中の不要語区間
    を判定するピッチ判定手段と、 前記画像データから口の形の変化の度合いである口形変
    化量を抽出する口形変化量抽出手段と、前記口形 変化量が所定の値を越えない区間が、所定の長
    さ連続したときに、該区間を第1の不要語区間と判断す
    る口形判定手段と、 前記画像データ中におけるユーザの視線方向と、該視線
    方向の継続時間に基づいて第2の不要語区間を抽出する
    視線判定手段と、 前記ピッチ判定手段、口形判定手段、及び視線判定手段
    で不要語区間と判定された区間に基づいて、除去すべき
    音声および画像データを抽出する統合判定手段とを備え
    ることを特徴とするデータ再生装置。
  5. 【請求項5】 前記ピッチ判定手段は、前記音声ピッチ
    変化量が閾値より少ない平坦な区間が、所定時間以上連
    続する音声区間を前記不要語区間と判定することを特徴
    とする請求項1から4のいずれか1の請求項に記載のデ
    ータ再生装置。
  6. 【請求項6】 前記ピッチ判定手段長母音の特徴デ
    ータを保存する長母音データベースを有し、前記音声ピ
    ッチ変化量が閾値より少ない平坦な区間が、所定時間以
    上連続する音声区間であって、該長母音特徴データを含
    場合には、前記不要語区間と判定することを特徴とす
    る請求項1からのいずれか1の請求項に記載のデータ
    再生装置。
  7. 【請求項7】 前記音響処理部で変換された前記音声デ
    ータから所定閾値以下の音声パワーを持つ無音音声デー
    タ区間を除去する無音区間処理部を有し、 前記短縮制御部は、前記無音音声データ区間を除去した
    前記音声データ中から前記不要語区間を除去することで
    前記短縮データを作成することを特徴とする請求項1に
    記載のデータ再生装置。
  8. 【請求項8】 前記音響処理部で変換された前記音声デ
    ータから所定閾値以下の音声パワーを持つ無音音声デー
    タ区間を除去する無音区間処理部を有し、 前記短縮制御部は、前記無音音声データ区間を除去した
    前記音声データと前記画像データから前記不要語区間を
    除去することで前記短縮データを作成することを特徴と
    する請求項2から4のいずれか1の請求項に記載のデー
    タ再生装置。
JP26786598A 1998-09-22 1998-09-22 データ再生装置 Expired - Fee Related JP3513030B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26786598A JP3513030B2 (ja) 1998-09-22 1998-09-22 データ再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26786598A JP3513030B2 (ja) 1998-09-22 1998-09-22 データ再生装置

Publications (2)

Publication Number Publication Date
JP2000099099A JP2000099099A (ja) 2000-04-07
JP3513030B2 true JP3513030B2 (ja) 2004-03-31

Family

ID=17450720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26786598A Expired - Fee Related JP3513030B2 (ja) 1998-09-22 1998-09-22 データ再生装置

Country Status (1)

Country Link
JP (1) JP3513030B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220189444A1 (en) * 2020-12-14 2022-06-16 Slate Digital France Note stabilization and transition boost in automatic pitch correction system
US11991421B2 (en) 2021-03-05 2024-05-21 Samsung Electronics Co., Ltd. Electronic device and method for processing voice input and recording in the same

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4576612B2 (ja) * 2005-09-13 2010-11-10 独立行政法人産業技術総合研究所 音声認識方法および音声認識装置
JP4557919B2 (ja) 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP5863472B2 (ja) * 2012-01-18 2016-02-16 日本放送協会 話速変換装置およびそのプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0782356B2 (ja) * 1988-04-06 1995-09-06 日本電信電話株式会社 音声データ編集装置
JPH0493899A (ja) * 1990-08-03 1992-03-26 Clarion Co Ltd 音声認識装置
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JPH0622266A (ja) * 1992-06-30 1994-01-28 Sanyo Electric Co Ltd 音声記録カメラ
JP2905686B2 (ja) * 1994-03-22 1999-06-14 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JP3363283B2 (ja) * 1995-03-23 2003-01-08 株式会社日立製作所 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JPH08263092A (ja) * 1995-03-23 1996-10-11 N T T Data Tsushin Kk 応答音声生成方法および音声対話システム
JPH08335091A (ja) * 1995-06-09 1996-12-17 Sony Corp 音声認識装置、および音声合成装置、並びに音声認識合成装置
JPH09198082A (ja) * 1996-01-12 1997-07-31 Oki Electric Ind Co Ltd 音声認識装置
JPH10190865A (ja) * 1996-12-27 1998-07-21 Casio Comput Co Ltd 移動端末音声認識/フォーマット文章作成システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220189444A1 (en) * 2020-12-14 2022-06-16 Slate Digital France Note stabilization and transition boost in automatic pitch correction system
US11991421B2 (en) 2021-03-05 2024-05-21 Samsung Electronics Co., Ltd. Electronic device and method for processing voice input and recording in the same

Also Published As

Publication number Publication date
JP2000099099A (ja) 2000-04-07

Similar Documents

Publication Publication Date Title
US5828994A (en) Non-uniform time scale modification of recorded audio
US8170878B2 (en) Method and apparatus for automatically converting voice
US6266637B1 (en) Phrase splicing and variable substitution using a trainable speech synthesizer
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
Picart et al. Analysis and synthesis of hypo and hyperarticulated speech
US20060129392A1 (en) Method for extracting feature vectors for speech recognition
US9147392B2 (en) Speech synthesis device and speech synthesis method
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
EP1426926B1 (en) Apparatus and method for changing the playback rate of recorded speech
CN115762466A (zh) 一种合成不同情感音频的方法和装置
JP3513030B2 (ja) データ再生装置
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Furui Robust methods in automatic speech recognition and understanding.
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Chauhan et al. Speech Summarization Using Prosodic Features and 1-D Convolutional Neural Network
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
Wiggers et al. Medium vocabulary continuous audio-visual speech recognition
JP2006154531A (ja) 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
JP3689616B2 (ja) 音声認識装置及び音声認識方法、音声認識システム、並びに、プログラム記録媒体
KR101648396B1 (ko) 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법
JPS63269200A (ja) 音声認識装置
Borský Robust recognition of strongly distorted speech
Datta et al. Time Domain Representation of Speech Sounds
Ou et al. Speaker identification using speech and lip features

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees