JP3513030B2

JP3513030B2 - データ再生装置

Info

Publication number: JP3513030B2
Application number: JP26786598A
Authority: JP
Inventors: 啓子綿貫
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-09-22
Filing date: 1998-09-22
Publication date: 2004-03-31
Anticipated expiration: 2018-09-22
Also published as: JP2000099099A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、記録媒体に記録さ
れた音声信号を読み出し再生する音声再生装置、ならび
に、音声・画像信号を読み出し再生する出力装置に関す
る。

【０００２】

【従来の技術】従来より、音声メールやビデオメール等
の音声や画像を録音、録画して、その後に、その音声や
画像データを再生する装置が普及してきた。しかし、従
来の音声や画像データを再生する装置にあっては、音声
や画像の入力時に、例えば「えーと」や「あのー」とい
った言葉により表現される、いわゆる考えながらの表現
データをも含めて全ての情報をそのままシーケンシャル
に録音、録画するために、その音声や画像データの再生
時には上記のような不要データを含む全データを再現
し、目的とする必要な情報以外のデータをも再現するこ
ととなるために、本来必要とするデータの再現以上に再
現時間がかかってしまう、という問題があった。また、
音声や画像の入力者にとっては、入力者が望まない音声
や表情がそのまま再生されてしまうという不都合があっ
た。

【０００３】

【発明が解決しようとする課題】従来、前記問題点等を
解決するために以下に示すような種々の方法が試みられ
ている。まず始めに、既に記録された音声を矩縮する
ことにより解決する方法として、音声信号を所定時間の
フレームに区切り、各フレームの一部を隣接するフレー
ムに重畳させることにより再生時間を短縮しようとする
方法があり、特開平７−９８９３３号公報に開示されて
いる。しかしながら、上記の方法では必要な単語も「え
ー」や「あのー」などの不要な発話と区別なく記録され
た音声データすべてを一様に短縮してしまうという問題
があった。

【０００４】また、音声データ中の無音区間を削除する
ことによる解決方法として、音声パワーを検出し、閾値
と比較して有音／無音区間を判定し、無音区間が所定の
時間長連続した場合には、無音区間と判定して削除する
という方法があり、特開平７−２８４８６号公報、ある
いは特開平９−１９０６７８号公報に開示されている。
しかしながら、この方法では「えー」や「あのー」など
の発話部分を削除することはできない。

【０００５】そこで「えー」や「あのー」などの音声を
除去する方法として、「えー」や「あのー」などの音声
の音響的特徴量を単語辞書に登録しておき、パターンマ
ッチングにより不要語を抽出する方法が特開平７−７７
９９８号公報に開示されている。しかしながら、この方
法では不要語除去の過程において、必要な単語も含めす
べての単語に対して認識（マッチング処理）を行い、そ
の中で不要語の認定を行うため、膨大な演算量とメモリ
サイズを必要とし、処理時間の増大、処理装置の大型
化、及びコストの増大等となってしまうという問題を有
していた。

【０００６】また、特開平６−１１０４９６号公報で
は、音声合成器において、高速音声発声を実現するため
に、スペクトル情報により有声または母音と判定された
フレームの予測ゲインを算出し、ピッチ周期の変化量が
少ない区間を間引く方法が開示されているが、この方法
は、変化量が少ない母音フレームの１フレーム分を削除
し、次の１フレーム分のデータを残す、というような間
引きを行うことにより、合成音声の高速発声を実現する
ともので、不要語の削除までをも可能とするものではな
い。

【０００７】また、特開平８−７６７８９号公報には、
無声音はピッチを持たないことを利用して、音声認識シ
ステムにおいて、例えば「くしゃみ」や「咳」などの雑
音を除去する方法が述べられている。しかし、この方法
でも、「えー」「あのー」などの有声音は除去すること
ができない。

【０００８】また、特開平８−１８７３６８号公報に
は、口唇にＬＥＤ（Light Emitting Diode）の光を照射
し、反射された光を検出して電気信号に変換し、この電
気信号の変化の度合いから口の動きを検出することによ
って、対象者（ユーザ）が発声しているか否かを検出
し、ユーザ以外の者の音声を削除する方法が開示されて
いる。しかし、この方法もユーザの発声する「えー」
「あー」などの不要語の削除を可能とするものではなか
った。

【０００９】そこで本発明は、前記の問題点を解消する
ためなされたものであって、処理時間が長く、大型処理
装置を要する音声認識をすることなく、少ない演算量と
メモリサイズで不要な音声を除去することを可能とする
音声再生装置ならびに出力装置を提供することを目的と
する。また、必要なことば・表情のみを再生することが
できる音声再生装置ならびに出力装置を提供することを
も目的とする。尚、不要語や不要な表情とは、ユーザが
考えている時や、つかえながら話しているときに現れ
る、「えー」「あのー」等の発話、およびこれら発声時
の、口の動き、視線が泳いでいる等の表情に相当する。

【００１０】

【課題を解決するための手段】本発明は、上記の目的を
達成するため、次の構成を有する。本発明の第１の要旨
は、外部からの音声信号を入力する音声入力部と、前記
音声入力部に入力されてくるアナログの前記音声信号を
デジタルの音声データに変換する音響処理部と、前記音
声データ中から不要な音声データ区間を除去した短縮デ
ータを作成する短縮制御部と、前記短縮データを記録媒
体に格納し、該記録媒体から該短縮データを読み出し再
生する出力部とを備えたデータ再生装置において、前記
短縮制御部は、前記音声データの音声ピッチの変化量を
抽出するピッチ変化量抽出手段と、前記ピッチ変化量抽
出手段で求められた前記音声ピッチ変化量の度合いに基
づき不要語区間を判定するピッチ判定手段と、前記ピッ
チ判定手段で判定された前記不要語区間を前記音声デー
タから除去する除去処理手段とを有することを特徴とす
るデータ再生装置である。

【００１１】上記第１の要旨によれば、ピッチ変化量抽
出手段により音声データの音声ピッチ変化量を抽出す
る。そして、通常「あのー」、「えー」などの不要語に
は独特の音声ピッチ変化があるので、ピッチ変化量抽出
手段で求められた音声ピッチ変化量の度合いをピッチ判
定手段にて比較判断して、不要語区間の抽出がなされ
る。そして、除去処理手段において、ピッチ判定手段で
不要語区間と判定されたデータ区間を音声データから除
去して短縮化した音声データを所定記憶媒体に格納し、
再生することによって、ユーザが入力した音声信号より
も再生時間を短縮し、入力者が望む、必要な音声データ
のみを出力することが可能となる。

【００１２】本発明の第２の要旨は、外部からの音声信
号とユーザの顔画像信号を入力する入力部と、前記入力
部に入力されるアナログの前記音声信号をデジタルの音
声データに変換する音響処理部と、前記入力部に入力さ
れるアナログの前記顔画像信号をデジタルの画像データ
に変換する顔画像処理部と、前記音声データと前記画像
データから不要データを除去した短縮データを作成する
短縮制御部と、前記短縮データを記憶媒体に格納し、該
記憶媒体から該短縮データを読み出し、再生する音声及
び／又は顔画像データを出力する出力部とを備えたデー
タ再生装置において、前記短縮制御部は、前記音声デー
タの音声ピッチの変化量を抽出するピッチ変化量抽出手
段と、前記ピッチ変化量抽出手段で求められた前記音声
ピッチ変化量の度合いに基づき前記音声データ中の不要
語区間を判定するピッチ判定手段と、前記画像データか
ら口の形の変化の度合いである口形変化量を抽出する口
形変化量抽出手段と、前記口形変化量が所定の値を越え
ない区間が、所定の長さ連続したときに、該区間を不要
語区間と判断する口形判定手段と、前記ピッチ判定手段
で不要語区間と判定された区間と口形判定手段で不要語
区間と判定された区間に基づき、除去すべき音声および
画像データを抽出する統合判定手段とを備えることを特
徴とするデータ再生装置である。

【００１３】前記第２の要旨によれば、ピッチ変化量抽
出手段により音声データの音声ピッチ変化量を抽出す
る。そして、通常「あのー」、「えー」などの不要語に
は独特の音声ピッチ変化があると同時に、不要語を発し
ている場合の口の形にも特徴がでるので、ピッチ変化量
抽出手段で求められた音声ピッチ変化量の度合いと口形
変化量抽出手段で求められた口の形の変化の度合いを統
合判定手段にて比較判断して、不要語区間の抽出がなさ
れる。そして、除去処理手段において、統合判定手段で
求められた不要語区間を音声、画像データから除去して
短縮化した音声、画像データを所定記憶媒体に格納し、
再生することによって、ユーザが入力した音声・画像信
号よりも再生時間を短縮し、入力者が望む、必要な音
声、表情データのみを出力することが可能となる。ま
た、音声ピッチ変化量の度合いに加え、口の形の変化の
度合いをも考慮することで確実に不要語区間の判断が可
能となる。

【００１４】本発明の第３の要旨は、外部からの音声信
号とユーザの顔画像信号を入力する入力部と、前記入力
部に入力されるアナログの前記音声信号をデジタルの音
声データに変換する音響処理部と、前記入力部に入力さ
れるアナログの前記顔画像信号をデジタルの画像データ
に変換する顔画像処理部と、前記音声データと前記画像
データから不要データを除去した短縮データを作成する
短縮制御部と、前記短縮データを記憶媒体に格納し、該
記憶媒体から該短縮データを読み出し、再生する音声及
び／又は顔画像データを出力する出力部とを備えたデー
タ再生装置において、前記短縮制御部は、前記音声デー
タの音声ピッチの変化量を抽出するピッチ変化量抽出手
段と、前記ピッチ変化量抽出手段で求められた前記音声
ピッチ変化量の度合いに基づき前記音声データ中の不要
語区間を判定するピッチ判定手段と、前記画像データ中
におけるユーザの視線方向と、該視線方向の継続時間に
基づいて不要語区間を抽出する視線判定手段と、前記ピ
ッチ判定手段で不要語区間と判定された区間と視線判定
手段で不要語区間と判定された区間に基づき、除去すべ
き音声および画像データを抽出する統合判定手段とを備
えることを特徴とするデータ再生装置である。

【００１５】前記第３の要旨によれば、ピッチ変化量抽
出手段により音声データの音声ピッチ変化量を抽出す
る。そして、通常「あのー」、「えー」などの不要語に
は独特の音声ピッチ変化があると同時に、不要語を発し
ている場合の視線の方向にも特徴がでるので、ピッチ変
化量抽出手段で求められた音声ピッチ変化量の度合いと
視線判定手段で抽出した視線を統合判定手段にて比較判
断して、不要語区間の抽出がなされる。そして、除去処
理手段において、統合判定手段で求められた不要語区間
を音声、画像データから除去して短縮化した音声、画像
データを所定記憶媒体に格納し、再生することによっ
て、ユーザが入力した音声・画像信号よりも再生時間を
短縮し、入力者が望む、必要な音声、表情データのみを
出力することが可能となる。また、音声ピッチ変化量の
度合いによりに加え、視線をも考慮することでより確実
に不要語区間の抽出、除去が可能となる。

【００１６】本発明の第４の要旨は、外部からの音声信
号とユーザの顔画像信号を入力する入力部と、前記入力
部に入力されるアナログの前記音声信号をデジタルの音
声データに変換する音響処理部と、前記入力部に入力さ
れるアナログの前記顔画像信号をデジタルの画像データ
に変換する顔画像処理部と、前記音声データと前記画像
データから不要データを除去した短縮データを作成する
短縮制御部と、前記短縮データを記憶媒体に格納し、該
記憶媒体から該短縮データを読み出し、再生する音声及
び／又は顔画像データを出力する出力部とを備えたデー
タ再生装置において、前記短縮制御部は、前記音声デー
タの音声ピッチの変化量を抽出するピッチ変化量抽出手
段と、前記ピッチ変化量抽出手段で求められた前記音声
ピッチ変化量の度合いに基づき前記音声データ中の不要
語区間を判定するピッチ判定手段と、前記画像データか
ら口の形の変化の度合いである口形変化量を抽出する口
形変化量抽出手段と、前記口形変化量が所定の値を越え
ない区間が、所定の長さ連続したときに、該区間を第１
の不要語区間と判断する口形判定手段と、前記画像デー
タ中におけるユーザの視線方向と、該視線方向の継続時
間に基づいて第２の不要語区間を抽出する視線判定手段
と、前記ピッチ判定手段、口形判定手段、及び視線判定
手段で不要語区間と判定された区間に基づいて、除去す
べき音声および画像データを抽出する統合判定手段とを
備えることを特徴とするデータ再生装置である。

【００１７】前記第４の要旨によれば、ピッチ変化量抽
出手段により音声データの音声ピッチ変化量を抽出す
る。そして、通常「あのー」、「えー」などの不要語に
は独特の音声ピッチ変化があると同時に、不要語を発し
ている場合の口の形と視線の方向にも特徴がでるので、
ピッチ変化量抽出手段で求められた音声ピッチ変化量の
度合いと口形変化量抽出手段で求められた口の形の変化
の度合いと視線判定手段で求めた視線の向きを統合判定
手段にて比較判断して、不要語区間の抽出がなされる。
そして、除去処理手段において、統合判定手段で求めら
れた不要語区間を音声、画像データから除去して短縮化
した音声、画像データを所定記憶媒体に格納し、再生す
ることによって、ユーザが入力した音声・画像信号より
も再生時間を短縮し、入力者が望む、必要な音声、表情
データのみを出力することが可能となる。また、音声ピ
ッチ変化量の度合いに加え、口の形の変化の度合いと視
線の向きを考慮することで確実に不要語区間の判断が可
能となる。

【００１８】本発明の第５の要旨は、前記ピッチ判定手
段は、前記音声ピッチ変化量が閾値より少ない平坦な区
間が、所定時間以上、連続する音声区間を前記不要語区
間と判定することを特徴とする要旨１から４のいずれか
に記載のデータ再生装置である。

【００１９】前記第５の要旨によれば、前記ピッチ変化
量が閾値より少ない平坦な区間が、所定の時間長連続す
る音声区間を抽出することにより、不要語区間をより的
確に抽出することが可能となる。

【００２０】本発明の第６の要旨は、前記ピッチ判定手
段は、長母音の特徴データを保存する長母音データベー
スを有し、前記音声ピッチ変化量が閾値より少ない平坦
な区間が、所定時間以上連続する音声区間であって、該
長母音特徴データを含む場合には、前記不要語区間と判
定することを特徴とする要旨１から４のいずれかに記載
のデータ再生装置である。

【００２１】前記第６の要旨によれば、ピッチの変化率
により抽出された音声区間において、その区間に長母音
特徴データを含む場合に、除去すべきデータとして判定
することにより、より確実に不要語区間を除去すること
が可能となる。本発明の第７の要旨は、前記音響処理部
で変換された前記音声データから所定閾値以下の音声パ
ワーを持つ無音音声データ区間を除去する無音区間処理
部を有し、前記短縮制御部は、前記無音音声データ区間
を除去した前記音声データ中から、前記不要語区間を除
去することで前記短縮データを作成することを特徴とす
る要旨１に記載のデータ再生装置である。本発明の第８
の要旨は、前記音響処理部で変換された前記音声データ
から所定閾値以下の音声パワーを持つ無音音声データ区
間を除去する無音区間処理部を有し、前記短縮制御部
は、前記無音音声データ区間を除去した前記音声データ
と前記画像データから、前記不要語区間を除去すること
で前記短縮データを作成することを特徴とする要旨２か
ら４のいずれかに記載のデータ再生装置である。前記第
７、８の要旨によれば、所定の継続時間長を超える無音
区間を除去することができる。

【００２２】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。（実施形態１）図１は、本発明の第１の実施形態を説明
するためのブロック図で、本音声再生装置の基本構成を
示している。音声入力部１０より入力されたユーザの音
声は、音響処理部２０で音声パワーおよび音声ピッチ
（基本周波数）がＡ／Ｄ変換され、所定の処理単位（た
とえばフレーム＝１／３０sec．）ごとに音声パワーお
よびピッチレベルが認識され、無音区間処理部２１に入
力される。無音区間処理部２１では、たとえば特開平7
−28486公報、特開平9−190678公報に示される手法によ
り、前記音響処理部２０から出力された音声パワーか
ら、閾値に満たないパワーレベルが所定の継続時間（た
とえば１０フレーム）以上続く区間（すなわち無音区
間）を抽出し、該当フレーム間の音声データを除去し
て、短縮制御部３０Ａに入力する。

【００２３】短縮制御部３０Ａでは、まず始めにピッチ
変化量抽出手段３１で、ピッチ変化率を抽出した後に、
音声ピッチデータをピッチ判定手段３２に送る。ピッチ
判定手段３２では、ピッチ変化量が閾値より少ない平坦
な区間が、所定の継続時間（たとえば１５フレーム）以
上続くピッチ区間を抽出し、該当する始点・終点フレー
ム番号を除去処理手段３３に送る。除去処理手段３３で
は、該当フレーム間の音声を除去して、音声出力部４０
より出力する。尚、音声のピッチ抽出は、限定するもの
ではなく、例えば、時間波形の周期性、スペクトルの周
期的周波数構造、自己相関関数などの基本的性質を用い
るもの、時間波形遅延マッチング、基本周波数強調、逆
フィルタリング、ケプストラム分析、非線形処理、パラ
レル処理、種々の推定処理方法などを利用可能である。

【００２４】図２に、音声入力部１０より入力された音
声「すごいあのーテレビですごいあのー」、図３
に音声入力部１０より入力された音声「なんかねアメ
リカでねあのー」の音響処理部２０で処理される音声
波形、音声パワーおよび音声ピッチの横軸を時間軸にと
った例を示している。ここでは、上記発話中の「あの
ー」という不要語を抽出し、除去する方法を説明する。

【００２５】通常、ユーザは常に淀みなくしゃべり続け
るわけではなく、時には考えながら、あるいはつかえな
がらしゃべる。したがって、無音区間や、「あのー」や
「えー」「あー」といった、そのまま再生すると、聞き
手にとっては耳障りな、時間の無駄となる音声（不要
語）が含まれていることが多い。まず、入力音声が、音
響処理部２０で音声パワーとピッチがＡ／Ｄ変換され、
所定の処理単位（ここでは１フレーム＝１／３０se
c．）ごとに音声パワーとピッチが認識される。

【００２６】音響処理部２０には無音区間処理部２１が
接続されており（図１参照）、無音区間処理部２１で
は、前記音響処理部２０から出力された音声パワーか
ら、例えば特開平7−28486公報に述べる方法等により、
所定の閾値を越えないパワーレベルが所定の継続時間
（たとえば１０フレーム）以上続く区間（例：図２の２
−５部分）を抽出し、該当フレーム間の音声データを無
音区間として除去する。よって、短縮制御部３０Ａに
は、所定の継続時間長を越える無音区間が除去された音
声データと音声ピッチの時系列データが、フレーム番号
ｎとともに入力される（図１参照）。

【００２７】次に、短縮制御部３０Ａの詳細について説
明する。ピッチ変化量抽出手段３１では、音声ピッチの
時系列データから、ピッチの変化量を抽出し、ピッチ判
定手段３２は、前記ピッチ変化量が閾値より少ない平坦
な区間が、所定の継続時間（ここでは１５フレーム）以
上続く区間を抽出する。一般に、自然発声の単語のピッ
チパターンは、各単語に固有のアクセントにより、図４
に示すような山型のパターンを示す。図４は、４モーラ
のピッチパターンの例を示すしている。ここで、アクセ
ント型Ｎは、アクセント核の位置を示す。アクセントと
は、アクセントがついた際に、周波数が下降する直前の
モーラである。つまり、１型とは、アクセント核が第１
モーラであること、２型とは、アクセント核が第２モー
ラであること、３型とは、アクセント核が第３モーラで
あること、０型とは、アクセント核がないことを示す。

【００２８】上記アクセント核の存在により、音声ピッ
チが上下する。０型の場合はアクセント核が存在しない
が、図３に示すように、「アメリカ」という単語は０型
であるが、語頭のピッチの立ち上がりが大きく（図３の
２−４部分参照）、平坦でないのがわかる。

【００２９】一方、上に示した通常の単語とは異なり、
「えー」「あのー」等の不要語は、アクセント核もな
く、また発話の立ち上がりも小さく、さらに母音部分を
長く伸して発音する長母音が含まれるため、図２、図３
に示すように、非常に平坦な独特なピッチパターン（図
２の２−１、２−３部分、図３の２−６部分参照）を示
す。この平坦部分は、通常の単語の発声時に現れる平坦
部分（図２の２−２部分、図４の２−４部分参照）より
も長く、一定時間以上続くことが多い。そこで、実施形
態では、このような不要語特有のピッチパターンを利用
して、「あのー」等の不要語を抽出するにあたって、ピ
ッチ変化量抽出手段３１およびピッチ判定手段３２にお
いて、所定の変化率が、所定の継続時間（ここでは１５
フレーム）以上続く音声区間を抽出する。

【００３０】以下、音響処理部２０で処理された音声ピ
ッチを使って、不要語区間を抽出するピッチ変化量抽出
手段３１およびピッチ判定手段３２の動作を図５のフロ
ーチャートで説明する。ピッチ変化量抽出手段３１で
は、ピッチの自然対数を取り、窓幅Ｗ（ここでは１フレ
ーム＝１／３０sec．）で平均化する。これを平均化対
数ピッチＡＬＰｉ（Average Log Pitch；以下、「ＡＬ
Ｐｉ」と略記する）とする（ステップ１１０）。

【００３１】ところで、ＡＬＰｉは常に存在するわけで
はなく、たとえば「あさって」等の単語に含まれる促音
部やポーズ部分のＡＬＰｉは存在しない。そこでステッ
プ１２０では、ＡＬＰｉ（ｎ）＝ＮＵＬＬの場合はステ
ップ１６０に移行して、ＡＬＰｉ（ｎ）＝ＮＵＬＬとな
る区間の始点フレーム番号Ｓｐｉ（ｎ）および終点フレ
ーム番号Ｅｐｉ（ｎ）を求める

【００３２】ステップ１７０では、無音区間等に現れる
長い空白部分を除去するために、ステップ１６０で抽出
された区間が所定の継続時間Ｔ１（ここでは１０フレー
ム）を越える（Ｅｐｉ（ｎ）−Ｓｐｉ（ｎ）＞Ｔ１）区
間を検出し、当該処理から除く。

【００３３】一方、ステップ１２０でＡＬＰｉ（ｎ）＝
ＮＵＬＬでない場合、あるいは、ステップ１７０で（Ｅ
ｐｉ（ｎ）−Ｓｐｉ（ｎ）≦Ｔ１）の場合は、ステップ
１３０に移行し、時間方向のＡＬＰｉの傾斜Ｔｐｉ
（ｎ）を次式（１）により計算する。式（１）：Ｔｐｉ（ｎ）＝（ＡＬＰｉ（ｎ）−ＡＬＰｉ
（ｍ））／（ｎ−ｍ）ここで、ｎは現フレーム番号、ｍは連続してピッチが存
在する区間であれば、直前のフレーム番号、連続したピ
ッチの存在しない区間の場合、たとえば「あさって」の
促音部のような場合は、空白区間の直前のフレーム番号
である。すなわち、連続したピッチの存在しない区間の
場合、空白区間の両端を結んだＡＬＰｉの傾斜を測るこ
とになる。これにより、ピッチの時間方向での変化率が
求まる。

【００３４】次に、ピッチ判定手段３２では、平坦なピ
ッチパターンを示す区間を抽出するために、フレームｎ
でのピッチ変化率Ｔｐｉ（ｎ）の絶対値を計算し、絶対
値が閾値Ｄ１（ここでは０．０５）より小さい（｜Ｔｐ
ｉ（ｎ）｜＜Ｄ１）区間の始点フレーム番号Ｓｐｉ
（ｎ）および終点フレーム番号Ｅｐｉ（ｎ）を求める
（ステップ１４０）。

【００３５】さらに、ステップ１５０にて、ステップ１
４０で抽出された区間のフレーム長（Ｅｐｉ（ｎ）−Ｓ
ｐｉ（ｎ））を計算し、その長さが所定の継続時間Ｔ２
（ここでは１５フレーム）以上である区間の始点フレー
ム番号Ｓｐｉ（ｎ）および終点フレーム番号Ｅｐｉ
（ｎ）を不要語区間として、除去処理手段３３に送り、
当該処理を終了する。

【００３６】除去処理手段３３では、ピッチ判定手段３
２で判定された区間の音声を除去して、音声出力部４０
に出力する。このようにして、音声ピッチから不要語音
声区間が除去される。音声出力部４０で、短縮化した音
声データを所定記憶媒体に格納し、再生することによっ
て、ユーザが入力した音声信号よりも再生時間を短縮
し、入力者が望む、必要な音声データのみを出力するこ
とが可能となる。

【００３７】ピッチ判定手段３２で抽出される音声区間
の例を図６に示す。ピッチ判定手段３２においては、図
６に示すように、フレーム番号Ｓｐｉ（ｎ）＝１５５１
７からＥｐｉ（ｎ）＝１５５５３までは、所定の継続時
間Ｔ２の間、変化率が小さいので、不要語音声区間とし
て抽出されている。一方、フレーム番号１５４５３から
１５５０４までと１５５６６から１５６１１までは、ピ
ッチの変化率が大きいので抽出されていない。また、フ
レーム番号１５５０５から１５５１６、１５５５４から
１５５６５、及び１５６１２から１５６２４の各区間で
は、ＡＬＰｉ＝ＮＵＬＬの継続時間が所定閾値Ｔ１を越
えるためステップ１７０（図５参照）で当該処理から除
かれる。

【００３８】除去処理手段３３では、ピッチ判定手段３
２で判定された区間の音声を除去して音声出力部４０よ
り出力する。

【００３９】以上説明したように、音声ピッチ変化量を
用いて検出、判断（音声ピッチの変化率を求めて、所定
の変化率を示すフレーム区間を抽出して、不要な音声区
間を削除）することにより、音声等の再現時に不快感を
与える「えー」「あのー」等の不要語を削除することが
でき、最適な時間で、適切な情報のみを再現することが
可能とできた。

【００４０】（実施形態２）次に、図７を参照して本発
明の第２の実施形態を説明する。本実施形態は、第１の
実施形態のピッチ判定手段３２に、長母音データベース
３４を付加したものであり、前記した構成と同一部分に
は同一符号を付して説明を省略する。

【００４１】前記した実施形態１では、音声ピッチの変
化率を求めて、所定の変化率を示すフレーム区間を抽出
して、不要な音声区間として除去処理手段３３に入力す
る方法を示したが、本実施形態では不要な音声区間をよ
り確実に抽出するため、ピッチ判定手段３２で抽出され
た始点・終点フレーム区間（図６の例では、フレーム番
号Ｓｐｉ（ｎ）＝１５５１７からＥｐｉ（ｎ）＝１５５
５３）を対象に、以下の処理をするものである。

【００４２】すなわち、この区間の音素系列を、長母音
データベース３４の標準テンプレートとマッチングする
ことにより、同区間に母音の長音が含まれているかどう
かを判定し、長母音が含まれていれば、該当する始点・
終点フレーム番号を除去処理手段３３に送る。除去処理
手段３３では、該当フレーム間の音声を除去して、音声
出力部４０より出力する。

【００４３】ピッチ判定手段３２で抽出された音声区間
が不要語である確からしさを調べるためには、単語標準
テンプレートに不要語をあらかじめ登録しておく方法が
考えられるが、不要語とは予期できない発声であるため
すべての不要語を標準テンプレートとして網羅すること
は不可能である。ところが、不要語は、「あのー」「あ
ー」「えー」「えーつと」「えとー」「そのー」「ん
ー」「んとー」などというように、母音部分を長く伸し
て発音する長母音が含まれることが多い。そこで、ピッ
チ判定手段３２で抽出された区間に所定の継続時間Ｔ３
（ここでは１５フレーム）を越える長さの長母音が含ま
れているかどうかを調べることにより、不要な音声区間
であるかどうかを判定する。所定の継続時間を越える長
さの長母音が検出されれば不要な音声区間と確定し、そ
の始点フレーム番号と終点フレーム番号を除去処理手段
３３に送る（図７参照）。

【００４４】長母音データベース３４には、日本語の長
母音「あー」「いー」「うー」「えー」「おー」の音声
データを所定の周期（ここでは１フレーム＝１／３０se
c．）ごとに音響分析した特徴量（例えばケプストラ
ム）が保存されている。ピッチ判定手段３２では、前記
の方法で抽出されたフレーム間のデータを所定の周期
（ここでは、１フレーム＝１／３０sec．）毎に順次
音響分析して音響特徴量（例えばケプストラム）を抽出
し、周知のＤＰマッチング法など（参考文献：音声認識
の基碇（上）（下）ＮＴＴアドバンステクノロジ社
刊）により、長母音データベース３４の音声データの音
響特徴量との一致度（距離）を算出し、該当フレーム間
に長母音が含まれるかどうかを調べる。なお、このと
き、いずれの長母音が含まれているかは問題ではない。

【００４５】以上説明したように、音声ピッチの変化率
を求めて、所定の変化率を示すフレーム区間を抽出し
て、不要な音声区間を削除する方法に加えて、ピッチ判
定手段３２で抽出された始点・終点フレーム区間を対象
に、同区間に母音の長音が含まれているかどうかを判定
し、長母音が含まれていれば、該当する始点・終点フレ
ーム番号を除去する方法を行うことにより、不要な音声
区間をより確実に抽出することができ、より確実に、
「えー」や「あのー」などの不要語音声を除去でき、短
縮された、簡潔で必要なメッセージのみが再生できるよ
うになった。

【００４６】（実施形態３）次に、図８から図１０を参
照しつつ本発明の第３の実施形態を説明する。前記した
第１の実施形態が、音声ピッチをパラメータとして不要
語音声部分のデータを削除して録音等する方法を示した
が、本実施形態では使用者等の録音、録画の対象者の口
の形を不要語音声部分判断のパラメータとして音声ピッ
チと並列して利用することにより、より確実に不要な音
声および表情を除去するものである。

【００４７】図８に示すように本実施形態は、画像デー
タ処理可能とするために前記した第１の実施形態に加え
て、ユーザの顔画像を入力する画像入力部１１と、入力
されてくるアナログの画像信号をデジタルの画像データ
に変換する顔画像処理部２２、および短縮された顔画像
データを出力する画像出力手段４１を備えている。

【００４８】また、画像データから抽出する口の形の変
化により不要語音声部分の判断を行うために、前記した
第１の実施形態の短縮制御部３０Ａに加えて、入力され
た顔画像データから口の形の変化の度合いを抽出する口
形変化量抽出手段３５と、該変化量が所定の値を越えな
い区間が所定の長さ連続したときに不要語を発声してい
る区間と判断する口形判定手段３６と、該口形判定手段
３６で不要語区間と判定された区間と前記ピッチ判定手
段３２で不要語区間と判定された区間とから除去すべさ
音声および表情を抽出する統合判定手段３７が付加さ
れ、音声ピッチと口の形から除去すべき区間を抽出する
ものである。尚、上記第１、２の実施形態の構成と同一
部分には同一符号を付して説明を省略する。

【００４９】音声入力部１０に入力されたユーザの音声
データ、画像入力部１１に入力された顔画像データは、
それぞれ同期をとって、音響処理部２０、顔画像処理部
２２に送られる。顔画像処理部２２では、カメラから取
り込まれた顔画像データを、他の知られた方法（参考文
献：画像認識の基礎［工工］‥特徴抽出、エッジ抽出、
テクスチヤ解析オーム社刊）により、Ａ／Ｄ変換した
り、エッジ抽出を行ったり、フィルター処理を施して、
口の形を抽出し、画像データとして口形変化量抽出手段
３５に送る。

【００５０】一般に「あー」や「えー」「んー」等の発
音時には、図９に示す顔の表情のように、口の動きが止
まっているか、あるいは閉じて動かない状態であると推
定できる。そこで、本実施形態では、口の形を認識する
ことなく、口が動いているか否かだけで不要語区間を抽
出する。

【００５１】口形変化量抽出手段３５では、口の動きの
変化量を抽出する。ここで、変化の度合いの算出方法と
しては、例えば、（１）２フレーム間での明度パターン
の相関をとる方法、（２）フレーム内の特徴に着目した
対応づけ手法、（３）時空間微分法（オプティカルフロ
ーの抽出）による方法などが、知られている（参考文
献：ダイナミックシーンの理解電子情報通信学会199
4）。また、特開平8−187368号公報に述べられている方
法のように、ユーザの口にＬＥＤの光を照射し、反射さ
れた光を検出して電気信号に変換し、この電気信号の変
化の度合いを測定してもよい。

【００５２】次に、口形判定手段３６では、前記口形変
化量抽出手段３５で、変化量が閾値を越えない区間が所
定の継続時間Ｔ４（ここでは１５フレーム）以上続く区
間を不要な表情の区間と判定し、その始点フレームＳｍ
ｏ（ｎ）と終点フレームＥｍｏ（ｎ）を統合処理手段３
７に送る（図８参照）。

【００５３】ピッチ判定手段３２で抽出された音声区間
の例を図１０（ａ）に、口形判定手段３６で抽出れた区
間の例を図１０（ｂ）に示す。口形判定手段３６におい
ては、図１０（ｂ）に示すように、フレーム番号Ｓｍｏ
（ｎ）＝１５５１４からＥｍｏ（ｎ）＝１５５５０まで
は、所定の継続時間Ｔ４の間、口が開いたまま動いてい
ない状態なので、除去すべき区間として抽出されてい
る。一方、フレーム番号１５４５３から１５５１３と１
５５５１から１５６３５までは口が動いているので抽出
されない。

【００５４】図８に示すように、統合処理手段３７では
ピッチ判定手段３２、およびロ型判定手段３６で抽出さ
れた重複区間を、除去すべき始点フレーム番号Ｓｄｅｌ
ｍ（ｎ）および終点フレーム番号Ｅｄｅｌｍ（ｎ）とし
て求め、除去処理手段３３に送る。本実施形態では、フ
レーム番号Ｓｄｅｌｍ（ｎ）＝１５５１７からＥｄｅｌ
ｍ（ｎ）＝１５５５０が除去処理手段３３に送られる
（図８参照）。

【００５５】除去処理手段３３では、該当フレーム間の
音声および顔画像を除去して音声出力部４０および画像
出力部４１より出力する。音声出力部４０および画像出
力部４１は、短縮化した音声、画像データを所定記憶媒
体に格納し、再生することによって、ユーザが入力した
音声・画像信号よりも再生時間を短縮した、入力者が望
む、必要な音声、表情データのみを出力することが可能
となる。

【００５６】このように、音声ピッチ、および口の形を
同時に利用することにより、より確実に不要な音声およ
び表情を除去できることとなる。

【００５７】（実施形態４）次に図１１から図１３を参
照しつつ、本発明の第４の実施形態を説明する。本実施
形態は、第３の実施形態の構成に、視線から不要な表情
を抽出する視線判定手段３８を短縮制御部３０Ａに付加
したものであり、前記実施形態の構成と同一部分には同
一符号を付して説明を省略する。

【００５８】一般に人間は、喋っているときに考え込む
と図１２に略記して示すように、視線が極端に上を向い
たり、横を向いたりするものである。そこで、この独特
の習性を判断のパラメータとして利用して判断するもの
であり、視線判定手段３８（図１１参照）では、カメラ
で捕らえた判断対象者の視線の向きから「あのー」など
と発音しながら考え込んでいるかどうかを推定する。

【００５９】そこで、表情の検出方法としては、顔面全
体にわたつて筋肉の微少な動きを計測し、その時間的変
化をパターン化して標準表情画像における特徴ベクトル
を定めて表情認識に利用する方法が特開平4−342078号
公報に開示されている。また、顔の筋肉の動きを測定し
て表情をパターン化し、類似する標準表情パターンを検
索して認識対象パターンが何の表情であるかを認識する
方法が特開平3−252775号公報に開示されている。ここ
では、図１２のような視線の向きが所定の継続時間Ｔ５
（ここでは１５フレーム）以上続く区間を不要な表情の
区間と判定し、その始点フレームＳｅｙ（ｎ）と終点フ
レームＥｅｙ（ｎ）を統合処理手段３７に送る。

【００６０】ピッチ判定手段３２で抽出された音声区間
の例を図１３（ａ）に、ロ型判定手段３６で抽出された
区間の例を（ｂ）に、視線判定手段３８で抽出された区
間の例を（ｃ）に横軸をフレーム数として比較して示
す。

【００６１】視線判定手段３８においては、図１３
（ｃ）に示すように、フレーム番号Ｓｅｙ（ｎ）＝１５
５１５からＥｅｙ（ｎ）＝１５５５８までは、所定の継
続時間Ｔ５の間、視線が上を向いている状態なので、除
去すべき区間として抽出される。一方、フレーム番号１
５４５３から１５５１４までと１５５５９から１５６３
５までは視線が正面を向いているので抽出しない。

【００６２】図１１に示すように統合処理手段３８で
は、上記ピッチ判定手段３２、口形判定手段３６、およ
び視線判定手段３８で抽出された重複区間を除去すべき
始点フレーム番号Ｓｄｌｅ（ｎ）および終点フレーム番
号Ｅｄｅｌｅ（ｎ）として求め、除去処理手段３３に送
る。本実施形態では、フレーム番号Ｓｄｌｅ（ｎ）＝１
５５１７からＥｄｅｌｅ（ｎ）＝１５５５０が除去処理
手段３３に送られる。

【００６３】除去処理手段３３では、該当フレーム間の
音声および顔画像を除去して音声出力部４０および画像
出力部４１より出力する。音声出力部４０および画像出
力部４１は、短縮化した音声、画像データを所定記憶媒
体に格納し、再生することによって、ユーザが入力した
音声・画像信号よりも再生時間を短縮した、入力者が望
む、必要な音声、表情データのみを出力することが可能
となる。

【００６４】このように、音声ピッチ、口の形、視線を
同時に利用することにより、より確実に不要な音声およ
び表情を除去でき、より確実に、「えー」や「あのー」
などの不要語音声、映像を除去でき、短縮された、簡潔
で必要なメッセージ、画像のみが再生できるようになっ
た。

【００６５】なお、前記の実施形態では本発明の好適例
を説明したが、本発明はこれに限定されないことはもち
ろんである。例えば、第４の実施形態では、音声ピッ
チ、口の形、視線を同時に利用したが、例えば音声ピッ
チと、視線を利用することによっても不要な音声および
表情を除去できる。すなわち、不要語判断は種々の目的
等に応じてより適切な判断パラメータを選択することが
望ましい。

【００６６】また、第１から第４の実施形態では、説明
の便宜上、不要語音声、映像の判断は前記した判断パラ
メータの各所データを所定の閾値と比較することで判断
の決定を行ったが、例えばファジィ推論を判断に使用す
ることもできる。ファジィ推論の適用の場合には、前記
した音声ピッチ、口の形、視線等のデータに対して、各
入力パラメータ、出力のメンバーシップ関数を規定する
ことにより行う。

【００６７】図１４（ａ）は、ピッチの傾きが平坦な音
声部分を抽出する関数ｆｐである。しきい値Ｄ１はここ
では０．０５である。図１４（ｂ）は、ピッチ変化率が
しきい値Ｄ１より小さい区間（Ｅｐｉ（ｎ）−Ｓｐｉ
（ｎ））が、ある継続長をもつ部分を抽出する関数ｇｐ
である。しきい値Ｔ２はここでは１５フレームである。
したがって、ピッチ判定手段３２の出力値は、ｆｐ＊ｇ
ｐで表され、ｆｐ＊ｇｐ＞Ｆ１（ここでは０．６）であ
れば、不要語であると判定され、除去される。

【００６８】図１５（ａ）は、口の動きの変化率が小さ
い顔画像部分を抽出する関数ｆｍである。しきい値Ｄ２
はここでは０．０５である。図１５（ｂ）は、口の動き
の変化率がしきい値Ｄ２より小さい区間（Ｅｍｏ（ｎ）
−Ｓｍｏ（ｎ））が、ある継続長をもつ部分を抽出する
関数ｇｍである。しきい値Ｔ４はここでは１５フレーム
である。したがって、口形判定手段３６の出力値は、ｆ
ｍ＊ｇｍで表され、ｆｍ＊ｇｍ＞Ｆ２（ここでは０．
６）であれば、不要語であると判定され、除去される。

【００６９】図１６（ａ）は、視線が図１２に示すよう
な方向を向いている部分、すなわち、視線が中央を向い
ている場合からのずれが大きい顔画像部分を抽出する関
数ｆｅである。しきい値Ｄ３はここでは０．１である。
図１６（ｂ）は、そのずれがしきい値Ｄ３より大きい区
間（Ｅｅｙ（ｎ）−Ｓｅｙ（ｎ））が、ある継続長続く
部分を抽出する関数ｇｅである。したがって、視線判定
手段３８の出力値は、ｆｅ＊ｇｅで表され、ｆｅ＊ｇｅ
＞Ｆ３（ここでは０．６）であれば、不要語であると判
定され、除去される。

【００７０】さらに、統合判定手段３７の出力値は、ｆ
ｐ＊ｇｐ＊ｆｍ＊ｇｍ＊ｆｅ＊ｇｅで表され、ｆｐ＊ｇ
ｐ＊ｆｍ＊ｇｍ＊ｆｅ＊ｇｅ＞Ｆ４（ここでは０．２）
であれば、不要語であると判定され、除去されることに
なる。

【００７１】かかる手段によれば、閾値により画一的に
判断する場合に較べて処理データ等は多くなり、処理時
間を要することとなるが、より適切な判断が可能とな
る。したがって、閾値処理と処理負担等を考慮したファ
ジィ推論の双方の適用によりに処理の正確性とコスト等
を調整も可能となる。

【００７２】

【発明の効果】以上説明した通り、本発明の第１の要旨
によれば、ユーザが入力した音声信号の音声ピッチから
不要語区間を抽出し、除去することにより、再生時間を
短縮し、入力者が望む、必要な音声データのみ出力する
ことが可能となった。また、簡単な装置によるために、
少ない演算量とメモリサイズで処理が可能となり再生装
置の小型化、コストダウン等が可能となる。

【００７３】本発明の第２の要旨によれば、音声ピッチ
と口の形から判定することにより、より確実に不要な音
声や表情を除去できる。

【００７４】本発明の第３の要旨によれば、音声パワー
／ピッチと視線から判定することにより、不要な音声お
よび表情をより確実に抽出し、除去できる。

【００７５】本発明の第４の要旨によれば、音声パワー
／ピッチ、口の形及び視線から判定することにより、不
要な音声および表情をより確実に抽出し、除去できる。

【００７６】本発明の第５の要旨によれば、前記ピッチ
変化量が閾値より少ない平坦な区間が、所定の時間長連
続する音声区間を抽出することにより、不要語区間をよ
り的確に抽出することができる。

【００７７】本発明の第６の要旨によれば、ピッチの変
化率により抽出された音声区間において、その区間に長
母音特徴データを含む場合に、除去すべきデータとして
判定することにより、より確実に不要語区間を除去でき
る。前記第７、８の要旨によれば、所定の継続時間長を
超える無音区間を除去することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態にかかる音声再生装置
の概略するブロック図でである。

【図２】図１に示す音響処理部２０で処理する音声信号
の各種データの時間的変化を示す説明図である。

【図３】図１に示す音響処理部２０で処理する音声信号
の各種データの時間的変化を示す説明図である。

【図４】図１に示す短縮制御部３０Ａの処理におけるア
クセント格の説明図である。

【図５】図１に示す短縮制御部３０Ａの処理のフローチ
ャートである。

【図６】図１に示すピッチ判定手段３２の処理の説明図
である。

【図７】本発明の第２の実施形態にかかる音声再生装置
の概略するブロック図である。

【図８】本発明の第３の実施形態にかかる音声再生装置
の概略するブロック図である。

【図９】無音区間あるいは不要語音声区間に現れる顔画
像の口形の一例である。

【図１０】（ａ）は図８のピッチ判定手段３２で抽出さ
れる始点・終点フレームの一例を示す図であり、（ｂ）
は図８の口形判定手段３６で抽出される始点・終点フレ
ームの一例を示す図である。

【図１１】本発明の第４の実施形態を説明するためのブ
ロック図である。

【図１２】不要語音声区間に現れる顔画像の視線の一例
である。

【図１３】（ａ）は図１１に示すピッチ判定手段３２で
抽出される始点・終点フレームの一例を示し、（ｂ）は
図１１に示す口形判定手段３６で抽出される始点・終点
フレームの一例を示し、（ｃ）は図１１に示す視線判定
手段３８で抽出される始点・終点フレームの一例を示す
説明図である。

【図１４】（ａ）はピッチの傾きが平坦な音声部分を抽
出するメンバーシップ関数ｆｐ、（ｂ）はピッチ変化率
がしきい値Ｄ１より小さい区間（Ｅｐｉ（ｎ）−Ｓｐｉ
（ｎ））が、ある継続長をもつ部分を抽出するメンバー
シップ関数ｇｐである。

【図１５】（ａ）は口の動きの変化率が小さい顔画像部
分を抽出するメンバーシップ関数ｆｍ、（ｂ）は口の動
きの変化率がしきい値Ｄ２より小さい区間（Ｅｍｏ
（ｎ）−Ｓｍｏ（ｎ））が、ある継続長をもつ部分を抽
出するメンバーシップ関数ｇｍである。

【図１６】（ａ）は視線が中央を向いている場合からの
ずれが大きい顔画像部分を抽出する関数ｆｅ、（ｂ）は
そのずれがしきい値Ｄ３より大きい区間（Ｅｅｙ（ｎ）
−Ｓｅｙ（ｎ））が、ある継続長続く部分を抽出する関
数ｇｅである。

【符号の説明】

１０音声入力部１１画像入力部２０音響処理部２１無音区間処理部２２顔画像処理部３０Ａ、３０Ｂ、３０Ｃ、３０Ｄ短縮制御部３１ピッチ変化量抽出手段３２ピッチ判定手段３３除去処理手段３４長母音データベース３５口形変化量抽出手段３６口形判定手段３７統合判定手段３８視線判定手段４０音声出力部４１画像出力部

フロントページの続き (56)参考文献特開平７−261782（ＪＰ，Ａ) 特開平８−335091（ＪＰ，Ａ) 特開平１−255899（ＪＰ，Ａ) 特開平６−22266（ＪＰ，Ａ) 特開平９−198082（ＪＰ，Ａ) 特開平８−263258（ＪＰ，Ａ) 特開平６−43897（ＪＰ，Ａ) 特開平８−187368（ＪＰ，Ａ) 特開平４−93899（ＪＰ，Ａ) 特開平８−263092（ＪＰ，Ａ) 特開平10−190865（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 21/04

Claims

(57)【特許請求の範囲】

【請求項１】外部からの音声信号を入力する音声入力
部と、前記音声入力部に入力されてくるアナログの前記
音声信号をデジタルの音声データに変換する音響処理部
と、前記音声データ中から不要な音声データ区間を除去
した短縮データを作成する短縮制御部と、前記短縮デー
タを記録媒体に格納し、該記録媒体から該短縮データを
読み出し再生する出力部とを備えたデータ再生装置にお
いて、前記短縮制御部は、前記音声データの音声ピッチの変化量を抽出するピッチ
変化量抽出手段と、前記ピッチ変化量抽出手段で求められた前記音声ピッチ
変化量の度合いに基づき不要語区間を判定するピッチ判
定手段と、前記ピッチ判定手段で判定された前記不要語区間を前記
音声データから除去する除去処理手段とを有することを
特徴とするデータ再生装置。
【請求項２】外部からの音声信号とユーザの顔画像信
号を入力する入力部と、前記入力部に入力されるアナロ
グの前記音声信号をデジタルの音声データに変換する音
響処理部と、前記入力部に入力されるアナログの前記顔
画像信号をデジタルの画像データに変換する顔画像処理
部と、前記音声データと前記画像データから不要データ
を除去した短縮データを作成する短縮制御部と、前記短
縮データを記憶媒体に格納し、該記憶媒体から該短縮デ
ータを読み出し、再生する音声及び／又は顔画像データ
を出力する出力部とを備えたデータ再生装置において、前記短縮制御部は、前記音声データの音声ピッチの変化量を抽出するピッチ
変化量抽出手段と、前記ピッチ変化量抽出手段で求められた前記音声ピッチ
変化量の度合いに基づき前記音声データ中の不要語区間
を判定するピッチ判定手段と、前記画像データから口の形の変化の度合いである口形変
化量を抽出する口形変化量抽出手段と、前記口形変化量が所定の値を越えない区間が、所定の長
さ連続したときに、該区間を不要語区間と判断する口形
判定手段と、前記ピッチ判定手段で不要語区間と判定された区間と口
形判定手段で不要語区間と判定された区間に基づき、除
去すべき音声および画像データを抽出する統合判定手段
とを備えることを特徴とするデータ再生装置。
【請求項３】外部からの音声信号とユーザの顔画像信
号を入力する入力部と、前記入力部に入力されるアナロ
グの前記音声信号をデジタルの音声データに変換する音
響処理部と、前記入力部に入力されるアナログの前記顔
画像信号をデジタルの画像データに変換する顔画像処理
部と、前記音声データと前記画像データから不要データ
を除去した短縮データを作成する短縮制御部と、前記短
縮データを記憶媒体に格納し、該記憶媒体から該短縮デ
ータを読み出し、再生する音声及び／又は顔画像データ
を出力する出力部とを備えたデータ再生装置において、前記短縮制御部は、前記音声データの音声ピッチの変化量を抽出するピッチ
変化量抽出手段と、前記ピッチ変化量抽出手段で求められた前記音声ピッチ
変化量の度合いに基づき前記音声データ中の不要語区間
を判定するピッチ判定手段と、前記画像データ中におけるユーザの視線方向と、該視線
方向の継続時間に基づいて不要語区間を抽出する視線判
定手段と、前記ピッチ判定手段で不要語区間と判定された区間と視
線判定手段で不要語区間と判定された区間に基づき、除
去すべき音声および画像データを抽出する統合判定手段
とを備えることを特徴とするデータ再生装置。
【請求項４】外部からの音声信号とユーザの顔画像信
号を入力する入力部と、前記入力部に入力されるアナロ
グの前記音声信号をデジタルの音声データに変換する音
響処理部と、前記入力部に入力されるアナログの前記顔
画像信号をデジタルの画像データに変換する顔画像処理
部と、前記音声データと前記画像データから不要データ
を除去した短縮データを作成する短縮制御部と、前記短
縮データを記憶媒体に格納し、該記憶媒体から該短縮デ
ータを読み出し、再生する音声及び／又は顔画像データ
を出力する出力部とを備えたデータ再生装置において、前記短縮制御部は、前記音声データの音声ピッチの変化量を抽出するピッチ
変化量抽出手段と、前記ピッチ変化量抽出手段で求められた前記音声ピッチ
変化量の度合いに基づき前記音声データ中の不要語区間
を判定するピッチ判定手段と、前記画像データから口の形の変化の度合いである口形変
化量を抽出する口形変化量抽出手段と、前記口形変化量が所定の値を越えない区間が、所定の長
さ連続したときに、該区間を第１の不要語区間と判断す
る口形判定手段と、前記画像データ中におけるユーザの視線方向と、該視線
方向の継続時間に基づいて第２の不要語区間を抽出する
視線判定手段と、前記ピッチ判定手段、口形判定手段、及び視線判定手段
で不要語区間と判定された区間に基づいて、除去すべき
音声および画像データを抽出する統合判定手段とを備え
ることを特徴とするデータ再生装置。
【請求項５】前記ピッチ判定手段は、前記音声ピッチ
変化量が閾値より少ない平坦な区間が、所定時間以上連
続する音声区間を前記不要語区間と判定することを特徴
とする請求項１から４のいずれか１の請求項に記載のデ
ータ再生装置。
【請求項６】前記ピッチ判定手段は、長母音の特徴デ
ータを保存する長母音データベースを有し、前記音声ピ
ッチ変化量が閾値より少ない平坦な区間が、所定時間以
上連続する音声区間であって、該長母音特徴データを含
む場合には、前記不要語区間と判定することを特徴とす
る請求項１から４のいずれか１の請求項に記載のデータ
再生装置。
【請求項７】前記音響処理部で変換された前記音声デ
ータから所定閾値以下の音声パワーを持つ無音音声デー
タ区間を除去する無音区間処理部を有し、前記短縮制御部は、前記無音音声データ区間を除去した
前記音声データ中から前記不要語区間を除去することで
前記短縮データを作成することを特徴とする請求項１に
記載のデータ再生装置。
【請求項８】前記音響処理部で変換された前記音声デ
ータから所定閾値以下の音声パワーを持つ無音音声デー
タ区間を除去する無音区間処理部を有し、前記短縮制御部は、前記無音音声データ区間を除去した
前記音声データと前記画像データから前記不要語区間を
除去することで前記短縮データを作成することを特徴と
する請求項２から４のいずれか１の請求項に記載のデー
タ再生装置。