JP2003099094A - 音声処理装置 - Google Patents

音声処理装置

Info

Publication number
JP2003099094A
JP2003099094A JP2001291164A JP2001291164A JP2003099094A JP 2003099094 A JP2003099094 A JP 2003099094A JP 2001291164 A JP2001291164 A JP 2001291164A JP 2001291164 A JP2001291164 A JP 2001291164A JP 2003099094 A JP2003099094 A JP 2003099094A
Authority
JP
Japan
Prior art keywords
voice
speaker
voice data
encoded
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001291164A
Other languages
English (en)
Other versions
JP3512398B2 (ja
Inventor
Kakuichi Shiomi
格一 塩見
Michiko Takaoka
美智子 高岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZIPS KK
Electronic Navigation Research Institute
Original Assignee
ZIPS KK
Electronic Navigation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZIPS KK, Electronic Navigation Research Institute filed Critical ZIPS KK
Priority to JP2001291164A priority Critical patent/JP3512398B2/ja
Publication of JP2003099094A publication Critical patent/JP2003099094A/ja
Application granted granted Critical
Publication of JP3512398B2 publication Critical patent/JP3512398B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】発話者の音声から雑音を除去し、発話者のみの
音声データを取得する音声処理装置を提供することを目
的とする。 【解決手段】発話者の音声を音声データとして取得する
音声取得手段と、取得した音声データに基づいてカオス
解析を行いリアプノフ指数を算出し、算出したリアプノ
フ指数を人間の取り得る範囲内のリアプノフ指数と比較
する比較演算手段と、比較演算手段に於いて比較の範囲
内の音声データのみを取得する対象音声取得手段と、対
象音声取得手段に於いて取得した音声データに基づいて
発話された言語の特定を行い、予め格納している発話者
の音声パターンとの類似度を比較することによって発話
者の特定を行う発話者特定手段とを有する音声処理装置
である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は雑音を除去し、発話
者のみの音声データを取得する音声処理装置に関する。
更に詳細には、発話された音声データから特定の発話者
の音声データを抽出し、出力する音声処理装置に関す
る。又、単に出力するのみならず、音声データ自体の特
徴と発話者の感情とを取得することによって、音声デー
タを圧縮し記録可能とすると共に、それらに基づいて合
成音声を作成し、再生することも可能とする音声処理装
置に関する。
【0002】
【従来の技術】テープレコーダ等には周囲の音声を録音
する為に、録音機能が付随している場合がある。この録
音機能は、その使用者自らがスイッチを操作することが
基本であるが、使用者の負担を軽減する、無駄な録音を
回避する等の為に、音声の強弱によって自動的にこのス
イッチのオン・オフを操作する所謂オート・ボイス・ス
タートと呼ばれる装置がある。
【0003】又、このオート・ボイス・スタートと同様
の機能として、マイクロフォン等を用いた無線通信等の
際に、発話者の音声を自動的に感知し、無線通信等のオ
ン・オフを操作するプレストーク装置と呼ばれる装置が
ある。
【0004】
【発明が解決しようとする課題】オート・ボイス・スタ
ート装置、プレストーク装置は、何れも音声の強弱によ
ってそのオン・オフを自動的に切り替えている。しか
し、これらの装置は音声の強弱のみによってオン・オフ
の切替を行っているので、例えば発話者の周囲で雑音が
発生しても、その雑音が大きい音であれば自動的に反応
をしてしまう問題点がある。即ち、発話者にとって必要
でない音であっても、音の大きさによって反応する可能
性がある。これを回避するには、反応の感度を下げる必
要がある。
【0005】逆に発話者の音声であっても、その発話音
声自体が小さい音であれば、これら装置を用いた場合で
は、装置が反応しない場合がある。これを回避するには
反応の感度を上げる必要がある。
【0006】従って、装置の使用者は必要である音のみ
を欲するのであるので、反応感度のバランスに常に気を
配っている必要性があるが、周囲の状況等に於いて雑音
レベルが変化するので、反応感度は変化させなければな
らない。
【0007】
【課題を解決するための手段】本発明者は上記問題点に
鑑み、上記装置のように単に音声の強弱のみによるので
はなく、当初は全ての音声を取得するが、その取得した
音声データからカオス解析を行うことによって、人間の
発する音声以外の音声(所謂雑音)を除去し、雑音を除
去した音声データから発話された言葉を特定し、それに
基づいて発話者を特定し、その特定した発話者の音声デ
ータのみを出力する音声処理装置を発明した。
【0008】又単に音声を処理するのみならず、音声デ
ータ自体の特徴と発話者の感情とを抽出し組み合わせる
ことによって、それらを音声データファイルとして圧縮
可能とし、記録、保存することも可能とした。
【0009】更に、圧縮した音声データファイル内の音
楽データ自体の特徴と発話者の感情とに基づいて、発話
者プロファイル(後述)を参照することによって、発話
者の発話時の感情をも交えて合成音声を作成し、再生す
ることも可能とした。
【0010】請求項1の発明は、発話者の音声を音声デ
ータとして取得する音声取得手段と、前記取得した音声
データに基づいてカオス解析を行いリアプノフ指数を算
出し、前記算出したリアプノフ指数を人間の取り得る範
囲内のリアプノフ指数と比較する比較演算手段と、前記
比較演算手段に於いて前記比較の範囲内の音声データの
みを取得する対象音声取得手段と、前記対象音声取得手
段に於いて取得した音声データに基づいて発話された言
語の特定を行い、予め格納している発話者の音声パター
ンとの類似度を比較することによって発話者の特定を行
う発話者特定手段とを有する音声処理装置である。
【0011】本発明によって、発話者の音声から雑音を
除去し、発話者の音声のみの音声データを取得すること
が可能となり、よりクリアな発話者の音声データを取得
することが可能となる。従って、従来のように発話者の
音声の大小に気を配る必要性もなくなる。
【0012】請求項2の発明は、前記発話者特定手段に
於いて特定した発話者の音声データを出力する出力手段
とを更に有する音声処理装置である。
【0013】本発明によって、請求項1に於いて取得し
た、発話者のクリアな音声データをスピーカ等の出力手
段を介して出力することが可能となる。
【0014】請求項3の発明は、前記対象音声取得手段
に於いて取得した音声データに基づいて、前記音声デー
タ自体の特徴を取得するミクロスコピック信号処理手段
と、前記比較演算手段に於いて算出したリアプノフ指数
と、前記発話者毎の感情毎にリアプノフ指数を予め算出
し記憶しているリアプノフ指数とを比較することによっ
て、前記発話者の感情状態を判定するマクロスコピック
信号処理手段と、前記発話者特定手段と前記ミクロスコ
ピック信号処理手段と前記マクロスコピック信号処理手
段とに於いて取得した情報を少なくとも一以上の符号化
音声データとして圧縮を行う音声情報圧縮手段とを有す
る音声処理装置である。
【0015】本発明によって、請求項1に於いて取得し
た音声データから、予め記憶している発話者の感情毎の
リアプノフ指数と比較することによって、発話者の感情
をも取得することが可能となる。又、音声データから音
声データ自体の特徴を取得し、発話者特定手段に於いて
取得した情報とも併せて、これらを少なくとも一以上の
符号化音声データとして圧縮することによって、符号化
音声データの記録、ネットワークを介した送信の際に
は、データ量を削減することが出来、処理効率を向上さ
せることが可能となる。このように本発明によって、従
来のように単なる音声の強弱によるオン・オフではな
く、音声情報圧縮装置としての機能をも同時に兼ね備え
ることが可能となる。ここで発話者の感情とは、例えば
喜んでいる状態、悲しみの状態、平静な状態、興奮して
いる状態、自信を喪失している状態、嘘をついている、
或いはつこうとしている状態等の発話者の精神状態を示
している。
【0016】請求項4の発明は、前記音声データ自体の
特徴として、前記音声データの波形に基づくピッチ周波
数の高低、振幅の大小、発話時間の長短の少なくとも一
以上を含む音声処理装置である。
【0017】本発明によって、請求項3に於いて圧縮さ
れた符号化音声データは、非可逆である為、符号化音声
データのみからマイクロフォン等の音声取得手段に入力
された音声に相似なる音声を再現することは出来ない
(即ち圧縮された符号化音声データのみからでは音声を
再生することが出来ない)。しかし、この符号化音声デ
ータに音声データ自体の特徴を付加することによって、
請求項8に於ける発話者プロファイルを用いて合成音声
を作成することが可能となる。従って、単に音声データ
を圧縮するのみならず、符号化音声データに音声データ
自体の特徴を付加して圧縮することによって、合成音声
の作成及び再生が可能となる。
【0018】請求項5の発明は、前記符号化音声データ
を符号化音声データファイルとして記録する記録手段を
更に有する音声処理装置である。
【0019】本発明によって、請求項3で圧縮した符号
化音声データを符号化音声データファイルとして記録
し、保存することが可能となる。
【0020】請求項6の発明は、前記符号化音声データ
には、前記発話者特定手段に於いて特定した発話者を識
別する発話者識別コードを含む音声処理装置である。
【0021】本発明によって、符号化音声データを発話
者毎に識別することが可能となり、データの管理、請求
項8に於ける発話者プロファイルの容易なる抽出等が可
能となる。
【0022】請求項7の発明は、前記符号化音声データ
をネットワークを介して送信する送信手段を更に有する
音声処理装置である。
【0023】本発明によって、符号化音声データをネッ
トワークを介して送信することを可能とする。
【0024】請求項8の発明は、前記音声処理装置は、
少なくとも前記発話者毎の音声データのフォルマントを
示す発話者プロファイルを有している発話者プロファイ
ルのファイルと、前記送信手段から送信された前記符号
化音声データをネットワークを介して受信する受信手段
と、前記符号化音声データの発話者識別コードに対応す
る発話者の発話者プロファイルを前記発話者プロファイ
ルのファイルから抽出し、前記符号化音声データと前記
抽出した発話者プロファイルとに基づいて音声波形を合
成し、合成音声を作成するプロファイル合成手段とを有
する音声処理装置である。
【0025】本発明によって、符号化音声データから合
成音声を作成し、再生することが可能となる。更に単に
再生するのみならず発話者の感情をも把握することが可
能となり、これらを踏まえた合成音声とすることも可能
となる。又ネットワークを介して符号化音声データを受
信することによって、遠隔地であっても発話者の符号化
音声データを取得可能となる。尚発話者プロファイルと
は、音声データの周波数等の帯域に応じた特徴であるフ
ォルマント等を示し、フォルマントとは人間の声の特徴
を決定づける要素であり、詳細は『音声学概説』(ピー
ター・ラディフォギッド著)に記載されている。
【0026】請求項9の発明は、前記プロファイル合成
手段に於いて作成した合成音声を再生する再生手段を有
する音声処理装置である。
【0027】本発明によって、請求項8に於いて作成し
た合成音声を、スピーカ等を介して再生することが可能
となる。
【0028】請求項10の発明は、前記受信した符号化
音声データを符号化音声データファイルとして記録する
音声情報記録手段を有し、前記プロファイル合成手段は
更に、前記符号化音声データファイルに於ける符号化音
声データの発話者識別コードに対応する発話者の発話者
プロファイルを前記発話者プロファイルのファイルから
抽出し、前記符号化音声データファイルに於ける符号化
音声データと前記抽出した発話者プロファイルとに基づ
いて音声波形を合成し、合成音声を作成する音声処理装
置である。
【0029】本発明によって、符号化音声データを符号
化音声データファイルとして記録し、保存することが可
能となる。従って、リアルタイムで合成音声を再生する
のみならず、後の段階に於いて、且つ複数回合成音声を
作成することも可能となる。
【0030】
【発明の実施の形態】本発明の実施態様のシステム構成
の一例を図1に示す。音声処理装置1は、音声取得手段
2と比較演算手段18と対象音声取得手段3と発話者特
定手段4と出力手段5とを有する。
【0031】音声取得手段2は、少なくとも一以上の発
話者の音声を音声データとして取得する公知の手段であ
って、マイクロフォン等を示す。
【0032】比較演算手段18は、音声取得手段2に於
いて取得した音声データに基づいて、カオス解析を行い
リアプノフ指数を算出し、算出したリアプノフ指数を人
間の取り得る範囲内のリアプノフ指数と比較する手段で
ある。
【0033】対象音声取得手段3は、比較演算手段18
に於いて比較した結果、前記範囲内の音声データのみを
時系列で取得する手段である。
【0034】発話者特定手段4は、対象音声取得手段3
に於いて取得した雑音を除去した音声データを、DPマ
ッチング法、SPLIT法、HMM法等の公知の音声認
識技術を用いることで発話された言葉を特定し、予め記
憶している発話者の音声パターンとの類似度を用いて正
規化し発話者の特定を行う手段である。
【0035】出力手段5は、発話者特定手段4に於いて
取得した発話者のみの音声データを出力する手段であ
る。
【0036】
【実施例】本発明のプロセスの流れの一例を図4のフロ
ーチャート図を用いて詳細に説明する。発話者がマイク
ロフォン等の音声取得手段2に対して発話を行うことに
よって、音声取得手段2が音声を音声データとして取得
する(S100)。
【0037】音声取得手段2に於いて取得した音声デー
タは、比較演算手段18に於いてカオス解析を行いリア
プノフ指数を算出し(S110)、算出したリアプノフ
指数を人間の取り得る範囲内のリアプノフ指数と比較す
る(S120)。S120の比較の結果、前記範囲内の
音声データのみを時系列で対象音声取得手段3が取得す
る。
【0038】S120の比較の結果取得した雑音を除去
した音声データを、発話者特定手段4がDPマッチング
法、SPLIT法、HMM法等の公知の音声認識技術を
用いることで発話された言葉を特定し、予め記憶してい
る発話者の音声パターンとの類似度を用いて正規化する
ことで発話者の特定を行う(S130)。
【0039】S130に於いて特定した発話者によっ
て、対象音声取得手段3に於いて取得した音声データか
ら、特定した発話者の有意の音声データのみを抽出し、
出力手段5から出力を行う(S140)。
【0040】これによって、無秩序に入力される音声デ
ータから特定の発話者の有意の音声データのみを抽出
し、且つ雑音が除去された状態で音声データの出力が可
能となる。
【0041】
【実施例2】次に実施例1の音声処理装置1を単に特定
の発話者の音声データの出力のみならず、音声記録装置
として用いた場合の音声処理装置1を説明する。この場
合のシステム構成の一例を図2に示す。尚、実施例1と
同一なものは簡略化の為、省略する。
【0042】音声処理装置1は、音声取得手段2と比較
演算手段18と対象音声取得手段3と発話者特定手段4
とミクロスコピック信号処理手段6とマクロスコピック
信号処理手段7と音声情報圧縮手段8と記録手段9とを
有している。
【0043】ミクロスコピック信号処理手段6は、対象
音声取得手段3に於いて取得した発話者の音声データの
波形に基づいて、ピッチ周波数の高低、振幅の大小、発
話時間の長短のミクロスコピック情報を取得する手段で
ある。図9に音声データから振幅、発話時間を取得する
概念図を示す。
【0044】マクロスコピック信号処理手段7は、比較
演算手段18に於いて算出したリアプノフ指数に基づい
て、発話者の感情を判定する手段である。これは、予め
発話者毎の感情毎にリアプノフ指数を算出しこれをマク
ロスコピック信号処理手段7に記憶させておくことによ
って比較し判定する。
【0045】音声情報圧縮手段8は、発話者特定手段
4、ミクロスコピック信号処理手段6、マクロスコピッ
ク信号処理手段7に於いて取得した情報を、少なくとも
一以上の符号化音声データとして取得し圧縮を行う手段
である。図8に符号化音声データの概念図の一例を示
す。発話者特定手段4に於いて特定した発話者は、それ
を識別する発話者識別コードとして符号化音声データに
記載される。尚、本実施態様に於いては一の符号化音声
データとする場合を説明するが、複数のデータに分散し
ても良い。
【0046】記録手段9は、音声情報圧縮手段8に於い
て取得した符号化音声データを符号化音声データファイ
ル10として記録する手段である。
【0047】次に音声記録装置として用いた場合のプロ
セスの流れの一例を図5のフローチャート図に示す。
尚、S200からS230までは実施例1と同一なので
省略する。
【0048】ミクロスコピック信号処理手段6が、対象
音声取得手段3に於いて取得した発話者の音声データの
波形に基づいて、ピッチ周波数の高低、振幅の大小、発
話時間の長短のミクロスコピック情報を取得する(S2
40)。音声データから振幅、発話時間を取得する概念
図を図9に示す。
【0049】マクロスコピック信号処理手段7は、予め
発話者毎の感情毎のリアプノフ指数を算出しこのリアプ
ノフ指数と、比較演算手段18に於いて取得し算出した
リアプノフ指数とを比較することによって、発話者の感
情等を判定する(S250)。
【0050】S230からS250に於いて発話者特定
手段4、ミクロスコピック信号処理手段6、マクロスコ
ピック信号処理手段7が取得した情報を、音声情報圧縮
手段8が一つの符号化音声データとして圧縮する(S2
60)。符号化音声データの一例を図8に示す。
【0051】音声情報圧縮手段8に於いて圧縮した符号
化音声データを、記録手段9が符号化音声データファイ
ル10として記録し、保存する(S270)。
【0052】このようなプロセスを実行することによっ
て、単に有意の音声データを出力するのみならず、発話
者の感情等を取得し且つ音声データを圧縮した状態で符
号化音声データファイル10として記録することが可能
となる。
【0053】
【実施例3】次に実施例1及び実施例2の音声処理装置
1を単に特定の発話者の音声データの出力、記録のみな
らず、ネットワーク17を介して再生する場合の音声処
理装置1を説明する。この場合のシステム構成の一例を
図3に示す。尚、実施例1及び実施例2と同一なものは
簡略化の為、省略する。
【0054】音声処理装置1は、音声取得手段2、比較
演算手段18、対象音声取得手段3、発話者特定手段
4、ミクロスコピック信号処理手段6、マクロスコピッ
ク信号処理手段7、音声情報圧縮手段8、送信手段1
1、受信手段12、音声情報記録手段13、プロファイ
ル合成手段14、再生手段15、発話者プロファイルの
ファイル16とを有している。
【0055】送信手段11は、音声情報圧縮手段8に於
いて圧縮した符号化音声データをネットワーク17を介
して送信する手段である。
【0056】受信手段12は、送信手段11から送信さ
れた符号化音声データをネットワーク17を介して受信
する手段である。
【0057】音声情報記録手段13は、受信手段12に
於いて受信した符号化音声データを符号化音声データフ
ァイル10として記録する手段である。
【0058】プロファイル合成手段14は、発話者プロ
ファイルのファイル16を抽出し、受信手段12に於い
て受信した符号化音声データ又は符号化音声データファ
イル10のミクロスコピック情報と発話者プロファイル
とに基づいて音声波形を合成し、合成音声を作成する手
段である。発話者プロファイルとは、音声の周波数等の
帯域に応じた特徴であるフォルマント等を示す。
【0059】再生手段15は、プロファイル合成手段1
4に於いて作成した合成音声を再生する手段であって、
スピーカ等の公知の音声再生装置を示す。
【0060】発話者プロファイルのファイル16は、発
話者を識別する発話者識別コードと発話者毎の発話者プ
ロファイルとを対応づけて格納しているファイルであ
る。
【0061】次にネットワーク17等を介して再生する
場合の音声処理装置1のプロセスの流れの一例を図6及
び図7のフローチャート図に示す。尚、S300からS
360までは実施例2と同一なので省略する。
【0062】音声情報圧縮手段8に於いて圧縮された符
号化音声データを、送信手段11がネットワーク17を
介して送信する(S370)。S370に於いて送信し
た符号化音声データは、受信手段12が受信する(S4
00)。
【0063】受信手段12に於いて受信した符号化音声
データを、音声情報記録手段13が符号化音声データフ
ァイル10として記録し、保存を行う(S410)。S
400で受信手段12に於いて受信した符号化音声デー
タ又は符号化音声データファイル10から発話者識別コ
ードを参照することによって、該当する発話者の発話者
プロファイルのファイル16が存在しているか否かをプ
ロファイル合成手段14が判断する(S420)。
【0064】S420に於いて存在していなければその
符号化音声データは合成することが出来ないので、全て
のプロセスを終了し、発話者プロファイルのファイル1
6が存在しているならば、発話者識別コードに基づい
て、該当する発話者の発話者プロファイルを抽出する
(S430)。
【0065】プロファイル合成手段14は、受信手段1
2に於いて受信した符号化音声データ又は符号化音声デ
ータファイル10のミクロスコピック情報と発話者プロ
ファイルとに基づいて音声波形を合成し、合成音声を作
成する(S440)。
【0066】S440に於いて作成した合成音声は、再
生手段15が再生し音声として出力する(S450)。
【0067】このプロセスの流れによって、当初音声取
得手段2に於いて取得した音声から、単に特定の発話者
のみの合成音声を作成し再生するのみならず、その発話
者の感情に最も近い状態として再生することが可能とな
る。更に、雑音も除去されているのでよりクリアな音声
の再生が可能となる。
【0068】本発明に於ける各手段は、その機能が論理
的に区別されているのみであって、物理上あるいは事実
上は同一の領域を為していても良い。
【0069】
【発明の効果】本発明によって、発話者の音声から雑音
を除去し、発話者の音声のみの音声データと取得するこ
とが可能となる。又取得した音声データからリアプノフ
指数を算出することによって、発話者の感情を反映した
音声データとすることが可能となり、更に音声データ自
体の特徴を取得し、これらを符号化音声データとして圧
縮することによって、音声データのデータ量を削減する
ことが可能となる。
【0070】一方で圧縮することによって非可逆なデー
タとなるので音声データとして再生することが出来ない
が、符号化音声データに音声データ自体の特徴を含ませ
圧縮することによって、発話者プロファイルを用いるこ
とによって合成音声を作成することが可能となり、発話
者の音声として再生することも可能となる。
【図面の簡単な説明】
【図1】 基本的なシステム構成の一例を示すシステム
構成図である。
【図2】 音声記録装置として用いた場合のシステム構
成の一例を示すシステム構成図である。
【図3】 ネットワークを介した場合のシステム構成の
一例を示すシステム構成図である。
【図4】 基本的なプロセスの流れの一例を示すフロー
チャート図である。
【図5】 音声記録装置として用いた場合のプロセスの
流れの一例を示すフローチャート図である。
【図6】 ネットワークを介した場合の送信側のプロセ
スの流れの一例を示すフローチャート図である。
【図7】 ネットワークを介した場合の受信側のプロセ
スの流れの一例を示すフローチャート図である。
【図8】 符号化音声データの概念図である。
【図9】 音声データから振幅、発話時間を取得する概
念図である。
【符号の説明】
1:音声処理装置 2:音声取得手段 3:対象音声取得手段 4:発話者特定手段 5:出力手段 6:ミクロスコピック信号処理手段 7:マクロスコピック信号処理手段 8:音声情報圧縮手段 9:記録手段 10:符号化音声データファイル 11:送信手段 12:受信手段 13:音声情報記録手段 14:プロファイル合成手段 15:再生手段 16:発話者プロファイルのファイル 17:ネットワーク 18:比較演算手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/20 G10L 3/00 541 15/28 531N 21/02 (72)発明者 塩見 格一 東京都調布市深大寺東町7丁目42番地23 独立行政法人電子航法研究所内 (72)発明者 高岡 美智子 東京都大田区西糀谷3−1−10 Fターム(参考) 5D015 AA05 EE05 KK04 LL12 5D045 AB30

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】発話者の音声を音声データとして取得する
    音声取得手段と、前記取得した音声データに基づいてカ
    オス解析を行いリアプノフ指数を算出し、前記算出した
    リアプノフ指数を人間の取り得る範囲内のリアプノフ指
    数と比較する比較演算手段と、前記比較演算手段に於い
    て前記比較の範囲内の音声データのみを取得する対象音
    声取得手段と、前記対象音声取得手段に於いて取得した
    音声データに基づいて発話された言語の特定を行い、予
    め格納している発話者の音声パターンとの類似度を比較
    することによって発話者の特定を行う発話者特定手段と
    を有することを特徴とする音声処理装置。
  2. 【請求項2】前記発話者特定手段に於いて特定した発話
    者の音声データを出力する出力手段とを更に有すること
    を特徴とする請求項1に記載の音声処理装置。
  3. 【請求項3】前記対象音声取得手段に於いて取得した音
    声データに基づいて、前記音声データ自体の特徴を取得
    するミクロスコピック信号処理手段と、前記比較演算手
    段に於いて算出したリアプノフ指数と、前記発話者毎の
    感情毎にリアプノフ指数を予め算出し記憶しているリア
    プノフ指数とを比較することによって、前記発話者の感
    情状態を判定するマクロスコピック信号処理手段と、前
    記発話者特定手段と前記ミクロスコピック信号処理手段
    と前記マクロスコピック信号処理手段とに於いて取得し
    た情報を少なくとも一以上の符号化音声データとして圧
    縮を行う音声情報圧縮手段とを有することを特徴とする
    請求項1に記載の音声処理装置。
  4. 【請求項4】前記音声データ自体の特徴として、前記音
    声データの波形に基づくピッチ周波数の高低、振幅の大
    小、発話時間の長短の少なくとも一以上を含むことを特
    徴とする請求項3に記載の音声処理装置。
  5. 【請求項5】前記符号化音声データを符号化音声データ
    ファイルとして記録する記録手段を更に有することを特
    徴とする請求項3に記載の音声処理装置。
  6. 【請求項6】前記符号化音声データには、前記発話者特
    定手段に於いて特定した発話者を識別する発話者識別コ
    ードを含むことを特徴とする請求項3又は請求項4に記
    載の音声処理装置。
  7. 【請求項7】前記符号化音声データをネットワークを介
    して送信する送信手段を更に有することを特徴とする請
    求項3から請求項6のいずれかに記載の音声処理装置。
  8. 【請求項8】前記音声処理装置は、少なくとも前記発話
    者毎の音声データのフォルマントを示す発話者プロファ
    イルを有している発話者プロファイルのファイルと、前
    記送信手段から送信された前記符号化音声データをネッ
    トワークを介して受信する受信手段と、前記符号化音声
    データの発話者識別コードに対応する発話者の発話者プ
    ロファイルを前記発話者プロファイルのファイルから抽
    出し、前記符号化音声データと前記抽出した発話者プロ
    ファイルとに基づいて音声波形を合成し、合成音声を作
    成するプロファイル合成手段とを有することを特徴とす
    る請求項3から請求項7のいずれかに記載の音声処理装
    置。
  9. 【請求項9】前記プロファイル合成手段に於いて作成し
    た合成音声を再生する再生手段を有することを特徴とす
    る請求項8に記載の音声処理装置。
  10. 【請求項10】前記受信した符号化音声データを符号化
    音声データファイルとして記録する音声情報記録手段を
    有し、前記プロファイル合成手段は更に、前記符号化音
    声データファイルに於ける符号化音声データの発話者識
    別コードに対応する発話者の発話者プロファイルを前記
    発話者プロファイルのファイルから抽出し、前記符号化
    音声データファイルに於ける符号化音声データと前記抽
    出した発話者プロファイルとに基づいて音声波形を合成
    し、合成音声を作成することを特徴とする請求項8又は
    請求項9に記載の音声処理装置。
JP2001291164A 2001-09-25 2001-09-25 音声処理装置 Expired - Fee Related JP3512398B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001291164A JP3512398B2 (ja) 2001-09-25 2001-09-25 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001291164A JP3512398B2 (ja) 2001-09-25 2001-09-25 音声処理装置

Publications (2)

Publication Number Publication Date
JP2003099094A true JP2003099094A (ja) 2003-04-04
JP3512398B2 JP3512398B2 (ja) 2004-03-29

Family

ID=19113356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001291164A Expired - Fee Related JP3512398B2 (ja) 2001-09-25 2001-09-25 音声処理装置

Country Status (1)

Country Link
JP (1) JP3512398B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008102538A (ja) * 2007-11-09 2008-05-01 Sony Corp 記憶再生装置及び記憶再生装置の制御方法
JP2013022180A (ja) * 2011-07-20 2013-02-04 Electronic Navigation Research Institute 自律神経の状態評価システム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2004318986B2 (en) * 2004-04-28 2011-03-17 Electronic Navigation Research Institute, An Independent Administrative Institution Cerebrum evaluation device
CN103971696A (zh) * 2013-01-30 2014-08-06 华为终端有限公司 语音处理方法、装置及终端设备
CN104434530A (zh) * 2014-12-30 2015-03-25 汤臣倍健股份有限公司 一种软胶囊制作方法及软胶囊压丸机

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3341801B2 (ja) 1995-04-24 2002-11-05 日本電信電話株式会社 適応的セグメンテーションを利用した準定常時系列の相関次元分析装置並びにリアプノフスペクトル分析装置
JP3151489B2 (ja) 1998-10-05 2001-04-03 運輸省船舶技術研究所長 音声による疲労・居眠り検知装置及び記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008102538A (ja) * 2007-11-09 2008-05-01 Sony Corp 記憶再生装置及び記憶再生装置の制御方法
JP2013022180A (ja) * 2011-07-20 2013-02-04 Electronic Navigation Research Institute 自律神経の状態評価システム

Also Published As

Publication number Publication date
JP3512398B2 (ja) 2004-03-29

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
JPH02242298A (ja) 声門波形に基づく話者識別装置
CN1148230A (zh) 卡拉ok计分的方法和系统
JP2004523788A (ja) 音声認識モデルの効率的な記憶のためのシステムおよび方法
US5828993A (en) Apparatus and method of coding and decoding vocal sound data based on phoneme
CN113921026A (zh) 语音增强方法和装置
JP3512398B2 (ja) 音声処理装置
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
WO2012001730A1 (ja) 音声認識装置
JP2002236494A (ja) 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP3354252B2 (ja) 音声認識装置
KR100330905B1 (ko) 음향 또는 음성의 패턴 인식을 이용한 완구의 동작 제어 방법
JP2002297199A (ja) 合成音声判別方法と装置及び音声合成装置
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP3223552B2 (ja) メッセージ出力装置
JP3513030B2 (ja) データ再生装置
JP4603727B2 (ja) 音響信号分析方法及び装置
JPH04324499A (ja) 音声認識装置
JP4146949B2 (ja) 音声処理装置
JPH10133678A (ja) 音声再生装置
JPH09146587A (ja) 話速変換装置
WO2002005433A1 (en) A method, a device and a system for compressing a musical and voice signal
JP2880508B2 (ja) 音声の規則合成装置
JP3341348B2 (ja) 情報検出再生装置及び情報記録装置
JP2555029B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040106

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees