JP6003352B2 - データ生成装置、及びデータ生成方法 - Google Patents
データ生成装置、及びデータ生成方法 Download PDFInfo
- Publication number
- JP6003352B2 JP6003352B2 JP2012168473A JP2012168473A JP6003352B2 JP 6003352 B2 JP6003352 B2 JP 6003352B2 JP 2012168473 A JP2012168473 A JP 2012168473A JP 2012168473 A JP2012168473 A JP 2012168473A JP 6003352 B2 JP6003352 B2 JP 6003352B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- voice
- classification
- data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明のデータ生成装置は、パラメータ取得手段と、分類手段と、タグ取得手段と、代表推定手段と、パラメータ決定手段と、データ生成手段とを備えている。
このような音声感情データを用いて音声パラメータを調整して音声合成すれば、音声パラメータとして基準パラメータのみが存在する状況下であっても、音声合成により、感情を付与した合成音を生成できる。
本発明がデータ生成方法としてなされている場合、本発明のデータ生成方法では、第一記憶装置から、音声データそれぞれに含まれる音声パラメータを取得するパラメータ取得手順と、その取得した音声パラメータの群を音声パラメータの分布に基づいて、少なくとも2つのグループに分類する分類手順とを有している必要がある。さらに、データ生成方法では、分類クラスタのそれぞれに含まれる音声パラメータと対応付けられたタグデータのそれぞれを、第一記憶装置から分類クラスタごとに取得するタグ取得手順と、その取得したタグデータに基づいて、分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、分類クラスタごとに少なくとも一つ推定する代表推定手順とを有している必要がある。
データ生方法において、パラメータ決定手順は、前記分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、前記分類クラスタごとに導出する平均手順と、前記平均手順にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を前記代表パラメータとして、前記分類クラスタごとに導出する差分導出手順とを備えることが好ましい。
また、差分導出手順は、前記感情が自然体であることを表す前記タグデータと対応付けられた前記音声パラメータのそれぞれを、前記第一記憶装置から抽出する抽出手順と、前記抽出手順で抽出した前記音声パラメータの平均を、前記基準パラメータとして導出する基準導出手順とを備えることが好ましい。
〈音声合成システム〉
図1に示すように、音声合成システム1は、当該音声合成システム1の利用者が指定した内容の音声が出力されるように、予め登録された音声パラメータPVに基づいて音声合成した音声(即ち、合成音)を出力するシステムである。この音声合成システム1による音声合成では、詳しくは後述する音声感情データETに基づいて、合成音に対して、利用者によって指定された感情を含む音の性質を付加することがなされる。
〈音声入力装置〉
音声入力装置10は、通信部11と、入力受付部12と、表示部13と、音声入力部14と、音声出力部15と、記憶部17と、制御部20とを備えている。音声入力装置10は、例えば、周知のカラオケ装置として構成されていても良いし、その他の装置として構成されていても良い。
入力受付部12は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。この入力機器には、例えば、キーやスイッチ、リモコンの受付部を含む。
また、制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM21と、処理プログラムやデータを一時的に格納するRAM22と、ROM21やRAM22に記憶された処理プログラムに従って各処理(各種演算)を実行するCPU23とを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声格納サーバ〉
音声格納サーバ25は、記憶内容を読み書き可能に構成された不揮発性の記憶装置を中心に構成された装置である。この音声格納サーバ25は、通信網を介して、音声入力装置10、情報処理装置30、データ格納サーバ50に接続されている。
〈情報処理装置〉
この情報処理装置30は、通信部31と、入力受付部32と、表示部33と、記憶部34と、制御部40とを備えている。
そして、情報処理装置30のROM41には、音声格納サーバ25に格納されている音声データSD群に基づいて、少なくとも2つ以上の音声感情データETを生成する音声感情データ生成処理を制御部40が実行するための処理プログラムが記憶されている。
なお、データ格納サーバ50は、記憶内容を読み書き可能に構成された不揮発性の記憶装置を中心に構成された装置であり、通信網を介して少なくとも情報処理装置30に接続されている。
〈音声感情データ生成処理〉
音声感情データ生成処理は、図2に示すように、起動されると、音声格納サーバ25に格納されている全ての音声パラメータPVを取得する(S110)。
S130では、さらに、分類クラスタCLごとに、当該分類クラスタCLに含まれる音声パラメータPVそれぞれに、識別符号Nk,jを付して記憶する。ただし、符号jは、分類クラスタCLkに含まれる音声パラメータPVのインデックスである。
さらに、ここで言うピークとは、それぞれの分布における極大値である。そして、ピークの数は、距離EDiまたは角度ANGiの分布によって表される曲線を微分した結果に従って、ゼロクロスの回数をカウントすることで求めれば良い。
〈音声出力端末〉
この音声出力端末60は、図1に示すように、情報受付部61と、表示部62と、音出力部63と、通信部64と、記憶部65と、制御部67とを備えている。音声出力端末60は、例えば、周知の携帯端末や、周知の情報処理装置として構成されていても良い。ここで言う携帯端末には、携帯電話や携帯情報端末を含む。また、情報処理装置には、いわゆるパーソナルコンピュータを含む。
〈音声合成処理〉
次に、音声出力端末60の制御部67が実行する音声合成処理について説明する。
図5に示すように、音声合成処理は、起動されると、まず、情報受付部61を介して入力された情報(以下、入力情報と称す)を取得する(S510)。このS510にて取得する入力情報とは、例えば、合成音として出力する音声の内容(文言)を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、出力性質情報は、タグデータTGに対応する情報であり、発声者特徴情報と、感情情報とを含む。
その後、本音声合成処理を終了する。
[実施形態の効果]
以上説明したように、情報処理装置30によれば、ある程度の数の音声パラメータPVを統計処理することにより、表情空間領域(クラスタCL)を推定している。このため、音声合成システム1によれば、発声者ごとにすべての感情の音声パラメータPVを用意する必要がない。
換言すれば、上記実施形態の情報処理装置30によれば、音声合成の際に、合成音による感情表現を多様化しつつも、指定された感情の内容を含むデータを抽出するまでに要する処理量の増加を抑制できる。
このため、上記実施形態の音声合成処理によれば、音声合成の際に音声パラメータPVを調整する調整量を微調整することができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
さらには、S130にて実行するクラスタリングは、k−meansに限るものではなく、その他の周知のクラスタリング手法を用いても良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
なお、上記実施形態の音声感情データ生成処理におけるS160が、本発明における平均手段に相当し、S190が、本発明における差分導出手段に相当する。さらに、音声感情データ生成処理におけるS170が、抽出手段に相当し、S180が基準導出手段に相当する。
Claims (2)
- 人が発した音の波形を表す少なくとも一つの特徴量である音声パラメータと、当該音声パラメータによって表される音を発した人の感情を含む情報であるタグデータとを、前記人ごとに対応付けた音声データを、少なくとも2つ記憶する第一記憶装置から、前記音声データそれぞれに含まれる前記音声パラメータを取得するパラメータ取得手段と、
前記パラメータ取得手段にて取得した音声パラメータの群を、前記音声パラメータの分布に基づいて、少なくとも2つのグループに分類する分類手段と、
前記分類手段にて分類されたグループのそれぞれを分類クラスタとし、前記分類クラスタのそれぞれに含まれる音声パラメータと対応付けられた前記タグデータのそれぞれを、前記第一記憶装置から前記分類クラスタごとに取得するタグ取得手段と、
前記タグ取得手段にて取得したタグデータに基づいて、前記分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、前記分類クラスタごとに少なくとも一つ推定する代表推定手段と、
前記分類手段にて分類された各分類クラスタに含まれる音声パラメータに基づいて、当該分類クラスタを代表して表す前記音声パラメータである代表パラメータを、前記分類クラスタごとに決定するパラメータ決定手段と、
前記パラメータ決定手段にて決定された代表パラメータと、前記代表推定手段にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを生成して、第二記憶装置に記憶するデータ生成手段と
を備え、
前記パラメータ決定手段は、
前記分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、前記分類クラスタごとに導出する平均手段と、
前記平均手段にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を前記代表パラメータとして、前記分類クラスタごとに導出する差分導出手段と
を備え、
前記差分導出手段は、
前記感情が自然体であることを表す前記タグデータと対応付けられた前記音声パラメータのそれぞれを、前記第一記憶装置から抽出する抽出手段と、
前記抽出手段で抽出した前記音声パラメータの平均を、前記基準パラメータとして導出する基準導出手段と
を備えることを特徴とするデータ生成装置。 - 人が発した音の波形を表す少なくとも一つの特徴量である音声パラメータと、当該音声パラメータによって表される音を発した人の感情を含む情報であるタグデータとを、前記人ごとに対応付けた音声データを、少なくとも2つ記憶する第一記憶装置から、前記音声データそれぞれに含まれる前記音声パラメータを取得するパラメータ取得手順と、
前記パラメータ取得手順にて取得した音声パラメータの群を、前記音声パラメータの分布に基づいて、少なくとも2つのグループに分類する分類手順と、
前記分類手順にて分類されたグループのそれぞれを分類クラスタとし、前記分類クラスタのそれぞれに含まれる音声パラメータと対応付けられた前記タグデータのそれぞれを、前記第一記憶装置から前記分類クラスタごとに取得するタグ取得手順と、
前記タグ取得手順にて取得したタグデータに基づいて、前記分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、前記分類クラスタごとに少なくとも一つ推定する代表推定手順と、
前記分類手順にて分類された各分類クラスタに含まれる音声パラメータに基づいて、当
該分類クラスタを代表して表す前記音声パラメータである代表パラメータを、前記分類クラスタごとに決定するパラメータ決定手順と、
前記パラメータ決定手順にて決定された代表パラメータと、前記代表推定手順にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを生成して、第二記憶装置に記憶するデータ生成手順と
を備え、
前記パラメータ決定手順は、
前記分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、前記分類クラスタごとに導出する平均手順と、
前記平均手順にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を前記代表パラメータとして、前記分類クラスタごとに導出する差分導出手順と
を備え、
前記差分導出手順は、
前記感情が自然体であることを表す前記タグデータと対応付けられた前記音声パラメータのそれぞれを、前記第一記憶装置から抽出する抽出手順と、
前記抽出手順で抽出した前記音声パラメータの平均を、前記基準パラメータとして導出する基準導出手順と
を備えることを特徴とするデータ生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012168473A JP6003352B2 (ja) | 2012-07-30 | 2012-07-30 | データ生成装置、及びデータ生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012168473A JP6003352B2 (ja) | 2012-07-30 | 2012-07-30 | データ生成装置、及びデータ生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014026222A JP2014026222A (ja) | 2014-02-06 |
JP6003352B2 true JP6003352B2 (ja) | 2016-10-05 |
Family
ID=50199878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012168473A Active JP6003352B2 (ja) | 2012-07-30 | 2012-07-30 | データ生成装置、及びデータ生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6003352B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107195312A (zh) * | 2017-05-05 | 2017-09-22 | 深圳信息职业技术学院 | 情绪宣泄模式的确定方法、装置、终端设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6260499B2 (ja) * | 2014-08-29 | 2018-01-17 | ブラザー工業株式会社 | 音声合成システム、及び音声合成装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004117662A (ja) * | 2002-09-25 | 2004-04-15 | Matsushita Electric Ind Co Ltd | 音声合成システム |
JP2006184921A (ja) * | 2006-01-27 | 2006-07-13 | Canon Electronics Inc | 情報処理装置及び方法 |
JP4246790B2 (ja) * | 2006-06-05 | 2009-04-02 | パナソニック株式会社 | 音声合成装置 |
JPWO2009125710A1 (ja) * | 2008-04-08 | 2011-08-04 | 株式会社エヌ・ティ・ティ・ドコモ | メディア処理サーバ装置およびメディア処理方法 |
-
2012
- 2012-07-30 JP JP2012168473A patent/JP6003352B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107195312A (zh) * | 2017-05-05 | 2017-09-22 | 深圳信息职业技术学院 | 情绪宣泄模式的确定方法、装置、终端设备和存储介质 |
CN107195312B (zh) * | 2017-05-05 | 2020-03-27 | 深圳信息职业技术学院 | 情绪宣泄模式的确定方法、装置、终端设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2014026222A (ja) | 2014-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
US10339290B2 (en) | Spoken pass-phrase suitability determination | |
CN107369440B (zh) | 一种针对短语音的说话人识别模型的训练方法及装置 | |
US20180349495A1 (en) | Audio data processing method and apparatus, and computer storage medium | |
Patel et al. | Speech recognition and verification using MFCC & VQ | |
CN112133277B (zh) | 样本生成方法及装置 | |
JP5017534B2 (ja) | 飲酒状態判定装置及び飲酒状態判定方法 | |
US20190279644A1 (en) | Speech processing device, speech processing method, and recording medium | |
CN112992109B (zh) | 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体 | |
TW200421262A (en) | Speech model training method applied in speech recognition | |
US20070129946A1 (en) | High quality speech reconstruction for a dialog method and system | |
JP6003352B2 (ja) | データ生成装置、及びデータ生成方法 | |
Wang et al. | I-vector based speaker gender recognition | |
CN109272996A (zh) | 一种降噪方法及系统 | |
CN116129852A (zh) | 语音合成模型的训练方法、语音合成方法及相关设备 | |
Abushariah et al. | Voice based automatic person identification system using vector quantization | |
CN109087651B (zh) | 一种基于视频与语谱图的声纹鉴定方法、系统及设备 | |
JP5949634B2 (ja) | 音声合成システム、及び音声合成方法 | |
CN113658599A (zh) | 基于语音识别的会议记录生成方法、装置、设备及介质 | |
CN111724764A (zh) | 一种合成音乐的方法和装置 | |
CN114464151B (zh) | 修音方法及装置 | |
CN112951208B (zh) | 语音识别的方法和装置 | |
JP5954221B2 (ja) | 音源特定システム、及び音源特定方法 | |
Yang et al. | Speaker recognition based on weighted mel-cepstrum | |
GORAI et al. | A GAUSSIAN MIXTURE MODELBASED SPEAKER RECOGNITION SYSTEM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6003352 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |