JP2002366185A - 音素ジャンル分けシステム - Google Patents

音素ジャンル分けシステム

Info

Publication number
JP2002366185A
JP2002366185A JP2001173692A JP2001173692A JP2002366185A JP 2002366185 A JP2002366185 A JP 2002366185A JP 2001173692 A JP2001173692 A JP 2001173692A JP 2001173692 A JP2001173692 A JP 2001173692A JP 2002366185 A JP2002366185 A JP 2002366185A
Authority
JP
Japan
Prior art keywords
phoneme
phonemes
voice
genre classification
classification system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001173692A
Other languages
English (en)
Inventor
Kazunori Hayashi
和典 林
Masaru Mase
優 間瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001173692A priority Critical patent/JP2002366185A/ja
Publication of JP2002366185A publication Critical patent/JP2002366185A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声合成,供給システムでは、たとえ多数の
音素がデータベースとして用意されていても、その時々
の用途に適するものを探し出す手段が無いと、ユーザに
とっては音素の選択に手間が掛かった。従って音素を利
用した様々なビジネスの発展が妨げられる可能性があっ
た。 【解決手段】 音素の著作権所有者を登録する著作権者
登録手段と音素取り込み手段から生成される音素のデー
タベースを用い、音素を組み合わせて発音するととも
に、声の大きさや高低や声の抑揚や音色及び音素の時系
列的配置等々から取り込んだ音素データを適する分野に
わけるジャンル分け手段から構成され、ユーザは予め使
おうとしている音素がどの分野に適しているかを知るこ
とができ、音素の選択が容易となる。また使用分野に適
した音素を使用できるために、情報を伝える側の意図を
正しく相手に伝えることができる。

Description

【発明の詳細な説明】
【発明の属する技術分野】本発明は音声の最小構成要素
である音素に関して、その音素を適する分野にわける音
素のジャンル分けシステムに関する。
【従来の技術】音声合成によりテキストデータを音声変
換する機能はすでにパーソナルコンピュータにて実現し
ている。音声合成の一つの方法として、音声の最小構成
すなわち音素をつなぎあわせる方法がある。例えば「わ
たしわはやしです」という音声があった場合に、その音
声情報は「わ」、「た」、「し」、「わ」といった一つ
一つの音の集まりと考えることができる。この「わ」や
「た」といった一つ一つの音を音声の最小構成とし、こ
れを音素と定めた場合、実在の人の音素を蓄積してお
き、この音素をつなぎあわせることで、その人が実際に
発音したかのように音声合成することが不可能ではなか
った。また特開平11−143483号公報には、パソ
コン、ワープロ、ゲーム機等を利用する際の合成音声の
発生に係わり、特にユーザが任意でかつ多様な合成音声
を選ぶことが可能な手段を実現するシステムが開示され
ている。
【発明が解決しようとする課題】音素を利用する分野は
多岐に渡り、音素に関してもその音素が適する分野と適
さない分野が存在する。例えば誰かの訃報を伝えるとい
う用途においては声の調子が極端に明るい人の音素を用
いればミスマッチとなり、情報を伝える側の意図が正し
く相手に伝わらない可能性がある。このように音素を適
さない分野に使用すると情報を伝える側の意図が正しく
相手に伝わらないという問題もある。従来の実在人物の
音素を利用する音声合成,供給システムでは、たとえ多
数の音素がデータベースとして用意されていても、その
時々の用途に適するものを探し出す手段が無く、ユーザ
にとっては音素の選択に手間が掛かった。従って音素を
利用した様々なビジネスの発展が妨げられる可能性があ
った。
【課題を解決するための手段】そこで本発明は、取り込
む声の大きさや高低、例えばテノール、ソプラノ、アル
ト等々や声の抑揚や音色及び音素の時系列的配置、例え
ば発声のスピードやタイミング等々を分析し、音素を適
する分野に分類して音素のユーザに提供する。これを実
現する為に、声の大きさや高低、例えばテノール、ソプ
ラノ、アルト等々や声の抑揚や音色及び音素の時系列的
配置、例えば発声のスピードやタイミング等々から取り
込んだ音素データを適する分野にわけるジャンル分け手
段を設ける。
【発明の実施の形態】請求項1記載の発明は、人の音声
の最小構成要素である音素を取り込む音素取り込み手段
と、前記音素取り込み手段から生成される音素のデータ
ベースを用い、音素を組み合わせて発音する音素組み合
わせ手段と、声の大きさや高低,抑揚等々に基づき、取
り込んだ音素データを適する分野にわけるジャンル分け
手段から構成される音素ジャンル分けシステムであり、
システムで使用されている音素を各々適する分野にジャ
ンル分けする。以下本発明の詳細を述べる。 (実施の形態)請求項1記載の音素ジャンル分けシステ
ムの実施例について図1から図3を用いて説明する。図1
は本発明の音素ジャンル分けシステムのブロック図であ
る。図1において、(101)は音素登録者が発声する肉声を
示す。(102)は発声された肉声を拾うマイクおよび音声
信号処理装置を備え、入力された肉声を元に抽出した音
素をデータベース化し、記憶する音素取り込み手段であ
る。(103)は音素取り込み手段(102)から取り込まれた音
素の著作権所有者の登録を行う著作権者登録手段であ
る。(104)は、音声合成したい目的のデータ(テキスト
データ等)を分析し、音素取り込み手段(102)から生成
された音素のデータベースを用いて、最適な音素を組み
合わせて発音するとともに、音素の使用量をも算出する
音素組み合わせ手段である。(105)は、音素組み合わせ
手段(104)によって算出された使用量情報の結果に応
じ、音素の著作権所有者毎に著作権料を算出する著作権
料算出手段である。(106)は著作権料算出手段(105)から
の料金情報を基に著作権料を音素の著作権所有者に支払
う金銭支払い手段である。すなわち著作権所有者との契
約に基づいて、定期的,たとえば月末毎に著作権料算出
手段(105)が算出した金額を著作権所有者の銀行口座等
に金額を振り込む。(107)は声の大きさや高低、例えば
テノール、ソプラノ、アルト等々や声の抑揚や音色及び
音素の時系列的配置、例えば発声のスピードやタイミン
グ等々から取り込んだ音素データを適する分野にわける
ジャンル分け手段である。(108)は音素を利用した製品
及びサービスをお客様に提供する為の販売手段である。
音素組み合わせ手段(104)、著作権料算出手段(105)、著
作権料を支払う金銭支払い手段(106)、ジャンル分け手
段(107)、販売手段(108)および音素のデータベースは、
例えばインターネット上のサーバー装置の中に搭載され
る。この場合、依頼客がインターネットを通じてサーバ
ー装置にアクセスし、音素データベースの種類や朗読対
象のデータを選択すると、販売手段(108)は依頼客との
間で音素を用いた製品やサービスの販売するための手続
きを実行し、手続が完了すると音素組み合わせ手段(10
4)が指定された音素データベースと朗読対象のデータよ
り音声合成処理をなう。その際、ジャンル分け手段(10
7)によって、声の大きさや高低、声の抑揚や音色及び音
素の時系列的配置等々によって各音素データを用途分野
毎に分けられており、ジャンル分け手段(107)は依頼客
から受けた条件に従って、使用する音素データを捜す。
音声合成処理によって出力された音声データはインター
ネットを通じて依頼客へ供給する。次に動作の説明を行
う。本システムの動作は2つの動作に大別できる。一つ
は肉声を取り込み、音素を蓄積するまでの動作、もう一
つは蓄積した音素を利用して著作権所有者への著作権料
支払いまでの動作である。初めに本システムの音素蓄積
までの動作について説明する。図2は本発明の音素ジャ
ンル分けシステムにおける音素蓄積のフローチャートで
ある。音素登録者が発声を行うとマイク等を備えた音素
取り込み手段は発声された肉声を所定のフォーマットに
沿った形でデータベース化し、記憶する(201)。次にジ
ャンル分け手段は発声された声の大きさや声の高低、抑
揚や音色及び音素の時系列的配置といった声を特徴づけ
る要因を分析し、その音素が適する分野を求め、音素の
データベースを分野毎にジャンル分けする(202)。声の
大きさは声の持つ音圧の大きさを計測する。また声の高
低については声に含まれる基本周波数を計測する。また
抑揚に関しては発声者が話す文章において声の高さや強
さがどのように文章中に配置されているかを計測し、ま
た音色については声の周波数スペクトルを計測する。ま
た音素の時系列的配置に関しては各音素間の時間を計測
する。ジャンル分け手段はこれらの計測結果から各ジャ
ンルに適する度合いを特徴要因毎あるいは総合的に判断
して指数化し、音素データベースに付加する。そして音
素を利用した製品やサービスを使用するユーザが容易に
その音素が適する分野を知ることができるようにする。
例えば各ジャンルにおいて、適する度合いの指数が最も
高い音素データベースをそのジャンルに最適な音素デー
タベースとしてユーザに示したり、あるいは決められた
値以上の指数をもつ音素データベースをリストアップし
て表示する。また各音素データベースにおいて適する度
合いの指数をジャンル毎に示したりしても良い。なお方
法はここに記述したものに限定しない。またジャンルと
は例えば、ニュースや公的機関からの案内、小説の朗
読、緊急連絡といった様々な分野である。音素が複数の
分野に適していれば複数の分野にジャンル分けされても
よい。なお音素をジャンル分けする為の分析内容である
声の特徴要因についてはここで記載したものに限らな
い。次に著作権者登録手段は音素取り込み手段が取り込
んだ音素に関し、その音素の著作権所有者の登録を行う
(203)。なお、音素の取り込み、音素の適する分野への
ジャンル分け、音素の著作権者所有者への著作権料の支
払いが実現できれば(201)、(202)、(203)の動作の順番
は入れ替わっても良い。ここまでが音素蓄積までの動作
である。図3は本発明の音素ジャンル分けシステムにお
ける音素利用から著作権所有者への著作権料支払いまで
のフローチャートである。音素を利用した製品やサービ
スのユーザは所望のジャンルを選択する(301)。選択し
たジャンルから前記ジャンル分け手段が一意に決定した
音素データベースを選択しても良いし、そのジャンルに
適する音素としてリストアップされたものの中から選択
しても良い。音素組み合わせ手段は選択された特定キャ
ラクタの音素データベースと音声合成したい目的のテキ
ストデータを用いて音声合成を行い、音声を出力する(3
02)。そして音声合成の際に使用された音素の使用量を
算出する(303)。なおここでは音素の使用量としたが、
音声合成したい目的のテキストデータの使用量や音声合
成音の使用量であっても良い。また使用量についてもデ
ータの量及び合成時間の意味も勿論含んでいる。次に著
作権料算出手段(105)は音素組み合わせ手段(104)からの
使用量の算出結果に基づき、使用量に応じた著作権料を
算出する(304)。そしてこの料金情報を基に金銭支払い
手段(106)より、著作権料が音素の著作権所有者に対し
て支払われる(305)。なお処理(301)から(305)の動作の
順番は固定されたものではなく、ユーザのジャンルの選
択、音素を組み合わせた発音、音素の著作権所有者への
著作権料の支払いが実現できる限りどの様に入れ替えて
も良い。
【発明の効果】本発明のシステムを用いる事により、音
素を利用した製品やサービスを使用するユーザは予め使
おうとしている音素がどの分野に適しているかを知るこ
とができ、音素の選択が容易となる。また使用分野に適
した音素を使用できるために、情報を伝える側の意図を
正しく相手に伝えることができる。従って音素を利用し
た様々なビジネスを発展させる事ができる。
【図面の簡単な説明】
【図1】本発明の音素ジャンル分けシステムのブロック
【図2】本発明の音素ジャンル分けシステムにおける音
素蓄積のフローチャート
【図3】本発明の音素ジャンル分けシステムにおける音
素の利用から著作権料支払いまでのフローチャート
【符号の説明】
(101) 音素登録者が発声する肉声 (102) 音素取り込み手段 (103) 著作権者登録手段 (104) 音素組み合わせ手段 (105) 課金手段 (106) 金銭支払い手段 (107) ジャンル分け手段 (108) 販売手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 5/02 G

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】人の音声の最小構成要素である音素を取り
    込む音素取り込み手段と、前記音素取り込み手段から生
    成される音素のデータベースを用い、音素を組み合わせ
    て発音する音素組み合わせ手段と、声の大きさや高低,
    抑揚等々に基づき、取り込んだ音素データを適する分野
    にわけるジャンル分け手段から構成される音素ジャンル
    分けシステム。
  2. 【請求項2】ジャンル分け手段は、音素の時系列的配
    置、例えば発声のスピードやタイミング等々に基づき、
    取り込んだ音素データを適する分野にわけるジャンル分
    けする請求項1記載の音素ジャンル分けシステム。
  3. 【請求項3】音素は「あ」や「い」、「か」や「き」と
    いった母音や子音の組み合わせから成る音であることを
    特徴とする請求項1記載の音素ジャンル分けシステム。
  4. 【請求項4】音素は連続する音声の最小単位である単音
    (例えば「秋(あき)」は「a」「k」「i」の単音から成
    る)であることを特徴とする請求項1記載の音素ジャンル
    分けシステム。
  5. 【請求項5】音素は単語であることを特徴とする請求項
    1記載の音素ジャンル分けシステム。
  6. 【請求項6】音素は文節や文章又は楽曲や謡曲であるこ
    とを特徴とする請求項1記載の音素ジャンル分けシステ
    ム。
  7. 【請求項7】音素は擬音語や擬声語及び擬態語であるこ
    とを特徴とする請求項1記載の音素ジャンル分けシステ
    ム。
  8. 【請求項8】音素はデジタル合成音声であることを特徴
    とする請求項1記載の音素ジャンル分けシステム。
  9. 【請求項9】人の音声の最小構成要素である音素を取り
    込む音素取り込み手段と、音素の著作権所有者を登録す
    る著作権者登録手段と、前記音素取り込み手段から生成
    される音素のデータベースを用い、音素を組み合わせて
    発音するとともに、音素の使用量を算出する音素組み合
    わせ手段と、音素を利用した製品及びサービスを依頼客
    様に提供するための販売手段と、声の大きさや高低,抑
    揚等々に基づき、取り込んだ音素データを適する分野に
    わけるジャンル分け手段から構成される音素ジャンル分
    けシステム。
JP2001173692A 2001-06-08 2001-06-08 音素ジャンル分けシステム Pending JP2002366185A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001173692A JP2002366185A (ja) 2001-06-08 2001-06-08 音素ジャンル分けシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001173692A JP2002366185A (ja) 2001-06-08 2001-06-08 音素ジャンル分けシステム

Publications (1)

Publication Number Publication Date
JP2002366185A true JP2002366185A (ja) 2002-12-20

Family

ID=19015105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001173692A Pending JP2002366185A (ja) 2001-06-08 2001-06-08 音素ジャンル分けシステム

Country Status (1)

Country Link
JP (1) JP2002366185A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020387A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 楽曲を制作するための装置およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04180451A (ja) * 1990-11-15 1992-06-26 Yoshiya Marumoto 情報配給方式
JPH08263520A (ja) * 1995-03-24 1996-10-11 N T T Data Tsushin Kk 音声ファイル構成方式及び方法
JPH10304086A (ja) * 1997-04-25 1998-11-13 Casio Comput Co Ltd メッセージ送信装置及びメッセージ送信方法
JPH11288420A (ja) * 1998-04-03 1999-10-19 Casio Comput Co Ltd 音楽再生装置、及び行動推測装置
JP2000268541A (ja) * 1999-03-16 2000-09-29 Sony Corp 音楽ソフト自動分類装置
JP2002023777A (ja) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04180451A (ja) * 1990-11-15 1992-06-26 Yoshiya Marumoto 情報配給方式
JPH08263520A (ja) * 1995-03-24 1996-10-11 N T T Data Tsushin Kk 音声ファイル構成方式及び方法
JPH10304086A (ja) * 1997-04-25 1998-11-13 Casio Comput Co Ltd メッセージ送信装置及びメッセージ送信方法
JPH11288420A (ja) * 1998-04-03 1999-10-19 Casio Comput Co Ltd 音楽再生装置、及び行動推測装置
JP2000268541A (ja) * 1999-03-16 2000-09-29 Sony Corp 音楽ソフト自動分類装置
JP2002023777A (ja) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020387A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 楽曲を制作するための装置およびプログラム

Similar Documents

Publication Publication Date Title
US10453442B2 (en) Methods employing phase state analysis for use in speech synthesis and recognition
US6704708B1 (en) Interactive voice response system
Chakroborty et al. Improved closed set text-independent speaker identification by combining MFCC with evidence from flipped filter banks
Yamagishi et al. Thousands of voices for HMM-based speech synthesis–Analysis and application of TTS systems built on various ASR corpora
CN108463849A (zh) 确定语言模型的对话状态
US20100198760A1 (en) Apparatus and methods for music signal analysis
Castaneda et al. Evaluation of maxout activations in deep learning across several big data domains
JP2003140672A (ja) 音素ビジネスシステム
JP2003140672A5 (ja)
CN109920409A (zh) 一种声音检索方法、装置、系统及存储介质
US6675143B1 (en) Automatic language identification
WO2014203328A1 (ja) 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体
RU2427044C1 (ru) Текстозависимый способ конверсии голоса
CN109147146B (zh) 语音取号的方法及终端设备
WO2008093981A1 (en) Method and system for converting transaction information into music file and readable recording media using computer recording thereof
Misra et al. Speaker-specific mapping for text-independent speaker recognition
JP2002366185A (ja) 音素ジャンル分けシステム
Narendra et al. Syllable specific unit selection cost functions for text-to-speech synthesis
US20030009340A1 (en) Synthetic voice sales system and phoneme copyright authentication system
Ebrahimi et al. Predicting audio advertisement quality
Roberts et al. A time-scale modification dataset with subjective quality labels
Degottex et al. Phase distortion statistics as a representation of the glottal source: Application to the classification of voice qualities
CN103493126A (zh) 音频数据分析系统和方法
JP2753255B2 (ja) 音声による対話型情報検索装置
Shamsi TTS voice corpus reduction for audio-book generation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080530

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080612

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20091119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110308