JP5277634B2 - 音声合成装置、音声合成方法及びプログラム - Google Patents

音声合成装置、音声合成方法及びプログラム Download PDF

Info

Publication number
JP5277634B2
JP5277634B2 JP2007557805A JP2007557805A JP5277634B2 JP 5277634 B2 JP5277634 B2 JP 5277634B2 JP 2007557805 A JP2007557805 A JP 2007557805A JP 2007557805 A JP2007557805 A JP 2007557805A JP 5277634 B2 JP5277634 B2 JP 5277634B2
Authority
JP
Japan
Prior art keywords
music
unit
speech
utterance format
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007557805A
Other languages
English (en)
Other versions
JPWO2007091475A1 (ja
Inventor
正徳 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007557805A priority Critical patent/JP5277634B2/ja
Publication of JPWO2007091475A1 publication Critical patent/JPWO2007091475A1/ja
Application granted granted Critical
Publication of JP5277634B2 publication Critical patent/JP5277634B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声合成技術に関し、特に、テキストから音声を合成するための音声合成装置、音声合成方法及びプログラムに関する。
近年、計算機の高性能化・小型化に伴い、音声合成技術は、カーナビゲーション装置、携帯電話、PC、ロボット等の様々な装置に搭載されて利用されるようになった。様々な装置への応用が普及するにつれて、音声合成装置が利用される環境は多様化している。
従来の一般的な音声合成装置では、発音記号列(読み、構文・品詞情報、アクセント型等を含むテキスト解析結果)に対して、韻律(例えば、ピッチ周波数パタン、振幅、継続時間長)生成、単位波形(例えば、自然音声から抽出されたピッチ長又は音節時間長程度の長さを持つ波形)選択、波形生成の処理結果は原則的に一意に決定される。すなわち、音声合成装置はどのような状況や環境においても、常に同一の発話形式(声の大きさや発声速度、韻律、声色など)で音声合成を行っている。
しかしながら実際に人間の発声を観察すると、同一テキストを話す場合でも、話者の状況、感情、意図などに応じて、発話形式を制御している。従って、常に同一の発話形式を採用する従来の音声合成装置は、必ずしも音声というコミュニケーションメディアの特徴を十分に活用しているとはいえないのである。
音声合成装置のこのような問題を解決するため、ユーザ環境(音声合成装置の利用者がいる場所の状況や環境)に応じて韻律生成・単位波形選択を動的に変えることで、ユーザ環境に適した合成音声を生成し、ユーザの使い勝手を改善する試みがなされている。例えば、特許文献1には、ユーザ環境の明るさやユーザの位置等を示す情報に応じて、音韻・韻律の制御規則を選択する音声合成システムの構成が開示されている。
また、特許文献2には、周囲騒音のパワースペクトルや周波数分布情報を基に、子音パワー、ピッチ周波数、サンプリング周波数を制御する音声合成装置の構成が開示されている。
更に、特許文献3には、時刻、日付、及び曜日を含む各種計時情報を基に、発声速度、ピッチ周波数、音量、声質を制御する音声合成装置の構成が開示されている。
本発明の背景技術を構成する音楽信号の分析、検索方法を開示する非特許文献1〜3を示しておく。非特許文献1には、音楽信号の短時間振幅スペクトルや離散ウェーブレット変換係数を分析することで音楽的な特徴(楽器構成、リズム構造)を求めて、音楽ジャンルを推定するジャンル推定方法が開示されている。
非特許文献2には、音楽信号のメル周波数ケプストラム係数から木構造型ベクトル量子化法を用いて音楽ジャンルを推定するジャンル推定方法が開示されている。
非特許文献3には、スペクトルのヒストグラムで類似度の計算を行い、音楽信号を検索する方法が開示されている。
特許第3595041号公報 特開平11−15495号公報 特開平11−161298号公報 Tzanetakis, Essl, Cook: "Automatic Musical Genre Classification of Audio Signals", Proceedings of ISMIR 2001, pp. 205−210, 2001. Hoashi, Matsumoto, Inoue: "Personalization of User Profiles for Content−based Music Retrieval Based on Relevance Feedback", Proceedings of ACM Multimedia 2003, pp. 110−119, 2003. 木村、他: 「グローバルな枝刈りを導入した音や映像の高速探索」, 電子情報通信学会論文誌 D−II, Vol. J85−D−II, No. 10, pp. 1552−1562, 2002年10月
聴衆の注意を引いたり、聴衆にメッセージを印象づけたりする目的で、自然音声とともにBGM(background music、以下、BGMという)を流すことが一般的に行われている。例えば、テレビやラジオのニュース、情報提供番組の多くで、ナレーションの背景にBGMが流されている。
これらの番組を分析すると、話者の発話形式に応じて、BGM、特にそのBGMが属する音楽ジャンルが選択されているということもあるが、話者の方でBGMを意識した話し方がなされているという関係を見出すことができる。例えば、天気予報や交通情報では、イージーリスニングのような穏やかな曲調のBGMとともに、落ち着いた口調でアナウンスが行われるのが一般的である。ところが、同一の内容であっても、特定の番組の中や実況中継等では、しばしば張りのある声でアナウンスが行われる。
また、悲哀を込めて詩を朗読する際には、BGMとしてブルース音楽が利用され、話者もまた、感情を込めた朗読を行っている。その他にも、神秘的な雰囲気を演出したい場合には宗教音楽が選択され、明るい口調の場合にはポップス音楽が選択されるといった関係を見出すことができる。
一方、上述のとおり音声合成装置が利用される環境は多様化しており、上記BGMを含む各種の音楽が再生されている場(ユーザ環境)において、合成音声が出力される機会が多くなっているにも拘らず、上記した特許文献1等に記載されたものを含む従来の音声合成装置には、合成音声の発話形式を制御する上で、ユーザ環境に存在する音楽を考慮できないため、発話形式が周囲の音楽と調和できないという問題点がある。
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、ユーザ環境に存在する音楽に調和する音声を合成できる音声合成装置、音声合成方法及びプログラムを提供することにある。
本発明の第1の視点によれば、入力された音楽信号に応じて発話形式とパワーを自動選択することを特徴とする音声合成装置が提供される。より具体的には、前記音声合成装置は、入力された音楽信号が属する音楽ジャンルを推定する音楽ジャンル推定部と、前記推定された音楽ジャンルに適合する発話形式を選択する発話形式選択部と、前記発話形式に対応したパラメータに基づいて、合成音声を生成する音声合成部と、前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する合成音声パワー調整部と、を備えて構成される。
本発明の第2の視点によれば、音声合成装置を用いて合成音声を生成する音声合成方法であって、前記音声合成装置が、入力された音楽信号が属する音楽ジャンルを推定するステップと、前記推定された音楽ジャンルに適合する発話形式を選択するステップと、前記音声合成装置が、前記発話形式に対応したパラメータに基づいて、合成音声を生成するステップと、前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整するステップと、を含む音声合成方法が提供される。
本発明の第3の視点によれば、音声合成装置を構成するコンピュータに実行させるプログラムであって、入力された音楽信号が属する音楽ジャンルを推定する処理と、前記推定された音楽ジャンルに適合する発話形式を選択する処理と、前記発話形式に対応したパラメータに基づいて、合成音声を生成する処理と、前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する処理と、を前記コンピュータに実行させるプログラム及び該プログラムを格納した記録媒体が提供される。
本発明によれば、ユーザ環境のBGM等の音楽と調和の取れた発話形式で合成音声を生成することが可能になる。この結果、ユーザの注意を引くことのできる合成音声や、BGMが持つ雰囲気やBGMを聞いているユーザの気分を損なうことのない合成音声を出力することが可能になる。
本発明の第1の実施形態に係る音声合成装置の構成を表したブロック図である。 本発明の第1の実施形態に係る音声合成装置にて使用する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表の一例である。 本発明の第1の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。 本発明の第2の実施形態に係る音声合成装置の構成を表したブロック図である。 本発明の第2の実施形態に係る音声合成装置にて使用する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表の一例である。 本発明の第2の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。 本発明の第3の実施形態に係る音声合成装置の構成を表したブロック図である。 本発明の第3の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。 本発明の第4の実施形態に係る音声合成装置の構成を表したブロック図である。 本発明の第4の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。
符号の説明
11 韻律生成部
12 単位波形選択部
13 波形生成部
15〜15 韻律生成規則記憶部
16〜16 単位波形データ記憶部
17 合成音声パワー調整部
18 合成音声パワー計算部
19 音楽信号パワー計算部
21 音楽ジャンル推定部
23、27 発話形式選択部
24、28 発話形式情報記憶部
31 音楽属性情報検索部
32 音楽属性情報記憶部
35 音楽再生部
36 再生音楽情報取得部
37 音楽データ記憶部
[第1実施形態]
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施形態に係る音声合成装置の構成を表したブロック図である。図1を参照すると、本実施形態に係る音声合成装置は、韻律生成部11と、単位波形選択部12と、波形生成部13と、韻律生成規則記憶部15から15と、単位波形データ記憶部16から16と、音楽ジャンル推定部21と、発話形式選択部23と、発話形式情報記憶部24とを備えて構成されている。
韻律生成部11は、発話形式を基に選択した韻律生成規則と発音記号列から韻律情報を生成するための処理手段である。
単位波形選択部12は、発話形式を基に選択した単位波形データと発音記号列と韻律情報から単位波形を選択するための処理手段である。
波形生成部13は、韻律情報と単位波形データから合成音声波形を生成するための処理手段である。
韻律生成規則記憶部15から15には、各発話形式による合成音声の実現に要求される韻律生成規則(例えば、ピッチ周波数パタン、振幅、継続時間長等)が保存されている。
単位波形データ記憶部16から16には、韻律生成規則記憶部の場合と同様に、各発話形式による合成音声の実現に要求される単位波形データ(例えば、自然音声から抽出されたピッチ長又は音節時間長程度の長さを持つ波形)が保存されている。
なお、上記韻律生成規則記憶部15から15や単位波形データ記憶部16から16に保存すべき韻律生成規則や単位波形データは、各発話形式に適合する自然音声を収集・分析することで生成することができる。
以下、本実施形態では、元気の良い声から生成した元気の良い声の実現に要求される韻律生成規則と単位波形データが韻律生成規則記憶部15と単位波形データ記憶部16に保存され、落ち着いた声から生成した落ち着いた声の実現に要求される韻律生成規則と単位波形データが韻律生成規則記憶部15と単位波形データ記憶部16に保存され、ひそひそ声から生成した韻律生成規則と単位波形データが韻律生成規則記憶部15と単位波形データ記憶部16に保存され、標準的な声から生成した韻律生成規則と単位波形データが韻律生成規則記憶部15と単位波形データ記憶部16に保存されているものとして説明する。なお、自然音声から韻律生成規則や単位波形データを生成する方法は、発話形式に依存せずに、標準的な声から生成する場合と同様の方法を用いることができる。
音楽ジャンル推定部21は、入力された音楽信号が属する音楽ジャンルを推定するための処理手段である。
発話形式選択部23は、発話形式情報記憶部24に保存されている表を基に推定された音楽ジャンルから発話形式を決定するための処理手段である。
発話形式情報記憶部24には、図2に例示する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表が保存されている。発話形式パラメータとは、韻律生成規則記憶部番号と単位波形データ記憶部番号であり、各番号に対応する韻律生成規則や単位波形データを組み合わせることにより、特定の発話形式による合成音声が実現される。なお、図2の例では、説明の便宜のため発話形式と発話形式パラメータの双方を定義しているが、発話形式選択部23で使用しているのは、発話形式パラメータのみであるので、発話形式の定義は省略することができる。
反対に、発話形式情報記憶部24では音楽ジャンルと発話形式の関係のみを定義し、発話形式と、韻律生成規則及び単位波形データとの対応関係は、韻律生成部11及び単位波形選択部12でそれぞれ発話形式に応じた韻律生成規則や単位波形データを選択させる構成とすることもできる。
また、図2の例では、多数の発話形式を用意した構成としているが、1種類の発話形式の単位波形データのみを用意し、発話形式の切り替えを韻律生成規則の変更により行う構成とすることも可能である。この場合、音声合成装置の記憶容量や処理量をより低減することができる。
更に、上記発話形式情報記憶部24で定義する音楽ジャンル情報と発話形式との対応関係は、ユーザの好みに合わせて変更できるようにしても良いし、予め用意された複数の対応関係の組み合わせの中からユーザが好みに応じて選択できるようにしても良い。
続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図3は、本実施形態に係る音声合成装置の動作を表したフローチャートである。図3を参照すると、まず、音楽ジャンル推定部21は、入力された音楽信号から、スペクトルやケプストラムなどの音楽信号の特徴量を抽出し、入力された音楽が属する音楽ジャンルを推定し、発話形式選択部23に出力する(ステップA1)。この音楽のジャンル推定方法には、先に掲げた非特許文献1、非特許文献2等に記載された公知の方法を用いることができる。
なお、BGMが存在しない場合や、推定対象外の音楽ジャンルに属する音楽が入力された場合には、特定のジャンル名ではなく「その他」が音楽ジャンルとして発話形式選択部23に出力されるものとする。
続いて、発話形式選択部23は、音楽ジャンル推定部21から伝達された推定音楽ジャンルを元に、発話形式情報記憶部24に記憶された表(図2参照)から該当する発話形式を選択し、選択した発話形式の実現に必要な発話形式パラメータを韻律生成部11と単位波形選択部12に伝達する(ステップA2)。
図2によると、例えば、推定された音楽ジャンルがポップスの場合は、発話形式として元気の良い声が選択され、イージーリスニングの場合は落ち着いた声が、宗教音楽の場合はひそひそ声が選択される。推定された音楽ジャンルが図2の表に存在しなかった場合には、音楽ジャンルが「その他」の場合と同様に、標準的な発話形式が選択される。
続いて、韻律生成部11は、発話形式選択部23から供給された発話形式パラメータを参照し、韻律生成規則記憶部15から15の中から、発話形式選択部23が指定した記憶部番号を持つ韻律生成規則記憶部を選択する。そして、選択した韻律生成規則記憶部の韻律生成規則に基づき、入力された発音記号列から韻律情報を生成し、単位波形選択部12と波形生成部13に伝達する(ステップA3)。
続いて、単位波形選択部12は、発話形式選択部23から伝達された発話形式パラメータを参照し、単位波形データ記憶部16から16の中から、発話形式選択部23が指定した記憶部番号を持つ単位波形データ記憶部を選択する。そして、入力された発音記号列と、韻律生成部11から供給された韻律情報を基に、選択した単位波形データ記憶部から単位波形を選択し、波形生成部13に伝達する(ステップA4)。
最後に、波形生成部13は、韻律生成部11から伝達された韻律情報に基づき、単位波形選択部12から供給された単位波形を接続し、合成音声信号を出力する(ステップA5)。
以上のとおり、本実施形態によれば、ユーザ環境のBGMと調和の取れた韻律と単位波形で実現される発話形式で合成音声を生成することが可能になる。
なお、上記した実施形態では、発話形式毎に単位波形データ記憶部16〜16を用意する構成としているが、標準声の単位波形データ記憶部のみを設ける構成とすることもできる。この場合、韻律生成規則のみにより発話形式を制御することになるが、単位波形データは韻律生成規則をはじめとする他のデータよりも、データサイズが大きいため、合成装置全体の記憶容量を大幅に削減できるという利点が生じる。
[第2実施形態]
上記した第1の実施形態では合成音声のパワーは制御対象となっておらず、ひそひそ声で合成音声を出力する場合も、元気の良い声で合成音声を出力する場合もパワーは同一である。例えば、BGMと発話形式の対応関係によっては、合成音声の音量が背景音楽よりも大き過ぎると調和を損ない、場合によっては耳障りになることも考えられる。反対に、合成音声の音量が背景音楽よりも小さすぎると、調和を損なうだけでなく合成音声を聞き取ることが困難になることも考えられる。
そこで、上記について改良を加え、合成音声のパワーも制御対象に加えた本発明の第2の実施形態について図面を参照して詳細に説明する。図4は、本発明の第2の実施形態に係る音声合成装置の構成を表したブロック図である。
図4を参照すると、本実施形態に係る音声合成装置は、上記第1の実施形態に係る音声合成装置(図1参照)に対して、合成音声パワー調整部17と、合成音声パワー計算部18と、音楽信号パワー計算部19と、を追加した構成となっている。また、図4に示すように、本実施形態においては、上記第1の実施形態の発話形式選択部23と発話形式情報記憶部24の代わりに、発話形式選択部27と発話形式情報記憶部28が配設されている。
発話形式情報記憶部28には、図5に例示する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表が保存されている。上記第1の実施形態の発話形式情報記憶部24に保持される表(図2参照)との相違点は、パワー比が追加されている点である。
このパワー比とは、合成音声のパワーを音楽信号のパワーで除算した値である。すなわち、パワー比が1.0よりも大きければ、合成音声のパワーが音楽信号のパワーよりも大きいことを示している。図5を参照すると、例えば、音楽ジャンルがポップスと推定された場合、発話形式は元気の良い声、パワー比は1.2に設定され、音楽信号パワーを上回るパワー(1.2倍)で合成音声パワーが出力される。同様に、発話形式が落ち着いた声のときパワー比は1.0、ひそひそ声の場合は0.9、標準声の場合は1.0にて設定されている。
続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図6は、本実施形態に係る音声合成装置の動作を表したフローチャートである。音楽ジャンル推定(ステップA1)〜波形生成(ステップA5)までの間は、上記した第1の実施形態と略同様であるが、ステップA2において、発話形式選択部27が、音楽ジャンル推定部21から伝達された推定音楽ジャンルから、発話形式情報記憶部28に記憶されたパワー比を合成音声パワー調整部17に伝達する点で相違している(ステップA2)。
ステップA5において、波形生成が完了すると、音楽信号パワー計算部19は、入力された音楽信号の平均的なパワーを計算し、合成音声パワー調整部17へ伝達する(ステップB1)。信号のサンプル番号をn、音楽信号をx(n)とすると、例えば次式(1)に示すような一次リーク積分により、音楽信号の平均パワーP(n)を求めることが可能である。
Figure 0005277634
但し、aは、一次リーク積分の時定数である。合成音声とBGMの平均的な音量の差が大きくなることを防ぐためにパワーを計算するので、aには0.9等の大きい値を設定し、長時間平均パワーを計算することが望ましい。逆に、aの値を0.1といった小さな値に設定してパワーを計算すると、合成音声の音量の変化が頻繁かつ大きくなり、合成音声が聞き取りにくくなる可能性がある。なお、上式に代えて、移動平均や入力信号の全サンプルの平均値などを用いることも可能である。
続いて、合成音声パワー計算部18は、波形生成部13から供給された合成音声の平均的なパワーを計算し、合成音声パワー調整部17に伝達する(ステップB2)。合成音声パワーの計算にも、上記音楽信号パワーと同様の方法を用いることができる。
最後に、合成音声パワー調整部17は、音楽信号パワー計算部19から供給される音楽信号パワーと、合成音声パワー計算部18から供給される合成音声パワーと、発話形式選択部27から供給される発話形式パラメータの中のパワー比を基に、波形生成部13から供給される合成音声信号のパワーを調整し、パワー調整済音声合成信号として出力する(ステップB3)。より具体的には、合成音声パワー調整部17は、最終的に出力される合成音声信号のパワーと音楽信号パワーの比が、発話形式選択部27から供給されたパワー比の値に近づくように合成音声のパワーを調整する。
より端的には、音楽信号パワーと、合成音声信号パワーと、パワー比とを用いて、パワー調整係数を求めて、合成音声信号に乗ずることで実現する。従って、パワー調整係数には、音楽信号とパワー調整済合成音声のパワーの比が、発話形式選択部27から供給されたパワー比にほぼ一致するような値を用いる必要がある。音楽信号パワーをP、合成音声パワーをP、パワー比をrとすれば、パワー調整係数cは次式で与えられる。
Figure 0005277634
そして、パワー調整前の合成音声信号をy(n)とすれば、パワー調整後の合成音声信号y(n)は次式で与えられる。
Figure 0005277634
以上のとおり、元気の良い声が選択された場合には、合成音声パワーを標準的な声よりも少し大きくし、ひそひそ声が選択された場合には、パワーを少し小さめにするといったきめ細かい制御が可能となり、よりBGMとの調和がとれた発話形式を実現することが可能となる。
[第3実施形態]
上記第1、第2の実施形態では、入力音楽のジャンルを推定するものとしているが、近年の探索・照合手法を用いると、より精緻に入力音楽を分析することも可能である。以下、上記について改良を加えた本発明の第3の実施形態について図面を参照して詳細に説明する。図7は、本発明の第3の実施形態に係る音声合成装置の構成を表したブロック図である。
図7を参照すると、本実施形態に係る音声合成装置は、上記第1の実施形態に係る音声合成装置(図1参照)に対して、音楽属性情報記憶部32を追加するとともに、音楽ジャンル推定部21に代えて音楽属性情報検索部31を配設した構成となっている。
音楽属性情報検索部31は、入力された音楽信号からスペクトルなどの特徴量を抽出するための処理手段である。音楽属性情報記憶部32には、種々の音楽信号の特徴量と、その音楽信号の音楽ジャンルが、個別に記録されており、特徴量を照合することにより、音楽を特定し、ジャンルを決定することが可能となっている。
上記特徴量を用いた音楽信号の検索には、非特許文献3に掲げたスペクトルのヒストグラムで類似度の計算を行う方法等を用いることができる。
続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図8は、本実施形態に係る音声合成装置の動作を表したフローチャートである。上記した第1の実施形態に対し、音楽ジャンル推定(ステップA1)の部分が相違し、その他は既に説明済みであるので、以下、図8のステップD1について詳細に説明する。
はじめに、音楽属性情報検索部31は、入力された音楽信号からスペクトルなどの特徴量を抽出する。続いて、音楽属性情報検索部31は、音楽属性情報記憶部32に保存されている音楽のすべての特徴量と、入力された音楽信号の特徴量の類似度をそれぞれ計算する。そして、最高の類似度を持つ音楽の音楽ジャンル情報が発話形式選択部23に伝達される(ステップD1)。
なお、ステップD1において、類似度の最大値が、予め設定した閾値を下回った場合には、音楽属性情報検索部31は、入力された音楽信号に対応する音楽が音楽属性情報記憶部32に記録されていないと判断し、音楽ジャンルとして「その他」を出力する。
以上のとおり、本実施形態によれば、個々の音楽に対して、個別に音楽ジャンルを記録した音楽属性情報記憶部32を用いるので、上記第1、第2の実施形態よりも高い精度で音楽ジャンルを特定し、発話形式に反映させることが可能となる。
なお、音楽属性情報記憶部32を構築する際に、曲名やアーティスト名、作曲者名などの属性情報も記憶しておけば、音楽ジャンル以外の属性情報によっても、発話形式を決定することが可能になる。
また、音楽属性情報記憶部32に記憶されている音楽の種類数が多くなれば、多くの音楽信号のジャンルを特定することが可能になるが、音楽属性情報記憶部32の容量が大きくなる。必要に応じて、音楽属性情報記憶部32を音声合成装置の外部に配置し、音楽信号の特徴量の類似度を計算するときに、有線及び無線通信手段を用いて音楽属性情報記憶部32にアクセスする構成を採ることも可能である。
続いて、上記第1の実施形態に係る音声合成装置に対し、BGM等の楽曲の再生機能を追加した本発明の第4の実施形態について図面を参照して詳細に説明する。
[第4実施形態]
図9は、本発明の第4の実施形態に係る音声合成装置の構成を表したブロック図である。図9を参照すると、本実施形態に係る音声合成装置は、上記第1の実施形態に係る音声合成装置(図1参照)に対して、音楽再生部35、音楽データ記憶部37を追加するとともに、音楽ジャンル推定部21に代えて再生音楽情報取得部36を配設した構成となっている。
音楽データ記憶部37には、音楽信号と、その音楽の曲番号と音楽ジャンルが保存されている。音楽再生部35は、曲番号や音量、再生・停止・巻き戻し・早送り等の各種コマンドを含む再生指令に応じて、音楽データ記憶部37に保存されている音楽信号をスピーカやイヤホンなどを通して出力する手段である。また、音楽再生部35は、再生音楽情報取得部36に対して、再生中の音楽の曲番号を供給する。
再生音楽情報取得部36は、音楽再生部35から供給された曲番号に対応する音楽のジャンル情報を音楽データ記憶部37から取り出し、発話形式選択部23へ伝達する、上記第1の実施形態の音楽ジャンル推定部21と同等の処理手段である。
続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図10は、本実施形態に係る音声合成装置の動作を表したフローチャートである。上記した第1の実施形態に対し、音楽ジャンル推定(ステップA1)の部分が相違し、その他は既に説明済みであるので、以下、図10のステップD2、D3について詳細に説明する。
音楽再生部35が、指定された音楽を再生すると、その曲番号が再生音楽情報取得部36に供給される(ステップD2)。
再生音楽情報取得部36は、音楽再生部35から供給された曲番号に対応する音楽のジャンル情報を音楽データ記憶部37から取り出し、発話形式選択部23へ伝達する(ステップD3)。
本実施例によれば、音楽ジャンルの推定処理や検索処理は不要となり、再生中のBGMの音楽ジャンル等を確実に特定することが可能となる。もちろん、音楽再生部35が、再生中の音楽のジャンル情報を音楽データ記憶部37から直接取得できる場合には、再生音楽情報取得部36を廃し、音楽再生部35から発話形式選択部23に音楽ジャンルを直接供給する構成とすることもできる。
また、音楽データ記憶部37に音楽ジャンル情報が記録されていない場合には、再生音楽情報取得部36の代わりに音楽ジャンル推定部21を用いて、音楽ジャンルを推定する構成とすることも可能である。
また、音楽データ記憶部37にジャンル以外の音楽属性情報が記録されていれば、上記第3の実施形態でも説明したように、ジャンル以外の属性情報で発話形式を決定できるよう発話形式選択部23及び発話形式情報記憶部24を変更することも可能である。
以上、本発明の各実施の形態を説明したが、本発明の技術的範囲は、上述した実施の形態に限定されるものではなく、音声合成装置の用途、仕様等に応じて、各種の変形を加え、あるいは、均等物を採用することが可能である。

Claims (12)

  1. 入力された音楽信号が属する音楽ジャンルを推定する音楽ジャンル推定部と、
    前記推定された音楽ジャンルに適合する発話形式を選択する発話形式選択部と、
    前記発話形式に対応したパラメータに基づいて、合成音声を生成する音声合成部と、
    前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する合成音声パワー調整部と、
    を有すること、
    を特徴とする音声合成装置。
  2. 前記音声合成部が、
    前記発話形式に従って韻律情報を生成する韻律生成部と、
    前記発話形式に従って単位波形を選択する単位波形選択部と、を有すること、
    を特徴とする請求項1に記載の音声合成装置。
  3. 前記音声合成部が、
    発話形式毎の韻律生成規則を記憶する韻律生成規則記憶部と、
    発話形式毎に単位波形を記憶する単位波形記憶部と、
    前記発話形式に従って選択した韻律生成規則を参照して、発音記号列から韻律情報を生成する韻律生成部と、
    単位波形記憶部に記憶された単位波形の中から前記発音記号列と前記韻律情報に応じた単位波形を選択する単位波形選択部と、
    前記韻律情報に従って前記単位波形を合成し合成音声波形を生成する波形生成部と、を有すること、
    を特徴とする請求項1に記載の音声合成装置。
  4. さらに、音楽とその属性を関連付けて記憶する音楽属性情報記憶部を備え、
    前記音楽ジャンル推定部は、
    前記音楽属性情報記憶部から、前記音楽信号から抽出した特徴量に類似する特徴量を有する音楽を検索し、前記検索された音楽の属性を、前記音楽信号の音楽ジャンルとして推定すること、
    を特徴とする請求項1乃至3いずれか一に記載の音声合成装置。
  5. 音声合成装置を用いて合成音声を生成する音声合成方法であって、
    前記音声合成装置が、入力された音楽信号が属する音楽ジャンルを推定するステップと、
    前記推定された音楽ジャンルに適合する発話形式を選択するステップと、
    前記音声合成装置が、前記発話形式に対応したパラメータに基づいて、合成音声を生成するステップと、
    前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整するステップと、
    を含むこと、
    を特徴とする音声合成方法。
  6. 更に、
    前記音声合成装置が前記発話形式に従って韻律情報を生成するステップと、
    前記音声合成装置が前記発話形式に従って単位波形を選択するステップと、を含み、
    前記音声合成装置が、前記韻律情報と前記単位波形とを用いて、音声を合成すること、
    を特徴とする請求項に記載の音声合成方法。
  7. 前記音声合成装置が、前記発話形式に従って音声を合成するステップが、
    前記音声合成装置が、韻律生成規則記憶部に記憶された韻律生成規則の中から前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻律情報を生成するステップと、
    前記音声合成装置が、前記発話形式毎に用意された単位波形の中から、前記発音記号列と前記韻律情報に応じた単位波形を選択するステップと、
    前記音声合成装置が、前記韻律情報に従って前記単位波形を合成し合成音声波形を生成するステップと、を含んで構成されること、
    を特徴とする請求項に記載の音声合成方法。
  8. 前記音楽信号の音楽ジャンルの推定は、
    前記音声合成装置が、音楽とその属性を関連付けて記憶する音楽属性情報記憶部から前記音楽信号から抽出した特徴量に類似する特徴量を有する音楽を検索することによって行われること、
    を特徴とする請求項乃至いずれか一に記載の音声合成方法。
  9. 音声合成装置を構成するコンピュータに実行させるプログラムであって、
    入力された音楽信号が属する音楽ジャンルを推定する処理と、
    前記推定された音楽ジャンルに適合する発話形式を選択する処理と、
    前記発話形式に対応したパラメータに基づいて、合成音声を生成する処理と、
    前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する処理と、
    を前記コンピュータに実行させるプログラム。
  10. 前記発話形式に従って韻律情報を生成する処理と、
    前記発話形式に従って単位波形を選択する処理と、を経て、
    前記韻律情報と前記単位波形とを用いて、音声を合成する処理が行われること、
    を特徴とする請求項に記載のプログラム。
  11. 前記コンピュータに接続された韻律生成規則記憶部に記憶された韻律生成規則の中から前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻律情報を生成する処理と、
    前記コンピュータに接続された単位波形記憶部に、前記発話形式毎に用意された単位波形の中から、前記発音記号列と前記韻律情報に応じた単位波形を選択する処理と、を経て、
    前記韻律情報に従って前記単位波形を合成し、音声を合成する処理が行われること、
    を特徴とする請求項に記載のプログラム。
  12. 前記音声合成装置が、音楽とその属性を関連付けて記憶する音楽属性情報記憶部から前記音楽信号から抽出した特徴量に類似する特徴量を有する音楽を検索することによって、前記音楽信号の音楽ジャンルを推定すること、
    を特徴とする請求項乃至11いずれか一に記載のプログラム。
JP2007557805A 2006-02-08 2007-02-01 音声合成装置、音声合成方法及びプログラム Expired - Fee Related JP5277634B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007557805A JP5277634B2 (ja) 2006-02-08 2007-02-01 音声合成装置、音声合成方法及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006031442 2006-02-08
JP2006031442 2006-02-08
PCT/JP2007/051669 WO2007091475A1 (ja) 2006-02-08 2007-02-01 音声合成装置、音声合成方法及びプログラム
JP2007557805A JP5277634B2 (ja) 2006-02-08 2007-02-01 音声合成装置、音声合成方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2007091475A1 JPWO2007091475A1 (ja) 2009-07-02
JP5277634B2 true JP5277634B2 (ja) 2013-08-28

Family

ID=38345078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007557805A Expired - Fee Related JP5277634B2 (ja) 2006-02-08 2007-02-01 音声合成装置、音声合成方法及びプログラム

Country Status (4)

Country Link
US (1) US8209180B2 (ja)
JP (1) JP5277634B2 (ja)
CN (1) CN101379549B (ja)
WO (1) WO2007091475A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009139022A1 (ja) * 2008-05-15 2009-11-19 パイオニア株式会社 音声出力装置およびプログラム
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US9959342B2 (en) * 2016-06-28 2018-05-01 Microsoft Technology Licensing, Llc Audio augmented reality system
US20210287655A1 (en) * 2016-08-09 2021-09-16 Sony Corporation Information processing apparatus and information processing method
EP3627496A4 (en) 2017-05-16 2020-05-27 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
EP3506255A1 (en) * 2017-12-28 2019-07-03 Spotify AB Voice feedback for user interface of media playback device
JP7128222B2 (ja) * 2019-10-28 2022-08-30 ネイバー コーポレーション 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
CN112735454A (zh) * 2020-12-30 2021-04-30 北京大米科技有限公司 音频处理方法、装置、电子设备和可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307395A (ja) * 1992-04-30 1993-11-19 Sony Corp 音声合成装置
JPH08328576A (ja) * 1995-05-30 1996-12-13 Nec Corp 音声案内装置
JPH1020885A (ja) * 1996-07-01 1998-01-23 Fujitsu Ltd 音声合成装置
JPH1115488A (ja) * 1997-06-24 1999-01-22 Hitachi Ltd 合成音声評価・合成装置
JP2001309498A (ja) * 2000-04-25 2001-11-02 Alpine Electronics Inc 音声制御装置
JP2004361874A (ja) * 2003-06-09 2004-12-24 Sanyo Electric Co Ltd 音楽再生装置
JP2007086316A (ja) * 2005-09-21 2007-04-05 Mitsubishi Electric Corp 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
CN1028572C (zh) * 1991-11-05 1995-05-24 湘潭市新产品开发研究所 声控自动伴奏机
JPH0837700A (ja) * 1994-07-21 1996-02-06 Kenwood Corp 音場補正回路
JP3578598B2 (ja) 1997-06-23 2004-10-20 株式会社リコー 音声合成装置
JPH11161298A (ja) 1997-11-28 1999-06-18 Toshiba Corp 音声合成方法及び装置
CA2328353A1 (en) * 1998-04-14 1999-10-21 Hearing Enhancement Company, Llc User adjustable volume control that accommodates hearing
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
JP2000105595A (ja) * 1998-09-30 2000-04-11 Victor Co Of Japan Ltd 歌唱装置及び記録媒体
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6731307B1 (en) * 2000-10-30 2004-05-04 Koninklije Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
US6915261B2 (en) * 2001-03-16 2005-07-05 Intel Corporation Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs
US7203647B2 (en) * 2001-08-21 2007-04-10 Canon Kabushiki Kaisha Speech output apparatus, speech output method, and program
JP2003058198A (ja) * 2001-08-21 2003-02-28 Canon Inc 音声出力装置、音声出力方法、及び、プログラム
JP2004205605A (ja) * 2002-12-24 2004-07-22 Yamaha Corp 音声および楽曲再生装置およびシーケンスデータフォーマット
JP4225167B2 (ja) * 2003-08-29 2009-02-18 ブラザー工業株式会社 音声合成装置、音声合成方法、及び音声合成プログラム
US9042921B2 (en) * 2005-09-21 2015-05-26 Buckyball Mobile Inc. Association of context data with a voice-message component
US7684991B2 (en) * 2006-01-05 2010-03-23 Alpine Electronics, Inc. Digital audio file search method and apparatus using text-to-speech processing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307395A (ja) * 1992-04-30 1993-11-19 Sony Corp 音声合成装置
JPH08328576A (ja) * 1995-05-30 1996-12-13 Nec Corp 音声案内装置
JPH1020885A (ja) * 1996-07-01 1998-01-23 Fujitsu Ltd 音声合成装置
JPH1115488A (ja) * 1997-06-24 1999-01-22 Hitachi Ltd 合成音声評価・合成装置
JP2001309498A (ja) * 2000-04-25 2001-11-02 Alpine Electronics Inc 音声制御装置
JP2004361874A (ja) * 2003-06-09 2004-12-24 Sanyo Electric Co Ltd 音楽再生装置
JP2007086316A (ja) * 2005-09-21 2007-04-05 Mitsubishi Electric Corp 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体

Also Published As

Publication number Publication date
CN101379549B (zh) 2011-11-23
WO2007091475A1 (ja) 2007-08-16
CN101379549A (zh) 2009-03-04
JPWO2007091475A1 (ja) 2009-07-02
US20100145706A1 (en) 2010-06-10
US8209180B2 (en) 2012-06-26

Similar Documents

Publication Publication Date Title
JP5277634B2 (ja) 音声合成装置、音声合成方法及びプログラム
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
US20060165240A1 (en) Methods and apparatus for use in sound modification
US7613612B2 (en) Voice synthesizer of multi sounds
CN105957515B (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
JP2016157136A (ja) デジタル音声信号からハプティック・イベントを自動生成するシステム及び方法
JP2008517315A (ja) メディアコンテンツ項目のカテゴリに関してユーザに通知するためのデータ処理装置及び方法
WO2008106698A1 (en) Method for processing audio data into a condensed version
CN110211556B (zh) 音乐文件的处理方法、装置、终端及存储介质
CN101111884B (zh) 用于声学特征的同步修改的方法和装置
WO2018230670A1 (ja) 歌唱音声の出力方法及び音声応答システム
US6915261B2 (en) Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs
US20200105244A1 (en) Singing voice synthesis method and singing voice synthesis system
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
WO2014142200A1 (ja) 音声処理装置
JP2008216486A (ja) 音楽再生システム
Puckette Low-dimensional parameter mapping using spectral envelopes.
CN113781989A (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
CN113936629A (zh) 音乐文件处理方法和装置、音乐演唱设备
JP2016071187A (ja) 音声合成装置、及び音声合成システム
Jayasinghe Machine Singing Generation Through Deep Learning
JP2014157325A (ja) 音響処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130506

R150 Certificate of patent or registration of utility model

Ref document number: 5277634

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees