JP6127371B2 - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP6127371B2
JP6127371B2 JP2012074858A JP2012074858A JP6127371B2 JP 6127371 B2 JP6127371 B2 JP 6127371B2 JP 2012074858 A JP2012074858 A JP 2012074858A JP 2012074858 A JP2012074858 A JP 2012074858A JP 6127371 B2 JP6127371 B2 JP 6127371B2
Authority
JP
Japan
Prior art keywords
phoneme
unit
sound
information
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012074858A
Other languages
English (en)
Other versions
JP2013205638A (ja
Inventor
嘉山 啓
啓 嘉山
基 小笠原
基 小笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012074858A priority Critical patent/JP6127371B2/ja
Priority to US13/777,994 priority patent/US9552806B2/en
Priority to EP13158187.8A priority patent/EP2645363B1/en
Priority to CN201310104780.XA priority patent/CN103366730B/zh
Publication of JP2013205638A publication Critical patent/JP2013205638A/ja
Application granted granted Critical
Publication of JP6127371B2 publication Critical patent/JP6127371B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、音声を合成する技術に関する。
音符等の合成単位(以下「単位音」という)毎に継続長と発音内容(例えば歌詞)とを指定し、各単位音の発音内容に対応する複数の音声素片を相互に接続することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。特許文献1には、各単位音の発音内容に応じた複数の音素のうち母音の音素に対応する音声素片を伸長することで、各単位音の発音内容を所望の継続長にわたり発音した合成音を生成することが可能である。
特許第4265501号公報
ところで、例えば複数の母音を連結した重母音(二重母音や三重母音)が1個の単位音の発音内容として指定される場合がある。以上のように重母音が指定された1個の単位音について充分な継続長を確保するための構成としては、例えば、重母音のうち先頭の1個の母音の音声素片を伸長する構成が想定される。しかし、伸長対象を単位音内の先頭の母音に固定した構成では、生成可能な合成音が制約されるという問題がある。例えば、母音の音素/a/と母音の音素/I/とが1音節内で連続する重母音を包含する「ファイト(fight)」という発音内容(1音節)が1個の単位音に指定された場合を想定すると、重母音の先頭の音素/a/を伸長した「ファーイト[fa:It]」という合成音は生成され得るが、後方の音素/I/を伸長した「ファイート[faI:t]」という合成音は生成できない(記号“:”は長音を意味する)。なお、以上の説明では重母音の場合を例示したが、複数の音素が1音節内で連続する場合には、母音/子音の区別に関わらず同様の問題が発生し得る。以上の事情を考慮して、本発明は、音声素片を伸長する場合の制約を緩和して多様な合成音を生成することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音声合成装置は、継続長と発音内容とを単位音毎に指定する合成情報を取得する情報取得手段(例えば情報取得部34)と、各単位音の発音内容に対応する複数の音素の各々について伸長の許否を設定する伸長設定手段(例えば伸長設定部36)と、各単位音の発音内容に対応する複数の音声素片を接続することで合成情報に応じた合成音を生成する手段であって、各単位音の発音内容に対応する複数の音素のうち伸長設定手段が伸長を許可した音素に対応する音声素片を当該単位音の継続長に応じて伸長する音声合成手段(例えば音声合成部38)とを具備する。以上の構成では、各単位音の発音内容に対応する複数の音素の各々について伸長の許否が設定されるから、各単位音に対応する複数の音素(例えば重母音)のうち例えば先頭の音素を固定的に伸長する構成と比較して、合成音の生成時における音声素片の伸長の制約が緩和され、結果的に多様な合成音を生成できるという利点がある。
本発明の好適な態様において、伸長設定手段は、利用者からの指示に応じて各音素の伸長の許否を設定する。以上の態様では、各音素の伸長の許否が利用者からの指示に応じて設定されるから、利用者の意図に合致した多様な合成音を生成できるという利点がある。例えば、本発明の好適な態様に係る音声合成装置は、合成情報が指定する複数の単位音のうち利用者が選択した単位音の発音内容に対応する複数の音素を提示して各音素の伸長の許否の指示を利用者から受付ける設定画像(例えば設定画像60または設定画像70)を表示させる第1表示制御手段(例えば表示制御部32)を具備する。以上の態様では、利用者が選択した単位音に対応する複数の音素が提示されて利用者からの指示を受付ける設定画像が表示装置に表示されるから、複数の単位音の各々について音素毎の伸長の許否を利用者が容易に指定できるという利点がある。
本発明の好適な態様に係る音声合成装置は、各単位音の発音内容に対応する複数の音素の各々の音素記号を、伸長設定手段が伸長を許可した音素と伸長設定手段が伸長を禁止した音素とで表示態様が相違するように表示装置に表示させる第2表示制御手段(例えば表示制御部32)を具備する。以上の態様では、伸長の許否に応じて相異なる表示態様で各音素の音素記号が表示されるから、各音素の伸長の許否を利用者が容易に確認できるという利点がある。なお、表示態様とは、利用者が視覚的に弁別可能な画像の性状を意味し、例えば明度(階調)や彩度,色相,書式(文字種や文字サイズ,下線等の強調表示の有無)が表示態様の典型例である。また、音素記号自体の表示態様を相違させる構成のほか、音素記号の背景(地)の表示態様を音素の伸長の許否に応じて相違させる構成も包含され得る。例えば音素記号の背景の模様を相違させる構成や音素記号の背景を点滅させる構成が採用される。
本発明の好適な態様において、伸長設定手段は、各単位音の発音内容に対応する複数の音素のうち経時的に持続可能な持続音素について伸長の許否を設定する。以上の態様では、持続音素について伸長の許否が設定されるから、各音素について聴感的に自然な音色を維持したまま合成音を生成できるという利点がある。
以上の各態様に係る音声合成装置は、合成音の生成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、継続長と発音内容とを単位音毎に指定する合成情報を取得する情報取得処理と、各単位音の発音内容に対応する複数の音素の各々について伸長の許否を設定する伸長設定処理と、各単位音の発音内容に対応する複数の音声素片を接続することで合成情報に応じた合成音を生成する処理であって、各単位音の発音内容に対応する複数の音素のうち伸長設定処理で伸長を許可した音素に対応する音声素片を当該単位音の継続長に応じて伸長する音声合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音楽データ編集装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音声合成装置のブロック図である。 合成情報の模式図である。 楽譜領域の模式図である。 楽譜領域および設定画像の模式図である。 音声合成部の動作(音声素片の伸長)の説明図である。 音声合成部の動作(音声素片の伸長)の説明図である。 第2実施形態における楽譜領域および設定画像の模式図である。 変形例における楽譜領域の模式図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、素片接続型の音声合成で歌唱音の音声信号Sを生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と表示装置22と入力装置24と放音装置26とを具備するコンピュータシステムで実現される。例えば据置型の情報処理装置(パーソナルコンピュータ)や携帯型の情報処理装置(携帯電話機や携帯情報端末)で音声合成装置100が実現される。
演算処理装置12は、記憶装置14に記憶されたプログラムPGMを実行することで、音声信号Sを生成するための複数の機能(表示制御部32,情報取得部34,伸長設定部36,音声合成部38)を実現する。なお、演算処理装置12の機能を複数の装置に分散した構成や、演算処理装置12の機能の一部を専用の電子回路(DSP)が実現する構成も採用され得る。
表示装置22(例えば液晶表示パネル)は、演算処理装置12から指示された画像を表示する。入力装置24は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。なお、表示装置22と一体に構成されたタッチパネルを入力装置24として採用することも可能である。放音装置26(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号Sに応じた音響を再生する。
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(音声素片群DA,合成情報DB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用される。
音声素片群DAは、音声合成の素材として使用される複数種の音声素片の各々の素片データPで構成される音声合成ライブラリである。各素片データPは、例えば時間領域での音声素片の波形のサンプル系列や周波数領域での音声素片のスペクトルを規定する。各音声素片は、言語的な観点から音声を区分した最小単位である音素(例えば母音や子音)の単体(モノフォン)、または、複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。音素単体の音声素片の素片データPは、その音素を継続的に発音した音声のうち波形が安定した区間(音響特性が定常に維持される区間)を表現する。他方、音素連鎖の音声素片の素片データPは、先行の音素から後続の音素に遷移する音声を表現する。
音素は、時間的に発音が持続され得る音素(以下「持続音素」という)と、発音が時間的に持続されない(または持続され難い)音素(以下「非持続音素」という)とに区別される。持続音素の典型例は母音であるが、例えば破擦音や摩擦音や流音(鼻音)等の子音(有声子音,無声子音)も持続音素に包含され得る。他方、非持続音素は、発音が瞬間的に実行される音素(例えば、閉鎖状態にある声道の一時的な変形で発音される音素)である。例えば破裂音が非持続音素の典型例である。持続音素は時間的に伸長可能であるのに対し、非持続音素は、聴感的に自然な音色を維持したまま時間的に伸長することが困難であるという相違がある。
記憶装置14に記憶された合成情報DBは、音声合成の対象となる合成音を時系列に指定するデータ(スコアデータ)であり、図2に示すように、相異なる単位音(音符)に対応する複数の単位情報Uを含んで構成される。単位音は、例えば1個の音符に対応する合成単位である。各単位情報Uは、音高情報XAと時間情報XBと発音情報XCと伸長情報XDとを指定する。ただし、以上に例示した要素以外の情報(例えば音量やビブラート等の各単位音の音楽的な表情を制御するための変数)を単位情報Uに含ませることも可能である。図1の情報取得部34は、利用者からの指示に応じて合成情報DBを生成および編集する。
図2の音高情報XAは、単位音の音高(各音高に対応するノートナンバ)を指定する。なお、単位音の音高に対応する周波数を音高情報XAで指定することも可能である。時間情報XBは、時間軸上での単位音の発音期間を指定する。第1実施形態の時間情報XBは、図2に示すように、単位音の発音が開始する時刻を意味する発音時点XB1と、単位音の発音が継続する時間長(音価)を意味する継続長XB2とを指定する。なお、各単位音の発音時点XB1と消音時点とで継続長XB2を指定することも可能である。
発音情報XCは、単位音の発音内容(音韻)を指定する情報であり、音韻情報XC1と音素情報XC2とを含んで構成される。音韻情報XC1は、各単位音の発音内容を表現する発音文字(書記素)を指定する。第1実施形態では、1個の単位音に対応する1音節分の発音文字(例えば歌詞の文字列)が音韻情報XC1で指定される。音素情報XC2は、音韻情報XC1が指定する発音文字に対応する複数の音素の音素記号を指定する。なお、音韻情報XC1は各単位音の合成に必須の要素ではなく省略することも可能である。
図2の伸長情報XDは、発音情報XCが指定する発音内容に対応した複数の音素(すなわち音素情報XC2が指定する音素記号の各音素)の各々について時間的な伸長の許否を指定する。例えば、各音素の伸長の許否を2値(伸長の許可を意味する数値“1”と伸長の禁止を意味する数値“0”)で表現するフラグの系列が伸長情報XDとして利用される。第1実施形態の伸長情報XDは、持続音素について伸長の許否を指定し、非持続音素については伸長の許否を指定しない。なお、非持続音素については固定的に伸長の禁止を指定することも可能である。図1の伸長設定部36は、各単位音の複数の音素(持続音素)の各々について伸長の許否(伸長情報XD)を設定する。
図1の表示制御部32は、合成情報DBの内容(複数の単位音の時系列)を表現する図3の編集画面を表示装置22に表示させる。図3に示すように、表示装置22に表示される編集画面は、楽譜領域50を含んで構成される。楽譜領域50は、相互に交差する時間軸(横軸)ATと音高軸(縦軸)AFとが設定されたピアノロール型の座標平面である。各単位音を表象する図形(以下「音指示子」という)52が楽譜領域50内に配置される。なお、編集画面の具体的な形式は任意である。例えば、合成情報DBの内容をリスト形式で表示する構成や五線譜形式で各単位音を表示する構成も採用され得る。
利用者は、楽譜領域50に対する音指示子52の配置(単位音の追加)を入力装置24の操作で音声合成装置100に指示することが可能である。表示制御部32は、利用者から指示された音指示子52を楽譜領域50内に配置し、情報取得部34は、楽譜領域50に配置された音指示子52に対応する単位情報Uを合成情報DBに追加する。利用者が配置した音指示子52に対応する単位情報Uの音高情報XAは、音高軸AFの方向におけるその音指示子52の位置に応じて選定される。また、音指示子52に対応する単位情報Uの時間情報XBの発音時点XB1は、時間軸ATの方向におけるその音指示子52の位置に応じて選定され、時間情報XBの継続長XB2は、時間軸ATの方向におけるその音指示子52の表示長に応じて選定される。楽譜領域50内の既定の音指示子52に対する利用者からの指示に応じて、表示制御部32は、その音指示子52の位置や時間軸AT上の表示長を変更し、情報取得部34は、その音指示子52に対応する単位情報Uの音高情報XAおよび時間情報XBを変更する。
また、利用者は、入力装置24を適宜に操作することで、楽譜領域50内の任意の単位音の音指示子52を選択して所望の発音内容(発音文字)を指定することが可能である。情報取得部34は、利用者が指示した発音文字を指定する音韻情報XC1と、その発音文字に対応する音素記号を指定する音素情報XC2とを、利用者が選択した単位音の単位情報Uに設定する。また、伸長設定部36は、利用者が選択した単位音の伸長情報XDを初期値(例えば各音素の伸長を禁止する数値)に設定する。
表示制御部32は、図3に示すように、各単位音の音韻情報XC1が指定する発音文字54と音素情報XC2が指定する音素記号56とを、その単位音の音指示子52に対応する位置(例えば図3の例示のように音指示子52に重なる位置)に配置する。また、各単位音の発音内容の変更が利用者から指示されると、情報取得部34は、その単位音の音韻情報XC1と音素情報XC2とを利用者からの指示に応じて変更し、表示制御部32は、表示装置22に表示された発音文字54と音素記号56と利用者からの指示に応じて変更する。なお、以下の説明では、SAMPA(Speech Assessment Methods Phonetic Alphabet)に準拠した記号で各音素を表記する。なお、X-SAMPA(eXtended - SAMPA)でも同様の表記である。
所望の単位音(以下「選択単位音」という)の音指示子52を利用者が選択して入力装置24に所定の操作を付与すると、表示制御部32は、図4に示すように、選択単位音(図4では発音文字“fight”に対応する単位音)の音指示子52に対応する位置(例えば音指示子52の近傍)に設定画像60を表示させる。設定画像60は、選択単位音の発音内容に対応する複数の音素(選択単位音の音素情報XC2で指定される複数の音素)を利用者に提示して各音素の伸長の許否の指示を利用者から受付けるための画像である。
図4に示すように、設定画像60は、選択単位音の発音内容に対応する複数の音素(第1実施形態では持続音素)の各々について操作画像62を含んで構成される。利用者は、設定画像60内の所望の音素の操作画像62を操作することでその音素の伸長の許否(許可/禁止)を任意に指定することが可能である。伸長設定部36は、選択単位音の伸長情報XDが音素毎に指定する伸長の許否を設定画像60に対する利用者からの指示に応じて更新する。具体的には、伸長設定部36は、伸長の許可が指示された音素の伸長情報XDを数値“1“に設定し、伸長の禁止が指示された音素の伸長情報XDを数値“0”に設定する。
表示制御部32は、伸長情報XDが伸長の許可を示す音素の音素記号56と、伸長情報XDが伸長の禁止を示す音素の音素記号56とを相異なる態様(利用者が視覚的に区別できる態様)で表示装置22に表示させる。図3および図4では、伸長の許可が指示された音素/a/の音素記号56に下線を付加し、伸長が禁止された音素の音素記号56には下線を付加しない場合が例示されている。ただし、音素記号56の明度(階調)や彩度,色相,サイズ,文字種等の表示態様を伸長の許否に応じて相違させる構成や、音素記号56の背景の表示態様を音素の伸長の許否に応じて相違させる構成(例えば背景の模様を相違させた構成や点滅の有無を相違させた構成)も採用され得る。
図1の音声合成部38は、情報取得部34が生成した合成情報DBが時系列に指定する各単位音の発音情報XCに対応する複数の音声素片(素片データP)を時間軸上で相互に接続することで合成音の音声信号Sを生成する。具体的には、音声合成部38は、第1に、各単位音の発音情報XC(音素情報XC2が示す音素記号)に対応した音声素片の素片データPを記憶装置14の音声素片群DAから順次に選択し、第2に、各素片データPを、単位情報Uの音高情報XAが指定する音高と時間情報XBの継続長XB2が指定する時間長とに調整する。第3に、音声合成部38は、音高および時間長の調整後の各素片データPを、時間情報XBの発音時点XB1が指定する時刻に配置して相互に連結することで音声信号Sを生成する。音声合成部38が生成した音声信号Sが放音装置26に供給されて音波として再生される。
図5および図6は、音声合成部38が各素片データPを伸長する処理の説明図である。なお、以下の説明では、各音声素片を便宜的に括弧[ ]で表現して音素の表記と区別する。例えば、音素/a/および音素/I/の音素連鎖(二重母音)の音声素片は記号[a-I]で表現される。また、無音を1個の音素として便宜的に記号“#”で表記する。
図5の部分(A)には、音素/f/(無声唇歯摩擦音)と音素/a/(非円唇前舌広母音)と音素/I/(準狭準前舌非円唇母音)と音素/t/(無声歯茎破裂音)とが連続する1音節分の発音文字“fight”が例示されている。音素/a/と音素/I/とは重母音(二重母音)を構成する。発音文字“fight”のうち持続音素に該当する音素(/f/,/a/,/I/)毎に、設定画像60に対する利用者からの指示に応じて伸長の許否が個別に指定される。他方、非持続音素に該当する破裂音の音素/t/は伸長の対象から除外される。
音素/a/の伸長情報XDが伸長の許可を指定するとともに音素/f/および音素/I/の伸長情報XDが伸長の禁止を指定する場合、音声合成部38は、図5の部分(B)に示すように、[#-f],[f-a],[a],[a-I],[I-t],[t-#]の各音声素片の素片データPを音声素片群DAから選択し、伸長が許可された音素/a/に対応する音声素片[a]の素片データPを継続長XB2に応じた時間長(単位音の全体が継続長XB2となる時間長)に伸長する。音声素片[a]の素片データPは、音素/a/を発音した音声のうち波形が定常に維持される区間を表現する。音声素片(素片データP)の伸長には公知の技術が任意に採用される。例えば、音声素片の特定の区間(例えば1周期に相当する区間)を時間軸上で反復することで音声素片が伸長される。他方、伸長が禁止された音素(/f/,/I/,/t/)を含む音声素片([#-f],[f-a],[a-I],[I-t],[t-#])の素片データPは伸長されない。
音素/I/の伸長情報XDが伸長の許可を指定するとともに音素/f/および音素/a/の伸長情報XDが伸長の禁止を指定する場合、音声合成部38は、図5の部分(C)に示すように、[#-f],[f-a],[a-I],[I],[I-t],[t-#]の各音声素片を選択し、伸長が許可された音素/I/に対応する音声素片[I]を継続長XB2に応じた時間長に伸長する。他方、伸長が禁止された音素(/f/,/a/,/t/)を含む音声素片([#-f],[f-a],[a-I],[I-t],[t-#])の素片データPは伸長されない。
音素/a/および音素/I/の双方の伸長情報XDが伸長の許可を指定するとともに音素/f/の伸長情報XDが伸長の禁止を指定する場合、音声合成部38は、図5の部分(D)に示すように、[#-f],[f-a],[a],[a-I],[I],[I-t],[t-#]の各音声素片を選択し、音素/a/の音声素片[a]と音素/I/の音声素片[I]とを継続長XB2に応じた時間長に伸長する。
図6の部分(A)には、音素/f/(無声唇歯摩擦音)と音素/V/(非円唇後舌半広母音)と音素/n/(歯茎鼻音)とが連続する1音節分の発音文字“fun”が例示されている。発音文字を構成する各音素(持続音素)/f/,/V/および/n/について伸長の許否が利用者からの指示に応じて個別に指定される。
音素/V/の伸長情報XDが伸長の許可を指定するとともに音素/f/および音素/n/の伸長情報XDが伸長の禁止を指定する場合、音声合成部38は、図6の部分(B)に示すように、[#-f],[f-V],[V],[V-n],[n-#]の各音声素片を選択し、伸長が許可された音素/V/に対応する音声素片[V]を継続長XB2に応じた時間長に伸長する。伸長が禁止された音素(/f/,/n/)を含む音声素片([#-f],[f-V],[V-n],[n-#])は伸長されない。
他方、音素/n/の伸長情報XDが伸長の許可を指定するとともに音素/f/および音素/V/の伸長情報XDが伸長の禁止を指定する場合、音声合成部38は、図6の部分(C)に示すように、[#-f],[f-V],[V-n],[n],[n-#]の各音声素片を選択し、伸長が許可された音素/n/に対応する音声素片[n]を継続長XB2に応じた時間長に伸長する。伸長が禁止された音素(/f/,/V/)を含む音声素片([#-f],[f-V],[V-n],[n-#])は伸長されない。
音素/V/および音素/n/の双方の伸長情報XDが伸長の許可を指定するとともに音素/f/の伸長情報XDが伸長の禁止を指定する場合、音声合成部38は、図6の部分(D)に示すように、[#-f],[f-V],[V],[V-n],[n],[n-#]の各音声素片を選択し、音素/V/の音声素片[V]と音素/n/の音声素片[n]とを継続長XB2に応じた時間長に伸長する。
以上の例示から理解されるように、音声合成部38は、1個の単位音の発音内容に対応する複数の音素のうち伸長設定部36が伸長を許可した音素に対応する音声素片をその単位音の継続長XB2に応じて伸長する。具体的には、伸長設定部36が伸長を許可した音素単体に対応する音声素片(図5の例示における音声素片[a]および[I]や図6の例示における音声素片[V]および[n])を音声素片群DAから選択して継続長XB2に応じて伸長する。
以上に説明したように、第1実施形態では、1個の単位音の発音内容に対応する複数の音素の各々について個別に伸長の許否が設定されるから、例えば重母音のうち先頭の1個の母音の音声素片を伸長する構成と比較して音声素片の伸長に関する制約が緩和される。したがって、多様な合成音を生成できるという利点がある。例えば前掲の図5に例示された発音文字“fight”については、音素/a/を伸長した「ファーイト[fa:It]」という合成音(図5の部分(B))と、音素/I/を伸長した「ファイート[faI:t]」という合成音(図5の部分(C))と、音素/a/および音素/I/の双方を伸長した「ファーイート[fa:I:t]」という合成音(図5の部分(D))とを生成することが可能である。第1実施形態では特に、各音素の伸長の許否が利用者からの指示に応じて設定されるから、利用者の意図に合致した多様な合成音を生成できるという利点がある。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図7は、第2実施形態の表示制御部32が表示装置22に表示させる設定画像70の模式図である。第2実施形態の設定画像70は、第1実施形態の設定画像60と同様に、楽譜領域50から利用者が選択した選択単位音の発音内容に対応する複数の音素を利用者に提示して各音素の伸長の許否の指示を利用者から受付ける画像である。具体的には、設定画像70は、図7に示すように、選択単位音に対応する音指示子72と、選択単位音の複数の音素のうち相前後する各音素の境界を指示する操作画像74(74A,74B)とを含んで構成される。音指示子72は、時間軸ATの方向(横方向)に延在して選択単位音の発音区間を表象する帯状(または直線状)の図形である。利用者は、入力装置24を適宜に操作することで各操作画像74を時間軸ATの方向に任意に移動させることが可能である。音指示子72を各操作画像74の時点で区分した各区間の表示長が選択単位音の各音素の継続長に相当する。具体的には、発音文字“fun”に対応する3個の音素(/f/,/V/,/n/)のうち最初の音素/f/の継続長は、音指示子72の左端と操作画像74Aとの間隔で規定され、音素/V/の継続長は操作画像74Aと操作画像74Bとの間隔で規定され、最後の音素/n/の継続長は操作画像74Bと音指示子72の右端との間隔で規定される。
第2実施形態の伸長設定部36は、設定画像70内の各操作画像74の位置に応じて音素毎の伸長の許否を設定する。音声合成部38は、1個の単位音に対応する各音素の継続長が、設定画像70で指定された各音素の継続長の比率に合致するように、各音声素片を伸長する。すなわち、第2実施形態においても第1実施形態と同様に、各単位音の複数の音素の各々について伸長の許否が個別に設定される。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の各形態では、英語(発音文字“fight”や“fun”)を発声した合成音を生成する場合を例示したが、合成音の言語は任意である。なお、言語によっては、第1子音-母音-第2子音(C-V-C)という1音節分の音素連鎖が1個の単位音の発音文字として指定され得る場合がある。例えば韓国語では、「パッチム」と呼ばれる第2子音(音節の最後に位置する子音)を含む第1子音-母音-第2子音の音素連鎖が存在する。第1子音や第2子音が持続音素である場合、前述の第1実施形態や第2実施形態と同様に、第1子音と母音と第2子音との各々の伸長の可否を個別に設定する構成が好適である。例えば、第1子音の音素/h/と母音の音素/a/と第2子音の音素/n/とで構成される1音節分の発音文字“han”が1個の単位音に指定された場合、音素/a/を伸長した「ハーン[ha:n]」という合成音と、音素/n/を伸長した「ハンー[han:]」という合成音とを選択的に生成することが可能である。
また、第1実施形態で参照した図5では、音素/a/と音素/I/とが1音節内で連続する二重母音を含む発音文字“fight“を例示したが、中国語では、3個の母音が1音節内で連続する重母音(三重母音)が1個の単位音の発音文字として指定され得る。したがって、三重母音の3個の母音の音素の各々について伸長の可否を個別に設定する構成が好適である。
(2)前述の各形態では情報取得部34が利用者からの指示に応じて合成情報DBを生成したが、情報取得部34が例えば通信網を介して外部装置から合成情報DBを取得する構成や、情報取得部34が可搬型の記録媒体から合成情報DBを取得する構成も採用され得る。すなわち、利用者からの指示に応じて合成情報DBを生成ないし編集する構成は省略され得る。以上の説明から理解されるように、情報取得部34は、合成情報DBを取得する要素(外部装置から合成情報DBを取得する要素または合成情報DBを自身が生成する要素)として包括される。
(3)前述の各形態では、1音節の発音文字を1個の単位音に指定する場合を例示したが、1音節分の発音文字を複数の単位音に付与することも可能である。例えば、図8に示すように、1音節分の発音文字“fun”の全体と最後の音素/n/とを相異なる単位音に付与することが可能である。以上の構成によれば、合成音の1音節内で音高を変化させることが可能である。
(4)前述の各形態では、非持続音素について伸長の許否を指定しない構成を例示したが、非持続音素について伸長の許否を指定可能な構成も採用され得る。非持続音素の音声素片はその非持続音素の発音前の無音区間を含む。そこで、非持続音素について伸長が許可された場合、音声合成部38は、例えば、非持続音素の音声素片のうちの無音区間を伸長する。
100……音声合成装置、12……演算処理装置、14……記憶装置、22……表示装置、24……入力装置、26……放音装置、32……表示制御部、34……情報取得部、36……伸長設定部、38……音声合成部。

Claims (5)

  1. 継続長と発音内容とを音符毎に指定する合成情報を取得する情報取得手段と、
    前記各音符の発音内容に対応する複数の音素の各々の伸長の許否を利用者からの指示に応じて音素毎に個別に設定する伸長設定手段と、
    前記各音符の発音内容に対応する複数の音声素片を接続することで前記合成情報に応じた合成音を生成する手段であって、前記各音符の発音内容に対応する複数の音素のうち前記伸長設定手段が伸長を許可した音素に対応する音声素片を当該音符の継続長に応じて伸長する音声合成手段と
    を具備する音声合成装置。
  2. 前記合成情報が指定する複数の音符のうち利用者が選択した音符の発音内容に対応する複数の音素を提示して各音素の伸長の許否の指示を利用者から受付ける設定画像を表示させる第1表示制御手段
    を具備する請求項1の音声合成装置。
  3. 前記各音符の発音内容に対応する複数の音素の各々の音素記号を、前記伸長設定手段が伸長を許可した音素と前記伸長設定手段が伸長を禁止した音素とで表示態様が相違するように表示装置に表示させる第2表示制御手段
    を具備する請求項1または請求項2の音声合成装置。
  4. 前記伸長設定手段は、前記各音符の発音内容に対応する複数の音素のうち経時的に持続可能な持続音素について伸長の許否を設定する
    請求項1から請求項3の何れかの音声合成装置。
  5. コンピュータシステムが、
    継続長と発音内容とを音符毎に指定する合成情報を取得し、
    前記各音符の発音内容に対応する複数の音素の各々の伸長の許否を利用者からの指示に応じて音素毎に個別に設定し、
    前記各音符の発音内容に対応する複数の音声素片を接続することで前記合成情報に応じた合成音を生成する一方、
    前記合成音の生成においては、前記各音符の発音内容に対応する複数の音素のうち前記伸長が許可された音素に対応する音声素片を、当該音符の継続長に応じて伸長する
    音声合成方法。
JP2012074858A 2012-03-28 2012-03-28 音声合成装置および音声合成方法 Active JP6127371B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012074858A JP6127371B2 (ja) 2012-03-28 2012-03-28 音声合成装置および音声合成方法
US13/777,994 US9552806B2 (en) 2012-03-28 2013-02-26 Sound synthesizing apparatus
EP13158187.8A EP2645363B1 (en) 2012-03-28 2013-03-07 Sound synthesizing apparatus and method
CN201310104780.XA CN103366730B (zh) 2012-03-28 2013-03-28 声音合成设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012074858A JP6127371B2 (ja) 2012-03-28 2012-03-28 音声合成装置および音声合成方法

Publications (2)

Publication Number Publication Date
JP2013205638A JP2013205638A (ja) 2013-10-07
JP6127371B2 true JP6127371B2 (ja) 2017-05-17

Family

ID=47843125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012074858A Active JP6127371B2 (ja) 2012-03-28 2012-03-28 音声合成装置および音声合成方法

Country Status (4)

Country Link
US (1) US9552806B2 (ja)
EP (1) EP2645363B1 (ja)
JP (1) JP6127371B2 (ja)
CN (1) CN103366730B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916295B1 (en) * 2013-03-15 2018-03-13 Richard Henry Dana Crawford Synchronous context alignments
JP6569246B2 (ja) * 2015-03-05 2019-09-04 ヤマハ株式会社 音声合成用データ編集装置
WO2016196041A1 (en) * 2015-06-05 2016-12-08 Trustees Of Boston University Low-dimensional real-time concatenative speech synthesizer
JP6784022B2 (ja) 2015-12-18 2020-11-11 ヤマハ株式会社 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
JP6523998B2 (ja) * 2016-03-14 2019-06-05 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
EP3602539A4 (en) * 2017-03-23 2021-08-11 D&M Holdings, Inc. SYSTEM FOR PROVIDING EXPRESSIVE AND EMOTIONAL TEXT-TO-LANGUAGE
JP6988343B2 (ja) * 2017-09-29 2022-01-05 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
CN113421548B (zh) * 2021-06-30 2024-02-06 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4034344C2 (de) 1990-10-29 2003-11-27 Philips Broadcast Television S Anordnung zur Wiedergabe breitbandiger Signale für ein magnetisches Aufzeichnungs/Wiedergabe-Gerät
DE69228211T2 (de) * 1991-08-09 1999-07-08 Koninkl Philips Electronics Nv Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
CA2221762C (en) * 1995-06-13 2002-08-20 British Telecommunications Public Limited Company Ideal phonetic unit duration adjustment for text-to-speech system
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP2001343987A (ja) * 2000-05-31 2001-12-14 Sanyo Electric Co Ltd 音声合成方法、および音声合成装置
JP3589972B2 (ja) * 2000-10-12 2004-11-17 沖電気工業株式会社 音声合成装置
US7031922B1 (en) * 2000-11-20 2006-04-18 East Carolina University Methods and devices for enhancing fluency in persons who stutter employing visual speech gestures
US7546241B2 (en) * 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus
US20040102973A1 (en) * 2002-11-21 2004-05-27 Lott Christopher B. Process, apparatus, and system for phonetic dictation and instruction
JP3843953B2 (ja) 2003-02-27 2006-11-08 ヤマハ株式会社 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
WO2004109659A1 (ja) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
EP1726005A4 (en) * 2004-03-05 2007-06-20 Lessac Technologies Inc CODES FOR THE SYNTHESIS OF TEXT SPEECH, USE OF THEM IN COMPUTERIZED SPEECH SYSTEMS
JP4265501B2 (ja) 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
JP4298612B2 (ja) * 2004-09-01 2009-07-22 株式会社フュートレック 音楽データ加工方法、音楽データ加工装置、音楽データ加工システム及びコンピュータプログラム
JP5029167B2 (ja) 2007-06-25 2012-09-19 富士通株式会社 音声読み上げのための装置、プログラム及び方法
JP5029168B2 (ja) * 2007-06-25 2012-09-19 富士通株式会社 音声読み上げのための装置、プログラム及び方法
US8370151B2 (en) * 2009-01-15 2013-02-05 K-Nfb Reading Technology, Inc. Systems and methods for multiple voice document narration
JP5482042B2 (ja) * 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム
JP5423375B2 (ja) * 2009-12-15 2014-02-19 ヤマハ株式会社 音声合成装置
JP5257856B2 (ja) 2010-09-27 2013-08-07 Toto株式会社 燃料電池セルスタックユニット
JP2012163721A (ja) * 2011-02-04 2012-08-30 Toshiba Corp 読み記号列編集装置および読み記号列編集方法

Also Published As

Publication number Publication date
EP2645363B1 (en) 2014-12-03
JP2013205638A (ja) 2013-10-07
CN103366730A (zh) 2013-10-23
US9552806B2 (en) 2017-01-24
EP2645363A1 (en) 2013-10-02
US20130262121A1 (en) 2013-10-03
CN103366730B (zh) 2016-12-28

Similar Documents

Publication Publication Date Title
JP6127371B2 (ja) 音声合成装置および音声合成方法
JP6070010B2 (ja) 音楽データ表示装置および音楽データ表示方法
JP4973337B2 (ja) 音声読み上げのための装置、プログラム及び方法
JP6507579B2 (ja) 音声合成方法
JP6728754B2 (ja) 発音装置、発音方法および発音プログラム
JP2013137520A (ja) 音楽データ編集装置
JP2009003395A (ja) 音声読み上げのための装置、プログラム及び方法
JP5423375B2 (ja) 音声合成装置
JP6044284B2 (ja) 音声合成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP2015011146A (ja) 音響処理装置
JP2015011147A (ja) 楽曲表示装置
JP6413220B2 (ja) 合成情報管理装置
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
JP5982942B2 (ja) 音声合成装置
JP6149373B2 (ja) 音声合成データ編集装置および音声合成データ編集方法
WO2019239972A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP5641266B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2013238664A (ja) 音声素片切出装置
JP2015079063A (ja) 合成情報管理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150122

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170327

R151 Written notification of patent or utility model registration

Ref document number: 6127371

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151