JP5879682B2 - 音声合成装置及びプログラム - Google Patents

音声合成装置及びプログラム Download PDF

Info

Publication number
JP5879682B2
JP5879682B2 JP2010266776A JP2010266776A JP5879682B2 JP 5879682 B2 JP5879682 B2 JP 5879682B2 JP 2010266776 A JP2010266776 A JP 2010266776A JP 2010266776 A JP2010266776 A JP 2010266776A JP 5879682 B2 JP5879682 B2 JP 5879682B2
Authority
JP
Japan
Prior art keywords
character
character string
pitch
constituting
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010266776A
Other languages
English (en)
Other versions
JP2012103654A (ja
Inventor
英治 赤澤
英治 赤澤
劔持 秀紀
秀紀 劔持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010266776A priority Critical patent/JP5879682B2/ja
Publication of JP2012103654A publication Critical patent/JP2012103654A/ja
Application granted granted Critical
Publication of JP5879682B2 publication Critical patent/JP5879682B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声合成装置及びプログラムに関する。
複数の音の音高および音長(以下「音符列」という)がデータとして入力された場合に、マウスやキーボードの操作に応じて、入力された音符列に対して、音程の連続変化やビブラート等の音響効果を反映させる技術が知られている(例えば特許文献1〜4)。
特開平10−143155号公報 特許3781167号公報 特許3620405号公報 特開2002−372972号公報
ところで、歌は、歌詞という文字列と上述した音符列とが対応付けられたものであるが、上記特許文献1〜4に記載の技術は、音符列のみを処理の対象としたものであって、歌詞という文字列と音符列との関係を考慮した技術ではない。
本発明は、文字列に対して音符列の割り当てを容易に行える技術を提供することを目的とする。
本発明は、複数の文字によって構成された文字列を取得する文字列取得手段と、取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示手段と、時間を表す第1軸および音高を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示手段と、表示されている前記図形において、表示されている前記文字列を構成する各文字に対応する位置の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て手段と、前記文字列を構成する各文字を前記割り当て手段によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成手段と、単語を発音するときの発音時間に対する、当該単語を構成する各文字の発音時間の長さ又は当該単語を構成する各文字の発音時間の比を、複数の単語について記憶する発音長辞書記憶手段とを備え、前記割り当て手段は、前記文字列の全体を発音するときの音長であって利用者が指定した文字列音長と、当該文字列を構成する各文字について前記発音長辞書記憶手段に記憶されている前記発音時間の長さ又は前記発音時間の比とに基づいて、前記各文字に音長を割り当てることを特徴とする音声合成装置を提供する。
また、本発明は、複数の文字によって構成された文字列を取得する文字列取得手段と、取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示手段と、時間を表す第1軸および音高を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示手段と、表示されている前記図形において、表示されている前記文字列を構成する各文字に対応する位置の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て手段と、前記文字列を構成する各文字を前記割り当て手段によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成手段と、前記文字列を構成する各文字に音高又は音長を割り当てるときの指標を前記表示手段に表示させる指標表示手段とを備え、前記割り当て手段は、前記指標表示手段によって表示されている指標に従って、前記図形において前記文字列を構成する各文字に対応する位置の座標値を補正し、当該補正後の座標値に基づき、前記各文字に音高及び音長を割り当てることを特徴とする音声合成装置を提供する。
また、本発明は、複数の文字によって構成された文字列を取得する文字列取得手段と、取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示手段と、時間を表す第1軸および音高を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示手段と、表示されている前記図形において、表示されている前記文字列を構成する各文字に対応する位置の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て手段と、前記文字列を構成する各文字を前記割り当て手段によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成手段と、複数の図形の形状の各々に対応付けて、文字が発音される際に適用される音響効果を記憶した音響効果記憶手段とを備え、前記図形表示手段は、前記表示手段に表示されている図形に対して重ね合わせられた図形が利用者によって指定されると、当該重ね合わせられた図形を前記表示手段に表示させ、前記割り当て手段は、前記音響効果記憶手段に記憶されている複数の図形の形状のうち、前記重ね合わせられた図形との類似度が閾値を超える図形の形状を特定し、特定した図形の形状に対応付けられて記憶されている音響効果を、当該重ね合わせられた図形の座標値に対応する位置に表示されている前記文字に割り当てることを特徴とする音声合成装置を提供する。
また、本発明は、コンピュータに、複数の文字によって構成された文字列を取得する文字列取得機能と、取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示機能と、音高を表す第1軸および時間を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示機能と、表示されている前記文字列を構成する各文字に対応する前記図形の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て機能と、前記文字列を構成する各文字を前記割り当て機能によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成機能と、単語を発音するときの発音時間に対する、当該単語を構成する各文字の発音時間の長さ又は当該単語を構成する各文字の発音時間の比を、複数の単語について記憶する発音長辞書記憶機能とを実現させるためのプログラムであって、前記割り当て機能においては、前記文字列の全体を発音するときの音長であって利用者が指定した文字列音長と、当該文字列を構成する各文字について前記発音長辞書記憶機能によって記憶されている前記発音時間の長さ又は前記発音時間の比とに基づいて、前記各文字に音長が割り当てられることを特徴とするプログラムを提供する。
さらに、本発明は、コンピュータに、複数の文字によって構成された文字列を取得する文字列取得機能と、取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示機能と、音高を表す第1軸および時間を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示機能と、表示されている前記文字列を構成する各文字に対応する前記図形の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て機能と、前記文字列を構成する各文字を前記割り当て機能によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成機能と、前記文字列を構成する各文字に音高又は音長を割り当てるときの指標を前記表示手段に表示させる指標表示機能とを実現させるためのプログラムであって、前記割り当て機能においては、前記指標表示機能によって表示されている指標に従って、前記図形において前記文字列を構成する各文字に対応する位置の座標値が補正され、当該補正後の座標値に基づき、前記各文字に音高及び音長が割り当てられることを特徴とするプログラムを提供する。
さらに、本発明は、コンピュータに、複数の文字によって構成された文字列を取得する文字列取得機能と、取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示機能と、音高を表す第1軸および時間を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示機能と、表示されている前記文字列を構成する各文字に対応する前記図形の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て機能と、前記文字列を構成する各文字を前記割り当て機能によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成機能と、複数の図形の形状の各々に対応付けて、文字が発音される際に適用される音響効果を記憶する音響効果記憶機能と、を実現させるためのプログラムであって、前記図形表示機能においては、前記表示手段に表示されている図形に対して重ね合わせられた図形が利用者によって指定されると、当該重ね合わせられた図形が前記表示手段に表示され、前記割り当て機能においては、前記音響効果記憶機能によって記憶されている複数の図形の形状のうち、前記重ね合わせられた図形との類似度が閾値を超える図形の形状が特定され、特定された図形の形状に対応付けられて記憶されている音響効果が、当該重ね合わせられた図形の座標値に対応する位置に表示されている前記文字に割り当てられることを特徴とするプログラムを提供する。
本発明によれば、文字列に対して音符列の割り当てを容易に行うことが可能となる。
本発明の実施形態に係る音声合成装置のハードウェア構成を表すブロック図 発音辞書DBの内容を表す図 最短発音時間DBの内容を表す図 音声DBの内容を表す図 音響効果DBの内容を表す図 音声合成装置の機能構成を表すブロック図 音声合成装置の外観及び表示内容を表す図 音声合成装置の処理フロー図 軌跡分析処理及び文字間隔制御処理を説明するための模式図 音声合成処理を説明するための模式図 音声合成処理を説明するための模式図 音声合成処理を説明するための模式図 音声DBの内容を表す図 変形例10を説明するための模式図 音高に対する補正機能を説明する模式図 音長に対する補正機能を説明する模式図 初期値発音辞書DBの内容を表す図 変形例13に係る、音声合成装置の表示内容を表す図
以下、本発明の一実施形態について説明する。
<実施形態>
<構成>
図1は、本発明の実施形態に係る音声合成装置100のハードウェア構成を表すブロック図である。この音声合成装置100は、制御部10、記憶部20、UI(User Interface)部30、及び音声出力部40を備えており、各部がバスを介して接続されている。音声合成装置100は、文字列と、音符列を含む発音に関する情報である音声情報とに基づいて音声データを合成し、この合成された音声データに基づく音声を出力する装置である。本実施形態においては、音声合成装置100はスマートフォンである。制御部10は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを有する。CPUは、ROMや記憶部20に記憶されている制御プログラムを読み出して、RAMにロードして実行することにより、音声合成装置100の各部をバス経由で制御する。また、RAMは、CPUがデータの加工などを行う際のワークエリアとして機能する。
記憶部20は、コンピュータを音声合成装置として機能させるためのアプリケーションプログラム(以下このプログラムを「音声合成アプリケーション」という)を記憶している。制御部10がこの音声合成アプリケーションを実行することにより、音声合成装置100に、後述する図6に示される機能が実現される。また、記憶部20は、発音辞書DB(Database)21、最短発音時間DB22、音声DB23、及び音響効果DB24を備える。発音辞書DB21は、利用者によって入力された文字列に発音時間が割り当てられる際の基準となるデータである、複数の発音レコードからなる。最短発音時間DB22は、「あ」や「い」といった一文字毎に、その文字が発音される場合に最低限必要とされる時間の長さを割り当てたものである、複数の最短発音時間レコードからなる。
音声DB23は、利用者による入力内容に従って合成される音声に関するデータである、複数の音声レコードからなる。この音声レコードは、利用者が入力した文字列(入力文字列という)に対して、この文字列を構成する1文字毎に音符列と音響効果とを対応付けたものである。この音声レコードは、利用者による入力内容に従って生成され、音声DB23に登録される。音響効果DB24は、予め決められた図形の形状(音響効果図形という)と音響効果の種類とを対応付けた、複数の音響効果レコードからなる。例えば、或る一定範囲の間隔でピーク値をとる波形の図形に対しては、ビブラートという音響効果が対応付けられている、といった具合である。
図2は、発音辞書DB21の内容を表す図である。発音辞書DB21に含まれる各発音レコードは、識別ID、文字列、文字数、及び基準割り当て音長といった複数の項目からなる。識別IDは、各発音レコードを一意に識別するためのIDであり、例えば6桁の数字からなる。文字列は、発音の対象となる単語として予め決められたものである。文字数は、文字列を構成する文字の数である。基準割り当て音長は、文字列を構成する各文字についてその文字列の先頭の文字から順番に割り当てられた発音時間の長さである。基準割り当て音長においては、該当する文字列が自然な抑揚で発音された場合に掛かる時間の長さに基づいて、各文字における音長が予め決定されている。例えば識別IDが「000001」である発音レコードは、「おはよう」という「4つ」の文字数からなる文字列について、「お」、「は」、及び「よ」という文字についてはそれぞれ「0.2秒」ずつ発音がなされ、「う」という文字については「0.1秒」発音がなされることを表している。これらの0.2秒とか0.1秒という数値は、文字列を構成する各文字の発音時間の比を意味しているから、発音辞書DB21は、単語を発音するときの発音時間に対する、当該単語を構成する各文字の発音時間の比を、複数の単語について記憶する発音辞書記憶手段の一例である。
図3は、最短発音時間DB22の内容を表す図である。最短発音時間DB22に含まれる各最短発音時間レコードは、識別ID、文字、及び最短発音時間といった複数の項目からなる。識別IDは、各最短発音時間レコードを一意に識別するためのIDであり、例えば4桁の数字からなる。文字は、例えば平仮名であれば「あ」から「ん」までの文字である。ここで、文字は、平仮名に限らず、漢字、数字あるいはアルファベット等であってもよい。最短発音時間は、該当する文字が発音される場合に最低限必要とされる時間の長さであり、例えば実験的にその文字を聞き取ることが可能とされた最短時間に基づいて予め決定されている。例えば図3において、「あ」という文字は、少なくとも「0.05秒」の発音時間が必要とされることを表している。この最短発音時間DB22は、文字が発音されるときの最短の音長を複数の文字について記憶する最短発音時間記憶手段である。なお、文字によっては(例えば母音である「あ」、「い」、「う」、「え」及び「お」や、撥音である「ん」)、最短発音時間DB22に最短発音時間レコードが登録されていなくともよい。
図4は音声DB23の内容を表す図である。音声DB23に含まれる音声レコードは、文字順ID、入力文字、音高、音長、及び音響効果といった複数の項目からなる。文字順IDは、各音声レコードを一意に識別し、且つ各入力文字の並び順を表すためのIDであり、例えば4桁の数字からなる。入力文字は、利用者によって歌詞として入力された文字列を構成する各文字である。音高は、文字が発音される際の音の高さであり、周波数により表される。音長は、文字が発音される際に掛かる時間を表す。音響効果は、文字に適用される音響効果の種類を表す。以降において、文字に対して音響効果が適用されることを、その音響効果が“かかった”状態であるという場合がある。例えば図4に示される音声レコードに対応する文字列が発音される際には、文字順IDに従って、「こ」、「ん」、「に」、「ち」、「は」の順番で発音がなされる。図4において、例えば「こ」という文字は、「406Hz」の音高で「0.3秒」の間、「ビブラート」のかかった状態で発音がなされることを表している。なお、図4では、「こんにちは」という文字列についての音声レコードしか図示していないが、実際には、この「こんにちは」以外の全ての文字列に含まれる各文字についての音声レコードがこの音声DB23に含まれている。
図5は音響効果DB24の内容を表す図である。
音響効果DB24に含まれる音響効果レコードは、識別ID、音響効果図形、音響効果といった複数の項目からなる。識別IDは各音響効果レコードを一意に識別する数字であり、例えば3桁の数字からなる。音響効果図形は、図形の形状を表すデータであり、音響効果レコード毎にその形状が異なっている。音響効果は、発音の際に文字にかけられる音響効果の種類である。例えば、図5に示されるように、識別IDが「001」であって、音響効果図形が或る一定範囲の間隔でピーク値をとる波型の図形である音響効果レコードには、「ビブラート」の音響効果が対応付けられている。音響効果DB24は、複数の図形の形状の各々に対応付けて、文字が発音される際に適用される音響効果とを対応付けて記憶した音響効果記憶手段である。
再び図1に戻る。UI部30は、ボタン(非図示)及びタッチスクリーン31を備える。利用者が、ボタンあるいはタッチスクリーン31を操作すると、UI部30はその操作に応じた信号を制御部10に供給する。制御部10は、受け取った信号に基づいて音声合成装置100の全体を制御する。タッチスクリーン31は、表示装置の画面上に光透過性のタッチセンサが積層された構造を有している。利用者は、表示装置に表示されている画像を見ながら、タッチスクリーン31に指を触れたりタッチスクリーン31上を指でなぞったりするなどの操作を行うことにより、音声合成装置100に対して指示を入力する。
音声出力部40は、DAC(Digital Analog Converter)、アンプ、及びスピーカを備えている。音声出力部40は、制御部10から供給されるデジタルの音声データをDACによってアナログの音声データに変換して、それをさらにアンプで増幅し、スピーカから増幅後のアナログの音声信号に応じた音声を出力させる。
この音声合成装置100において、利用者は、タッチスクリーン31を介して、発音対象の文字列(つまり歌詞)を入力し、さらにこの文字列をどのように発音させるかを表す音声情報を図形によって入力する。この音声情報は、入力された文字列に対する文字列音長、音高、音長、及び音響効果を表している。なお、文字列音長とは、文字列全体が発音される際に掛かる時間のことであり、各文字に割り当てられる音長を合計した時間に相当する。音声合成装置100は、これらの文字列と音声情報とに基づいて音声データを合成し、この合成された音声データに基づく音声を出力する。
図6は、音声合成装置100の機能構成を表すブロック図である。文字列取得手段11は、利用者がタッチスクリーン31を介して入力した、複数の文字によって構成された文字列を取得し、RAMに記憶させる。基準音長特定手段12は、RAMに記憶された入力文字列を用いて発音辞書DB21を検索し、該当する発音レコードを特定すると、特定した発音レコードをRAMに記憶する。
表示制御手段13は、利用者によりUI部30を通じて行われた操作に応じて、タッチスクリーン31に表示する内容を制御する。例えば、表示制御手段13は、RAMに記憶された入力文字列について、この入力文字列を構成する文字の各々を表す画像(入力文字画像という)をタッチスクリーン31に表示させる。このように、表示制御手段13は、取得された文字列を構成する各文字を表示手段であるタッチスクリーン31に表示させる文字列表示手段13Aとして機能する。また、表示制御手段13は、利用者がタッチスクリーン31を指でなぞったときの、その指先の位置の軌跡をタッチスクリーン31に表示させる。タッチスクリーン31は、後述する図7で説明するように、時間を表す第1軸と音高を表す第2軸とで構成される座標系が設定された表示領域を備えており、この表示領域に対して利用者がタッチスクリーン31を指でなぞって軌跡を描く。この軌跡は、上述した音声情報を表す図形、つまり入力文字列に対する文字列音長、音高、音長、及び音響効果を表す図形に相当するものであり、後述する図7で説明するように、入力文字画像に対応付けた状態でタッチスクリーン31に表示される。以下、この図形のことをピッチカーブという。このように、表示制御手段13は、利用者によって指定された、時間を表す第1軸および音高を表す第2軸を有する座標系における図形(ピッチカーブ103)を、入力文字列を構成する各文字を表す入力文字画像104に対応付けた状態でタッチスクリーン31に表示させる図形表示手段13Bとして機能する。
文字間隔制御手段14は、利用者がタッチスクリーン31に表示される入力文字画像をドラッグし、その表示位置を変更する操作に応じて、各入力文字画像104の間隔を制御し、この制御内容(文字間隔制御内容という)をRAMに記憶するとともに表示制御手段13に入力する。ここで、入力文字画像104とは、利用者がテキストボックス101に入力した内容に応じて表示される各文字の画像である(図7参照)。また、ここでいうドラッグとは、タッチスクリーン31上で入力文字画像104を指先で触って選択し、そのままの状態で指先を移動させることをいう。文字間隔制御内容には、タッチスクリーン31に表示される各入力文字画像104同士の間の距離を表す数値が含まれる。この数値は常に0以上の値を取る。表示制御手段13は、入力された文字間隔制御内容に含まれる、隣り合う位置にある入力文字画像の距離を表す数値(文字間隔値という)が0である場合、タッチスクリーン31において、これらの入力文字画像104を結合された状態で表示させる。ここで、「結合」とは、1つの入力文字画像104を囲む矩形と、この入力文字画像104と隣り合う入力文字画像104を囲む矩形とが接している状態を意味する(図7参照)。
また、表示制御手段13は、文字間隔値が0でない場合、この文字間隔値に応じた距離を空けて、入力文字画像104を分離された状態で表示させる。ここで、「分離」とは、1つの入力文字画像104を囲む矩形と、この入力文字画像104と隣り合う入力文字画像104を囲む矩形とが離れている状態を意味する。つまり、文字列表示手段13Aとして機能する表示制御手段13は、タッチスクリーン31に表示されている各文字の位置を利用者の指示に従って変更して、この各文字を表示させる(図7参照)。軌跡分析手段15は、上述したピッチカーブと各入力文字画像104との関係を分析し、入力文字列に対する文字列音長、音高、音長、及び音響効果を分析結果として算出すると、この分析結果をRAMに記憶する。このとき、軌跡分析手段15は、タッチスクリーン31上の座標系において、各入力文字画像104に対応する図形(ピッチカーブ103)の座標値に基づき、各文字に対する音高及び音長を算出する。
音声レコード生成手段16は、RAMに記憶された、入力文字列、発音レコード、文字間隔制御内容、及び軌跡分析手段15によるピッチカーブの分析結果と、最短発音時間DB22の内容とを入力パラメータとして、音声レコードを生成する処理を行う。この際、音声レコード生成手段16は、入力文字列を構成する各文字に対して、音高、音長、音響効果を割り当てる。音声レコード生成手段16は、生成した音声レコードを、音声DB23に記憶させる。音声合成手段17は、音声レコード生成手段16より処理が完了した旨の通知を受けると、音声DB23に記憶された音声レコードに基づいて音声データを合成し、音声出力部40からこの音声データに基づく音声を出力させる。
上記のように、基準音長特定手段12、文字間隔制御手段14、軌跡分析手段15、及び音声レコード生成手段16が協働することで、表示されている文字列を構成する各文字に対応する図形であるピッチカーブの座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て手段18として機能する。
<動作>
次に、図7及び図8を参照しながら音声合成装置100の動作について説明を行う。
図7は、音声合成装置100の外観及び表示内容を表す図であり、図8は、音声合成装置100の処理フロー図である。
図7に示すように、音声合成装置100は、筐体110、タッチスクリーン31、及びスピーカ111を有する。筐体110にはタッチスクリーン31及びスピーカ111が設けられている。タッチスクリーン31には、テキストボックス101、発音基準線102、ピッチカーブ103、入力文字画像104、再生ボタン画像105、戻るボタン画像106、及び割り当て文字画像109が表示される。図7に示されたピッチカーブ103が表示される領域において、X軸(第1軸)は時間を表しており、X軸において負方向から正方向に向かって時間が経過する。また、図7に示されたピッチカーブ103が表示される領域において、Y軸(第2軸)は音高を表しており、正方向に向かう程高い音となり、負方向に向かう程低い音となる。本実施形態においては、Y軸における最小の座標値と最大の座標値との間には、1オクターブの音高が割り当てられているものとする。
テキストボックス101は、文字列が入力される領域である。利用者が、タッチスクリーン31においてテキストボックス101に該当する領域を触れると、タッチスクリーン31にキーボード画像が表示される。利用者は、このキーボード画像に触れることでテキストボックス101に文字列を入力する。発音基準線102は、入力された文字列が発音される際の音高の基準を直線で表したものである。例えば、利用者が発音基準線102をなぞるようにしてタッチスクリーン31に触れると、発音基準線102に対して予め定められた音高(例えば440Hz)に従って、入力文字列の発音がなされる。ピッチカーブ103は、上述したように、入力文字列に対する文字列音長、音高、音長、及び音響効果を決定するものである。利用者によってタッチスクリーン31に描かれた図形が、ピッチカーブ103としてタッチスクリーン31に表示される。
入力文字画像104は、上述したとおりである。また、上述したように、利用者がタッチスクリーン31上で入力文字画像104をドラッグすることにより、各入力文字画像104の表示位置を変更し、これらを結合及び分離させることが可能である。隣り合う2つの入力文字画像104が結合された場合、これらの入力文字画像104に対応する2つの文字のうち、先に入力された文字の音長は最短発音時間となる。一方、隣り合う2つの入力文字画像104が分離された場合、これらの入力文字画像104に対応する2つの文字のうち、先に入力された文字の音長は上記の結合時よりも長くなる。つまり、音を延ばした状態で発音がなされる。なお、入力文字画像104は、その表示位置が、ピッチカーブ103の直下(Y軸負方向)に、ピッチカーブ103の横幅(X軸方向の長さ)に沿った状態で表示される。ここで、利用者が、入力文字列を変更することなく新たにピッチカーブ103を描き直した場合、表示制御手段13は、各入力文字画像104同士のX軸における間隔の比を保ったまま、新たなピッチカーブ103の横幅に沿うように、表示位置を変更して入力文字画像104を表示させる。
利用者が再生ボタン画像105に触れると、入力文字列が、入力されたピッチカーブ103に従ってスピーカ111から発音される。利用者が、戻るボタン画像106に触れると、タッチスクリーン31には入力文字ライブラリがツリー状に表示される。入力文字ライブラリとは、利用者が入力した文字列と、この文字列に対して入力されたピッチカーブ103との組み合わせを複数含むものである。利用者が戻るボタン画像106に触れると、例えば「こんにちは」、「こんばんは」、「おやすみなさい」といった複数の文字列がツリー状に表示される。利用者が、タッチスクリーン31を介して、表示された複数の文字列のうちいずれかを選択すると、選択された文字列について図7のような画面がタッチスクリーン31に表示される。
割り当て文字画像109は、入力文字画像104に対して、音高を表すY軸方向における高さを反映させたものである。図7に表されるように、割り当て文字画像109の各々は、X軸方向における表示位置については、対応する各々の入力文字画像104と同一であり、Y軸方向における表示位置については、ピッチカーブ103と、各入力文字画像104を囲む矩形の中心から発音基準線102に対してY軸正方向に延びる垂線との交差点の直下となる。ここで、利用者が、入力文字列を変更することなく新たにピッチカーブ103を描き直した場合、表示制御手段13は、各割り当て文字画像109同士のX軸における間隔の比を保ったまま、新たなピッチカーブ103の横幅(X軸方向の長さ)に沿うように、各割り当て文字画像109のX軸方向の表示位置を変更するとともに、新たなピッチカーブ103のY軸方向の高さに応じて、各割り当て文字画像109のY軸方向の表示位置を変更して表示させる。
図8において、利用者が、テキストボックス101に文字列を入力すると(ステップS1;YES)、文字列取得手段11は、入力文字列をRAMに記憶させる(ステップS2)。例えば、図7に表されるように、利用者が、テキストボックス101に「こんにちは」という文字列を入力すると、文字列取得手段11は、「こんにちは」という入力文字列をRAMに記憶させる。次に基準音長特定手段12が、上記の入力文字列を用いて発音辞書DB21を検索し、該当する発音レコードを特定して、特定した発音レコードをRAMに記憶させる(ステップS3)。ここでは、基準音長特定手段12は、「こんにちは」という文字列を用いて、図2に表される発音辞書DB21を検索した結果、識別IDが「000002」の発音レコードをRAMに記憶させる。
次に、表示制御手段13が、上記の入力文字列(ここでは「こんにちは」)に基づいて、タッチスクリーン31上に入力文字画像104を表示させる(ステップS4)。この際、表示制御手段13は、RAMに記憶された発音レコードにおける基準割り当て音長に基づいた態様で入力文字列を表示させる。具体的に説明すると、図2に表されるように、「こんにちは」という文字列に対して、「こ」、「に」、「ち」、及び「は」の各文字には「0.2秒」の発音時間が割り当てられ、「ん」という文字には「0.1秒」の発音時間が割り当てられている。ここで、前述したように、これらの0.2秒とか0.1秒という数値は、文字列を構成する各文字の発音時間の比を意味しているから、表示制御手段13は、隣り合う入力文字画像104を、この発音時間の比に応じた距離だけ分離させてタッチスクリーン31に表示させる。この結果、入力文字画像104の表示態様は図7に表すようなものとなる。なお、入力文字列に該当する文字列が発音辞書DB21に存在せず、この入力文字列に関する発音レコードがRAMに記憶されていない場合、表示制御手段13は、当該入力文字列を構成する文字を表す入力文字画像104を等間隔で表示させる。
次に、文字間隔制御手段14が、利用者の操作によって入力文字画像104の表示位置が変更されると、各入力文字画像104の間隔を制御し、文字間隔制御内容をRAMに記憶するとともに、表示制御手段13に対して文字間隔制御内容を入力し、入力文字画像104の表示態様を制御させる(ステップS5)。
図9は、文字間隔制御処理を説明するための模式図である。
図9を用いてステップS5の詳細を説明する。利用者が、矩形が破線で表された「ん」という入力文字画像104を、矩形が実線で表された位置へ向かってドラッグした場合、以下のような処理が行われる。文字間隔制御手段14は、「ん」という入力文字画像104と「に」という入力文字画像104との間の距離βを文字間隔値として算出すると、算出した文字間隔値をRAMに記憶させるとともに表示制御手段13に入力する。表示制御手段13は、入力された文字間隔値に基づいて、「ん」という入力文字画像104の表示位置を変更する。つまり表示制御手段13は、「ん」という入力文字画像104について、その表示位置を、矩形が破線であらわされた位置から、矩形が実線で表された位置に変更する。この結果、図9においては、入力文字画像104の表示位置が変更された結果、「こ」と「ん」という入力文字画像104が結合されており、「に」、「ち」及び「は」という入力文字画像104とは、分離されている。
そして、音声レコード生成手段16によって、入力文字「ん」に対して音長が割り当てられる際には、距離βに応じた音長が算出されることで、変更前の距離γに応じた音長と比較して、長い音長が割り当てられる。結果として入力文字「ん」の発音が為される場合には、「んーーー」というように、延ばされた音として発音されることとなる。また、文字列全体の音長は文字列音長として定められているから、入力文字「ん」に対して算出される音長が長く変更されると、その分だけ、入力文字「こ」に対して算出される音長は、結合される前と比較して短いものとなる。ここで、入力文字「こ」に割り当てられる音長は、最短発音時間DB22における文字「こ」に該当する最短発音時間として記憶された時間の長さよりも短くなることは無い。つまり、音声レコード生成手段16は、文字列を構成する各文字に対し、最短発音時間記憶手段である最短発音時間DB22に記憶されている最短の音長以上の音長を割り当てる。
ステップS5の次に、利用者が再生ボタン画像105に触れることがなく(ステップS6;NO)、さらに、利用者がタッチスクリーン31に図形を描くことが無い、すなわちピッチカーブ103が入力されなかった場合(ステップS7;NO)、処理がステップS4に戻り、上記の処理が繰り返される。
一方、ステップS5の次に、利用者が再生ボタン画像105に触れることがなく(ステップS6;NO)、さらに、利用者が、タッチスクリーン31に図形を描いた場合、すなわちピッチカーブ103が入力された場合(ステップS7;YES)、軌跡分析手段15は、入力されたピッチカーブ103を分析する(ステップS9)。具体的には、ステップS9において軌跡分析手段15は、入力されたピッチカーブ103と各入力文字画像との関係を分析して、入力文字列に対する文字列音長と、この入力文字列を構成する各文字に対する音高、音長、及び音響効果とを特定し、これらをRAMに記憶する。
ステップS9の処理を更に詳細に説明する。まず、軌跡分析手段15は、ピッチカーブ103が入力された際の利用者の指先の移動速度(つまりピッチカーブ103の始端から終端に至るまでの入力に要した時間)に応じて、文字列全体の発音時に割り当てる音長である文字列音長を算出する。利用者がタッチスクリーン31上に図形を描いた際の速度が速ければ文字列音長は時間が短いものとなり、軌跡を描いた際の速度が遅ければ文字列音長は時間が長いものとなる。例えば軌跡分析手段15が、ピッチカーブ103の描画速度から文字列音長を3秒と分析し、これが入力文字列に割り当てられると、文字列全体が3秒の長さで発音されることとなる。つまり、図7の例では、「こんにちは」という文字列が3秒の長さで発音されることとなる。
次に、軌跡分析手段15は、入力文字列の各文字の音高を求める。具体的には、まず、軌跡分析手段15は、ピッチカーブ103が入力される領域において、各入力文字画像104を囲む矩形の中心から発音基準線102に対してY軸正方向に延びる垂線(入力文字線という)を仮想的に描く。そして、軌跡分析手段15は、発音基準線102に割り当てられた音高を基準とし、ピッチカーブ103と入力文字線との交差点のY座標値に応じて、入力文字列を構成する各文字の音高を算出する。つまり、上述した交差点のY座標値が、発音基準線102のY座標値より大きければ、その交差点に対する入力文字の音高は、発音基準線102に割り当てられたものよりも高いものとなる。一方、交差点のY座標値が、発音基準線102のY座標値より小さければ、その交差点に対する入力文字の音高は、発音基準線102に割り当てられたものよりも低いものとなる。
次に、軌跡分析手段15は、入力文字列の各文字の音長を求める。具体的には、軌跡分析手段15は、文字列音長における時間の長さを1として、RAMに記録された発音レコードにおける基準割り当て音長を正規化することにより、各文字に割り当てる音長の比率を算出する。
ここで、図9を用いてステップS9の詳細を説明する。図9においては、タッチスクリーン31を拡大して表しており、表示内容の一部を説明の都合上省略している。また、図9において、入力文字線107が表されているが、実際にはこれはタッチスクリーン31に表示されない。交差点A,B,C,D,及びEは、各入力文字線107とピッチカーブ103とが交差する交差点であり、X座標値とY座標値とを各々保持している。例えば軌跡分析手段15が「こ」という入力文字の音高を算出する際には、交差点AのY座標値が、発音基準線102のY座標値より小さいため、軌跡分析手段15は、発音基準線102のY座標値から、交差点AのY座標値を減算することで、差分長αを求める。そして軌跡分析手段15は、発音基準線102のY座標値を基準として、発音基準線102における音高(例えばここでは440Hz)よりも差文長αに相当する音高だけ低い音高を、入力文字「こ」に対して算出する。
一方、例えば軌跡分析手段15が「に」という入力文字の音高を算出する際には、交差点CにおけるY座標値が、発音基準線102のY座標値より大きいため、軌跡分析手段15は、交差点CのY座標値から、発音基準線102のY座標値を減算することで、差分長α’を求める。そして軌跡分析手段15は、発音基準線102のY座標値を基準として、発音基準線102における音高よりも差文長α’に相当する音高だけ高い音高を入力文字「に」に対して算出する。
次に、文字列を構成する各文字の音長については、前述したように、文字列音長と発音辞書DB21の内容に基づく各文字の音長の比とに従って決められる。例えば、図7の例に戻ると、入力文字列が「こんにちは」であり、文字列音長が「3秒」であり、各文字の音長は、図2に示されるように、文字「こ」、「に」、「ち」及び「は」については「0.2秒」、文字「ん」については「0.1秒」である。従って、軌跡分析手段15は、文字列音長の「3秒」を基準として正規化を行うことにより、文字「こ」、「に」、「ち」及び「は」については「0.67秒」の音長を、文字「ん」については「0.33秒」の音長を割り当てる(小数点以下第三位を四捨五入)。ここで、四捨五入する位は、設計において適宜変更されてもよい。このように、軌跡分析手段15は、図形の始端から終端に至るまでの入力に要した時間に基づいて、文字列の全体を発音するときの音長である文字列音長を算出し、算出した文字列音長と、上記文字列を構成する各文字について発音辞書記憶手段に記憶されている比とに基づいて、各文字に音長を割り当てる。
ここで、利用者によって図7から図9のように入力文字画像104「ん」の表示位置が変更されていたとすると、軌跡分析手段15は、表示位置が変更された後の入力文字画像104「ん」についての交差点BにおけるX座標値を取得する。また、軌跡分析手段15は、入力文字画像104「ん」に対してX軸正方向で隣り合う入力文字画像104「に」についての交差点CにおけるX座標値を取得する。そして軌跡分析手段15は、交差点Bに対応するX座標値から交差点Cに対応するX座標値を減算することで、交差点Bと交差点CとにおけるX座標値の差分を算出する。軌跡分析手段15は、算出したX座標値の差分に基づいて、入力文字「ん」に対して、その表示位置が変更される前よりも長い音長を割り当てる。これにより、上述したように、入力文字「ん」は、延ばされた音として発音されることとなる。一方、ピッチカーブ103が変更されない限り、文字列音長は入力済みのピッチカーブ103に基づく文字列音長を維持するから、入力文字「ん」の音長が長く変更されることに従って、入力文字「こ」の音長は短く変更される。ここで入力文字「こ」に割り当てられる音長は、入力文字「ん」について、変更前よりも長くなった音長の分だけ、短いものとなる。また、ここにおいて、入力文字「こ」には、少なくとも、最短発音時間DB22に記憶された、文字「こ」に対応する最短発音時間が割り当てられる。
また、既に描かれたピッチカーブ103に対して、利用者が既に描いた図形(ピッチカーブ)に重ね合わされる位置に他の図形を描くと、軌跡分析手段15が、複数の図形の形状を記憶する音響効果DB24から、重ね合わせられるようにして描かれた図形に対して、予め定められた閾値以上の類似度を持つ音響効果図形を特定する。そして、軌跡分析手段15は、特定した音響効果図形に対応付けられた音響効果の種類を、重ね合わせられた図形のY座標値に対応する位置に表示されている文字に対する音響効果の種類としてRAMに記憶する。ここで、図形どうしの類似度を求める方法は、既知の方法を用いればよい。また、この際、表示制御手段13は、入力済のピッチカーブ103に対して利用者が重ね合わせて描いた図形を、タッチスクリーン31に表示する。
ステップS9の次に、図形表示手段13Bとして機能する表示制御手段13は、ピッチカーブ103を入力文字画像104に対応付けた状態でタッチスクリーン31に表示させる(ステップS10)。次に、音声レコード生成手段16は、RAMに記憶された、入力文字列、発音レコード、文字間隔制御内容、及びピッチカーブ103の分析結果と最短発音時間DB22とに基づいて、入力文字列を構成する各文字に、音高、音長、及び音響効果を割り当てることで音声レコードを生成し、生成した音声レコードを音声DB23に登録する(ステップS11)。この際、音声レコード生成手段16は、各文字に割り当てる音長の比率に基づいて、文字列全体における音長が文字列音長と同一になるように、各文字に音長を割り当てる。ここで、前述したように、各文字に割り当てられる音長は、最短発音時間DB22において該当する文字の最短発音時間として記憶された時間の長さよりも短くなることは無い。なお、入力文字列を構成する全ての文字に対して最短発音時間が割り当てられた場合の合計時間と比較して、算出された文字列音長が上記合計時間に満たない場合、音声レコード生成手段16は、各文字における最短発音時間を、文字の入力順に従って先頭から積算していく。そして、音声レコード生成手段16は、この積算の結果が、算出された文字列音長を越えた時点で、以降の文字を発音対象とせず、音長を割り当てない。
そして、音声合成手段17が、音声DB23に記憶された音声レコードの内容に基づき、音声データを合成する(ステップS12)。つまり、音声合成手段17は、文字列を構成する各文字を、割り当て手段18によって割り当てられた音高及び音長で発音させる音声データを合成する。音声合成手段17は、音声データを合成する際に、或る文字に割り当てられた音高と、この文字の次に入力された文字に割り当てられた音高とを、ピッチベンドによって繋ぐ処理を施す。また、音声合成手段17は、該当する文字について、割り当てられた音響効果を反映した状態で音声データを合成する。音声出力部40は、この音声データに基づいて音声を出力する(ステップS13)。
一方、ステップS5の後に、利用者が再生ボタン画像105に触れた場合(ステップS6;YES)、すなわちピッチカーブ103が入力されていない(ステップS9〜S11を経ない)場合、音声レコード生成手段16は、RAMに記憶された入力文字列を音声DB23に登録する。そして音声レコード生成手段16は、RAMに記憶された発音レコードにおける基準割り当て音長に従って、音声DB23における項目「音長」を更新するとともに、発音基準線102と同一の音高で、音声DB23における項目「音高」を更新する(ステップS8)。例えば、図7の例では入力文字列が「こんにちは」であるため、音声レコード生成手段16は、音声DB23における項目「音長」について、図2に示される内容に従って、文字「こ」、「に」、「ち」及び「は」については「0.2秒」、文字「ん」については「0.1秒」という数値で更新する。また、例えば、図7の例では発音基準線102の音高が「440Hz」であるため、音声レコード生成手段16は、「こ」、「ん」、「に」、「ち」、及び「は」における項目「音高」について「440Hz」で更新する。その後、処理はステップS12に移行する。
図10〜図12は、音声合成処理を説明するための模式図である。
なお、音声合成装置100には、ピッチカーブ103が描かれた際の処理を設定するモードである「描画モード」が存在する。「描画モード」には、初期設定で設定されている「上書き描画モード」と、「連続描画モード」とがある。「上書き描画モード」は、タッチパネル31にピッチカーブ103が既に描かれ、表示された状態において、利用者が新たにピッチカーブ103を描くと、既に描かれていたピッチカーブ103が消去され、新たに描かれた際の軌跡に応じてピッチカーブ103が表示されるモードである。一方、「連続描画モード」は、タッチパネル31にピッチカーブ103が既に描かれ、表示された状態において、既に描かれたピッチカーブ103と重ならないタッチパネル31の領域に利用者が新たにピッチカーブ103を描くと、既に描かれていたピッチカーブ103は変更されないまま、新たに描かれた際の軌跡に応じてピッチカーブ103が追加で表示されるモードである。この描画モードは、利用者が、UI部30を通じて適宜変更することが可能である。描画モードは、「上書き描画モード」、及び「連続描画モード」に限らず、他の設定内容を選択可能としてもよい。
図10〜図12において、「お」、「は」、「よ」、及び「う」という入力文字画像104が表示されている。図10、及び図11は、描画モードが「連続描画モード」である場合の例である。図10は、入力文字画像群108Aにおいて全ての入力文字画像104が結合された場合を示している。図10では、入力されたピッチカーブ103aに応じて、「おはよう」という音声が出力される。図10において右側に表示されたピッチカーブ103bは、入力文字線と交差しないため、何も処理が行われない。あるいは、このようなピッチカーブ103bは、入力文字列に応じた音声の出力を繰り返すように、UI部30を通じて利用者が設定可能としてもよい。上述した、入力文字列に応じた音声の出力を繰り返す場合、軌跡分析手段15は、入力文字列の繰り返しを意味するフラグを立てた状態(例えば「1」の値)でRAMに記憶する。音声レコード生成手段16は、このフラグを参照し、フラグが入力文字列を繰り返すことを意味する値(ここでは「1」)を取っている場合、登録済みの音声レコードと同一の内容を、音声DB23に追加で登録する。あるいは、音声レコード生成手段16が、予め定められた、入力文字列を繰り返して発音させることを表す記号(例えば「*」)を、音声DB23における項目「入力文字」に対して追加で登録することで、音声合成手段17が、入力文字列が繰り返し発音されるように音声データを合成するようにしてもよい。
図11では、「お」及び「は」が結合された入力文字画像群108Bと、「よ」及び「う」が結合された入力文字画像群108Cとが分離されている。また、入力文字画像群108Bに対するピッチカーブ103cと、入力文字画像群108Cに対するピッチカーブ103dとは連続しておらず、軌跡が途切れた状態となっている。このような場合、入力されたピッチカーブ103に応じて音声が出力される際には、軌跡の途切れに応じて、「おは□□よう」というように、「おは」という音声と「よう」という音声との間に無音の期間(無音期間という)が生じる(ここで□は無音期間を意味する)。具体的には、軌跡分析手段15は、軌跡が途切れた箇所におけるX軸方向の長さに基づいて、この無音期間の長さを算出する。そして軌跡分析手段15は、算出した無音期間の時間の長さと、無音期間を挟む2つの入力文字(すなわちここでは、「は」と「よ」)とを対応付けて、RAMに記憶する。音声レコード生成手段16は、RAMに記憶されたこの内容に従って、無音期間に相当する音声レコードを生成する。図13は、音声DBの内容を表す図である。ここで、文字順IDが「0003」の音声レコードが、無音期間に該当する音声レコードである。無音期間に該当する音声レコードを区別するには、例えば入力文字としてスペースを割り当ててもよい。図13においては便宜上、スペースを「△」で表している。図13における音声レコードに基づいて音声合成手段17が合成した音声データが、音声として出力される際には、「おは」と発音された後に0.5秒の無音期間が生じ、次いで「よう」と発音されることとなる。
図12は、描画モードが「上書き描画モード」である場合の例である。図12では、「お」及び「は」が結合された入力文字画像群108Dと、「よ」及び「う」が結合された入力文字画像群108Eとが分離されている。また、入力文字画像群108Dに対するピッチカーブ103eと、入力文字画像群108Eに対するピッチカーブ103fとは、途切れずに連続した軌跡を描いている。さらにピッチカーブ103eおよびピッチカーブ103fに対して、ビブラートの音響効果が適用される波型の図形が重ね合わせて描かれている。このように、表示制御手段13は、表示手段であるタッチスクリーン31に表示されている図形(すなわちピッチカーブ103)に対して、重ね合わせる図形が利用者によって指定されると、この重ね合わせる図形をタッチスクリーン31に表示させる。この波型の図形のY座標値は、「お」、「は」、「よ」、「う」のそれぞれの表示位置に対応している。従って、図12では、入力されたピッチカーブ103に応じて、「お〜は〜〜〜よ〜う〜」というように、「は」に対する発音が延ばされた状態で、各文字に対する発音にビブラートがかかった状態で音声が出力される。
このように、音声合成装置100によれば、文字列が入力された後に、利用者が軌跡を描くようにタッチスクリーン31に触れることで、文字列に対して音符列の割り当てを容易に行うことが可能となる。
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。
<変形例1>
実施形態においては、音声合成装置100の例としてタッチスクリーン31を備えたスマートフォンを挙げていたが、これに限ったものではない。音声合成装置100は、タッチスクリーン31を備えていなくてもよい。例えば、音声合成装置100は、UI部30としてマウス、キーパッド、またはペンタブレットを有していてもよい。また、音声合成装置100は、PDA(Personal Digital Assistant)、携帯ゲーム機、携帯音楽プレーヤ、あるいはPC(Personal Computer)であってもよい。音声合成装置100がPCである場合、ディスプレイ上に表示された内容に対して利用者がマウスを用いて描いた結果が、ピッチカーブ103として認識されたり、入力文字画像104に対する間隔制御として認識されたりする。
<変形例2>
実施形態においては、音響効果の例として、ビブラートを挙げたが、これに限ったものではない。例えば、図9に表されるように、入力済みのピッチカーブ103に対して丸で囲むような軌跡を重ね合わせて描くと、対応する文字の発音がファルセットでなされるようにしてもよい。この他にも、ピッチカーブ103の描き方や重ね合わせて描く図形の形状に応じて、対応する文字に様々な音響効果を割り当てるようにしてもよい。
<変形例3>
実施形態において、ピッチカーブ103は利用者により入力されるものとしていたが、これに限らず、特定の形状を持つ複数のピッチカーブ103をプリセットデータとして記憶部20が記憶していてもよい。例えば、標準語、関西弁、東北弁といった方言の抑揚に対応したピッチカーブ103がプリセットデータとして記憶部20に記憶されている場合、利用者がUI部30を通じて、このプリセットデータから特定のピッチカーブ103を指定できるようにしてもよい。要するに、利用者が、音高を表す第1軸および時間を表す第2軸を有する座標系における図形を指定できればよい。
<変形例4>
実施形態においては、Y軸における最小の座標値と最大の座標値との間に、1オクターブの音高が割り当てられているものとしたが、この音高は、これに限ったものではない。例えば、利用者がUI部30を介して設定することにより、Y軸に割り当てられる音高の幅を狭く、あるいは広く、変更することが可能としてもよい。例えば、利用者が、Y軸における最小の座標値と最大の座標値との間に、2オクターブの音高を設定した場合を考える。また、このとき、発音基準線102の音高が「261Hz」であったとする。この場合、発音基準線102の音高を中心として、発音基準線102のY軸正方向には、「261Hz」より1オクターブ高い「523Hz」の音高を持つ仮想的な発音基準線が存在する。また、発音基準線102のY軸負方向には、「261Hz」より1オクターブ低い「130Hz」の音高を持つ仮想的な発音基準線が存在する。実施形態においては、軌跡分析手段15は、常に発音基準線102のY座標値と交差点のY座標値との差分長から、ある入力文字についての音高を算出していた。しかし、上述のように、タッチパネル31に表示される発音基準線102以外に、仮想的な発音基準線が存在する場合は、Y軸方向において交差点と最も近い発音基準線のY座標値を基準として、入力文字の音高を算出するようにしてもよい。
<変形例5>
実施形態においては、入力文字画像104に対して利用者がドラッグの操作を行うことで、各入力文字画像104を結合及び分離させることを可能としたが、入力文字画像104に対する操作は、これに限ったものではない。例えば、利用者が、或る入力文字画像104の右辺あるいは左辺に触れて、これをドラッグすることにより、この入力文字画像104がX軸方向において表示される長さ(入力文字画像104の横幅)を変更可能としてもよい。この場合、音声レコード生成手段16は、変更された入力文字画像104の横幅に応じて、横幅が長いほど長い音長を、横幅が短いほど短い音長を、該当する文字に割り当てる。
<変形例6>
実施形態においては、音声合成手段17は、或る文字に割り当てられた音高と、この文字の次に入力された文字に割り当てられた音高とを、ピッチベンドによって繋ぐ処理を施していたが、これに限ったものではない。例えば、音声合成手段は、ピッチベンドを施さずに、音声DB23に記憶された、各文字に割り当てられた音高のみに従って音声データを合成するようにしてもよい。
<変形例7>
実施形態においては、入力文字列を構成する全ての文字に対して最短発音時間が割り当てられた場合の合計時間と比較して、算出された文字列音長が上記合計時間に満たない場合、軌跡分析手段15は、各文字における最短発音時間を、入力された順序に従って先頭から積算した。そして、軌跡分析手段15は、この積算の結果が、算出された文字列音長を越えた時点で、以降の文字を発音対象としないような制御を行っていた。これに限らず、軌跡分析手段15は、上述の合計時間に満たないような速度でピッチカーブ103が入力された場合、タッチスクリーン31に表示するピッチカーブ103における軌跡の長さを予め制限するようにしてもよい。
<変形例8>
また、利用者が音高を直感的に分かるように、タッチパネル31を正面から見た場合の左側に鍵盤の画像を表示しても良い。
<変形例9>
実施形態においては、利用者が、入力済みのピッチカーブ103に対してさらに別の図形を重ねて描くと、この別の図形に応じた音響効果が発音時に適用されるようになっていたが、これを以下のようにしてもよい。音声合成装置100は、入力済みのピッチカーブ103に対して利用者が別の図形を重ねて描く際の処理のモードを表す「追加入力モード」を記憶部20に記憶する。「追加入力モード」には、「音響効果モード」と「音符列変更モード」が存在する。「音響効果モード」は、実施形態において説明したとおりであって、上述した、重ねて描かれた別の図形に応じた音響効果が、該当する入力文字の発音に際して適用される。「音符列変更モード」では、利用者が、入力済みのピッチカーブ103における特定の箇所に触れてドラッグすると、表示制御手段13が、ピッチカーブ103の該当する箇所について、ドラッグの内容に応じて表示態様を変更する。例えば、利用者が、ピッチカーブ103の特定の箇所に触れて、Y軸正方向にドラッグすると、ピッチカーブ103における該当の箇所の座標値がY軸正方向に移動するとともに、ピッチカーブ103における該当の箇所の周辺についての表示態様が、この移動に伴ってY軸正方向に曲線を描くように表示される。また、利用者がピッチカーブ103の特定の箇所に触れて、Y軸負方向にドラッグすると、ピッチカーブ103における該当の箇所の座標値がY軸負方向に移動するとともに、ピッチカーブ103における該当の箇所の周辺についての表示態様が、この移動に伴ってY軸負方向に曲線を描くように表示される。利用者は、UI部30を通じて、「追加入力モード」を適宜変更することが可能である。そして、軌跡分析手段15は、該当する箇所の変更後の座標値に従って、この座標値に対応する入力文字に割り当てられる音高及び音長を算出し、音声レコード生成手段16は、算出された結果に基づいて該当する入力文字に音高及び音長を割り当てる。
<変形例10>
実施形態においては、ピッチカーブ103と入力文字線107との交差する座標値に従って、各々の文字の音高及び音長が算出されていたが、発音に際しての音声情報はこれに限ったものではない。例えば、ピッチカーブ103の形状がX軸に対して平坦な箇所には、より多くの文字が発音対象となるように、また、ピッチカーブ103の形状がX軸に対して急峻な箇所には、より少ない文字が発音対象となるように、各々の文字の発音開始位置が算出されてもよい。具体的には、以下のとおりである。
図14は、変形例10を説明するための模式図である。
図14は、タッチパネル31の一部を拡大したものである。図14における入力文字「こ」を例に挙げると、軌跡分析手段15は、交差点Aにおけるピッチカーブ103に対する接線L1aの傾きを算出すると、さらにこの傾きの絶対値を算出してRAMに記憶させる。ここで、矩形が破線で表された「こ」という入力文字画像104a、破線で表された入力文字線107a、及び交差点Aは、変形例9における処理によって表示位置が変更される前の状態を表している。軌跡分析手段15は、他の入力文字「ん」についても、上述した、傾きの絶対値を算出する。ここで、交差点における傾きの絶対値が大きいほど、その交差点において、ピッチカーブ103が急峻、つまりそのピッチカーブの形状がX軸に対して直交した状態に近いことを表している。一方、傾きの絶対値が小さいほど、その交差点において、ピッチカーブ103が平坦、つまりそのピッチカーブの形状がX軸に対して平行に近いことを表している。
そして軌跡分析手段15は、傾きの絶対値が予め定められた閾値を超える場合には、該当する入力文字画像の座標値を基準として、X軸における正方向あるいは負方向のいずれかにおいて、接線の傾きの絶対値が上述の閾値以下となる直近の座標値を求め、この求められた座標値におけるX軸が取る値を、該当する入力文字の発音開始位置として算出する。一方、傾きの絶対値が予め定められた閾値を超えない場合には、軌跡分析手段15は、入力文字線107とピッチカーブ103との交差点における座標値におけるX軸が取る値を、該当する入力文字の発音開始位置として算出する。つまり、接線の傾きの絶対値が閾値に向かって大きくなる箇所、すなわちピッチカーブ103が急峻な箇所には、入力文字の発音開始位置が割り当てられない可能性が高くなる。結果として、上述した急峻な箇所では、ピッチカーブ103が平坦な箇所と比較して、より少ない文字が発音対象とされることになる。
例えば、図14において、交差点Aにおける接線L1aの傾きの絶対値が、上述した閾値を超えるため、「こ」という入力画像文字104aの発音開始位置が、X軸において負方向に移動した位置(すなわち時間軸において前方の位置)となる。具体的には、交差点A’において接線L1a’の傾きの絶対値が閾値以下となるため、軌跡分析手段15は、入力文字表示画像104aを、入力文字画像104a’の表示位置まで移動させる。そして、入力文字「ん」の発音開始位置が、交差点Bにおける座標値におけるX軸が取る値と同一に算出された場合、入力文字「ん」に対して、入力文字「こ」が時間軸において前方へ移動するため、入力文字「こ」に割り当てられる音長が、移動前と比較して長いものとなる。
<変形例11>
実施形態では、軌跡分析手段15が、ピッチカーブ103の始端から終端に至るまでの入力に要した時間に応じて、文字列全体の発音時に割り当てる音長である文字列音長を算出していたが、文字列音長の算出方法はこれに限らない。軌跡分析手段15は、ピッチカーブ103の始端から終端に至るまでのそのピッチカーブ103上の距離や、ピッチカーブ103の始端のX座標値と終端のX座標値との差の大きさに基づいて文字列音長を算出してもよい。例えば、ピッチカーブ103の始端から終端に至るまでのそのピッチカーブ103上の距離が大きいほど文字列音長も大きくなったり、ピッチカーブ103の始端のX座標値と終端のX座標値との差が大きいほど文字列音長も大きくなるといった具合である。このように、文字列音長の算出方法には種々のものがあるが、文字列を構成する各文字の音長の算出に関しては、軌跡分析手段15は各文字に対応する図形(ピッチカーブ)の座標値に基づき音高及び音長を算出する。
<変形例12>
実施形態においては、音声合成手段17が音声データを合成する際に、或る文字に割り当てられた音高と、この文字の次に入力された文字に割り当てられた音高とを、ピッチベンドによって繋ぐ処理を施していたが、これに限らず、割り当て手段18が、補正機能と称するものを実現することで、入力文字の各々に、上記補正機能によって定まる所定の音階に従った音高を割り当てるようにしてもよい。また、割り当て手段18は、入力文字の各々に、上記補正機能によって定まる所定の時間の長さに従った音長を割り当てるようにしてもよい。つまり、割り当て手段18が実現する補正機能には、音高に対する補正機能と、音長に対する補正機能とがある。
図15(a)及び図15(b)は、音高に対する補正機能を説明する模式図である。
図15(a)及び図15(b)においては、タッチスクリーン31上に、メニューボタン画像112が表示されている。利用者がメニューボタン画像112に触れると、制御部10が、タッチスクリーン31に、利用者が実行可能な機能の選択肢(機能選択肢という)をリスト形式で表示する。利用者が、表示された機能選択肢から望みのものを選択すると、制御部10は、選択された機能を実行する。ここで、タッチスクリーン31に表示される機能選択肢には、制御部10によって実現される、「音高の補正」及び「音長の補正」が含まれており、利用者は、両者の機能について「ON/OFF」を設定することで、これらの機能を実現するか否かを選択することができる。
図15(a)は、音高に対して補正が行われる前の表示状態を表しており、「こんにちは」という入力文字列に対して、傾斜したピッチカーブ103が入力されている様子を例示している。この状態で利用者が再生ボタン画像105に触れると、実施形態で説明したように、入力文字列における隣り合う文字同士がピッチベンドによって繋げられた音声データが合成される。図15(a)の状態において、利用者が機能選択肢における「音高の補正」を「ON」に設定すると、割り当て手段18が音高に対する補正を行った結果、図15(b)のような表示状態となる。図15(b)において、タッチスクリーン31には、表示制御手段13によって、音高を表すピアノロールを模した横縞模様の画像が、背景画像として表示されている。ここで、黒色の横縞画像は黒鍵を表し、白色の横縞画像は白鍵を表す。また、各横縞画像には、割り当て手段18によって、ピッチ方向(Y軸方向)における縦幅及び時間軸方向(X軸方向)における横幅の全域にわたり、1つの音高が割り当てられている。これらの各横縞画像は、割り当て手段18が入力文字列104を構成する各文字に音高を割り当てるときの指標となる。
このとき、割り当て手段18は、図15(a)において、ピッチカーブ103において入力文字画像104の各々に対応する位置に応じて割り当てた音高を、ピアノの音階においてその音高に最も近い音高に変更する。つまり、割り当て手段18は、指標に相当する横縞画像に従って、ピッチカーブ103において入力文字画像104を構成する各文字に対応する位置の座標値を補正し、その補正後の座標値に基づき、各文字に音高を割り当てる。これに伴い、表示制御手段13は、割り当て文字画像109の各々が、ピッチ方向において最も近い横縞画像と重なる位置に表示されるように、表示位置の制御を行う。例えば図15(b)の例では、Y軸において最も下方に表示された白鍵の横縞画像を「C3」とすると、「こ」という割り当て文字画像109には「D#3」の音高が割り当てられ、「に」という割り当て文字画像109には「G3」の音高が割り当てられるといった具合である。表示制御手段13は、このように割り当て文字画像109の表示位置を制御するとともに、ピッチカーブ103の表示態様も変更する。具体的には、図15(b)で表されるように、表示制御手段13は、ピッチカーブ103を、各割り当て文字画像109及び横縞画像の位置に従って階段状に表示する。すなわち、表示制御手段13は、利用者によって指定されたピッチカーブ103において各割り当て文字画像109に対応する位置の座標値を、指標に相当する横縞画像に従って変更し、座標値が変更されたピッチカーブ103を表示させることになる。これにより、各々の文字が、割り当てられた音高で割り当てられた音長の期間だけ発音されることとなる。
また、図15(b)の状態において、利用者が或る割り当て文字画像109を指定してピッチ方向(Y軸方向)に引きずるように移動(ピッチ方向へのいわゆる「ドラッグ」)させると、表示制御手段13は、この割り当て文字画像109を、ピッチ方向においてドラッグの終点と最も近い横縞画像に重なるように表示する制御を行う。表示制御手段13は、この制御に伴って、ピッチカーブ103の形状もピッチ方向へとその形状を変更する。この結果、当該割り当て文字画像109には、割り当て手段18により上記横縞画像に相当する音高が割り当てられる。つまり、割り当て手段18は、指標に相当する横縞画像に従って、ピッチカーブ103において割り当て文字画像109を構成する各文字に対応する位置の座標値を補正し、その補正後の座標値に基づき、各文字に音高を割り当てる。
また、予め定められた閾値を超える速度でピッチカーブ103が入力されると、制御部10は、そのような速度で入力された範囲のピッチカーブ103においては補正を行わない。つまり、上記範囲については、実施形態と同様に、割り当て手段18によって、或る文字に割り当てられた音高と、この文字の次に入力された文字に割り当てられた音高とが、ピッチベンドによって繋がれる処理が施される。なお、上記処理は、入力済みのピッチカーブ103における特定の箇所を、予め定められた閾値を超える速度で、利用者が変形例9で上述したようにドラッグすることで変更した場合についても同様である。
なお、表示制御手段13及び割り当て手段18は、「音高の補正」が「ON」に設定されると同時に、既に表示されている割り当て文字画像109及びピッチカーブ103に対して上述の処理を行ってもよいし、「音高の補正」が「ON」に設定された後から入力された割り当て文字画像109及びピッチカーブ103に対してのみ上述の処理を行ってもよい。このような上述の処理を行うタイミングは、音声合成装置100において予め定められていてもよいし、タッチスクリーン31を介して利用者により変更可能としてもよい。
図16(a)及び図16(b)は、音長に対する補正機能を説明する模式図である。
図16(a)及び図16(b)は、利用者が、機能選択肢における「音長の補正」を「ON」に設定した状態を表している。「音長の補正」が「ON」に設定されると、表示制御手段13によって、タッチスクリーン31のY軸正方向における上部に時間軸目盛り113が表示される。時間軸目盛り113は、X軸正方向に向かうにつれて経過する時間を表している。図16の例では、時間軸目盛り113における1つ分の目盛りが0.1秒を表しているが、この1つ分の目盛りには、0.1秒以外の所定長の時間が対応付けられていてもよいし、小節や拍が対応付けられていてもよい。なお、小節や拍が対応付けられる場合、利用者がタッチスクリーン31を介して、拍子について「4拍子」や「3/4拍子」といった設定を行えるようにしてもよい。この時間軸目盛り113は、割り当て手段18が入力文字列104を構成する各文字に音長を割り当てるときの指標となる。
図16(a)において、利用者が、「ち」という割り当て文字画像109を指定して、D1に示されるような軌跡でドラッグを行うと、このドラッグの軌跡(ドラッグ軌跡という)に応じて、表示制御手段13は、割り当て文字画像109の表示位置を変更して表示させる。ドラッグ軌跡D1では、「ち」という割り当て文字画像109が、「に」という割り当て文字画像109に近づくようにドラッグされている。従って、表示制御手段13は、「ち」という割り当て文字画像109の表示位置を、図16(b)で示される表示位置に変更して表示させる。このとき、割り当て文字画像109の表示位置は、時間軸目盛り113の1単位(つまり1つ分の各目盛り)に応じた位置に規制される。つまり、割り当て文字画像109の表示位置が、或る時間軸目盛り113とそれに隣り合う時間軸目盛り113との間にある場合には、近いほうの時間軸目盛り113の位置に変更される。この表示位置の変更に伴って、割り当て手段18は、「に」という割り当て文字画像109に割り当てる音長を短くするとともに、「ち」という割り当て文字画像109に割り当てる音長を長くする。つまり、割り当て手段18は、指標に相当する時間軸目盛り113に従って、ピッチカーブ103において割り当て文字画像109を構成する各文字に対応する位置の座標値を補正し、その補正後の座標値に基づき、各文字に音長を割り当てる。これに伴い、表示制御手段13は、入力文字画像104の表示位置を変更して表示させる。また、利用者が、入力文字画像104を表す矩形の左端(あるいは右端)を指定してドラッグを行うと、割り当て手段18によって上記入力文字画像104に割り当てられる音長が変更される。例えば図16(b)において、利用者がドラッグ軌跡D2で表される軌跡でドラッグを行うと、割り当て手段18は、「こ」という入力文字画像104に割り当てる音長を短くするとともに、「ん」という入力文字画像104に割り当てる音長を長くする。これに伴い、表示制御手段13は、割り当て文字画像109の表示位置を変更して表示させる。
なお、便宜上、「音高の補正」と「音長の補正」とを、それぞれ別の図面を用いて、個別の機能として説明したが、両者の機能は、制御部10によって同時に並列で実行されてもよい。また、表示制御手段13が、ピアノロールを模した背景画像を時間軸方向(X軸方向)の全域に渡って表示することに代えて、タッチスクリーン31の左端にのみピアノロールを模した背景画像を表示するようにしてもよい。以上述べた変形例12によれば、利用者が、文字列に対して直感的に音符列の割り当てを行うことが可能となる。
<変形例13>
実施形態においては、文字列を構成する各文字の、発音時間の比を含む複数の発音レコードからなる発音辞書DB21を記憶部20が備えており、割り当て手段18が、文字列音長と発音レコードとに基づいて各文字に割り当てる音長を決定していたが、これに限らず、発音辞書DB21に代えて、発音レコードが各文字についての発音時間の絶対値を含むような初期値発音辞書DBを、記憶部20が備えるようにしてもよい。
図17は、初期値発音辞書DBの内容を表す図である。
初期値発音辞書DBに含まれる各発音レコードは、識別ID、文字、初期値発音時間といった複数の項目からなる。識別IDは、各発音レコードを一意に識別するためのIDであり、例えば4桁の数字からなる。文字は、発音の対象となる文字として予め決められた1文字である。初期値発音時間は、各発音レコードにおける各文字について、予め割り当てられた発音時間の初期値である。初期値発音時間においては、実験的に求められた、該当する文字が自然な抑揚で発音された場合に掛かる時間の長さに基づいて、各文字における音長の初期値が予め決定されている。例えば図17において、文字「あ」、「い」、「う」及び「え」という文字について、初期値として「0.3秒」という長さの発音時間が予め割り当てられている。
図18(a)及び図18(b)は、変形例13に係る、音声合成装置100の表示内容を表す図である。
図18(a)は、利用者がテキストボックス101に文字列を入力した直後であって、利用者によってピッチカーブ103が入力されていない状態を表している。図18(a)においては、「あたま」という文字列が入力されており、「あ」、「た」及び「ま」という各文字に対して、割り当て手段18によって、初期値発音辞書DBの発音レコードに基づいて、同一の長さの初期値発音時間が音長として割り当てられている。また、図18(a)においては、入力文字画像104のX軸方向における横幅と、発音基準線102のY軸方向における位置に基づいて、表示制御手段13によってデフォルトのピッチカーブ103が表示されている。
図18(b)は、図18(a)の状態から、利用者がピッチカーブ103を入力した状態を表している。図18(b)においては、ピッチカーブ103の形状に従って、入力文字画像104の各々について、表示制御手段13によって、ピッチ方向(Y軸方向)における表示位置が変更されている。ここで、入力文字画像104の各々には、初期値発音時間が既に割り当てられているから、実施形態のように、ピッチカーブ103の形状に従って、割り当て手段18によって文字列音長と発音時間の比を含む複数の発音レコードとに基づいた音長が、各入力文字画像104に割り当てられることはない。一方、入力文字列の最初の文字を表す入力文字画像104の左端から、入力文字列の最後の文字を表す入力文字画像104の右端までの長さ(つまり、入力文字画像104の時間軸方向(X軸方向)における幅)が、入力されたピッチカーブ103の時間軸方向(X軸方向)における長さよりも短い場合、以下のようにしてもよい。この場合、割り当て手段18によって、入力文字列の最後の文字を表す入力文字画像104に対して、入力されたピッチカーブ103の終端に合わせた音長が割り当てられる。図18(b)においては、割り当て手段18によって入力文字列の最後の文字を表す「ま」という入力文字画像104に対して、入力されたピッチカーブ103の終端に合わせた音長が割り当てられている。
なお、割り当て手段18が、入力文字列の最後の文字を表す入力文字画像104に対して、ピッチカーブ103の終端に合わせて音長を割り当てる処理は、利用者によって「ON/OFF」を設定可能としてもよい。また、利用者がピッチカーブ103を入力した際に、割り当て手段18が入力文字画像104の各々に割り当てる発音時間は、あくまでも初期値であるため、利用者は、ピッチカーブ103の入力後に、入力文字画像104を表す矩形の左端(あるいは右端)又は割り当て文字画像109を時間軸方向(X軸方向)にドラッグすることで、各文字に割り当てられる音長を変更させることが可能である。また、利用者がタッチスクリーン31を介して設定を変更することで、当該変形例のような初期値発音辞書DBに基づく音長の割り当て処理に代わって、実施形態における、各文字の発音時間の比を記憶した発音辞書DB21に基づく音長の割り当て処理に移行することを可能にしてもよい。また、その逆に、利用者がタッチスクリーン31を介して設定を変更することで、各文字の発音時間の比を記憶した発音辞書DB21に基づく音長の割り当て処理に代わって、当該変形例のような初期値発音辞書DBに基づく音長の割り当て処理に移行することを可能にしてもよい。以上述べた変形例13によれば、各文字について、利用者の操作に依らず、自然な抑揚で発音された場合の音長が初期値として割り当てられる。なお、実施形態における発音辞書DB21及び上記初期値発音辞書DBはいずれも発音長辞書記憶手段に相当する。
<変形例14>
音声合成装置100のハードウェア構成は、図1で説明したものに限定されない。図5に示される機能を実装できるものであれば、音声合成装置100はどのようなハードウェア構成を有していてもよい。例えば、音声合成装置100は、図5に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。
<変形例15>
上述の実施形態で説明した音声合成アプリケーションに関するプログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD、FD(Flexible Disk))など)、光記録媒体(光ディスク(CD(Compact Disk)、DVD(Digital Versatile Disk))など)、光磁気記録媒体、半導体メモリ(フラッシュROMなど)などのコンピュータ読取り可能な記録媒体に記憶した状態で提供されてもよい。また、このプログラムは、インターネットのようなネットワーク経由でダウンロードされてもよい。
10…制御部、11…文字列取得手段、12…基準音長特定手段、13…表示制御手段、14…文字間隔制御手段、15…軌跡分析手段、16…音声レコード生成手段、17…音声合成手段、18…割り当て手段、20…記憶部、21…発音辞書DB、22…最短発音時間DB、23…音声DB、24…音響効果DB、30…UI部、31…タッチスクリーン、40…音声出力部、100…音声合成装置、101…テキストボックス、102…発音基準線、103、103a〜103f…ピッチカーブ、104、104a、104a’、104b…入力文字画像、105…再生ボタン画像、106…戻るボタン画像、107、107a、107a’、107b…入力文字線、108A〜108E…入力文字画像群、109…割り当て文字画像、110…筐体、111…スピーカ、112…メニューボタン画像、113…時間軸目盛り、A〜E、A’…交差点、L1a、L1a’、L2…接線、α、α’…差分長、β、γ…距離

Claims (6)

  1. 複数の文字によって構成された文字列を取得する文字列取得手段と、
    取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示手段と、
    時間を表す第1軸および音高を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示手段と、
    表示されている前記図形において、表示されている前記文字列を構成する各文字に対応する位置の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て手段と、
    前記文字列を構成する各文字を前記割り当て手段によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成手段と、
    単語を発音するときの発音時間に対する、当該単語を構成する各文字の発音時間の長さ又は当該単語を構成する各文字の発音時間の比を、複数の単語について記憶する発音長辞書記憶手段とを備え、
    前記割り当て手段は、前記文字列の全体を発音するときの音長であって利用者が指定した文字列音長と、当該文字列を構成する各文字について前記発音長辞書記憶手段に記憶されている前記発音時間の長さ又は前記発音時間の比とに基づいて、前記各文字に音長を割り当てる
    ことを特徴とする音声合成装置。
  2. 複数の文字によって構成された文字列を取得する文字列取得手段と、
    取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示手段と、
    時間を表す第1軸および音高を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示手段と、
    表示されている前記図形において、表示されている前記文字列を構成する各文字に対応する位置の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て手段と、
    前記文字列を構成する各文字を前記割り当て手段によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成手段と、
    前記文字列を構成する各文字に音高又は音長を割り当てるときの指標を前記表示手段に表示させる指標表示手段とを備え、
    前記割り当て手段は、前記指標表示手段によって表示されている指標に従って、前記図形において前記文字列を構成する各文字に対応する位置の座標値を補正し、当該補正後の座標値に基づき、前記各文字に音高及び音長を割り当てる
    ことを特徴とする音声合成装置。
  3. 複数の文字によって構成された文字列を取得する文字列取得手段と、
    取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示手段と、
    時間を表す第1軸および音高を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示手段と、
    表示されている前記図形において、表示されている前記文字列を構成する各文字に対応する位置の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て手段と、
    前記文字列を構成する各文字を前記割り当て手段によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成手段と、
    複数の図形の形状の各々に対応付けて、文字が発音される際に適用される音響効果を記憶した音響効果記憶手段とを備え、
    前記図形表示手段は、前記表示手段に表示されている図形に対して重ね合わせられた図形が利用者によって指定されると、当該重ね合わせられた図形を前記表示手段に表示させ、
    前記割り当て手段は、前記音響効果記憶手段に記憶されている複数の図形の形状のうち、前記重ね合わせられた図形との類似度が閾値を超える図形の形状を特定し、特定した図形の形状に対応付けられて記憶されている音響効果を、当該重ね合わせられた図形の座標値に対応する位置に表示されている前記文字に割り当てる
    ことを特徴とする音声合成装置。
  4. コンピュータに、
    複数の文字によって構成された文字列を取得する文字列取得機能と、
    取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示機能と、
    音高を表す第1軸および時間を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示機能と、
    表示されている前記文字列を構成する各文字に対応する前記図形の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て機能と、
    前記文字列を構成する各文字を前記割り当て機能によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成機能と、
    単語を発音するときの発音時間に対する、当該単語を構成する各文字の発音時間の長さ又は当該単語を構成する各文字の発音時間の比を、複数の単語について記憶する発音長辞書記憶機能と
    を実現させるためのプログラムであって、
    前記割り当て機能においては、前記文字列の全体を発音するときの音長であって利用者が指定した文字列音長と、当該文字列を構成する各文字について前記発音長辞書記憶機能によって記憶されている前記発音時間の長さ又は前記発音時間の比とに基づいて、前記各文字に音長が割り当てられる
    ことを特徴とするプログラム
  5. コンピュータに、
    複数の文字によって構成された文字列を取得する文字列取得機能と、
    取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示機能と、
    音高を表す第1軸および時間を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示機能と、
    表示されている前記文字列を構成する各文字に対応する前記図形の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て機能と、
    前記文字列を構成する各文字を前記割り当て機能によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成機能と、
    前記文字列を構成する各文字に音高又は音長を割り当てるときの指標を前記表示手段に表示させる指標表示機能と
    を実現させるためのプログラムであって、
    前記割り当て機能においては、前記指標表示機能によって表示されている指標に従って、前記図形において前記文字列を構成する各文字に対応する位置の座標値が補正され、当該補正後の座標値に基づき、前記各文字に音高及び音長が割り当てられる
    ことを特徴とするプログラム。
  6. コンピュータに、
    複数の文字によって構成された文字列を取得する文字列取得機能と、
    取得された前記文字列を構成する各文字を表示手段に表示させる文字列表示機能と、
    音高を表す第1軸および時間を表す第2軸を有する座標系における図形が利用者によって指定されると、当該図形を、前記文字列を構成する各文字に対応付けた状態で前記表示手段に表示させる図形表示機能と、
    表示されている前記文字列を構成する各文字に対応する前記図形の座標値に基づき、当該各文字に音高及び音長を割り当てる割り当て機能と、
    前記文字列を構成する各文字を前記割り当て機能によって割り当てられた音高及び音長で発音させる音声データを合成する音声合成機能と、
    複数の図形の形状の各々に対応付けて、文字が発音される際に適用される音響効果を記憶する音響効果記憶機能と、
    を実現させるためのプログラムであって、
    前記図形表示機能においては、前記表示手段に表示されている図形に対して重ね合わせられた図形が利用者によって指定されると、当該重ね合わせられた図形が前記表示手段に表示され、
    前記割り当て機能においては、前記音響効果記憶機能によって記憶されている複数の図形の形状のうち、前記重ね合わせられた図形との類似度が閾値を超える図形の形状が特定され、特定された図形の形状に対応付けられて記憶されている音響効果が、当該重ね合わせられた図形の座標値に対応する位置に表示されている前記文字に割り当てられる
    ことを特徴とするプログラム。
JP2010266776A 2010-10-12 2010-11-30 音声合成装置及びプログラム Active JP5879682B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010266776A JP5879682B2 (ja) 2010-10-12 2010-11-30 音声合成装置及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010230058 2010-10-12
JP2010230058 2010-10-12
JP2010266776A JP5879682B2 (ja) 2010-10-12 2010-11-30 音声合成装置及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015099936A Division JP2015163982A (ja) 2010-10-12 2015-05-15 音声合成装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2012103654A JP2012103654A (ja) 2012-05-31
JP5879682B2 true JP5879682B2 (ja) 2016-03-08

Family

ID=46394070

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010266776A Active JP5879682B2 (ja) 2010-10-12 2010-11-30 音声合成装置及びプログラム
JP2015099936A Pending JP2015163982A (ja) 2010-10-12 2015-05-15 音声合成装置及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2015099936A Pending JP2015163982A (ja) 2010-10-12 2015-05-15 音声合成装置及びプログラム

Country Status (1)

Country Link
JP (2) JP5879682B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019239971A1 (ja) 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
WO2019239972A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
JP6583756B1 (ja) * 2018-09-06 2019-10-02 株式会社テクノスピーチ 音声合成装置、および音声合成方法
JP7186476B1 (ja) * 2022-07-29 2022-12-09 株式会社テクノスピーチ 音声合成装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3514263B2 (ja) * 1993-05-31 2004-03-31 富士通株式会社 歌声合成装置
JP3533974B2 (ja) * 1998-11-25 2004-06-07 ヤマハ株式会社 曲データ作成装置および曲データ作成プログラムを記録したコンピュータで読み取り可能な記録媒体
JP2000293183A (ja) * 1999-04-08 2000-10-20 Yamaha Corp カラオケ装置
JP3781167B2 (ja) * 2000-03-15 2006-05-31 カシオ計算機株式会社 演奏情報入力装置および演奏情報入力方法
JP2002041074A (ja) * 2000-07-28 2002-02-08 Yamaha Corp ボーカルデータ生成装置および歌唱装置
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
JP4026446B2 (ja) * 2002-02-28 2007-12-26 ヤマハ株式会社 歌唱合成方法、歌唱合成装置及び歌唱合成用プログラム
JP2003263185A (ja) * 2002-03-12 2003-09-19 Alpha Unit:Kk 音声出力ゲーム装置、ゲームプログラムを記録した記録媒体
JP3938015B2 (ja) * 2002-11-19 2007-06-27 ヤマハ株式会社 音声再生装置
JP2005345699A (ja) * 2004-06-02 2005-12-15 Toshiba Corp 音声編集装置、音声編集方法および音声編集プログラム
US7750224B1 (en) * 2007-08-09 2010-07-06 Neocraft Ltd. Musical composition user interface representation
JP5195210B2 (ja) * 2008-09-17 2013-05-08 ヤマハ株式会社 演奏データ編集装置及びプログラム
KR101611511B1 (ko) * 2009-05-12 2016-04-12 삼성전자주식회사 터치스크린을 구비한 휴대 단말기를 이용한 음악 생성 방법

Also Published As

Publication number Publication date
JP2015163982A (ja) 2015-09-10
JP2012103654A (ja) 2012-05-31

Similar Documents

Publication Publication Date Title
US8138408B2 (en) Music composition method and system for portable device having touchscreen
US9928817B2 (en) User interfaces for virtual instruments
US20140278433A1 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
WO2016060254A1 (ja) 音楽演奏支援装置及び方法
JP5549521B2 (ja) 音声合成装置およびプログラム
JP2015163982A (ja) 音声合成装置及びプログラム
JP6136202B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP5589741B2 (ja) 楽曲編集装置およびプログラム
JP5935815B2 (ja) 音声合成装置およびプログラム
JP5434679B2 (ja) 歌詞音節数提示装置及びプログラム
JP6149917B2 (ja) 音声合成装置および音声合成方法
JP4613817B2 (ja) 運指表示装置、及びプログラム
JP5429840B2 (ja) 音声合成装置およびプログラム
JP6168117B2 (ja) 楽譜情報生成装置、楽譜情報生成方法及びプログラム
US11694724B2 (en) Gesture-enabled interfaces, systems, methods, and applications for generating digital music compositions
US8912420B2 (en) Enhancing music
JP7350555B2 (ja) 楽譜編集装置及び楽譜編集プログラム
JP7107720B2 (ja) 運指表示プログラム
JP5810691B2 (ja) 楽譜情報生成装置および楽譜情報生成プログラム
JP5742303B2 (ja) 楽音生成制御装置および楽音生成制御プログラム
JP6358554B2 (ja) 楽音制御装置、楽音制御方法およびプログラム
TW201543466A (zh) 作曲方法、作曲程式產品及作曲系統
JP2013161040A (ja) 譜面作成装置、譜面作成方法、プログラムおよび記録媒体
JP5092148B2 (ja) 楽譜編集装置およびプログラム
CN116457868A (zh) 用于演奏组合的和弦和旋律序列的乐器的2d用户界面和计算机可读的存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160118

R151 Written notification of patent or utility model registration

Ref document number: 5879682

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151