JP2016004189A - Synthetic information management device - Google Patents
Synthetic information management device Download PDFInfo
- Publication number
- JP2016004189A JP2016004189A JP2014125138A JP2014125138A JP2016004189A JP 2016004189 A JP2016004189 A JP 2016004189A JP 2014125138 A JP2014125138 A JP 2014125138A JP 2014125138 A JP2014125138 A JP 2014125138A JP 2016004189 A JP2016004189 A JP 2016004189A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- speech
- indicator
- user
- separation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
Description
本発明は、音声合成に適用される合成情報を管理する技術に関する。 The present invention relates to a technique for managing synthesis information applied to speech synthesis.
複数の音声素片を相互に連結することで所望の発音内容の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献1には、利用者が任意に指定した発音文字の音声を合成する技術が開示されている。
Conventionally, a unit connection type speech synthesis technique for synthesizing speech of a desired pronunciation content by connecting a plurality of speech units to each other has been proposed. For example,
しかし、特許文献1の技術のもとでは、利用者は、音符毎の発音期間と発音文字とを指定できるに過ぎず、発音文字に対応する各音素間の連続性(離間/近接の度合)を調整することはできない。したがって、利用者の意図と比較して前後の各音素が極端に近接または離間した聴感的に不自然ないし不明瞭な音声が合成されるという問題や、利用者の意図や嗜好に沿った個性的ないし特徴的な表情の音声を合成できないという問題があった。以上の事情を考慮して、本発明は、前後の音素間の位置関係を視覚的かつ直感的に確認しながら利用者が音素間の位置関係(離間/近接)を調整することが可能な音声合成を実現することを目的とする。
However, under the technique of
以上の課題を解決するために、本発明の第1態様に係る合成情報管理装置は、合成音声の発音内容を指定する合成情報を管理する合成情報管理装置であって、利用者からの指示を受付ける指示受付手段と、前記合成情報が指定する発音内容に対応する複数の音素の音素記号の時系列を表示装置に表示させる手段であって、前記指示受付手段が利用者から受付けた指示に応じて、前記複数の音素のうち第1音素の音素記号と当該第1音素の直後の第2音素の音素記号との間に、前記第1音素と前記第2音素との時間軸上における位置関係を示す接続指示子を表示させる表示制御手段と、前記第1音素と前記第2音素とが時間軸上で前記接続指示子に応じた位置関係となるように前記合成情報を編集する情報管理手段とを具備する。以上の構成では、利用者から受付けた指示に応じて、第1音素の音素記号と第2音素の音素記号との間に、時間軸上における位置関係を示す接続指示子を表示させるとともに、第1音素と第2音素とが時間軸上において接続指示子に応じた位置関係となるように合成情報が編集されるから、利用者が前後の音素間の位置関係を視覚的かつ直感的に確認しながら音素の位置関係を調整することが可能である。 In order to solve the above problems, a synthesis information management apparatus according to the first aspect of the present invention is a synthesis information management apparatus that manages synthesis information that specifies the pronunciation content of synthesized speech, and that receives instructions from a user. An instruction receiving means for receiving, and means for displaying a time series of phoneme symbols of a plurality of phonemes corresponding to the pronunciation content specified by the synthesis information on a display device, wherein the instruction receiving means responds to an instruction received from a user The positional relationship on the time axis between the first phoneme and the second phoneme between the phoneme symbol of the first phoneme and the phoneme symbol of the second phoneme immediately after the first phoneme among the plurality of phonemes Display control means for displaying a connection indicator indicating, and information management means for editing the composite information so that the first phoneme and the second phoneme have a positional relationship corresponding to the connection indicator on a time axis It comprises. In the above configuration, in accordance with an instruction received from the user, a connection indicator indicating a positional relationship on the time axis is displayed between the phoneme symbol of the first phoneme and the phoneme symbol of the second phoneme, Since the synthesized information is edited so that the first phoneme and the second phoneme have a positional relationship according to the connection indicator on the time axis, the user visually and intuitively confirms the positional relationship between the preceding and following phonemes. It is possible to adjust the positional relationship between phonemes.
第1態様に係る合成情報管理装置の好適例において、前記表示制御手段は、前記指示受付手段が利用者から受付けた指示に応じて、前記第1音素と前記第2音素との近接を示す近接指示子を、前記第1音素の音素記号と前記第2音素の音素記号との間に前記接続指示子として表示させ、前記情報管理手段は、前記近接指示子に応じて前記第1音素と前記第2音素とが時間軸上で接近するように前記合成情報を編集する。以上の態様では、利用者から受付けた指示に応じて、第1音素の音素記号と第2音素の音素記号との間に、第1音素と第2音素との近接を示す接続指示子を表示させるとともに、第1音素と第2音素とが時間軸上において近接指示子に応じて接近するように合成情報が編集されるから、相前後する音素の近接を利用者が視覚的かつ直感的に確認しながら、音素同士を接近させることが可能になるという効果を奏する。また、利用者が意図や嗜好に沿って音素間の連続性の度合いを調整することが可能であるので、個性的ないし特徴的な表情の音声を合成することが可能になるという利点がある。 In a preferred example of the composite information management device according to the first aspect, the display control means is a proximity indicating the proximity of the first phoneme and the second phoneme in accordance with an instruction received from a user by the instruction receiving means. An indicator is displayed as the connection indicator between the phoneme symbol of the first phoneme and the phoneme symbol of the second phoneme, and the information management means is configured to display the first phoneme and the phoneme according to the proximity indicator. The composite information is edited so that the second phoneme approaches on the time axis. In the above aspect, a connection indicator indicating the proximity of the first phoneme and the second phoneme is displayed between the phoneme symbol of the first phoneme and the phoneme symbol of the second phoneme in accordance with an instruction received from the user. In addition, since the synthesis information is edited so that the first phoneme and the second phoneme approach in accordance with the proximity indicator on the time axis, the user can visually and intuitively determine the proximity of the adjacent phonemes. There is an effect that the phonemes can be brought close to each other while checking. In addition, since the user can adjust the degree of continuity between phonemes according to the intention or preference, there is an advantage that it is possible to synthesize voices with unique or characteristic facial expressions.
第1態様に係る合成情報管理装置の好適例において、前記表示制御手段は、前記指示受付手段が利用者から受付けた指示に応じて、前記第1音素と前記第2音素との離間を示す離間指示子を、前記第1音素の音素記号と前記第2音素の音素記号との間に前記接続指示子として表示させ、前記情報管理手段は、前記離間指示子に応じて前記第1音素と前記第2音素とが時間軸上で離間するように前記合成情報を編集する。以上の態様では、利用者から受付けた指示に応じて、第1音素の音素記号と第2音素の音素記号との間に、第1音素と第2音素との離間を示す離間指示子を表示させるとともに、第1音素と第2音素とが時間軸上において離間指示子に応じて離間するように合成情報が編集されるから、相前後する音素の離間を利用者が視覚的かつ直感的に確認しながら、音素同士を離間させることが可能になるという効果を奏する。また、利用者が意図や嗜好に沿って音素間の連続性の度合いを調整することが可能であるので、個性的ないし特徴的な表情の音声を合成することが可能になるという利点がある。 In a preferred example of the composite information management apparatus according to the first aspect, the display control means is a separation indicating a separation between the first phoneme and the second phoneme in accordance with an instruction received from a user by the instruction receiving means. An indicator is displayed as the connection indicator between the phoneme symbol of the first phoneme and the phoneme symbol of the second phoneme, and the information management means is configured to display the first phoneme and the phoneme according to the separation indicator. The synthesis information is edited so that the second phoneme is separated on the time axis. In the above aspect, in accordance with an instruction received from the user, a separation indicator indicating the separation between the first phoneme and the second phoneme is displayed between the phoneme symbol of the first phoneme and the phoneme symbol of the second phoneme. In addition, since the synthesis information is edited so that the first phoneme and the second phoneme are separated on the time axis according to the separation indicator, the user can visually and intuitively determine the separation of the adjacent phonemes. While checking, there is an effect that it becomes possible to separate phonemes. In addition, since the user can adjust the degree of continuity between phonemes according to the intention or preference, there is an advantage that it is possible to synthesize voices with unique or characteristic facial expressions.
第1態様に係る合成情報管理装置の好適例において、前記表示制御手段は、前記指示受付手段が利用者から受付けた指示に応じて、前記複数の音素のうち第1音素の音素記号と当該第1音素の直後の第2音素の音素記号との間に、時間軸上における前記第1音素と前記第2音素との近接または離間の程度を示す指標値を表示させ、前記情報管理手段は、前記指標値に応じて前記第1音素と前記第2音素とが時間軸上で接近または離間するように前記合成情報を更新する。以上の態様では、利用者から受付けた指示に応じて、第1音素の音素記号と第2音素の音素記号との間に、第1音素と第2音素との近接または離間の程度を示す指標値を表示させるとともに、第1音素と第2音素とが時間軸上において指標値に応じて接近または離間するように合成情報が編集されるから、相前後する音素の近接または離間の程度を、利用者が視覚的かつ直感的に確認しながら、音素同士の位置関係を調整することが可能になるという効果を奏する。また、利用者が意図や嗜好に沿って音素間の連続性の度合いを調整することが可能であるので、個性的ないし特徴的な表情の音声を合成することが可能になるという利点がある。 In a preferred example of the composite information management device according to the first aspect, the display control means and the phoneme symbol of the first phoneme out of the plurality of phonemes according to the instruction received by the instruction receiving means from the user. An index value indicating the degree of proximity or separation between the first phoneme and the second phoneme on the time axis is displayed between the phoneme symbol of the second phoneme immediately after one phoneme, and the information management unit includes: The synthesis information is updated so that the first phoneme and the second phoneme approach or separate on the time axis according to the index value. In the above aspect, the index indicating the degree of proximity or separation between the first phoneme and the second phoneme between the phoneme symbol of the first phoneme and the phoneme symbol of the second phoneme according to an instruction received from the user. Since the composite information is edited so that the first phoneme and the second phoneme approach or separate according to the index value on the time axis while displaying the value, the degree of proximity or separation of the adjacent phonemes There is an effect that the user can adjust the positional relationship between phonemes while visually and intuitively checking. In addition, since the user can adjust the degree of continuity between phonemes according to the intention or preference, there is an advantage that it is possible to synthesize voices with unique or characteristic facial expressions.
本発明の第2態様に係る合成情報管理装置は、合成音声の発音内容を指定する合成情報を管理する合成情報管理装置であって、前記合成情報が指定する発音内容に対応する複数の音素の音素記号の時系列を表示装置に表示させる手段であって、前記複数の音素のうち第1音素の音素記号と当該第1音素の直後の第2音素の音素記号との間に、前記第1音素と前記第2音素との時間軸上における離間の程度を指定する操作指示子を表示させる表示制御手段と、前記操作指示子の操作を利用者から受付ける指示受付手段と、前記第1音素と前記第2音素との時間軸上における位置関係が、前記操作指示子の操作量に応じて離間するように前記合成情報を更新する情報管理手段とを具備する。以上の態様では、利用者から受付けた指示に応じて、第1音素の音素記号と第2音素の音素記号との間に、第1音素と第2音素との離間の程度を指定する操作指示子を表示させるとともに、第1音素と第2音素とが時間軸上において操作指示子の操作量に応じて離間するように合成情報が編集されるから、相前後する音素の離間の程度を、利用者が視覚的かつ直感的に確認しながら、音素同士の位置関係を調整することが可能になるという効果を奏する。例えば、操作指示子の操作量が大きいときに離間の程度を大きくする構成としてもよい。また、利用者が意図や嗜好に沿って音素間の連続性の度合いを調整することが可能であるので、個性的ないし特徴的な表情の音声を合成することが可能になるという利点がある。 The synthesis information management device according to the second aspect of the present invention is a synthesis information management device for managing synthesis information for designating the pronunciation content of synthesized speech, and comprising a plurality of phonemes corresponding to the pronunciation content designated by the synthesis information. Means for displaying a time series of phoneme symbols on a display device, wherein the first phoneme symbol of the plurality of phonemes and the second phoneme symbol immediately after the first phoneme are between the first phoneme symbol and the first phoneme symbol. Display control means for displaying an operation indicator for designating the degree of separation between the phoneme and the second phoneme on the time axis, instruction accepting means for accepting an operation of the operation indicator from a user, and the first phoneme And information management means for updating the composite information so that a positional relationship with the second phoneme on the time axis is separated according to an operation amount of the operation indicator. In the above aspect, in accordance with an instruction received from the user, an operation instruction that specifies the degree of separation between the first phoneme and the second phoneme between the phoneme symbol of the first phoneme and the phoneme symbol of the second phoneme. Since the synthesis information is edited so that the first phoneme and the second phoneme are separated according to the operation amount of the operation indicator on the time axis, the degree of separation of the phonemes before and after is displayed. There is an effect that the user can adjust the positional relationship between phonemes while visually and intuitively checking. For example, the degree of separation may be increased when the operation amount of the operation indicator is large. In addition, since the user can adjust the degree of continuity between phonemes according to the intention or preference, there is an advantage that it is possible to synthesize voices with unique or characteristic facial expressions.
以上の各態様に係る合成情報管理装置は、合成情報の編集や音声信号の生成に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る合成情報管理装置の動作方法(合成情報管理方法)としても特定される。 The synthesis information management device according to each of the above aspects is realized by hardware (electronic circuit) such as DSP (Digital Signal Processor) dedicated to editing synthesis information and generating audio signals, and also a CPU (Central Processing Unit) ) Etc., and can also be realized by the cooperation of a program. The program of the present invention can be provided in a form stored in a computer-readable recording medium and installed in the computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included. For example, the program of the present invention can be provided in the form of distribution via a communication network and installed in a computer. The present invention is also specified as an operation method (composite information management method) of the composite information management apparatus according to each aspect described above.
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。第1実施形態の音声合成装置100は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲(以下「合成楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置である。第1実施形態では、利用者から受付けた指示に応じて、時間軸上において相前後する音素同士の相互の位置関係が調整された音声信号Vを生成する。
<First Embodiment>
FIG. 1 is a block diagram of a
図1に例示される通り、音声合成装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器(例えばマウス等のポインティングデバイスやキーボード)であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、音声信号Vに応じた音響を再生する。
As illustrated in FIG. 1, the
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、以下に例示する通り、音声素片群Lと合成情報Sとを記憶する。
The
音声素片群Lは、特定の発声者の収録音声から事前に採取された複数の音声素片Pの集合(音声合成用ライブラリ)である。図5に例示される通り、第1実施形態における音声素片群Lは、音素pAと音素pBとを連結した音素連鎖(ダイフォン)を含む。音素(後方音素)pBは、音素(前方音素)pAの後方に位置する。各音声素片Pは、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。なお、以下の説明では、無音を便宜的に1個の音素と位置付けて記号“Sil”で表記する。 The speech segment group L is a set (speech synthesis library) of a plurality of speech segments P collected in advance from the recorded speech of a specific speaker. As illustrated in FIG. 5, the speech element group L in the first embodiment includes a phoneme chain (a diphone) in which a phoneme pA and a phoneme pB are connected. The phoneme (back phoneme) pB is located behind the phoneme (front phoneme) pA. Each speech element P is expressed by a time series of a time domain speech waveform sample sequence or a frequency domain spectrum calculated for each frame of the speech waveform. In the following description, silence is positioned as one phoneme for the sake of convenience and is represented by the symbol “Sil”.
第1実施形態の音声素片群Lには、2個の音素の組合せ毎に、各音素の位置関係を相違させた複数種の音声素片Pが記憶される。例えば、音素pAと音素pBとの特定の組合せに対応する音声素片については、音素pAと音素pBとの間隔が標準的な基準値に設定された音声素片P(以降「標準素片P0」という)のほか、音素pAと音素pBとの間隔が基準値を上回る(すなわち音素pAと音素pBとが標準素片P0と比較して離間した)音声素片P(以降「離間型素片P1」という)と、音素pAと音素pBとの間隔が基準値を下回る(すなわち音素pAと音素pBとが標準素片P0と比較して近接した)音声素片P(以降「近接型素片P2」という)とが音声素片群Lに包含される。ただし、2個の音素の全通りの組合せについて音素間の位置関係が相違する複数種の音声素片(離間型素片P1,近接型素片P2)が事前に用意されるわけではなく、標準素片P0以外の音声素片(離間型素片P1,近接型素片P2)が音声素片群Lに用意されていない2音素の組合せも存在する。 In the speech element group L of the first embodiment, for each combination of two phonemes, a plurality of types of speech elements P in which the positional relationship of each phoneme is different are stored. For example, for a speech unit corresponding to a specific combination of the phoneme pA and the phoneme pB, the speech unit P (hereinafter referred to as “standard segment P0” in which the interval between the phoneme pA and the phoneme pB is set to a standard reference value. ), And a speech unit P (hereinafter referred to as a “separated unit”), in which the interval between the phoneme pA and the phoneme pB exceeds the reference value (that is, the phoneme pA and the phoneme pB are separated from the standard unit P0). P1 ”and the interval between the phoneme pA and the phoneme pB is less than the reference value (that is, the phoneme pA and the phoneme pB are close to each other compared to the standard segment P0). P2 ") is included in the speech element group L. However, multiple types of speech elements (separated type element P1 and proximity type element P2) having different positional relationships between phonemes for all combinations of two phonemes are not prepared in advance. There is a combination of two phonemes in which a speech unit other than the unit P0 (a separated unit P1, a proximity unit P2) is not prepared in the speech unit group L.
合成情報Sは、図2に例示される通り、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に音高(例えばノートナンバー)X1と発音期間X2と音声符号X3とを時系列に指定する。発音期間X2は、音符の時間長(音価)であり、例えば発音の開始時刻T1と時間長(継続長)T2とで規定される。なお、発音期間X2を発音の開始時刻T1と終了時刻とで規定する構成(両時刻間の時間長が時間長T2として算定され得る構成)も好適である。以上の説明から理解される通り、合成情報Sは、合成楽曲の楽譜を指定する時系列データとも換言され得る。音声符号X3は、合成対象の音声の発音内容(すなわち合成楽曲の歌詞)を指定する。具体的には、音声符号X3は、合成楽曲の1個の音符について発音される音声単位(例えば音節やモーラ)を指定する情報であり、当該音声単位に対応する発音文字QAと、当該音声単位を構成する各音素の音素記号QBとを含んで構成される。発音文字QAは、合成楽曲の歌詞を構成する文字(書記素)に相当する。また、第1実施形態では、利用者から受け付けられた指示に応じて、複数の音素の時系列のうち任意の音素(第1音素)の直後に、当該音素と、当該音素の直後の音素(第2音素)との位置関係を規定する音素間情報QCが付加される。音素間情報QCは、具体的には、第1音素と第2音素との時間軸上における離間または近接を規定する。 As illustrated in FIG. 2, the synthesis information S is time-series data for designating the singing voice of the synthesized music, and the pitch (for example, note number) X1, the pronunciation period X2, and the voice code for each note constituting the synthesized music. Designate X3 in time series. The sound generation period X2 is the time length (note value) of a note, and is defined by, for example, the start time T1 of sound generation and the time length (continuation length) T2. A configuration in which the sound generation period X2 is defined by a sound generation start time T1 and an end time (a configuration in which the time length between both times can be calculated as the time length T2) is also suitable. As can be understood from the above description, the synthesis information S can be rephrased as time-series data for designating the score of the synthesized music. The voice code X3 designates the pronunciation content of the voice to be synthesized (that is, the lyrics of the synthesized music). Specifically, the phonetic code X3 is information for designating a voice unit (for example, a syllable or a mora) that is pronounced for one note of the synthesized music, and the phonetic character QA corresponding to the voice unit and the voice unit. The phoneme symbol QB of each phoneme that constitutes. The phonetic character QA corresponds to a character (grapheme) constituting the lyrics of the synthesized music. In the first embodiment, in response to an instruction received from the user, the phoneme immediately after an arbitrary phoneme (first phoneme) in a time series of a plurality of phonemes and a phoneme immediately after the phoneme ( Interphoneme information QC defining the positional relationship with the second phoneme) is added. More specifically, the inter-phoneme information QC defines the separation or proximity of the first phoneme and the second phoneme on the time axis.
図1の演算処理装置10(CPU)は、記憶装置12に格納されたプログラムを実行することで、合成情報Sの編集や音声信号Vの生成のための複数の機能(指示受付部22,表示制御部24,情報管理部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。指示受付部22と表示制御部24と情報管理部26とは、例えば楽曲編集用のソフトウェア(エディタ)で実現され、音声合成部28は、例えば音声合成用のソフトウェア(音声合成エンジン)で実現される。ただし、演算処理装置10の各機能と各機能を実現するソフトウェアの切分けとの関係は以上の例示に限定されない。
The arithmetic processing unit 10 (CPU) in FIG. 1 executes a program stored in the
指示受付部22は、入力装置16に対する操作に応じた利用者からの指示を受付ける。表示制御部24は、各種の画像を表示装置14に表示させる。具体的には、第1実施形態の表示制御部24は、合成情報Sが指定する合成楽曲の内容を利用者が確認するための図4の編集画面40を表示装置14に表示させる。編集画面40は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面である。
The
表示制御部24は、合成情報Sが指定する音符毎に音符図像42と発音文字QAと音素記号QBとを編集画面40に時系列に配置する。図4は、図3に示される楽曲の“I wanted to see”という歌詞(文字列)の各音声単位“I”,“wan-”,“ted”,“to”,“see”を音声符号X3として5個の音符に割当てた編集画面40を例示している。なお、図の例では、複数の文字列に対応する音声符号X3を1つの音符に割当てているが、1つの文字に対応する音声符号X3を1つの音符に割当てる構成としてもよい。音符図像42は、合成楽曲の各音符を表象する画像である。具体的には、音高軸の方向における音符図像42の位置は、合成情報Sが指定する音高X1に応じて設定される。また、時間軸の方向における音符図像42の位置は、合成情報Sが指定する発音期間X2の開始時刻T1に応じて設定され、時間軸の方向における音符図像42の表示長(サイズ)は、合成情報Sが指定する発音期間X2の時間長T2に応じて設定される。すなわち、時間長T2が長い音符ほど音符図像42の時間軸上の表示長は長い。発音文字QAおよび音素記号QBは音符図像42の内部に配置される。以上の説明から理解される通り、編集画面40は、合成楽曲の歌詞(発音内容)に対応した発音文字QAと各音素の音素記号QBとを時系列に配置した画像である。なお、発音文字QAや音素記号QBの位置は適宜に変更される。例えば、発音文字QAおよび音素記号QBの一方または双方を音符図像42の近傍(外側)に配置することも可能である。また、発音文字QAの表示を省略した構成や、音素記号QBの表示を省略した構成も採用され得る。
The
利用者は、図4の編集画面40を確認しながら入力装置16を適宜に操作することで、音符図像42の追加または移動や発音文字QAの追加または変更を指示することが可能である。また、利用者は入力装置16を適宜に操作することで、編集画面40に表示された複数の音素記号QBの時系列のうち、任意の音素(第1音素)の音素記号QBと、当該音素の直後の音素(第2音素)の音素記号QBとの間に、第1音素と第2音素との時間軸上における位置関係を指示することが可能である。
The user can instruct addition or movement of the
図1の情報管理部26は、編集画面40に対する利用者からの指示に応じて合成情報Sを編集する。例えば、情報管理部26は、音高軸の方向における音符図像42の移動の指示に応じて、合成情報Sのうち当該音符図像42に対応する音符の音高X1を変更する。また、情報管理部26は、時間軸の方向における音符図像42の位置に応じて、合成情報Sのうち当該音符図像42に対応する音符の発音期間X2の開始時刻T1を変更し、音符図像42の時間軸上の表示長に応じて、合成情報Sのうち当該音符図像42に対応する音符の発音期間X2の時間長T2を変更する。すなわち、音符図像42の表示長を変更する指示は、発音期間X2の時間長T2を変更する指示に相当する。任意の音符の発音文字QAが変更された場合、情報管理部26は、合成情報Sのうち当該音符に対応する発音文字QAを変更するとともに当該音符の各音素記号QBを変更後の発音文字QAに応じて更新する。また、情報管理部26は、第1音素と第2音素との時間軸上における位置関係が、利用者から受付けた指示に応じた位置関係となるように、第1音素の音素記号QBの直後に、利用者の指示に応じた位置関係を示す音素間情報QCを追加する。
The
図1の音声合成部28は、記憶装置12に記憶された音声素片群Lと合成情報Sとを利用して音声信号Vを生成する。具体的には、音声合成部28は、合成情報Sが指定する音符毎の音声符号X3に応じた音声素片Pを音声素片群Lから順次に選択し、各音声素片Pを音高X1および発音期間X2に調整して相互に連結することで歌唱音声の音声信号Vを生成する。音声合成部28が生成した音声信号Vが放音装置18に供給されることで、合成楽曲の歌唱音声が再生される。
The
図6は、第1実施形態に係る音声合成装置100の概略的な動作のフローチャートである。例えば合成情報Sの編集が利用者から指示された場合に図6の処理が開始される。演算処理装置10(表示制御部24,情報管理部26)は、合成情報Sに応じた編集画面40を表示装置14に表示させ(SA1)、指示受付部22が利用者から受付ける指示に応じて合成情報Sを編集するとともに、編集内容に応じて編集画面40を更新する編集処理SA2を実行する。編集処理SA2を実行すると、演算処理装置10は、音声合成が利用者から指示されたか否かを判定し(SA3)、音声合成が指示された場合(SA3:YES)には、合成情報Sで指定される歌唱音声の音声信号Vを生成する音声合成処理SA4を実行する。音声合成が指示されない場合(SA3:NO)には音声合成処理SA4は実行されない。
FIG. 6 is a flowchart of a schematic operation of the
演算処理装置10は、処理終了が利用者から指示されたか否かを判定する(SA5)。処理終了が指示されていない場合(SA5:NO)、演算処理装置10は編集処理SA2を実行する。他方、処理終了が指示された場合(SA5:YES)、演算処理装置10は図6の処理を終了する。
The
利用者は、編集画面40のうち所望の音声符号X3が包含される音符の音符図像42を対象として、音声符号X3に包含される第1音素の音素記号QBの直後に、第1音素と第2音素とを時間軸上で離間または近接させる旨を指示することが可能である。図7は、図6の編集処理SA2のうち第1音素と第2音素とを離間または近接させる指示が利用者から受付けられた場合に実行される処理のフローチャートである。指示受付部22が音素間の離間または近接の指示を受付けた場合、表示制御部24は、編集画面40の第1音素の音素記号QBの直後に接続指示子Cを表示させる(SB1)。情報管理部26は、離間指示子CSまたは近接指示子CCに応じて第1音素[n]と第2音素[t]とが時間軸上において離間または接近するように、離間または近接を規定する音素間情報QCを合成情報Sに追加する(SB2)。表示制御部24および情報管理部26による処理の具体例を以下に詳述する。
For the
<相前後する音素同士の離間>
図8は、接続指示子の一態様の説明図(図4の一部の再掲)である。利用者は、入力装置16を適宜に操作することで、編集画面40に表示された複数の音素記号QBの時系列のうち相前後する任意の各音素記号QBに対応する各音素を時間軸上で離間させる指示を付与することが可能である。例えば、利用者は、任意の1個の音素記号QBを選択したうえで、当該音素記号QBの音素(第1音素)と直後の音素(第2音素)との離間を指示し得る。図8では、“wan-”の音声符号X3に包含される音素[n](第1音素)と、“ted”の音声符号X3に包含される[t](第2音素)とを時間軸上で離間させる指示を、指示受付部22が利用者から受付けた場合が想定されている。以上の指示が受付けられると、表示制御部24は、編集画面40上における第1音素[n]の音素記号QBの直後に、第1音素と第2音素との時間軸上における離間を表象する離間指示子(ドット『.』)CSを接続指示子Cとして表示させる。また、情報管理部26は、離間指示子CSに応じて、第1音素[n]の直後に第1音素[n]と第2音素[t]との時間軸上における離間を規定する音素間情報QCを追加する。以上の説明から理解される通り、第1実施形態では、複数の音素記号QBの時系列と、利用者からの指示に応じた接続指示子C(離間指示子CS)とが編集画面40上に表示されるから、利用者は、合成楽曲の歌詞に包含される複数の音素を確認しながら、第1音素[n]と第2音素[t]との連続性の度合を調整(離間)することが可能である。
<Separation between adjacent phonemes>
FIG. 8 is an explanatory diagram of one aspect of the connection indicator (part of FIG. 4 is shown again). By appropriately operating the
なお、離間指示子CSの表示態様は任意である。例えば図8に例示した記号以外に、任意の文字列や任意の画像等を離間指示子CSとして表示させる態様も採用され得る。また、以上の説明では、第1音素[n]を包含する“wan-”の音声符号X3と、第2音素[t]を包含する“ted”の音声符号X3とは別個の音符図像42に対応していたが、第1音素と第2音素とが1つの音符区間(音符図像42)に包含される構成も採用され得る。例えば、図14に例示するように、第1音素[t]と、第2音素[I]との間に、接続指示子Cを表示させる構成としてもよい。
The display mode of the separation indicator CS is arbitrary. For example, in addition to the symbols illustrated in FIG. 8, an aspect in which an arbitrary character string, an arbitrary image, or the like is displayed as the separation indicator CS may be employed. Further, in the above description, the “wan-” speech code X3 including the first phoneme [n] and the “ted” speech code X3 including the second phoneme [t] are represented as
<相前後する音素同士の近接>
図9は、接続指示子の一態様の説明図(図4の一部の再掲)である。図9では、“wan-”の音声符号X3に包含される音素[n](第1音素)と、“ted”の音声符号X3に包含される[t](第2音素)とを時間軸上で近接させる指示を、指示受付部22が利用者から受付けた場合が想定されている。以上の指示が受付けられると、表示制御部24は、編集画面40上における第1音素[n]の音素記号QBの直後に、第1音素と第2音素との時間軸上における離間を表象する近接指示子(ハイフン『-』およびバックスラッシュ『\』)CCを接続指示子Cとして表示させる。また、情報管理部26は、近接指示子CCに応じて、第1音素[n]の直後に第1音素[n]と第2音素[t]との時間軸上における近接を規定する音素間情報QCを追加する。以上の説明から理解される通り、第1実施形態では、複数の音素記号QBの時系列と、利用者からの指示に応じた接続指示子C(近接指示子CC)とが編集画面40上に表示されるから、利用者は合成楽曲の歌詞に包含される複数の音素を確認しながら、第1音素[n]と第2音素[t]との連続性の度合を調整(接近)することが可能である。なお、近接指示子CCの表示態様は、図9に例示した記号以外に、任意の文字列や任意の画像等が採用され得る。
<Proximity between neighboring phonemes>
FIG. 9 is an explanatory diagram of one aspect of the connection indicator (part of FIG. 4 is shown again). In FIG. 9, the phoneme [n] (first phoneme) included in the “wan-” speech code X3 and the [t] (second phoneme) included in the “ted” speech code X3 are time axes. It is assumed that the
図10は、音声合成部28が音声合成処理SA4で生成する音声信号Vの波形図である。具体的には、図4に例示した内容の合成情報Sのもとで生成された音声信号Vの波形が図10では例示されている。図10に矩形上で囲まれた部分は、音声素片群Lのうち、音素[n]および音素[t]を包含する区間を示している。以下の説明では、音素[n]と音素[t]との間隔に特に着目する。
FIG. 10 is a waveform diagram of the voice signal V generated by the
図11は、図6に例示した音声合成処理SA4の具体例のフローチャートである。音声合成処理SA4を開始すると、音声合成部28は、合成情報Sが音符毎に指定する各音声符号X3に応じた選択対象の音声素片のうち前方の音素について音素間情報QCが付加されているか否かを判定する(SC1)。音素間情報QCが付加されていない場合(SC1:NO)、音声合成部28は、音声符号X3に応じた標準素片P0を音声素片群Lから選択する(SC2)。他方、音素間情報QCが付加されている場合(SC1:YES)、音声合成部28は、音素間情報QCが離間/近接のいずれを規定するかを判定する(SC3)。
FIG. 11 is a flowchart of a specific example of the speech synthesis process SA4 illustrated in FIG. When the speech synthesis process SA4 is started, the
例えば、図8に例示されるように、離間を規定する音素間情報QCが設定されている場合(SC3:離間)、音声合成部28は、第1音素[n]と第2音素[t]との間隔が基準値よりも離間した離間型の[n.t]の音声素片P(離間型素片P1)が音声素片群Lに存在するか否かを判定する(SC4)。音声素片群Lに離間型素片P1が存在する場合(SC4:YES)、音声合成部28は音声素片群Lから離間型素片P1を選択する(SC5)。他方、音声素片群Lに離間型素片P1が存在しない場合(SC4:NO)、音声合成部28は、第1音素[n]と第2音素[t]との間隔が基準値に設定された[n-t]の音声素片P(標準素片P0)を音声素片群Lから選択し、標準素片P0における第1音素[n]と第2音素[t]との間隔を伸張する(SC6)。具体的には、図12に例示されるように、第1音素[n]の終了から第2音素[t]の開始までの間隔DをD1(D1>D)に伸長する。間隔D1は、例えば初期的な間隔Dに対して所定の比率(>1)を乗算した時間長である。
For example, as illustrated in FIG. 8, when the interphoneme information QC that defines the separation is set (SC3: separation), the
他方、図9に例示されるように、近接を規定する音素間情報QCが設定されている場合(SC3:近接)、音声合成部28は、第1音素[n]と第2音素[t]との間隔が基準値よりも近接した近接型の[n-\t]の音声素片P(近接型素片P2)が音声素片群Lに存在するか否かを判定する(SC7)。音声素片群Lに、近接型素片P2が存在する場合(SC7:YES)、音声合成部28は近接型素片P2を選択する(SC8)。他方、音声素片群Lに近接型素片P2が存在しない場合(SC7:NO)、音声合成部28は、標準素片P0を音声素片群Lから選択し、標準素片P0における第1音素[n]と第2音素[t]との間隔を短縮する(SC9)。具体的には、図13に例示されるように、第1音素[n]の終了から第2音素[t]の開始までの間隔DをD2(D2<D)に短縮する。間隔D2は、例えば初期的な間隔Dに対して所定の比率(<1)を乗算した時間長である。
On the other hand, as illustrated in FIG. 9, when the interphoneme information QC defining proximity is set (SC3: proximity), the
音声合成部28は、以上に説明した各処理(SC2,SC5,SC6,SC8,SC9)で選択または伸縮した音声素片Pを、合成情報Sが指定する音高X1および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する(SC10)。音声合成部28は、合成情報Sに包含される全部の音素を処理したか否かを判定し(SC11)、処理が完了していない場合(SC11:NO)には、処理をステップSC1に移行し、合成情報Sが指定する他の音素について同様の処理を実行する。他方、処理が完了した場合(SC11:YES)、音声合成部28は音声合成処理SA4を終了する。
The
以上に説明した通り、第1実施形態では、利用者からの指示に応じて、複数の音素記号QBの時系列と、音声符号X3に包含される第1音素[n]と第2音素[t]との離間または近接を規定する接続指示子C(離間指示子CSまたは近接指示子CC)を表示させる。したがって、利用者は、時系列に配置される複数の音素(音素記号QB)を編集画面40上で視覚的かつ直感的に確認しながら、第1音素[n]と第2音素[t]との連続性の度合を調整(離間または接近)することができる。第1実施形態によれば、利用者は自らの意図や嗜好に沿った個性的ないし特徴的な表情の音声を合成することが可能になるとともに、前後の各音素が極端に近接または離間した聴感的に不自然ないし不明瞭な音声が合成される事態を回避することができるという利点がある。
As described above, in the first embodiment, in response to an instruction from the user, the time series of a plurality of phoneme symbols QB and the first phoneme [n] and the second phoneme [t included in the speech code X3 The connection indicator C (separation indicator CS or proximity indicator CC) that defines separation or proximity to the display is displayed. Accordingly, the user can visually confirm the plurality of phonemes (phoneme symbols QB) arranged in time series on the
また、第1実施形態では、第1音素と第2音素との間隔が基準値以上である離間型素片P1([n.t]の音声素片P1)、または、第1音素と第2音素との間隔が基準値以下である近接型素片P2([n-\t]の音声素片P2)が音声素片群Lに存在しない場合に、既存の標準素片P0([n-t]の音声素片)における第1音素[n]と第2音素[t]との間隔(区間D)を伸縮する。したがって、2個の音素の全通りの組合せについて、各音素の位置関係を相違させた複数種の音声素片(離間型素片P1,近接型素片P2)を記憶する必要がないから、記憶装置12の記憶容量を削減できるという利点がある。
Further, in the first embodiment, the separation type element P1 ([n.t] speech element P1) in which the interval between the first phoneme and the second phoneme is equal to or greater than the reference value, or the first phoneme and the second phoneme. When the proximity unit P2 (the speech unit P2 of [n- \ t]) whose distance from the phoneme is equal to or less than the reference value does not exist in the speech unit group L, the existing standard unit P0 ([nt] The interval (section D) between the first phoneme [n] and the second phoneme [t] in the speech unit). Therefore, it is not necessary to store a plurality of types of speech elements (separated type element P1, proximity type element P2) in which the positional relationship of each phoneme is different for all combinations of two phonemes. There is an advantage that the storage capacity of the
<第2実施形態>
本発明の第2実施形態を以下に説明する。第1実施形態では、接続指示子C(離間指示子CS,近接指示子CC)に応じて、第1音素と第2音素とを離間または接近させる構成を例示した。第2実施形態では、第1音素と第2音素との離間または近接の程度を示す指標値の指示を利用者から受付け、第1音素と第2音素とを指標値に応じて離間または近接させる。
Second Embodiment
A second embodiment of the present invention will be described below. In the first embodiment, the configuration in which the first phoneme and the second phoneme are separated or approached according to the connection indicator C (separation indicator CS, proximity indicator CC) has been exemplified. In the second embodiment, an indication of an index value indicating the degree of separation or proximity between the first phoneme and the second phoneme is received from the user, and the first phoneme and the second phoneme are separated or approached according to the index value. .
図15は、編集処理SA2のうち、第1音素と第2音素とを離間または近接させる指示と、指標値とが利用者から受付けられた場合に実行される処理の具体例のフローチャートである。第2実施形態の編集処理SA2では、第1実施形態の編集処理SA2におけるSB2の処理がSD1およびSD2の処理に置き換えられる。指示受付部22が音素間の離間または近接の指示に続いて指標値の指示を受付けた場合、表示制御部24は、編集画面40の第1音素の音素記号QBの直後の接続指示子Cの近傍に、離間または近接の程度を示す指標値Iを表示させる(SD1)。情報管理部26は、接続指示子C(離間指示子CSまたは近接指示子CC)と指標値Iとに応じて第1音素[n]と第2音素[t]とが時間軸上において離間または接近するように、離間または近接、および、指標値Iを規定する音素間情報QCを合成情報Sに追加する(SD2)。第2実施形態における表示制御部24および情報管理部26による処理の具体例を以下に詳述する。
FIG. 15 is a flowchart of a specific example of processing executed when an instruction to separate or approach the first phoneme and the second phoneme and an index value are received from the user in the editing processing SA2. In the editing process SA2 of the second embodiment, the process of SB2 in the editing process SA2 of the first embodiment is replaced with the processes of SD1 and SD2. When the
図16は、接続指示子Cおよび指標値Iの表示例の説明図である。利用者は、入力装置16を適宜操作することで、編集画面40に表示された複数の音素記号QBの時系列のうち相前後する各音素記号QBに対応する各音素の時間軸上における離間または近接の程度を規定する指標値Iを指示することが可能である。例えば、利用者は任意の1個の音素記号QBを選択したうえで、当該音素記号QBの音素(第1音素)と直後の音素(第2音素)との離間または近接の程度を示す指標値を指示し得る。指標値は、第1音素と第2音素との離間(近接)の程度を0から100までの範囲で相対的に規定する整数である。なお、指標値Iの数値と離間の程度との対応関係は任意に定められる。例えば、指標値Iが最大値(100)の場合(すなわち、離間の程度が最大である場合)は、離間指示子CSのみが指示された場合と同程度に第1音素と第2音素とを時間軸上で離間させる。他方、指標値Iが最小値(0)の場合(すなわち、離間の程度が最小である場合)は、近接指示子CCのみが指示された場合と同程度に第1音素と第2音素とを時間軸上で近接させる。図16では、“wan-”の音声符号X3に包含される音素[n](第1音素)と、“ted”の音声符号X3に包含される[t](第2音素)とを時間軸上で離間させる指示と、指標値I(80)とを指示受付部22が利用者から受付けた場合が想定されている。以上の指示が受付けられると、表示制御部24は、編集画面40上における第1音素[n]の音素記号QBの直後に、第1音素と第2音素との時間軸上における離間を表象する離間指示子CSを接続指示子Cとして表示させるとともに、指標値I(80)を離間指示子CSの直後に表示させる。また、情報管理部26は、離間指示子CSと指標値I(80)とに応じて、第1音素[n]の直後に第1音素[n]と第2音素[t]との時間軸上における離間と、離間の程度(指標値I)とを規定する音素間情報QCを追加する。以上の説明から理解される通り、第2実施形態では、複数の音素記号QBの時系列と、利用者からの指示に応じた接続指示子C(離間指示子CS)と、指標値Iとが編集画面40上に表示されるから、利用者は、合成楽曲の歌詞に包含される複数の音素と、相前後する音素間の間隔を確認しながら、第1音素[n]と第2音素[t]との連続性の度合を調整(離間)することが可能である。
FIG. 16 is an explanatory diagram of a display example of the connection indicator C and the index value I. By appropriately operating the
図17は、第2実施形態における音声合成処理SA4の具体例のフローチャートである。第2実施形態の音声合成処理SA4では、第1実施形態の音声合成処理SA4におけるSC4からSC9の処理が、SE1およびSE2の処理の処理に置き換えられる。離間を規定する音素間情報QCが設定されている場合(SC3:離間)、音声合成部28は、音声符号X3に対応する標準素片P0と離間型素片P1とを音声素片群Lから選択するとともに、指標値Iに応じて標準素片P0と離間型素片P1とを融合する(SE1)。
FIG. 17 is a flowchart of a specific example of the speech synthesis process SA4 in the second embodiment. In the speech synthesis process SA4 of the second embodiment, the processes from SC4 to SC9 in the speech synthesis process SA4 of the first embodiment are replaced with the processes of SE1 and SE2. When the inter-phoneme information QC that defines the separation is set (SC3: separation), the
図18は、第2実施形態における音声素片の融合の説明図である。音声素片群Lから[n-t]の標準素片P0と[n.t]の離間型素片P1とを選択すると、音声合成部28は、[n.t]の離間型素片P1と[n-t]の標準素片P0とを、指標値I(80)に応じた比率で融合する。具体的には、離間型素片P1が指標値(80)に応じた割合となるように、離間型素片P1と標準素片P0とを8:2の比率で融合して、[n・(80)t]の音声素片P3を生成する。以上の説明から理解されるように、指標値Iは、第1音素[n]と第2音素[t]の離間の程度を、離間型素片P1と標準素片P0との融合における離間型素片P1の割合(80/100)の形で規定する。図18に例示されるように、音声素片P3における第1音素[n]の終了から第2音素[t]の開始までの間隔D3は、離間型素片P1における音素間の間隔D1と標準素片P0における音素間の間隔Dとの間の範囲内で指標値Iに応じた時間長に設定される。
FIG. 18 is an explanatory diagram of speech unit fusion in the second embodiment. [N.t] standard segment P0 and [n. t], the
図17に戻り、近接を規定する音素間情報QCが設定されている場合(SC3:近接)、音声合成部28は、標準素片P0と近接型素片P2とを音声素片群Lから選択し、指標値Iに応じて標準素片P0と近接型素片P2とを融合する(SE2)。標準素片P0と近接型素片P2との合成については図示を省略したが、例えば、指標値I(80)が指示された場合には、図18の例と同様に近接型素片P2が指標値I(80)に応じた割合となるように、近接型素片P2と標準素片P0とを8:2の比率で融合することで[n-\(80)t]の音声素片Pを生成する。音声合成部28は、以上に説明した各処理(SC2,SE1,SE2)で選択または生成した音声素片Pを、合成情報Sが指定する音高X1および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する(SC10)。以降の処理については第1実施形態と同様であるので説明を省略する。
Returning to FIG. 17, when the interphoneme information QC defining proximity is set (SC3: proximity), the
以上に説明した通り、第2実施形態では利用者からの指示に応じて、複数の音素記号QBの時系列と、接続指示子C(離間指示子CSまたは近接指示子CC)と、離間または近接の程度を規定する指標値Iとを表示させる。したがって、利用者は、時系列に配置される複数の音素(音素記号QB)を編集画面40上で視覚的かつ直感的に確認しながら、第1音素[n]と、第2音素[t]との連続性の度合を指標値Iに応じて細かに調整(離間または接近)することが可能である。具体的には、利用者が自らの意図や嗜好に沿った個性的ないし特徴的な表情の音声を合成することが可能になるという効果や、前後の各音素が極端に近接または離間した聴感的に不自然ないし不明瞭な音声が合成される事態を回避することができるという効果は、第2実施形態において顕著である。
As described above, according to the second embodiment, in accordance with an instruction from the user, a time series of a plurality of phoneme symbols QB, a connection indicator C (a separation indicator CS or a proximity indicator CC), and a separation or proximity An index value I that defines the degree of is displayed. Accordingly, the user visually and intuitively confirms a plurality of phonemes (phoneme symbols QB) arranged in time series on the
<第3実施形態>
本発明の第3実施形態を以下に説明する。第2実施形態では、第1音素と第2音素との離間または近接の程度を規定する指標値を利用者が数値で指示する構成を例示した。第3実施形態では、複数の音素記号QBの時系列と操作指示子(スライダー)とを編集画面40に表示させ、操作指示子の操作量に応じて第1音素と第2音素との離間の程度を示す指標値を設定する。
<Third Embodiment>
A third embodiment of the present invention will be described below. In 2nd Embodiment, the structure which a user instruct | indicates the index value which prescribes | regulates the isolation | separation or proximity | contact degree of a 1st phoneme and a 2nd phoneme was illustrated. In the third embodiment, a time series of a plurality of phoneme symbols QB and an operation indicator (slider) are displayed on the
図19は、編集処理SA2のうち、操作指示子を表示させる指示が利用者から受付けられた場合に実行される処理の具体例のフローチャートである。第3実施形態の表示制御部24は、音声符号X3に包含される第1音素の音素記号QBを包含する音符図像42のうち発音期間の終点に対応する縁辺の線上に操作指示子44を表示させる(SF1)。指示受付部22は、利用者から操作指示子44を介して操作を受付けるまで待機し(SF2:NO)、利用者から操作指示子44を介して離間の程度を指示する操作を受付けた場合(SF2:YES)、情報管理部26は、操作指示子44の操作量Mに応じて第1音素[n]と第2音素[t]とが時間軸上において離間するように、操作量Mを規定する音素間情報QCを合成情報Sに追加する(SF3)。第3実施形態における表示制御部24および情報管理部26による処理の具体例を以下に詳述する。
FIG. 19 is a flowchart of a specific example of processing executed when an instruction to display an operation indicator is received from the user in the editing processing SA2. The
図20は、操作指示子44の表示例の説明図である。操作指示子44は、編集画面40における第1音素[n]を包含する音声符号X3に対応した音符図像42のうち、発音期間の終点に対応する縁辺の線上に配置されている。利用者は、当該縁辺に沿って(すなわち音高軸の方向に)、操作指示子44を当該音符図像42の上辺から下辺までの範囲内で移動させることが可能である。なお、操作指示子44の操作量Mと離間の程度との対応関係は任意に定められる。第3実施形態では、操作指示子44が初期的に配置される音符図像42の上辺上の地点Oを起点として、起点0から音高軸下方向への操作量Mが大きくなるほど、離間の程度が大きくなるように構成している。利用者は、操作指示子44を、起点Oから音高軸下方向にスライドさせる操作により、第1音素[n]と第2音素[t]との時間軸上における離間と離間の程度とを、一度の操作で指示することが可能である。図20では、“wan-”の音素記号QBに包含される音素[n](第1音素)と、“ted”の音素記号QBに包含される音素[t](第2音素)とを操作量M(40)に応じた程度だけ離間させる指示が付与された場合が想定されている。以上の指示が受付けられると、表示制御部24は、操作量Mに応じて、第1音素[n]を包含する音符図像42に、発音期間の終点に対応する縁辺上の一点と、上辺上の一点とを結ぶ直線とで規定される切欠きが形成されるように音符図像42の形状を変化させる。図20から理解される通り、操作量Mの増加に連動して切欠きが大きくなる。
FIG. 20 is an explanatory diagram of a display example of the
利用者からの指示が受付けられると、情報管理部26は、操作量Mに応じた指標値Iを音素間情報QCに追加する。第3実施形態の指標値Iは、第1音素と第2音素との離間の程度を0から100までの範囲で相対的に規定する整数である。例えば、指標値Iが最大値(100)の場合(すなわち、離間の程度が最大である場合)は、離間指示子CSのみが指示された場合と同程度に第1音素と第2音素とを時間軸上で離間させる。他方、指標値Iが最小値(0)の場合(すなわち、離間の程度が最小である場合)には第1音素と第2音素との時間軸上における位置関係の調整を行わない。他方、指標値Iが最小値を上回り最大値を下回るとき(指標値I:0<I<100)、当該指標値Iに応じて、第1音素と第2音素とを時間軸上で離間させる。
When the instruction from the user is accepted, the
図21は、第3実施形態の音声合成処理SA4のフローチャートである。第3実施形態の音声合成処理SA4では、第2実施形態の音声合成処理SA4におけるSC3,SE1,SE2の処理が、SG1からSG3の処理に置き換えられる。音声合成部28は、音素間情報QCが規定する指標値Iが最大値(100)および最小値(0)のいずれかに該当するか否かを判定する(SG1)。指標値Iが最大値(I=100)である場合は、音声合成部28によって離間型素片P1が選択される。他方、指標値Iが最小値(I=0)である場合には、音声合成部28によって標準素片P0が選択される。指標値Iが最大値および最小値のいずれにも該当しない場合[指標値I:0<I<100)](SG1:NO)、音声合成部28は、離間型素片P1と標準素片P0とを音声素片群Lから選択し、指標値Iに応じた比率で離間型素片P1と標準素片P0とを融合する。図20に例示されるように、操作量M(40)に応じて指標値I=40に設定された場合、音声合成部28は、離間型素片P1の割合が指標値Iに応じた割合となるように、離間型素片P1と標準素片P0とをP1:P0=4:6の割合で融合する(SG2)。音声合成部28は、SC2,SG2,SG3で選択または生成した音声素片を、合成情報Sが指定する音高X1および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する(SC10)。以降の処理については前述した第1実施形態と同様であるので説明を省略する。
FIG. 21 is a flowchart of the speech synthesis process SA4 of the third embodiment. In the speech synthesis process SA4 of the third embodiment, the processes of SC3, SE1, and SE2 in the speech synthesis process SA4 of the second embodiment are replaced with the processes of SG1 to SG3. The
以上に説明した通り、第3実施形態では、操作指示子44を移動させる操作により指標値Iを指示することが可能である。したがって、指標値Iを数値で指定する第2実施形態と比較して、利用者は直感的かつ容易に指標値Iを指示できるという利点がある。
As described above, in the third embodiment, it is possible to instruct the index value I by an operation of moving the
なお、第3実施形態では、編集画面40における第1音素[n]を包含する音声符号X3に対応した音符図像42のうち、発音期間の終点に対応する縁辺の線上に操作指示子44を配置し、当該音符図像42の上辺から下辺までの範囲内で移動させる場合を例示したが、図22の点線で囲む領域に例示されるように、相前後する各音符図像42の境界の近傍を拡大表示して、利用者が操作指示子44を移動させる操作を補助することも可能である。
In the third embodiment, the
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
<Modification>
Each of the aforementioned embodiments can be variously modified. Specific modifications are exemplified below. Two or more modes arbitrarily selected from the following examples can be appropriately combined.
(1)第3実施形態では、利用者による操作指示子44の操作量Mに応じて第1音素[n]と、第2音素[t]との離間の程度を指示する構成を例示した。以上の構成に、操作量Mを規定する目盛を付加した構成も採用され得る。具体的には、図23に例示されるように、操作指示子44の近傍に目盛46を表示させる態様としてもよい。上述した態様では、利用者が離間の程度を視認しやすいという利点がある。
(1) In the third embodiment, the configuration in which the degree of separation between the first phoneme [n] and the second phoneme [t] is instructed according to the operation amount M of the
(2)第3実施形態では、操作指示子44の可動範囲を第1音素を包含する音符図像42の上辺から下辺までの範囲内とし、操作量Mに応じた指標値I(離間の程度)を0から100の範囲の整数で規定する構成を例示したが、操作指示子44の可動範囲は、第1音素を包含する音符図像42の領域外(音符図像42の下辺よりも音高軸方向において下方や、音符図像42の上辺よりも音高軸方向において上方)であってもよい。
(2) In the third embodiment, the movable range of the
例えば、図24に例示される通り、操作指示子44が、第1音素を包含する音符図像42の下辺よりも音高軸方向において下方にわたって操作された場合に、指標値Iを、100を上回る数値(I>100)に設定してもよい。指標値Iが100以上であるときに、第1音素と第2音素との離間の程度が極めて高くなるように(すなわち、前後する音素間の間隔が離間型素片P1における第1音素と第2音素との間隔よりも離間するように)第1音素と第2音素との位置関係が調整される。図24は、操作指示子44が第1音素[n]を包含する音符図像42の下辺よりも下方にわたって操作され、操作量Mに応じた指標値Iは150に設定された場合を想定している。以上のように音素間の離間の度合が充分に大きい場合、音声合成部28は、標準素片P0における第1音素[n]と第2音素[t]との間に無音の音素“Sil”を挿入した[n Sil t]の音声素片Pを生成し、[n Sil t]の音声素片Pと、[n-t]の標準素片P0とを合成して指標値I(150)に応じた音声素片を生成する。
For example, as illustrated in FIG. 24, when the
同様に、図25に例示される通り、操作指示子44が、第1音素を包含する音符図像42の上辺よりも音高軸方向において上方にわたって操作された場合に、操作量Mに応じて指標値Iを負数(I<0)と定めてもよい。指標値Iが負数であるときに、第1音素と第2音素との近接の程度が極めて高くなるように第1音素と第2音素との位置関係が調整される。図25では、各音声単位“got”,“up”のうち、“gh Q t”の各音素記号QBに包含される音素[t]を第1音素とし、“V p”の音素記号QBに包含される音素[V]を第2音素としたときに、操作指示子44が第1音素[t]を包含する音符図像42の上辺よりも音高軸方向において上方にわたって操作され、操作量Mに応じた指標値Iが-100に設定された場合を想定している。以上のように音素間の近接の度合が充分に大きい場合、音声合成部28は、第1音素[t]と第2音素[V]との時間軸上における間隔が、近接型素片P2における第1音素と第2音素との間隔よりも接近するように、第1音素[t]と第2音素[V]との時間軸上における間隔を近接させる。ここで、第1音素[t]は破裂音であるから、音声合成部28は、第1音素[t]と第2音素[V]との時間軸上における間隔を近接させるように、[t-V]の音声素片Pと、[Q-V]の音声素片Pとの中間的な音声素片を生成する。以上の構成によれば、“go up(gh Q V p)”というように音素の脱落(同化)が発生する口語的な発音を実現することが可能である。なお、以上の構成に、指標値I(-100)に特定の音声素片を割当てる構成や、所定の合成比率を割り当てる構成を付加した構成も採用され得る。
Similarly, as illustrated in FIG. 25, when the
(3)図26に例示される通り、操作指示子44の操作を、第1音素を包含する音符図像42の領域外においても許容する構成にあっては、操作指示子44が第1音素の音符図像42の上辺よりも音高軸方向において上方に操作された場合に、第1音素[t]を包含する音符図像42と第2音素[V]を包含する“V p”の音符図像42との境界線を音高軸に対して傾斜させる構成も採用される。図26は、操作指示子44が第1音素[t]を包含する音符図像42の上辺よりも音高軸方向において上方に操作され、指標値Iが負数(I<0)に定められた場合を想定している。以上の構成では、指標値Iの正負に応じて各音符図像42の境界線の角度が変更される(指標値Iが負数であることが強調表示される)から、指標値Iの正負を利用者が直観的に把握できるという利点がある。
(3) As illustrated in FIG. 26, when the
(4)第3実施形態では、操作指示子44の音高軸方向における操作量Mに応じて第1音素と第2音素との離間の程度を指示する構成を例示した。このほかにも、操作指示子44の時間軸方向における操作量Mに応じて合成音の特性(音量,音色,抑揚等)を指示する構成も採用され得る。例えば、図27および図28に例示されるように、音高軸方向における操作指示子44の操作量M1に応じて第1音素と第2音素との位置関係を調整し、かつ、時間軸方向における操作指示子44の操作量M2に応じて各音素の特性を制御することが可能である。利用者は、時間軸上に時系列に配置される複数の音素(音声符号X3)を視覚的かつ直感的に確認しながら、第1音素と第2音素との位置関係や、合成音声の特性を一度の操作により指示することが可能である。
(4) In the third embodiment, the configuration in which the degree of separation between the first phoneme and the second phoneme is instructed according to the operation amount M in the pitch axis direction of the
図29に例示されるように、編集画面40で指定した合成音声の特性を示す制御変数の時間変化を、制御変数指定画面70に対する操作で利用者が任意に指定できる構成(以下「対比例」という)が従来から提案されている。対比例では、任意の音符図像42を移動させて各音符の発音期間X2(発音時刻や継続長)を変更した場合でも制御変数の時間変化自体は変化しないから、移動後の音符について変更前と同様の特性を付与するには、発音期間X2の変更に整合するように制御変数の時間変化を利用者が修正する必要があった。これに対し、操作指示子44の時間軸方向における操作量M2に応じて合成音の特性(音量,音色,抑揚等)を指示する前述の構成では、各音符図像42毎に操作指示子44を操作することで音符毎に特性が制御され、音符図像42が時間軸方向や音高軸方向に移動された場合でも当該音符の特性を維持することが可能である。すなわち、利用者は各音符の特性を再調整する必要がない。したがって、利用者の操作が簡略化されるという利点がある。なお、第1音素および第2音素のいずれか一方を包含する音符図像42が時間軸方向や音高軸方向に移動された場合でも、音符毎の特性を維持することが可能である。
As illustrated in FIG. 29, a configuration in which the user can arbitrarily specify the time change of the control variable indicating the characteristics of the synthesized speech specified on the
(5)図30の例示のように、相前後する音符を僅かに離間させる一方でフレーズの全体としては滑らかに発音する音楽の表現方法(メゾスタッカート)が知られている。各音符の発音期間X2を音符図像42の時間軸方向の長さの調整のみで指定する従来の構成のもとでメゾスタッカートの歌唱音声を再現するには、各音符図像が適度な間隔で配列するように各音符図像42の時間軸上の長さを利用者が個々に調整する必要がある。前述の各形態によれば、音符図像42の時間軸上の長さとは独立に各音素の位置関係(離間/近接)を指示できるから、音符図像42については相互間の間隔を考慮せずに楽譜通りに指定したうえで、各音素の間隔を接続指示子Cの付与や操作指示子44の操作で調整することで、図30に例示したメゾスタッカートのような微妙な表現を再現することが可能である。
(5) As illustrated in FIG. 30, a music expression method (meso staccato) is known in which successive notes are slightly separated while the entire phrase is smoothly pronounced. In order to reproduce the meso-staccato singing sound under the conventional configuration in which the sound generation period X2 of each note is specified only by adjusting the length of the
(6)前述の各形態では、編集画面40に表示される音符図像42の内部に、発音文字QAおよび音素記号QBを配置し、第1音素[n]の音素記号QBの直後に、接続指示子C(離間指示子CSまたは近接指示子CC)を表示させる構成を例示したが、音素記号QBの表示を省略した構成も採用され得る。音素記号QBの表示が省略される構成では、例えば第1音素に相当する発音文字QAの直後に、利用者の指示に応じた接続指示子Cや指標値Iが表示される。
(6) In each of the above-described forms, the phonetic symbol QA and the phoneme symbol QB are arranged inside the
(7)前述の各形態では、指標値Iは、第1音素と第2音素との離間(近接)の程度を0から100までの範囲で相対的に規定する整数とした構成を例示したが、上述した構成と比較して指標値Iの範囲が狭い構成(例えば0.0〜1.0)や、上述した構成と比較して指標値Iの範囲が広い構成(例えば0〜300)も採用され得る。これらの構成以外にも、指標値Iの範囲を0を基準値とした相対値(-2.0〜2.0)で規定する構成も採用され得る。 (7) In each of the above-described embodiments, the index value I is exemplified by a configuration in which the degree of separation (proximity) between the first phoneme and the second phoneme is an integer that relatively defines the range from 0 to 100. A configuration in which the range of the index value I is narrower than the above-described configuration (for example, 0.0 to 1.0) or a configuration in which the range of the index value I is wider than the above-described configuration (for example, 0 to 300) may be employed. In addition to these configurations, a configuration in which the range of the index value I is defined by a relative value (−2.0 to 2.0) with 0 as a reference value may be employed.
(8)前述の各形態では、音声素片Pを利用した素片接続型の音声合成処理SA4を例示したが、編集処理SA2で生成された合成情報Sを適用した音声合成には公知の技術が任意に採用される。例えば、隠れマルコフモデル(HMM: Hidden Markov Model)等の確率モデルを利用して、合成情報Sで指定された合成楽曲の歌唱音声を合成することも可能である。例えば、音声合成部28は、合成情報Sの音高X1および発音期間X2に応じて音高の時間遷移(ピッチカーブ)を算定するとともに当該時間遷移で音高が変化する基礎信号(例えば声帯の発声音を表す正弦波信号)を生成し、編集処理SA2の実行後の合成情報Sが指定する音声符号X3に応じたフィルタ処理(例えば口腔内での共鳴を近似するフィルタ処理)を基礎信号に対して実行することで音声信号Vを生成する。
(8) In each of the above-described embodiments, the unit connection type speech synthesis process SA4 using the speech unit P is exemplified. However, a known technique is used for speech synthesis using the synthesis information S generated by the editing process SA2. Is arbitrarily adopted. For example, it is also possible to synthesize the singing voice of the synthesized music specified by the synthesis information S using a probabilistic model such as a Hidden Markov Model (HMM). For example, the
(9)前述の各形態では、2個の音素を連結した音声素片P(ダイフォン)を例示したが、3個以上の音素を連結した音声素片Pを利用することも可能である。3個以上の音素を連結した音声素片Pでは、1個の音声素片Pの先頭の音素が前述の各形態の音素pAに相当し、1個の音声素片Pの末尾の音素が前述の各形態の音素pBに相当する。 (9) In each of the above-described embodiments, the speech unit P (diphone) in which two phonemes are connected is illustrated, but a speech unit P in which three or more phonemes are connected may be used. In a speech unit P in which three or more phonemes are connected, the first phoneme of one speech unit P corresponds to the phoneme pA of each of the above-described forms, and the last phoneme of one speech unit P is described above. Correspond to the phoneme pB of each form.
(10)前述の各形態では、音声素片群Lと合成情報Sとを記憶する記憶装置12を音声合成装置100に搭載したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が音声素片群Lや合成情報Sを記憶する構成も採用される。音声合成装置100は、例えば通信網を介して音声素片群Lまたは合成情報Sを取得して編集処理SA2や音声合成処理SA4を実行する。以上の説明から理解される通り、音声素片群Lや合成情報Sを記憶する要素は音声合成装置100の必須の要素ではない。
(10) In each of the embodiments described above, the
(11)前述の各形態では、合成楽曲の歌唱音声の音声信号Vの生成を例示したが、歌唱音声以外の音声(例えば会話音等)の音声信号Vの生成にも本発明を適用することが可能である。したがって、歌唱音声の合成に好適な音高X1は合成情報Sから省略され得る。以上の説明から理解される通り、以上の各態様に例示した合成情報Sは、合成対象となる音声の発音内容を指定する情報として包括的に表現される。なお、音声変化の有無を音素毎に個別に制御する必要性は、歌唱音声を合成する場面で特に顕在化するから、本発明は、歌唱音声の合成に格別に好適である。 (11) In each of the above-described embodiments, the generation of the voice signal V of the singing voice of the synthesized music has been exemplified. However, the present invention is also applied to the generation of the voice signal V of the voice other than the singing voice (for example, conversation sound). Is possible. Therefore, the pitch X1 suitable for singing voice synthesis can be omitted from the synthesis information S. As understood from the above description, the synthesis information S exemplified in each of the above aspects is comprehensively expressed as information specifying the pronunciation content of the speech to be synthesized. In addition, since the necessity of controlling the presence or absence of a sound change for every phoneme becomes especially obvious in the scene of synthesizing a singing voice, the present invention is particularly suitable for synthesizing a singing voice.
(12)前述の各形態では、英語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、日本語、スペイン語、中国語、韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。 (12) In each of the above-described embodiments, the synthesis of English speech has been exemplified, but the speech language to be synthesized is arbitrary. For example, the present invention can be applied to the case of generating speech in an arbitrary language such as Japanese, Spanish, Chinese, or Korean.
100……音声合成装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、18……放音装置、22……指示受付部、24……表示制御部、26……情報管理部、28……音声合成部、40……編集画面、42……音符図像、44……操作指示子。
DESCRIPTION OF
Claims (5)
利用者からの指示を受付ける指示受付手段と、
前記合成情報が指定する発音内容に対応する複数の音素の音素記号の時系列を表示装置に表示させる手段であって、前記指示受付手段が利用者から受付けた指示に応じて、前記複数の音素のうち第1音素の音素記号と当該第1音素の直後の第2音素の音素記号との間に、前記第1音素と前記第2音素との時間軸上における位置関係を示す接続指示子を表示させる表示制御手段と、
前記第1音素と前記第2音素とが時間軸上で前記接続指示子に応じた位置関係となるように前記合成情報を編集する情報管理手段と
を具備する合成情報管理装置。 A synthesis information management device for managing synthesis information for designating pronunciation of synthesized speech,
An instruction receiving means for receiving an instruction from the user;
A means for displaying a time series of phoneme symbols of a plurality of phonemes corresponding to the pronunciation content specified by the synthesis information on a display device, the plurality of phonemes in accordance with an instruction received from a user by the instruction receiving means; A connection indicator indicating a positional relationship on the time axis between the first phoneme and the second phoneme between the phoneme symbol of the first phoneme and the phoneme symbol of the second phoneme immediately after the first phoneme. Display control means for displaying;
A composite information management device comprising: information management means for editing the composite information so that the first phoneme and the second phoneme have a positional relationship corresponding to the connection indicator on a time axis.
前記情報管理手段は、前記近接指示子に応じて前記第1音素と前記第2音素とが時間軸上で接近するように前記合成情報を編集する
請求項1の合成情報管理装置。 The display control means includes a proximity indicator indicating proximity of the first phoneme and the second phoneme, a phoneme symbol of the first phoneme and the first phoneme according to an instruction received from a user by the instruction receiving means. Displayed as the connection indicator between two phoneme symbols,
The composite information management apparatus according to claim 1, wherein the information management unit edits the composite information so that the first phoneme and the second phoneme approach on a time axis according to the proximity indicator.
前記情報管理手段は、前記離間指示子に応じて前記第1音素と前記第2音素とが時間軸上で離間するように前記合成情報を編集する
請求項1の合成情報管理装置。 The display control means includes a separation indicator indicating separation of the first phoneme and the second phoneme, a phoneme symbol of the first phoneme, and the first phoneme according to an instruction received from a user by the instruction reception means. Displayed as the connection indicator between two phoneme symbols,
The composite information management apparatus according to claim 1, wherein the information management unit edits the composite information so that the first phoneme and the second phoneme are separated on a time axis according to the separation indicator.
前記情報管理手段は、前記指標値に応じて前記第1音素と前記第2音素とが時間軸上で接近または離間するように前記合成情報を更新する
請求項2または請求項3の合成情報管理装置。 The display control means, between the phoneme symbol of the first phoneme among the plurality of phonemes and the phoneme symbol of the second phoneme immediately after the first phoneme, according to the instruction received from the user by the instruction receiving means To display an index value indicating the degree of proximity or separation between the first phoneme and the second phoneme on the time axis,
The composite information management according to claim 2 or 3, wherein the information management means updates the composite information so that the first phoneme and the second phoneme approach or separate on the time axis according to the index value. apparatus.
前記合成情報が指定する発音内容に対応する複数の音素の音素記号の時系列を表示装置に表示させる手段であって、前記複数の音素のうち第1音素の音素記号と当該第1音素の直後の第2音素の音素記号との間に、前記第1音素と前記第2音素との時間軸上における離間の程度を指定する操作指示子を表示させる表示制御手段と、
前記操作指示子の操作を利用者から受付ける指示受付手段と、
前記第1音素と前記第2音素との時間軸上における位置関係が、前記操作指示子の操作量に応じて離間するように前記合成情報を更新する情報管理手段と
を具備する合成情報管理装置。
A synthesis information management device for managing synthesis information for designating pronunciation of synthesized speech,
A means for displaying a time series of phoneme symbols of a plurality of phonemes corresponding to the pronunciation content specified by the synthesis information on a display device, wherein the phoneme symbol of the first phoneme and the first phoneme immediately after the plurality of phonemes Display control means for displaying an operation indicator for designating the degree of separation of the first phoneme and the second phoneme on the time axis between the phoneme symbols of the second phoneme;
An instruction receiving means for receiving an operation of the operation indicator from a user;
A composite information management apparatus comprising: information management means for updating the composite information so that a positional relationship between the first phoneme and the second phoneme on a time axis is separated according to an operation amount of the operation indicator. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014125138A JP6439288B2 (en) | 2014-06-18 | 2014-06-18 | Composite information management apparatus and composite information management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014125138A JP6439288B2 (en) | 2014-06-18 | 2014-06-18 | Composite information management apparatus and composite information management method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016004189A true JP2016004189A (en) | 2016-01-12 |
JP6439288B2 JP6439288B2 (en) | 2018-12-19 |
Family
ID=55223495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014125138A Expired - Fee Related JP6439288B2 (en) | 2014-06-18 | 2014-06-18 | Composite information management apparatus and composite information management method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6439288B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335161A (en) * | 1995-06-07 | 1996-12-17 | Toshiba Corp | Authoring method and sound processor |
JP2006313274A (en) * | 2005-05-09 | 2006-11-16 | Nhk Computer Service:Kk | Voice production device for program and voice production program for program |
JP2009271209A (en) * | 2008-05-01 | 2009-11-19 | Seiko Epson Corp | Voice message creation system, program, semiconductor integrated circuit device and method for manufacturing the same |
JP2011128186A (en) * | 2009-12-15 | 2011-06-30 | Yamaha Corp | Voice synthesizer |
JP2013008385A (en) * | 2006-09-28 | 2013-01-10 | Fisher Rosemount Systems Inc | Prevention of abnormal state of heat exchanger |
-
2014
- 2014-06-18 JP JP2014125138A patent/JP6439288B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335161A (en) * | 1995-06-07 | 1996-12-17 | Toshiba Corp | Authoring method and sound processor |
JP2006313274A (en) * | 2005-05-09 | 2006-11-16 | Nhk Computer Service:Kk | Voice production device for program and voice production program for program |
JP2013008385A (en) * | 2006-09-28 | 2013-01-10 | Fisher Rosemount Systems Inc | Prevention of abnormal state of heat exchanger |
JP2009271209A (en) * | 2008-05-01 | 2009-11-19 | Seiko Epson Corp | Voice message creation system, program, semiconductor integrated circuit device and method for manufacturing the same |
JP2011128186A (en) * | 2009-12-15 | 2011-06-30 | Yamaha Corp | Voice synthesizer |
Also Published As
Publication number | Publication date |
---|---|
JP6439288B2 (en) | 2018-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8975500B2 (en) | Music data display control apparatus and method | |
JP5895740B2 (en) | Apparatus and program for performing singing synthesis | |
JP6665446B2 (en) | Information processing apparatus, program, and speech synthesis method | |
US9355634B2 (en) | Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon | |
JP6507579B2 (en) | Speech synthesis method | |
JP2013137520A (en) | Music data editing device | |
JP2017041213A (en) | Synthetic sound editing device | |
CN111418006A (en) | Speech synthesis method, speech synthesis device, and program | |
JP5423375B2 (en) | Speech synthesizer | |
JP6136202B2 (en) | Music data editing apparatus and music data editing method | |
US11437016B2 (en) | Information processing method, information processing device, and program | |
JP2009157220A (en) | Voice editing composite system, voice editing composite program, and voice editing composite method | |
JP6439288B2 (en) | Composite information management apparatus and composite information management method | |
JP5106437B2 (en) | Karaoke apparatus, control method therefor, and control program therefor | |
JP5935831B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP6372066B2 (en) | Synthesis information management apparatus and speech synthesis apparatus | |
JP5552797B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP6341032B2 (en) | Apparatus and program for processing musical tone information | |
US12014723B2 (en) | Information processing method, information processing device, and program | |
JP5641266B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP6435791B2 (en) | Display control apparatus and display control method | |
JP2015079130A (en) | Musical sound information generating device, and musical sound information generating method | |
JP2015079063A (en) | Synthetic information management device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181105 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6439288 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |